İçeriğe atla

Standart sapma

Vikipedi, özgür ansiklopedi

Standart sapma, Olasılık kuramı ve istatistik bilim dallarında, bir anakütle, bir örneklem, bir olasılık dağılımı veya bir rassal değişken, veri değerlerinin yayılımının özetlenmesi için kullanılan bir ölçüdür. Matematik notasyonunda genel olarak, bir anakütle veya bir rassal değişken veya bir olasılık dağılımı için standart sapma σ (eski Yunan harfi olan küçük sigma) ile ifade edilir; örneklem verileri için standart sapma için ise s veya s' (anakütle σ değeri için yansız kestirim kullanılır.)

Standart sapma varyansın kareköküdür. Daha matematiksel bir ifade ile standart sapma veri değerlerinin aritmetik ortalamadan farklarının karelerinin toplamının veri sayısı -1'e bölümünün kareköküdür, yani verilerin ortalamadan sapmalarının kareler ortalamasının karekökü olarak tanımlanır. Standart sapma kavramının yayılma ölçüsü olarak kullanılmasını anlamak için ölçüm birimine bakmak gerekir. Diğer yayılma ölçüsü olan varyans verilerin ortalamadan farklarının karelerinin ortalaması olarak tanımlanır. Böylece varyans ölçüsü için veri birimlerinin karesi alınması gerekir ve varyansın birimi veri biriminin karesidir. Bu durum pratikte istenmeyen sonuçlar yaratabilir (Örneğin veriler birimi kilogram ise varyans birimi kilogram kare olur). Bundan kaçınmak için standart sapma için varyansın karekökü alınarak standart sapma birim veri birimi olması sağlanır ve verinin yayılımı böylece veri birimleri ile ölçülür.

Standart sapma genel olarak niceliksel ölçekli sayılar için en çok kullanılan verilerin ortalamaya göre yayılmasını gösteren bir istatistiksel ölçüdür. Eğer birçok veri ortalamaya yakın ise, standart sapma değeri küçüktür; eğer birçok veri ortalamadan uzakta yayılmışlarsa standart sapma değeri büyük olur. Eğer bütün veri değerleri tıpatıp ayni ise standart sapma değeri sıfırdır

Mavi olarak gösterilen bir rassal değişken dağılımı için standart sapma değeri σ rassal değişken değerlerinin ortalama μ değeri etrafında yayılmasını gösterir.

Tanımlama ve hesaplama

[değiştir | kaynağı değiştir]

Rassal değişken için standart sapma

[değiştir | kaynağı değiştir]

Bir rassal değişken olan X için standart sapma şöyle tanımlanır:

Burada E(X) X için beklenen değer yani ortalama ve Var(X) X için varyans değeridir.

Her rassal değişken dağılım tipi için bir standart değer var olması gerekli değildir. Çünkü bazı dağılımlar için beklenen değer bulunamaz. Örneğin, Cauchy dağılımı gösteren bir rassal değişken X için bir standart sapma yoktur; çünkü E(X) tanımlanamaz.

Eğer bir rassal değişken X (reel sayılar olan) değerlerini eşit olasılıkla alırsa, o rassal değişken için standart sapma şöyle hesaplanır:

Önce, X için ortalama , şu toplam olarak tanımlanır:

Burada N alınan örneklem büyüklüğü sayısıdır.

Sonra, standart sapma ifadesi şöyle basitleştirilir:

Yani, bir aralıklı tekdüze dağılım gösteren rassal değişken X için standart sapma şöyle hesaplanır:

  1. Her değeri için xi le ortalama değer olan arasında olan farklar olarak bulunur.
  2. Bu farkların kareleri hesaplanır.
  3. Bu farkların karelerinin ortalaması bulunur. Bu değer varyans, yani σ2, olur.
  4. Bu varyans değerinin kare kökü alınır.

Ancak hesapları elle veya el hesap makinesi ile yapmak için genellikle daha uygun bir formül kullanılır:

Bu iki formülün birbire eşitliği biraz cebir kullanılarak gösterilebilir:

Anakütle standart sapma değerinin örneklem standart sapma kullanılarak kestirimi

[değiştir | kaynağı değiştir]

Pratik hayatta, her bir anakütle elemanın ölçülmesini gerektiren bir anakütle standart sapma değeri bulmak, bazı çok nadir haller dışında (örnegin standart hale getirilmiş mekanik test etme), hiç realistik değildir. Nerede ise her halde, anakütleden bir rastgele örneklem alınır ve bu örneklemden anakütle standart sapması için bir kestirim değer bulunur. Bu kestirim, çok kere örneklem standart sapmasını anakütle standard sapmasının aynı olan bir formülü kullanmak suretiyle yapılır:

Burada örneklem değerleri ve örneklem ortalamasıdır. Bölen değer olan n − 1

.

vektörü içinde bulunan serbestik derecesi olur.

Bu belki bir bakıma uygundur; çünkü eğer bir anakütle varyansının kavramsal olarak var olduğu biliniyorsa ve örneklem için anakütleden her eleman çekiminden sonra bu eleman geri konulursa, bilinmektedir ki örneklem varyansı (yani s2) anakütle varyansı (yani σ2) için bir yansız kestirim olur. Ancak bu standart sapmalar için doğru değildir ; yani yukaridaki gibi bulunan örneklem standart sapması (s) anakütle standart sapması (σ) için yansız kestirim değeri değildir ve s ile anakütle standart sapması biraz daha küçükçe tahmin edilir. Eğer rassal değişken normal dağılım gösteriyorsa, bu yansız olan kestirim pratikte çok kolay olmayan bir dönüşüm ile elde edilebilmektedir. Ayrıca zaten bir kestirim için yansız olmak karakteri her zaman çok istenir bir özellik değildir.

Çok kullanılan diğer bir kestrim ise benzer bir ifade ile şöyle verilir:

olur. Eğer anakütle normal dağılım gösteriyorsa, bu şekildeki kestirim yansız kestirimden her zaman biraz daha küçük ortalama hata karesi gösterir ve bu nedenle normal için maksimum olabilirlik kestirimi olur.

Bir sürekli rassal değişken için standart sapma

[değiştir | kaynağı değiştir]

Sürekli olasılık dağılımları için genellikle standart sapma değerinin dağılıma özel olan parametreleri kullanılarak hesaplanması için formül vardır. Genel olarak ise, p(x) olasılık yoğunluk fonksiyonu olan bir sürekli rassal değişken olan X için standart sapma şöyle verilir:

Burada

Burada önce çok ufak bir anakütle veri serisi için standart sapma hesaplaması gösterilmektedir. Bu seri bir inşaat firmasının yabancılara yaptığı aylık daire satış sayılarını göstermektedir ve veri serisi şudur: { 5, 2, 11, 12, 3, 6 }.

1. Önce bir aritmetik ortalama şöyle hesaplanır:

.

Burada i her veriye verilen sıra numarasıdır yani i=1,2,3,...,6. Yani

Bu halde N = 6 olup veri büyüklüğü veya anakütle hacmidir.

       N yerine 6
   Bu aritmetik ortalamadır.

2. Standart sapma değerini bulma:

       N yerine 6
       yerine 6.5
  Bu standart sapma değeri olur.

Bu sonucun dikkati çekecek bir yanı verilerin tam sayı olmasına rağmen standart sapmanın (ve ayni şekilde aritmetik ortalamanın) kesirli olmasıdır.

Bu hesaplamayı daha kolaylaştırmak için şu formül kullanılabilir:

1. Önce bir aritmetik ortalama hesaplanır:

.
   Bu aritmetik ortalamadır.

2. Sonra toplam kareler bulunur:

= 52 + 22 + 112 + 122 + 32 + 6 2
= 25+4+121+144+9+36
= 339

3. Bunlar formüle konulur:

Yani = 339             formüle girer:

  Bu standart sapma değeridir.

Açıklama ve uygulama

[değiştir | kaynağı değiştir]

Belli bir seri sayı için standart sapma değerini bilmek ve bu kavramı anlamak demek bir ortalama etrafında bu serinin ne kadar yayılım gösterdiğini anlamaktır. Standart sapmanın büyük olması veri noktalarının ortalamadan daha uzak yayıldıklarını; küçük bir standart sapma ise ortalama etrafında daha çok yakın gruplaştıklarını gösterir.

Standart sapma belirsizliğin bir ölçüsü olarak hizmet edebilir. Fiziksel bilimlerde, tekrar tekrar yapılan deneyler ve deneylerde alınan ölçüler ise gösterilen standart sapma olgusu bu deneyin ölçülmesindeki kesinlik ve doğruluğunu gösterir. Ölçümlerin teoriye dayanan bir tahmin ile karşılaştırıp birbirine uygunluk gösterip göstermediğine karar vermede ölçümlerin standart sapması önemli rol oynar. Eğer ölçümlerin standart sapması teorik tahminden çok daha uzaksa, sınanan teorinin değiştirilmesi gerekir. İşte bu uzaklık standart sapmalarla belirlenir.

Finansmanda, standart sapma verilmiş bir menkul (hisse seneti, tahvil, emlak vb.) için rizikonun veya bir menkuller portföyü için rizikoları temsil eder. Bir yatırım portföyünün etkin olarak idare edilmesini tayin eden en önemli faktörlerden birisi rizikodur. Çünkü her tek bir menkulün veya bir menkuller portföyünün getirisindeki mümkün yayılımını riziko tanımlar ve rizikonun standart sapma ile tanımlanması ise yatırım kararları için bir matematiksel temel sağlar. En geniş kavramla, yatırım rizikosu arttıkça menkul veya menkuller portföyünün beklenen getirisi da artış gösterir. Buna neden yatırımcıların menkul getirileri için riziko primlerini artırmaları olarak açıklanır. Diğer bir deyişle, eğer bir yatırım daha yüksek riziko seviyesi taşıyorsa, yatırımcılar o yatırımından daha yüksek bir getiri beklemeleri gereklidir.

Uzunca bir zaman içinde herhangi bir menkul için yıllık getirilerinin ortalamasını bulmakla o menkul için beklenen getiri değerini vermektedir. Her yıl için elde edilen getiriden bu beklenen getiri farkı bulunursa buna finansmancılar ve muhasebeciler tarafından varyans adı verilir (Dikkat edilirse bu istatistiksel varyans kavramından farklıdır). Her bir yıl için varyansın karesini bulmak ve bu varyans karelerinin ortalamasının kare kökü o menkulün standart sapmasını yani rizikosunu gösterir. İşte bu rizikolar yani varyansların karelerinin toplamının ortalamasının kare kökü, standart sapmadır ve rizikoyu ölçer. Menkullerin karşılaştırılımı için temel çalışma işte bu ölçü ile yapılır.

Standart sapmalar için pratik uygulamalar daha değişik alanlarda da verilebilir; fakat burada bu ufak sayıda uygulamalar bile standart sapmanın uygun bir şekilde önemini ortaya çıkartmaktadır.

Normal dağılım gösteren veriler için kurallar

[değiştir | kaynağı değiştir]
Koyu mavi ortalamadan bir standart sapmadan daha düşük değerleri gösterir. Normal dağılım için bu %68,27 olur; (orta ile koyu mavi) ortalamadan iki standart sapma için %95,45; (açık, orta ve koyu mavi için) ortalamadan üç standart sapma %99,73 olur.

Pratikte, çok zaman verilerin yaklaşık olarak bir normal dağılım gösteren anakütleden geldiği varsayılır. Bu varsayıma neden olarak merkezsel limit teoreminin geçerliliği iddiası olur. Merkezsel limit teoremine göre birçok birbirinden bağımsız ve hepsi aynı dağılım gösteren rassal değişkenlerin toplamı limitte bir normal dağılıma göre eğilim gösterirler. Eğer bu varsayım geçerli ise, değerler yaklaşık %68,27 olasılıkla ortalamadan eksi ve artı bir standart sapma noktalarının arasında bulunur; ortalamadan artı ve eksi 2 standart sapma noktaları arasında %95,45 olasılıkla ve ortalamadan artı ve eksi 3 standart sapma noktaları arasında %99,73 olasılıkla bulunur. Bu 68-95-99.7 kuralı veya bir emprik kural olarak bilinir.

Güvenlik aralıkları şöyle gösterilebilir:

σ %68,26894921371
%95,44997361036
%99,73002039367
%99,99366575163
%99,99994266969
%99,99999980268
%99,99999999974

Normal dağılımlar için ortalamadan bir standart sapma uzaklıktaki eğri üzerindeki noktalar bir enfeksiyon noktası da olurlar.

Çebişev'in eşitsizliği

[değiştir | kaynağı değiştir]

Yakınlık standart sapma birimlerinde ifade edilirse, herhangi bir veri serisi için, Çebişev'in eşitsizliği ile ispat edilmiştir ki veri değerlerin çok büyük çoğunluğu ortalama değere yakındır. Çebişev'in eşitsizliği sadece normal dağılım gösteren seriler için değil, bütün rastgele dağılım gösteren veri serileri için geçerlidir. Buna göre, şu zayıf sınırlar ve bu sınırlar içinde bulunan veri yüzdesi şöyle verilebilir:

Ortalamadan √2 standart sapma uzaklıkları arasında değerlerin en aşağı %50si bulunur.
Ortalamadan 2 standart sapma uzaklıkları arasında değerlerin en aşağı %75i bulunur.
Ortalamadan 3 standart sapma uzaklıkları arasında değerlerin en aşağı %89u bulunur.
Ortalamadan 4 standart sapma uzaklıkları arasında değerlerin en aşağı %94ü bulunur.
Ortalamadan 5 standart sapma uzaklıkları arasında değerlerin en aşağı %96sı bulunur.
Ortalamadan 6 standart sapma uzaklıkları arasında değerlerin en aşağı %97si bulunur.
Ortalamadan 7 standart sapma uzaklıkları arasında değerlerin en aşağı %98i bulunur.

Genel olarak:

ortalamadan k standart sapma uzaklıkları arasında değerlerin en aşağı %(1 − 1/k2) × 100 si bulunur.

Standart sapma ve ortalama arasındaki ilişki

[değiştir | kaynağı değiştir]

Çok kere bir veri serisinin özetlenmesinde ortalama ve standart sapma birlikte bildirilmektedir. Bir anlamda, eğer ortalama verilerinin merkezi olarak kullanılan ölçü ise, standart sapma veri yayılımının doğal ölçüsüdür. Buna neden ortalama noktasından standart sapmanın, verinin herhangi bir noktasından standarize edilmiş sapmadan daha küçük olduğudur. Bu matematiksel ifade ile şöyle gösterilebilir: x1, ..., xn reel sayılar olsun ve şu fonksiyon tanımlansın:

Ya birinci türev alınıp sıfıra eşit yaparak veya daha kolay bir cebirsel yol olan kare tamamlaması kullanarak σ(r) nın tek ve sadece tek bir minimum noktasının aritmetik ortalama olduğu; yani

gösterilebilir.

Standart sapma ile ortalama arasındaki diğer bir ilişki ise yayılım özelliğine dayanan veri karşılaştırılmaları için kullanılan varyasyon katsayısıdır. Bir veri serisi için varyasyon katsayısı standart sapma ile ortalama arasındaki orandır. Böylece, standart sapma (ve ortalama) veri birimleri ile boyutlu iken (örneğin veri TL ile ise standart sapma ve ortalama TL birimlerindedir); varyasyon katsayısı boyutsuz sırf bir sayıdır. Bu nedenle değişik birimlerde olan verilerin yayılımlarının karşılaştırılması için kullanılabilir.

Ayrıca bakınız

[değiştir | kaynağı değiştir]

Dış kaynaklar

[değiştir | kaynağı değiştir]
  • Spiegel, Murray R ve Stephens, Larry J. (Tr.Çev.: Çelebioğlu, Salih) (2013) İstatistik, İstanbul: Nobel Akademik Yayıncılık ISBN 9786051337043

Dış bağlantılar

[değiştir | kaynağı değiştir]