Standart sapma

Vikipedi, özgür ansiklopedi
Atla: kullan, ara

Olasılık kuramı ve istatistik bilim dallarında, bir anakütle veya bir örneklem veya bir olasılık dağılımı veya bir rassal değişken için standart sapma, veri değerlerinin yayılımının özetlenmesi için kullanılan bir ölçüdür. Matematik notasyonunda genel olarak, bir anakütle veya bir rassal degişken veya bir olasılık dağılımı için standart sapma σ (eski Yunan harfi olan küçük sigma) ile ifade edilir; örneklem verileri için standart sapma için ise s veya s' (anakütle σ değeri için yansız kestirim) kullanılır.

Standart sapma varyansın kare köküdür. Daha matematiksel bir ifade ile standart sapma veri değerlerinin aritmetik ortalamadan farklarının karelerinin toplamının veri sayısı -1'e bölümünün kare köküdür, yani verilerin ortalamadan sapmalarının kareler ortalamasının karekökü olarak tanımlanır. Standart sapma kavramının yayılma ölçüsü olarak kullanılmasını anlamak için ölçüm birimine bakmak gerekir. Diğer yayılma ölçüsü olan varyans verilerin ortalamadan farklarının karelerinin ortalaması olarak tanımlanır. Böylece varyans ölçüsü için veri birimlerinin karesi alınması gerekir ve varyansın birimi veri biriminin karesidir. Bu durum pratikte istenmeyen sonuçlar yaratabilir (Örneğin veriler birimi kilogram ise varyans birimi kilogram kare olur). Bundan kaçınmak icin standart sapma için varyansın kare kökü alınarak standart sapma birim veri birimi olması sağlanır ve verinin yayılımı böylece veri birimleri ile ölçülür.

Örneğin: Bir basit anakütle için kilogram birimi ile veri (4, 8, 12) olsun. Aritmetik ortalama 8 olur ve verilerin ortalamadan sapmaları (−4, 0 , 4) olur. Kare toplamlarının ortalaması olan varyans

[(4-8)2+(8-8)2+(12-8)2]/3 = 32/3 = 10.66

olur ve kilogram kare birimi ile verilir. Standart sapma 10.66 nin karekökü olup 3.26 değerdedir ve kilogram birimi ile ölçülür.

Standart sapma genel olarak niceliksel ölçekli sayılar için en çok kullanılan verilerin ortalamaya göre yayılmasını gösteren bir istatiksel ölçüdür. Eğer birçok veri ortalamaya yakın ise, standart sapma değeri küçüktür; eğer birçok veri ortalamadan uzakta yayılmışlarsa standart sapma değeri büyük olur. Eğer bütün veri değerleri tıpatıp ayni ise standart sapma değeri sıfırdır.

Mavi olarak gösterilen bir rassal değişken dağılımı için standart sapma değeri σ rassal değişken değerlerinin ortalama μ değeri etrafında yayılmasını gösterir.

Tanımlama ve hesaplama[değiştir | kaynağı değiştir]

Rassal değişken için standart sapma[değiştir | kaynağı değiştir]

Bir rassal değişken olan X icin standart sapma şöyle tanımlanır:

\begin{array}{lcl}
\sigma & = &\sqrt{\operatorname{E}((X - \operatorname{E}(X))^2)} =  \sqrt{\operatorname{E}(X^2) - (\operatorname{E}(X))^2}  \\
 & = & \sqrt{\operatorname{Var}(X)}
\end{array}

Burada E(X) X için beklenen değer yani ortalama ve Var(X) X için varyans değeridir.

Her rassal değişken dağılım tipi için bir standart değer var olması gerekli değildir. Çünkü bazı dağılımlar için beklenen değer bulunamaz. Örneğin, Cauchy dağılımı gösteren bir rassal değişken X için bir standart sapma yoktur; çünkü E(X) tanımlanamaz.

Eğer bir rassal değişken X (reel sayılar olan) \scriptstyle x_1,\dots,x_N değerlerini eşit olasılıkla alırsa, o rassal değişken için standart sapma şöyle hesaplanır:

Önce, X için ortalama \overline{x}, şu toplam olarak tanımlanır:

\overline{x} = \frac{1}{N}\sum_{i=1}^N x_i = \frac{x_1+x_2+\cdots+x_N}{N}

Burada N alınan örneklem büyüklüğü sayısıdır.

Sonra, standart sapma ifadesi şöyle basitleştirilir:

\sigma = \sqrt{\frac{1}{N} \sum_{i=1}^N (x_i - \overline{x})^2}.

Yani, bir aralıklı tekdüze dağılım gösteren rassal değişken X icin standart sapma şöyle hesaplanır:

  1. Her x_i değeri icin xi le ortalama değer olan \scriptstyle\overline{x} arasında olan farklar \scriptstyle x_i - \overline{x} olarak bulunur.
  2. Bu farkların kareleri hesaplanır.
  3. Bu farkların karelerinin ortalaması bulunur. Bu değer varyans, yani σ2, olur.
  4. Bu varyans değerinin kare kökü alınır.

Ancak hesaplari elle veya el hesap makinasi ile yapmak için genellikle daha uygun bir formül kullanılır:

\sigma = \sqrt{\frac{1}{N} \left(\sum_{i=1}^N x_i^2 - N\overline{x}^2\right)}.

Bu iki formülün birbire eşitliği biraz cebir kullanılarak gösterilebilir:

\begin{align}
\sum_{i=1}^N (x_i - \overline{x})^2 & = {} \sum_{i=1}^N (x_i^2 - 2 x_i\overline{x} + \overline{x}^2) \\
& {} = \left(\sum_{i=1}^N x_i^2\right) - \left(2 \overline{x} \sum_{i=1}^N x_i\right) + N\overline{x}^2 \\
& {} = \left(\sum_{i=1}^N x_i^2\right) - 2 \overline{x} (N\overline{x}) + N\overline{x}^2 \\
& {} = \left(\sum_{i=1}^N x_i^2\right) - N\overline{x}^2.
\end{align}

Anakütle standart sapma değerinin örneklem standart sapma kullanılarak kestirimi[değiştir | kaynağı değiştir]

Pratik hayatta, her bir anakütle elemanın ölçülmesini gerektiren bir anakütle standart sapma değeri bulmak, bazı çok nadir haller dışında (örnegin standart hale getirilmiş mekanik test etme), hiç realistik değildir. Nerede ise her halde, anakütleden bir rasgele örneklem alınır ve bu örneklemden anakütle standart sapması için bir kestirim değer bulunur. Bu kestirim, çok kere örneklem standart sapmasını anakütle standard sapmasının aynı olan bir formülü kullanmak suretiyle yapılır:


s = \sqrt{\frac{1}{N-1} \sum_{i=1}^N (x_i - \overline{x})^2}\,,

Burada \scriptstyle\{x_1,\,x_2,\,\ldots,\,x_N\} örneklem değerleri ve \scriptstyle\overline{x} örneklem ortalamasıdır. Bölen değer olan N − 1

\scriptstyle(x_1-\overline{x},\,\dots,\,x_N-\overline{x}).

vektörü içinde bulunan serbestik derecesi olur.

Bu belki bir bakıma uygundur; çünkü eğer bir anakütle varyansının kavramsal olarak var olduğu biliniyorsa ve örneklem için anakütleden her eleman çekiminden sonra bu eleman geri konulursa, bilinmaktedir ki örneklem varyansı (yani s2) anakütle varyansı (yani σ2) için bir yansız kestirim olur. Ancak bu standart sapmalar için doğru değildir ; yani yukaridaki gibi bulunan örneklem standart sapması (s) anakütle standart sapması (σ) için yansız kestirim değeri değildir ve s ile anakütle standart sapması biraz daha küçükce tahmin edilir. Eğer rassal değişken normal dağılım gösteriyorsa, bu yansız olan kestirim pratikte çok kolay olmayan bir dönüşüm ile elde edilebilmektedir. Ayrıca zaten bir kestirim için yansız olmak karekteri her zaman çok istenir bir özellik değildir.

Çok kullanılan diğer bir kestrim ise benzer bir ifade ile şöyle verilir:


 \sqrt{\frac{1}{N} \sum_{i=1}^N (x_i - \overline{x})^2}\,\,.

olur. Eğer anakütle normal dağılım gösteriyorsa, bu şekildeki kestirim yansız kestirimden her zaman biraz daha küçük ortalama hata karesi gösterir ve bu nedenle normal için maksimum olabilirlik kestirimi olur.

Bir sürekli rassal değişken için standart sapma[değiştir | kaynağı değiştir]

Sürekli olasılık dağılımları için genellikle standard sapma değerinin dağılıma özel olan parametreleri kullanılarak hesaplanması için förmül vardır. Genel olarak ise, p(x) olasılık yoğunluk fonksiyonu olan bir sürekli rassal değişken olan X için standart sapma şöyle verilir:

\sigma = \sqrt{\int (x-\mu)^2 \, p(x) \, dx}

Burada

\mu = \int x \, p(x) \, dx

Örneğin[değiştir | kaynağı değiştir]

Burada önce çok ufak bir anakütle veri serisi için standart sapma hesaplaması gösterilmektedir. Bu seri bir inşaat firmasının yabancılara yaptığı aylık daire satış sayılarını göstermektedir ve veri serisi şudur: { 5, 2, 11, 12, 3, 6 }.

1. Önce bir aritmetik ortalama \overline{x} şöyle hesaplanır:

\overline{x}=\frac{1}{N}\sum_{i=1}^N x_i.

Burada i her veriye verilen sıra numarasıdır yani i=1,2,3,...,6. Yani

x_1 = 5\,\!
x_2 = 2\,\!
x_3 = 11\,\!
x_4 = 12\,\!
x_5 = 3\,\!
x_6 = 6\,\!

Bu halde N = 6 olup veri büyüklüğü veya anakütle hacmidir.

\overline{x}=\frac{1}{6}\sum_{i=1}^6 x_i        N yerine 6
\overline{x}=\frac{1}{6} \left ( x_1 + x_2 + x_3 + x_4 + x_5 + x_6 \right )
\overline{x}=\frac{1}{6} \left ( 5 + 2 + 11 + 12 + 3 + 6 \right )
\overline{x}= 6.5    Bu aritmetik ortalamadır.

2. Standart sapma \sigma\,\! değerini bulma:

\sigma = \sqrt{\frac{1}{N} \sum_{i=1}^N (x_i - \overline{x})^2}
\sigma = \sqrt{\frac{1}{6} \sum_{i=1}^6 (x_i - \overline{x})^2}        N yerine 6
\sigma = \sqrt{\frac{1}{6} \sum_{i=1}^6 (x_i - 6.5)^2}       \overline{x} yerine 6.5
\sigma = \sqrt{\frac{1}{6} \left [ (5 - 6.5)^2 + (2 - 6.5)^2 + (11 - 6.5)^2 + (12 - 6.5)^2 +(3 - 6.5)^2 + (6 - 6.5)^2 \right ] }
\sigma = \sqrt{\frac{1}{6} \left ( (-1.5)^2 + (-4.5)^2 + (4.5)^2 + (5.5)^2 + (-3.5)^2 + (-0.5)^2 \right ) }
\sigma = \sqrt{\frac{1}{6} \left ( 2.25 + 20.25 + 20.25 + 30.25 + 12.25 + 0.25 \right ) }
\sigma = \sqrt{\frac{85.5}{6}}
\sigma = \sqrt{14.25}
\sigma = 3.77\,\!   Bu standart sapma değeri olur.

Bu sonucun dikkati çekecek bir yanı verilerin tam sayı olmasına rağmen standart sapmanın (ve ayni şekilde aritmetik ortalamanın) kesirli olmasıdır.

Bu hesaplamayı daha kolaylaştırmak için şu formül kullanılabilir:

\sigma = \sqrt{\frac{1}{N} \left(\sum_{i=1}^N x_i^2 - N\overline{x}^2\right)}.

1. Önce bir aritmetik ortalama \overline{x} hesaplanır:

\overline{x}=\frac{1}{N}\sum_{i=1}^N x_i.
\overline{x}=\frac{1}{6} \left ( 5 + 2 + 11 + 12 + 3 + 6 \right )
\overline{x}= 6.5    Bu aritmetik ortalamadır.

2. Sonra toplam kareler bulunur:

\sum{(x_i)^2} = 52 + 22 + 112 + 122 + 32 + 6 2
\sum{(x_i)^2} = 25+4+121+144+9+36
\sum{(x_i)^2} = 339

3. Bunlar formüle konulur:

Yani \sum{(x_i)^2} = 339     \overline{x}= 6.5     N=6     formüle girer:

\sigma = \sqrt{\frac{1}{6} \left ( 339 - 6 \times {6.5}^2\right)}
\sigma = \sqrt{\frac{1}{6} \ (339 - 253.5)}
\sigma = \sqrt{\frac{1}{6} \ (85.5)}
\sigma = \sqrt{14.25}
\sigma = 3.77\,\!   Bu standart sapma değeridir.

Açıklama ve uygulama[değiştir | kaynağı değiştir]

Belli bir seri sayı için standart sapma değerini bilmek ve bu kavramı anlamak demek bir ortalama etrafında bu serinin ne kadar yayılım gösterdiğini anlamaktır. Standart sapmanın büyük olması veri noktalarının ortalamadan daha uzak yayıldıklarını; küçük bir standart sapma ise ortalama etrafında daha çok yakın gruplaştıklarını gösterir.

Standart sapma belirsizligin bir ölçüsü olarak hizmet edebilir. Fiziksel bilimlerde, tekrar tekrar yapılan deneyler ve deneylerde alınan ölçüler ise gösterilen standart sapma oldusu bu deneyin ölçülmesindeki kesinlik ve doğruluğunu gösterir. Ölçümlerin teoriye dayanan bir tahmin ile karşılaştırip birbirine uygunluk gösterip göstermediğine karar vermede ölçümlerin standart sapmasi onemli rol oynar. Eğer olcumlerin standart sapması teorik tahminden çok daha uzaksa, sınanan teorinin değiştirlimesi gerekir. İşte bu uzaklık standart sapmalarla belirlenir.

Finansmanda, standart sapma verilmis bir menkul (hisse seneti, tahvil, emlak v.b) icin rizikonun veya bir menkuller portfoyu icin rizikolari temsil eder. Bir yatirim portfoyunun etkin olarak idare edilmesini tayin eden en onemli faktorlerden birisi rizikodur. Cunku her tek bir menkulun veya bir menkuller portfoyunun getirisinindeki mumkun yayilimini riziko tanimlar ve rizikonun standart sapma ile tanimlanmasi ise yatirim kararlari icin bir matematiksel temel saglar. En genis kavramla, yatirim rizikosu arttikca menkul veya menkuller portfoyunun beklenen getirisi da artis gosterir. Buna neden yatirimcilarin menkul getirileri icin riziko primlerini artirmalari olarak aciklanir. Diger bir deyisler, eger bir yatirim daha yuksek riziko seviyesi tasiyorsa, yatirimcilar o yatirmindan daha yuksek bir getiri beklemeleri gereklidir.

Uzunca bir zaman icinde herhangi bir menkul icin yıllık getirilerinin ortalamasını bulmakla o menkul için beklenen getiri değerini vermektedir. Her yıl için elde edilen getiriden bu beklenen getiri farki bulunursa buna finasmancılar ve muhasebeciler tarafından varyans adı verilir (Dikkat edilirse bu istatistiksel varyans kavramından farklıdır). Her bir yıl için varyansın karesini bulmak ve bu varyans karelerinin ortalamasının kare kökü o menkulun standart sapmasını yani rizikosunu gösterir. İşte bu rizikolar yani varyanslarin karelerinin toplamının ortalamasının kare kökü, standart sapmadır ve rizikoyu ölçer. Menkullerin karşılaştırılımı için temel çalışma işte bu ölçü ile yapilir.

Standart sapmalar için pratik uygulamalar daha değişik alanlarda da verilebilir; fakat burada bu ufak sayıda uygulamalar bile standart sapmanın uygun bir şekilde önemini ortaya çıkartmaktadır.

Normal dağılım gösteren veriler için kurallar[değiştir | kaynağı değiştir]

Koyu mavi ortalamadan bir standart sapmadan daha düşük değerleri gösterir. Normal dağılım için bu %68,27 olur; (orta ile koyu mavi) ortalamadan iki standart sapma için %95,45; (açık, orta ve koyu mavi için) ortalamadan üç standart sapma  %99,73 olur.

Pratikte, çok zaman verilerin yaklaşık olarak bir normal dağılım gösteren anakütleden geldiği varsıyılır. Bu varsayıma neden olarak merkezsel limit teoreminin geçerliliği iddiası olur. Merkezsel limit teoremine göre birçok birbirinden bağımsız ve hepsi aynı dağılım gösteren rassal değişkenlerin toplamı limitte bir normal dağılıma göre eğilim gösterirler. Eğer bu varsayim geçerli ise, değerler yaklaşık %68,27 olasılıkla ortalamadan eksi ve artı bir standart sapma noktalarının arasında bulunur; ortalamadan artı ve eksi 2 standart sapma noktaları arasında %95,45 olasılıkla ve ortalamadan artı ve eksi 3 standart sapma noktaları arasında %99,73 olasılıkla bulunur. Bu 68-95-99.7 kuralı veya bir emprik kural olarak bilinir.

Güvenlik aralıkları şöyle gösterilebilir:

σ  %68.26894921371
 %95.44997361036
 %99.73002039367
 %99.99366575163
 %99.99994266969
 %99.99999980268
 %99.99999999974

Normal dağılımlar için ortalamadan bir standart sapma uzaklıktaki eğri üzerindeki noktalar bir enfleksiyon noktası da olurlar.

Çebişev'in eşitsizliği[değiştir | kaynağı değiştir]

Yakınlık standart sapma birimlerinde ifade edilirse, herhangi bir veri serisi için, Çebişev'in eşitsizliği ile isbat edilmiştir ki veri değerlerin çok büyük bir çoğunluğu ortalama değere yakındır. Çebişev'in eşitsizliği sadece normal dağılım gösteren seriler için değil, bütün rasgele dağılım gösteren veri serileri için geçerlidir. Buna göre, şu zayıf sınırlar ve bu sınırlar içinde bulunan veri yüzdesi şöyle verilebilir:

Ortalamadan √2 standart sapma uzaklıkları arasında değerlerin en aşağı %50si bulunur.
Ortalamadan 2 standart sapma uzaklıkları arasında değerlerin en aşağı %75i bulunur.
Ortalamadan 3 standart sapma uzaklıkları arasında değerlerin en aşağı %89u bulunur.
Ortalamadan 4 standart sapma uzaklıkları arasında değerlerin en aşağı %94ü bulunur.
Ortalamadan 5 standart sapma uzaklıkları arasında değerlerin en aşağı %96sı bulunur.
Ortalamadan 6 standart sapma uzaklıkları arasında değerlerin en aşağı %97si bulunur.
Ortalamadan 7 standart sapma uzaklıkları arasında değerlerin en aşağı %98i bulunur.

Genel olarak:

ortalamadan k standart sapma uzaklıkları arasında değerlerin en aşağı %(1 − 1/k2) × 100 si bulunur.

Standart sapma ve ortalama arasındaki ilişki[değiştir | kaynağı değiştir]

Çok kere bir veri serisinin özetlenmesinde ortalama ve standart sapma birlikte bildirilmektedir. Bir anlamda, eğer ortalama verilerinin merkezi olarak kullanılan ölçü ise, standart sapma veri yayılımının doğal ölçüsüdür. Buna neden ortalama noktasıdan standart sapmanın, verinin herhangi bir noktasıdan standarize edilmiş sapmadan daha küçük olduğudur. Bu matematiksel ifade ile şöyle gosterilebilir: x1, ..., xn reel sayılar olsun ve şu fonksiyon tanımlansın:

\sigma(r) = \sqrt{\frac{1}{N} \sum_{i=1}^N (x_i - r)^2}

Ya birinci türev alınıp sıfıra eşit yaparak veya daha kolay bir cebirsel yol olan kare tamamlaması kullanarak σ(r) nın tek ve sadece tek bir minimum noktasının aritmetik ortalama olduğu; yani

r = \overline{x}.\,

gösterilebilir.

Standart sapma ile ortalama arasındaki diğer bir ilişki ise yayılım özelliğine dayanan veri karşılaştırılmaları için kullanılan varyasyon katsayısıdır. Bir veri serisi için varyasyon katsayısı standart sapma ile ortalama arasındaki orandır. Böylece, standart sapma (ve ortalama) veri birimleri ile boyutlu iken (örnegin veri TL ile ise standart sapma ve ortalama TL birimlerindedir); varyasyon katsayısı boyutsuz sırf bir sayıdır. Bu nedenle değişik birimlerde olan verilerin yayılımlarının karşılaştırılması için kullanılabilir.

İçsel kaynaklar[değiştir | kaynağı değiştir]

Kaynak[değiştir | kaynağı değiştir]

Dışsal Kaynaklar[değiştir | kaynağı değiştir]