Varyans

Vikipedi, özgür ansiklopedi
Atla: kullan, ara

Olasılık kuramı ve istatistik bilim dallarında varyans bir rassal değişken, bir olasılık dağılımı veya örneklem için istatistiksel yayılımın, mümkün bütün değerlerin beklenen değer veya ortalamadan uzaklıklarının karelerinin ortalaması şeklinde bulunan bir ölçüdür. Ortalama bir dağılımın merkezsel konum noktasını bulmaya çalışırken, varyans değerlerin ne ölçekte veya ne derecede yaygın olduklarını tanımlamayı hedef alır. Varyans için ölçülme birimi orijinal değişkenin biriminin karesidir. Varyansın kare kökü standart sapma olarak adlandırılır; bunun ölçme birimi orijinal değişkenle aynı birimde olur ve bu nedenle daha kolayca yorumlanabilir.

Bir reel sayı halinde olan rassal değişkenin varyansı o rassal değişkenin ikinci merkezsel momenti ve aynı zamanda ikinci kümülantı olur. Eğer varyans değeri var ise, ortalama değeri de vardır. Ama bunun aksi doğru değildir.

Tanımlama[değiştir | kaynağı değiştir]

Formüller[değiştir | kaynağı değiştir]

Eğer beklenen değer varsa, bir olasılık dağılımı icin varyans dağılımın kendi ortalamasından sapmasının karesinin beklenen değeridir. Varyans kavramı dağılıma ait her bir değerin dağılımın ortalamasından ne kadar uzak olduğuyla ilgilidir. Varyans söz konusu sapmaların ortalama değerini ölçmektedir.

X değişkeninin beklenen değeri μ = E(X) olmak üzere, varyans şöyle tanımlanır:

\operatorname{var}(X)=\operatorname{E}((X-\mu)^2).

Matematik notasyon kullanılarak bir rassal değişken X için varyans ya Var(X) ya \scriptstyle\sigma_X^2 ya da daha basitce σ2 olarak gösterilir..

Bu tanımlama, eğer beklenen değer varsa, hem ayrık rassal değişkenler hem sürekli rassal değişkenler hem de karışık değişkenler için genel olarak doğrudur. Bu tanımdan ve beklenen değerlerin doğrusal olma niteliğinden varyans için şu formül çıkartılabilir:

{}\operatorname{Var}(X)= \operatorname{E}(X^2 - 2\,X\,\operatorname{E}(X) + (\operatorname{E}(X))^2),
{}=\operatorname{E}(X^2) - 2(\operatorname{E}(X))^2 + (\operatorname{E}(X))^2,
{}=\operatorname{E}(X^2) - (\operatorname{E}(X))^2.

Buna hesaplama formülü adı da verilir. Bu formüle göre

Varyans, karelerin ortalaması eksi ortalamanın karesine eşittir.

Bir X ayrık rassal değişkeni için, x değerleri olasılığa eşit olan olasılık kütle fonksiyonu bulunur; yani x1p1, ..., xnpn, olur. Bu halde aralıklı olasılık dağılımları için varyans şöyle de ifade edilebilir:

\operatorname{Var}(X)=\sigma^2 = \sum_{i=1}^n p_i {\left[x_i - \operatorname{E}(X)\right]}^2  = \sum_{i=1}^n p_i (x_i - \mu)^2 = \sum_{i=1}^n x_i^2 p_i - {[\operatorname{E}(X)]}^2

Buna göre varyans Xin kendi ortalamasından sapma karesinin beklenen değeri olur. Daha basit bir ifade ile

Aralıklı rassal değişken için, varyans her bir veri noktasının veri ortalamasından uzaklıklarının karelerinin ortalamasıdır; yani ortalama sapma kareleridir.

Bir X sürekli rassal değişkeni için beklenen değer E(X) operatörü yerine olasılık yoğunluk fonksiyonu yani f(x)i kapsayan ve entegrasyon gereken formül konulursa, varyans şu şekilde ifade edilebilir:

\operatorname{Var}(X) = \sigma^2 = \int_{-\infty}^\infty {\left[x-\operatorname{E}(X)\right]}^2 f(x)\mathrm{d}x = \int_{-\infty}^\infty x^2 f(x)\mathrm{d}x - {[\operatorname{E}(X)]}^2,

Ancak bazı olasılık dağılımları (örnegin Cauchy dağılımı) için beklenen değer anlamsızdır ve bu halde varyans da anlamlı değildir. Diğer bazı olasılık dağılımlarında ise beklenen değer bulunmakla beraber sonlu sayılı bir varyans bulunamaz, çünkü sürekli değişkenler için varyans değeri bulmak için gereken entegral yakınsama göstermez (örneğin Pareto dağılımı).

Örnekler[değiştir | kaynağı değiştir]

Varyans ; verilerin aritmetik ortalamadan sapmalarının karelerinin aritmetik ortalaması olduğuna göre,

2,2,3,5,3 serisinin varyansı şu şekilde bulunur;

1) Verilerin aritmetik ortalaması (A.O) hesaplanır.

\operatorname A.O = \frac{(2+2+3+5+3)}{5}=3

2) 1. maddedeki ortalamadan,verilerin sapmalarının karelerinin aritmetik ortalaması alınarak varyans bulunur.

\operatorname \frac{[(2-3)^2+(2-3)^2+(3-3)^2+(5-3)^2+(3-3)^2]}{5}=\frac{6}{5}

Örneğin 1: Tablo ile verilmiş bir aralıklı deneysel dağılım[değiştir | kaynağı değiştir]

Bu örnekte bir X rastlantı değişkeninin i=1,2,3 için aldığı değerler ve X in bu değerleri alması olasılığı bir tablo olarak verilmiştir.

i 1 2 3
xi -1 1 2
f(xi) 0,5 0,3 0,2

Beklenen değer şöyle hesaplanır:

\operatorname{E}(X) = -1 \cdot 0{,}5 + 1 \cdot 0{,}3 + 2 \cdot 0{,}2 = 0{,}2

Genel formülle, varyans şöyle bulunur:

\operatorname{Var}(X) = (-1-0{,}2)^2 \cdot 0{,}5 +(1-0{,}2)^2 \cdot 0{,}3 +(2-0{,}2)^2 \cdot 0{,}2 = 1{,}56

Hesaplama formülu ile ise varyans şöyle hesaplanır ve aynı sonuç verir:

\operatorname{Var}(X) = (-1)^2 \cdot 0{,}5 +1^2 \cdot 0{,}3 +2^2 \cdot 0{,}2 - 0{,}2^2 = 1{,}56.

Örneğin 2: Olasılık yoğunluk fonksiyonu verilmiş bir sürekli dağılım[değiştir | kaynağı değiştir]

Sürekli rassal değişken X için olasılık yoğunluk fonksiyonu şöyle verilmiştir:

 f(x) =
\begin{cases} 
\frac {1}{x} & \mbox{ eger } 1 \le x \le e \\
0 & \mbox{ digerleri }
\end{cases}

Beklenen değer E(X) şöyle hesaplanır:

\operatorname{E}(X) = \int_1^e x \cdot \frac {1}{x} dx = e - 1

Varyans değeri Var(X) şöyle bulunur:

\operatorname{Var}(X) = \int_{-\infty}^\infty x^2 \cdot f(x) dx - (\operatorname{E}(X))^2 = \int_1^e x^2 \cdot \frac {1}{x} dx - (e - 1)^2
\qquad = \left[ \frac{x^2}{2}\right] _1^e - (e - 1)^2 = \frac{e^2}{2} - \frac{1}{2} -(e-1)^2 \approx 0{,}242

Anakütle varyansı ve örneklem varyansı[değiştir | kaynağı değiştir]

Teorik olasılık kuramı incelemeleri için varyans: \operatorname{var}(X)=\operatorname{E}(X^2)-\operatorname{E}(X)^2 formülü kullanılarak tanimlanir.

Sonlu bir anakütlenin varyansı aşağıdaki şekilde gösterilir:

\sigma^2 = \sum_{i=1}^N
 \left(x_i - \overline{x} \right)^ 2 \, \Pr(x_i),. Bu özel bir varyans tanımı olarak sonlu anakütlelere özgü bir tanımdır.

Örneklem varyansı ise şu şekilde tanımlanmaktadır:

\sigma^2 = \frac{1}{N} \sum_{i=1}^N
 \left(y_i - \overline{y} \right)^ 2,

Örneklem varyansı, anakütle varyansının yansız bir kestirmicisidir. İspatı ise aşağıdaki şekilde gösterilir:

 \operatorname{E} \{ s^2 \}

= \operatorname{E} \left\{ \frac{1}{n-1} \sum_{i=1}^n  \left( x_i - \overline{x} \right) ^ 2 \right\}


= \frac{1}{n-1} \sum_{i=1}^n  \operatorname{E} \left\{ \left( x_i - \overline{x} \right) ^ 2 \right\}


= \frac{1}{n-1} \sum_{i=1}^n  \operatorname{E} \left\{ \left( (x_i - \mu) - (\overline{x} - \mu) \right) ^ 2 \right\}


= \frac{1}{n-1} \sum_{i=1}^n  \operatorname{E} \left\{ (x_i - \mu)^2 \right\}

- 2 \operatorname{E} \left\{ (x_i - \mu) (\overline{x} - \mu) \right\}

+ \operatorname{E} \left\{ (\overline{x} - \mu)  ^ 2 \right\}


= \frac{1}{n-1} \sum_{i=1}^n  \sigma^2

- 2 \left( \frac{1}{n} \sum_{j=1}^n \operatorname{E} \left\{ (x_i - \mu) (x_j - \mu) \right\} \right)

+ \frac{1}{n^2} \sum_{j=1}^n \sum_{k=1}^n \operatorname{E} \left\{ (x_j - \mu) (x_k - \mu) \right\}


= \frac{1}{n-1} \sum_{i=1}^n  \sigma^2

- \frac{2 \sigma^2}{n}

+ \frac{\sigma^2}{n}

= \frac{1}{n-1} \sum_{i=1}^n \frac{(n-1)\sigma^2}{n}


= \frac{(n-1)\sigma^2}{n-1} = \sigma^2

Bu özellikten faydalanılarak örneklem varyansının hesaplanması ile anakütle varyansına ilişkin kestirimlerde bulunulabilir. Bu durumda örneklemin rastsal bir örneklem olması önemlidir. Aksi takdirde örnekleme dayalı kestirimler sağlıklı sonuçlar vermeyecektir.

Varyansın biçimsel özellikleri[değiştir | kaynağı değiştir]

Varyansın şu özellikleri bulunmaktadır:

Aralarında korelasyon bulunmayan değişkenlerin toplamı için varyans[değiştir | kaynağı değiştir]

Varyansin diğer istatistiksel yayılım ölçülerine kıyasla tercihli olarak kullanılmasına nedenlerden birisi, birbirleri arasinda korelasyon olmayan rassal değişkenlerin toplamının (veya farkının) varyansının, her bir rassal değişkenin tek başına olan varyanslarının toplamına (veya farkına) eşit olmasıdır; yani

\operatorname{Var}\Big(\sum_{i=1}^n X_i\Big) = \sum_{i=1}^n \operatorname{Var}(X_i).

Bu öneri çok kere korelasyon yerine daha güçlü bir ilişki olan değişkenlerin bağımsızlığı şartı kullanılarak verilir, ama korelasyon ilişkisi de yeterlidir.

Bu nedenle eğer değişkenlerin varyansları tüm ayni ise (yani hepsi σ2 ise), hemen bu formüle göre bunların ortalamasının varyansının şu ifade

\operatorname{Var}\Big(\sum_{i=1}^n X_i\Big) = \sum_{i=1}^n \operatorname{Var}(X_i).

olduğu görülür; çünkü n ile bölme bir doğrusal dönüşümdür.

Bu gerçek, merkezsel limit teoremi içinde özellikle kullanılan, örneklem ortalamasının standart hatasını belirler.

Aralarında korelasyon bulunan değişkenlerin toplamının varyansı[değiştir | kaynağı değiştir]

Genel olarak, değişkenler birbirleriyle aralarında korelasyon gösteriyorlarsa, toplamlarının varyansı kovaryanslarının toplamı olur:

\operatorname{Var}\left(\sum_{i=1}^n X_i\right) = \sum_{i=1}^n \sum_{j=1}^n \operatorname{Kov}(X_i, X_j).

Burada Kov kovaryanstır ve eğer herhangi bir rassal değişken bağımsız ise, bu değişkenle diğer değişkenlar arasında bulunan her kovaryans değeri 0 olur. Verilen formül toplamın varyansının toplamı yapan parçaların kovaryans matrisinin bütün elemanlarına eşit olduğunu göstermektedir. Bu formül klasik sınama kuramında Cronbach'in alfa ölçüsü kavramını geliştirmek için de kullanılır.

Eğer değişkenlerin hep birbirine eğit varyansları, yani σ2, varsa ve ayrı ayrı değişkenler arasındaki korelasyonların ortalama değeri ρ ise, bu halde varyansların ortalaması şöyle ifade edilir:

\operatorname{Var}(\overline{X}) = \frac {\sigma^2} {n} + \frac {n-1} {n} \rho \sigma^2.

Bu formüle göre ortalamanın varyansı korelasyonlar ortalaması ile birlikte artış gösterir.

Bunun yanında, eğer değişkenler için varyans 1 değerde ise (örneğin değişken değerleri standardize edilmişlerse) o halde bu formül daha da basitleştirilip şu sekli alır:

\operatorname{Var}(\overline{X}) = \frac {1} {n} + \frac {n-1} {n} \rho.

Bu formul klasik sinama teorisinde Spearman-Brown öngörü formülü için kullanılır. Eğer korelasyonlar sabit kalırlarsa veya aynı şekilde yakınsama gösterirlerse, bu ifade, n limitte sonsuz değere yakınsama gösterdikçe, ρ değerine yakınsama gösterir. Bunun bir sonucuna göre, eşit korelasyonları olan veya yakınsama gösteren ortalama korelasyonu olan standardize edilmiş değişkenler için ortalamanın varyansı şöyle ifade edilebilir:

 \lim_{n \to \infty} \operatorname{Var}(\overline{X}) = \rho.

Buna göre büyük sayıda standardize edilmiş değişkenlerin ortalamasının varyansı, yaklaşık olarak bunların ortalama korelasyonuna eşittir.

Bu formul diğer bir sonuç da ortaya çıkartır. Büyük sayılar yasası örneklem ortalamasının anakütle ortalamasına yakınsama göstereceğini önermesine rağmen, bu formülden açıktır ki, birbirine korelasyonu olan değişkenler bulunuyorsa örneklem ortalaması anakütle ortalamasına yakınsama göstermez.

Değişkenlerin ağırlıklı toplamının varyansı[değiştir | kaynağı değiştir]

Varyansın parçalara ayrılması[değiştir | kaynağı değiştir]

Varyans için hesaplama formülü[değiştir | kaynağı değiştir]

Varyans icin hesaplama formülü hemen dogrudan dogruya beklenen degerlerin dogrusalligindan ve yukarida verilen tanimlamadan ortaya cikar\;

{}\operatorname{Var}(X)= \operatorname{E}(X^2 - 2\,X\,\operatorname{E}(X) + (\operatorname{E}(X))^2),
{}=\operatorname{E}(X^2) - 2(\operatorname{E}(X))^2 + (\operatorname{E}(X))^2,
{}=\operatorname{E}(X^2) - (\operatorname{E}(X))^2.

Bu cok zaman pratikte varyans hesaplamasi icin kullanilir. Fakat eger denklemin iki kisminin degerleri birbirine esit veya cok yakinsa numerik yaklasimlama hatasindan etkilenip yanlis degerler verebilir.

Karakteristik özellik[değiştir | kaynağı değiştir]

Bir rassal değişkenin ikinci momentinin minimum değeri bu moment, rassal değişkenin ortalaması etrafında alınınca ortaya çıkar; yani

\mathrm{argmin}_m\,\mathrm{E}((X - m)^2) = \mathrm{E}(X)\,,

Bunun aksi olarak, eğer sürekli bir fonksiyon olan \varphi tüm X rassal değişkenleri için

\mathrm{argmin}_m\,\mathrm{E}(\varphi(X - m)) = \mathrm{E}(X)\,

koşulunu sağlıyorsa, o halde mutlaka \varphi(x) = a x^2 + b ( a > 0) şeklinde bir fonksiyon olmasi gerekmektedir. Bu koşul çoklu boyutlu hallerde de geçerlidir. [1]

Dipnotlar[değiştir | kaynağı değiştir]

  1. ^ Kaynak: A. Kagan and L. A. Shepp, "Why the variance?", Statistics and Probability Letters, C. 38, No 4, 1998, say. 329–333. (İngilizce)

İçsel kaynaklar[değiştir | kaynağı değiştir]