powerpoint presentationkisi.deu.edu.tr/istem.koymen/ist 1 böl 3 tanımlayıcı... · 2013. 1....
TRANSCRIPT
04.01.2013
1
1
Bölüm 3
Tanımlayıcı İstatistikler
2
Tanımlayıcı İstatistikler
• Bir veri setini tanımak veya birden fazla veri setini
karşılaştırmak için kullanılan ve ayrıca örnek
verilerinden hareket ile frekans dağılışlarını sayısal
olarak özetleyen değerlere tanımlayıcı istatistikler
denir.
• Analizlerde kullanılan veri tiplerine (basit,
gruplanmış, sınıflanmış) göre hesaplamalarda
kullanılacak formüller değişmektedir.
3
Tanımlayıcı İstatistikler
Yer Ölçüleri
1)Aritmetik ort.
2)Geometrik ort.
3)Harmonik ort.
4)Mod
5)Medyan
6)Kartiller
Değişkenlik Ölçüleri
1) Range
(Değişim Aralığı)
2) Ort. Mutlak sapma
3) Varyans
4) Standart Sapma
5) Değişkenlik(Varyasyon)
Katsayısı
Çarpıklık Ölçüleri
1)Pearson Asimetri Ölçüsü
2)Bowley Asimetri Ölçüsü
Basıklık
Ölçüleri
4
Yer Ölçüleri
• Yer ölçüsünü belirlemek amacıyla veri
analizini yapacak kişi, öncelikle veri seti
için hangi ölçüyü kullanması gerektiğine
karar vermelidir.
5
Tanım
Merkezi Eğilim Ölçüsü
Veri setinin orta noktası veya merkezinin değeridir.
6
1) Aritmetik Ortalama
• Üzerinde inceleme yapılan veri setindeki elemanların toplanıp incelenen eleman sayısına bölünmesiyle elde edilen yer ölçüsüne aritmetik ortalama denir.
• Örnek:
– Sınav notlarının ortalaması,
– Yaz aylarında m2’ye düşen ortalama yağış miktarı
04.01.2013
2
7
Örnek Ortalaması ve Anakütle Ortalaması
µ, “mü” şeklinde telaffuz edilir ve anakütle
ortalamasıdır
x = n
x , x-bar şeklinde telaffuz edilir ve örneklemin ortala
masıdır.
x
N µ =
x
8
Bir Denge Noktası Olarak
Ortalama
• 1, 14, 19, 31, 50 sayılarının ortalaması =23 tür.
Şekil sayıları bir çizgi üzerinde yerleştirilmiş eşit
küçük ağırlıklar şeklinde gösterir.1,14,19,31,50
• Aritmetik ortalama denge noktasıdır.
1 14 19 31 50
9
Eğer çizgiyi üzerinde ağırlıklar olan bir tahta
olarak düşünürsek, tahtayı dengede tutmak için
’nün bulunduğu yerden denge noktası
koymalıyız. Bu aritmetik denge noktasının özelliği;
her bir sayı için xi- ‘yü hesaplarsak pozitif ve
negatif sayılar dengede kalır çünkü toplamları 0
olur.
Herhangi bir veri seti için,
0)( ix
olur.
i
x uzaklığı
i
x
i
x
Örnek: İzmir ilinde ilköğretim ikinci sınıfta okuyan
öğrenciler üzerinde yapılan bir araştırmada rasgele
8 öğrenci seçilmiş ve ailenizde kaç çocuk vardır
sorusuna aşağıdaki gibi cevap vermişlerdir. Ailelerin
çocuk sayılarının ortalamasını hesaplayınız.
1,3,2,1,4,5,6,2
n = 8 i = 1,2,…,8
1 1 1 2 2 3 4 5 63
8
n
i
i
x
xn
Basit Veriler için Aritmetik Ortalama Örneği
Gruplanmış Veriler İçin
Aritmetik Ortalama
nfk
ii
1
k
ii
k
iii
f
fxx
1
1
f : frekans
k: grup sayısı
i = 1,2,3,……….,k
Örnek: Bir otomobil bayisinde 80 gün boyunca yapılan inceleme sonucunda satılan arabaların adetlerine göre dağılımı yandaki tabloda verilmiştir. Buna göre bir gün içinde satılan ortalama araba sayısını hesaplayınız.
1
1
0 12 70 42 32 30 1862,33
80 80
k
i i
ik
i
i
x f
x
f
Araba
(xi)
Gün (fi) xi.fi
0 5 0
1 12 12
2 35 70
3 14 42
4 8 32
5 6 30
∑fi=80
04.01.2013
3
13
Sınıflanmış Veriler İçin Aritmetik
Ortalama
nfk
ii
1
k
ii
k
iii
f
fmx
1
1
f : frekans
k : sınıf sayısı
i = 1,2,3,……….,k
m : sınıf orta noktası
• Sınıflanmış verilerde her bir sınıf içindeki değerlerin neler
olduğu bilinmediğinden dolayı ve yalnızca her bir sınıfın
frekans değerleri bilindiğinden dolayı sınıfı temsil etmek
üzere sınıf orta noktaları hesaplamada kullanılır.
• Kullanılan formül gruplanmış veriler için kullanılan
formüle benzerdir.
Örnek: Bir sınıftaki öğrencilerin boyları hakkında bir araştırma
yapılmaktadır. Bu amaçla 50 öğrencinin boyları ölçülerek
kaydedilmiştir.Öğrencilerin boylarının aritmetik ortalamasını
hesaplayınız.
Sınıflar fi mi mifi
150-157’den az 5 153,5 767,5 157-164’den az 7 160,5 1123,5
164-171’den az 14 167,5 2345 171-178’den az 9 174,5 1570,5 178-185’den az 8 181,5 1452 185-192’den az 4 188,5 754 192-199’dan az 3 195,5 586,5
Toplam 50 8599
1
1
153,5(5) 160,5(7) ... 195,5(3) 8599171,98 .
50 50
k
i i
i
k
i
i
m f
x cm
f
15
Ağırlıklı Ortalama
Veri setindeki gözlemlerin belirli bir kritere göre
ağırlıklandırılması durumunda veri setinin ortalamasının
hesaplanması için kullanılan ortalamadır.
i i
w
i
w xx
w
16
Örnek: Aşağıdaki tabloda şipariş büyüklüklerine göre elde edilen kar
miktarları ve sipariş sayıları verilmiştir. Buna göre bir siparişden elde
edilecek ortalama kar miktarı kaç $’dır?
Sipariş büyüklüğü
Sipariş başına kar xi
Sipariş sayısı wi
xiwi
Küçük $1 120 $120
Orta $3 60 $180
Büyük $6 20 $120
Σwi=200 Σ xiwi=$420
420$2,1
200
i iw
i
w xx
w
17
2) Geometrik Ortalama
• Bir veri setinde bulunan n adet elemanın çarpımının n nci dereceden kökünün alınmasıyla elde edilen yer ölçüsüdür.
nnxxxG ....21
• Geometrik ortalamanın formülüne bakıldığında hesaplama zorluğu olduğundan dolayı logaritma ifadesi kullanılır. Genellikle basit veriler için kullanışlı olup negatif sayılar için kullanışlı değildir.
n
x
GLog
n
i
i 1
log
n
i
ixn
antiG1
log1
log
Geometrik Ortalama’nın
Kullanım Alanları • Ortalama oranları,
• Değişim Oranları,
• Logaritmik dağılış gösteren veri setleri,
için kullanışlıdır.
Örnek: fiyat indeksleri, faiz formülleri.
04.01.2013
4
Örnek: Abac şirketinin yıldan-yıla olan fuel deki
tüketim harcamalarının değişimi yüzde -5, 10, 20, 40,
ve 60. büyüme faktörlerinin geometrik ortalamasını
kullanarak harcamalardaki ortalama yıllık yüzde
değişim belirlenir. Büyüme faktörleri için yüzde
değişim dönüştürme ile elde edilenler;
0.95 1.10 1.20 1.40 1.60
51 2
5
.... (0,95)(1,10)(1,20)(1,40)(1,60)
2.80896 1,229
nnG x x x
1
log0,022276 0,041393 0,079181 0,146128 0,204120
5
0,4485460,08971
5
n
i
i
x
Log Gn
Log G
G = anti log 0,27045 = 100,08971 ≈ 1,229
21
3) Harmonik Ortalama
• Bir veri setinde bulunan n adet elemanın çarpma işlemine göre terslerinin ortalamasının tersinin alınmasıyla elde edilen yer ölçüsüdür. Genellikle basit veriler için kullanışlıdır.
nnxxx
n
n
xxx
H1
....111
....11
1
2121
n
x
H
n
i i
1
1
122
Harmonik Ortalama’nın Kullanım Alanları
Zaman verileri için kullanışlıdır.
Örnek: Zaman birimi başına hız, para birimi başına satın alınan birim sayısı.
Belirli koşullar ve fiyat tipleri için zaman verilerinin
ortalamalarının hesaplanmasında kullanılan bir yer
ölçüsüdür.
Zamana bağlı hız, fiyat verimlilik gibi oransal olarak
ifade edilebilen verilerin ortalamasın alınmasında da
kullanılabilir.
NOT: ARİTMETİK ORT. > GEOMETRİK ORT. > HARMONİK ORT.
23
Örnek: Bir tekstil fabrikasında çalışan dört kişinin bir
pantolonu ütüleme süreleri aşağıda verilmiştir. Buna göre
bu fabrikada bir pantolon ortalama kaç dakikada ütülenir?
İşçi 1: 10 dk. İşçi 2: 6 dk. İşçi 3: 4 dk. İşçi 4 : 5 dk.
240
43
4
10
1
6
1
5
1
4
11
1 1
n
x
H
n
i i
.58,543
240dkH
24
4) Mod
• Bir veri setinde en çok gözlenen ( en çok tekrar eden ) değere veya frekansı en fazla olan şans değişkeni değerine mod adı verilir.
• Veri setinin modu olmayacağı gibi birden fazla da modu olabilir.
• Mod genellikle kesikli şans değişkenli için oluşturulan gruplanmış verilerde aritmetik ortalama yerine kullanılabilir.
04.01.2013
5
25
Mod
• Mod, büyük veri setlerinde verinin daha çok nerede
toplandığını bulmak için kullanılır. Örneğin erkek
kıyafetleri satan bir perakendeci, potansiyel
müşterilerini belirlemek için gömlek kol uzunluğu ve
gömlek yaka ölçüsüyle ilgilenebilir.
• Nicel veri seti çok büyük olmadığı zaman mod
anlamlı olmayabilir.
• Niteliksel veriler için kullanılabilecek tek merkezi
eğilim ölçüsüdür.
26
1) 5,40 1,10 0,42 0,73 0,48 1,10
2) 27 27 27 55 55 55 88 88 99
3) 1 2 3 6 7 8 9 10
Örnekler
Modu 1,10
1 den fazla moda
sahip , 27 ve 55
Modu yok
27
Gruplanmış Veriler İçin Mod
Basit verilerde bulunduğu gibi hesaplanır.
Örnek: Bir otomobil bayisinde 80 gün boyunca yapılan inceleme sonucunda satılan arabaların adetlerine göre dağılımı yandaki tabloda verilmiştir. Buna göre araba satışları için mod değeri nedir?
Araba(xi) Satış adedi (fi)
0 5
1 12
2 35
3 14
4 8
5 6
En yüksek frekansa sahip olan gözlem değeri 2
olduğundan dolayı araba satışları için mod değeri 2’dir. 28
Sınıflanmış Veriler İçin Mod
• Sınıflanmış verilerde mod değeri hesaplanırken ilk olarak
mod sınıfı belirlenir.
• Mod sınıfı frekansı en yüksek olan sınıftır.
• Mod sınıfı belirlendikten sonra bu sınıf içerisinde yer alan
modun tam değeri sınıf frekansı ve kendine komşu olan
sınıf frekansları dikkate alınarak hesaplanır.
29
iL .21
1mod
= Mod Sınıfı Aralığının Alt Sınırı
1 = Mod Sınıfı Frekansı - Kendinden Bir Önceki
Sınıf Frekansı
2 = Mod Sınıfı Frekansı – Kendinden Bir Sonraki
Sınıf Frekansı
i = Mod Sınıfının Sınıf Aralığı
Mod =
ModL
Örnek: Bir sınıftaki öğrencilerin boyları hakkında bir araştırma
yapılmaktadır. Bu amaçla 50 öğrencinin boyları ölçülerek
kaydedilmiştir.Öğrencilerin boylarının mod değerini hesaplayınız.
Sınıflar fi
150-157’den az 5 157-164’den az 7
164-171’den az 14 171-178’den az 9 178-185’den az 8 185-192’den az 4 192-199’dan az 3
Toplam 50
Mod sınıfı
04.01.2013
6
Frekansı en yüksek olan sınıf mod sınıfı olarak
belirlenir.
Mod sınıfı belirlendikten sonra formülde ilgili
değerler yerine koyularak mod değeri hesaplanır.
1mod
1 2
(14 7)164 7 168,08 .
(14 7) (14 9)
Mod L i
cm
32
5) Medyan
• Bir veri setini büyükten küçüğe veya küçükten büyüğe sıraladığımızda tam orta noktadan veri setini iki eşit parçaya ayıran değere medyan adı verilir.
• Veri setinde aşırı uçlu elemanlar olduğunda aritmetik ortalamaya göre daha güvenilirdir.
• Medyan, veri setindeki tüm elemanlardan etkilenmez.
33
Basit Veriler İçin Medyan
2
1n
12
n
• Veri Setinin Hacmi Tek Sayı İse;
nci gözlem değeri medyandır.
• Veri Setinin Hacmi Çift Sayı İse;
ve nci gözlem değerinin aritmetik
ortalaması medyandır.
2
n
34
5.40 1.10 0.42 0.73 0.48 1.10 0.66
0.42 0.48 0.66 0.73 1.10 1.10 5.40
Tam ortadaki değer medyandır.
MEDYAN 0.73
5.40 1.10 0.42 0.73 0.48 1.10
0.42 0.48 0.73 1.10 1.10 5.40
0.73 + 1.10
2
Medyan bu iki noktanın arasına düşmektedir
MEDYAN 0.915
35
Gruplanmış Veriler İçin Medyan
• Gruplanmış verilerde medyan değeri hesaplanırken
veri setinin tam orta noktasının hangi gruba ait
olduğunu belirlemek için birikimli frekans sütunu
oluşturulur.
• Sıra numarası belirlendikten sonra o sıra numarasına
ait grup medyan değeri olarak ifade edilir.
Örnek: Bir un fabrikasının satış mağazasında bir
gün içinde satılan un paketlerinin gramajlarına
göre göre satış adetleri aşağıda verilmiştir. Buna
göre veri seti için medyan değerini hesaplayınız.
Araba Satış adedi Birikimli Frekans ( ∑f )
0 5 5
1 12 17
2 35 52
3 14 66
4 8 74
5 6 80
• n/2 ve (n/2)+1 nci gözlem değerlerine karşılık gelen değerler
(40 ve 41 nci sıra ) 2 olduğundan dolayı medyan değeri 2’dir.
04.01.2013
7
•Frekans dağılımı aşağıdaki gibi olsaydı (n+1)/2 nci
elemana (40 ncı elemana) karşılık gelen değer
8 olacağından dolayı veri setinin medyanı 3 olarak
hesaplanacaktı.
Araba Satış adedi Birikimli Frekans ( ∑f )
0 5 5
1 12 17
2 22 39
3 32 61
4 14 75
5 4 79
38
Sınıflanmış Veriler İçin Medyan
• Sınıflanmış verilerde medyan değeri hesaplanırken ilk
olarak medyan sınıfı belirlenir.
• Medyan sınıfı birikimli frekanslar dikkate alındığında
toplam frekansın yarısını içinde bulunduran sınıftır.
• Medyan sınıfı belirlendikten sonra medyan sınıfından bir
önceki sınıfın birikimli frekansı ve medyan sınıfı frekansı
dikkate alınarak hesaplanır.
39
if
ff
LMedyanmed
l
i
med.2
Lmed : Medyan sınıfının alt sınırı
fl : Medyan sınıfından bir önceki sınıfın birikimli
frekansı
fmed : Medyan sınıfının frekansı
Örnek: Bir sınıftaki öğrencilerin boyları hakkında bir araştırma
yapılmaktadır. Bu amaçla 50 öğrencinin boyları ölçülerek
kaydedilmiştir.Öğrencilerin boylarının mod değerini hesaplayınız.
Sınıflar fi ∑fi
150-157’den az 5 5 157-164’den az 7 12
164-171’den az 14 26 171-178’den az 9 35 178-185’den az 8 43 185-192’den az 4 47 192-199’dan az 3 50
Toplam 50
Medyan sınıfı
2 .
25 12164 .7 170,5
14
il
med
med
ff
Medyan L if
cm
Toplam 50 adet gözlem olduğundan dolayı, birikimli
frekans sütununda 50/2 =25 nci gözlemin
bulunduğu sınıf medyan sınıfı olarak belirlenir.
42
Merkezi
Ölçüm
Tanım Nasıl
Kullanılıyor
Varlığı Her
değer
Dikkate
Alınırmı?
Uç
Değerlerden
Etkilenirmi?
Avantajları ve
Dezavantajları
Ortalama
n
xx
En Bilinen
‘ortalama’
Her zaman
vardır.
Evet
Evet
Birçok
istatistiksel
metodla iyi
çalışır.
Medyan
Orta değer
Sıklıkla
Kullanılır
Her zaman
vardır.
Hayır
Hayır
Birkaç uç değer
varsa genellikle
iyi bir tercihtir
Mod En sık tekrar eden
veri değeri
Ara sıra
kullanılır
Olmayabilir
ya da
birden fazla
olabilir.
Hayır
Hayır
Nominal
düzeyde veriler
için uygundur
Veriler mod etrafında simetrik oldukları zaman, mod, medyan ve artimetik ortalama
birbirlerine eşit olur.
Eğer örneklem aynı anakütleden çekilmişse, aritmetik ortalama diğer ölçülere göre
daha güvenilirdir
04.01.2013
8
43
6) Kartiller •Bir veri setini büyükten küçüğe veya küçükten büyüğe sıraladığımızda dört eşit parçaya ayıran üç değere kartiller adı verilir.
•İlk % 25’lik kısmı içinde bulunduran 1. Kartil (Q1), % 50’lik kısmı içinde bulunduran 2. Kartil (Q2), % 75’lik kısmı içinde bulunduran 3. Kartil (Q2), olarak adlandırılır.
•%50’lik kısmı içinde bulunduran 2. Kartil (Q2) aynı zamanda veri setinin medyanıdır.
%25 %25
%25 %25
Q1 Q2 Q3
44
Basit Veriler İçin Kartiller
4
1n
• 1.Kartil Q1
nci gözlem değeri,
• 3.Kartil Q3
nci gözlem değeri,
3( 1)
4
n
45
Örnek: İstatistik I dersini alan 10 öğrencinin vize
notları aşağıdaki gibi sıralanmıştır. Buna göre vize
notları için Q1 ve Q3 değerlerini hesaplayınız.
30,42,56,61,68,79,82,88,90,98
(n+1)/4 ‘ncü verinin sıra numarası (10+1)/4 = 2,75’dir.
Q1= 42 + 0,75 .(56 - 42) = 52,5 ,
3(n+1)/4 ‘ncü verinin sıra numarası 3(10+1)/4 =
8,25’dir.
Q3= 88 + 0,25.(90 - 88) = 88,5 ‘dir.
Veri seti aşağıdaki gibi verilseydi,
30,42,56,61,68,79,82,88,90,98
(n+1)/4 ‘ncü verinin sıra numarası (9+1)/4 = 2,5’dir.
Q1= 42 + 0, 5 .(56 - 42) = 49 ,
3(n+1)/4 ‘ncü verinin sıra numarası 3(9+1)/4 = 7,5’dir.
Q3= 82 + 0, 5.(88 - 82) = 85 ,
olarak hesaplanacaktı.
47
Gruplanmış Veriler İçin Kartiller
• Gruplanmış verilerde kartiller hesaplanırken veri
setinin ilk çeyrek ve son çeyrek kısmını tam olarak
ifade etmek amacıyla birikimli frekans sütünü
oluşturulur.
• Gruplanmış verilerde örnek hacminin tek veya çift
olduğuna bakılmaksızın
n/4 ncü eleman 1.Kartil (Q1),
3n/4 ncü eleman ise 3.Kartil (Q3),
olarak ifade edilir.
Örnek: Bir un fabrikasının satış mağazasında bir gün içinde
satılan un paketlerinin gramajlarına göre göre satış adetleri
aşağıda verilmiştir. Buna göre veri seti için Q1 ve Q3 nedir?
Araba Satış adedi Birikimli Frekans ( ∑f )
0 5 5
1 12 17
2 35 52
3 14 66
4 8 74
5 6 80
• n/4 ncü ( 20 nci ) sıra numarasına karşılık gelen gözlem 2
olduğundan; 1.kartil 2, 3n/4 ncü ( 20 nci ) sıra numarasına
karşılık gelen gözlem 3 olduğundan; 3.kartil 3’dür.
04.01.2013
9
49
Sınıflanmış Veriler İçin Kartiller
• Sınıflanmış verilerde kartiller hesaplanırken ilk olarak
birikimli frekans sütunu oluşturularak kartil sınıfları
belirlenir.
• Kartil sınıfları belirlenirken gruplanmış verilerde olduğu
gibi n/4 ve (3n)/4 ncü sıralardaki elemanların hangi sınıflara
ait iseler o sınıflar kartil sınıfları olur.
• Kartil sınıfları belirlendikten sonra bu sınıflardan bir
önceki sınıfın birikimli frekansı ve mevcut sınıf frekansı
dikkate alınarak kartil değerleri hesaplanır.
50
if
ff
LMedyanQQ
l
i
Q .2
2
22
if
ff
LQQ
l
i
Q.4
3
3
33
if
ff
LQQ
l
i
Q .4
1
11
1. Kartil
3. Kartil
2. Kartil
51
1 1
1
4 .
12,5 12164 .7 164,58
6
il
Q
Q
ff
Q L if
cm
Q1 sınıfı
Q3 sınıfı
3 3
3
3
4 .
37,5 35178 .6 179,88
8
il
Q
Q
ff
Q L if
cm
Sınıflar fi ∑fi
150-157’den az 5 5 157-164’den az 7 12 164-171’den az 14 26 171-178’den az 9 35 178-185’den az 8 43 185-192’den az 4 47 192-199’dan az 3 50
Toplam 50
Örnek: Bir sınıftaki öğrencilerin boyları hakkında bir araştırma
yapılmaktadır. Bu amaçla 50 öğrencinin boyları ölçülerek
kaydedilmiştir.Öğrencilerin boylarının birinci ve üçüncü kartillerini
hesaplayınız.
52
Yayılma (Değişkenlik) Ölçüleri
•Bir veri setini tanımak yada iki farklı veri setini
birbirinden ayırt etmek için her zaman yalnızca yer
ölçüleri yeterli olmayabilir.
• Dağılımları birbirinden ayırt etmede kullanılan ve
genellikle aritmetik ortalama etrafındaki değişimi
dikkate alarak hesaplanan istatistiklere yayılma
(değişkenlik) ölçüleri adı verilir.
53
X
123,33
109,33
95,33
81,33
67,33
Fre
kan
s 400
300
200
100
0
X
123,33
109,33
95,33
81,33
67,33
Fre
ka
ns 1200
1000
800
600
400
200
0
Aşağıdaki iki grafik n = 1500 hacimlik alınan iki farklı örnek
doğrultusunda oluşturulan histogramlardır. Her iki örnek ortalaması
yaklaşık olarak 100 olduğuna göre iki örneğin aynı anakütleden
alındığı söylenebilir mi?
54
• Dağılımları birbirinden ayırt etmede kullanılan yayılım ölçüleri aritmetik ortalama etrafındaki değişimleri dikkate alan tanımlayıcı istatistiklerdir.
• Bir veri setinde aritmetik ortalamalardan her bir gözlemin farkı alınıp bu değerlerin tümü toplandığında sonucun 0 olduğu görülür.
04.01.2013
10
55
• Örnek: 4,8,9,13,16 şeklinde verilen bir basit veri için;
105
16139841
n
xx
n
ii
010161013
1091081041
n
ii
xx
• Bu örnekten görüleceği üzere gözlemlerin aritmetik ortalamadan uzaklığı alıp toplandığında 0 elde edildiğinden dolayı bu problem mutlaka değer kullanarak veya karesel uzaklık alınarak ortadan kaldırılır.
56
7) Range (Değişim Aralığı)
• Veri setindeki yayılımı ifade etmede kullanılan en basit
ölçü, değişim aralığıdır. Genel olarak az sayıda veri için
kullanılır.
• En büyük gözlem değeri ile en küçük gözlem değeri
arasındaki fark değişim aralığını verir.
• Veri setindeki tek bir gözlemin aşırı derecede küçük
veya büyük olmasından etkilendiği için bir başka
ifadeyle örnekte yer alan sadece iki veri kullanılarak
hesaplanmasından dolayı tüm veri setinin değişkenliğini
açıklamak için yetersiz kalmaktadır.
57
Değişim Aralığı
Örnek:
Aralık, veri seti içindeki en büyük değerle en küçük değer arasındaki
uzaklığı ölçerek verinin yayılımını ortaya koyar. Örneğin aşağıdaki
şekilde gösterildiği üzere A hisse senedi belirli bir yılda 36$ ila 32$
arasında çeşitlilik gösterirken, B hisse senedi 10$ ila 58$ arasında
gösterdi. Hisse senedinin fiyatındaki aralık A için 36$-32$ = 4$ dır;
B için 58$-10$=48$.Aralıkları kıyasladığımızda B hisse senedinin
fiyat aralığının A ya göre daha çok değişkenlik gösterdiğini
söyleyebiliriz.
10 20 30 32 36 40 50 58 60
Ücret ($)
A hissesinin aralığı
B hissesinin aralığı
58
Kartiller Arası Fark
• Diğer değişkenlik 3. ve 1. kartiller arasındaki farka
dikkat çeker. Çeyrek aralık olarak adlandırılan bu
fark, Q3-Q1, bize veri setinin yarısını içeren genişliği
verir.
59
8) Ortalama Mutlak
Sapma(OMS) • Veri setindeki her bir gözlem değerinin aritmetik ortalamadan
farklarının mutlak değerlerinin toplamının örnek hacmine
bölünmesiyle elde edilir.
• Gözlem değerlerinin aritmetik ortalamadan faklarının toplamı 0
olacağından bu problemi ortadan kaldırmak için mutlak değer
ifadesi kullanılır.
n
xx
OMS
n
i
i
1Basit veriler için:
k
i
i
k
i
ii
f
xxf
OMS
1
1
k
i
i
k
i
ii
f
xmf
OMS
1
1
Gruplanmış veriler için:
Sınıflanmış veriler için : 60
Örnek: İstatistik I dersini alan 10 öğrencinin vize
notları aşağıdaki gibi sıralanmıştır. Buna göre vize
notları için ortalama mutlak sapma değerini
hesaplayınız.
5,1410
145
10
6998...694169301
n
xxOMS
n
ii
30,41,53,61,68,79,82,88,90,98
6910
98....41301
n
xx
n
ii
04.01.2013
11
61
1
1
171,98 .
k
i i
ik
i
i
m f
x kg
f
1
1
470,969.42
50
k
i i
ik
i
i
f m x
OMS
f
Sınıflar fi mi Ifi(mi-x )I
150-157’den az 5 153,5 92,4 157-164’den az 7 160,5 80,36
164-171’den az 14 167,5 62,72 171-178’den az 9 174,5 22,68 178-185’den az 8 181,5 76,17 185-192’den az 4 188,5 66,08 192-199’dan az 3 195,5 70,56
Toplam 50 470,96
Sınıflanmış Veriler İçin Ortalama
Mutlak Sapma Örneği
62
Yayılma Ölçülerinin Gerekliliği
Örnek 1 Örnek 2
Ölçümler 1,2,3,4,5 2,3,3,3,4
Ortalama
3
5
15
5
54321
x 3
5
15
5
43332
x
x dan Uzaklıklar 1-3, 2-3, 3-3, 4-3, 5-3
veya
-2, -1, 0, 1, 2
2-3, 3-3, 3-3, 3-3, 4-3
veya
-1, 0, 0, 0, 1
İki veri seti için uzaklıklar
a) Örnek 1 b) Örnek 2
63
9) Varyans
• Ortalama mutlak sapmada kullanılan mutlak değerli
ifadeler ile işlem yapmanın zor hatta bazı durumlarda
imkansız olması sebebiyle yeni değişkenlik ölçüsüne
ihtiyaç bulunmaktadır.
• Mutlak değer ifadesindeki zorluk aritmetik ortalamadan
farkların karelerinin alınmasıyla ortadan kalkmaktadır.
• Veri setindeki her bir gözlem değerinin aritmetik
ortalamadan farklarının karelerinin toplamının örnek
hacminin bir eksiğine bölünmesinden elde edilen
yayılım ölçüsüne örnek varyansı adı verilir. 64
Basit veriler İçin:
Anakütle Varyansı:
: Anakütle Ortalaması N : Anakütle Hacmi
Örnek Varyansı :
Gruplanmış veriler için:
Sınıflanmış veriler için :
N
xi
2
2
1
1
2
2
n
xxs
n
ii
1
)(
1
1
2
2
k
i
i
k
i
ii
f
xmf
s
1
)(
1
1
2
2
k
i
i
k
i
ii
f
xxf
s
65
n
ii
xx1
2
ifadesi istatistikte bir çok formülde kullanılır ve
kareler toplamı olarak adlandırılır.
• Matematiksel olarak hesaplama kolaylığı sağlaması
açısından formüllerde kareler toplamının açılımı olan
aşağıdaki eşitlik kullanılabilir.
n
xxxx
n
iin
ii
n
ii
2
1
1
2
1
2
66
1
2
1
1
2
2
n
n
xx
s
n
in
ii
11
1
2
2
2
k
ii
k
ii
k
iiik
iii
f
f
xfxf
s
11
1
2
2
2
k
i
i
k
i
i
k
i
iik
i
ii
f
f
mf
mf
s
Gruplanmış Veriler İçin:
Sınıflanmış Veriler İçin :
Basit Veriler İçin:
04.01.2013
12
Örnek: Bir un fabrikasının satış mağazasında bir gün içinde satılan un
paketlerinin gramajlarına göre göre satış adetleri aşağıda verilmiştir.
Buna göre veri seti için varyans değerlerini hesaplayınız.
Araba Satış adedi xi.fi x2i.fi
0 5 0 0
1 12 12 12
2 35 70 140
3 14 42 126
4 8 32 128
5 6 30 150
toplam 80 186 572
2
2
2
2 1
1
186556
80 1,5679
1
k
i iki
i i ki
i
ik
i
i
f x
f x
f
s
f
68
1
1
171,98 .
k
i i
ik
i
i
m f
x kg
f
Sınıflar fi mi fi(mi-x )2
150-157’den az 5 153,5 1707,552 157-164’den az 7 160,5 922,5328
164-171’den az 14 167,5 280,9856 171-178’den az 9 174,5 57,1536 178-185’den az 8 181,5 725,0432 185-192’den az 4 188,5 1091,642 192-199’dan az 3 195,5 1659,571
Toplam 50 6444,48
Sınıflanmış Veriler İçin Ortalama
Varyans Örneği
2
2 1
1
( )6444,48
131,5250 1
1
k
i i
ik
i
i
f m x
s
f
69
10) Standart Sapma
• Varyans hesaplanırken kullanılan verilerin kareleri
alındığından verilerin ölçü biriminin karesi
varyansında ölçü birimi mevcut ölçü birimini karesi
olur.
• Örnek: kg2, cm2 gibi.
• Bu nitelendirme veriler açısından bir anlam
taşımayacağından varyans yerine ortalama
etrafındaki değişimin bir ölçüsü olarak onun pozitif
karekökü olan standart sapma kullanılır. 70
Basit Veriler İçin:
Populasyon Standart Sapması:
: Populasyon Standart Sapması N : Populasyon Hacmi
Örnek Standart Sapması :
Gruplanmış Veriler İçin:
Sınıflanmış Veriler İçin :
N
xi
2
1
1
2
n
xxs
n
ii
1
)(
1
1
2
k
i
i
k
i
ii
f
xmf
s
1
)(
1
1
2
k
i
i
k
i
ii
f
xxf
s
71
Örnek: İstatistik I dersini alan 10 öğrencinin vize
notları aşağıdaki gibi sıralanmıştır. Buna göre vize
notları için varyans ve standart sapmayı hesaplayınız.
22,5049
4538
9
6998...69416930
1
222
1
2
2
n
xxs
n
ii
6910
98....41301
n
xx
n
ii
22,5042 s
30,41,53,61,68,79,82,88,90,98
45,2222,5042 ss→
İstatistik I vizesinden alınan notların ortalama etrafında yaklaşık
olarak 22 puan değiştiği görülmektedir. 72
Aynı soru kareler ortalamasının açılımı kullanılarak
çözüldüğünde aynı sonuçları verecektir.
6901
n
ii
x
22,5042 s
45,2222,5042 ss
30,41,53,61,68,79,82,88,90,98
521481
2
n
i i
x
x x2
30 900
41 1681
53 2809
61 3721
68 4624
79 6241
82 6724
88 7744
90 8100
9
10
69052148
1
2
2
1
1
2
2
n
n
xx
s
n
in
ii
04.01.2013
13
73
CHEBYSHEV TEOREMİ
Herhangi bir veri setinde, verilerin ortalamanın K standart
sapma uzağında bulunması oranı 1-1/K2 dır. Burada K, birden büyük
pozitif sayıdır.
K=2 ve K=3 için;
•Verilerin en az 3/4’ ü (%75) ortalamanın 2 standart sapma uzagında
bulunur.
•Verilerin en az 8/9’ u (%89) ortalamanın 3 standart sapma uzağında
bulunur.
74
• Örnek: X değişkeni bir sınıftaki İstatistik I dersinin başarı notlarını göstermek üzere, örnek ortalamasının 60 varyansının 100 olduğu bilindiğine göre, verilerin ¾ ‘ü hagi aralıkta değişir?
2
1 31 2
4
2
60 2.10
40,80
kk
x s
75
Standart Sapmanın Yorumlanması
- Chebyshev teoreminden, frekans dağılımının şekline
bakılmaksızın, ölçümlerin herhangi bir örneğine uygulanan
kural:
a- Ölçümlerden hiçbirinin ),( sxsxyadasx
aralığına
düşmemesi mümkündür.
b- Ölçümlerin en az ¾’ü )2,2( sxsx
aralığına düşer.-
ortalamanın
c- Ölçümlerin en az 8/9’u )3,3( sxsx
aralığına düşer.-
d- Genellikle, ölçümlerin en az (1-1/k2)’ı ),( ksxksx
aralığına
düşer. (k>1) 76
- Simekrik dağılışlarda standart sapmanın yorumu:
a- Ölçümlerin yaklaşık %68’i
),( sxsxyadasx
aralığına düşer.- ortalamanın 1
standart sapması için
b- Ölçümlerin yaklaşık %95’i )2,2( sxsx
aralığına
düşer.- ortalamanın 2 standart sapması için
c- Temelde, tüm ölçümler )3,3( sxsx
aralığına düşer.
-ortalamanın 3 standart sapması için
77
Ampirik Kural
78
Ampirik Kural
04.01.2013
14
79
Ampirik Kural
80
• Örnek veri seti:
• 50 şirketin AR-GE için harcanan gelirlerinin
yüzdeleri burada tekrar verilmiştir:
13.5 9.5 8.2 6.5 8.4 8.1 6.9 7.5 10.5 13.5
7.2 7.1 9.0 9.9 8.2 13.2 9.2 6.9 9.6 7.7
9.7 7.5 7.2 5.9 6.6 11.1 8.8 5.2 10.6 8.2
11.3 5.6 10.1 8.0 8.5 11.7 7.1 7.7 9.4 6.0
8.0 7.4 10.5 7.8 7.9 6.5 6.9 6.5 6.8 9.5
81
Örnek: Aralıkları içinde kalan bu ölçümlerin kesrini(fraction) hesaplayınız
Çözüm: İlk aralık
• = (8.49 – 1.98, 8.49 + 1.98) = (6.51, 10.47)
50 ölçümün 34’ünün ve ya %68’inin ortalamanın 1 standart sapması içerisinde olduğunu ortaya koyar.
Aralık,
= (8.49 – 3.96 , 8.49 + 3.96 ) = (4.53, 12.45)
50 ölçümün 47’sini ya da %94’ünü içerir.
ortalama etrafında 3 standart sapma aralığı,
= (8.49 – 5.94 , 8.49 + 5.94 ) = (2.55, 14.43)
tüm ölçümleri içerir.
82
Örneklem Anakütle
x - µ z =
2 ondalık basamağa yuvarlanır.
11) z Skoru
z = x - x
s
Verilen bir gözlem değerinin ortalamanın kaç standart
sapma uzağında olduğunu ölçer.
83
z- skorunun Yorumlanması
Bir veri ortalamadan küçük olursa z-skoru değeri negatif olur.
Olağan Veriler : z skoru –2 ve 2 s.s arasında
Olağandışı Veriler: z skoru < -2 veya z skoru > 2 s.s
84
04.01.2013
15
85
• Örnek: 200 çelik işçisinin yıllık gelirleri incelenmiş
ve ortalaması = 24.000$ ve standart sapması s=
2.000$ olarak bulunmuştur. Yıllık geliri 22.000$ olan
Joe Smith’in z-skoru kaçtır?
18.000$
22.000$
Joe
Smith’in
geliri
24.000$
30.000$
86
z=s
xx
= $000.2
$000.24$000.22 =-1.0 bulunur. Burada ki -1.0 ın
anlamı Joe Smith’in yıllık geliri ortalamanın 1 standart
sapma altındadır.
z-skorunun sayısal değeri göreli durumlar için ölçümü
yansıtmaktadır. Bir x değeri için bulunan en büyük
pozitif z-skoru değeri, bu x değerinin diğer bütün
ölçümlerden daha büyük olduğunu gösterir ve mutlak
değerce en büyük negatif z-skoru değeri de bu ölçümün
diğer tüm ölçümlerden daha küçük olduğunu gösterir.
Eğer z skoru 0 veya 0’a yakın ise ölçüm ortalamaya eşit
veya ortalamaya çok yakındır.
87
12) Değişkenlik(Varyasyon)
Katsayısı • İki veya daha fazla populasyon üzerinde aynı şans değişkenleri için yapılan araştırmalarda değişkenliklerin karşılaştırılması için kullanılan bir ölçüdür.
• Standart sapmayı ortalamanın bir yüzdesi olarak ifade eden ve iki veya daha fazla populasyondaki varyasyonu (değişkenliği) karşılaştırmada kullanılan ölçüye varyasyon(değişkenlik) katsayısı denir.
• Örnek: İstanbul’da ve Ankara’da yaşayan ailelerin aylık gelirlerinin değişkenliklerinin karşılaştırılması
Varyasyon
Katsayısı:
100*X
sC
V
88
s
A 8 2
B 5 1
C 15 3
x
Örnek: A,B ve C hisse senetlerinin kapanış fiyatlarına ilişkin yapılan bir
araştırmada, hisse senetlerinin kapanış fiyatlarının ortalamaları ve standart
sapmaları hesaplanmış ve aşağıdaki tabloda verilmiştir. Buna göre hisse senetlerini
kapanış fiyatlarının değişkenlikleri açısından karşılaştırınız ve hangi hisse
senedinin fiyatındaki değişkenlik daha fazladır ifade ediniz.
2*100 *100 25 %25
8
AVA
A
sC
X
Üç hisse senedinin kapanış fiyatlarının değişkenlikleri
karşılaştırıldığında en büyük standart sapma değeri C hisse senedinde
olmasına rağmen en büyük varyasyon katsayısına sahip olduğundan en
fazla değişkenliğin A hisse senedinde olduğu görülür.
1*100 *100 20 %20
5
BVB
B
sC
X
3*100 *100 20 %20
15
CVC
C
sC
X
89
Simetrik Veriler
Eğer veri simetrik ise verinin histogramının sağ tarafı
ve sol tarafı eşit büyüklüktedir
Çarpık Veriler
Eğer veri çarpık ise (simetrik değilse), verinin
histogramın bir kısmı diğer kısmın büyüktür veya
küçüktür.
Tanımlamalar
90
Çarpıklık
04.01.2013
16
91
Çarpıklık (Asimetri) Ölçüleri
• Anakütleleri birbirinden ayırmak için her zaman
yalnızca yer ve yayılım ölçüleri yeterli olmayabilir.
Aşağıda iki farklı anakütleden alınmış örnekler için
oluşturulan histogramlar verilmiştir.
92
13) Asimetri Ölçüleri
PEARSON ÇARPIKLIK ÖLÇÜSÜ
s
xSk p
mod SkP < 0 →Negatif çarpık(Sola)
SkP > 0 → Pozitif Çarpık(Sağa)
SkP = 0 ise dağılış simetrik
s
medXSk p
)(3
veya
BOWLEY ÇARPIKLIK ÖLÇÜSÜ
13
1223 )()(
QQQQSkb
Skb < 0 → Negatif çarpık(Sola)
Skb > 0 → Pozitif Çarpık(Sağa)
Skb = 0 ise dağılış simetrik
93
Örnek: Aşağıdaki tabloda 30 günlük süre içinde bir restoranın kullandığı
et miktarının dağılımından elde edilen bazı tanımlayıcı istatistikler
verilmiştir. Buna göre pearson ve bowley asimetri ölçülerini hesaplayıp
yorumlayınız.
Ar i t m e t i k O r t .
Mod
Medyan
Q1
Q2
s2
46,6 45,4 46,2 41,5 51,9 54,46
016,046,54
4,456,46mod
s
xSk p
016,046,54
)2,466,46(3)(3
s
medXSk p
010,04,10
1
5,419,51
)5,412,46()2,469,51()()(
13
1223
QQQQSkb
Sağa Çarpık ,
Pozitif Asimetri
Sağa Çarpık ,
Pozitif Asimetri
Sağa Çarpık,
Pozitif Asimetri
94
Simetrik Dağılım
A.O = Med = Mod
Sağa çarpık dağılım
A.O > Med > Mod
Sola çarpık dağılım
A.O < Med < Mod
İki modlu simetrik dağılım Modu olmayan dağılım Tekdüzen dağılım
95
Sapan gözlem ortalama üzerinde önemli bir etkiye sahip olabilir.
Sapan gözlem standart sapma üzerinde önemli bir etkiye sahip olabilir.
Sapan gözlem dağılımın gerçek histogramının ölçeği üzerinde önemli bir etkiye sahip olabilir.
Sapan gözlem, diğer bütün gözlemlerden uzakta
bulunan gözlemdir.
14) Sapan Gözlemler
96
5 sayı özeti, bir veri setinde minimum değer,
1.Kartil, 2.Kartil(medyan), 3.Kartil’i ve
maksimum değeri içerir.
Kutu grafiği(veya kutu ve bıyık grafiği) bir veri
seti için, sınırları maksimum ve minimum değer
olmak üzere, içinde 1.Kartil, 2.Kartil(medyan) ve
3.Kartil’i bulunduran kutu şeklindeki grafiktir.
15) 5 Sayı Özeti
04.01.2013
17
97
Kutu Grafiği
98
Kutu grafiği hazırlama
• Q1:Kutunun sol kenarı
• Q3:Kutunu sağ kenarı
• Q2:Kutunun ortasındaki çizgi
• Sapan hariç min.: Sol bıyık
• Sapan hariç max.: Sağ bıyık
• Sapan değer kontrolu
Q1 – 1.5(Q3 – Q1)
Q3 + 1.5(Q3 – Q1) bu değerleri aşan veriler * ile gösterilir.
• Örnek:
Yazlık ürünler satan bir mağazada
haftalık satılan t-shirt sayıları
yandaki tabloda verilmiştir.
Verilen tablodan beş sayı özetini
bulunuz ve kutu grafiğini çiziniz.
27 22 20
17 18 18
22 21 29
20 32 17
30 19 28
25 20 31
22 23 21
28 22 24
18 18 32
25 18 44
17
• Çözüm:
Öncelikle veriler yandaki gibi
sıralanırsa;
Q1=(31+1)/4=8.sıraya karşılık
gelen veri olur.
Q1=18
Q3=3(31+1)/4=24. sıraya karşılık
gelen veri olur.
Q3=28
Minimum değer=17,
Maksimum değer=44 ve
Medyan(Q2)=22 olur.
Sapan değerleri kontrol etmek için;
Q1-1,5(Q3-Q1)=18-1,5(28-18)=3
Q3+1,5(Q3-Q1)=28+1,5(28-18)=43
bulunur. Bu durumda elimizdeki
44 değeri sapan değerdir ve * ile
gösterilir..
17 20 25
17 20 25
17 21 27
18 21 28
18 22 28
18 22 29
18 22 30
18 22 31
19 23 32
20 24 32
44
20
25
30
35
40
45 *
Medyan(Q2)=22
44 sapan değer
102
Kutu Grafiği
Figure
2-16
04.01.2013
18
103
Figure 2-17
Kutu Grafiği
104
16) Basıklık Ölçüsü
A
B
A = B
Aşağıdaki A ve B dağılımlarının ortalamaları, değişkenlik
ölçülerinin aynı olmasından dolayı ve hatta ikisinin de
simetrik olmalarından dolayı bu iki dağılışı ayırt etmek için
Basıklık Ölçüsü kullanılır.
105
Herhangi bir olasılık fonksiyonunun şekli ile ilgili
parametrelerden bir tanesi de basıklık ölçüsüdür.
Basıklık Ölçüsü ortalamaya göre dördüncü momentten
gidilerek hesaplanır ve 4 olarak gösterilir.
4
44
4 = 3 ise Seri Normal
4 < 3 ise Seri Basık
4 < 3 ise Seri Sivri Ya da Yüksek
n
xn
i
i
1
4
4
Basit Seri İçin