Katarzyna Lubnauer 58
Podstawowe miary rozproszenia:
Wariancja z populacji:
22 2 2
1 1
1 1k k
i ii i
s x x x xn n
Czasem stosuje się też inny wzór na wariancję z próby, tak policzy Excel:
22
1
11
k
ii
s x xn
Przykład38, 41, 44, 45, 45, 52, 54, 56, 60, 64, 69, 71, 76, 77, 78, 79, 80, 81, 87, 88, 90, 98
1
1 66,95n
ii
x xn
2 2 2
1
1 306,77n
ii
s x xn
22
1
1 321,381
n
ii
s x xn
Katarzyna Lubnauer 59
Odchylenie standardowe to pierwiastek z wariancji:
2
1
1 k
ii
s x xn
2
1
11
k
ii
s x xn
lub
Przykład38, 41, 44, 45, 45, 52, 54, 56, 60, 64, 69, 71, 76, 77, 78, 79, 80, 81, 87, 88, 90, 98
306,77 17,5s 321,38 17,9s
Katarzyna Lubnauer 60
W szeregach rozdzielczych punktowych stosuje się tzw. wariancję, wyrażającą się wzorem:
22 2 2
1 1
1 1k k
i i i ii i
s n x x n x xn n
22
1
11
k
i ii
s n x xn
wartość wariantu i - tej klasy (przedziału)
liczebność i-tej klasy
Liczebność populacji
liczba klas
ix
in
k
n
Katarzyna Lubnauer 61
Dla szeregu rozdzielczego przedziałowego:
środek i - tej klasy (przedziału)
liczebność i-tej klasy
Liczebność populacji
liczba klas
1
2i i
ix xx
in
k
n
22 2 2
1 1
1 1k k
i i i ii i
s n x x n x xn n
22
1
11
k
i ii
s n x xn
Katarzyna Lubnauer 62
Współczynnik zmienności (niekiedy wynik jest podawany w procentach) Współczynnik zmienności mierzy zróżnicowanie względne i określa jaką część (ile procent) przeciętnego poziomu badanej cechy stanowi odchylenie standardowe.
svx
PrzykładMamy dwie maszyny rozsypujące cukier do torebek:1. Maszyna A rozsypuje cukier do torebek 1 kg, wyniki otrzymane przy kontroli wagi
pokazują następujące wyniki w kg: 0,85; 0,87; 0,9; 0,91; 1,03; 1,03; 1,08; 1,1; 1,122. Maszyna B rozsypuje cukier do worków 1 00kg, wyniki otrzymane przy kontroli wagi
pokazują następujące wyniki w kg: 86; 87,5; 91; 91; 100; 102; 105; 110; 115
svx
0,10533 0,1066330,987778
AA
A
svx
10,31315 0,10458498,61111
BB
B
svx
0,10533As
10,31315Bs
Badanie go ma sens tylko dla cech o dodatnich wartościach
Katarzyna Lubnauer 63
Def. Odchylenie przeciętne SD - jest to średnia arytmetyczna bezwzględnych odchyleń wartości cechy od średniej arytmetycznej. Określa o ile jednostki danej zbiorowości różnią się średnio, ze względu na wartość cechy, od średniej arytmetycznej.
Odchylenie przeciętne
W szeregach szczegółowych stosuje się odchylenie przeciętne , wyrażającą się wzorem:
1
1 n
D ii
S x xn
Katarzyna Lubnauer 64
W szeregach rozdzielczych punktowych stosuje się odchylenie przeciętne, wyrażającą się wzorem:
wartość wariantu i - tej klasy (przedziału)
liczebność i-tej klasy
Liczebność populacji
liczba klas
ix
in
k
n
1
1 k
D i ii
S n x xn
Katarzyna Lubnauer 65
W szeregach rozdzielczych przedziałowych stosuje się odchylenie przeciętne, wyrażającą się wzorem:
Środek i - tej klasy (przedziału)
liczebność i-tej klasy
Liczebność populacji
liczba klas
ix
in
k
n
1
1 k
D i ii
S n x xn
Katarzyna Lubnauer 66
DS s
Zachodzi następująca zależność między odchyleniem przeciętnym i standardowym
Dla powyższej miary rozrzutu też można zdefiniować współczynnik zmienności:
DD
svx
Katarzyna Lubnauer 67
Rozstęp jest najprostszą miarą rozproszenia (zmienności). Jest niczym innym jak różnicą między wartością maksymalną a minimalną z naszego zbioru obserwacji. Pokazuje zatem jedynie jaki jest zakres naszych obserwacji nie informuje w żaden sposób co dzieje się "w środku" tego zakresu np. jaka wartość występowała najczęściej, czy jaka jest średnia dla tego zbioru obserwacji.
max minR x x Max Min Przykład38, 41, 44, 45, 45, 52, 54, 56, 60, 64, 69, 71, 76, 77, 78, 79, 80, 81, 87, 88, 90, 98
max min 98 38 60R x x
UwagaWartość miary R zależy jedynie od dwóch skrajnych (największej i najmniejszej) wartości zmiennej, nie dostarczając tym samym wyczerpującej informacji o zróżnicowaniu pozostałych wartości cechy . Jest to niewątpliwie słabością tej miary dyspersji.
Katarzyna Lubnauer 68
Dlatego też często stosuje się inny rodzaj rozstępu, jakim jest odstęp międzykwartylowy.
Odstęp międzykwartylowy definiuje się wzorem:
1 3IQR Q Q
Przykład38, 41, 44, 45, 45, 52, 54, 56, 60, 64, 69, 71, 76, 77, 78, 79, 80, 81, 87, 88, 90, 98
1 3 79,75 52,5 17,25IQR Q Q
Min = 38 Q1=52,5 Q3=79,75 Max = 98
66,95x Me=70
Katarzyna Lubnauer 69
Znając średnie, mediany, kwartyle oraz wartości skrajne możemy zbudować wykresy pudełkowe w celu porównywania dwóch podobnych populacji ze względu na tę samą cechę.
Na rysunki mamy wykresy pudełkowe dla 2 grup studentów i ich wyniki procentowe z tego samego egzaminu.Jakie wnioski możemy wyciągnąć porównując wykresy?
Min = 38 Q1=52,5 Q3=79,75 Max = 98
66,95x Me=70
Min = 45 Q1=60,5 Q3=72,5 Max = 88
62,25x Me=64
Katarzyna Lubnauer 70
Przedział typowych wartości
[x - s, x + s]Jest to przedział, do którego należy większość danych statystycznych, interpretacja ta jest uzasadniona wtedy, gdy cecha ma rozkład zbliżony do rozkładu normalnego.
Katarzyna Lubnauer 71
Miara rozproszenia Zalety Wady
Wariancja, odchyleniestandardowe
• Łatwo policzyć, jest zdefiniowanaalgebraicznie
• Uwzględnia wszystkie wartości wariantów cechy
• Duży wpływ mają na nią wartości odskakujące
• Zniekształcenie w przypadku rozkładów skośnych
• Trudno porównywać przy różnychwielkościach
Współczynnik zmienności
• Łatwo policzyć, jest zdefiniowanaalgebraicznie
• Uwzględnia wszystkie wartości wariantów cechy
• Można porównywać dwie różniące się wartościami populacje
• Duży wpływ mają na nią wartości odskakujące
• Zniekształcenie w przypadku rozkładów skośnych
Rozstęp • Łatwo znaleźć • Zniekształcony przez wartości odskakujące
• Pomija większość informacji• Nie jest zdefiniowana algebraicznie
IQR • Nie jest zniekształcona w przypadku rozkładów skośnych
• Brak wpływu wartości odskakujących
• Dobry w przypadku rozkładów skośnych
• Pomija większość informacji• Nie jest zdefiniowana algebraicznie• Nie powinno się stosować do małych
prób
Zalety i wady różnych miar rozproszenia
Katarzyna Lubnauer 72
Miary asymetrii
Jak interpretujemy wartości miar asymetrii?
1 0x
2 0x
02468
1012141618
-3 -2 -1 0 1 2 3 4 5 6 7
02468
1012141618
-7 -6 -5 -4 -3 -2 -1 0 1 2 3
1 5,062279s
2 5,062279s
Katarzyna Lubnauer 73
Znak współczynnika asymetrii wskazuje na kierunek asymetrii natomiast jego wartość bezwzględna określa siłę asymetrii.
Mówimy, że rozkład może być
symetryczny:
Katarzyna Lubnauer 74
prawoskośny,
lewoskośny
Katarzyna Lubnauer 75
DefRozkład symetryczny występuje, jeśli skupienie wyników znajduje się wokół środka rozkładu.Rozkład prawoskośny - (asymetria dodatnia) wyniki skupiają się przy niskich wartościach cechy.Rozkład lewoskośny - (asymetria ujemna) wyniki skupiają się przy wysokich wartościach cechy.
Skośność mierzymy przy pomocy miar asymetrii, najpopularniejsze to:
Współczynnik asymetrii (klasyczny)
3
13
1 n
ii
x xnA
s
Katarzyna Lubnauer 76
Współczynnik asymetrii (klasyczny) dla szeregu punktowego:
3
13
1 k
i ii
n x xnA
s
3
13
1 k
i ii
n x xnA
s
Współczynnik asymetrii (klasyczny) dla szeregu przedziałowego:
Symbole we wzorach oznaczają to co zawsze.
Katarzyna Lubnauer 77
Miary asymetrii
Jak interpretujemy wartości miar asymetrii?
1 0x
2 0x
02468
1012141618
-3 -2 -1 0 1 2 3 4 5 6 7
02468
1012141618
-7 -6 -5 -4 -3 -2 -1 0 1 2 3
1 5,062279s
2 5,062279s
1 0,077084A
2 0,077084A
Katarzyna Lubnauer 78
Współczynnik asymetrii (klasyczny) - własności
na ogół
2 2A
• określa kierunek i siłę asymetrii, ujemny oznacz rozkład o asymetrii lewostronnej , a dodatni prawostronnej
• o sile asymetrii mówi wartość bezwzględna z A:0-0,4 bardzo słaba asymetria, rozkład prawie symetryczny 0,4-0,8 słaba asymetria0,8-1,2 umiarkowana asymetria1,2-1,6 siła asymetriaPowyżej 1,6 bardzo silna asymetria.
Skośność (inna odmiana klasycznego współczynnika skośności)
3
311 2
ni
i
x xnAn n s
Z tego wzoru policzymy
skośność korzystając z Excela.
Katarzyna Lubnauer 79
Wskaźnik asymetrii Pearsona:
x dAPs
Możemy go wyznaczać tylko, jeśli próba ma modę (dominantę) dna ogół
1 1AP określa kierunek i siłę asymetrii, ujemny oznacz rozkład o asymetrii lewostronnej, a dodatni prawostronnejo sile asymetrii mówi wartość bezwzględna z AP :
0,0 - 0,2 bardzo słaba asymetria, rozkład prawie symetryczny 0,2 - 0,4 słaba asymetria0,4 - 0,6 umiarkowana asymetria0,6 - 0,8 silna asymetriaPowyżej 0,8 bardzo silna asymetria.
Katarzyna Lubnauer 80
Zauważmy, że najprostszym, prymitywnym sposobem badania skośności może być porównywanie położenia średniej i mediany,
• Jeśli średnia jest na prawo od mediany
d Me x to mamy asymetrię prawoskośną
• Jeśli średnia jest na lewo od mediany
x Me d to mamy asymetrię lewośną
Katarzyna Lubnauer 81
Miary skupienia (koncentracji)
Def.Koncentracja oznacza skupienie wartości cechy wokół średniej arytmetycznej z próby.
Def.Współczynnikiem kurtozy (koncentracji, spłaszczenia) nazywamy wartość K otrzymaną ze wzoru:
44
mKs
44
1
1 n
ii
m x xn
gdzie
Jest 4 momentem centralnym z populacji.
W celu oceny koncentracji badanego rozkładu porównuje się ją do rozkładu normalnego, dla którego 3K
Katarzyna Lubnauer 82
Def.Współczynnikiem ekscesu nazywamy wartość liczoną ze wzoru:
3K K Jak widać celem wprowadzenia nowego pojęcia było przesunięcie wartości do 0.
Rozkłady prawdopodobieństwa można podzielić ze względu na wartość współczynnika ekscesu na rozkłady:mezokurtyczne - wartość kurtozy wynosi 0, spłaszczenie rozkładu jest podobne do spłaszczenia rozkładu normalnego (dla którego kurtoza wynosi dokładnie 0)leptokurtyczne - kurtoza jest dodatnia, wartości cechy bardziej skoncentrowane niż przy rozkładzie normalnymplatokurtyczne - kurtoza jest ujemna, wartości cechy mniej skoncentrowane niż przy rozkładzie normalnym
Katarzyna Lubnauer 83
Katarzyna Lubnauer 84