statystyka opisowa 1 - urząd miasta...

Post on 13-Jul-2020

1 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Katarzyna Lubnauer 58

Podstawowe miary rozproszenia:

Wariancja z populacji:

22 2 2

1 1

1 1k k

i ii i

s x x x xn n

Czasem stosuje się też inny wzór na wariancję z próby, tak policzy Excel:

22

1

11

k

ii

s x xn

Przykład38, 41, 44, 45, 45, 52, 54, 56, 60, 64, 69, 71, 76, 77, 78, 79, 80, 81, 87, 88, 90, 98

1

1 66,95n

ii

x xn

2 2 2

1

1 306,77n

ii

s x xn

22

1

1 321,381

n

ii

s x xn

Katarzyna Lubnauer 59

Odchylenie standardowe to pierwiastek z wariancji:

2

1

1 k

ii

s x xn

2

1

11

k

ii

s x xn

lub

Przykład38, 41, 44, 45, 45, 52, 54, 56, 60, 64, 69, 71, 76, 77, 78, 79, 80, 81, 87, 88, 90, 98

306,77 17,5s 321,38 17,9s

Katarzyna Lubnauer 60

W szeregach rozdzielczych punktowych stosuje się tzw. wariancję, wyrażającą się wzorem:

22 2 2

1 1

1 1k k

i i i ii i

s n x x n x xn n

22

1

11

k

i ii

s n x xn

wartość wariantu i - tej klasy (przedziału)

liczebność i-tej klasy

Liczebność populacji

liczba klas

ix

in

k

n

Katarzyna Lubnauer 61

Dla szeregu rozdzielczego przedziałowego:

środek i - tej klasy (przedziału)

liczebność i-tej klasy

Liczebność populacji

liczba klas

1

2i i

ix xx

in

k

n

22 2 2

1 1

1 1k k

i i i ii i

s n x x n x xn n

22

1

11

k

i ii

s n x xn

Katarzyna Lubnauer 62

Współczynnik zmienności (niekiedy wynik jest podawany w procentach) Współczynnik zmienności mierzy zróżnicowanie względne i określa jaką część (ile procent) przeciętnego poziomu badanej cechy stanowi odchylenie standardowe.

svx

PrzykładMamy dwie maszyny rozsypujące cukier do torebek:1. Maszyna A rozsypuje cukier do torebek 1 kg, wyniki otrzymane przy kontroli wagi

pokazują następujące wyniki w kg: 0,85; 0,87; 0,9; 0,91; 1,03; 1,03; 1,08; 1,1; 1,122. Maszyna B rozsypuje cukier do worków 1 00kg, wyniki otrzymane przy kontroli wagi

pokazują następujące wyniki w kg: 86; 87,5; 91; 91; 100; 102; 105; 110; 115

svx

0,10533 0,1066330,987778

AA

A

svx

10,31315 0,10458498,61111

BB

B

svx

0,10533As

10,31315Bs

Badanie go ma sens tylko dla cech o dodatnich wartościach

Katarzyna Lubnauer 63

Def. Odchylenie przeciętne SD - jest to średnia arytmetyczna bezwzględnych odchyleń wartości cechy od średniej arytmetycznej. Określa o ile jednostki danej zbiorowości różnią się średnio, ze względu na wartość cechy, od średniej arytmetycznej.

Odchylenie przeciętne

W szeregach szczegółowych stosuje się odchylenie przeciętne , wyrażającą się wzorem:

1

1 n

D ii

S x xn

Katarzyna Lubnauer 64

W szeregach rozdzielczych punktowych stosuje się odchylenie przeciętne, wyrażającą się wzorem:

wartość wariantu i - tej klasy (przedziału)

liczebność i-tej klasy

Liczebność populacji

liczba klas

ix

in

k

n

1

1 k

D i ii

S n x xn

Katarzyna Lubnauer 65

W szeregach rozdzielczych przedziałowych stosuje się odchylenie przeciętne, wyrażającą się wzorem:

Środek i - tej klasy (przedziału)

liczebność i-tej klasy

Liczebność populacji

liczba klas

ix

in

k

n

1

1 k

D i ii

S n x xn

Katarzyna Lubnauer 66

DS s

Zachodzi następująca zależność między odchyleniem przeciętnym i standardowym

Dla powyższej miary rozrzutu też można zdefiniować współczynnik zmienności:

DD

svx

Katarzyna Lubnauer 67

Rozstęp jest najprostszą miarą rozproszenia (zmienności). Jest niczym innym jak różnicą między wartością maksymalną a minimalną z naszego zbioru obserwacji. Pokazuje zatem jedynie jaki jest zakres naszych obserwacji nie informuje w żaden sposób co dzieje się "w środku" tego zakresu np. jaka wartość występowała najczęściej, czy jaka jest średnia dla tego zbioru obserwacji.

max minR x x Max Min Przykład38, 41, 44, 45, 45, 52, 54, 56, 60, 64, 69, 71, 76, 77, 78, 79, 80, 81, 87, 88, 90, 98

max min 98 38 60R x x

UwagaWartość miary R zależy jedynie od dwóch skrajnych (największej i najmniejszej) wartości zmiennej, nie dostarczając tym samym wyczerpującej informacji o zróżnicowaniu pozostałych wartości cechy . Jest to niewątpliwie słabością tej miary dyspersji.

Katarzyna Lubnauer 68

Dlatego też często stosuje się inny rodzaj rozstępu, jakim jest odstęp międzykwartylowy.

Odstęp międzykwartylowy definiuje się wzorem:

1 3IQR Q Q

Przykład38, 41, 44, 45, 45, 52, 54, 56, 60, 64, 69, 71, 76, 77, 78, 79, 80, 81, 87, 88, 90, 98

1 3 79,75 52,5 17,25IQR Q Q

Min = 38 Q1=52,5 Q3=79,75 Max = 98

66,95x Me=70

Katarzyna Lubnauer 69

Znając średnie, mediany, kwartyle oraz wartości skrajne możemy zbudować wykresy pudełkowe w celu porównywania dwóch podobnych populacji ze względu na tę samą cechę.

Na rysunki mamy wykresy pudełkowe dla 2 grup studentów i ich wyniki procentowe z tego samego egzaminu.Jakie wnioski możemy wyciągnąć porównując wykresy?

Min = 38 Q1=52,5 Q3=79,75 Max = 98

66,95x Me=70

Min = 45 Q1=60,5 Q3=72,5 Max = 88

62,25x Me=64

Katarzyna Lubnauer 70

Przedział typowych wartości

[x - s, x + s]Jest to przedział, do którego należy większość danych statystycznych, interpretacja ta jest uzasadniona wtedy, gdy cecha ma rozkład zbliżony do rozkładu normalnego.

Katarzyna Lubnauer 71

Miara rozproszenia Zalety Wady

Wariancja, odchyleniestandardowe

• Łatwo policzyć, jest zdefiniowanaalgebraicznie

• Uwzględnia wszystkie wartości wariantów cechy

• Duży wpływ mają na nią wartości odskakujące

• Zniekształcenie w przypadku rozkładów skośnych

• Trudno porównywać przy różnychwielkościach

Współczynnik zmienności

• Łatwo policzyć, jest zdefiniowanaalgebraicznie

• Uwzględnia wszystkie wartości wariantów cechy

• Można porównywać dwie różniące się wartościami populacje

• Duży wpływ mają na nią wartości odskakujące

• Zniekształcenie w przypadku rozkładów skośnych

Rozstęp • Łatwo znaleźć • Zniekształcony przez wartości odskakujące

• Pomija większość informacji• Nie jest zdefiniowana algebraicznie

IQR • Nie jest zniekształcona w przypadku rozkładów skośnych

• Brak wpływu wartości odskakujących

• Dobry w przypadku rozkładów skośnych

• Pomija większość informacji• Nie jest zdefiniowana algebraicznie• Nie powinno się stosować do małych

prób

Zalety i wady różnych miar rozproszenia

Katarzyna Lubnauer 72

Miary asymetrii

Jak interpretujemy wartości miar asymetrii?

1 0x

2 0x

02468

1012141618

-3 -2 -1 0 1 2 3 4 5 6 7

02468

1012141618

-7 -6 -5 -4 -3 -2 -1 0 1 2 3

1 5,062279s

2 5,062279s

Katarzyna Lubnauer 73

Znak współczynnika asymetrii wskazuje na kierunek asymetrii natomiast jego wartość bezwzględna określa siłę asymetrii.

Mówimy, że rozkład może być

symetryczny:

Katarzyna Lubnauer 74

prawoskośny,

lewoskośny

Katarzyna Lubnauer 75

DefRozkład symetryczny występuje, jeśli skupienie wyników znajduje się wokół środka rozkładu.Rozkład prawoskośny - (asymetria dodatnia) wyniki skupiają się przy niskich wartościach cechy.Rozkład lewoskośny - (asymetria ujemna) wyniki skupiają się przy wysokich wartościach cechy.

Skośność mierzymy przy pomocy miar asymetrii, najpopularniejsze to:

Współczynnik asymetrii (klasyczny)

3

13

1 n

ii

x xnA

s

Katarzyna Lubnauer 76

Współczynnik asymetrii (klasyczny) dla szeregu punktowego:

3

13

1 k

i ii

n x xnA

s

3

13

1 k

i ii

n x xnA

s

Współczynnik asymetrii (klasyczny) dla szeregu przedziałowego:

Symbole we wzorach oznaczają to co zawsze.

Katarzyna Lubnauer 77

Miary asymetrii

Jak interpretujemy wartości miar asymetrii?

1 0x

2 0x

02468

1012141618

-3 -2 -1 0 1 2 3 4 5 6 7

02468

1012141618

-7 -6 -5 -4 -3 -2 -1 0 1 2 3

1 5,062279s

2 5,062279s

1 0,077084A

2 0,077084A

Katarzyna Lubnauer 78

Współczynnik asymetrii (klasyczny) - własności

na ogół

2 2A

• określa kierunek i siłę asymetrii, ujemny oznacz rozkład o asymetrii lewostronnej , a dodatni prawostronnej

• o sile asymetrii mówi wartość bezwzględna z A:0-0,4 bardzo słaba asymetria, rozkład prawie symetryczny 0,4-0,8 słaba asymetria0,8-1,2 umiarkowana asymetria1,2-1,6 siła asymetriaPowyżej 1,6 bardzo silna asymetria.

Skośność (inna odmiana klasycznego współczynnika skośności)

3

311 2

ni

i

x xnAn n s

Z tego wzoru policzymy

skośność korzystając z Excela.

Katarzyna Lubnauer 79

Wskaźnik asymetrii Pearsona:

x dAPs

Możemy go wyznaczać tylko, jeśli próba ma modę (dominantę) dna ogół

1 1AP określa kierunek i siłę asymetrii, ujemny oznacz rozkład o asymetrii lewostronnej, a dodatni prawostronnejo sile asymetrii mówi wartość bezwzględna z AP :

0,0 - 0,2 bardzo słaba asymetria, rozkład prawie symetryczny 0,2 - 0,4 słaba asymetria0,4 - 0,6 umiarkowana asymetria0,6 - 0,8 silna asymetriaPowyżej 0,8 bardzo silna asymetria.

Katarzyna Lubnauer 80

Zauważmy, że najprostszym, prymitywnym sposobem badania skośności może być porównywanie położenia średniej i mediany,

• Jeśli średnia jest na prawo od mediany

d Me x to mamy asymetrię prawoskośną

• Jeśli średnia jest na lewo od mediany

x Me d to mamy asymetrię lewośną

Katarzyna Lubnauer 81

Miary skupienia (koncentracji)

Def.Koncentracja oznacza skupienie wartości cechy wokół średniej arytmetycznej z próby.

Def.Współczynnikiem kurtozy (koncentracji, spłaszczenia) nazywamy wartość K otrzymaną ze wzoru:

44

mKs

44

1

1 n

ii

m x xn

gdzie

Jest 4 momentem centralnym z populacji.

W celu oceny koncentracji badanego rozkładu porównuje się ją do rozkładu normalnego, dla którego 3K

Katarzyna Lubnauer 82

Def.Współczynnikiem ekscesu nazywamy wartość liczoną ze wzoru:

3K K Jak widać celem wprowadzenia nowego pojęcia było przesunięcie wartości do 0.

Rozkłady prawdopodobieństwa można podzielić ze względu na wartość współczynnika ekscesu na rozkłady:mezokurtyczne - wartość kurtozy wynosi 0, spłaszczenie rozkładu jest podobne do spłaszczenia rozkładu normalnego (dla którego kurtoza wynosi dokładnie 0)leptokurtyczne - kurtoza jest dodatnia, wartości cechy bardziej skoncentrowane niż przy rozkładzie normalnymplatokurtyczne - kurtoza jest ujemna, wartości cechy mniej skoncentrowane niż przy rozkładzie normalnym

Katarzyna Lubnauer 83

Katarzyna Lubnauer 84

top related