a)dystrybuanta rozkładu populacji ma b) jak iimif.utp.edu.pl/amusielak/wyklady/wyk4.pdf · w celu...
TRANSCRIPT
Wykład 4
Testy zgodności.
Testy zgodności służą do weryfikacji hipotez
mówiących, że
a) dystrybuanta rozkładu populacji ma
określoną z góry postać funkcyjną
b) dystrybuanty rozkładów dwóch populacji
nie różnią się w sposób istotny.
Testy te wymagają z reguły dużej próby. Należy
zauważyć, że pojęcie zgodności rozkładów
obejmuje zarówno rodzaj rozkładu jak i
wartości parametrów.
Hipotezę o zgodności rozkładów odrzuca się
zarówno wtedy, gdy nieodpowiednia jest postać
funkcyjna rozkładu, jak i wtedy gdy wartość
choćby jednego z parametrów jest różna od
zakładanej w H0.
Wysuwamy hipotezę, że badana cecha ma w
populacji generalnej określony rozkład, który
nazywamy rozkładem teoretycznym. Szacujemy
z próby niezbędne do określenia rozkładu
teoretycznego parametry.
Następnie stosujemy odpowiedni test
zgodności. Jeśli hipoteza zostanie odrzucona na
danym poziomie istotności to możemy wysunąć
hipotezę dotyczącą innego rozkładu
teoretycznego.
Test zgodności (test Pearsona)
1o Stawiamy hipotezę zerową:
Populacja ma dany rozkład teoretyczny
2oNa podstawie wyników dużej próby
obliczamy:
k
i i
iiobl
np
npn
1
2
2
gdzie ni-liczność i-tego przedziału
n∙pi- hipotetyczna liczność i-tego
przedziału
pi-prawdopodobieństwo wyznaczone
przez hipotetyczną dystrybuantę, że
zmienna losowa jest zawarta w przedziale
o liczebności ni
3o Odczytujemy z tablic rozkładu chi-kwadrat
wartość dla ustalonego poziomu istotności i k-1
stopni swobody ( lub k-1-l, gdzie l jest liczbą
szacowanych parametrów).
4o Porównujemy i
tak, że <
to
odrzucamy H0, a gdy jest przeciwna nierówność
mówimy, że nie ma podstaw do odrzucenia.
Uwaga:
Prawdopodobieństwo pi wyznaczamy wg
zależności:
p1=F(x1)
pi= P{xi-1≤X≤xi}=F(xi)-F(xi-1)-i=2,…,k-1
pk=1-F(xk-1)
gdzie k to liczba klas.
Jeśli rozkładem teoretycznym jest rozkład
normalny o nieznanych parametrach to
dokonujemy standaryzacji:
s
xxF
s
xxF
s
xxU
s
xxPp i
Ui
Uii
i11
U ma rozkład N(0,1).
Przykład.
W celu sprawdzenia czy kostka do gry jest
symetryczna wykonano 120 rzutów i otrzymano:
Liczba oczek
Liczba rzutów
1 11
2 30
3 14
4 10
5 33
6 22
Na poziomie istotności =0,05 zweryfikować
hipotezę, że każda liczba oczek w rzucie tą kostką
ma takie samo prawdopodobieństwo wyrzucenia.
Rozwiązanie:
H0: rozkład liczby oczek jest równomierny
Obliczamy prawdopodobieństwo teoretyczne(pi)
oraz liczność teoretyczną (npi):
Liczba oczek
Liczba rzutów (ni)
pi npi
1 11
20
2 30
20
3 14
20
4 10
20
5 33
20
6 22
20
Porównujemy liczność teoretyczną i empiryczną
(ni).
ni npi ni-npi
11 20 -9
30 20 10 14 20 -6
10 20 -10
33 20 13
22 20 2
Wyznaczamy składniki .
ni-npi
-9
10
-6
-10
13
2
Podsumowując ostatnią kolumnę otrzymujemy
=24,5.
Ustalamy teraz liczbę stopni swobody. Skoro k=6
to liczba stopni swobody wynosi k-1=5. Stąd dla
=0,05 wartość krytyczna
Reasumując:
i H0 należy odrzucić (
razem z „felerną” kostką).
Przykład:
Zbadano 300 wybranych losowo 5-sekundowych
odcinków czasowych pracy pewnej centrali
telefonicznej i otrzymano następujący empiryczny
rozkład liczby zgłoszeń:
Liczba zgłoszeń
Liczba odcinków
0 50 1 100
2 80
3 40
4 20
5 10
Na poziomie istotności =0,05 zweryfikować
hipotezę, że rozkład liczby zgłoszeń jest rozkładem
Poissona.
Rozwiązanie:
Ponieważ nie sprecyzowano wartości parametru
dla tego rozkładu a jest on wartością oczekiwaną
to skorzystamy z estymatora .
Obliczamy więc najpierw ów parametr z próby:
Nasza hipoteza zerowa ma postać:
H0: rozkład liczby zgłoszeń jest rozkładem Poissona
z parametrem
Obliczamy teraz prawdopodobieństwa
teoretyczne i teoretyczną liczność:
npi
0,183 54,9 0,311 93,3 0,264 79,2 0,15 45 0,064 19,2 1-(0,183+0,311+0,264+0,15+0,064)=0,028 8,4
Teraz kolej na składniki .
ni npi ni-n∙pi
50 54,9 -4,9
100 93,3 6,7
80 79,2 0,8
40 45 -5
20 19,2 0,8
10 8,4 1,6
Podsumowując ostatnią kolumnę otrzymujemy
=1,81
Ustalamy teraz liczbę stopni swobody. Skoro k=6
oraz oszacowano jeden parametr to liczba stopni
swobody wynosi k-1-1=4. Stąd dla =0,05 wartość
krytyczna
Reasumując:
i nie ma podstaw do
odrzucenia H0.
Rozkład liczby zgłoszeń jest „zbliżony” do rozkładu
Poissona z parametrem Nie oznacza to,
że przyjmujemy H0 !!!!
Przykład:
Koszty materiałowe przy produkcji pewnego
wyrobu były w wylosowanych 120 zakładach
następujące:
koszt Liczba zakładów
150-250 7
250-350 10
350-450 21
450-550 30
550-650 19
650-750 15
750-850 10
850-950 6
950-1050 2
Na poziomie istotności =0,1 zweryfikować
hipotezę, że rozkład kosztów jest N(540,200).
Rozwiązanie:
H0: rozkład kosztów jest N(540,200).
Aby skorzystać ze standaryzacji szukamy wartości
środkowej każdej klasy i „standaryzowanej”:
Koszt (xi)
150-250 200 -1,7
250-350 300 -1,2
350-450 400 -0,7
450-550 500 -0,2
550-650 600 0,3
650-750 700 0,8
750-850 800 1,3
850-950 900 1,8
950-1050 1000 2,3
Teraz obliczamy prawdopodobieństwo
teoretyczne:
F(ui) pi
-1,7 0,04457 0,04457
-1,2 0,1151 0,1151-0,4457=0,07053
-0,7 0,242 0,1269 -0,2 0,4207 0,1787
0,3 0,6179 0,1972
0,8 0,7881 0,1702
1,3 0,9032 0,1151
1,8 0,96407 0,0608
2,3 (1) 1-0,96407=0,03593
oraz składniki :
pi npi
0,04457 120∙0,04457=5,3484 0,5
0,07053 8,4636 0,3
0,1269 15,228 2,2
0,1787 21,444 3,4
0,1972 23,664 0,9
0,1702 20,424 1,4
0,1151 13,812 1
0,0608 7,296 0,2
0,03593 4,3116 1,2
Podsumowując ostatnią kolumnę otrzymujemy
=11,1
Ustalamy teraz liczbę stopni swobody. Skoro k=9
to liczba stopni swobody wynosi k-1=8. Stąd dla
=0,1 wartość krytyczna
Reasumując:
i nie ma podstaw do
odrzucenia H0.
Rozkład kosztów jest „zbliżony” do rozkładu
N(540,200)
Nie oznacza to, że przyjmujemy H0 !!!!
Zmienne losowe wielowymiarowe.
Def.1.
Dana jest przestrzeń probabilistyczna (Ω,S,P).
W tej przestrzeni określone są zmienne
losowe X1, X2,…,Xn.
Uporządkowany układ (wektor) (X1,X2,…,Xn)
nazywamy zmienną losową n-wymiarową.
Def.2.
Rozkładem prawdopodobieństwa zmiennej
losowej (X1,X2,…,Xn) nazywamy
prawdopodobieństwa postaci:
P{(X1,X2,…,Xn)A}, gdy ARn.
Def.3.
Dystrybuantą zmiennej losowej (X1,X2,…,Xn)
nazywamy funkcję F:Rn[0,1] określoną
wzorem:
F(r1,r2,…,rn)=P{X1<r1,…,Xn<rn}.
Zmienną losową (X,Y) nazywamy zmienną
losową dwuwymiarową.
Def.4.
Zmienna losowa (X,Y) ma rozkład typu
skokowego jeśli przyjmuje przeliczalną liczbę
wartości (xi,yk), i,k=1,2,3,… odpowiednio z
prawdopodobieństwami pik, przy czym
1,, ,
ki ki
kiik yYxXPp
Def.5.
Zmienna losowa (X,Y) ma rozkład typu
ciągłego, jeśli istnieje funkcja f(x,y) spełniająca
warunki:
1) f(x,y)≥0, dla każdego (x,y)R2
2) 1),(2
R
dxdyyxf ,
taka, że
b
a
d
c
dxdyyxfdYcbXaP ),(},{
.
Funkcję f(x,y) nazywamy gęstością
prawdopodobieństwa.
Def.6.
Niech F(s,t) jest dystrybuantą zmiennej losowej
(X,Y).
Funkcje:
),()(
),()(
lim
lim
tsFtF
tsFsF
sY
tX
nazywamy dystrybuantami brzegowymi
odpowiednio zmiennej losowej X i zmiennej
losowej Y.
Wyznaczają one jednoznacznie rozkłady
brzegowe.
Jeśli (X,Y) ma rozkład typu skokowego to
prawdopodobieństwa brzegowe określone są
wzorami:
i
ikkk
k
ikii
pyYPp
pxXPp
}{
}{
Jeśli (X,Y) ma rozkład typu ciągłego o gęstości f(x,y)
to gęstości brzegowe określone są wzorami:
dxyxfyf
dyyxfxf
Y
X
),()(
),()(
Przykład:
Rozkład prawdopodobieństwa liczby treningów
drużyn piłkarskich w ciągu tygodnia (X) i liczby
meczów wygranych w sezonie (Y) zawiera tabela:
Y X
0 1 2 3
1 0,04 0,04 0 0 2 0 0,12 0,12 0,16 3 0 0,04 0,18 0,3 Znaleźć dystrybuantę i rozkłady brzegowe.
Rozwiązanie:
Rozkłady brzegowe:
Y X
0 1 2 3 P{X=xi}
1 0,04 0,04 0 0 0,08 2 0 0,12 0,12 0,16 0,4
3 0 0,04 0,18 0,3 0,52
P{Y=yk} 0,04 0,2 0,3 0,46
Dystrybuanta F(s,t)=P{X<s,Y<t}
t s
(,0] (0,1] (1,2] (2,3] (3,]
(-,1] 0 0 0 0 0
(1,2] 0 0,04 0,08 0,08 0,08 (2,3] 0 0,04 0,2 0,32 0,48
(3,) 0 0,04 0,24 0,54 1
Przykład.
Zmienna losowa (X,Y) ma rozkład o gęstości:
]1,0[]1,0[),(0
1,01,0),(
),(
yxgdy
yxgdyAxy
yxf
Znaleźć wartość A i rozkłady brzegowe.
Rozwiązanie:
FX(s)
FY(t)
414
422
1
0
21
0
21
0
1
0
AA
AyxAAxydxdxy
Rozkłady brzegowe:
yx
yxydxyf
y
yf
y
xy
xxydyxf
x
xf
x
Y
Y
X
X
22
44)(
1,0
0)(
1,0
22
44)(
1,0
0)(
1,0
1
0
21
0
1
0
1
0
2
Def.7.(niezależne zmienne losowe)
Zmienne losowe X i Y są niezależne wtedy i tylko
wtedy, gdy dla każdego (s,t)R2
)()(),( tFsFtsF YXXY .
Jeśli (X,Y) jest typu skokowego to X i Y są
niezależne wtedy i tylko wtedy, gdy dla każdego
i,k=1,2,3,…
kiik ppp
Jeśli (X,Y) jest typu ciągłego to X i Y są niezależne
wtedy i tylko wtedy, gdy dla każdego (x,y)R2
)()(),( yfxfyxf YXXY .
Przykład.
Sprawdzić niezależność zmiennych losowych X i Y
o rozkładzie łącznym:
a)
X Y
-1 0 1
-1 0,2 0,3 0
1 0 0,4 0,1
Rozkłady brzegowe:
X Y
-1 0 1 P{Y=yk}
-1 0,2 0,3 0 0,5 1 0 0,4 0,1 0,5 P{X=xi} 0,2 0,7 0,1
Niech X=-1 i Y=-1.
P{X=-1}=0,2
P{Y=-1}=0,5
P{X=-1,Y=-1}=0,2 P{X=-1}P{Y=-1}
Zmienne losowe zależne.
b)
tympoza
yxgdy
yxf
0
]2,0[]2,0[),(4
1
),(
Rozkłady brzegowe:
2,0,2
1
4
1
4
1)(
2,0,2
1
4
1
4
1)(
2
0
2
0
2
0
2
0
yxdxyf
xydyxf
Y
X
Dla każdego (x,y)R2
Stąd zmienne losowe X i Y są niezależne (!)
Parametry dla pary zmiennych losowych.
Def.7.
Kowariancją zmiennych losowych X i Y nazywamy
wyrażenie :
cov(X,Y)=E[(X-EX)(Y-EY)]=E(X∙Y)-EX∙EY,
gdzie
ji
ijji pyxYXE,
)(
lub
2
),()(R
dxdyyxfyxYXE
Def.8.
Współczynnikiem korelacji zmiennych losowych X i
Y nazywamy wyrażenie:
)()(
),cov(),(
YDXD
YXYX
Tw. 1.(własności wartości oczekiwanej) c.d.
Jeśli zmienne losowe X i Y są niezależne i istnieje
E(X∙Y), EX i EY
to E(X∙Y)=EX∙EY.
Uwaga:
Jeśli zmienne losowe są niezależne to cov(X,Y)=0.
Tw. 2.(własności wariancji) c.d.
Jeśli istnieje EX, EY i E[(X-EX)(Y-EY)] to
D2(X+Y)=D2(X)+D2(Y)+2cov(X,Y) oraz
D2(X-Y)=D2(X)+D2(Y)-2cov(X,Y).
Ponadto, gdy zmienne losowe X i Y są niezależne
to
D2(X+Y)=D2(X-Y)=D2(X)+D2(Y).
Tw. 3.(własności współczynnika korelacji)
1.│(X,Y)│=│(aX+b,cY+d)│, a, b, c, d R
2.│(X,Y)│≤1
3.│(X,Y)│=1 wtedy i tylko wtedy, gdy istnieją stałe
a, b takie, że P{Y=aX+b}=1
4. Jeśli zmienne losowe X i Y są niezależne, to
(X,Y)=0.
Przykład.
Wyznaczyć współczynnik korelacji dla zmiennej
losowej (X,Y) o rozkładzie:
a)
X Y
-1 0 1
-1 0,2 0,3 0 1 0 0,4 0,1
Rozwiązanie:
X Y
-1 0 1 P{Y=yk}
-1 0,2 0,3 0 0,5 1 0 0,4 0,1 0,5 P{X=xi} 0,2 0,7 0,1
Obliczamy:
EX=-0,2+0,1=-0,1
EY=-0,5+0,5=0
E(X2)=0,2+0,1=0,3
E(Y2)=0,5+0,5=1
D2(X)=0,3-(-0,1)2=0,29
D2(Y)=1-0=1
E(X∙Y)=(-1)∙(-1)∙0,2+1∙1∙0,1=0,3
cov(X,Y)=E(X∙Y)-EX∙EY=0,3
≈0,56
b)
tympoza
yxgdyyx
yxf
0
]2,0[]1,0[),(25
1
),(
Rozwiązanie:
Sprawdzamy, czy f(x,y) jest gęstością.
110
8
10
2
25
2
25
1
5
2
5
12
5
1
2
0
21
0
2
0
1
0
2
2
0
1
0
2
0
1
0
1
0
2
0
yxy
x
ydydxdyxdxdxdyyx
Gęstości brzegowe:
2,0,5
2
10
12
25
12
5
1)(
1,0,425
1
5
12
5
1)(
1
0
21
0
2
0
2
2
0
yyxyx
dxyxyf
xxyxydyyxxf
Y
X
Parametry:
30
56
5
8
30
8
45
2
310
1
5
2
10
1)(
30
11
15
4
10
1
34
42
5
142
5
1)(
15
19
15
16
5
1
32
22
1
5
1
5
2
10
1
15
8
5
2
15
2
24
32
5
142
5
1
2
0
2
0
4322
1
0
341
0
22
2
0
322
0
1
0
231
0
yydyyyYE
xxdxxxXE
yydyyyEY
xxdxxxEX