statystyka matematycznagen.up.wroc.pl/ddakt/statystyka/wyklad8.pdf · 2012-10-15 · •zawsze jest...
TRANSCRIPT
STATYSTYKA MATEMATYCZNA
1. Wykład wstępny. Teoria prawdopodobieństwa i elementy kombinatoryki
2. Zmienne losowe i ich rozkłady3. Populacje i próby danych, estymacja parametrów4. Testowanie hipotez statystycznych5. Testy parametryczne (na przykładzie testu t )6. Testy nieparametryczne (na przykładzie testu 2 )7. Korelacja i regresja liniowa i nieliniowa8. Analiza wariancji i test F
Copyright ©2010, Joanna Szyda
TEST F – weryfikacja hipotez dotyczących
wariancji
MODELE KLASYFIKACYJNE
ANALIZA WARIANCJI
1. Model jednoczynnikowy
2. Model dwuczynnikowy
3. Model hierarchiczny
WSTĘP
TEST F
- wariancje obliczone w dwóch próbach
Statystyka
ma rozkład F o v1 = n1 - 1 i v1 = n2 - 1 st. swobody (n1 i n2to liczebności prób)
W liczniku – większa wartość wariancji!
Wartość F bliska 1 → ?
Wartość F znacznie wyższa od 1 → ?
22
21 ss ,
22
21
ss
F
TEST F - zastosowanie
1. Weryfikacja hipotez o równości wariancji dwóch
populacji
2. Testowanie istotności regresji
3. Ocena efektów modelu klasyfikacyjnego w
analizie wariancji
Copyright ©2010, Joanna Szyda
RÓWNANIE REGRESJIBŁĄD → różnica między y a ŷ
22
2324
2526
27
2829
30
50 60 70 80 90 100
masa ciała
zaw
. tłu
szcz
uWartość zaobserwowana (y)
Wartość przewidziana (ŷ)
xy 10
Copyright ©2010, Joanna Szyda
„DOPASOWANIE” REGRESJI – wsp. determinacji R2
zmienność "y"
opisana przez równanie regresji (teoretyczna)
opisana przez równanie regresji (teoretyczna)
zaobserwowana(rzeczywista)
zaobserwowana(rzeczywista)
n
ii yy
1
2ˆ
n
ii yy
1
2
n
ii
n
ii
yy
yyR
1
2
1
2
2
ˆ
ISTOTNOŚĆ REGRESJI → TEST F
NN
yy
N
yy
F N
iii
N
ii
1
2
1
2
)ˆ(
1
ˆ
Copyright ©2009, Joanna Szyda
średnia zmienność wartości y wyjaśniona przez równanie regresji
średnia zmienność wartości ynie wyjaśniona przez równanie regresji = średni błąd
N – liczba par obserwacji, Nβ – liczba współczynników β równania
regresji (np. dla równania regresji prostej Nβ = 2)xy 10
Copyright ©2010, Joanna Szyda
REGRESJA LINIOWA - przykład
MASACIAŁA
ZAW. TŁUSZCZU
89 28
88 27
66 24
59 23
93 29
73 25
82 29
77 25
100 30
67 23
masa_ciała19.057.11tluszcz
(R2 = 0.37)
xy 10
PRÓBA: 10 osób, masa ciała [kg] i grubość tkanki tłuszczowej [mm]
RÓWNANIE REGRESJI – TEST F
Copyright ©2009, Joanna Szyda
1. Hipotezy• H0: grubość tkanki tłuszczowej nie zależy od masy ciała• H1: grubość tkanki tłuszczowej zależy od masy ciała• H0: β1 = 0 H1: β1 > 0
MAX = 0.053. Test:
NN
yy
N
yy
F N
iii
N
ii
1
2
1
2
)ˆ(
1
ˆ
RÓWNANIE REGRESJI – TEST F
Copyright ©2009, Joanna Szyda
4. Obliczenie wartości statystyki:
5. T = 0,0000966. H1
WNIOSEK: grubość tkanki tłuszczowej zależy od masy ciała i wzrasta średnio o 0.19 mm z każdym kilogramem przyrostu masy ciała
3,51
21008,91225,58
)ˆ(
1
ˆ
1
2
1
2
NN
yy
N
yy
F N
iii
N
ii
MODELE KLASYFIKACYJNE
Model klasyfikacyjny:
ma postać liniowej funkcji matematycznej
zmienna zależna → obserwacja (np. wydajność mleka krowy)
argumenty – tzw. efekty modelu, obrazują wpływ różnych systematycznych czynników (np. stad, grup ojcowskich) na obserwację
modelowanie (opis modelem, klasyfikacja) wymaga znajomości struktury populacji
Model populacji jednorodnej (różnice wydajności mają charakter losowy):
gdzie obrazuje wynik oddziaływania czynników wspólnych dla wszystkich elementów populacji (jego miarą jest wartość średnia populacji), ei -reprezentuje wpływ czynników oddziałujących tylko na i-ty element.
Wartość jest stała, więc całkowitą zmienność określa wzór:
ii ey
22ey
MODELE KLASYFIKACYJNE
Klasyfikacja pojedyncza (jednoczynnikowa)
ijiij eay
gdzie: yij – obserwacja j–tego elementu w i–tej grupie, – wartość średnia populacji,ai – efekt i–tej grupy (wpływ czynników wspólnych dla
wszystkich elementów grupy),eij – wpływ czynników specyficznych dla j–tego elementu z
i–tej grupy.
Zmienność całkowita w tej populacji jest wynikiem zmienności między grupami obserwacji i zmienności wewnątrz tych grup:
222eay
MODELE KLASYFIKACYJNE
Klasyfikacja krzyżowa dwukierunkowa (dwuczynnikowa)
ijkjiijk ebay
222222 )( ebabay
ijkijjiijk eabbay )(
bez interakcji
z interakcją
gdzie: xijk – obserwacja k–tego elementu w i–tej grupie typu A oraz w j–tej grupie typu B, – wartość średnia populacji,ai – efekt i–tej grupy (czynnika) typu A,bj – efekt j–tej grupy (czynnika) typu B,(ab)ij – interakcja efektów ai oraz bj,eijk – wpływ czynników specyficznych dla k–tego elementu z i–tej grupy typu A i j–tej grupy typu B.
Zmienność całkowita(z interakcją)
MODELE KLASYFIKACYJNE
Klasyfikacja hierarchiczna dwustopniowa
ijkijiijk ebay
2222eabay
gdzie: xijk – obserwacja k–tego elementu w i–tej grupie typu A oraz w j–tej grupie typu B, – wartość średnia populacji,ai – efekt i–tej grupy,bij – efekt j–tej podgrupy w i–tej grupie,eijk – wpływ czynników specyficznych dla k–tego elementu w j–tej podgrupie i–tej grupy.
Zmienność całkowita
MODELE KLASYFIKACYJNE
MODEL• składowe (efekty) są niezależne (przeważnie)• opisuje populację o rozkładzie normalnym• zawsze jest stałą, e – zmienną losową o rozkładzie N(0,e)• pozostałe elementy modelu można traktować jako efekty stałe lub losowe, w zależności od celu analizy statystycznej→ TYPY MODELI KLASYFIKACYJNYCHModel stały – wszystkie, poza e, składniki modelu są stałe.Model losowy – wszystkie, poza , składniki modelu są losowe.Model mieszany – poza i e, w modelu występują składniki stałe i losowe.Układ ortogonalny danych (→ najlepsze wyniki wniosk. statyst.)– klas. krzyżowa: liczebności podgrup są jednakowe lub proporcjonalne;– klas. hierarchiczna: wewnątrz każdej grupy ta sama liczba podgrup,w każdej podgrupie ta sama liczba obserwacji.
ANALIZA WARIANCJI
ANALIZA WARIANCJI – metoda umożliwiająca wnioskowanie statystyczne w oparciu o podziałcałkowitej wariancji w próbie na składowe, wynikające z przyjętego modeluModel stały → analiza wariancji obejmuje: ocenę efektów modelu testowanie różnic między efektami (test F)
Warunki:• próba losowa• rozklad normalny• zmienność w grupach odpowiada ogólnej zmienności w populacji
Obliczenia → metoda najmniejszych kwadratów
ANALIZA WARIANCJI MODEL JEDNOCZYNNIKOWY
Copyright ©2010, Joanna Szyda
MODEL JEDNOCZYNNIKOWY – PRÓBA DANYCH
PRÓBA DANYCH
1. Zawartość azotu w trzcinie (% suchej masy)
2. 3 lokalizacje (A, B, C), pomiar w 1996 r.
3. Flowermere, hrabstwo Cambridge
A B C
3.06 3.41 2.92
2.60 3.23 2.88
2.55 3.93 3.25
2.42 3.74 2.64
2.35 3.18 3.28
0
1
2
3
4
5
A B Clokalizacja
zaw
arto
ść N
zmienność całkowitazmiennośćwewnątrz grupy A
zmiennośćwewnątrz grupy B
zmiennośćwewnątrz grupy C
Ay By Cy
zmienność pomiędzy grupami
MODEL JEDNOCZYNNIKOWY – MODEL
Copyright ©2009, Joanna Szyda
SCHEMAT JEDNOCZYNNIKOWEJ ANALIZY WARIANCJI222ealokalizacjazot
ŹRÓDŁO SUMA STOPNIE ŚREDNIZMIENNOŚCI KWADRATÓW SWOBODY KWADRAT
Pomiędzy gr.(lokalizacjami)
Wewnątrz gr.błąd
Całkowita
gN
iii yyn
1
2
g iN
i
n
jiij yy
1 1
2
N
ii yy
1
2
1gN
gNN
1N
1
1
2
g
N
iii
N
yyng
g
N
i
n
jiij
NN
yyg i
1 1
2
1
1
2
N
yyN
ii
MODEL JEDNOCZYNNIKOWY – MODEL
Copyright ©2009, Joanna Szyda
MODEL JEDNOCZYNNIKOWY – TEST F
• Testowane hipotezyH0: lokalizacje nie wpływają na zawartość azotuH1: lokalizacje wpływają na zawartość azotuH0:
H1:
• Test F:
22elok 22elok
g
N
i
n
jiij
g
N
iii
NN
yy
N
yyn
Fg i
g
1 1
2
1
2
1
Copyright ©2009, Joanna Szyda
średnia zmienność wartości y spowodowana różnymi lokalizacjami
średnia zmienność wartości ynie wyjaśniona przez różne lokalizacje = średni błąd
3. Wybór i obliczenie wartości testu statystycznego
4. Określenie rozkładu testu: gg NNNF ,1~
5. Obliczenie wartości t: 00139.0t
6. Decyzja: t < max H0 H1
lokalizacje wpływają na zawartość azotu w suchej masie trzciny
95.11
31503.113
04.21
1 1
2
1
2
g
N
i
n
jiij
g
N
iii
NN
yy
N
yyn
Fg i
g
MODEL JEDNOCZYNNIKOWY – TEST F
Copyright ©2009, Joanna Szyda
ANALIZA WARIANCJI MODEL DWUCZYNNIKOWY
MODEL DWUCZYNNIKOWY – PRÓBA DANYCH
1. Wzrost soi - powierzchnia liści
2. Stres mechaniczny
3. Nasłonecznienie
niski poziom stresu wysoki poziom stresu
słabe nasłonecznienie 200, 225, 230, ... , 264, 288 163, 188, 202, ... , 230, 255
dobre nasłonecznienie 268, 273, 285, ... , 320, 349 200, 225, 230, ... , 264, 288
Copyright ©2009, Joanna Szyda
MODEL DWUCZYNNIKOWY – PRÓBA DANYCH
Copyright ©2009, Joanna Szyda
MODEL DWUCZYNNIKOWY – MODEL
MODEL ANALIZY WARIANCJI:
• bez interakcji
powierzchnia liści = μ + stres + słońce + e
• z interakcją
powierzchnia liści = μ + stres + słońce + stres*słońce + e
Copyright ©2009, Joanna Szyda
2222esloncestresiapowierzchn
22*
222esloncestressloncestresiapowierzchn
22220 : eslonceestresH
22221 : eslonceestresH
22*
22220 : esloncestreseslonceestresH
22*
22221 : esloncestreseslonceestresH
ŹRÓDŁO SUMA STOPNIE ŚREDNIZMIENNOŚCI KWADRATÓW SWOBODY KWADRAT
Pomiędzy gr.(stres)
Pomiędzy gr.(słońce)
Interakcja
Wewnątrz gr.błąd
Całkowita
stN
iii yyn
1
2
st św ijN
i
N
jijijk
n
kyy
1 1
2
1
1stN
śwstNNN
1N
1
1
2
st
N
iii
N
yynst
śwst
N
i
n
j
n
kijijk
NNN
yyst św ij
1 1 1
2
MODEL DWUCZYNNIKOWY – MODEL
Copyright ©2009, Joanna Szyda
śwN
jjj yyn
1
21śwN
11
2
św
N
jjj
N
yynśw
11 śwst NN
st śwN
i
N
jjiijij yyyyn
1 1
2 śwst
N
i
N
j
n
kjiijij
NNN
yyyynst św ij
1 1 1
2
st św ijN
i
N
jijk
n
kyy
1 1
2
1
1
1 1 1
2
N
yyst św ijN
i
n
j
n
kijk
Pomiędzy gr.(stres)
Pomiędzy gr.(slońce) F
Interakcja
Wewnątrz gr.błąd
Całkowita
stN
iii yyn
1
2
st św ijN
i
N
jijijk
n
kyy
1 1
2
1
1stN
śwstNNN
1
1
2
st
N
iii
N
yynst
śwst
N
i
n
j
n
kijijk
NNN
yyst św ij
1 1 1
2
MODEL DWUCZYNNIKOWY – MODEL
Copyright ©2009, Joanna Szyda
220 : estresH 22
1 : estresH
Pomiędzy gr.(stres)
Pomiędzy gr.(słońce)
Interakcja F
Wewnątrz gr.błąd
Całkowita
st św ijN
i
N
jijijk
n
kyy
1 1
2
1śwstNNN
śwst
N
i
n
j
n
kijijk
NNN
yyst św ij
1 1 1
2
MODEL DWUCZYNNIKOWY – MODEL
Copyright ©2009, Joanna Szyda
śwN
jjj yyn
1
21śwN
11
2
św
N
jjj
N
yynśw
220 : eslonceH 22
1 : eslonceH
Pomiędzy gr.(stres)
Pomiędzy gr.(słońce) F
Interakcja
Wewnątrz gr.błąd
Całkowita
st św ijN
i
N
jijijk
n
kyy
1 1
2
1śwstNNN
śwst
N
i
n
j
n
kijijk
NNN
yyst św ij
1 1 1
2
MODEL DWUCZYNNIKOWY – MODEL
Copyright ©2009, Joanna Szyda
11 śwst NN
st śwN
i
N
jjiijij yyyyn
1 1
2 śwst
N
i
N
j
n
kjiijij
NNN
yyyynst św ij
1 1 1
2
22*0 : esloncestresH 22
*1 : esloncestresH
ANALIZA WARIANCJI MODEL HIERARCHICZNY
MODEL HIERARCHICZNY – PRÓBA DANYCH
PRÓBA DANYCH:Y – średni dzienny przyrost w okresie 1 miesiąca od
urodzeniagrupy A – ojcowskie (półrodzeństwo)grupy B(A) – matczyne wewn. ojcowskich (pełne rodz.)
MODEL ANALIZY WARIANCJI:
Y = μ + knur + knur(locha) + e
Copyright ©2009, Joanna Szyda
22)(
22elochaknurknurY
22)(
220 : elochaknureknurH
22)(
221 : elochaknureknurH
MODEL HIERARCHICZNY – PRÓBA DANYCH
ŹRÓDŁO SUMA STOPNIE ŚREDNIAZMIENNOŚCI KWADRATÓW SWOBODY KWADRAT
Pomiędzy gr.(buhaj)
Pomiędzy krowamiwewnątrz buhajów
Wewnątrz gr.błąd
Całkowita
bN
iii yyn
1
2
b k ijN
i
N
jijijk
n
kyy
1 1
2
1
1bN
kbNNN
1N
1
1
2
b
N
iii
N
yynb
kb
N
i
n
j
n
kijijk
NNN
yyb k ij
1 1 1
2
Copyright ©2009, Joanna Szyda
b kN
i
N
jiijij yyn
1 1
2 1kb NN 1
1 1
2
kb
N
i
N
jjijij
NN
yynb k
b k ijN
i
N
jijk
n
kyy
1 1
2
1
1
1 1 1
2
N
yyb k ijN
i
n
j
n
kijk
MODEL HIERARCHICZNY – PRÓBA DANYCH
A. TEST F – weryfikacja hipotez dotyczących
wariancji
B. MODELE KLASYFIKACYJNE
C. ANALIZA WARIANCJI
1. Model jednoczynnikowy
2. Model dwuczynnikowy
3. Model hierarchiczny