agnieszka nowak –brzezińska wykład dla przedmiotu...
TRANSCRIPT
![Page 1: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie](https://reader031.vdocuments.pub/reader031/viewer/2022021715/5c77012b09d3f2322f8b8528/html5/thumbnails/1.jpg)
Agnieszka Nowak – Brzezińska
Wykład dla przedmiotu „Biostatystyka”
![Page 2: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie](https://reader031.vdocuments.pub/reader031/viewer/2022021715/5c77012b09d3f2322f8b8528/html5/thumbnails/2.jpg)
Testy parametryczne – weryfikują hipotezy dotyczącewartości parametrów rozkładu badanej populacji(najczęściej średnie, wariancje, odsetki). W większościprzypadków statystyki testowe obliczane są przywykorzystaniu bezpośrednich danych pochodzących zpróby, a ich rozkład zależy od rozkładu analizowanychzmiennych.
Testy nieparametryczne – służą do weryfikacji różnorakichhipotez, lecz nie są one bezpośrednio powiązane zparametrami rozkładu (bywają wyjątki). Dotyczą one raczejsamej postaci rozkładu (kształtu), podobieństwa pomiędzyrozkładami, losowości. Testy te operują na danych„przekształconych” – najczęściej rang, wobec czegorozkład statystyki z próby nie zależą bezpośrednio odrozkładu danych.
![Page 3: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie](https://reader031.vdocuments.pub/reader031/viewer/2022021715/5c77012b09d3f2322f8b8528/html5/thumbnails/3.jpg)
1. Sformułowanie tezy rzeczowej i ustaleniu hipotez H0 i Ha;
2. Wyboru właściwej funkcji testowej (statystyki z próby);
3. Przyjęciu stosownego poziomu istotności ;
4. Odczytaniu wartości krytycznych w tablicach dystrybuanty
właściwego rozkładu i ustaleniu obszaru krytycznego;
5. Odrzuceniu hipotezy zerowej na korzyść hipotezy
alternatywnej, gdy funkcja testowa obliczona z próby
znajduje się w obszarze krytycznym i nie odrzucenie jej,
gdy funkcja testowa jest poza obszarem krytycznym.
![Page 4: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie](https://reader031.vdocuments.pub/reader031/viewer/2022021715/5c77012b09d3f2322f8b8528/html5/thumbnails/4.jpg)
1. Porównanie poziomów parametrów medycznych dla dwóch grupsprowadza się z reguły do porównania przeciętnych poziomówzmiennych lub też porównania rozkładów analizowanego parametru
2. Należy ustalić czy próby są niezależne czy też zależne3. Czy znane są rozkłady cech w populacji, w próbkach ?4. Jeżeli spełnione są wszystkie założenia (głównie normalność,
ewentualnie równość wariancji, liczebność prób) należy wykonać testparametryczny:
– Test t dla prób niezależnych– Test t dla prób zależnych (założenie: rozkład różnic ma być zbliżony do
normalnego)5. W przypadku naruszenia jakiegokolwiek z założeń (np. jedna z grup
ma rozkład cechy istotnie różny od normalnego lub jest bardzo mała)wówczas wykonuje się test nieparametryczny:
– Dla prób niezależnych: test Manna-Whitneya-Wilcoxona– Dla prób zależnych: test kolejności par Wilcoxona (rangowanych znaków)Alternatywa: normalizacja danych, wykonywanie testów parametrycznych
na danych rangowanych.
![Page 5: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie](https://reader031.vdocuments.pub/reader031/viewer/2022021715/5c77012b09d3f2322f8b8528/html5/thumbnails/5.jpg)
Liczba grup do porównania nie powinna być za duża (teoretyczniekilkanaście, praktycznie najlepiej kilka).Jeżeli porównanie ma być reprezentatywne to próby powinny być
raczej liczne oraz mieć zbliżone liczności (nie powinnawystępować sytuacja, w której np. dwie grupy liczą po 40obserwacji, a trzecie 8).
Większość medycznych porównań wielu grup dotyczy poziomówanalizowanych parametrów medycznych (głównie średnie).
W przypadku zmiennych jakościowych porównuje się po prostuodsetki w kilku grupach (k>2).
Najczęściej mamy też do czynienia z analizą jednoczynnikową(jeden czynnik grupujący/efekt/zmienna zależna).
W przypadku wielu czynników można badać interakcje pomiędzyczynnikami (jeżeli jest to uzasadnione).
![Page 6: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie](https://reader031.vdocuments.pub/reader031/viewer/2022021715/5c77012b09d3f2322f8b8528/html5/thumbnails/6.jpg)
![Page 7: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie](https://reader031.vdocuments.pub/reader031/viewer/2022021715/5c77012b09d3f2322f8b8528/html5/thumbnails/7.jpg)
![Page 8: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie](https://reader031.vdocuments.pub/reader031/viewer/2022021715/5c77012b09d3f2322f8b8528/html5/thumbnails/8.jpg)
![Page 9: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie](https://reader031.vdocuments.pub/reader031/viewer/2022021715/5c77012b09d3f2322f8b8528/html5/thumbnails/9.jpg)
1. Sparowany test t Studenta: sprawdzaróżnicę między parą obserwacji na tymsamym obiekcie. Czyli bada istotnośćwpływu jednego czynnika na zachowanieokreślonej zmiennej. Np. wpływ leku naparametr krwi.
2. Test t Studenta (bada czy średnia próby jestistotnie różna od hipotetycznej średniej)
3. Test normalny (test z): stosowany dlalicznych prób (n>60).
![Page 10: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie](https://reader031.vdocuments.pub/reader031/viewer/2022021715/5c77012b09d3f2322f8b8528/html5/thumbnails/10.jpg)
Hipoteza zerowa mówi, że średnia różnica międzywartościami dwóch zmiennych na jednym obiekcie =0
Jeżeli różnica między parami zmiennych obserwacjiposiada rozkład normalny, to wartość ( - µ)/(s/ ) należydo pola pod krzywą rozkładu t Studenta o n-1 stopniachswobody. A skoro H0 zakłada, że różnica µ =0 tostatystyka t przyjmuje tu wartość:
Porównujemy tą wartość z wartością teoretycznąodczytaną z tablic:
Jeżeli tpar >=tteor odrzucamy H0 Jeżeli tpar < tteor nie mamy podstaw do odrzucenia H0
x n
ns
xt par
/
![Page 11: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie](https://reader031.vdocuments.pub/reader031/viewer/2022021715/5c77012b09d3f2322f8b8528/html5/thumbnails/11.jpg)
bada czy średnia próby jest istotnie różna od hipotetycznej średniej
ns
xt par
/
Porównujemy tą wartość z wartością teoretyczną odczytanąz tablic:Jeżeli tpar >=tteor odrzucamy H0Jeżeli tpar < tteor nie mamy podstaw do odrzucenia H0
![Page 12: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie](https://reader031.vdocuments.pub/reader031/viewer/2022021715/5c77012b09d3f2322f8b8528/html5/thumbnails/12.jpg)
Dla dużych próbns
xz
/
n
xz
/
Gdy znamy s to:
![Page 13: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie](https://reader031.vdocuments.pub/reader031/viewer/2022021715/5c77012b09d3f2322f8b8528/html5/thumbnails/13.jpg)
Istotą jest badanie, czy zmiennośćmiędzygrupowa przeważa nadwewnątrzgrupową. Jeżeli zakres zmiennościobserwowanej wewnątrz każdej grupy jestmniejszy niż między grupami to mówimy, żegrupy są odseparowane od siebie i mogą tworzyćizolowane populacje.
Tutaj wymaga się dodatkowo, aby odchyleniastandardowe nie różniły się istotnie od siebie.Porównywanie średnich wymaga aby próby byłyniezależne. Więc jeśli mamy porównywanieśrednich ale dla tej samej próby to stosujemy testt Studenta (sparowany).
![Page 14: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie](https://reader031.vdocuments.pub/reader031/viewer/2022021715/5c77012b09d3f2322f8b8528/html5/thumbnails/14.jpg)
Hipoteza zerowa (H0): średnie w obu populacjach są równe
Zmienność różnic wyraża wzór:2
2
2
1
2
1
nnSE
1. Test normalny (duża liczebność prób)2. Test t Studenta dla prób niezależnych (mała liczebność prób)
![Page 15: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie](https://reader031.vdocuments.pub/reader031/viewer/2022021715/5c77012b09d3f2322f8b8528/html5/thumbnails/15.jpg)
2
2
2
1
2
1
21
n
s
n
s
xxz
2
2
2
1
2
1
21
nn
xxz
Gdy znamy
Przedział ufności:Dla dużych prób:
Gdy znamy
2
2
2
1
2
1
21 )'()(
n
s
n
sSE
SEzxxCI
2
2
2
1
2
1
21 )'()(
nnSE
SEzxxCI
![Page 16: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie](https://reader031.vdocuments.pub/reader031/viewer/2022021715/5c77012b09d3f2322f8b8528/html5/thumbnails/16.jpg)
2
)1()1(
21
2
22
2
11
nn
snsns
21
21
11
nns
xxt
21
21
11
)'()(
nnsSE
SEtxxCI
Gdzie:d.f.=n1+n2-2
Próby mają mieć rozkład normalny i odchylenia standardowe muszą być równe. Gdy nie ma równości wariancji to:1. Transformacja danych (np. logarytmiczna)2. Testy nieparametryczne (Wlcoxona, U Manna-Whitneya)
![Page 17: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie](https://reader031.vdocuments.pub/reader031/viewer/2022021715/5c77012b09d3f2322f8b8528/html5/thumbnails/17.jpg)
![Page 18: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie](https://reader031.vdocuments.pub/reader031/viewer/2022021715/5c77012b09d3f2322f8b8528/html5/thumbnails/18.jpg)
Służą one do weryfikacji hipotez parametrycznych,odnoszących się do parametrów rozkładu badanej cechy wpopulacji generalnej.
Najczęściej weryfikują sądy o takich parametrach populacjijak średnia arytmetyczna, wskaźnik struktury i wariancja.
Testy te konstruowane są przy założeniu znajomości postacidystrybuanty w populacji generalnej.
Biorąc pod uwagę zakres ich zastosowań, testy te możnapodzielić na dwie grupy:
1. Testy parametryczne służące do weryfikacji własnościpopulacji jednowymiarowych,
2. Testy parametryczne służące do porównania własnościdwóch populacji.
![Page 19: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie](https://reader031.vdocuments.pub/reader031/viewer/2022021715/5c77012b09d3f2322f8b8528/html5/thumbnails/19.jpg)
Testy parametryczne służące do weryfikacji własności populacjijednowymiarowych, a wśród nich wyróżnia się:
◦ testy dla średniej
◦ test dla proporcji (wskaźnika struktury)
◦ test dla wariancji
W testach tych oceny parametrów uzyskane z próby losowej są porównywanez hipotetycznymi wielkościami parametrów, traktowanymi jako pewienwzorzec.
Testy parametryczne służące do porównania własności dwóch populacji, doktórych należą:
◦ test dla dwóch średnich
◦ test dla dwóch proporcji
◦ test dla dwóch wariancji
Testy te porównują oceny parametrów, uzyskane z dwóch prób losowych.
![Page 20: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie](https://reader031.vdocuments.pub/reader031/viewer/2022021715/5c77012b09d3f2322f8b8528/html5/thumbnails/20.jpg)
Służą do weryfikacji różnorodnych hipotez,dotyczących m.in. zgodności rozkładu cechy wpopulacji z określonym rozkładem teoretycznym,zgodności rozkładów w dwóch populacjach, atakże losowości doboru próby. Biorąc pod uwagęzakres ich zastosowań, testy te można podzielićna dwie grupy:
1. Testy nieparametryczne służące do porównaniawłasności dwóch populacji,
2. Testy nieparametryczne służące do weryfikacjiwłasności populacji jednowymiarowych
![Page 21: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie](https://reader031.vdocuments.pub/reader031/viewer/2022021715/5c77012b09d3f2322f8b8528/html5/thumbnails/21.jpg)
Test Manna-Whitneya jest jedną z najpopularniejszych alternatyw dlatestu t-Studenta dla prób niezależnych.
Jeżeli dane nie spełniają założeń dla zastosowania testu t-Studenta,warto skorzystać z testu Manna-Whitneya, gdy chcemy porównać zesobą dwie niezależne wobec siebie grupy.
Zaleta: niewielkie wymogi: Zmienna zależna musi być mierzona na skalico najmniej porządkowej (może być również mierzona na skaliilościowej). Może też być skala dychotomiczna (czyli 0-1), dlatego, żejest to przypadek zmiennej nominalnej, która jest zarazem zmiennąporządkową.
Zastosowanie testu Manna-whitneya nie wymaga równoliczności grup,rozkładu normalnego czy też homogenicznych wariancji. To sprawia, żemoże być on szeroko stosowany.
![Page 22: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie](https://reader031.vdocuments.pub/reader031/viewer/2022021715/5c77012b09d3f2322f8b8528/html5/thumbnails/22.jpg)
Test Manna-Whitneya polega na rangowaniu wyników zmiennej zależnej(od najmniejszej do największej) w badanych grupach, a następnie grupysą ze sobą porównywane.
Przykład zastosowania:
Chcemy sprawdzić, czy kobiety różnią się od mężczyzn pod względempoziomu wykształcenia mierzonego na skali (podstawowe, zawodowe,średnie, wyższe). Z racji, że zmienna zależna (poziom wykształcenia)jest mierzona na skali porządkowej zastosujemy test Manna-Whitneyado sprawdzenia różnic pomiędzy badanymi grupami.
Podstawową wadą tego testu jest fakt, że test nie bierze pod uwagęwariancji wyników w badanych grupach. To sprawia, że grupy mogą miećróżną wariancję wyników, co może nie zostać "wykryte" przez test,podczas gdy testy parametryczne biorą to pod uwagę.
Wniosek: Test Manna-Whitneya ma słabszą moc interpretacyjnąuzyskanych danych. W porównaniu do testu t-Studenta należy zachowaćwiększą ostrożność w interpretowaniu uzyskanych wyników.
![Page 23: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie](https://reader031.vdocuments.pub/reader031/viewer/2022021715/5c77012b09d3f2322f8b8528/html5/thumbnails/23.jpg)
gdzie:R oznacza sumę rang n1, n2 oznaczaliczebność w badanych grupach.
Należy obliczyć statystykę U zarówno dla R1(suma rang w I grupie) jak i dla R2 (sumarang w II grupie). Mniejsza z dwóch wartościU stanowi statystykę U, a istotnośćstatystyczna odczytywana jest z tabel.
Dalej, dla próby większej niż 20, stosuje się inny wzór(zakłada się, że rozkład U jest wtedy w przybliżeniunormalny. Wzór ten ma postać:
![Page 24: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie](https://reader031.vdocuments.pub/reader031/viewer/2022021715/5c77012b09d3f2322f8b8528/html5/thumbnails/24.jpg)
Analiza korelacji służy do "wychwycenia" czy zachodzi związekpomiędzy dwiema zmiennymi (właściwościami, cechami). Cooznacza związek? Choć istnieje podobieństwo (przynajmniej przezanalogię) do związków interpresonalnych to jednak należy tutajrozumieć związek jako rodzaj podobieństwa w "zachowywaniu siędwóch cech". Gdy jedna cecha, właściwość wzrasta to czy drugarównież wzrasta? A może maleje? A może w ogóle się nie zmienia?
Przykład: Czy poziom kondycji fizycznej jest związana z ilościąspożywanego tygodniowo alkoholu? W tym celu zapytano 100losowo wybranych osób o średnią ilość (w litrach ;-) spożywanegoalkoholu w tygodniu oraz zmierzono ich wynik w biegu na 400m.Aby stwierdzić, czy istnieje związek pomiędzy spożywanymalkoholem a kondycją fizyczną (rozumianą tutaj jako wynik w bieguna 400m) należy przeprowadzić analizę korelacji r-Pearsonapomiędzy wynikami dla tych dwóch zmiennych.
![Page 25: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie](https://reader031.vdocuments.pub/reader031/viewer/2022021715/5c77012b09d3f2322f8b8528/html5/thumbnails/25.jpg)
Nieparametryczny odpowiednikjednoczynnikowej analizy wariancji dlapomiarów powtarzanych.
Uznawany za najlepszy nieparametryczny testdla danych tego rodzaju.
Najczęściej są to wyniki dla tych samych osóbotrzymane w n (n>>2) różnych badaniach lubwyniki równoważnych grup osób.
![Page 26: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie](https://reader031.vdocuments.pub/reader031/viewer/2022021715/5c77012b09d3f2322f8b8528/html5/thumbnails/26.jpg)
Występuje kilka zależnych pomiarów. Wynikipomiarów rejestrowane dla każdej jednostkiporządkuje się w kolejności niemalejącej i nadajekolejne rangi.
H0: Nie istnieje różnica miedzy efektami działaniaróżnych poziomów czynnika kontrolowanego
H1: Istnieje różnica miedzy efektami działaniaróżnych poziomów czynnika kontrolowanego
Statystyka ma postać:
gdzie k to liczba kategorii czynnika kontrolowanego,n – liczba jednostek w próbie, rij – ranga nadana j-tejobserwacji zmiennej zależnej u i-tej jednostki.
![Page 27: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie](https://reader031.vdocuments.pub/reader031/viewer/2022021715/5c77012b09d3f2322f8b8528/html5/thumbnails/27.jpg)
bardzo podobny do testu Friedmana.Statystyka ma postać
gdzie n – liczba jednostek we wszystkichpróbach łącznie,
nj – liczba jednostek w j-tej próbie (j=1,...,k),
rij – ranga nadana i-tej obserwacji zmiennejzależnej z j-tej próby
![Page 28: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie](https://reader031.vdocuments.pub/reader031/viewer/2022021715/5c77012b09d3f2322f8b8528/html5/thumbnails/28.jpg)
Nieparametryczny odpowiednikjednoczynnikowej analizy wariancji.
Za pomocą tego testu sprawdzamy, czy „n”niezależnych próbek pochodzi z tej samejpopulacji, czy z populacji z taką samąmedianą.
Próbki nie muszą być tej samej liczebności.Maks. 10 grup.
![Page 29: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie](https://reader031.vdocuments.pub/reader031/viewer/2022021715/5c77012b09d3f2322f8b8528/html5/thumbnails/29.jpg)
Celem analizy wariancji (ANOVA) jestzazwyczaj testowanie istotności różnicpomiędzy średnimi.
W przypadku porównywania dwóch średnichANOVA daje takie same rezultaty, jak test tdla prób niezależnych (jeśli porównujemydwie różne grupy przypadków lub obserwacji)lub test t dla prób zależnych (jeśliporównujemy dwie zmienne dla tego samegozbioru przypadków lub obserwacji).
![Page 30: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie](https://reader031.vdocuments.pub/reader031/viewer/2022021715/5c77012b09d3f2322f8b8528/html5/thumbnails/30.jpg)
Anova pozwala stwierdzić, czy analizowaneczynniki wywierają wpływ na obserwowanezmienne. Celem ANOVA jest traktowanieistotności różnic pomiędzy średnimi.
Założenia: Analizowana zmienna zależna jest mierzalna Analizowana zmienna w każdej z rozważanych k
populacji ma rozkład normalny Rozkłady te mają jednakową wariancję 1
2=
22=…= k
2
Dlaczego porównujemy tu średnie ? Bo jeśliśrednie różnią się istotnie to analizowany czynnikwpływa na zmienną zależną.
![Page 31: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie](https://reader031.vdocuments.pub/reader031/viewer/2022021715/5c77012b09d3f2322f8b8528/html5/thumbnails/31.jpg)
Może wydawać się dziwne, że procedurasłużąca do porównywania średnich jestokreślana nazwą analiza wariancji.
Nazwa ta wywodzi się z faktu, że w celutestowania statystycznej istotności różnicpomiędzy średnimi w rzeczywistościprzeprowadzamy porównanie (tzn. analizę)wariancji.
![Page 32: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie](https://reader031.vdocuments.pub/reader031/viewer/2022021715/5c77012b09d3f2322f8b8528/html5/thumbnails/32.jpg)
Każda populacja musi mieć rozkład normalny
Pobrane do analizy próby są niezależne
Próby pobrane z każdej populacji muszą byćlosowymi próbami prostymi
Wariancje w populacjach są równe
UWAGA: W przypadku, gdy założenia analizy wariancji niesą spełnione należy posługiwać się testem Kruskala-Wallisa.
![Page 33: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie](https://reader031.vdocuments.pub/reader031/viewer/2022021715/5c77012b09d3f2322f8b8528/html5/thumbnails/33.jpg)
Rozważmy r populacji o rozkładzie normalnym,
jednakowej wariancji 2 i wartości oczekiwanej µi
, gdzie i=1,…,r . Z populacji tych losujemy niezależne próby o liczebnościach ni, na których przeprowadzamy pomiary otrzymując wartości xij
dla i=1,…,r i j=1,…,ni . Całkowita wielkość próby wynosi n = n1 + n2 + …+ nr. .
Układ hipotez jest następujący:
Hipoteza zerowa:
Hipoteza alternatywna: nie wszystkie µi są sobie równe: (i=1,…,r)
![Page 34: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie](https://reader031.vdocuments.pub/reader031/viewer/2022021715/5c77012b09d3f2322f8b8528/html5/thumbnails/34.jpg)
Do weryfikacji powyższej hipotezy obliczamy wartość statystyki F postaci:
gdzie:
MSTR oznacza średni kwadratowy błąd "zabiegowy", MSE oznacza średni kwadratowy błąd losowy, oznacza średnią arytmetyczną z i-tej próby,
oznacza średnią arytmetyczną ze wszystkich obserwacji ze wszystkich r prób.
ix
x̂
![Page 35: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie](https://reader031.vdocuments.pub/reader031/viewer/2022021715/5c77012b09d3f2322f8b8528/html5/thumbnails/35.jpg)
Przy założeniu prawdziwości hipotezy zerowej statystykama rozkład F-Snedecora z r-1 stopniami swobody wliczniku i n-r stopniami swobody w mianowniku.
Obszar krytyczny jest postaci:
gdzie F jest wartością krytyczną odczytaną z tablicrozkładu F-Snedecora dla (r-1,n-r) stopni swobody.
Jeżeli obliczona wartość statystyki F należy do obszarukrytycznego Q to hipotezę zerową odrzucamy na korzyśćhipotezy alternatywnej i wnioskujemy, że badane średnienie są jednorodne.
Jeżeli obliczona wartość statystyki F nie należy do obszarukrytycznego Q to nie ma podstaw do odrzucenia hipotezyzerowej i wnioskujemy, że badane średnie są jednorodne.
![Page 36: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie](https://reader031.vdocuments.pub/reader031/viewer/2022021715/5c77012b09d3f2322f8b8528/html5/thumbnails/36.jpg)
Fabryka gwoździ zamierza kupić jednąz czterech maszyn do produkcji.
Wszystkie maszyny mają podobnącenę.
Na podstawie analizy wariancji należysprawdzić czy istnieje istotna różnicamiędzy wydajnościami maszyn.
Tabela przedstawia procentowewydajności uzyskane naposzczególnych maszynach.
![Page 37: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie](https://reader031.vdocuments.pub/reader031/viewer/2022021715/5c77012b09d3f2322f8b8528/html5/thumbnails/37.jpg)
Wyniki dla każdej z maszyn to inna populacja.Dane:
r = 4, a każde próba ni ma wielkość 19.
Łączna wartość próby n wynosi zatem 76.Dla danych z tabeli:MSTR = 21.23
MSE = 4.26
Wartość emipryczna statystyki F wynosi 4.99
Liczba stopni swobody licznika wynosi 3, natomiast liczba stopni swobody mianownika wynosi 72.Dla rozkładu F-Snedecora(3,72) wartość krytyczna na poziomie istotności α = 0.05 wynosi 2.732. Obliczona wartość empiryczna statystyki testowej odpowiada p-wartościrównej 0.0034. Należy zatem odrzucić
hipotezę zerową na rzecz hipotezy alternatywnej.
http://www.itl.nist.gov/div898/handbook/eda/section3/eda3673.htm
![Page 38: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie](https://reader031.vdocuments.pub/reader031/viewer/2022021715/5c77012b09d3f2322f8b8528/html5/thumbnails/38.jpg)
![Page 39: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie](https://reader031.vdocuments.pub/reader031/viewer/2022021715/5c77012b09d3f2322f8b8528/html5/thumbnails/39.jpg)
Większa liczba czynników. Jedną z ważnych przyczyn,dla których powinno się stosować raczej metody ANOVAniż wielokrotne badanie dwóch grup przy pomocytestów t jest to, że ANOVA jest bardziej efektywna,dzięki czemu możemy uzyskać więcej informacjidysponując mniejszą liczbą obserwacji.
Kontrola czynników. Przypuśćmy, że w przykładzie dwóchgrup wprowadzimy kolejny czynnik grupujący, np. Płeć.Wyobraźmy sobie, że w każdej z grup mamy 3 mężczyzn i 3kobiety. Układ ten moglibyśmy zestawić w tabeli 2x2:
![Page 40: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie](https://reader031.vdocuments.pub/reader031/viewer/2022021715/5c77012b09d3f2322f8b8528/html5/thumbnails/40.jpg)
całkowitą wariancję możemy rozdzielić na conajmniej trzy składniki: (1) zmiennośćspowodowaną błędem (wariancjawewnątrzgrupowa), (2) zmiennośćspowodowaną przynależnością do grupyeksperymentalnej oraz (3) zmiennośćspowodowaną czynnikiem płci. (Zauważmy,że jest jeszcze dodatkowe źródło zmienności-- interakcja). Co by się stało, gdybyśmy wanalizie nie uwzględnili czynnika Płeć leczprzeprowadzili prosty test t?
![Page 41: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie](https://reader031.vdocuments.pub/reader031/viewer/2022021715/5c77012b09d3f2322f8b8528/html5/thumbnails/41.jpg)
Test t ANOVA
suma kwadratów odchyleń od średniej (SS) pomijając czynnik Płeć (stosujemy średnie wewnątrzgrupowe łącząc grupy badanych o różnej płci):SS=10+10=20
Gdy uwzględniamy płeć:Czyli stosujemy średnie wewnątrzgrupowe w obrębie SS; po 2 w każdej z grup, tak więc połączone wewnętrzne sumy kwadratów odchyleń będą równe 2+2+2+2=8
Różnica ta jest spowodowana faktem, iż średnie dla mężczyzn sąsystematycznie niższe od średnich dla kobiet i różnica ta powoduje wzrostzmienności, w przypadku gdy pomijamy ten czynnik. Kontrola wariancji błęduzwiększa moc testu.W przypadku metody ANOVA możemy oceniać wpływ każdego z czynników,kontrolując wszystkie pozostałe; jest to prawdziwa przyczyna, dla którejANOVA charakteryzuje się wyższą mocą niż prosty test t (tzn. potrzebujemymniej obserwacji, aby stwierdzić istotny wpływ).
20 > 8
![Page 42: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie](https://reader031.vdocuments.pub/reader031/viewer/2022021715/5c77012b09d3f2322f8b8528/html5/thumbnails/42.jpg)
Jest jeszcze jedna przewaga analizy wariancji nad prostymitestami t: ANOVA umożliwia wykrywanie efektów interakcjipomiędzy zmiennymi i w związku z tym testowaniebardziej złożonych hipotez na temat otaczającej nasrzeczywistości.
Efekty główne, interakcja dwuczynnikowa. Wyobraźmysobie, że mamy grupę studentów nastawionych naosiągnięcia oraz drugą grupę pozbawioną tych "dążeń".Utwórzmy następnie w sposób losowy dwie podgrupy orównej liczebności w każdej z prób i wśród studentówjednej podgrupy przeprowadźmy test o wysokim stopniutrudności, a wśród studentów drugiej podgrupy test oniskim poziomie trudności. Mierzymy wyniki uzyskaneprzez studentów w teście. Uzyskane w tym (fikcyjnym)badaniu średnie są następujące:
![Page 43: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie](https://reader031.vdocuments.pub/reader031/viewer/2022021715/5c77012b09d3f2322f8b8528/html5/thumbnails/43.jpg)
(1) testy bardziej wymagające powodują, że studenci pracująbardziej intensywnie,
(2) studenci nastawieni na osiągnięcia pracują intensywniejod studentów nie nastawionych na osiągnięcia?
(3) Żadne z tych stwierdzeń nie odzwierciedla istoty tychwyraźnie regularnych relacji pomiędzy średnimi.
(4) testy wymagające powodują intensywniejszą pracę tylkowśród studentów nastawionych na osiągnięcia, podczasgdy łatwe testy wpływają mobilizująco na studentów nienastawionych na osiągnięcia. Inaczej mówiąc, rodzajnastawienia na osiągnięcia oraz stopień trudności testuwspółdziałają we wpływie na wysiłek studentów, wszczególności jest to przykład dwuczynnikowej interakcjipomiędzy nastawieniem na osiągnięcia a stopniemtrudności testu.
![Page 44: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie](https://reader031.vdocuments.pub/reader031/viewer/2022021715/5c77012b09d3f2322f8b8528/html5/thumbnails/44.jpg)
Podczas gdy interakcja dwuczynnikowa możebyć stosunkowo łatwo wyrażona werbalnie,interakcje wyższego rzędu są coraztrudniejsze do wyrażenia słowami.Wyobraźmy sobie, że w przedstawionympowyżej badaniu osiągnięć uwzględniliśmyczynnik Płeć i otrzymaliśmy następującyukład średnich:
![Page 45: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie](https://reader031.vdocuments.pub/reader031/viewer/2022021715/5c77012b09d3f2322f8b8528/html5/thumbnails/45.jpg)
Kobiety nastawione na osiągnięcia pracują intensywniej z testamibardziej wymagającymi niż z testami łatwymi, podczas gdy kobiety nienastawione na osiągnięcia pracują intensywniej nad testami łatwymi niżnad trudnymi. W przypadku mężczyzn interakcja ta ma charakterprzeciwny. Jak więc widać opis interakcji stał się bardziej złożony.
Ogólny sposób wyrażania interakcji. Ogólnym sposobem wyrażeniawszystkich interakcji jest stwierdzenie, że dany efekt jest modyfikowany(warunkowany) przez inny efekt. Spróbujmy to prześledzić naprzykładzie zaprezentowanej powyżej interakcji pomiędzy dwomaczynnikami. Efekt główny w postaci trudności testu jest modyfikowanyprzez nastawienia na osiągnięcia.
Dwuczynnikowa interakcja pomiędzy trudnością testu i nastawieniem naosiągnięcia jest modyfikowana (warunkowana) przez czynnik Płeć. Mającdo czynienia z czteroczynnikową interakcją, możemy powiedzieć, żetrójczynnikowa interakcja jest modyfikowana poprzez wpływ czwartejzmiennej, to znaczy istnieją różne rodzaje interakcji na różnychpoziomach oddziaływania czwartej zmiennej. Jak się okazuje, w wieludziedzinach badań interakcje piątego lub wyższych stopni nie należą dorzadkości.
![Page 46: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie](https://reader031.vdocuments.pub/reader031/viewer/2022021715/5c77012b09d3f2322f8b8528/html5/thumbnails/46.jpg)
to metoda statystyczna, służąca do badania obserwacji, które zależą odjednego lub wielu działających równocześnie czynników. Metoda tawyjaśnia, z jakim prawdopodobieństwem wyodrębnione czynniki mogąbyć powodem różnic między obserwowanymi średnimi grupowymi.Analiza wariancji została stworzona w latach dwudziestych przezRonalda Fishera.
Modele analizy wariancji można podzielić na: modele jednoczynnikowe - wpływ każdego czynnika jest rozpatrywany
oddzielnie, tą klasą zagadnień zajmuje się jednoczynnikowa analizawariancji,
modele wieloczynnikowe - wpływ różnych czynników jest rozpatrywanyłącznie, tą klasą zagadnień zajmuje się wieloczynnikowa analizawariancji.
Według kryterium podział modeli przebiega następująco: model efektów stałych - obserwacje są z góry podzielone na kategorie, model efektów losowych - kategorie mają charakter losowy, model mieszany - część kategorii jest ustalona, a część losowa.
![Page 47: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie](https://reader031.vdocuments.pub/reader031/viewer/2022021715/5c77012b09d3f2322f8b8528/html5/thumbnails/47.jpg)
![Page 48: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie](https://reader031.vdocuments.pub/reader031/viewer/2022021715/5c77012b09d3f2322f8b8528/html5/thumbnails/48.jpg)
Średnia dla całego zbioru (z wartościami pustymi) będzie inna niż dla zbioru bez wartości pustych:
![Page 49: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie](https://reader031.vdocuments.pub/reader031/viewer/2022021715/5c77012b09d3f2322f8b8528/html5/thumbnails/49.jpg)
Zakładamy, że zα∕2 oznacza 100(1 −α∕2)percentyl standardowego rozkładunormalnego. Dla losowej próbki odpowiedniodużego zbioru danych, koniec przedziałuufności (1 − α) dla wartości średniejwyznaczymy jako:
![Page 50: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie](https://reader031.vdocuments.pub/reader031/viewer/2022021715/5c77012b09d3f2322f8b8528/html5/thumbnails/50.jpg)
Zakładając, że odchylenie standardowepopulacji dotyczącej wzrostu studentów wbadaniu wynosiło σ= 9.48.
Chcemy znaleźć margines błędu dlaoszacowanego przedziału na 95% poziomieufności.
![Page 51: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie](https://reader031.vdocuments.pub/reader031/viewer/2022021715/5c77012b09d3f2322f8b8528/html5/thumbnails/51.jpg)
Jeśli to test dwustronny w rozkładzienormalnym, to 95% przedział ufnościoznacza, że rozkłada nam się równo po 2.5%na lewą i prawą stronę, przez co dorozważenia bierzemy 97.5ty percentyllewostronnego przedziału. Przez to zα∕2
wyznaczymy jako qnorm(.975). Mnożymy toprzez błąd standardowy średniej „sem” iotrzymujemy margines błędu.
![Page 52: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie](https://reader031.vdocuments.pub/reader031/viewer/2022021715/5c77012b09d3f2322f8b8528/html5/thumbnails/52.jpg)
Teraz dodajemy obliczoną wartość błędu do średniej iznajdujemy przedział ufności
Zakładając, że odchylenie standardowe populacji równe jest 9.48, margines błędu dotyczący wzrostu studentów na 95% przedziale ufności
wynosi 1.2852. Przez to przedział ufności wynosi: (171.10 ,173.67).
![Page 53: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie](https://reader031.vdocuments.pub/reader031/viewer/2022021715/5c77012b09d3f2322f8b8528/html5/thumbnails/53.jpg)
Można użyć testu z.test z pakietu:<TeachingDemos>. Nie jest on domyślnympakietem środowiska R – dlatego trzeba gonajpierw zainstalować i załadować, by móc zniego korzystać.
![Page 54: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie](https://reader031.vdocuments.pub/reader031/viewer/2022021715/5c77012b09d3f2322f8b8528/html5/thumbnails/54.jpg)
![Page 55: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie](https://reader031.vdocuments.pub/reader031/viewer/2022021715/5c77012b09d3f2322f8b8528/html5/thumbnails/55.jpg)
Po oszacowaniu wartości średniej populacjimożemy potrzebować określić dokładność.Ale w przypadku gdy nie znamy wariancji.
tα∕2 –to 100(1 −α∕2) percentylstudentyzowanego rozkładu normalnego zn− 1 stopniami swobody. Dla losowowybranych próbek odpowiednio dużejpopulacji, z odchyleniem standardowym (s),obliczymy (1 −α) przedział ufności jako:
![Page 56: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie](https://reader031.vdocuments.pub/reader031/viewer/2022021715/5c77012b09d3f2322f8b8528/html5/thumbnails/56.jpg)
Np. nie znając odchylenia standardowego populacji chcemy oszacować przedział ufności dla wzrostu studentów – 95%.
Rozwiązanie
Najpierw pozbądźmy się wartości pustych, które wpływają na średnią – za pomocą funkcji na.omit i zapiszmy nową kolumnę jako „height.response”.
![Page 57: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie](https://reader031.vdocuments.pub/reader031/viewer/2022021715/5c77012b09d3f2322f8b8528/html5/thumbnails/57.jpg)
![Page 58: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie](https://reader031.vdocuments.pub/reader031/viewer/2022021715/5c77012b09d3f2322f8b8528/html5/thumbnails/58.jpg)
Skoro mówimy o teście dwustronnym dlapoziomu ufności 95%, interesuje nas 97.5ty
percentyl studentyzowanego rozkładunormalnego. Dlatego tα∕2 będzie dane jakoqt(.975, df=n-1). Mnożymy tę wartość przezbłąd standardowy SE i otrzymujemy marginesbłędu.
![Page 59: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie](https://reader031.vdocuments.pub/reader031/viewer/2022021715/5c77012b09d3f2322f8b8528/html5/thumbnails/59.jpg)
Dodajemy do średniej utworzony przedział i w ten sposób znajdujemy przedział ufności dla średniej.
Jeśli nie znamy odchylenia standardowego populacji, to zakres błędu na 95 % poziomie ufności wynosi 1.3429 cm wzrostu studenta. Przedział ufności wynosi wtedy (171.04,173.72).
![Page 60: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie](https://reader031.vdocuments.pub/reader031/viewer/2022021715/5c77012b09d3f2322f8b8528/html5/thumbnails/60.jpg)
t.test (biblioteka stats)
![Page 61: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie](https://reader031.vdocuments.pub/reader031/viewer/2022021715/5c77012b09d3f2322f8b8528/html5/thumbnails/61.jpg)
Jakość badania próby można poprawić przezzwiększenie rozmiaru próby. Formuławyznaczenia optymalnego rozmiaru próby napoziomie ufności (1 −α), z błędem E, iwariancją populacji σ2 jest następująca:
zα∕2 to 100(1 − α∕2) percentyl standardowego rozkładu normalnego.
![Page 62: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie](https://reader031.vdocuments.pub/reader031/viewer/2022021715/5c77012b09d3f2322f8b8528/html5/thumbnails/62.jpg)
Zakładając, że znamy odchylenie standardowe(σ)wzrostu studentów w badaniu jako 9.48. Chcemyznaleźć rozmiar próby niezbędny by otrzymać błądnie większy niż 1.2 cm na poziomie ufności 95%.
Jako że mamy dwustronny test, to dla 95% poziomuufności bierzemy pod uwagę 97.5ty percentylrozkładu normalnego. Więc: zα∕2 będzie danyjakoqnorm(.975).
Zakładając, że odchylenie standardowe populacji wynosi 9.48, potrzebujemy przynamniej 240 elementów w próbie by uzyskać margines błędu nie większy niż 1.2cm.
![Page 63: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie](https://reader031.vdocuments.pub/reader031/viewer/2022021715/5c77012b09d3f2322f8b8528/html5/thumbnails/63.jpg)
Testy dla proporcji to testy parametrycznesłużące do weryfikacji hipotez dotyczącychwartości proporcji w populacji generalnej lub teżdo porównania wartości proporcji w kilkupopulacjach – na podstawie znajomości wartościtej proporcji w losowej próbie (czy też dwóch lubkilku próbach) pobranych z populacji.
Proporcją w statystyce nazywamy liczbę (ułamek,procent) wyrażający, jaka część elementówpewnego zbioru spełnia określony warunek. Innerównoważnie stosowane określenia to: frakcja,wskaźnik struktury. Na przykład, jeśli w grupie nosób jest m palących, to proporcja osób palącychw tej grupie jest równa
![Page 64: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie](https://reader031.vdocuments.pub/reader031/viewer/2022021715/5c77012b09d3f2322f8b8528/html5/thumbnails/64.jpg)
Test prawostronny dla proporcji populacji może być wyrażony jako:
Gdzie p0 jest zakładaną minimalną wartością dla proporcji populacji p.
Definiujemy statystykę z na podstawie przykładowej próby i jej rozmiaru:
Odrzucimy hipotezę zerową jeśli z ≤−zα , gdzie zα jest 100(1 − α) percentylem standarodowegorozkładu normalnego.
![Page 65: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie](https://reader031.vdocuments.pub/reader031/viewer/2022021715/5c77012b09d3f2322f8b8528/html5/thumbnails/65.jpg)
Test lewostronny dla proporcji populacji może być wyrażony jako:
Gdzie p0 jest zakładaną minimalną wartością dla proporcji populacji p.
Definiujemy statystykę z na podstawie przykładowej próby i jej rozmiaru:
Odrzucimy hipotezę zerową jeśli z > zα , gdzie zα jest 100(1 − α) percentylemstandarodowego rozkładu normalnego.
![Page 66: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie](https://reader031.vdocuments.pub/reader031/viewer/2022021715/5c77012b09d3f2322f8b8528/html5/thumbnails/66.jpg)
Gdzie p0 jest zakładaną minimalną wartością dla proporcji populacji p.
Definiujemy statystykę z na podstawie przykładowej próby i jej rozmiaru:
Odrzucimy hipotezę zerową jeśli z ≤−zα/2 lub
z ≥ zα∕2 , gdzie zα/2 jest 100(1 − α) percentylem standarodowego rozkładu normalnego.
![Page 67: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie](https://reader031.vdocuments.pub/reader031/viewer/2022021715/5c77012b09d3f2322f8b8528/html5/thumbnails/67.jpg)
Spośród żarówek wyprodukowanych przez pewną fabrykę wylosowano n=200 szt. i sprawdzono ich jakość. Okazało się, iż 50 żarówek jest złych. Czy można się zgodzić z przypuszczeniem, że braki stanowią 28% produkowanych żarówek? Przyjąć a = 0,06.
ROZWIĄZANIE: dane: badana zbiorowość - żarówki zmienna losowa X – odsetek złych żarówek zmienna losowa X ma nieznany rozkład w zbiorowości generalnej próba: n = 200, n'=50 w = n’/n = 50/200 = 0,25
szukane: H0 : p = 0,28 (w zbiorowości generalne żarówek braki stanowią 28%) H1 : p ¹ 0,28 (w zbiorowości generalne żarówek braki nie stanowią 28%) rozkład normalny
![Page 68: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie](https://reader031.vdocuments.pub/reader031/viewer/2022021715/5c77012b09d3f2322f8b8528/html5/thumbnails/68.jpg)
hipoteza alternatywna jest dwustronna zatem obszar krytyczny przyjmuje postać
(u odczytujemy z tablic rozkładu normalnego przy zadanym )
Nie mamy podstaw do odrzucenia hipotezy zerowej mówiącej, iż procent wadliwych żarówek wynosi 28%.
![Page 69: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie](https://reader031.vdocuments.pub/reader031/viewer/2022021715/5c77012b09d3f2322f8b8528/html5/thumbnails/69.jpg)
Skoro wartość -0.94leży w środkuprzedziałukrytycznego a więcna poziomieistotności 0,06 niemamy podstaw byodrzucić hipotezęzerową.
![Page 70: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie](https://reader031.vdocuments.pub/reader031/viewer/2022021715/5c77012b09d3f2322f8b8528/html5/thumbnails/70.jpg)
Najczęściej w ankietach badamy procent jednej grupy w odniesieniu do całości.
Problem
Chcemy znaleźć oszacowanie proporcji kobiet wśród studentów danej uczelni.
Rozwiązanie
Filtrowanie danych (survey$Sex) za pomocą funkcji na.omit co zapiszemy w zmiennej: gender.response.
By znaleźć liczbę kobiet wystarczy zliczyć obiekty które w zmiennej gender.response mają wartość: ’Female’, Potem podzielimy to przez liczbę wszystkich obiektów (n) co da nam szukaną proporcję. Wynik: 50%.
![Page 71: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie](https://reader031.vdocuments.pub/reader031/viewer/2022021715/5c77012b09d3f2322f8b8528/html5/thumbnails/71.jpg)
![Page 72: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie](https://reader031.vdocuments.pub/reader031/viewer/2022021715/5c77012b09d3f2322f8b8528/html5/thumbnails/72.jpg)
Gdy już wiemy jak oszacować wartośćśredniej populacji możemy chcieć oszacowaćprzedział ufności.
Niech zα∕2 będzie 100(1 −α∕2) percentylemstandardowego rozkładu normalnego.
Jeśli rozmiar próby (n) i proporcja populacjispełniają warunek: np ≥ 5 oraz n(1 − p) ≥ 5,wówczas koniec przedziału na poziomieistotności (1 − α) jest zdefiniowany jako:
![Page 73: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie](https://reader031.vdocuments.pub/reader031/viewer/2022021715/5c77012b09d3f2322f8b8528/html5/thumbnails/73.jpg)
Oblicz błąd i przedział ufności dla liczbykobiet w grupie studentów na poziomieufności 95%.
Rozwiązanie
Najpierw oszacujemy średnią wartość dlaproporcji.
![Page 74: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie](https://reader031.vdocuments.pub/reader031/viewer/2022021715/5c77012b09d3f2322f8b8528/html5/thumbnails/74.jpg)
Wynik: na poziomie istotności 95 %, kobietwśród studentów uczelni stanowią między43.6% a 56.3%, z błędem 6.4%.
Skoro przedział ufności wynosi 95 % to tak naprawdę 5 % dzielimy na 2przy dwustronnym teście – co daje 97.5ty percentyl standardowegorozkładu normalnego. Przez to zα∕2 jest dany przez qnorm(.975). Wtedymnożymy tę wartość przez błąd standardowy SE i obliczamy marginesbłędu.
![Page 75: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie](https://reader031.vdocuments.pub/reader031/viewer/2022021715/5c77012b09d3f2322f8b8528/html5/thumbnails/75.jpg)
Można użyć prop.test z pakietu stats
![Page 76: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie](https://reader031.vdocuments.pub/reader031/viewer/2022021715/5c77012b09d3f2322f8b8528/html5/thumbnails/76.jpg)
Dwie próby są sparowane jeśli pochodzą z obserwacji tych samychobiektów. Zakładamy rozkład normalny w danych. Stosującsparowany test t-test, możemy określić przedział ufności różnicymiędzy średnimi w populacji.
W zbiorze „immer”, zapisano zbiory jęczmienia z dwóch lat: 1931 i1932 z tych samych pól. Są one prezentowane w kolumnach Y1 i Y2.
ProblemZakładając ze dane pochodzą z rozkładu normalnego, chcemy znaleźć
95% przedział ufności dla różnicy między średnimi w zbiorach jęczmienia z lat 1931 i 1932.
RozwiązanieStosujemy test t.test by obliczyć różnice między średnimi. Ponieważ to
test sparowany, wymaga argumentu "paired„ ustawionego na wartość TRUE.
![Page 77: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie](https://reader031.vdocuments.pub/reader031/viewer/2022021715/5c77012b09d3f2322f8b8528/html5/thumbnails/77.jpg)
Między rokiem 1932 a 1932 w zbiorze immer 95 % przedziałufności dla różnicy między średnimi należy do przedziału(6.122 , 25.705).
![Page 78: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie](https://reader031.vdocuments.pub/reader031/viewer/2022021715/5c77012b09d3f2322f8b8528/html5/thumbnails/78.jpg)
![Page 79: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie](https://reader031.vdocuments.pub/reader031/viewer/2022021715/5c77012b09d3f2322f8b8528/html5/thumbnails/79.jpg)
Dwie próby są niezależne jeśli pochodzą zpopulacji które nie są ze sobą skorelowane apróby nie wpływają na siebie wzajemnie.Zakładamy, że populacje pochodzą z rozkładunormalnego. Stosując test niesparowany możemyokreślić przedział ufności dla różnicy międzyśrednimi w obu populacjach.
przykład
W zbiorze mtcars zajmiemy się cechą mpgokreślającą zużycie paliwa (gas mileage) zróżnych samochodów roku 1974.
![Page 80: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie](https://reader031.vdocuments.pub/reader031/viewer/2022021715/5c77012b09d3f2322f8b8528/html5/thumbnails/80.jpg)
![Page 81: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie](https://reader031.vdocuments.pub/reader031/viewer/2022021715/5c77012b09d3f2322f8b8528/html5/thumbnails/81.jpg)
![Page 82: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie](https://reader031.vdocuments.pub/reader031/viewer/2022021715/5c77012b09d3f2322f8b8528/html5/thumbnails/82.jpg)
Możemy użyć t.test by obliczyć różnice między średnimi.
![Page 83: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie](https://reader031.vdocuments.pub/reader031/viewer/2022021715/5c77012b09d3f2322f8b8528/html5/thumbnails/83.jpg)
W zbiorze mtcars, średnie zużycie palowawynosi dla skrzyni automatycznej 17.147 adla ręcznej 24.392.
95% przedział ufności dla średniego zużyciapaliwa to: (3.2097,11.2802)
![Page 84: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie](https://reader031.vdocuments.pub/reader031/viewer/2022021715/5c77012b09d3f2322f8b8528/html5/thumbnails/84.jpg)
Możemy też stworzyć zmienną odpowiedzi (objaśnianą)mtcars$mpg na podstawie mtcars$am, i potemzastosować t.test do oszacowania różnicy międzyśrednimi w populacji:
![Page 85: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie](https://reader031.vdocuments.pub/reader031/viewer/2022021715/5c77012b09d3f2322f8b8528/html5/thumbnails/85.jpg)
Wiadomo, że badanie 2 różnych populacji danam inne wyniki. Jest to jednak częstoniezbędne by porównać wyniki międzydwoma populacjami. Zakładamy jednak, żeobie pochodzą z rozkładu normalnego.
![Page 86: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie](https://reader031.vdocuments.pub/reader031/viewer/2022021715/5c77012b09d3f2322f8b8528/html5/thumbnails/86.jpg)
Tabele krzyżowe (albo rozdzielcze, kontyngencji)przedstawiają łączne rozkłady dwóch lub większej ilościzmiennych.
Podczas gdy rozkład częstości informuje o rozkładzie jednejzmiennej, tablica kontyngencji opisuje jednocześnie rozkładdwóch lub większej ilości zmiennych.
Każda komórka pokazuje ilość respondentów, którzy udzieliliokreślonej kombinacji odpowiedzi.
Zmienna potencjał konsumpcyjny ma trzy kategorie: zje dużo, zje mało, nic nie zje.Kategorie są wzajemnie rozłączne i wyczerpujące, więc wartości w kolumnach sumują się do100%. Druga zmienna poziom głodu posiada dwie kategorie: głodny, najedzony. W tymprzypadku, wartości w wierszach nie muszą sumować się do 100%. Każda z komórekodzwierciedla procent respondentów posiadających daną kombinację cech.
![Page 87: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie](https://reader031.vdocuments.pub/reader031/viewer/2022021715/5c77012b09d3f2322f8b8528/html5/thumbnails/87.jpg)
Są łatwe do zrozumienia, także dla ludzi, którzynie rozumieją bardziej wyszukanych miar.
Mogą być używane w przypadku zmiennychmierzonych na dowolnym poziomie:nominalnym, porządkowym, interwałowym czyilorazowym - tablice krzyżowe traktują wszystkiedane tak - jakby były mierzone na poziomienominalnym.
Łatwiej jest zauważyć związki między zmiennymianalizując taką tablicę niż oddzielne statystyki.
Rozwiązują problem braków danych.
![Page 88: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie](https://reader031.vdocuments.pub/reader031/viewer/2022021715/5c77012b09d3f2322f8b8528/html5/thumbnails/88.jpg)
W zbiorze quine dzieci z australijskich miast sąklasyfikowane na pochodzenie etniczne, płeć, wiek,status kształcenia i liczbę dni nieobecności w szkole.
W wyniku, kolumna „Eth” określa czy uczeń jestAboriginal czy nie ("A" or "N"), a kolumna „Sex” określakobietę albo mężczyznę („F" / „M").
W środowisku R jest możliwe przedstawienie rozkładudanych płci i pochodzenia etnicznego w tablicy. Wwyniku z 38 uczniów pochodzenia „Aboriginal” 38 jestto kobiety. A w grupie „Non-Aboriginal” 42 osoby tokobiety.
![Page 89: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie](https://reader031.vdocuments.pub/reader031/viewer/2022021715/5c77012b09d3f2322f8b8528/html5/thumbnails/89.jpg)
![Page 90: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie](https://reader031.vdocuments.pub/reader031/viewer/2022021715/5c77012b09d3f2322f8b8528/html5/thumbnails/90.jpg)
![Page 91: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie](https://reader031.vdocuments.pub/reader031/viewer/2022021715/5c77012b09d3f2322f8b8528/html5/thumbnails/91.jpg)
Zakładając, że dane te pochodzą z rozkładunormalnego, chcemy znaleźć 95% przedziałufności dla różnicy między proporcją kobietw grupie uczniów z klasy Aboriginal i kobietw grupie drugiej klasy (Non-Aboriginal).
Stosujemy funkcję R: prop.test by wyznaczyćróżnice w proporcjach kobiet.
![Page 92: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie](https://reader031.vdocuments.pub/reader031/viewer/2022021715/5c77012b09d3f2322f8b8528/html5/thumbnails/92.jpg)
95% przedział ufności dla różnicy między średnimi w obugrupach kobiet z różnych grup etnicznych wynosi: (-15.6% ,16.7%)
![Page 93: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie](https://reader031.vdocuments.pub/reader031/viewer/2022021715/5c77012b09d3f2322f8b8528/html5/thumbnails/93.jpg)
2 losowe zmienne x i y nazywamy niezależnymi,gdy prawdopodobieństwo rozkładu jednejzmiennej nie zależy od obecności tej drugiejzmiennej.
Zakładając, że fij oznacza liczność częstościzdarzeń przynależności do obu kategorii: i-tejdla x i j-tej dla y. oraz zakładając, że eij jestoczekiwaną wartością tego, że obie zmienne sąniezależne. Hipoteza zerowa niezależnościmiędzy zmiennymi będzie odrzucona jeśli p-value testu Chi-kwadrat będzie mniejsza niżzadany poziom istotności α.
![Page 94: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie](https://reader031.vdocuments.pub/reader031/viewer/2022021715/5c77012b09d3f2322f8b8528/html5/thumbnails/94.jpg)
W zbiorze survey, kolumna Smoke ("Heavy", "Regul"(regularly), "Occas" (occasionally) i "Never". ) oznaczazwyczaj palenia studentów, zaś kolumna Exer ("Freq"(frequently), "Some" i "None")oznacza częstość palenia.
Możemy sprawdzić rozkład poszczególnych wartościznów w tabeli:
![Page 95: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie](https://reader031.vdocuments.pub/reader031/viewer/2022021715/5c77012b09d3f2322f8b8528/html5/thumbnails/95.jpg)
![Page 96: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie](https://reader031.vdocuments.pub/reader031/viewer/2022021715/5c77012b09d3f2322f8b8528/html5/thumbnails/96.jpg)
Testujemy hipotezę, czy częstość palenia zależy od liczby wypalonych papierosów na poziomie istotności .05.
Rozwiązanie
Stosujemy funkcję R: chisq.test by stworzyć tablicę kontyngencji i znajdujemy wartość p-value jako 0.4828.
Skoro wartość p-value = 0.4828 jest większa niż poziom istotności.05 – to nie możemy odrzucić hipotezy zerowej mówiącej, że zmienna „habit” nie zależy od „exer”.
![Page 97: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie](https://reader031.vdocuments.pub/reader031/viewer/2022021715/5c77012b09d3f2322f8b8528/html5/thumbnails/97.jpg)
łączymy drugą i trzecią kolumnę tbl, i zapisujemy wnową tabelę o nazwie ctbl. Następnie stosujemychisq.test:
![Page 98: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie](https://reader031.vdocuments.pub/reader031/viewer/2022021715/5c77012b09d3f2322f8b8528/html5/thumbnails/98.jpg)
Item1 Item2 Item322 52 1642 33 2444 8 1952 47 1845 43 3437 32 39
Algorytm: 1. Skopiuj powyższy zbiór do pliku i nazwij go "fastfood-1.txt“. 2. Załaduj plik jako data frame i nazwij df1 za pomocą funkcji
read.table. Pierwsza linia naturalnie określa nazwy kolumn (header=TRUE).
![Page 99: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie](https://reader031.vdocuments.pub/reader031/viewer/2022021715/5c77012b09d3f2322f8b8528/html5/thumbnails/99.jpg)
3. Połącz wiersze df1 w jeden wektor „r” .
4. Określ nowe zmienne dla określenia poziomuczynnika i liczby obserwacji.
5. Stwórz wektor czynników odpowiadającychkażdemu elementowi „r” w kroku 3 za pomocąfunkcji „gl”.
6. Zastosuj funkcję „aov” by zbadać zależność „r” aczynnikiem „tm”.
7. Wyświetl tablicę ANOVA jako podsumowanie:
![Page 100: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie](https://reader031.vdocuments.pub/reader031/viewer/2022021715/5c77012b09d3f2322f8b8528/html5/thumbnails/100.jpg)
Skoro p-value = 0.11 jest większe niż .05 poziom istotności, nie możemy odrzucić hipotezy zerowej mówiącej że średnia sprzedaż dla nowych pozycji menu są równe.
![Page 101: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie](https://reader031.vdocuments.pub/reader031/viewer/2022021715/5c77012b09d3f2322f8b8528/html5/thumbnails/101.jpg)
Nadal jest tylko jeden czynnik główny badany. Alepodobne przedmioty są łączone w grupy (bloki).Każdy blok jest testowany – czy zależy od głównegoczynnika badanego. To ma wykluczyć wpływ innychczynników dodatkowych.
przykład Ten sam przykład z fastfood ale 6 restauracji
tworzących jeden blok będzie testowana odnośniewszystkich 3 nowych produktów. Ale tylko jedenprodukt na każdy osobny tydzień. Losowy jest wybórproduktów do testowania (kolejność).
Problem Załóżmy, że mamy następujące dane. Sprawdź, czy
na poziomie istotności .05 średnie sprzedażywszystkich 3 nowych produktów są takie same.
![Page 102: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie](https://reader031.vdocuments.pub/reader031/viewer/2022021715/5c77012b09d3f2322f8b8528/html5/thumbnails/102.jpg)
Item1 Item2 Item331 27 2431 28 3145 29 4621 18 4842 36 4632 17 40
![Page 103: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie](https://reader031.vdocuments.pub/reader031/viewer/2022021715/5c77012b09d3f2322f8b8528/html5/thumbnails/103.jpg)
Algorytm: 1. Skopiuj dane do pliku o nazwie"fastfood-2.txt". 2. Załaduj plik do ramki data frame i nazwij df2.3. Połącz wiersze w jeden wektor „r” . 4. Określ nowe zmienne „treatment levels” oraz „liczba
bloków”5. Stwórz wektor „treatment factors” który odpowiada
każdemu elementowi z wektora „r” z kroku 3 za pomocą funkcji „gl”.
6. Stwórz wektor czynników bloków dla każdego elementu z wektora „r”
7. Zastosuj funkcję „aov”. 8. Wyświetl rezultat ANOVA
![Page 104: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie](https://reader031.vdocuments.pub/reader031/viewer/2022021715/5c77012b09d3f2322f8b8528/html5/thumbnails/104.jpg)
Skoro p-value = 0.032 jest mniejsze niż .05 to odrzucamy hipotezę zerową mówiącą że średnie sprzedaży wszystkich produktów są równe.
![Page 105: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie](https://reader031.vdocuments.pub/reader031/viewer/2022021715/5c77012b09d3f2322f8b8528/html5/thumbnails/105.jpg)
Rozważa się tylko jeden główny czynnik który może wpływać na inne.
przykład
Sieć fastfood testuje 3 nowe produkty wprowadzone na rynek. By przekonać się, czy cieszą się one tą samą popularnością, wybrano 18 losowych restauracji do badania. Podzielono jest losowo na te 3 grupy, po 6 dla każdego nowego produktu.
Problem
Załóżmy, że tak się rozkłada sprzedaż po tygodniu testów. Na poziomie istotności .05 średnie sprzedaży wszystkich 3 produktów są takie same.
![Page 106: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie](https://reader031.vdocuments.pub/reader031/viewer/2022021715/5c77012b09d3f2322f8b8528/html5/thumbnails/106.jpg)
Tutaj może istnieć więcej niż jedne czynnik do rozważenia. Przykład Nadal rozważamy fastfood który testuje 3 nowe produkty na obu
wybrzeżach wschodnim (East) i zachodnim (West) USA. By się przekonać, że wszystkie produkty cieszą się tą samą popularnością 12 restauracji z wybrzeża wschodniego zostało wybranych do analizy. Założeniem jest w analizie czynnikowej, że 12 restauracji będzie podzielone: 4 do badania 1 produktu, 4 do drugiego i 4 do trzeciego. To samo w przypadku restauracji z zachodniego wybrzeża.
Problem Zakładając, że dane są takie jak w tabeli, po tygodniu testów.
Każdy wiersz w górnej tabeli reprezentuje sprzedaż w 3 różnych restauracjach na wschodnim wybrzeżu. Dolna połowa reprezentuje restauracje zachodniego wybrzeża. Na poziomie istotności .05 chcemy przeprowadzić test czy średnie sprzedaży są takie same dla wszystkich produktów. I czy region wpływa na wartość sprzedaży.
![Page 107: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie](https://reader031.vdocuments.pub/reader031/viewer/2022021715/5c77012b09d3f2322f8b8528/html5/thumbnails/107.jpg)
East Coast:==========
Item1 Item2 Item3E1 25 39 36E2 36 42 24E3 31 39 28E4 26 35 29
West Coast:==========
Item1 Item2 Item3W1 51 43 42W2 47 39 36W3 47 53 32W4 52 46 33
![Page 108: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie](https://reader031.vdocuments.pub/reader031/viewer/2022021715/5c77012b09d3f2322f8b8528/html5/thumbnails/108.jpg)
![Page 109: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie](https://reader031.vdocuments.pub/reader031/viewer/2022021715/5c77012b09d3f2322f8b8528/html5/thumbnails/109.jpg)
1. Zapisz dane do pliku o nazwie "fastfood-3.csv 2. Załaduj dane jako data frame i nazwij df3 stosując
funkcję read.csv3. Połącz dane w wierszach w jeden wektor „r” 4. Oznacz nowe zmienne „treatment levels” oraz „number of
observations”.5. Stwórz wektor odpowiadający pierwszej wartości
„treatment level” w zmiennej odpowiedzi w kroku 3 element po elemencie za pomocą funkcji „gl”.
6. Podobnie stwórz wektor korespondujący z 2 wartością cechy „treatment level” w zmiennej odpowiedzi wektora „r” z kroku 3.
7. Zastosuj funkcję „aov” by opisać zmienną odpowiedzi „r” za pomocą czynników „tm1” i „tm2”.
8. Pokaż wyniki ANOVA.
![Page 110: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie](https://reader031.vdocuments.pub/reader031/viewer/2022021715/5c77012b09d3f2322f8b8528/html5/thumbnails/110.jpg)
![Page 111: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie](https://reader031.vdocuments.pub/reader031/viewer/2022021715/5c77012b09d3f2322f8b8528/html5/thumbnails/111.jpg)
Ponieważ wartość p-value = 0.0015 jest mniejsza niż poziom istotności .05 –odrzucamy hipotezę zerową mówiącą, że średnia sprzedaż nowych produktów jest taka sama wszędzie. Co więcej, wartość p-value = 1.2e-05 dla porównania wybrzeży wschód-zachód jest również mniejsza niż zadany poziom istotności. To pokazuje, że istnieje różnica w ogólnej wartości sprzedaży między wybrzeżami. Ostatecznie, w analizie wykazano też, że p-value = 0.0113 (< 0.05) określa możliwe interakcje między produktami z menu a lokalizacją restauracji – jakoże klienci z różnych regionów mogą mieć inne upodobania kulinarne.
![Page 112: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie](https://reader031.vdocuments.pub/reader031/viewer/2022021715/5c77012b09d3f2322f8b8528/html5/thumbnails/112.jpg)
Nie zakłada się żadnych założeń co dorozkładu populacji, ani co do wielkości próby
Przypominając: metody parametrycznewymagają by dane były ilościowe, by miałyrozkład normalny, i by rozmiar próby byłodpowiednio duży.
Oczywiście testy nieparametryczne nie są takmocne jak te parametryczne, ale mają mniejzałożeń, są bardziej elastyczne, i mogą byćużyte do danych jakościowych !
![Page 113: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie](https://reader031.vdocuments.pub/reader031/viewer/2022021715/5c77012b09d3f2322f8b8528/html5/thumbnails/113.jpg)
Test ten stosujemy, gdy chcemy sprawdzić czy rozkład binominalny ma równe szanse porażki/sukcesu.
![Page 114: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie](https://reader031.vdocuments.pub/reader031/viewer/2022021715/5c77012b09d3f2322f8b8528/html5/thumbnails/114.jpg)
Producent napojów wymyślił nowy napój i chce sprawdzićczy będzie tak popularny jak jego dotychczasowynajpopularniejszy napój. W tym celu zaangażował 18ochotników do testów. Każdy z nich próbuje obu drinków:nowy i stary w losowej kolejności.
Okazało się, że 5 uczestników wybrało nowy napój jakolepszy, reszta wybrała dotychczasowy. Na poziomieistotności = .05 czy możemy odrzucić hipotezę, żesympatia do obu napojów jest taka sama ?
Rozwiązanie Zerowa hipoteza ma sprawdzić czy napoje są tak samo
lubiane. Stosujemy test: binom.test. Wartość p-value=0.096525, i jako że jest większa niż zadany poziomistotności .05, nie mamy podstaw by odrzucić tę hipotezę.
![Page 115: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie](https://reader031.vdocuments.pub/reader031/viewer/2022021715/5c77012b09d3f2322f8b8528/html5/thumbnails/115.jpg)
![Page 116: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie](https://reader031.vdocuments.pub/reader031/viewer/2022021715/5c77012b09d3f2322f8b8528/html5/thumbnails/116.jpg)
Tutaj dwie próby są sparowany gdy pochodząz powtórnych obserwacji tych samychobiektów.
Stosując ten test możemy decydować, czykorespondujące rozkłady dwu populacji sątakie same nie zakładając, że pochodzą zrozkładu normalnego.
![Page 117: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie](https://reader031.vdocuments.pub/reader031/viewer/2022021715/5c77012b09d3f2322f8b8528/html5/thumbnails/117.jpg)
Stosujemy zbiór „immer” ze zbioramijęczmienia z lat 1931 i 1932. Są odpowiedniozapisane w kolumnach Y1 i Y2.
![Page 118: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie](https://reader031.vdocuments.pub/reader031/viewer/2022021715/5c77012b09d3f2322f8b8528/html5/thumbnails/118.jpg)
Bez założeń o rozkładzie normalnym, napoziomie istotności .05 chcemy sprawdzić czydane mają te same rozkładu w dwóch różnychlatach.
Rozwiązanie Hipoteza zerowa że jęczmień w dwóch latach
zbiorów miał takie same wartości. Aby testowaćtę hipotezę stosujemy test wilcox.test byporównać pasujące próbki. Dla testusparowanego pamiętajmy o ustawieniuparametru "paired" na wartość TRUE. Skoro p-value = 0.005318 jest mniejsza niż zadanypoziom istotności .05 - odrzucamy hipotezęzerową.
![Page 119: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie](https://reader031.vdocuments.pub/reader031/viewer/2022021715/5c77012b09d3f2322f8b8528/html5/thumbnails/119.jpg)
Na poziomie istotności .05 wnioskujemy, że zbiory jęczmienia zlatach 1931 i 1932 nie są identycznymi populacjami.
![Page 120: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie](https://reader031.vdocuments.pub/reader031/viewer/2022021715/5c77012b09d3f2322f8b8528/html5/thumbnails/120.jpg)
Dwie próby są niezależne jeśli pochodzą zróżnych populacji i nie wpływają jedna nadrugą.
Stosując test Manna-Whitneya-Wilcoxonamożemy ocenić czy rozkłady populacji sąidentyczne nie zakładając ze pochodzą zrozkładu normalnego.
![Page 121: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie](https://reader031.vdocuments.pub/reader031/viewer/2022021715/5c77012b09d3f2322f8b8528/html5/thumbnails/121.jpg)
Mamy zbiór mtcars, i dane dotyczące zużyciapaliwa różnych samochodów w roku 1974.
Mamy też dana „am” określającą czy skrzyniabiegów jest ręczna czy automatyczna (0 =automatic, 1 = manual).
Przyjmuje się, że zużycie paliwa nie ma związku ztypem skrzyni biegów. Sprawdzimy to…
![Page 122: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie](https://reader031.vdocuments.pub/reader031/viewer/2022021715/5c77012b09d3f2322f8b8528/html5/thumbnails/122.jpg)
Nie zakładając rozkładu normalnego chcemysprawdzić, czy na poziomie istotności .05 zużyciepaliwa skrzyni automatycznych i ręcznych mają tesame rozkłady danych.
Rozwiązanie Hipoteza zerowa mówić będzie, że zużycie paliwa dla
skrzyni ręcznych ma taką samą populację jak zużyciepaliwa skrzyni automatycznych.
Aby to sprawdzić użyjemy funkcji R: wilcox.test byporównać wartości w niezależnych próbkach.
Skoro wartość p-value= 0.001817 i jest ona mniejszaniż .05 – odrzucamy hipotezę zerową na rzeczalternatywnej mówiącej, że jednak wartości zużyciapaliwa w obu typach skrzyni jest różna.
![Page 123: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie](https://reader031.vdocuments.pub/reader031/viewer/2022021715/5c77012b09d3f2322f8b8528/html5/thumbnails/123.jpg)
Na poziomie istotności testu = .05 stwierdzamy, żezużycie paliwa w skrzyniach ręcznych iautomatycznych nie są takie same.
![Page 124: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie](https://reader031.vdocuments.pub/reader031/viewer/2022021715/5c77012b09d3f2322f8b8528/html5/thumbnails/124.jpg)
Zakłada się, że kolekcje próbek danych sąniezależne jeśli pochodzą z niezwiązanychpopulacji i nie wpływają jedna na drugą.
Stosując test Kruskala-Wallisa, możemyoceniać, czy rozkłady populacji są identycznebez konieczności zakładania rozkładunormalnego.
![Page 125: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie](https://reader031.vdocuments.pub/reader031/viewer/2022021715/5c77012b09d3f2322f8b8528/html5/thumbnails/125.jpg)
W zbiorze „airquality” mamy pomiary dzienne jakościpowietrza z Nowego Jorku z okresu od maja dowrześnia 1973 roku. Gęstość ozonu przedstawionow kolumnie o nazwie :Ozone.
![Page 126: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie](https://reader031.vdocuments.pub/reader031/viewer/2022021715/5c77012b09d3f2322f8b8528/html5/thumbnails/126.jpg)
ProblemBez założeń o rozkładzie normalnym populacji
chcemy sprawdzić na poziomie istotności.05 czymiesięczna wartość gęstości ozonu w NowymJorku ma taki sam rozkład w miesiącach od majado września.
RozwiązanieHipoteza zerowa mówi, że miesięczna gęstość
ozonu jest taka sama we wszystkich populacjach.Aby to sprawdzić stosujemy funkcję R:kruskal.test by porównać dane z niezależnychmiesięcy. Wartość p-value zmierza do 0 (6.901e-06). Dlatego odrzucamy hipotezę zerową.
![Page 127: Agnieszka Nowak –Brzezińska Wykład dla przedmiotu ...zsi.tech.us.edu.pl/~nowak/bios/owd/owd_w_15052011.pdf · Liczba grup do porównanianie powinna byćza duża(teoretycznie kilkanaście,praktycznie](https://reader031.vdocuments.pub/reader031/viewer/2022021715/5c77012b09d3f2322f8b8528/html5/thumbnails/127.jpg)
Na poziomie istotności .05 stwierdzamy, że miesięcznagęstość ozonu w Nowym Jorku w miesiącach od maja dowrześnia nie pochodziła z identycznych populacji.