seminarski statistika hari

20
Matematska statistika UNIVERZITET U ISTOČNOM SARAJEVU SAOBRAĆAJNI FAKULTET DOBOJ SEMINARSKI RAD PREDMET: Matematska statistika TEMA: Pojam, osobine i primjena Hi-kvadrat raspodjele

Upload: haris29501849

Post on 03-Jan-2016

94 views

Category:

Documents


3 download

TRANSCRIPT

Page 1: Seminarski Statistika Hari

Matematska statistika

 UNIVERZITET U ISTOČNOM SARAJEVU

SAOBRAĆAJNI FAKULTET DOBOJ

 

SEMINARSKI RAD

PREDMET: Matematska statistikaTEMA: Pojam, osobine i primjena Hi-kvadrat raspodjele

Student: ¸ Mentori:Haris Muratović 123/11 Dr Stevan Stević prof.Vladimir Marković

Page 2: Seminarski Statistika Hari

Matematska statistika

Sadrzaj

1. Uvod............................................................................................................................32. Definicija χ2................................................................................................................4Vrste χ2 testa....................................................................................................................5

χ2 test na jednom uzorku omogućuje nam provjeru.....................................................5χ2 test na dva i više nezavisnih uzoraka.......................................................................5

3. Tablice kontigencije.....................................................................................................6Tablica 2. Tablica graničnih vrijednosti χ2.................................................................7PRIMJER 1:.................................................................................................................8PRIMJER 2:.................................................................................................................9PRIMJER 3:...............................................................................................................10PRIMJER 4:...............................................................................................................12PRIMJER 5:...............................................................................................................13

4.Zaključak....................................................................................................................145.Literatura.....................................................................................................................15

2

Page 3: Seminarski Statistika Hari

Matematska statistika

1. Uvod

Svijet u kojem živimo i koji želimo razumjeti pun je različitosti i neodređenosti, što otvara put za granu znanosti zvanu Statistika. Statistika nas uči kako donositi ispravne zaključke i odluke u svijetu neodređenosti. U svakodnevnom životu prikupljamo mnoštvo podataka. Statistika nam daje metode za njihovo organiziranje i sažeto prikazivanje te izvlačenje zaključaka na osnovu informacija sadržanih u tim podacima. Računala nam omogućavaju lakše pohranjivanje podataka koje bismo inače bacili. Unutar svih tih podataka skriva se potencijalno korisna informacija, koja se rijetko iskorištava. Posao znanstvenika jest razumijeti podatke, otkriti uzorke koji određuju kako funkcionira fizički svijet, te ih zatim pretvoriti u teorije koje se mogu koristiti i za predviđanje onoga što će se dogoditi u novim situacijama.

U ovom radu bit će opisan jedan od statističkih testova prilagodbe - χ2 -test. Hi-kvadrat test spada u grupu statističkih testova koji ne uključuju usporedbe. Ovaj test se koristi za ispitivanje nezavisnosti (eng. indepedence) dvije varijable ili faktora, slučajnosti (eng. randomness), te dobrote prilagodbe (eng. goodness-to-fit).

Na kraju rada, nakon definiranja χ2-testa i opisa načina primjene na različitim uzorcima, bit će opisana primjena ovog testa na podacima vezanima za testiranje grupe od 41 studenta na dvijema grupama testova. Dobiveni podaci bit će analizirani upotrebom programskog paketa Statistica 6.0., te će na temelju dobivenih izračuna hi-kvadrat testa biti doneseni zaključci o povezanost između dvije grupe testova, tj. o vjerojatnosti povezanosti.

3

Page 4: Seminarski Statistika Hari

Matematska statistika

2. Definicija χ2

Postupak nazvan hi-kvadrat test se upotrebljava u većini slučajeva ako se radi o kvalitativnim podacima ili ako tim podacima distribucija značajno odstupa od normalne. Već u početku treba naglasiti da se hi-kvadrat test računa samo s frekvencijama pa u račun nije dopušteno unositi nikakve mjerne jedinice. Osnovni podaci istraživanja mogu biti i mjerne vrijednosti, ali u hi-kvadrat unose se samo njihove frekvencije.

Hi-kvadrat test je vrlo praktičan test koji može osobito poslužiti onda kad želimo utvrditi da li neke dobivene (opažene) frekvencije odstupaju od frekvencija koje bismo očekivali pod određenom hipotezom. Kod ovog testa katkada tražimo postoji li povezanost između dvije varijable i on pokazuje vjerojatnost povezanosti. Možemo pretpostaviti da neka teorijska raspodjela dobro opisuje opaženu raspodjelu frekvencija. Da bismo tu pretpostavku (hipotezu) provjerili, primjenjujemo ovaj test.

Rezultati dobiveni u uzorcima ne podudaraju se uvijek s teoretskim rezultatima koji se očekuju prema pravilima vjerojatnosti. Npr. iako prema teoriji očekujemo da kad god bacimo valjan novčić 100 puta dobijemo 50 „glava“ i 50 „pisama“, rijetko kada se dobije ovakav rezultat.

Često želimo znati da li se opažene frekvencije značajno razlikuju od očekivanih frekvencija. Ta razlika se računa se prema sljedećoj formuli:

pri čemu f0 znači opažene frekvencije, a ft očekivane (teoretske) frekvencije, tj. frekvencije koje bismo očekivali pod nekom određenom hipotezom, te vrijedi:

∑ fo ∑ ft N - ukupna frekvencija

Najčešće upotrebljavamo hi-kvadrat test u ovim slučajevima:1. Kad imamo frekvencije jednog uzorka pa želimo ustanoviti odstupaju li te

frekvencije od frekvencija koje očekujemo uz neku hipotezu.2. Kad imamo frekvencije dvaju ili više nezavisnih uzoraka te želimo ustanoviti

razlikuju li se uzorci u opaženim svojstvima. 3. Kad imamo frekvenciju dvaju zavisnih uzoraka, koji imaju dihotomna svojstva,

te želimo ustanoviti razlikuju li se uzorci u mjernim svojstvima, tj. je li došlo do promjene.

4

Page 5: Seminarski Statistika Hari

Matematska statistika

Vrste χ2 testa

- na jednom uzorku - na dva i više nezavisnih uzoraka - na dva zavisna uzorka

χ2 test na jednom uzorku omogućuje nam provjeru

- hipoteze o slučajnoj raspodjeli - hipoteze o poznatom udjelu - hipoteze o normalnoj raspodjeli

Stupanj slobode određuje se df = broj kategorija (delija, kudica) – 1

χ2 test na dva i više nezavisnih uzoraka

• uvijek treba unijeti frekvencije pojave nekog događaja, kao i broj slučajeva kod kojih se taj događaj nije pojavio

• teoretske frekvencije: suma stupca x suma retka, podijeljeno s totalnom sumom frekvencija

• df = (broj redova -1) x (broj stupaca -1)

5

Page 6: Seminarski Statistika Hari

Matematska statistika

3. Tablice kontigencije

Pretpostavimo da u određenom skupu mogu ćih događaja (vidi Tablicu 1), događaji E1, E2, E3, …, E k se pojavljuju u frekvencijama pojavljivanja fo1, fo2, fo3 , …, fok (opažene frekvencije), a prema pravilima vjerojatnosti frekvencije pojavljivanja su ft1, ft2, ft3, …, ftk (očekivane frekvencije).

Događaj E1 E2 E3 … Ek

Opažena frekvencija fo1 fo2 fo3 … fok

Očekivana frekvencija ft1 ft2 ft3 … ftk

Tablica 1. u kojoj su opažene frekvencije prikazane u jednom retku, naziva se jednosmjerna klasifikacijska tablica. Kako ima k stupaca naziva se i 1 x k tablica. Poopćavanjem dolazi se do dvosmjerne klasifikacijske tablice ili h x k tablice gdje opažene frekvencije zauzimaju h redaka i k stupaca. Ovakve tablice se često nazivaju tablice kontigencije.

Svakoj opaženoj frekvenciji u h x k tablici kontigencije odgovara jedna očekivana frekvencija koja se računa prema pravilima vjerojatnosti. Ove frekvencije koje se nalaze u ćelijama tablice kontigencije nazivaju se frekvencije ćelije. Zbroj frekvencija svakog retka ili stupca naziva se marginalna frekvencija. Broj stupnjeva slobode se računa prema formuli: (h-1)(k-1).

Page 7: Seminarski Statistika Hari

Matematska statistika

Tablica 2. Tablica graničnih vrijednosti χ2

7

Page 8: Seminarski Statistika Hari

Matematska statistika

PRIMJER 1:

Tumačenje postanka tablice graničnih vrijednosti χ2 : Zamislimo da smo 100 ispravnih

novčića bacili u zrak (ili 1 novčić 100 puta) i da smo dobili 46 „glava“ i 54 „pisma“. Očekivane su frekvencije: 50 „glava“ i 50 „pisama“. Izračunamo li hi-kvadrate dobit ćemo:

Budući da je dovoljno znati koliko je palo „glava“ pa da time odmah znamo koliko je palo „pisama“ (jer su obje ćelije zavisne jedna od druge), to je broj stupnjeva slobode jednak 1. Na Slici 1. Prikazana je distribucija hi-kvadrata uz različite stupnjeve slobode. One vrijednosti hi-kvadrata koje toliko jako odstupaju od očekivanog da je njihovo slučajno pojavljivanje moguće samo u 1% ili u 5% slučajeva, možemo smatrati tolikim odstupanjem da s pravom možemo pretpostaviti da vjerojatno nisu slučajne. Na Slici 1. Uz krivulju distribucije hi-kvadrata uz 1 stupanj slobode označena je na apscisi 5%-tna granica iza koje površina krivulje nadesno iznosi 5%. Kako se vidi iz slike (i čitamo iz tablice graničnih vrijednosti) ta je vrijednost 3,84.

Slika 1. Distribucija uzoraka hi-kvadrata uz različite stupnjeve slobode

8

Page 9: Seminarski Statistika Hari

Matematska statistika

PRIMJER 2:

U jednoj tvornici provedena je anketa među 23 radnika i 26 radnica te je ispitivan stav prema liječniku u ambulanti. Iz dobivenih odgovora moglo se zaključiti je li stav prema liječniku u cjelini „pozitivan“ ili „negativan“. Budući da je liječnik u toj ambulanti bila žena, postavljeno je pitanje razlikuju li se muškarci od žena u stavu prema toj liječnici. Dobiveni su ovi rezultati:

Muškarci (N=23) Pozitivan stav14 Negativan stav 9Žene (N=26) Pozitivan stav9 Negativan stav17

Najprije ćemo unijeti rezultate u tzv. 2*2 tablicu u kojoj će apscisa predstavljati jednu varijablu (stav), a ordinata drugu varijablu (spol):

Pod pretpostavkom da nema značajne razlike između muškaraca i žena, proporcija negativnog (ili pozitivnog) stava morala bi biti jednaka kod muškaraca i kod žena.Budući da u čitavoj grupi imamo 26 ljudi s negativnim stavom, znači da je proporcija tihljudi u uzorku 26/49, pa stoga frekvencija muškaraca s negativnim stavom treba biti 23*26/49 (jer imamo ukupno 23 muškarca), a frekvencija žena s negativnim stavom 26*26/49. dakle, očekivane frekvencije u svakoj ćeliji dobivamo tako da pomnožimo sumu reda sa sumom stupca i podijelimo totalnom sumom frekvencija. Na taj ćemo način dobiti očekivane frekvencije:

Većina statističara preporučuje da uvijek kad radimo s tablicama kontigencije, a u bilo kojoj ćeliji imamo očekivanu frekvenciju manju od 5, upotrijebimo tzv. Yates-ovu korekciju koja se sastoji u tome da se za 0,5 smanji svaka opažena frekvencija koja  je veća od očekivane, a za 0,5 poveća svaka opažena frekvencija koja je manja od očekivane. Drugim riječima, svaka se razlika između očekivane i opažene frekvencije smanji za 0,5. Tada se hi-kvadrat računa prema sljedećoj formuli: Primijenimo li Yates-ovu korekciju na ovaj primjer, računat ćemo ovako:

9

Page 10: Seminarski Statistika Hari

Matematska statistika

U tablicama broj stupnjeva slobode je jednak (broj redaka-1)*(broj stupaca-1). U ovomprimjeru je broj stupnjeva slobode (2-1)*(2-1)=1*1=1. iz tablice hi-kvadrat možemo očitati da je granična vrijednost hi-kvadrat uz 1 stupanj slobode na raziniznačajnosti od 5% 3,841. budući da je izračunati hi-kvadrat manji, prihvatit ćemo hipotezu, tj. zaključit ćemo da se muškarci ne razlikuju statistički značajno od žena u stavu prema konkretnom liječniku.

PRIMJER 3:

Želimo li uvidjeti postoji li zavisnost između boje očiju sinova i očeva koristimo tzv. Tablicu kontigencije. Ako rezultate unesemo u ovu tablicu, i ujedno u svaku ćeliju prema već spomenutom principu ( suma reda x suma kolone / sa ukupnom sumom ) unesemo očekivane frekvencije pod predpostavkom da nema asocijacije između boje očiju sinova i očeva, dobijamo ove rezultate ( očekivane frekvencije navedene su u zagradama ):

10

Page 11: Seminarski Statistika Hari

Matematska statistika

Izračunavanje:

Broj stepeni slobode = ( 4-1 ) · ( 4-1 ) = 9

Iz tablice se vidi da granična vrijednost uz 9 stepeni slobode, a na nivou značajnosti od 5% iznosi 16.919. Naš je hi- kvadrat znatno veći čak i od granične vrijednosti na nivou značajnosti od 1%, pa zato odbacujemo hipotezu ( tj. da nema asocijacije između boje očiju sinova i očeva ) i postavljamo zaključak da su te dvije varijable posve sigurno povezane.

11

Page 12: Seminarski Statistika Hari

Matematska statistika

PRIMJER 4:

Predpostavlja se da je učešće neispravnih automobila u ukupnom broju tehničkih pregledanih automobila približno jednaka u 5 slučajno izabranih servisa za tehnički pregled. Na nivou značajnosti 0.05 provjeriti navedenu predpostavku.

SERVIS UKUPNO AUTO.

NEISPRAVNIH AUTO.

I 1300 121 9.31 127 36 0.283II 980 96 9.80 96 0 0III 1180 131 11.10 115 256 2.220IV 1210 120 9.98 118 4 0.034V 1990 85 8.56 97 144 1.480

5660 553 9.77 553 - 4.017

Da bi smo dobili % u I servisu djelimo neispravne automobile sa ukupnim i množimo dobijeni rezultat sa 100. Tj u I servisu imamo :

i tako za svaki servis.

Da bi smo dobili formula je :

u našem primjeru to n je ukupno automobila a p suma od %.

Npr . u I servisu je 1300 x 9.77 = 127

tada

( vrijednost iz naše tabele )

zaključujemo da hipotezu ne mozemo odbaciti!

PRIMJER 5:

Jedan proizvođač nabavlja sirovine od 4 dobavljača predpostavlja se da je učešće prvog dobavljača 25%, drugog 30% , trećeg 15%, a četvrtog 30%. U toku popisa sirovina na

12

Page 13: Seminarski Statistika Hari

Matematska statistika

zalihama evidentirano je sljedeće učešće sirovina pojedinih dobavljača prvi 125 jedinica mjere, drugi 130, treći 100, četvrti 140. Na petoprocentnom nivou značajnosti provjeriti da li struktura na zalihama odgovara predpostavljenoj strukturi dobavljača?

SERVIS

I 125 25,25 123,75 1,5625 0,0126II 130 26,26 148,50 342,25 2,3050III 100 20,20 74,25 663,06 8,9301IV 140 28,28 148,50 72,25 0,4865

495 100% 495 - 11,7342

=11,7341

Razlike su statistički značajne, stoga odbacujemo nultu hipotezu.

4.Zaključak

 Hi-kvadrat test je vrlo praktičan test koji može osobito poslužiti onda kad želimo utvrditi da lineke dobivene (opažene) frekvencije odstupaju od frekvencija koje bismo očekivali pod

13

Page 14: Seminarski Statistika Hari

Matematska statistika

određenom hipotezom. Kod ovog testa katkada tražimo postoji li povezanost između dvije varijable i on pokazuje vjerojatnost povezanosti.

Kod hi-kvadrat testa smatramo da je razlika između opaženih i teoretskih frekvencija statistički značajna, ako je dobiveni hi-kvadrat veći od granične vrijednosti u tablici hi- kvadrata, uz određeni broj stupnjeva slobode. Kod hi-kvadrat testa i suviše mali hi- kvadrat možemo smatrati da nije slučajno nastao.

Glavna opasnost od hi-kvadrat testa je u tome što se on lagano izračunava, ali trebaprethodno dobro promisliti što nas zapravo zanima, pa tek onda ići u izračunavanjeteoretskih(očekivanih) frekvencije, jer one ovise o hipotezi koju smo postavili.

5.Literatura

14

Page 15: Seminarski Statistika Hari

Matematska statistika

Stojakovic Mila: Matematička statistika, Univerzitet u Novom Sadu, Fakultet tehničkih nauka, Novi Sad, 2000

http://zvu.hr/~oliverap/MetodeIstrazivanjaFT/10_Hi-kvadrat.pdf

http://www.medri.uniri.hr/fizika/sys/dokumenti/Andrica%20predavanja/VFT%20statistika/Hi-kvadrat%20testP1415.pdf

http://www.medfak.ni.ac.rs/PREDAVANJA/2.%20STOMATOLOGIJA/STATISTIKA/10.%20predavanje.pdf

15