korelacija

Upload: adnan-mujkanovic

Post on 14-Jul-2015

162 views

Category:

Documents


0 download

TRANSCRIPT

Korelacija by Ivana KianVeinom se rauna kad je povezanost izmeu dvije varijable kad su povezane linearno (grafiki se to prikazuje ravnom crtom). Postoje i povezanosti koje se ne daju prikazivati ravnom crtom, nego zakrivljenom linijom. Linearna povezanost je vrlo esta, a precizno izraunavanje drugih oblika povezanosti je komplicirano. Obino je nemogue dobiti potpunu povezanost, a razlog tome je jaki varijabilitet unutar mjerenih pojava. Kad se korelacija prikazuje grafiki, na apscisu se nanose tzv. vrijednosti nezavisne varijable, a na ordinatu zavisne. Nezavisnu varijablu moemo samovoljno mijenjati, a zavisnu elimo ustanoviti istraivanjem. Veliina razlika izmeu sparenih z- vrijednosti ovisi o veliini povezanosti izmeu varijabli- kad je stupanj povezanosti maksimalan, razlike nema, a to je povezanost slabija, razlike su sve vee. Prosjena razlika meu svim korespondentnim z- vrijednostima u grupi ispitanika trebala bi pruiti mjeru o tome koliko su obje varijable povezane. Suma zxzy bit e maksimalna ako su svi parovi zx i zy jednaki. Ako su oba lana para numeriki jednaka i istog predznaka, bit e maksimalno pozitivna. Tada e koeficijent korelacije iznositi +1. ako su korespondentne vrijednosti zx i zy preteno istog predznaka, ali ne uvijek jednake numerike vrijednosti, r e biti pozitivan, ali ne vie maksimalan. U izraunu se nita nee promijeniti ako varijablama oduzmemo neku konstantu radi vee jednostavnosti rauna. Kad meu nekim populacijama ne bi postojala povezanost, dobili bismo nakon velikog broja izrauna na uzorcima ND. Ta bi distribucija imala svoju M koja bi odgovarala pravoj korelaciji izmeu obje varijable, dakle 0. ako korelacija postoji, distribucija je pozitivno simetrina. Ako je N vei od 80, rezultati se saimaju u razrede, a tako saeti unose se u tablicu s 2 ulaza koja slui kao osnova daljnjeg raunanja. r se temelji na umnoku z-vrijednsti, odnosno na udaljenosti pojedinog rezultata od M. Kvadrirani koeficijent korelacije naziva se koeficijentom determinacije, a pokazuje proporciju faktora koji su odgovorni za dobiveni stupanj sukladnosti u variranju rezultata dviju varijabli.

Rang koeficijent korelacijeZa raliku od Pearsonovog, za rang korelaciju nije potrebno da varijable budu u linearnom odnosu. Rang korelacija daje samo priblinu indikaciju povezanosti dvije varijable i opravdano ju je koristiti samo ako se ne moe izraunati r. Ako postoji vie od 25% vezanih rangova, potrebno je izvriti korekturu, meutim ona vrlo malo mijenja rezultat, posebno kod velikog N. to je korelacija nia, vee su razlike izmeu korigiranih i nekorigiranih rezultata. Razlike rho i r: - ne mora se voditi rauna o relativnom poloaju rezultata, ve samo o razlikama meu rangovima - za r je potrebno da postoje mjerene vrijednosti, simetrinost raspodjele, a za rho to nije potrebno - ako kod mjerenih rezultata postoji jedan ekstremni rezultat, prednost ima rho, jer bi kod r taj rezultat promijenio smjer povezanosti. Potrebno je rangiranje vriti na isti nain u obje varijable.

Kendallov koeficijent korelacije Tau- Rauna se tako da rangove x i y ispiemo jedne ispod drugih, a potom raunamo izraz S- u y varijabli se svaki rezultat usporedi s ostalima i ako je vei pie se +1, a ako je manji pie se -1. Tau je odnos izmeu naene vrijednosti S i maksimalne vrijednosti S.

Znaajnost se kod vezanih rangova testira teko, a kod rauna bez vezanih rangova pomou zvrijednosti. Ako je N7, znaajnost W se moe raunati i pomou 2 testa. Nije ga oravdano koristiti usloenoj statistikoj obradi, pa ni za raunanje koeficienta determinacije.

Fi koeficijent korelacije-Rauna se preko 2 testa ili preko r.

= 2 /N Koeficijent kontingencijePrednost je to ne zahtijeva simetrinu raspodjelu varijabli koje koreliraju, a nedostatak to maksimalna vrijednost C ovisi o broju kategorija(elija) u tablici i to praktiki ne moe dosei veliinu od 1, pa se ne moe usporediti sa r, niti jedna C vrijednost sa drugom, jer su dobivene iz razliitog broja kategorija. Danas se umjesto njega esto koristi Cramerov . On se rauna iz 2 testa, a ako radimo s tablicama 2x2, svodi se na klasini . Za razliku od klasinog, Cramerov fi ne moe se svesti ni interpretirati kao r, no lake ga je interpretirati nego C jer moe poprimiti sve vrijednosti od 0-1.

PrognozaGalton je pretpostavio zakon o regresiji prema prosjenoj vrijednosti- s ekstremnim vrijednostima u varijabli x povezane su manje ekstremne vrijednosti u varijabli y, dakle, one tendiraju prema svom prosjeku.

Crta regresije je u koordinatnom sustavu krivulja koja spaja toke s koordinatama odreenim parcijalnim vrijednostima u jednoj varijabli i fiksnim vrijednostima u drugoj varijabli. pokazuje tip odnosa meu varijablama. Jednadba pravca regresije predvia pretvaranje bruto rezultata u z-vrijednosti u x varijabli, i pretvaranje z-vrijednosti u bruto rezultat u y varijabli. to je koeficijent korelacije manji, to se predviena vrijednost u y varijabli sve vie pribliava M u toj varijabli, odnosno z-vrijednosti jednakoj nuli. Pravac regresije koristimo umjesto prosjenog rezultata to ga uz odreeni x imaju sve vrijednosti varijable y, jer se esto uz neki konkretni rezultat u x ne nalazi nijedan u y, pa onda ne bismo mogli prognozirati najvjerojatniji y, zatim, pravac regresije je mnogo stabilniji od bilo koje druge vrijednosti koja oznaava odnos izmeu dvije varijable, jer se pravac regresije zasniva na svim rezultatima unutar scatter dijagrama. Zato prognoza osnovana na svim rezultatima na pravcu regresije nee biti toliko pod utjecajem sluajnih fluktuacija u uzorku koliko bi bila prosjena vrijednost svih rezultata u y uz odreeni x. Prognoza e biti manje tona to je korelacija nia, jer su u tom sluaju rezultati vie raspreni oko pravca regresije, pa pri raunanju pogreke prognoze moramo uzeti u obzir rasprenje rezultata oko pravca regresije. Pritom moramo pretpostaviti da je rasprenje rezultata oko pravca regresije manje-vie podjednako uz itavu duljinu pravca- homoscedascitet. Prognoziranje ima opravdanje samo ako se varijable u linearnom odnosu, a donekle i ako postoji homoscedascitet. Homoscedascitet znai homogenost u variranju,a najee se upotrebljava za oznaku podjednakog variranja vrijednosti u obje varijable- varijabla x podjednako varira uz sve vrijednosti varijable y.