stratistika i vjerovatnoca

ProgramiranjeI_sylabus.doc

Statistika i vjerovatnoća:: Predavanja

http://student.fit.ba/

1

Fakultet informacijskih tehnologija

[email protected]

Datum: 10.10.2013.

Statistika i vjerovatnoća - Uvodno predavanje

Pojam i zadaci statistike

Pojam statistika se u današnje vrijeme tumači na više načina:

1. Skup uređenih podataka o društvenim ili prirodnim pojavama koje prikupljaju,

obrađuju, analiziraju i tumače statističke i druge ustanove (istorijski prva

definicija statistike).

2. Nauka koja se bavi proučavanjem prikupljanja, pripreme, obrade i tumačenja

podataka.

3. Funkcija nad populacijom.

4. Kao varijacija izjave: „Postoje tri vrste laži: laž, besramna laž i statistika.”

Benjamin Disraeli.

Posljednje tumačenje je veoma uvreženo kod laika; sa aspekta statističara, ovakvo

tumačenje se vezuje uz sve one koji zloupotrebljavaju ovu naučnu disciplinu iznoseći

stavove koji nisu utemeljeni ni u podacima ni u teoriji. Zbog toga je jedan od ciljeva ovog

kursa da se studenti obuče dovoljno da mogu samostalno prikupiti, pripremiti, analizirati i

protumačiti rezultate, odnosno prepoznati rezultate statističke analize tako da 4. ne važi.

Statistički skup

Skup svih jedinki koje su od značaja za neko istraživanje se u statistici naziva populacija

(u literaturi još i statistički skup), a podskup populacije odabran po određenom pravilu –

uzorak.

Statistički skup se definiše u zavisnosti od potreba konkretnog istraživanja i to:

Pojmovno (u zavisnosti od obilježja od interesa za dato istraživanje se

određuje pripadnost jedinica skupu),

Prostorno (definiše se pripadnost u zavisnosti od regije) i

Vremenski (definiše se vrijeme u kojem se vrši isreaživanje i/ili vrijeme na

koje se odnose podaci).

Osobine koje imaju jedinke populacije se nazivaju obilježjima. Obilježja mogu biti

kvalitativna (na primjer pol ispitanika) ili kvantitivna (na primjer starost, ili težina). Za

obilježja se vezuju slučajne promjenljive1, na osnovu kojih se dalje vrši statistička

analiza. No, da bi se izvršila statistička analiza, podaci se prvo moraju prikupiti i

pripremiti za obradu.

1 Slučajna promjenljiva je pojam iz Teorije vjerovatnoće, naučne oblasti na kojoj se bazira

matematička statistika. Formalna definicija slijedi u predavanjima o raspodjeli.




2


[email protected]

Prikupljanje podataka

Prikupljanje podataka i njihova primarna obrada je prva faza svakog (prethodno

definisanog) statističkog istraživanja. Na ovu fazu se odnosi fraza: Garbage in – garbage

out, kojom se slikovito objašnjava da bez kvalitetnih podataka nije moguće postići ni

kvalitetne rezultate. U osnovi postoje dva tipa prikupljanja podataka:

preuzimanje već postojećih podataka ili

prikupljanje novih podataka.

Prilikom prikupljanja podataka je neophodno izvršiti kontrolu unosa. Ukoliko se podaci

prikupljaju neposredno, onda se kontrola vrši prilikom unosa, a kod preuzimanja

podataka se vrši logička kontrola preuzetih podataka i upoređuju se određeni parametri

sa analognim parametrima izvornih podataka.

U svakom se slučaju podaci moraju prenijeti na memorijski medij i to u obliku

upotrebljivom za kasniju analizu. Statistički podaci se najčešće pohranjuju u vidu

slogova, pri čemu jedan red odgovara jednoj jedinici posmatranja, a u svakom slogu su

definisana polja koja se odnose na obilježja. Na ovaj način pohranjeni podaci se mogu

čuvati u formatima koji nisu zahtjevni s obzirom na memoriju, a što je veoma bitno kada

se radi o velikim skupovima podataka. Način čuvanja može zavisiti i od softvera kojim će

se podaci analizirati.

Postoji više tipova izvora podataka:

Podaci iz već postojećih izvora (statistički bilteni ili neki drugi zvanični podaci

objaveljni u štampanim izvorima ili na internetu)

Podaci koji se prikupljaju neposredno, za određeno istraživanje, kao što su

podaci iz:

o Anketa – pitanja i modaliteti odgovora su zapisani na papiru i obučena

osoba ih prikuplja od ispitanika,

o Intervjua – odabere se stručnjak za određenu tematiku i onda se direktno

od njega u prethodno pripremljenom razgovoru prikupljaju podaci,

o Fokus grupa – odabere se grupa stručnjaka koja razmatra određenu

tematiku i dostavi podatke u pisanoj formi, i drugo.

Poseban izvor podataka je popis stanovništva, koji se vrši jednom u 10 godina uz

temeljne pripreme, a podaci iz popisa se smatraju najpouzdanijim.

Statistika se može podjeliti na :

1. deskriptivnu (uređenje podataka u statističke nizove, grafički analiza, analiza

pomoću relativnih brojeva i specifičnih mjera kao što su srednja vrijednost i

disperzija; sudovi koji se donose se odnose isključivo na empirijske podatke) i

2. inferencijalnu (pomoću datih informacija – uzorka – se donose sudovi o

osobinama populacije).

U ovom kursu će se prvo obraditi pokazatelji i statistike vezane za deskriptivne metode,

pa će se prijeći na dijelove inferencijalne statistike.

Osnovni dio deskriptivne analize predstavlja proučavanje strukture i dinamike pojave

pomoću računskih operacija sabiranja, oduzimanja, množenja i dijeljenja.




3


[email protected]

Pokazatelji strukture i dinamike pojava.

Svaka se pojava može analizirati sa aspetka strukture i dinamike. Izučavanje strukture

se najčešće primjenjuje na kvalitativna obilježja (koja se inače ne bi mogla matematički

obraditi) na način da se jedinice posmatranja grupišu prema jednoj osobini (na primjer,

grupiše se stanovništvo po polu) i posmatra se udio svake od grupa u populaciji. Sa

druge strane, izučavanje dinamike predstavlja praćenje vrijednosti neke pojave kroz

vrijeme (na primjer, praćenje cijena električne energije u nekoliko uzastopnih godina).

Najbitniji pokazatelji strukture i dinamike pojava su:

Pokazatelji strukture pojave

o Koeficijenti (učešće količine pojedine grupe u totalu)

o Procenti (koeficijent pomnožen sa 100, odnosno izražen u procentima)

Pokazatelji dinamike pojave

o Prosti indeks predstavlja količnik vrijednosti neke pojave u sadašnjem i

nekom prethodnom periodu, može biti

Lančani (količnik vrijednosti neke pojave u dva uzastopna perioda),

ili

Bazni (količnik vrijednosti neke pojave u tekućem i baznom

periodu).

o Složeni indeks se formira kada se želi pratiti ukupna promjena neke pojave

u nekoliko uzastopnih perioda, a koja zavisi od dodatnog parametra –

pondera (na primjer stopa inflacije), tako što se vrijednost pojave za svaki

period pomnoži ponderom i onda se sve dobijene vrijednosti saberu.

o Stopa se raćuna kao razlika indeksa i jedinice i može biti prosta ili složena,

shodno indeksu.

Često je korisno izraziti lančane indekse kao bazne i obratno, što se postiže jednostavnim

matematičkim transformacijama, a primjer je prikazan u vježbama.

Uz pokazatelje strukture i dinamike se vezuju i njihove grafičke prezentacije. Po pravilu,

struktura se izražava kružnim dijagramom (pie chart) u kome se udio svake grupe u

totalu prikazuje kružnim isječkom. Ukoliko ovakav prikaz nije pregledan, onda se može

iskoristiti i štapićasti prikaz.

Sa druge strane, dinamika pojave se uvijek prikazuje štapićastim ili linijskim

dijagramom. Štapićasti dijagram prikazuje veličinu pojave za pojedine grupe visinom

pravougaonika (štapića) dok su kod linijskog dijagrama ordinate vrijednosti pojave po

grupama povezane linijama.

Kao posebni pokazatelje vitalnosti stanovništva jedne države izdvajaju se:

Prirodni priraštaj – računa se kao razlika broj živorođenih i broja umrlih lica u

datom periodu

Vitalni indeks – računa se kao količnik broj živorođenih i broja umrlih lica u datom

periodu.




1


[email protected]

Datum: 17.10.2013.

Uzorkovanje

Populacija (Ciljna populacija). Populacija je skup svih jedinica posmatranja koje su od

interesa za istraživanje; odnosno skup o kom istraživač želi da izvuče zaključke.

Primjer. Recimo da istraživača zanimaju muškarci u srednjim godinama (35-50) koji su

preživjeli infarkt miokarda. Cilj istraživanja bi bio da se uporedi efektivnost dvije vrste

tretmana pomoću kojih se mogu odgoditi ili spriječiti naredni infarkti. U tom slučaju je

populacija skup svih muškaraca koji zadovoljavaju iste opšte uslove kao i oni koji su

uključeni u konkretno istraživanje.

Uzorak. Uzorak je dio (podskup) populacije. Da bi uzorak bio reprezentativan za

populaciju, on mora biti odabran na pogodan način (bilo slučajno, bilo namjerno) sa

ciljem da zaključivanje na osnovu uzorka što vjernije oslikava zaključke koji važe za

čitavu populaciju.

Većina statističkih istraživanja se oslanja na teoriju uzoraka za procjenu parametara

ciljne populacije iz tri razloga:

- cijena je niža,

- podaci se brže prikupljaju i

- moguće je osigurati homogenost i poboljšati preciznost i kvalitet podataka.

Postoje razne tehnike za odabir uzorka, ovdje će biti navedene samo neke, bez da se

ulazi u matematičku teoriju na kojima se one zasnivaju.

Upareni uzorci

Upareni uzorci spadaju u (međusobno) zavisne uzorke. Kao uzrok uzorkovanja u paru

razlikuju se dvije situacije:

- elementi dva uzorka su očigledno upareni, ili ih je istraživač eksplicitno upario; na

primjer mjerenje IQ na identičnim blizancima.

- istraživanje je definisano na način da se mjerenje vrši dva puta na istim

jedinicama posmatranja pod različitim uslovima; na primjer mjerenje sposobnosti

pamćenja prije i poslije specijalne vježbe.

Nekada se iz ovakvvih uzoraka računa razlika dobijenih vrijednosti i tada ona predstavlja

nov uzorak koji se dalje može adekvatno statistički analizirati.

Nezavisni uzorci

Nezavisni uzorci su oni koji se biraju iz iste ili iz različitih populacija, a nemaju nikakvog

efekta jedni na druge (ne postoji korelacija između njih).

Slučajni uzorak

Slučajno uzorkovanje je tehnika kjom se obezbjeđuje da se svaka jedinica posmatranja

bira potpuno slučajno, kao i da sve imaju poznatu (ne obavezno istu) vjerovatnoću

izbora. Pomoću ove tehnike se smanjuje pristrasnost izbora jedinica populacije u uzorak.




2


[email protected]

Prost slučajni uzorak (Simple Random Sample – SRS)

Kod SRS tehnike se svaka jedinica bira slučajno, pri čemu sve jedinice populacije imaju

iste šanse da budu odabrane u uzorak. Dodatno, svaki uzorak date veličine ima iste

šanse za izbor, što znači da svaki element populacije ima istu vjerovatnoću izbora u svim

fazama izbornog procesa.

Stratificirani uzorak

Često se populacija može prirodno podijeliti u disjunktne podskupove (potpopulacije,

stratume), pri čemu se očekuje da mjerenja od interesa variraju među poskupovima. (Na

primjer, istraživanje kupovne moći potrošača po kantonima u Federaciji BiH.) Tada bi se

razlike među podpopulacijama trebale odraziti i na uzorku, što se postiže stratificiranim

uzorkovanjem.

Stratificirani uzorak se dobija biranjem uzoraka iz svakog stratuma populacije.

U opštem slučaju se traži da proporcije svakog stratuma u uzorku budu jednake kao i u

populaciji.

Stratificirani uzorak se koristi kod nehomogenih populacija, ili kod populacija iz kojih se

mogu izdvojiti homogene potpopulacije, dok se SRS koristi kod uzorkovanja iz homogene

populacije.

Neke od prednosti stratificiranog nad prostim slučajnim uzorkovanjem su:

- može se umanjiti cijena istraživanja po jedinici posmatranja,

- potrebno je ocijeniti parametre populacije i za potpopulacije,

- može se povećati preciznost za fiksiranu cijenu istraživanja.

Klaster uzorak

Koristi se kada istraživaču nije dostupan spisak jedinica posmatranje čitave populacije, ali

ima potpune podatke za grupe (klastere). Takođe se koristi kada SRS može rezultirati

toliko razuđenim uzorkom da bi istraživanje bilo preskupo (na primjer, ljudi koji žive u

različitim mjestima). Često je praktičnije i/ili jeftinije i od SRS i od stratificiranog

uzorkovanja.

Ovom metodom se čitava populacija podijeli u podskupove disjunktne po posmatranom

obilježju (klastere), pa se bira SRS od tih klastera. Sve jedinice posmatranja koje

pripadaju odabranom klasteru su u uzorku.

Kvota uzorak

Danas je možda i najpopularniji način na koji razne marketinške agencije prikupljaju

podatke, ali ima ozbiljne metodološke nedostatke; za početak, to nije slučajni uzorak pa

je uzoračka raspodjela bilo koje statistike nepoznata.

Princip je sljedeći: svakom anketaru se dodijeli određeni broj (kvota) jedinica

posmatranja koje bi trebalo da „regrutuje“ za uzorak.

Uzoračka varijabilnost je pojam koji se odnosi na različite vrijednosti koje data funkcija

ima kada se u nju zamijene podaci iz različitih uzoraka odabranih iz iste populacije.




3


[email protected]

Standardna greška

Standardna greška je standardna devijacija (termin koji će biti objašnjen u narednim

predavanjima) vrijednosti date uzoračke funkcije nad svim mogućim uzorcima iste

veličine

Pristrasnost (Bias)

Pristrasnošću se mjeri koliko je prosječna statistika udaljena od parametra koji mjeri,

dakle greška koja nastaje pri ocjenjivanju veličine. Polazna pretpostavka je da će se

slučajne greške međusobno eliminisati ponavljanjem, ali da pristrasnost (ukoliko postoji)

ostaje.

Na slici 1 su ilustrovani pristrasnost i preciznost.

Preciznost

Preciznost je mjera očekivanja blizine ocjene stvarnoj vrijednosti parametra, a obratno je

srazmjerna standardnoj grešci.

Precizno Neprecizno

Pristrasno

Nepristrasno

Slika 1: Pristrasnost i preciznost




1


[email protected]

Datum: 24.10.2013.

Sortiranje podataka

Nakon što se odabere uzorak, podaci se najčešće trebaju na naki način urediti da bi se

mogli smisleno predstaviti i/ili dalje obrađivati. Neke od tehnika su: tabeliranje (obrađeno

u prethodnoj nastavnoj jedinici), sortiranje, filtriranje i grafički prikaz. Kako su ostale

tehnike ili jednostavne, ili već obrađene, u daljem tekstu će se govoriti samo o sortiranju

podataka.

Podaci u uzorku se mogu sortirati na različite načine:

- prema broju učestalosti ponavljanja elemenata u uzorku (frekvencijama

elemenata),

- po srodnim grupama i

- prema veličini obilježja.

Sortiranje elemenata po učestalosti ponavljanja u uzorku

Veoma često je korisno znati koliko se puta neki element ponovio u uzorku (na primjer,

koliko studenata je položilo ispit sa ocjenom 6, koliko sa ocjenom 7,...). Naravno, ovakvo

sortiranje ima smisla ukoliko se radi o cijelim brojevima koji se ne kreću u prevelikom

rasponu; ukoliko se trebaju sortirati realni brojevi, ili brojevi u velikom rasponu,

primjenjuje se grupisanje.

Svaki statistički softver ima ugrađene funkcije za sortiranje elemenata prema učestalosti

njihovog ponavljanja u uzorku, pa ni MSExcel nije izuzetak. U njemu se za to koristi

naredba FREQUENCY (sintaksa postoji u Help-u, a detalji primjene su prikazani u

vježbama). Postupak sortiranja bi bio sljedeći: vrijednosti u uzorku se sortiraju (u

rastućem ili opadajućem poretku) pa se prebroji koliko se puta koja vrijednost ponavlja.

Kada se primjenjuje naredba FREQUENCY veoma često je pogodno prethodno izračunati

minimalni i maksimalni element (pomoću funkcija MIN i MAX); izuzetak su jedino podaci

za koje se zna tačno koje vrijednosti nose, kao što je slučaj sa ocjenama.

Na primjer, neka su za 40 studenata koji položili ispit iz statistike zabilježene sljedeće

ocjene:

6 6 7 8 9 7 6 6

7 7 8 8 8 6 6 10

10 9 9 9 6 6 6 7

7 7 7 7 8 8 6 6

6 8 7 9 7 7 6 6 Tabela 1: Ocjene 40 studenata




2


[email protected]

Kada se dobijene ocjene sortiraju po frekvencijama, dobija se:

Ocjena

(xi)

Frekvencija

(fi)

6 14

7 12

8 7

9 5

10 2

Svega 40

Tabela 2: Frekvencije ocjena iz Tabele 1 (broj studenata koji su dobili svaku od ocjena)

što znači da je 14 studenata položilo ispit s ocjenom 6, 12 sa 7 i tako redom. Sortirane

podatke je uvijek korisno prikazati i grafički; za prikaz frekvencija se koristi histogram

frekvencija1, pri čemu se vrijednosti (u ovom slučaju ocjene) upisuju na x-osu, a njihova

učestalost (frekvencija) na y-osu:

Slika 1: Histogram frekvencija ocjena studenata

1 Ukoliko se histogram frekvencija objavljuje u stručnom ili naučnom radu, obavezno je

odabrati crnu boju, na ispitu se mogu koristiti i druge boje.

14

12

7

5

2

0

2

4

6

8

10

12

14

16

6 7 8 9 10




3


[email protected]

Sortiranje po grupama

Ukoliko su podaci diskretni, a ima previše elemenata da bi se mogli prikazati u tabeli i/ili

grafikonu, ili ako se radi o neprekidnim podacima, onda se pribjegava grupisanju. Na

primjer, ako se želi mjeriti starost (koja se kreće od 0 do 100 i više godina) onda se takvi

podaci uvijek grupišu, pa se prebrojava koliko elemenata uzorka se nalazi u svakoj od

grupa.

Neka u jednoj zgradi živi 56 stanara starosti kao u donjoj tabeli.

50 61 24 25 27 55 57 16

67 31 57 53 26 16 19 30

33 53 58 26 29 72 77 43

11 8 11 38 38 64 58 56

42 28 27 25 20 21 44 77

0 7 32 34 36 31 29 33

66 59 62 63 4 6 66 55 Tabela 3: Starost 56 stanara neke zgrade

Da bi se jednostavnije odredile granice grupa, prvo se računaju minimalna i maksimalna

starost.

Minimalna starost 0

Maksimalna starost 77

Zatim se odrede granice razreda (grupa), pa se prebroji (primjenom FREQUENCY) koliko

elemenata uzorka ima vrijednost u zadanim granicama (u ovom slučaju granice imaju

smisla).

Opis grupe Ganice grupe Frekvencije (fi)

Predškolska djeca 0-5 2

Osnovci 6-14 5

Srednjoškolci 15-19 3

Studenti 20-24 3

Mlađi zaposleni 25-44 22

Stariji zaposleni 45-64 15

Penzioneri 65+ 6

Ukupno 56

Tabela 4: Podjela u starosne grupe i broj osoba koje spadaju u svaku od njih




4


[email protected]

Odgovarajući grafikon je prikazan na Slici 3:

Slika 2: Histogram frekvencija starosti stanara jedne zgrade

Sortiranje po vrijednostima

Ako se elementi jednog uzorka sortiraju po vrijednostima u rastućem redoslijedu, tada se

oni mogu podijeliti u grupe koje imaju jednak broj elemenata. Tako se, na primjer, može

govoriti o prvoj i drugoj polovini uzorka, i mogu se analizirati njihove razlike. Ovakvo

sortiranje se često primjenjeuje u ekonomiji, na primjer, ukoliko se gleda prihod po

stanovniku, onda može biti zanimljivo znati koliki je maksimalni prihod za najsiromašniju

četvrtinu populacije, ili, koja je donja granica prihoda 10% najbogatijih.

Kada se podaci sortiraju po vrijednostima, oni se mogu podijeliti u proizvoljan broj grupa,

ali su najpoznatije podjele u

- decile (10 grupa),

- kvintile (5 grupa),

- kvartile (4 grupe) i

- tercile (3 grupe).

Prilikom sortiranja u bilo koje od navedenih grupa, uzorak se sortira, veličina uzorka se

podijeli brojem grupa i onda se određuju granice.

Recimo da se ocjene studenata iz Tabele 1 trebaju sortirati u tercile.

Kako podataka ima 40, a tercila 3, to se prvo treba podijeliti 40 sa 3, što nije cio broj2

(40:3=13.33).

U ovom slučaju se granica prve tercile računa tako što se na 13-ti element sortiranog

uzorka doda razlika 14-tog i 13-tog elementa pomnožena sa 0.33. Iz tabele frekvencija

se vidi da je prvih 14 elemenata jednako 6, pa je i granica prve tercile jednaka 6 (jer je

razlika između 13-tog i 14-tog elementa jednaka 0).

2 Ukoliko se dobije cio broj, postupak je jednostavan: granica grupe je element

sortiranog uzorka sa tim rednim brojem.

2 5

3 3

22

15

6

0

5

10

15

20

25

0-5 6-14 15-19 20-24 25-44 45-64 65+




5


[email protected]

Redni broj

tercile

Redni broj

granice

Granica

tercile

1 13,33 6

2 26,67 7,67

3 40,00 10

Tabela 5: Granice tercila ocjena 40 studenata

Granica druge tercile se računa tako što se na 26-ti element (13,33*2) doda razlika 27-

mog i 26-tog elementa (8 i 7, respektivno, razlika je 1) pomnožena sa 0.67. Granica

treće tercile (i svake posljednje grupe) je najveći element u uzorku.

Sada se može reći da je barem trećina studenata dobila 6, dvije trećine studenata manje

od 7,67 (dakle, 7 ili manje), a da je samo trećina studenata položila ispit sa ocjenom 8 ili

više. Grafički prikaz ocjena sortiranih u tercile je na Slici 4.

Slika 3: Ocjene sortirane u tercile.

0

2

4

6

8

10

12

1 2 3


Statistika i vjerovatnoća::Predavanja


1


[email protected]

Datum: 4.11.2013.

Mjere centralne tendencije

U statističkim istraživanjima se dobijeni (sirovi) podaci najčešće ne prikazuju, nego se

obrađuju različitim funkcijama (statistikama). Te se funkcije koriste da bi se auditorijumu

prikazali prikupljeni podaci, a na osnovu njih se može vršiti i zaključivanje (inferencija).

U najjednostavnije funkcije za opisivanje podataka spadaju mjere centralne tendencije.

Sve one opisuju srednju vrijednost podataka, odnosno vrijednost za koju se očekuje da

se nalazi u sredini opisanog skupa, ili da se najčešće ponavlja u uzorku, ili da se sve

ostale vrijednosti grupišu oko nje. Funkcije koje se koriste za opisivanje centralne

tendencije se još nazivaju i sredinama.

Vrste sredina

Različiti podaci se moraju opisivati različitim sredinama. Najčešće korištena sredina u

statistici je aritmetička sredina podataka ili prosta sredina. Ona se računa tako što se

izračuna masa uzorka (svi podaci se saberu), pa se taj zbir podijeli veličinom uzorka

(brojem podataka). Veličina uzorka se u Excelu može odrediti pomoću funkcije COUNT, a

masa pomoću funkcije SUM.

Na primjer, neka su za 40 studenata koji položili ispit iz statistike zabilježene ocjene kao

u Tabeli 1.

6 6 7 8 9 7 6 6

7 7 8 8 8 6 6 10

10 9 9 9 6 6 6 7

7 7 7 7 8 8 6 6

6 8 7 9 7 7 6 6 Tabela 1: Ocjene 40 studenata

U Tabeli 2 su prikazane masa i veličina uzorka, te aritmetička sredina izračunata na dva

načina: kao količnik mase i veličine uzorka i pomoću ugrađene Excel funkcije AVERAGE.

Masa uzorka 289

Veličina uzorka 40

Aritmetička sredina 7,225

AVERAGE 7,225 Tabela 2: Masa, veličina i aritmetička sredina uzorka ocjena.

Sada se može reći da je prosječna ocjena studenata na ispitu bila 7.225.

No, sredina uzorka se može opisati i na druge načine. Jedan od njih je da se u obzir

uzme koja se ocjena najčešće ponavljala (kojih je ocjena bilo najviše). Ta mjera

centralne tendencije se naziva modus (dominantna sredina). U Excel-u se ona može

izračunati pomoću funkcije MODE, a ukoliko se mora računati „pješke“, onda se mora

prebrojati koliko se puta svaki od elemenata ponavlja u uzorku. U uzorku može biti više

od jednog modusa, ukoliko postoji veći broj elemenata koji se ponavljaju isti broj puta,

rekimo k-puta, (a nema elemenata koji se ponavljaju više od k puta).




2


[email protected]

Dodatno se mogu elementi uzorka sortirati (u rastućem poretku) i onda se odrediti koji

element se nalazi na sredini sortiranog uzorka. Ta mjera centralne tendencije se naziva

medijana (centralna vrijednost). Ukoliko uzorak ima neparan broj elemenata, onda je

medijana element sortiranog uzorka pod rednim brojem (n-1)/2, a ukoliko je u uzorku

paran broj elemenata, medijana je aritmetička sredina srednja dva. U Excel-u postoji

ugrađena funkcija MEDIAN koja se može upotrijebiti za računanje medijane.

U tabeli 3 su prikazani modus i medijana uzorka ocjena iz Tabele 1.

Medijana 7

Modus 6 Tabela 3: Medijana i modus uzorka ocjena.

Iako se aritmetička sredina najčešće koristi, ona nije najbolji izbor u svim situacijama. Na

primjer, ukoliko se želi odrediti srednja cijena nekog artikla u različitim prodavnicama,

onda je efikasnije korititi modus (najčešće cijena tog artikla). Slično je i sa određivanjem

prosječnog broja djece po porodici, bolje je znati kakva se situacija najčešće javlja, na

primjer, u BiH ima najviše porodica sa dvoje djece, nego da se kaže da je prosječan broj

djece u BH porodici 2.18.

Odnos aritmetičke sredine i medijane

Kada se opisuje centralna tendencija nekog uzorka, korisno je uporediti različite vrste

sredina. Na taj način se dolazi do informacije o zakrivljenosti uzorka. Zakrivljenost se

karakteriše pozicijom medijane u odnosu na prostu sredinu: ako je medijana desno od

aritmetičke sredine, skup je zakrivljen udesno i obratno. U ovo razmatranje se može

uzeti i modus, ukoliko postoji.

Odnos između medijane i modusa može da upozori na neke karakteristike uzorka, kao

što su bipolarnost, ili postojanje ekstremne vrijednosti u uzorku. Na primjer, neka se

posmatra skup platnih razreda zaposlenika jednog prosječnog preduzeća u Mostaru

(prosječna plata u HNK je 900 maraka). Platni razredi sa frekvencijama su prikazani u

Tabeli 4.

Platni razred Opseg Frekvencija

1 300-550 1

2 551-800 1

3 801-1050 3

4 1051-1300 6

5 1301-1550 4

6 1551-1800 4

7 1801-2050 6

8 2051-2300 3

9 2301-2550 1

10 2551 i više 1

Total 30

Tabela 4: Platni razredi jednoz izmišljenog preduzeća sa frekvencijama zaposlenih

Frekvencijski prikaz uzorka je naročito pogodan za određivanje modusa, iz tabele 4 se

vidi da postoje dva modusa, platni razred 4 i platni razred 7 (u oba razreda postoji po 6

zaposlenih). Uzorak sa dva modusa se naziva i bipolaran (vrijednosti u uzorku se

koncentrišu oko dvije različite vrijednosti.




3


[email protected]

Medijana ovog uzorka je jednaka aritmetičkoj sredini, 5.5.

Grafički prikaz uzorka je na Slici 1.

Slika 1: Broj zaposlenika po platnim razredima (Tabela 4).

Zamislimo sada da se u ovaj uzorak dodaju mjesečni džeparac nekog šeika, koji spada u

platni razred 300. Tada će se aritmetička sredina značajno uvećati (sa 5.5 na 15),

medijana će ili ostati ista ili će se samo malo povećati (sa 5.5 na 6), a modusi će ostati

isti.

Kako prosta sredina zavisi od vrijednosti u uzorku, ona se naziva i težištem uzorka. Na

ovaj način se potencira osobina aritmetičke sredine da je suma odstupanja pojedinačnih

elemenata od sredine uvijek jednaka nuli.

Elementi uzorka veličine 10

5 4 5 7 7 6 6 8 9 6

Prosta sredina 6,3

Odstupanje elemenata uzorka od sredine

-1,3 -2,3 -1,3 0,7 0,7 -0,3 -0,3 1,7 2,7 -0,3

Suma odstupanja elemenata uzorka od sredine 0,00

Frekvencijska sredina

Sredina se može računati i iz sortiranog uzorka. Ukoliko se radi o frekvencijskom uzorku,

frekvencijska sredina će biti jednaka prostoj sredini.

Razmotrimo uzorak 5,4,5,7,7,6,6,8,9,6. Svejedno je na koji način će sumirati elementi

da bi se dobila masa uzorka:

5+4+5+7+7+6+6+8+9+6

ili

1*4+2*5+3*6+2*7+1*8+1*9.

Primjer računanja frekvencijske sredine je detaljno objašnjen u materijalima za vježbe.

0

2

4

6

8

1 2 3 4 5 6 7 8 9 10

Bro

j zap

osl

en

ika

po

p

latn

om

raz

red

u

Platni razred




4


[email protected]

Grupna (razredna sredina)

Recimo da se želi odrediti srednja vrijednost Uzorka prikazanog u Tabeli 4. Kada su

dostupne samo frekvencije po razredima, onda se može izračunati sredina razreda,

smatrati se da su svi elementi razreda predstavljeni tom sredinom i dalje se primjeniti

postupak za frekvencijsku sredinu. Važno je zapamtiti da razredna sredina ne mora biti

jednaka aritmetičkoj sredini, odnosno da ona u opštem slučaju ima odstupanje u odnosu

na prostu sredinu.

Harmonijska sredina

Harmonijska sredina predstavlja količnik obima uzorka i sume recipročnih vrijednosti

njegovih elemenata. Računa se po formuli:

.

Koristi se veoma rijetko i to kod uzoraka čiji su elementi definisani u odnosu na neku

jedinicu (na primjer za računanje prosječne brzine koja se i sama definiše kao količnik

pređenog puta u jedinici vremena). U statistici je korisno primjenjivati harmonijsku

sredinu kada u uzorku postoje vrijednosti koje su mnogo puta veće od ostalih (takozvani

ekstremni autlejeri).

Na primjer, ukoliko želimo da izračunamo sredinu uzorka iz Tabele 4 sa pridodatom

vrijednošću za šeika sa platnim razredom 300, primjenom formule za harmonijsku

sredinu bi se dobila vrijednost 4,48, a ta vrijednost je bliža vrijednosti tipičnog

predstavnika u uzorku od vrijednosti za aritmetičku sredinu (15).

U odnosu na geometrijsku i aritmetičku sredinu, harmonijska je uvijek najmanja, a

jednakost sve tri važi samo ako su svi elementi u uzorku jednaki.

Geometrijska sredina

Geometrijska sredina se računa kao n-ti korjen proizvoda svih elemenata u uzorku, po

formuli:

√

.

Koristi se kod uzoraka čiji su elementi pozitivni, a čiji se kumulativ interpretira ne sumom

nego proizvodom (na primjer u ekonomiji, za računanje prosječne vrijednosti povrata

investicija kroz vrijeme, ili za računanje kumulativnih kamatnih stopa).

Na primjer, neka se dobit od neke investicije kreće kao u Tabeli 5.

Godina 2009 2010 2011 2012 2013 2014

Povrat investicije - 5% 20% 25% -10% 20%

10000 10500 12600 15750 14175 17010

Tabela 5: Povrat izmišljene investicije u pet godina.

Primjenom aritmetičke sredine se povrat investicije precenjuje za 4%, pa se u ovakvim

slučajevima primjenjuje geometrijska sredina, s tim da se procenti povrata investicije




5


[email protected]

moraju računati u odnosu na 100% kao u Tabeli 6, jer se geometrijska sredina računa za

pozitivne brojeve.

Godina Povrat investicije

2009 -

2010 1,05 2011 1,2 2012 1,25 2013 0,9 2014 1,2

Tabela 6: Povrat investicije

Geometrijska sredina je uvijek veća od harmonijske, ali manja od aritmetičke, a

jednakost važi samo ako su svi elementi u uzorku jednaki.


Statistika i vjerovatnoća :: Predavanja


1


[email protected]

Datum: 11.11.2013.

Varijabilnost skupa podataka

U materijalima za prošlu sedmicu je bio opisan pojam sredine kao vrijednosti oko koje se

elementi uzorka grupišu, no nije rečeno ništa o tome koliko su elementi blizu ili daleko od

sredine. Mjerenjem udaljenosti elemenata uzorka od njegove sredine se dolazi do pojma

varijabilnosti.

Najjednostavnija mjera varijabilnosti uzorka je raspon, odnosno razlika između

maksimalnog i minimalnog elementa u uzorku. Iako ga je korisno izračunati, on je ipak

veoma nesigurna i neprecizna mjera, iz dva razloga:

1. prisustvo makar jedne ekstremne vrijednosti znatno uvećava raspon, što ne mora

oslikavati varijabilnost ostalih elemenata oko sredine i

2. obično je veći od broja elemenata u uzorku.

Druga mjera koja se može koristiti za sve sredine osim aritmetičke je prosječno

odstupanje elemenata od sredine, tzv. srednje odstupanje. Ono se računa tako što se

saberu odstupanja svih elemenata od sredine, pa se taj zbir podijeli veličinom uzorka.

Odstupanje od aritmetičke sredine

U praksi se dešava da dva različita uzorka imaju iste sredine; tada je korisno znati

varijabilnost uzoraka, da bi se oni mogli porediti. Na primjer, neka su dati uzorak 1 i 2

(U1 i U2, respektivno) kao u Tabeli 1.

U1 U2

1 2

2 3

3 3

4 3

5 4

Tabela 1: Dva uzorka sa različitim elementima i istim sredinama

Aritmetičke sredine (u daljem tekstu sredine) oba uzorka su iste (jednake 3), ali bi se na

osnovu uvida u elemente uzorka moglo zaključiti da dobijena sredina bolje predstavlja U2

nego U11. Funkcija kojom se opisuje odstupanje elemenata uzorka od sredine se naziva

varijansa ili disperzija.

No, kako je već ukazano na osobinu aritmetičke sredine da je zbir odstupanja svih

elemenata uzoraka od sredine jednak nuli2, za računanje varijanse se odstupanja od

sredine kvadriraju3. Na taj način se dolazi do formule4

1 Sredina predstavlja vrijednost oko koje se grupišu elementi uzorka, a kod U2 su elementi bliži

sredini, ili gušće grupisani oko sredine, nego kod U1. 2 (jer se pozitivna i negativna odstupanja poništavaju)




2


[email protected]

∑ ( ) ,

gdje označava sredinu, varijansu, a veličinu uzorka. Dakle, može se reći da

varijansa predstavlja prosječno kvadratno odstupanje elemenata uzorka od sredine.

U Tabeli 2 je prikazan postupak računanja varijanse za uzorke iz Tabele 1.

U1 U2

( ) ( )

1 -2 4 2 -1 1

2 -1 1 3 0 0

3 0 0 3 0 0

4 1 1 3 0 0

5 2 4 4 1 1

∑ 15 0 10 15 0 2

Tabela 2: Suma odstupanja i suma kvadrata odstupanja od sredine za U1 i U2.

Dalji postupak5 je da se veličine izračunate u Tabeli 2 smjene u formulu za računanje

varijanse (s tim da se koristi formula za varijansu uzorka, jer je ). Dakle, za U1

važi:

∑ ( )

,

a za U2:

∑ ( )

.

Sada se na osnovu vrijednosti sredine i varijanse može reći da sredina bolje predstavlja

U2 nego U1 jer su u U2 odstupanja elemenata od sredine manja nego u U1.

Ukoliko se uzme u obzir da je sredina najčešće decimalni broj, za računanje varijanse se

može koristiti i alternativna formula:

∑

( )(∑

) ,

pri čemu je kao osnovno polazište za računanje korištena formula za uzorak. Zaista, kada

se u ovu formulu smjene vrijednosti za U1, dobija se

( )( )

.

3 (da bi se sumiranjem mogle kumulirati pozitivne vrijednosti odstupanja) 4 Ovo je formula za varijansu populacije; za varijansu uzorka se umjesto sa dijeli sa .

Smatra se da se za uzorke veličine manje od 30 treba primijeniti formula za varijansu uzorka, a za

ostale formula za varijansu populacije. 5 Postupak za računanje varijanse u Excel-u je prikazan u materijalima za vježbe.




3


[email protected]

Iako nije dobro da elementi uzorka previše variraju, ni varijansa bliska ili jednaka nuli

nije dobar pokazatelj. U kom slučaju je varijansa uzorka jednaka nuli?

Kako se varijansom izražava kvadratno, to se uvodi statistika kojom se izražava

prosječno linearno odstupanje od sredine, standardna devijacija. Ona se računa kao

kvadratni korjen iz varijanse i koristi se kao standard za mjerenje varijabilnosti rezultata.

Dakle, kada se želi predstaviti neki uzorak, a ne žele se prikazati svi njegovi elementi,

onda se mora prikazati sredina u paru sa standardnom devijacijom, tako da korisnik

može imati predstavu i o vrijednosti oko koje se grupišu elementi uzorka (sredini) i o

odstupanju elemenata uzorka od sredine. Uz ove dvije statistike se još treba prikazati i

veličina uzorka.

Kada su podaci pravilno (normalno6) grupišu oko sredine, onda važi:

interval ( ) obuhvata 68.26% elemenata uzorka,

interval ( ) obuhvata 95.44% elemenata uzorka,

interval ( ) obuhvata 99.73% elemenata uzorka

Detaljan postupak računanja varijanse i standardne devijacije za frekvencijsku i

grupnu/razrednu sredinu je prikazan u materijalima za vježbe.

Koeficijent varijacije

Još jedna korisna funkcija kojom se izražava varijabilnost uzorka je koeficijent varijacije,

koji se računa po formuli

.

Koristi se kada se želi utvrditi jedna od sljedeće dvije stvari:

1. koje obilježje više varira, ako se na jednom uzorku mjere osobine dva ili više njih,

2. koji uzorak više varira, ako se na barem dva uzorka mjere osobine istog obilježja.

Na primjer, neka su dati podaci za jednu generaciju studenata o prosječnoj ocjeni (od 6

do 10) i prosječnom broju položenih ispita (od 0 do 10). Variraju li više rezultati za

prosječne ocjene ili za broj položenih ispita?

Prosječna ocjena Broj položenih ispita

µ 7,33 6,71

1,28 2,66

0,18 0,40

Tabela 3: Računanje koeficijenta varijacije za dva obilježja na jednom uzorku.

Iz Tabele 3 je vidljivo da više variraju podaci o broju položenih ispita od podataka za

prosječnu ocjenu po studentu.

6 Normalno se u ovom slučaju odnosi na pojam Normalne raspodjele, koji će biti objašnjen u

narednim predavanjima.




4


[email protected]

Sa druge strane, neka se žele uporediti prosječne ocjene studenata koji su u jednoj

akademskoj godini položili dva različita predmeta, P1 i P2, kao u Tabeli 4.

Predmet 1 Predmet 2

n 104 79

µ 7,54 7,39

2,20 2,10

0,29 0,28

Tabela 4: Koeficijent varijacije za poređenje vrijednosti jednog obilježja na dva uzorka.

Uvidom u rezultate prikazane u Tabeli 4 se može zaključiti da ocjene na oba predmeta

isto variraju.




1


[email protected]

Datum: 7.12.2013.

Raspodjela slučajne promjenjive

Bez da se zadaje takozvana aksiomatska definicija vjerovatnoće, na kojoj počiva i stroga

definicija slučajne promjenjive i njene raspodjele, mogu se navesti i objasniti ovi pojmovi

u mjeri dovoljnoj za razumijevanje materije predviđene silabusom predmeta.

Vjerovatnoća

Empirijska definicija vjerovatnoće

Neka se posmatra događaj A čiji se elementarni ishodi obilježavaju sa (uobičajeno je

da se skup svih elementarnih ishoda obilježava sa ). Na primjer, ukoliko se u

eksperimentu baca kocka i bilježi broj koji se nalazi na gornjoj strani, onda su

elementarni ishodi 1, 2, 3, 4, 5 i 6.

Empirijska vjerovatnoća nekog događaja se posmatra kao omjer broja povoljnih ishoda

za taj događaj i ukupnog broja svih ishoda. Na primjer, ako se događaj A definiše tako da

je prilikom bacanja pao ili broj 3 ili 4 ili 5, onda je vjerovatnoća tog događaja jednaka

3/6, jer su od šest mogućih tri ishoda povoljna za A. U tom smislu se može reći da je

događaj podskup skupa elementarnih ishoda.

Najosnovnija pravila (Petz, B. 1997, str. 32-34)

Vjerovatnoća događaja za koji je potpuno izvjesno da će se dogoditi jednaka je 1, a

takav događaj se naziva izvjestan ili siguran događaj. Na primjer, ukoliko se posmatra

ocjena koju je dobio student koji je pristupio nekom ispitu, a ocjene se kreću od 5 do 10,

onda je izvjestan događaj da je student dobio neku od ocjena za svoj izlazak na ispit. Sa

druge strane, ako je potpuno izvjesno da se nešto neće dogoditi, onda je vjerovatnoća

tog događaja jednaka 0 i on se naziva nemoguć događaj. Na primjer, ako je student

izašao na ispit, onda je nemoguć događaj da nije dobio ocjenu. Vjerovatnoće svih ostalih

događaja se nalaze u rasponu od 0 do 1, pa se za vjerovatnoću kaže da je nenegativna i

normirana.

Vjerovatnoća da će se dogoditi bilo koji od nekoliko nezavisnih1 događaja jednaka je

sumi vjerovatnoća pojedinačnih događaja. Zbog toga se kaže da je vjerovatnoća

aditivna.

Sa druge strane, vjerovatnoća da će se istovremeno desiti dva ili više nazavisna

događaja jednaka je proizvodu pojedinačnih vjerovatnoća (princip multiplikativnosti).

Vjerovatnoća se uvijek obilježava slovom p (engl. probability). Ukoliko se radi o

vjerovatnoći elementarnog ishoda, ona se obilježava malim slovom, a ukoliko se radi o

vjerovatnoći nekog događaja, obilježava se velikim slovom. Na primjer, sa P(A) se

obilježava vjerovatnoća događaja A.

1 Za događaje se kaže da su nezavisni ako ishod jednog događaja ne utiče na

vjerovatnoću drugog i obratno. Na primjer, ako se dva puta uzastopno baca kocka, onda

je vjerovatnoća da će „pasti“ 4 u oba pojedinačna bacanje jednaka 1/6.




2


[email protected]

Slučajna promjenjiva

Iako se u materijalima neće navoditi stroga (matematička) definicija, pojam slučajne

promjenjive se ipak mora objasniti. Dakle, za potrebe ovog kursa se može smatrati da je

slučajna promjenjiva ona promjenjiva kod koje se svaka vrijednost realizira sa

određenom vjerovatnoćom. Vjerovatnoća da je realizacija slučajne promjenjive2 X

jednaka x se obilježava sa P(X=x).

Vrijednosti koje može uzeti slučajna promjenjiva se nazivaju realizacije slučajne

promjenjive. Skup realizacija može biti diskretan ili neprekidan i u zavisnosti od njega se

slučajne promjenjive nazivaju diskretne ili neprekidne.

Diskretna slučajna promjenjiva.

Neka je dat primjer slučajne promjenjive X čije su vrijednosti ocjene studenta od 5 do

10. Dalje, neka je svakoj ocjeni pridružena vjerovatnoća kojom se označava „šansa“

studenta da na ispitu dobije određenu ocjenu. Jedan takav primjer je prikazan na Slici 1.

Uobičajeno je da se ovakvo pridruživanje naziva raspodjela vjerovatnoća slučajne

promjenjive, pod uslovom da je zbir vjerovatnoća za čitav skup realizacija slučajne

promjenjive jednak 1.

(

)

Slika 1: Raspodjela ocjena na imaginarnom ispitu

Raspodjela sa Slike 1 se može protumačiti i na sljedeći način: ukoliko bi na ispit izašlo

100 studenata (pomnoži se svaka vjerovatnoća sa 100), onda bi broj njih koji su dobili

određenu ocjenu bio kao u Tabeli 1.

Ocjena Broj studenata

5 39

6 8

7 16

8 22

9 9

10 6

Ukupno 100 Tabela 1: Frekvencije ocjena studenata

U statistici se dešava i da se prikaz kao u Tabeli 1 naziva raspodjelom, a u tom slučaju se

empirijske vjerovatnoće računaju na isti način kao i koeficijenti, a ponekad se izražavaju i

kao procenti.

Za slučajnu promjenjivu se vezuju i pojmovi matematičkog očekivanja i varijanse,

kovarijanse i korelacije, kao i momenata.

Matematičko očekivanje

Matematičko očekivanje slučajne promjenjive X, u oznaci EX, ili E(X), kao što mu ime

kaže, je formula kojom se dobija očekivana vrijednost neke slučajne promjenjive.

Aritmetička sredina je jedna od ocjena matematičkog očekivanja, a u primjenjenoj

statistici je i najčešća. Za diskretne slučajne promjenjive (za koje je eksplicitno navedena

raspodjela) formula glasi:

2 Slučajna promjenjiva se uvijek obilježava velikim slovom, a njene realizacije malim.




3


[email protected]

∑

gdje su sa označene realizacije slučajne promjenjive, a sa vjerovatnoće da će

slučajna promjenjiva uzeti odgovarajuće realizacije. Na primjeru sa Slike 1, se može

vidjeti da smjenjivanje vrijednosti u formulu za matematičko očekivanje daje iste

vrijednosti kao kada se izračuna frekvencijska sredina za podatke prikazane u Tabeli 1.

Naime,

što znači da je očekivana ocjena na ispitu prolazna ocjena, skoro sedmica.

Centralni momenti diskretnih slučajnih promjenjivih

Centralni moment (moment oko sredine) slučajne promjenjive reda se definiše

formulom:

[( ) ],

odnosno, za diskretne slučajne promjenjive se definiše formulom

∑( )

Gdje je sa m označena centralna vrijednost (matematičko očekivanje ili njegova ocjena).

U ovom kursu će se koristiti centralni momenti drugog, trećeg i četvrtog reda.

Centralni moment drugog reda se naziva varijansa (disperzija). Standardizirani3 moment

trećeg reda se naziva koeficijent simetrije (ili koeficijent asimetrije), a četvrtog reda

koeficijent spljoštenosti.

Binomna raspodjela

Najpoznatija raspodjela za diskretne slučajne promjenjive je Binomna raspodjela. Ona se

primjenjuje u situacijama kada se radi o slučajnoj promjenjivoj (X) koja ima samo dvije

realizacije, sa vjerovatnoćama4 p i 1-p.

Dalje se pretpostavlja da se eksperiment u kome se posmatra slučajna promjenjiva X

ponavlja n puta. Binomna raspodjela daje odgovor na pitanje kolika je vjerovatnoća da

se prilikom n ponavljanja eksperimenta određena realizacija (sa elementarnom

vjerovatnoćom p) ponovila k puta. Odgovarajuća formula glasi:

( ) ( ) ( ) .

3 Centralni moment k-tog reda podijeljen standardnom devijacijom potenciranom na ( ) se naziva standardiziranim. 4 Ako je vjerovatnoća neke realizacije (ili događaja) p, onda se vjerovatnoća q=1-p

naziva suprotna vjerovatnoća (vjerovatnoća da se događaj neće realizirati)




4


[email protected]

Povoljno svojstvo raspodjele je da su za nju uvijek određeni i matematičko očekivanje i

centralni momenti.Tako za Binomnu raspodjelu koja zavisi od parametara i , ( ) važi:

,

.

Na primjer, neka se posmatra bacanje kocke i neka se prati koliko je puta pala petica.

Vjerovatnoća da petica padne u jednom bacanju jednaka je 1/6. Kolika je vjerovatnoća

da će od 30 bacanja petica pasti 17 puta? Ova se vjerovatnoća jednostavno može

izračunati tako što se u formulu smijene vrijednosti n=30, k=17, p=1/6, ili u Excel-u, što

je prikazano u materijalima za vježbe.

Poisson-ova raspodjela

Poisson-ova raspodjela se odnosi na diskretne slučajne promjenjive koje zadovoljavaju

uslove Poisson-ovog eksperimenta:

Rezultati eksperimenta su ishodi koji se mogu klasificirati kao uspješni ili

neuspješni;

Prosječan broj uspješnih ishoda za jedan region ( ) je unaprijed poznat;

Vjerovatnoća da će ishod biti uspješan je proporcionalna veličini regiona;

Vjerovatnoća da će se uspješan ishod javiti u veoma malom regionu je

zanemarljiva (praktično jednaka nuli).

Region može biti dužina, površina, vremenski period, opseg ili tome slično.

Ako slučajna promjenjiva zadovoljava gore nabrojane uslove, onda ona ima Poisson-

ovu raspodjelu zadatu formulom:

( )

.

Za Poisson-ovu raspodjelu važi da su joj jednaki matematičko očekivanje i varijansa,

.

Poisson-ova raspodjela se smatra uopštenjem Binomne za n veliko i p malo, obično

.




1


[email protected]

Datum: 16.12.2013.

Raspodjela neprekidne slučajne promjenjive

Neprekidna slučajna promjenjiva (u smislu objašnjenja iz P7) je ona čiji je skup

realizacija neprekidan (neprebrojiv). Ukoliko je neprekidna slučajna promjenjiva, onda

ona ima gustinu raspodjele ( ) kojom se određuje vjerovatnoća da realizacija pripada

intervalu [ ], a izražava se pomoću integrala:

( ) ∫ ( )

Neprekidne slučajne promjenjive se karakterišu neprekidnom (ili čak apsolutno

neprekidnom) funkcijom raspodjele (Slika 1),

( ) ( ) ∫ ( )

Slika 1: (Kumulativna) funkcija raspodjele neprekidne slučajne promjenjive

Matematičko očekivanje neprekidne slučajne promjenjive je određeno formulom

∫ ( )

a varijansa se definiše kao drugi momenat oko sredine.

Za potrebe kursa će se definisati još i pojmovi kovarijanse,

( ) ( ) ( )( )

i koeficijenta korelacije,

( )

gdje su sa i obilježene standardne devijacije slučajnih promjenjivih X i Y

respektivno. Vrijednost koeficijenta korelacije se kreće od -1 do 1, a njime se utvrđuje

imaju li dvije slučajne promjenjive tendenciju da istovremeno rastu/opadaju, ili im se

vrijednost kreću u suprotnim smjerovima (-1 je maksimalna negativna korelacija, a 1

maksimalna pozitivna).

http://en.wikipedia.org/wiki/File:Normal_probability_distribution.svg




2


[email protected]

Centralni momenti neprekidnih slučajnih promjenjivih

Centralni moment (moment oko sredine) slučajne promjenjive reda se definiše

formulom:

[( ) ],

odnosno, za neprekidne slučajne promjenjive se definiše formulom

∫ ( ) ( )

gdje je sa m označena centralna vrijednost (matematičko očekivanje ili njegova ocjena).

U ovom kursu će se koristiti centralni momenti drugog, trećeg i četvrtog reda.

Centralni moment drugog reda se naziva varijansa (disperzija). Standardizirani1 moment

trećeg reda se naziva koeficijent simetrije (ili koeficijent asimetrije), a četvrtog reda

koeficijent spljoštenosti. Posljednja dva koeficijenta se u primjenjenoj statistici često

koriste za poređenje empirijske raspodjele sa normalnom.

Normalna (Gauss-ova) raspodjela

Najpoznatija raspodjela za neprekidne slučajne promjenjive je normalna raspodjela

( ( )). Parametri normalne raspodjele su matematičko očekivanje ( ) i varijansa

( ). Matematičko očekivanje predstavlja vrijednost oko koje su grupisane realizacije

slučajne promjenjive. Normalna raspodjela se često koristi kao aproksimacija empirijske

raspodjele slučajne promjenjive čije realizacije teže da se grupišu oko jedne vrijednosti.

Primjeri grafika normalne raspodjele za različite vrijednosti parametara su prikazane na

Slici 2.

Slika 2: Primjeri grafika normalne raspodjele (lijevo) i (kumulativne) funkcije raspodjele (desno) za različite vrijednosti parametara. Standardizirana normalna raspodjela je prikazana crvenom bojom.

Normalna raspodjela kod koje je matematičko očekivanje jednako nuli, a varijansa

jedinici, ( ) se naziva standardizovana normalna raspodjela. Naime, ako je X

normalno raspodjeljena slučajna promjenjiva, onda promjenjiva

ima

1 Centralni moment k-tog reda podijeljen standardnom devijacijom potenciranom na ( ) se naziva standardiziranim.

http://en.wikipedia.org/wiki/File:Normal_Distribution_PDF.svg

http://upload.wikimedia.org/wikipedia/commons/c/ca/Normal_Distribution_CDF.svg




3


[email protected]

standardiziranu normalnu raspodjelu, što slijedi iz osobina matematičkog očekivanja i

varijanse.

Gustina normalne raspodjele je određena formulom

( )

√ ( )

Široka primjenjivost normalne raspodjele u praksi je bazirana na rezultatu teorije

vjerovatnoće, centralnoj graničnoj teoremi, kojom se pokazuje da pod slabim uslovima

srednja vrijednost velikog broja slučajnih promjenjivih nezavisno odabranih iz iste

raspodjele ima normalnu raspodjelu bez obzira na oblik polazne raspodjele. Dodatno,

normalnu raspodjelu je jednostavno izraziti analitički, odnosno, veliki broj rezultata koji

se na nju odnose se mogu eksplicitno izračunati.

Kako su za normalnu raspodjelu očekivanje i varijansa parametri, to njih nije potrebno

računati. Treći centralni momenat (kao i svi ostali neparni momenti) jednak je nuli, pa se

u primijenjenoj statistici empirijska raspodjela može smatrati asimetričnom (u odnosu na

sredinu) ukoliko se izračunati standardizirani treći momenat razlikuje od nule. Analogno,

kako je četvrti momenat oko sredine kod normalne raspodjele jednak (k-ti centralni

moment, za parne k, jednak je ( ) ), to se empirijska raspodjela može smatrati

spljoštenom (ispupčenom) ukoliko je izračunati standardizirani četvrti momenat manji

(veći) od 3.

Od ostalih raspodjela, u ovom kursu će se koristiti još i one koje se primjenjuju za

testiranje hipoteza o normalno raspodijeljenim ishodima, a to su „hi-kvadrat“, studentova

t i F raspodjela. Raspodjele će biti detaljnije objašnjene u materijalima u kojima će se

prvi put pominjati njihova primjena.




1


[email protected]

Datum: 16.12.2013.

Testiranje statističkih hipoteza

Pojam hipoteza se u primjenama statistike najčešće poistovjećuje sa formulisanjem

tvrdnje vezane za neki od parametara funkcije raspodjele, a testiranje takvih hipoteza se

najčešće zasniva na uzoračkoj ocjeni datog parametra. U matematičkoj statistici,

testiranje hipoteza je dio složene teorije koja prevazilazi obim ovog predmeta. Zbog toga

će se u ovim materijalima samo pominjati najbitniji rezultati, bez da se ulazi u njihovo

dokazivanje.

Vrste testova

Postoje dvije vrste testova za provjeru statističkih hipoteza, parametarski i

neparametarski. Kod parametarskih testova se testiraju hipoteze o parametrima

raspodjela i mi ćemo se baviti isključivo ovim testovima.

Dakle, neka označava poznatu gustinu raspodjele koja zavisi od

parametara.

Statistička hipoteza. Definicija. Ukoliko se hipotezom određuju vrijednosti svih

parametara gustine raspodjele, ona se naziva prosta hipoteza; u protivnom hipoteza je

složena.

Primjer proste hipoteze je: , a složene:

Hipoteza o parametrima raspodjele se često testira naspram suprotne hipoteze, na

primjer naspram suprotne

Matematički, uslov za konstruisanje najboljeg testa daje lemma Neumann-Pearson

koja određuje najbolji kritični region (površina ispod gustine raspodjele koja je

nepovoljna za datu hipotezu) za unaprijed određenu veličinu. Kritični region veličine se

vezuje uz pojam greške I vrste, koja predstavlja vjerovatnoću da dobijena vrijednost

pripada kritičnom regionu iako je hipoteza ispunjena. Sa druge strane greška II vrste je

vjerovatnoća da vrijednost ne pripada kritičnom regionu za (dakle trebala bi se

prihvatiti ), ali se prihvata suprotna hipoteza Kako je greška II vrste „opasnija“ za

izvođenje pogrešnih zaključaka, prilikom konstruisanja testova se ona minimizira.

U praksi se za kritični region (kritičnu vrijednost) najčešće koristi ili ,

što odgovara regionu od 5% (1%, respektivno) površine ispod krive gustine raspodjele.

U slučajevima kada se lemma Neumann-Pearson ne može primijeniti, primjenjuje se test

količnika vjerodostojnosti. Još jedan bitan pojam vezan za testiranje hipoteza je

funkcija moći testa kojom se određuje vjerovatnoća da dobijena vrijednost pripada

kritičnom regionu kada je stvarna vrijednost parametra; važi da je




2


[email protected]

Goodness-of-fit testovi (testiranje da li uzorak odgovara teorijskoj raspodjeli)

U svim testovima koji su ovdje obrađeni se primjenjuje raspodjela (slovo grčkog

alfabeta „hi“), gdje označava broj stepeni slobode (radi se o slovu grčkog alfabeta koje

se čita „ni“).

Multinomna raspodjela

Multinomna raspodjela ima slične karakteristike kao Binomna i smatra se njenim

uopštenjem. Kod binomne raspodjele se u svakom ponavljanju eksperimenta posmatrani

događaj ili realizuje (sa vjerovatnoćom ), ili ne realizuje (sa vjerovatnoćom ).

Kod multinomne raspodjele postoji više elementarnih ishoda koji su svi međusobno

isključivi, i svakom od njih se pridružuje vjerovatnoća

Na primjerima ćemo pokazati kako se koristi test za utvrđivanje pripadnosti uzorka

poznatoj multinomnoj raspodjeli. Test se bazira na teoremi koja kaže da distribucije

slučajne promjenjive

∑

ima raspodjelu (sa stepeni slobode).

Na isti način kao što se u ovdje prikazanim testovima testira adekvatnost Multinomnoj i

Normalnoj raspodjeli, može se testiranje primijeniti i za Binomnu i Poisson-ovu

raspodjelu.

test

Primjer 1.

Neka se kocka baca 60 puta i neka su frekvencije ( ) zabilježene u eksperimentu date u

Tabeli 1.

Palo je: 1 2 3 4 5 6

ni 15 7 4 11 6 17 Tabela 1: Frekvencije pojavljivanja ishoda bacanja kocke u 60 ponavljanja.

Testira se hipoteza da je kocka „poštena“; u tom slučaju bi vjerovatnoće svih ishoda bile

iste i jednake

i to su očekivane vrijednosti za sve ishode. Dakle, testira se prosta

hipoteza:

, gdje je sa označena

vjerovatnoća da je palo .

Da bi se provelo testiranje, Tabela 1 se može dopuniti očekivanim vrijednostima (vidi

Tabelu 2) i onda je račun u Excel-u veoma jednostavan (vidjeti MSExcel file).

Dobijena vrijednost statistike je 13.6. Kako ima 6 ishoda, to je broj stepeni slobode

raspodjele , a teorijska vrijednost za kritični region je jednaka

11.1.




3


[email protected]

Palo je: 1 2 3 4 5 6

ni 15 7 4 11 6 17

ei

Tabela 2: Frekvencije pojavljivanja ishoda bacanja kocke u 60 ponavljanja.

Na Slici 1 je zasjenčen kritični region ispod krive koja približno prikazuje raspodjelu.

Slika 1: Kritični region za χ2 raspodjelu.

Kako je vrijednost dobijena iz uzorka veća od teorijski dobijene vrijednosti, ona pripada

kritičnom regionu, pa se mora odbaciti hipoteza da su empirijske vrijednosti jednake

teorijskim. Dakle, se odbacuje, pa možemo zaključiti da je kocka namještena (the

dice was loaded from the start...).

Primjer 2.

Neka su u eksperimentu uzgajanja jedne vrste cvijeća dobijene četiri različite

kombinacije boja i to 120 plavo-zelenih, 48 plavo-crvenih, 36 crveno-zelenih i 13 crveno-

crvenih. Neka je dalje poznato da bi se ove četiri kombinacije trebale odnositi u odnosu

9:3:3:1, treba provjeriti jesu li empirijski podaci (podaci dobijeni u eksperimentu) u

skladu sa teorijskim.

Da bi se odredile teorijske (očekivane) frekvencije, prvo se izračuna zbir 9+3+3+1=16, a

zatim se proizvod količnika odnosa i zbira pomnoži sa ukupnim brojem cvjetova i

zaokruži na najbliži cio broj (na primjer,

. Vrijednosti dobijene na

ovaj način su prikazane u Tabeli 3.

Sada se može postaviti hipoteza koja će se testirati:

Vrijednosti empirijskih i očekivanih frekvencija su prikazane u Tabeli 3.

Dobijena empirijska vrijednost statistike je 1.9. Kako ima 4 ishoda, to je broj stepeni

slobode raspodjele , a teorijska vrijednost za kritičnu vrijednost

je jednaka 7.8.

Kombinacija boja: 1 2 3 4

ni 120 48 36 13

ei 122 41 41 14

Tabela 3: Frekvencije pojavljivanja kombinacija boja cvijeća u 217 sadnica.




4


[email protected]

Kako je u ovom slučaju empirijska vrijednost manja od teorijske za zadatu kritičnu

vrijednost, ona se ne nalazi u kritičnom regionu, hipoteza se prihvata.

Ograničenja test

U praksi se pokazalo da je test nepouzdan ukoliko su vrijednosti (frekvencije

pojavljivanja ishoda) manje od 5. U tom slučaju se mora voditi računa da makar

očekivane vrijednosti budu veće od 5, a ako ni to nije slučaj, onda se ili mora izvršiti

spajanje kategorija (sumiranje frekvencija) ili se primijeniti neki drugi metod inferencije.

Uopštenje testa test se može koristiti i u slučajevima kada parametri raspodjele nisu unaprijed

poznati, nego se ocjenjuju na osnovu empirijskih podataka. U tom slučaju se za svaki

procijenjeni parametar oduzima po jedan stepen slobode.

Aproksimacije krive gustine raspodjele

Postoje situacije kada se želi provjeriti može li se za histogram frekvencija reći da

aproksimira neku raspodjelu (najčešće Normalnu, Poisson-ovu ili Binomnu).

Primjer 3.

Neka su u 1000 mjerenja dužine trajanja telefonskih razgovora dobijeni rezultati kao u

Tabeli 4 i neka je odgovarajući histogram frekvencija prikazan na Slici 2.

Dužina razgovora

(granica razreda) 49,5 149,5 249,5 349,5 449,5 549,5 649,5 749,5 849,5 949,5

ni 5 11 42 133 260 247 180 88 28 6

Tabela 4: Frekvencije obavljenih telefonskih razgovora određene dužine u 1000 mjerenja.

Dalje, neka je poznato da su srednja vrijednost i standardna devijacija jednaki i (postupak računanja razredne sredine i varijanse je prikazan u .xsl dokumentu).

Slika 2: Histogram frekvencija dužine trajanja telefonskih razgovora u 1000 mjerenja prikazan po

razredima.

5 11

42

133

260 247

180

88

28

0

50

100

150

200

250

300

49,5 149,5 249,5 349,5 449,5 549,5 649,5 749,5 849,5




5


[email protected]

Očekivane vrijednosti se računaju primjenom formule za vjerovatnoće Normalne

raspodjele za zadate vrijednosti (granice intervala). U MSExcel-u se to postiže primjenom

funkcije NORM.DIST( ; μ; σ; TRUE). Sintaksa funkcije je objašnjena u materijalima

iz vježbi. Kako je zbog opcije kumulativ=TRUE rezultat primjene funkcije površina ispod

krive do x, za sve vrijednosti osim prve se moraju izračunati razlike NORM.DIST( ;

μ; σ; TRUE) - NORM.DIST( ; μ; σ; TRUE) (vidjeti Sliku 3).

Konačno, podaci pripremljeni za testiranje su prikazani u Tabeli 5.

ni 5 11 42 133 260 247 180 88 28 6

ei 2,5 13,3 52,4 135,5 229,3 254,4 184,9 88,0 27,4 5,6

Tabela 5: Podaci o dužinama telefonskih razgovora pripremljeni za testiranje.

Dobijena empirijska vrijednost statistike je 9.63. Kako ima 10 mjernih intervala i

procjenjuju se dva parametra (sredina i standardna devijacija), to je broj stepeni slobode

raspodjele , a teorijska vrijednost za kritičnu vrijednost je jednaka

14.07. Pošto je empirijska vrijednost manja od teorijske, to se postavljena hipoteza može

prihvatiti, pa slijedi da su izmjereni podaci u skladu sa pretpostavljenom normalnom

raspodjelom.

Slika 3: Određivanje vjerovatnoće za oblast ispod krive ograničenu tačkama x1 (plavo) i x2 (crveno), presjek je ljubičaste boje i treba se oduzeti da bi se dobila crvena površina




1


[email protected]

Datum: 25.12.2013.

Tabele kontigencije

Još jedna veoma česta primjena testa je vezana za provjeru kompatibilnosti uočenih i

očekivanih vrijednosti u takozvanim tabelama kontigencije. U takvim tabelama su podaci

već sumirani, odnose se na dva različita obilježja koja su podijeljena po kategorijama, a

koriste se za istraživanje relacija između dvije klasifikacijske promjenjive.

Testiranje nezavisnosti

Kod tabela kontigencije se testom se može testirati hipoteza da ne postoji zavisnost

između dvije promjenjive po kategorijama.

Primjer 1.

Neka su u Tabeli 1 prikazani podaci za tri različita ponuđača iste vrste usluga (1, 2 i 3) i

zadovoljstvo korisnika tim uslugama (usluge ocijenjene kao: loše, osrednje, dobre i

izvrsne). U ovom konkretnom primjeru se testira hipoteza da ne postoji zavisnost između

proizvođača i zadovoljstva korisnika (u slučaju potvrde, svi ponuđači nude usluge kojima

su korisnici jednako zadovoljni). Hipoteza o nezavisnosti dvije promjenjive se zapisuje na

sljedeći način1:

{

Loša Osrednja Dobra Izvrsna Svega

1 18 29 70 115 232

2 17 28 30 41 116

3 11 10 11 20 52

Svega 46 67 111 176 400

Tabela 1: Primjer tabele kontigencije

Kod tabela kontigencije broj stepeni slobode se računa preko broja kolona ( ) i broja

redova ( ) i važi da je . Dalje, pokazuje se da se ocjena maksimalne

vjerodostojnosti očekivane vrijednosti za svako polje u tabeli dobije kada se pomnože

total kolone sa totalom reda i podijeli sa ukupnim brojem elemenata u tabeli (na primjer,

za prvog ponuđača i kolonu Izvrsna, očekivana vrijednost je

, nakon čega

se zaokruže na najbliži cio broj). Postupak je prikazan u .xls dokumentu.

Kako je za i kritičnu vrijednost dobijena empirijska

vrijednost statistike (19.9) veća od teorijske (12.6), to se hipoteza može odbaciti. U

ovom slučaju to znači da korisnici usluga tri proizvođača nisu jednako zadovoljni

uslugom.

1 označava sumu vjerovatnoća u redu za sve kolone




2


[email protected]

Test homogenosti

Testiranje homogenosti je veoma slično testiranju nezavisnosti u tabeli kontigencije.

Primjenjuje se kada se isti eksperiment ponavlja više puta i želi se ispitati da li su

različite realizacije eksperimenta međusobno nezavisne. Na primjer, u proizvodnji nekog

elementa se svakodnevno uzimaju uzorci i utvrđuje se broj defektnih elemenata. Treba

se utvrditi da li se broj defektnih elemenata poklapa sa očekivanim (dozvoljenim) brojem

iz dana u dan.

Uspjeh x1 x2 ... xk

Neuspjeh n-x1 n-x2 ... n-xk

Tabela 2: Tabeliranje broja uspješnih/neuspješnih pokušaja u uzastopnom ponavljanju eksperimenta

Takvi se podaci mogu tabelirati u tabeli sa brojem uspješnih i neuspješnih pokušaja

(Tabela 2), a hipoteza se zapisuje kao , gdje označava

vjerovatnoću uspješnog pokušaja u svakom od ponavljanja eksperimenta.

Primjer 2.

Neka je u 12 nasada od po 90 sadnica broj zaraženih sadnica dat u Tabeli 3 (zaražena

sadnica je upisana kao uspjeh). Treba se utvrditi da li je broj zaraženih sadnica isti u svih

12 nasada. U tom slučaju se hipoteza postavlja kao , gdje je

vjerovatnoća da je slučajno odabrana sadnica iz -tog nasada zaražena.

1 2 3 4 5 6 7 8 9 10 11 12 Svega

Uspjeh 19 6 9 18 15 13 14 15 16 20 22 14 181

Neuspjeh 71 84 81 72 75 77 76 75 74 70 68 76 899

Svega 90 90 90 90 90 90 90 90 90 90 90 90 1080

Tabela 3: Broj zaraženih (Uspjeh) i nezaraženih (Neuspjeh) sadnica u 12 nasada sa po 90 sadnica.

Po istom postupku kao i za prethodnu tabelu kontigencije se izračuna vrijednost

statistike (17.75). Kako je za i kritičnu vrijednost

dobijena teorijska vrijednost statistike (19.7) veća od empirijske, to se hipoteza

prihvata. U ovom slučaju to znači da su podaci u svih 12 nasada homogeni, odnosno da

je u svim nasadima jednako vjerovatno pojavljivanje zaražene sadnice.




1


[email protected]

Datum: 5.1.2014.

Linearna regresija

Linearna regresija se koristi za modeliranje međusobne zavisnosti između dvije

promjenjive (varijable) na način da se linearna jednačina prilagodi podacima. Pri tome se

jedna promjenjiva smatra zavisnom, a druga eksploratornom (nezavisnom,

deskriptivnom). Na primjer, neka se želi istražiti kako prinos jedne poljoprivredne kulture

zavisi od količine navodnjavanja (podaci su prikazani u Tabeli 1).

Voda (x) 12 18 24 30 36 42 48

Prinos (y) 5.27 5.68 6.25 7.21 8.02 8.71 8.42

Tabela 1: Zavisnost prinosa (u tonama po hektaru) od količine navodnjavanja (u inčima).

Prije nego što se podaci aproksimiraju linearnom funkcijom, modelar bi trebao istražiti

postoji li neka vrsta povezanosti između promjenjivih od interesa. Postojanje povezanosti

ne implicira nužno da je jedna promjenjiva uzrok promjene druge, već samo da postoji

neka vrsta značajne povezanosti među njima. Jedan od korisnih instrumenata za

istraživanje povezanosti je tzv. scatterplot (prikaz parova vrijednosti u dvodimenzionom

koordinatnom sistemu). Ukoliko se na grafikonu ne vidi nikakva značajna povezanost

(ukoliko su tačke nepravilno razasute po koordinatnom sistemu), linearna aproksimacija

ne mora imati smisla. Podaci iz Tabele 1 su prikazani na Slici 1.

Slika 1: Scatterplot povezanosti prinosa i navodnjavanja (podaci iz Tabele 1)

Kako se sa Slike 1 vidi da su podaci grupisani linearno, u ovom slučaju ima smisla

istražiti oblik linearne zavisnosti.

U opštem slučaju podaci ne moraju pokazivati linearnu zavisnost; jedan takav primjer je

prikazan na Slici 2.

Numerički pokazatelj povezanosti podataka koji se veoma često koristi u praksi je

koeficijent korelacije. Njime se može ustanoviti ne samo postojanje, nego i jačina

povezanosti. U ovom slučaju je vrijednost koeficijenta korelacije , što implicira

da među podacima postoji značajna pozitivna povezanost.

0

2

4

6

8

10

0 20 40 60Pri

no

s (t

on

a p

o h

ekt

aru

)

Voda (u inčima)

http://www.stat.yale.edu/Courses/1997-98/101/scatter.htm




2


[email protected]

Slika 2: Primjer podataka koji ne pokazuju linearnu zavisnost.

Prava linearne regresije ima jednačinu opšteg oblika , gdje je zavisna

promjenjiva, eksploratorna (nezavisna) promjenjiva, presjek sa osom, a nagib

prave. Koeficijent se još tumači kao početna vrijednost regresije (u ovom slučaju koliki

bi bio prinos bez navodnjavanja) i u modeliranju se može zahtjevati da se on postavi na

nulu, ukoliko to ima više smisla. Sa druge strane, uobičajeno tumačenje nagiba je da

on predstavlja povećanje zavisno promjenjive ukoliko se nezavisno promjenjiva poveća

za jednu jedinicu (u ovom slučaju povećanje količine navodnjavanja za jedan inč).

Metoda najmanjih kvadrata u regresiji

Kada su podaci za i poznati, onda se mogu aproksimirati i vrijednosti za koeficijente

i . Jedna od najčešće korištenih metoda je metoda najmanjih kvadrata u kojoj se

minimizira greška regresije. Greška se posmatra kao rastojanje pojedinačnih tačaka od

prave regresije (ukoliko tačka leži na pravoj njeno odstupanje jednako je nuli). Kako se

odstupanja od prave kvadriraju, to se pozitivne i negativne vrijednosti ne mogu anulirati.

Za realizaciju ove metode, potrebno je jednačinu regresije zapisati u obliku

, gdje su malim slovima označene realizacije slučajnih promjenjivih, a sa je označena

greška regresije. Dalje se greška izrazi eksplicitno, kvadrira, a zatim se dobijene

jednakosti parcijalno deriviraju po promjenjivim. Ovaj postupak je detaljno opisan i u

obaveznoj literaturi za predmet, a i u drugim izvorima, te se ovdje neće dalje pominjati.

Primjer proste linearne regresije

Ukoliko se istražuje povezanost samo dvije promjenjive, za regresiju se kaže da je

prosta; prosta linearna regresija znači da se ispituje linearna zavisnost između dvije

promjenjive. Regresija može biti i nelinearna, ali i višestruka (ukoliko se ispituje

zavisnost neke promjenjive od dvije ili više deskriptivnih promjenjivih).

Koeficijenti regresije, kao i druge bitne statistike se mogu dobiti primjenom naredbe

LINEST u MSExcel-u, što je detaljno opisano u materijalima za vježbe. Sintaksu naredbe

studenti trebaju pogledati u Help-u.

Dodatna statistika na koju se treba obratiti pažnja je koeficijent determinacije, .

Računa se kao kvadrat koeficijenta korelacije, a njime se procjenjuje procenat (udio)

varijacije jedne promjenjive koji se može objasniti drugom.

Za primjer sa podacima iz Tabele 1 dobija se jednačina proste linearne regresije kao na

Slici 3.

0

2

4

6

8

10

0 5 10 15 20




3


[email protected]

Slika 3: Prava i jednačina linearne regresije za podatke iz Tabele 1.

Autlejeri i uticajne opservacije

Autlejer1 je podatak koji odstupa u velikoj mjeri od ostalih podataka u uzorku. U statistici

se ovakvi podaci posebno provjeravaju, jer se može desiti da predstavljaju grešku

prilikom unosa. U regresionoj analizi se autlejerom naziva tačka (par podataka) koja je

udaljena od regresione prave i koji zbog toga ima veliku rezidualnu vrijednost.

(Rezidualna vrijednost je drugi naziv za odstupanje pojedine vrijednosti zavisno

promjenjive od regresione prave; računanje rezidualnih vrijednosti je prikazano u Tabeli

3.) Autlejer može označavati pogrešnu vrijednost ili lošu aproksimaciju prave linearne

regresije. Sa druge strane, ukoliko je neki podatak udaljen horizontalno od ostalih

podataka, on se naziva uticajna vrijednost (engl. influential observation). U Tabeli 2 je

prikazan primjer podataka (malo izmijenjeni podaci za navodnjavanje iz Tabele 1) kod

kojih postoje i autlejeri i jedna uticajna vrijednost.

Voda (x) 33 5 9 13 17 21 25

Prinos (y) 5,27 5,68 6,25 7,21 8,02 8,71 8,42

Tabela 2: Izmijenjeni podaci za prinos i navodnjavanje

Ilustracija regresione zavisnosti ovih podataka je prikazana na Slici 4.

Slika 4: Scatterplot za podatke iz Tabele 2; 21 je autlejer, a 33 uticajna vrijednost

Sa Slike 4 je vidljivo da je ova procjena podataka linearnom regresijom veoma loša,

posebno zato što je vrijednost koeficijenta determinacije veoma bliska nuli (što govori o

1 Engl. Outlayer, riječ preuzeta iz strane literature kojom se u statistici naziva podatak

koji odstupa od ostalih

y = 0,1029x + 3,9943 R² = 0,9456

0

2

4

6

8

10

0 20 40 60

y = 0,0201x + 6,7271 R² = 0,0199

0

2

4

6

8

10

0 10 20 30 40




4


[email protected]

tome da među ovim podacima nema skoro nikakve povezanosti). Da bi se poboljšala

aproksimacija, uobičajeno je da se uticajna vrijednost isključi iz razmatranja, ukoliko to

ima smisla u stvarnosti. U ovom slučaju, ukoliko se iz Tabele 2 ukloni prva kolona, dobija

se sasvim pristojna regresiona linija, kao na Slici 5.

Slika 5: Regresija za podatke iz Tabele 2 nakon što je uklonjena uticajna vrijednost.

Reziduali

U Tabeli 3 je prikazan način računanja reziduala za podatke iz Tabele 2.

Prinos (y) Voda (x) y' y-y' (y-y')^2

5,27 33 7,3898 -2,1198 4,4937

5,68 5 6,8275 -1,1475 1,3169

6,25 9 6,9079 -0,6579 0,4328

7,21 13 6,9882 0,2218 0,0492

8,02 17 7,0685 0,9515 0,9053

8,71 21 7,1489 1,5611 2,4372

8,42 25 7,2292 1,1908 1,4181

0,0000 11,0531

Tabela 3: Primjer računanja reziduala na podacima iz Tabele 2. Sa y' je označena procijenjena vrijednost zavisno promjenjive izračunata za konkretno x smjenom u jednačinu y=0.0201x+0.7271. Rezidual je razlika između stvarnog podatka, y i procijenjene vrijednosti, y'.

Grafički prikaz reziduala (također scatterplot sa x i y-y') je prikazan na Slici 6.

Slika 6: Scatterplot reziduala za vrijednosti nezavisno promjenjive.

y = 0,1564x + 5,0363 R² = 0,9181

0

2

4

6

8

10

0 10 20 30

-6,0000

-5,0000

-4,0000

-3,0000

-2,0000

-1,0000

0,0000

1,0000

0 10 20 30 40




5


[email protected]

Ekstrapolacija

Kada se napravi regresioni model za grupu podataka, raspon tih podataka se mora

pažljivo proučiti. Tako se u praksi ispostavlja da je često neadekvatno primjenjivati

jednačinu regresije izvan zadatog raspona, jer rezultati mogu biti potpuno nevjerovatni.

Očigledan primjer bi bila jednačina regresije koja opisuje dobitak na težini veoma male

djece; primjena takve jednačine na stariju populaciju bi bila potpuno neumjesna.




1


[email protected]

Datum: 11.01.2014.

Regresija

Prosta nelinearna regresija

U praksi se dešava da linearna funkcija nije najbolja aproksimacija podataka. Tako, osim

proste linearne regresije, postoje i nelinearne regresije, u skladu sa oblikom funkcije koja

opisuje zavisnost između dvije promjenjive. Tako se može govoriti o polinomnoj regresiji

(zavisnost se opisuje polinomnom funkcijom 2., 3. ili višeg stepena), logaritamskoj (koja

je najčešća alternativa linearnoj zbog monotonosti i sporog rasta), eksponencijalnoj (koja

se jako rijetko upotrebljava, jer eksponencijalna funkcija veoma brzo raste), stepenoj...

Na ispitu se od studenata može tražiti da procijene koji oblik proste regresije najbolje

aproksimira date podatke, pri čemu se kao kriterijum uzima najveća vrijednost

koeficijenta determinacije. Za ovo je dovoljno iskoristiti opcije koje su ugrađene u scatter

plot, a postupak je objašnjen na vježbama.

Višestruka linearna regresija

Model višestruke regresije se sastoji od jedne zavisne, dvije ili više nezavisnih

promjenjivih i slučajne promjenjive kojom se opisuje greška. Opšti oblik modela

višestruke regresije je:

( )

U navedenom modelu je zavisna promjenjiva, a njome se opisuje pojava čije se

varijacije izražavaju pomoću nezavisnih promjenjivih . Promjenjiva odzražava

nepoznata odstupanja od funkcionalne zavisnosti.

Kao i kod proste regresije, nepoznati parametri u funkcionalnoj zavisnosti se procjenjuju

na osnovu uzorka veličine za poznate vrijednosti zavisne i nezavisnih promjenjivih, pri

čemu se nastoji minimizirati greška, odnosno odstupanje od funkcionalne zavisnosti.

Pretpostavi li se da je veza između zavisne i nezavisnih promjenjivih linearna, radi se o

modelu višestruke linearne regresije, čija je jednačina:

U navedenoj jednačini je zavisna promjenjiva, su nezavisne promjenjive, a

su procijenjeni parametri.

Procjena pouzdanosti parametara i regresije

Nakon što se parametri regresije procjene, „tačnost“ regresije se, osim pomoću

koeficijenta determinacije, može ispitati i testiranjem dobijenih vrijednosti parametara i

čitave regresije. U MSExcel-u se ovaj postupak za linearnu regresiju provodi jednostavno,

korištenjem izlaza iz funkcije LINEST (što je objašnjeno u materijalima za vježbe).




2


[email protected]

Zadatak za samostalni rad

Kako se u postupku koriste i vrijednosti iz t i F raspodjele, to se od studenata očekuje da

u sklopu samostalnog rada istraže navedene raspodjele, da bi bili u stanju da odgovore

na sljedeća pitanja:

1. Na koji način se definiše promjenjiva na koju se odnosi t/F/Z/Hi-kvadrat

raspodjela?

2. Koje su najčešće primjene t/F/Z/Hi-kvadrat raspodjele?

3. Kako izgleda grafik t/F/Z/Hi-kvadrat raspodjele?

4. U kojim slučajevima je t/F/Z/Hi-kvadrat raspodjela bliska normalnoj?

Odgovori na ova pitanja se mogu naći ili u literaturi, ili na Internetu.

stratistika i vjerovatnoca

Documents