stratistika i vjerovatnoca
DESCRIPTION
Stratistika i vjerovatnocaTRANSCRIPT
ProgramiranjeI_sylabus.doc
Statistika i vjerovatnoća:: Predavanja
http://student.fit.ba/
1
Fakultet informacijskih tehnologija
Datum: 10.10.2013.
Statistika i vjerovatnoća - Uvodno predavanje
Pojam i zadaci statistike
Pojam statistika se u današnje vrijeme tumači na više načina:
1. Skup uređenih podataka o društvenim ili prirodnim pojavama koje prikupljaju,
obrađuju, analiziraju i tumače statističke i druge ustanove (istorijski prva
definicija statistike).
2. Nauka koja se bavi proučavanjem prikupljanja, pripreme, obrade i tumačenja
podataka.
3. Funkcija nad populacijom.
4. Kao varijacija izjave: „Postoje tri vrste laži: laž, besramna laž i statistika.”
Benjamin Disraeli.
Posljednje tumačenje je veoma uvreženo kod laika; sa aspekta statističara, ovakvo
tumačenje se vezuje uz sve one koji zloupotrebljavaju ovu naučnu disciplinu iznoseći
stavove koji nisu utemeljeni ni u podacima ni u teoriji. Zbog toga je jedan od ciljeva ovog
kursa da se studenti obuče dovoljno da mogu samostalno prikupiti, pripremiti, analizirati i
protumačiti rezultate, odnosno prepoznati rezultate statističke analize tako da 4. ne važi.
Statistički skup
Skup svih jedinki koje su od značaja za neko istraživanje se u statistici naziva populacija
(u literaturi još i statistički skup), a podskup populacije odabran po određenom pravilu –
uzorak.
Statistički skup se definiše u zavisnosti od potreba konkretnog istraživanja i to:
Pojmovno (u zavisnosti od obilježja od interesa za dato istraživanje se
određuje pripadnost jedinica skupu),
Prostorno (definiše se pripadnost u zavisnosti od regije) i
Vremenski (definiše se vrijeme u kojem se vrši isreaživanje i/ili vrijeme na
koje se odnose podaci).
Osobine koje imaju jedinke populacije se nazivaju obilježjima. Obilježja mogu biti
kvalitativna (na primjer pol ispitanika) ili kvantitivna (na primjer starost, ili težina). Za
obilježja se vezuju slučajne promjenljive1, na osnovu kojih se dalje vrši statistička
analiza. No, da bi se izvršila statistička analiza, podaci se prvo moraju prikupiti i
pripremiti za obradu.
1 Slučajna promjenljiva je pojam iz Teorije vjerovatnoće, naučne oblasti na kojoj se bazira
matematička statistika. Formalna definicija slijedi u predavanjima o raspodjeli.
ProgramiranjeI_sylabus.doc
Statistika i vjerovatnoća:: Predavanja
http://student.fit.ba/
2
Fakultet informacijskih tehnologija
Prikupljanje podataka
Prikupljanje podataka i njihova primarna obrada je prva faza svakog (prethodno
definisanog) statističkog istraživanja. Na ovu fazu se odnosi fraza: Garbage in – garbage
out, kojom se slikovito objašnjava da bez kvalitetnih podataka nije moguće postići ni
kvalitetne rezultate. U osnovi postoje dva tipa prikupljanja podataka:
preuzimanje već postojećih podataka ili
prikupljanje novih podataka.
Prilikom prikupljanja podataka je neophodno izvršiti kontrolu unosa. Ukoliko se podaci
prikupljaju neposredno, onda se kontrola vrši prilikom unosa, a kod preuzimanja
podataka se vrši logička kontrola preuzetih podataka i upoređuju se određeni parametri
sa analognim parametrima izvornih podataka.
U svakom se slučaju podaci moraju prenijeti na memorijski medij i to u obliku
upotrebljivom za kasniju analizu. Statistički podaci se najčešće pohranjuju u vidu
slogova, pri čemu jedan red odgovara jednoj jedinici posmatranja, a u svakom slogu su
definisana polja koja se odnose na obilježja. Na ovaj način pohranjeni podaci se mogu
čuvati u formatima koji nisu zahtjevni s obzirom na memoriju, a što je veoma bitno kada
se radi o velikim skupovima podataka. Način čuvanja može zavisiti i od softvera kojim će
se podaci analizirati.
Postoji više tipova izvora podataka:
Podaci iz već postojećih izvora (statistički bilteni ili neki drugi zvanični podaci
objaveljni u štampanim izvorima ili na internetu)
Podaci koji se prikupljaju neposredno, za određeno istraživanje, kao što su
podaci iz:
o Anketa – pitanja i modaliteti odgovora su zapisani na papiru i obučena
osoba ih prikuplja od ispitanika,
o Intervjua – odabere se stručnjak za određenu tematiku i onda se direktno
od njega u prethodno pripremljenom razgovoru prikupljaju podaci,
o Fokus grupa – odabere se grupa stručnjaka koja razmatra određenu
tematiku i dostavi podatke u pisanoj formi, i drugo.
Poseban izvor podataka je popis stanovništva, koji se vrši jednom u 10 godina uz
temeljne pripreme, a podaci iz popisa se smatraju najpouzdanijim.
Statistika se može podjeliti na :
1. deskriptivnu (uređenje podataka u statističke nizove, grafički analiza, analiza
pomoću relativnih brojeva i specifičnih mjera kao što su srednja vrijednost i
disperzija; sudovi koji se donose se odnose isključivo na empirijske podatke) i
2. inferencijalnu (pomoću datih informacija – uzorka – se donose sudovi o
osobinama populacije).
U ovom kursu će se prvo obraditi pokazatelji i statistike vezane za deskriptivne metode,
pa će se prijeći na dijelove inferencijalne statistike.
Osnovni dio deskriptivne analize predstavlja proučavanje strukture i dinamike pojave
pomoću računskih operacija sabiranja, oduzimanja, množenja i dijeljenja.
ProgramiranjeI_sylabus.doc
Statistika i vjerovatnoća:: Predavanja
http://student.fit.ba/
3
Fakultet informacijskih tehnologija
Pokazatelji strukture i dinamike pojava.
Svaka se pojava može analizirati sa aspetka strukture i dinamike. Izučavanje strukture
se najčešće primjenjuje na kvalitativna obilježja (koja se inače ne bi mogla matematički
obraditi) na način da se jedinice posmatranja grupišu prema jednoj osobini (na primjer,
grupiše se stanovništvo po polu) i posmatra se udio svake od grupa u populaciji. Sa
druge strane, izučavanje dinamike predstavlja praćenje vrijednosti neke pojave kroz
vrijeme (na primjer, praćenje cijena električne energije u nekoliko uzastopnih godina).
Najbitniji pokazatelji strukture i dinamike pojava su:
Pokazatelji strukture pojave
o Koeficijenti (učešće količine pojedine grupe u totalu)
o Procenti (koeficijent pomnožen sa 100, odnosno izražen u procentima)
Pokazatelji dinamike pojave
o Prosti indeks predstavlja količnik vrijednosti neke pojave u sadašnjem i
nekom prethodnom periodu, može biti
Lančani (količnik vrijednosti neke pojave u dva uzastopna perioda),
ili
Bazni (količnik vrijednosti neke pojave u tekućem i baznom
periodu).
o Složeni indeks se formira kada se želi pratiti ukupna promjena neke pojave
u nekoliko uzastopnih perioda, a koja zavisi od dodatnog parametra –
pondera (na primjer stopa inflacije), tako što se vrijednost pojave za svaki
period pomnoži ponderom i onda se sve dobijene vrijednosti saberu.
o Stopa se raćuna kao razlika indeksa i jedinice i može biti prosta ili složena,
shodno indeksu.
Često je korisno izraziti lančane indekse kao bazne i obratno, što se postiže jednostavnim
matematičkim transformacijama, a primjer je prikazan u vježbama.
Uz pokazatelje strukture i dinamike se vezuju i njihove grafičke prezentacije. Po pravilu,
struktura se izražava kružnim dijagramom (pie chart) u kome se udio svake grupe u
totalu prikazuje kružnim isječkom. Ukoliko ovakav prikaz nije pregledan, onda se može
iskoristiti i štapićasti prikaz.
Sa druge strane, dinamika pojave se uvijek prikazuje štapićastim ili linijskim
dijagramom. Štapićasti dijagram prikazuje veličinu pojave za pojedine grupe visinom
pravougaonika (štapića) dok su kod linijskog dijagrama ordinate vrijednosti pojave po
grupama povezane linijama.
Kao posebni pokazatelje vitalnosti stanovništva jedne države izdvajaju se:
Prirodni priraštaj – računa se kao razlika broj živorođenih i broja umrlih lica u
datom periodu
Vitalni indeks – računa se kao količnik broj živorođenih i broja umrlih lica u datom
periodu.
ProgramiranjeI_sylabus.doc
Statistika i vjerovatnoća:: Predavanja
http://student.fit.ba/
1
Fakultet informacijskih tehnologija
Datum: 17.10.2013.
Uzorkovanje
Populacija (Ciljna populacija). Populacija je skup svih jedinica posmatranja koje su od
interesa za istraživanje; odnosno skup o kom istraživač želi da izvuče zaključke.
Primjer. Recimo da istraživača zanimaju muškarci u srednjim godinama (35-50) koji su
preživjeli infarkt miokarda. Cilj istraživanja bi bio da se uporedi efektivnost dvije vrste
tretmana pomoću kojih se mogu odgoditi ili spriječiti naredni infarkti. U tom slučaju je
populacija skup svih muškaraca koji zadovoljavaju iste opšte uslove kao i oni koji su
uključeni u konkretno istraživanje.
Uzorak. Uzorak je dio (podskup) populacije. Da bi uzorak bio reprezentativan za
populaciju, on mora biti odabran na pogodan način (bilo slučajno, bilo namjerno) sa
ciljem da zaključivanje na osnovu uzorka što vjernije oslikava zaključke koji važe za
čitavu populaciju.
Većina statističkih istraživanja se oslanja na teoriju uzoraka za procjenu parametara
ciljne populacije iz tri razloga:
- cijena je niža,
- podaci se brže prikupljaju i
- moguće je osigurati homogenost i poboljšati preciznost i kvalitet podataka.
Postoje razne tehnike za odabir uzorka, ovdje će biti navedene samo neke, bez da se
ulazi u matematičku teoriju na kojima se one zasnivaju.
Upareni uzorci
Upareni uzorci spadaju u (međusobno) zavisne uzorke. Kao uzrok uzorkovanja u paru
razlikuju se dvije situacije:
- elementi dva uzorka su očigledno upareni, ili ih je istraživač eksplicitno upario; na
primjer mjerenje IQ na identičnim blizancima.
- istraživanje je definisano na način da se mjerenje vrši dva puta na istim
jedinicama posmatranja pod različitim uslovima; na primjer mjerenje sposobnosti
pamćenja prije i poslije specijalne vježbe.
Nekada se iz ovakvvih uzoraka računa razlika dobijenih vrijednosti i tada ona predstavlja
nov uzorak koji se dalje može adekvatno statistički analizirati.
Nezavisni uzorci
Nezavisni uzorci su oni koji se biraju iz iste ili iz različitih populacija, a nemaju nikakvog
efekta jedni na druge (ne postoji korelacija između njih).
Slučajni uzorak
Slučajno uzorkovanje je tehnika kjom se obezbjeđuje da se svaka jedinica posmatranja
bira potpuno slučajno, kao i da sve imaju poznatu (ne obavezno istu) vjerovatnoću
izbora. Pomoću ove tehnike se smanjuje pristrasnost izbora jedinica populacije u uzorak.
ProgramiranjeI_sylabus.doc
Statistika i vjerovatnoća:: Predavanja
http://student.fit.ba/
2
Fakultet informacijskih tehnologija
Prost slučajni uzorak (Simple Random Sample – SRS)
Kod SRS tehnike se svaka jedinica bira slučajno, pri čemu sve jedinice populacije imaju
iste šanse da budu odabrane u uzorak. Dodatno, svaki uzorak date veličine ima iste
šanse za izbor, što znači da svaki element populacije ima istu vjerovatnoću izbora u svim
fazama izbornog procesa.
Stratificirani uzorak
Često se populacija može prirodno podijeliti u disjunktne podskupove (potpopulacije,
stratume), pri čemu se očekuje da mjerenja od interesa variraju među poskupovima. (Na
primjer, istraživanje kupovne moći potrošača po kantonima u Federaciji BiH.) Tada bi se
razlike među podpopulacijama trebale odraziti i na uzorku, što se postiže stratificiranim
uzorkovanjem.
Stratificirani uzorak se dobija biranjem uzoraka iz svakog stratuma populacije.
U opštem slučaju se traži da proporcije svakog stratuma u uzorku budu jednake kao i u
populaciji.
Stratificirani uzorak se koristi kod nehomogenih populacija, ili kod populacija iz kojih se
mogu izdvojiti homogene potpopulacije, dok se SRS koristi kod uzorkovanja iz homogene
populacije.
Neke od prednosti stratificiranog nad prostim slučajnim uzorkovanjem su:
- može se umanjiti cijena istraživanja po jedinici posmatranja,
- potrebno je ocijeniti parametre populacije i za potpopulacije,
- može se povećati preciznost za fiksiranu cijenu istraživanja.
Klaster uzorak
Koristi se kada istraživaču nije dostupan spisak jedinica posmatranje čitave populacije, ali
ima potpune podatke za grupe (klastere). Takođe se koristi kada SRS može rezultirati
toliko razuđenim uzorkom da bi istraživanje bilo preskupo (na primjer, ljudi koji žive u
različitim mjestima). Često je praktičnije i/ili jeftinije i od SRS i od stratificiranog
uzorkovanja.
Ovom metodom se čitava populacija podijeli u podskupove disjunktne po posmatranom
obilježju (klastere), pa se bira SRS od tih klastera. Sve jedinice posmatranja koje
pripadaju odabranom klasteru su u uzorku.
Kvota uzorak
Danas je možda i najpopularniji način na koji razne marketinške agencije prikupljaju
podatke, ali ima ozbiljne metodološke nedostatke; za početak, to nije slučajni uzorak pa
je uzoračka raspodjela bilo koje statistike nepoznata.
Princip je sljedeći: svakom anketaru se dodijeli određeni broj (kvota) jedinica
posmatranja koje bi trebalo da „regrutuje“ za uzorak.
Uzoračka varijabilnost je pojam koji se odnosi na različite vrijednosti koje data funkcija
ima kada se u nju zamijene podaci iz različitih uzoraka odabranih iz iste populacije.
ProgramiranjeI_sylabus.doc
Statistika i vjerovatnoća:: Predavanja
http://student.fit.ba/
3
Fakultet informacijskih tehnologija
Standardna greška
Standardna greška je standardna devijacija (termin koji će biti objašnjen u narednim
predavanjima) vrijednosti date uzoračke funkcije nad svim mogućim uzorcima iste
veličine
Pristrasnost (Bias)
Pristrasnošću se mjeri koliko je prosječna statistika udaljena od parametra koji mjeri,
dakle greška koja nastaje pri ocjenjivanju veličine. Polazna pretpostavka je da će se
slučajne greške međusobno eliminisati ponavljanjem, ali da pristrasnost (ukoliko postoji)
ostaje.
Na slici 1 su ilustrovani pristrasnost i preciznost.
Preciznost
Preciznost je mjera očekivanja blizine ocjene stvarnoj vrijednosti parametra, a obratno je
srazmjerna standardnoj grešci.
Precizno Neprecizno
Pristrasno
Nepristrasno
Slika 1: Pristrasnost i preciznost
ProgramiranjeI_sylabus.doc
Statistika i vjerovatnoća:: Predavanja
http://student.fit.ba/
1
Fakultet informacijskih tehnologija
Datum: 24.10.2013.
Sortiranje podataka
Nakon što se odabere uzorak, podaci se najčešće trebaju na naki način urediti da bi se
mogli smisleno predstaviti i/ili dalje obrađivati. Neke od tehnika su: tabeliranje (obrađeno
u prethodnoj nastavnoj jedinici), sortiranje, filtriranje i grafički prikaz. Kako su ostale
tehnike ili jednostavne, ili već obrađene, u daljem tekstu će se govoriti samo o sortiranju
podataka.
Podaci u uzorku se mogu sortirati na različite načine:
- prema broju učestalosti ponavljanja elemenata u uzorku (frekvencijama
elemenata),
- po srodnim grupama i
- prema veličini obilježja.
Sortiranje elemenata po učestalosti ponavljanja u uzorku
Veoma često je korisno znati koliko se puta neki element ponovio u uzorku (na primjer,
koliko studenata je položilo ispit sa ocjenom 6, koliko sa ocjenom 7,...). Naravno, ovakvo
sortiranje ima smisla ukoliko se radi o cijelim brojevima koji se ne kreću u prevelikom
rasponu; ukoliko se trebaju sortirati realni brojevi, ili brojevi u velikom rasponu,
primjenjuje se grupisanje.
Svaki statistički softver ima ugrađene funkcije za sortiranje elemenata prema učestalosti
njihovog ponavljanja u uzorku, pa ni MSExcel nije izuzetak. U njemu se za to koristi
naredba FREQUENCY (sintaksa postoji u Help-u, a detalji primjene su prikazani u
vježbama). Postupak sortiranja bi bio sljedeći: vrijednosti u uzorku se sortiraju (u
rastućem ili opadajućem poretku) pa se prebroji koliko se puta koja vrijednost ponavlja.
Kada se primjenjuje naredba FREQUENCY veoma često je pogodno prethodno izračunati
minimalni i maksimalni element (pomoću funkcija MIN i MAX); izuzetak su jedino podaci
za koje se zna tačno koje vrijednosti nose, kao što je slučaj sa ocjenama.
Na primjer, neka su za 40 studenata koji položili ispit iz statistike zabilježene sljedeće
ocjene:
6 6 7 8 9 7 6 6
7 7 8 8 8 6 6 10
10 9 9 9 6 6 6 7
7 7 7 7 8 8 6 6
6 8 7 9 7 7 6 6 Tabela 1: Ocjene 40 studenata
ProgramiranjeI_sylabus.doc
Statistika i vjerovatnoća:: Predavanja
http://student.fit.ba/
2
Fakultet informacijskih tehnologija
Kada se dobijene ocjene sortiraju po frekvencijama, dobija se:
Ocjena
(xi)
Frekvencija
(fi)
6 14
7 12
8 7
9 5
10 2
Svega 40
Tabela 2: Frekvencije ocjena iz Tabele 1 (broj studenata koji su dobili svaku od ocjena)
što znači da je 14 studenata položilo ispit s ocjenom 6, 12 sa 7 i tako redom. Sortirane
podatke je uvijek korisno prikazati i grafički; za prikaz frekvencija se koristi histogram
frekvencija1, pri čemu se vrijednosti (u ovom slučaju ocjene) upisuju na x-osu, a njihova
učestalost (frekvencija) na y-osu:
Slika 1: Histogram frekvencija ocjena studenata
1 Ukoliko se histogram frekvencija objavljuje u stručnom ili naučnom radu, obavezno je
odabrati crnu boju, na ispitu se mogu koristiti i druge boje.
14
12
7
5
2
0
2
4
6
8
10
12
14
16
6 7 8 9 10
ProgramiranjeI_sylabus.doc
Statistika i vjerovatnoća:: Predavanja
http://student.fit.ba/
3
Fakultet informacijskih tehnologija
Sortiranje po grupama
Ukoliko su podaci diskretni, a ima previše elemenata da bi se mogli prikazati u tabeli i/ili
grafikonu, ili ako se radi o neprekidnim podacima, onda se pribjegava grupisanju. Na
primjer, ako se želi mjeriti starost (koja se kreće od 0 do 100 i više godina) onda se takvi
podaci uvijek grupišu, pa se prebrojava koliko elemenata uzorka se nalazi u svakoj od
grupa.
Neka u jednoj zgradi živi 56 stanara starosti kao u donjoj tabeli.
50 61 24 25 27 55 57 16
67 31 57 53 26 16 19 30
33 53 58 26 29 72 77 43
11 8 11 38 38 64 58 56
42 28 27 25 20 21 44 77
0 7 32 34 36 31 29 33
66 59 62 63 4 6 66 55 Tabela 3: Starost 56 stanara neke zgrade
Da bi se jednostavnije odredile granice grupa, prvo se računaju minimalna i maksimalna
starost.
Minimalna starost 0
Maksimalna starost 77
Zatim se odrede granice razreda (grupa), pa se prebroji (primjenom FREQUENCY) koliko
elemenata uzorka ima vrijednost u zadanim granicama (u ovom slučaju granice imaju
smisla).
Opis grupe Ganice grupe Frekvencije (fi)
Predškolska djeca 0-5 2
Osnovci 6-14 5
Srednjoškolci 15-19 3
Studenti 20-24 3
Mlađi zaposleni 25-44 22
Stariji zaposleni 45-64 15
Penzioneri 65+ 6
Ukupno 56
Tabela 4: Podjela u starosne grupe i broj osoba koje spadaju u svaku od njih
ProgramiranjeI_sylabus.doc
Statistika i vjerovatnoća:: Predavanja
http://student.fit.ba/
4
Fakultet informacijskih tehnologija
Odgovarajući grafikon je prikazan na Slici 3:
Slika 2: Histogram frekvencija starosti stanara jedne zgrade
Sortiranje po vrijednostima
Ako se elementi jednog uzorka sortiraju po vrijednostima u rastućem redoslijedu, tada se
oni mogu podijeliti u grupe koje imaju jednak broj elemenata. Tako se, na primjer, može
govoriti o prvoj i drugoj polovini uzorka, i mogu se analizirati njihove razlike. Ovakvo
sortiranje se često primjenjeuje u ekonomiji, na primjer, ukoliko se gleda prihod po
stanovniku, onda može biti zanimljivo znati koliki je maksimalni prihod za najsiromašniju
četvrtinu populacije, ili, koja je donja granica prihoda 10% najbogatijih.
Kada se podaci sortiraju po vrijednostima, oni se mogu podijeliti u proizvoljan broj grupa,
ali su najpoznatije podjele u
- decile (10 grupa),
- kvintile (5 grupa),
- kvartile (4 grupe) i
- tercile (3 grupe).
Prilikom sortiranja u bilo koje od navedenih grupa, uzorak se sortira, veličina uzorka se
podijeli brojem grupa i onda se određuju granice.
Recimo da se ocjene studenata iz Tabele 1 trebaju sortirati u tercile.
Kako podataka ima 40, a tercila 3, to se prvo treba podijeliti 40 sa 3, što nije cio broj2
(40:3=13.33).
U ovom slučaju se granica prve tercile računa tako što se na 13-ti element sortiranog
uzorka doda razlika 14-tog i 13-tog elementa pomnožena sa 0.33. Iz tabele frekvencija
se vidi da je prvih 14 elemenata jednako 6, pa je i granica prve tercile jednaka 6 (jer je
razlika između 13-tog i 14-tog elementa jednaka 0).
2 Ukoliko se dobije cio broj, postupak je jednostavan: granica grupe je element
sortiranog uzorka sa tim rednim brojem.
2 5
3 3
22
15
6
0
5
10
15
20
25
0-5 6-14 15-19 20-24 25-44 45-64 65+
ProgramiranjeI_sylabus.doc
Statistika i vjerovatnoća:: Predavanja
http://student.fit.ba/
5
Fakultet informacijskih tehnologija
Redni broj
tercile
Redni broj
granice
Granica
tercile
1 13,33 6
2 26,67 7,67
3 40,00 10
Tabela 5: Granice tercila ocjena 40 studenata
Granica druge tercile se računa tako što se na 26-ti element (13,33*2) doda razlika 27-
mog i 26-tog elementa (8 i 7, respektivno, razlika je 1) pomnožena sa 0.67. Granica
treće tercile (i svake posljednje grupe) je najveći element u uzorku.
Sada se može reći da je barem trećina studenata dobila 6, dvije trećine studenata manje
od 7,67 (dakle, 7 ili manje), a da je samo trećina studenata položila ispit sa ocjenom 8 ili
više. Grafički prikaz ocjena sortiranih u tercile je na Slici 4.
Slika 3: Ocjene sortirane u tercile.
0
2
4
6
8
10
12
1 2 3
ProgramiranjeI_sylabus.doc
Statistika i vjerovatnoća::Predavanja
http://student.fit.ba/
1
Fakultet informacijskih tehnologija
Datum: 4.11.2013.
Mjere centralne tendencije
U statističkim istraživanjima se dobijeni (sirovi) podaci najčešće ne prikazuju, nego se
obrađuju različitim funkcijama (statistikama). Te se funkcije koriste da bi se auditorijumu
prikazali prikupljeni podaci, a na osnovu njih se može vršiti i zaključivanje (inferencija).
U najjednostavnije funkcije za opisivanje podataka spadaju mjere centralne tendencije.
Sve one opisuju srednju vrijednost podataka, odnosno vrijednost za koju se očekuje da
se nalazi u sredini opisanog skupa, ili da se najčešće ponavlja u uzorku, ili da se sve
ostale vrijednosti grupišu oko nje. Funkcije koje se koriste za opisivanje centralne
tendencije se još nazivaju i sredinama.
Vrste sredina
Različiti podaci se moraju opisivati različitim sredinama. Najčešće korištena sredina u
statistici je aritmetička sredina podataka ili prosta sredina. Ona se računa tako što se
izračuna masa uzorka (svi podaci se saberu), pa se taj zbir podijeli veličinom uzorka
(brojem podataka). Veličina uzorka se u Excelu može odrediti pomoću funkcije COUNT, a
masa pomoću funkcije SUM.
Na primjer, neka su za 40 studenata koji položili ispit iz statistike zabilježene ocjene kao
u Tabeli 1.
6 6 7 8 9 7 6 6
7 7 8 8 8 6 6 10
10 9 9 9 6 6 6 7
7 7 7 7 8 8 6 6
6 8 7 9 7 7 6 6 Tabela 1: Ocjene 40 studenata
U Tabeli 2 su prikazane masa i veličina uzorka, te aritmetička sredina izračunata na dva
načina: kao količnik mase i veličine uzorka i pomoću ugrađene Excel funkcije AVERAGE.
Masa uzorka 289
Veličina uzorka 40
Aritmetička sredina 7,225
AVERAGE 7,225 Tabela 2: Masa, veličina i aritmetička sredina uzorka ocjena.
Sada se može reći da je prosječna ocjena studenata na ispitu bila 7.225.
No, sredina uzorka se može opisati i na druge načine. Jedan od njih je da se u obzir
uzme koja se ocjena najčešće ponavljala (kojih je ocjena bilo najviše). Ta mjera
centralne tendencije se naziva modus (dominantna sredina). U Excel-u se ona može
izračunati pomoću funkcije MODE, a ukoliko se mora računati „pješke“, onda se mora
prebrojati koliko se puta svaki od elemenata ponavlja u uzorku. U uzorku može biti više
od jednog modusa, ukoliko postoji veći broj elemenata koji se ponavljaju isti broj puta,
rekimo k-puta, (a nema elemenata koji se ponavljaju više od k puta).
ProgramiranjeI_sylabus.doc
Statistika i vjerovatnoća::Predavanja
http://student.fit.ba/
2
Fakultet informacijskih tehnologija
Dodatno se mogu elementi uzorka sortirati (u rastućem poretku) i onda se odrediti koji
element se nalazi na sredini sortiranog uzorka. Ta mjera centralne tendencije se naziva
medijana (centralna vrijednost). Ukoliko uzorak ima neparan broj elemenata, onda je
medijana element sortiranog uzorka pod rednim brojem (n-1)/2, a ukoliko je u uzorku
paran broj elemenata, medijana je aritmetička sredina srednja dva. U Excel-u postoji
ugrađena funkcija MEDIAN koja se može upotrijebiti za računanje medijane.
U tabeli 3 su prikazani modus i medijana uzorka ocjena iz Tabele 1.
Medijana 7
Modus 6 Tabela 3: Medijana i modus uzorka ocjena.
Iako se aritmetička sredina najčešće koristi, ona nije najbolji izbor u svim situacijama. Na
primjer, ukoliko se želi odrediti srednja cijena nekog artikla u različitim prodavnicama,
onda je efikasnije korititi modus (najčešće cijena tog artikla). Slično je i sa određivanjem
prosječnog broja djece po porodici, bolje je znati kakva se situacija najčešće javlja, na
primjer, u BiH ima najviše porodica sa dvoje djece, nego da se kaže da je prosječan broj
djece u BH porodici 2.18.
Odnos aritmetičke sredine i medijane
Kada se opisuje centralna tendencija nekog uzorka, korisno je uporediti različite vrste
sredina. Na taj način se dolazi do informacije o zakrivljenosti uzorka. Zakrivljenost se
karakteriše pozicijom medijane u odnosu na prostu sredinu: ako je medijana desno od
aritmetičke sredine, skup je zakrivljen udesno i obratno. U ovo razmatranje se može
uzeti i modus, ukoliko postoji.
Odnos između medijane i modusa može da upozori na neke karakteristike uzorka, kao
što su bipolarnost, ili postojanje ekstremne vrijednosti u uzorku. Na primjer, neka se
posmatra skup platnih razreda zaposlenika jednog prosječnog preduzeća u Mostaru
(prosječna plata u HNK je 900 maraka). Platni razredi sa frekvencijama su prikazani u
Tabeli 4.
Platni razred Opseg Frekvencija
1 300-550 1
2 551-800 1
3 801-1050 3
4 1051-1300 6
5 1301-1550 4
6 1551-1800 4
7 1801-2050 6
8 2051-2300 3
9 2301-2550 1
10 2551 i više 1
Total 30
Tabela 4: Platni razredi jednoz izmišljenog preduzeća sa frekvencijama zaposlenih
Frekvencijski prikaz uzorka je naročito pogodan za određivanje modusa, iz tabele 4 se
vidi da postoje dva modusa, platni razred 4 i platni razred 7 (u oba razreda postoji po 6
zaposlenih). Uzorak sa dva modusa se naziva i bipolaran (vrijednosti u uzorku se
koncentrišu oko dvije različite vrijednosti.
ProgramiranjeI_sylabus.doc
Statistika i vjerovatnoća::Predavanja
http://student.fit.ba/
3
Fakultet informacijskih tehnologija
Medijana ovog uzorka je jednaka aritmetičkoj sredini, 5.5.
Grafički prikaz uzorka je na Slici 1.
Slika 1: Broj zaposlenika po platnim razredima (Tabela 4).
Zamislimo sada da se u ovaj uzorak dodaju mjesečni džeparac nekog šeika, koji spada u
platni razred 300. Tada će se aritmetička sredina značajno uvećati (sa 5.5 na 15),
medijana će ili ostati ista ili će se samo malo povećati (sa 5.5 na 6), a modusi će ostati
isti.
Kako prosta sredina zavisi od vrijednosti u uzorku, ona se naziva i težištem uzorka. Na
ovaj način se potencira osobina aritmetičke sredine da je suma odstupanja pojedinačnih
elemenata od sredine uvijek jednaka nuli.
Elementi uzorka veličine 10
5 4 5 7 7 6 6 8 9 6
Prosta sredina 6,3
Odstupanje elemenata uzorka od sredine
-1,3 -2,3 -1,3 0,7 0,7 -0,3 -0,3 1,7 2,7 -0,3
Suma odstupanja elemenata uzorka od sredine 0,00
Frekvencijska sredina
Sredina se može računati i iz sortiranog uzorka. Ukoliko se radi o frekvencijskom uzorku,
frekvencijska sredina će biti jednaka prostoj sredini.
Razmotrimo uzorak 5,4,5,7,7,6,6,8,9,6. Svejedno je na koji način će sumirati elementi
da bi se dobila masa uzorka:
5+4+5+7+7+6+6+8+9+6
ili
1*4+2*5+3*6+2*7+1*8+1*9.
Primjer računanja frekvencijske sredine je detaljno objašnjen u materijalima za vježbe.
0
2
4
6
8
1 2 3 4 5 6 7 8 9 10
Bro
j zap
osl
en
ika
po
p
latn
om
raz
red
u
Platni razred
ProgramiranjeI_sylabus.doc
Statistika i vjerovatnoća::Predavanja
http://student.fit.ba/
4
Fakultet informacijskih tehnologija
Grupna (razredna sredina)
Recimo da se želi odrediti srednja vrijednost Uzorka prikazanog u Tabeli 4. Kada su
dostupne samo frekvencije po razredima, onda se može izračunati sredina razreda,
smatrati se da su svi elementi razreda predstavljeni tom sredinom i dalje se primjeniti
postupak za frekvencijsku sredinu. Važno je zapamtiti da razredna sredina ne mora biti
jednaka aritmetičkoj sredini, odnosno da ona u opštem slučaju ima odstupanje u odnosu
na prostu sredinu.
Harmonijska sredina
Harmonijska sredina predstavlja količnik obima uzorka i sume recipročnih vrijednosti
njegovih elemenata. Računa se po formuli:
.
Koristi se veoma rijetko i to kod uzoraka čiji su elementi definisani u odnosu na neku
jedinicu (na primjer za računanje prosječne brzine koja se i sama definiše kao količnik
pređenog puta u jedinici vremena). U statistici je korisno primjenjivati harmonijsku
sredinu kada u uzorku postoje vrijednosti koje su mnogo puta veće od ostalih (takozvani
ekstremni autlejeri).
Na primjer, ukoliko želimo da izračunamo sredinu uzorka iz Tabele 4 sa pridodatom
vrijednošću za šeika sa platnim razredom 300, primjenom formule za harmonijsku
sredinu bi se dobila vrijednost 4,48, a ta vrijednost je bliža vrijednosti tipičnog
predstavnika u uzorku od vrijednosti za aritmetičku sredinu (15).
U odnosu na geometrijsku i aritmetičku sredinu, harmonijska je uvijek najmanja, a
jednakost sve tri važi samo ako su svi elementi u uzorku jednaki.
Geometrijska sredina
Geometrijska sredina se računa kao n-ti korjen proizvoda svih elemenata u uzorku, po
formuli:
√
.
Koristi se kod uzoraka čiji su elementi pozitivni, a čiji se kumulativ interpretira ne sumom
nego proizvodom (na primjer u ekonomiji, za računanje prosječne vrijednosti povrata
investicija kroz vrijeme, ili za računanje kumulativnih kamatnih stopa).
Na primjer, neka se dobit od neke investicije kreće kao u Tabeli 5.
Godina 2009 2010 2011 2012 2013 2014
Povrat investicije - 5% 20% 25% -10% 20%
10000 10500 12600 15750 14175 17010
Tabela 5: Povrat izmišljene investicije u pet godina.
Primjenom aritmetičke sredine se povrat investicije precenjuje za 4%, pa se u ovakvim
slučajevima primjenjuje geometrijska sredina, s tim da se procenti povrata investicije
ProgramiranjeI_sylabus.doc
Statistika i vjerovatnoća::Predavanja
http://student.fit.ba/
5
Fakultet informacijskih tehnologija
moraju računati u odnosu na 100% kao u Tabeli 6, jer se geometrijska sredina računa za
pozitivne brojeve.
Godina Povrat investicije
2009 -
2010 1,05 2011 1,2 2012 1,25 2013 0,9 2014 1,2
Tabela 6: Povrat investicije
Geometrijska sredina je uvijek veća od harmonijske, ali manja od aritmetičke, a
jednakost važi samo ako su svi elementi u uzorku jednaki.
ProgramiranjeI_sylabus.doc
Statistika i vjerovatnoća :: Predavanja
http://student.fit.ba/
1
Fakultet informacijskih tehnologija
Datum: 11.11.2013.
Varijabilnost skupa podataka
U materijalima za prošlu sedmicu je bio opisan pojam sredine kao vrijednosti oko koje se
elementi uzorka grupišu, no nije rečeno ništa o tome koliko su elementi blizu ili daleko od
sredine. Mjerenjem udaljenosti elemenata uzorka od njegove sredine se dolazi do pojma
varijabilnosti.
Najjednostavnija mjera varijabilnosti uzorka je raspon, odnosno razlika između
maksimalnog i minimalnog elementa u uzorku. Iako ga je korisno izračunati, on je ipak
veoma nesigurna i neprecizna mjera, iz dva razloga:
1. prisustvo makar jedne ekstremne vrijednosti znatno uvećava raspon, što ne mora
oslikavati varijabilnost ostalih elemenata oko sredine i
2. obično je veći od broja elemenata u uzorku.
Druga mjera koja se može koristiti za sve sredine osim aritmetičke je prosječno
odstupanje elemenata od sredine, tzv. srednje odstupanje. Ono se računa tako što se
saberu odstupanja svih elemenata od sredine, pa se taj zbir podijeli veličinom uzorka.
Odstupanje od aritmetičke sredine
U praksi se dešava da dva različita uzorka imaju iste sredine; tada je korisno znati
varijabilnost uzoraka, da bi se oni mogli porediti. Na primjer, neka su dati uzorak 1 i 2
(U1 i U2, respektivno) kao u Tabeli 1.
U1 U2
1 2
2 3
3 3
4 3
5 4
Tabela 1: Dva uzorka sa različitim elementima i istim sredinama
Aritmetičke sredine (u daljem tekstu sredine) oba uzorka su iste (jednake 3), ali bi se na
osnovu uvida u elemente uzorka moglo zaključiti da dobijena sredina bolje predstavlja U2
nego U11. Funkcija kojom se opisuje odstupanje elemenata uzorka od sredine se naziva
varijansa ili disperzija.
No, kako je već ukazano na osobinu aritmetičke sredine da je zbir odstupanja svih
elemenata uzoraka od sredine jednak nuli2, za računanje varijanse se odstupanja od
sredine kvadriraju3. Na taj način se dolazi do formule4
1 Sredina predstavlja vrijednost oko koje se grupišu elementi uzorka, a kod U2 su elementi bliži
sredini, ili gušće grupisani oko sredine, nego kod U1. 2 (jer se pozitivna i negativna odstupanja poništavaju)
ProgramiranjeI_sylabus.doc
Statistika i vjerovatnoća :: Predavanja
http://student.fit.ba/
2
Fakultet informacijskih tehnologija
∑ ( ) ,
gdje označava sredinu, varijansu, a veličinu uzorka. Dakle, može se reći da
varijansa predstavlja prosječno kvadratno odstupanje elemenata uzorka od sredine.
U Tabeli 2 je prikazan postupak računanja varijanse za uzorke iz Tabele 1.
U1 U2
( ) ( )
1 -2 4 2 -1 1
2 -1 1 3 0 0
3 0 0 3 0 0
4 1 1 3 0 0
5 2 4 4 1 1
∑ 15 0 10 15 0 2
Tabela 2: Suma odstupanja i suma kvadrata odstupanja od sredine za U1 i U2.
Dalji postupak5 je da se veličine izračunate u Tabeli 2 smjene u formulu za računanje
varijanse (s tim da se koristi formula za varijansu uzorka, jer je ). Dakle, za U1
važi:
∑ ( )
,
a za U2:
∑ ( )
.
Sada se na osnovu vrijednosti sredine i varijanse može reći da sredina bolje predstavlja
U2 nego U1 jer su u U2 odstupanja elemenata od sredine manja nego u U1.
Ukoliko se uzme u obzir da je sredina najčešće decimalni broj, za računanje varijanse se
može koristiti i alternativna formula:
∑
( )(∑
) ,
pri čemu je kao osnovno polazište za računanje korištena formula za uzorak. Zaista, kada
se u ovu formulu smjene vrijednosti za U1, dobija se
( )( )
.
3 (da bi se sumiranjem mogle kumulirati pozitivne vrijednosti odstupanja) 4 Ovo je formula za varijansu populacije; za varijansu uzorka se umjesto sa dijeli sa .
Smatra se da se za uzorke veličine manje od 30 treba primijeniti formula za varijansu uzorka, a za
ostale formula za varijansu populacije. 5 Postupak za računanje varijanse u Excel-u je prikazan u materijalima za vježbe.
ProgramiranjeI_sylabus.doc
Statistika i vjerovatnoća :: Predavanja
http://student.fit.ba/
3
Fakultet informacijskih tehnologija
Iako nije dobro da elementi uzorka previše variraju, ni varijansa bliska ili jednaka nuli
nije dobar pokazatelj. U kom slučaju je varijansa uzorka jednaka nuli?
Kako se varijansom izražava kvadratno, to se uvodi statistika kojom se izražava
prosječno linearno odstupanje od sredine, standardna devijacija. Ona se računa kao
kvadratni korjen iz varijanse i koristi se kao standard za mjerenje varijabilnosti rezultata.
Dakle, kada se želi predstaviti neki uzorak, a ne žele se prikazati svi njegovi elementi,
onda se mora prikazati sredina u paru sa standardnom devijacijom, tako da korisnik
može imati predstavu i o vrijednosti oko koje se grupišu elementi uzorka (sredini) i o
odstupanju elemenata uzorka od sredine. Uz ove dvije statistike se još treba prikazati i
veličina uzorka.
Kada su podaci pravilno (normalno6) grupišu oko sredine, onda važi:
interval ( ) obuhvata 68.26% elemenata uzorka,
interval ( ) obuhvata 95.44% elemenata uzorka,
interval ( ) obuhvata 99.73% elemenata uzorka
Detaljan postupak računanja varijanse i standardne devijacije za frekvencijsku i
grupnu/razrednu sredinu je prikazan u materijalima za vježbe.
Koeficijent varijacije
Još jedna korisna funkcija kojom se izražava varijabilnost uzorka je koeficijent varijacije,
koji se računa po formuli
.
Koristi se kada se želi utvrditi jedna od sljedeće dvije stvari:
1. koje obilježje više varira, ako se na jednom uzorku mjere osobine dva ili više njih,
2. koji uzorak više varira, ako se na barem dva uzorka mjere osobine istog obilježja.
Na primjer, neka su dati podaci za jednu generaciju studenata o prosječnoj ocjeni (od 6
do 10) i prosječnom broju položenih ispita (od 0 do 10). Variraju li više rezultati za
prosječne ocjene ili za broj položenih ispita?
Prosječna ocjena Broj položenih ispita
µ 7,33 6,71
1,28 2,66
0,18 0,40
Tabela 3: Računanje koeficijenta varijacije za dva obilježja na jednom uzorku.
Iz Tabele 3 je vidljivo da više variraju podaci o broju položenih ispita od podataka za
prosječnu ocjenu po studentu.
6 Normalno se u ovom slučaju odnosi na pojam Normalne raspodjele, koji će biti objašnjen u
narednim predavanjima.
ProgramiranjeI_sylabus.doc
Statistika i vjerovatnoća :: Predavanja
http://student.fit.ba/
4
Fakultet informacijskih tehnologija
Sa druge strane, neka se žele uporediti prosječne ocjene studenata koji su u jednoj
akademskoj godini položili dva različita predmeta, P1 i P2, kao u Tabeli 4.
Predmet 1 Predmet 2
n 104 79
µ 7,54 7,39
2,20 2,10
0,29 0,28
Tabela 4: Koeficijent varijacije za poređenje vrijednosti jednog obilježja na dva uzorka.
Uvidom u rezultate prikazane u Tabeli 4 se može zaključiti da ocjene na oba predmeta
isto variraju.
ProgramiranjeI_sylabus.doc
Statistika i vjerovatnoća:: Predavanja
http://student.fit.ba/
1
Fakultet informacijskih tehnologija
Datum: 7.12.2013.
Raspodjela slučajne promjenjive
Bez da se zadaje takozvana aksiomatska definicija vjerovatnoće, na kojoj počiva i stroga
definicija slučajne promjenjive i njene raspodjele, mogu se navesti i objasniti ovi pojmovi
u mjeri dovoljnoj za razumijevanje materije predviđene silabusom predmeta.
Vjerovatnoća
Empirijska definicija vjerovatnoće
Neka se posmatra događaj A čiji se elementarni ishodi obilježavaju sa (uobičajeno je
da se skup svih elementarnih ishoda obilježava sa ). Na primjer, ukoliko se u
eksperimentu baca kocka i bilježi broj koji se nalazi na gornjoj strani, onda su
elementarni ishodi 1, 2, 3, 4, 5 i 6.
Empirijska vjerovatnoća nekog događaja se posmatra kao omjer broja povoljnih ishoda
za taj događaj i ukupnog broja svih ishoda. Na primjer, ako se događaj A definiše tako da
je prilikom bacanja pao ili broj 3 ili 4 ili 5, onda je vjerovatnoća tog događaja jednaka
3/6, jer su od šest mogućih tri ishoda povoljna za A. U tom smislu se može reći da je
događaj podskup skupa elementarnih ishoda.
Najosnovnija pravila (Petz, B. 1997, str. 32-34)
Vjerovatnoća događaja za koji je potpuno izvjesno da će se dogoditi jednaka je 1, a
takav događaj se naziva izvjestan ili siguran događaj. Na primjer, ukoliko se posmatra
ocjena koju je dobio student koji je pristupio nekom ispitu, a ocjene se kreću od 5 do 10,
onda je izvjestan događaj da je student dobio neku od ocjena za svoj izlazak na ispit. Sa
druge strane, ako je potpuno izvjesno da se nešto neće dogoditi, onda je vjerovatnoća
tog događaja jednaka 0 i on se naziva nemoguć događaj. Na primjer, ako je student
izašao na ispit, onda je nemoguć događaj da nije dobio ocjenu. Vjerovatnoće svih ostalih
događaja se nalaze u rasponu od 0 do 1, pa se za vjerovatnoću kaže da je nenegativna i
normirana.
Vjerovatnoća da će se dogoditi bilo koji od nekoliko nezavisnih1 događaja jednaka je
sumi vjerovatnoća pojedinačnih događaja. Zbog toga se kaže da je vjerovatnoća
aditivna.
Sa druge strane, vjerovatnoća da će se istovremeno desiti dva ili više nazavisna
događaja jednaka je proizvodu pojedinačnih vjerovatnoća (princip multiplikativnosti).
Vjerovatnoća se uvijek obilježava slovom p (engl. probability). Ukoliko se radi o
vjerovatnoći elementarnog ishoda, ona se obilježava malim slovom, a ukoliko se radi o
vjerovatnoći nekog događaja, obilježava se velikim slovom. Na primjer, sa P(A) se
obilježava vjerovatnoća događaja A.
1 Za događaje se kaže da su nezavisni ako ishod jednog događaja ne utiče na
vjerovatnoću drugog i obratno. Na primjer, ako se dva puta uzastopno baca kocka, onda
je vjerovatnoća da će „pasti“ 4 u oba pojedinačna bacanje jednaka 1/6.
ProgramiranjeI_sylabus.doc
Statistika i vjerovatnoća:: Predavanja
http://student.fit.ba/
2
Fakultet informacijskih tehnologija
Slučajna promjenjiva
Iako se u materijalima neće navoditi stroga (matematička) definicija, pojam slučajne
promjenjive se ipak mora objasniti. Dakle, za potrebe ovog kursa se može smatrati da je
slučajna promjenjiva ona promjenjiva kod koje se svaka vrijednost realizira sa
određenom vjerovatnoćom. Vjerovatnoća da je realizacija slučajne promjenjive2 X
jednaka x se obilježava sa P(X=x).
Vrijednosti koje može uzeti slučajna promjenjiva se nazivaju realizacije slučajne
promjenjive. Skup realizacija može biti diskretan ili neprekidan i u zavisnosti od njega se
slučajne promjenjive nazivaju diskretne ili neprekidne.
Diskretna slučajna promjenjiva.
Neka je dat primjer slučajne promjenjive X čije su vrijednosti ocjene studenta od 5 do
10. Dalje, neka je svakoj ocjeni pridružena vjerovatnoća kojom se označava „šansa“
studenta da na ispitu dobije određenu ocjenu. Jedan takav primjer je prikazan na Slici 1.
Uobičajeno je da se ovakvo pridruživanje naziva raspodjela vjerovatnoća slučajne
promjenjive, pod uslovom da je zbir vjerovatnoća za čitav skup realizacija slučajne
promjenjive jednak 1.
(
)
Slika 1: Raspodjela ocjena na imaginarnom ispitu
Raspodjela sa Slike 1 se može protumačiti i na sljedeći način: ukoliko bi na ispit izašlo
100 studenata (pomnoži se svaka vjerovatnoća sa 100), onda bi broj njih koji su dobili
određenu ocjenu bio kao u Tabeli 1.
Ocjena Broj studenata
5 39
6 8
7 16
8 22
9 9
10 6
Ukupno 100 Tabela 1: Frekvencije ocjena studenata
U statistici se dešava i da se prikaz kao u Tabeli 1 naziva raspodjelom, a u tom slučaju se
empirijske vjerovatnoće računaju na isti način kao i koeficijenti, a ponekad se izražavaju i
kao procenti.
Za slučajnu promjenjivu se vezuju i pojmovi matematičkog očekivanja i varijanse,
kovarijanse i korelacije, kao i momenata.
Matematičko očekivanje
Matematičko očekivanje slučajne promjenjive X, u oznaci EX, ili E(X), kao što mu ime
kaže, je formula kojom se dobija očekivana vrijednost neke slučajne promjenjive.
Aritmetička sredina je jedna od ocjena matematičkog očekivanja, a u primjenjenoj
statistici je i najčešća. Za diskretne slučajne promjenjive (za koje je eksplicitno navedena
raspodjela) formula glasi:
2 Slučajna promjenjiva se uvijek obilježava velikim slovom, a njene realizacije malim.
ProgramiranjeI_sylabus.doc
Statistika i vjerovatnoća:: Predavanja
http://student.fit.ba/
3
Fakultet informacijskih tehnologija
∑
gdje su sa označene realizacije slučajne promjenjive, a sa vjerovatnoće da će
slučajna promjenjiva uzeti odgovarajuće realizacije. Na primjeru sa Slike 1, se može
vidjeti da smjenjivanje vrijednosti u formulu za matematičko očekivanje daje iste
vrijednosti kao kada se izračuna frekvencijska sredina za podatke prikazane u Tabeli 1.
Naime,
što znači da je očekivana ocjena na ispitu prolazna ocjena, skoro sedmica.
Centralni momenti diskretnih slučajnih promjenjivih
Centralni moment (moment oko sredine) slučajne promjenjive reda se definiše
formulom:
[( ) ],
odnosno, za diskretne slučajne promjenjive se definiše formulom
∑( )
Gdje je sa m označena centralna vrijednost (matematičko očekivanje ili njegova ocjena).
U ovom kursu će se koristiti centralni momenti drugog, trećeg i četvrtog reda.
Centralni moment drugog reda se naziva varijansa (disperzija). Standardizirani3 moment
trećeg reda se naziva koeficijent simetrije (ili koeficijent asimetrije), a četvrtog reda
koeficijent spljoštenosti.
Binomna raspodjela
Najpoznatija raspodjela za diskretne slučajne promjenjive je Binomna raspodjela. Ona se
primjenjuje u situacijama kada se radi o slučajnoj promjenjivoj (X) koja ima samo dvije
realizacije, sa vjerovatnoćama4 p i 1-p.
Dalje se pretpostavlja da se eksperiment u kome se posmatra slučajna promjenjiva X
ponavlja n puta. Binomna raspodjela daje odgovor na pitanje kolika je vjerovatnoća da
se prilikom n ponavljanja eksperimenta određena realizacija (sa elementarnom
vjerovatnoćom p) ponovila k puta. Odgovarajuća formula glasi:
( ) ( ) ( ) .
3 Centralni moment k-tog reda podijeljen standardnom devijacijom potenciranom na ( ) se naziva standardiziranim. 4 Ako je vjerovatnoća neke realizacije (ili događaja) p, onda se vjerovatnoća q=1-p
naziva suprotna vjerovatnoća (vjerovatnoća da se događaj neće realizirati)
ProgramiranjeI_sylabus.doc
Statistika i vjerovatnoća:: Predavanja
http://student.fit.ba/
4
Fakultet informacijskih tehnologija
Povoljno svojstvo raspodjele je da su za nju uvijek određeni i matematičko očekivanje i
centralni momenti.Tako za Binomnu raspodjelu koja zavisi od parametara i , ( ) važi:
,
.
Na primjer, neka se posmatra bacanje kocke i neka se prati koliko je puta pala petica.
Vjerovatnoća da petica padne u jednom bacanju jednaka je 1/6. Kolika je vjerovatnoća
da će od 30 bacanja petica pasti 17 puta? Ova se vjerovatnoća jednostavno može
izračunati tako što se u formulu smijene vrijednosti n=30, k=17, p=1/6, ili u Excel-u, što
je prikazano u materijalima za vježbe.
Poisson-ova raspodjela
Poisson-ova raspodjela se odnosi na diskretne slučajne promjenjive koje zadovoljavaju
uslove Poisson-ovog eksperimenta:
Rezultati eksperimenta su ishodi koji se mogu klasificirati kao uspješni ili
neuspješni;
Prosječan broj uspješnih ishoda za jedan region ( ) je unaprijed poznat;
Vjerovatnoća da će ishod biti uspješan je proporcionalna veličini regiona;
Vjerovatnoća da će se uspješan ishod javiti u veoma malom regionu je
zanemarljiva (praktično jednaka nuli).
Region može biti dužina, površina, vremenski period, opseg ili tome slično.
Ako slučajna promjenjiva zadovoljava gore nabrojane uslove, onda ona ima Poisson-
ovu raspodjelu zadatu formulom:
( )
.
Za Poisson-ovu raspodjelu važi da su joj jednaki matematičko očekivanje i varijansa,
.
Poisson-ova raspodjela se smatra uopštenjem Binomne za n veliko i p malo, obično
.
ProgramiranjeI_sylabus.doc
Statistika i vjerovatnoća:: Predavanja
http://student.fit.ba/
1
Fakultet informacijskih tehnologija
Datum: 16.12.2013.
Raspodjela neprekidne slučajne promjenjive
Neprekidna slučajna promjenjiva (u smislu objašnjenja iz P7) je ona čiji je skup
realizacija neprekidan (neprebrojiv). Ukoliko je neprekidna slučajna promjenjiva, onda
ona ima gustinu raspodjele ( ) kojom se određuje vjerovatnoća da realizacija pripada
intervalu [ ], a izražava se pomoću integrala:
( ) ∫ ( )
Neprekidne slučajne promjenjive se karakterišu neprekidnom (ili čak apsolutno
neprekidnom) funkcijom raspodjele (Slika 1),
( ) ( ) ∫ ( )
Slika 1: (Kumulativna) funkcija raspodjele neprekidne slučajne promjenjive
Matematičko očekivanje neprekidne slučajne promjenjive je određeno formulom
∫ ( )
a varijansa se definiše kao drugi momenat oko sredine.
Za potrebe kursa će se definisati još i pojmovi kovarijanse,
( ) ( ) ( )( )
i koeficijenta korelacije,
( )
gdje su sa i obilježene standardne devijacije slučajnih promjenjivih X i Y
respektivno. Vrijednost koeficijenta korelacije se kreće od -1 do 1, a njime se utvrđuje
imaju li dvije slučajne promjenjive tendenciju da istovremeno rastu/opadaju, ili im se
vrijednost kreću u suprotnim smjerovima (-1 je maksimalna negativna korelacija, a 1
maksimalna pozitivna).
ProgramiranjeI_sylabus.doc
Statistika i vjerovatnoća:: Predavanja
http://student.fit.ba/
2
Fakultet informacijskih tehnologija
Centralni momenti neprekidnih slučajnih promjenjivih
Centralni moment (moment oko sredine) slučajne promjenjive reda se definiše
formulom:
[( ) ],
odnosno, za neprekidne slučajne promjenjive se definiše formulom
∫ ( ) ( )
gdje je sa m označena centralna vrijednost (matematičko očekivanje ili njegova ocjena).
U ovom kursu će se koristiti centralni momenti drugog, trećeg i četvrtog reda.
Centralni moment drugog reda se naziva varijansa (disperzija). Standardizirani1 moment
trećeg reda se naziva koeficijent simetrije (ili koeficijent asimetrije), a četvrtog reda
koeficijent spljoštenosti. Posljednja dva koeficijenta se u primjenjenoj statistici često
koriste za poređenje empirijske raspodjele sa normalnom.
Normalna (Gauss-ova) raspodjela
Najpoznatija raspodjela za neprekidne slučajne promjenjive je normalna raspodjela
( ( )). Parametri normalne raspodjele su matematičko očekivanje ( ) i varijansa
( ). Matematičko očekivanje predstavlja vrijednost oko koje su grupisane realizacije
slučajne promjenjive. Normalna raspodjela se često koristi kao aproksimacija empirijske
raspodjele slučajne promjenjive čije realizacije teže da se grupišu oko jedne vrijednosti.
Primjeri grafika normalne raspodjele za različite vrijednosti parametara su prikazane na
Slici 2.
Slika 2: Primjeri grafika normalne raspodjele (lijevo) i (kumulativne) funkcije raspodjele (desno) za različite vrijednosti parametara. Standardizirana normalna raspodjela je prikazana crvenom bojom.
Normalna raspodjela kod koje je matematičko očekivanje jednako nuli, a varijansa
jedinici, ( ) se naziva standardizovana normalna raspodjela. Naime, ako je X
normalno raspodjeljena slučajna promjenjiva, onda promjenjiva
ima
1 Centralni moment k-tog reda podijeljen standardnom devijacijom potenciranom na ( ) se naziva standardiziranim.
ProgramiranjeI_sylabus.doc
Statistika i vjerovatnoća:: Predavanja
http://student.fit.ba/
3
Fakultet informacijskih tehnologija
standardiziranu normalnu raspodjelu, što slijedi iz osobina matematičkog očekivanja i
varijanse.
Gustina normalne raspodjele je određena formulom
( )
√ ( )
Široka primjenjivost normalne raspodjele u praksi je bazirana na rezultatu teorije
vjerovatnoće, centralnoj graničnoj teoremi, kojom se pokazuje da pod slabim uslovima
srednja vrijednost velikog broja slučajnih promjenjivih nezavisno odabranih iz iste
raspodjele ima normalnu raspodjelu bez obzira na oblik polazne raspodjele. Dodatno,
normalnu raspodjelu je jednostavno izraziti analitički, odnosno, veliki broj rezultata koji
se na nju odnose se mogu eksplicitno izračunati.
Kako su za normalnu raspodjelu očekivanje i varijansa parametri, to njih nije potrebno
računati. Treći centralni momenat (kao i svi ostali neparni momenti) jednak je nuli, pa se
u primijenjenoj statistici empirijska raspodjela može smatrati asimetričnom (u odnosu na
sredinu) ukoliko se izračunati standardizirani treći momenat razlikuje od nule. Analogno,
kako je četvrti momenat oko sredine kod normalne raspodjele jednak (k-ti centralni
moment, za parne k, jednak je ( ) ), to se empirijska raspodjela može smatrati
spljoštenom (ispupčenom) ukoliko je izračunati standardizirani četvrti momenat manji
(veći) od 3.
Od ostalih raspodjela, u ovom kursu će se koristiti još i one koje se primjenjuju za
testiranje hipoteza o normalno raspodijeljenim ishodima, a to su „hi-kvadrat“, studentova
t i F raspodjela. Raspodjele će biti detaljnije objašnjene u materijalima u kojima će se
prvi put pominjati njihova primjena.
ProgramiranjeI_sylabus.doc
Statistika i vjerovatnoća:: Predavanja
http://student.fit.ba/
1
Fakultet informacijskih tehnologija
Datum: 16.12.2013.
Testiranje statističkih hipoteza
Pojam hipoteza se u primjenama statistike najčešće poistovjećuje sa formulisanjem
tvrdnje vezane za neki od parametara funkcije raspodjele, a testiranje takvih hipoteza se
najčešće zasniva na uzoračkoj ocjeni datog parametra. U matematičkoj statistici,
testiranje hipoteza je dio složene teorije koja prevazilazi obim ovog predmeta. Zbog toga
će se u ovim materijalima samo pominjati najbitniji rezultati, bez da se ulazi u njihovo
dokazivanje.
Vrste testova
Postoje dvije vrste testova za provjeru statističkih hipoteza, parametarski i
neparametarski. Kod parametarskih testova se testiraju hipoteze o parametrima
raspodjela i mi ćemo se baviti isključivo ovim testovima.
Dakle, neka označava poznatu gustinu raspodjele koja zavisi od
parametara.
Statistička hipoteza. Definicija. Ukoliko se hipotezom određuju vrijednosti svih
parametara gustine raspodjele, ona se naziva prosta hipoteza; u protivnom hipoteza je
složena.
Primjer proste hipoteze je: , a složene:
Hipoteza o parametrima raspodjele se često testira naspram suprotne hipoteze, na
primjer naspram suprotne
Matematički, uslov za konstruisanje najboljeg testa daje lemma Neumann-Pearson
koja određuje najbolji kritični region (površina ispod gustine raspodjele koja je
nepovoljna za datu hipotezu) za unaprijed određenu veličinu. Kritični region veličine se
vezuje uz pojam greške I vrste, koja predstavlja vjerovatnoću da dobijena vrijednost
pripada kritičnom regionu iako je hipoteza ispunjena. Sa druge strane greška II vrste je
vjerovatnoća da vrijednost ne pripada kritičnom regionu za (dakle trebala bi se
prihvatiti ), ali se prihvata suprotna hipoteza Kako je greška II vrste „opasnija“ za
izvođenje pogrešnih zaključaka, prilikom konstruisanja testova se ona minimizira.
U praksi se za kritični region (kritičnu vrijednost) najčešće koristi ili ,
što odgovara regionu od 5% (1%, respektivno) površine ispod krive gustine raspodjele.
U slučajevima kada se lemma Neumann-Pearson ne može primijeniti, primjenjuje se test
količnika vjerodostojnosti. Još jedan bitan pojam vezan za testiranje hipoteza je
funkcija moći testa kojom se određuje vjerovatnoća da dobijena vrijednost pripada
kritičnom regionu kada je stvarna vrijednost parametra; važi da je
ProgramiranjeI_sylabus.doc
Statistika i vjerovatnoća:: Predavanja
http://student.fit.ba/
2
Fakultet informacijskih tehnologija
Goodness-of-fit testovi (testiranje da li uzorak odgovara teorijskoj raspodjeli)
U svim testovima koji su ovdje obrađeni se primjenjuje raspodjela (slovo grčkog
alfabeta „hi“), gdje označava broj stepeni slobode (radi se o slovu grčkog alfabeta koje
se čita „ni“).
Multinomna raspodjela
Multinomna raspodjela ima slične karakteristike kao Binomna i smatra se njenim
uopštenjem. Kod binomne raspodjele se u svakom ponavljanju eksperimenta posmatrani
događaj ili realizuje (sa vjerovatnoćom ), ili ne realizuje (sa vjerovatnoćom ).
Kod multinomne raspodjele postoji više elementarnih ishoda koji su svi međusobno
isključivi, i svakom od njih se pridružuje vjerovatnoća
Na primjerima ćemo pokazati kako se koristi test za utvrđivanje pripadnosti uzorka
poznatoj multinomnoj raspodjeli. Test se bazira na teoremi koja kaže da distribucije
slučajne promjenjive
∑
ima raspodjelu (sa stepeni slobode).
Na isti način kao što se u ovdje prikazanim testovima testira adekvatnost Multinomnoj i
Normalnoj raspodjeli, može se testiranje primijeniti i za Binomnu i Poisson-ovu
raspodjelu.
test
Primjer 1.
Neka se kocka baca 60 puta i neka su frekvencije ( ) zabilježene u eksperimentu date u
Tabeli 1.
Palo je: 1 2 3 4 5 6
ni 15 7 4 11 6 17 Tabela 1: Frekvencije pojavljivanja ishoda bacanja kocke u 60 ponavljanja.
Testira se hipoteza da je kocka „poštena“; u tom slučaju bi vjerovatnoće svih ishoda bile
iste i jednake
i to su očekivane vrijednosti za sve ishode. Dakle, testira se prosta
hipoteza:
, gdje je sa označena
vjerovatnoća da je palo .
Da bi se provelo testiranje, Tabela 1 se može dopuniti očekivanim vrijednostima (vidi
Tabelu 2) i onda je račun u Excel-u veoma jednostavan (vidjeti MSExcel file).
Dobijena vrijednost statistike je 13.6. Kako ima 6 ishoda, to je broj stepeni slobode
raspodjele , a teorijska vrijednost za kritični region je jednaka
11.1.
ProgramiranjeI_sylabus.doc
Statistika i vjerovatnoća:: Predavanja
http://student.fit.ba/
3
Fakultet informacijskih tehnologija
Palo je: 1 2 3 4 5 6
ni 15 7 4 11 6 17
ei
Tabela 2: Frekvencije pojavljivanja ishoda bacanja kocke u 60 ponavljanja.
Na Slici 1 je zasjenčen kritični region ispod krive koja približno prikazuje raspodjelu.
Slika 1: Kritični region za χ2 raspodjelu.
Kako je vrijednost dobijena iz uzorka veća od teorijski dobijene vrijednosti, ona pripada
kritičnom regionu, pa se mora odbaciti hipoteza da su empirijske vrijednosti jednake
teorijskim. Dakle, se odbacuje, pa možemo zaključiti da je kocka namještena (the
dice was loaded from the start...).
Primjer 2.
Neka su u eksperimentu uzgajanja jedne vrste cvijeća dobijene četiri različite
kombinacije boja i to 120 plavo-zelenih, 48 plavo-crvenih, 36 crveno-zelenih i 13 crveno-
crvenih. Neka je dalje poznato da bi se ove četiri kombinacije trebale odnositi u odnosu
9:3:3:1, treba provjeriti jesu li empirijski podaci (podaci dobijeni u eksperimentu) u
skladu sa teorijskim.
Da bi se odredile teorijske (očekivane) frekvencije, prvo se izračuna zbir 9+3+3+1=16, a
zatim se proizvod količnika odnosa i zbira pomnoži sa ukupnim brojem cvjetova i
zaokruži na najbliži cio broj (na primjer,
. Vrijednosti dobijene na
ovaj način su prikazane u Tabeli 3.
Sada se može postaviti hipoteza koja će se testirati:
Vrijednosti empirijskih i očekivanih frekvencija su prikazane u Tabeli 3.
Dobijena empirijska vrijednost statistike je 1.9. Kako ima 4 ishoda, to je broj stepeni
slobode raspodjele , a teorijska vrijednost za kritičnu vrijednost
je jednaka 7.8.
Kombinacija boja: 1 2 3 4
ni 120 48 36 13
ei 122 41 41 14
Tabela 3: Frekvencije pojavljivanja kombinacija boja cvijeća u 217 sadnica.
ProgramiranjeI_sylabus.doc
Statistika i vjerovatnoća:: Predavanja
http://student.fit.ba/
4
Fakultet informacijskih tehnologija
Kako je u ovom slučaju empirijska vrijednost manja od teorijske za zadatu kritičnu
vrijednost, ona se ne nalazi u kritičnom regionu, hipoteza se prihvata.
Ograničenja test
U praksi se pokazalo da je test nepouzdan ukoliko su vrijednosti (frekvencije
pojavljivanja ishoda) manje od 5. U tom slučaju se mora voditi računa da makar
očekivane vrijednosti budu veće od 5, a ako ni to nije slučaj, onda se ili mora izvršiti
spajanje kategorija (sumiranje frekvencija) ili se primijeniti neki drugi metod inferencije.
Uopštenje testa test se može koristiti i u slučajevima kada parametri raspodjele nisu unaprijed
poznati, nego se ocjenjuju na osnovu empirijskih podataka. U tom slučaju se za svaki
procijenjeni parametar oduzima po jedan stepen slobode.
Aproksimacije krive gustine raspodjele
Postoje situacije kada se želi provjeriti može li se za histogram frekvencija reći da
aproksimira neku raspodjelu (najčešće Normalnu, Poisson-ovu ili Binomnu).
Primjer 3.
Neka su u 1000 mjerenja dužine trajanja telefonskih razgovora dobijeni rezultati kao u
Tabeli 4 i neka je odgovarajući histogram frekvencija prikazan na Slici 2.
Dužina razgovora
(granica razreda) 49,5 149,5 249,5 349,5 449,5 549,5 649,5 749,5 849,5 949,5
ni 5 11 42 133 260 247 180 88 28 6
Tabela 4: Frekvencije obavljenih telefonskih razgovora određene dužine u 1000 mjerenja.
Dalje, neka je poznato da su srednja vrijednost i standardna devijacija jednaki i (postupak računanja razredne sredine i varijanse je prikazan u .xsl dokumentu).
Slika 2: Histogram frekvencija dužine trajanja telefonskih razgovora u 1000 mjerenja prikazan po
razredima.
5 11
42
133
260 247
180
88
28
0
50
100
150
200
250
300
49,5 149,5 249,5 349,5 449,5 549,5 649,5 749,5 849,5
ProgramiranjeI_sylabus.doc
Statistika i vjerovatnoća:: Predavanja
http://student.fit.ba/
5
Fakultet informacijskih tehnologija
Očekivane vrijednosti se računaju primjenom formule za vjerovatnoće Normalne
raspodjele za zadate vrijednosti (granice intervala). U MSExcel-u se to postiže primjenom
funkcije NORM.DIST( ; μ; σ; TRUE). Sintaksa funkcije je objašnjena u materijalima
iz vježbi. Kako je zbog opcije kumulativ=TRUE rezultat primjene funkcije površina ispod
krive do x, za sve vrijednosti osim prve se moraju izračunati razlike NORM.DIST( ;
μ; σ; TRUE) - NORM.DIST( ; μ; σ; TRUE) (vidjeti Sliku 3).
Konačno, podaci pripremljeni za testiranje su prikazani u Tabeli 5.
ni 5 11 42 133 260 247 180 88 28 6
ei 2,5 13,3 52,4 135,5 229,3 254,4 184,9 88,0 27,4 5,6
Tabela 5: Podaci o dužinama telefonskih razgovora pripremljeni za testiranje.
Dobijena empirijska vrijednost statistike je 9.63. Kako ima 10 mjernih intervala i
procjenjuju se dva parametra (sredina i standardna devijacija), to je broj stepeni slobode
raspodjele , a teorijska vrijednost za kritičnu vrijednost je jednaka
14.07. Pošto je empirijska vrijednost manja od teorijske, to se postavljena hipoteza može
prihvatiti, pa slijedi da su izmjereni podaci u skladu sa pretpostavljenom normalnom
raspodjelom.
Slika 3: Određivanje vjerovatnoće za oblast ispod krive ograničenu tačkama x1 (plavo) i x2 (crveno), presjek je ljubičaste boje i treba se oduzeti da bi se dobila crvena površina
ProgramiranjeI_sylabus.doc
Statistika i vjerovatnoća:: Predavanja
http://student.fit.ba/
1
Fakultet informacijskih tehnologija
Datum: 25.12.2013.
Tabele kontigencije
Još jedna veoma česta primjena testa je vezana za provjeru kompatibilnosti uočenih i
očekivanih vrijednosti u takozvanim tabelama kontigencije. U takvim tabelama su podaci
već sumirani, odnose se na dva različita obilježja koja su podijeljena po kategorijama, a
koriste se za istraživanje relacija između dvije klasifikacijske promjenjive.
Testiranje nezavisnosti
Kod tabela kontigencije se testom se može testirati hipoteza da ne postoji zavisnost
između dvije promjenjive po kategorijama.
Primjer 1.
Neka su u Tabeli 1 prikazani podaci za tri različita ponuđača iste vrste usluga (1, 2 i 3) i
zadovoljstvo korisnika tim uslugama (usluge ocijenjene kao: loše, osrednje, dobre i
izvrsne). U ovom konkretnom primjeru se testira hipoteza da ne postoji zavisnost između
proizvođača i zadovoljstva korisnika (u slučaju potvrde, svi ponuđači nude usluge kojima
su korisnici jednako zadovoljni). Hipoteza o nezavisnosti dvije promjenjive se zapisuje na
sljedeći način1:
{
Loša Osrednja Dobra Izvrsna Svega
1 18 29 70 115 232
2 17 28 30 41 116
3 11 10 11 20 52
Svega 46 67 111 176 400
Tabela 1: Primjer tabele kontigencije
Kod tabela kontigencije broj stepeni slobode se računa preko broja kolona ( ) i broja
redova ( ) i važi da je . Dalje, pokazuje se da se ocjena maksimalne
vjerodostojnosti očekivane vrijednosti za svako polje u tabeli dobije kada se pomnože
total kolone sa totalom reda i podijeli sa ukupnim brojem elemenata u tabeli (na primjer,
za prvog ponuđača i kolonu Izvrsna, očekivana vrijednost je
, nakon čega
se zaokruže na najbliži cio broj). Postupak je prikazan u .xls dokumentu.
Kako je za i kritičnu vrijednost dobijena empirijska
vrijednost statistike (19.9) veća od teorijske (12.6), to se hipoteza može odbaciti. U
ovom slučaju to znači da korisnici usluga tri proizvođača nisu jednako zadovoljni
uslugom.
1 označava sumu vjerovatnoća u redu za sve kolone
ProgramiranjeI_sylabus.doc
Statistika i vjerovatnoća:: Predavanja
http://student.fit.ba/
2
Fakultet informacijskih tehnologija
Test homogenosti
Testiranje homogenosti je veoma slično testiranju nezavisnosti u tabeli kontigencije.
Primjenjuje se kada se isti eksperiment ponavlja više puta i želi se ispitati da li su
različite realizacije eksperimenta međusobno nezavisne. Na primjer, u proizvodnji nekog
elementa se svakodnevno uzimaju uzorci i utvrđuje se broj defektnih elemenata. Treba
se utvrditi da li se broj defektnih elemenata poklapa sa očekivanim (dozvoljenim) brojem
iz dana u dan.
Uspjeh x1 x2 ... xk
Neuspjeh n-x1 n-x2 ... n-xk
Tabela 2: Tabeliranje broja uspješnih/neuspješnih pokušaja u uzastopnom ponavljanju eksperimenta
Takvi se podaci mogu tabelirati u tabeli sa brojem uspješnih i neuspješnih pokušaja
(Tabela 2), a hipoteza se zapisuje kao , gdje označava
vjerovatnoću uspješnog pokušaja u svakom od ponavljanja eksperimenta.
Primjer 2.
Neka je u 12 nasada od po 90 sadnica broj zaraženih sadnica dat u Tabeli 3 (zaražena
sadnica je upisana kao uspjeh). Treba se utvrditi da li je broj zaraženih sadnica isti u svih
12 nasada. U tom slučaju se hipoteza postavlja kao , gdje je
vjerovatnoća da je slučajno odabrana sadnica iz -tog nasada zaražena.
1 2 3 4 5 6 7 8 9 10 11 12 Svega
Uspjeh 19 6 9 18 15 13 14 15 16 20 22 14 181
Neuspjeh 71 84 81 72 75 77 76 75 74 70 68 76 899
Svega 90 90 90 90 90 90 90 90 90 90 90 90 1080
Tabela 3: Broj zaraženih (Uspjeh) i nezaraženih (Neuspjeh) sadnica u 12 nasada sa po 90 sadnica.
Po istom postupku kao i za prethodnu tabelu kontigencije se izračuna vrijednost
statistike (17.75). Kako je za i kritičnu vrijednost
dobijena teorijska vrijednost statistike (19.7) veća od empirijske, to se hipoteza
prihvata. U ovom slučaju to znači da su podaci u svih 12 nasada homogeni, odnosno da
je u svim nasadima jednako vjerovatno pojavljivanje zaražene sadnice.
ProgramiranjeI_sylabus.doc
Statistika i vjerovatnoća:: Predavanja
http://student.fit.ba/
1
Fakultet informacijskih tehnologija
Datum: 5.1.2014.
Linearna regresija
Linearna regresija se koristi za modeliranje međusobne zavisnosti između dvije
promjenjive (varijable) na način da se linearna jednačina prilagodi podacima. Pri tome se
jedna promjenjiva smatra zavisnom, a druga eksploratornom (nezavisnom,
deskriptivnom). Na primjer, neka se želi istražiti kako prinos jedne poljoprivredne kulture
zavisi od količine navodnjavanja (podaci su prikazani u Tabeli 1).
Voda (x) 12 18 24 30 36 42 48
Prinos (y) 5.27 5.68 6.25 7.21 8.02 8.71 8.42
Tabela 1: Zavisnost prinosa (u tonama po hektaru) od količine navodnjavanja (u inčima).
Prije nego što se podaci aproksimiraju linearnom funkcijom, modelar bi trebao istražiti
postoji li neka vrsta povezanosti između promjenjivih od interesa. Postojanje povezanosti
ne implicira nužno da je jedna promjenjiva uzrok promjene druge, već samo da postoji
neka vrsta značajne povezanosti među njima. Jedan od korisnih instrumenata za
istraživanje povezanosti je tzv. scatterplot (prikaz parova vrijednosti u dvodimenzionom
koordinatnom sistemu). Ukoliko se na grafikonu ne vidi nikakva značajna povezanost
(ukoliko su tačke nepravilno razasute po koordinatnom sistemu), linearna aproksimacija
ne mora imati smisla. Podaci iz Tabele 1 su prikazani na Slici 1.
Slika 1: Scatterplot povezanosti prinosa i navodnjavanja (podaci iz Tabele 1)
Kako se sa Slike 1 vidi da su podaci grupisani linearno, u ovom slučaju ima smisla
istražiti oblik linearne zavisnosti.
U opštem slučaju podaci ne moraju pokazivati linearnu zavisnost; jedan takav primjer je
prikazan na Slici 2.
Numerički pokazatelj povezanosti podataka koji se veoma često koristi u praksi je
koeficijent korelacije. Njime se može ustanoviti ne samo postojanje, nego i jačina
povezanosti. U ovom slučaju je vrijednost koeficijenta korelacije , što implicira
da među podacima postoji značajna pozitivna povezanost.
0
2
4
6
8
10
0 20 40 60Pri
no
s (t
on
a p
o h
ekt
aru
)
Voda (u inčima)
ProgramiranjeI_sylabus.doc
Statistika i vjerovatnoća:: Predavanja
http://student.fit.ba/
2
Fakultet informacijskih tehnologija
Slika 2: Primjer podataka koji ne pokazuju linearnu zavisnost.
Prava linearne regresije ima jednačinu opšteg oblika , gdje je zavisna
promjenjiva, eksploratorna (nezavisna) promjenjiva, presjek sa osom, a nagib
prave. Koeficijent se još tumači kao početna vrijednost regresije (u ovom slučaju koliki
bi bio prinos bez navodnjavanja) i u modeliranju se može zahtjevati da se on postavi na
nulu, ukoliko to ima više smisla. Sa druge strane, uobičajeno tumačenje nagiba je da
on predstavlja povećanje zavisno promjenjive ukoliko se nezavisno promjenjiva poveća
za jednu jedinicu (u ovom slučaju povećanje količine navodnjavanja za jedan inč).
Metoda najmanjih kvadrata u regresiji
Kada su podaci za i poznati, onda se mogu aproksimirati i vrijednosti za koeficijente
i . Jedna od najčešće korištenih metoda je metoda najmanjih kvadrata u kojoj se
minimizira greška regresije. Greška se posmatra kao rastojanje pojedinačnih tačaka od
prave regresije (ukoliko tačka leži na pravoj njeno odstupanje jednako je nuli). Kako se
odstupanja od prave kvadriraju, to se pozitivne i negativne vrijednosti ne mogu anulirati.
Za realizaciju ove metode, potrebno je jednačinu regresije zapisati u obliku
, gdje su malim slovima označene realizacije slučajnih promjenjivih, a sa je označena
greška regresije. Dalje se greška izrazi eksplicitno, kvadrira, a zatim se dobijene
jednakosti parcijalno deriviraju po promjenjivim. Ovaj postupak je detaljno opisan i u
obaveznoj literaturi za predmet, a i u drugim izvorima, te se ovdje neće dalje pominjati.
Primjer proste linearne regresije
Ukoliko se istražuje povezanost samo dvije promjenjive, za regresiju se kaže da je
prosta; prosta linearna regresija znači da se ispituje linearna zavisnost između dvije
promjenjive. Regresija može biti i nelinearna, ali i višestruka (ukoliko se ispituje
zavisnost neke promjenjive od dvije ili više deskriptivnih promjenjivih).
Koeficijenti regresije, kao i druge bitne statistike se mogu dobiti primjenom naredbe
LINEST u MSExcel-u, što je detaljno opisano u materijalima za vježbe. Sintaksu naredbe
studenti trebaju pogledati u Help-u.
Dodatna statistika na koju se treba obratiti pažnja je koeficijent determinacije, .
Računa se kao kvadrat koeficijenta korelacije, a njime se procjenjuje procenat (udio)
varijacije jedne promjenjive koji se može objasniti drugom.
Za primjer sa podacima iz Tabele 1 dobija se jednačina proste linearne regresije kao na
Slici 3.
0
2
4
6
8
10
0 5 10 15 20
ProgramiranjeI_sylabus.doc
Statistika i vjerovatnoća:: Predavanja
http://student.fit.ba/
3
Fakultet informacijskih tehnologija
Slika 3: Prava i jednačina linearne regresije za podatke iz Tabele 1.
Autlejeri i uticajne opservacije
Autlejer1 je podatak koji odstupa u velikoj mjeri od ostalih podataka u uzorku. U statistici
se ovakvi podaci posebno provjeravaju, jer se može desiti da predstavljaju grešku
prilikom unosa. U regresionoj analizi se autlejerom naziva tačka (par podataka) koja je
udaljena od regresione prave i koji zbog toga ima veliku rezidualnu vrijednost.
(Rezidualna vrijednost je drugi naziv za odstupanje pojedine vrijednosti zavisno
promjenjive od regresione prave; računanje rezidualnih vrijednosti je prikazano u Tabeli
3.) Autlejer može označavati pogrešnu vrijednost ili lošu aproksimaciju prave linearne
regresije. Sa druge strane, ukoliko je neki podatak udaljen horizontalno od ostalih
podataka, on se naziva uticajna vrijednost (engl. influential observation). U Tabeli 2 je
prikazan primjer podataka (malo izmijenjeni podaci za navodnjavanje iz Tabele 1) kod
kojih postoje i autlejeri i jedna uticajna vrijednost.
Voda (x) 33 5 9 13 17 21 25
Prinos (y) 5,27 5,68 6,25 7,21 8,02 8,71 8,42
Tabela 2: Izmijenjeni podaci za prinos i navodnjavanje
Ilustracija regresione zavisnosti ovih podataka je prikazana na Slici 4.
Slika 4: Scatterplot za podatke iz Tabele 2; 21 je autlejer, a 33 uticajna vrijednost
Sa Slike 4 je vidljivo da je ova procjena podataka linearnom regresijom veoma loša,
posebno zato što je vrijednost koeficijenta determinacije veoma bliska nuli (što govori o
1 Engl. Outlayer, riječ preuzeta iz strane literature kojom se u statistici naziva podatak
koji odstupa od ostalih
y = 0,1029x + 3,9943 R² = 0,9456
0
2
4
6
8
10
0 20 40 60
y = 0,0201x + 6,7271 R² = 0,0199
0
2
4
6
8
10
0 10 20 30 40
ProgramiranjeI_sylabus.doc
Statistika i vjerovatnoća:: Predavanja
http://student.fit.ba/
4
Fakultet informacijskih tehnologija
tome da među ovim podacima nema skoro nikakve povezanosti). Da bi se poboljšala
aproksimacija, uobičajeno je da se uticajna vrijednost isključi iz razmatranja, ukoliko to
ima smisla u stvarnosti. U ovom slučaju, ukoliko se iz Tabele 2 ukloni prva kolona, dobija
se sasvim pristojna regresiona linija, kao na Slici 5.
Slika 5: Regresija za podatke iz Tabele 2 nakon što je uklonjena uticajna vrijednost.
Reziduali
U Tabeli 3 je prikazan način računanja reziduala za podatke iz Tabele 2.
Prinos (y) Voda (x) y' y-y' (y-y')^2
5,27 33 7,3898 -2,1198 4,4937
5,68 5 6,8275 -1,1475 1,3169
6,25 9 6,9079 -0,6579 0,4328
7,21 13 6,9882 0,2218 0,0492
8,02 17 7,0685 0,9515 0,9053
8,71 21 7,1489 1,5611 2,4372
8,42 25 7,2292 1,1908 1,4181
0,0000 11,0531
Tabela 3: Primjer računanja reziduala na podacima iz Tabele 2. Sa y' je označena procijenjena vrijednost zavisno promjenjive izračunata za konkretno x smjenom u jednačinu y=0.0201x+0.7271. Rezidual je razlika između stvarnog podatka, y i procijenjene vrijednosti, y'.
Grafički prikaz reziduala (također scatterplot sa x i y-y') je prikazan na Slici 6.
Slika 6: Scatterplot reziduala za vrijednosti nezavisno promjenjive.
y = 0,1564x + 5,0363 R² = 0,9181
0
2
4
6
8
10
0 10 20 30
-6,0000
-5,0000
-4,0000
-3,0000
-2,0000
-1,0000
0,0000
1,0000
0 10 20 30 40
ProgramiranjeI_sylabus.doc
Statistika i vjerovatnoća:: Predavanja
http://student.fit.ba/
5
Fakultet informacijskih tehnologija
Ekstrapolacija
Kada se napravi regresioni model za grupu podataka, raspon tih podataka se mora
pažljivo proučiti. Tako se u praksi ispostavlja da je često neadekvatno primjenjivati
jednačinu regresije izvan zadatog raspona, jer rezultati mogu biti potpuno nevjerovatni.
Očigledan primjer bi bila jednačina regresije koja opisuje dobitak na težini veoma male
djece; primjena takve jednačine na stariju populaciju bi bila potpuno neumjesna.
ProgramiranjeI_sylabus.doc
Statistika i vjerovatnoća:: Predavanja
http://student.fit.ba/
1
Fakultet informacijskih tehnologija
Datum: 11.01.2014.
Regresija
Prosta nelinearna regresija
U praksi se dešava da linearna funkcija nije najbolja aproksimacija podataka. Tako, osim
proste linearne regresije, postoje i nelinearne regresije, u skladu sa oblikom funkcije koja
opisuje zavisnost između dvije promjenjive. Tako se može govoriti o polinomnoj regresiji
(zavisnost se opisuje polinomnom funkcijom 2., 3. ili višeg stepena), logaritamskoj (koja
je najčešća alternativa linearnoj zbog monotonosti i sporog rasta), eksponencijalnoj (koja
se jako rijetko upotrebljava, jer eksponencijalna funkcija veoma brzo raste), stepenoj...
Na ispitu se od studenata može tražiti da procijene koji oblik proste regresije najbolje
aproksimira date podatke, pri čemu se kao kriterijum uzima najveća vrijednost
koeficijenta determinacije. Za ovo je dovoljno iskoristiti opcije koje su ugrađene u scatter
plot, a postupak je objašnjen na vježbama.
Višestruka linearna regresija
Model višestruke regresije se sastoji od jedne zavisne, dvije ili više nezavisnih
promjenjivih i slučajne promjenjive kojom se opisuje greška. Opšti oblik modela
višestruke regresije je:
( )
U navedenom modelu je zavisna promjenjiva, a njome se opisuje pojava čije se
varijacije izražavaju pomoću nezavisnih promjenjivih . Promjenjiva odzražava
nepoznata odstupanja od funkcionalne zavisnosti.
Kao i kod proste regresije, nepoznati parametri u funkcionalnoj zavisnosti se procjenjuju
na osnovu uzorka veličine za poznate vrijednosti zavisne i nezavisnih promjenjivih, pri
čemu se nastoji minimizirati greška, odnosno odstupanje od funkcionalne zavisnosti.
Pretpostavi li se da je veza između zavisne i nezavisnih promjenjivih linearna, radi se o
modelu višestruke linearne regresije, čija je jednačina:
U navedenoj jednačini je zavisna promjenjiva, su nezavisne promjenjive, a
su procijenjeni parametri.
Procjena pouzdanosti parametara i regresije
Nakon što se parametri regresije procjene, „tačnost“ regresije se, osim pomoću
koeficijenta determinacije, može ispitati i testiranjem dobijenih vrijednosti parametara i
čitave regresije. U MSExcel-u se ovaj postupak za linearnu regresiju provodi jednostavno,
korištenjem izlaza iz funkcije LINEST (što je objašnjeno u materijalima za vježbe).
ProgramiranjeI_sylabus.doc
Statistika i vjerovatnoća:: Predavanja
http://student.fit.ba/
2
Fakultet informacijskih tehnologija
Zadatak za samostalni rad
Kako se u postupku koriste i vrijednosti iz t i F raspodjele, to se od studenata očekuje da
u sklopu samostalnog rada istraže navedene raspodjele, da bi bili u stanju da odgovore
na sljedeća pitanja:
1. Na koji način se definiše promjenjiva na koju se odnosi t/F/Z/Hi-kvadrat
raspodjela?
2. Koje su najčešće primjene t/F/Z/Hi-kvadrat raspodjele?
3. Kako izgleda grafik t/F/Z/Hi-kvadrat raspodjele?
4. U kojim slučajevima je t/F/Z/Hi-kvadrat raspodjela bliska normalnoj?
Odgovori na ova pitanja se mogu naći ili u literaturi, ili na Internetu.