osnove analize podataka u naučnim istraživanjimaess.ekof.bg.ac.rs/doktorske_studije/osnove analize...
TRANSCRIPT
ANALIZA PODATAKA
OSNOVE ANALIZE PODATAKA
u naučnim istraživanjima
Prof. dr Jasna Soldić-AleksićEkonomski fakultet, Beograd,
2
Cilj analize podataka• Proces donošenja odluka
Podaci Informacije Odluke
PODACI → INFORMACIJE → ZNANJE → MUDROST•
Analiza
podataka
Proces
donošenja
odluka
3
ANALIZA PODATAKA
• “If you don’t know where you’re going,
you might end up somewhere else.”
Yogi Berra
• Potencijal analize podataka:
• u čemu se ogleda “moć” i “nemoć” analize podataka?
• U različitim istraživanjima se primenjuju različite tehnike analize podataka, ali za svako istraživanje je neophodno da se izvrši unos podataka, editovanje podataka, kodiranje (prekodiranje), .... prezentacija podataka.
4
PROCES PRIPREMANJA PODATAKA ZA ANALIZU
1. Preliminarni plan analize podataka
2. Pregled upitnika i validacija podataka
3. UreĎivanje (editovanje) podataka
4. Kodiranje podataka
5. Unos podataka
6. Prečišćavanje i statističko
modifikovanje podataka
7. Tabelarno predstavljanje podataka
8. Selekcija strategije analize podataka
5
Pregled upitnika i validacija podataka
Postoji više razloga zbog kojih upitnici mogu biti neprihvatljivi, kao što su:
• nepotpuni delovi upitnika,
• nedostatak jedne ili više strana upitnika,
• sistematski ili slučajno preskočena pitanja,
• neadekvatnost upitnika u smislu zadatog tipa uzorka,
kao što je na primer nedovoljan broj upitnika u jednoj
kvoti, a previše u drugoj kvoti,
• mala varijansa odgovora u upitniku (na primer,
ispitanik je odgovorio kod svih pitanja na skali od 1 do
7 sa 3),
• upitnik je primljen znatno kasnije u odnosu na jasno
preciziran krajnji rok dostavljanja upitnika i sl.
6
Validacija podataka
• Validacija podataka podrazumeva proveravanje
opservacija, upitnika ili celokupnog ispitivanja da
li su sprovedeni korektno bez pristrasnosti ili
namernih grešaka (falsifikata, prevara i sl.).
• Validacija - proveravanje kvaliteta podataka
• (GIGO princip – “Garbage In, Garbage Out”)
• U procesu validacije ponovnim pozivom
proverava se ispunjenost ovih uslova.
7
UreĎivanje - editovanje podataka(otkrivanje grešaka i njihova korekcija)
Mogući problemi:
– Greška anketara – na primer, anketar nije dostavio adekvatne instrukcije ispitanicima;
– Nedostajući odgovori – ispitanik nije odgovorio na neka pitanja;
– Nejasnost – nejasan odgovor ispitanika, kao što je na primer slučaj kada je ispitanik zaokružio odgovore pod brojem 3 i 4 na skali od 1 do 7, a traži se jedinstven odgovor;
– NeusklaĎenost – odgovori na neka pitanja mogu biti logički nekonzistentni. Na primer, odgovor ispitanika da jednom mesečno obavlja redovne preglede automobila, a drugi odgovor da nema automobil;
– Nedovoljna kooperativnost – kroz niz odgovora na pitanja može se videti nevoljnost ispitanika da odgovara na neka pitanja, ili grupu pitanja;
– Neodgovarajući ispitanik – ako je istraživanjem predviĎeno da uzorak čine ispitanici stariji od 21 godine, a ispitanik ne ispunjava taj uslov.
8
UreĎivanje - editovanje podataka
• Moguća rešenja za uočene probleme:
TRETMAN
NEZADOVOLJAVAJUĆIH
ODGOVORA
Povratak na teren
(ponovo kontaktirati
ispitanike)
Isključenje (brisanje)
celog upitnika -
ispitanika sa
nezadovoljavajućim
odgovorimaNečitki odgovori ili
pitanja bez odgovora
kodiraju se u
kategoriji
“ne znam” ili “nemam
mišljenje”
Isključenje podataka samo
za nedostajuće odgovore
(promenljive), a ostali
podaci u upitniku ostaju u
analizi
9
Šifriranje (kodiranje) podataka
Struktura pitanja:
• Zatvorena pitanja – struktuirana pitanja:
– dihotomna pitanja – primer pol
– pitanja sa višestrukim izborom odgovora - Na primer za pitanje o
učestalosti korišćenja odreĎenog tipa proizvoda mogu biti predviĎeni sledeći
odgovori i kodovi:
– koristim ga više puta sedmično – kod 1,
– povremeno ga koristim ( minimalno 1 put mesečno) – kod 2,
– retko ga koristim (jednom u toku više meseci) – kod 3,
– nikada ga ne koristim – kod 4.
Otvorena pitanja – nestruktuirana pitanja
10
Šifriranje (kodiranje) podataka
• Osnovni princip (uslovi) kodiranja:
• Kategorisanje odgovora mora da ispunjava dva uslova:
uslov isključivosti i uslov potpunosti (iscrpnosti)
• Zatvorena pitanja - precoding
• Postoje šifre - kodovi pre prikupljanja podataka
• Otvorena pitanja: postcoding
• šifre se odreĎuju nakon što se upitnici dostave sa terena.
11
Pitanje:
Zašto preferirate Colgate u odnosu na Blend-a-med pastu za zube?
• Odgovori:
1. Colgate pasta za zube je kvalitetnija
2. Colgate pasta za zube ima nižu cenu
3. Colgate pasta za zube je ukusnija
4. Više volim pakovanje Colgate paste za zube
5. Zato što se Colgate pasta za zube za mene više isplati
6. Ne dopada mi se ukus paste Blend-a-med
7. Colgate pasta za zube sprečava propadanje zuba
8. Colgate pasta za zube mi daje svež dah
9. Colgate pasta za zube ima lepši izgled pakovanja
10.SviĎa mi se miris Colgate pasta za zube
11.SviĎa mi se reklama za Colgate pastu za zube
12.Bled-a-med pasta za zube ima neprijatan ukus
13.Reklama za Colgate pastu za zube je kreativna
14.Colgate pasta za zube je efikasnija u sprečavanju karijesa zuba
15.Colgate pasta za zube je zdravija
16.Ostalo
12
KODIRANJE- Postcoding
Opis kategorije Odgovori Šifra kategorije
Kvalitetnija / niţa cena / isplativija 1,2,5 1
Ukusnija / ne dopada mi se ukus Blend-a-med-a/
neprijatan ukus Blend-a-med-a/ (Ukus)
3,6,12 2
Bolje pakovanje / lepši izgled pakovanja
(Pakovanje-estetika)
4,9 3
Sprečava propadanje zuba / sprečava karijes /
zdravija (Zdravlje)
7,14,15 4
Sveţ dah / sviđa mi se miris (Dah-miris) 8,10 5
Sviđa mi se reklama / kreativnija reklama
(Reklama)
11,13 6
Ostalo 16 7
13
Unos podataka
• CATI (Computer-Assisted Telephone Interviewing) telefonskog intervjua uz pomoć računara;
• CAPI (Computer-Assisted Personal Interviewing) ličnog intervjua na bazi računara;
• Interneta (WEB aplikacije) - unos i verifikacija podataka seobezbeĎuje direktno prilikom prikupljanja podataka.
• tastature računara, koji se koriste kod jednostavnih telefonskih intervjua, intervjua kod kuće ili na ulici, ili tradicionalnih intervjua preko klasične pošte;
• forme za unos označenih odgovora (mark sense forms), koji zahtevaju da se odgovori beleže posebnom olovkom u unapred pripremljenim slogovima koji su već kodirani za odgovore, i koje mašina direktno čita;
• optičkih skenera, koji direktno čitaju odgovore i uglavnom se primenjuju kod dobro struktuiranih ispitivanja koja se često ponavljaju;
• sistema za analizu pomoću računarskih senzora (computerised sensory analysis systems), kod kojih se pitanja pojavljuju na računarskoj mrežnoj podlozi (computerised gridpad) i odgovori se direktno beleže u memoriji računara pomoću sensorskih ureĎaja.
14
Organizacija čuvanja podataka
• Tekst fajlovi
• Tabele – (Excel i sl. )
• Baze podataka
• Programi za statisticku analizu podatka
• Podaci o jednom ispitaniku – slog u datoteci
Polja
Brojevi kolona
Ispitanik 1-3 4 5-6 7-8 26........ 35 77
1 001 1 31 01 6544234553 5
2 002 1 31 01 5564435433 4
3 003 1 31 01 4655243324 4
4 004 1 31 01 5463244645 6
... ... .... ...
221 221 1 31 55 6652354435 5
15
Šifarnik
Broj
kolone
Broj
Promenljive
Ime
promenljive
Broj
pitanja
Instrukcije za
šifriranje
1-3 1 Identifikacioni broj Ispitanika 001 do 890
4 2 Broj sloga 1 (isto za sve ispitanike)
5-6 3 Šifra projekta 31 (isto za sve ispitanike)
7-8 4 Šifra intervjua Kao na upitniku
9-14 5 Šifra datuma Kao na upitniku
15-20 6 Šifra vremena Kao na upitniku
21-22 7 Šifra provere Kao na upitniku
23-24 Prazno Ostaviti ove kolone prazne
25 8 Ko kupuje I Muškarac - 1
Ţena -2
Ostalo -3
Uneti zaokruţen broj
26 9 Prirţenost prodavnici 1 IIa Za pitanja II od „a“ do „j“
Uneti zaokruţen broj
27 10 Privreţenost prodavnici 2 IIb Ne tako privrţen - 1
Vrlo privrţen - 6
Nedostajuča vrednost - 9
28 11 Privrţenost prodavnici 3 IIc
... ... ... ... ...
35 18 Privrţenost prodavnici 10 Iij
16
SPSS EDITOR PODATAKA
17
DEFINISANJE PROMENLJIVIH U SPSS-u
rečnik podataka
18
Statističko modifikovanje podataka
1. Ponderisanje podataka,
2. Respecifikacija (prekodiranje) promenljivih
3. Transformacija podataka
1. Ponderisanje podataka,
Primer:
cilj marketinškog ispitivanja je da se prouči kakve se promene
mogu uraditi na odreĎenom proizvodu da bi se pospešila prodaja:
vernim potrošačima proizvoda - ponder 3,
umerenim (srednjim) potrošačima- ponder 2,
povremenim potrošačima ponder - 1
nepotrošačima (ispitanicima koji uopšte ne koriste) – ponder 0
19
2. Respecifikacija (prekodiranje) promenljivih
Razlozi kupovine kozmetičkog proizvoda
Originalna promenljiva: Nova promenljiva:
• 1. povoljna cena
• 2. u trendu je 1. niska cena
• 3. jeftin respecifikacija 2. modni trend
• 4. lako se primenjuje 3. jednostavna primena
• 5. moderan
• 6. jednostavno se nanosi
• Pol Starost Nova promenljiva:
• “žene” “mlaĎi” “mlaĎe žene”
• “muškarci” “stariji” “starije žene”
• “mlaĎi muškarci”
• “stariji muškarci”
20
2. Respecifikacija (prekodiranje) promenljivih
veštačke promenljive (dummy variables)
Opšte pravilo za formiranje veštačke promenljive jeste: kategorijska promenljiva
ima K kategorija, koristi se K-1 veštačkih promenljivih.
Vreme
kupovine
Originalni
kodovi
Veštačke promenljive
X1 X2 X3
I kvartal 1 (A) 0 0 0
II kvartal 2 (B) 1 0 0
III kvartal 3 (C) 0 1 0
IV kvartal 4 (D) 0 0 1
21
Statističko modifikovanje podataka
3. transformacija podataka merenih na različitim mernim
skalama.
Na primer, standardizacija - neka se posmatraju dve promenljive:
obim prodaje odreĎenog proizvoda izražen u € i cena proizvoda
izražena u dinarima.
Da bi se obezbedila uporedivost njihovog varijabiliteta neophodno
je da se obe promenljive izraze zajedničkom jedinicom mere.
sXX
zx
i
i
22
STRATEGIJA ZA ANALIZU PODATAKA
Tabelarno predstavljanje podatakaJednostruko tabeliranje (one-way tabulations)
Raspored frekvencija
Promenljiva Rasprodaja
(“Često kupujem na
rasprodaji”) Frequency Percent
Valid
Percent
Cumulative
Percent
Valid apsolutno se ne
slazem 8 4,9 4,9
4,9
ne slazem se41 25,3 25,3
30,2
Neutralan68 42,0 42,0
72,2
slazem se34 21,0 21,0
93,2
apsolutno se slazem11 6,8 6,8
100,0
Total 162 100,0 100,0
23
Distribucija frekvencija
- grafički prikaz
0 10 20 30 40 50 60 70
apsolutno se
ne slazem
ne slazem se
neutralan
slazem se
apsolutno se
slazem
24
Tabelarno predstavljanje podataka
- deskriptivne statistike
Deskriptivne statistike:
1. Mere centralne tendencije (modus,
medijana, sredina);
2. Mere disperzije (standardna devijacija,
varijansa, razmak – interval varijacija);
3. Mere oblika rasporeda (koeficijent
simetričnosti i spljoštenosti)
25
Tabeliranje podataka - Unakrsno tabeliranje (cross-tabulations).
POL Total
muski zenski
Često
kupujem na
rasprodaji
apsolutno se
ne slazem se
Count
4 4 8
% within Često kupujem na
rasprodaji 50,0% 50,0% 100,0%
ne slazem se Count 30 11 41
% within Često kupujem na
rasprodaji 73,2% 26,8% 100,0%
neutralan Count 37 31 68
% within Često kupujem na
rasprodaji 54,4% 45,6% 100,0%
slazem se Count 7 27 34
% within Često kupujem na
rasprodaji 20,6% 79,4% 100,0%
apsolutno se
slazem
Count2 9 11
% within Često kupujem na
rasprodaji 18,2% 81,8% 100,0%
Total Count 80 82 162
% within Često kupujem na
rasprodaji 49,4% 50,6% 100,0%
26
Unakrsno tabeliranje (cross-tabulations, cross-tabs,
contingency table analysis )
• Unakrsno tabeliranje – analiza
povezanosti (asocijacije) izmeĎu
kategorijskih podataka.
• Unakrsno tabeliranje kao osnova za
• Hi-kvadrat i log-linearnu analizu.
27
Faktori koji utiču na izbor
statističkih tehnika
1. Tip podataka
2. Dizajn istraživanja
3. Pretpostavke primene odreĎenih
testova (modela)
28
Tipovi mernih skala
Nominalna
skala
Primarne
skale
Ordinalna
skala
Intervalna
skalaRelaciona
skala
29
Tip podataka
1. Nominalni podaci
2. Ordinalni podaci
3. Intervalni podaci
4. Relacioni podaci
30
Ilustracija primarnih mernih skala
Nominalna
skala
Ordinalna skala Intervalna skala Relaciona
skala
Broj Jeans
marka
Preferencije
Rangovi
Preferencije
1-7 11-17
Cena u $
1. Bugle Boy 7 5 15 30
2. Calvin Klein 2 7 17 48
3. Diesel 8 7 17 27
4. Gap 3 6 16 32
5. Guess 1 7 17 34
6. Jordache 5 5 15 35
7. Lee 9 4 14 30
8. Levi 6 5 15 33
9. Old Navy 4 6 16 29
10. Wrangler 10 2 12 24
31
Izbor merne skale
• Posmatrano obeležje (promenljiva) može se meriti na različitim skalama. Na primer, merenje godišnjeg porodičnog budžeta:
Nominalna skala: prošle godine ko je zaraĎivao za porodični budžet?
1. Muškarac – glava porodice;
2. Žena – glava porodice;
3. I muškarac i žena – glave porodice;
4. Neko drugi.
Ordinalna skala: prošle godine koliki je bio vaš godiš. porodič. budžet?
1. manje od 200.000
2. od 200.001 do 500.000
3. od 500.001 do 1.200.000
4. od 1.200.001 do 2.000.000
5. preko 2.000.001
32
Izbor merne skale
• Intervalna skala: Koliki je bio vaš porodični budžet prošle godine?
Značajno ispod proseka Prosek Značajno iznad proseka
1 2 3 4 5 6 7
• Relaciona skala: Prošle godine koliki je bio vaš godišnji porodični
budžet?
dinara
33
Tip Podataka
1. Nominalni kategorijski (nemetrički)
2. Ordinalni podaci
3. Intervalni
4. Relacioni metrički podaci
34
Merne skale i statističke tehnikeZašto je to važno???
Skala Deskriptivne mereDozvoljene
statistike
Nominalna Procenti, modusHi-kvadrat,
Binomni test
Ordinalna Percentili, medijana Korelacija rangova
IntervalnaAritmetička sredina,
standardna devijacija
Koeficijent korelacije,
t-test, ANOVA,
regresija, faktorska
analiza
RelacionaSve deskriptivne mere
(za prosek, varijabilitet, oblik
distribucije)
Sve statističke
tehnike
35
Dizajn istraživanja
• Ključne odrednice definisanja dizajna
istraživanja koji će se primeniti u postupku
generisanja podataka su:
1. meĎusobna ne/zavisnost opservacija,
2. broj grupa koje se posmatraju,
3. broj merenja po jednom objektu posmatranja u
istraživanju – broj promenljivih
4. mogućnost kontrole posmatranih promenljivih.
36
Dizajn istraživanja
• Ne/zavisnost opservacija• Npr. ispituje se efektivnost primene odreĎene reklame na prodaju
proizvoda, mera efektivnosti - stav potrošača prema proizvodu
• (stav se meri na intervalnoj skali)
• Dizajn- X O1
nezavisni uzorci O2
• O1 (stavovi ispitanika koji su videli reklamu)
• O2 (stavovi ispitanika koji nisu videli reklamu)
• Dizajn- zavisni uzorci (isti ispitanici: mere se stavovi ispitanika pre nego što su videli reklamu i posle)
• O1 X O2
37
Dizajn istraživanja
• Broj grupa koje se posmatraju
Npr. ispitujemo dva tipa reklama i imamo tri grupe ispitanika:
X1 O1 (stavovi ispitanika koji su videli prvu reklamu)
• X2 O2 (stavovi ispitanika koji su videli drugu reklamu)
• O3 (stavovi ispitanika koji nisu videli nijednu reklamu)
• broj promenljivih - broj posmatranih obeležja
• Npr. pored stava posmatramo i prodaju proizvoda
X O1 (mere dve promenljive: stav i prodaja za prvu grupu ispitanika)
O2 (mere dve promenljive: stav i prodaja za drugu grupu ispitanika)
38
Dizajn istraživanja
• kontrola promenljivih u izabranom
dizajnu
• X O1 (stavovi ispitanika koji su videli reklamu)
• O2 (stavovi ispitanika koji nisu videli reklamu)
• Fokus istraživanja je u analizi razlike u stavovima
ispitanika.
• Pored “dejstva” reklame, neke druge promenljive mogu
doprineti razlikama u stavovima (npr. prethodna
upotreba proizvoda). Kako kontrolisati dejstvo ove
promenljive?
39
Pretpostavke primene odreĎenih testova
(modela)
Na primer, pretpostavke primene t testa za dva
uzorka su:
1. Uzorci su nezavisni;
2. Posmatrane karakteristike u obe populacije imaju
normalan raspored;
3. Populacije imaju jednake varijanse.
40
PREGLED STATISTIČKIH TEHNIKA
TEHNIKE
ANALIZE
PODATAKA
Tehnike analize za
jednu promenljivu
(univariate techniques)
Multivarijacione
tehnike
(multivariate techniques)
41
PREGLED STATISTIČKIH TEHNIKA
Tehnike analize
jedne promenljive
Parametarske
statistike (tehnike)
Metrički podaci
Neparametarske
statistike (tehnike)
Nemetrički podaci
42
Podela parametarskih tehnika
Parametarske
statistike
Jedan uzorak
t test
z test
Dva ili više
uzoraka
Nezavisni
t test za dve grupe
z test
One-way ANOVA
Zavisni
Upareni t test
43
Podela neparametarskih tehnika
Neparametarske
statistike
Jedan uzorak
Tabela frekvencija
Hi-kvadrat
K-S test
Binomni
Test koraka
Dva ili više uzoraka
Nezavisni uzorci
Hi-kvadrat
Test sume rangova
K-S test
Medijana test
K-W ANOVA
Zavisni uzorci
Test znaka
Wilcoxon-ov test
McNemar test
Cochran Q test
44
Podela tehnika multivarijacione analize
Multivarijacione
tehnike
Tehnike
zavisnosti
Tehnike
međuzavisnosti
45
Podela tehnika multivarijacione analize
Tehnike zavisnosti
Jedna zavisna
promenljiva
ANOVA & ANCOVA
Višestruka regresija
Diskriminaciona
analiza
Conjoint analiza –
analiza združenih
efekata
Više zavisnih
promenljivih
•MANOVA &
MANCOVA
Kanonička korelacija
46
Podela tehnika multivarijacione analize
Tehnike
međuzavisnosti
Fokus na
promenljivama
•Faktorska analiza
Fokus na objektima
•Analiza skupina
(Cluster analysis)
Višedimenzionalno
skaliranje