lida lietuvos hsm duomenų archyvas - kiekybini duomen … · 2011-11-11 · projektas „lietuvos...
TRANSCRIPT
Projektas
„Lietuvos HSM duomenų archyvo LiDA plėtra“
SFMIS Nr. VP1-3.1-ŠMM-02-V-02-001
Kiekybinių duomenų internetiniuose archyvuose analizė
SEMINARO MEDŽIAGA
dr. Eglė Butkevičienė ir dokt. Aida Vaicekauskaitė
(Paslaugų sutartis Nr. SA-684/2010-3, 2010-02-08)
Kaunas, 2010
2
SANTRAUKA
Mokymo kursas „Kiekybinių duomenų internetiniuose archyvuose analizė“ supažindina su
internetiniais duomenų archyvais bei juose saugomų kiekybinių duomenų analizės principais; ugdo
gebėjimus analizuoti kiekybinių tyrimų duomenis bei atlikti jų statistinę analizę panaudojant
NESSTAR ir profesionalią statistikos programinę įrangą SPSS, suprasti ir interpretuoti statistinių
skaičiavimų rezultatus, rengti statistinių tyrimų ataskaitas.
Mokymo kurso medžiagą sudaro 4 skyriai: (1) Internetiniai HSM duomenų archyvai pasaulyje ir
Lietuvoje, (2) Kiekybinių duomenų statistinė analizė panaudojant NESSTAR, (3) Kiekybinių
duomenų statistinė analizė panaudojant SPSS ir (4) Statistinių tyrimų ataskaitų rengimo principai.
3
TURINYS
1 Internetiniai HSM duomenų archyvai pasaulyje ir Lietuvoje .............................. 4
1.1 HSM internetiniai duomenų archyvai pasaulyje ......................................................... 4
1.2 HSM internetiniai duomenų archyvai Lietuvoje: LiDA projektas .............................. 7
1.3 Internetinių duomenų archyvų prieigos charakteristikos ............................................ 9
1.4 Naudojimosi duomenų archyvais sąlygos ir etika ...................................................... 10
2 Kiekybinių duomenų statistinė analizė panaudojant NESSTAR ........................ 12
2.1 NESSTAR programinis paketas, skirtas statistinių duomenų ir metaduomenų
kaupimui, saugojimui ir analizei ......................................................................................... 12
2.2 Duomenų ir metaduomenų saugojimo formatai ir sistema NESSTAR programinėje
aplinkoje ............................................................................................................................. 13
2.3 Duomenų analizė panaudojant NESSTAR galimybės .............................................. 15
2.4 Duomenų vaizdavimas NESSTAR programinėje aplinkoje ..................................... 17
2.5 NESSTAR duomenų analizės rezultatų perkėlimas į kitus formatus ........................ 18
3 Kiekybinių duomenų statistinė analizė panaudojant SPSS ................................ 19
3.1 SPSS programinė įranga statistinių duomenų analizei ............................................. 19
3.2 Aprašomoji statistika ................................................................................................ 20
3.3 Hipotezių tikrinimas ................................................................................................. 26
3.4 Požymių priklausomumo analizė .............................................................................. 32
3.5 Ryšiai tarp kintamųjų ................................................................................................ 36
4 Statistinių tyrimų ataskaitų rengimo principai ................................................... 37
4.1 Tyrimo ataskaitos sudedamosios dalys ..................................................................... 37
4.2 Lentelių ir vaizdinės medžiagos pateikimo principai ............................................... 38
4.3 Kartografinės medžiagos pateikimas ....................................................................... 39
Literatūra ........................................................................................................................... 40
4
1. INTERNETINIAI HSM DUOMENŲ ARCHYVAI PASAULYJE IR LIETUVOJE
1.1. HSM internetiniai duomenų archyvai pasaulyje
Roper viešosios nuomonės tyrimo centras (angl. The Roper Center for Public Opinion
Research) – tai pirmasis socialinių mokslų duomenų archyvas1. Elmo Roper įkūrė šį Centrą po II-
ojo pasaulinio karo, 1946 – 1947 m. Jis ir George Gallup atliko pagrindinius vaidmenis kuriant
socialinių mokslų duomenų archyvą. Elmo Roper įkalbėjo George Gallup bei Archibald Crossley
pateikti savo vykdomų apklausų duomenis į visiems prieinamą archyvą2. Šiuo metu centre sukaupta
kelių tūkstančių apklausų duomenys iš apie 70-ties pasaulio šalių. Dabar šis Centras yra
Konektikuto universiteto dalis, vienas didžiausių visuomenės nuomonės tyrimų duomenų archyvas.
Prieiga - http://www.ropercenter.uconn.edu/ (1.1.1 pav.).
1.1.1 pav. Roper viešosios nuomonės tyrimo centro tinklalapis
1 Šaltinis: http://www.ropercenter.uconn.edu/center/roper_history.html
2 Šaltinis: http://www.ropercenter.uconn.edu/center/elmo_bio.html
5
Vėliau kūrėsi ir kiti Šiaurės Amerikos šalių socialinių duomenų archyvai. Šiuo metu
didžiausias pasaulyje duomenų archyvas, kuriame talpinami tyrimų duomenų rinkiniai, skirti
socialinių mokslų studentams, mokslininkams ir tyrėjams, yra Tarpuniversitetinis politikos ir
socialinių tyrimų konsorciumas (angl. The Inter-university Consortium for Political and Social
Research ICPSR)3. Šis archyvas buvo įsteigtas 1962 m. Šiuo metu jame yra apie 500,000 failų iš
700 akademinių institucijų.
Prieiga - http://www.icpsr.umich.edu/icpsrweb/ICPSR/index.jsp (žr. 1.1.2 pav.).
1.1.2 pav. Tarpuniversitetinio politikos ir socialinių tyrimų konsorciumo tinklalapis
Pirmasis empirinių duomenų archyvas Europoje įkurtas 1960 m. Vokietijoje. Zentralarchiv
für Empirische Sozialforschung (Kelne) buvo sukurtas kaip universiteto institutas. Šiuo metu
didžiausia Vokietijoje infrastruktūrų institucija yra Vokietijos socialinių mokslų infrastruktūros
tarnyba GESIS (angl. German Social Science Infrastructure Service). GESIS yra sudarytas iš 5
padalinių, kurių vienas – socialinių mokslų duomenų archyvas4. 1967 m. įkurtas duomenų archyvas
Jungtinėje Karalystėje, 1971 m. – Norvegijoje. Europoje šiuo metu priskaičiuojama virš 20
nacionalinių socialinių duomenų archyvų5.
3 Šaltinis: http://www.icpsr.umich.edu/icpsrweb/ICPSR/org/index.jsp
4 Šaltinis: http://www.gesis.org/en/institute/
5 Šaltinis: http://www.lidata.eu/page.php?page=pletra_bendradarbiavimas#Socialini%C5%B3moksl%C5%B3duomen%C5%B3archyvaiEuropojeirpasaulyje
6
Siekiant sudaryti palankesnes sąlygas lyginamiesiems tyrimams, kūrėsi tarptautiniai duomenų
archyvų tinklai, asociacijos, kurių tikslas – pagerinti ir palengvinti duomenų prieinamumą mokslo
analizės tikslams, skatinti procedūras ir standartus duomenų ir technologijų mainams tarp duomenų
archyvų, propaguoti standartų ir procedūrų laikymąsi visame pasaulyje, padėti kurti naujas
duomenų organizacijas ir jas raginti prisidėti prie keitimosi duomenimis kultūros formavimo
institucijose nacionaliniu ir globaliniu lygmenimis.
Europos šalių socialinių duomenų archyvus vienija Europos Socialinių mokslų archyvų taryba
CESSDA (angl. Council of European Social Science Data Archives). CESSDA - tai 1976 m. įkurta
skėtinė organizacija, kurios tikslas yra keistis darbo su archyvais patirtimi, keistis ekspertais,
organizuoti seminarus. Organizacija priėma svarbius nutarimus dėl duomenų perdavimo iš vienos
šalies į kitą. Iš CESSDA portalo yra patogu patekti į daugelio šalių archyvus (žr. 1.1.3 pav.).
Prieiga - http://www.cessda.org/.
CESSDA uždaviniai:
• kurti lengvą ir greitą prieigą prie Europos socialinių duomenų mokslinei analizei;
• propaguoti projektus ir procedūras, kurios padidintų keitimosi duomenimis ir
technologijomis procesus;
• skatinti naudoti vieningas procedūras;
• raginti naujas duomenų organizacijas prisidėti prie šių tikslų.
1.1.3 pav. CESSDA archyvai nariai6
6 Šaltinis: http://www.lidata.eu/page.php?page=pletra_bendradarbiavimas
7
1.2. HSM internetiniai duomenų archyvai Lietuvoje: LiDA projektas
Lietuvos HSM duomenų archyvas LiDA yra nacionalinė mokslinių tyrimų infrastruktūra,
atverianti tyrėjams prieigą prie empirinių duomenų. Lietuvos HSM duomenų archyvo LiDA
kūrimas pradėtas 2006 m. liepos mėn. pradėjus įgyvendinti ES Europos socialinio fondo
finansuojamą projektą „Empirinių duomenų ir informacijos HSM tyrimams kaupimas ir valdymas:
Lietuvos HSM duomenų archyvas (LiDA)"BPD2004-ESF-2.5.0-03-392/BPD -262/F450 BPD-262
pagal Lietuvos 2004–2006 metų bendrojo programavimo dokumento 2 prioriteto „Žmogiškųjų
išteklių plėtra" 2.5 priemonę „Žmogiškųjų išteklių kokybės gerinimas mokslinių tyrimų ir inovacijų
srityje"7. Šis projektas sėkmingai baigtas 2008 m. liepos mėn. Nuo 2009 m. vykdomas projektas
„HSM duomenų archyvo LIDA plėtra“.
LiDA tikslas - tobulinti HSM studentų, mokslininkų ir kitų tyrėjų duomenų analizės
kompetenciją bei didinti Lietuvos mokslininkų ir kitų tyrėjų galimybes atlikti kokybiškus tyrimus,
pagerinant ir išplečiant prieigos prie pirminių HSM tyrimų šaltinių infrastruktūrą bei sukuriant
pirminius tarptautinio lygmens HSM duomenų šaltinius8.
LiDA uždaviniai9:
• Optimizuoti esamas kiekybinių HSM duomenų įgijimo, archyvavimo, dokumentavimo ir
vartotojų prieigos prie LiDA archyve saugomų duomenų sistemas.
• Pildyti LiDA archyvą naujais kiekybinių HSM tyrimų (apklausų) duomenimis.
• Pradėti kurti kokybinių HSM tyrimų, istorinių ir Lietuvos politinės sistemos duomenų
įgijimo, archyvavimo, dokumentavimo bei sklaidos sistemas.
• Rengti ir publikuoti mokslinius leidinius apie pažangius HSM tyrimų duomenų analizės
metodus.
• Vykdyti ir dokumentuoti pažangius tarptautinius empirinius tyrimų projektus Lietuvoje.
LiDA archyve sukaupta nemažai kiekybinių tyrimų duomenų rinkinių: 108 duomenų
rinkiniai lietuvių kalba ir 32 rinkiniai anglų kalba. Duomenų rinkiniai lietuvių kalba gauti iš
visuomenės nuomonės ir rinkos tyrimų centro UAB „Vilmorus“ bei rinkos analizės ir tyrimų grupės
UAB „RAIT“.
Duomenų rinkiniai lietuvių kalba yra sugrupuoti į 10 teminių rinkinių. Teminiai rinkiniai
lietuvių kalba10:
7 Šaltinis: http://www.lidata.eu/page.php?page=apie_archyvas
8 Šaltinis: http://www.lidata.eu/page.php?page=apie_archyvas
9 Šaltinis: http://www.lidata.eu/page.php?page=apie_archyvas
8
• ES: Požiūris į ES. Teminiam rinkiniui priklauso 2 duomenų rinkiniai. Tai tyrimai, kurių
tikslas yra tirti Lietuvos gyventojų požiūrį į Europos Sąjungą.
• ESP: ES parama. Teminiam rinkiniui priklauso 2 duomenų rinkiniai. Tai tyrimai, kurių
tikslas yra tirti Lietuvos gyventojų nuomonę apie Europos Sąjungos paramos panaudojimą
Lietuvoje.
• KALB: Kalba darbe. Teminiam rinkiniui priklauso 2 duomenų rinkiniai. Tai tyrimai, kurių
tikslas yra tirti pagrindines kalbų vartojimo Lietuvos verslo aplinkoje tendencijas,
išsiaiškinti verslo vadovų ir darbuotojų kalbines nuostatas darbo santykių srityje.
• PB: Politinis barometras. Teminiam rinkiniui priklauso 35 duomenų rinkiniai. Tai tyrimai,
kurių tikslas yra tirti Lietuvos visuomenės nuomonę aktualiausias politiniais klausimais.
• SLT: Skaitmeninė Lietuva. Teminiam rinkiniui priklauso 3 duomenų rinkiniai. Tai tyrimai,
kurių tikslas yra tirti gyventojų požiūrį į informacinės visuomenės kūrimą Lietuvoje,
nustatyti gyventojų naudojimosi informacinėmis ir komunikacinėmis technologijomis
mastą.
• SEB: Socialinis ekonominis barometras. Teminiam rinkiniui priklauso 40 duomenų rinkinių.
Tai tyrimai, kurių tikslas yra tirti Lietuvos visuomenės nuomonę aktualiausiais socialiniais
ekonominiais klausimais.
• VAIK: Požiūris į vaikus. Teminiam rinkiniui priklauso 2 duomenų rinkiniai. Tai tyrimai,
kurių tikslas yra tirti Lietuvos visuomenės nuomonę apie vaikų auklėjimo stilius, vaikų
įgūdžių lavinimo ypatumus.
• VTT: Valstybės tarnybos tyrimai. Teminiam rinkiniui priklauso 2 duomenų rinkiniai. Tai
tyrimai, kurių tikslas yra tirti Lietuvos valstybės tarnybos įvaizdį visuomenėje, įvertinti
valstybės ir savivaldybių institucijų veiklą, paslaugų teikimą, aptarnavimą, socialinę naudą.
• ZTLT: Žmogaus teisės Lietuvoje. Teminiam rinkiniui priklauso 9 duomenų rinkiniai. Tai
tyrimai, kurių tikslas yra tirti Lietuvos gyventojų požiūrį į žmogaus teisių apsaugos sistemos
būklę Lietuvoje, nustatyti, kaip žmonės gina savo pažeistas teises ir kaip vertina institucijų,
ginančių žmogaus teises Lietuvoje, efektyvumą.
• KITI: Neklasifikuoti tyrimai. Teminiam rinkiniui priklauso 11 duomenų rinkinių. Šiame
teminiame rinkinyje kaupiami vienkartiniai tyrimai.
Tarptautinių tyrimų teminiai rinkiniai anglų kalba:
• CCEB: Candidate Countries Eurobarometer
• CEEB: Central and Eastern Eurobarometer
• EB: Standard Eurobarometer
10 Lietuvos HSM duomenų archyvo naujienlaiškis, 2009, Nr.1.
9
• EES: European Election Studies
• EVS: European Values Study
• NBB: New Baltic Barometer
• SEE: Studies from Eastern Europe
Prieiga - www.lidata.eu (1.2.1 pav.).
1.2.1 pav. Lietuvos HSM duomenų archyvo LiDA tinklalapis 1.3. Internetinių duomenų archyvų prieigos charakteristikos
Paprastai naudotis duomenimis ir jų dokumentacija archyvai leidžia išimtinai tik pagal jų
naudojimo taisykles. Dažnai archyvai siekia užtikrinti aiškią tyrimo duomenų naudojimo lygių
diferencijavimo sistemą. Leidimas naudotis duomenimis ir dokumentais yra suteikiamas atitinkamai
nustatytiems duomenų prieinamumo lygiams11:
• 0 lygis - duomenimis ir dokumentais leidžiama naudotis visiems.
• A lygis - duomenimis ir dokumentais leidžiama naudotis mokslo ir mokymo tikslais.
• B lygis - duomenimis ir dokumentais leidžiama naudotis mokslo ir mokymo tikslais, jeigu
rezultatai nebus publikuojami. Jeigu planuojamos publikacijos ar bet koks tolesnis darbas su
gautais rezultatais, būtina kreiptis į Archyvą dėl leidimo.
• C lygis - duomenimis ir dokumentais leidžiama naudotis tik mokslo ir mokymo tikslais,
gavus raštišką duomenų savininko (depozitoriaus) leidimą. Šiuo tikslu Archyvas gauna
raštišką leidimą, kuriame nurodomas vartotojas ir duomenų analizės tikslai.
11 Šaltinis: http://www.lidata.eu/page.php?page=duomenys_taisykles_naudojimas
10
Tarpuniversitetinis politikos ir socialinių tyrimų konsorciumas taip pat turi savitas
prieigos charakteristikas. Lietuvos nacionalinė narystė ICPSR (žr. 1.3.1 pav.) suteikia teisę nemokai
parsisiųsti duomenų rinkinius ar atlikti kai kurių duomenų analizę online.
1.3.1 pav.Lietuvos nacionalinė narystė ICPSR
1.4. Naudojimosi duomenų archyvais sąlygos ir etika
Lietuvos HSM duomenų archyvo LiDA teikia atvirą prieigą prie empirinių duomenų, tačiau
duomenys yra prieinami tik registruotiems vartotojams. Užsiregistravus atsiunčiamas vartotojo
vardas ir slaptažodis, kuriuo galima prisijungti prie archyvo duomenų (žr. 1.4.1 pav.).
1.4.1 pav. LiDA registracijos anketa
11
Tarpuniversitetinio politikos ir socialinių tyrimų konsorciumo archyvo duomenys
prieinami tik registruotiems vartotojams. Registracija galima tik ICPSR instituciniams nariams (iš
visų institucijos kompiuterių tinklo darbo vietų).
Užsiregistravus bei patvirtinus registraciją, kiekvienas vartotojas gali parsisiųsti ICPSR
duomenų rinkinius 6 mėnesius iš eilės iš bet kurios kompiuterinės darbo vietos. Po 6 mėn. galima
vėl atnaujinti registraciją.
Neregistruotiems nariams galima:
• Peržiūrėti tyrimo anotaciją (aprašą);
• Peržiūrėti ir parsiųsti dokumentaciją (metaduomenis).
Registracija ICPSR vykdoma: https://www.icpsr.umich.edu/cgi-bin/newacct Praktinė užduotis: Užsiregistruoti ICPSR archyvo vartotoju (žr. 1.4.2 pav.).
1.4.2 pav. ICPSR registracijos anketa
12
2. KIEKYBINIŲ DUOMENŲ STATISTINĖ ANALIZĖ PANAUDOJANT NESSTAR
2.1. NESSTAR programinis paketas, skirtas statistinių duomenų ir metaduomenų kaupimui,
saugojimui ir analizei
Duomenų kaupimo ir saugojimo sistema NESSTAR yra sudaryta iš 3 paketų: NESSTAR
Publisher, NESSTAR Server ir NESSTAR Web12. Nesstar prieiga - http://www.nesstar.com/ (žr.
2.1.1. pav).
Nesstar Publisher programinė įranga užtikrina HSM duomenų tvarkymo funkcijas: duomenų
konvertavimą ir redagavimą, publikavimą Nesstar Server-yje.
Nesstar Server programinė įranga užtikrina HSM duomenų talpinimo funkcijas. Ši
programinė įranga užtikrina informacijos pateikimą vertotojams.
Nesstar WebView programinė įranga užtikrina HSM duomenų, patalpintų Nesstar Server-yje,
sklaidą interneto tinkle.
2.1.1 pav. NESSTAR tinklalapis
Nesstar WebView leidžia:
• Peržiūrėti tyrimą ir duomenis
12 Šaltinis: http://www.nesstar.com/
13
• Susipažinti su metaduomenimis
• Atlikti požymių priklausomumo analizę
• Atlikti kintamųjų koreliaciją
• Atlikti grafinį duomenų atvaizdavimą
• Sukurti naujus kintamuosius
• Perkoduoti esamus kintamuosius
• Atsisiųsti duomemis įvairiais formatais (MsExel, SPSS).
LiDA duomenų kaupimui ir saugojimui naudojama Nesstar programinė įranga (žr. 2.1.2
pav.).
2.1.2 pav. LiDA tinklalapis
2.2. Duomenų ir metaduomenų saugojimo formatai ir sistema NESSTAR programinėje
aplinkoje
Duomenys gali būti kaupiami ir saugojami įvairiais formatais: DDI document (*.xml), SPSS
System (*.sav), SPSS Portable (*.por), SPSS Syntax (*.sps), SAS (*.spl), Stata (*.dta), Statistica
(*.sta), NSDsat (*.nsf), dBase (*.dbf), DIF (*.dif), Text (*.txt) ir kitais.
14
Metaduomenys – tai struktūriškai apibrėžta informacija, kuri apibūdina tam tikrą dokumentą
arba informacinį išteklių, nurodo jo buvimo vietą. Tai palengvina dokumento ar kito informacinio
ištekliaus suradimą, naudojmą ir valdymą. Kitaip sakant, tai duomenys apie HSM dokumentus.
Metaduomenys Nesstar programinėje aplinkoje yra rengiami naudojant DDI formatą. DDI
(angl. Data Documentation Initiative) yra XML metaduomenų standartas, skirtas socialinių mokslų
duomenims aprašyti13 (žr. 2.2.1 pav.). Tokiu būdu metaduomenys yra rengiami unifikuotoje ir
struktūrizuotoje formoje.
Šis standartas užtikrina efektyvią duomenų paiešką, metaduomenų kokybę ir panaudojamumą.
DDI formato sekcijos:
• Dokumento apibūdinimas (Document description);
• Tyrimo apibūdinimas (Study description);
• Duomenų failų apibūdinimas (Data files description);
• Kintamųjų apibūdinimas (Variables description);
• Kita informacija (Other study-related materials).
2.2.1 pav. DDI aprašo pavyzdys
13 Šaltinis: http://www.icpsr.umich.edu/DDI
15
2.3. Duomenų analizė panaudojant NESSTAR galimybės
Duomenų analizei galima naudoti Nesstar programinę įrangą. Nesstar WebView įgalina
duomenų paiešką ir peržiūrą, leidžia atlikti požymių priklausomumo analizę, kintamųjų koreliaciją,
regresiją, sukurti naujus kintamuosius, perkoduoti esamus kintamuosius.
Nesstar WebView veikia interneto naršyklės aplinkoje, todėl vartotojui jokios papildomos
programinės įrangos į savo kompiuterį diegti nereikia. Kairiojoje internetinio puslapio pusėje
išdėstytas duomenų rinkinių medis (žr. 2.3.1 pav.). Taip pat galima pasinaudoti paieškos funkcija.
2.3.1 pav. Duomenų rinkinių medis
Katalogai paskleidžiami paspaudus (žr. 2.3.2 pav.). Norėdami gauti šsamesnę informaciją
apie duomenų rinkinį, turime spausti . Toliau kataloge galima atverti metaduomenis, tyrimo
aprašymą, duomenų failų apibūdinimą bei kintamųjų apibūdinimą.
2.3.2 pav. Duomenų išdėstymo pavyzdys
16
Paspaudus ant kintamojo, gaunamas jo aprašymas ir tam tikri statistiniai duomenys (žr. 2.3.3
pav.). Šie duomenys pateikiami Nesstar WebView kortelėje DESCRIPTION.
2.3.3 pav. Kintamojo aprašymo pavyzdys
Lentelės formos duomenų analizė atliekama paspaudus kortelę TABULATION ir nurodžius,
kurie kintamieji pasirenkami analizei (žr. 2.3.4 pav.). Kintamieji iš kintamųjų medžio pasirenkami
atsidariusiame meniu paspaudžiant vieną iš komandų – „add to row“ (kintamasis bus pateikiamas
eilutėje) ar „add to column“ (kintamasis bus pattteikiammmas stulpelyje). Pavyzdyje į analizės
lentelę įtraukti du kintamieji – B1 (Domėjimasis politika) ir F2 (Lytis).
2.3.4 pav. Lentelės formos duomenų analizės pavyzdys
17
Kintamųjų koreliacijos arba regresijos analizė galima naudojant kortelę ANALYSIS ir
nurodžius, kurie kintamieji pasirenkami analizei (žr. 2.3.5 pav.). Kintamieji iš kintamųjų medžio
pasirenkami atsidariusiame meniu paspaudžiant komandą „add to correlation“ (kintamasis bus
įtrauktas į koreliaciją). Pavyzdyje į koreliacinę analizę įtraukti du kintamieji – B4 (Pasitikėjimas
Seimu) ir B8 (Pasitikėjimas politinėmis partijomis).
2.3.5 pav. Koreliacinės analizės pavyzdys
2.4. Duomenų vaizdavimas NESSTAR programinėje aplinkoje
Nesstar programinė įranga taip pat gali būti naudojama duomenų vizualizacijai. Grafinis
duomenų atvaizdavimas atliekamas paspaudžiant . Galima pasirinkti įvairias grafinio
vaizdavimo formas (žr. 2.4.1 pav. ir 2.4.2 pav.).
2.4.1 pav. Grafinio vaizdavimo pavyzdys Nr.1
18
2.4.2 pav. Grafinio vaizdavimo pavyzdys Nr.2
2.5. NESSTAR duomenų analizės rezultatų perkėlimas į kitus formatus
Nesstar programinė įranga taip pat gali būti naudojama atsisiųsti duomemis įvairiais formatais
(Statistica, SPSS, Stata ir kitais) (žr. 2.5.1 pav.). Paspaudus , atsidaro langas, kuriame reikia
nurodyti, kas ir kokiu formatu bus saugoma.
2.5.1 pav. Duomenų analizės rezultatų perkėlimo į kitus formatus pavyzdys
19
3. DUOMENŲ STATISTINĖ ANALIZĖ PANAUDOJANT SPSS
3.1. SPSS programinė įranga statistinių duomenų analizei
SPSS (angl. Statistical Package for the Social Sciences) – specializuota statistinė
programinė įranga, leidžianti vartotojams atlikti visą duomenų analizės procesą:
• įkelti duomenis iš įvairių šaltinių;
• paruošti duomenis (pvz. atlikti transformacijas, sukurti naujus kintamuosius, užkoduoti
kategorijas ir praleistas reikšmes, apjungti duomenis ir t.t.);
• išanalizuoti duomenis statistiniais metodais ir gauti reikšmingus rezultatus;
• pateikti gautus rezultatus grafikais bei analitinėmis lentelėmis;
• eksportuoti rezultatus įvairiais formatais.
Nuo 2009 m. balandžio įsigaliojo nauji SPSS produktų pavadinimai su prierašu PASW (Predictive
Analytics Software - prognozinės analitikos programinė įranga). Lietuvoje šia programine įranga
naudojasi daugiau nei 200 įmonių bei organizacijų.14
SPSS duomenų redaktorius užtikrina du duomenų rinkmenų pateikimo vaizdus:
• Duomenų peržiūra (Data View). Pateikia duomenų reikšmes arba duomenų apibūdinimo
žymes (žr. 3.1.1 pav.).
• Kintamųjų peržiūra (Variable View). Pateikia kintamuosius apibūdinančią informaciją (žr.
3.1.2 pav.):
o Name – kintamojo vardas
o Type – tipas (pvz. skaitmeninis, tekstinis, data, valiuta ir t.t. )
o Width – duomenų ląstelės plotis – ženklų skaičius
o Decimals – skaičius po kablelio, kuris bus rodomas duomenų ląstelėje
o Label – kintamojo žymės
o Values – kintamojo reikšmių paaiškinimai
o Missing – trūkstamų reikšmių kodai
o Column – stulpelių plotis
o Align – išlygiavimas (dešinėje, kairėje, centruotai)
o Measure – skalė (nominalinė, tvarkos, intervalų-santykių).
14 Šaltinis: http://www.insol.lt/homepage
20
3.1.1 pav. SPSS duomenų įvesties langas
3.1.2 pav. SPSS kintamųjų parametrai
3.2. Aprašomoji statistika
Aprašomoji statistika – tai duomenų sisteminimo ir grafinio vaizdavimo metodai. Vienas iš
didžiausių aprašomosios statistikos privalumų yra tai, kad leidžia koncentruotai užrašyti
informaciją, esančią dideliuose duomenų masyvuose. Aprašomojoje statistikoje stebėtos reikšmės
pateikiamos lentelėmis, dažnių skirstiniais, grafikais (Čekanavičius ir Murauskas, 2000).
Yra skiriamos duomenų padėties ir sklaidos charakteristikos, charakteristikos imties simetriškumui
įvertinti (asimetrijos ir eksceso koeficientai) ir kt. (žr. 3.2.1 pav.).
21
3.2.1 pav. Skaitinės charakteristikos (Janilionis, 1999-2001)
Pagrindinės duomenų padėties charakteristikos yra – vidurkis, moda ir mediana, kurios
apibūdina duomenų „centrą“, bei kvantiliai. Visos charakteristikos, išskyrus modą, gali būti
skaičiuojamos tik kiekybiniams duomenims (Čekanavičius ir Murauskas, 2000).
Vidurkis (mean) – visų duomenų aibės elementų vidutinė reikšmė. Vidurkis yra labai jautrus
smarkiai besiskiriančioms reikšmėms (Augutis ir Krikštolaitis, 2006). Dažniausiai naudojamas
aritmetinis vidurkis – t.y. reikšmių suma, padalinta iš reikšmių skaičiaus.
Moda (mode) – dažniausiai duomenų aibėje pasikartojanti reikšmė. Galime skaičiuoti tiek
kiekybinių, tiek kokybinių duomenų modą (Čekanavičius ir Murauskas, 2000).
Mediana (median) – tai reikšmė, žemiau kurios yra pusė visų reikšmių ir virš kurios yra kita
pusė reikšmių, jei visos jos išrikiuotos didėjimo tvarka (skaičiuojama tik ranginio ir kiekybinio
lygmens kintamiesiems). Kuomet turime lyginį reikšmių skaičių, mediana – yra vidurinių skaičių
vidurkis, jeigu nelyginį – vidurinis skaičius.
Kvantiliai – charakteristika, dalijanti variacinę eilutę į q x 100 ir (1-q) x 100 procentinių dalių;
q įgyja reikšmes iš intervalo (0;1). Pavyzdžiui, 0,5 kvantilis yra mediana (Augutis ir Krikštolaitis,
2006) .
Pagrindinės sklaidos charakteristikos yra duomenų aibės plotis, standartinis nuokrypis,
dispersija, kvartilių skirtumas ir kitimo koeficientas.
Imties aibės plotis (range) – didžiausios ir mažiausios reikšmių skirtumas. Labai jautrus
išskirtims.
Imties dispersija (variance) parodo duomenų sklaidą apie vidurkį. Dispersija plačiai
naudojama siekiant palyginti kelių duomenų aibių sklaidas. Dažniausiai naudojamas sklaidos matas
yra – standartinis nuokrypis (standard deviation), kuris gaunamas ištraukus kvadratinę šaknį iš
22
dispersijos. Standartinis nuokrypis yra pranašesnis, nes matuojamas tais pačiais vienetais kaip ir
patys duomenys (Čekanavičius ir Murauskas, 2000).
Kvartiliais (quartile) vadinami trys taškai, dalijantys kintamojo reikšmių aibę į keturias
grupes, kurių kiekvienoje yra maždaug po 25% imties reikšmių. Kvartiliai nepriklauso nuo imties
variacinės eilutės kraštinių reikšmių, taigi jie nejautrūs išskirtims. Kvartilinis plotis (Quartile
range) viršutinio ir apatinio kvartilio skirtumas vartojamas imties sklaidai įvertinti. Nejautrus
išskirtims (Augutis ir Krikštolaitis, 2006). Kvartilinis plotis apibūdina vidurinių 50% sluoksnio
duomenų reikšmių sklaidą.
Asimetrijos koeficientas (skewness) parodo empirinio skirstinio asimetriškumą. As > 0 –
dešiniosios asimetrijos atvejis, jei As < 0 – kairiosios, jeigu As = 0 – skirstinys yra simetriškas
vidurkio atžvilgiu.
Eksceso koeficientas (kurtosis) apibūdina empirinio skirstinio smailumą (Ek>0) ir lėkštumą
(Ek <0).
Norint apskaičiuoti duomenų aprašomąsias statistikas SPSS meniu juostoje pasirenkame
Analyze → Descriptive Statistics → Frequencies. Atsidariusiame lange Statistic pažymime
norimas apskaičiuoti skaitines charakteristikas. SPSS programoje norint nubraižyti stačiakampę
diagramą pasirenkame meniu juostoje Graphs → Legacy Dialogs → Boxplot. Stačiakampės
diagramos leidžia palyginti keleto kintamųjų, matuojamų tais pačiais vienetais (Summaries of
separate variables), ar to paties kintamojo kelių imčių duomenis (Summaries for groups of cases).
Gautos kintamojo SPSS aprašomosios statistikos ir stačiakampės diagramos pavyzdys pateiktas
3.2.2 paveiksle.
3.2.2 pav. SPSS aprašomoji statistika ir stačiakampė diagrama (Augutis ir Krikštolaitis, 2006)
Norint apskaičiuoti dažnius ir nubraižyti dažnių pasiskirstymo diagramą SPSS meniu juostoje
pasirenkame Analyze → Descriptive Statistics → Frequencies. Pažymime varnele Display
23
frequency tables, laukelyje Charts pasirenkame dažnių grafinio atvaizdavimo būdą: histogramą
(Histograms), stulpelinę diagramą (Bar), skritulinę diagramą (Pie) (žr. 3.2.3 pav.).
3.2.3 pav. SPSS dažnių skaičiavimas
Rezultatai peteikti 3.2.1 lentelėje ir 3.2.4 paveiksle.
3.2.1 lentelė
SPSS dažnių lentelė B3|Gebejimas susidaryti nuomone politiniais klausimais
160 8,0 8,5 8,5531 26,5 28,3 36,9933 46,6 49,8 86,6222 11,1 11,8 98,5
29 1,4 1,5 100,01875 93,7 100,0
127 6,32002 100,0
Labai sunkuSunkuNei sunku, nei lengvaLengvaLabai lengvaTotal
Valid
NežinoMissingTotal
Frequency Percent Valid PercentCumulative
Percent
24
3.2.4 pav. SPSS dažnių diagrama
Pasikliautinieji intervalai. Skirtumas tarp tikrųjų populiacijos ir turimų imties atitikmenų
rodo įvertinimo tikslumą. Statistinio įvertinimo tikslumą ir patikimumą nustato vadinamieji
pasikliautinieji intervalai (confidence intervals). Tradiciniai pasikliovimo lygmenys Q = 0,9; 0,95;
0,99 (žr. 3.2.5 pav.).
3.2.5 pav. Pasikliautinieji intervalai su skirtingais pasikliovimo lygmenimis (Augutis ir
Krikštolaitis, 2006)
SPSS paketu galima paskaičiuoti vidurkio pasikliautinąjį intervalą meniu pasirinkus
Analyze → Descriptive Statistics → Explore ir nubraižyti jo grafiką Graphs → Legacy Dialogs →
Error Bar. Norint atlikti kintamųjų analizę pagal atskiras stebėjimų grupes, į sąrašą Factor List
reikia įkelti vieną ar kelis kategorinius kintamuosius, pagal kuriuos bus nustatytos stebėjimų grupės.
Atitinkamai braižant vidurkio pasikliautinojo intervalo grafiką atskiroms grupėms pažymime
Summaries for group of cases (žr. 3.2.6-3.2.7 pav.).
25
3.2.6 pav. Vidurkio pasikliautinojo intervalo skaičiavimas SPSS
3.2.7 pav. Vidurkio pasikliautinojo intervalo grafiko braižymas SPSS
26
3.2.8 pav. SPSS vidurkio pasikliautinojo intervalo skaičiavimo rezultatai
Apskaičiuojame populiacijos darbo valandų skaičiaus per savaitę įskaitant viršvalandžius
vidurkio pasikliautinąjį intervalą: PI0,95(µ)=(40,34; 41,29).
Išvada: Su 95 % garantija (pasikliovimu) galime teigti, jog populiacijoje vidutinis darbo
valandų skaičius per savaitę įskaitant viršvalandžius yra intervale nuo 40,34 iki 41,29 val. (žr. 3.2.8
pav.).
3.3. Hipotezių tikrinimas
Hipoteze statistikoje vadinamas bet koks teiginys apie populiacijos parametro(ų) reikšmę(es).
Statistinę parametrinę hipotezę sudaro du alternatyvūs teiginiai apie galimas parametro reikšmes.
Nulinė hipotezė (Ho) – tikrinamoji hipotezė. Paprastai Ho formuluojama, kad skirtumo nėra.
Dažniausiai, tai teiginys, kad populiacijos parametras yra lygus konkrečiai reikšmei arba skirstiniai
sutampa. Alternatyvioji hipotezė (Ha) – priešinga nulinei hipotezei.
Hipotezės skirstomos į parametrines ir neparametrines (žr. 3.3.1 pav.). Jeigu statistinė
hipotezė tikrinama nežinomų pasiskirstymo dėsnio parametrų atžvilgiu – ji vadinama parametrine
(Janilionis, 1999-2001). Kuomet populiacijos parametras lyginamas su kokiu nors skaičiumi, arba
tarpusavyje lyginami kelių populiacijų analogiški parametrai (Čekanavičius ir Murauskas, 2000).
Alternatyvos skirstomos į vienpuses µ < µo ir µ > µo ir dvipuses µ ≠ µo.
27
3.3.1 pav. Hipotezių skirstymas (Janilionis, 1999-2001)
3.3.1 lentelė
Hipotezių tikrinimo klaidos
Taisyklė, pagal kurią iš imties rezultatų darome išvadą apie hipotezės teisingumą ar
klaidingumą, vadinama – statistiniu kriterijumi. (Čekanavičius ir Murauskas, 2000). Kriterijaus
reikšmingumo lygmenį galima suprasti kaip klaidos atmetus hipotezę Ho, nors iš tikrųjų ji teisinga,
tikimybę. Ši tikimybė vadinama pirmosios rūšies klaida. Tikrinant hipotezę Ho galima taip pat
priimti hipotezę, nors ji iš tikrųjų yra klaidinga – antrosios rūšies klaida (Pukėnas, 2009) (žr. 3.3.1
lentelę).
3.3.2 pav. Hipotezių sprendimo priėmimo taisyklė
28
Statistinės išvados daromos su tam tikra tikimybe (pasikliovimu), priklausomai nuo pasirinkto
reikšmingumo lygmens α (žr. 3.3.2 pav.). Išvadų formuluotės kuomet atmetame/neatmetame Ho
yra pateiktos 3.3.3 paveiksle.
3.3.3 pav. Išvadų formulavimas
Vienas iš dažniausiai taikomų statistinės analizės metodų yra hipotezių apie populiacijos
vidurkių lygybę tikrinimas. SPSS meniu Analyze → Compare Means (vidurkių palyginimas)
pateikiami vidurkių palyginimo metodai, kurie yra taikomi kuomet kintamieji turi normalųjį
skirstinį. Be nurodytų t-testų yra pateikiama komanda vidurkiai (Means), kurią pasirinkus galime
apskaičiuoti pasirinktų kintamųjų vidurkius ir kitas skaitines charakteristikas atskirai pagal tam
tikras kategorinio kintamojo kategorijas (Pukėnas, 2005). Plačiau apie t-testus žr. 3.3.4 pav.
3.3.4 pav. Hipotezių tikrinimas SPSS
29
Neparametriniai kriterijai taikomi tais atvejais, kai duomenys nėra pasiskirstę pagal
normalųjį dėsnį arba priklauso rangų, o ne intervalų skalei. Neparametrinių hipotezių atveju
dažniausiai lyginami skirstiniai. SPSS paketas pateikia nemažai neparametrinių testų (žr. 3.3.4
pav.). Populiariausi yra dviejų ir daugiau priklausomų/nepriklausomų imčių palyginimo kriterijai
bei Chi-kvadrato (X²) kriterijus ir Kolmogorovo-Smirnovo testas (Pukėnas, 2005).
Parametrinių hipotezių tikrinimo pavyzdžiai
1 pavyzdys. Norime patikrinti hipotezę „Populiacijos vidutinis darbo valandų skaičius per savaitę
be viršvalandžių yra 39,5 val.“ Tarkime, kad kintamojo skirstinys yra normalusis. Reikšmingumo
lygmuo α = 0,05.
Formuluojame statistinę hipotezę:
Ho: µ = 39,5
Ha: µ ≠ 39,5
SPSS meniu juostoje pasirenkame Analyze → Compare Means → One–Sample T Test...
pažymime kintamąjį F20 ir perkeliame į laukelį Tests variable(s), lauke Test Value įrašome 39,5 ir
spaudžiame OK (žr. 3.3.5 pav.).
3.3.5 pav. Hipotezės apie vidurkio lygybę skaičiui tikrinimas SPSS
Gauti rezultatai pateikti 3.3.2 – 3.3.3 lentelėse.
30
3.3.2 lentelė Kintamojo F20 aprašomoji statistika
3.3.3 lentelė
Nulinės hipotezės tikrinimo rezultatai
Išvada: Kadangi p = 0.846 > 0,05, tai nulinė hipotezė „Populiacijos vidutinis darbo valandų
skaičiaus per savaitę be viršvalandžių yra 39,5 val.“ nėra atmetama. Tai reiškia, kad vidutinis darbo
valandų skaičius per savaitę be viršvalandžių statistiškai reikšmingai nesiskiria nuo 39,5 val.
2 pavyzdys. Patikrinsime hipotezę „Vyrų ir moterų populiacijose darbo valandų skaičiaus per
savaitę be viršvalandžių yra vienodas“. Tarkime, kad kintamieji yra pasiskirstę pagal normalųjį
pasiskirstymo dėsnį. Reikšmingumo lygmuo α = 0,05.
Formuluojame statistinę hipotezę:
Ho: µx = µy
Ha: µx ≠ µy
SPSS meniu juostoje pasirenkame Analyze → Compare Means → Independent–Samples T Test...
kintamąjį F20 „Darbo valandų skaičius per savaitę be viršvalandžių“ ir perkeliame į laukelį Tests
variable(s), į laukelį Grouping Variable įkeliame kintamąjį „Lytis“ (žr. 3.3.6 pav.).
31
3.3.6 Hipotezės apie dviejų nepriklausomų imčių vidurkių palyginimą tikrinimas SPSS
Gauti rezultatai pateikti 3.3.4 – 3.3.5 lentelėse.
3.3.4 lentelė
Kintamųjų aprašomoji statistika
3.3.5 lentelė
Nulinės hipotezės tikrinimo rezultatai
Visų stulpelių pirmoji eilutė yra lygių dispersijų atveju (Equal variances assumed), antroji –
nelygių (Equal variances not assumed). Šiuo atveju dispersijų laikyti lygiomis negalime, todėl
išvadas formuluojame pagal antrą eilutę.
32
Išvada: Kadangi p=0,000<0,05, tai nulinė hipotezė yra atmetama. Galime teigti, kad vyrų ir moterų
populiacijose vidutinis darbo valandų skaičius per savaite be virvalandžių statistiškai reikšmingai
skiriasi. Skirtumo tarp populiacijos vidurkių pasikliautinasis intervalas PI0,95= (µx-µy)=(0,965;
2,255). Su 95 % garantija galime teigti, kad vyrų ir moterų darbo valandų skaičius per savaitę be
viršvalandžių vidutiniškai skiriasi nuo 0,965 iki 2,255 val. (0,965< µx – µy <2,255 ).
3.4. Požymių priklausomumo analizė
Priklausomybės tarp vardinių ir rangų skalės kintamųjų analizei SPSS naudojamos požymių
dažnių lentelės (Crosstabs), taip pat yra didelė testų įvairovė priklausomybės laipsniui tarp
kintamųjų įvertinti. Plačiausiai taikomas iš neparametrinių kriterijų yra Chi-kvadrato (χ 2)
kriterijus, kuris naudojamas hipotezėms apie kintamojo skirstinį populiacijoje tikrinti. Chi-kvadrato
kriterijus parodo, ar empirinio ir teorinio skirstinių skirtumas yra reikšmingas, t.y. tikrinama, ar
turimas empirinis skirstinys yra suderintas su teoriniu modeliu (Čekanavičius ir Murauskas, 2000).
SPSS pakete Chi-kvadrato kriterijus yra skaičiuojamas trejopai: pagal Pirsono (Pearson) formulę,
pagal tikėtinumo santykio (Likelihood Ratio) formulę bei pagal Mantelio-Haenzelio (Linear-by-
Linear) formulę. Kai duomenys aprašomi keturlauke (2x2) dažnių lentele ir kai nors vienas tikėtinas
stebėjimų skaičius mažiau penkių, papildomai skaičiuojamas tikslus Fišerio (Fisher’s) kriterijus
(Pukėnas,2009). Matuojamiems pagal intervalų skalę kintamiesiems yra skaičiuojamas Pirsono
(Pearson) koreliacijos koeficientas. Kai stebimi kategoriniai kintamieji matuojami pagal rangų arba
vardinę skalę naudojami kiti ryšio stiprumo matai (Čekanavičius ir Murauskas, 2000).
Vardinių kintamųjų ryšio matai
• Phi – φ koeficientas skaičiuojamas χ 2 pagrindu eliminuojant imties dydžio įtaką.
Naudojamas tada, kai duomenys aprašomi keturlaukėmis (2x2) kontingencijos lentelėmis, t.
y. taikomas binariniams kintamiesiems. Didesnių lentelių atveju didžiausia φ reikšmė
priklauso nuo lentelės dydžio ir gali viršyti 1.
• Contingency Coefficient – kontingencijos koeficientas yra φ modifikacija, pritaikyta
didesnėms kontingencijos lentelėms. Kai kurie tyrėjai rekomenduoja šį koeficientą taikyti
5x5 ir didesnėms lentelėms.
• Cramer’s V – Kramerio V koeficientas yra dažniausiai naudojamas vardinių kintamųjų ryšio
matas, skaičiuojamas χ 2 pagrindu. Jis nepriklauso nuo lentelės dydžio, kai eilučių skaičius
lygus stulpelių skaičiui. Keturlaukėms lentelėms Kramerio V koeficientas sutampa su φ
koeficientu (Pukėnas, 2009).
33
Ranginių kintamųjų ryšio matai
Be dažniausiai taikomo Spearman‘o ranginės koreliacijos koeficiento dar naudojami
Kendall'o τ ir Gamma ranginės koreliacijos koeficientai. Spearman‘o ir Kendall'o τ koeficientai
interpretuojami skirtingai – Spearman‘o koeficientas analogiškas Pirsono (Pearson), tik
skaičiuojamas ranginiams duomenims (o jei duomenys yra intervaliniai – jie paverčiami ranginiais). SPSS yra pateikiami du Kendall'o ranginės koreliacijos koeficiento skaičiavimo variantai –
Kendall’s tau-b ir Kendall’s tau-c. Kendall'o tau-b koeficientas dažniausiai naudojamas keturlaukių
(2x2) lentelių atveju, Kendall'o tau-c koeficientas naudojamas didesnių negu 2x2 dimensijų lentelių
atveju.
SPSS požymių priklausomumo lentelės sudaromos pasirinkus komandą
Analyze → Descriptive Statistics → Crosstabs... Į laukelius Row(s) ir Colum(s) įkeliame
kintamuosius, kurių požymių priklausomumo lentelę norime sudaryti. Dialogo langelyje Statistics
pasirenkame Chi-square (χ 2 testą) ir spaudžiame Continue. Lukelio Cells komandų grupėje
Percentages pažymime Row, Colums ir Total (žr. 3.4.1 pav.):
3.4.1 pav. SPSS požymių priklausomumo lentelių sudarymas
34
1 pavyzdys. Norime atsakyti į klausimą: Ar yra priklausomybė tarp lyties ir domėjimosi politika?
Sudarome kintamųjų “Lytis” ir „Domėjimasis politika“ požymių priklausomumo lentelę. SPSS
gauti rezultatai pateikti 3.4.1 – 3.4.2 lentelėse.
3.4.1 lentelė
Kintamųjų „Lytis“ ir „Domėjimasis politika“ požymių priklausomumo lentelė
Išvados:
- 41 respondentas (t.y. 2,1 proc.) iš 1996 atsakiusių į abu klausimus yra vyrai, kurie labai domisi
politika.
- 4,1 proc. respondentų vyrų nurodė, kad labai domisi politika.
- 60,3 proc. respondentų, kurie nurodė, jog labai domisi politika yra vyrai.
Tikriname hipotezę:
Ho: „Atsitiktinai dydžiai X ir Y yra nepriklausomi“
Ha: „Atsitiktinai dydžiai X ir Y nėra nepriklausomi“
Nepriklausomumo hipotezės tikrinimo rezultatai pateikti 3.4.2 – 3.4.3 lentelėse.
3.4.2 lentelė Chi-kvadrato testo rezultatai
35
3.4.3 lentelė
Kintamųjų ryšio stiprumo matai
Išvada: Kadangi gavome, kad Pearson‘o Chi-Square p=0,000<0,05, Ho atmetama. Lytis ir
domėjimasis politika yra statistiškai reikšmingai susiję rodikliai. Ryšys tarp kintamųjų labai silpnas
(Cramer‘s V = 0,109).
Pastaba!!! Chi-kvadrato kriterijaus taikymas turi apribojimų. Norint taikyti Chi-kvadratą reikia
patikrinti ar tenkinamos tam tikros sąlygos. Chi-kvadrato kriterijaus taikymo schema pateikta 3.4.2
paveiksle.
3.4.1 pav. Chi-kvadrato taikymo schema (Janilionis, 1999-2001)
36
3.5. Ryšiai tarp kintamųjų
Koreliacinė analizė naudojama kuomet siekiame atsakyti į klausimus:
• Ar atsitiktiniai dydžiai yra priklausomi?
• Koks yra ryšio stiprumas tarp kintamųjų?
• Kokia kintamųjų priklausomybės išraiška?
Koreliacinėje analizėje statistinio ryšio stiprumas tarp stebėtų kintamųjų, yra išreiškiamas
koeficientu. Koreliacija parodo ryšio kryptį – vieno kintamojo reikšmei didėjant, kito kintamojo
reikšmė gali didėti arba mažėti. Koreliacijos koeficientai įgyja reikšmes nuo –1 iki 1. Teigiama
reikšmė – tiesioginė koreliacija, neigiama reikšmė – atvirkštinė koreliacija. Kuo reikšmė arčiau –1
arba 1, tuo priklausomybė tarp kintamųjų yra stipresnė (Janilionis, 1999-2001).
Pagrindiniai koreliacijos koeficientai:
• Pirsono (Pearson) – tiesinio ryšio stiprumo matas. Jis gali būti naudojamas, kai stebimų
atsitiktinių dydžių X ir Y skirstiniai yra normalieji (reikšmės yra išmatuotos intervalų arba
santykių skalėje).
• Intervaliniams kintamiesiems, kuriems normalumo prielaida nėra tenkinama, ir ranginiams
kintamiesiems yra skaičiuojamas Spirmeno (Spearman) arba Kendall’o τ-b koreliacijos
koeficientas.
Koreliaciją tarp kintamųjų galima paskaičiuoti SPSS pasirinkus komandą: Analyze →
Correlate... → Bivariate... (žr. 3.5.1 pav.).
3.5.1 pav. Koreliacinė analizė SPSS
37
1 pavyzdys. Atliekame kintamųjų “Pasitikėjimas Europos parlamentu” ir “Pasitikėjimas Jungtinių
tautų organizacija” koreliacinę analizę.
Tikriname hipotezę:
Ho: „Spearman’o koreliacijos koeficientas lygus nuliui“
Ha: „Spearman’o koreliacijos koeficientas nėra lygus nuliui“
Rezultatai pateikti 3.5.1 lentelėje.
3.5.1 lentelė
Spearman‘o koreliacijos koeficiento skaičiavimo rezultatai
Išvada: Kadangi p = 0,000 < 0,01, galime teigti, jog ryšys tarp kintamųjų yra statistiškai
reikšmingas, Ho (kad kintamieji yra nepriklausomi) atmetama. Spearman’o koreliacijos
koeficientas lygus 0,894, ryšys tarp kintamųjų yra stiprus.
4. STATISTINIŲ TYRIMŲ ATASKAITŲ RENGIMO PRINCIPAI
4.1. Tyrimo ataskaitos sudedamosios dalys
Vienas galimų tyrimo ataskaitos struktūros variantų yra pateikiamas Amerikos psichologų
asociacijos (APA) (pagal Merkys et al, 2004). Pagal APA rekomendacijas, ataskaitos sudedamosios
dalys yra:
• Titulinis lapas (pavadinimas, autorius, institucija)
• Santrauka/Anotacija
• Pagrindinė ataskaitos dalis, kuri apima:
• Įvadas (įžanga) – problema ir jos ištirtumas (literatūros apžvalga), tikslas ir
uždaviniai
• Tyrimo metodikos ir atlikimo pristatymas - respondentai, tiriamieji, tyrimo
38
instrumentai ir procedūros
• Tyrimo rezultatų pristatymas - pagrindinių rezultatų išdėstymas
• Aptarimas (diskusija) - ryšio tarp iškelto tikslo ir gautų rezultatų aptarimas
(išvados), teoriniai ir metodologiniai apibendrinimai, tolesnių tyrimų krypčių
apibūdinimas (rekomendacijos).
• Literatūra/ šaltiniai
• Priedai
Tačiau Europoje vyrauja kitokios tradicijos, dažnai atskirai pateikiama teorinė dalis, kurioje
plačiai atskleidžiama tiriamojo reiškinio samprata.
4.2. Lentelių ir vaizdinės medžiagos pateikimo principai
Lentelės ir jų apipavidalinimas yra svarbūs, nes suteikia galimybę susiteminti duomenis
palyginamumo principu. Kaip teigiama leidinyje „Užsakomųjų tyrimų ataskaitos rengimas“
(Merkys et al., 2004), „lentelės padeda skaitytojui visybiškai apžvelgti galimus duomenų tarpusavio
ryšius ir nesunkiai įžvelgti dėsningumus ar požymių skirtumus”.
Pagrindinis tekstas neturi tiesiogiai ir smulkmeniškai atpasakoti lentelės duomenų, tačiau
lentelė turi būti suprantama neskaitant teksto.
Lentelėms keliami reikalavimai:
• Lentelės turi būti vaizdžios ir nesunkiai suprantamos;
• Lentelės turi būti nedidelės ir lengvai apžvelgiamos;
• Lentelėse žodžiai turi būti rašomi be trumpinimų, galima naudoti tik visuotinai
priimtinus standartinius žymėjimus;
• Turi būti aišku, koks požymis (kintamasis, dimensija) atspindėtas lentelėje;
• Turi būti aišku, kokie dydžiai (absoliutūs ar procentinė išraiška) naudojami.
Lentelių formatavimui rekomenduojama (Merkys et al., 2004):
• naudoti kuo mažiau linijų, taškelių, brūkšnelių ar spalvų;
• lentelės stulpelyje naudoti tą patį ženklų skaičių po kablelio (pvz. 0,21; 0,30);
• pagrindiniame tekste teikti nuorodas į lenteles;
• lentelės pavadinime pateikti informaciją apie tyrimą, pvz, tyrimo tipas, imties tūris.
Lentelės pavadinimas pateikiamas virš paaiškinamos lentelės. Lentelės pavadinimas turi
aiškiai įvardinti pateikiamą turinį. Pavadinime neturi būti bereikalingų ir pasikartojančių žodžių.
Ataskaitoje vaizdinė medžiaga taip pat turėtų būti pateikiama aiškiai ir suprantamai. Visa
grafinė medžiaga įvardijama kaip PAVEIKSLAS. Paveikslu laikoma bet kokia grafinio pobūdžio
informacija, išskyrus lentelę. Tai fotografijos, piešiniai, brėžiniai, schemos, statistinius-kiekybinius
procesus atspindintys grafikai ir pan. (Merkys et al., 2004).
39
Paveikslo pavadinimas yra rašomas po paveikslu. Pavadinimas turi aiškiai įvardinti paveikslo
turinį. Pavadinimas rašomas panaudojant paveikslo turinį apibūdinančius raktinius žodžius ir
sujungiant juos į logiškai prasmingą sakinį.
Paveikslų pateikimo klaidos:
• Duomenų įvesties;
• Netinkamo grafiko tipo pasirinkimas.
Pasirenkant tinkamą grafiko tipą, reikia atsižvelgti į šias rekomendacijas (Merkys et al.,
2004):
• Reikia atsižvelgti į skalių tipą. Vardų (nominalinės) skalės kintamieji gali būti pateikiami
stulpelinių ar skritulinių diagramų pavidalu. Klaida – kai vardų skalės kintamieji (pvz. lytis,
tautybė) pateikiami linijinės diagramos pavidalu. Tvarkos skalės kintamieji gali būti
pateikiami stulpelinių ir skritulinių diagramų pavidalu. Kintamųjų reikšmės grafike turi būti
išdėstytos nuosekliai, o ne pagal reikšmės didumą.
• Spalvų perteklius mažina paveikslo efektyvumą. Paveikslas turi būti informatyvus tiek
atspausdinus spalvotai, tiek nespalvotai. Reikia vengti “vizualinio triukšmo”.
4.3. Kartografinės medžiagos pateikimas
Kartogramos – žemėlapiai, naudojami reiškinių paplitimui tam tikroje teritorijoje atvaizduoti.
Reiškinio paplitimas parodomas foniniais atributais (spalvomis ar brūkšniais).
4.3.1 pav. Kartografinės medžiagos pateikimas (Merkys et al., 2004)
40
Literatūra: 1. Augutis J., Krikštolaitis R. (2006). Kompiuterinis tyrimo duomenų apdorojimas. – Šiauliai:
Projektas MOKOM.
2. Čekanavičius V., Murauskas G. (2002). Statistika ir jos taikymai, I dalis. – Vilnius: TEV.
3. Janilionis V. Statistika ir duomenų analizės programinė įranga. Distancinio mokymo kursas. –
Kaunas: KTU, 1999-2001. Prieiga per internetą: http://fmf.ktu.lt/janil/stat1.htm.
4. Merkys et al. (2004). Užsakomųjų tyrimų ataskaitos rengimas.
http://www.smm.lt/svietimo_bukle/tyrimai_sb.htm
5. Pukėnas K. (2005). Sportinių tyrimų duomenų analizė SPSS programa: mokomoji knyga. –
Kaunas: LKKA.
6. Pukėnas K. (2009). Kokybinių duomenų analizė SPSS programa: mokomoji knyga. – Kaunas:
LKKA.