lida lietuvos hsm duomenų archyvas - kiekybini duomen … · 2011-11-11 · projektas „lietuvos...

Projektas

„Lietuvos HSM duomenų archyvo LiDA plėtra“

SFMIS Nr. VP1-3.1-ŠMM-02-V-02-001

Kiekybinių duomenų internetiniuose archyvuose analizė

SEMINARO MEDŽIAGA

dr. Eglė Butkevičienė ir dokt. Aida Vaicekauskaitė

(Paslaugų sutartis Nr. SA-684/2010-3, 2010-02-08)

Kaunas, 2010

2

SANTRAUKA

Mokymo kursas „Kiekybinių duomenų internetiniuose archyvuose analizė“ supažindina su

internetiniais duomenų archyvais bei juose saugomų kiekybinių duomenų analizės principais; ugdo

gebėjimus analizuoti kiekybinių tyrimų duomenis bei atlikti jų statistinę analizę panaudojant

NESSTAR ir profesionalią statistikos programinę įrangą SPSS, suprasti ir interpretuoti statistinių

skaičiavimų rezultatus, rengti statistinių tyrimų ataskaitas.

Mokymo kurso medžiagą sudaro 4 skyriai: (1) Internetiniai HSM duomenų archyvai pasaulyje ir

Lietuvoje, (2) Kiekybinių duomenų statistinė analizė panaudojant NESSTAR, (3) Kiekybinių

duomenų statistinė analizė panaudojant SPSS ir (4) Statistinių tyrimų ataskaitų rengimo principai.

3

TURINYS

1 Internetiniai HSM duomenų archyvai pasaulyje ir Lietuvoje .............................. 4

1.1 HSM internetiniai duomenų archyvai pasaulyje ......................................................... 4

1.2 HSM internetiniai duomenų archyvai Lietuvoje: LiDA projektas .............................. 7

1.3 Internetinių duomenų archyvų prieigos charakteristikos ............................................ 9

1.4 Naudojimosi duomenų archyvais sąlygos ir etika ...................................................... 10

2 Kiekybinių duomenų statistinė analizė panaudojant NESSTAR ........................ 12

2.1 NESSTAR programinis paketas, skirtas statistinių duomenų ir metaduomenų

kaupimui, saugojimui ir analizei ......................................................................................... 12

2.2 Duomenų ir metaduomenų saugojimo formatai ir sistema NESSTAR programinėje

aplinkoje ............................................................................................................................. 13

2.3 Duomenų analizė panaudojant NESSTAR galimybės .............................................. 15

2.4 Duomenų vaizdavimas NESSTAR programinėje aplinkoje ..................................... 17

2.5 NESSTAR duomenų analizės rezultatų perkėlimas į kitus formatus ........................ 18

3 Kiekybinių duomenų statistinė analizė panaudojant SPSS ................................ 19

3.1 SPSS programinė įranga statistinių duomenų analizei ............................................. 19

3.2 Aprašomoji statistika ................................................................................................ 20

3.3 Hipotezių tikrinimas ................................................................................................. 26

3.4 Požymių priklausomumo analizė .............................................................................. 32

3.5 Ryšiai tarp kintamųjų ................................................................................................ 36

4 Statistinių tyrimų ataskaitų rengimo principai ................................................... 37

4.1 Tyrimo ataskaitos sudedamosios dalys ..................................................................... 37

4.2 Lentelių ir vaizdinės medžiagos pateikimo principai ............................................... 38

4.3 Kartografinės medžiagos pateikimas ....................................................................... 39

Literatūra ........................................................................................................................... 40

4

1. INTERNETINIAI HSM DUOMENŲ ARCHYVAI PASAULYJE IR LIETUVOJE

1.1. HSM internetiniai duomenų archyvai pasaulyje

Roper viešosios nuomonės tyrimo centras (angl. The Roper Center for Public Opinion

Research) – tai pirmasis socialinių mokslų duomenų archyvas1. Elmo Roper įkūrė šį Centrą po II-

ojo pasaulinio karo, 1946 – 1947 m. Jis ir George Gallup atliko pagrindinius vaidmenis kuriant

socialinių mokslų duomenų archyvą. Elmo Roper įkalbėjo George Gallup bei Archibald Crossley

pateikti savo vykdomų apklausų duomenis į visiems prieinamą archyvą2. Šiuo metu centre sukaupta

kelių tūkstančių apklausų duomenys iš apie 70-ties pasaulio šalių. Dabar šis Centras yra

Konektikuto universiteto dalis, vienas didžiausių visuomenės nuomonės tyrimų duomenų archyvas.

Prieiga - http://www.ropercenter.uconn.edu/ (1.1.1 pav.).

1.1.1 pav. Roper viešosios nuomonės tyrimo centro tinklalapis

1 Šaltinis: http://www.ropercenter.uconn.edu/center/roper_history.html

2 Šaltinis: http://www.ropercenter.uconn.edu/center/elmo_bio.html

5

Vėliau kūrėsi ir kiti Šiaurės Amerikos šalių socialinių duomenų archyvai. Šiuo metu

didžiausias pasaulyje duomenų archyvas, kuriame talpinami tyrimų duomenų rinkiniai, skirti

socialinių mokslų studentams, mokslininkams ir tyrėjams, yra Tarpuniversitetinis politikos ir

socialinių tyrimų konsorciumas (angl. The Inter-university Consortium for Political and Social

Research ICPSR)3. Šis archyvas buvo įsteigtas 1962 m. Šiuo metu jame yra apie 500,000 failų iš

700 akademinių institucijų.

Prieiga - http://www.icpsr.umich.edu/icpsrweb/ICPSR/index.jsp (žr. 1.1.2 pav.).

1.1.2 pav. Tarpuniversitetinio politikos ir socialinių tyrimų konsorciumo tinklalapis

Pirmasis empirinių duomenų archyvas Europoje įkurtas 1960 m. Vokietijoje. Zentralarchiv

für Empirische Sozialforschung (Kelne) buvo sukurtas kaip universiteto institutas. Šiuo metu

didžiausia Vokietijoje infrastruktūrų institucija yra Vokietijos socialinių mokslų infrastruktūros

tarnyba GESIS (angl. German Social Science Infrastructure Service). GESIS yra sudarytas iš 5

padalinių, kurių vienas – socialinių mokslų duomenų archyvas4. 1967 m. įkurtas duomenų archyvas

Jungtinėje Karalystėje, 1971 m. – Norvegijoje. Europoje šiuo metu priskaičiuojama virš 20

nacionalinių socialinių duomenų archyvų5.

3 Šaltinis: http://www.icpsr.umich.edu/icpsrweb/ICPSR/org/index.jsp

4 Šaltinis: http://www.gesis.org/en/institute/

5 Šaltinis: http://www.lidata.eu/page.php?page=pletra_bendradarbiavimas#Socialini%C5%B3moksl%C5%B3duomen%C5%B3archyvaiEuropojeirpasaulyje

6

Siekiant sudaryti palankesnes sąlygas lyginamiesiems tyrimams, kūrėsi tarptautiniai duomenų

archyvų tinklai, asociacijos, kurių tikslas – pagerinti ir palengvinti duomenų prieinamumą mokslo

analizės tikslams, skatinti procedūras ir standartus duomenų ir technologijų mainams tarp duomenų

archyvų, propaguoti standartų ir procedūrų laikymąsi visame pasaulyje, padėti kurti naujas

duomenų organizacijas ir jas raginti prisidėti prie keitimosi duomenimis kultūros formavimo

institucijose nacionaliniu ir globaliniu lygmenimis.

Europos šalių socialinių duomenų archyvus vienija Europos Socialinių mokslų archyvų taryba

CESSDA (angl. Council of European Social Science Data Archives). CESSDA - tai 1976 m. įkurta

skėtinė organizacija, kurios tikslas yra keistis darbo su archyvais patirtimi, keistis ekspertais,

organizuoti seminarus. Organizacija priėma svarbius nutarimus dėl duomenų perdavimo iš vienos

šalies į kitą. Iš CESSDA portalo yra patogu patekti į daugelio šalių archyvus (žr. 1.1.3 pav.).

Prieiga - http://www.cessda.org/.

CESSDA uždaviniai:

• kurti lengvą ir greitą prieigą prie Europos socialinių duomenų mokslinei analizei;

• propaguoti projektus ir procedūras, kurios padidintų keitimosi duomenimis ir

technologijomis procesus;

• skatinti naudoti vieningas procedūras;

• raginti naujas duomenų organizacijas prisidėti prie šių tikslų.

1.1.3 pav. CESSDA archyvai nariai6

6 Šaltinis: http://www.lidata.eu/page.php?page=pletra_bendradarbiavimas

7

1.2. HSM internetiniai duomenų archyvai Lietuvoje: LiDA projektas

Lietuvos HSM duomenų archyvas LiDA yra nacionalinė mokslinių tyrimų infrastruktūra,

atverianti tyrėjams prieigą prie empirinių duomenų. Lietuvos HSM duomenų archyvo LiDA

kūrimas pradėtas 2006 m. liepos mėn. pradėjus įgyvendinti ES Europos socialinio fondo

finansuojamą projektą „Empirinių duomenų ir informacijos HSM tyrimams kaupimas ir valdymas:

Lietuvos HSM duomenų archyvas (LiDA)"BPD2004-ESF-2.5.0-03-392/BPD -262/F450 BPD-262

pagal Lietuvos 2004–2006 metų bendrojo programavimo dokumento 2 prioriteto „Žmogiškųjų

išteklių plėtra" 2.5 priemonę „Žmogiškųjų išteklių kokybės gerinimas mokslinių tyrimų ir inovacijų

srityje"7. Šis projektas sėkmingai baigtas 2008 m. liepos mėn. Nuo 2009 m. vykdomas projektas

„HSM duomenų archyvo LIDA plėtra“.

LiDA tikslas - tobulinti HSM studentų, mokslininkų ir kitų tyrėjų duomenų analizės

kompetenciją bei didinti Lietuvos mokslininkų ir kitų tyrėjų galimybes atlikti kokybiškus tyrimus,

pagerinant ir išplečiant prieigos prie pirminių HSM tyrimų šaltinių infrastruktūrą bei sukuriant

pirminius tarptautinio lygmens HSM duomenų šaltinius8.

LiDA uždaviniai9:

• Optimizuoti esamas kiekybinių HSM duomenų įgijimo, archyvavimo, dokumentavimo ir

vartotojų prieigos prie LiDA archyve saugomų duomenų sistemas.

• Pildyti LiDA archyvą naujais kiekybinių HSM tyrimų (apklausų) duomenimis.

• Pradėti kurti kokybinių HSM tyrimų, istorinių ir Lietuvos politinės sistemos duomenų

įgijimo, archyvavimo, dokumentavimo bei sklaidos sistemas.

• Rengti ir publikuoti mokslinius leidinius apie pažangius HSM tyrimų duomenų analizės

metodus.

• Vykdyti ir dokumentuoti pažangius tarptautinius empirinius tyrimų projektus Lietuvoje.

LiDA archyve sukaupta nemažai kiekybinių tyrimų duomenų rinkinių: 108 duomenų

rinkiniai lietuvių kalba ir 32 rinkiniai anglų kalba. Duomenų rinkiniai lietuvių kalba gauti iš

visuomenės nuomonės ir rinkos tyrimų centro UAB „Vilmorus“ bei rinkos analizės ir tyrimų grupės

UAB „RAIT“.

Duomenų rinkiniai lietuvių kalba yra sugrupuoti į 10 teminių rinkinių. Teminiai rinkiniai

lietuvių kalba10:

7 Šaltinis: http://www.lidata.eu/page.php?page=apie_archyvas



8

• ES: Požiūris į ES. Teminiam rinkiniui priklauso 2 duomenų rinkiniai. Tai tyrimai, kurių

tikslas yra tirti Lietuvos gyventojų požiūrį į Europos Sąjungą.

• ESP: ES parama. Teminiam rinkiniui priklauso 2 duomenų rinkiniai. Tai tyrimai, kurių

tikslas yra tirti Lietuvos gyventojų nuomonę apie Europos Sąjungos paramos panaudojimą

Lietuvoje.

• KALB: Kalba darbe. Teminiam rinkiniui priklauso 2 duomenų rinkiniai. Tai tyrimai, kurių

tikslas yra tirti pagrindines kalbų vartojimo Lietuvos verslo aplinkoje tendencijas,

išsiaiškinti verslo vadovų ir darbuotojų kalbines nuostatas darbo santykių srityje.

• PB: Politinis barometras. Teminiam rinkiniui priklauso 35 duomenų rinkiniai. Tai tyrimai,

kurių tikslas yra tirti Lietuvos visuomenės nuomonę aktualiausias politiniais klausimais.

• SLT: Skaitmeninė Lietuva. Teminiam rinkiniui priklauso 3 duomenų rinkiniai. Tai tyrimai,

kurių tikslas yra tirti gyventojų požiūrį į informacinės visuomenės kūrimą Lietuvoje,

nustatyti gyventojų naudojimosi informacinėmis ir komunikacinėmis technologijomis

mastą.

• SEB: Socialinis ekonominis barometras. Teminiam rinkiniui priklauso 40 duomenų rinkinių.

Tai tyrimai, kurių tikslas yra tirti Lietuvos visuomenės nuomonę aktualiausiais socialiniais

ekonominiais klausimais.

• VAIK: Požiūris į vaikus. Teminiam rinkiniui priklauso 2 duomenų rinkiniai. Tai tyrimai,

kurių tikslas yra tirti Lietuvos visuomenės nuomonę apie vaikų auklėjimo stilius, vaikų

įgūdžių lavinimo ypatumus.

• VTT: Valstybės tarnybos tyrimai. Teminiam rinkiniui priklauso 2 duomenų rinkiniai. Tai

tyrimai, kurių tikslas yra tirti Lietuvos valstybės tarnybos įvaizdį visuomenėje, įvertinti

valstybės ir savivaldybių institucijų veiklą, paslaugų teikimą, aptarnavimą, socialinę naudą.

• ZTLT: Žmogaus teisės Lietuvoje. Teminiam rinkiniui priklauso 9 duomenų rinkiniai. Tai

tyrimai, kurių tikslas yra tirti Lietuvos gyventojų požiūrį į žmogaus teisių apsaugos sistemos

būklę Lietuvoje, nustatyti, kaip žmonės gina savo pažeistas teises ir kaip vertina institucijų,

ginančių žmogaus teises Lietuvoje, efektyvumą.

• KITI: Neklasifikuoti tyrimai. Teminiam rinkiniui priklauso 11 duomenų rinkinių. Šiame

teminiame rinkinyje kaupiami vienkartiniai tyrimai.

Tarptautinių tyrimų teminiai rinkiniai anglų kalba:

• CCEB: Candidate Countries Eurobarometer

• CEEB: Central and Eastern Eurobarometer

• EB: Standard Eurobarometer

10 Lietuvos HSM duomenų archyvo naujienlaiškis, 2009, Nr.1.

9

• EES: European Election Studies

• EVS: European Values Study

• NBB: New Baltic Barometer

• SEE: Studies from Eastern Europe

Prieiga - www.lidata.eu (1.2.1 pav.).

1.2.1 pav. Lietuvos HSM duomenų archyvo LiDA tinklalapis 1.3. Internetinių duomenų archyvų prieigos charakteristikos

Paprastai naudotis duomenimis ir jų dokumentacija archyvai leidžia išimtinai tik pagal jų

naudojimo taisykles. Dažnai archyvai siekia užtikrinti aiškią tyrimo duomenų naudojimo lygių

diferencijavimo sistemą. Leidimas naudotis duomenimis ir dokumentais yra suteikiamas atitinkamai

nustatytiems duomenų prieinamumo lygiams11:

• 0 lygis - duomenimis ir dokumentais leidžiama naudotis visiems.

• A lygis - duomenimis ir dokumentais leidžiama naudotis mokslo ir mokymo tikslais.

• B lygis - duomenimis ir dokumentais leidžiama naudotis mokslo ir mokymo tikslais, jeigu

rezultatai nebus publikuojami. Jeigu planuojamos publikacijos ar bet koks tolesnis darbas su

gautais rezultatais, būtina kreiptis į Archyvą dėl leidimo.

• C lygis - duomenimis ir dokumentais leidžiama naudotis tik mokslo ir mokymo tikslais,

gavus raštišką duomenų savininko (depozitoriaus) leidimą. Šiuo tikslu Archyvas gauna

raštišką leidimą, kuriame nurodomas vartotojas ir duomenų analizės tikslai.

11 Šaltinis: http://www.lidata.eu/page.php?page=duomenys_taisykles_naudojimas

10

Tarpuniversitetinis politikos ir socialinių tyrimų konsorciumas taip pat turi savitas

prieigos charakteristikas. Lietuvos nacionalinė narystė ICPSR (žr. 1.3.1 pav.) suteikia teisę nemokai

parsisiųsti duomenų rinkinius ar atlikti kai kurių duomenų analizę online.

1.3.1 pav.Lietuvos nacionalinė narystė ICPSR

1.4. Naudojimosi duomenų archyvais sąlygos ir etika

Lietuvos HSM duomenų archyvo LiDA teikia atvirą prieigą prie empirinių duomenų, tačiau

duomenys yra prieinami tik registruotiems vartotojams. Užsiregistravus atsiunčiamas vartotojo

vardas ir slaptažodis, kuriuo galima prisijungti prie archyvo duomenų (žr. 1.4.1 pav.).

1.4.1 pav. LiDA registracijos anketa

11

Tarpuniversitetinio politikos ir socialinių tyrimų konsorciumo archyvo duomenys

prieinami tik registruotiems vartotojams. Registracija galima tik ICPSR instituciniams nariams (iš

visų institucijos kompiuterių tinklo darbo vietų).

Užsiregistravus bei patvirtinus registraciją, kiekvienas vartotojas gali parsisiųsti ICPSR

duomenų rinkinius 6 mėnesius iš eilės iš bet kurios kompiuterinės darbo vietos. Po 6 mėn. galima

vėl atnaujinti registraciją.

Neregistruotiems nariams galima:

• Peržiūrėti tyrimo anotaciją (aprašą);

• Peržiūrėti ir parsiųsti dokumentaciją (metaduomenis).

Registracija ICPSR vykdoma: https://www.icpsr.umich.edu/cgi-bin/newacct Praktinė užduotis: Užsiregistruoti ICPSR archyvo vartotoju (žr. 1.4.2 pav.).

1.4.2 pav. ICPSR registracijos anketa

12

2. KIEKYBINIŲ DUOMENŲ STATISTINĖ ANALIZĖ PANAUDOJANT NESSTAR

2.1. NESSTAR programinis paketas, skirtas statistinių duomenų ir metaduomenų kaupimui,

saugojimui ir analizei

Duomenų kaupimo ir saugojimo sistema NESSTAR yra sudaryta iš 3 paketų: NESSTAR

Publisher, NESSTAR Server ir NESSTAR Web12. Nesstar prieiga - http://www.nesstar.com/ (žr.

2.1.1. pav).

Nesstar Publisher programinė įranga užtikrina HSM duomenų tvarkymo funkcijas: duomenų

konvertavimą ir redagavimą, publikavimą Nesstar Server-yje.

Nesstar Server programinė įranga užtikrina HSM duomenų talpinimo funkcijas. Ši

programinė įranga užtikrina informacijos pateikimą vertotojams.

Nesstar WebView programinė įranga užtikrina HSM duomenų, patalpintų Nesstar Server-yje,

sklaidą interneto tinkle.

2.1.1 pav. NESSTAR tinklalapis

Nesstar WebView leidžia:

• Peržiūrėti tyrimą ir duomenis

12 Šaltinis: http://www.nesstar.com/

13

• Susipažinti su metaduomenimis

• Atlikti požymių priklausomumo analizę

• Atlikti kintamųjų koreliaciją

• Atlikti grafinį duomenų atvaizdavimą

• Sukurti naujus kintamuosius

• Perkoduoti esamus kintamuosius

• Atsisiųsti duomemis įvairiais formatais (MsExel, SPSS).

LiDA duomenų kaupimui ir saugojimui naudojama Nesstar programinė įranga (žr. 2.1.2

pav.).

2.1.2 pav. LiDA tinklalapis

2.2. Duomenų ir metaduomenų saugojimo formatai ir sistema NESSTAR programinėje

aplinkoje

Duomenys gali būti kaupiami ir saugojami įvairiais formatais: DDI document (*.xml), SPSS

System (*.sav), SPSS Portable (*.por), SPSS Syntax (*.sps), SAS (*.spl), Stata (*.dta), Statistica

(*.sta), NSDsat (*.nsf), dBase (*.dbf), DIF (*.dif), Text (*.txt) ir kitais.

14

Metaduomenys – tai struktūriškai apibrėžta informacija, kuri apibūdina tam tikrą dokumentą

arba informacinį išteklių, nurodo jo buvimo vietą. Tai palengvina dokumento ar kito informacinio

ištekliaus suradimą, naudojmą ir valdymą. Kitaip sakant, tai duomenys apie HSM dokumentus.

Metaduomenys Nesstar programinėje aplinkoje yra rengiami naudojant DDI formatą. DDI

(angl. Data Documentation Initiative) yra XML metaduomenų standartas, skirtas socialinių mokslų

duomenims aprašyti13 (žr. 2.2.1 pav.). Tokiu būdu metaduomenys yra rengiami unifikuotoje ir

struktūrizuotoje formoje.

Šis standartas užtikrina efektyvią duomenų paiešką, metaduomenų kokybę ir panaudojamumą.

DDI formato sekcijos:

• Dokumento apibūdinimas (Document description);

• Tyrimo apibūdinimas (Study description);

• Duomenų failų apibūdinimas (Data files description);

• Kintamųjų apibūdinimas (Variables description);

• Kita informacija (Other study-related materials).

2.2.1 pav. DDI aprašo pavyzdys

13 Šaltinis: http://www.icpsr.umich.edu/DDI

15

2.3. Duomenų analizė panaudojant NESSTAR galimybės

Duomenų analizei galima naudoti Nesstar programinę įrangą. Nesstar WebView įgalina

duomenų paiešką ir peržiūrą, leidžia atlikti požymių priklausomumo analizę, kintamųjų koreliaciją,

regresiją, sukurti naujus kintamuosius, perkoduoti esamus kintamuosius.

Nesstar WebView veikia interneto naršyklės aplinkoje, todėl vartotojui jokios papildomos

programinės įrangos į savo kompiuterį diegti nereikia. Kairiojoje internetinio puslapio pusėje

išdėstytas duomenų rinkinių medis (žr. 2.3.1 pav.). Taip pat galima pasinaudoti paieškos funkcija.

2.3.1 pav. Duomenų rinkinių medis

Katalogai paskleidžiami paspaudus (žr. 2.3.2 pav.). Norėdami gauti šsamesnę informaciją

apie duomenų rinkinį, turime spausti . Toliau kataloge galima atverti metaduomenis, tyrimo

aprašymą, duomenų failų apibūdinimą bei kintamųjų apibūdinimą.

2.3.2 pav. Duomenų išdėstymo pavyzdys

16

Paspaudus ant kintamojo, gaunamas jo aprašymas ir tam tikri statistiniai duomenys (žr. 2.3.3

pav.). Šie duomenys pateikiami Nesstar WebView kortelėje DESCRIPTION.

2.3.3 pav. Kintamojo aprašymo pavyzdys

Lentelės formos duomenų analizė atliekama paspaudus kortelę TABULATION ir nurodžius,

kurie kintamieji pasirenkami analizei (žr. 2.3.4 pav.). Kintamieji iš kintamųjų medžio pasirenkami

atsidariusiame meniu paspaudžiant vieną iš komandų – „add to row“ (kintamasis bus pateikiamas

eilutėje) ar „add to column“ (kintamasis bus pattteikiammmas stulpelyje). Pavyzdyje į analizės

lentelę įtraukti du kintamieji – B1 (Domėjimasis politika) ir F2 (Lytis).

2.3.4 pav. Lentelės formos duomenų analizės pavyzdys

17

Kintamųjų koreliacijos arba regresijos analizė galima naudojant kortelę ANALYSIS ir

nurodžius, kurie kintamieji pasirenkami analizei (žr. 2.3.5 pav.). Kintamieji iš kintamųjų medžio

pasirenkami atsidariusiame meniu paspaudžiant komandą „add to correlation“ (kintamasis bus

įtrauktas į koreliaciją). Pavyzdyje į koreliacinę analizę įtraukti du kintamieji – B4 (Pasitikėjimas

Seimu) ir B8 (Pasitikėjimas politinėmis partijomis).

2.3.5 pav. Koreliacinės analizės pavyzdys

2.4. Duomenų vaizdavimas NESSTAR programinėje aplinkoje

Nesstar programinė įranga taip pat gali būti naudojama duomenų vizualizacijai. Grafinis

duomenų atvaizdavimas atliekamas paspaudžiant . Galima pasirinkti įvairias grafinio

vaizdavimo formas (žr. 2.4.1 pav. ir 2.4.2 pav.).

2.4.1 pav. Grafinio vaizdavimo pavyzdys Nr.1

18

2.4.2 pav. Grafinio vaizdavimo pavyzdys Nr.2

2.5. NESSTAR duomenų analizės rezultatų perkėlimas į kitus formatus

Nesstar programinė įranga taip pat gali būti naudojama atsisiųsti duomemis įvairiais formatais

(Statistica, SPSS, Stata ir kitais) (žr. 2.5.1 pav.). Paspaudus , atsidaro langas, kuriame reikia

nurodyti, kas ir kokiu formatu bus saugoma.

2.5.1 pav. Duomenų analizės rezultatų perkėlimo į kitus formatus pavyzdys

19

3. DUOMENŲ STATISTINĖ ANALIZĖ PANAUDOJANT SPSS

3.1. SPSS programinė įranga statistinių duomenų analizei

SPSS (angl. Statistical Package for the Social Sciences) – specializuota statistinė

programinė įranga, leidžianti vartotojams atlikti visą duomenų analizės procesą:

• įkelti duomenis iš įvairių šaltinių;

• paruošti duomenis (pvz. atlikti transformacijas, sukurti naujus kintamuosius, užkoduoti

kategorijas ir praleistas reikšmes, apjungti duomenis ir t.t.);

• išanalizuoti duomenis statistiniais metodais ir gauti reikšmingus rezultatus;

• pateikti gautus rezultatus grafikais bei analitinėmis lentelėmis;

• eksportuoti rezultatus įvairiais formatais.

Nuo 2009 m. balandžio įsigaliojo nauji SPSS produktų pavadinimai su prierašu PASW (Predictive

Analytics Software - prognozinės analitikos programinė įranga). Lietuvoje šia programine įranga

naudojasi daugiau nei 200 įmonių bei organizacijų.14

SPSS duomenų redaktorius užtikrina du duomenų rinkmenų pateikimo vaizdus:

• Duomenų peržiūra (Data View). Pateikia duomenų reikšmes arba duomenų apibūdinimo

žymes (žr. 3.1.1 pav.).

• Kintamųjų peržiūra (Variable View). Pateikia kintamuosius apibūdinančią informaciją (žr.

3.1.2 pav.):

o Name – kintamojo vardas

o Type – tipas (pvz. skaitmeninis, tekstinis, data, valiuta ir t.t. )

o Width – duomenų ląstelės plotis – ženklų skaičius

o Decimals – skaičius po kablelio, kuris bus rodomas duomenų ląstelėje

o Label – kintamojo žymės

o Values – kintamojo reikšmių paaiškinimai

o Missing – trūkstamų reikšmių kodai

o Column – stulpelių plotis

o Align – išlygiavimas (dešinėje, kairėje, centruotai)

o Measure – skalė (nominalinė, tvarkos, intervalų-santykių).

14 Šaltinis: http://www.insol.lt/homepage

20

3.1.1 pav. SPSS duomenų įvesties langas

3.1.2 pav. SPSS kintamųjų parametrai

3.2. Aprašomoji statistika

Aprašomoji statistika – tai duomenų sisteminimo ir grafinio vaizdavimo metodai. Vienas iš

didžiausių aprašomosios statistikos privalumų yra tai, kad leidžia koncentruotai užrašyti

informaciją, esančią dideliuose duomenų masyvuose. Aprašomojoje statistikoje stebėtos reikšmės

pateikiamos lentelėmis, dažnių skirstiniais, grafikais (Čekanavičius ir Murauskas, 2000).

Yra skiriamos duomenų padėties ir sklaidos charakteristikos, charakteristikos imties simetriškumui

įvertinti (asimetrijos ir eksceso koeficientai) ir kt. (žr. 3.2.1 pav.).

21

3.2.1 pav. Skaitinės charakteristikos (Janilionis, 1999-2001)

Pagrindinės duomenų padėties charakteristikos yra – vidurkis, moda ir mediana, kurios

apibūdina duomenų „centrą“, bei kvantiliai. Visos charakteristikos, išskyrus modą, gali būti

skaičiuojamos tik kiekybiniams duomenims (Čekanavičius ir Murauskas, 2000).

Vidurkis (mean) – visų duomenų aibės elementų vidutinė reikšmė. Vidurkis yra labai jautrus

smarkiai besiskiriančioms reikšmėms (Augutis ir Krikštolaitis, 2006). Dažniausiai naudojamas

aritmetinis vidurkis – t.y. reikšmių suma, padalinta iš reikšmių skaičiaus.

Moda (mode) – dažniausiai duomenų aibėje pasikartojanti reikšmė. Galime skaičiuoti tiek

kiekybinių, tiek kokybinių duomenų modą (Čekanavičius ir Murauskas, 2000).

Mediana (median) – tai reikšmė, žemiau kurios yra pusė visų reikšmių ir virš kurios yra kita

pusė reikšmių, jei visos jos išrikiuotos didėjimo tvarka (skaičiuojama tik ranginio ir kiekybinio

lygmens kintamiesiems). Kuomet turime lyginį reikšmių skaičių, mediana – yra vidurinių skaičių

vidurkis, jeigu nelyginį – vidurinis skaičius.

Kvantiliai – charakteristika, dalijanti variacinę eilutę į q x 100 ir (1-q) x 100 procentinių dalių;

q įgyja reikšmes iš intervalo (0;1). Pavyzdžiui, 0,5 kvantilis yra mediana (Augutis ir Krikštolaitis,

2006) .

Pagrindinės sklaidos charakteristikos yra duomenų aibės plotis, standartinis nuokrypis,

dispersija, kvartilių skirtumas ir kitimo koeficientas.

Imties aibės plotis (range) – didžiausios ir mažiausios reikšmių skirtumas. Labai jautrus

išskirtims.

Imties dispersija (variance) parodo duomenų sklaidą apie vidurkį. Dispersija plačiai

naudojama siekiant palyginti kelių duomenų aibių sklaidas. Dažniausiai naudojamas sklaidos matas

yra – standartinis nuokrypis (standard deviation), kuris gaunamas ištraukus kvadratinę šaknį iš

22

dispersijos. Standartinis nuokrypis yra pranašesnis, nes matuojamas tais pačiais vienetais kaip ir

patys duomenys (Čekanavičius ir Murauskas, 2000).

Kvartiliais (quartile) vadinami trys taškai, dalijantys kintamojo reikšmių aibę į keturias

grupes, kurių kiekvienoje yra maždaug po 25% imties reikšmių. Kvartiliai nepriklauso nuo imties

variacinės eilutės kraštinių reikšmių, taigi jie nejautrūs išskirtims. Kvartilinis plotis (Quartile

range) viršutinio ir apatinio kvartilio skirtumas vartojamas imties sklaidai įvertinti. Nejautrus

išskirtims (Augutis ir Krikštolaitis, 2006). Kvartilinis plotis apibūdina vidurinių 50% sluoksnio

duomenų reikšmių sklaidą.

Asimetrijos koeficientas (skewness) parodo empirinio skirstinio asimetriškumą. As > 0 –

dešiniosios asimetrijos atvejis, jei As < 0 – kairiosios, jeigu As = 0 – skirstinys yra simetriškas

vidurkio atžvilgiu.

Eksceso koeficientas (kurtosis) apibūdina empirinio skirstinio smailumą (Ek>0) ir lėkštumą

(Ek <0).

Norint apskaičiuoti duomenų aprašomąsias statistikas SPSS meniu juostoje pasirenkame

Analyze → Descriptive Statistics → Frequencies. Atsidariusiame lange Statistic pažymime

norimas apskaičiuoti skaitines charakteristikas. SPSS programoje norint nubraižyti stačiakampę

diagramą pasirenkame meniu juostoje Graphs → Legacy Dialogs → Boxplot. Stačiakampės

diagramos leidžia palyginti keleto kintamųjų, matuojamų tais pačiais vienetais (Summaries of

separate variables), ar to paties kintamojo kelių imčių duomenis (Summaries for groups of cases).

Gautos kintamojo SPSS aprašomosios statistikos ir stačiakampės diagramos pavyzdys pateiktas

3.2.2 paveiksle.

3.2.2 pav. SPSS aprašomoji statistika ir stačiakampė diagrama (Augutis ir Krikštolaitis, 2006)

Norint apskaičiuoti dažnius ir nubraižyti dažnių pasiskirstymo diagramą SPSS meniu juostoje

pasirenkame Analyze → Descriptive Statistics → Frequencies. Pažymime varnele Display

23

frequency tables, laukelyje Charts pasirenkame dažnių grafinio atvaizdavimo būdą: histogramą

(Histograms), stulpelinę diagramą (Bar), skritulinę diagramą (Pie) (žr. 3.2.3 pav.).

3.2.3 pav. SPSS dažnių skaičiavimas

Rezultatai peteikti 3.2.1 lentelėje ir 3.2.4 paveiksle.

3.2.1 lentelė

SPSS dažnių lentelė B3|Gebejimas susidaryti nuomone politiniais klausimais

160 8,0 8,5 8,5531 26,5 28,3 36,9933 46,6 49,8 86,6222 11,1 11,8 98,5

29 1,4 1,5 100,01875 93,7 100,0

127 6,32002 100,0

Labai sunkuSunkuNei sunku, nei lengvaLengvaLabai lengvaTotal

Valid

NežinoMissingTotal

Frequency Percent Valid PercentCumulative

Percent

24

3.2.4 pav. SPSS dažnių diagrama

Pasikliautinieji intervalai. Skirtumas tarp tikrųjų populiacijos ir turimų imties atitikmenų

rodo įvertinimo tikslumą. Statistinio įvertinimo tikslumą ir patikimumą nustato vadinamieji

pasikliautinieji intervalai (confidence intervals). Tradiciniai pasikliovimo lygmenys Q = 0,9; 0,95;

0,99 (žr. 3.2.5 pav.).

3.2.5 pav. Pasikliautinieji intervalai su skirtingais pasikliovimo lygmenimis (Augutis ir

Krikštolaitis, 2006)

SPSS paketu galima paskaičiuoti vidurkio pasikliautinąjį intervalą meniu pasirinkus

Analyze → Descriptive Statistics → Explore ir nubraižyti jo grafiką Graphs → Legacy Dialogs →

Error Bar. Norint atlikti kintamųjų analizę pagal atskiras stebėjimų grupes, į sąrašą Factor List

reikia įkelti vieną ar kelis kategorinius kintamuosius, pagal kuriuos bus nustatytos stebėjimų grupės.

Atitinkamai braižant vidurkio pasikliautinojo intervalo grafiką atskiroms grupėms pažymime

Summaries for group of cases (žr. 3.2.6-3.2.7 pav.).

25

3.2.6 pav. Vidurkio pasikliautinojo intervalo skaičiavimas SPSS

3.2.7 pav. Vidurkio pasikliautinojo intervalo grafiko braižymas SPSS

26

3.2.8 pav. SPSS vidurkio pasikliautinojo intervalo skaičiavimo rezultatai

Apskaičiuojame populiacijos darbo valandų skaičiaus per savaitę įskaitant viršvalandžius

vidurkio pasikliautinąjį intervalą: PI0,95(µ)=(40,34; 41,29).

Išvada: Su 95 % garantija (pasikliovimu) galime teigti, jog populiacijoje vidutinis darbo

valandų skaičius per savaitę įskaitant viršvalandžius yra intervale nuo 40,34 iki 41,29 val. (žr. 3.2.8

pav.).

3.3. Hipotezių tikrinimas

Hipoteze statistikoje vadinamas bet koks teiginys apie populiacijos parametro(ų) reikšmę(es).

Statistinę parametrinę hipotezę sudaro du alternatyvūs teiginiai apie galimas parametro reikšmes.

Nulinė hipotezė (Ho) – tikrinamoji hipotezė. Paprastai Ho formuluojama, kad skirtumo nėra.

Dažniausiai, tai teiginys, kad populiacijos parametras yra lygus konkrečiai reikšmei arba skirstiniai

sutampa. Alternatyvioji hipotezė (Ha) – priešinga nulinei hipotezei.

Hipotezės skirstomos į parametrines ir neparametrines (žr. 3.3.1 pav.). Jeigu statistinė

hipotezė tikrinama nežinomų pasiskirstymo dėsnio parametrų atžvilgiu – ji vadinama parametrine

(Janilionis, 1999-2001). Kuomet populiacijos parametras lyginamas su kokiu nors skaičiumi, arba

tarpusavyje lyginami kelių populiacijų analogiški parametrai (Čekanavičius ir Murauskas, 2000).

Alternatyvos skirstomos į vienpuses µ < µo ir µ > µo ir dvipuses µ ≠ µo.

27

3.3.1 pav. Hipotezių skirstymas (Janilionis, 1999-2001)

3.3.1 lentelė

Hipotezių tikrinimo klaidos

Taisyklė, pagal kurią iš imties rezultatų darome išvadą apie hipotezės teisingumą ar

klaidingumą, vadinama – statistiniu kriterijumi. (Čekanavičius ir Murauskas, 2000). Kriterijaus

reikšmingumo lygmenį galima suprasti kaip klaidos atmetus hipotezę Ho, nors iš tikrųjų ji teisinga,

tikimybę. Ši tikimybė vadinama pirmosios rūšies klaida. Tikrinant hipotezę Ho galima taip pat

priimti hipotezę, nors ji iš tikrųjų yra klaidinga – antrosios rūšies klaida (Pukėnas, 2009) (žr. 3.3.1

lentelę).

3.3.2 pav. Hipotezių sprendimo priėmimo taisyklė

28

Statistinės išvados daromos su tam tikra tikimybe (pasikliovimu), priklausomai nuo pasirinkto

reikšmingumo lygmens α (žr. 3.3.2 pav.). Išvadų formuluotės kuomet atmetame/neatmetame Ho

yra pateiktos 3.3.3 paveiksle.

3.3.3 pav. Išvadų formulavimas

Vienas iš dažniausiai taikomų statistinės analizės metodų yra hipotezių apie populiacijos

vidurkių lygybę tikrinimas. SPSS meniu Analyze → Compare Means (vidurkių palyginimas)

pateikiami vidurkių palyginimo metodai, kurie yra taikomi kuomet kintamieji turi normalųjį

skirstinį. Be nurodytų t-testų yra pateikiama komanda vidurkiai (Means), kurią pasirinkus galime

apskaičiuoti pasirinktų kintamųjų vidurkius ir kitas skaitines charakteristikas atskirai pagal tam

tikras kategorinio kintamojo kategorijas (Pukėnas, 2005). Plačiau apie t-testus žr. 3.3.4 pav.

3.3.4 pav. Hipotezių tikrinimas SPSS

29

Neparametriniai kriterijai taikomi tais atvejais, kai duomenys nėra pasiskirstę pagal

normalųjį dėsnį arba priklauso rangų, o ne intervalų skalei. Neparametrinių hipotezių atveju

dažniausiai lyginami skirstiniai. SPSS paketas pateikia nemažai neparametrinių testų (žr. 3.3.4

pav.). Populiariausi yra dviejų ir daugiau priklausomų/nepriklausomų imčių palyginimo kriterijai

bei Chi-kvadrato (X²) kriterijus ir Kolmogorovo-Smirnovo testas (Pukėnas, 2005).

Parametrinių hipotezių tikrinimo pavyzdžiai

1 pavyzdys. Norime patikrinti hipotezę „Populiacijos vidutinis darbo valandų skaičius per savaitę

be viršvalandžių yra 39,5 val.“ Tarkime, kad kintamojo skirstinys yra normalusis. Reikšmingumo

lygmuo α = 0,05.

Formuluojame statistinę hipotezę:

Ho: µ = 39,5

Ha: µ ≠ 39,5

SPSS meniu juostoje pasirenkame Analyze → Compare Means → One–Sample T Test...

pažymime kintamąjį F20 ir perkeliame į laukelį Tests variable(s), lauke Test Value įrašome 39,5 ir

spaudžiame OK (žr. 3.3.5 pav.).

3.3.5 pav. Hipotezės apie vidurkio lygybę skaičiui tikrinimas SPSS

Gauti rezultatai pateikti 3.3.2 – 3.3.3 lentelėse.

30

3.3.2 lentelė Kintamojo F20 aprašomoji statistika

3.3.3 lentelė

Nulinės hipotezės tikrinimo rezultatai

Išvada: Kadangi p = 0.846 > 0,05, tai nulinė hipotezė „Populiacijos vidutinis darbo valandų

skaičiaus per savaitę be viršvalandžių yra 39,5 val.“ nėra atmetama. Tai reiškia, kad vidutinis darbo

valandų skaičius per savaitę be viršvalandžių statistiškai reikšmingai nesiskiria nuo 39,5 val.

2 pavyzdys. Patikrinsime hipotezę „Vyrų ir moterų populiacijose darbo valandų skaičiaus per

savaitę be viršvalandžių yra vienodas“. Tarkime, kad kintamieji yra pasiskirstę pagal normalųjį

pasiskirstymo dėsnį. Reikšmingumo lygmuo α = 0,05.

Formuluojame statistinę hipotezę:

Ho: µx = µy

Ha: µx ≠ µy

SPSS meniu juostoje pasirenkame Analyze → Compare Means → Independent–Samples T Test...

kintamąjį F20 „Darbo valandų skaičius per savaitę be viršvalandžių“ ir perkeliame į laukelį Tests

variable(s), į laukelį Grouping Variable įkeliame kintamąjį „Lytis“ (žr. 3.3.6 pav.).

31

3.3.6 Hipotezės apie dviejų nepriklausomų imčių vidurkių palyginimą tikrinimas SPSS

Gauti rezultatai pateikti 3.3.4 – 3.3.5 lentelėse.

3.3.4 lentelė

Kintamųjų aprašomoji statistika

3.3.5 lentelė

Nulinės hipotezės tikrinimo rezultatai

Visų stulpelių pirmoji eilutė yra lygių dispersijų atveju (Equal variances assumed), antroji –

nelygių (Equal variances not assumed). Šiuo atveju dispersijų laikyti lygiomis negalime, todėl

išvadas formuluojame pagal antrą eilutę.

32

Išvada: Kadangi p=0,000<0,05, tai nulinė hipotezė yra atmetama. Galime teigti, kad vyrų ir moterų

populiacijose vidutinis darbo valandų skaičius per savaite be virvalandžių statistiškai reikšmingai

skiriasi. Skirtumo tarp populiacijos vidurkių pasikliautinasis intervalas PI0,95= (µx-µy)=(0,965;

2,255). Su 95 % garantija galime teigti, kad vyrų ir moterų darbo valandų skaičius per savaitę be

viršvalandžių vidutiniškai skiriasi nuo 0,965 iki 2,255 val. (0,965< µx – µy <2,255 ).

3.4. Požymių priklausomumo analizė

Priklausomybės tarp vardinių ir rangų skalės kintamųjų analizei SPSS naudojamos požymių

dažnių lentelės (Crosstabs), taip pat yra didelė testų įvairovė priklausomybės laipsniui tarp

kintamųjų įvertinti. Plačiausiai taikomas iš neparametrinių kriterijų yra Chi-kvadrato (χ 2)

kriterijus, kuris naudojamas hipotezėms apie kintamojo skirstinį populiacijoje tikrinti. Chi-kvadrato

kriterijus parodo, ar empirinio ir teorinio skirstinių skirtumas yra reikšmingas, t.y. tikrinama, ar

turimas empirinis skirstinys yra suderintas su teoriniu modeliu (Čekanavičius ir Murauskas, 2000).

SPSS pakete Chi-kvadrato kriterijus yra skaičiuojamas trejopai: pagal Pirsono (Pearson) formulę,

pagal tikėtinumo santykio (Likelihood Ratio) formulę bei pagal Mantelio-Haenzelio (Linear-by-

Linear) formulę. Kai duomenys aprašomi keturlauke (2x2) dažnių lentele ir kai nors vienas tikėtinas

stebėjimų skaičius mažiau penkių, papildomai skaičiuojamas tikslus Fišerio (Fisher’s) kriterijus

(Pukėnas,2009). Matuojamiems pagal intervalų skalę kintamiesiems yra skaičiuojamas Pirsono

(Pearson) koreliacijos koeficientas. Kai stebimi kategoriniai kintamieji matuojami pagal rangų arba

vardinę skalę naudojami kiti ryšio stiprumo matai (Čekanavičius ir Murauskas, 2000).

Vardinių kintamųjų ryšio matai

• Phi – φ koeficientas skaičiuojamas χ 2 pagrindu eliminuojant imties dydžio įtaką.

Naudojamas tada, kai duomenys aprašomi keturlaukėmis (2x2) kontingencijos lentelėmis, t.

y. taikomas binariniams kintamiesiems. Didesnių lentelių atveju didžiausia φ reikšmė

priklauso nuo lentelės dydžio ir gali viršyti 1.

• Contingency Coefficient – kontingencijos koeficientas yra φ modifikacija, pritaikyta

didesnėms kontingencijos lentelėms. Kai kurie tyrėjai rekomenduoja šį koeficientą taikyti

5x5 ir didesnėms lentelėms.

• Cramer’s V – Kramerio V koeficientas yra dažniausiai naudojamas vardinių kintamųjų ryšio

matas, skaičiuojamas χ 2 pagrindu. Jis nepriklauso nuo lentelės dydžio, kai eilučių skaičius

lygus stulpelių skaičiui. Keturlaukėms lentelėms Kramerio V koeficientas sutampa su φ

koeficientu (Pukėnas, 2009).

33

Ranginių kintamųjų ryšio matai

Be dažniausiai taikomo Spearman‘o ranginės koreliacijos koeficiento dar naudojami

Kendall'o τ ir Gamma ranginės koreliacijos koeficientai. Spearman‘o ir Kendall'o τ koeficientai

interpretuojami skirtingai – Spearman‘o koeficientas analogiškas Pirsono (Pearson), tik

skaičiuojamas ranginiams duomenims (o jei duomenys yra intervaliniai – jie paverčiami ranginiais). SPSS yra pateikiami du Kendall'o ranginės koreliacijos koeficiento skaičiavimo variantai –

Kendall’s tau-b ir Kendall’s tau-c. Kendall'o tau-b koeficientas dažniausiai naudojamas keturlaukių

(2x2) lentelių atveju, Kendall'o tau-c koeficientas naudojamas didesnių negu 2x2 dimensijų lentelių

atveju.

SPSS požymių priklausomumo lentelės sudaromos pasirinkus komandą

Analyze → Descriptive Statistics → Crosstabs... Į laukelius Row(s) ir Colum(s) įkeliame

kintamuosius, kurių požymių priklausomumo lentelę norime sudaryti. Dialogo langelyje Statistics

pasirenkame Chi-square (χ 2 testą) ir spaudžiame Continue. Lukelio Cells komandų grupėje

Percentages pažymime Row, Colums ir Total (žr. 3.4.1 pav.):

3.4.1 pav. SPSS požymių priklausomumo lentelių sudarymas

34

1 pavyzdys. Norime atsakyti į klausimą: Ar yra priklausomybė tarp lyties ir domėjimosi politika?

Sudarome kintamųjų “Lytis” ir „Domėjimasis politika“ požymių priklausomumo lentelę. SPSS

gauti rezultatai pateikti 3.4.1 – 3.4.2 lentelėse.

3.4.1 lentelė

Kintamųjų „Lytis“ ir „Domėjimasis politika“ požymių priklausomumo lentelė

Išvados:

- 41 respondentas (t.y. 2,1 proc.) iš 1996 atsakiusių į abu klausimus yra vyrai, kurie labai domisi

politika.

- 4,1 proc. respondentų vyrų nurodė, kad labai domisi politika.

- 60,3 proc. respondentų, kurie nurodė, jog labai domisi politika yra vyrai.

Tikriname hipotezę:

Ho: „Atsitiktinai dydžiai X ir Y yra nepriklausomi“

Ha: „Atsitiktinai dydžiai X ir Y nėra nepriklausomi“

Nepriklausomumo hipotezės tikrinimo rezultatai pateikti 3.4.2 – 3.4.3 lentelėse.

3.4.2 lentelė Chi-kvadrato testo rezultatai

35

3.4.3 lentelė

Kintamųjų ryšio stiprumo matai

Išvada: Kadangi gavome, kad Pearson‘o Chi-Square p=0,000<0,05, Ho atmetama. Lytis ir

domėjimasis politika yra statistiškai reikšmingai susiję rodikliai. Ryšys tarp kintamųjų labai silpnas

(Cramer‘s V = 0,109).

Pastaba!!! Chi-kvadrato kriterijaus taikymas turi apribojimų. Norint taikyti Chi-kvadratą reikia

patikrinti ar tenkinamos tam tikros sąlygos. Chi-kvadrato kriterijaus taikymo schema pateikta 3.4.2

paveiksle.

3.4.1 pav. Chi-kvadrato taikymo schema (Janilionis, 1999-2001)

36

3.5. Ryšiai tarp kintamųjų

Koreliacinė analizė naudojama kuomet siekiame atsakyti į klausimus:

• Ar atsitiktiniai dydžiai yra priklausomi?

• Koks yra ryšio stiprumas tarp kintamųjų?

• Kokia kintamųjų priklausomybės išraiška?

Koreliacinėje analizėje statistinio ryšio stiprumas tarp stebėtų kintamųjų, yra išreiškiamas

koeficientu. Koreliacija parodo ryšio kryptį – vieno kintamojo reikšmei didėjant, kito kintamojo

reikšmė gali didėti arba mažėti. Koreliacijos koeficientai įgyja reikšmes nuo –1 iki 1. Teigiama

reikšmė – tiesioginė koreliacija, neigiama reikšmė – atvirkštinė koreliacija. Kuo reikšmė arčiau –1

arba 1, tuo priklausomybė tarp kintamųjų yra stipresnė (Janilionis, 1999-2001).

Pagrindiniai koreliacijos koeficientai:

• Pirsono (Pearson) – tiesinio ryšio stiprumo matas. Jis gali būti naudojamas, kai stebimų

atsitiktinių dydžių X ir Y skirstiniai yra normalieji (reikšmės yra išmatuotos intervalų arba

santykių skalėje).

• Intervaliniams kintamiesiems, kuriems normalumo prielaida nėra tenkinama, ir ranginiams

kintamiesiems yra skaičiuojamas Spirmeno (Spearman) arba Kendall’o τ-b koreliacijos

koeficientas.

Koreliaciją tarp kintamųjų galima paskaičiuoti SPSS pasirinkus komandą: Analyze →

Correlate... → Bivariate... (žr. 3.5.1 pav.).

3.5.1 pav. Koreliacinė analizė SPSS

37

1 pavyzdys. Atliekame kintamųjų “Pasitikėjimas Europos parlamentu” ir “Pasitikėjimas Jungtinių

tautų organizacija” koreliacinę analizę.

Tikriname hipotezę:

Ho: „Spearman’o koreliacijos koeficientas lygus nuliui“

Ha: „Spearman’o koreliacijos koeficientas nėra lygus nuliui“

Rezultatai pateikti 3.5.1 lentelėje.

3.5.1 lentelė

Spearman‘o koreliacijos koeficiento skaičiavimo rezultatai

Išvada: Kadangi p = 0,000 < 0,01, galime teigti, jog ryšys tarp kintamųjų yra statistiškai

reikšmingas, Ho (kad kintamieji yra nepriklausomi) atmetama. Spearman’o koreliacijos

koeficientas lygus 0,894, ryšys tarp kintamųjų yra stiprus.

4. STATISTINIŲ TYRIMŲ ATASKAITŲ RENGIMO PRINCIPAI

4.1. Tyrimo ataskaitos sudedamosios dalys

Vienas galimų tyrimo ataskaitos struktūros variantų yra pateikiamas Amerikos psichologų

asociacijos (APA) (pagal Merkys et al, 2004). Pagal APA rekomendacijas, ataskaitos sudedamosios

dalys yra:

• Titulinis lapas (pavadinimas, autorius, institucija)

• Santrauka/Anotacija

• Pagrindinė ataskaitos dalis, kuri apima:

• Įvadas (įžanga) – problema ir jos ištirtumas (literatūros apžvalga), tikslas ir

uždaviniai

• Tyrimo metodikos ir atlikimo pristatymas - respondentai, tiriamieji, tyrimo

38

instrumentai ir procedūros

• Tyrimo rezultatų pristatymas - pagrindinių rezultatų išdėstymas

• Aptarimas (diskusija) - ryšio tarp iškelto tikslo ir gautų rezultatų aptarimas

(išvados), teoriniai ir metodologiniai apibendrinimai, tolesnių tyrimų krypčių

apibūdinimas (rekomendacijos).

• Literatūra/ šaltiniai

• Priedai

Tačiau Europoje vyrauja kitokios tradicijos, dažnai atskirai pateikiama teorinė dalis, kurioje

plačiai atskleidžiama tiriamojo reiškinio samprata.

4.2. Lentelių ir vaizdinės medžiagos pateikimo principai

Lentelės ir jų apipavidalinimas yra svarbūs, nes suteikia galimybę susiteminti duomenis

palyginamumo principu. Kaip teigiama leidinyje „Užsakomųjų tyrimų ataskaitos rengimas“

(Merkys et al., 2004), „lentelės padeda skaitytojui visybiškai apžvelgti galimus duomenų tarpusavio

ryšius ir nesunkiai įžvelgti dėsningumus ar požymių skirtumus”.

Pagrindinis tekstas neturi tiesiogiai ir smulkmeniškai atpasakoti lentelės duomenų, tačiau

lentelė turi būti suprantama neskaitant teksto.

Lentelėms keliami reikalavimai:

• Lentelės turi būti vaizdžios ir nesunkiai suprantamos;

• Lentelės turi būti nedidelės ir lengvai apžvelgiamos;

• Lentelėse žodžiai turi būti rašomi be trumpinimų, galima naudoti tik visuotinai

priimtinus standartinius žymėjimus;

• Turi būti aišku, koks požymis (kintamasis, dimensija) atspindėtas lentelėje;

• Turi būti aišku, kokie dydžiai (absoliutūs ar procentinė išraiška) naudojami.

Lentelių formatavimui rekomenduojama (Merkys et al., 2004):

• naudoti kuo mažiau linijų, taškelių, brūkšnelių ar spalvų;

• lentelės stulpelyje naudoti tą patį ženklų skaičių po kablelio (pvz. 0,21; 0,30);

• pagrindiniame tekste teikti nuorodas į lenteles;

• lentelės pavadinime pateikti informaciją apie tyrimą, pvz, tyrimo tipas, imties tūris.

Lentelės pavadinimas pateikiamas virš paaiškinamos lentelės. Lentelės pavadinimas turi

aiškiai įvardinti pateikiamą turinį. Pavadinime neturi būti bereikalingų ir pasikartojančių žodžių.

Ataskaitoje vaizdinė medžiaga taip pat turėtų būti pateikiama aiškiai ir suprantamai. Visa

grafinė medžiaga įvardijama kaip PAVEIKSLAS. Paveikslu laikoma bet kokia grafinio pobūdžio

informacija, išskyrus lentelę. Tai fotografijos, piešiniai, brėžiniai, schemos, statistinius-kiekybinius

procesus atspindintys grafikai ir pan. (Merkys et al., 2004).

39

Paveikslo pavadinimas yra rašomas po paveikslu. Pavadinimas turi aiškiai įvardinti paveikslo

turinį. Pavadinimas rašomas panaudojant paveikslo turinį apibūdinančius raktinius žodžius ir

sujungiant juos į logiškai prasmingą sakinį.

Paveikslų pateikimo klaidos:

• Duomenų įvesties;

• Netinkamo grafiko tipo pasirinkimas.

Pasirenkant tinkamą grafiko tipą, reikia atsižvelgti į šias rekomendacijas (Merkys et al.,

2004):

• Reikia atsižvelgti į skalių tipą. Vardų (nominalinės) skalės kintamieji gali būti pateikiami

stulpelinių ar skritulinių diagramų pavidalu. Klaida – kai vardų skalės kintamieji (pvz. lytis,

tautybė) pateikiami linijinės diagramos pavidalu. Tvarkos skalės kintamieji gali būti

pateikiami stulpelinių ir skritulinių diagramų pavidalu. Kintamųjų reikšmės grafike turi būti

išdėstytos nuosekliai, o ne pagal reikšmės didumą.

• Spalvų perteklius mažina paveikslo efektyvumą. Paveikslas turi būti informatyvus tiek

atspausdinus spalvotai, tiek nespalvotai. Reikia vengti “vizualinio triukšmo”.

4.3. Kartografinės medžiagos pateikimas

Kartogramos – žemėlapiai, naudojami reiškinių paplitimui tam tikroje teritorijoje atvaizduoti.

Reiškinio paplitimas parodomas foniniais atributais (spalvomis ar brūkšniais).

4.3.1 pav. Kartografinės medžiagos pateikimas (Merkys et al., 2004)

40

Literatūra: 1. Augutis J., Krikštolaitis R. (2006). Kompiuterinis tyrimo duomenų apdorojimas. – Šiauliai:

Projektas MOKOM.

2. Čekanavičius V., Murauskas G. (2002). Statistika ir jos taikymai, I dalis. – Vilnius: TEV.

3. Janilionis V. Statistika ir duomenų analizės programinė įranga. Distancinio mokymo kursas. –

Kaunas: KTU, 1999-2001. Prieiga per internetą: http://fmf.ktu.lt/janil/stat1.htm.

4. Merkys et al. (2004). Užsakomųjų tyrimų ataskaitos rengimas.

http://www.smm.lt/svietimo_bukle/tyrimai_sb.htm

5. Pukėnas K. (2005). Sportinių tyrimų duomenų analizė SPSS programa: mokomoji knyga. –

Kaunas: LKKA.

6. Pukėnas K. (2009). Kokybinių duomenų analizė SPSS programa: mokomoji knyga. – Kaunas:

LKKA.

lida lietuvos hsm duomenų archyvas - kiekybini duomen … · 2011-11-11 · projektas „lietuvos...

Documents