duomenų statistinis apdorojimas (patarimai studentams ... · •tinka duomenų kaupimui, bet kai...

32
Duomenų statistinis apdorojimas (patarimai studentams, dirbantiems mokslinį darbą) A. Barkus 2014 02 24

Upload: ngonhi

Post on 06-Oct-2018

228 views

Category:

Documents


2 download

TRANSCRIPT

Page 1: Duomenų statistinis apdorojimas (patarimai studentams ... · •Tinka duomenų kaupimui, bet kai ... įvedus naujo individo duomenis ir turint jau nusta對tytas skaiŜ爀椀愀瘀椀洀漀

Duomenų statistinis

apdorojimas

(patarimai studentams,

dirbantiems mokslinį darbą)

A. Barkus

2014 02 24

EGLE
Sticky Note
Marked set by EGLE
EGLE
Sticky Note
Marked set by EGLE
EGLE
Sticky Note
Marked set by EGLE
EGLE
Sticky Note
Marked set by EGLE
Page 2: Duomenų statistinis apdorojimas (patarimai studentams ... · •Tinka duomenų kaupimui, bet kai ... įvedus naujo individo duomenis ir turint jau nusta對tytas skaiŜ爀椀愀瘀椀洀漀

Kompiuterinės duomenų bazės

sukūrimas

MS Access - ???

MS Excel - ???

SPSS - ???

EGLE
Typewritten Text
Patarimas: nepasitikėkite vient tik kompiuteriu, geriau turėkite ir popierinį variantą ar kažką, kur galėtumėte pasitikslinti originalią informaciją (galbūt įvedimo klaida iškreipia rezultatus, o tai aktualu tiriant mažas imtis)
EGLE
Sticky Note
Marked set by EGLE
Page 3: Duomenų statistinis apdorojimas (patarimai studentams ... · •Tinka duomenų kaupimui, bet kai ... įvedus naujo individo duomenis ir turint jau nusta對tytas skaiŜ爀椀愀瘀椀洀漀

MS Access - ???

• Patogu kaupti, peržiūrėti, rūšiuoti

duomenis, ieškoti jų ir pan.

• Patogu parodyti vieno individo

duomenis

• Nėra skirta statistiniams darbams

EGLE
Typewritten Text
Programa skirta labiau klinikinei praktikai, ypač pildant vieno asmens anketą (padaroma forma, į kurią suvedami visi vieno individo duomenys - sukuriama kartoteka) Tinka tik kaupimui, tačiau šiuos duomenis galima apibendrinti padarant lentelę, o vėliau, ją perkėlus į atitinkamą programą, apdoroti statištiškai.
Page 4: Duomenų statistinis apdorojimas (patarimai studentams ... · •Tinka duomenų kaupimui, bet kai ... įvedus naujo individo duomenis ir turint jau nusta對tytas skaiŜ爀椀愀瘀椀洀漀
Page 5: Duomenų statistinis apdorojimas (patarimai studentams ... · •Tinka duomenų kaupimui, bet kai ... įvedus naujo individo duomenis ir turint jau nusta對tytas skaiŜ爀椀愀瘀椀洀漀

MS Excel - ???

• Tinka duomenų kaupimui, bet kai

kuriais atžvilgiais nusileidžia MS

Access’ui

• Idealiai tinka nesudėtingai statistinei

analizei (turint įžūlumo – ir

sudėtingai analizei ☺)

• Geros diagramų kūrimo galimybės

EGLE
Typewritten Text
Šioje programoje pakanka funkcijų net mokslinių disertacijų statistinei analizei, be to, čia geresnės grafikų ir diagramų kūrimo galimybės, patogiau ruošiantis pristatymams Gyva dinamiška duomenų bazė - įvedus naujo individo duomenis ir turint jau nustatytas skaičiavimo funkcijas, rezultatai (vidurkiai ir kiti rodikliai) iš karto keičiasi
EGLE
Sticky Note
Marked set by EGLE
Page 6: Duomenų statistinis apdorojimas (patarimai studentams ... · •Tinka duomenų kaupimui, bet kai ... įvedus naujo individo duomenis ir turint jau nusta對tytas skaiŜ爀椀愀瘀椀洀漀

SPSS - ???

• Galinga statistinė programa, didelis

metodų pasirinkimas

• Kaip duomenų bazė - nusileidžia MS

Excel’iui

• Bazė ir skaičiavimų rezultatai

atsiduria skirtinguose failuose,

nesusieti

EGLE
Typewritten Text
Nedinamiška sistema - įvedus naujus duomenis ar net vieną skaičių pakeitus, rodiklius reikės perskaičiuoti iš naujo, dėl to geriau šioje programoje atlikti tik skaičiavimus, o duomenų bazę pasidaryti kita programa
Page 7: Duomenų statistinis apdorojimas (patarimai studentams ... · •Tinka duomenų kaupimui, bet kai ... įvedus naujo individo duomenis ir turint jau nusta對tytas skaiŜ爀椀愀瘀椀洀漀

Imties parametrai:

aprašomoji statistika

• imties dydis - n

• vidurkis

• standartinis nuokrypis - SD

• dispersija

• standartinė paklaida - SE

EGLE
Typewritten Text
Kiek yra atvejų
EGLE
Typewritten Text
SD kvadratas
EGLE
Typewritten Text
Vidurkio paklaida
Page 8: Duomenų statistinis apdorojimas (patarimai studentams ... · •Tinka duomenų kaupimui, bet kai ... įvedus naujo individo duomenis ir turint jau nusta對tytas skaiŜ爀椀愀瘀椀洀漀

Parametras EXCEL funkcija

imties dydis COUNT

vidurkis AVERAGE

standartinis

nuokrypis STDEV

ribinės reikšmės MIN MAX

EGLE
Typewritten Text
Patarimas: šiuos dydžius patariama apsiskaičiuoti po kiekvienu stulpeliu, kuriame skaitiniai duomenys
EGLE
Typewritten Text
Jei parametras žodinis, naudoti funkciją COUNTIF
Page 9: Duomenų statistinis apdorojimas (patarimai studentams ... · •Tinka duomenų kaupimui, bet kai ... įvedus naujo individo duomenis ir turint jau nusta對tytas skaiŜ爀椀愀瘀椀洀漀

SD

standartinis nuokrypis

“standard deviation”

vidutinis kvadratinis nuokrypis

“sigma”

EGLE
Typewritten Text
SD rodo per kiek nutolę imties elementai nuo vidurkio (didelis - labai išsibarstę, mažas - rezultatai arčiau vidurkio)
Page 10: Duomenų statistinis apdorojimas (patarimai studentams ... · •Tinka duomenų kaupimui, bet kai ... įvedus naujo individo duomenis ir turint jau nusta對tytas skaiŜ爀椀愀瘀椀洀漀

SE – vidurkio paklaida

EGLE
Typewritten Text
Komentaras: vidurkis tiksliau nurodomas ± SE. SE naudinga pasikliautinių intervalų (PI) skaičiavimui
Page 11: Duomenų statistinis apdorojimas (patarimai studentams ... · •Tinka duomenų kaupimui, bet kai ... įvedus naujo individo duomenis ir turint jau nusta對tytas skaiŜ爀椀愀瘀椀洀漀

Pasikliautinių intervalų

skaičiavimas

• 95 proc. PI – t =1,96

• 99 proc. PI – t =2,58

• 99,9 proc. PI – t =3,29

EGLE
Typewritten Text
Priklausomai nuo pasirinkto tikslumo, įstatoma t reikšmė ir apskaičiuojamos intervalo ribos Prasmė - lyginant imtis galima bus teigti, kad kitos imties vidurkis bus tarp apskaičiuoto intervalo ribų
Page 12: Duomenų statistinis apdorojimas (patarimai studentams ... · •Tinka duomenų kaupimui, bet kai ... įvedus naujo individo duomenis ir turint jau nusta對tytas skaiŜ爀椀愀瘀椀洀漀

SD proporcijų atveju:

EGLE
Typewritten Text
jei skaičiuojama procentais
EGLE
Typewritten Text
jei skaičiuojama skaičiaus dalimis
Page 13: Duomenų statistinis apdorojimas (patarimai studentams ... · •Tinka duomenų kaupimui, bet kai ... įvedus naujo individo duomenis ir turint jau nusta對tytas skaiŜ爀椀愀瘀椀洀漀

SE proporcijų atveju:

Page 14: Duomenų statistinis apdorojimas (patarimai studentams ... · •Tinka duomenų kaupimui, bet kai ... įvedus naujo individo duomenis ir turint jau nusta對tytas skaiŜ爀椀愀瘀椀洀漀
EGLE
Typewritten Text
Patarimai: a) jei turite Data analysis, tomet naudokitės jos teikiamomis funkcijomis b) jei neturite - tuomet pasirinkite Add-ins ir vykdyke tolimesnės skaidrės nurodymus
Page 15: Duomenų statistinis apdorojimas (patarimai studentams ... · •Tinka duomenų kaupimui, bet kai ... įvedus naujo individo duomenis ir turint jau nusta對tytas skaiŜ爀椀愀瘀椀洀漀
EGLE
Typewritten Text
Pažymėkite tris pirmus punktus varnelėmis ir paspauskite OK. Nuo šiol galėsite naudotis Excel teikiamais malonumais
Page 16: Duomenų statistinis apdorojimas (patarimai studentams ... · •Tinka duomenų kaupimui, bet kai ... įvedus naujo individo duomenis ir turint jau nusta對tytas skaiŜ爀椀愀瘀椀洀漀
EGLE
Typewritten Text
Pastaba: aprašomoji statistika tinka tik skaitiniams rodikliams, netinka aprašomiesiems
Page 17: Duomenų statistinis apdorojimas (patarimai studentams ... · •Tinka duomenų kaupimui, bet kai ... įvedus naujo individo duomenis ir turint jau nusta對tytas skaiŜ爀椀愀瘀椀洀漀
Page 18: Duomenų statistinis apdorojimas (patarimai studentams ... · •Tinka duomenų kaupimui, bet kai ... įvedus naujo individo duomenis ir turint jau nusta對tytas skaiŜ爀椀愀瘀椀洀漀

Ūgis cm Svoris kg

Mean 165,5 Mean 73,4

Standard Error 0,7 Standard Error 2,3

Median 167,0 Median 70,9

Mode 168,0 Mode 60,7

Standard Deviation 4,1 Standard Deviation 14,5

Sample Variance 17,1 Sample Variance 209,4

Kurtosis 1,0 Kurtosis -1,0

Skewness -1,1 Skewness 0,0

Range 19,0 Range 55,3

Minimum 153,0 Minimum 42,2

Maximum 172,0 Maximum 97,5

Sum 6620,0 Sum 2934,3

Count 40,0 Count 40,0

Confidence Level(95,0%) 1,3 Confidence Level(95,0%) 4,6

EGLE
Typewritten Text
Pastaba: šios lentelės duomenys nedinamiški, todėl naujai įvedus duomenis ar pakeitus rodmenį, šie dydžiai nepasikeis, reikės lentelę atnaujinti rankiniu būdu
Page 19: Duomenų statistinis apdorojimas (patarimai studentams ... · •Tinka duomenų kaupimui, bet kai ... įvedus naujo individo duomenis ir turint jau nusta對tytas skaiŜ爀椀愀瘀椀洀漀

Ūgis cm

Mean 165,5

Standard Error 0,7

Median 167,0

Mode 168,0

Standard Deviation 4,1

Sample Variance 17,1

Kurtosis 1,0

Skewness -1,1

Range 19,0

Minimum 153,0

Maximum 172,0

Sum 6620,0

Count 40,0

Confidence Level(95,0%) 1,3

Page 20: Duomenų statistinis apdorojimas (patarimai studentams ... · •Tinka duomenų kaupimui, bet kai ... įvedus naujo individo duomenis ir turint jau nusta對tytas skaiŜ爀椀愀瘀椀洀漀

Stjudento t-kriterijus

EGLE
Typewritten Text
Vadinasi, kuo daugiau respondentų, kuo mažesnis SD ir kuo didesnis skirtumas tarp vidurkių, tuo t-kriterijaus reikšmė didesnė ir tuo skirtumas tarp tirtų grupių yra patikimesnis To gali prireikti palyginant savo duomenis su kitų autorių darbais
EGLE
Typewritten Text
Turint dvi lyginamas grupes, skaičiuojamas Stjudento kriterijus (kuo jis didesnis, tuo didesnis skirtumas tarp lyginamųjų grupių). Šiai reikšmei įtaką daro: a) atvejų skaičius - kuo didesnis, tuo didesnis ir kriterijus b) SD reikšmė - kuo ji mažesnė, tuo t-kriterijus didesnis c) vidurkių skirtumas - kuo jis didesnis, tuo didesnė t-kriterijaus reikšmė
EGLE
Sticky Note
Marked set by EGLE
Page 21: Duomenų statistinis apdorojimas (patarimai studentams ... · •Tinka duomenų kaupimui, bet kai ... įvedus naujo individo duomenis ir turint jau nusta對tytas skaiŜ爀椀愀瘀椀洀漀

Kritinės t reikšmės:

• p = 0,05

• p = 0,01

• p = 0,001

• t = 1,96

• t = 2,58

• t = 3,29

EGLE
Typewritten Text
Kuo kriterijus didesnis, tuo mažėsnė tikimybė, kad padarėte klaidą analizuodami duomenis
EGLE
Sticky Note
Marked set by EGLE
Page 22: Duomenų statistinis apdorojimas (patarimai studentams ... · •Tinka duomenų kaupimui, bet kai ... įvedus naujo individo duomenis ir turint jau nusta對tytas skaiŜ爀椀愀瘀椀洀漀
EGLE
Typewritten Text
Šio kriterijaus trūkumas - tinka tik studijoms, kuriose > nei 30 tiriamųjų Pliusas - lyginamosios grupės nebūtinai turi būti vienodos Pastaba: prie type - geriau rašyti 3 (skirtingos variacijos); o 1 rašomas kai lyginamos ne dvi skirtingos grupės, o ta pati grupė, tas pats tyrimas, tik kad skirtingu laikotarpiu atliktas (pvz.: prieš ir po gydymo)
Page 23: Duomenų statistinis apdorojimas (patarimai studentams ... · •Tinka duomenų kaupimui, bet kai ... įvedus naujo individo duomenis ir turint jau nusta對tytas skaiŜ爀椀愀瘀椀洀漀

ANOVA

• ANalysis Of VAriance

= Dispersinė analizė

• Iš karto lyginama daug grupių

EGLE
Typewritten Text
ANOVA patogu lyginti kelias grupes tarpusavyje Data analysis -> anova: single factor -> įvesties langelyje pasirenkami keli stulpeliai/eilutės - lyginamosios grupės
Page 24: Duomenų statistinis apdorojimas (patarimai studentams ... · •Tinka duomenų kaupimui, bet kai ... įvedus naujo individo duomenis ir turint jau nusta對tytas skaiŜ爀椀愀瘀椀洀漀
Page 25: Duomenų statistinis apdorojimas (patarimai studentams ... · •Tinka duomenų kaupimui, bet kai ... įvedus naujo individo duomenis ir turint jau nusta對tytas skaiŜ爀椀愀瘀椀洀漀
EGLE
Typewritten Text
F reikšmė - rodo ar svarbus ryšys ar ne: jei F > F crit, vadinasi patikimai siejasi F crit - kritinė reikšmė - svarbi palyginimui P-value - p reikšmė - jei <0,05 - rodo, kad grupės tarpusavyje skiriasi patikimai, tik nerodo kuri nuo kurios Patarimas, jei p<0,05, tai patikimas skirtumas tikrai turėtų būti tarp grupių turinčių max ir min vidurkius
Page 26: Duomenų statistinis apdorojimas (patarimai studentams ... · •Tinka duomenų kaupimui, bet kai ... įvedus naujo individo duomenis ir turint jau nusta對tytas skaiŜ爀椀愀瘀椀洀漀

Chi-test 2*2

proc.

8 16 24 66,7

3 90 93 96,8

11 106 117 90,6

p/chi

2,3 21,7 24 0,000007

8,7 84,3 93 20,27

11 106 117

EGLE
Typewritten Text
Principas (analizuojami neskaitiniai dydžiai - vertinamas jų dažnumas imtyje): a) pirma eilutė - viena grupė; antra - kita grupė b) stulpeliai - grupių nagrinėjami požymiai c) langeliuose nurodomi empiriniai dažnumai
EGLE
Typewritten Text
Žinant empirinius dažnumus, nustatomi teoriniai: tokie, kurie būtų, jei grupės būtų visiškai vienodos
EGLE
Typewritten Text
Pasirinkus funkciją CHITEST randama p reikšmė. jei ji <0,05 - vadinasi tiriamose grupėse požymių dažniai patikimai skiriasi Patogu, nes galima skaičiuoti dideles lenteles. Minusas - teorinius dydžius reikia susikaičiuoti ranka Reikalavimai abiejose lentelėse: neturėtų būti langelio, kurio vertė <nei 5 (tai kartais leidžiama jei lentelė didesnė nei 2x2
Page 27: Duomenų statistinis apdorojimas (patarimai studentams ... · •Tinka duomenų kaupimui, bet kai ... įvedus naujo individo duomenis ir turint jau nusta對tytas skaiŜ爀椀愀瘀椀洀漀

Fisher exact test

2 5 7

2 16 18

4 21 25

p reikšmė

0,253992

EGLE
Typewritten Text
Alternatyva chi t-kriterijui - F tikslusis kriterijus Jis tinka mažoms imtims (<30atvejų), nors tinka ir didesnėms - reikšmė nuo t-kriterijaus mažai skirsis
EGLE
Typewritten Text
Būtina atsiminti: F testas tinka tik 2x2 lentelėms
Page 28: Duomenų statistinis apdorojimas (patarimai studentams ... · •Tinka duomenų kaupimui, bet kai ... įvedus naujo individo duomenis ir turint jau nusta對tytas skaiŜ爀椀愀瘀椀洀漀

Koreliacijos koeficientas:

EGLE
Typewritten Text
Parodo, kaip vienas dydis koreliuoja su kitu Pastaba: pageidautina, kad nagrinėjami dydžiai turėtų vienodą skaičų duomenų langelių. Vertinimas: a) jei r - 0, vadinasi dydžiai nesusiję b) jei r-1, vadinasi dydžiai susiję,tačiau be SPSS neaišku ar ši koreliacija patikima, nes Excel neskaičiuoja kritinės reikšmės, todėl reiktų naudotis lentelėmis, ir iš jų imti pastarąją reikšmę
EGLE
Sticky Note
Marked set by EGLE
Page 29: Duomenų statistinis apdorojimas (patarimai studentams ... · •Tinka duomenų kaupimui, bet kai ... įvedus naujo individo duomenis ir turint jau nusta對tytas skaiŜ爀椀愀瘀椀洀漀
Page 30: Duomenų statistinis apdorojimas (patarimai studentams ... · •Tinka duomenų kaupimui, bet kai ... įvedus naujo individo duomenis ir turint jau nusta對tytas skaiŜ爀椀愀瘀椀洀漀

4,00

5,00

6,00

7,00

8,00

9,00

10,00

4,00 5,00 6,00 7,00 8,00 9,00 10,00

Anatomija

His

tolo

gij

a

Page 31: Duomenų statistinis apdorojimas (patarimai studentams ... · •Tinka duomenų kaupimui, bet kai ... įvedus naujo individo duomenis ir turint jau nusta對tytas skaiŜ爀椀愀瘀椀洀漀
Page 32: Duomenų statistinis apdorojimas (patarimai studentams ... · •Tinka duomenų kaupimui, bet kai ... įvedus naujo individo duomenis ir turint jau nusta對tytas skaiŜ爀椀愀瘀椀洀漀

Ūgis cm Svoris kg KMI BF proc. BF kg Cholest TAG

Ūgis cm 1,000

Svoris kg 0,579 1,000

KMI 0,402 0,978 1,000

BF proc. 0,278 0,706 0,724 1,000

BF kg 0,497 0,959 0,952 0,874 1,000

Cholest -0,120 0,105 0,142 0,255 0,194 1,000

TAG -0,194 -0,044 0,004 0,050 -0,001 0,500 1,000

EGLE
Typewritten Text
Koreliacijos koeficientus galima apskaičiuoti visiems savo turintiems duomenims, juos lyginant tarpusavyje Problema: šis metodas taikomas tik matuotiniems dydžiams, o aprašomiesiems reikėtų skaičiuoti Pirson'o asociacijos koeficientą