curs 3 cercetare
TRANSCRIPT
-
7/30/2019 Curs 3 Cercetare
1/51
CURS 3
-
7/30/2019 Curs 3 Cercetare
2/51
Prepararea, Analiza si Interpretarea Datelor
in majoritatea studiilor stiintifice, pasii parcursi pana la obtinerea datelor au fost:
formularea unei intrebari care sta la baza studiului (ce vrem sa
demonstram)
selectarea unui tip adecvat de cercetare pentru acest caz
stabilirea participantilor la studiu (cohorta adecvata, grup, etc)
selectarea unor metode de masurare exacte si valide
in urma acestor pasi, se obtin rezultate (date) care trebuie prelucrate (preparate),analizate si interpretate
-
7/30/2019 Curs 3 Cercetare
3/51
Prepararea, Analiza si Interpretarea Datelor
Prepararea datelor
Datele furnizeaza informatii, care in cele din urma fie:
descriu fenomene
prezic evenimente
identifica si cuantifica diferentele dintre conditii
stabilesc eficacitatea unor interventii
In cele din urma se organizeaza o baza de date care faciliteaza acuratetea si eficientaanalizelor statistice
-
7/30/2019 Curs 3 Cercetare
4/51
Prepararea, Analiza si Interpretarea Datelor
Modul de organizare a datelor
A. Aranjarea logica a datelor
B. Screening de date
C. Construirea unei baze de date
D. Introducerea datelor
E. Prelucrarea datelor prin:
identificarea si codarea valorilor omise
compunerea de variabile totale sau de noi variabile
folosirea scalei inversate
recodarea variabilelor pe categorii
-
7/30/2019 Curs 3 Cercetare
5/51
A. Aranjarea Logica a Datelor
datele pentru cercetare pot proveni de la un numar mare de surse (exemplu: din interviul
participantilor, din observatie, raportari de date de laborator, etc), putand usor devenidezorganizate sau neinterpretabile
desi nu exista o regula stricta, cele mai multe studii folosesc computerul la care existaprograme specifice (Microsoft Access, Microsoft Excel. Claris FileMaker, etc)
un element de maxima importanta il reprezinta recrutarea logica, adica inregistrarea logica,cu inteles a tuturor indivizilor / elementelor ce participa la studiu
De exemplu:
cand (data) au fost abordati participantii la studiu
daca indeplinesc criterii de eligibilitate
daca isi dau consimtamantul sa participe la studiu
in urma acestei ordonari, se poate determina cat este de reprezentativa cohorta de participanti
la studiu fata de populatia la care se adreseaza cercetarea
-
7/30/2019 Curs 3 Cercetare
6/51
B. Screening-ul de Date
imediat dupa colectarea datelor, dar inainte de a fi introduse, cercetatorul trebuie sa se asigure
de acuratetea datelor, folosind o metoda de screening (to screen = a cerne)
Rapiditatea este obligatorie, pentru a se putea recontacta participantii la studiu daca dateleobtinute / raspunsurile au avut omisiuni, erori, inexactitati
in unele cazuri, vina pentru erori apartine exclusiv cercetatorilor, care au facut greseli ininregistrarea informatiilor. Ei vor fi raspunzatori cu corectarea acestor greseli (in cazuri
posibile), nemaifiind necesar recontactarea participantilor
pentru a simplifica procesul descreening al datelor, se foloseste computerul:Programele de pe computer pot fi astfel concepute incat sa accepte doar
raspunsuri intre anumite valori
- sa controleze raspunsurile lipsa
- sa efectueze chiar teste de control in cadrul raspunsurilor inregistrate, pentru a
identifica potentiale inadervente cat mai precoce
Alt avantaj este acela ca prin aceste programe se pot transfera electronic
datele intr-o baza permanenta de date, si automat pot fi apoi prelucrate
-
7/30/2019 Curs 3 Cercetare
7/51
C. Construirea unei Baze de Date
dupa realizarea screening-ului si dupa ce corectiile au fost facute, toate datele ar trebui saintre intr-o baza de date
alcatuirea unei baze de date, modul cum va fi alcatuita si ce va contine, presupune de obiceica cercetatorul sa gandeasca retrospectiv la ce studiaza tema de cercetare si modul cum
datele vor fi analizate
Astfel, cercetatorul stabileste mai clar ce variabile sunt necesare in baza de date, cum se vor
ordona ele si ce format vor avea
este util uneori, sa se creeze coduri de date (data codebook) care reprezinta o lista scrisa(computerizata) ce furnizeaza o descriere clara, inteligibila a variabilelor ce vor intra in bazade date
Codarea acestor elemente din baza de date, permite ca la o noua reanalizare a
datelor sa nu existe dubii asupra a ceea ce reprezinta variabilele
Contine (minim):
numele variabilei descrierea variabilei
formatul variabilei (numar, data, text)
instrument sau metoda de colectare
localizare in data de baze
-
7/30/2019 Curs 3 Cercetare
8/51
D. Introducerea Datelor
dupa ce datele au fost supuse unui screening care le-a testat gradul de acuratete si cat decomplete sunt ele, s-a alcatuit o baza de date (inclusiv coduri pentru date) urmandintroducerea datelor
reprezinta o etapa care cere multa atentie si antrenament
pentru eliminarea erorilor se foloseste frecvent procedeul dublei intrari, adica datele suntintroduse in baza de date de doua ori, observandu-se discrepantele
ca alternativa pentru metoda dublei intrari, cercetatorul poate crea o metoda de detectare ainadvertentelor datelor (de exemplu: detectarea unor valori prea mari / prea mici, a lipsei unei
valori, a unui format incorect)
multe programe de baze de date (Microsoft Excel, Microsoft Access) permit cercetatorului sadefineasca intervale sau formate sau tipuri de date care sa fie acceptate. Aceste baze de date
nu permit automat sa intre informatii care nu indeplinesc anumite criterii presetate
-
7/30/2019 Curs 3 Cercetare
9/51
E. Prelucrarea Datelor
reprezinta urmatoarea etapa, inainte de a se face analiza datelor
Aceste prelucrari constau in:
1. Identificarea si codarea valorilor omise
2. Calcularea de variabile noi sau variabile totale
3. Folosirea metodei scalei inversate
4. Recodarea variabilelor
-
7/30/2019 Curs 3 Cercetare
10/51
1. Identificarea si Codarea Valorilor Omise
inevitabil, orice baza de date va avea un numar de valori omise, din diverse cauze:
fie participantii nu raspund la anumite intrebari fie sunt omise unele observatii
fie exista date inexacte care sunt rejectate de catre baza de date
frecvent, cercetatorii nu vor sa inlcuda in studiu asemenea cazuri cu valori omise, deoareceexista riscul de a altera rezultatul
cele mai multe programe statistice (SPSS, SAS) au incluse ca optiune: fie ignorarea cazurilor cu valori omise
fie trateaza automat valorile lipsa ca valoare nula
exista si cateva tehnici de calcul pentru a rezolva problema valorilor omise: prin identificare de participanti ce furnizeaza variabile asemanatoare cu valorile
omise
se face media predictiva a omisiunii prin procedee statistice (de exemplu: prin
regresie liniara pentru date continue) valorile omise sunt inlocuite cu valoare mediei variabilelor dintr-un grup (sau mod,
in caz de date categoriale)
-
7/30/2019 Curs 3 Cercetare
11/51
2. Calcularea de Noi Variabile sau Variabile Totale
sunt cazuri in care cercetatorul vrea sa creeze noi variabile, bazate pe valorile altor variabileExemplu simplu: - sunt date (variabile) asupra internarilor saptamanale intr-o
sectie de spital. Se poate crea o noua variabila: numarul
total de internari intr-o luna (4 saptamani)
se fac asemenea calculari (noi variabile) si in cazuri cand variabilele nu sunt normal distribuiteDistributie normala (Gauss): atunci cand la schitarea valorilor unor variabile
se obtine o curba simetrica, in clopot, care
creste usor de la un numar mic de cazuri la
fiecare extrema, pana la un numar mare decazuri, la mijloc
Cand variabilele nu sunt normal distribuite, poate apare fie:
supraestimare (eroare tip I)
subestimare (eroare tip II)
Din pacate, multe variabile din stiintele sociale sau in cadrul unor categorii
sociale sunt inegal distribuite (curbe deviate) si pentru calcule statistice sefolosesc noi variabile provenite din prelucrarea variabilelor, folosind:
radacina patrata (radical) din fiecare valoare a variabilelor
logaritm
inversare (3 devine 1/3, 4 devine )
-
7/30/2019 Curs 3 Cercetare
12/51
3. Folosirea Metodei Scalei Inversate
scop: pentru a impiedica participantii sa cada in monotonie de raspunsuri (raspuns standard)
exemplu: se inverseaza in test raspunsul pozitiv cu cel negativ pe o scala
valorica
Cat de multumiti sunteti de tratament:
1 - foarte multumit
5 - deloc
La un moment dat:1 - reprezinta deloc
5 - reprezinta foarte mult
Astfel, practic se capteaza interesul participantilor
La sfarsit, inainte de a se introduce datele, cercetatorul trebui sa recodeze
raspunsurile, pentru a le alinia in aceeasi directie
-
7/30/2019 Curs 3 Cercetare
13/51
4. Recodarea Variabilelor
unele variabile pot fi mai usor analizate daca sunt recodate in categorii
exemplu: un cercetator care stie numarul de internari intr-o zi,
precum si varsta pacientilor, estimeaza nr de internari pe
decade de varsta a pacientilor
Practic, schimba variabilele continue (orice varsta) in
variabile categoriale (intrevale de varsta)
exemplu: uneori, se combina variabile categoriale (exemplu: decade
de varsta) in categorii mai putine (varsta 10-50 ani)
Se aplica daca exista extreme (categorii cu putina
populatie) ce pot altera analiza statistica
-
7/30/2019 Curs 3 Cercetare
14/51
Analiza Datelor
datele sunt ceea ca am obtinut dupa ce am efectuat o cercetare,ele ne permit sa raspundemla intrebarile ridicate de cercetare
analiza datelor se face dupa proceduri statistice care permit: sa descrie grupuri de indivizi sau evenimente
sa masoare diferentele dintre grupuri si conditii
sa rezulte raspunsuri pentru un grup, care sa fie valabile pentru populatia din care
s-a selectionat acel grup
Procedurile statistice se impart in 2 categorii:1. statistica descriptiva prin care cercetatorul descrie date, rezultate din
cercetare si examineaza relatiile dintre variabile
2. statistica analitica examineaza cauzalitatea, relatiile dintre eveniminte
Practic, statistica descriptiva se ocupa cu reprezentarea masuratorilor datelor
la un esantion de populatie
Statistica analitica se ocupa cu folosirea datelor de la un esantion de populatie
pentru a le extrapola si a face deductii asupra populatiei
-
7/30/2019 Curs 3 Cercetare
15/51
Statistica Descriptiva (1)
Metoda folosita pentru a descrie datele obtinute din cercetare si pentru acaracteriza cat mai exact variabilele dintr-un esantion specific
Aceasta metoda este frecvent uzitata pentru a rezuma o cercetare inainte de aformula ipoteza primara a acesteia.
Prin statistica descriptiva se iau in discutie parametrii reprezentativi si se creazapremisele ca aceasta cercetare si se creaza premisele ca aceasta cercetare sa
poate fi reluata (replicata)
Obiectivul principal al statisticii descriptive este de a descrie cu acuratetedistributia unor variabile in cadrul unui set determinat de date
-
7/30/2019 Curs 3 Cercetare
16/51
Statistica Descriptiva (2)
Examinarea distributiei variabilelor se realizeaza cel mai frecvent prin asa numita distributiede frecventa, exemplificata prin tabla de frecventa.
Aceasta este o lista completa a tuturor valorilor (scorurilor) unei variabile si care cuprinde
alaturat numarul de ori (frecventa) cu care fiecare valoare (scor) apare
De obicei se aranjeaza in ordine crescanda / descrescanda
Valoare Frecventa de aparitie
72 2
75 3
76 179 2
85 3
102 3
etc
Exista moduri mai precise de determinare a distributiei unor valori ale variabilelor si anume
prin:A. Masurarea tendintei centrale
B. Masurarea dispersiei
C. Prezentarea grafica sau pictoriala
-
7/30/2019 Curs 3 Cercetare
17/51
Statistica Descriptiva (3)
A. Masurarea tendintei centrale la un esantion de populatie arata o valoare medie a unui parametru masurat la
acea populatie.
Se face prin mai multe metode:
1. Media Aritmetica2. Mediana
3. Modul
B. Masurarea dispersiei (distributiei) descrie intinderea / variatia unor valori dintr-un esantion sau populatie
Metode de masurare:
1. Range / Interval2. Variatia
3. Deviatia standard
4. Coeficientul de variatie
C. Prezentare grafica sau pictoriala utila in prezentarea datelor; prezentare simplificata
1. Grafic circular
2. Diagrama VENN
3. Diagrama cu bare
4. Histograma
5. Curbe epidemice
6. Poligon de frecventa
7. Grafic de frecventa cumulativa
8. Harta cu simboluri grafice
-
7/30/2019 Curs 3 Cercetare
18/51
Reprezentarea Grafica (Pictoriala)
Simplifica prezentarea si mareste gradul de intelegere a datelor
Trebuie sa aiba obligatoriu: Titlu cu ce reprezinta
Axe de coordonate cand este cazul
Unitati de masura
-
7/30/2019 Curs 3 Cercetare
19/51
Tipuri de Reprezentare Grafica (1)
Grafic Circular
este o reprezentare proportionala (in sectoare de cerc) a unor diviziuni de element(exemplu: de populatie)
-
7/30/2019 Curs 3 Cercetare
20/51
Tipuri de Reprezentare Grafica (2)
Diagrama VENN
arata gradul de depasire / suprapunere pentru 2 sau mai multi factori din cadrul unor esantioanede populatie (in care fiecare caracteristica este reprezentata de un cerc intreg sau alt simbol)
-
7/30/2019 Curs 3 Cercetare
21/51
Tipuri de Reprezentare Grafica (3)
Diagrama cu Bare
modalitate de a compara categorii de date. Diferitele categorii sunt indicate pe o axa, frecventafiecarei categorii fiind indicata de cealalta axa, iar categoriile fiind comparate prin lungimea barelor
-
7/30/2019 Curs 3 Cercetare
22/51
Tipuri de Reprezentare Grafica (4)
Histograma
O forma speciala de diagrama cu bare care reprezinta categoriile de date in mod ordonat sicontinuu. Aceste bare sunt alaturate pe axa X (abcisa), si in general fara spatii libere, iar frecventa
fiecarei date este reprezentata pe ordonata ( axa Y)
-
7/30/2019 Curs 3 Cercetare
23/51
Tipuri de Reprezentare Grafica (5)
Curba epidemica
este o histograma care ilustreaza evolutia unei boli, anomalii sau conditie intr-o populatie definita,intr-o locatie specifica si pe un anume interval de timp
Intervalele - pe axa X
Nr de cazuri din timpul fiecarui interval pe axa Yaceasta curba evidentiaza peak-ul unei boli (mod) sau o posibila perioada de incubatie saulatenta sau in ce fel progreseaza boala
-
7/30/2019 Curs 3 Cercetare
24/51
Tipuri de Reprezentare Grafica (6)
Poligon de frecventa
este reprezentarea unei distributii de categorii de date continue si ordonate (asemanator cuhistograma)
axa X categoriile de date axa Y frecventa datelor din fiecare categorie
frecventa (reprezentata prin puncte) este desenata print-o linie ce trece prin aceste puncte poate contine (fata de histograma) mai multe grafice (linii) de frecventa ( exemplu: la femei, labarbati)
-
7/30/2019 Curs 3 Cercetare
25/51
Tipuri de Reprezentare Grafica (7)
Grafic de frecventa cumulativa
reprezinta de asemenea o reprezentare a distributiei datelor (exemplu: cazurilor) in mod continuusi ordonat
valoarea frecventei datelor in aceasta situatie reprezinta suma datelor axa X categoriile de date Axa y frecventa cumulativa de date, uneori reprezentata ca procent ce variaza
intre 0% si 100%
acest tip de grafic este folosit in calcularea distributiei in procente, inclusiv calcularea medianei
(care apare la 50%)
-
7/30/2019 Curs 3 Cercetare
26/51
Tipuri de Reprezentare Grafica (8)
Harta cu date pozitionate (harta cu coordonate geografice)
este o harta a unei regiuni cu localizarea fiecarui caz de boala, anomalie sau conditie masurata
-
7/30/2019 Curs 3 Cercetare
27/51
Statistica Descriptiva (1)
A. Masurarea tendintei centrale
Media aritmetica = suma tuturor valorilor dintr-o serie (sir de valori) impartitala nr de valori din acea serie
Valoarea ei depinde de valorile extreme din serie
Calcul: media aritmetica
X = xi / n unde = suma dexi = fiecare valoare din serie
n = numarul de valori din serie
Daca se aplica unei intregi populatii, simbolul pentru medie este , iar nr populatieieste N
Exemplu: varsta (in ani) a unor copii aflati intr-un salon de pediatrie
este: 1,1,1,2,4,6,6
= 1+1+1+2+4+6+6 = 21 anin = 7
X = 21/7 = 3 ani
-
7/30/2019 Curs 3 Cercetare
28/51
Statistica Descriptiva (2)
A. Masurarea tendintei centrale
2. Mediana
Reprezinta valoarea care divide seria in 2 grupuri egale, astfel incat jumatate din valorisunt mai mari si jumatate din valori sunt mai mici ca mediana
Valoarea ei nu depinde de valorile extreme dintr-o serie, de aceea este o metoda mai
fidela pentru masurarea tendintei centrale decat media aritmetica
Calcul: In caz de numar impar de valori, valorile se aranjeaza de la cea mai mica la
cea mai mare, iar valoare care imparte seria in jumatate este mediana
In caz de numar par si 2 valori se afla la mijloc, se face suma lor aritmetica =
mediana
Exemplu: la copii mediana este 2
-
7/30/2019 Curs 3 Cercetare
29/51
Statistica Descriptiva (3)
A. Masurarea tendintei centrale
3. Modul sau (mod)
reprezinta valoarea care apare cel mai frecvent intr-un sir. O serie poatesa nu aiba mod (nici o valoare nu apare mai mult de o data) sau poate
avea mai multe moduri
Folosit practic in epidemiologiedeterminarea peak-ului (varfului) deaparitie a unei boli
Calcul se determina ce valoare / valori apare / apar maifrecvent intr-o serie
Exemplu: copii de 1,1,1,2,4,6,6 aniModul de varsta este 1
-
7/30/2019 Curs 3 Cercetare
30/51
Statistica Descriptiva (4)
B. Masurarea Dispersiei
Masurarea tendintei centrale (de exemplu prin medie) desemneaza valoarea aproximativ demijloc dintr-un sir de valori, dar nu spune nimic despre cat de mult variaza valorile (cat de
dispersate sunt)
Dispersia unei distributii (sir) reflecta cat de strans sunt grupate valorile in jurul unui centru aldistributiei (adica in jurul mediei, medianei si / sau modului)
Cele mai frecvente metode pentru reflectarea dispersiei sunt:
1. Domeniu (range)
2. Variatia
3. Deviatia standard
-
7/30/2019 Curs 3 Cercetare
31/51
Statistica Descriptiva (5)
B. Masurarea Dispersiei
1. Domeniu
domeniul unei distributii reprezinta cel mai mic interval posibil in care se afla valorile
calculare: diferenta intre cea mai mare si cea mai mica valoare dintr-o distributie
Exemplu: grup cu urmatoarele valori (de exemplu: varsta in ani)
23, 23,23,26,27,27,28,32,34,41Domeniu 41-23 = 18
deoarece depinde doar de 2 valori extreme din distributie, domeniul arata in destul de micamasura gradul de dispersie, cu exceptia cazurilor in care esantioanele (sirurile) sunt mari
-
7/30/2019 Curs 3 Cercetare
32/51
Statistica Descriptiva (6)
B. Masurarea Dispersiei
2. Variatia
Reflecta intr-o masura mai mare dispersia
Arata cat de concentrate sunt valorile in jurul unei valori medii
Calculare: Exemplu: grup de valori: 23,23,23,26,27,28,32,34,41 (10 valori)
Se face media aritmetica:
(23+23+23+26+27+28+32+34+41) / 10 = 28.4Se scade media de distributie din fiecare valoare
Se ridica la patrat fiecare rezultat
Se aduna toate aceste valori la patrat
Se imparte rezultatul la numarul de valori minus 1
Variatia = [(23-28.4)+(23-28.4)+(23-28.4)+(26-28.4)+(27-
28.4)+(27-28.4)+(28-28.4)+(32-28.4)+(34-28.4)+(41-28.4)] : (10-1) = 33.37
Variatia unei distributii reflecta cat de mult, in valori la patrat, sunt de distantate valorile fata demedie, deci cat de concentrate sunt aceste valori intr-o distributie
Variatia se calculeaza in special pentru a putea ulterior afla deviatia standard
-
7/30/2019 Curs 3 Cercetare
33/51
Statistica Descriptiva (7)
B. Masurarea Dispersiei3. Deviatia Standard (Standard Deviation SD)
reprezinta radacina patrata din variatie
de exemplu: 33.37 = 5.78 (exemplul precedent),deci 5.78 (ani) reprezinta deviatia standard a grupului de 10 persoane
este o notiune larg folosita in statistica, in caz de distributie normala a valorilor (distributiegausiana)
Se considera:
a) aproximativ 68% din valori cad in intervalul de 1 deviatie stantard (+1-1) fata
de medie
b) aproximativ 95% din valori cad in intervalul de 2 deviatii standard (-2+2) fata
de medie
c) aproximativ 99% din valori cad in intervalul de 3 deviatii standard (-3+3) fata
de medie
-
7/30/2019 Curs 3 Cercetare
34/51
Statistica Descriptiva (8)
B. Masurarea Dispersiei
Exemplu: acelasi sir de 10 valori: 23,23,23,26,27,27,28,32,34 Media este 28.4 Deviatia standard este 5.78
Daca distributia este normala, rezulta ca:
- aproximativ 68% din participanti au 5.78 ani (o deviatie
standard) fata de media de 28.4 ani
- aproximativ 95% din participanti au 11.56 ani (2 deviatii
standard) fata de media de 28.4 ani
Acest calcul are multe specificatii permite cercetatorului sa descrie in general caracteristicile unui grup (sir de valori)
Permite cercetatorului sa compare participanti individuali cu o variabila data (de
exemplu: varsta)
Permite cercetatorului sa compare o performanta individuala a unui participant(exemplu: scor Qi) cu o performanta in alt domeniu (exemplu: nivel academic),
chiar daca variabilele (scor Qi, nivel academic) sunt masurate pe scari complet
diferite
-
7/30/2019 Curs 3 Cercetare
35/51
-
7/30/2019 Curs 3 Cercetare
36/51
Coeficientii de corelatie (cc) se intind de la -1 la +1. Semnul cc reprezinta directia relatiei: De exemplu: - un cc de 0.78 indica o corelatie pozitiva (directa)
- un cc de0.78 indica o corelatie negativa (inversa)- valoarea cc indica puterea relatiei: cu cat este mai aproape de valoarea
1, indiferent daca este + sau, cu atat este mai puternica relatia- corelatii intre: - 0.01 si 0.3 sunt considerate mici
- 0.3 si 0.7 sunt considerate moderate
- 0.7 si 0.9 sunt considerate mari
- 0.9 si 1 sunt considerate foarte mari
In plus, coeficientul de corelatie (cc) poate fi folosit pentru a calcula coeficientul dedeterminare. Acesta reprezinta proportia de variatie asociata (datorata) corelatiei. Se
calculeaza ridicand la patrat cc
Exemplu: daca exista o corelatie (cc) de 0.7 intre fumat si consumul de cocaina, coeficientulde variatie este (0.7) = 0.49
Apoi, coeficientul de corelatie se transforma in procent (49%). Deci, un cc de 0.7 exprima 49%din variatie
Din contra, o corelatie de 0.2 reprezinta un coeficient de determinare de 0.4, indicand faptul casunt implicate si alte variabile
Corelatia nu inseamna cauzalitate !
Corelatia (Asocierea) (2)
-
7/30/2019 Curs 3 Cercetare
37/51
Eroare Standard si Limite de Siguranta ale Mediei (1)
A. Eroarea standard a mediei (SEM)
eroarea standard a unei masuri este bazata pe un esantion de populatie si este estimareadeviatiei standard a masurii pentru populatie
eroarea standard a mediei (standard error of the mean = SEM) reprezinta o masura aacuratetii mediei unui esantion, medie care ar avea rol estimativ pentru populatie.
Prin comparatie, deviatia standard (standard deviation, SD) reprezinta o masura a variabilitatii
unei observatii
valorile SEM sunt o estimare pentru SD
SEM se foloseste in stabilirea limitelor de confidenta din jurul mediei
SEM se foloseste in Students test si este o masura a fluctuatiei esantionului
calculare: SEM = SD/n
unde SD = deviatia standardn = numarul de observatii in esantion
exemplu: greutatea medie a 100 studenti este 70 kg, cu o deviatie standard (SD)de 2 kg
SEM = 2/100 = 2/10 = 0.2 kg, adica 0.2 kg este si deviatia standard apopulatiei
-
7/30/2019 Curs 3 Cercetare
38/51
Eroare Standard si Limite de Siguranta ale Mediei (2)
B. Limite de siguranta ale mediei
cele 2 limite (superioara si inferioara) definesc un camp de probabilitati, adica un interval desiguranta pentru o masura (variabila) a populatiei, bazandu-se pe masurarea unui esantion sia erorii standard a mediei (SEM)
intervalele de confidenta (siguranta) se exprima in termenii de probabilitate, bazate pe eroarea (eroare tip I)
un interval de siguranta (1-) indica faptul ca exista o probabilitate de (1-) ca mediapopulatiei sa cada intre limitele superioare si inferioare ale intervalului si ca exista oprobabilitate ca sa cada in afara limitelor
limitele de siguranta ale mediei definesc acel interval de siguranta pentru media populatiei,bazat pe media unui esantion
pentru esantioane mari, limitele de siguranta se bazeaza in scorul Z ( numarul de
deviatii standard de care o valoare se indeparteaza de medie, la o populatie cu
distributie normala gaussiana).Pentru un interval de siguranta de 95%, valoare estimata a erorii este inmultita cu
1.96, sansele fiind de 95%(19 din 20) ca intervalul sa includa rezultatele
pentru esantioane mici (mai mici de 30) limitele de siguranta sunt bazate pe
valoarea t pentru numarul de grade de libertate
-
7/30/2019 Curs 3 Cercetare
39/51
Eroare Standard si Limite de Siguranta ale Mediei (3)
Cele mai des folosite limite de siguranta sunt cele de 95%, care arata ca exista o probabilitatede 95% ca media populatiei sa cada intre limita superioara si inferioara a intervalului
Este o probabilitate de doar 5% ca media sa cada in afara intervalului (=0.05)
Alte intervale mai des folosite sunt 90% (=0.10) si 99% interval de siguranta (=0.01)
Datele (valorile, cifrele) incluse in intervale de siguranta furnizeaza o masura cantitativa aefectului si dau indicati asupra marimii valorii adevarate, informatie care nu este posibila in
cazul in care comparam date bazate pe simpla semnificatie statistica (p
-
7/30/2019 Curs 3 Cercetare
40/51
Eroare Standard si Limite de Siguranta ale Mediei (4)
Exista o larga paleta de corelatii, determinate in special de tipul de scala (nominala, ordinala,
interval, de proportie)
Exemplu: Pearson product moment correlation (Pearson r) - examineaza asocierea dintre 2
variabile care sunt masurate pe scale de proportie sau scale de interval (corelatia intre
zilele de exercitii si nr de kg pierdute)
Point-biserial (rbi) - examineaza asocierea dintre o variabila masurata pe o scala
nominala dichotomica si o variabila masurata pe scala de interval sau de proportieExemplu: corelatia intre sex (M, F) si pregatirea universitara
Spearmint rank-order (rs) - examineaza relatia intre 2 variabile masurate pe o scala
ordinala (exemplu: corelatia intre rangul social si statusul socio-economic)
Phi(0) - examineaza relatii intre 2 variabile natural dichotomice (nominale), (exemplu:
corelatia intre sx - dichotomic si status marital)
Gamma () examineaza relatia intre o variabila nominala si o variabila masurata pe oscala ordinala (exemplu: corelatia intre grupa etnica-nominal si statusul socio-economic-
ordinal)
-
7/30/2019 Curs 3 Cercetare
41/51
Statistica Analitica (1)
Deoarece nu este posibil a se colecta date de la intreaga populatie, cercetatorii folosecesantioane reprezentative in incercarea de a face deductii asupra populatiei din randul careia
provin esantioanele. Aceste analize se numesc statistica analitica
De exemplu:
prin statistica analitica, folosind date de la un esantion de angajati, se pot trage
concluzii asupra intregului colectiv
Se analizeaza date privind 2 esantioane diferite, se deduc rezultate pentru
populatie (efectul unui medicament asupra a 2 grupuri de pacienti, se extrapoleaza
rezultatul asupra populatiei)
Exista totusi un grad de incertitudine sau eroare ce trebuie luata in consideratie. Statisticaanalitica este in masura sa specifice gradul de eroare
Se aleg esantioane intamplatoare, nu reprezentative (adica din indivizi selectati ce intrunesccel mai mult anumite caracteristici). Rezultatele prin esantioane intamplatoare sunt mai
concludente pentru populatie
Studiul de statistica analitica incepe prin formularea unor ipoteze specifice a ceea ce ne-amastepta sa gasim (sa fie adevarat) la acea populatie. Aceste ipoteze nu le putem dovedi cu
certitudine. Si astfel trebuie sa testam ipoteza nula si sa vedem daca o acceptam sau
rejectam
-
7/30/2019 Curs 3 Cercetare
42/51
Statistica Analitica (2)
Terminologie
Probabilitatea
Probabilitatea unui eveniment este fractia sau proportia care arata in ce masura neasteptam ca acel eveniment sa se produca
Nu poate niciodata fi mai mare de 1 (100%) sau mai mic de 0 (0%) De obicei, valorile care indica probabilitatea sunt distribuite in maniere care permit
analizarea populatiei. Distributia acelor probabilitati include:
a) distributie binomiala (binomica)
b) distributie normalac) distributie td) distributie hi
Daca valorile de probabilitate nu urmeaza o anumita distributie (exemplu: a-d), ele sepot analiza folosind metode non-parametrice
Calcularea probabilitatii:P(A) = A/N
unde P(A) = probabilitatea ca evenimentul A sa apara
A = de cate ori apare efectiv evenimentul AN = nr total de evenimente in cadrul carora apare evenimentul
De exemplu: un fotbalist incearca sa bage gol in poarta de 100 ori, si reuseste din prima
incercare de 30 ori. Probabilitatea ca data viitoare cand incearca din nou sa
bage gol din prima incercare este de 30 / 100 =30%
-
7/30/2019 Curs 3 Cercetare
43/51
Statistica Analitica (3)
2. Ipoteza Nula (Ho)
Ipoteza prin care se considera ca esantioanele studiate intr-un experiment sunt similare (nuexista diferente intre ele). Orice diferenta care apare este considerata intamplatoare si nu se
datoreaza unui factor ce poate fi masurat
Ho este initial acceptata si considerata adevarata pentru toate comparatiile analitice
Ipoteza care trebuie testata (ipoteza alternativa) trebuie formulata inainte de incepereastudiului, astfel incat Ho sa poata fi testata prin tehnici statistice
Ho este folosita pentru a defini diferenta statistica = semnificatie statistica. Aceasta inseamnaca diferentele dintre esantioane sunt datorate unor factori si nu intamplarii. Cu alte cuvinte
diferenta (semnificatia) statistica apare cand Ho este rejectata
Conlcuzii: Cand Ho este rejectata (exista diferente intre esantioane), cel putin o ipoteza
alternativa este acceptata, deci exista factori care dau diferenta intre esantioane
altii decat cei intamplatori
Cand nu se evidentiaza semnificatie statistica intre esantioane, acestea pot fi
totusi diferite, adica acceptarea Ho nu inseamna neaparat ca populatiile sunt
identice
Nivelul de siguranta pentru a rejecta ipoteza nula este arbitrar. O valoare
conventionala limita pentru a defini diferenta semnificativa este 5%
Daca probabilitatea ca diferentele intamplatoare este 5% sau mai putin (deci,
exista diferente reale), atunci Ho este rejectata si se accepta ipoteza alternativa
Statistica Analitica (4)
-
7/30/2019 Curs 3 Cercetare
44/51
( )
3. Erori Intamplatoare
In analizarea Ho se refera la 2 categorii:1. Tip I (eroare de prim rang) sau eroare , reprezinta rejectarea unei ipoteze nule,
cand in mod real ea ar trebui acceptata (adica declari ca exista diferente
intre 2 grupuri cand de fapt nu exista) Comparatiile si testarile multiple cresc riscul de a face eroare tip I
Cand ipoteza nula este adevarata (nu exista diferente) se fac n testestatistice independente, probabilitatea ca cel putin un test sa apara
statistic semnificativ (p
-
7/30/2019 Curs 3 Cercetare
45/51
Statistica Analitica (5)
3. Erori Intamplatoare
Exista multe forme de statistica analitica care se aplica studiilor in functie de natura intrebarilorformulate sau a tipurilor de variabile analizate.
Intre cele mai folosite tehnici de calcul sunt (carti de statistica): T test Testul hi (chi-square)
Analiza variatiei (Anova)
Ttest (Students t test)
Folosit pentru a testa diferente medie intre 2 grupuri
In general, implica o singura variabila dichotomica independenta (exemplu: un grupexperimental si un grup de control) si o singura dependenta continua
Se bazeaza pe o distributie t care reflecta o mai mare variatie datorata intamplarii decat indistributia normala. Distributia t este o distributie simetrica continua, unimodala, in forma declopot (ca cea gaussiana) dar mai intinsa
-
7/30/2019 Curs 3 Cercetare
46/51
Statistica Analitica (6)
1. Testul t pentru un singur esantion mic
Compara un singur esantion mic cu populatia
Evalueaza ipoteza nula (Ho) pentru variabile continue in esantioane ce contin < 30 elemente,la care deviatia standard se substituie (tine loc) deviatiei standard a populatiei
Exemplu: valoarea medie a glicemiei la un grup de 12 persoane este de 79.3 mg%, iardeviatia standard calculata este 5mg. Se poate calcula valoarea medie a glicemiei
pentru toata populatia luata in discutie
Se calculeaza valoarea t la grade de libertate (exista tabele analitice)
Probabilitatea se ia din tabelele analitice. Daca este
-
7/30/2019 Curs 3 Cercetare
47/51
Statistica Analitica (7)
2. Testul t pentru esantioane independente
Compara mediile a 2 mici esantioane
Ambele esantioane sunt sub 30
Exemplu: valoare Na din ser se masoara la 2 grupe de pacientiUn grup de 6 pacienti are valori: 142, 147, 148, 149, 153, 153 cu o medie de 149 mg%
Alt grup de 5 pacienti are valori: 138, 139, 142, 143, 144 cu o medie de 141.2 mg%
Diferenta dintre medii: 8 mg%. Pentru a vedea daca aceasta diferenta se datoreaza intamplarii,se determina valoarea t (formula in carti)
T (df) = (x-y) / SDp (1/nx+1/ny)X = 149, y = 141,2
nx = 6, ny = 5
SDp = 3.35
Valoarea t in functie de gradele de libertate (exista tabele analitice) la 9 grade este egala cu ceala 8, si probabilitatea ca diferenta sa fie intamplatoare (conform unor tabele analitice) este mai
mica de 0.01, deci Ho este rejectata si diferenta nu este intamplatoare
-
7/30/2019 Curs 3 Cercetare
48/51
Statistica Analitica (8)
Testul chi
arata masura in care un singur sir de proportii difera de o distributie de proportii teoretica
sau
arata masura in care 2 sau mai multe serii, proportii sau frecvente difera unele de altele,bazandu-se pe o distributie chi
distributia chi este o distributie de probabilitati continua, asimetrica, bazata pe o aproximatie aunei distributii binominale
in urma testului, dupa formule (exista in carti) si tabele chi, se determina probabilitatea si sevede daca este intamplatoare. Se rejecteaza sau nu ipoteza nula luand ca valoare limita de
semnificatie statistica valoarea de 0.05
Variante chi 2 x 2 chi
Testul Mc Nemar
-
7/30/2019 Curs 3 Cercetare
49/51
Statistica Analitica (9)
A se tine seama de urmatoarele concepte (si intrebari):
Are studiul suficienta putere statistica ?
Concept destul de nou introdus in cercetare
Putere statistica probabilitatea de a gasi rezultate semnificative cand ele chiar exista (deciprobabilitatea ca un test statistic sa rejecteze o falsa nula ipoteza)
Cu cat puterea statistica a unui test este mai mare, cu atat mai mult gasim semnificatii
statistice daca ipoteza nula este falsa (adica exista un efect)
Cercetarile trebuie sa aiba o putere statistica de peste 0.8 pentru a evita eroarea de gradul II
Puterea statistica este determinata de cel putin 3 factori Nivelul (valoarea limita) a semnificatiei (exemplu: 0.05 sau 0.01)
Cat de mare este diferenta (magnitudinea diferentei) intre mediile esantioanelor
Marimea esantioanelor
Cercetatorii ar trebui sa-si calcueze puterea statistica inainte de a incepe propriu ziscercetarea pentru a-si determina marimea esantionului in vederea obtinerii unei suficiente
puteri statistice (>=0.8)
-
7/30/2019 Curs 3 Cercetare
50/51
Statistica Analitica (10)
Care este distributia (caracteristici) ?
Exista anumite tipuri de distributie care permit calcularea unor teste parametrice (exemplu: ttest, chi, etc)
O alta problema o reprezinta valorile extreme, care la o distributie pot substantial devia formadistributiei si altera valoarea medie. Dupa identificarea valorilor extreme, acestea se pot
inlocui (vezi curs trecut)
O alta problema: cat de mare este limita dintre valori. Deseori, in cercetare nu se obtinrezultate deoarece este o variatie mica (domeniu restrans) a variabilelor dependente(exemplu: esantionul contine date-valori ale glicemiei intre 69 si 70)
Apar erori din prea multe testari ?
Se refera la faptul de a comite eroarea tip I facand multe teste statistice la acelasi experiment
Cand se fac multe comparatii referitoare la aceleasi date, probabilitatea ca una din comparatiisa fie semnificativa statistic creste. Creste riscul de eroare tip I si interpretare gresita a datelor
Statistica Analitica (11)
-
7/30/2019 Curs 3 Cercetare
51/51
Statistica Analitica (11)
Cat sunt de exacte si valide masuratorile ?
Greseala frecventa in cercetare a considera metodele de masurare corecte
In special cand se folosesc masuratori nestandardizate ce pot varia destul de mult sau candse folosesc tehnici de masurare a caror acuratete si validitate nu au fost testate
Semnificatie statistica versus semnificatie clinica
Din cauza complexitatii tehnice de calcul si a detaliilor, se poate acorda mai mare importanta
semnificatiei statistice, ceea ce este fals
Adevarata valoare a cercetarii este data de semnificatia clinica
Desigur ca semnificatia statistica este si ea relevanta, deoarece arata cat de corect este unrezultat sau cat de mult tine de intamplare
Uneori studiile pot avea semnificatie statistica mare, dar sa fie irelevante clinic
Corelatie nu inseamna cauzalitate
Simpla masurare de corelatie (de asociere) a unor elemente, chiar daca exista un grad marede corelare, nu inseamna relatie de cauzalitate
Exemplu: nu temperaturile scazute determina virozele respiratorii