podstawy statystyki - katedra i zakład...
TRANSCRIPT
PODSTAWY STATYSTYKISEMINARIUM 3
Jan E. Zejda
Katedra Epidemiologii –
WLK, SUM
STUDIUM DOKTORANCKIE –
KATOWICE, 2011/12
! UWAGA !
SLAJDY WYBRANE I ZMODYFIKOWANE
POD KĄTEM PREZENTACJI W INTERNECIE
TRETREŚĆŚĆ
SEMINARIUM 2 i 3SEMINARIUM 2 i 3
Statystyka Analityczna
-
zarys metodologii badań
naukowych-
hipotezy badawcze
-
testowanie hipotez ▫
proste testy statystycznej znamienności różnic
-
dla zmiennych ilościowych-
dla zmiennych jakościowych
▫
proste testy statystycznej znamienności zależności-
minimalna niezbędna wielkość
próby
-
przedział
ufności
POPRZEDNIO: CZĘŚĆ
IA
TRETREŚĆŚĆ
SEMINARIUM 3SEMINARIUM 3
Statystyka Analityczna –
Część
IB
-
zarys metodologii badań
naukowych-
hipotezy badawcze
-
testowanie hipotez ▫
proste testy statystycznej znamienności różnic
-
dla zmiennych ilościowych-
dla zmiennych jakościowych
▫
proste testy statystycznej znamienności zależności-
minimalna niezbędna wielkość
próby
-
przedział
ufności
TESTY STATYSTYCZNEJ ZNAMIENNOTESTY STATYSTYCZNEJ ZNAMIENNOŚŚCICI
RÓŻNICE ZALEŻNOŚCI
ZMIENNE
ILOŚCIOWE
ZMIENNE
JAKOŚCIOWE
ZMIENNE
ILOŚCIOWE
ZMIENNE
JAKOŚCIOWE
dodatkowo, w zależności od rozkładu, testy parametryczne lub nieparametryczne
TESTY STATYSTYCZNEJ ZNAMIENNOTESTY STATYSTYCZNEJ ZNAMIENNOŚŚCICI
RÓŻNICE ZALEŻNOŚCI
ZMIENNE
ILOŚCIOWE
ZMIENNE
JAKOŚCIOWE
ZMIENNE
ILOŚCIOWE
ZMIENNE
JAKOŚCIOWE
dzisiaj
OCENA OCENA STATYSTYCZNEJ ZNAMIENNOSTATYSTYCZNEJ ZNAMIENNOŚŚCI RCI RÓÓŻŻNICNIC
! KLUCZOWE PYTANIA !
Oczekiwana częstość
(bezwględna) wartości zmiennej jakościowej ?
<5 lub
5+
Liczba porównywanych grup ?
Dwie grupy lub Więcej niż
dwie grupy
Zależność
obserwacji ?
Dane sparowane lub
Dane niesparowane
wg: Pereira-Maxwell F.: A-Z of Medical Statistics. A companion for critical appraisal. Arnold, London 1998
OCENA OCENA STATYSTYCZNEJ ZNAMIENNOSTATYSTYCZNEJ ZNAMIENNOŚŚCI RCI RÓÓŻŻNICNIC
ZMIENNE JAKOŚCIOWE
Dane pochodzące z niezależnych pomiarów (dane niesparowane)Scenariusz: otyłość
(%) wśród chłopców (grupa A) i dziewcząt (grupa B)
-Liczba grup 2: test chi2, test Fisher’a
(dla małej częstości)
-Liczba grup 3 lub więcej:
test chi2
Dane pochodzące z zależnych pomiarów (dane sparowane)Scenariusz: otyłość
(%) wśród dziewcząt przed (grupa A1) i po kuracji (grupa A2) odchudzającej
-Liczba grup (punktów pomiaru) 2: test McNemar’a
-
Liczba grup 3 lub więcej: test Stuart-Maxwell’a
TEST CHITEST CHI--KWADRAT (ChiKWADRAT (Chi22
, , χχ22))( H0 : πA = πB )
Podstawowa procedura dla porównania częstości
Chi2
= Σ
[ (O –
E)2 / E] O –
częstości obserwowane; E –
częstości oczekiwane
15% i 30% 20% i 20%
Wynikiem testu chi2
jest statystyka chi2, która posiada swój rozkład (dla konkretnej wartości istnieje konkretne prawdopodobieństwo ‘p’)
Gdy p<0,05 → są
podstawy do odrzucenia H0
Uwaga: wypowiedź
na temat różnic częstości w grupie A i B można też
interpretować
jako zależność
częstości od grupy
TEST CHITEST CHI--KWADRATKWADRATWYNIK: STATYSTYKA „CHI2”
i JEJ WARTOŚĆ
„P”
JAKIE OGRANICZENIA ?
Test chi2 jest czuły wobec wielkości próby. Nie powinien być
stosowany, gdy zachodzi jedna z dwóch okoliczności:
n<20;
20<n<40 i oczekiwana częstość
wynosi mniej niż
5, przynajmniej w jednym polu tabeli
ROZWIĄZANIE PROBLEMU
Poprawka Yates’a
(ze względu na fakt, że analizowane są
dane jakościowe, a rozkład chi2 ma charakter ciągły) –
obecnie kwestionowana i nie jest
rekomendowana
Dokładny test Fisher’a
TEST CHITEST CHI--KWADRATKWADRAT
SCENARIUSZ
Czy 11,9% różni się
od 21,3 % ?
The FREQ ProcedureStatistics for Table of FEV1 by RTG
Statistic DF Value ProbChi-Square 1 8.5666 0.0034Continuity Adj. Chi-Square 1 7.8610 0.0051Mantel-Haenszel
Chi-Square 1 8.5503 0.0035
Fisher's Exact TestLeft-sided Pr <= F 0.9987Right-sided Pr >= F 0.0027Two-sided Pr <= P 0.0045
Test ma zastosowanie, gdy oczekiwane częstości są
małe (np.<5 w jednej z „klatek”)
TEST CHITEST CHI22
––
INTEPRETACJA DLA ZMIENNEJ INTEPRETACJA DLA ZMIENNEJ WIELOWARTOWIELOWARTOŚŚCIOWEJ (2 GRUPY)CIOWEJ (2 GRUPY)Test chi2
ocenia różnicę
pomiędzy rozkładami, a nie poszczególnymi wartościami porównywanych zmiennych
Zmienna WartośćZmiennej
Grupa „A” Grupa „B” Statystyka „Chi2” (p)
Ból
Brak 10 6
5,23 (0,06)Mały 12 23Średni 21 18
Duży 6 12Bardzo duży 6 9
Wynik testu nie odpowiada bezpośrednio na pytanie, czy chorzy w grupie „B”
bardziej cierpią
z powodu obecności dużego lub bardzo dużego bólu niż
chorzy w grupie „A”.
INTEPRETACJA !
OCENA OCENA STATYSTYCZNEJ ZNAMIENNOSTATYSTYCZNEJ ZNAMIENNOŚŚCI RCI RÓÓŻŻNICNIC
ZMIENNE JAKOŚCIOWE
Dane pochodzące z niezależnych pomiarów (dane niesparowane)Scenariusz: otyłość
(%) wśród chłopców (grupa A) i dziewcząt (grupa B)
-Liczba grup 2: test chi2, test Fisher’a
(dla małej częstości)
-Liczba grup 3 lub więcej:
test chi2
Dane pochodzące z zależnych pomiarów (dane sparowane)Scenariusz: otyłość
(%) wśród dziewcząt przed (grupa A1) i po kuracji (grupa A2) odchudzającej
-Liczba grup (punktów pomiaru) 2: test McNemar’a
-
Liczba grup 3 lub więcej: test Stuart-Maxwell’a
TEST CHITEST CHI--KWADRAT (TRZY GRUPY)KWADRAT (TRZY GRUPY)
SCENARIUSZ
Czy 11,5%, 15,7%, 25,5% różnią
się
w sposób statystycznie znamienny ?
The FREQ ProcedureStatistics for Table of FEV1 by RTG
Statistic DF Value ProbChi-Square 2
11.4906
0.0032
Mantel-Haenszel
Chi-Square 2 10.9834
0.0009
Fisher's Exact TestLeft-sided Pr <= F 0.9987Right-sided Pr >= F 0.0027Two-sided Pr <= P 0.0045
ODPOWIEDŹ
Tak, albowiem MHChi2 p=0,0009 (p<0,05), co uwzględnia charakter zmiennej
porządkowej i pozwala na odrzucenie H0
ODPOWIEDŹ
Tak, albowiem p=0,003 (p<0,05), co pozwala na odrzucenie H0
o równości częstości
TEST CHITEST CHI--KWADRAT (TRZY GRUPY)KWADRAT (TRZY GRUPY)
SCENARIUSZ
Czy trend ma charakter statystycznie znamienny ?
The FREQ ProcedureStatistics for Table of FEV1 by RTG
COCHRAN-ARMITAGE
TREND TEST
Statistic
(Z)
-3.3173One-sided
Pr<Z
0.0005
Two-sided
Pr<Z 0.0009
Fisher's Exact TestLeft-sided Pr <= F 0.9987Right-sided Pr >= F 0.0027Two-sided Pr <= P 0.0045
ODPOWIEDŹ
Tak, albowiem p<0,05), co pozwala na odrzucenie H0 o nieznamienności
statystycznej trendu
OCENA OCENA STATYSTYCZNEJ ZNAMIENNOSTATYSTYCZNEJ ZNAMIENNOŚŚCI RCI RÓÓŻŻNICNIC
ZMIENNE JAKOŚCIOWE
Dane pochodzące z niezależnych pomiarów (dane niesparowane)Scenariusz: otyłość
(%) wśród chłopców (grupa A) i dziewcząt (grupa B)
-Liczba grup 2: test chi2, test Fisher’a
(dla małej częstości)
-Liczba grup 3 lub więcej:
test chi2
Dane pochodzące z zależnych pomiarów (dane sparowane)Scenariusz: otyłość
(%) wśród dziewcząt przed (grupa A1) i po kuracji (grupa A2) odchudzającej
-Liczba grup (punktów pomiaru) 2: test McNemar’a
-
Liczba grup 3 lub więcej: test Stuart-Maxwell’a
TEST TEST McNEMARMcNEMAR’’aaInterpretacja przy zmiennych sparowanych analogiczna do
interpretacji dla zmiennych niesparowanych
SZCZEGÓLNE ZASTOSOWANIE
wyniki sparowanego badania kliniczno-kontrolnego
np. dla 60-letniego mężczyzny z Rtg+ dobieramy 60-letniego mężczyznę
z Rtg-, dla 56-letniego mężczyzny z Rtg+
dobieramy 56-letniego mężczyznę
z Rtg-, itd.
aby
sprawdzić, czy różnią
się
grupy Rtg+ i Rtg-
w zakresie narażenia na dym tytoniowy
Kontrola wieku (parowanie) uzasadniona zależnością
czasu palenia od wieku
TRETREŚĆŚĆ
SEMINARIUM 3SEMINARIUM 3
Statystyka Analityczna –
Część
IB
-
zarys metodologii badań
naukowych-
hipotezy badawcze
-
testowanie hipotez ▫
proste testy statystycznej znamienności różnic
-
dla zmiennych ilościowych-
dla zmiennych jakościowych
▫
proste testy statystycznej znamienności zależności-
minimalna niezbędna wielkość
próby
-
przedział
ufności
(PROSTE) TESTY (PROSTE) TESTY STATYSTYCZNEJ ZNAMIENNOSTATYSTYCZNEJ ZNAMIENNOŚŚCI ZALECI ZALEŻŻNONOŚŚCICI
ZMIENNA ZALEZMIENNA ZALEŻŻNANA
←←
ZMIENNA NIEZALEZMIENNA NIEZALEŻŻNANA……………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………....
Dwie Zmienne IloDwie Zmienne Ilośścioweciowe
Masa (kg)Masa (kg)
Wzrost (cm)Wzrost (cm)……………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………....
Dwie Zmienne JakoDwie Zmienne Jakośścioweciowe
Mutacja (tak/nie)Mutacja (tak/nie)
NaraNarażżenie na WWA (tak/nie)enie na WWA (tak/nie)……………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………....
Zmienna IloZmienna Ilośściowa i Jakociowa i Jakośściowaciowa
FEVFEV11
(%(%w.nw.n.).)
Zmiany Zmiany rtgrtg
w pw płłucach (tak/nie)ucach (tak/nie)……………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………....
Zmienna JakoZmienna Jakośściowa i Ilociowa i Ilośściowaciowa
Hiperglikemia (tak/nie)Hiperglikemia (tak/nie) PodaPodażż
kalorii na dobkalorii na dobęę
(kcal)(kcal)
TESTY STATYSTYCZNEJ ZNAMIENNOTESTY STATYSTYCZNEJ ZNAMIENNOŚŚCICI
RÓŻNICE ZALEŻNOŚCI
ZMIENNE
ILOŚCIOWE
ZMIENNE
JAKOŚCIOWE
ZMIENNE
ILOŚCIOWE
ZMIENNE
JAKOŚCIOWE
(PROSTE) TESTY (PROSTE) TESTY STATYSTYCZNEJ ZNAMIENNOSTATYSTYCZNEJ ZNAMIENNOŚŚCI ZALECI ZALEŻŻNONOŚŚCICI
ZMIENNA ZALEZMIENNA ZALEŻŻNANA
←←
ZMIENNA NIEZALEZMIENNA NIEZALEŻŻNANA……………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………....
Dwie Zmienne IloDwie Zmienne Ilośścioweciowe
Masa (kg)Masa (kg)
Wzrost (cm)Wzrost (cm)……………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………....
Dwie Zmienne JakoDwie Zmienne Jakośścioweciowe
Mutacja (tak/nie)Mutacja (tak/nie)
NaraNarażżenie na WWA (tak/nie)enie na WWA (tak/nie)……………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………....
Zmienna IloZmienna Ilośściowa i Jakociowa i Jakośściowaciowa
FEVFEV11
(%(%w.nw.n.).)
Zmiany Zmiany rtgrtg
w pw płłucach (tak/nie)ucach (tak/nie)……………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………....
Zmienna JakoZmienna Jakośściowa i Ilociowa i Ilośściowaciowa
Hiperglikemia (tak/nie)Hiperglikemia (tak/nie) PodaPodażż
kalorii na dobkalorii na dobęę
(kcal)(kcal)
rozkład normalny
ANALIZA KORELACJI LINIOWEJ
rozkład nie-normalny
ANALIZA REGRESJI LINIOWEJ
KORELACJA LINIOWAKORELACJA LINIOWA
HH0 0 : r = 0: r = 0
0
20
40
60
80
100
0 2 4 6 8 10 12
Pb-B [ug/dl]
IQ [j
]
r = 0,21 (p=0,6) (95%PU: r = 0,21 (p=0,6) (95%PU: --0,10 0,10 --
0,34) 0,34) ergo ergo „„rr””=0,21 nie r=0,21 nie róóżżni sini sięę
w sposw sposóób statystycznie znamienny od b statystycznie znamienny od ‘‘00’’
NIEPOROZUMIENIA INTERPRETACYJNE „r”
Interpretacja ‘r’
jako miernika siły zależności pomiędzy „przyczyną”
i „skutkiem”
Wykorzystanie analizy korelacji do porównania wartości dwóch metod
Przewidywanie wartości Y na podstawie wartości X
Obecność
korelacji liniowej nie jest automatycznym dowodem na obecność
zależności biologicznej
ALTERNATYWA NIEPARAMETRYCZNA (r)Nazwa ‘współczynnik korelacji liniowej”
mnemotechnicznie przywołuje wymóg
analizy wartości zmiennych mierzonych według skali liniowej. Gdy pomiary pochodzą
z innych skal (np. stopień
duszności, poziom samopoczucia, średnica
bąbla itp.) wówczas zasadne metody odwołujące się
do rankingu wyników:
ANALIZA KORELACJI METODĄ
SPEARMANA(dla zmiennych o normalnym rozkładzie metoda Pearson’a)
ANALIZA REGRESJI LINIOWEJy = a + b x
gdzie: a –
punkt odcięcia; b –
kąt nachylenia prostej (zmiana wartości ‘y’
w odpowiedzi na jednostkową
zmianę
wartości ‘x’)
DEFINICJA ZMIENNEJ ZALEŻNEJ !
Y jest funkcją
X, Y zależy od X
PREZENTACJA GRAFICZNAPREZENTACJA GRAFICZNA
0
20
40
60
80
100
0 2 4 6 8 10 12
X
Y
b=0a
Y = b * X + 18
gdy b = 0, to Y = 0*X + 18, zatem Y = 18 (stale !)
PREZENTACJA GRAFICZNAPREZENTACJA GRAFICZNA
HH0 0 : b = 0: b = 0
0
20
40
60
80
100
0 2 4 6 8 10 12
X
Y
b=0a
Na gruncie statystycznym b=0, gdy w sposób statystycznie znamienny ‘b’
nie różni się
od ‘0’: b=1,39
(p=0,09) lub (95%PU dla ‘b’: -0,14 -
2,82)
PRAKTYCZNE ZNACZENIE PRAKTYCZNE ZNACZENIE ANALIZY REGRESJI LINIOWEJANALIZY REGRESJI LINIOWEJ
DOKUMENTOWANIE (ILOŚCIOWE) ZALEŻNOŚCI POMIĘDZY ‘Y’
I ‘X’
PRZEWIDYWANIE WARTOŚCI ‘Y’
DLA DANEJ WARTOŚCI ‘X’
ANALIZA REGRESJI LINIOWEJANALIZA REGRESJI LINIOWEJSCENARIUSZSCENARIUSZ
Czy FEV1
(w %w.n.) zależy od stażu pracy ?
Y = a + bXThe
SAS System Plot of FEV1P*STAZ. Symbol used is '*'.
150 * *
* * * * * * ** * * * * * * * * * * * * * * * * *
* * * * * * * * * * * * * * * * * * * * * * * * *F 100
* * * * * * * * * * * * * * * * * * * * * * * * * * * * * * *E * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * *V * * * * * * * * * * * * * * * * * * * * * * * * * * * *1 * * * * * * * * * * * * * * * *
*P * * * * * * * *
50 * * * ** * * *
0 4 8 12 16 20 24 28 32 36
StaStażż
(lata)(lata)
The REG ProcedureModel: MODEL1
Dependent Variable: FEV1P
Parameter Estimates
Parameter StandardVariable DF Estimate Error t Value Pr > |t|
Intercept
1 97.85787 1.15190 84.95 <.0001
STAZ 1 -0.27953
0.08143 -3.43 0.0006
Współczynnik regresji ‘b’
różni się
w sposób statystycznie znamienny od ‘0’95%PU dla B: (-0,43950) -
(-0,11950)
ANALIZA REGRESJI LINIOWEJANALIZA REGRESJI LINIOWEJ
-
ZNACZENIE WSPÓŁCZYNNIKA DETERMINACJI R2
-
y = a + b x
PRZYKŁAD
FVC(l)
= 2,5Wzrost(m) + 1,75
Współczynnik korelacji ‘FVC’
~ ‘Wzrost’: r = 0,6
a więc r2
= 0,36
Model wyjaśnia zaledwie 36% okoliczności tłumaczących wartość
FVC (tu uwzględniono wzrost)
Inne czynniki ?(dodanie wieku, nałogu palenia, narażenia na pył
zwiększy wartość
‘r2’)
Uwaga: zmienność
w ‘x’
objaśnia zmienność
w ‘y’, w stopniu ‘r2’(zmienna objaśniana = zależna, zmienna objaśniająca = niezależna)
TESTY STATYSTYCZNEJ ZNAMIENNOTESTY STATYSTYCZNEJ ZNAMIENNOŚŚCICI
RÓŻNICE ZALEŻNOŚCI
ZMIENNE
ILOŚCIOWE
ZMIENNE
JAKOŚCIOWE
ZMIENNE
ILOŚCIOWE
ZMIENNE
JAKOŚCIOWE
(PROSTE) TESTY (PROSTE) TESTY STATYSTYCZNEJ ZNAMIENNOSTATYSTYCZNEJ ZNAMIENNOŚŚCI ZALECI ZALEŻŻNONOŚŚCICI
ZMIENNA ZALEZMIENNA ZALEŻŻNANA
←←
ZMIENNA NIEZALEZMIENNA NIEZALEŻŻNANA……………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………....
Dwie Zmienne Ilościowe
Masa (kg)
Wzrost (cm)……………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………....
Dwie Zmienne JakoDwie Zmienne Jakośścioweciowe
Mutacja (tak/nie)Mutacja (tak/nie)
NaraNarażżenie na WWA (tak/nie)enie na WWA (tak/nie)……………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………....
Zmienna IloZmienna Ilośściowa i Jakociowa i Jakośściowaciowa
FEVFEV11
(%(%w.nw.n.).)
Zmiany Zmiany rtgrtg
w pw płłucach (tak/nie)ucach (tak/nie)
Zmienna JakoZmienna Jakośściowa i Ilociowa i Ilośściowaciowa
Hiperglikemia (tak/nie)Hiperglikemia (tak/nie) PodaPodażż
kalorii na dobkalorii na dobęę
(kcal)(kcal)
TEST CHITEST CHI--KWADRATKWADRAT
ANALIZA REGRESJI LOGISTYCZNEJANALIZA REGRESJI LOGISTYCZNEJ
UNIWERSALNY MODEL REGRESJIUNIWERSALNY MODEL REGRESJI
Y
~ X
Dla zmiennych ilościowych rozwiązanie jest intuicyjnie proste:
gdy X wzrasta o daną
wartość, to Y wzrasta o iloczyn danej wartości i współczynnika regresji b
(Trójglicerydemia
= b*dobowa
podaż
tłuszczu + a)
ADAPTACJA MODELU DO JAKOŚCIOWEJ POSTACI ZMIENNEJ ZALEŻNEJ
Hipertrójgicerydemia(tak/nie) ~ duża dobowa podaż
tłuszczu
JAK POŁĄCZYĆ
OBIE STRONY RÓWNANIA?
MODEL REGRESJI MODEL REGRESJI
Z JAKOZ JAKOŚŚCIOWCIOWĄĄ
ZMIENNZMIENNĄĄ
ZALEZALEŻŻNNĄĄ
Hipertrójgicerydemia
~ dobowa podaż
tłuszczu
SOLUTIO
FUNKCJA ŁĄCZĄCA (FŁ)
Hipertrójgicerydemia
[FŁ]
= dobowa podaż
tłuszczu
FUNKCJA ŁĄCZĄCA W REGRESJI LOGISTYCZNEJ
Hipertrójgicerydemia
[FŁ] = dobowa podaż
tłuszczu
Przyjęcie przez ‘y’
wartości 0 („nie”) lub 1 („tak”) jest mierzone prawdopodobieństwem ‘p’, powiązanym z ‘1-p’, w układzie ‘p/1-p’
ale
prawdopodobieństwo jest zawsze dodatnie, co ogranicza obszar modelowania -
brak kompatybilności z prawą
stroną
równania
Transformacja logarytmiczna –
naturalny logarytm wyrażenia („logit transformation”) usuwa tę
niedogodność
-∞
…‘ln[p/1-p]’
… + ∞
teraz zatem bez przeszkód lewa strona ↔ prawa stronaln[p/1-p] = a+bx
czyli model regresji logistycznej
ANALIZA REGRESJI LOGISTYCZNEJANALIZA REGRESJI LOGISTYCZNEJy = a + b x
(logit
ukryty w procedurze)
Analiza regresji logistycznej testuje konwencjonalny układ hipotez:
H0
: b = 0HA
: b ≠
0
Gdy ‘p’
dla ‘b’
>0,05 wówczas
„y nie zależy od x w sposób statystycznie znamienny”
***Analiza regresji logistycznej nie tylko informuje o obecności i sile
związku, ale także umożliwia przewidywanie wartości zmiennej zależnej na podstawie wartości zmiennej niezależnej
The LOGISTIC Procedure
Analysis of Maximum Likelihood Estimates
Standard WaldParameter DF Estimate Error Chi-Square Pr > ChiSqIntercept 1 1.6539 0.1212 186.1928 <.0001rtg
1 -0.3505 0.1212 8.3605 0.0038
Odds Ratio EstimatesPoint 95% Wald
Effect Estimate Confidence LimitsRTG 0 vs
1 2.016 1.253 3.241
MODEL: FEV1
(N/P) = 1,6539 –
0,3505 * Rtg
ANALIZA REGRESJI LOGISTYCZNEJANALIZA REGRESJI LOGISTYCZNEJSCENARIUSZ
Pytanie: Czy obecność
obniżonej wartości FEV1 (norma/patologia) zależy od obecności zmian Rtg
(-/+) ?
The LOGISTIC ProcedureAnalysis of Maximum Likelihood Estimates
Standard WaldParameter DF Estimate Error Chi-Square Pr > ChiSqIntercept 1 1.5946 0.1308 148.5302 <.0001
RTG 0 1 0.4399 0.1652 7.0883 0.0078RTG 1 1 0.0831 0.2010 0.1708 0.6794
Odds Ratio EstimatesPoint 95% Wald
Effect Estimate Confidence LimitsRTG 0 vs
2
2.619
1.483 4.627
RTG 1
vs
2
1.833
0.921
3.651
ANALIZA REGRESJI LOGISTYCZNEJANALIZA REGRESJI LOGISTYCZNEJSCENARIUSZ
Pytanie: Czy obecność
obniżonej wartości FEV1
(norma/patologia) zależy od obecności zmian Rtg
(-/+/++) ?
Uwaga: regresja logistyczna analizuje zmienne o różnej liczbie wartości (nie tylko zmienne binarne)
(PROSTE) TESTY (PROSTE) TESTY STATYSTYCZNEJ ZNAMIENNOSTATYSTYCZNEJ ZNAMIENNOŚŚCI ZALECI ZALEŻŻNONOŚŚCICI
ZMIENNA ZALEZMIENNA ZALEŻŻNANA
←←
ZMIENNA NIEZALEZMIENNA NIEZALEŻŻNANA……………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………....
Dwie Zmienne IloDwie Zmienne Ilośścioweciowe
analiza korelacji i analiza regresji liniowejanaliza korelacji i analiza regresji liniowej……………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………....
Dwie Zmienne JakoDwie Zmienne Jakośścioweciowe
test chitest chi--kwadrat i analiza regresji logistycznejkwadrat i analiza regresji logistycznej……………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………....
Zmienna IloZmienna Ilośściowa i Jakociowa i Jakośściowaciowa
analiza regresji liniowejanaliza regresji liniowej……………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………....
Zmienna JakoZmienna Jakośściowa i Ilociowa i Ilośściowaciowa
analiza regresji logistycznejanaliza regresji logistycznej
OBLICZENIE MINIMALNEJ NIEZBOBLICZENIE MINIMALNEJ NIEZBĘĘDNEJ LICZEBNODNEJ LICZEBNOŚŚCI CI PRPRÓÓB DLA TESTU CHIB DLA TESTU CHI--KWADRATKWADRAT
Obliczenia wykorzystują
formułę
wypracowaną
dla proporcji
Liczebność
jednej (każdej) grupy wynosi:n = [ zα
√{2π(1-π)} + zβ
√{π1(1-
π1
)+ π2
(1-
π2
)}]2
/ [π1
–
π2
]2
gdzie:π1
–
proporcja pierwsza;
π2
–
proporcja druga; π
–
proporcja średnia (π1
+ π2
/ 2)
Częstość
↑LCD4 wynosi 15% u dzieci z ‘NNO’. Istnieją
dane, że jest ona wyższa u dzieci bez ‘NNO’.
Jak duże muszą
być
grupy, aby wykazać
statystycznie znamienną
różnicę
?
Niezbędne założenia1. Wielkość
różnicy: np. dwukrotna ma znaczenie kliniczne (a więc 15% i 30%)
2. Znamienność
i moc:
α
= 0,05 (z=1,96); β
= 0,2 (z=0,84)
n = [ 1,96 √{2* 0,225(1-0,225)} + 0,84 √{0,15(1-
0,15) + 0,30(1-
0,30)}]2
/ [0,15-0,30]2
n = [1,96√0,35 + 0,84√0,13 +0,21]2
/ 0,022 = [1,16+0,3+0,21]2
/ 0,022 = 123,5
Do każdej z grup należy wylosować
124 osoby
MINIMALNA NIEZBMINIMALNA NIEZBĘĘDNA DNA LICZEBNOLICZEBNOŚĆŚĆ
PRPRÓÓBYBY
--
UZUPEUZUPEŁŁNIENIA NIENIA --
ALTERNATYWNY (POZORNIE) SPOSÓB SZACOWANIA „N”
Chcę
udowodnić, że wskutek różnego reżimu terapeutycznego średnia masa myszy w grupie T będzie wyższa o 10 g niż
w
grupie K (50 g vs
40 g). Zakładam (bo wiem lub przyjmuję), że współczynnik zmienności masy wynosi 20% (CV = SD/X).
Pozwalam, aby przypadkowe (gdyby reżim T=K) wystąpienie różnicy jak wyżej nie było częstsze niż
5/100 (5% lub 0,05).
Chcę, aby szansa wykrycia różnicy, gdy ma ona rzeczywiście miejsce, wynosiła co najmniej 80% (co to za badanie, które daje
szansę
„50:50”
–
na zasadzie efekt albo jest albo go nie ma)
PROSTA FORMUŁA:
N = 25*V / (D*D)
V –
zmienność
(SD*X); D –
różnica „do wykazania”
ALTERNATYWNY (POZORNIE) SPOSÓB SZACOWANIA „N”
N = 25*V / (D*D)
Zgodnie z założeniami:
D = 10g (50g –
40g)
SD = CV*X
= 20% * 40g = 8g ponieważ
CV = SD/X (uwaga – mniejsza zmienność, gdy myszy są
„kopiami”
1 egzemplarza)
V = SD*SD
= 8g * 8g
= 64gg
N = (25 * 64) / (10 * 10)
N = 16 myszy w jednej grupie
ALTERNATYWNY (POZORNIE) SPOSÓB SZACOWANIA „N”
ZAŁOŻENIA, W TYM absolutna różnica lub względna różnica:
PROCENTOWA (%)
WARTOŚĆ
LICZBA
ZNAMIENNOŚĆ
RÓŻNICA „T-K”
CV
ZWIERZĄT
NA POZIOMIE 0,05
20
20
2-7
NIE
20 20
8 TAK
20 15 5 TAK
25 20 5 PRAWIE TAK
30 20 5 TAK
25 15 5 TAK
PUNKT CIĘŻKOŚCI: ZMIENNA DECYDUJĄCA
W randomizowanym
badaniu nad skutecznością
treningu fizycznego w leczeniu POCHP po 2 miesiącach oceni się:
1)
Kliniczny stopień
duszności;
2)
Wartość
FEV1
;
3)
Wartość
PEFR;
4)
Wartość
MMEF25-75
;
5)
Objętość
plwociny dobowej;
6)
Częstość
napadów duszności;
7)
Itd
KTÓRA ZMIENNA MA DECYDOWAĆ
O SZACOWANIU N ?