podstawy statystyki -...
Post on 01-Mar-2019
217 Views
Preview:
TRANSCRIPT
PODSTAWY STATYSTYKISEMINARIUM 4
Jan E. Zejda
Katedra Epidemiologii –
WLK, SUM
STUDIUM DOKTORANCKIE –
KATOWICE, 2011/12
TRETREŚĆŚĆ
SEMINARIUM 4SEMINARIUM 4
Statystyka Analityczna –
Część
II
-
czynniki zakłócające
-
analiza stratyfikacyjna
-
analiza wielu zmiennych▫
model regresji liniowej
▫
model regresji logistycznej▫
model regresji proporcjonalnego ryzyka
▫
model regresji Poisson’a
-
specyficzne zastosowania analizy wielu zmiennych
TRETREŚĆŚĆ
SEMINARIUM 3SEMINARIUM 3
Statystyka Analityczna –
Część
II
-
czynniki zakłócające
-
analiza stratyfikacyjna
-
analiza wielu zmiennych▫
model
regresji liniowej
▫
model regresji logistycznej▫
model regresji proporcjonalnego ryzyka
▫
model regresji Poisson’a)
-
specyficzne zastosowania analizy wielu zmiennych
CZYNNIK RYZYKACZYNNIK RYZYKA
Indywidualna cecha związana ze stylem życia lub narażeniem środowiskowym, lub cecha
wrodzona albo odziedziczona, która -
w świetle dowodów epidemiologicznych -
jest związana ze
stanem zdrowotnym uzasadniającym postępowanie zapobiegawcze
palenie tytoniu przebycie wirusowego zapalenia wątroby typu C
atopia polimorfizm genu X
dodatni wywiad rodzinny w kierunku raka sutka
otyłość
hipercholesterolemia
małą
masa urodzeniowa
stres
CZYNNIK ZAKCZYNNIK ZAKŁŁÓÓCAJCAJĄĄCYCY
Czynnik związany zarówno z badanym narażeniem jak i badanym efektem zdrowotnym, którego obecność
zniekształca wynik analizy przyczynowo-skutkowej (badany efekt ~
badane narażenie). Zatem:
Cz. Zakłócający jest związany z narażeniemCz. Zakłócający jest niezależnym czynnikiem ryzyka
?
Więź
nie musi mieć
charakteru biologicznego. Może się
zdarzyć przypadkowo (np. palenie tytoniu i narażenie na azbest a rak płuc; płeć
i
nadużywanie fenacetyny a nefropatia). Wpływ na wynik analizy przyczynowo-skutkowej taki sam.
CZYNNIK ZAKCZYNNIK ZAKŁŁÓÓCAJCAJĄĄCYCY
Czynnik związany zarówno z badanym narażeniem jak i badanym efektem zdrowotnym, którego obecność
zniekształca wynik analizy przyczynowo-skutkowej (badany efekt ~
badane narażenie). Zatem:
Cz. Zakłócający jest związany z narażeniemCz. Zakłócający jest niezależnym czynnikiem ryzyka ?
Więź
nie musi mieć
charakteru biologicznego. Może się
zdarzyć przypadkowo (np. palenie tytoniu i narażenie na azbest a rak płuc; płeć
i
nadużywanie fenacetyny a nefropatia). Wpływ na wynik analizy przyczynowo-skutkowej taki sam.
METODY ELIMINACJI LUB KONTROLI METODY ELIMINACJI LUB KONTROLI WPWPŁŁYWU CZYNNIKYWU CZYNNIKÓÓW ZAKW ZAKŁŁÓÓCAJCAJĄĄCYCHCYCH
•
Randomizacja (tylko badania eksperymentalne)•
Restrykcja (np. ocena pulmotoksyczności
pyłu tylko
u niepalaczy, „kryteria włączenia”)•
Parowanie obserwacji (np. zapadalność
na raka
sutka u mężatek i panien w tym samym wieku)•
Stratyfikacja (procedura Mantel-Haenszel)
•
Statystyczna analiza wielu zmiennych (analiza regresji)
Etap planowania badaniaEtap analizy danych
TRETREŚĆŚĆ
SEMINARIUM 3SEMINARIUM 3
Statystyka Analityczna –
Część
II
-
czynniki zakłócające
-
analiza stratyfikacyjna
-
analiza wielu zmiennych▫
model
regresji liniowej
▫
model regresji logistycznej▫
model regresji proporcjonalnego ryzyka)
▫
model regresji Poisson’a
-
specyficzne zastosowania analizy wielu zmiennych
WPWPŁŁYW CZYNNIKA ZAKYW CZYNNIKA ZAKŁŁÓÓCAJCAJĄĄCEGO CEGO PZO a naraPZO a narażżenie na pyenie na pyłł
w warstwach* palacze i w warstwach* palacze i niepalaczeniepalacze
PZO+ PZO- %PZO+N+ 150 80 65%N- 260 220 54%
PZO+ PZO- %PZO+N+ 300 410 42%N- 140 230 38%
PZO+ PZO- %PZO+N+ 300 410 42%N- 140 230 38%
Wszyscy
Badani
Warstwa
„Niepalacze”
Warstwa
„Palacze”
* -
warstwa = stratum
PROCEDURA MANTEL PROCEDURA MANTEL ––
HAENSZELHAENSZEL
Ai
Di .
Ni
. B1
Ci N1
WAŻONY ILORAZ SZANS M-H
Iloraz Szans wg Mantel-Haenszel
to pojedyncza statystyka, odzwierciedlająca zależność
pomiędzy chorobą
i narażeniem, po
uwzględnieniu jednego lub więcej czynników zakłócających.
Choroba = narażenie + czynnik zakłócający
Jest to średnia ważona ilorazów szans dla każdej z warstw
ΣΣ
ISMH (ORMH
) = A, B, C i D to dane z ‘i’ tabel czteropolowych
SUROWY A WASUROWY A WAŻŻONY ILORAZ SZANSONY ILORAZ SZANS
SUROWY ILORAZ SZANS
(PZO a NARAŻENIE NA PYŁ)
ISS
= 1,03 (95%PU: 0,85 –
1,25)
WAŻONY ILORAZ SZANS M-H
(PZO a NARAŻENIE NA PYŁ, Z UWZGLĘDNIENIEM NAŁOGU PALENIA)
ISM-H
= 1,34 (95%PU: 1,09 –
2,33)
„Narażenie na pył
organiczny zwiększa ryzyko występowania przewlekłego zapalenia oskrzeli o 34%, po uwzględnieniu wpływu nałogu palenia tytoniu”
ANALIZA STRATYFIKACYJNA ANALIZA STRATYFIKACYJNA W IDENTYFIKACJI INTERAKCJIW IDENTYFIKACJI INTERAKCJI
interakcja statystyczna ≠
interakcja biologiczna
Interakcja statystyczna ma miejsce, gdy testowany model zależności Y od narażenia nie jest właściwy dla opisu zależności Y
od dwóch lub więcej narażeń
RYZYKO
RAKA
PŁUC
NIEPALACZE PALACZE
tak
narażenie na azbest
nie
ANALIZA STRATYFIKACYJNA ANALIZA STRATYFIKACYJNA W IDENTYFIKACJI INTERAKCJI W IDENTYFIKACJI INTERAKCJI
(czy fiasko nCPAP
zależy od masy ciała noworodka ?)
Summary Statistics for „fiasko”
by „masa”Controlling for „poród”
Cochran-Mantel-Haenszel
Statistics (Based on Table Scores)Statistic Alternative Hypothesis DF Value Probƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
1 Nonzero Correlation 1 4.6160 0.03172 Row Mean Scores Differ 1 4.6160 0.03173 General Association 1 4.6160 0.0317
Breslow-Day Test for
Homogeneity of the Odds Ratiosƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
Chi-Square 6.1729DF 1Pr > ChiSq
0.0130
H0
: zależności są
homogenne
(takie same w każdej warstwie) –
brak interakcji
TRETREŚĆŚĆ
SEMINARIUM 3SEMINARIUM 3
Statystyka Analityczna –
Część
II
-
czynniki zakłócające
-
analiza stratyfikacyjna
-
analiza wielu zmiennych▫
analiza regresji liniowej
▫
analiza regresji logistycznej▫
model regresji proporcjonalnego ryzyka
▫
model regresji Poisson’a
-
specyficzne zastosowania analizy wielu zmiennych
ANALIZY EKSPLORATYWNE ANALIZY EKSPLORATYWNE I KONFORMACYJNEI KONFORMACYJNE
ANALIZA DANYCHANALIZA DANYCH
A. EKSPLORATYWNA
Hipoteza może być
formułowana na podstawie
wyników
pierwszych analiz; dopuszczalne są
otwarte pytania
„Jakie są
czynniki ryzyka zakażeńszpitalnych u noworodków ?”
A. KONFIRMATYWNA
Konkretna hipoteza, sformułowana przed
rozpoczęciem badania, testowana zgodnie z protokołem
„Częstość
zakażeń
szpitalnych jest podobna u noworodków płci męskiej
i żeńskiej”
A.E. ~ GENERATOR PRZYPADKOWYCH A.E. ~ GENERATOR PRZYPADKOWYCH ZNAMIENNOZNAMIENNOŚŚCICI
Nawet, gdy analizy są
wykonane zgodnie z wymogami metodologii (właściwy test, kontrola czynników zakłócających) przypadkowe uzyskanie
statystycznie znamiennego wyniku jest prawdopodobne
PODSTAWY ANALIZY WIELU ZMIENNYCH
CZTERY POZIOMY ANALIZY DANYCHCZTERY POZIOMY ANALIZY DANYCH --
KONWENCJONALNA STRATEGIA KONWENCJONALNA STRATEGIA --
•
Analiza Opisowa
•
Prosta Analiza Różnic/Zależności
•
Stratyfikacyjna Analiza Różnic/Zależności
•
Złożona Analiza Wielu Zmiennych
Przykład: wskazanie a sukces nCPAP
(realne dane)
PORPORÓÓWNANIE % SUKCESWNANIE % SUKCESÓÓWWW 2 GRUPACH O RÓŻNYCH WSKAZANIACH (nCPAP)
Wskazanie RDS + Wskazanie RDS -
Wiek > 30 HBD Wiek < 31 HBD Wiek > 30 HBD Wiek < 30 HBD
Apgar↑ Apgar↓ Apgar↑ Apgar↓ Apgar↑ Apgar↓ Apgar↑ Apgar↓
SN CC SN CC SN CC SN CC SN CC SN CC SN CC SN CC
% % % % % % % % % % % % % % % %
i.t.d.
√
brak danych do porównań
√
szum informacyjny
ANALIZA WIELU ZMIENNYCHANALIZA WIELU ZMIENNYCH
Y = bY = b00
+ b+ b11
XX11
+ b+ b22
XX22
+ + ……
+ + bbkk
XXkk
KLUCZ INTEPRETACYJNY
H0
: b = 0 vs
HA
b ≠
0
b = 0 gdy p>0,05
gdy b = 0 wówczas bX
= 0*X = 0 (to X znika !)
np. FVC = 1,67 + 2,34*Wzrost –
0,92*Papierosy
b1
= 2,34 b2
= 0,92
p = 0,01 p = 0,08
to ‘b’
nie rożni się
w sposób statystycznie znamienny od ‘0’, a więc
ANALIZA WIELU ZMIENNYCHANALIZA WIELU ZMIENNYCH
Y = bY = b00
+ b+ b11
XX11
+ b+ b22
XX22
+ + ……
+ + bbkk
XXkk
UWAGAMetoda szacowania bi
to metoda najmniejszych kwadratów (znalezienie takich ‘bi
’, które zapewniają
najmniejszą
sumę
kwadratów odległości wszystkich punktów
definiowanych przez X i Y od prostej regresji)
Porównywanie bezwzględnych wartości ‘bi
’
nie ma sensu bez uwzględnienia jednostek pomiaru odpowiednich ‘Xi
’. Na przykład, nie można stwierdzić, że ‘wzrost’ posiada trzy razy większe znaczenie wyjaśniające ‘FVC’
niż
‘papierosy’
[2,34:0,92]:
FVC = 1,67 + 2,34*Wzrost –
0,92*Papierosy + 1,67
Model zakłada liniową
zależność
(np. zmiana obciążenia paleniem z 1 do 5 pap/dzień
jest tożsama ze zmianą
z 20 do 25 pap/dzień. Analiza podlega
założeniom (dyskutowanym w związku z „diagnostyką
modelu”)
Model analizuje ilościowe lub jakościowe Xi
!!!
ANALIZA WIELU ZMIENNYCHANALIZA WIELU ZMIENNYCH
Y = bY = b00
+ b+ b11
XX11
+ b+ b22
XX22
+ + ……
+ + bbkk
XXkk
ZASTOSOWANIA
1. badanie zależności Y od Xi
, po uwzględnieniu wpływu
pozostałych X na Y;
2. przewidywanie wartości Y na podstawie wartości
wszystkich X
ANALIZA WIELU ZMIENNYCHANALIZA WIELU ZMIENNYCH
CZTERY PODSTAWOWE TECHNIKI
1.
model regresji liniowej (Y jest zmienną
ilościową)
2.
model regresji logistycznej (Y jest zmienną
jakościową)
3.
model regresji proporcjonalnego ryzyka (analiza przeżywalności)
4.
model regresji Poisson’a
(analiza zapadalności)
ANALIZA WIELU ZMIENNYCHANALIZA WIELU ZMIENNYCH
CZTERY PODSTAWOWE TECHNIKI
1.
model regresji liniowej (Y jest zmienną
ilościową)
2.
model regresji logistycznej (Y jest zmienną
jakościową)
3.
model regresji proporcjonalnego ryzyka (analiza przeżywalności)
4.
model regresji Poisson’a
(analiza zapadalności)
MODEL REGRESJI LINIOWEJMODEL REGRESJI LINIOWEJ
Y = bY = b00
+ b+ b11
XX11
+ b+ b22
XX22
+ + ……
+ + bbkk
XXkk
PYTANIA
1.
Jakie zmienne niezależne X ?
2.
Ile zmiennych niezależnych X ?
MODEL REGRESJI LINIOWEJMODEL REGRESJI LINIOWEJ
Y = bY = b00
+ b+ b11
XX11
+ b+ b22
XX22
+ + ……
+ + bbkk
XXkk
PYTANIA
1.
Jakie zmienne niezależne X ?
Koncepcja, model biologiczny (konfirmacja)
Dążenie do ustalenia jakichkolwiek zależności, nawet przy mglistej koncepcji –
po coś
te badania wykonano
(eksploracja)
MODEL REGRESJI LINIOWEJMODEL REGRESJI LINIOWEJ
Y = bY = b00
+ b+ b11
XX11
+ b+ b22
XX22
+ + ……
+ + bbkk
XXkk
PYTANIA
1.
Jakie zmienne niezależne X ?
2.
Ile zmiennych niezależnych X ?
Prosta reguła: liczba X < liczba obserwacji / 10
MODEL REGRESJI LINIOWEJMODEL REGRESJI LINIOWEJKONSTRUKCJA MODELU
MODEL KOMPLETNY DNICPAP1 = LPOPO2
+ WIEKPL1
+ APGAR + CRIB + MASA + DWCPAP1
MODEL
‘p’
R2
DNICPAP1 = LPOPO2
+ WIEKPL1
+ APGAR + CRIB + MASA + DWCPAP1
0,9
0,0001DNICPAP1 = LPOPO2
+ WIEKPL1
+ APGAR + CRIB + MASA + DWCPAP1
0,3
0,03DNICPAP1 = LPOPO2
+ WIEKPL1
+ APGAR + CRIB + MASA + DWCPAP1
0,2
0,06DNICPAP1 = LPOPO2
+ WIEKPL1
+ APGAR + CRIB + MASA + DWCPAP1
0,3
0,08DNICPAP1 = LPOPO2
+ WIEKPL1
+ APGAR + CRIB + MASA + DWCPAP1
0,03
0,20DNICPAP1 = LPOPO2
+ WIEKPL1
+ APGAR + CRIB + MASA + DWCPAP1 <0,0001
0,56
Im więcej zmiennych niezależnych w modelu tym większe R2
MODEL REGRESJI LINIOWEJMODEL REGRESJI LINIOWEJKOMPLETNY MODEL
The REG Procedure -
Dependent Variable: DNICPAP1Number of Observations Read 64Number of Observations Used 58 Number of Observations with Missing Values 6
Analysis of VarianceSum of Mean
Source DF Squares Square F Value Pr > F Model 6 824.53038 137.42173 10.84 <.0001 Error 51 646.77858 12.68193Corrected Total 57 1471.30897Root MSE 3.56117 R-Square 0.5604 !!!Dependent Mean 4.11379 Adj
R-Sq 0.5087Coeff
Var
86.56658
Parameter EstimatesParameter Standard
Variable DF Estimate Error t Value Pr > |t|Intercept 1 15.08566 9.41311 1.60 0.1152LPOPO2 1 -0.00074381 0.02116 -0.04 0.9721WIEKPL1 1 -0.11756 0.31636 -0.37 0.7117APGAR1 1 0.13837 0.27527 0.50 0.6174CRIB 1 -0.19641 0.39131 -0.50 0.6179MASA 1 -0.00815 0.00285 -2.86 0.0061DWCPAP1 1 14.56621 2.27320 6.41 <.0001
MODEL REGRESJI LINIOWEJMODEL REGRESJI LINIOWEJKOMPLETNY MODEL
The REG Procedure -
Dependent Variable: DNICPAP1Number of Observations Read 64Number of Observations Used 58 Number of Observations with Missing Values 6
Analysis of VarianceSum of Mean
Source DF Squares Square F Value Pr > F Model 6 824.53038 137.42173 10.84 <.0001 Error 51 646.77858 12.68193Corrected Total 57 1471.30897Root MSE 3.56117 R-Square 0.5604 !!!Dependent Mean 4.11379 Adj
R-Sq 0.5087Coeff
Var
86.56658
Parameter EstimatesParameter Standard
Variable DF Estimate Error t Value Pr > |t|Intercept 1 15.08566 9.41311 1.60 0.1152LPOPO2 1 -0.00074381 0.02116 -0.04 0.9721WIEKPL1 1 -0.11756 0.31636 -0.37 0.7117APGAR1 1 0.13837 0.27527 0.50 0.6174CRIB 1 -0.19641 0.39131 -0.50 0.6179MASA 1 -0.00815 0.00285 -2.86 0.0061DWCPAP1 1 14.56621 2.27320 6.41 <.0001
UWAGAWynik dla poszczególnych ‘b’
nie zależy od kolejnościzmiennych
(typ III sumy kwadratów)
Intercept 0.1152WIEKPL1 0.7117APGAR1 0.6174CRIB 0.6179DWCPAP1 <.0001MASA 0.0061LPOPO2 0.9721
MODEL REGRESJI LINIOWEJMODEL REGRESJI LINIOWEJKOMPLETNY MODEL
CZAS CPAP = 15.08-0007LPOPO2–0,11WIEKPL1+0,13APGAR1–0,19CRIB–0,008MASA+14,56DWCPAP1
ale ze względu na szereg startystycznie
nieznamiennych
‘b’
ostateczny model to
CZAS CPAP = MASA
+ DWCPAP1
Uwaga: konieczna ponowna parametryzacja
Parameter
StandardVariable
Estimate
Error
Type
II SS F Value
Pr > F
Intercept 11.31453 2.50493 242.78661 20.40 <.0001
DWCPAP1 14.30623 2.12053 541.63167 45.52 <.0001MASA -0.00741 0.00209 148.93148 12.52 0.0008
MODEL REGRESJI LINIOWEJMODEL REGRESJI LINIOWEJOSTATECZNY MODEL (REZULTAT SELEKCJI WSTECZNEJ)
CZASCPAP = 14,306*DWCPAP1 –
0,007*MASA + 11,314
Y ~ X1
, X2
, ale co gdy X1
~ X2 ?↓
ZJAWISKO WSPÓŁLINIOWOŚCI
Zniekształcenie wyników analizy wielu zmiennych, polegające na uzyskaniu niewłaściwych lub nawet fałszywych (dodatnich/ujemnych) współczynników
regresji, związane z korelacją
dwóch lub więcej zmiennych niezależnych
IDENTYFIKACJA WSPÓŁLINIOWOŚCI
1)
analiza korelacji liniowej pomiędzy wszystkimi Xi
2)
analiza tolerancji
MODEL REGRESJI LINIOWEJMODEL REGRESJI LINIOWEJDIAGNOSTYKA MODELU -
WSPÓŁLINIOWOŚĆ
MODEL REGRESJI LINIOWEJMODEL REGRESJI LINIOWEJDIAGNOSTYKA ZAŁOŻEŃ
Model jest trafny (intepretowalny), gdy spełnione są
następujące założenia/warunki:
1.
Brak odległych obserwacji („outliers”);
2.
Niezależność
obserwacji
3.
Normalny rozkład wartości resztowych
(średnia = 0; stała wariancja)
Wartość
resztowa
to odległość
pomiędzy wartością
obserwowaną
(Yi
) i wartością
Yi
wynikającą
z równania regresji:
Y
X
MODEL REGRESJI LINIOWEJMODEL REGRESJI LINIOWEJ
TERMINOLOGIA
CzasCPAP
= 16,02DobaWłącz –
0,004Masa + 7,23↑ ↑ ↑
Zmienna Zależna Zmienne Niezależne
Pytanie: Od czego zależy CzasCPAP
?↑ ↑ ↑
Zmienna Zależna Zmienne Objaśniające
Pytanie: Jaki jest przewidywany CzasCPAP
u noworodka o masie X1
, „podłączonego”
w dobie X2↑ ↑ ↑
Zmienna Zależna Predyktory
ANALIZA WIELU ZMIENNYCHANALIZA WIELU ZMIENNYCH
CZTERY PODSTAWOWE TECHNIKI
1.
model regresji liniowej (Y jest zmienną
ilościową)
2.
model regresji logistycznej (Y jest zmienną
jakościową)
3.
model regresji proporcjonalnego ryzyka (analiza przeżywalności)
4.
model regresji Poisson’a
(analiza zapadalności)
MODEL REGRESJI LOGISTYCZNEJMODEL REGRESJI LOGISTYCZNEJ
LOGIT –
FUNKCJA ŁĄCZĄCA W CELU WYKONANIA ANALIZY LINIOWEJ
PRAWDOPODOBIEŃSTWO WYSTĄPIENIA ‘Y’
W ODPOWIEDZI NA ZMIANĘ
‘X’
„uliniowienie
zależności biologicznej”
P LOGIT
P
X X
MODEL REGRESJI LOGISTYCZNEJMODEL REGRESJI LOGISTYCZNEJ
ZMIENNA ZALEŻNA = ZMIENNA JAKOŚCIOWA
ZMIENNE NIEZALEŻNE = ZMIENNE JAKOŚCIOWE/ILOŚCIOWE
PARAMETRYZACJA MODELU REGRESJI LOGISTYCZNEJ
ANALOGICZNA DO
PARAMETRYZACJI MODELU REGRESJI LINIOWEJ
POPULARNOŚĆ
REGRESJI LOGISTYCZNEJ W BADANIACH MEDYCZNYCH
1.
Odwzorowanie zjawisk (zgon/wyzdrowienie; poprawa/brak poprawy, objaw/brak objawu itd..)
2.
Bezpośrednie obliczenie ilorazu szans (logistycznego ilorazu szans: logIS
lub logOR)
WARTOŚCI ZMIENNYCH ORYGINALNE LUB W WYNIKU TRANSFORMACJI
MODEL REGRESJI LOGISTYCZNEJMODEL REGRESJI LOGISTYCZNEJ
KONSTRUKCJA MODELU
-
stopniowe („ręczne”) dodawanie zmiennych
-
sformułowanie kompletnego modelu
-
metody automatyczne (eliminacja wsteczna, wstępująca, krokowa na przykład w oparciu o kryterium p<0,05)
Y = b0
+ b1
X1
+ b2
X2
+ …
+ bk-1
Xk-1 + bk
Xk
MODEL REGRESJI LOGISTYCZNEJMODEL REGRESJI LOGISTYCZNEJ
WYNIK ANALIZY
Logistyczny Iloraz Szans (logIS
= logOR)iloraz szans dla danej zależności ‘Y ~ X’,
po uwzględnieniu wpływu pozostałych ‘X’
na Y
Odds Ratio Estimates
Point 95% WaldEffect
Estimate
Confidence
Limits
masac
1.320 0.332 5.249wiekc
0.901 0.251 3.234
apgarc
1.273 0.357 4.537cribc
1.196 0.230 6.222
dwcpapc
0.549 0.165 1.829po2c 0.554 0.179 1.716
UWAGA
zmieność
zmiennej binarnej to nie to samo co zmienność
zmiennej ilościowej
MODEL REGRESJI LOGISTYCZNEJMODEL REGRESJI LOGISTYCZNEJ
WYNIK ANALIZY
Logistyczny Iloraz Szans (logIS
= logOR)iloraz szans dla danej zależności ‘Y ~ X’,
po uwzględnieniu wpływu pozostałych ‘X’
na Y
Odds Ratio Estimates
Point 95% WaldEffect
Estimate
Confidence
Limits
masac
1.320 0.332 5.249wiekc
0.901 0.251 3.234
apgarc
1.273 0.357 4.537cribc
1.196 0.230 6.222
dwcpapc
0.549 0.165 1.829po2c 0.554 0.179 1.716
UWAGA
zmieność
zmiennej binarnej to nie to samo co zmienność
zmiennej ilościowej
SUROWY vs
LOGISTYCZNY
ILORAZ SZANS
MODEL REGRESJI LOGISTYCZNEJMODEL REGRESJI LOGISTYCZNEJDOBÓR MODELU
1.
Definicja zmiennych (znaczenie kliniczne lub statystyczne)
2.
Testowanie interakcji
3.
Automatyczna selekcja zmiennych statystycznie znamiennych
4.
Diagnostyka trafności modelu
5.
Diagnostyka założeń
modelu
INNE MODELE
Generalny Model Liniowy (uniwersalny dla zmiennych ilościowych i jakościowych)
ANALIZA WIELU ZMIENNYCHANALIZA WIELU ZMIENNYCH
CZTERY PODSTAWOWE TECHNIKI
1.
model regresji liniowej (Y jest zmienną
ilościową)
2.
model regresji logistycznej (Y jest zmienną
jakościową)
3.
model regresji proporcjonalnego ryzyka (analiza przeżywalności)
4.
model regresji Poisson’a
(analiza zapadalności)
ANALIZA PRZEANALIZA PRZEŻŻYWALNOYWALNOŚŚCICI
(SURVIVAL ANALYSIS)(SURVIVAL ANALYSIS)
ANALIZA PRZEANALIZA PRZEŻŻYWALNOYWALNOŚŚCI CI ––
OBSZARY ZASTOSOWAOBSZARY ZASTOSOWAŃŃ
historia naturalna chorób ( tym identyfikacja czynników ryzyka);
ocena skuteczności nowych metod terapeutycznych;
ocena skuteczności profilaktyki.
MEDYCYNA KLINICZNA A EPIDEMIOLOGIASkutki Terapii X
Obserwacja Kliniczna Obserwacja Epidemiologiczna
Pacjent A ‘+’Pacjent A ‘+’Pacjent A ‘-‘Pacjent A ‘+’Pacjent A ‘-‘Itd. . .
Odsetek ‘+’Odsetek ‘-’
Obserwacja grupy umożliwia kontrolowanie zakłócającego wpływu zjawiska zmienności międzyosobniczej, ale utrudnia uwzględnienie indywidualnie istotnych okoliczności zdarzeń.
Zgon jako przykład zdarzenia kończącego okres obserwacji (inne zdarzenia to np. pierwsza remisja, normalizacja biochemiczna itp.)
PORPORÓÓWNANIA UMIERALNOWNANIA UMIERALNOŚŚCI CI --
(DWIE KOHORTY)(DWIE KOHORTY)CZAS OBSERWACJI = 3 LATA
KOHORTA -
A100 CHORYCH
KOHORTA -
B100 CHORYCH
50 zmarło 45 zmarło
Ale
GRUPA A100 CHORYCH
GRUPA B100 CHORYCH
Zgon w 1 roku: 15 Zgon w 1 roku: 5
Zgon w 2 roku: 20 Zgon w 1 roku: 15
Zgon w 3 roku: 15 Zgon w 3 roku: 25
Alew obu grupach wystąpiły także zgony z innych powodów niż
choroba stanowiąca przedmiot obserwacjiAle
w obu grupach „utracono”
z obserwacji część
chorych (np. dobrowolna rezygnacja z udziału w badaniu, zmiana miejsca pobytu) –
ilu „utraconych”
zmarło z powodu choroby X w grupie A, ilu w grupie B ?Ale
chorzy objęci kompletną
obserwacją
trzyletnią żyją
także (różnie długo) po zakończeniu obserwacji
PORPORÓÓWNANIE PROFILU PRZEWNANIE PROFILU PRZEŻŻYWALNOYWALNOŚŚCICI Dwie Grupy –
Terapia A i Terapia BRADIOTERAPIA-
SCHEMAT ATablica przeżywalności kohorty
(1) (2) (3) (4) (5) (6) (7) (8)
1 X X X X X X X
2 X X X X X X X
3 X X X X X X X
...
N X X X X X X X
Wykres przeżywalności kohorty
0
0,2
0,4
0,6
0,8
1
1 2 3 4 5 6 7 8 9 10 11 12
Oczekiwany czas przeżycia kohorty
T = 6,1 miesięcy
(1) (2) (3) (4) (5) (6) (7) (8)
1 X X X X X X X
2 X X X X X X X
3 X X X X X X X
...
N X X X X X X X
RADIOTERAPIA-
SCHEMAT BTablica przeżywalności kohorty
Wykres przeżywalności kohorty
0
0,2
0,4
0,6
0,8
1
1 2 3 4 5 6 7 8 9 10 11 12
Oczekiwany czas przeżycia kohorty
T = 4,6 miesięcy
MODEL PROPORCJONALNYCH RYZYKMODEL PROPORCJONALNYCH RYZYK(proportional
hazards
model)
CZYMdla testów parametrycznych jest założenie liniowości
TYMdla testów różnic w zakresie przeżywalności
jest założenie proporcjonalnych ryzyk
(UPROSZCZONA) KONWENCJA STATYSTYCZNA Przebieg ryzyka, jego natężenie i zmiany w czasie obserwacji [t]
dają
się
opisać
matematycznie funkcją
ryzyka
(t)
Gdy porównuje się
ryzyko zgonu w dwóch grupach („Terapia”
i „Kontrola”) wówczas dla grupy kontrolnej (punkt odniesienia) ryzyko opisuje funkcja [K
(t)], a dla grupy terapeutycznej funkcja uwzględniająca badany „efekt terapeutyczny”
[], zatem [
* T
(t)]. Celem badania jest porównanie ryzyk, co opisuje
„model proporcjonalnych ryzyk”:
K
(t) =
* T
(t)gdy efekt terapeutyczny jest „żaden”
(=1) wówczas
= 1, i K
(t) = T
(t)
HIPOTEZĘ
O RÓWNOŚCI RYZYK W PORÓWNYWANYCH GRUPACH „K”
i „T” TESTUJE SIĘ
PRZY UŻYCIU:
TESTU RANG (LOGRANK) –
proste sytuacjeANALIZY REGRESJI COX’A –
złożone sytuacje
TEST RANG TEST RANG ––
STRATEGIA (B)STRATEGIA (B)Podstawowe Dane
rzeczywista, obserwowana liczbie zgonów w obu grupach (OT i OK);oczekiwana liczba zgonów w obu grupach (ET i EK).
Podstawowy Wynik Testu Rang -
Statystyka χ2χ2 = [(OT –
ET)2 / ET] + [(OK –
EK)2 / EK], a po podstawieniu danych z omawianego scenariusza:
χ2 = [(5-5,39)2/5,39] + [(8-7,57)2/7,57] = 0,028 + 0,024 = 0,052Uzyskany wynik w konfrontacji z rozkładem statystyki χ2 dla jednego stopnia swobody (liczba grup –
1) nie upoważnia do stwierdzenia, że różnica pomiędzy przeżywalnością
w grupie T i K jest statystycznie znamienna. Tym samym można przyjąć, że testowana metoda
terapeutyczna nie jest skuteczna, pod warunkiem, że inne przyczyny nie wpłynęły na wyniki badania.
PROBLEMYWniosek, że różnice w przeżywalności nie zależą
od terapii jest zasadny, gdy w każdym innym aspekcie istotnym dla przeżywalności
porównywane grupy są
podobne:Wiek;Płeć;
Stadium choroby;Wcześniejsze leczenie;
Choroby współistniejące;Itd
! kryteria doboru badanych i randomizacja
ANALIZA REGRESJI COXANALIZA REGRESJI COX’’A A --
II(Cox D.R.: Regression models and life tables. Journal of the Royal Statistical Society 1972;34:187-220)
MODEL COX’a
= PROCEDURA STATYSTYCZNA UMOŻLIWIAJĄCA ZBADANIE ZALEŻNOŚCI CZASU PRZEŻYCIA OD CZYNNIKÓW PODEJRZEWANYCH O
WPŁYW NA CZAS PRZEŻYCIA, Z UWZGLĘDNIENIEM OBSERWACJI NIEPEŁNYCH
Dane toksykologiczne wykazują, że czas przeżycia dobrze charakteryzuje funkcja wykładnicza:
Y = ax
przekształcenie modelu proporcjonalnych ryzyk [K
(t) = * T
(t)] w model proporcjonalnych przeżyć
[SK
(t) = ST
(t)] –
badany efekt (np. skutek terapii) reprezentuje wówczas funkcja wykładnicza
a dla wielu zmiennych:
Y = a(b1*X
1
+ b2*X
2
+... + bk-1
*Xk-1
+ bk*X
k)
Porównanie dwóch grup (np. terapia A i B) jest porównaniem dwóch profili przeżycia, co umożliwia obliczenie ilorazu ryzyk (RR=risk
ratio)
RR = ryzyko A / ryzyko BJest to możliwe ze względu na założenie, że ryzyko wystąpienia zgonu
rozkłada się
proporcjonalnie w trakcie obserwacji –
stąd pochodzi ogólna nazwa procedury: model proporcjonalnego ryzyka (proportional-hazards
model
w terminologii anglosaskiej).
ANALIZA REGRESJI COXANALIZA REGRESJI COX’’A (MODEL A (MODEL COXCOX’’aa) ) ––
IIIIII
Gdy model Cox’a
dotyczy prostej analizy (tylko jeden czynnik X –
terapia) wyniki będą
tożsame z wynikiem testu rang.
Pełne wykorzystanie analizy Cox’a
i jej zalety są
widoczne wówczas, gdy w analizie przeżywalności stosuje się
jednoczasowo
wiele zmiennych, np.:
b1
*PŁEĆ
+ b2
*WIEK + b3
*STAN + b4
*TERAPIA
Analizy tego typu są
możliwe przy użyciu procedur dostępnych w programach komputerowych, np. PROC PHREG w programie SAS.
Inne procedury dostarczają
szerokiego spektrum testów stosowanych w analizie przeżywalności
(PROC LIFETEST, PROC LIFEREG w programie SAS).
ANALIZA PRZEANALIZA PRZEŻŻYWALNOYWALNOŚŚCI CI PODSUMOWANIE IPODSUMOWANIE I
CHARAKTERYSTYKA PROFILU PRZEŻYWALNOŚCI
Metoda Kaplan-Meier’aCel: opis profilu
* * *PORÓWANIA PROFILI PRZEŻYWALNOŚCI
Test rang (logrank
test)Cel: ocena różnic pomiędzy profilami
* * *IDENTYFIKACJA CZYNNIKÓW WPŁYWAJĄCYCH
NA PRZEŻYWALNOŚĆ
Analiza Cox’aCel: analiza czynników determinujących profil lub odpowiedzialnych za
różnice pomiędzy porównywanymi profilami
ANALIZA WIELU ZMIENNYCHANALIZA WIELU ZMIENNYCH
CZTERY PODSTAWOWE TECHNIKI
1.
model regresji liniowej (Y jest zmienną
ilościową)
2.
model regresji logistycznej (Y jest zmienną
jakościową)
3.
model regresji proporcjonalnego ryzyka (analiza przeżywalności)
4.
model regresji Poisson’a
(analiza zapadalności)
MODEL REGRESJI MODEL REGRESJI POISSONPOISSON’’AA
WSPÓŁCZYNNIK REGRESJI POISSON’A
: ‘b’
gdy narażenie = ‘tak’
(X1
=1) →
log(wsp.E+
) = b0
+ b1
*1 + …
+ bk
Xk
gdy narażenie = ‘nie’
(X=0) → log (wsp.E-)
= b0
+ b1
*01
+ …
+ bk
Xk
a po rozwiązaniu układu równań
b1
= log(wsp.E+
) –
log(wsp.E-
)
b1 = log(wsp.E+
/ wsp.E-
)
Współczynnik regresji ‘b’
jest logarytmem ilorazu współczynników, a zatem
antylogarytm b, czyli „eb1”
to iloraz współczynnika u narażonych i nienarażonych
! ! !
(wartość
„sprawcza”
danego narażenia po uwzględnieniu innych zmiennych w modelu)
TRETREŚĆŚĆ
SEMINARIUM 3SEMINARIUM 3
Statystyka Analityczna –
Część
II
-
czynniki zakłócające
-
analiza stratyfikacyjna
-
analiza wielu zmiennych▫
model
regresji liniowej
▫
model regresji logistycznej▫
model regresja proporcjonalnego ryzyka
▫
model regresji Poisson’a
-
specyficzne zastosowania analizy wielu zmiennych
MODEL REGRESJI WIELU ZMIENNYCHMODEL REGRESJI WIELU ZMIENNYCH
1.
Analiza dyskryminacyjna (SAS-DISCRIM)
2.
Analiza wyników powtarzanych pomiarów (SAS-GLM/REPEATED)
3.
Analiza skupień
(SAS-CLUSTER)
4.
Analiza ścieżek (SAS-CALIS)
5.
…
-
tematyka wykracza poza zakres kursu -
top related