survival analysis

Post on 15-Jan-2016

36 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

DESCRIPTION

Survival Analysis. Mgr. Pavel Tuček, Ph.D. Olomouc 10.03.2010. Praktický „Background“. - PowerPoint PPT Presentation

TRANSCRIPT

Survival Analysis

Mgr. Pavel Tuček, Ph.D.

Olomouc10.03.2010

Praktický „Background“

• Předmětem analýzy přežívání je vyšetřévání jedné nebo více skupin objektů, kde pro každý jednotlivý objekt máme dánu událost (selhání), která nastává po nějakém časovém intervalu (doba do selhání, doba přežití). Příklady doby do selhání zahrnují dobu životnosti součástek, dobu přežívání pacientů v klinických experimentech, dobu trvání stávek, delku doby nezaměstnanosti, dobu potřebnou k vykonání nějakého specifického úkolu….

Praktický „Background“

• Problémy, které se nejčastěji řeší jsou tedy odhad pravděpodobnostního rozložení doby přežití v dané skupině nebo statistické porovnání dob přežití v několika skupinách. Pokud navíc máme pro každý objekt i několik vysvětlujících proměnných, můžeme analyzovat jejich vliv k na dobu přežívání. Možnost výskytu neúplných pozorování zabraňuje použití klasických metod. Tyto údaje dávají pouze informaci, že za sledovanou dobu k danému jevu nedošlo - cenzorování

Proč?• Mohu porovnávat průběh křivek přežívání

mezi dvěma nebo více skupinami• Mohu odhadnout “poločas“ trvání (délky

života) spolu s konfidenčním intervalem• Mohu testovat vliv kvantitativních

proměnných i faktorů na průběh křivky – Cox proportional hazard model, předpokládá konstatní násobné zvýšení či snížení míry rizika

Úvod• Survival analysis, doménou jsou lékařské aplikace• Obecně pro data, ve kterých dochází

k tzv. cenzoringu (censoring)• Nejčastější tzv. right censoring: sleduji dobu

existence jedince nebo jevu a v určitém okamžiku své pozorování ukončím, ale jedinec žije dál, nevím jak dlouho

• Left censoring x intervalový cenzoring je většinou nepoužitelný

• Pro data bez cenzoringu existují jednoduššímetody (analýza délek života regresí – normální nebo generalized linear models)

PříkladyLékařské vědy• smrt• relaps• objevení symptomů• začátek nemociSociologie• rozvod• změna zaměstnání• zanechání kouření• první použití drogy

Pedagogika• zanechání studia• začátek studia na vysoké

škole

Ekonomie• bankrot• délka stávky• žádost o pomoc v

nezaměstnanost

eal Example

Funkce přežití• T je náhodná veličina, která popisuje dobu do

selhání.• Při popisu rozdělení náhodného chování časů

přežití se používá funkce přežití S(t), která udává pro čas t pravděpodobnost přežití jedince: S(t)=P(T≥t),

• Protože se jedná o pravděpodobnost, nabývá funkce pouze kladných hodnot a má klesající průběh s tím, jak se pravděpodobnost přežití jedince zmenšuje.

Funkce přežitíHustota náhodné veličiny T

Intenzita selhání (riziková funkce – hazard function))

Vzájemný vztah:

Rozdělení pstí pro dobu selhání

• Exponenciální• Gamma rozdělení – intenzita má

komplikované vyjádření – dva parametry• Weibullovo rozdělení• Log-normální rozdělení – intenzita není

monotónní a má opět dva parametry• Inverzní Gaussovo rodělení – není vhodné pro

cenzory

Řešení pomocí MLE

Neparametrický přístup

• Pro nás se tedy situace zjednodušila na dva nejběžnější přístupy a to je metoda LIFE-TABLE (epidemiologie, pojišťovnictví, geovědy) a přesnější KAPLAN-MEIEROVY odhady („product limit“, užívá se všude )

• Podstatné je rozdělit sledovaný časový úsek na podintervaly. Používat se bude následující označení:

Neparametrický přístup

• ni – počet živých jedinců• li – počet ztracených během Ii• pi – pravděpodobnost přežití období Ii, když

na počátku toho období byl naživu• wi + li – počet cenzorovaných pozorování v Ii• di – počet selhání během Ii• wi – počet ukončení bez selhání během Ii

Neparametrický přístup

• Potom pro pravděpodobnost přežití platí

• Metodou LIFE-TABLE se tedy dají odhadnout neznámé pi pomocí pi=1-di/ni’, kde ni’=ni-0.5(wi+li).Výsledný odhad je pak

Neparametrický přístup• Pro zajímavost se dá spočítat i velice hodnotný odhad variance pro

tyto odhady. Vychází z Greenwoodovy formule a je ve tvaru:

• Bohužel se tato metoda nehodí pro malá pozorování!!!!!

KAPLAN MEIER• Daleko efektivnější je následující úvaha: Pozorujeme data v

následující struktuře uspořádaných dvojic: (Y(1),δ1),…, (Y(n),δn), kde Y je čas a δ je binární atribut.

• Rozptyl se dá opět dopočítat pomocí dříve ukázané formule. Dá se rovněž dokázat asymptotická normalita

Testování• Pro testování rozdílů, shody, neshody a náhody se dá

použít navržených testů GEHANUV (Zobecněný wilcox, resp. Mann-whitney) a MANTEL-HANZELUV (založen na posloupnosti čtyřpolních tabulek)

Back to eal World

BOX - COX• Cox navrhl modelovat vztah mezi nezávislými

proměnnými a funkcí rizika. Jeho přístup vychází z modelové rovnice:

• Častěji se modelová rovnice vyjadřuje v logaritmickém tvaru:

0, expi j ijh t h t x x

0log[ , ] log[ ]i j ijh t h t x x

Hazard atio

Dík za pozornost

top related