skriveni markov modeli u medicini primenjeni u analizi...
TRANSCRIPT
-
1. UvodSve ve}a primena informacionih tehnologija u bolnica-ma i drugim medicinskim ustanovama imala je za po-sledicu potrebu da se ve} uskladi{teni podaci istra`ekako bi se vi{e saznalo o oboljenjima, toku bolesti, mo-gu}im metodama le~enja, itd. Posebno kriti~ne sredinekao {to su odeljenja intenzivne nege veoma su zainte-resovane za ovu temu. U ovim odeljenjima 8-20% pa-cijenata oboli od VAP (N.N., 2005) i to vodi stopismrtnosti od 20-50% ili ~ak 70% (N.N., 2005)(Heyland i dr., 1999) (Tejerina i dr., 2006). Stoga je ve-oma zna~ajno da se postavi rana i precizna dijagnozaVAP. Precizna dijagnoza – a samim tim i br`e ozdra-vljanje – skra}uje boravak pacijenta u ICU i smanjujekako nepotreban stres pacijentu tako i tro{kove bolni-ce koji bi se mogli izbe}i (Oroszci, 2008). Pored toga,lekari su pretrpani ogromnim brojem podataka kojemoraju da zapisuju svakodnevno. Stoga su potrebninovi metodi rada. Metod izdvajanja podataka nudimogu}nost da se ~isti i sirovi podaci pretvore u znanje{to bi doprinelo ve}oj uspe{nosti metoda le~enja.
Ovaj rad je deo interdisciplinarnog projekta u komeu~estvuju istra`iva~i sa odseka informacionih sistemaUniverziteta Friedrich-Schiller (FSU) u Jeni, odelje-nje za intenzivnu negu (ICU) i bolni~ka apoteka isteove institucije (Oroszci, 2008). Ovaj projekat u kom jeprimenjen standardni proces obrade u tehnici izdvaja-nja podataka (CRISP-DM) (Chapman i dr., 2000) imaza cilj da primeni tehnike izdvajanja podataka na da-toteku ICU. U ovom radu posebno }emo se baviti ob-radom vremenskih serija podataka, {to je zna~ajan is-tra`iva~ki obuhvat za ceo projekat. Podaci koje anali-ziramo su vremenske serije podataka agregatne vred-
nosti koje su nastale tokom rane faze projekta(Oroszci, 2008). Poseban cilj ovog rada i drugih istra-`ivanja u okviru ovog projekta bio je da se identifiku-ju pogodni dodaci za predvi|anje pneumonije koji }ese koristiti u daljim istra`ivanjima. Su{tinsko pitanjekoje se postavlja u vezi sa ovim projektom glasi: Da lipostoje razlike u pred-fazi bolesti izme|u pacijenatakoji boluju od pneumonije i onih koji ne boluju odove bolesti? Slede}e pitanje koje se postavlja jeste da,ako razlike postoje, da li su one trivijalne, na primer„ako merena vrednost dostigne odre|enu ta~ku, pneu-monija }e se manifestovati narednog dana“ ili da li tokbolesti sadr`i i slo`enije obrasce koje treba otkriti?Stoga, ako ovi obrasci postoje, metode izdvajanja po-dataka }e mo`da mo}i da ih iskoriste za formiranjejednog sistema za rano upozoravanje. Kad uspostavljadijagnozu, ordiniraju}i lekar suo~ava se sa razli~itimvrstama podataka i inputima informacija. Kad su musve dostupniji kompjuterski obra|eni i digitalno sa~u-vani podaci, potrebni su mu i alati kojima }e efektiv-no i efikasno da obradi ovaj input. Sistem za rano upo-zoravanje mora da ponudi pouzdane i razumljive in-formacije koji }e biti od pomo}i lekarima u svako-dnevnom poslu, da bi postavili najbolju dijagnozu pri-menom sistema dijagnosti~ke podr{ke.
Struktura ovog rada je slede}a:U poglavlju 2 predstavljamo pregled datih podataka injihovu strukturu. U poglavlju 3 ukratko ilustrujemoteoriju i funkcionalnost Skrivenin Markov Modela. Si-mulacijom u poglavlju 4 predstavljamo sposobnost si-stema da prika`e boravak pacijenta u ICU. Sledi po-glavlje 5 u kome predstavljamo probnu varijantu ko-jom pokazujemo kako komponente me|usobno delu-
55
Skriveni Markov modeli u medicini primenjeni u analizi vremenskihnizova podataka za otkrivanje upale plu}a pneumonije u bolnicamaUDK: 007:616-083 ; 519.863 ; 519.246.8
Marek Opuszko1, Johannes Ruhland1, Franziska Oroszi2, Michael Hartmann2 ·Martin Specht2 1Friedrich-Schiller-Univerzitet, Jena (FSU), Nema~ka, Odsek za informacione sistememarek.opuszko¿uni-jena.de, j.ruhland¿wiwi.uni-jena.de2Univerzitetska bolnica, Jena, Nema~ka
Pneumonija – kao zapaljenjsko oboljenje plu}a – predstavlja opasnu i ~esto fatalnu bolest. Od ventilatorne pneu-monije (VAP), posebnog oblika ove bolesti, oboljeva otprilike jedna petina pacijenata u odeljenjima intenzivnenege (ICU). Na osnovu skupa podataka za period od dve godine, prikupljenih u jednom velikom odeljenju inten-zivne nege, ispitivali smo novi metod obrade vremenskih serija podataka da bismo razvili sistem koji bi na vremeupozorio na opasnost od oboljevanja od pneumonije. U ovom sistemu fokusiramo se na period pre po~etka bolestii poku{avamo da odredimo budu}i tok doga|aja. Prilikom kategorisanja i predvi|anja datih vremenskih serija kodpacijenta koristili smo Skriveni Markov Model (HMM) i paradigmu slaganja. Na kraju smo prikazali primer saskupom podataka za stvarnog pacijenta i na taj na~in pokazali kakva je korist od na{eg pristupa.
XII Internacionalni Simpozijum SymOrg 2010, 09.-12. Jun 2010, Zlatibor, Srbija
-
56
ju. Na kraju rada predstavljamo rezultate na{ih istra-`ivanja i nagla{avamo neke mogu}nosti daljih istra`i-vanja.
2. Podaci
Svi podaci prikupljeni su u po~etnoj fazi projekta go-dine 2004. i 2005. i ve} su pro{li kroz preliminarnu ob-radu. Ceo skup podataka obuhvatio je vi{e od 4000varijabli. Na`alost, ne postoji ni jedna jedinstvena kli-ni~ka manifestacija na osnovu koje bi se dijadnostifi-
kovao VAP, ali smo primenili nekoliko metoda ~iji suse rezultati razlikovali (Rea-Neto i dr., 2008). Koncen-trisali smo se na zbir klini~kih pulmonarnih infekcija(CPIS) koji je izra~unat za svakog pacijenta tokom2004. i 2005. godine. CPIS je zbirna vrednost koja jeformirana da bi se olak{alo dijagnostifikovanje pneu-monije, a prvi ju je predlo`io Pugin i dr., 1991. godne.Iako CPIS ima odre|ena ograni~enja koja se vezujuza njegovu umerenu uspe{nost, on predstavlja dobaralat za dijagnostifikovanje VAP (Rea-Neto i dr.,2008).
Ulazna odlika Zbir 0 1 2 Sekrecija iz traheja Retka Obilna Gnojna Radiografski infiltrati
Nema Neujedna~eni ili difuzni
Lokalizovani
Visoka temperatura(°C)
≤ 36,5 i ≥ 38,4 > 38,4 i ≥ 38,9 > 38,9 ili < 36
Leukocitoza ≤ 4.000 i ≥ 11.000 < 4.000 ili > 11.000 (> 4.000 ili < 11.000) i ≤ 500 trakasti oblici
Oksidacija (PaO2/FIO2)
> 240 ili precizan sindrom respiratornog distresa (ARDS)
≥ 240 i bez ARDS
Mikrobiologija Negativna Pozitivna
Kako je prikazano na tabeli 1, CPIS predstavlja skupizra`en celim brojem, koji sadr`i 6 komponenti (se-krecija iz traheja, radiografski infiltrati, visoka tempe-ratura, oksidacija i polu-kvantitativne kulture aspira-te/udahnute tvari, mikrobiologija) (Pugin i dr., 1991).Svaka komponenta dodaje vrednost celog broja izme-|u 0 i 2. Stoga CPIS ima maksimalnu vrednost 12 –ako sve odlike imaju vrednost 2 – a minimalnu vred-nost 0. Prema me|unarodnoj praksi, smatramo da jedijagnoza pneumonije konstatovana ako CPIS dostig-ne vrednost ≥ 6 (Rea-Neto i dr., 2008). Prvi dan pneu-monije naziva se „dan reakcije“. Na osnovu ove kon-vencije mogu se identifikovati dve grupe slu~ajeva,slu~ajevi sa pneumonijom i slu~ajevi koji nemaju pne-umoniju. Ovu informaciju iskoristi}emo kasnije, kadbudemo vrednovali na{ model. Prvi pregled podatakapokazao je nepovoljnu distribuciju, posebno u grupikoja boluje od pneumonije. U ovoj grupi mogli smoda izdvojimo 325 vremenskih serija CPIS za godine2004. i 2005. Zahvaljuju}i ~injenici da se ve}ina me-renih vrednosti pojavila u okviru perioda po{to je danreakcije ve} dostignut, u ovoj grupi mogli smo dauzmemo u obzir za obradu samo 79 vremenskih serijasa ukupno 425 vrednosti CPIS. Na{ cilj je bio da ana-liziramo fazu pre nastanka pneumonije; podaci za
ovaj rani period toka bolesti su od su{tinske va`nosti.U grupi koja nije imala pneumoniju imali smo dovolj-no podataka. Na primer, izdvojili smo 147 slu~ajeva saukupno 995 pojedina~nih vrednosti CPIS za 2004. go-dinu i 138 slu~ajeva sa ukupno 827 pojedina~nih vred-nosti CPIS za godinu 2005. Pored toga, razli~ite vre-menske serije imale su prekide i podaci su bili prore-|eni zato {to su mnogi pacijenti ostajali u bolnici veo-ma kratko vreme. [ta vi{e, podaci su bili veoma neu-ravnote`eni po{to je grupa koja nema pneumonijupredstavljena isuvi{e velikim brojem ~lanova. Povrhsvega, period koji je pro{ao pre nego {to se stiglo dodana reakcije bio je veoma kratak u ve}ini slu~ajevasa pneumonijom. Zbog ovih ograni~enja bili su nampotrebni metodi kojima se mo`e obraditi i ova vrstapodataka.
3. Skriveni Markov modeli
Pristup u istra`ivanju mogu}nosti za predvi|anje pne-umonije na osnovu vremenskih serija CPIS uglavnomkoristi Skriveni Markov model (HMM). Veliki brojdrugih metoda te{ko mogu da obrade vremenske seri-je arbitrarne i razli~ite du`ine, ali HMM nudi mogu}-nost obrade vremenskih serija ~ije karakteristike zai-sta predstavljaju izazov. Modeli HMM decenijama su
Tabela 1: Vrednovanje inputa CPIS
-
uspe{no primenjivani u izdvajanju podataka u shvata-nju govora (Rabiner, 1989)(Manning and Schütze,2005) kao i u mnogobrojnim drugim istra`ivanjima, naprimer, u bioinformatici (Gascuel and Moret, 2001)(Bystroff and Krogh, 2008). Matemati~ki opis HMMuglavnom se dr`i formulacije koju su dali Rabiner i Ju-ang, 1986. Stohasti~ki model HMM karakteri{e kombi-nacija dva nasumi~na, slu~ajna procesa. Po~etni processa N razli~itih stanja X = ÌX1, .., XNÍ nije vidljiv („skri-ven je“). Ovaj proces se ne mo`e meriti, ali postoji Memisija Y = Ìy1, .., yMÍ koje se mogu posmatrati i kojedaju informaciju o prvobitnom (originalnom) procesu.Zdravstveno stanje pacijenta mo`e se smatrati nasu-mi~nim, slu~ajnim procesom. U okviru ovog procesazdravstveno stanje pacijenta se s vremena na vrememenja. Obi~no se njegovo zdravstveno stanje mo`eopisati kao „dobro“, „lo{e“, „stabilno“, isl. O~igledno jestoga da je ovaj proces te{ko operacionalizovati i ne-posredno meriti. Svaki lekar koristi simptome i drugeinformacije do kojih mo`e da do|e da bi postavio di-jagnozu o fizi~kom stanju pacijenta. Na{a pretpostav-ka sada jeste da se zdravstveno stanje mo`e predstavi-ti kao nevidljivo (skriveno) stanje HMM.
U tipi~nom okru`enju HMM se koriste za klasifikova-nje vremenskih signala kao {to je neprekidni, vezanigovor ili genetski niz. Uobi~ajeno se signal deli na blo-kove (okvire) u fazi pred-obrade. U na{em slu~aju,jedna vrednost CPIS predstavlja jedan blok. Zbogograni~enja {to je merenje CPIS mogu}e samo jednomdnevno, okvirna stopa je jedan dan1. Stoga celu vre-mensku seriju CPIS mo`emo da tuma~imo kao emisi-one simbole koji predstavljaju merljive simptome.Ove vremenske serije omogu}avaju nam da vr{imoprocene u vezi sa – skrivenim – prvobitnim procesom i,pored toga, o zdravstvenom stanju. Na slici 1 prikaza-na je struktura HMM koja predstavlja tok bolesti. Upostavci ove provere pretpostavili smo da postoje ~eti-ri originalna stanja koja smo nazvali: „zeleno (X1)“ –zdravstveno stanje je stabilno, „`uto (X2) – zdravstve-no stanje nije stabilno, „narand`asto (X3) – zdravstve-no stanje pacijenta je ozbiljno ugro`eno i „crveno“(X4) za stanje oboljenja koje se ve} manifestuje. Da bimodel razvoja bolesti mogao da se napravi, potrebnasu nam tri stanja (nije potrebno „crveno“). Slu~ajna va-rijabla x(t) predstavlja skriveno stanje u vremenut(x(t) ∈ ÌX1, X2, X3, X4Í). Svako stanje X1,…, X4 ka-rakterisano je tranzicionom distribucijom predstavlje-nom lukovima iscrtanim punom linijom na slici 1.Tranzicione distribucije za svako stanje grade N × N
tranzicionu matricu aij koja ostaje nepoznata sve dokse model ne „razradi“. Ovde aij predstavlja verovatno-}u prelaska od stanja i do stanja j u narednom koraku.[ta vi{e, slu~ajna varijabla y(t) predstavlja emisiju uvremenu t(y(t) ∈ Ìy1, y2, y3, y4, y5, y6Í). Za svako sta-nje karakteristi~na je verovatno}a distribucije na mo-gu}im emisijama y1 do y6. Verovatno}e rezultante –predstavljene ta~kastim linijama na slici 1 – grade N ×M emisionu matricu, kojom se defini{e verovatno}asvakog rezultata u skladu sa skrivenim stanjem u mo-delu. Tako bi(k) predstavlja verovatno}u opa`anjaznaka yk kada se proces nalazi u stanju i. [ta vi{e, datje N-dimenzionalni vektor π ∈ Ìπ1, .., πN Í s po~etnimvrednostima verovatno}e za svako stanje. Stoga seHMM mo`e prikazati kao λ, gde λ = (X, Y, a, b, π).
Slika 1: Grafi~ki prikaz strukture HMM
[to se ti~e na{ih pretpostavki u poglavlju 2, mi smo de-finisali CPIS of ≥ 6 kao jednak stanju „crveno“. Poredtoga, nismo dozvolili nikakav prelaz (tranziciju) iz sta-nja „zeleno“ u stanje „crveno“ i podesili smo sve vred-nosti verovatno}e stanja „crveno“ na 0, osim tranzicijeovog stanja u samo sebe. Po~etna verovatno}a za sta-nje „crveno“ pode{ena je na 0. Nismo postavljali nika-kve druge pretpostavke niti ograni~enja. U skladu sapotrebama istra`ivanja, u vezi sa HMM javljaju se ~e-tiri problema/pitanja:
1. Kad se uzme u obzir skup posmatranih CPIS, Osa nizovima o1,.., oL i HMM λ, kako }emo prila-goditi parametre modela a, b i π da bismo maksi-mizovali P(O|λ) (Od sada }emo ovaj problem na-zivati razrada). Da bismo re{ili ovaj problem pri-meni}emo Baum-Welch algoritam (Baum i dr.,1970).
2. Najverovatniji niz emisija CPIS koji po~inje u bi-lo kom momentu u vremenu. Da bismo re{ili ovajproblem, primeni}emo terminski, povratni, algo-ritam (Rabiner, 1989) i iskoristi}emo ovu infor-maciju za predvi|anje toka bolesti i po~etka pne-umonije.
57
1 Ovo proizilazi it ograni~enja temporalnih merenja nekih kompo-nenata CPIS.
-
58
3. Najverovatnije skriveno stanje u odre|enom mo-mentu u vremenu, a time i budu}a emisija. Ovajproblem }emo re{iti primenom Viterbi algoritma(Forney, 1970) (Rabiner, 1989). Tako }emo dobitivi{e informacija o toku same bolesti pneumonije.
4. Verovatno}a datog niza CPIS. Problem }emo re{a-vati primenom terminskog algoritma pomo}u koga}emo sada klasifikovati nizove. Opis ovog skupaveoma poznatih algoritama dao je Rabiner, 1989.
4. Simulacija CPIS
Kad doka`emo da su stohasti~ke odlike CPIS vremen-skih serija ta~no predstavljene radnim HMM mode-lom, mo}i }emo odmah da zapo~nemo proces predvi-|anja i da brojimo ta~na predvi|anja. Da bismo shva-tili koliko precizno HMM mo`e da modeluje razvojpneumonije, pretpostavi}emo da }e model mo}i do-bro da predvidi tok samo ako mo`e da simulira tokCPIS. Stoga smo razradili HMM onako kako je prika-zano na slici 1, sa skupom slu~ajeva pneumonije. Naslici 2 prikazan je prose~ni tok bolesti pacijenata obo-lelih od pneumonije i srednji tok vi{estrukih simulaci-ja. Simulacija za jedan odre|eni tok po~ela je prvomslu~ajnom emisijom, a zaustavili bismo je ako bismosmo opazili CPIS ≥ 6. S obzirom na ~injenicu da se du-`ine generisanih nizova razlikuju, svi nizovi su pore|a-ni oko dana reakcije. U pore|enju sa serijama u real-nom vremenu, simulirani nizovi imaju devijaciju uprocentu od 6,95% prose~nog CPIS. Ovakav rezultatjasno pokazuje da je model prilago|en stohasti~kimodlikama datih vremenskih serija.
5. Postavka testa
Postavkom testa }emo prilagoditi i simulirati tok bolestipneumonije i odrediti verovatno}u oboljevanja od pne-umonije u budu}nosti. Ako se postigne ovakva funkcio-nalnost, sistem se mo`e pretvoriti u svojevrsno „svetlo
upozorenja“. Prema tome, model mo`e da poslu`i kaopodr{ka za odlu~ivanje kad lekar treba da utvrdi dijag-nozu. Ovakav test bi trebalo da predvidi manifestovanupneumoniju – „crveno“ stanje – upravo dan pre dana re-akcije. Za sve ostale momente u vremenu predvi|anje }ebiti „zeleno“, „`uto“ ili „narand`asto“ stanje. Konstrukcijamodela zavisi od medicinskih dokaza da }e se pacijentikoji pokazuju visok nivo podlo`nosti pneumoniji zarazi-ti i oboleti od ove bolesti mnogo br`e nego {to je to uo-bi~ajeno (Oroszci, 2008). Model prikazuje ovaj koncepttako {to primenjuje paradigmu slaganja kao {to je prika-zano na slici 3. Dva modula operi{u u nizu: jedan razdva-ja pacijente niskog i visokog rizika (klasifikacija), drugipravi konkretnu prognozu i za jednu i za drugu grupu(predvi|anje). Teorijski osnovi slaganja opisani su u od-govaraju}oj literaturi (Wolpert, 1992). Slaganje (engl:stacking) predstavlja metod primene vi{estrukih nizovaili paralelnih modela da bi se dobila ve}a preciznost upredvi|anju (Ting i Witten, 1997). Projektovanje mode-la predvi|anja prijem~ivosti vodi se slede}im zahtevima:
– Koristi se u~enje pod nadzorom. Ovo zahteva dase koncept prijem~ivosti razlo`i na veli~ine kojese mogu posmatrati. Kao prvu aproksimaciju ko-ristili smo prvu pojavu pneumonije premaCRISP kao varijabli klase. Kao dodatak, mo`e seprimeniti skrivena varijabla koja proizilazi izModelovanja strukturne jedna~ine (SEM) (vide-ti, na primer, Buncher i dr., 1991).
– Model treba da vr{i predvi|anja verovatno}e po-mo}u parametara koji omogu}avaju da se njego-
ve α i β gre{ke lako prilagode. U~i-nak sistema }e na kraju da odredi in-terakcija razli~itih delova modela.
– Model mora da se bavi veoma ne-uravnote`enim uzorcima za u~e-nje, po{to je grupa visoke prijem-~ivosti na bolest daleko manja odgrupe pacijenata malog rizika.
Klasifikacija Razvijeni model pred-stavlja kombinaciju HMM i Bayes-ovog sistema. U delu klasifikacije ko-ji je prikazan na slici 3, izvedena sudva HMM, jedan za pacijente visokogrizika (HR pacijenti - λHR) i jedan za
ostale (LR pacijenti - λLR). Po Baum-Welch radnommodelu svaki model je prilagodio karakteristike slu~a-jeva sa pneumonijom (λHR) i onih koji ovo oboljenjenemaju (λLR). U oba slu~aja, vremenski nizovi koji sekoriste za kalibraciju isklju~uju dan reakcije. [ta vi{e,modeli HMM za modele klasifikacije i predvi|anja se
Slika 2: Simulirane i stvarne vremenske serije
-
neznatno razlikuju u broju stanjau skadu s ~injenicomda stanje „crveno“ ne postoji u fazi pre po~etka u mode-lu klasifikacije. Da bi se klasifikovalo stanje pacijentao, ono treba da se unese u oba kalibrirana HMM, a ter-minski algoritam }e pokazati verovatno}u da se ovaj nizpojavi po Modelu λHR i λLR , odnosno (P(o|λLR) iP(o|λHR). Bayes-ova formula }e pokazati P(HR|o):
(1)
PLR i PHR pokazuju uobi~ajene a priori verovatno}ekoje su uzete iz op{te statistike o zdravlju u ICU. Da birezultat bio validan, strukture (X,Y,N,M) i jednog i dru-gog HMM, i λHR i λLR, moraju da budu jednake. Po-red toga, uvodi se prag ili faktor sigurnosti CF1 (videtisliku 3). Time se prihvata klasifikacija HR ukoliko vero-vatno}a (P (o|λLR) dostigne odre|eni nivo. Ovim dobi-jamo mogu}nost da odredimo minimalnu donju granicuza prihvatanje klasifikacije HR. Kada se fokusiramo naHR slu~ajeve u ovom radu, va`i pravilo odlu~ivanja (ko-je }e sa svoje strane uticati na α i β gre{ke u ovoj fazi)da se slu~aj ozna~ava kao HR ako njegova a posterioriverovatno}a P(HR|o) pre|e prag CF1. Slu~ajevi klasifi-kovani kao HR pro}i }e kroz klasifikator. Precizno go-vore}i, potreban je jedan analogni prediktor/procesor iza slu~ajeve LR. Po{to je rizik oboljenja od pneumoni-je u ovoj grani daleko manji, jo{ nismo razradili model.U ovom slu~aju korist od paradigme slaganja jo{ jed-nom se potvr|uje, po{to }e svaki korektno klasifikovanniz smanjiti broj β gre{aka u narednim koracima. Vrati-}emo se problemu neuravnote`enih podataka u nizu.Po{to se svaki HMM posebno prati, ne postoje ograni-~enja za podjednako uravnote`ene grupe sve dok posto-ji dovoljan broj podataka za pra}enje. Ovo jo{ jednompokazuje koliko je HMM koristan u klasifikaciji.
Predvi|anje Po{to niz o pro|e kroz klasifikator i budeobele`en kao „HR“, model za predvi|anje koji se sa-stoji od jednog HMM λP pravi prognozu na osnovukarakteristika o. Po{to smo re{ili ~etiri problema izpoglavlja 3, lako }emo dati prvu jednodnevnu prog-nozu od dana t do dana t + 1. Na osnovu vremenske se-rije signala koje smo pratili kod svakog pacijenta mo-`e se izra~unati verovatno}a da skriveno stanje u t bu-de i. Ako poznajemo (skrivene) verovatno}e prenosaaij, mogu se izra~unati mogu}nosti za svako skrivenostanje na t + 1, {to se onda mo`e pretvoriti u verovat-no}e za posmatranu emisiju na t + 1. Po~etak pneumo-nije je predvi|en ako verovatno}a da }e se dosti}iskriveno stanje „crveno“ ili posmatrana emisija ”CPIS> 6” pre|e prag, t.j.,
– P(”red”, t + 1) > CF2 or– P(”CP IS > 6”, t + 1) > CF2’
Mogu se izvesti i sofisticiranija pravila, na primer:P(”red”, t + 1) > CF2”P (x, t + 1) or for all other hiddenstates x and a relative threshold of CF2
Na{u diskusiju u ovom radu ograni~i}emo na prvi slu-~aj. Sistem se u principu mo`e pro{iriti tako da prog-noze pokrivaju i period du`i od t + 1. Ako se uzme uobzir period inkubacije pneumonije koji traje dva ilitri dana, ovo nije od koristi za slu~aj ove bolesti , alijeste interesantno iz op{te perspektive. Da zaklju~i-mo, na{ kompleksni model κ = κ (λC , λN , λP , CF1,CF2) po definiciji sadr`i sve pod-modele i parametre.Da bismo kona~no izmerili kvalitet projekcije, razla-`emo ceo skup podataka u skup za probu i skup zaproveru. Skup za probu koristili smo da isprobamomodele klasifikacije i model za predvi|anja na osnovuBaum-Welch algoritma. Sistem je obradio skup zaproveru i rezultati predvi|anja mogli su da se uporedesa stvarnim podacima2 koje sistem ne poznaje. Premaslici 3, ~itav proces funkcioni{e na slede}i na~in:
1. Prvo, sistem odre|uje niz za testiranje o du`i-nom T, i ostavlja pred-fazu (o* sa du`inom T*).Vremenske serije pretpo~etne du`ine ≤ 3 ne uzi-mamo u obzir zato {to kratke vremenske serijenisu od zna~aja.
2. Naravno, sistem za podr{ku u odlu~ivanju ne}esamo predvideti dan reakcije u nastanku pneu-monije, ve} }e i izbe}i la`ne pretpostavke kojeprethode tom danu i uop{te u slu~ajevima gdepneumonije nema. Jedinstvena vremenska seri-
59
LRLRHRHR
HRHRHR PoPPoP
PoPoP⋅+⋅
⋅=)|()|(
)|()|(λλ
λλ
2 [to zna~i sa stvarnim stanjem u kome se pacijent nalazi
Slika 3: Postavka za proveru
-
60
ja pneumonije stoga tako|e daje odse~ke (o*1,.., o*T* – 2) izdvojene iz momenata (vremena)pre po~etka bolesti koji se onda korektno iden-tifikuju kao serija „nema dana reakcije“ (poveza-ti o* sa korakom 1).
3. Klasifikacija „HR“ i „LR“. Ako se niz mo`e ozna-~iti sa „HR“, predvi|anje se nastavlja. U ovomtrenutku mogu se uklju~iti i dodatni metodi imodeli, kako smo ve} naveli.
4. Predvideti narednu fazu prema λP i CF2.
5. Uporediti predvi|eno stanje sa stvarnim sta-njem.
Fino pode{avanje sistema Da bismo kona~no zapo~e-li prognoziranje, model mora da re{i jo{ jedno su{tin-sko pitanje:
Koji je pravi na~in za tretiranje gre{aka da bi se dobiooptimalan rezultat? Model mora pravovremeno dapredvidi pneumoniju i da istovremeno izbegne la`nuuzbunu pre tog trenutka, pokazuju}i gre{ke α i β. Pa-rametri CF1 i CF2 su osnovni parametri projekcije ko-ji se mogu pode{avati da bi se dobio „optimalni“ rezul-tat. Izme|u tri tipa gre{aka zapa`a se jedan osnovniobrazac zamene:
– Gre{ka kategorije 1 – la`ni negativni: sistem nijeuspeo da identifikuje dan reakcije
– Gre{ka kategorije 2 – la`ni pozitivni: sistem jeidentifikovao dan reakcije kod pacijenta obole-log od pneumonije u pogre{nom trenutku
– Gre{ka kategorije 3 – la`ni pozitivni: sistem jeidentifikovao dan reakcije kod pacijenta koji ni-je oboleo od pneumonije.
U medicinskoj praksi gre{ke kategorije 1 smatraju seozbiljnijim od gre{aka kategorije 3, a obe ove vrste sudaleko ozbiljnije od gre{aka kategorije 2. Klini~kimjezikom re~eno, neke gre{ke kategorije 3 mogu sesmatrati lo{om klasifikacijom, po{to se zamagljujerazlika izme|u pneumonije i drugih vrsta plu}nih bo-lesti kao {to je bronhitis, a granica definisana kaoCPIS ? 6 u stvarnosti postaje fazi granica. Da bismore{ili ovaj problem ve} smo uveli na{a dva parametra(CF1) i (CF2). CF1 i CF2 sada se mogu primeniti takoda se postavka pomeri prema funkcionisanju koje„uspe{nije izbegava la`ne negativne“ prognoze, madato obuhvata i ve}i broj nepotrebnih tretmana {to seovde ne smatra velikim problemom. Sada postoje dva
mogu}a na~ina da se defini{u CF1 i CF2. Prvo re{enjejeste da ordiniraju}i lekar defini{e ova dva parametrakao fiksne konstante. Nedostatak ovog metoda jeste utome da je definisanje prametara na na~in „crne kuti-je“ vrlo apstraktno i nije intuitivno po{to posledice ni-su odmah vidljive. Druga mogu}nost je da se parame-tri optimizuju u skladu sa datim radnim podacima i dase najbolji odnos u odnosu uspe{no-gre{ka. Stoga pr-vo treba operacionalizovati jedan optimalni odnos iz-me|u uspe{nog i gre{ke. Da bismo re{ili ovaj problemuvodimo ciljnu funkciju F = F (CF1, CF2 u kojoj, da bise zadovoljile pretenzije korisnika, treba da se vred-nuju 3 razli~ite kvalitativne funkcije:
– Kvalitativna funkcija QF1, koja predstavlja pro-cenat ta~no predvi|enih dana reakcije u uslovi-ma: model k i vrednosti CF1 i CF2.
– Kvalitativna funkcija QF2, koja predstavlja proce-nat ta~no predvi|enih dana reakcije za slu~ajeveoboljenja od pneumonije u uslovima: κ, CF1, CF2.
– Kvalitativna funkcija QF3, koja predstavlja pro-cenat ta~no predvi|enih dana reakcije za slu~aje-ve gde ne postoji oboljenje od pneumonije uuslovima: κ, CF1, CF2.
Jasno je da sve kvalitativne funkcije neposredno zavi-se od izbora CF1 i CF2. Na primer, ako se CF1 podesina 1, prakti~no nikada ne}emo dobiti klasifikaciju„HR“ i stoga je dan reakcije skoro nemogu}e predvi-deti. S druge strane, ne}e se pojaviti ni la`na progno-za. Pored toga, ciljnoj funkciji dodata su 3 parametra,P1,P2 i P3, kao popravna mera za 3 kvalitativne funk-cije ukoliko njihove vrednosti ne dostignu minimalninivo. Ovo se mo`e iskoristiti da se postavi ni`i nivoograni~enja za preciznost postavke.3
(2)
Ciljna funkcija F odra`ava razmene kad imamo velikibroj predvi|enih dana reakcije i s druge strane velikibroj pogre{nih predvi|anja.
Sada nam je uz pomo} F lak{e da operacionalizujemopotrebe korisnika kad defini{emo zahteve. Re~ima,korisnik mo`e da defini{e slede}e: „Sistem mora daidentifikuje najmanje 40% svih dana reakcije (P1),korektno predvi|anje dana reakcije (QF1 and w1) jedvostruko va`nije nego izbegavanje pogre{nih prog-
3 Na primer, kao popravna mera kada se u rezultatu pojavi preveli-ki broj pogre{nih predvi|anja.
3212133
2122
211121
),|(),|(
),|(),(
PPPCFCFkQFwCFCFkQFw
CFCFkQFwCFCFF
−−−⋅−⋅
−⋅=
-
noza kod pacijenata koji nisu oboleli od pneumonije(QF3 and w3). U ovom slu~aju, na primer, ima smislavrednovati izbegavanje gre{ke kategorije 1 (w1 zaQF1) koja je vi{eg reda, da bi se spre~io izostanak le-~enja. Definisanjem vrednosti w1,.., w3, primenom cilj-ne funkcije F dobijamo odre|enu ciljnu vredost zasvaku kombinaciju CF1 i CF2. Stoga sistem mo`e daproizvede skalarne optimalne kombinacije CF1 i CF2u skladu sa definicijama ovih vrednosti. U ovom radune mo`emo da ispitujemo definicije vrednosti za sva-ki parametar po{to je to slo`en proces utvr|ivanja umedicini. Umesto da predstavimo jedno optimalno re-{enje, predstavi}emo odnos gre{ka-uspeh za svaku po-stavku parametara i neke rezultate kao primer.
6. Eksperimentalni rezultati
Na slici 4 predstavljamo efekte α i β gre{ke u odnosuna broj ta~no predvi|enih dana reakcije i broj pogre-{no predvi|enih dana reakcije (u grupi slu~ajeva gdenema pneumonije) u zavisnosti od kombinacije vred-nosti CF1 i CF2. O~igledno, oblik pokazuje izvesnu ko-relaciju koja odslikava razmene α – β gre{aka. Kakose broj ta~no predvi|enih dana reakcije smanjuje,smanjuje se i broj pogre{nih predvi|anja. Bez obzirana to, oblici ukazuju na razlike koje omogu}avaju dase izvr{i prilago|avanje ova dva parametra. Opseg ni-skih vrednosti CF2 posebno pokazuje neuobi~ajenoveliki rast broja gre{aka koje se javljaju uporedo samanje ili vi{e stabilnim brojem ta~nih predvi|anja.
61
Slika 4: Povr{i optimizacije QF3 i QF1
Na tabeli 2 prikazani su rezultati u svakoj kategorijigre{ke. U prvom delu pokazujemo do koje mere si-stem mo`e da odredi da li vremenska serija pripadaslu~aju sa ili bez pneumonije, a na osnovu razli~itihradnih metoda. Sa stvarnom pozitivnom stopom odoko 82-83% sistem jeste u stanju da odredi vremen-ske serije kao stanje pneumonije ili stanje bez pneu-monije. U drugom delu koristili smo skup od 3 razli~i-ta rasporeda vrednosti da poka`emo na~in na koji na{model radi i razmeni α – β gre{aka. Kako rasporedvrednosti 3 (dobijen od ordiniraju}eg lekara) pokazu-je porast broja prognoza dana reakcije, preciznost semo`e `rtvovati u korist smanjivanja broja gre{aka ti-pa 3. Kao referentnu vrednost koristili smo dve lai~ke
strategije predvi|anja i poredili rezultate. Prvi lai~kimetod predvi|a dan reakcije u t + 1 ukoliko se vred-nost CPIS „5“ postigne u t. Drugi izra~unava krivu vre-menskih serija na osnovu vrednosti t i t – 1. Kao {to sevidi na tabeli 2, lai~ki metod 1 predstavlja u stvari ve-oma puozdanu prognozu koja u velikoj meri uti~e nana~in na koji se stvara zbir CPIS. Prednost na{eg me-toda jeste u tome da se (putem izbora praga CF1 iCF2) mo`e podesiti vrednost α, a ona }e tako|e odre-diti vrednost β (i obrnuto). [ta vi{e, ovaj metod poka-zuje da je prilago|avanje α gre{aka mogu}e a da isto-vremeno imamo zna~ajnu stabilnu β gre{ku. Stoga semo`e istra`ivati konkretna razmena izme|u ova dvatipa gre{ke.
-
62
7. Zaklju~ak
Test koji smo primenili u ovom radu mo`e se smatra-ti novim pristupom u obradi i predvi|anju podataka umedicini. Ipak, ovo istra`ivanje predstavlja samo prvipoku{aj da se pneumonija analizira primenom HMMi on ima neka ograni~enja. Izra~unavanja smo vr{ili naskupu podataka prikupljenih u periodu od dve godine,na samo 79 (slu~ajevi pneumonije) i 285 (slu~ajevi bezpneumonije) vremenskih serija tako da bi ih trebalouporediti i sa podacima za druge godine da bi se pro-cenio kvalitet. Pored toga, podaci su uzeti iz jednogICU tako da nije jasno da li su rezultati posledica i ne-kog lokalnog uticaja i da li neka druga ICU mo`daimaju druga~ije rezultate. Da bismo predvideli VAPkoncentrisali smo se na obradu vremenskih serija slu-~ajeva pneumonije. Prema modelu klasifikacije, uovom trenutku nismo i{li dalje i obra|ivali nizoveozna~ene kao „LR“. Da bi se uspostavio holisti~ki si-stem potrebno je dalje raditi u ovoj oblasti. Pored to-ga, mo`da }e biti potrebno i da proverimo i istra`imoimplikacije koje su dovele do strukture HMM (brojstanja itd.). Ciljna funkcija koju smo primenili da bi-smo dobili optimalni rezultat mo`e se pro{iriti kako biobuhvatila i ekonomska pitanja kao {to su konkretnitro{kovi le~enja. Druga korist od ovog istra`ivanja je-ste {to je potvrdilo znanja koja smo imali o pneumo-niji. Prema na{im rezultatima, potvr|ena je pretpo-stavka da je za pneumoniju karakteristi~an kratak pe-riod inkubacije. S druge strane, ovi rezultati imaju ne-ke slabe strane. Ako posmatramo okvir CPIS od jed-nog dana, na{a predvi|anja }e biti usko ograni~ena naovaj kontekst. Dobro bi do{lo da se posmatra {iri vre-menski okvir. Isto tako, sistem se zasniva na veoma
razra|enoj pred-obradi podataka iz dvogodi{njeg pe-rioda. Na`alost, ovi podaci su jo{ uvek u velikoj merinedovoljni zbog problema koje smo naveli u poglavlju2. Stoga jedan integrisani sistem za rano otkrivanjemora da se zasniva na holisti~kom, a priori uklapanjuu infrastrukturu podataka kojima bolnica raspola`e urealnom vremenu. Ako ve} nije realizovana, pred-upotrebna faza }e zahtevati mnogo resursa. Instalira-nje ovakvog sistema i dugo traje i skupo je, ali se zatomo`e koristiti na vi{e na~ina i u razli~itim situacijama.Ukoliko takvi sistemi postoje, sama prognoza pneu-monije zahteva veoma malo resursa u svakodnevnomfunkcionisanju. Ona se mo`e i treba da se uklju~i u pa-cijentov „karton“ u kome se nalazi pregled istorije bo-lesti pacijenta i koji predstavlja koristan instrument zaordiniraju}e lekare. O~igledno je da se sitem pro{iriona nekoliko mesta. Sistem se mo`e proceniti i na pri-meru drugih oboljenja koja imaju du`i period inkuba-cije. Na nivou klasifikacije mogu se primeniti i drugimetodi, na primer, Bayesove mre`e. Po{to su se drugikoncepti predispozicije pokazali kao veoma mo}ni(Oroszci, 2008), trebalo bi ispitati i druge a priori me-tode, na primer, SEM. U okviru strukture slaganja una{em sistemu ovo se mo`e posti}i bez problema.
Da zaklju~imo, pokazali smo da su metodi za izdvaja-nje podataka veoma uspe{ni i omogu}avaju da semnogo sazna iz uskladi{tenih medicinskih podataka.Svakako da se potpuno automatizovano re{enje „kaoiz kutije“ ne mo`e dobiti. Ipak, sistem pokazuje kakoprimena slaganjem u razli~itim metodima mo`e da po-spe{i otkrivanje potencijalnih oboljenja skrivenih upodacima u datotekama.
Model klasifikacije Radni model Slu~ajevi
pneumonije (N=79) Slu~ajevi bez pneumonije (N=285)
Standardni Baum-Welch radni tip
82% 69,8%
Pobolj{ani radni tip (Genetski algoritam)
83% 73,5%
Ukupni rezultati Metod Ta~no predvi|en
dan reakcije Kategorija gre{ke 2: prerano predvi|en dan reakcije
Kategorija gre{ke 3: pogre{no predvi|en dan reakcije
κ postavka vrednosti 1 41,6% 6,9% 6,5% κ postavka vrednosti 2 63,8% 11,6% 9,3% κ postavka vrednosti 3 43,2% 20,1% 6,5% Trivijalni metod 1 (y5 t → y6 t + 1)
44,3% 21.7% 13,8%
Trivijalni metod 2 (kriva)
31,6% 15.2% 10,4%
Tabela 2: Eksperimentalni rezultati
-
LITERATURA
Ê1Ë Baum LE., Petrie T., Soules G., Weiss N. (1970) Amaximization technique occurring in the statisticalanalysis of probabilistic functions of markov cha-ins. The Annals of Mathematical Statistics41(1):164–171, URL http://www.jstor.org/sta-ble/2239727
Ê2Ë Buncher C.R., Succop P.A., Dietrich K.N. (1991)Structural equation modeling in environmentalrisk assessment. Environ Health Perspect90:209–213
Ê3Ë Bystroff C., Krogh A. (2008) Hidden markov mo-dels for prediction of protein features. In: ProteinStructure Prediction, Humana Press, Methods inMolecular Biology, vol 413, pp 173–198, DOI10.1007/978-1-59745-574-9 7, URLhttp://www.springerlink.com/con-tent/g4111p42750174r2/
Ê4Ë Chapman P., Clinton J., Kerber R., Khabaza T.,Reinartz T., Shearer C., Wirth R. (2000) Crisp-dm1.0 step-by-step data mining guide. Tech. rep., TheCRISP-DM consortium, URL http://www.crisp-dm.org/CRISPWP-0800.pdf
Ê5Ë Forney G.D. (1973) The viterbi algorithm. Procee-dings of the IEEE 61(3):268–278, URL http://iee-explore.ieee.org/xpls/abs all.jsp?arnum-ber=1450960
Ê6Ë Gascuel O., Moret B.M.E. (eds) (2001) Algorithmsin Bioinformatics, First International Workshop,WABI 2001, Aarhus, Denmark, August 28-31,2001, Proceedings, Lecture Notes in Computer Sci-ence, vol 2149, Springer
Ê7Ë Heyland D.K., Cook D.J., Griffith L., Keenan S.P.,Brun-Buisson C. (1999) The attributable morbidi-ty and mortality of ventilator-associated pneumo-nia in the critically ill patient. The Canadian Criti-cal Trials Group. Am J Respir Crit Care Med159:1249–1256.
Ê8Ë Manning C.D., Schütze H. (2005) Foundations ofstatistical natural language processing, 8th edn.MIT Press, Cambridge, Mass.
Ê9Ë NN (2005) Guidelines for the management ofadults with hospital-acquired, ventilator-associa-ted, and healthcare-associated pneumonia. Am JRespir Crit Care Med 171:388–416
Ê10Ë Oroszi F. (2008) Einsatz von Data Mining Verfa-hren auf medizinischen Daten - AnwendungsfallPneumonie-Früherkennung. PhD thesis, Frie-drich-Schiller-Universität Jena
Ê11Ë Pugin J., Auckenthaler R., Mili N., Janssens J.P.,Lew P.D., Suter P.M. (1991) Diagnosis of ventila-tor-associated pneumonia by bacteriologic analy-sis of bronchoscopic and nonbronchoscopic”blind” bronchoalveolar lavage fluid. Am Rev Re-spir Dis 143:1121– 1129
Ê12Ë Rabiner L.R. (1989) A tutorial on hidden markovmodels and selected applications in speech recog-nition. In: Proceedings of the IEEE, pp 257–286
Ê13Ë Rabiner, L. R., and Juang, B. H. (1986), An Intro-duction to Hidden Markov Models, IEEE Acous-fics, Speech & Signal Processing ,Magazine, 3, 1-16.
Ê14Ë Rea-Neto A., Youssef N.C., Tuche F., Brunk-horst F., Ranieri V.M., Reinhart K., Sakr Y.(2008) Diagnosis of ventilator-associated pneu-monia: a systematic review of the literature. CritCare 12:R56
Ê15Ë Tejerina E., Frutos-Vivar F., Restrepo M.I., An-zueto A., Abroug F., Palizas F., Gonzalez M.,DÉmpaire G., Apezteguia C., Esteban A. (2006)Incidence, risk factors, and outcome of ventilator-associated pneumonia. J Crit Care 21:56–65
Ê16Ë Ting K.M., Witten I.H. (1997) Stacked generali-zation: when does it work. In: in Procs. Internati-onal Joint Conference on Artificial Intelligence,Morgan Kaufmann, pp 866– 871
Ê17Ë Wolpert D. (1992) Stacked generalization. NeuralNetworks 5:241–259
63