informační a komunikační technologie ve...

Biomedical Data Processing G r o u p

Získávání znalostí z dat

Informační a komunikační technologie

ve zdravotnictví


Získávání znalostí z dat

� Definice: proces netriviálního získáváníimplicitní, dříve neznámé a potencionálně užitečnéinformace z dat.

� Cíl: částečná automatizace procesu získánízajímavých vzorů chování z reálných dat: tvorbajejich modelů - např. pomocí nástrojů strojovéhoučení

� Nové slibné odvětví SW průmyslu, jehož cílem jevyužít existující data pro zlepšení rozhodovacíchprocesů


Získávání znalostí z dat (ZZD)


ZZD - Příklady aplikací

� Segmentace a klasifikace klientů banky (např. rozpoznáníproblémových nebo naopak vysoce bonitních klientů).

� Predikce vývoje kursů akcií.

� Analýza důvodů změny poskytovatele nějakých služeb(internet, mobilní telefony).

� Segmentace a klasifikace klientů pojišťovny.

� Analýza nákupního košíku (Market Basket Analysis).

� Predikce spotřeby elektrické energie, plynu, …

� Analýza příčin poruch v telekomunikačních sítích.

� Rozbor databáze pacientů v nemocnici.

� Charakterizace karcinogenních látek.

� Mapování lidského genomu.

� Veřejné mínění a sčítání lidu.


ZZD - Terminologie

� Koncept

♦oblast zájmu – co chceme♦předpověď počasí

� Objekt (třída)♦obecný (abstraktní) prvek konceptu♦den předpovědi počasí

� Atributy♦ jednotlivé vlastnosti objektu♦ teplota, tlak, množství srážek

� Instance♦Kokrétní případ objektu - jednotlivá data♦data o počasí jednoho konkrétního dne


ZZD - Typy atributů

�Nominální

♦ 2 hodnoty - muž/žena => binární♦ více hodnot – barva (červená, modrá, zelená)

�Binární

♦ boolean (True/False)

�Ordinální

♦ celá čísla, reálná čísla – jakou přesnost♦ dají se řadit

�Kategoriální

♦ nabývají diskrétních hodnot, avšak nelze je řadit

� Řady

♦ veličin, které pravidelně měřeny zaznamenávány♦ vždy vztaženy k jediné monotónní veličině, která slouží jako index


ZZD - Typy úloh

� Klasifikace

♦ přiřazení třídy objektu� Predikce

♦ předpověď chování objektu v čase� Asociace

♦ hledání vazeb mezi objekty� Shluková analýza

♦ seskupování podobných objektů


Klasifikace / Predikce

� Cílem je nalézt znalosti použitelné pro klasifikaci novýchpřípadů

� Požadujeme, aby získané znalosti co nejlépe odpovídalydanému konceptu

� Dáváme přednost přesnosti pokrytí na úkorjednoduchosti - připouštíme větší množství méněsrozumitelných dílčích znalostí.

� Rozdíl mezi klasifikací a predikcí spočívá v roli času

� Predikce = ze starších hodnot nějaké veličiny sepokoušíme odhadnout její vývoj v budoucnosti.


Asociace / Shluková analýza

�Asociace

♦žádný atribut (sloupec tabulky) není vyčleněn jako cíl klasifikace

♦asociace je proces hledaní „všech zajímavých“ vztahů(implikace, ekvivalence) mezi hodnotami různých atributů.

♦Jednoduchá (pravděpodobnostní) tvrzení o spoluvýskytuudálostí v datech

� Shluková analýza

♦vícerozměrná statistická metoda, která se používá ke klasifikaci objektů

♦slouží k třídění jednotek do skupin (shluků) tak, aby si jednotky náležící do stejné skupiny byly podobnější než objekty ze skupin různých


ZZD - Typy úloh

predikce

deskripce

highlighting

detekceodchylek

klasifikaceregrese

asociačnípravidla

shlukovánímodelovánízávislostí

modelováníkauzalit

sumarizace

vztahy vdatabázích

SQO pravidla


Metodiky ZZD

� Metodika SEMMA

♦ Podle metodologie SEMMA spočívá proces dobývání v těchto krocích:♦ Sample - vybírání vhodných objektů♦ Explore - vizuální explorace a redukce dat♦ Modify - seskupování objektů a hodnot atributů, datové transformace♦ Model - analýza dat♦ Assess - porovnání modelů a interpretace

� Metodika 5A

♦ Assess - posouzení potřeb projektu♦ Access - shromáždění potřebných dat♦ Analyze - provedení analýz♦ Act - přeměna znalostí na akční znalosti♦ Automate - převedení výsledků analýzy do praxe


Metodika CRISP-DM

� CRISP-DM (CRoss-Industry Standard Process forDataMining)

� Vznikla vrámci výzkumného projektu Evropské komise.

� Cílem projektu je navrhnout univerzální postup použitelnýv nejrůznějších aplikacích.

�Na projektu spolupracují firmy

♦ NCR (přední dodavatel datových skladů)♦ DaimlerChrysler♦ Integral Solutions (tvůrce systému Clementine)♦ OHRA (velká holandská pojišťovna).


Metodika CRISP-DM

2. Porozuměnídatům

3. Příprava dat

5. Vyhodnocení 4. Modelování

6. Použití

1. Zadání

CRISP-DM (CRoss-Industry Standard Process for DataMining)


Zadání / porozumění cílům

� Pochopení cílů úlohy♦Co klient chce♦Manažerský náhled, např.

� Primární cíl: Udržet si současné zákazníky pomocí predikce okamžiku, kdy jsou nakloněni přejít ke konkurenci

� Související cíl: Budou nižší poplatky pro výběr z automatu signifikantně sníží počet bonitních klientů, kteří odejdou?

� Hodnocení situace ♦Seznam zdrojů (personál, data)♦Požadavky (srozumitelnost, přesnost)♦Omezení (bezpečnostní otázky, anonimizace)♦Terminologie ♦Analýza náklady / přínos


Zadání / porozumění cílům

� Vymezení cílů ZZD

♦Příklad odlišnosti terminologií♦Cíl obchodníka: Rozšířit katalog prodeje pro existující

zákazníky.♦Cíl informatika: Predikovat jak mnoho věcí bude zákazník

kupovat z jeho nákupů za poslední tři měsíce, demografických informací (věk, město, plat, atd.) a ceny nabízené věci.

� Vytvoření projektového plánu

♦Období provádění projektu společně s dobou trvání, požadavky na zdroje, vstupy, výstupy a závislostmi.

♦Výběr možných nástrojů pro řešení


Porozumění datům� Shromáždění dat♦ Počáteční předzpracování dat

� Popis dat♦ Formát dat♦ Množství

� Prozkoumání dat♦ Descriptivní charakteristiky dat

� Rozložení klíčových atributů, jednoduché statistiky, � Jednoduché vztahy mezi atributy, významné podskupiny, odlehlé

hodnoty (outliers).♦ Použití vizualizačních technik

� Ověření dat♦ Jsou kompletní (popisují celou oblast)♦ Složitost formy uložení dat♦ Šum, chybějící a špatné údaje


Problém reálných dat

�Data nejsou sbírána jako zdroj trénovacích příkladů, ale především kvůli podnikové dokumentaci a archivaci. Z tohotohlediska bývá sběr i uložení optimalizováno.

�Data obsahují špatné údaje způsobené chybami měřicíchpřístrojů i lidské obsluhy.

�Nevyplněné údaje.

�U některých atributů se stává, že vyplnění údaje je skorovýjimkou – mluvíme pak o řídce (sparse) obsazenýchatributech.

�Data jsou popsána pomocí příliš mnoha atributů – nenízřejmé, které z nich jsou pro řešení zvolené úlohy relevantní.

� Úspěch modelování závisí na volbě vhodné množiny atributů.

�Data mají formu složitého relačního schématu, nikolivjediné tabulky předpokládané atributovými metodamistrojového učení.


Úkoly předzpracování dat

�Množina vlastností (atributů nebo příznaků)

♦Bohatost dat (počet dimenzí) má zásadní vliv i pro úspěchpoužití technik strojového učení.

♦S dimenzí exponenciálně rostou i nároky na počettrénovacích příkladů.

�Příprava dat pro modelování

♦Čištění dat♦Normalizace dat♦Převod typů dat, formátování a kódování♦Transformace dat do jedné tabulky♦Úpravy dimenze


Předzpracování dat

� Zpráva o stavu proměnných♦ typ (spojitá X diskrétní)♦ rozsah definičního oboru (počet hodnot)♦ rozsah a frekvence výskytů (histogram)♦ typ rozdělení a jeho statistické charakteristiky♦osamělé mimořádné hodnoty (outliers)♦ téměř konstantní atributy (možné vynechat)♦nevyplněná datová pole♦znečištění dat

� data neodpovídají deklarovanému formátu� hodnoty neodpovídají deklarované množině



� Čištění dat (chybějící a špatné údaje)

♦Nedělat nic� některým algoritmům chybějící hodnoty nevadí

♦ Ignorovat celou instanci� ideální pro data s minimem chybějících hodnot� pozor u časových řad na porušení vzorkování

♦Náhrada� nejčetnější hodnotou� průměrem, mediánem� nalezení nejbližšího souseda� využití algoritmu pro modelování

♦Náhrada hodnotou „nevím“



� Čištění dat (čištění signálů)

♦Korekce resp. odstranění šumu - tento proces se nazýváfiltrace.

♦Většinou velmi podstatné pro získání příznaků ze signálu ♦ Ignorování šumu

� Čištění dat (monotónní atributy)

♦Představují obvykle jednoznačnou identifikaci pro uvažované objekty, např. pořadové číslo měření, číslo bankovního účtu.

♦Rostou bez omezení a při tom jejich přímá hodnota jako taková nemá pro vytvoření modelu význam.


� Normalizace dat♦ Převod numerických hodnot do intervalu

♦ Úprava rozsahu hodnot atributů pomocí logistickétransformace


0

0 .2

0 .4

0 .6

0 .8

1

-6 -4 -2 0 2 4 6

x

g(x

)

a = 0 , b = 1 a = 0 , b = 2 a = 0 , b = 4

- ( ) min( ) nebo

( ) max( ) min( )i i i i

i ii i i

v Avg v v va a

StDev v v v

−= =−


Převod formátování a kódování

� Datum♦volba přesnosti – např. roky, měsíce, dny, hodin, …♦ reprezentace reálným číslem

� Nominální hodnoty♦2 hodnoty – 0,1♦výběr nejfrekventovanějších hodnot♦spojení do větších přirozených celků (město,kraj)

�Při sloučení atributů♦Častokrát nutné nové kódování

�Numerické hodnoty♦některé analytické algoritmy vyžadují pouze kategoriální

data♦diskretizace dat – volba intervalů


Diskretizace� Neinformované metody

♦ekvidistantní intervaly

♦ekvifrekvenční intervaly


Diskretizace� Informované metody

♦ využití znalosti o příslušnosti objekt -> třída♦ strategie rozdělování nebo spojování intervalů

�Fayyadův a Iraniho algoritmus (Entropy Based Discretization)

♦ Metoda založená na použití informací o třídách přítomných v datech♦ kritérium – entropie ♦ objekty mezi, kterými se mění třída♦ výběr nejlepšího dělicího bodu♦ Jde o hledání místa s maximálním informačním ziskem

♦ Fayyad, Irani : Multi-interval discretization of continuous-valuedattributes for classification learning In: Proc. 1st Int. Conf. on Knowledge Discovery and Data Mining. AAAI Press, 1995, s. 39-44


Transformace dat do jedné tabulky

�1:1

♦prakticky pouze doplnění tabulky o nové atributy

� 1:N

♦ vytvoření agregovaných hodnot♦ součet, min, max, průměr, regresní křivka♦ majoritní hodnota, počet různých hodnot, výskyt konkrétní

hodnoty♦ do této skupiny patří časové řady

� M:N

♦ nutná volba úlohy, zda chceme 1:N nebo 1:M


Úpravy dimenze

�Snížení dimenze

♦Vynecháním� konstantních atributů� atributů řídce obsazených� atributů s duplicitní informací (rok narození X věk, apod.)

♦Sloučením� atributů řídce obsazených – z několika řídce obsazených

atributů je možné zřetězením vytvořit jeden nový (PVP -present value pattern)


Úpravy dimenze

�Zvýšení dimenze

♦Obohacení� doplněním údajů z jiných zdrojů (např. meteorologická

měření, demografické údaje, apod.)

♦Rozšíření� přidání odvozených atributů� např. pohlaví z rodného čísla� Body Mass Index (BMI)

� „otočení“ dat (reverse pivoting) - nový atribut an+1 přebírá údaj z objektu následujícího. Pro každý objekt i platí an+1(i) = an(i+1).

2

váha [kg]BMI

výška [m]=


Úpravy dimenze

�Selekce atributů♦hledáme k správnému výsledku nejvíce přispívající atributy♦metoda filtru

� spočteme charakteristiku vyjadřující vhodnost atributu� chi-kvadrát, entropie, informační míra závislosti� vychází z kontingenční tabulky� nevýhoda: posuzujeme každý atribut samostatně – ne

množiny atributů♦metoda obálky

� použití metod strojového učení

♦Analýza hlavních komponent (PCA)� Nové atributy nelze interpretovat


Úprava množin pro modelování

� Hlavní zásada

♦každý nový soubor musí s rozumnou dávkou důvěry zachovávat původní pestrost či rozložení výchozího souboru.

� Vytvoření trénovacích a testovacích dat

� Vzorkování dat

♦ obrovský počet instancí� redukce počtu dat� tvorba modelů na základě podmnožin a jejich následná kombinace� pro algoritmy pracující v dávkovém režimu nutnost

♦ nevyvážená data např třída A 95%, třída B 5%� různé ceny chybného rozhodnutí� výběr dat pro různé třídy s různou pravděpodobností


Modelování

� Výběr techniky modelování

♦ s ohledem na data, pochopitelnosti, budoucímu použití a omezením

♦ rozhodovací stromy, asociační pravidla, neuronové sítě,regresní analýza, shluková analýza

♦ Kombinace více modelů

� Návrh testování

♦ Technika validace techniky (trenovací/testovací množina), scóre, atd.

� Vytvoření modelu

♦ Ladění parametrů, následné zpracování vygenerovaných pravidel

� Ohodnocení modelu

♦ Splnění požadovaných testovacích kriterií.♦ Přesnost a obecnost vytvořeného modelu


Vyhodnocení

� Úspěšné dosažení zadavatelových cílů

♦Výsledek je kombinace Modelu a Závěry♦Závěry nemusí být srozumitelné vzhledem k zadavatelovým

cílům – nutné převézt do zadavatelovy terminologie

� Hodnocední výsledků

♦Rozdílné stupně než u ohodnocení modelu♦Jestliže je to možné test na reálné aplikaci

� Revizní proces

♦Rekapitulace, hlavní cíl: nalézt přehlédnuté úlohy

� Určení dalších kroků

♦Rozhodnutí o možném vylepšení


Použití

� Plán použití♦ Shrnutí použitelných výsledků♦ Rozhodnutí o způsobu předání (nasazení) získaných znalostí a

informací uživateli.♦ Rozhodnutí jak bude vytvořený model nebo software použit v

rámci exitujících systémů.♦ Odhalení možných problémů při nasazení výsledků ZZD

�Plán monitorování a podpory♦ Je důležité vyhnout se dlouhým obdobím nesprávného užívání

� Vytvoření závěrečné zprávy (dokumentace)


Časové nároky v ZZD

0 20 40 60

Formulace problému

Volba typu řešení

Předpokládané využití

Posouzení dat

Příprava dat

Modelování

Potřebná čast času v rámci celéhoprojektu (v %)

Význam pro úspěch projektu (v %)


Vizualizace dat

� Omezení vnímání na 3D

� Vizualizace 1-D, 2-D a 3-D

♦standard♦grafy, matematika, statistika

�Vizualizace n-D

♦nutná pro ZZD (Data mining)


Vizualizace dat

�Grafy

♦ sloupcové grafy♦ koláčové grafy♦ grafy X-Y – časové řady, trendy


Vizualizace dat

�3D vizualizace


Vizualizace dat

�Statistické grafy


Iris data

sepal length

sepal width

petal length

petal width

5.1 3.5 1.4 0.2

4.9 3 1.4 0.2

... ... ... ...

5.9 3 5.1 1.8

Iris setosa

Iris versicolor

Iris virginica


Vizualizace dat

�Zobrazení matice rozptylů


Parallel coordinates


RadViz


Dobrá příprava dat je klíčem kvytvoření

platného a spolehlivého modelu

Konec ?

Ne!

Začátek!

informační a komunikační technologie ve...

Documents