informační a komunikační technologie ve...
TRANSCRIPT
-
Biomedical Data Processing G r o u p
Získávání znalostí z dat
Informační a komunikační technologie
ve zdravotnictví
-
Biomedical Data Processing G r o u p
Získávání znalostí z dat
� Definice: proces netriviálního získáváníimplicitní, dříve neznámé a potencionálně užitečnéinformace z dat.
� Cíl: částečná automatizace procesu získánízajímavých vzorů chování z reálných dat: tvorbajejich modelů - např. pomocí nástrojů strojovéhoučení
� Nové slibné odvětví SW průmyslu, jehož cílem jevyužít existující data pro zlepšení rozhodovacíchprocesů
-
Biomedical Data Processing G r o u p
Získávání znalostí z dat (ZZD)
-
Biomedical Data Processing G r o u p
ZZD - Příklady aplikací
� Segmentace a klasifikace klientů banky (např. rozpoznáníproblémových nebo naopak vysoce bonitních klientů).
� Predikce vývoje kursů akcií.
� Analýza důvodů změny poskytovatele nějakých služeb(internet, mobilní telefony).
� Segmentace a klasifikace klientů pojišťovny.
� Analýza nákupního košíku (Market Basket Analysis).
� Predikce spotřeby elektrické energie, plynu, …
� Analýza příčin poruch v telekomunikačních sítích.
� Rozbor databáze pacientů v nemocnici.
� Charakterizace karcinogenních látek.
� Mapování lidského genomu.
� Veřejné mínění a sčítání lidu.
-
Biomedical Data Processing G r o u p
ZZD - Terminologie
� Koncept
♦oblast zájmu – co chceme♦předpověď počasí
� Objekt (třída)♦obecný (abstraktní) prvek konceptu♦den předpovědi počasí
� Atributy♦ jednotlivé vlastnosti objektu♦ teplota, tlak, množství srážek
� Instance♦Kokrétní případ objektu - jednotlivá data♦data o počasí jednoho konkrétního dne
-
Biomedical Data Processing G r o u p
ZZD - Typy atributů
�Nominální
♦ 2 hodnoty - muž/žena => binární♦ více hodnot – barva (červená, modrá, zelená)
�Binární
♦ boolean (True/False)
�Ordinální
♦ celá čísla, reálná čísla – jakou přesnost♦ dají se řadit
�Kategoriální
♦ nabývají diskrétních hodnot, avšak nelze je řadit
� Řady
♦ veličin, které pravidelně měřeny zaznamenávány♦ vždy vztaženy k jediné monotónní veličině, která slouží jako index
-
Biomedical Data Processing G r o u p
ZZD - Typy úloh
� Klasifikace
♦ přiřazení třídy objektu� Predikce
♦ předpověď chování objektu v čase� Asociace
♦ hledání vazeb mezi objekty� Shluková analýza
♦ seskupování podobných objektů
-
Biomedical Data Processing G r o u p
Klasifikace / Predikce
� Cílem je nalézt znalosti použitelné pro klasifikaci novýchpřípadů
� Požadujeme, aby získané znalosti co nejlépe odpovídalydanému konceptu
� Dáváme přednost přesnosti pokrytí na úkorjednoduchosti - připouštíme větší množství méněsrozumitelných dílčích znalostí.
� Rozdíl mezi klasifikací a predikcí spočívá v roli času
� Predikce = ze starších hodnot nějaké veličiny sepokoušíme odhadnout její vývoj v budoucnosti.
-
Biomedical Data Processing G r o u p
Asociace / Shluková analýza
�Asociace
♦žádný atribut (sloupec tabulky) není vyčleněn jako cíl klasifikace
♦asociace je proces hledaní „všech zajímavých“ vztahů(implikace, ekvivalence) mezi hodnotami různých atributů.
♦Jednoduchá (pravděpodobnostní) tvrzení o spoluvýskytuudálostí v datech
� Shluková analýza
♦vícerozměrná statistická metoda, která se používá ke klasifikaci objektů
♦slouží k třídění jednotek do skupin (shluků) tak, aby si jednotky náležící do stejné skupiny byly podobnější než objekty ze skupin různých
-
Biomedical Data Processing G r o u p
ZZD - Typy úloh
predikce
deskripce
highlighting
detekceodchylek
klasifikaceregrese
asociačnípravidla
shlukovánímodelovánízávislostí
modelováníkauzalit
sumarizace
vztahy vdatabázích
SQO pravidla
-
Biomedical Data Processing G r o u p
Metodiky ZZD
� Metodika SEMMA
♦ Podle metodologie SEMMA spočívá proces dobývání v těchto krocích:♦ Sample - vybírání vhodných objektů♦ Explore - vizuální explorace a redukce dat♦ Modify - seskupování objektů a hodnot atributů, datové transformace♦ Model - analýza dat♦ Assess - porovnání modelů a interpretace
� Metodika 5A
♦ Assess - posouzení potřeb projektu♦ Access - shromáždění potřebných dat♦ Analyze - provedení analýz♦ Act - přeměna znalostí na akční znalosti♦ Automate - převedení výsledků analýzy do praxe
-
Biomedical Data Processing G r o u p
Metodika CRISP-DM
� CRISP-DM (CRoss-Industry Standard Process forDataMining)
� Vznikla vrámci výzkumného projektu Evropské komise.
� Cílem projektu je navrhnout univerzální postup použitelnýv nejrůznějších aplikacích.
�Na projektu spolupracují firmy
♦ NCR (přední dodavatel datových skladů)♦ DaimlerChrysler♦ Integral Solutions (tvůrce systému Clementine)♦ OHRA (velká holandská pojišťovna).
-
Biomedical Data Processing G r o u p
Metodika CRISP-DM
2. Porozuměnídatům
3. Příprava dat
5. Vyhodnocení 4. Modelování
6. Použití
1. Zadání
CRISP-DM (CRoss-Industry Standard Process for DataMining)
-
Biomedical Data Processing G r o u p
Zadání / porozumění cílům
� Pochopení cílů úlohy♦Co klient chce♦Manažerský náhled, např.
� Primární cíl: Udržet si současné zákazníky pomocí predikce okamžiku, kdy jsou nakloněni přejít ke konkurenci
� Související cíl: Budou nižší poplatky pro výběr z automatu signifikantně sníží počet bonitních klientů, kteří odejdou?
� Hodnocení situace ♦Seznam zdrojů (personál, data)♦Požadavky (srozumitelnost, přesnost)♦Omezení (bezpečnostní otázky, anonimizace)♦Terminologie ♦Analýza náklady / přínos
-
Biomedical Data Processing G r o u p
Zadání / porozumění cílům
� Vymezení cílů ZZD
♦Příklad odlišnosti terminologií♦Cíl obchodníka: Rozšířit katalog prodeje pro existující
zákazníky.♦Cíl informatika: Predikovat jak mnoho věcí bude zákazník
kupovat z jeho nákupů za poslední tři měsíce, demografických informací (věk, město, plat, atd.) a ceny nabízené věci.
� Vytvoření projektového plánu
♦Období provádění projektu společně s dobou trvání, požadavky na zdroje, vstupy, výstupy a závislostmi.
♦Výběr možných nástrojů pro řešení
-
Biomedical Data Processing G r o u p
Porozumění datům� Shromáždění dat♦ Počáteční předzpracování dat
� Popis dat♦ Formát dat♦ Množství
� Prozkoumání dat♦ Descriptivní charakteristiky dat
� Rozložení klíčových atributů, jednoduché statistiky, � Jednoduché vztahy mezi atributy, významné podskupiny, odlehlé
hodnoty (outliers).♦ Použití vizualizačních technik
� Ověření dat♦ Jsou kompletní (popisují celou oblast)♦ Složitost formy uložení dat♦ Šum, chybějící a špatné údaje
-
Biomedical Data Processing G r o u p
Problém reálných dat
�Data nejsou sbírána jako zdroj trénovacích příkladů, ale především kvůli podnikové dokumentaci a archivaci. Z tohotohlediska bývá sběr i uložení optimalizováno.
�Data obsahují špatné údaje způsobené chybami měřicíchpřístrojů i lidské obsluhy.
�Nevyplněné údaje.
�U některých atributů se stává, že vyplnění údaje je skorovýjimkou – mluvíme pak o řídce (sparse) obsazenýchatributech.
�Data jsou popsána pomocí příliš mnoha atributů – nenízřejmé, které z nich jsou pro řešení zvolené úlohy relevantní.
� Úspěch modelování závisí na volbě vhodné množiny atributů.
�Data mají formu složitého relačního schématu, nikolivjediné tabulky předpokládané atributovými metodamistrojového učení.
-
Biomedical Data Processing G r o u p
Úkoly předzpracování dat
�Množina vlastností (atributů nebo příznaků)
♦Bohatost dat (počet dimenzí) má zásadní vliv i pro úspěchpoužití technik strojového učení.
♦S dimenzí exponenciálně rostou i nároky na počettrénovacích příkladů.
�Příprava dat pro modelování
♦Čištění dat♦Normalizace dat♦Převod typů dat, formátování a kódování♦Transformace dat do jedné tabulky♦Úpravy dimenze
-
Biomedical Data Processing G r o u p
Předzpracování dat
� Zpráva o stavu proměnných♦ typ (spojitá X diskrétní)♦ rozsah definičního oboru (počet hodnot)♦ rozsah a frekvence výskytů (histogram)♦ typ rozdělení a jeho statistické charakteristiky♦osamělé mimořádné hodnoty (outliers)♦ téměř konstantní atributy (možné vynechat)♦nevyplněná datová pole♦znečištění dat
� data neodpovídají deklarovanému formátu� hodnoty neodpovídají deklarované množině
-
Biomedical Data Processing G r o u p
Předzpracování dat
� Čištění dat (chybějící a špatné údaje)
♦Nedělat nic� některým algoritmům chybějící hodnoty nevadí
♦ Ignorovat celou instanci� ideální pro data s minimem chybějících hodnot� pozor u časových řad na porušení vzorkování
♦Náhrada� nejčetnější hodnotou� průměrem, mediánem� nalezení nejbližšího souseda� využití algoritmu pro modelování
♦Náhrada hodnotou „nevím“
-
Biomedical Data Processing G r o u p
Předzpracování dat
� Čištění dat (čištění signálů)
♦Korekce resp. odstranění šumu - tento proces se nazýváfiltrace.
♦Většinou velmi podstatné pro získání příznaků ze signálu ♦ Ignorování šumu
� Čištění dat (monotónní atributy)
♦Představují obvykle jednoznačnou identifikaci pro uvažované objekty, např. pořadové číslo měření, číslo bankovního účtu.
♦Rostou bez omezení a při tom jejich přímá hodnota jako taková nemá pro vytvoření modelu význam.
-
Biomedical Data Processing G r o u p
� Normalizace dat♦ Převod numerických hodnot do intervalu
♦ Úprava rozsahu hodnot atributů pomocí logistickétransformace
Předzpracování dat
0
0 .2
0 .4
0 .6
0 .8
1
-6 -4 -2 0 2 4 6
x
g(x
)
a = 0 , b = 1 a = 0 , b = 2 a = 0 , b = 4
- ( ) min( ) nebo
( ) max( ) min( )i i i i
i ii i i
v Avg v v va a
StDev v v v
−= =−
-
Biomedical Data Processing G r o u p
Převod formátování a kódování
� Datum♦volba přesnosti – např. roky, měsíce, dny, hodin, …♦ reprezentace reálným číslem
� Nominální hodnoty♦2 hodnoty – 0,1♦výběr nejfrekventovanějších hodnot♦spojení do větších přirozených celků (město,kraj)
�Při sloučení atributů♦Častokrát nutné nové kódování
�Numerické hodnoty♦některé analytické algoritmy vyžadují pouze kategoriální
data♦diskretizace dat – volba intervalů
-
Biomedical Data Processing G r o u p
Diskretizace� Neinformované metody
♦ekvidistantní intervaly
♦ekvifrekvenční intervaly
-
Biomedical Data Processing G r o u p
Diskretizace� Informované metody
♦ využití znalosti o příslušnosti objekt -> třída♦ strategie rozdělování nebo spojování intervalů
�Fayyadův a Iraniho algoritmus (Entropy Based Discretization)
♦ Metoda založená na použití informací o třídách přítomných v datech♦ kritérium – entropie ♦ objekty mezi, kterými se mění třída♦ výběr nejlepšího dělicího bodu♦ Jde o hledání místa s maximálním informačním ziskem
♦ Fayyad, Irani : Multi-interval discretization of continuous-valuedattributes for classification learning In: Proc. 1st Int. Conf. on Knowledge Discovery and Data Mining. AAAI Press, 1995, s. 39-44
-
Biomedical Data Processing G r o u p
Transformace dat do jedné tabulky
�1:1
♦prakticky pouze doplnění tabulky o nové atributy
� 1:N
♦ vytvoření agregovaných hodnot♦ součet, min, max, průměr, regresní křivka♦ majoritní hodnota, počet různých hodnot, výskyt konkrétní
hodnoty♦ do této skupiny patří časové řady
� M:N
♦ nutná volba úlohy, zda chceme 1:N nebo 1:M
-
Biomedical Data Processing G r o u p
Úpravy dimenze
�Snížení dimenze
♦Vynecháním� konstantních atributů� atributů řídce obsazených� atributů s duplicitní informací (rok narození X věk, apod.)
♦Sloučením� atributů řídce obsazených – z několika řídce obsazených
atributů je možné zřetězením vytvořit jeden nový (PVP -present value pattern)
-
Biomedical Data Processing G r o u p
Úpravy dimenze
�Zvýšení dimenze
♦Obohacení� doplněním údajů z jiných zdrojů (např. meteorologická
měření, demografické údaje, apod.)
♦Rozšíření� přidání odvozených atributů� např. pohlaví z rodného čísla� Body Mass Index (BMI)
� „otočení“ dat (reverse pivoting) - nový atribut an+1 přebírá údaj z objektu následujícího. Pro každý objekt i platí an+1(i) = an(i+1).
2
váha [kg]BMI
výška [m]=
-
Biomedical Data Processing G r o u p
Úpravy dimenze
�Selekce atributů♦hledáme k správnému výsledku nejvíce přispívající atributy♦metoda filtru
� spočteme charakteristiku vyjadřující vhodnost atributu� chi-kvadrát, entropie, informační míra závislosti� vychází z kontingenční tabulky� nevýhoda: posuzujeme každý atribut samostatně – ne
množiny atributů♦metoda obálky
� použití metod strojového učení
♦Analýza hlavních komponent (PCA)� Nové atributy nelze interpretovat
-
Biomedical Data Processing G r o u p
Úprava množin pro modelování
� Hlavní zásada
♦každý nový soubor musí s rozumnou dávkou důvěry zachovávat původní pestrost či rozložení výchozího souboru.
� Vytvoření trénovacích a testovacích dat
� Vzorkování dat
♦ obrovský počet instancí� redukce počtu dat� tvorba modelů na základě podmnožin a jejich následná kombinace� pro algoritmy pracující v dávkovém režimu nutnost
♦ nevyvážená data např třída A 95%, třída B 5%� různé ceny chybného rozhodnutí� výběr dat pro různé třídy s různou pravděpodobností
-
Biomedical Data Processing G r o u p
Modelování
� Výběr techniky modelování
♦ s ohledem na data, pochopitelnosti, budoucímu použití a omezením
♦ rozhodovací stromy, asociační pravidla, neuronové sítě,regresní analýza, shluková analýza
♦ Kombinace více modelů
� Návrh testování
♦ Technika validace techniky (trenovací/testovací množina), scóre, atd.
� Vytvoření modelu
♦ Ladění parametrů, následné zpracování vygenerovaných pravidel
� Ohodnocení modelu
♦ Splnění požadovaných testovacích kriterií.♦ Přesnost a obecnost vytvořeného modelu
-
Biomedical Data Processing G r o u p
Vyhodnocení
� Úspěšné dosažení zadavatelových cílů
♦Výsledek je kombinace Modelu a Závěry♦Závěry nemusí být srozumitelné vzhledem k zadavatelovým
cílům – nutné převézt do zadavatelovy terminologie
� Hodnocední výsledků
♦Rozdílné stupně než u ohodnocení modelu♦Jestliže je to možné test na reálné aplikaci
� Revizní proces
♦Rekapitulace, hlavní cíl: nalézt přehlédnuté úlohy
� Určení dalších kroků
♦Rozhodnutí o možném vylepšení
-
Biomedical Data Processing G r o u p
Použití
� Plán použití♦ Shrnutí použitelných výsledků♦ Rozhodnutí o způsobu předání (nasazení) získaných znalostí a
informací uživateli.♦ Rozhodnutí jak bude vytvořený model nebo software použit v
rámci exitujících systémů.♦ Odhalení možných problémů při nasazení výsledků ZZD
�Plán monitorování a podpory♦ Je důležité vyhnout se dlouhým obdobím nesprávného užívání
� Vytvoření závěrečné zprávy (dokumentace)
-
Biomedical Data Processing G r o u p
Časové nároky v ZZD
0 20 40 60
Formulace problému
Volba typu řešení
Předpokládané využití
Posouzení dat
Příprava dat
Modelování
Potřebná čast času v rámci celéhoprojektu (v %)
Význam pro úspěch projektu (v %)
-
Biomedical Data Processing G r o u p
Vizualizace dat
� Omezení vnímání na 3D
� Vizualizace 1-D, 2-D a 3-D
♦standard♦grafy, matematika, statistika
�Vizualizace n-D
♦nutná pro ZZD (Data mining)
-
Biomedical Data Processing G r o u p
Vizualizace dat
�Grafy
♦ sloupcové grafy♦ koláčové grafy♦ grafy X-Y – časové řady, trendy
-
Biomedical Data Processing G r o u p
Vizualizace dat
�3D vizualizace
-
Biomedical Data Processing G r o u p
Vizualizace dat
�Statistické grafy
-
Biomedical Data Processing G r o u p
Iris data
sepal length
sepal width
petal length
petal width
5.1 3.5 1.4 0.2
4.9 3 1.4 0.2
... ... ... ...
5.9 3 5.1 1.8
Iris setosa
Iris versicolor
Iris virginica
-
Biomedical Data Processing G r o u p
Vizualizace dat
�Zobrazení matice rozptylů
-
Biomedical Data Processing G r o u p
Parallel coordinates
-
Biomedical Data Processing G r o u p
RadViz
-
Biomedical Data Processing G r o u p
Dobrá příprava dat je klíčem kvytvoření
platného a spolehlivého modelu
Konec ?
Ne!
Začátek!