algoritmy extrakcie dát z webu

20
Autor: Milan Šafárik Vedúci: RNDr. Róbert Novotný

Upload: teal

Post on 23-Jan-2016

58 views

Category:

Documents


0 download

DESCRIPTION

Algoritmy extrakcie dát z webu. Autor: Milan Šafárik Vedúci: RNDr. Róbert Novotný. Ciele práce. Preskúmať oblasť extrakcie dát z webu. Analyzovať a vylepšiť algoritmy pre danú oblasť. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Algoritmy extrakcie dát z webu

Autor: Milan ŠafárikVedúci: RNDr. Róbert Novotný

Page 2: Algoritmy extrakcie dát z webu

Ciele prácePreskúmať oblasť extrakcie dát z webu.

Analyzovať a vylepšiť algoritmy pre danú oblasť.

Vybraný algoritmus implementovať a vyhodnotiť efektivitu zvoleného algoritmu na rôznych reálnych aplikačných doménach.

Page 3: Algoritmy extrakcie dát z webu

Data miningData mining, alebo dolovanie z dát je veda

extrahovania skrytých hodnotných informácií z veľkých objemov dát.

Využíva sa tu množstvo rôznych techník, od štatistických a databázových až po rozhodovacie stromy a umelú inteligenciu.

Page 4: Algoritmy extrakcie dát z webu

3 fázy dolovania dátPredspracovanie – Nespracované (surové) dáta obyčajne nie sú

vhodné na dolovanie z rôznych dôvodov. Preto je potrebné odstrániť porušené a duplicitné dáta, alebo rôzne abnormality.

Spracovávanie dát – spracované dáta sú vstupom do vybraného algoritmu dolovania dát, ktorý nám extrahuje potrebné informácie, ktoré hľadáme.

Záverečné spracovanie – V mnohých aplikáciách nie sú všetky nájdené informácie užitočné. Tento krok hľadá tie užitočné a odstraňuje tie nepotrebné

Page 5: Algoritmy extrakcie dát z webu

Predspracovanie

1. Stiahne sa HTML dokument z internetu alebo sa načíta z disku.

2. Vytvorí sa z neho stromová štruktúra pomocou tried HtmlParser a Dom4J.

3. Odstránia sa nepotrebné dáta a html značky.

Page 6: Algoritmy extrakcie dát z webu

Spracovanie dát

1. Dáta z prvej fázy sa použijú ako vstup do algoritmov extrakcie.

2. Výstupom je množina výsledkov ohodnotených pravdepodobnosťami.

3. V záverečnom spracovaní sa už iba zbavíme výsledkov s nízkou pravdepodobnosťou.

Page 7: Algoritmy extrakcie dát z webu

Skryté Markovove modelySkryté Markovove modely sú štatistické modely stochastických procesov na počítanie pravdepodobnosti na základe vstupných pozorovaní. Sú reprezentované konečnostavovým automatom, ktorý môžeme vyjadriť päticou: G = (Q, V, A, B, π), kde:

Q = konečná množina N stavov modelu.V = konečná množina M vstupných symbolov (pozorovaní).A = matica pravdepodobností medzi stavmi.B = matica pravdepodobností medzi stavmi a pozorovaniami.π = vektor pravdepodobností počiatočného stavu.

Page 8: Algoritmy extrakcie dát z webu

Príklad

Page 9: Algoritmy extrakcie dát z webu

3 základné problémyOhodnotenie – Počítanie pravdepodobnosti, akou mohol model

vygenerovať danú sekvenciu pozorovaní. Využíva sa tu Forward algoritmus.

Dekódovanie – Počítanie sekvenciu skrytých stavov ktorá by mohla túto sekvenciu pozorovaní s najväčšou pravdepodobnosťou vygenerovať. Viterbiho algoritmus.

Naučenie – Natrénovať parametre modelu na danú sadu sekvencií. Na učenie modelu slúži Baum-Welchov algoritmus.

Page 10: Algoritmy extrakcie dát z webu

Programovanie

Naivné algoritmy sú pomalé.

Potreba urýchleného výpočtu

Dynamické algoritmy ako Forward a Baum-Welchov algoritmus.

Page 11: Algoritmy extrakcie dát z webu

Príklad naivného výpočtu

Zložitosť (2T - 1) · NT násobení a NT – 1 pripočítavaní.

N = 5, T = 100 až 1072 operácii!

Page 12: Algoritmy extrakcie dát z webu

Príklad dynamického výpočtu

N · (N + 1) · (T - 1) + N násobení a N · (N - 1) · (T - 1) pripočítavaní.

Page 13: Algoritmy extrakcie dát z webu

Využitie modelov

Extrakcia po skupinách slov – Ak hľadáme pojmy, ktoré sa skladajú z viacerých slov, je najlepšie použiť tento model. Každá časť extrahovanej informácie bude skrytý stav v markovovom modely.

Extrakcia po skupinách znakov – Najlepšie fungujúci na rozpoznávanie slov alebo čísiel. Stavy sú písmená a až z (0 až 9). Potreba učenia Baum-Welchovim algoritmom.

Page 14: Algoritmy extrakcie dát z webu

Extrakcia po slovách

Názvy mobilov: Samsung M8100, Motorola RAZR2 V9, LG GD510 Silver.

Page 15: Algoritmy extrakcie dát z webu

TestovanieTestovanie algoritmu na burzových dátach. Extrahovanie 10 rôznych informácii, spravených bolo 300 rôznych testovaní. Úspešnosť medzi 54% – 100%.

Page 16: Algoritmy extrakcie dát z webu

Možné vylepšenia

Využitie HTML štruktúry.

Preskakovanie v prehľadávaní textu.

Page 17: Algoritmy extrakcie dát z webu

Odborná literatúra

1. Lawrence R. Rabiner, A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition.

2. B. H. Juang, An Introduction to Hidden Markov Models

3. Altigran S. da Silva, A Brief Survey of Web Data Extraction Tools

Page 18: Algoritmy extrakcie dát z webu
Page 19: Algoritmy extrakcie dát z webu

Meranie efektivity

Precision (Presnosť) = Počet správne nájdených / Počet všetkých nájdených. Vysoké hodnoty.

Recall (Návratnosť) = Počet správnych / Počet, ktoré mali byť navrátené. Počítané hodnoty.

Page 20: Algoritmy extrakcie dát z webu

Meranie efektivity

F1 sa počíta, ak β = 1.

F2 sa počíta, ak β = 2.