framework: wrapper suite

11
FrameWork: Wrapper Suite Michal Šimún [email protected]

Upload: valentine-gaines

Post on 03-Jan-2016

18 views

Category:

Documents


3 download

DESCRIPTION

FrameWork: Wrapper Suite. Michal Šimún. tp05@ googlegroups. com. Z ákladná architektúra. Program obaľovača. Obaľovač opísaný ako XML súbor Identifikácia akcií Prechodov medzi akciami – hierarchia akcií Premenné obaľovača Vytvorenie inštancie WrapperProgram - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: FrameWork: Wrapper Suite

FrameWork: Wrapper Suite

Michal Šimún

[email protected]

Page 2: FrameWork: Wrapper Suite

Základná architektúra

Page 3: FrameWork: Wrapper Suite

Program obaľovača

• Obaľovač opísaný ako XML súbor

• Identifikácia akcií

• Prechodov medzi akciami – hierarchia akcií

• Premenné obaľovača

• Vytvorenie inštancie WrapperProgram

• Wrapper pracuje s aktuálnym Kontextom - obsahuje mapu DOM dokumentov, rozšírenie o cookies

Page 4: FrameWork: Wrapper Suite

Program obaľovača

• Štartovacia akcia

• Výstupný DOM

• Zoznam zapisovačov

• Možnosť krokovania

• http Client – knižnice Jakarta

• html Parser – knižnica NekoHtml

• loadWrapper – parser programu Wrappera

Page 5: FrameWork: Wrapper Suite

Interpreter

• Vykonanie programu parsera

• Vytvorenie inštancie wrappera

• Priradenie zapisovačov (OutputWriter)

• Nastavenie krokovača

• Spustenie Wrappera (metóda start)

Page 6: FrameWork: Wrapper Suite

Lokátor uzlov a premenné

• Lokátor uzlov, určuje podstrom, s ktorým sa bude v danom kontexte pracovať

• InDocument – kde sa hľadá

• XPathExp

• RegExp – filtrovanie nájdený uzlov

• Premenné – parametrizovaný reťazec (regulárne výrazy); Product = “processor” Uri = “http://www.products.sk/q=${Product}”

Page 7: FrameWork: Wrapper Suite

Definované akcie

• Spustenie pomocou metódy execute

• LoadPage – uri, asDocumnet v kontexte

• FollowLink - <a> tagFinder + LoadPage

• WriteObject – objectName v kontexte => zapisoveče

• ExtractData – exktrakcia dát z dokumentu na základe TagFinder, možná filtrácia RegExp, definovanie outPut do variable, objekt v kontexte dokumentu – OutputObjectPath = zjednoseny XPath

Page 8: FrameWork: Wrapper Suite

Akcie

• DoAllBranches – vykoná svojich následníkov

• DoWhileNextLink – definuje sa lokátor next linky

• ForEachTag – extrahuje podstrom dokumentu a uloží do kontextu ako nový dokument

Page 9: FrameWork: Wrapper Suite

Spracovanie chýb

• Princíp výnimiek

• Handlere výnimiek:

– StopThrowErrorHandler

– ReturnBackErrorHandler

– IgnoreContinueErrorHandler

– ExecuteCommandErrorHandler

Page 10: FrameWork: Wrapper Suite

Návrh rozšírenia

• Tvorba rozhrania, učenia (vzory, filtre, komunikačný kanál)

• Vytvorenie XML => tvorba obaľovača – podpora stromu akcií ???

• Zmena akcií ExtractData, WriteObject, rozšírenie akcii o prácu so vzormi

• Súčasťou akcií bude aj lokálny kontext zdedený po predkovi

Page 11: FrameWork: Wrapper Suite

Ďakujem za pozornosť