text ové datab á zy
DESCRIPTION
Text ové Datab á zy. Ján GENČI PDT. Obsah. Literat úra Terminol ógia Vymedzenie pojmu textové databázy Typy dotazov Fulltextové vyhľadávanie Lingvistick é korpusy. Literatúra. Pokorný J. : Datab ázové systémy 2, Nakladatelství ČVUT, 2007 - PowerPoint PPT PresentationTRANSCRIPT
Textové Databázy
Ján GENČI
PDT
2
Obsah
• Literatúra
• Terminológia
• Vymedzenie pojmu textové databázy
• Typy dotazov
• Fulltextové vyhľadávanie
• Lingvistické korpusy
3
Literatúra
• Pokorný J.: Databázové systémy 2, Nakladatelství ČVUT, 2007
• Pokorný J., Snášel V., Kopecký M.: Dokumentografické informačné systémy, Nakladatelství Karolinum, 2005.
• Laura C. Rivero, Jorge H. Doorn, Viviana E. Ferraggine: Encyclopedia Of Database Technologies And Applications. Idea Group Publishing, 2005 (heslo Text Databases, p. 688)
• Erickson J.: Database Technologies: Concepts, Methodologies, Tools, and Applications. IGI Global, 2009. ISBN 978-1-60566-058-5 (pp. 931-939)
4
Literatúra (cont.-1)
5
Literatúra (cont.-2)
• Oracle Text. http://www.oracle.com/technology/products/text/index.html
• Oracle Text. An Oracle Technical White Paper. June, 2007 (prečítať) http://www.oracle.com/technology/products/text/pdf/11goracletexttwp.pdf
6
TXT DB – Terminológia
• Information retrieval
• Textové databázy (informačné systémy)
• Dokumentové databázy (Document databases)
• Dokumentografické informačné systémy
7
Definícia
• Text je akákoľvek postupnosť symbolov z nejakej abecedy.
• Veľká časť informácií dostupných v elektronickej podobe je práve v textovej forme :– Text prirodzeného jazyka (napr. knihy, časopisy, noviny,
právne dokumenty, databázy, korporátna informácia, Web), – Biologické sekvencie (napr. DNA, sekvencie proteinov),– ...
• Textová databáza je systém, ktorý spravuje (zvyčajne veľké) kolekcie textov a poskytuje rýchly a bezchybný/presný prístup k nim.
• Tieto požiadavky sú protichodné, ale obe sú kritické, ak máme mať úžitok z texotvých kolekcií.
8
TXT DB – Typy dotazov
– Syntaktické vyhľadávanie (vyjadrené ako postupnosť znakov prítomných v texte):
• String matching (najjednoduchší typ dotazu, cely rad algoritmov – Knut-Morris-Pratt first O(n))
• Regulárne výrazy• Approximate searching (poskytuje možnosť eliminovať rôzne typy
chýb, ktoré môžu byť obsiahnuté v texte – či už prehľadávanom, alebo dotaze - napr. edit distance)
– Sémantické vyhľadávanie (má veľký význam) – používateľ zadá informáciu, ktorú požaduje a systém vyhľadá súbor textov (dokumentov) relevantných požiadavkám používateľa; dokonca aj vtedy ak sa výsledok priamo neobjavuje v dotaze. Systém ohodnocuje dokumenty a dokumenty s najvyšším ohodnotením ponúkne používateľovi. V tomto prípade nehovoríme o správnej alebo nesprávnej odpovedi, ale iba lepšej alebo horšej.
9
Fulltextové vyhľadávanie
• V tradičných SRBD je manipulácia s textom obmedzená bežnými reťazcovými funkciami (exact matching podreťazcov)
• Tradičné reťazcové operácie sú mimoriadne drahé pre veľké dokumenty – SRBD nemajú efektívnu podporu pre tieto operácie a preto sú rozširované o špeciálne moduly – fulltexotvého vyhľadávania (full-text search; FTS).
10
Alternatívy implementácie FTS
• FTS moduly ako súčasť SRBD (Oracle, Microsoft SQLServer, Postgres, mySQL; Informix Text Datablade; )
• Databázovo nezávislé FTS (SPSS LexiQuest, SAS Text Miner, dtSearch, Statistica Text Miner, ...)
11
Spôsoby spracovania
• Text mining
• Full text search
12
Text mining
• Podoblasť správy dokumentov, ktorej cieľom je spracovanie, vyhľadávanie a analýza dokumentov
• Cieľ – objaviť netriviálne skryté charakteristiky dokumentov samotných alebo ich súborov
• Interdisciplinárna oblasť strojového učenia, ktorá využíva prístupy a nástroje z oblastí:– computational linguistics, – natural language processing, – information retrieval, – data mining.
13
Schéma aplikácie text mining-u
14
Information Extraction
• Príklady podúloh:– Rozpoznanie pomenovaných objektov (osoby,
geografické názvy, firmy, kluby, ...), – co-reference resolution – identifikácia
fragmentov textu odkazujúcich na tie isté entity/objekty,
– Identifikácia rolí a ich vzťahov
15
Kategorizácia textov
• Cieľ – zaradenie dokumentov v rámci stanovenej kategorizácie; napr.:– document filtering –spam filtering, alebo
newsfeed;– patent document routing – determination of
experts in the given fields;– assisted categorization – helping domain
experts in manual categorization with valuable suggestion;
– automatic metadata generation.
16
Zhlukovanie dokumentov
• Zhlukovanie/združovanie elementov kolekcie na základe ich podobnosri.
• Dokumenty su zvyčajne zhlukované na základe obsahu.
• Zhlukovanie môže byť aplikované napr. na:– Zhlukovanie výsledkov vyhľadávania kvôli lepšej
orientácii používateľa vo výsledkoch,– Zvýšenie výkonnosti tzv. vector space based
information retrieval,– Realizáciu „navigačného“ prístupu k prehľadávaniu
dokumentov.
17
Summarizácia
• Automatické generovanie krátkeho zhrnutia dokumentu
18
FULL-TEXT SEARCH (FTS)ENGINES
19
Fulltextové indexy
• Kľúčový problém v oblasti spracovanie textov (information retrieval) je návrh a implementácia efektívnych dátovych štruktúr a algoritmov pre indexovanie a vyhľadávanie informačných objektov, ktoré sú opísané nejasne.
• Najčastejšie používané štruktúry:– invertované súbory (inverted files);– signatúrové súbory (signature files);– bitmapové indexy.
20
Informix
• Excalibur Text DataBlade Module provides text search capabilities that include:– phrase matching, – exact and fuzzy searches, – compensation for misspelling, – synonym matching.
21
Lingvistické korpusy
• Kolekcie textov v konkrétnom jazyku určené primárne pre lingvistický výskum
• Značkované texty
• Príklady:– British National Corpus (100 mil. slov)– Slovenský národný korpus (530 mil. tokenov)– Český národný korpus (300 mil. slov)
• Paralelné korpusy
22
Otázky?