text ové datab á zy

Textové Databázy

Ján GENČI

PDT

2

Obsah

• Literatúra

• Terminológia

• Vymedzenie pojmu textové databázy

• Typy dotazov

• Fulltextové vyhľadávanie

• Lingvistické korpusy

3

Literatúra

• Pokorný J.: Databázové systémy 2, Nakladatelství ČVUT, 2007

• Pokorný J., Snášel V., Kopecký M.: Dokumentografické informačné systémy, Nakladatelství Karolinum, 2005.

• Laura C. Rivero, Jorge H. Doorn, Viviana E. Ferraggine: Encyclopedia Of Database Technologies And Applications. Idea Group Publishing, 2005 (heslo Text Databases, p. 688)

• Erickson J.: Database Technologies: Concepts, Methodologies, Tools, and Applications. IGI Global, 2009. ISBN 978-1-60566-058-5 (pp. 931-939)

4

Literatúra (cont.-1)

5

Literatúra (cont.-2)

• Oracle Text. http://www.oracle.com/technology/products/text/index.html

• Oracle Text. An Oracle Technical White Paper. June, 2007 (prečítať) http://www.oracle.com/technology/products/text/pdf/11goracletexttwp.pdf

http://www.oracle.com/technology/products/text/index.html

http://www.oracle.com/technology/products/text/index.html

http://www.oracle.com/technology/products/text/pdf/11goracletexttwp.pdf

http://www.oracle.com/technology/products/text/pdf/11goracletexttwp.pdf

6

TXT DB – Terminológia

• Information retrieval

• Textové databázy (informačné systémy)

• Dokumentové databázy (Document databases)

• Dokumentografické informačné systémy

7

Definícia

• Text je akákoľvek postupnosť symbolov z nejakej abecedy.

• Veľká časť informácií dostupných v elektronickej podobe je práve v textovej forme :– Text prirodzeného jazyka (napr. knihy, časopisy, noviny,

právne dokumenty, databázy, korporátna informácia, Web), – Biologické sekvencie (napr. DNA, sekvencie proteinov),– ...

• Textová databáza je systém, ktorý spravuje (zvyčajne veľké) kolekcie textov a poskytuje rýchly a bezchybný/presný prístup k nim.

• Tieto požiadavky sú protichodné, ale obe sú kritické, ak máme mať úžitok z texotvých kolekcií.

8

TXT DB – Typy dotazov

– Syntaktické vyhľadávanie (vyjadrené ako postupnosť znakov prítomných v texte):

• String matching (najjednoduchší typ dotazu, cely rad algoritmov – Knut-Morris-Pratt first O(n))

• Regulárne výrazy• Approximate searching (poskytuje možnosť eliminovať rôzne typy

chýb, ktoré môžu byť obsiahnuté v texte – či už prehľadávanom, alebo dotaze - napr. edit distance)

– Sémantické vyhľadávanie (má veľký význam) – používateľ zadá informáciu, ktorú požaduje a systém vyhľadá súbor textov (dokumentov) relevantných požiadavkám používateľa; dokonca aj vtedy ak sa výsledok priamo neobjavuje v dotaze. Systém ohodnocuje dokumenty a dokumenty s najvyšším ohodnotením ponúkne používateľovi. V tomto prípade nehovoríme o správnej alebo nesprávnej odpovedi, ale iba lepšej alebo horšej.

9

Fulltextové vyhľadávanie

• V tradičných SRBD je manipulácia s textom obmedzená bežnými reťazcovými funkciami (exact matching podreťazcov)

• Tradičné reťazcové operácie sú mimoriadne drahé pre veľké dokumenty – SRBD nemajú efektívnu podporu pre tieto operácie a preto sú rozširované o špeciálne moduly – fulltexotvého vyhľadávania (full-text search; FTS).

10

Alternatívy implementácie FTS

• FTS moduly ako súčasť SRBD (Oracle, Microsoft SQLServer, Postgres, mySQL; Informix Text Datablade; )

• Databázovo nezávislé FTS (SPSS LexiQuest, SAS Text Miner, dtSearch, Statistica Text Miner, ...)

11

Spôsoby spracovania

• Text mining

• Full text search

12

Text mining

• Podoblasť správy dokumentov, ktorej cieľom je spracovanie, vyhľadávanie a analýza dokumentov

• Cieľ – objaviť netriviálne skryté charakteristiky dokumentov samotných alebo ich súborov

• Interdisciplinárna oblasť strojového učenia, ktorá využíva prístupy a nástroje z oblastí:– computational linguistics, – natural language processing, – information retrieval, – data mining.

13

Schéma aplikácie text mining-u

14

Information Extraction

• Príklady podúloh:– Rozpoznanie pomenovaných objektov (osoby,

geografické názvy, firmy, kluby, ...), – co-reference resolution – identifikácia

fragmentov textu odkazujúcich na tie isté entity/objekty,

– Identifikácia rolí a ich vzťahov

15

Kategorizácia textov

• Cieľ – zaradenie dokumentov v rámci stanovenej kategorizácie; napr.:– document filtering –spam filtering, alebo

newsfeed;– patent document routing – determination of

experts in the given fields;– assisted categorization – helping domain

experts in manual categorization with valuable suggestion;

– automatic metadata generation.

16

Zhlukovanie dokumentov

• Zhlukovanie/združovanie elementov kolekcie na základe ich podobnosri.

• Dokumenty su zvyčajne zhlukované na základe obsahu.

• Zhlukovanie môže byť aplikované napr. na:– Zhlukovanie výsledkov vyhľadávania kvôli lepšej

orientácii používateľa vo výsledkoch,– Zvýšenie výkonnosti tzv. vector space based

information retrieval,– Realizáciu „navigačného“ prístupu k prehľadávaniu

dokumentov.

17

Summarizácia

• Automatické generovanie krátkeho zhrnutia dokumentu

18

FULL-TEXT SEARCH (FTS)ENGINES

19

Fulltextové indexy

• Kľúčový problém v oblasti spracovanie textov (information retrieval) je návrh a implementácia efektívnych dátovych štruktúr a algoritmov pre indexovanie a vyhľadávanie informačných objektov, ktoré sú opísané nejasne.

• Najčastejšie používané štruktúry:– invertované súbory (inverted files);– signatúrové súbory (signature files);– bitmapové indexy.

20

Informix

• Excalibur Text DataBlade Module provides text search capabilities that include:– phrase matching, – exact and fuzzy searches, – compensation for misspelling, – synonym matching.

21

Lingvistické korpusy

• Kolekcie textov v konkrétnom jazyku určené primárne pre lingvistický výskum

• Značkované texty

• Príklady:– British National Corpus (100 mil. slov)– Slovenský národný korpus (530 mil. tokenov)– Český národný korpus (300 mil. slov)

• Paralelné korpusy

22

Otázky?

text ové datab á zy

Documents