extrahovanie a vyhľadávanie v citáciách ( sk )

6
EXTRAHOVANIE A VYHĽADÁVANIE V CITÁCIÁCH (SK) Pavel Michalko Vyhľadávanie informácií 2012/2013

Upload: valentine-perkins

Post on 01-Jan-2016

28 views

Category:

Documents


0 download

DESCRIPTION

Extrahovanie a vyhľadávanie v citáciách ( sk ). Pavel Michalko Vyhľadávanie informácií 2012 /2013. Čo som robil a prečo. Čo: Extrahovanie, priraďovanie a vyhľadávanie v citáciách v slovenských textoch. Prečo: Podpora pri kontrole plagiátorstva - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Extrahovanie a vyhľadávanie v citáciách ( sk )

EXTRAHOVANIE A VYHĽADÁVANIE V CITÁCIÁCH (SK)Pavel Michalko

Vyhľadávanie informácií 2012/2013

Page 2: Extrahovanie a vyhľadávanie v citáciách ( sk )

Čo som robil a prečo• Čo:

• Extrahovanie, priraďovanie a vyhľadávanie v citáciách v slovenských textoch.

• Prečo: • Podpora pri kontrole plagiátorstva• Časová náročnosť pri manuálnej kontrole (veľké množstvo údajov)• Súčasť/pomoc pri mojej DP

• Problém: • Rôzne formáty citovania, referencovania• Rôzne formáty dokumentov a formátovanie textu

Page 3: Extrahovanie a vyhľadávanie v citáciách ( sk )

Čo podobné existuje

• FreeCite• http://freecite.library.brown.edu/• Parsovanie citácií a vyťahovanie jednotlivých údajov.• Veľmi dobre rozpoznávanie: autor, title, editor ...• Slabšie rozpoznávanie: roky, source ...• Nedokáže pracovať s celým textom – rovno zoznam citácií.• Nedokáže teda určiť citované miesto – referenciu.• Občasné problémy so špeciálnymi znakmi slovenčiny (UTF-8).

Page 4: Extrahovanie a vyhľadávanie v citáciách ( sk )

Ako to funguje1. Extrahovanie textu z doc, docx, txt (Apache Tika)

2. Normalizácia (whitespaces, special chars, interpunc.)

3. Identifikácia zoznamu použitej literatúry (RegExp)

4. Rozdelenie textu na odseky a rozpoznanie referencií

5. Kontrola či dokument obsahuje min.1 referenciu alebo bibliografiu

6. Rozdelenie zoznamu bibl. na odseky = položky/citácie

7. Extrahovanie údajov (autor, title, rok, source)• Rok a source = RegExp• Title - štatistické informácie (umiestnenie, dĺžka, char. slová)• Autor - len ak sa nájde title (predpoklad, že sa nachádza pred ním)

8. Priradenie referencií k jednotlivým citáciam

9. Indexácia (Apache Lucene) pre možnosť vyhľadávania

Page 5: Extrahovanie a vyhľadávanie v citáciách ( sk )

Softvér a výstupy• Java konzolová aplikácia

• Vstup cez argumenty

• bez argumentov: vybrané dokumenty ako arg:

Page 6: Extrahovanie a vyhľadávanie v citáciách ( sk )

Vyhodnotenie

• Rok a source• takmer 100% úspešnosť• použitie RegExp – charakteristický formát

• Author a title• Menej uspokojivé výsledky• Nemožno použiť samotné RegExp (rozlíšenie autor, title, kniha ?)• Autor má lepšie výsledky, pretože stačí správne určiť začiatok title