extrahovanie a vyhľadávanie v citáciách ( sk )
DESCRIPTION
Extrahovanie a vyhľadávanie v citáciách ( sk ). Pavel Michalko Vyhľadávanie informácií 2012 /2013. Čo som robil a prečo. Čo: Extrahovanie, priraďovanie a vyhľadávanie v citáciách v slovenských textoch. Prečo: Podpora pri kontrole plagiátorstva - PowerPoint PPT PresentationTRANSCRIPT
EXTRAHOVANIE A VYHĽADÁVANIE V CITÁCIÁCH (SK)Pavel Michalko
Vyhľadávanie informácií 2012/2013
Čo som robil a prečo• Čo:
• Extrahovanie, priraďovanie a vyhľadávanie v citáciách v slovenských textoch.
• Prečo: • Podpora pri kontrole plagiátorstva• Časová náročnosť pri manuálnej kontrole (veľké množstvo údajov)• Súčasť/pomoc pri mojej DP
• Problém: • Rôzne formáty citovania, referencovania• Rôzne formáty dokumentov a formátovanie textu
Čo podobné existuje
• FreeCite• http://freecite.library.brown.edu/• Parsovanie citácií a vyťahovanie jednotlivých údajov.• Veľmi dobre rozpoznávanie: autor, title, editor ...• Slabšie rozpoznávanie: roky, source ...• Nedokáže pracovať s celým textom – rovno zoznam citácií.• Nedokáže teda určiť citované miesto – referenciu.• Občasné problémy so špeciálnymi znakmi slovenčiny (UTF-8).
Ako to funguje1. Extrahovanie textu z doc, docx, txt (Apache Tika)
2. Normalizácia (whitespaces, special chars, interpunc.)
3. Identifikácia zoznamu použitej literatúry (RegExp)
4. Rozdelenie textu na odseky a rozpoznanie referencií
5. Kontrola či dokument obsahuje min.1 referenciu alebo bibliografiu
6. Rozdelenie zoznamu bibl. na odseky = položky/citácie
7. Extrahovanie údajov (autor, title, rok, source)• Rok a source = RegExp• Title - štatistické informácie (umiestnenie, dĺžka, char. slová)• Autor - len ak sa nájde title (predpoklad, že sa nachádza pred ním)
8. Priradenie referencií k jednotlivým citáciam
9. Indexácia (Apache Lucene) pre možnosť vyhľadávania
Softvér a výstupy• Java konzolová aplikácia
• Vstup cez argumenty
• bez argumentov: vybrané dokumenty ako arg:
Vyhodnotenie
• Rok a source• takmer 100% úspešnosť• použitie RegExp – charakteristický formát
• Author a title• Menej uspokojivé výsledky• Nemožno použiť samotné RegExp (rozlíšenie autor, title, kniha ?)• Autor má lepšie výsledky, pretože stačí správne určiť začiatok title