jak dokumentům automaticky přiřadit hesla psh (jindřich mynarz, ctibor Škuta)

35
http://bit.ly/psh-indexace

Upload: narodni-technicka-knihovna-ntk

Post on 18-Dec-2014

608 views

Category:

Documents


1 download

DESCRIPTION

Chcete vědět víc? Mnoho dalších prezentací, videí z konferencí, fotografií i jiných dokumentů je k dispozici v institucionálním repozitáři NTK: http://repozitar.techlib.cz

TRANSCRIPT

Page 1: Jak dokumentům automaticky přiřadit hesla PSH (Jindřich Mynarz, Ctibor Škuta)

http://bit.ly/psh-indexace

Page 2: Jak dokumentům automaticky přiřadit hesla PSH (Jindřich Mynarz, Ctibor Škuta)
Page 4: Jak dokumentům automaticky přiřadit hesla PSH (Jindřich Mynarz, Ctibor Škuta)

Sumarizace

Page 5: Jak dokumentům automaticky přiřadit hesla PSH (Jindřich Mynarz, Ctibor Škuta)
Page 6: Jak dokumentům automaticky přiřadit hesla PSH (Jindřich Mynarz, Ctibor Škuta)
Page 7: Jak dokumentům automaticky přiřadit hesla PSH (Jindřich Mynarz, Ctibor Škuta)
Page 8: Jak dokumentům automaticky přiřadit hesla PSH (Jindřich Mynarz, Ctibor Škuta)
Page 9: Jak dokumentům automaticky přiřadit hesla PSH (Jindřich Mynarz, Ctibor Škuta)
Page 10: Jak dokumentům automaticky přiřadit hesla PSH (Jindřich Mynarz, Ctibor Škuta)

Motivace

Page 11: Jak dokumentům automaticky přiřadit hesla PSH (Jindřich Mynarz, Ctibor Škuta)

Zahlcení informacemi

Page 12: Jak dokumentům automaticky přiřadit hesla PSH (Jindřich Mynarz, Ctibor Škuta)

Škálovatelnost indexace

Page 13: Jak dokumentům automaticky přiřadit hesla PSH (Jindřich Mynarz, Ctibor Škuta)

Vyhledávání a prohlížení

Page 14: Jak dokumentům automaticky přiřadit hesla PSH (Jindřich Mynarz, Ctibor Škuta)

Automatická indexace

Page 15: Jak dokumentům automaticky přiřadit hesla PSH (Jindřich Mynarz, Ctibor Škuta)

http://www.cs.waikato.ac.nz/~olena/publications/olena_medelyan_phd_thesis_July2009.pdf

Page 16: Jak dokumentům automaticky přiřadit hesla PSH (Jindřich Mynarz, Ctibor Škuta)

Strojové učení

● Učení korespondencí mezi rysy dokumentu a předmětovými hesly

● Kopírování a aplikace odpozorovaných pravidel

Page 17: Jak dokumentům automaticky přiřadit hesla PSH (Jindřich Mynarz, Ctibor Škuta)

Zdroje automatické indexace

1. analýza indexovaného dokumentu2. analýza použitého řízeného slovníku3. analýza způsobu použití daného slovníku nad korpusem

dokumentů

Výsledkem strojového učení nad zdroji automatické indexace je indexační model.

Page 18: Jak dokumentům automaticky přiřadit hesla PSH (Jindřich Mynarz, Ctibor Škuta)

Komponenty

Page 19: Jak dokumentům automaticky přiřadit hesla PSH (Jindřich Mynarz, Ctibor Škuta)

http://code.google.com/p/maui-indexer/

Indexátor

Page 20: Jak dokumentům automaticky přiřadit hesla PSH (Jindřich Mynarz, Ctibor Škuta)

http://nusl.techlib.cz/

Korpus plných textů

Page 21: Jak dokumentům automaticky přiřadit hesla PSH (Jindřich Mynarz, Ctibor Škuta)

http://psh.techlib.cz/skos/

Řízený slovník

Page 22: Jak dokumentům automaticky přiřadit hesla PSH (Jindřich Mynarz, Ctibor Škuta)
Page 23: Jak dokumentům automaticky přiřadit hesla PSH (Jindřich Mynarz, Ctibor Škuta)

Automatické přiřazování hesel PSH

Page 25: Jak dokumentům automaticky přiřadit hesla PSH (Jindřich Mynarz, Ctibor Škuta)

Předzpracování dokumentu

● přizpůsobeno češtině● normalizace● odstranění nevýznamových výrazů

○ založeny na nejfrekventovanějších výrazech v Českém národním korpusu FF UK

● redukce na slovní kořeny○ dostupné české stemmery jsou příliš agresivní

Page 26: Jak dokumentům automaticky přiřadit hesla PSH (Jindřich Mynarz, Ctibor Škuta)

Generování kandidátů

Page 29: Jak dokumentům automaticky přiřadit hesla PSH (Jindřich Mynarz, Ctibor Škuta)

Filtrování kandidátů

Page 30: Jak dokumentům automaticky přiřadit hesla PSH (Jindřich Mynarz, Ctibor Škuta)

http://maui-indexer.appspot.com/http://invenio2.ntkcz.cz/indexer/

Demo

Page 31: Jak dokumentům automaticky přiřadit hesla PSH (Jindřich Mynarz, Ctibor Škuta)
Page 32: Jak dokumentům automaticky přiřadit hesla PSH (Jindřich Mynarz, Ctibor Škuta)
Page 33: Jak dokumentům automaticky přiřadit hesla PSH (Jindřich Mynarz, Ctibor Škuta)
Page 34: Jak dokumentům automaticky přiřadit hesla PSH (Jindřich Mynarz, Ctibor Škuta)

Výzvy pro indexaci

● Indexování vytvářené uživateli● Využití herních prvků (http://www.librarything.

com/coverguess)● Efektivní využití v uživatelských rozhraních