tvorba znalostných báz pomocou jednoduchých sémantických sietí
DESCRIPTION
Tvorba znalostných báz pomocou jednoduchých sémantických sietí. Habilitačná prednáška Michal Laclavík. Abstrakt. - PowerPoint PPT PresentationTRANSCRIPT
Tvorba znalostných báz pomocou jednoduchých sémantických sietí
Habilitačná prednáška
Michal Laclavík
Abstrakt
• Výskum znalostí a znalostných báz bol v minulej dekáde reprezentovaný sémantickým webom a manažmentom znalostí. Nové možnosti naplnenia tejto výzvy prišli s rozvojom nových technológií a služieb Internetu v podobe sociálnych sietí, Wikipédie, LinkedData a dostupnosti čoraz viac štruktúrovaných informácií rôzneho charakteru v podobe jednoduchých sémantických sietí. Pomocou nich je možné tvoriť a overiť nové metódy pre spracovanie informácií, ich prepojenie, odvodzovanie a vyhľadávanie relevantných informácií a znalostí ako aj ich prezentáciu užívateľovi. Jednoduché sémantické siete a grafy nemajú pevnú sémantiku ale vyvíjajú sa podľa potreby na základe nových dát, integrácie zdrojov, interakcie s užívateľom a s inými systémami a je ich možné využiť pri tvorbe znalostných báz. V prednáške predstavíme ako je možné využiť princípy a metódy jednoduchých sémantických sietí na tvorbu znalostných báz zo štruktúrovaných a neštruktúrovaných dát.
29.10.2013 FIIT STU, Bratislava 2
Znalostná báza
• Znalostná báza združuje informácie (a znalosti) a umožňuje ich tvorbu, zber, organizovanie, zdieľanie a vyhľadávanie
• Knowledge base is1 a store of information or data that is available to draw on.2 the underlying set of facts, assumptions, and rules which a computer system has available to solve a problem. [Oxford Dictionary]
• knowledge base (KB) is a special kind of database for knowledge management. A knowledge base is an information repository that provides a means for information to be collected, organized, shared, searched and utilized. It can be either machine-readable or intended for human use.http://en.wikipedia.org/wiki/Knowledge_base
29.10.2013 FIIT STU, Bratislava 3
FIIT STU, Bratislava 4
Sémantické siete
• Sociálne siete: priatelia a iné artefakty ako správy, statusy, fotky a podobne.
• Emaily: sociálna sieť + iné objekty ako firmy, organizácie, dokumenty, linky, čas a podobne.
• Telekomunikácie: sieť navzájom komunikujúcich ľudí - hovory, SMS s ďalšími metadátami ako čas alebo miesto.
• Internet: sieť odkazov a prepojení.• Wikipédia: sieť prepojení a hierarchie jednotlivých tematických stránok
ako aj jazykových mutácií • LinkedData
29.10.2013
Sémantický web a manažment znalostí
• Sémantický web (Semantic Web)– URI, vzťah medzi URI (triple)– RDF, RDFS, OWL, OWL-DL– Odvodzovanie založené na logických modeloch– Problémy
• Neúplné modely• Neúplne, protirečiace dáta• Príliš zložité odvodzovanie(exponenciálna zložitosť)
• Manažment znalostí (Knowledge Management)– Vyhľadávanie, dokumenty, CMS …– Expertné systémy, fulltext search, Semantic web, Wiki...– Znalostné bázy ako OpenCyc– Veľa investícií do technológií– Rozpačité výsledky
29.10.2013 FIIT STU, Bratislava 5
[TBL01, SemR06]
[URI94]
[ExpS98]
[Daven00]
[Daven00]
[Cyc89]
[DL03]
Dátové zdroje, znalostné bázy
• Wikipedia– 6 miliónov článkov– 40 GB textu
• DBPedia– Trojice (Triples)– Typy, vzťahy, ...
• Freebase– 170 GB trojíc– 40 milion topikov– 1.2 miliardy trojíc
29.10.2013 FIIT STU, Bratislava 6
ns:m.012rkqx ns:type.object.type ns:common.topic.ns:m.012rkqx ns:type.object.name "High Fidelity"@en.ns:m.012rkqx ns:type.object.type ns:music.single.ns:m.012rkqx ns:type.object.key ns:authority.musicbrainz.name.TRACK3987054.ns:m.012rkqx ns:type.object.type ns:music.recording.ns:m.012rkqx key:authority.musicbrainz "258c45bd-4437-4580-8988-b3f3be975f9c".ns:m.012rkqx key:authority.musicbrainz.name "TRACK3987054".ns:m.012rkqx rdfs:label "High Fidelity"@en.ns:m.012rkqx rdfs:type ns:common.topic.ns:m.012rkqx rdfs:type ns:music.single.ns:m.012rkqx rdfs:type ns:music.recording.
Linked Data cloud
• Prepojené grafové dáta• DBPedia, Geo, ľudia (FOAF),
publikácie, medicína, …• EU dáta verejných
inštitúcií
29.10.2013 FIIT STU, Bratislava 7
Google Knowledge Graph
• Wikipedia• Freebase• Znalosti potvrdené
človekom
29.10.2013 8FIIT STU, Bratislava
[ulanoff]
Facebook Graph Search
• Užívateľmi generovaný obsah• Prepojenia na web
29.10.2013 9FIIT STU, Bratislava
[facebook13]
IBM Watson
29.10.2013 FIIT STU, Bratislava 10
[Perrone11]
Sémantické vyhľadávanie SemSets
• Odpovede na otázky typu zoznam: astronauts who walked on the Moon
• Wikipédia ako text aj graf• Text: usporiadanie
pomocou lucene• Graf/sieť: šírenie aktivácie
a SemSets• Víťazné riešenie na
Semantic Search Challenge
29.10.2013 FIIT STU, Bratislava 11
1. Eugene_Cernan2. Alan_Bean3. David_Scott4. John_Young_(astronaut)5. Neil_Armstrong6. Pete_Conrad7. Harrison_Schmitt8. Alan_Shepard9. Charles_Duke10. Buzz_Aldrin11. James_Irwin12. Edgar_Mitchell
[SemSets]
Rozpoznávanie názvoslovných entít
• Slovníkový princíp (Gazetteers)• Založené na vzoroch• Strojové učenie
29.10.2013 FIIT STU, Bratislava 12
[msm13]
Rozpoznávanie názvoslovných entít
• Kombinácia existujúcich NER nástrojov (Named Entity Recognition)
– ANNIE (GATE), Apache OpenNLP, – Illinois NER, Illinois Wikifier, – LingPipe, Open Calais– Stanford NER ,WikiMiner, – Miscinator
• Strojové učenie– Rozhodovacie stromy
• Získali sme druhé miesto na MSM 2013• 1% strata na prvé miesto• Celkovo 17 tímov z celého sveta
http://ikt.ui.sav.sk/index.php?n=Main.IEChallenge2013
29.10.2013 FIIT STU, Bratislava 13
PS
RS
F1S
PL
RLF1L
PA
RA
F1A
0.00
0.25
0.50
0.75
1.00
Micro Summary (test set)
Annie
Apache OpenNLP
Illinois NER
Illinois Wikifier
LingPipe
Open Calais
Stanford NER
Wikiminer
Dummy model
Random Forest 21
LOC MISC ORG PER0.00
0.20
0.40
0.60
0.80
1.00
P
R
F1
LOC MISC ORG PER0.00
0.20
0.40
0.60
0.80
1.00
P
R
F1
[msm13]
MSM2013: Rozpoznávanie názvoslovných entít
• Integrácia cez GATE• Vektor príznakov• Strojové učenie
29.10.2013 FIIT STU, Bratislava 14
Rozpoznávanie názvoslovných entít (NER)
• Extrakcia informácií (identifikácia entít)– Založené na Ontea
• Iné NER nástroje ako GATE, Stanford NER, Wiki miner môžu byť použité– Ontea výhody – tvorba stromov entít– Predpokladáme že máme k dispozícii kvalitné NER nástroje
• Stromy => Grafy / Siete
29.10.2013 FIIT STU, Bratislava 15
Sieť / graf anotácií
Text with annotations
Strom anotácií
[LAC09, LAC11]
Náhodná sieť a sieť s mocninovou distribúciou
29.10.2013 FIIT STU, Bratislava 16
Zdroj: http://geza.kzoo.edu/bionet/html/scalefree.html
Sieť s mocninovou dist. stupňov Sieť s binomickou dist. stupňov
[Slide borrowed from Marek Ciglan]
Siete malého sveta
• Siete malého sveta často obsahujú kliky, alebo „skoro kliky“
• Efekt „moji priatelia v sociálnej sieti sú často priatelia navzájom“
• Matematicky to možno zachytiť pomocou zhlukovacieho koeficientu
• Lokálny zhlukovací koeficient:
29.10.2013 FIIT STU, Bratislava 17
Zdroj: http://en.wikipedia.org/wiki/Clustering_coefficient
[Slide borrowed from Marek Ciglan]
Vlastností vybraných grafov/sietí
EnronDBPedia
DSK
LinkedInBBC
Events ACM
Gorila
Datasety:• DBPedia• Web
• BBC• LinkedIn• DSK
• Gorila – dokument• Events – graf udalostí z agentovej simulácie • ACM – metadáta publikácií vo forme RDF z LinkedData
29.10.2013 18FIIT STU, Bratislava
Názov siete
Počet vrcholov
Počet hrán Priem. klást. koef.
Koef. assort.
Priem. najkr. cesta
Enron Full 8 269 278 20 383 709 0,29 -0,02 6,58 Enron5 160 387 630 330 0,30 -0,04 6,64 LinkedIn 1 564 698 6 094 634 0,36 0,13 6,48 BBC 1 725 900 6 839 358 0,34 -0,05 7,55 DSK 21 518 98 952 0,31 0,39 5,79 DSK3 2 857 8 754 0,36 -0,14 5,46 Gorila 5 959 23 724 0,31 0,03 6,25 Events 25 478 539 328 0,38 -0,25 2,47 ACM 941 322 2 198 001 0,34 -0,06 7,30
𝐶(𝑣𝑖) = |𝑒𝑗𝑘: 𝑣𝑗,𝑣𝑘 ∈𝑁𝑖,𝑒𝑗𝑘 ∈𝐸| 𝑘𝑖(𝑘𝑖 − 1)
𝑟= 𝑀−1 σ 𝑗𝑖𝑘𝑖 − [𝑀−1 σ (𝑗𝑖+ 𝑘𝑖)/2]2𝑖𝑖𝑀−1 σ (𝑗𝑖2 + 𝑗𝑖2) − [𝑀−1 σ (𝑗𝑖+ 𝑘𝑖)/2]2𝑖𝑖
𝑝ሺ𝑥ሻ ~ 𝑐𝑥−𝛼
– 𝛼+ 1
CCDF
Degree distribution
𝐹തሺ𝑥ሻ= 𝑃ሺ𝑋 > 𝑥ሻ
gSemSearch: Graph based Semantic Search
• Sémantické vyhľadávanie založené na grafoch• Vyhľadávanie vzťahov entít
– Fulltextové vyhľadávanie– Súvisace entity sú objavené
pomocou šírenia aktivácie a utriedené
– Obmedzenie výsledkov podľa typov(Faceted search)
– Navigácia• Vyhľadávanie, navigácia, interakcia
– Obmedzenie podľa typu– Zlučovanie entít– Vymazanie– Zmena typu
29.10.2013 FIIT STU, Bratislava 19
[LAC12]
Spracovanie rozsiahlych textových a grafových dát
Technológie• Sťahovanie dát
– Nutch + plugins
• Indexovanie a fultextové vyhľadávanie– lucene, Sorl
• Extrakcia informácií– Ontea, GATE
• Všetky vyššie uvedené na rozsiahlych dátach– Hadoop, S4
• Spracovanie a dopytovanie grafových dát– Simple Graph Database (SGDB)
– gSemSearch
– Neo4j
– Blueprints
Podčiarknuté sú technológie vyvíjané ÚISAV
29.10.2013 20FIIT STU, Bratislava
SGDB: Simple Graph Database
• Úložisko pre grafové štruktúry• Optimalizované na traverzovanie grafu• Pri traverzovaní rýchlejšie ako Neo4j• Podpora Blueprints API• https://simplegdb.svn.sourceforge.net/svnroot/simplegdb/Sgdb3
• Graph Database Benchmark– Benchmark pre operácie traverzovania v grafe– http://ups.savba.sk/~marek/gbench.html– Blueprints API – Možnosť testovať databázy ktoré podporujú toto API
29.10.2013 FIIT STU, Bratislava 21
Aplikácie
• Internetová reklama (Online Advertising)
– Kategorizácia dopytov– Expanzia kľúčových slov
• Podniková inteligencia (Business Intelligence)
– Enterprise Search– Manažment znalostí– Spracovanie textu (Text analytics)
• Ďalšie– Spracovanie webu– Analýza sociálnych médií (Twitter) – Viacjazyčné aplikácie
(DBpedia, Freebase)
29.10.2013 FIIT STU, Bratislava 22
Kategorizácia dopytov (Query Categorization - QC)
Query Categories
appleComputers \ HardwareLiving \ Food & Cooking
FIFA 2006Sports \ SoccerSports \ Schedules & TicketsEntertainment \ Games & Toys
cheesecake recipes
Living \ Food & CookingInformation \ Arts & Humanities
friendships poemInformation \ Arts & HumanitiesLiving \ Dating & Relationships
29.10.2013 FIIT STU, Bratislava 23
• Zvyčajný postupQC:• Vyhľadať dokumenty• Kategorizovať vrátené dokumenty
• Najlepšie algoritmy pracujú s celým webom (search API)
Enterprise Search
• Spracovanie firemných emailov– Commius projekt
• Enron korpus• Enterprise Search založený na
vyhľadávaní v emailoch– VENIS project
29.10.2013 FIIT STU, Bratislava 24
[LAC11]
[LAC12]
[LAC12B]
Enron
Webové dokumenty
• BBC news• LinkedIn job
offers• DSK
29.10.2013 FIIT STU, Bratislava 25
[DLUG12, LAC11C]
DSK
BBC
Vyhľadávanie, navigácia v rozsiahlych sieľach z rôznych zdrojov
• Motivácia
• Grafy a siete sú všadeprítomné : sociálne site, web, LinkedData, komunikácia (email, telefóny).
• Text tiež môže byť prevedený na graf.
• Prepojenie grafových dát a vyhľadávania relácií v nich je dôležite
• Prístup
• Tvorba sémantických stromov a grafov z textu, webu, komunikácie, databáz a LinkedData
• Užívateľská interakcia s týmito dátami aby sa dali lepšie integrovať zdroje a vyčistiť upraviť dáta, učenie
• Užívatelia to budú robiť ak to bude mať zmysel, teda okamžitý vplyv na lepšie výsledky vyhľadávania
29.10.2013 FIIT STU, Bratislava 26
Referencie
• [LAC09] LACLAVÍK, M. - ŠELENG, M. - CIGLAN, M. - HLUCHÝ, L. (2009). Ontea: Platform for pattern based automated semantic annotation. In Computing and informatics, 2009, vol. 28, no. 4, p. 555-579. (0.492 - IF2008). (2009 - Current Contents). ISSN 0232-0274.
• [LAC10] LACLAVÍK, M. - KVASSAY M. - DLUGOLINSKÝ, Š. - HLUCHÝ, L (2010): Use of Email Social Networks for Enterprise Benefit. In: IWCSN 2010, IEEE/WIC/ACM WI-IAT, 2010, pp 67-70, DOI 10.1109/WI-IAT.2010.126 (
• [LAC11] LACLAVÍK, M. - DLUGOLINSKÝ, Š. - ŠELENG, M. - KVASSAY M. – GATIAL, E. – BALOGH, Z. - HLUCHÝ, L (2011): Email Analysis and Information Extraction for Enterprise Benefit. In Computing and Informatics, 2011, vol. 30, no. 1, p. 57-87. ISSN 1335-9150, Special Issue on Business Collaboration Support for micro, small, and medium-sized Enterprises
• [LAC11B] LACLAVÍK, M. - DLUGOLINSKÝ, Š. - KVASSAY M. - HLUCHÝ, L (2011): Email Social Network Extraction and Search. In NextMail 2011 workshop, WI-IAT 2011, In The 2011 IEEE/WIC/ACM International Conference on Web Intelligence and Intelligent Agent Technology. IEEE Computer Society, 2011, p. 373-376. ISBN 978-0-7695-4513-4
• [LAC11C] LACLAVÍK, M. - ŠELENG, M. - CIGLAN, M. - DLUGOLINSKÝ, Š. - HLUCHÝ, L. (2011). gSemSearch: Objavovanie relácií v kolekciách textových a grafových dát. In 6th Workshop on Intelligent and Knowledge Oriented Technologies : WIKT 2011 proceedings. - Košice : Centre for Information Technologies, FEI TU Košice, 2011, p. 1-5. ISBN 978-80-89284-99-3.
• [LAC12] LACLAVÍK, M. - DLUGOLINSKÝ, Š. - ŠELENG, M. - CIGLAN, M. - HLUCHÝ, L. (2012). Emails as graph: relation discovery in email archive. In Proceedings of the 21st international conference companion on World Wide Web (WWW '12 Companion). ACM, New York, NY, USA, 841-846, http://www2012.wwwconference.org/proceedings/companion/p841, DOI=10.1145/2187980.2188210.
• [LAC12B] LACLAVÍK, M. - DLUGOLINSKÝ, Š. - ŠELENG, M. - CIGLAN, M. – TOMAŠEK, M. - KVASSAY, M. - HLUCHÝ, L. (2012). Lightweight semantic approach for enterprise search and interoperability. In CEUR Workshop Proceedings: InteropVlab.IT 2012. - CEUR, 2012, p. 35-42. ISSN 1613-0073.
• [LAC12C] LACLAVÍK, M. (2012): Improving entity and relation discovery by user interaction with semantic graphs. In 7th Workshop on Intelligent and Knowledge Oriented Technologies: P. 161-164. - Bratislava: Nakladateľstvo STU, 2012. ISBN 978-80-227-3812-5.
• [DLUG12] DLUGOLINSKÝ, Š. - ŠELENG, M. - LACLAVÍK, M. - HLUCHÝ, L. (2012): Distributed Web-scale Infrastructure for Crawling, Indexing and Search with Semantic Support. In Computer Science Journal, Vol 13 No.4, pages 5-19, 2012, http://dx.doi.org/10.7494/csci.2012.13.4.5
29.10.2013 FIIT STU, Bratislava 27
Referencie
• [TBL01] BERNERS-LEE, T. – HENDLER, J. – LASSILA, O. (2001): The Semantic Web, Scientific American, May 2001, p. 29-37.
• [SemR06] SHADBOLT, N. - HALL, W. - BERNERS-LEE, T (2006): The Semantic Web Revisited, IEEE Intelligent Systems Journal, May/June 2006, 96-101
• [URI94] BERNERS-LEE, T (1994): Universal Resource Identifiers used in the World Wide Web, RFC 1630, Internet Society
• [ExpS98] GIARRATANO, J. C. –RILEY, G. (1998). Expert Systems (3rd ed.). PWS Pub. Co., Boston, MA, USA.
• [Daven00] DAVENPORT, T. H. - PRUSAK, L. (2000): Working Knowledge, ISBN:1578513014, May, 2000
• [Cyc89] LENAT, D. B. - GUHA R. V. (1989). Building Large Knowledge-Based Systems; Representation and Inference in the Cyc Project (1st ed.). Addison-Wesley Longman Publishing Co., Inc., Boston, MA, USA.
• [DL03] BAADER, F. - MCGUINNESS, D. - NARDI, D. (2003): The Description Logic Handbook, ISBN:0521781760, January 9, 2003
29.10.2013 FIIT STU, Bratislava 28
Referencie
• [Ulanoff] Lance Ulanoff: Google Knowledge Graph Could Change Search Forever http://mashable.com/2012/02/13/google-knowledge-graph-change-search/, 2012
• [facebook13] Sean Gallagher, Knowing the score: How Facebook’s Graph Search knows what you want, http://arstechnica.com/information-technology/2013/03/knowing-the-score-how-facebooks-graph-search-knows-what-you-want/, 2013
• [Perrone11] Michael Perrone: What is Watson – An Overview, 2011, http://static.usenix.org/event/lisa11/tech/slides/perrone.pdf
• [WatsonJr] Tony Pearson: IBM Watson - How to build your own "Watson Jr." in your basement, 2012, https://www.ibm.com/developerworks/mydeveloperworks/blogs/InsideSystemStorage/entry/ibm_watson_how_to_build_your_own_watson_jr_in_your_basement7?lang=en
• [OpenNLP] OpenNLP: http://www.slideshare.net/gagan1667/opennlp-demo • [TamingText] Ingersoll, G., Morton, T., & Farris, L. (2012). Taming Text: How to find,
organize and manipulate it.• [Zaragoza] Hugo Zaragoza. Machine Learning and Information Retrieval,
ESSIR 2009 Lecture• [Nigam] Kamal Nigam: Generative Models for Text Classification
and Information Extraction, http://www.cs.cmu.edu/~knigam/15-505/ie-lecture.ppt 29.10.2013 FIIT STU, Bratislava 29
Referencie
• [SemSets] CIGLAN, Marek - NoRVaG, Kjetil - HLUCHÝ, Ladislav. The SenSets model for ad-hoc semantic list search. In WWW´12 Proceedings of the 21st International Conference on World Wide Web. - New York : ACM, 2012, p. 131-140. ISBN 978-1-4503-1229-5. SCOPUS, http://www2012.wwwconference.org/proceedings/proceedings/p131.pdf
• [gSemSearch] LACLAVÍK, Michal - DLUGOLINSKÝ, Štefan - ŠELENG, Martin - CIGLAN, Marek - HLUCHÝ, Ladislav. Emails as graph: relation discovery in email archive. In WWW´12 Companion Proceedings of the 21st International Conference companion on World Wide Web. - New York : ACM, 2012, 841-846. ISBN 978-1-4503-1230-1. http://www2012.wwwconference.org/proceedings/companion/p841.pdf . SCOPUS
• [gBench] CIGLAN, Marek - AVERBUCH, Alex - HLUCHÝ, Ladislav. Benchmarking traversal operations over graph databases. In 2012 IEEE 28th International Conference on Data Engineering Workshops : proceedings. - Los Alamitos : IEEE Computer Society, 2012, p. 186-189. ISBN 978-1-4673-1640-8. SCOPUS
• [ontea_email] LACLAVÍK, Michal - DLUGOLINSKÝ, Štefan - ŠELENG, Martin - KVASSAY, Marcel - GATIAL, Emil - BALOGH, Zoltán - HLUCHÝ, Ladislav. Email analysis and information extraction for enterprise benefit. In Computing and informatics, 2011, vol. 30, no. 1, p. 57-87. (0.356 - IF2010). ISSN 0232-0274.
• [uiWeb] Dlugolinský, Štefan - Šeleng, Martin - Laclavík, Michal - Hluchý, Ladislav. Distributed Web-scale Infrastructure for Crawling, Indexing and Search with Semantic Support. In Computer Science Journal, 13 (4)
• [msm13] Štefan Dlugolinský, Peter Krammer, Marek Ciglan, Michal Laclavík:MSM2013 IE Challenge: Annotowatch . In Proceedings of the Concept Extraction Challenge at the Workshop on Making Sense of Microposts co-located with the 22nd International World Wide Web Conference (WWW'13) Rio de Janeiro, Brazil, May 13, 2013, ISSN: 1613-0073, Vol-1019, pages 21-26, 2013, http://ceur-ws.org/Vol-1019/paper_21.pdf
29.10.2013 FIIT STU, Bratislava 30