разработка методов извлечения информации из веб...
TRANSCRIPT
Разработка методов извлечения информации из веб-ресурсов SemanticWeb
для расширения числа переводов англо-русской версии WordNet
Сухоногов А.М.
ФГОУ ВПО ПГУПС[email protected]
Яблонский С.А.
ВШМ СПбГУ[email protected]
RDF/OWL компоненты проекта Linked Open Data (LOD)
DBPedia сегодня (версия 3.5.1)( http://wiki.dbpedia.org/Datasets)
• 367653 переводов на русский язык
The DBpedia knowledge base currently describes more than 3.4 million things, out of which 1.5 million are classified in a consistent Ontology, including 312,000 persons, 413,000 places (including 310,000 populated places), 94,000 music albums, 49,000 films, 15,000 video games, 140,000 organizations (including 31,000 companies and 31,000 educational institutions), 146,000 species and 4,600 diseases. The DBpediadata set features labels and abstracts for these 3.2 million things in up to 92 different languages; 841,000 links to images and 5,081,000 links to external web pages; 9,393,000 external links into other RDF datasets, 565,000 Wikipedia categories, and 75,000 YAGO categories. The DBpedia knowledge base altogether consists of over 1 billion pieces of information (RDF triples) out of which 257 million were extracted from the English edition of Wikipedia and 766 million were extracted from other language editions.
Организация WordNet
WordNet – лексико-семантическая база данных, включающая:
• основную лексику языка (существительные, глаголы, прилагательные и наречия - более 100 тыс. словарных статей), организованную в виде синсетов.
– Synset (синсет) – основная структура, представляющая словарную статью в WordNet. Синсет представляет множество лексем с одинаковым значением.
• таксономию отношений между синсетами (например, гипонимия, меронимия) и между лексемами (например, антонимия).
• определение семантических классов – TopOntology
Проекты по извлечению знаний из статей Wikipedia и WordNet
• DBpedia – база знаний, созданная открытым сообществом. В основном, содержит результаты извлечения структурированной информации из Wikipedia, представленные в виде онтологии в форматах Semantic Web (OWL, N3). В проекте DBPedia ведется работа по определению связей (owl:sameAs) с другими известными онтологиями – OpenCyc, Freebase, YAGO и др.;
• YAGO – база знаний, полученная при обработке Wikipedia и Princeton WordNet 3.0;
• WikiNet – проект построения многоязычной семантической сети на основе данных из разделов Wikipedia;
• BabelNet – проект построения многоязычной семантической сети на основе данных из разделов Wikipedia и системы машинного перевода.
Лексико-семантические онтологии WordNet
История создания многоязычных WordNet(показаны не все проекты)
Проект «Russian WordNet»Проект включает:•~45 тыс. существительных, образующих ~53 тыс. синсетов:•~29 тыс. глаголов, образующих ~29 тыс. синсетов;•~21 тыс. прилагательных, образующих ~25 тыс. синсетов;•~5 тыс. наречий, образующих ~5 тыс. синсетов;• парадигмы для всех лемм словника;• определение словообразовательных отношений;• выделенную из EuroWordNet Top Ontology, с возможностью расширения;• WordNet Domains с возможностью определения новых доменов;• визуальную среду - редактор Russian WordNet• Internet/Intranet реализацию –http://www.pgups.ru/WebWN/wordnet.uix• OWL/RDFS-описание WordNet и реализацию процедур экспорта/импорта в формат OWL, соответствующий рекомендациям консорциума W3C
Межъязыковой индекс ILI – Inter-lingual-index (EuroWordNet)
Редактор проекта Asian WordNetWNMS – WordNet Management System
Модель WNMS
Последовательность обработки ресурсов Semantic Web
Пример работы с переводом синсета
Визуализация WordNet в WNMS
Пример полученного соответствия между синсетом WordNet 3.0 “mammoth” и DBpedia
Ресурс DBPedia != Синсет WordNet
• Одному синсету WordNet может соответствовать несколько ресурсов DBPedia(http://dbpedia.org/resource/Leningrad, http://dbpedia.org/resource/Saint_Petersburg и др. по предикату “dbpprop:redirect” - синонимы)
• Статьи Wikipedia (основной источник для DBPedia) могут быть не завершены(“…Информация должна быть проверяема, иначе она может быть поставлена под сомнение и удалена. Вы можете отредактировать эту статью, добавив ссылки на авторитетные источники…”)
• Перевод ресурса DBPedia может и не являться переводом (= английскому варианту или аббревиатуре), например: http://dbpedia.org/resource/Global_Positioning_System – “GPS”@ru
Вариант 1соответствие устанавливается при наличии только одного
значения заглавного слова статьи DBPedia/Wikipedia в WordNet
Получено:- лемм из DBPedia: 25973- синсетов с переводами: 26262
Вариант 2соответствие устанавливается при наличии любого числа значений заглавного слова
(существительного) статьи DBPedia/Wikipedia в WordNet (выставляется значение «vote» в зависимости от числа значений в WordNet)
Получено:- лемм из DBPedia: 32387 - синсетов с переводами: 37406
Спасибо за внимание
Сухоногов Андрей Михайлович
Яблонский Сергей Александрович
Работа выполнена при финансовой поддержке РФФИ (грант РФФИ 10-07-90005)