Семантический Веб : текущее состояние исследований и...

Post on 02-Jan-2016

47 Views

Category:

Documents

1 Downloads

Preview:

Click to see full reader

DESCRIPTION

Семантический Веб : текущее состояние исследований и перспективные направления. Дмитрий Уланов (dulanov@gmail.com) 03.02.2006, ИСП РАН ( www.ispras.ru). План презентации. Технология Семантический Веб Текущие наработки и проекты Актуальные направления исследований. - PowerPoint PPT Presentation

TRANSCRIPT

Семантический Веб: текущее состояние исследований и перспективные направления

Дмитрий Уланов (dulanov@gmail.com)

03.02.2006, ИСП РАН (www.ispras.ru)

2

План презентации

Технология Семантический Веб Текущие наработки и проекты Актуальные направления исследований

3

Ограничения традиционного WWWHTML-страница описывает как представить

информацию визуально в Веб-браузере и трудно поддаётся смысловому анализу компьютерами. Для неё невозможно автоматизировать даже такие тривиальные задачи, как нахождение людей, проектов, программ в Интернете.

4

Семантический Веб

Технология Семантический Веб (Semantic Web) позволяет компьютеру интерпретировать информацию в Вебе наравне с людьми, для чего разработана графовая модель описания ресурсов RDF (Resource Description Framework), которая является спецификацией W3C.

С помощью RDF можно создавать любые утверждения о любых ресурсах.

5

Графовая модель RDF

Утверждения о ресурсах в модели RDF состоят из троек:

Ресурсы и свойства представляются в виде URI, а литералы в формате Unicode. URI позволяет уникальным образом идентифицировать ресурсы в Вебе, а Unicode решает проблему мультиязычности.

Ресурс [URI]

Ресурс [URI]

Свойство [URI]

Литерал [Unicode]

или

6

Модель RDF для данной презентации

ISPRAS:seminar#03022006

ISPRAS:ontology#Presentation

ISPRAS:ontology#type

Семантический Веб Дмитрий Уланов 03.02.2006

dc:title foaf:name dc:date

xmlns:dc="http://purl.org/dc/elements/1.1/"

xmlns:foaf="http://xmlns.com/foaf/0.1/"

7

RDF/XML для данной презентации<rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#” xmlns:foaf=“http://xmlns.com/foaf/0.1/” xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:ispras=“ISPRAS:ontology#”

<ispras:Presentation rdf:id=“ISPRAS:seminar#03022006”> <dc:title>Семантический Веб</dc:title> <foaf:name>Дмитрий Уланов</foaf:name> <dc:date>03.02.2006</dc:date> </ispras:Presentation></rdf:RDF>

8

N-Triples для данной презентации<ISPRAS:seminar#03022006> <ISPRAS:ontology#type>

<ISPRAS:ontology#Seminar>.

<ISPRAS:seminar#03022006> <http://purl.org/dc/elements/1.1/title> “Семантический Веб”.

<ISPRAS:seminar#03022006> <http://xmlns.com/foaf/0.1/creator> “Дмитрий Уланов”.

<ISPRAS:seminar#03022006> <http://purl.org/dc/elements/1.1/date> “03.02.2006”.

9

Использование словаря Dublin CoreВ вышеприведённых

утверждениях RDF в качестве свойств троек использовался словарь DC (Dublin Core):

dc:title – заголовок ресурса

dc:date – дата создания

dc:creator – автор ресурса

DC создан с помощью RDF схемы (RDF Schema).

xmlns:dc="http://purl.org/dc/elements/1.1/"

10

Пример утверждения на RDF схемеМодель RDF универсальна и не зависит от предметной области,

но с помощью RDF схемы можно создавать ресурсы предметной области и определять их свойства и иерархию. Например, можно написать утверждение:

ISPRAS:ontology#Lector

foaf:Person

rdfs:subClassOf

xmlns:rdfs="http://www.w3.org/2000/01/rdf-schema#"

xmlns:foaf="http://xmlns.com/foaf/0.1/"

11

RDF схема это не XML схемаRDF схема описана в утверждениях RDF.

В отличие от XML схемы определяет ресурсы (термины) предметной области, а не ограничивает структуру RDF.

За ресурсами RDF схемы в спецификации W3C закреплена семантика. Например, за ресурсом rdfs:subClassOf закреплена семантика наследования.

12

RDF схема описана с помощью RDF

13

Что такое семантика данных?Под семантикой данных будем понимать возможность

формального описания смысла передаваемых данных, делая их независимыми от приложений. Это особенно важно в Интернете, где данные и приложения должны быть независимыми.

Какие данные сегодня можно использовать в отрыве от создающих их приложений: данные из реляционных баз данных, XML-документы? Нет, потому что их семантика зашита в логике программы и/или неформально в спецификациях. Только данные снабжённые явной семантикой можно сделать действительно независимыми от приложений!

14

Зачем нужен RDF, чем плох XML?Вложенность тегов XML не несёт никакой семантики, только синтаксис. Возможные

формы представления утверждения “Сергей Кузнецов читает курс по базам данных” в формате XML:

<course name=“базы данных”><lecturer>Сергей Кузнецов</lecturer>

</course>

<lecturer name=“Сергей Кузнецов”><teaches>базы данных</teaches>

</lecturer>

<teachingOffering><lecturer>Сергей Кузнецов</lecturer><course>базы данных</course>

</teachingOffering>

Приложение, которое использует первый формат, не сможет понять два других формата и наоборот. Поэтому, XML хорош только как формат (синтаксис) для обмена данными, но не как модель описания семантики данных!

15

Где в RDF семантика?

На уровне модели RDF семантика появляется благодаря использованию онтологий OWL (Ontology Web Language), благодаря которым компьютер может понимать как известный ему ресурс или свойство связано с другим, неизвестным ему ресурсом или свойством соответственно и производить другие логические выводы над утверждениями RDF.

Онтологии основываются на математическом аппарате формальной логики (description logic, DL), малое подмножество которого охвачено RDF схемой. DL является вычислимым подмножеством логики первого порядка.

16

Пример использования семантикиКак проинтерпретирует следующие утверждения

приложение, которое понимает только ресурсы словаря foaf?

<ISPRAS:seminar#03022006> <ISPRAS:ontology#Lector> “Дмитрий Уланов”.

<ISPRAS:ontology#Lector> <rdfs:subClassOf> <foaf:Person>

Оно поймёт, что ISPRAS:ontology#Lector является foaf:Person и выведет новое утверждение:

<ISPRAS:seminar#03022006> <foaf:Person> “Дмитрий Уланов”

17

Словарь описания онтологий OWLСловаря RDF схемы не всегда достаточно для создания

предметных областей, OWL расширяет RDF схему возможностями DL, заимствованными из ранее разработанного языка по описанию онтологий DAML-OIL агентства DARPA.

foaf:PersonISPRAS:ontology#Person

ISPRAS:ontology#Lector ISPRAS:ontology#Student

owl:equivalentClass

rdfs:subClassOf rdfs:subClassOf

owl:disjointWith

xmlns:rdfs="http://www.w3.org/2000/01/rdf-schema#"

xmlns:foaf="http://xmlns.com/foaf/0.1/"

xmlns:owl="http://www.w3.org/2002/07/owl#"

18

Правила вывода новых фактов SWRLБлагодаря дополнению OWL языком RuleML

(подмножество Datalog) в виде словаря SWRL (A Semantic Web Rule Language) появилась возможность использовать дизъюнкты Хорна (Horn-like rules) для явного указания способа вывода новых фактов из утверждений RDF.

Пока словарь SWRL находится в стадии стандартизации.

19

Сериализация правила в RDF/XML<swrl:Imp rdf:ID="Def-hasUncle"> <swrl:body> <swrl:AtomList> <rdf:first> <swrl:IndividualPropertyAtom> <swrl:propertyPredicate rdf:resource="#hasParent"/> <swrl:argument1 rdf:resource="#x"/> <swrl:argument2 rdf:resource="#y"/> </swrl:IndividualPropertyAtom> </rdf:first> …

</swrl:AtomList> </swrl:head> </swrl:Imp>

parent(?x,?y) & brother(?y,?z) → uncle(?x,?z):

20

Семантические хранилища

Предполагается, что большие объёмы RDF данных будут храниться в семантических хранилищах и для доступа к ним использоваться язык запросов SPARQL, который находится в стадии стандартизации W3C – аналог SQL для RDBMS.

Пример запроса “вывести все названия презентаций, созданных Дмитрием Улановым” на SPARQL:

PREFIX dc: <http://purl.org/dc/elements/1.1/>PREFIX foaf: <http://xmlns.com/foaf/0.1/>SELECT ?titleWHERE { ?presentation foaf:name “Дмитрий Уланов”. ?presentation dc:title ?title}

21

Уровни Семантического Веба

22

Эволюционный подход

Семантический Веб это не замещение нынешнего WWW, а его эволюционное развитие. RDF/XML либо внедряется внутрь HTML или доступен по URL.

По этому принципу уже широко используются в WWW RDF-данные с использованием словарей RSS, FOAF (Friend Of A Friend), DOAP (Description Of A Project).

23

Словарь FOAF и портал LiveJournal

Код HTML

Данные RDF

24

Что в итоге мы получили?

Технология Семантический Веб успешно решает следующие задачи:

независимость данных от приложений; семантическая интеграция данных; создание основы для повсеместного

использования компьютерных агентов (сервисов).

25

План презентации

Технология Семантический Веб Текущие наработки и проекты Актуальные направления исследований

26

Основы Семантического ВебаСемантический Веб создан не на пустом месте. В

него заложены фундаментальные основы: графовая модель представления

полуструктурированных данных (OEM, Lore); формальная логика (логика первого порядка,

базы знаний, фреймы); архитектура WWW (URI, Unicode, XML, HTTP); криптография с открытым ключом.

27

Программная поддержка технологии библиотеки для интерпретации стека языков RDF для всех

популярных языков программирования (Jena, Redland, RDFLib);

редакторы онтологий (Protégé); системы рассуждений над онтологиями (Racer, KAON,

FACT); семантические хранилища (Sesame, Kowari, YARS); семантические браузеры (Simile, Piggy Bank, Gnowsis,

Haystack); поисковики семантических данных (Swoogle); конверторы из разных форматов представления данных в/из

RDF/XML (Aperture, RDFizers, D2R); прикладные программы (Bibster, FOAF Explorer).

28

Коммерческие продукты

Adobe's XMP – метоописания о файлах; Oracle's 10.2 Database – встроенная

поддержка модели RDF; Tucana's Knowledge Discovery Suite –

платформа для интеграции информации приложений (Enterprise Information Integration , EII)

29

План презентации

Технология Семантический Веб Текущие наработки и проекты Актуальные направления исследований

30

Направления исследований (1) 1. Foundations

1.0 Knowledge Engineering and Ontology Engineering

1.1 Knowledge Representation and Reasoning 1.2 Information Management 1.3 Basic Web Information technologies 1.4 Agents 1.5 Natural Language Processing

31

Направления исследований (2) 2 Semantic Web Core topics

2.0 Infrastructure 2.1 Resource Description Framework and

RDFSchema 2.2 Languages 2.3 Ontologies 2.4 Rules and Logic 2.5 Proof 2.6 Security and trust and privacy 2.7 Applications

32

Направления исследований (3) 3 Semantic Web Special Topics

3.1 Natural language processing and human language technologies

3.2 Social impact of the Semantic Web 3.3 Social networks and Semantic Web 3.4 Peer-to-peer and Semantic Web 3.5 Agents and Senatic Web 3.6 Semantic Grid 3.7 Outreach to industry 3.8 Benchmarking and scalability

33

Задача 1: использование OWL в MDAСоздание и использование онтологий популярно в

области баз знаний, но не в разработке ПО, где хорошо зарекомендовал себя UML.

В настоящее время OMG предпринимает ряд попыток по использованию онтологий в моделях MDA (ontology.omg.org).

Вариант решения: OWL → ODM (Ontology Definition Metamodel) → OUP (Ontology UML Profile)

34

Задача 2: семантическая интеграция данныхЗадача интеграции данных активно решается начиная с 80-х

годов прошлого столетия, причём на разных уровнях, от системного (различия в используемых форматах доступа к данным) и синтаксического (наименование и структура схемы данных) до семантического (различия в семантике хранимых данных). Но если проблемы системной и синтаксической интеграции решены, то семантическая интеграция остаётся актуальной проблемой.

Для решения задачи семантической неоднородности данных необходимо формальным образом выделить смысл интегрируемых данных, в чём хорошо зарекомендовали себя онтологии.

Важной проблемой является постановка задачи интеграции данных, но благодаря проекту THALIA она уже решена.

35

Тестовый набор THALIA

В рамках проекта THALIA (Test Harness for the Assessment of Legacy information Integration Approaches – тестовый набор для оценки существующих решений по интеграции информации) создан испытательный стенд, агрегирующий данные по обучающим курсам для 25 компьютерных факультетов со всего мира. Данные по курсам доступны в виде XML-файлов с XML-схемой.

Сформулированы 12 эталонных XQuery запросов для 12 основных проблем синтаксической и семантической неоднородности. Приведен алгоритм количественной оценки эффективности системы интеграции.

36

Задача 3: архитектура “Семантической Шины”

Семантическая Шина (Semantic Bus) – это архитектурное решение, предложенное Tim Berners-Lee и направленное на решение проблемы интеграции данных приложений (EII).

37

Схема “Семантической Шины”

38

Сравнение подходов EII

39

Реализация архитектуры

Для новых приложений “Семантическая Шина” представима в виде разделяемого информационного пространства. Такой подход был воплощён в проекте Linda для интеграции распределённых процессов.

Импорт данных из унаследованных систем осуществляется посредством использования RDF-адаптеров трёх типов (на основе запросов RDF, URIQA и индексации ресурсов), т.е. реализует архитектуру медиаторов (проекты SIMS, TSIMMIS, OBSERVER, COIN).

40

Вопросы?

Контактная информация: Дмитрий Уланов (dulanov@gmail.com), аспирант ИСП РАН (www.ispras.ru)

top related