Система « ontogrid » для построения онтологий

52
Система « Система « OntoGrid OntoGrid » » для построения для построения онтологий онтологий Онтология - формальное явное Онтология - формальное явное описание описание терминов терминов предметной предметной области области ( ( ПрО ПрО ) ) и и отношений отношений между ними ( между ними ( Gruber Gruber 1993) 1993) O=<T,R,D> O=<T,R,D>

Upload: casta

Post on 14-Jan-2016

58 views

Category:

Documents


1 download

DESCRIPTION

Система « OntoGrid » для построения онтологий. Онтология - формальное явное описание терминов предметной области ( ПрО ) и отношений между ними ( Gruber 1993) O=. Назначение онтологии. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Система « OntoGrid » для построения онтологий

Система «Система «OntoGridOntoGrid»» для построения для построения

онтологийонтологий

Онтология - формальное Онтология - формальное явное явное описаниеописание терминовтерминов

предметной областипредметной области ( (ПрОПрО)) ии отношенийотношений между ними между ними

((GruberGruber 1993) 1993)

O=<T,R,D>O=<T,R,D>

Page 2: Система « OntoGrid » для построения онтологий

Назначение онтологииНазначение онтологии

1.1. Системы обучения:Системы обучения: полезно иметь в качестве полезно иметь в качестве «опорного сигнала» легко воспринимаемую «опорного сигнала» легко воспринимаемую структуру этой области, быстро находить ссылки на структуру этой области, быстро находить ссылки на источники. источники.

2.2. Поисковые системы:Поисковые системы: поиск по семантически поиск по семантически значимым фрагментам текстов с опорой на значимым фрагментам текстов с опорой на онтологию ПрО. онтологию ПрО.

3.3. Научные исследования:Научные исследования: унификация унификация терминологии ПрО, автоматическое отслеживание терминологии ПрО, автоматическое отслеживание данных и знаний в потоке информации.данных и знаний в потоке информации.

4. 4. Интегрирование баз данных и знаний:Интегрирование баз данных и знаний: установление семантической эквивалентности установление семантической эквивалентности фактов и понятий, сформулированных в разных фактов и понятий, сформулированных в разных терминах.терминах.

Page 3: Система « OntoGrid » для построения онтологий

Автоматизация разработки и Автоматизация разработки и сопровождения онтологиисопровождения онтологии

(проект (проект OntoGRID)OntoGRID)

1.1. Инструмент для эксперта Инструмент для эксперта ПрО, строящего ПрО, строящего онтологию. Средства онтологию. Средства распределенной распределенной разработкиразработки

2. Лингвистический 2. Лингвистический процессорпроцессор

Лингвистическая базаЛингвистическая база Интерфейс «семантика – Интерфейс «семантика –

онтология» онтология»

3. Методика использования 3. Методика использования онтологийонтологий

Page 4: Система « OntoGrid » для построения онтологий

11 Инструмент для эксперта Инструмент для эксперта ПрО, строящего онтологиюПрО, строящего онтологию

ProtegeProtege ((httphttp://://protegeprotege..stanfordstanford..eduedu//))Mark MusenMark Musen, , Stanford Medical InformaticsStanford Medical Informatics 19921992

Разработка онтологий 101: руководство поРазработка онтологий 101: руководство посозданию Вашей первой онтологиисозданию Вашей первой онтологии

Natalya FNatalya F. . NoyNoy Deborah LDeborah L. . McGuinnessMcGuinness

Ontolingua Ontolingua

Chimaera Chimaera

Page 5: Система « OntoGrid » для построения онтологий

ФасетX1=0-1

X5=Да,НетxN-источн.

СлотX1…xN

Класс А

КлассК

Класс a1

Класс a2

Класс ki

ОбъектOi

Отношение

Структура онтологии

Page 6: Система « OntoGrid » для построения онтологий

Средства распределенной Средства распределенной разработкиразработки

Integrated Development Enviroment (IDE)Integrated Development Enviroment (IDE)

ASCONTASCONT

O1 O2

Onto-DM

Protégé (OWL)Protégé (OWL)

Двуязычный форум ОНТОЛОГИЯДвуязычный форум ОНТОЛОГИЯ

Иван

Djohn

Лаб№13

Automated System for Construction ofOntologies

Admin

Page 7: Система « OntoGrid » для построения онтологий

Лингвистический процессорЛингвистический процессор

1.Блок морфологического анализа. 1.Блок морфологического анализа. Блок статистического анализа текстовБлок статистического анализа текстов

Гусев В.Д., Саломатина Н.В.Гусев В.Д., Саломатина Н.В.

2. Система семантического анализа текста.2. Система семантического анализа текста. «Визуализатор отношений» (ВизОт) «Визуализатор отношений» (ВизОт) Налетов А.М., Чурикова В.А., Соколова А.Н.Налетов А.М., Чурикова В.А., Соколова А.Н.

Page 8: Система « OntoGrid » для построения онтологий

БлокБлок статистического анализастатистического анализа• Назначение: выявление общенаучной, предметно-ориентированной

и узкоспецифичной лексики; формирование индикаторных словарей, отражающих

аспекты документа (целевая установка, метод решения, полученный результат и т.п.);

формирование системы признаков для тематической классификации документов.

• Процедуры: вычисления L-граммных спектров; выделения устойчивых словосочетаний с учетом

морфологической и комбинаторной изменчивости; выявления аномалий в позиционном распределении

лексических единиц в тексте.

Page 9: Система « OntoGrid » для построения онтологий

LL--граммное представление текстовграммное представление текстов ― анализируемая группа текстов;

L-грамма ― цепочка из L подряд следующих

нормализованных слов.

Частотная характеристика L-го порядка группы текстов Т

есть совокупность представленных в Т L-грамм с указанием

частот встречаемости и распределения по отдельным текстам:

, где ― пара:

<i-я L-грамма ; вектор вхождений L-граммы в каждый

из текстов подборки Т : >;

― размер словаря L-грамм;

Совместный частотный спектр группы текстов Т есть совокупность частотных характеристик:

, где ― длина максимальной

цепочки слов, общей хотя бы для пары текстов.

mTTTT ,...,, 21

)}(),...,(),({)( 21 TTTTLLMLLL )1)(( LLi MiT

ix

)}(),...,(),({)(max21 TTTT L )(max TL

))()...()(()( 21 imiii xfxfxfxf LM

Page 10: Система « OntoGrid » для построения онтологий

Фрагмент словаря аспектной лексикиФрагмент словаря аспектной лексики(по материалам конференции «Диалог(по материалам конференции «Диалог’’2002»; 146 докладов)2002»; 146 докладов)

• Аспект: целевая установка; L = 2, 3

• Биграммы: (Fтекст.,Fабс.) в/работа (60,110); в/статья (31,45); в/доклад (31,39);

постановка/задача (14,16); наш/исследование (10,15);

• Триграммы: (Fтекст.,Fабс.) в/данный/работа(16,19); в/статья/рассматриваться(10,11);

в/настоящий/работа (10,10); в/рамка/проект (8,12); в/работа/рассматриваться (7,7); в/данный/доклад (5,6); настоящий/работа/посвящать (5,6);

данный/работа/посвящать (5,5); в/доклад/рассматриваться (5,5);

Page 11: Система « OntoGrid » для построения онтологий

Выделение«устойчивых»цепочек словВыделение«устойчивых»цепочек слов

«Устойчивая цепочка» ― L-грамма (L ≥ 2),

встречающаяся в большом числе разнообразных контекстов. Неустойчивой считается цепочка, которая может быть продол-жена как вправо, так и влево ограниченным числом способов.

Примеры устойчивых цепочек: порядок слов; русский язык; как уже отмечалось, таким образом; в настоящее время; один и тот же;нетрудно видеть, что; предложение со скремблингом;

неустойчивых цепочек: в русском; предложение со; посторонним вход; быть или не…

Page 12: Система « OntoGrid » для построения онтологий

Выявление позиционных аномалийВыявление позиционных аномалий

• Гипотеза: лексические единицы, демонстрирующие неравномерное распределение в тексте, обычно

более значимы, чем распределенные равномерно.

• Сканирующие статистики ― эффективный аппарат для выявления позиционных аномалий:

d(n) ― длина минимального интервала,

содержащего ровно n вхождений лексической единицы λ (2 ≤ λ ≤F(λ), где F(λ) ― частота встречаемости λ в тексте).

Распределение d(n) при гипотезе H0 (равномерность) известно.

• Применение: • оценка информативности лексических единиц; • построение квазирефератов текста.

Page 13: Система « OntoGrid » для построения онтологий

Анализ текста в системе Анализ текста в системе OntoGridOntoGrid

• Формализм для представления смысла текста + алгоритмы анализа

• База лингвистических знаний предметной области

• Алгоритм построения семантического представления текста

• Интерфейс эксперта

Page 14: Система « OntoGrid » для построения онтологий

Задачи анализа текстаЗадачи анализа текста

• Классификация текстов• Реферирование• Поиск по заданным концептам

……….• Определение реализаций элементов

онтологии в текстах• Наполнение элементов онтологии

ссылками на тексты• Выявление «недогруженных» и

«перегруженных элементов онтологии»……….

Page 15: Система « OntoGrid » для построения онтологий

ОНТОЛОГИЯ

Проекция онтологии на ЕЯ тексты

Система анализа текста (САТ)

Анализ текста с опорой на онтологию ПрО

Page 16: Система « OntoGrid » для построения онтологий

САТ

Анализ текста в системе OntoGrid

Текст ЕЯ

ЭКСПЕРТ

ВизОт

ОНТОЛОГИЯ БЛЗ ПрО

Page 17: Система « OntoGrid » для построения онтологий

Слова, термины

Элементарные словосочетания – реализации смысловых отношений:агент, объект, признак, значение,

локализация, ….

Иерархия реализаций смыслов в тексте

Неэлементарные словосочетания – комбинации элементарных словосочетаний

Наборы неэлементарных (в общем случае) словосочетаний:понятия, отношения между понятиями

Page 18: Система « OntoGrid » для построения онтологий

Лингвистическая база знаний Лингвистическая база знаний предметной областипредметной области

• База реализаций отношений (БРО)-термины-реализации смысловых отношений

• Набор критичных фрагментов (НКФ)наборы неэлементарных словосочетаний, соответствующих существенным элементам ПрО

Page 19: Система « OntoGrid » для построения онтологий

Представление реализаций Представление реализаций смысловых отношений в БРОсмысловых отношений в БРО

Page 20: Система « OntoGrid » для построения онтологий

Формирование БРОФормирование БРО

• В ходе интерактивного анализа текста

• На основе предварительной статистической обработки текстов ПрО

• Использование обобщенных определений отношений (правил выделения в тексте)

Page 21: Система « OntoGrid » для построения онтологий

Интерактивный анализ текста

Page 22: Система « OntoGrid » для построения онтологий

Редактирование БРО с помощью Редактирование БРО с помощью интерфейса ВизОтинтерфейса ВизОт

Page 23: Система « OntoGrid » для построения онтологий

Пирамидальные сети Пирамидальные сети Гладун В.П.Гладун В.П.

Пирамидальная сеть ― ациклический ориентированный граф, в котором нет вершин с одной заходящей дугой.

Рецепторы ― соответствуют символам входного алфавита (объекты, признаки, слова, …).

Концепторы ― остальные вершины; соответствуют отдельнымобъектам или общим частям нескольких объектов.

*

Page 24: Система « OntoGrid » для построения онтологий

QQ-сети-сети

Текст рассматривается как иерархическая структура фрагментов, каждый из которых представляет некоторую семантическую цельность

• Однородность• Иерархичность• Функциональность

Page 25: Система « OntoGrid » для построения онтологий

«анализ данных»а=анализ, b=данные

r=процесс-объект

«интеллектуальный (анализ данных)»А=анализ данных, b=интеллектуальный

r=процесс-свойствоs=интеллектуальный анализ

a b

sA B

r

a r bA B

«((процесс таксономии) начинается) с (нормировки признаков)»А=(процесс таксономии) начинается, B=нормировка признаков а=начинается, b=нормировка, s=начинается с нормировки

(r,a,b)

(s,A,b)

(s,A,B)

hjhjhjhj

jhjhjhjjjhjj

jhjhjjh

Page 26: Система « OntoGrid » для построения онтологий

*

Построение семантического Построение семантического представления (СемП) текстапредставления (СемП) текста

1 2 3 4 5 6 7 8 9

•Выделение в предложении связных цепочек зависимостей (реализаций отношений) из БРО

42

6

3

1

5

8

9

•Взвешивание реализаций смыслового отношения функцией f ( s , r), где s – значимость реализации, r – расстояние между его аргументамив предложении•Построение для каждой цепочки зависимостей связывающей сетимаксимального веса

*

Page 27: Система « OntoGrid » для построения онтологий

3

1

5 6

2 4

8 9

A

B

C

•Выбираем Выбираем реализацииреализацииотношений весаотношений весабольшего чем большего чем g_1g_1..Строим по ним Строим по ним непересекающиесянепересекающиесяфрагменты первогофрагменты первоготипа, начиная с типа, начиная с самых «тяжелых»самых «тяжелых»

1

6 5

2 4

A

3

D

B8 9

C

•Расширяем построенныеРасширяем построенныефрагменты, используяфрагменты, используяоставшиеся реализации оставшиеся реализации веса большего чем веса большего чем g_g_2.2.

*

Page 28: Система « OntoGrid » для построения онтологий

6 5

B

2 4

A

3

D E

8 9

C

1

•Объединяем фрагменты, используя реализацииОбъединяем фрагменты, используя реализации отношений веса не меньшего чем отношений веса не меньшего чем gamma_3gamma_3

*

Page 29: Система « OntoGrid » для построения онтологий

Пример работы компоненты анализа текста

Page 30: Система « OntoGrid » для построения онтологий

Формирование понятийФормирование понятий

Объемы понятий ПрО

Фрагменты{F}

Тексты{T}

Понятия{P}

t_1

t_2

t_3

t_4

.....

p_1

p_2

p_3

p_4

.....

{f_1,...,f_n}

{g_1,...,g_m}

{r_1,...,r_k}

{q_1,...q_s}

.....

{P(t_1)}

Понятие — фрагмент знаний, представляющий собой обобщенную модель класса элементов мира, в котором оперирует система, достаточную для выполнения на ее основе операций распознавания и генерации моделей конкретных элементов мира.

Page 31: Система « OntoGrid » для построения онтологий

Доля Доля jj-го-го фрагмента в фрагмента в ii-м понятии-м понятии

f_j

p_iПонятия

Тексты

Фрагменты

Число текстов, затрагивающих i-е понятие, СемП которых содержит j-й фрагмент

Общее число текстов, затрагивающих i-е понятие

a_ij =

*

Page 32: Система « OntoGrid » для построения онтологий

Шум Шум jj-го-го фрагмента для фрагмента для ii-го понятия-го понятия

f_j

p_iПонятия

Тексты

Фрагменты

Число текстов, не затрагивающих i-е понятие, СемП которых содержит j-й фрагмент

Общее число текстов, содержащих j-й фрагментb_ij =

*

Page 33: Система « OntoGrid » для построения онтологий

f

t

Понятия

Тексты

Фрагментыr

Объединяющие признаки

Среди всех фрагментов текста t, для каждого понятия p_i из {P_t}, находим критичный фрагмент r c максимальным значением a_ir при b_ir < b.

p_i

g

*

Page 34: Система « OntoGrid » для построения онтологий

f

t

Понятия

Тексты

Фрагментыr

Разделяющие признаки

Пусть в тексте t затрагивается понятие p_j и не затрагивается понятие p_i. Пусть существует фрагмент f текста t, являющийся критичнымфрагментом понятия p_i такой что в тексте t нет критичным фрагмента r понятия p_j, включающегов себя фрагмент f.

Тогда выберем такой фрагмент r с максимальным значением b_ir и a_jr > a.

p_j p_i

*

Page 35: Система « OntoGrid » для построения онтологий

Редактор

ASCONTИнструментальная система

для коллективной разработки онтологии

Page 36: Система « OntoGrid » для построения онтологий

Представление онтологии

+ Соответствие современным стандартам

+ Наличие аппарата формального вывода

+ Открытость

+ Графическое редактирование

+ Эффективность машинной обработки

OWL (Ontology Web Language)

*

Page 37: Система « OntoGrid » для построения онтологий

Технологические требования

+ Совместимость с концепцией e-Science

+ Масштабность

+ Распределённость

+ Динамичность

+ Неоднородность

GRID

*

Page 38: Система « OntoGrid » для построения онтологий

Центральный репозиторийАрхив Пользователи

Архитектура

<OWL><OWL>

Page 39: Система « OntoGrid » для построения онтологий

ОнтологияЭксперт

Эксперт

Редактор

Разработка Онтологии

Page 40: Система « OntoGrid » для построения онтологий

A

Онтология

B

Онтология

C

Онтология

РепозиторийЭксперт

Эксперт Эксперт

Разработка Онтологий*

Page 41: Система « OntoGrid » для построения онтологий

Окно диалога с системойОкно диалога с системой

Page 42: Система « OntoGrid » для построения онтологий

Зародыш онтологии Зародыш онтологии DMDM

Page 43: Система « OntoGrid » для построения онтологий

Онтология Онтология предметной областипредметной области

Data MiningData Mining

(Onto-DM)(Onto-DM)

Page 44: Система « OntoGrid » для построения онтологий

Какую область будет охватывать онтология Onto-DM?

Для чего мы будем использовать онтологию Onto-DM?

На какие вопросы должна давать ответы онтология Onto-DM?

Кто будет разрабатывать, использовать и поддерживать онтологию Onto-DM?

Page 45: Система « OntoGrid » для построения онтологий

“класс”Данные

“класс”Задача

“класс”Приме

р

“класс”Метод

(Онтология(Онтология Onto-DM) Onto-DM)

ограничения использование реализация

Page 46: Система « OntoGrid » для построения онтологий

“класс”

Данные

“класс”

ТаблицаОСВ

“класс”

МатрицаООВ

“объект”

Строка

“объект”

Столбец

“объект”

Серия

“объект”

Подтаблица

?

Page 47: Система « OntoGrid » для построения онтологий

“свойство”

Размер-ность

“класс”

Данные

“свойство”

ТипШкалы

“свойство”

Пробел

“свойство”

Достовер-ность

“значение”

1-M, 1-N, 1-T

“значение”

A,R,I,O,N,C

“значение”

Да, Нет

“значение”

0-1

Slot

Facet

Page 48: Система « OntoGrid » для построения онтологий

“класс”

Задача

“класс”

ТаксономияS

“класс”

ВыборПризнаковX

“класс”

РаспознаваниеD

“класс”

ПробелZ

“класс”

ПрогнозP

“Понятие”

КомбиТип

*

Page 49: Система « OntoGrid » для построения онтологий

“класс” Метод

“объект”

FORELKRAB

NatClassK-means

“объект”

SPAAdDelNTPPLRP

“объект”

SDF LDRTDF

k-NNRCruSt

FBLokator

“объект”

ZETWANGA

“объект”

LGAP ZET

WANGA

“объект”

SX SD DXDSX

Стрелки указывают на отношение:Метод Х применяется для решения задачи Y

S X D Z P …

Полигоны

*

Page 50: Система « OntoGrid » для построения онтологий

Стрелки указывают на отношение:Стрелки указывают на отношение:

Случай Случай Z Z является примеромявляется примером решения задачи решения задачи Y Y методом методом XX..

“класс”

Пример

“объект”

ГеологияЭкономи

ка

“объект”

Генетикамедицина

“объект”

РечьИзображ

енияЭкология

“объект”

ГеологияГенетика

“объект”

ФинансыЭкономи

ка

“объект”

ЦифрыГенетика

S X D Z P …

Демоверсии программ

*

Page 51: Система « OntoGrid » для построения онтологий

Data MiningData Mining – – область деятельности, связанной с обнаружением область деятельности, связанной с обнаружением причинно-следственных зависимостей (закономерностей, знаний ) причинно-следственных зависимостей (закономерностей, знаний )

в массивах экспериментальных или статистических данных.в массивах экспериментальных или статистических данных. Синонимы:Синонимы: Интеллектуальный анализ данных, Подъем данных,…Интеллектуальный анализ данных, Подъем данных,…Данные Данные – – множество отдельных фактов, значений признаков, …множество отдельных фактов, значений признаков, … Синонимы:Синонимы: протокол наблюдений, протокол наблюдений, data, data tabledata, data tableЗнание Знание – – утверждение об общих свойствах множества фактов, утверждение об общих свойствах множества фактов, о зависимости между значениями признаков.о зависимости между значениями признаков. Синонимы:Синонимы: закономерность, зависимость,закономерность, зависимость, regularity regularity, …, …Объект Объект – – выделенный элемент изучаемого миравыделенный элемент изучаемого мира Синонимы:Синонимы: реализация, вектор, точка, реализация, вектор, точка, entityentity, …, …СвойствоСвойство – – характеристика объектахарактеристика объекта Синонимы:Синонимы: признак, атрибут, параметр, признак, атрибут, параметр, featurefeature, …, …

…………..

Определения терминов и отношений

Page 52: Система « OntoGrid » для построения онтологий

СПАСИБО ЗА СПАСИБО ЗА ВНИМАНИЕВНИМАНИЕ