Артём Семинихин "ibm watson: выявление скрытых...

17
IBM Watson: выявление скрытых взаимосвязей Артем Семенихин ([email protected] ) Научно-технический Центр IBM Для AINL 2014, Москва, Сколково

Upload: ainl-conferences

Post on 22-Jun-2015

349 views

Category:

Technology


7 download

DESCRIPTION

Поиск ответа на вопросы сформулированные на естественном языке часто требуют от когнитивных систем выявления скрытых семантических взаимосвязей между различными объектами. Доклад посвящен описанию метода распространения активации (spreading-activation) на базе трех источников для измерения семантической близости: N-граммы, база знаний PRISMATIC и ссылки Википедии. Данные подход был применен для повышения вероятности ответа на вопросы из категорий COMMON BONDS и MISSING LINK.

TRANSCRIPT

Page 1: Артём Семинихин "IBM Watson: выявление скрытых взаимосвязей"

IBM Watson: выявление скрытых взаимосвязей

Артем Семенихин ([email protected])

Научно-технический Центр IBM

Для AINL 2014, Москва, Сколково

Page 2: Артём Семинихин "IBM Watson: выявление скрытых взаимосвязей"

Архитектура IBM Watson: DeepQA

Декомпозиция вопроса

Оценка ответов

Models

Ответ со степенью

уверенности

Вопрос

Источники доказательств

Models

Models

Models

Models

ModelsПоиск

Генерация ответов-

кандидатов

Генерация гипотезы

Доказательство и оценкаОкончательная

оценка и ранжирование

Синтез

Источники ответов

Анализ вопроса и

темы

Получение доказательств

Оценка доказательств

Machine learning: изученные модели

для взвешенной оценки

доказательств

Генерация гипотезы

Доказательство и оценка

Page 3: Артём Семинихин "IBM Watson: выявление скрытых взаимосвязей"

Что такое «скрытые взаимосвязи»?

• Ассоциации и сущности явно не присутствующие в вопросе

• Типы рассматриваемых связей:

– COMMON BONDS– Пример: Feet, eyebrows and McDonald’s have arches in

common

– Missing Link questions– “The 1648 Peace of Westphalia ended a war that began on

May 23 of this year.”

Page 4: Артём Семинихин "IBM Watson: выявление скрытых взаимосвязей"

Идентификация Missed Links

• Вопрос явно на них ссылается

• Неявные

“The 1648 Peace of Westphalia ended a war that began on May 23 of this year.”

Peace of Westphalia

Ended the Thirty Years’ War

1618

On hearing of the discovery of George Mallory's body, he told reporters he still thinks he was first.

Mt Everest

He was first

EdmundHillary

Page 5: Артём Семинихин "IBM Watson: выявление скрытых взаимосвязей"

Spread-activation алгоритм

• Используется для оценки связанности сущностей на основе частоты их совместной встречаемости (со-occurrence)

• Активация на базе естественных источников текста:– Корпус n-грамм– База знаний PRISMATIC– Ссылки Wikipedia

• Параметры: fan size f, глубина d– f – число наиболее тесно связанных сущностей для

рассматриваемой в данный момент– d – глубина рекурсии активации

Page 6: Артём Семинихин "IBM Watson: выявление скрытых взаимосвязей"

Корпус n-грамм

• Последовательность из n слов/букв в порядке их появления в тексте

• Построен свой корпус 5-грамм на базе Wikipedia и Gigaword:– Стэмминг, stop-words– Удалены редкие вхождения

• Корпус n-грамм обеспечивает оценку лексической коллокации– Получение информации о часто соседствующих терминах– Пример: высокая частота коллокации между терминами “JFK”

и “airport”, “JFK” и “assassination”

Page 7: Артём Семинихин "IBM Watson: выявление скрытых взаимосвязей"

База знаний PRISMATIC

• Обеспечивает оценку синтаксической коллокации• Выделяет синтаксические пассажи из текста• Используемые фреймы:

– SVO (subject-verb-object)– SVPO (SVO+preposition), NPO (noun-preposition-object)

• Запросы в базу дают число вхождений (пассажей) одного или несколько терминов в конкретный тип фрейма– Пример: SVO(Ford, ?v, ?o) вернет число пассажей, где Ford

является подлежащим• Метрики по трем фреймам агрегируются в оценку связанности

терминов

Page 8: Артём Семинихин "IBM Watson: выявление скрытых взаимосвязей"

Ссылки Wikipedia

• Обеспечивает оценку семантической коллокации

• Наблюдение: кросс-ссылки Wikipedia часто указывают на сильно связанные концепции

• Общая идея: по входному термину t мы идентифицируем документ Wikipedia w0, чей заголовок наиболее соответствует t, затем возвращаем названия документов Wikipedia w1-wN, на которые есть кросс-ссылки в w0

Page 9: Артём Семинихин "IBM Watson: выявление скрытых взаимосвязей"

Применение к COMMON BONDS

• Типичные примеры вопросов

• Ответы на вопросы семантически связаны с перечисленными сущностями

• Spreading-activation используется для:– Идентификация сущностей, связанных с каждой из списка– Оценка каждой сущности на степень ее схожести с другими

Page 10: Артём Семинихин "IBM Watson: выявление скрытых взаимосвязей"

COMMON BONDS: генерация гипотез

• Запускаем spreading activation для каждой сущности вопроса

• Пример: Bobby, bowling, rolling (pins)– bobby: Robert, British police officer, pin– bowling: lane, strike, 300, pin– rolling: Rolling Stone, ramp, pin

• Обозначаем найденные сущности как ответы-кандидаты– strike, British police officer, Rolling Stone, pin, ramp

• Поиск по корпусу n-грамм (Lucene) наиболее часто соседствующих сущностей

Page 11: Артём Семинихин "IBM Watson: выявление скрытых взаимосвязей"

COMMON BONDS: оценка гипотез

• Оцениваем семантическую схожесть с помощью NGD (Normalized Google Distance) для следующих пар:– (сущность из вопроса, найденная сущность)

• Перемножаем 3 значения NGD, выбираем с наибольшим рейтингом:

– f(Bobby, pin) x f(bowling, pin) x f(rolling, pin) = pin’s score– f(Bobby, ramp) x f(bowling, ramp) x f(rolling, ramp) = ramp’s

score

• Ответ: ‘pin’

Page 12: Артём Семинихин "IBM Watson: выявление скрытых взаимосвязей"

Применение к Missed Links

• Вопросы, в которых на отсутствующую сущность ссылаются явно или неявно– “On hearing of the discovery of George Mallory’s body, this

explorer still thinks he was first.” (Ответ: “Edmund Hillary”)

• Трехшаговое решение:– Идентификация missed links– Генерация кандидатов-ответов– Оценка

George Mallory

Mount Everest

Edmund Hillary

Page 13: Артём Семинихин "IBM Watson: выявление скрытых взаимосвязей"

Идентификация missed links

• Два необходимых условия для missed link:– Должна быть сильно связана с сущностями в вопросе– Должна быть исключена из ответов-кандидатов

• Другие компоненты Watson дают некоторый набор кандидатов и сопровождающих их features

• Используется машинное обучение для предварительной выборки сущностей сильно ассоциированных с вопросом

• Часто сущности сильно ассоциированные с вопросом являются правильным ответом на вопрос

• Те что не являются правильным ответом – missed link!• Определение missed links по несоответствию с типом

ожидаемого ответа

Page 14: Артём Семинихин "IBM Watson: выявление скрытых взаимосвязей"

Генерация ответов-кандидатов с missed links

• Перезапускаем весь процесс генерации с включенными missed links в качестве ключевых слов поиска– Основная идея: возможно получить новые ответы-

кандидаты, ранее не обнаруженные

• Пример модификации запроса:– “The 1648 Peace of Westphalia ended a war that began on May

23 of this year.”– Peace of Westphalia, Thirty Years’ War, began, May 23

Page 15: Артём Семинихин "IBM Watson: выявление скрытых взаимосвязей"

Оценка кандидатов на основе missed links

• После предыдущего этапа мы сгенерировали новый набор кандидатов-ответов

• Идея: ранжировать кандидаты-ответы по семантической схожести с сущностями вопроса на основе missed links

• Для каждой пары (кандидат, missed-link) схожесть оценивается с помощью spreading-activation

• Пример: George Mallory сильно ассоциируется с “Mount Everest”, но они разного типа, поэтому скорее всего “Mount Everest” является missed link:– Вычисляем схожесть между кандидатами и missing link; (Mt.

Everest, Apa Sherpa), (Mt. Everest, Edmund Hillary), (Mt. Everest, Jordan Romero)

– Ответ: Edmund Hillary

Page 16: Артём Семинихин "IBM Watson: выявление скрытых взаимосвязей"

Результаты экспериментов

• Улучшения по COMMON BOND вопросам

• Улучшения по missed links вопросам и системы в целом

Page 17: Артём Семинихин "IBM Watson: выявление скрытых взаимосвязей"

• Доклад на YaC’2013:• https://tech.yandex.ru/events/yac/2013/talks/1137/

• IBM Research Journal “This is Watson”:• http://ieeexplore.ieee.org/xpl/tocresult.jsp?reload=true&isnumber=6177717

• Watson web-site• http://www.ibm.com/smarterplanet/us/en/ibmwatson/

• Watson Ecosystem• http://www.ibm.com/smarterplanet/us/en/ibmwatson/ecosystem.html

СПАСИБО! Дополнительные материалы