Артём Семинихин "ibm watson: выявление скрытых...
DESCRIPTION
Поиск ответа на вопросы сформулированные на естественном языке часто требуют от когнитивных систем выявления скрытых семантических взаимосвязей между различными объектами. Доклад посвящен описанию метода распространения активации (spreading-activation) на базе трех источников для измерения семантической близости: N-граммы, база знаний PRISMATIC и ссылки Википедии. Данные подход был применен для повышения вероятности ответа на вопросы из категорий COMMON BONDS и MISSING LINK.TRANSCRIPT
IBM Watson: выявление скрытых взаимосвязей
Артем Семенихин ([email protected])
Научно-технический Центр IBM
Для AINL 2014, Москва, Сколково
Архитектура IBM Watson: DeepQA
Декомпозиция вопроса
Оценка ответов
Models
Ответ со степенью
уверенности
Вопрос
Источники доказательств
Models
Models
Models
Models
ModelsПоиск
Генерация ответов-
кандидатов
Генерация гипотезы
Доказательство и оценкаОкончательная
оценка и ранжирование
Синтез
Источники ответов
Анализ вопроса и
темы
Получение доказательств
Оценка доказательств
Machine learning: изученные модели
для взвешенной оценки
доказательств
Генерация гипотезы
Доказательство и оценка
Что такое «скрытые взаимосвязи»?
• Ассоциации и сущности явно не присутствующие в вопросе
• Типы рассматриваемых связей:
– COMMON BONDS– Пример: Feet, eyebrows and McDonald’s have arches in
common
– Missing Link questions– “The 1648 Peace of Westphalia ended a war that began on
May 23 of this year.”
Идентификация Missed Links
• Вопрос явно на них ссылается
• Неявные
“The 1648 Peace of Westphalia ended a war that began on May 23 of this year.”
Peace of Westphalia
Ended the Thirty Years’ War
1618
On hearing of the discovery of George Mallory's body, he told reporters he still thinks he was first.
Mt Everest
He was first
EdmundHillary
Spread-activation алгоритм
• Используется для оценки связанности сущностей на основе частоты их совместной встречаемости (со-occurrence)
• Активация на базе естественных источников текста:– Корпус n-грамм– База знаний PRISMATIC– Ссылки Wikipedia
• Параметры: fan size f, глубина d– f – число наиболее тесно связанных сущностей для
рассматриваемой в данный момент– d – глубина рекурсии активации
Корпус n-грамм
• Последовательность из n слов/букв в порядке их появления в тексте
• Построен свой корпус 5-грамм на базе Wikipedia и Gigaword:– Стэмминг, stop-words– Удалены редкие вхождения
• Корпус n-грамм обеспечивает оценку лексической коллокации– Получение информации о часто соседствующих терминах– Пример: высокая частота коллокации между терминами “JFK”
и “airport”, “JFK” и “assassination”
База знаний PRISMATIC
• Обеспечивает оценку синтаксической коллокации• Выделяет синтаксические пассажи из текста• Используемые фреймы:
– SVO (subject-verb-object)– SVPO (SVO+preposition), NPO (noun-preposition-object)
• Запросы в базу дают число вхождений (пассажей) одного или несколько терминов в конкретный тип фрейма– Пример: SVO(Ford, ?v, ?o) вернет число пассажей, где Ford
является подлежащим• Метрики по трем фреймам агрегируются в оценку связанности
терминов
Ссылки Wikipedia
• Обеспечивает оценку семантической коллокации
• Наблюдение: кросс-ссылки Wikipedia часто указывают на сильно связанные концепции
• Общая идея: по входному термину t мы идентифицируем документ Wikipedia w0, чей заголовок наиболее соответствует t, затем возвращаем названия документов Wikipedia w1-wN, на которые есть кросс-ссылки в w0
Применение к COMMON BONDS
• Типичные примеры вопросов
• Ответы на вопросы семантически связаны с перечисленными сущностями
• Spreading-activation используется для:– Идентификация сущностей, связанных с каждой из списка– Оценка каждой сущности на степень ее схожести с другими
COMMON BONDS: генерация гипотез
• Запускаем spreading activation для каждой сущности вопроса
• Пример: Bobby, bowling, rolling (pins)– bobby: Robert, British police officer, pin– bowling: lane, strike, 300, pin– rolling: Rolling Stone, ramp, pin
• Обозначаем найденные сущности как ответы-кандидаты– strike, British police officer, Rolling Stone, pin, ramp
• Поиск по корпусу n-грамм (Lucene) наиболее часто соседствующих сущностей
COMMON BONDS: оценка гипотез
• Оцениваем семантическую схожесть с помощью NGD (Normalized Google Distance) для следующих пар:– (сущность из вопроса, найденная сущность)
• Перемножаем 3 значения NGD, выбираем с наибольшим рейтингом:
– f(Bobby, pin) x f(bowling, pin) x f(rolling, pin) = pin’s score– f(Bobby, ramp) x f(bowling, ramp) x f(rolling, ramp) = ramp’s
score
• Ответ: ‘pin’
Применение к Missed Links
• Вопросы, в которых на отсутствующую сущность ссылаются явно или неявно– “On hearing of the discovery of George Mallory’s body, this
explorer still thinks he was first.” (Ответ: “Edmund Hillary”)
• Трехшаговое решение:– Идентификация missed links– Генерация кандидатов-ответов– Оценка
George Mallory
Mount Everest
Edmund Hillary
Идентификация missed links
• Два необходимых условия для missed link:– Должна быть сильно связана с сущностями в вопросе– Должна быть исключена из ответов-кандидатов
• Другие компоненты Watson дают некоторый набор кандидатов и сопровождающих их features
• Используется машинное обучение для предварительной выборки сущностей сильно ассоциированных с вопросом
• Часто сущности сильно ассоциированные с вопросом являются правильным ответом на вопрос
• Те что не являются правильным ответом – missed link!• Определение missed links по несоответствию с типом
ожидаемого ответа
Генерация ответов-кандидатов с missed links
• Перезапускаем весь процесс генерации с включенными missed links в качестве ключевых слов поиска– Основная идея: возможно получить новые ответы-
кандидаты, ранее не обнаруженные
• Пример модификации запроса:– “The 1648 Peace of Westphalia ended a war that began on May
23 of this year.”– Peace of Westphalia, Thirty Years’ War, began, May 23
Оценка кандидатов на основе missed links
• После предыдущего этапа мы сгенерировали новый набор кандидатов-ответов
• Идея: ранжировать кандидаты-ответы по семантической схожести с сущностями вопроса на основе missed links
• Для каждой пары (кандидат, missed-link) схожесть оценивается с помощью spreading-activation
• Пример: George Mallory сильно ассоциируется с “Mount Everest”, но они разного типа, поэтому скорее всего “Mount Everest” является missed link:– Вычисляем схожесть между кандидатами и missing link; (Mt.
Everest, Apa Sherpa), (Mt. Everest, Edmund Hillary), (Mt. Everest, Jordan Romero)
– Ответ: Edmund Hillary
Результаты экспериментов
• Улучшения по COMMON BOND вопросам
• Улучшения по missed links вопросам и системы в целом
• Доклад на YaC’2013:• https://tech.yandex.ru/events/yac/2013/talks/1137/
• IBM Research Journal “This is Watson”:• http://ieeexplore.ieee.org/xpl/tocresult.jsp?reload=true&isnumber=6177717
• Watson web-site• http://www.ibm.com/smarterplanet/us/en/ibmwatson/
• Watson Ecosystem• http://www.ibm.com/smarterplanet/us/en/ibmwatson/ecosystem.html
СПАСИБО! Дополнительные материалы