nlp seminar.kolomiyets.dec.2013
TRANSCRIPT
Временное измерение в приложениях автоматической обработки текстаобработки текста
Oleksandr Kolomiyets
Department of Computer ScienceKatholieke Universiteit Leuven
Temporal Information Processing
• Temporal – time (время)– Merriam Webster:
• “relating to time as opposed to eternity” (временное vs. постоянное)• “relating to the sequence of time or to a particular time” (хронологическое)
• Information – meaningful data (данные со смыслом)• Processing – process, procedure (обработка)• Processing – process, procedure (обработка)
• Temporal Information Processing of Text = Обработка естественного языка с фокусом на извлечение временных данных со смыслом
Temporal Information
• Events (события) как непрерывная функция
E (events)E2
E4
E5
E8
E10
E12
t (time)
E1 E3
E6
E7
E8
E9E11 E13
t6 < t8
Temporal Information
• Discrete events (дискретные события)
E (events)E1
E2 E3
E6
t (time)
E4
E5
t-2 t+2t-1 t+1
Примеры временной информации и ее визуализация
• Представление временной информации– Хронологии (timelines)
Carte chronologique (1753): Jacques Barbeu-Dubourg (1709 – 1779)(1709 – 1779)
Примеры временной информации и ее визуализация
• Представление временной информации– Хронологии (timelines)
The Chart of Biography (1765): Joseph Priestley (1733 – 1804)
The New Chart of Biography (1769): Joseph Priestley
Примеры временной информации и ее визуализация
• Представление временной информации– Хронологии (timelines)
The New Chart of History (1769): Joseph Priestley (1733 – 1804)
The New Chart of History (1769): Joseph Priestley
Примеры временной информации и ее визуализация
• Представление временной информации– Хронологии (timelines)
Carte figurative des pertes successives en hommes de l'Armée Française dans la campagne de Russie 1812-1813: Charles Minard (1781 – 1870) Minard (1781 – 1870)
Charles Minard (1781 – 1870)
Примеры временной информации и ее визуализация
• Представление временной информации– Хронологии (timelines)
The Temple of Time (1846): Emma Willard (1787 – 1870)
The Temple of Time (1846): Emma Willard
Примеры временной информации и ее визуализация
• Представление временной информации– Хронологии (timelines)
HyperHistory (www.hyperhistory.com)
HyperHistory Timelines
Примеры временной информации и ее визуализация
• Представление временной информации– Хронологии (timelines)
Stock Markets
Temporal Information Processing
Структурированная информация
Визуализация во времени
Temporal Information Processing
Неструктурированная информация
Визуализация во времени
Temporal Information Processing
Неструктурированная информация
Визуализация во времени
Ручная обработка
Структурированная информация
Temporal Information Processing
Неструктурированная информация
Визуализация во времени
Ручная обработка
Структурированная информация
Temporal Information Processing
Неструктурированная информация
Визуализация во времени
Автоматическая обработка
Структурированная информация
Temporal Information Processing
Неструктурированная информация
Визуализация во времени
Автоматическая обработка
Структурированная информация
Оглавление
• Что такое информация о времени в естественном языке
• Задачи извлечения информации о времени
• Временные выражения в естественном языке
• Проблемы разметки информации о времени
• Извлечение хронологий событий
Что такое информация о времени
Что такое информация о времени
20 November 2011 Last updated at 16:02 GMTEgyptian military police in riot gear have stormed Tahrir Square inCairo to try to seize control from protesters who had set up camp there.Demonstrators fled as officers fired tear gas and beat them withtruncheons. At one point the police appeared to be in control butrunning battles are now being fought. The violent clashes between thesecurity forces and protesters have lasted two days in Cairo and othercities.
Что такое информация о времени
• Информация о времени– (E)vents (события)
• stormed, set up, fled, fired, beat, appeared, battles, clashes
• Штурмовать, разбить, разбежаться, выстрелить, избить, казаться, бои, столкновения
20 November 2011 Last updated at 16:02 GMT
Egyptian military police in riot gear have stormed Tahrir Square in
Cairo to try to seize control from protesters who had set up camp
there. Demonstrators fled as officers fired tear gas and beat them
with truncheons. At one point the police appeared to be in control
but running battles are now being fought. The violent clashesbetween the security forces and protesters have lasted two days in Cairoand other cities.
столкновения
Что такое информация о времени
• Информация о времени– (E)vents (события)– (T)imes = Timex (времен. выражения)
• 20 November 2011, 16:02 GMT, now, two days
20 November 2011 Last updated at 16:02 GMTEgyptian military police in riot gear have stormed Tahrir Square inCairo to try to seize control from protesters who had set up camp there.Demonstrators fled as officers fired tear gas and beat them withtruncheons. At one point the police appeared to be in control but
running battles are now being fought. The violent clashes between the
security forces and protesters have lasted two days in Cairo andother cities.
Что такое информация о времени
• Информация о времени– (E)vents (stormed, set up, fled, fired, beat,
appeared, battles, clashes)– (T)imes (20 November 2011, 16:02 GMT, now,
two days)– Temporal Relations (E-E, E-T, T-T)
(Отношения во времени)
20 November 2011 Last updated at 16:02 GMTEgyptian military police in riot gear have stormedTahrir Square in Cairo to try to seize control fromprotesters who had set up camp there. Demonstratorsfled as officers fired tear gas and beat them withtruncheons. At one point the police appeared to be incontrol but running battles are now being fought. Theviolent clashes between the security forces andprotesters have lasted two days in Cairo and other cities.
E штурмовать
штурмовать разбитьпосле
разбежаться выстрелитьпосле
казаться боидо
бои сейчасвключ.
столкновения 2 дняравно
E штурмовать
разбить
разбежаться
бои
столкновения
2012-11-20T16:02
выстрелить
казаться
P2D (two days) t
Задачи извлечения информации о времени
Информация о времени
Отношения во времени
Естественный язык (текст)
Распознавание
времен. выражений
НормализацияРаспознавание
событий
Задачи извлечения информации о времени
20 November 2011 Last updated at 16:02 GMTEgyptian military police in riot gear have stormedTahrir Square in Cairo to try to seize control fromprotesters who had set up camp there. Demonstratorsfled as officers fired tear gas and beat them withtruncheons. At one point the police appeared to be in
control but running battles are now being fought. Theviolent clashes between the security forces and
protesters have lasted two days in Cairo and othercities.
Информация о времени
Отношения во времени
сейчас
2 дня
Естественный язык (текст)
Распознавание
времен. выражений
НормализацияРаспознавание
событий
Задачи извлечения информации о времени
20 November 2011 Last updated at 16:02 GMTEgyptian military police in riot gear have stormedTahrir Square in Cairo to try to seize control fromprotesters who had set up camp there. Demonstratorsfled as officers fired tear gas and beat them withtruncheons. At one point the police appeared to be in
control but running battles are now being fought. Theviolent clashes between the security forces and
protesters have lasted two days in Cairo and othercities.
Информация о времени
Отношения во времени
сейчас
2 дня
VALUE = 2011-11-20T16:02
VALUE = P2D
TYPE = TIME
TYPE = DURATION
Естественный язык (текст)
Распознавание
времен. выражений
НормализацияРаспознавание
событий
Задачи извлечения информации о времени
20 November 2011 Last updated at 16:02 GMT
Egyptian military police in riot gear have stormedTahrir Square in Cairo to try to seize control fromprotesters who had set up camp there. Demonstrators
fled as officers fired tear gas and beat them withtruncheons. At one point the police appeared to be in
control but running battles are now being fought.The violent clashes between the security forces andprotesters have lasted two days in Cairo and other cities.
Информация о времени
Отношения во времени
аттаковать
разбежаться
бои
CLASS=OCCURENCE
CLASS=OCCURENCE
CLASS=OCCURENCE
POL MOD TENSE
POL MOD TENSE
POL MOD TENSE
Естественный язык (текст)
Распознавание
времен. выражений
НормализацияРаспознавание
событий
Задачи извлечения информации о времени
20 November 2011 Last updated at 16:02 GMT
Egyptian military police in riot gear have stormedTahrir Square in Cairo to try to seize control fromprotesters who had set up camp there. Demonstrators
fled as officers fired tear gas and beat them withtruncheons. At one point the police appeared to be in
control but running battles are now being fought.The violent clashes between the security forces andprotesters have lasted two days in Cairo and other cities.
Информация о времени
Отношения во времени
Естественный язык (текст)
Распознавание
времен. выражений
НормализацияРаспознавание
событий
штурмовать разбитьпосле
разбежаться выстрелитьпосле
казаться боидо
бои сейчасвключ.
столкновения 2 дняравно
Задачи извлечения информации о времени
Информация о времени
Отношения во времени
Естественный язык (текст)
Распознавание
времен. выражений
НормализацияРаспознавание
событий
Разпознаваение временных выражений
• Распознавание по списку правил– Регулярные выражения (regular expressions)– Словари – ...
• Машинное обучение– Статистические методы– Модели Маркова– Двоичная классификация
Классификация по словам – модель Маркова• Классификация по словам
– Метки: Begin, Inside and Outside XBush can call up to 200,000 reservists
YOOOOOOO
– Признаки– Слово� days– Лексема � day– Часть речи� NNS– Шаблон� days = xxxx– Соседние слова, лексемы, части речи
– Методы– Срытая марковская модель (HMM)– Марковская модель максимальной энтропии– Условные случайные поля (CRF)
reservists for up to 180 days without seeking congressional approval.
OOBIIIOOOOO
TIMEX
Двоичная классификация СФТ
• Классификация СФТ позитивной либо негативной меткой
Example:He noted, however, that the company's order entry has increased from the low levels of the early summer following the end of labor negotiations. [wsj_1003.tml] the end of labor negotiations. [wsj_1003.tml]
Двоичная классификация СФТ
• Классификация СФТ позитивной либо негативной меткой
Example:He noted, however, that the company's order entry has increased from the low levels of the early summer following the end of labor negotiations. [wsj_1003.tml] the end of labor negotiations. [wsj_1003.tml]
Двоичная классификация СФТ
• Классификация СФТ позитивной либо негативной меткой
Example:He noted, however, that the company's order entry has increased from the low levels of the early summer following the end of labor negotiations. [wsj_1003.tml] the end of labor negotiations. [wsj_1003.tml]
Двоичная классификация СФТ
• Классификация СФТ позитивной либо негативной меткой
Example:He noted, however, that the company's order entry has increased from the low levels of the early summer following the end of labor negotiations. [wsj_1003.tml] the end of labor negotiations. [wsj_1003.tml]
Двоичная классификация СФТ
• Классификация СФТ позитивной либо негативной меткой
Example:He noted, however, that the company's order entry has increased from the low levels of the early summer following the end of labor negotiations. [wsj_1003.tml] the end of labor negotiations. [wsj_1003.tml]
Двоичная классификация СФТ
• Классификация СФТ позитивной либо негативной меткой
Example:He noted, however, that the company's order entry has increased from the low levels of the early summer following the end of labor negotiations. [wsj_1003.tml] the end of labor negotiations. [wsj_1003.tml]
Двоичная классификация СФТ
• Классификация СФТ позитивной либо негативной меткой
Example:He noted, however, that the company's order entry has increased from the low levels of the early summer following the end of labor negotiations. [wsj_1003.tml] the end of labor negotiations. [wsj_1003.tml]
Двоичная классификация СФТ
• Классификация СФТ позитивной либо негативной меткой
Example:He noted, however, that the company's order entry has increased from the low levels of the early summer following the end of labor negotiations. [wsj_1003.tml] the end of labor negotiations. [wsj_1003.tml]
Двоичная классификация СФТ
• Классификация СФТ позитивной либо негативной меткой
Example:He noted, however, that the company's order entry has increased from the low levels of the early summer following the end of labor negotiations. [wsj_1003.tml] the end of labor negotiations. [wsj_1003.tml]
Двоичная классификация СФТ
• Классификация СФТ позитивной либо негативной меткой
Example:He noted, however, that the company's order entry has increased from the low levels of the early summer following the end of labor negotiations. [wsj_1003.tml] the end of labor negotiations. [wsj_1003.tml]
Двоичная классификация СФТ
• Классификация СФТ позитивной либо негативной меткой
Example:He noted, however, that the company's order entry has increased from the low levels of the early summer following the end of labor negotiations. [wsj_1003.tml] the end of labor negotiations. [wsj_1003.tml]
Двоичная классификация СФТ
• Классификация СФТ позитивной либо негативной меткой
Example:He noted, however, that the company's order entry has increased from the low levels of the early summer following the end of labor negotiations. [wsj_1003.tml] the end of labor negotiations. [wsj_1003.tml]
Двоичная классификация СФТ
• Классификация СФТ позитивной либо негативной меткой
Example:He noted, however, that the company's order entry has increased from the low levels of the early summer following the end of labor negotiations. [wsj_1003.tml] the end of labor negotiations. [wsj_1003.tml]
Двоичная классификация СФТ
• Классификация СФТ позитивной либо негативной меткой
Example:He noted, however, that the company's order entry has increased from the low levels of the early summer following the end of labor negotiations. [wsj_1003.tml] the end of labor negotiations. [wsj_1003.tml]
Двоичная классификация СФТ
• Классификация СФТ позитивной либо негативной меткой
Example:He noted, however, that the company's order entry has increased from the low levels of the early summer following the end of labor negotiations. [wsj_1003.tml] the end of labor negotiations. [wsj_1003.tml]
Двоичная классификация СФТ
• Признаки• Главное слово � summer• Лексема � summer• Часть речи� NN (summer)• Слова в СФТ�
– the, early, summer, DT, JJ, NN• Образец �• Образец �
– the early summer = xxx_xxxxx_xxxxxx– March 26 = Xxxxx_99
• Конденсированный образец �– the early summer = (x)_(x)_(x) – March 26 = X(x)_(9)
• Образец СФТ� DT_JJ_NN• Глубина в дереве разбора
Условия эксперимента
• Методы– Марковская модель максимальной энтропии (MEMM)– Двоичная классификация СФТ методом максимальной энтропии (ME)
• Данные– TimeBank 1.2– 10-кратная перекрестная оценка (90-10-10)
• Критерии оценки– Строгий (1:1)– Гибкий (1:N)
• Оценки эффективности– Точность (Precision (P))– Полнота выборки (Recall (R))
– F1-мера:RP
RP
+××2
Результаты
N P R F1 P R F1
0 0.928 0.628 0.747
Гибкий
0 0.928 0.628 0.747
0.872 0.836 0.8521 0.946 0.686 0.793
2 0.94 0.652 0.768
3 0.936 0.645 0.762
Строгий
0 0.888 0.382 0.532
0.866 0.796 0.8281 0.921 0.446 0.599
2 0.911 0.426 0.578
3 0.905 0.414 0.566
[Kolomiyets & Moens, 2009, KI-09][Kolomiyets & Moens, 2009, AST-2009]
Анализ ошибок
• Низкий уровень полноты выборки
• Особенности – 7 временных выражений с главным словом summer (лето), но ни одного примера с winter (зима)
– spring (весна) и fall (осень) встречаются в корпусе всего 2 раза
• Идея: генерирование дополнительных примеров на основе имеющихся
Имеем разметку:
Имея набор синонимов [summer, autumn, fall, winter, spring]Можно сгенерировать:
[Kolomiyets & Moens, 2010, TempEval-2010, SemEval-2010]
Метод бутстрэппинга (Bootstrapped)
• Источник синонимов– WordNet (Miller, 1995)
[Kolomiyets & Moens, 2010, TempEval-2010, SemEval-2010]
Метод бутстрэппинга (Bootstrapped)
– Моделирование языков со скрытыми состояниями (LWLM) (Deschacht & Moens, 2009)
[Kolomiyets & Moens, 2010, TempEval-2010, SemEval-2010]
Условия эксперимента
• Методы– Baseline: основной (без bootstrapping)– LWLM: LWLM слова используются для генерирования– LWLM+WordNet: Слова из пересечения 2 множеств
(LWLM+WordNet)
• Условия:• Условия:– Для каждого настоящего экземпляра разметки геренируется от
1 до 10 дополнительных примеров– Обновление модели для каждого из условий
• Корпус:– TempEval-2010 (стандартный корпус с разметкой временной информации)
– Reuters– Wikipedia
Результаты в TempEval-2010
BaselineLWLM
• TempEval-2010– Baseline
• P: 0.78; R: 0.82; F1: 0.80– LWLM (Bootstrapped)
• P: 0.85; R: 0.84; F1: 0.845
[Kolomiyets & Moens, 2010, TempEval-2010, SemEval-2010]
Результаты Bootstrapped
• LWLM – 23.3% уменьшение ошибки с 5 первыми синонимами (Reuters )– 10.6% уменьшение ошибки с 3 первыми синонимами (Wikipedia)
• LWLM+WordNet– 10.1% уменьшение ошибки с 4 первыми синонимами (Reuters )– 12.8% уменьшение ошибки с 5 первыми синонимами (Wikipedia)
[Kolomiyets, Bethard & Moens, 2011, ACL-2011]
Разпознаваение временных выражений - Выводы
• Редкие и не качественные аннотации для статистических методов
• Bootstrapping улучшает результаты распознавания
• Использование синонимов только из WordNet не улучшает результаты
• Результаты очень сильно зависят от точности синтаксического анализа
Разпознаваение временных выражений – Вопросы
• Распознавание методами машинного обучения хуже чем методами основанными на правилах
• Какое количество и качество аннотаций необходимо чтобы достигнуть уровня систем основанных на правилах?
• Насколько сложно портировать системы на правилах на другие языки и жанры текста?
Сложности извлечения информации о времени
20 November 2011 Last updated at 16:02 GMT
Egyptian military police in riot gear have stormedTahrir Square in Cairo to try to seize control fromprotesters who had set up camp there. Demonstrators
fled as officers fired tear gas and beat them withtruncheons. At one point the police appeared to be in
control but running battles are now being fought.The violent clashes between the security forces andprotesters have lasted two days in Cairo and other cities.
Информация о времени
Отношения во времени
Естественный язык (текст)
Распознавание
времен. выражений
НормализацияРаспознавание
событий
штурмовать разбитьпосле
разбежатьсяпосле
казаться боидо
бои сейчасвключ.
столкновения 2 дняравно
Почему раcпознавание отношений во времени сложная задача
• Для n событий существует возможных отношений
– n=8– N=56
20 November 2011 Last updated at 16:02 GMT
Egyptian military police in riot gear have stormedTahrir Square in Cairo to try to seize control from
protesters who had set up camp there. Demonstrators
fled as officers fired tear gas and beat them with
truncheons. At one point the police appeared to be
in control but running battles are now being fought.
The violent clashes between the security forces andprotesters have lasted two days in Cairo and other cities.
2
n
Упрощение задачи
• Только очень частые события20 November 2011 Last updated at 16:02 GMT
Egyptian military police in riot gear have stormedTahrir Square in Cairo to try to seize control from
protesters who had set up camp there. Demonstrators
fled as officers fired tear gas and beat them with
truncheons. At one point the police appeared to be
in control but running battles are now being fought.
The violent clashes between the security forces andprotesters have lasted two days in Cairo and other cities.
Упрощение задачи
• Только очень частые события
• Надо ли рассматривать все события– Только те которые находятся в определенном синтаксическом контексте
20 November 2011 Last updated at 16:02 GMT
Egyptian military police in riot gear have stormedTahrir Square in Cairo to try to seize control from
protesters who had set up camp there. Demonstrators
fled as officers fired tear gas and beat them with
truncheons. At one point the police appeared to be
in control but running battles are now being fought.
The violent clashes between the security forces andprotesters have lasted two days in Cairo and other cities.
Упрощение задачи
• Только очень частые события
• Надо ли рассматривать все события– Только те которые находятся в определенном синтаксическом контексте
– И только те для которых пары предопределены
20 November 2011 Last updated at 16:02 GMT
Egyptian military police in riot gear have stormedTahrir Square in Cairo to try to seize control from
protesters who had set up camp there. Demonstrators
fled as officers fired tear gas and beat them with
truncheons. At one point the police appeared to be
in control but running battles are now being fought.
The violent clashes between the security forces andprotesters have lasted two days in Cairo and other cities.
предопределены
Упрощение задачи
• Только очень частые события
• Надо ли рассматривать все события– Только те которые находятся в определенном синтаксическом контексте
– И только те для которых пары предопределены
20 November 2011 Last updated at 16:02 GMT
Egyptian military police in riot gear have stormedTahrir Square in Cairo to try to seize control from
protesters who had set up camp there. Demonstrators
fled as officers fired tear gas and beat them with
truncheons. At one point the police appeared to be
in control but running battles are now being fought.
The violent clashes between the security forces andprotesters have lasted two days in Cairo and other cities.
предопределены
Основные подходы
• Системы машинного обучения– Последовательная классификация
• Нахождение всех отношений• Пост-обработка
– Фильтрование ошибок на основе правил– Выполнение условий и ограничений (constraints)
– Групповая классификация– Групповая классификация• Включение гибких условий в статистическую модель• Определение вероятности для применения условий• Разметка всего документа с вероятностными ограничениями (constraints)
• Выводы– Групповая классификация лучше чем последовательная– Отсутствие качественных аннотаций– Разрывы в хронологических линиях событий
Основные проблемы в обработке текста и времени
• Отсутствие разметок� корпус
• Отсутствие четкой спецификации для разметок �что и как размечатьчто и как размечать
• Отсутствие критериев для оценки хронологических линий
Основная проблема – Связанные данные о времени
• Предположение: истории для детей имеют простую хронологию событий
• Фокус на самые основные метки отношений во времени
• Какая точность разметки может быть достигнута экспертами
Пример: История для детей
There was once a house that was overrun with Mice. A Catheard of this, and said to herself, "That’s the place for me,"and off she went and took up her quarters in the house, andcaught the Mice one by one and ate them. At last the Micecould stand it no longer, and they determined to take to theirholes and stay there. "That’s awkward," said the Cat toholes and stay there. "That’s awkward," said the Cat toherself: "the only thing to do is to coax them out by a trick."So she considered a while, and then climbed up the wall andlet herself hang down by her hind legs from a peg, andpretended to be dead. By and by a Mouse peeped out andsaw the Cat hanging there. "Aha!" it cried, "you’re veryclever, madam, no doubt: but you may turn yourself into abag of meal hanging there, if you like, yet you won’t catch uscoming anywhere near you."
[Bethard, Kolomiyets & Moens, 2012, LREC-2012]
Пример: Хронология событийThere was once a house that wasoverrun with Mice. A Catheard of this, andsaid to herself, "That’s the place for me," and offshewent andtook up her quarters in the house, andcaught the Miceone by one andate them. At last the Mice could stand it no longer,and theydetermined to take to their holes andstay there. "That’sawkward,"said the Cat to herself: "the only thing to do is to coaxthem out by a trick." So sheconsidered a while, and thenclimbed upthe wall and let herselfhang down by her hind legs from a peg, andpretended to be dead. By and by a Mousepeeped out andsaw theCathanging there. "Aha!" itcried, "you’re very clever, madam, nodoubt: butyoumayturn yourselfinto a bagof mealhangingthere,doubt: butyoumayturn yourselfinto a bagof mealhangingthere,if you like, yet you won’t catch us coming anywhere near you."
Пример: Хронология событийThere was once a house that was overrun with Mice. A Catheard of this, and said to herself, "That’s the place for me," and offshe went and took up her quarters in the house, and caught the Miceone by one and ate them. At last the Mice could stand it no longer,and they determined to take to their holes and stay there. "That’sawkward," said the Cat to herself: "the only thing to do is to coaxthem out by a trick." So she considered a while, and then climbed upthe wall and let herself hang down by her hind legs from a peg, andpretended to be dead. By and by a Mouse peeped out and saw theCat hanging there. "Aha!" it cried, "you’re very clever, madam, nodoubt: but you may turn yourself into a bag of meal hanging there,doubt: but you may turn yourself into a bag of meal hanging there,if you like, yet you won’t catch us coming anywhere near you."
[Kolomiyets, Bethard & Moens, ACL-2012]
Построение хронологий событий
• Метод Shift-Reduce Parser (SRP)– Оптимальное решение на каждом шагу (Shift or Reduce)– Для тренировки используется локальный экстремум из оракла (machine learning)
– При достижении конечного состояния, метод возвращает структуру (хронологию)структуру (хронологию)
[Kolomiyets, Bethard & Moens, ACL-2012]
Построение хронологий событий
• Метод Shift-Reduce Parser (SRP)– Оптимальное решение на каждом шагу (Shift or Reduce)– Для тренировки используется локальный экстремум из оракла (machine learning)
– При достижении конечного состояния, метод возвращает структуру (хронологию)структуру (хронологию)
– Пример: Reduce-Right
[Kolomiyets, Bethard & Moens, ACL-2012]
Построение хронологий событий
• Метод Shift-Reduce Parser (SRP)– Оптимальное решение на каждом шагу (Shift or Reduce)– Для тренировки используется локальный экстремум из оракла (machine learning)
– При достижении конечного состояния, метод возвращает структуру (хронологию)структуру (хронологию)
– Пример: Reduce-Left
[Kolomiyets, Bethard & Moens, ACL-2012]
Построение хронологий событий
• Метод Shift-Reduce Parser (SRP)– Оптимальное решение на каждом шагу (Shift or Reduce)– Для тренировки используется локальный экстремум из оракла (machine learning)
– При достижении конечного состояния, метод возвращает структуру (хронологию)структуру (хронологию)
– Пример: Shift
[Kolomiyets, Bethard & Moens, ACL-2012]
Построение хронологий событий
• Метод Shift-Reduce Parser (SRP)– Оптимальное решение на каждом шагу (Shift or Reduce)– Для тренировки используется локальный экстремум из оракла (machine learning)
– При достижении конечного состояния, метод возвращает структуру (хронологию)структуру (хронологию)
– Пример: Конечное состояние
[Kolomiyets, Bethard & Moens, ACL-2012]
Построение хронологий событий
• Метод: Maximum Spanning Tree (MST)– Поиск глобального экстремума путем максимизации веса остовного дерева графа
∑∈∈
=Ar
jki
Dy jki
rsy),,(
),,(maxargψψ
ψψ
[Kolomiyets, Bethard & Moens, ACL-2012]
Условия эксперимента
• Методы:– Shift-Reduce парсер– MST парсер– Baseline 1: линейная последовательноть событий – Baseline 2: линейная последовательноть событий с
классификацией отношений
• Условия– Корпус: 100 историй для детей, 14,000 слов, 1136 отношений– 10-кратная перекрестная оценка
• Оценки эффективности:– Точность неразмеченных присоединений (UAA) – точность нахождения связи, но без временной метки
– Точность размеченных присоединений (LAA) – точность нахождения связи и временной метки
[Kolomiyets, Bethard & Moens, ACL-2012]
Результаты
Method UAA LAA
Baseline 1 0.830 0.581
Baseline 2 0.830 0.581
SRP 0.839 0.632
MST 0.835 0.606
• Выводы:• Линейная хронология событий (в текстах для детей)
• Автоматические методы лучше основных «интуитивных» подходов
• Единственная связанная временная структура
[Kolomiyets, Bethard & Moens, ACL-2012]
Не только тексты для детей!
• Разметка времени для новостей• Достаточно ли этой информации для компьютерного понимания текста?
Компьютерное понимание текста
ПРИЛОЖЕНИЯ В СИСТЕМАХ ПРИЛОЖЕНИЯ В СИСТЕМАХ АВТОМАТИЧЕСКОЙ ОБРАБОТКИ
ТЕКСТА
TERENCE (2010-2013)
Цель: дизайн и разработка адаптивной системы дизайн и разработка адаптивной системы удаленного обучения для детей с плохим понимания текста
Пользователи: дети, возрастная группа (6-11) педагоги
TERENCE (2010-2013)
Научное утверждение: плохое понимание текста (связей между сущностями и событиями) поправимо путем увеличения нагрузки на чтение и адаптации текста для чтения (сложность, структурированность)структурированность)
Идея: вовлечение детей в процесс чтения:
генерирование компьютерных игр, адаптация содержания
TERENCE (2010-2013)
Задания:- автоматическое определение сложности текста
- автоматическая разметка событий, - автоматическая разметка событий, персонажей и их ролей, временные и причинно-следственный связи- (полу)автоматическое генерирование игр, правильных и релевантных ответов о событиях и персонажах
MUSE (2012-2015)
Machine Understanding for Interactive Storytelling
Цель: создание методов компьютерного понимания текста создание методов компьютерного понимания текста для дальнейшей визуализации сюжета в виртуальном мире. Пользователь будет иметь возможность исследовать виртуальный мир и развитие сюжета с перспективы главного героя.
MUSE (2012-2015)
Научное утверждение: Легкий доступ к информации. Понимание текста –одна из главных проблем современного общества, например понимание специализированныхруководств и инструкций в области медицины.
Идея:Создание виртуальной реальности, в которой смысл текста можно будет «исследовать» виртуально
MUSE (2012-2015)
• Ожирение– Консультация с домашним врачем– Серия консультаций с узкопрофильными специалистами– Серия анализов
• Подготовка к анализам• Процедура проведения анализов• Процедура проведения анализов• ...
– Допуск• Хирургическое вмешательство (биатрическая хирургия)
– Желудочное шунтирование– Бандажирование желудка– Рукавная гастропластика
• Описание процедуры операции (лапароскопия)• Риски
• Реабилитация
• ...