nlp seminar.kolomiyets.dec.2013

93
Временное измерение в приложениях автоматической обработки текста обработки текста Oleksandr Kolomiyets Department of Computer Science Katholieke Universiteit Leuven [email protected]

Upload: natalia-ostapuk

Post on 16-Jun-2015

256 views

Category:

Documents


4 download

TRANSCRIPT

Page 1: Nlp seminar.kolomiyets.dec.2013

Временное измерение в приложениях автоматической обработки текстаобработки текста

Oleksandr Kolomiyets

Department of Computer ScienceKatholieke Universiteit Leuven

[email protected]

Page 2: Nlp seminar.kolomiyets.dec.2013

Temporal Information Processing

• Temporal – time (время)– Merriam Webster:

• “relating to time as opposed to eternity” (временное vs. постоянное)• “relating to the sequence of time or to a particular time” (хронологическое)

• Information – meaningful data (данные со смыслом)• Processing – process, procedure (обработка)• Processing – process, procedure (обработка)

• Temporal Information Processing of Text = Обработка естественного языка с фокусом на извлечение временных данных со смыслом

Page 3: Nlp seminar.kolomiyets.dec.2013

Temporal Information

• Events (события) как непрерывная функция

E (events)E2

E4

E5

E8

E10

E12

t (time)

E1 E3

E6

E7

E8

E9E11 E13

t6 < t8

Page 4: Nlp seminar.kolomiyets.dec.2013

Temporal Information

• Discrete events (дискретные события)

E (events)E1

E2 E3

E6

t (time)

E4

E5

t-2 t+2t-1 t+1

Page 5: Nlp seminar.kolomiyets.dec.2013

Примеры временной информации и ее визуализация

• Представление временной информации– Хронологии (timelines)

Carte chronologique (1753): Jacques Barbeu-Dubourg (1709 – 1779)(1709 – 1779)

Page 6: Nlp seminar.kolomiyets.dec.2013

Примеры временной информации и ее визуализация

• Представление временной информации– Хронологии (timelines)

The Chart of Biography (1765): Joseph Priestley (1733 – 1804)

Page 7: Nlp seminar.kolomiyets.dec.2013

The New Chart of Biography (1769): Joseph Priestley

Page 8: Nlp seminar.kolomiyets.dec.2013

Примеры временной информации и ее визуализация

• Представление временной информации– Хронологии (timelines)

The New Chart of History (1769): Joseph Priestley (1733 – 1804)

Page 9: Nlp seminar.kolomiyets.dec.2013

The New Chart of History (1769): Joseph Priestley

Page 10: Nlp seminar.kolomiyets.dec.2013

Примеры временной информации и ее визуализация

• Представление временной информации– Хронологии (timelines)

Carte figurative des pertes successives en hommes de l'Armée Française dans la campagne de Russie 1812-1813: Charles Minard (1781 – 1870) Minard (1781 – 1870)

Page 11: Nlp seminar.kolomiyets.dec.2013

Charles Minard (1781 – 1870)

Page 12: Nlp seminar.kolomiyets.dec.2013

Примеры временной информации и ее визуализация

• Представление временной информации– Хронологии (timelines)

The Temple of Time (1846): Emma Willard (1787 – 1870)

Page 13: Nlp seminar.kolomiyets.dec.2013

The Temple of Time (1846): Emma Willard

Page 14: Nlp seminar.kolomiyets.dec.2013

Примеры временной информации и ее визуализация

• Представление временной информации– Хронологии (timelines)

HyperHistory (www.hyperhistory.com)

Page 15: Nlp seminar.kolomiyets.dec.2013

HyperHistory Timelines

Page 16: Nlp seminar.kolomiyets.dec.2013

Примеры временной информации и ее визуализация

• Представление временной информации– Хронологии (timelines)

Stock Markets

Page 17: Nlp seminar.kolomiyets.dec.2013

Temporal Information Processing

Структурированная информация

Визуализация во времени

Page 18: Nlp seminar.kolomiyets.dec.2013

Temporal Information Processing

Неструктурированная информация

Визуализация во времени

Page 19: Nlp seminar.kolomiyets.dec.2013

Temporal Information Processing

Неструктурированная информация

Визуализация во времени

Ручная обработка

Структурированная информация

Page 20: Nlp seminar.kolomiyets.dec.2013

Temporal Information Processing

Неструктурированная информация

Визуализация во времени

Ручная обработка

Структурированная информация

Page 21: Nlp seminar.kolomiyets.dec.2013

Temporal Information Processing

Неструктурированная информация

Визуализация во времени

Автоматическая обработка

Структурированная информация

Page 22: Nlp seminar.kolomiyets.dec.2013

Temporal Information Processing

Неструктурированная информация

Визуализация во времени

Автоматическая обработка

Структурированная информация

Page 23: Nlp seminar.kolomiyets.dec.2013

Оглавление

• Что такое информация о времени в естественном языке

• Задачи извлечения информации о времени

• Временные выражения в естественном языке

• Проблемы разметки информации о времени

• Извлечение хронологий событий

Page 24: Nlp seminar.kolomiyets.dec.2013

Что такое информация о времени

Page 25: Nlp seminar.kolomiyets.dec.2013

Что такое информация о времени

20 November 2011 Last updated at 16:02 GMTEgyptian military police in riot gear have stormed Tahrir Square inCairo to try to seize control from protesters who had set up camp there.Demonstrators fled as officers fired tear gas and beat them withtruncheons. At one point the police appeared to be in control butrunning battles are now being fought. The violent clashes between thesecurity forces and protesters have lasted two days in Cairo and othercities.

Page 26: Nlp seminar.kolomiyets.dec.2013

Что такое информация о времени

• Информация о времени– (E)vents (события)

• stormed, set up, fled, fired, beat, appeared, battles, clashes

• Штурмовать, разбить, разбежаться, выстрелить, избить, казаться, бои, столкновения

20 November 2011 Last updated at 16:02 GMT

Egyptian military police in riot gear have stormed Tahrir Square in

Cairo to try to seize control from protesters who had set up camp

there. Demonstrators fled as officers fired tear gas and beat them

with truncheons. At one point the police appeared to be in control

but running battles are now being fought. The violent clashesbetween the security forces and protesters have lasted two days in Cairoand other cities.

столкновения

Page 27: Nlp seminar.kolomiyets.dec.2013

Что такое информация о времени

• Информация о времени– (E)vents (события)– (T)imes = Timex (времен. выражения)

• 20 November 2011, 16:02 GMT, now, two days

20 November 2011 Last updated at 16:02 GMTEgyptian military police in riot gear have stormed Tahrir Square inCairo to try to seize control from protesters who had set up camp there.Demonstrators fled as officers fired tear gas and beat them withtruncheons. At one point the police appeared to be in control but

running battles are now being fought. The violent clashes between the

security forces and protesters have lasted two days in Cairo andother cities.

Page 28: Nlp seminar.kolomiyets.dec.2013

Что такое информация о времени

• Информация о времени– (E)vents (stormed, set up, fled, fired, beat,

appeared, battles, clashes)– (T)imes (20 November 2011, 16:02 GMT, now,

two days)– Temporal Relations (E-E, E-T, T-T)

(Отношения во времени)

20 November 2011 Last updated at 16:02 GMTEgyptian military police in riot gear have stormedTahrir Square in Cairo to try to seize control fromprotesters who had set up camp there. Demonstratorsfled as officers fired tear gas and beat them withtruncheons. At one point the police appeared to be incontrol but running battles are now being fought. Theviolent clashes between the security forces andprotesters have lasted two days in Cairo and other cities.

E штурмовать

штурмовать разбитьпосле

разбежаться выстрелитьпосле

казаться боидо

бои сейчасвключ.

столкновения 2 дняравно

E штурмовать

разбить

разбежаться

бои

столкновения

2012-11-20T16:02

выстрелить

казаться

P2D (two days) t

Page 29: Nlp seminar.kolomiyets.dec.2013

Задачи извлечения информации о времени

Информация о времени

Отношения во времени

Естественный язык (текст)

Распознавание

времен. выражений

НормализацияРаспознавание

событий

Page 30: Nlp seminar.kolomiyets.dec.2013

Задачи извлечения информации о времени

20 November 2011 Last updated at 16:02 GMTEgyptian military police in riot gear have stormedTahrir Square in Cairo to try to seize control fromprotesters who had set up camp there. Demonstratorsfled as officers fired tear gas and beat them withtruncheons. At one point the police appeared to be in

control but running battles are now being fought. Theviolent clashes between the security forces and

protesters have lasted two days in Cairo and othercities.

Информация о времени

Отношения во времени

сейчас

2 дня

Естественный язык (текст)

Распознавание

времен. выражений

НормализацияРаспознавание

событий

Page 31: Nlp seminar.kolomiyets.dec.2013

Задачи извлечения информации о времени

20 November 2011 Last updated at 16:02 GMTEgyptian military police in riot gear have stormedTahrir Square in Cairo to try to seize control fromprotesters who had set up camp there. Demonstratorsfled as officers fired tear gas and beat them withtruncheons. At one point the police appeared to be in

control but running battles are now being fought. Theviolent clashes between the security forces and

protesters have lasted two days in Cairo and othercities.

Информация о времени

Отношения во времени

сейчас

2 дня

VALUE = 2011-11-20T16:02

VALUE = P2D

TYPE = TIME

TYPE = DURATION

Естественный язык (текст)

Распознавание

времен. выражений

НормализацияРаспознавание

событий

Page 32: Nlp seminar.kolomiyets.dec.2013

Задачи извлечения информации о времени

20 November 2011 Last updated at 16:02 GMT

Egyptian military police in riot gear have stormedTahrir Square in Cairo to try to seize control fromprotesters who had set up camp there. Demonstrators

fled as officers fired tear gas and beat them withtruncheons. At one point the police appeared to be in

control but running battles are now being fought.The violent clashes between the security forces andprotesters have lasted two days in Cairo and other cities.

Информация о времени

Отношения во времени

аттаковать

разбежаться

бои

CLASS=OCCURENCE

CLASS=OCCURENCE

CLASS=OCCURENCE

POL MOD TENSE

POL MOD TENSE

POL MOD TENSE

Естественный язык (текст)

Распознавание

времен. выражений

НормализацияРаспознавание

событий

Page 33: Nlp seminar.kolomiyets.dec.2013

Задачи извлечения информации о времени

20 November 2011 Last updated at 16:02 GMT

Egyptian military police in riot gear have stormedTahrir Square in Cairo to try to seize control fromprotesters who had set up camp there. Demonstrators

fled as officers fired tear gas and beat them withtruncheons. At one point the police appeared to be in

control but running battles are now being fought.The violent clashes between the security forces andprotesters have lasted two days in Cairo and other cities.

Информация о времени

Отношения во времени

Естественный язык (текст)

Распознавание

времен. выражений

НормализацияРаспознавание

событий

штурмовать разбитьпосле

разбежаться выстрелитьпосле

казаться боидо

бои сейчасвключ.

столкновения 2 дняравно

Page 34: Nlp seminar.kolomiyets.dec.2013

Задачи извлечения информации о времени

Информация о времени

Отношения во времени

Естественный язык (текст)

Распознавание

времен. выражений

НормализацияРаспознавание

событий

Page 35: Nlp seminar.kolomiyets.dec.2013

Разпознаваение временных выражений

• Распознавание по списку правил– Регулярные выражения (regular expressions)– Словари – ...

• Машинное обучение– Статистические методы– Модели Маркова– Двоичная классификация

Page 36: Nlp seminar.kolomiyets.dec.2013

Классификация по словам – модель Маркова• Классификация по словам

– Метки: Begin, Inside and Outside XBush can call up to 200,000 reservists

YOOOOOOO

– Признаки– Слово� days– Лексема � day– Часть речи� NNS– Шаблон� days = xxxx– Соседние слова, лексемы, части речи

– Методы– Срытая марковская модель (HMM)– Марковская модель максимальной энтропии– Условные случайные поля (CRF)

reservists for up to 180 days without seeking congressional approval.

OOBIIIOOOOO

TIMEX

Page 37: Nlp seminar.kolomiyets.dec.2013

Двоичная классификация СФТ

• Классификация СФТ позитивной либо негативной меткой

Example:He noted, however, that the company's order entry has increased from the low levels of the early summer following the end of labor negotiations. [wsj_1003.tml] the end of labor negotiations. [wsj_1003.tml]

Page 38: Nlp seminar.kolomiyets.dec.2013

Двоичная классификация СФТ

• Классификация СФТ позитивной либо негативной меткой

Example:He noted, however, that the company's order entry has increased from the low levels of the early summer following the end of labor negotiations. [wsj_1003.tml] the end of labor negotiations. [wsj_1003.tml]

Page 39: Nlp seminar.kolomiyets.dec.2013

Двоичная классификация СФТ

• Классификация СФТ позитивной либо негативной меткой

Example:He noted, however, that the company's order entry has increased from the low levels of the early summer following the end of labor negotiations. [wsj_1003.tml] the end of labor negotiations. [wsj_1003.tml]

Page 40: Nlp seminar.kolomiyets.dec.2013

Двоичная классификация СФТ

• Классификация СФТ позитивной либо негативной меткой

Example:He noted, however, that the company's order entry has increased from the low levels of the early summer following the end of labor negotiations. [wsj_1003.tml] the end of labor negotiations. [wsj_1003.tml]

Page 41: Nlp seminar.kolomiyets.dec.2013

Двоичная классификация СФТ

• Классификация СФТ позитивной либо негативной меткой

Example:He noted, however, that the company's order entry has increased from the low levels of the early summer following the end of labor negotiations. [wsj_1003.tml] the end of labor negotiations. [wsj_1003.tml]

Page 42: Nlp seminar.kolomiyets.dec.2013

Двоичная классификация СФТ

• Классификация СФТ позитивной либо негативной меткой

Example:He noted, however, that the company's order entry has increased from the low levels of the early summer following the end of labor negotiations. [wsj_1003.tml] the end of labor negotiations. [wsj_1003.tml]

Page 43: Nlp seminar.kolomiyets.dec.2013

Двоичная классификация СФТ

• Классификация СФТ позитивной либо негативной меткой

Example:He noted, however, that the company's order entry has increased from the low levels of the early summer following the end of labor negotiations. [wsj_1003.tml] the end of labor negotiations. [wsj_1003.tml]

Page 44: Nlp seminar.kolomiyets.dec.2013

Двоичная классификация СФТ

• Классификация СФТ позитивной либо негативной меткой

Example:He noted, however, that the company's order entry has increased from the low levels of the early summer following the end of labor negotiations. [wsj_1003.tml] the end of labor negotiations. [wsj_1003.tml]

Page 45: Nlp seminar.kolomiyets.dec.2013

Двоичная классификация СФТ

• Классификация СФТ позитивной либо негативной меткой

Example:He noted, however, that the company's order entry has increased from the low levels of the early summer following the end of labor negotiations. [wsj_1003.tml] the end of labor negotiations. [wsj_1003.tml]

Page 46: Nlp seminar.kolomiyets.dec.2013

Двоичная классификация СФТ

• Классификация СФТ позитивной либо негативной меткой

Example:He noted, however, that the company's order entry has increased from the low levels of the early summer following the end of labor negotiations. [wsj_1003.tml] the end of labor negotiations. [wsj_1003.tml]

Page 47: Nlp seminar.kolomiyets.dec.2013

Двоичная классификация СФТ

• Классификация СФТ позитивной либо негативной меткой

Example:He noted, however, that the company's order entry has increased from the low levels of the early summer following the end of labor negotiations. [wsj_1003.tml] the end of labor negotiations. [wsj_1003.tml]

Page 48: Nlp seminar.kolomiyets.dec.2013

Двоичная классификация СФТ

• Классификация СФТ позитивной либо негативной меткой

Example:He noted, however, that the company's order entry has increased from the low levels of the early summer following the end of labor negotiations. [wsj_1003.tml] the end of labor negotiations. [wsj_1003.tml]

Page 49: Nlp seminar.kolomiyets.dec.2013

Двоичная классификация СФТ

• Классификация СФТ позитивной либо негативной меткой

Example:He noted, however, that the company's order entry has increased from the low levels of the early summer following the end of labor negotiations. [wsj_1003.tml] the end of labor negotiations. [wsj_1003.tml]

Page 50: Nlp seminar.kolomiyets.dec.2013

Двоичная классификация СФТ

• Классификация СФТ позитивной либо негативной меткой

Example:He noted, however, that the company's order entry has increased from the low levels of the early summer following the end of labor negotiations. [wsj_1003.tml] the end of labor negotiations. [wsj_1003.tml]

Page 51: Nlp seminar.kolomiyets.dec.2013

Двоичная классификация СФТ

• Классификация СФТ позитивной либо негативной меткой

Example:He noted, however, that the company's order entry has increased from the low levels of the early summer following the end of labor negotiations. [wsj_1003.tml] the end of labor negotiations. [wsj_1003.tml]

Page 52: Nlp seminar.kolomiyets.dec.2013

Двоичная классификация СФТ

• Признаки• Главное слово � summer• Лексема � summer• Часть речи� NN (summer)• Слова в СФТ�

– the, early, summer, DT, JJ, NN• Образец �• Образец �

– the early summer = xxx_xxxxx_xxxxxx– March 26 = Xxxxx_99

• Конденсированный образец �– the early summer = (x)_(x)_(x) – March 26 = X(x)_(9)

• Образец СФТ� DT_JJ_NN• Глубина в дереве разбора

Page 53: Nlp seminar.kolomiyets.dec.2013

Условия эксперимента

• Методы– Марковская модель максимальной энтропии (MEMM)– Двоичная классификация СФТ методом максимальной энтропии (ME)

• Данные– TimeBank 1.2– 10-кратная перекрестная оценка (90-10-10)

• Критерии оценки– Строгий (1:1)– Гибкий (1:N)

• Оценки эффективности– Точность (Precision (P))– Полнота выборки (Recall (R))

– F1-мера:RP

RP

+××2

Page 54: Nlp seminar.kolomiyets.dec.2013

Результаты

N P R F1 P R F1

0 0.928 0.628 0.747

Гибкий

0 0.928 0.628 0.747

0.872 0.836 0.8521 0.946 0.686 0.793

2 0.94 0.652 0.768

3 0.936 0.645 0.762

Строгий

0 0.888 0.382 0.532

0.866 0.796 0.8281 0.921 0.446 0.599

2 0.911 0.426 0.578

3 0.905 0.414 0.566

[Kolomiyets & Moens, 2009, KI-09][Kolomiyets & Moens, 2009, AST-2009]

Page 55: Nlp seminar.kolomiyets.dec.2013

Анализ ошибок

• Низкий уровень полноты выборки

• Особенности – 7 временных выражений с главным словом summer (лето), но ни одного примера с winter (зима)

– spring (весна) и fall (осень) встречаются в корпусе всего 2 раза

• Идея: генерирование дополнительных примеров на основе имеющихся

Имеем разметку:

Имея набор синонимов [summer, autumn, fall, winter, spring]Можно сгенерировать:

[Kolomiyets & Moens, 2010, TempEval-2010, SemEval-2010]

Page 56: Nlp seminar.kolomiyets.dec.2013

Метод бутстрэппинга (Bootstrapped)

• Источник синонимов– WordNet (Miller, 1995)

[Kolomiyets & Moens, 2010, TempEval-2010, SemEval-2010]

Page 57: Nlp seminar.kolomiyets.dec.2013

Метод бутстрэппинга (Bootstrapped)

– Моделирование языков со скрытыми состояниями (LWLM) (Deschacht & Moens, 2009)

[Kolomiyets & Moens, 2010, TempEval-2010, SemEval-2010]

Page 58: Nlp seminar.kolomiyets.dec.2013

Условия эксперимента

• Методы– Baseline: основной (без bootstrapping)– LWLM: LWLM слова используются для генерирования– LWLM+WordNet: Слова из пересечения 2 множеств

(LWLM+WordNet)

• Условия:• Условия:– Для каждого настоящего экземпляра разметки геренируется от

1 до 10 дополнительных примеров– Обновление модели для каждого из условий

• Корпус:– TempEval-2010 (стандартный корпус с разметкой временной информации)

– Reuters– Wikipedia

Page 59: Nlp seminar.kolomiyets.dec.2013

Результаты в TempEval-2010

BaselineLWLM

• TempEval-2010– Baseline

• P: 0.78; R: 0.82; F1: 0.80– LWLM (Bootstrapped)

• P: 0.85; R: 0.84; F1: 0.845

[Kolomiyets & Moens, 2010, TempEval-2010, SemEval-2010]

Page 60: Nlp seminar.kolomiyets.dec.2013

Результаты Bootstrapped

• LWLM – 23.3% уменьшение ошибки с 5 первыми синонимами (Reuters )– 10.6% уменьшение ошибки с 3 первыми синонимами (Wikipedia)

• LWLM+WordNet– 10.1% уменьшение ошибки с 4 первыми синонимами (Reuters )– 12.8% уменьшение ошибки с 5 первыми синонимами (Wikipedia)

[Kolomiyets, Bethard & Moens, 2011, ACL-2011]

Page 61: Nlp seminar.kolomiyets.dec.2013

Разпознаваение временных выражений - Выводы

• Редкие и не качественные аннотации для статистических методов

• Bootstrapping улучшает результаты распознавания

• Использование синонимов только из WordNet не улучшает результаты

• Результаты очень сильно зависят от точности синтаксического анализа

Page 62: Nlp seminar.kolomiyets.dec.2013

Разпознаваение временных выражений – Вопросы

• Распознавание методами машинного обучения хуже чем методами основанными на правилах

• Какое количество и качество аннотаций необходимо чтобы достигнуть уровня систем основанных на правилах?

• Насколько сложно портировать системы на правилах на другие языки и жанры текста?

Page 63: Nlp seminar.kolomiyets.dec.2013

Сложности извлечения информации о времени

20 November 2011 Last updated at 16:02 GMT

Egyptian military police in riot gear have stormedTahrir Square in Cairo to try to seize control fromprotesters who had set up camp there. Demonstrators

fled as officers fired tear gas and beat them withtruncheons. At one point the police appeared to be in

control but running battles are now being fought.The violent clashes between the security forces andprotesters have lasted two days in Cairo and other cities.

Информация о времени

Отношения во времени

Естественный язык (текст)

Распознавание

времен. выражений

НормализацияРаспознавание

событий

штурмовать разбитьпосле

разбежатьсяпосле

казаться боидо

бои сейчасвключ.

столкновения 2 дняравно

Page 64: Nlp seminar.kolomiyets.dec.2013

Почему раcпознавание отношений во времени сложная задача

• Для n событий существует возможных отношений

– n=8– N=56

20 November 2011 Last updated at 16:02 GMT

Egyptian military police in riot gear have stormedTahrir Square in Cairo to try to seize control from

protesters who had set up camp there. Demonstrators

fled as officers fired tear gas and beat them with

truncheons. At one point the police appeared to be

in control but running battles are now being fought.

The violent clashes between the security forces andprotesters have lasted two days in Cairo and other cities.

2

n

Page 65: Nlp seminar.kolomiyets.dec.2013

Упрощение задачи

• Только очень частые события20 November 2011 Last updated at 16:02 GMT

Egyptian military police in riot gear have stormedTahrir Square in Cairo to try to seize control from

protesters who had set up camp there. Demonstrators

fled as officers fired tear gas and beat them with

truncheons. At one point the police appeared to be

in control but running battles are now being fought.

The violent clashes between the security forces andprotesters have lasted two days in Cairo and other cities.

Page 66: Nlp seminar.kolomiyets.dec.2013

Упрощение задачи

• Только очень частые события

• Надо ли рассматривать все события– Только те которые находятся в определенном синтаксическом контексте

20 November 2011 Last updated at 16:02 GMT

Egyptian military police in riot gear have stormedTahrir Square in Cairo to try to seize control from

protesters who had set up camp there. Demonstrators

fled as officers fired tear gas and beat them with

truncheons. At one point the police appeared to be

in control but running battles are now being fought.

The violent clashes between the security forces andprotesters have lasted two days in Cairo and other cities.

Page 67: Nlp seminar.kolomiyets.dec.2013

Упрощение задачи

• Только очень частые события

• Надо ли рассматривать все события– Только те которые находятся в определенном синтаксическом контексте

– И только те для которых пары предопределены

20 November 2011 Last updated at 16:02 GMT

Egyptian military police in riot gear have stormedTahrir Square in Cairo to try to seize control from

protesters who had set up camp there. Demonstrators

fled as officers fired tear gas and beat them with

truncheons. At one point the police appeared to be

in control but running battles are now being fought.

The violent clashes between the security forces andprotesters have lasted two days in Cairo and other cities.

предопределены

Page 68: Nlp seminar.kolomiyets.dec.2013

Упрощение задачи

• Только очень частые события

• Надо ли рассматривать все события– Только те которые находятся в определенном синтаксическом контексте

– И только те для которых пары предопределены

20 November 2011 Last updated at 16:02 GMT

Egyptian military police in riot gear have stormedTahrir Square in Cairo to try to seize control from

protesters who had set up camp there. Demonstrators

fled as officers fired tear gas and beat them with

truncheons. At one point the police appeared to be

in control but running battles are now being fought.

The violent clashes between the security forces andprotesters have lasted two days in Cairo and other cities.

предопределены

Page 69: Nlp seminar.kolomiyets.dec.2013

Основные подходы

• Системы машинного обучения– Последовательная классификация

• Нахождение всех отношений• Пост-обработка

– Фильтрование ошибок на основе правил– Выполнение условий и ограничений (constraints)

– Групповая классификация– Групповая классификация• Включение гибких условий в статистическую модель• Определение вероятности для применения условий• Разметка всего документа с вероятностными ограничениями (constraints)

• Выводы– Групповая классификация лучше чем последовательная– Отсутствие качественных аннотаций– Разрывы в хронологических линиях событий

Page 70: Nlp seminar.kolomiyets.dec.2013

Основные проблемы в обработке текста и времени

• Отсутствие разметок� корпус

• Отсутствие четкой спецификации для разметок �что и как размечатьчто и как размечать

• Отсутствие критериев для оценки хронологических линий

Page 71: Nlp seminar.kolomiyets.dec.2013

Основная проблема – Связанные данные о времени

• Предположение: истории для детей имеют простую хронологию событий

• Фокус на самые основные метки отношений во времени

• Какая точность разметки может быть достигнута экспертами

Page 72: Nlp seminar.kolomiyets.dec.2013

Пример: История для детей

There was once a house that was overrun with Mice. A Catheard of this, and said to herself, "That’s the place for me,"and off she went and took up her quarters in the house, andcaught the Mice one by one and ate them. At last the Micecould stand it no longer, and they determined to take to theirholes and stay there. "That’s awkward," said the Cat toholes and stay there. "That’s awkward," said the Cat toherself: "the only thing to do is to coax them out by a trick."So she considered a while, and then climbed up the wall andlet herself hang down by her hind legs from a peg, andpretended to be dead. By and by a Mouse peeped out andsaw the Cat hanging there. "Aha!" it cried, "you’re veryclever, madam, no doubt: but you may turn yourself into abag of meal hanging there, if you like, yet you won’t catch uscoming anywhere near you."

[Bethard, Kolomiyets & Moens, 2012, LREC-2012]

Page 73: Nlp seminar.kolomiyets.dec.2013

Пример: Хронология событийThere was once a house that wasoverrun with Mice. A Catheard of this, andsaid to herself, "That’s the place for me," and offshewent andtook up her quarters in the house, andcaught the Miceone by one andate them. At last the Mice could stand it no longer,and theydetermined to take to their holes andstay there. "That’sawkward,"said the Cat to herself: "the only thing to do is to coaxthem out by a trick." So sheconsidered a while, and thenclimbed upthe wall and let herselfhang down by her hind legs from a peg, andpretended to be dead. By and by a Mousepeeped out andsaw theCathanging there. "Aha!" itcried, "you’re very clever, madam, nodoubt: butyoumayturn yourselfinto a bagof mealhangingthere,doubt: butyoumayturn yourselfinto a bagof mealhangingthere,if you like, yet you won’t catch us coming anywhere near you."

Page 74: Nlp seminar.kolomiyets.dec.2013

Пример: Хронология событийThere was once a house that was overrun with Mice. A Catheard of this, and said to herself, "That’s the place for me," and offshe went and took up her quarters in the house, and caught the Miceone by one and ate them. At last the Mice could stand it no longer,and they determined to take to their holes and stay there. "That’sawkward," said the Cat to herself: "the only thing to do is to coaxthem out by a trick." So she considered a while, and then climbed upthe wall and let herself hang down by her hind legs from a peg, andpretended to be dead. By and by a Mouse peeped out and saw theCat hanging there. "Aha!" it cried, "you’re very clever, madam, nodoubt: but you may turn yourself into a bag of meal hanging there,doubt: but you may turn yourself into a bag of meal hanging there,if you like, yet you won’t catch us coming anywhere near you."

[Kolomiyets, Bethard & Moens, ACL-2012]

Page 75: Nlp seminar.kolomiyets.dec.2013

Построение хронологий событий

• Метод Shift-Reduce Parser (SRP)– Оптимальное решение на каждом шагу (Shift or Reduce)– Для тренировки используется локальный экстремум из оракла (machine learning)

– При достижении конечного состояния, метод возвращает структуру (хронологию)структуру (хронологию)

[Kolomiyets, Bethard & Moens, ACL-2012]

Page 76: Nlp seminar.kolomiyets.dec.2013

Построение хронологий событий

• Метод Shift-Reduce Parser (SRP)– Оптимальное решение на каждом шагу (Shift or Reduce)– Для тренировки используется локальный экстремум из оракла (machine learning)

– При достижении конечного состояния, метод возвращает структуру (хронологию)структуру (хронологию)

– Пример: Reduce-Right

[Kolomiyets, Bethard & Moens, ACL-2012]

Page 77: Nlp seminar.kolomiyets.dec.2013

Построение хронологий событий

• Метод Shift-Reduce Parser (SRP)– Оптимальное решение на каждом шагу (Shift or Reduce)– Для тренировки используется локальный экстремум из оракла (machine learning)

– При достижении конечного состояния, метод возвращает структуру (хронологию)структуру (хронологию)

– Пример: Reduce-Left

[Kolomiyets, Bethard & Moens, ACL-2012]

Page 78: Nlp seminar.kolomiyets.dec.2013

Построение хронологий событий

• Метод Shift-Reduce Parser (SRP)– Оптимальное решение на каждом шагу (Shift or Reduce)– Для тренировки используется локальный экстремум из оракла (machine learning)

– При достижении конечного состояния, метод возвращает структуру (хронологию)структуру (хронологию)

– Пример: Shift

[Kolomiyets, Bethard & Moens, ACL-2012]

Page 79: Nlp seminar.kolomiyets.dec.2013

Построение хронологий событий

• Метод Shift-Reduce Parser (SRP)– Оптимальное решение на каждом шагу (Shift or Reduce)– Для тренировки используется локальный экстремум из оракла (machine learning)

– При достижении конечного состояния, метод возвращает структуру (хронологию)структуру (хронологию)

– Пример: Конечное состояние

[Kolomiyets, Bethard & Moens, ACL-2012]

Page 80: Nlp seminar.kolomiyets.dec.2013

Построение хронологий событий

• Метод: Maximum Spanning Tree (MST)– Поиск глобального экстремума путем максимизации веса остовного дерева графа

∑∈∈

=Ar

jki

Dy jki

rsy),,(

),,(maxargψψ

ψψ

[Kolomiyets, Bethard & Moens, ACL-2012]

Page 81: Nlp seminar.kolomiyets.dec.2013

Условия эксперимента

• Методы:– Shift-Reduce парсер– MST парсер– Baseline 1: линейная последовательноть событий – Baseline 2: линейная последовательноть событий с

классификацией отношений

• Условия– Корпус: 100 историй для детей, 14,000 слов, 1136 отношений– 10-кратная перекрестная оценка

• Оценки эффективности:– Точность неразмеченных присоединений (UAA) – точность нахождения связи, но без временной метки

– Точность размеченных присоединений (LAA) – точность нахождения связи и временной метки

[Kolomiyets, Bethard & Moens, ACL-2012]

Page 82: Nlp seminar.kolomiyets.dec.2013

Результаты

Method UAA LAA

Baseline 1 0.830 0.581

Baseline 2 0.830 0.581

SRP 0.839 0.632

MST 0.835 0.606

• Выводы:• Линейная хронология событий (в текстах для детей)

• Автоматические методы лучше основных «интуитивных» подходов

• Единственная связанная временная структура

[Kolomiyets, Bethard & Moens, ACL-2012]

Page 83: Nlp seminar.kolomiyets.dec.2013

Не только тексты для детей!

• Разметка времени для новостей• Достаточно ли этой информации для компьютерного понимания текста?

Page 84: Nlp seminar.kolomiyets.dec.2013

Компьютерное понимание текста

Page 85: Nlp seminar.kolomiyets.dec.2013

ПРИЛОЖЕНИЯ В СИСТЕМАХ ПРИЛОЖЕНИЯ В СИСТЕМАХ АВТОМАТИЧЕСКОЙ ОБРАБОТКИ

ТЕКСТА

Page 86: Nlp seminar.kolomiyets.dec.2013

TERENCE (2010-2013)

Цель: дизайн и разработка адаптивной системы дизайн и разработка адаптивной системы удаленного обучения для детей с плохим понимания текста

Пользователи: дети, возрастная группа (6-11) педагоги

Page 87: Nlp seminar.kolomiyets.dec.2013

TERENCE (2010-2013)

Научное утверждение: плохое понимание текста (связей между сущностями и событиями) поправимо путем увеличения нагрузки на чтение и адаптации текста для чтения (сложность, структурированность)структурированность)

Идея: вовлечение детей в процесс чтения:

генерирование компьютерных игр, адаптация содержания

Page 88: Nlp seminar.kolomiyets.dec.2013

TERENCE (2010-2013)

Задания:- автоматическое определение сложности текста

- автоматическая разметка событий, - автоматическая разметка событий, персонажей и их ролей, временные и причинно-следственный связи- (полу)автоматическое генерирование игр, правильных и релевантных ответов о событиях и персонажах

Page 89: Nlp seminar.kolomiyets.dec.2013
Page 90: Nlp seminar.kolomiyets.dec.2013

MUSE (2012-2015)

Machine Understanding for Interactive Storytelling

Цель: создание методов компьютерного понимания текста создание методов компьютерного понимания текста для дальнейшей визуализации сюжета в виртуальном мире. Пользователь будет иметь возможность исследовать виртуальный мир и развитие сюжета с перспективы главного героя.

Page 91: Nlp seminar.kolomiyets.dec.2013

MUSE (2012-2015)

Научное утверждение: Легкий доступ к информации. Понимание текста –одна из главных проблем современного общества, например понимание специализированныхруководств и инструкций в области медицины.

Идея:Создание виртуальной реальности, в которой смысл текста можно будет «исследовать» виртуально

Page 92: Nlp seminar.kolomiyets.dec.2013

MUSE (2012-2015)

• Ожирение– Консультация с домашним врачем– Серия консультаций с узкопрофильными специалистами– Серия анализов

• Подготовка к анализам• Процедура проведения анализов• Процедура проведения анализов• ...

– Допуск• Хирургическое вмешательство (биатрическая хирургия)

– Желудочное шунтирование– Бандажирование желудка– Рукавная гастропластика

• Описание процедуры операции (лапароскопия)• Риски

• Реабилитация

• ...

Page 93: Nlp seminar.kolomiyets.dec.2013