презентация (quasi synonyms, вмк 25.10.2011)

29
АВТОМАТИЧЕСКОЕ ИЗВЛЕЧЕНИЕ СУЩНОСТЕЙ НА ОСНОВЕ СТРУКТУРЫ НОВОСТНОГО КЛАСТЕРА Автор: Алексеев Алексей Александрович Научный руководитель: Лукашевич Наталья Валентиновна

Upload: -

Post on 25-Jan-2015

713 views

Category:

Documents


3 download

DESCRIPTION

 

TRANSCRIPT

Page 1: презентация (Quasi synonyms, вмк 25.10.2011)

АВТОМАТИЧЕСКОЕ ИЗВЛЕЧЕНИЕ СУЩНОСТЕЙ НА

ОСНОВЕ СТРУКТУРЫ НОВОСТНОГО КЛАСТЕРА

Автор: Алексеев Алексей Александрович Научный руководитель: Лукашевич Наталья Валентиновна

Page 2: презентация (Quasi synonyms, вмк 25.10.2011)

ОБРАБОТКА ПОТОКОВ НОВОСТЕЙ

Новостные сервисы (30-40 тыс. документов в день)

Кластеризация новостей на одну тему – новостной кластер (вхождения слов)

Удаление дубликатов

Рубрикация по тематическим рубрикам

Автоматическое аннотирование

Определение новизны

Извлечение информации

Многие операции выполняются на основе пословного представления

24.10.2011

2

Page 3: презентация (Quasi synonyms, вмк 25.10.2011)

ПРОБЛЕМЫ ПОСЛОВНОГО ПРЕДСТАВЛЕНИЯ

Одна сущность названа посредством цепочки слов (многословным выражением)

В кластере используется много разных наименований одной и той же сущности

Авиабаза США в Киргизии:

база Манас, авиабаза Манас, Манас,

база в международном аэропорту Манас,

база США, американская авиабаза

Проблемы:

Определение границ кластера

Автоматическое порождение аннотации

Определение новизны информации

Выделение подкластеров и др. 24.10.2011

3

Page 4: презентация (Quasi synonyms, вмк 25.10.2011)

ПРИРОДА ВОЗНИКНОВЕНИЯ ВАРИАТИВНОСТИ - 1

Цель использования: Референция (отнесенность языкового выражения к одному

и тому же объекту действительности) 3 февраля президент Киргизии Курманбек Бакиев заявил о решении правительства прекратить деятельность авиабазы на территории республики… Президент не стал скрывать, что экономические резоны стали главной причиной побудившей правительство страны принять такое решение.

Перефразирование (изменение текста без изменения смысла - рерайтинг)

Судьбу авиабазы США в "Манасе" решит парламент Киргизии. Парламент Киргизии в четверг примет окончательное решение о судьбе авиабазы США.

Лексическая связность (обеспечение связности текста посредством известных взаимоотношений слов) 24.10.2011

4

Page 5: презентация (Quasi synonyms, вмк 25.10.2011)

ПРИРОДА ВОЗНИКНОВЕНИЯ ВАРИАТИВНОСТИ - 2

Привязка к контексту: Общеизвестно (Киргизия – Киргизстан)

Выводится из контекста В декабре 2006 года 46-летний водитель топливозаправщика киргизской фирмы, занимающейся обслуживанием аэропорта "Манас", Александр Иванов, был расстрелян в упор охранником авиабазы Закари Хатфилдом на КПП при въезде на перрон аэропорта"… Американский военный, несмотря на неоднократные требования киргизского МИДа, также был тайно вывезен с территории страны и до сих пор не предстал перед судом.

Одинаково по смыслу (синонимы) или близко по смыслу (часть-целое, род-вид)

Власти Киргизии не опасаются, что решение о закрытии базы может привести к обострению взаимоотношений с США и западноевропейским государствами. "Никаких политических разногласий у нас с США нет."

24.10.2011

5

Page 6: презентация (Quasi synonyms, вмк 25.10.2011)

МЕТОДЫ УСЛОЖНЕНИЯ ПРЕДСТАВЛЕНИЯ

Применение тезаурусов Синонимы

Словосочетания

Лексические цепочки

Но: все заранее описать невозможно

Разрешение кореферентности Именованные объекты

Полное и частичное наименование

Разрешение кореферентности

Но: вариативность наименования относится не только к именованным сущностям

24.10.2011

6

Page 7: презентация (Quasi synonyms, вмк 25.10.2011)

МНОГОСЛОВНЫЕ ВЫРАЖЕНИЯ И КВАЗИСИНОНИМЫ

Многословные выражения, отдельные части которых зачастую не отражают смысла всего выражения («Российская Федерация», «Авиабаза Манас»)

Квазисинонимы – слова или выражения, которые не являются синонимами в общем случае, но могут таковыми являться к некотором контексте

Например, слова «ПРЕЗИДЕНТ» и «ДИКТАТОР» не являются синонимами в общем случае, но в контексте некоторого специфичного текста могут таковыми являться

24.10.2011

7

Page 8: презентация (Quasi synonyms, вмк 25.10.2011)

ИДЕЯ ИССЛЕДОВАНИЯ

Новостной кластер содержит множество документов на одну и ту же тему

Рерайтеры специально переписывают тексты, используя синонимы и близкие по смыслу слова

Задача: на основе структуры кластера

извлечь многословные выражения, обозначающие основные сущности кластера,

найти слова и словосочетания, являющиеся квазисинонимами в рамках данного кластера

Метод:

Свойства связного текста - глобальная связность

Новостной кластер (посвящен одной теме) 24.10.2011

8

Page 9: презентация (Quasi synonyms, вмк 25.10.2011)

ПЛАН ДОКЛАДА

Постановка задачи выделения многословных выражений и квазисинонимов

Обзор существующих методов

Гипотеза и ее проверка

Предлагаемый подход и его оценка

Заключение 24.10.2011

9

Page 10: презентация (Quasi synonyms, вмк 25.10.2011)

Context-based Quasi-Synonym Extraction - 1 University of Massachusetts, USA, 2009

Van Dang, Xiaobing Xue and W. Bruce Croft

Извлечение квазисинонимов из текстового корпуса

Метод основан на анализе контекстов употребления кандидатов в квазисинонимы (как и большинство существующих методов)

Различия методов: какой контекст рассматривать и с помощью какой метрики вычислять меру схожести

В работе предлагается метод акцентирующийся на качестве, а не на типе контекста

Например слова-кандидаты «пистолет» и «ружьё» и контекстные слова «целиться» и «положить»:

“.. положить пистолет в сумку ..“ – “.. положить ружье в сумку..”

“.. целиться из пистолета .. “ – “.. целиться из ружья ..” 24.10.2011

10

Page 11: презентация (Quasi synonyms, вмк 25.10.2011)

Чем чаще слово употребляется в различных контекстах, тем меньше контекстной информации оно несёт:

W – количество слов с данным контекстом

Z – нормализующий параметр

Контекст слова – n-грамма слов вокруг него

Предложено два варианта вычисления квазисинонимичности выражений: с начислением «штрафных» баллов за несовпадающий контекст и без

Идея – чем больше контекстов лучшего качества выражения разделяют, тем выше их квазисинонимичность

24.10.2011

11

WZсP

11)(

Context-based Quasi-Synonym Extraction - 2 University of Massachusetts, USA, 2009

Van Dang, Xiaobing Xue and W. Bruce Croft

Page 12: презентация (Quasi synonyms, вмк 25.10.2011)

Extracting Paraphrases from a Parallel Corpus - 1 Columbia University, USA, 2001

Regina Barzilay and Kathleen R. McKeown

Задача – построение корпуса парафраз для дальнейшего его применения в различных областях

Сравнении различных переводов одного и того же текста

Использовались различные переводы различных романов на английский язык (всего 11 текстов)

Препроцессинг: выравнивание предложений текстов (на основе одинаковых слов, которых было 42%, P = 92%)

Всего получилось 44.562 предложения (1.798.526 слов)

Алгоритм взаимного обучения (co-training)

24.10.2011

12

Page 13: презентация (Quasi synonyms, вмк 25.10.2011)

Шаблоны (паттерны) парафраз: последовательность частей речи с пометками о повторении слов:

Emma burst into tears and he tried to comfort her, saying things to make her smile.

Emma cried, and he tried to console her, adorning his words with puns.

left =“VB1 TO2 ” (“tried to”) right =“PRP$3 ,4 ” (“her ,”)

Инициализация алгоритма: шаблоны контекстов одинаковых слов

В качестве отрицательных примеров – остальные сочетания со словами предложения ((n-1) + (m-1))

После извлечения шаблонов опять извлекаются парафразы и алгоритм зацикливается

24.10.2011

13

Extracting Paraphrases from a Parallel Corpus - 2 Columbia University, USA, 2001

Regina Barzilay and Kathleen R. McKeown

Page 14: презентация (Quasi synonyms, вмк 25.10.2011)

Длина контекста – 3 слова (но также запоминаются более короткие контексты, так как они иногда лучше)

В рамках оценки результатов проведен анализ согласованности асессоров при определении парафраз

Согласованность асессоров:

68% без контекстов 97% с контекстами

Точность:

~85% без контекстов ~92% с контекстами

Полнота: 69%

Синонимы( 35%) гиперонимы (32%) сёстры (18%) без связи (10%) другие типы связи (5%)

24.10.2011

14

Extracting Paraphrases from a Parallel Corpus - 3 Columbia University, USA, 2001

Regina Barzilay and Kathleen R. McKeown

Page 15: презентация (Quasi synonyms, вмк 25.10.2011)

ПЛАН ДОКЛАДА

Постановка задачи выделения многословных выражений и квазисинонимов

Обзор существующих методов

Гипотеза и ее проверка

Предлагаемый подход и его оценка

Заключение 24.10.2011

15

Page 16: презентация (Quasi synonyms, вмк 25.10.2011)

ГЛОБАЛЬНАЯ СВЯЗНОСТЬ ТЕКСТА

Van Dijk и гипотеза глобальной связности (1985)

Связный текст имеет одну главную тему и эта тема может быть выражена как пропозиция

Тема целого текста раскрывается в тексте посредством локальных тем

Каждое предложение текста соответствует некоторой теме текста

Механизм глобальной связности позволяет контролировать локальный связки и переходы

24.10.2011

16

Page 17: презентация (Quasi synonyms, вмк 25.10.2011)

ЛЕКСИЧЕСКАЯ СВЯЗНОСТЬ vs.

ГЛОБАЛЬНАЯ СВЯЗНОСТЬ

Связный текст обладает лексической связностью: лексические и семантические повторы

Лексическая связность – инструмент глобальной связности

Чем больше две сущности упоминаются в одних и тех же предложениях текста, тем более важно отношение между ними для содержания текста

Если сущности часто упоминаются, но мало встречаются в одних и тех же предложениях текста, то возможно они связаны между собой по смыслу (синоним, род-вид, часть-целое)

24.10.2011

17

Page 18: презентация (Quasi synonyms, вмк 25.10.2011)

АНАЛИЗ И ПРОВЕРКА ГИПОТЕЗЫ - 1

Проверка предположений была произведена с помощью Тезауруса русского языка РуТез

В качестве правильных примеров квазисинонимии рассматривались объекты, связанные в Тезаурусе

Различные типы связи рассматривались отдельно

Две группы по частям речи:

СУЩ. + СУЩ. # ПРИЛ. + СУЩ.

Для каждой пары объектов вычислялись количество вхождений в одни и те же предложения (Fsegm) и в соседние (Fsent)

24.10.2011

18

Page 19: презентация (Quasi synonyms, вмк 25.10.2011)

АНАЛИЗ И ПРОВЕРКА ГИПОТЕЗЫ - 2 19

Тип связи Fsegm / Fsent Число пар

Синонимы (СУЩ + СУЩ) 0.309 31

Синонимы (ПРИЛ + СУЩ) 0.491 53

Род – Вид (СУЩ + СУЩ) 1.130 88

Род – Вид (ПРИЛ + СУЩ) 1.471 28

Часть – Целое (СУЩ + СУЩ) 0.779 58

Часть – Целое (ПРИЛ + СУЩ) 1.580 29

Без связи по Тезаурусу 1.440 21483

Page 20: презентация (Quasi synonyms, вмк 25.10.2011)

НОВОСТНЫЕ КЛАСТЕРЫ И СВОЙСТВА СВЯЗНОГО ТЕКСТА

Кластер – не является связным текстом, но имеет тему кластера

статистические особенности усиливаются

Извлечение Многословных выражений,

Совокупностей квазисинонимов

Пример: Новостной кластер от 19.02.2009

Тема: Денонсация соглашения между Киргизией и США по поводу авиабазы США, расположенной в международном аэропорту Манас

195 новостных документов 24.10.2011

20

Page 21: презентация (Quasi synonyms, вмк 25.10.2011)

ПЛАН ДОКЛАДА

Постановка задачи выделения многословных выражений и квазисинонимов

Обзор существующих методов

Гипотеза и ее проверка

Предлагаемый подход и его оценка

Заключение 24.10.2011

21

Page 22: презентация (Quasi synonyms, вмк 25.10.2011)

ПРЕДЛАГАЕМЫЙ ПОДХОД

Комбинация классического подхода (анализ контекстов) с гипотезой совместной встречаемости

4 типа контекстов: через глагол (AV); рядом (Near); не рядом (NN); в соседних предложениях (NS)

Основное правило:

NS > 2 * (AV + Near + NN)

Выделение квазисинонимов проходит в 3 этапа

«Классическая» составляющая: использование жестких контекстов (2 слова до и после сущности)

Использование формальных сходств сущностей-кандидатов

24.10.2011

22

Page 23: презентация (Quasi synonyms, вмк 25.10.2011)

ПРЕДЛАГАЕМЫЙ ПОДХОД: ЭТАПЫ

Этап 1: Совместное использование «жестких» контекстов и формальных сходств сущностей-кандидатов, таких как:

Метрики схожести (использовался простой вариант - одинаковые начала слов объектов)

«Вложенные» объекты (все слова одного объекта встречаются в другом)

«Пересекающиеся» объекты (слова объектов имеют пересечения)

Этап 2: Использование только «жестких» контекстов

Этап 3: Использование только формальных сходств

Каждый этап является итеративным (до тех пор, пока происходит хотя бы одна склейка)

24.10.2011

23

Page 24: презентация (Quasi synonyms, вмк 25.10.2011)

РЕЗУЛЬТАТЫ РАБОТЫ АЛГОРИТМА НА КЛАСТЕРЕ ПРИМЕРЕ

Авиабаза: авиабаза Манас, база, база Манас, военный база, закрытие базы

Денонсация соглашения с США: денонсация соглашения, денонсация договора, расторжение договора, соглашение, денонсация

Парламент Киргизии: Киргизский парламент, парламент Кыргызстана, парламент, киргизский, парламентский, парламентарий;

Манас: аэропорт Манас, Международный аэропорт Манас

24.10.2011

24

Page 25: презентация (Quasi synonyms, вмк 25.10.2011)

ТЕСТИРОВАНИЕ МЕТОДА

Оценка результата нетривиальна: высокая степень субъективности и низкая согласованность экспертов

«Человеческое» восприятие не самое главное – важна применимость в других задачах

Исследована применимость к задаче аннотирования

11 новостных кластеров, 2-4 ручные аннотации к каждому

Оценка содержания аннотаций методом «Пирамиды»

Ручное выделение «информационных единиц» – фактов

Итоговая оценка:

24.10.2011

25

кластераданногоИЕвсехвес

ИЕнайденныхвес

____

__

Page 26: презентация (Quasi synonyms, вмк 25.10.2011)

Maximal Marginal Relevance (MMR)

Известный метод для запрос-ориентированного аннотирования (1998)

Итеративный метод

Ранжирование предложений-кандидатов:

Максимизировать сходство с запросом

Минимизировать сходство с уже отобранными в аннотацию предложениями

Пусть: Q – запрос к системе, S – множество предложений кандидатов, s – рассматриваемое предложение кандидат, Е – множество выбранных предложений. Тогда:

24.10.2011

26

j

EsSs

ssSimQsSimMMRj

,max1,maxarg 21

Page 27: презентация (Quasi synonyms, вмк 25.10.2011)

Аннотирование на основе тематического представления текста

Построение тематического представления - разбиение понятий на группы близких по смыслу понятий (Тезаурус)

Оперируем не отдельными словами, а набором близких по смыслу слов, используемых именно в этом тексте

Аннотация состоит из заголовка и нескольких предложений (из разных документов кластера)

Заголовок – один из заголовков документов (по весу)

Основная идея: включение как уже упомянутого, так и нового тематического узла при отборе предложения

Выбирается предложение: Имеющее наибольший вес Содержащее уже упомянутый тематический узел Содержащее новый тематический узел

24.10.2011

27

Page 28: презентация (Quasi synonyms, вмк 25.10.2011)

РЕЗУЛЬТАТЫ 28

Название метода Оценка

M

M

R

MMR по словам 0,557

MMR по квазисинонимам 0,601

MMR по тематическим узлам тезауруса 0,537

Ан.

по

Т.У.

Аннотирование по тематическим узлам

(узлы на основе тезауруса) 0,560

Аннотирование по тематическим узлам

(узлы на основе рядов квазисинонимов, 30 штук) 0,669

Аннотирование по тематическим узлам

(узлы на основе рядов квазисинонимов, 50 штук) 0,665

Page 29: презентация (Quasi synonyms, вмк 25.10.2011)

ЗАКЛЮЧЕНИЕ

Поставлена задача выделения квазисинонимов в текстах

Дан обзор существующих подходов в данной области

Выдвинута и проверена гипотеза о скрытых взаимосвязях в реальных текстах

На основании гипотезы предложен новый подход для выделения квазисинонимов

Предложенный подход протестирован в контексте применимости к важной задаче автоматической обработки текста – автоматическое аннотирование

В дальнейшем предполагается создание комплексного метода, комбинирующего текущие ряды квазисинонимов с информацией из тезауруса 24.10.2011

29