презентация (quasi synonyms, вмк 25.10.2011)

Post on 25-Jan-2015

713 Views

Category:

Documents

3 Downloads

Preview:

Click to see full reader

DESCRIPTION

 

TRANSCRIPT

АВТОМАТИЧЕСКОЕ ИЗВЛЕЧЕНИЕ СУЩНОСТЕЙ НА

ОСНОВЕ СТРУКТУРЫ НОВОСТНОГО КЛАСТЕРА

Автор: Алексеев Алексей Александрович Научный руководитель: Лукашевич Наталья Валентиновна

ОБРАБОТКА ПОТОКОВ НОВОСТЕЙ

Новостные сервисы (30-40 тыс. документов в день)

Кластеризация новостей на одну тему – новостной кластер (вхождения слов)

Удаление дубликатов

Рубрикация по тематическим рубрикам

Автоматическое аннотирование

Определение новизны

Извлечение информации

Многие операции выполняются на основе пословного представления

24.10.2011

2

ПРОБЛЕМЫ ПОСЛОВНОГО ПРЕДСТАВЛЕНИЯ

Одна сущность названа посредством цепочки слов (многословным выражением)

В кластере используется много разных наименований одной и той же сущности

Авиабаза США в Киргизии:

база Манас, авиабаза Манас, Манас,

база в международном аэропорту Манас,

база США, американская авиабаза

Проблемы:

Определение границ кластера

Автоматическое порождение аннотации

Определение новизны информации

Выделение подкластеров и др. 24.10.2011

3

ПРИРОДА ВОЗНИКНОВЕНИЯ ВАРИАТИВНОСТИ - 1

Цель использования: Референция (отнесенность языкового выражения к одному

и тому же объекту действительности) 3 февраля президент Киргизии Курманбек Бакиев заявил о решении правительства прекратить деятельность авиабазы на территории республики… Президент не стал скрывать, что экономические резоны стали главной причиной побудившей правительство страны принять такое решение.

Перефразирование (изменение текста без изменения смысла - рерайтинг)

Судьбу авиабазы США в "Манасе" решит парламент Киргизии. Парламент Киргизии в четверг примет окончательное решение о судьбе авиабазы США.

Лексическая связность (обеспечение связности текста посредством известных взаимоотношений слов) 24.10.2011

4

ПРИРОДА ВОЗНИКНОВЕНИЯ ВАРИАТИВНОСТИ - 2

Привязка к контексту: Общеизвестно (Киргизия – Киргизстан)

Выводится из контекста В декабре 2006 года 46-летний водитель топливозаправщика киргизской фирмы, занимающейся обслуживанием аэропорта "Манас", Александр Иванов, был расстрелян в упор охранником авиабазы Закари Хатфилдом на КПП при въезде на перрон аэропорта"… Американский военный, несмотря на неоднократные требования киргизского МИДа, также был тайно вывезен с территории страны и до сих пор не предстал перед судом.

Одинаково по смыслу (синонимы) или близко по смыслу (часть-целое, род-вид)

Власти Киргизии не опасаются, что решение о закрытии базы может привести к обострению взаимоотношений с США и западноевропейским государствами. "Никаких политических разногласий у нас с США нет."

24.10.2011

5

МЕТОДЫ УСЛОЖНЕНИЯ ПРЕДСТАВЛЕНИЯ

Применение тезаурусов Синонимы

Словосочетания

Лексические цепочки

Но: все заранее описать невозможно

Разрешение кореферентности Именованные объекты

Полное и частичное наименование

Разрешение кореферентности

Но: вариативность наименования относится не только к именованным сущностям

24.10.2011

6

МНОГОСЛОВНЫЕ ВЫРАЖЕНИЯ И КВАЗИСИНОНИМЫ

Многословные выражения, отдельные части которых зачастую не отражают смысла всего выражения («Российская Федерация», «Авиабаза Манас»)

Квазисинонимы – слова или выражения, которые не являются синонимами в общем случае, но могут таковыми являться к некотором контексте

Например, слова «ПРЕЗИДЕНТ» и «ДИКТАТОР» не являются синонимами в общем случае, но в контексте некоторого специфичного текста могут таковыми являться

24.10.2011

7

ИДЕЯ ИССЛЕДОВАНИЯ

Новостной кластер содержит множество документов на одну и ту же тему

Рерайтеры специально переписывают тексты, используя синонимы и близкие по смыслу слова

Задача: на основе структуры кластера

извлечь многословные выражения, обозначающие основные сущности кластера,

найти слова и словосочетания, являющиеся квазисинонимами в рамках данного кластера

Метод:

Свойства связного текста - глобальная связность

Новостной кластер (посвящен одной теме) 24.10.2011

8

ПЛАН ДОКЛАДА

Постановка задачи выделения многословных выражений и квазисинонимов

Обзор существующих методов

Гипотеза и ее проверка

Предлагаемый подход и его оценка

Заключение 24.10.2011

9

Context-based Quasi-Synonym Extraction - 1 University of Massachusetts, USA, 2009

Van Dang, Xiaobing Xue and W. Bruce Croft

Извлечение квазисинонимов из текстового корпуса

Метод основан на анализе контекстов употребления кандидатов в квазисинонимы (как и большинство существующих методов)

Различия методов: какой контекст рассматривать и с помощью какой метрики вычислять меру схожести

В работе предлагается метод акцентирующийся на качестве, а не на типе контекста

Например слова-кандидаты «пистолет» и «ружьё» и контекстные слова «целиться» и «положить»:

“.. положить пистолет в сумку ..“ – “.. положить ружье в сумку..”

“.. целиться из пистолета .. “ – “.. целиться из ружья ..” 24.10.2011

10

Чем чаще слово употребляется в различных контекстах, тем меньше контекстной информации оно несёт:

W – количество слов с данным контекстом

Z – нормализующий параметр

Контекст слова – n-грамма слов вокруг него

Предложено два варианта вычисления квазисинонимичности выражений: с начислением «штрафных» баллов за несовпадающий контекст и без

Идея – чем больше контекстов лучшего качества выражения разделяют, тем выше их квазисинонимичность

24.10.2011

11

WZсP

11)(

Context-based Quasi-Synonym Extraction - 2 University of Massachusetts, USA, 2009

Van Dang, Xiaobing Xue and W. Bruce Croft

Extracting Paraphrases from a Parallel Corpus - 1 Columbia University, USA, 2001

Regina Barzilay and Kathleen R. McKeown

Задача – построение корпуса парафраз для дальнейшего его применения в различных областях

Сравнении различных переводов одного и того же текста

Использовались различные переводы различных романов на английский язык (всего 11 текстов)

Препроцессинг: выравнивание предложений текстов (на основе одинаковых слов, которых было 42%, P = 92%)

Всего получилось 44.562 предложения (1.798.526 слов)

Алгоритм взаимного обучения (co-training)

24.10.2011

12

Шаблоны (паттерны) парафраз: последовательность частей речи с пометками о повторении слов:

Emma burst into tears and he tried to comfort her, saying things to make her smile.

Emma cried, and he tried to console her, adorning his words with puns.

left =“VB1 TO2 ” (“tried to”) right =“PRP$3 ,4 ” (“her ,”)

Инициализация алгоритма: шаблоны контекстов одинаковых слов

В качестве отрицательных примеров – остальные сочетания со словами предложения ((n-1) + (m-1))

После извлечения шаблонов опять извлекаются парафразы и алгоритм зацикливается

24.10.2011

13

Extracting Paraphrases from a Parallel Corpus - 2 Columbia University, USA, 2001

Regina Barzilay and Kathleen R. McKeown

Длина контекста – 3 слова (но также запоминаются более короткие контексты, так как они иногда лучше)

В рамках оценки результатов проведен анализ согласованности асессоров при определении парафраз

Согласованность асессоров:

68% без контекстов 97% с контекстами

Точность:

~85% без контекстов ~92% с контекстами

Полнота: 69%

Синонимы( 35%) гиперонимы (32%) сёстры (18%) без связи (10%) другие типы связи (5%)

24.10.2011

14

Extracting Paraphrases from a Parallel Corpus - 3 Columbia University, USA, 2001

Regina Barzilay and Kathleen R. McKeown

ПЛАН ДОКЛАДА

Постановка задачи выделения многословных выражений и квазисинонимов

Обзор существующих методов

Гипотеза и ее проверка

Предлагаемый подход и его оценка

Заключение 24.10.2011

15

ГЛОБАЛЬНАЯ СВЯЗНОСТЬ ТЕКСТА

Van Dijk и гипотеза глобальной связности (1985)

Связный текст имеет одну главную тему и эта тема может быть выражена как пропозиция

Тема целого текста раскрывается в тексте посредством локальных тем

Каждое предложение текста соответствует некоторой теме текста

Механизм глобальной связности позволяет контролировать локальный связки и переходы

24.10.2011

16

ЛЕКСИЧЕСКАЯ СВЯЗНОСТЬ vs.

ГЛОБАЛЬНАЯ СВЯЗНОСТЬ

Связный текст обладает лексической связностью: лексические и семантические повторы

Лексическая связность – инструмент глобальной связности

Чем больше две сущности упоминаются в одних и тех же предложениях текста, тем более важно отношение между ними для содержания текста

Если сущности часто упоминаются, но мало встречаются в одних и тех же предложениях текста, то возможно они связаны между собой по смыслу (синоним, род-вид, часть-целое)

24.10.2011

17

АНАЛИЗ И ПРОВЕРКА ГИПОТЕЗЫ - 1

Проверка предположений была произведена с помощью Тезауруса русского языка РуТез

В качестве правильных примеров квазисинонимии рассматривались объекты, связанные в Тезаурусе

Различные типы связи рассматривались отдельно

Две группы по частям речи:

СУЩ. + СУЩ. # ПРИЛ. + СУЩ.

Для каждой пары объектов вычислялись количество вхождений в одни и те же предложения (Fsegm) и в соседние (Fsent)

24.10.2011

18

АНАЛИЗ И ПРОВЕРКА ГИПОТЕЗЫ - 2 19

Тип связи Fsegm / Fsent Число пар

Синонимы (СУЩ + СУЩ) 0.309 31

Синонимы (ПРИЛ + СУЩ) 0.491 53

Род – Вид (СУЩ + СУЩ) 1.130 88

Род – Вид (ПРИЛ + СУЩ) 1.471 28

Часть – Целое (СУЩ + СУЩ) 0.779 58

Часть – Целое (ПРИЛ + СУЩ) 1.580 29

Без связи по Тезаурусу 1.440 21483

НОВОСТНЫЕ КЛАСТЕРЫ И СВОЙСТВА СВЯЗНОГО ТЕКСТА

Кластер – не является связным текстом, но имеет тему кластера

статистические особенности усиливаются

Извлечение Многословных выражений,

Совокупностей квазисинонимов

Пример: Новостной кластер от 19.02.2009

Тема: Денонсация соглашения между Киргизией и США по поводу авиабазы США, расположенной в международном аэропорту Манас

195 новостных документов 24.10.2011

20

ПЛАН ДОКЛАДА

Постановка задачи выделения многословных выражений и квазисинонимов

Обзор существующих методов

Гипотеза и ее проверка

Предлагаемый подход и его оценка

Заключение 24.10.2011

21

ПРЕДЛАГАЕМЫЙ ПОДХОД

Комбинация классического подхода (анализ контекстов) с гипотезой совместной встречаемости

4 типа контекстов: через глагол (AV); рядом (Near); не рядом (NN); в соседних предложениях (NS)

Основное правило:

NS > 2 * (AV + Near + NN)

Выделение квазисинонимов проходит в 3 этапа

«Классическая» составляющая: использование жестких контекстов (2 слова до и после сущности)

Использование формальных сходств сущностей-кандидатов

24.10.2011

22

ПРЕДЛАГАЕМЫЙ ПОДХОД: ЭТАПЫ

Этап 1: Совместное использование «жестких» контекстов и формальных сходств сущностей-кандидатов, таких как:

Метрики схожести (использовался простой вариант - одинаковые начала слов объектов)

«Вложенные» объекты (все слова одного объекта встречаются в другом)

«Пересекающиеся» объекты (слова объектов имеют пересечения)

Этап 2: Использование только «жестких» контекстов

Этап 3: Использование только формальных сходств

Каждый этап является итеративным (до тех пор, пока происходит хотя бы одна склейка)

24.10.2011

23

РЕЗУЛЬТАТЫ РАБОТЫ АЛГОРИТМА НА КЛАСТЕРЕ ПРИМЕРЕ

Авиабаза: авиабаза Манас, база, база Манас, военный база, закрытие базы

Денонсация соглашения с США: денонсация соглашения, денонсация договора, расторжение договора, соглашение, денонсация

Парламент Киргизии: Киргизский парламент, парламент Кыргызстана, парламент, киргизский, парламентский, парламентарий;

Манас: аэропорт Манас, Международный аэропорт Манас

24.10.2011

24

ТЕСТИРОВАНИЕ МЕТОДА

Оценка результата нетривиальна: высокая степень субъективности и низкая согласованность экспертов

«Человеческое» восприятие не самое главное – важна применимость в других задачах

Исследована применимость к задаче аннотирования

11 новостных кластеров, 2-4 ручные аннотации к каждому

Оценка содержания аннотаций методом «Пирамиды»

Ручное выделение «информационных единиц» – фактов

Итоговая оценка:

24.10.2011

25

кластераданногоИЕвсехвес

ИЕнайденныхвес

____

__

Maximal Marginal Relevance (MMR)

Известный метод для запрос-ориентированного аннотирования (1998)

Итеративный метод

Ранжирование предложений-кандидатов:

Максимизировать сходство с запросом

Минимизировать сходство с уже отобранными в аннотацию предложениями

Пусть: Q – запрос к системе, S – множество предложений кандидатов, s – рассматриваемое предложение кандидат, Е – множество выбранных предложений. Тогда:

24.10.2011

26

j

EsSs

ssSimQsSimMMRj

,max1,maxarg 21

Аннотирование на основе тематического представления текста

Построение тематического представления - разбиение понятий на группы близких по смыслу понятий (Тезаурус)

Оперируем не отдельными словами, а набором близких по смыслу слов, используемых именно в этом тексте

Аннотация состоит из заголовка и нескольких предложений (из разных документов кластера)

Заголовок – один из заголовков документов (по весу)

Основная идея: включение как уже упомянутого, так и нового тематического узла при отборе предложения

Выбирается предложение: Имеющее наибольший вес Содержащее уже упомянутый тематический узел Содержащее новый тематический узел

24.10.2011

27

РЕЗУЛЬТАТЫ 28

Название метода Оценка

M

M

R

MMR по словам 0,557

MMR по квазисинонимам 0,601

MMR по тематическим узлам тезауруса 0,537

Ан.

по

Т.У.

Аннотирование по тематическим узлам

(узлы на основе тезауруса) 0,560

Аннотирование по тематическим узлам

(узлы на основе рядов квазисинонимов, 30 штук) 0,669

Аннотирование по тематическим узлам

(узлы на основе рядов квазисинонимов, 50 штук) 0,665

ЗАКЛЮЧЕНИЕ

Поставлена задача выделения квазисинонимов в текстах

Дан обзор существующих подходов в данной области

Выдвинута и проверена гипотеза о скрытых взаимосвязях в реальных текстах

На основании гипотезы предложен новый подход для выделения квазисинонимов

Предложенный подход протестирован в контексте применимости к важной задаче автоматической обработки текста – автоматическое аннотирование

В дальнейшем предполагается создание комплексного метода, комбинирующего текущие ряды квазисинонимов с информацией из тезауруса 24.10.2011

29

top related