Метрики семантической близости с приложениями к...

44
Введение PatternSim Сравнение HybridSim Приложения Метрики семантической близости с приложениями к задачам АОТ Александр Панченко Universit´ e catholique de Louvain [email protected] 1 апреля 2013 г. Александр Панченко 1/44

Upload: -claim

Post on 18-Jun-2015

504 views

Category:

Education


4 download

DESCRIPTION

Метрики семантической близости слов успешно применяются при решении многих задач Автоматической Обработки Текста (АОТ), таких как извлечение отношений, расширение поисковых запросов, разрешение омонимии и поиск семантически подобных текстов. Данная лекция начинается с обзора классических подходов к семантической близости основанных на семантических сетях, словарях и корпусах текстов. Далее мы представим две новые метрики близости. Первая основана на лексико-синтаксических шаблонах и корпусе текстов. Она обладает точностью сопоставимой с метриками основанными на WordNet. Вторая объединяет 16 разнородных метрик и обучена на множестве семантических отношений из словаря. Эксперименты показывают что данная метрика значительно превосходит по точности и полноте большинство существующих подходов. Лекция завершается обзором двух систем АОТ в которых применяются разработанные метрики. Страница проекта - serelex.it-claim.ru

TRANSCRIPT

Page 1: Метрики семантической близости с приложениями к задачам АОТ

Введение PatternSim Сравнение HybridSim Приложения

Метрики семантической близости сприложениями к задачам АОТ

Александр ПанченкоUniversite catholique de Louvain

[email protected]

1 апреля 2013 г.

Александр Панченко 1/44

Page 2: Метрики семантической близости с приложениями к задачам АОТ

Введение PatternSim Сравнение HybridSim Приложения

План

1 Введение

2 Метрика основанная на лексико-синтаксических шаблонах

3 Сравнение метрик семантической близости

4 Гибридная метрика семантической близости

5 Приложения метрик семантической близости

Александр Панченко 2/44

Page 3: Метрики семантической близости с приложениями к задачам АОТ

Введение PatternSim Сравнение HybridSim Приложения

План

1 Введение

2 Метрика основанная на лексико-синтаксических шаблонах

3 Сравнение метрик семантической близости

4 Гибридная метрика семантической близости

5 Приложения метрик семантической близостиПоиск и визуализация семантически связанных словКлассификация коротких текстов

Александр Панченко 3/44

Page 4: Метрики семантической близости с приложениями к задачам АОТ

Введение PatternSim Сравнение HybridSim Приложения

Введение

Мотивация

1 Синонимы, гиперонимы и ко-гипонимы полезны для:систем обработки коротких текстов (Saric et al., 2012;Panchenko at., 2012);расширешия поисковых запросов (Hsu et al., 2006);вопросно-ответных систем (Sun et al., 2005);

2 Ручное создание семантических ресурсов непозволительнодорого.

3 Качество существующих систем извлечения недостаточно.

Александр Панченко 4/44

Page 5: Метрики семантической близости с приложениями к задачам АОТ

Введение PatternSim Сравнение HybridSim Приложения

Семантические отношения и ресурсы

Определение

Семантический ресурс это ненаправленный граф (C ,R):узлы C представляют слова;дуги R представляют нетипизированные семантическиеотношения.

Александр Панченко 5/44

Page 6: Метрики семантической близости с приложениями к задачам АОТ

Введение PatternSim Сравнение HybridSim Приложения

Subject of the Research – Semantic Relation Extractors

We study the extractors based on two components:1 semantic similarity measures;2 nearest neighbors procedures.

Terms

Similarity Measure

R

S

NormalizerS

Semantic Similarity Measure

Semantic Relations

Feature Extractor

Text-Based Data

kNN Procedure

F

C

Semantic Relation Extractor

Александр Панченко 6/44

Page 7: Метрики семантической близости с приложениями к задачам АОТ

Введение PatternSim Сравнение HybridSim Приложения

Метрики семантической близости

Определение

Метрика семантической близости численно выражаетсемантическую связность двух ci , cj : sij = sim(ci , cj):

sij ={

high если 〈ci , cj〉 пара syn, hyper , cohypo0 иначе

Свойства

Неотрицательность: 0 ≤ sij ≤ 1;Рефлективность: sij = 1⇔ ci = cj ;Симметричность: sij = sji ;sij ≤ sik + skj

Александр Панченко 7/44

Page 8: Метрики семантической близости с приложениями к задачам АОТ

Введение PatternSim Сравнение HybridSim Приложения

Метрики семантической близости

Малое количество подобных пар, большое количествонесвязных пар: sij ∼ exp(λ):

Распределение подобия слова “doctor” (|C | > 200, 000):

Александр Панченко 8/44

Page 9: Метрики семантической близости с приложениями к задачам АОТ

Введение PatternSim Сравнение HybridSim Приложения

Оценка качества метрик семантической близости

1 корреляции с суждениями человека (MC, RG, WordSim);2 ранжирование семантических отношений (BLESS, SN);3 извлечение семантических отношений;4 использование извлеченных отношений в системе АОТ:

в системе классификации имен файлов (iCOP);с системе поиска семантически связанных слов (Serelex).

Александр Панченко 9/44

Page 10: Метрики семантической близости с приложениями к задачам АОТ

Введение PatternSim Сравнение HybridSim Приложения

План

1 Введение

2 Метрика основанная на лексико-синтаксических шаблонах

3 Сравнение метрик семантической близости

4 Гибридная метрика семантической близости

5 Приложения метрик семантической близостиПоиск и визуализация семантически связанных словКлассификация коротких текстов

Александр Панченко 10/44

Page 11: Метрики семантической близости с приложениями к задачам АОТ

Введение PatternSim Сравнение HybridSim Приложения

Публикации

Panchenko A., Morozova O., Naets H. “A SemanticSimilarity Measure Based on Lexico-Syntactic Patterns”.In Proceedings of KONVENS 2012, pp.174–178, 2012Panchenko A., Romanov P., Morozova O., Naets H.,Philippovich A., Fairon C. "Serelex: Search andVisualization of Semantically Related Words". InProceedings of the 35th European Conference on InformationRetrieva (ECIR 2013).Панченко А., Романов П., Романов А., Филиппович А.,Филиппович Ю., Морозова О. Серелекс: поиск ивизуализация семантически связанных слов. (АИСТ2013)

Александр Панченко 11/44

Page 12: Метрики семантической близости с приложениями к задачам АОТ

Введение PatternSim Сравнение HybridSim Приложения

Демо

http://serelex.cental.be/

Александр Панченко 12/44

Page 13: Метрики семантической близости с приложениями к задачам АОТ

Введение PatternSim Сравнение HybridSim Приложения

Лексико-синтаксические паттерны

18 паттернов извлекающих гиперонимы, ко-гипонимы исинонимы

Александр Панченко 13/44

Page 14: Метрики семантической близости с приложениями к задачам АОТ

Введение PatternSim Сравнение HybridSim Приложения

Основной каскад автоматов

Каскад конечных автоматов (FST)В формете Unitex

Александр Панченко 14/44

Page 15: Метрики семантической близости с приложениями к задачам АОТ

Введение PatternSim Сравнение HybridSim Приложения

Пример реализации паттерна в виде автомата

Гибкие правила позволяют учеть лингвистическуювариацию сохраняя точностьВ отличие от паттернов основанных на строках (Bollegalaet al., 2007)

Александр Панченко 15/44

Page 16: Метрики семантической близости с приложениями к задачам АОТ

Введение PatternSim Сравнение HybridSim Приложения

PatternSim: основные этапы

Корпус Wikipedia+ukWaC: 2.9 · 1012 токеновПаттерны извлекают конкордансы

such diverse {[occupations]} as {[doctors]},{[engineers]} and {[scientists]}[PATTERN=1]such {non-alcoholic [sodas]} as {[root beer]} and{[cream soda]}[PATTERN=1]{traditional[food]}, such as{[sandwich]},{[burger]}, and {[fry]}[PATTERN=2]

Количество извлечений

Wikipedia – 1.196.468ukWaC – 2.227.025WaCypedia+ukWaC – 3.423.493

Вычисление подобияАлександр Панченко 16/44

Page 17: Метрики семантической близости с приложениями к задачам АОТ

Введение PatternSim Сравнение HybridSim Приложения

Формула Efreq-Rnum-Cfreq-Pnum

sij =√

pij ·2 · µb

bi∗ + b∗j·

P(ci , cj)

P(ci )P(cj).

P(ci , cj) =eij∑ij eij

– вероятность извлечения отношения

между парой 〈ci , cj〉, где eij – частота взаимнойвстречаемости слов ci и cj в конкордансе K

P(ci ) =fi∑i fi

– вероятность слова ci , где fi – частота ci

bi∗ =∑

j :eij≥β 1 – количество извлечений слова ci с

частотой ≥ β, где µb = 1|C |∑|C |

i=1 bi∗ – среднее количествоизвлечений для словаpij ∈ [1; 18] – количество отдельных паттерновизвлечекших отношение 〈ci , cj〉

Александр Панченко 17/44

Page 18: Метрики семантической близости с приложениями к задачам АОТ

Введение PatternSim Сравнение HybridSim Приложения

Ранжирование семантических отношений

Точность сравнима или лучше чем у аналогов;Полнота меньше чем у аналогов.

Рис.: График точность-полнота (коллекция BLESS).Александр Панченко 18/44

Page 19: Метрики семантической близости с приложениями к задачам АОТ

Введение PatternSim Сравнение HybridSim Приложения

Извлечение семантических отношений

Точность@1 ≈ 0.80;“Хорошее” лексическое покрытие:

Александр Панченко 19/44

Page 20: Метрики семантической близости с приложениями к задачам АОТ

Введение PatternSim Сравнение HybridSim Приложения

План

1 Введение

2 Метрика основанная на лексико-синтаксических шаблонах

3 Сравнение метрик семантической близости

4 Гибридная метрика семантической близости

5 Приложения метрик семантической близостиПоиск и визуализация семантически связанных словКлассификация коротких текстов

Александр Панченко 20/44

Page 21: Метрики семантической близости с приложениями к задачам АОТ

Введение PatternSim Сравнение HybridSim Приложения

Проанализированные метрики близости

37 различных метрик;Вопрос 1: Дополняют ли метрики друг друга?Вопрос 2: Если да то в каких аспектах?

Александр Панченко 21/44

Page 22: Метрики семантической близости с приложениями к задачам АОТ

Введение PatternSim Сравнение HybridSim Приложения

Лучшие метрики семантической близости (MC, RG,WordSim, BLESS, SN)

Каждый излекает большое количество ко-гипонимов:〈Canon,Nikon〉,〈Lamborghini ,Ferrari〉,〈Obama,Romney〉.

Александр Панченко 22/44

Page 23: Метрики семантической близости с приложениями к задачам АОТ

Введение PatternSim Сравнение HybridSim Приложения

Резюме

Метрики дополняют друг друга в терминах:

лексического покрытия;точности;типов извлекаемых отношений.

Александр Панченко 23/44

Page 24: Метрики семантической близости с приложениями к задачам АОТ

Введение PatternSim Сравнение HybridSim Приложения

План

1 Введение

2 Метрика основанная на лексико-синтаксических шаблонах

3 Сравнение метрик семантической близости

4 Гибридная метрика семантической близости

5 Приложения метрик семантической близостиПоиск и визуализация семантически связанных словКлассификация коротких текстов

Александр Панченко 24/44

Page 25: Метрики семантической близости с приложениями к задачам АОТ

Введение PatternSim Сравнение HybridSim Приложения

Публикациии

Panchenko A., Morozova O., Naets H. “A SemanticSimilarity Measure Based on Lexico-Syntactic Patterns”.In Proceedings of KONVENS 2012, pp.174–178, 2012Panchenko A., “Similarity Measures for Semantic RelationExtraction”. PhD thesis. Universite catholique de Louvain.197 pages, 2013.

Александр Панченко 25/44

Page 26: Метрики семантической близости с приложениями к задачам АОТ

Введение PatternSim Сравнение HybridSim Приложения

Отдельные и гибридные метрики

Terms, C

simi

(a) (b)

combination method

Scmb

S1 SN

sim1

S1

simN

normSN

...

...norm

normScmb

knn

R

Si

normSi

knn

Single Similarity Measure

Hybrid Similarity Measure

Relations,

Terms, C

RRelations,

Features

Рис.: Система извлечения семантических отношений основанная на:

(a) отдельной метрике;

(b) гибридной метрике.

Александр Панченко 26/44

Page 27: Метрики семантической близости с приложениями к задачам АОТ

Введение PatternSim Сравнение HybridSim Приложения

16 признаков = 16 отдельных метрик

5 метрик основанных на семантических сетях:1 WuPalmer;2 Leacock and Chodorow;3 Resnik;4 Jiang and Conrath;5 Lin.

3 метрики основанных на Веб корпусе(NGD-Yahoo/Bing/Google);5 метрики основанные на корпусе текстов:

2 дистрибутивных (BDA, SDA)1 лексико-синтаксические шаблоны (PatternSim)2 другие (LSA, NGD-Factiva)

3 метрики основанные на определениях1 ExtendedLesk;2 GlossVectors;3 DefVectors-WktWiki.

Александр Панченко 27/44

Page 28: Метрики семантической близости с приложениями к задачам АОТ

Введение PatternSim Сравнение HybridSim Приложения

Способы комбинирования без учителя

1 Mean: scmbij = 1

K∑

k=1,K skij ;

2 Mean-Nnz: scmbij = 1

|k:skij>0,k=1,K |

∑k=1,K sk

ij ;

3 Mean-Zscore: Scmb = 1K∑K

k=1Sk−µkσk

;

4 Median: scmbij = median(s1

ij , . . . , sKij );

5 Max: scmbij = max(s1

ij , . . . , sKij );

6 RankFusion: scmbij = 1

K∑

k=1,K rkij ;

7 RelationFusion (Panchenko and Morozova, 2012).

Александр Панченко 28/44

Page 29: Метрики семантической близости с приложениями к задачам АОТ

Введение PatternSim Сравнение HybridSim Приложения

Методы комбинирования с учителем

8 Logit, Logit-L1, Logit-L2.Бинарная логистическая регрессия;Положительные обучающие примеры – синонимы,гиперонимы, ко-гипонимы из BLESS/SN;Отрицательные обучающие примеры – случайные парысемантически несвязных слов BLESS/SN;Отношение 〈ci , t, cj〉 ∈ R представлена с помощью векторапопарной близостей: x = (s1

ij , . . . , sNij ),N = 2, 16;

Категория yij :

yij =

{0 if 〈ci , t, cj〉 случайное отношение1 иначе

Использование модели (w1, . . . ,wK ) длякомбинирования:

scmbij =

11+ e−z , z =

K∑k=1

wkskij + w0.

Александр Панченко 29/44

Page 30: Метрики семантической близости с приложениями к задачам АОТ

Введение PatternSim Сравнение HybridSim Приложения

Методы комбинирования с учителем

9 SVM.

Веса w и опорные вектораSV :

w =∑

xi∈SV

αiyixi .

Использование модели

scmbij = wTx+b =

K∑k=1

wi skij +b.

Александр Панченко 30/44

Page 31: Метрики семантической близости с приложениями к задачам АОТ

Введение PatternSim Сравнение HybridSim Приложения

Методы комбинирования с учителем

График Точность-Полнота вычисленный на коллекции BLESS:(a) 16 отдельных метрик и гибридная метрика Logit-E15;(b) 8 гибридных метрик.

Александр Панченко 31/44

Page 32: Метрики семантической близости с приложениями к задачам АОТ

Введение PatternSim Сравнение HybridSim Приложения

Методы комбинирования с учителем Logit-E15

Рис.: Значение подобия между 74 словами связанными со словом“acacia”.

Александр Панченко 32/44

Page 33: Метрики семантической близости с приложениями к задачам АОТ

Введение PatternSim Сравнение HybridSim Приложения

Методы комбинирования с учителем

Александр Панченко 33/44

Page 34: Метрики семантической близости с приложениями к задачам АОТ

Введение PatternSim Сравнение HybridSim Приложения

Методы комбинирования с учителем (продолжение)

Рис.: Оптимизация мета-параметров метрики C-SVM-radial-E15.

Александр Панченко 34/44

Page 35: Метрики семантической близости с приложениями к задачам АОТ

Введение PatternSim Сравнение HybridSim Приложения

План

1 Введение

2 Метрика основанная на лексико-синтаксических шаблонах

3 Сравнение метрик семантической близости

4 Гибридная метрика семантической близости

5 Приложения метрик семантической близостиПоиск и визуализация семантически связанных словКлассификация коротких текстов

Александр Панченко 35/44

Page 36: Метрики семантической близости с приложениями к задачам АОТ

Введение PatternSim Сравнение HybridSim Приложения

Поиск и визуализация семантически связанных слов

План

1 Введение

2 Метрика основанная на лексико-синтаксических шаблонах

3 Сравнение метрик семантической близости

4 Гибридная метрика семантической близости

5 Приложения метрик семантической близостиПоиск и визуализация семантически связанных словКлассификация коротких текстов

Александр Панченко 36/44

Page 37: Метрики семантической близости с приложениями к задачам АОТ

Введение PatternSim Сравнение HybridSim Приложения

Поиск и визуализация семантически связанных слов

Серелекс: результаты в виде списка и графа слов

http://serelex.cental.be/

Александр Панченко 37/44

Page 38: Метрики семантической близости с приложениями к задачам АОТ

Введение PatternSim Сравнение HybridSim Приложения

Поиск и визуализация семантически связанных слов

Серелекс: результаты в виде множества изображений

Александр Панченко 38/44

Page 39: Метрики семантической близости с приложениями к задачам АОТ

Введение PatternSim Сравнение HybridSim Приложения

Поиск и визуализация семантически связанных слов

Оценка качества работы системы Серелекс

Рис.: Удовлетворенность пользователей первыми 20 результатамипоиска для 353 запросов.

Александр Панченко 39/44

Page 40: Метрики семантической близости с приложениями к задачам АОТ

Введение PatternSim Сравнение HybridSim Приложения

Классификация коротких текстов

План

1 Введение

2 Метрика основанная на лексико-синтаксических шаблонах

3 Сравнение метрик семантической близости

4 Гибридная метрика семантической близости

5 Приложения метрик семантической близостиПоиск и визуализация семантически связанных словКлассификация коротких текстов

Александр Панченко 40/44

Page 41: Метрики семантической близости с приложениями к задачам АОТ

Введение PatternSim Сравнение HybridSim Приложения

Классификация коротких текстов

iCop: классификация имен файлов

Рис.: Структура системы.

Использование семантических отношений для расширенияимени файла (Vocabulary Projection).

Александр Панченко 41/44

Page 42: Метрики семантической близости с приложениями к задачам АОТ

Введение PatternSim Сравнение HybridSim Приложения

Классификация коротких текстов

iCop: пример Vocabulary Projection

Александр Панченко 42/44

Page 43: Метрики семантической близости с приложениями к задачам АОТ

Введение PatternSim Сравнение HybridSim Приложения

Классификация коротких текстов

Качество классификации

Обучающая выборка Тестовая выборка Accuracy Accuracy (voc. projection)Gallery (train) Gallery 96.41 96.83 (+0.42)PirateBay Title+Desc+Tags PirateBay Title+Desc+Tags 98.92 98.86 (–0.06)PirateBay Title+Tags PirateBay Title+Tags 97.73 97.63 (–0.10)Gallery PirateBay Title+Desc+Tags 90.57 91.48 (+0.91)Gallery PirateBay Title+Tags 84.23 88.89 (+4.66)PirateBay Title+Desc+Tags Gallery 88.83 89.04 (+0.21)PirateBay Title+Tags Gallery 91.16 91.30 (+0.14)

Таблица: Качество классификации с использованием C-SVM-linear cучетом кросс-валидации.

Александр Панченко 43/44

Page 44: Метрики семантической близости с приложениями к задачам АОТ

Введение PatternSim Сравнение HybridSim Приложения

Классификация коротких текстов

Спасибо за внимание!Вопросы?

Александр Панченко 44/44