Метрики семантической близости с приложениями к...
DESCRIPTION
Метрики семантической близости слов успешно применяются при решении многих задач Автоматической Обработки Текста (АОТ), таких как извлечение отношений, расширение поисковых запросов, разрешение омонимии и поиск семантически подобных текстов. Данная лекция начинается с обзора классических подходов к семантической близости основанных на семантических сетях, словарях и корпусах текстов. Далее мы представим две новые метрики близости. Первая основана на лексико-синтаксических шаблонах и корпусе текстов. Она обладает точностью сопоставимой с метриками основанными на WordNet. Вторая объединяет 16 разнородных метрик и обучена на множестве семантических отношений из словаря. Эксперименты показывают что данная метрика значительно превосходит по точности и полноте большинство существующих подходов. Лекция завершается обзором двух систем АОТ в которых применяются разработанные метрики. Страница проекта - serelex.it-claim.ruTRANSCRIPT
Введение PatternSim Сравнение HybridSim Приложения
Метрики семантической близости сприложениями к задачам АОТ
Александр ПанченкоUniversite catholique de Louvain
1 апреля 2013 г.
Александр Панченко 1/44
Введение PatternSim Сравнение HybridSim Приложения
План
1 Введение
2 Метрика основанная на лексико-синтаксических шаблонах
3 Сравнение метрик семантической близости
4 Гибридная метрика семантической близости
5 Приложения метрик семантической близости
Александр Панченко 2/44
Введение PatternSim Сравнение HybridSim Приложения
План
1 Введение
2 Метрика основанная на лексико-синтаксических шаблонах
3 Сравнение метрик семантической близости
4 Гибридная метрика семантической близости
5 Приложения метрик семантической близостиПоиск и визуализация семантически связанных словКлассификация коротких текстов
Александр Панченко 3/44
Введение PatternSim Сравнение HybridSim Приложения
Введение
Мотивация
1 Синонимы, гиперонимы и ко-гипонимы полезны для:систем обработки коротких текстов (Saric et al., 2012;Panchenko at., 2012);расширешия поисковых запросов (Hsu et al., 2006);вопросно-ответных систем (Sun et al., 2005);
2 Ручное создание семантических ресурсов непозволительнодорого.
3 Качество существующих систем извлечения недостаточно.
Александр Панченко 4/44
Введение PatternSim Сравнение HybridSim Приложения
Семантические отношения и ресурсы
Определение
Семантический ресурс это ненаправленный граф (C ,R):узлы C представляют слова;дуги R представляют нетипизированные семантическиеотношения.
Александр Панченко 5/44
Введение PatternSim Сравнение HybridSim Приложения
Subject of the Research – Semantic Relation Extractors
We study the extractors based on two components:1 semantic similarity measures;2 nearest neighbors procedures.
Terms
Similarity Measure
R
S
NormalizerS
Semantic Similarity Measure
Semantic Relations
Feature Extractor
Text-Based Data
kNN Procedure
F
C
Semantic Relation Extractor
Александр Панченко 6/44
Введение PatternSim Сравнение HybridSim Приложения
Метрики семантической близости
Определение
Метрика семантической близости численно выражаетсемантическую связность двух ci , cj : sij = sim(ci , cj):
sij ={
high если 〈ci , cj〉 пара syn, hyper , cohypo0 иначе
Свойства
Неотрицательность: 0 ≤ sij ≤ 1;Рефлективность: sij = 1⇔ ci = cj ;Симметричность: sij = sji ;sij ≤ sik + skj
Александр Панченко 7/44
Введение PatternSim Сравнение HybridSim Приложения
Метрики семантической близости
Малое количество подобных пар, большое количествонесвязных пар: sij ∼ exp(λ):
Распределение подобия слова “doctor” (|C | > 200, 000):
Александр Панченко 8/44
Введение PatternSim Сравнение HybridSim Приложения
Оценка качества метрик семантической близости
1 корреляции с суждениями человека (MC, RG, WordSim);2 ранжирование семантических отношений (BLESS, SN);3 извлечение семантических отношений;4 использование извлеченных отношений в системе АОТ:
в системе классификации имен файлов (iCOP);с системе поиска семантически связанных слов (Serelex).
Александр Панченко 9/44
Введение PatternSim Сравнение HybridSim Приложения
План
1 Введение
2 Метрика основанная на лексико-синтаксических шаблонах
3 Сравнение метрик семантической близости
4 Гибридная метрика семантической близости
5 Приложения метрик семантической близостиПоиск и визуализация семантически связанных словКлассификация коротких текстов
Александр Панченко 10/44
Введение PatternSim Сравнение HybridSim Приложения
Публикации
Panchenko A., Morozova O., Naets H. “A SemanticSimilarity Measure Based on Lexico-Syntactic Patterns”.In Proceedings of KONVENS 2012, pp.174–178, 2012Panchenko A., Romanov P., Morozova O., Naets H.,Philippovich A., Fairon C. "Serelex: Search andVisualization of Semantically Related Words". InProceedings of the 35th European Conference on InformationRetrieva (ECIR 2013).Панченко А., Романов П., Романов А., Филиппович А.,Филиппович Ю., Морозова О. Серелекс: поиск ивизуализация семантически связанных слов. (АИСТ2013)
Александр Панченко 11/44
Введение PatternSim Сравнение HybridSim Приложения
Демо
http://serelex.cental.be/
Александр Панченко 12/44
Введение PatternSim Сравнение HybridSim Приложения
Лексико-синтаксические паттерны
18 паттернов извлекающих гиперонимы, ко-гипонимы исинонимы
Александр Панченко 13/44
Введение PatternSim Сравнение HybridSim Приложения
Основной каскад автоматов
Каскад конечных автоматов (FST)В формете Unitex
Александр Панченко 14/44
Введение PatternSim Сравнение HybridSim Приложения
Пример реализации паттерна в виде автомата
Гибкие правила позволяют учеть лингвистическуювариацию сохраняя точностьВ отличие от паттернов основанных на строках (Bollegalaet al., 2007)
Александр Панченко 15/44
Введение PatternSim Сравнение HybridSim Приложения
PatternSim: основные этапы
Корпус Wikipedia+ukWaC: 2.9 · 1012 токеновПаттерны извлекают конкордансы
such diverse {[occupations]} as {[doctors]},{[engineers]} and {[scientists]}[PATTERN=1]such {non-alcoholic [sodas]} as {[root beer]} and{[cream soda]}[PATTERN=1]{traditional[food]}, such as{[sandwich]},{[burger]}, and {[fry]}[PATTERN=2]
Количество извлечений
Wikipedia – 1.196.468ukWaC – 2.227.025WaCypedia+ukWaC – 3.423.493
Вычисление подобияАлександр Панченко 16/44
Введение PatternSim Сравнение HybridSim Приложения
Формула Efreq-Rnum-Cfreq-Pnum
sij =√
pij ·2 · µb
bi∗ + b∗j·
P(ci , cj)
P(ci )P(cj).
P(ci , cj) =eij∑ij eij
– вероятность извлечения отношения
между парой 〈ci , cj〉, где eij – частота взаимнойвстречаемости слов ci и cj в конкордансе K
P(ci ) =fi∑i fi
– вероятность слова ci , где fi – частота ci
bi∗ =∑
j :eij≥β 1 – количество извлечений слова ci с
частотой ≥ β, где µb = 1|C |∑|C |
i=1 bi∗ – среднее количествоизвлечений для словаpij ∈ [1; 18] – количество отдельных паттерновизвлечекших отношение 〈ci , cj〉
Александр Панченко 17/44
Введение PatternSim Сравнение HybridSim Приложения
Ранжирование семантических отношений
Точность сравнима или лучше чем у аналогов;Полнота меньше чем у аналогов.
Рис.: График точность-полнота (коллекция BLESS).Александр Панченко 18/44
Введение PatternSim Сравнение HybridSim Приложения
Извлечение семантических отношений
Точность@1 ≈ 0.80;“Хорошее” лексическое покрытие:
Александр Панченко 19/44
Введение PatternSim Сравнение HybridSim Приложения
План
1 Введение
2 Метрика основанная на лексико-синтаксических шаблонах
3 Сравнение метрик семантической близости
4 Гибридная метрика семантической близости
5 Приложения метрик семантической близостиПоиск и визуализация семантически связанных словКлассификация коротких текстов
Александр Панченко 20/44
Введение PatternSim Сравнение HybridSim Приложения
Проанализированные метрики близости
37 различных метрик;Вопрос 1: Дополняют ли метрики друг друга?Вопрос 2: Если да то в каких аспектах?
Александр Панченко 21/44
Введение PatternSim Сравнение HybridSim Приложения
Лучшие метрики семантической близости (MC, RG,WordSim, BLESS, SN)
Каждый излекает большое количество ко-гипонимов:〈Canon,Nikon〉,〈Lamborghini ,Ferrari〉,〈Obama,Romney〉.
Александр Панченко 22/44
Введение PatternSim Сравнение HybridSim Приложения
Резюме
Метрики дополняют друг друга в терминах:
лексического покрытия;точности;типов извлекаемых отношений.
Александр Панченко 23/44
Введение PatternSim Сравнение HybridSim Приложения
План
1 Введение
2 Метрика основанная на лексико-синтаксических шаблонах
3 Сравнение метрик семантической близости
4 Гибридная метрика семантической близости
5 Приложения метрик семантической близостиПоиск и визуализация семантически связанных словКлассификация коротких текстов
Александр Панченко 24/44
Введение PatternSim Сравнение HybridSim Приложения
Публикациии
Panchenko A., Morozova O., Naets H. “A SemanticSimilarity Measure Based on Lexico-Syntactic Patterns”.In Proceedings of KONVENS 2012, pp.174–178, 2012Panchenko A., “Similarity Measures for Semantic RelationExtraction”. PhD thesis. Universite catholique de Louvain.197 pages, 2013.
Александр Панченко 25/44
Введение PatternSim Сравнение HybridSim Приложения
Отдельные и гибридные метрики
Terms, C
simi
(a) (b)
combination method
Scmb
S1 SN
sim1
S1
simN
normSN
...
...norm
normScmb
knn
R
Si
normSi
knn
Single Similarity Measure
Hybrid Similarity Measure
Relations,
Terms, C
RRelations,
Features
Рис.: Система извлечения семантических отношений основанная на:
(a) отдельной метрике;
(b) гибридной метрике.
Александр Панченко 26/44
Введение PatternSim Сравнение HybridSim Приложения
16 признаков = 16 отдельных метрик
5 метрик основанных на семантических сетях:1 WuPalmer;2 Leacock and Chodorow;3 Resnik;4 Jiang and Conrath;5 Lin.
3 метрики основанных на Веб корпусе(NGD-Yahoo/Bing/Google);5 метрики основанные на корпусе текстов:
2 дистрибутивных (BDA, SDA)1 лексико-синтаксические шаблоны (PatternSim)2 другие (LSA, NGD-Factiva)
3 метрики основанные на определениях1 ExtendedLesk;2 GlossVectors;3 DefVectors-WktWiki.
Александр Панченко 27/44
Введение PatternSim Сравнение HybridSim Приложения
Способы комбинирования без учителя
1 Mean: scmbij = 1
K∑
k=1,K skij ;
2 Mean-Nnz: scmbij = 1
|k:skij>0,k=1,K |
∑k=1,K sk
ij ;
3 Mean-Zscore: Scmb = 1K∑K
k=1Sk−µkσk
;
4 Median: scmbij = median(s1
ij , . . . , sKij );
5 Max: scmbij = max(s1
ij , . . . , sKij );
6 RankFusion: scmbij = 1
K∑
k=1,K rkij ;
7 RelationFusion (Panchenko and Morozova, 2012).
Александр Панченко 28/44
Введение PatternSim Сравнение HybridSim Приложения
Методы комбинирования с учителем
8 Logit, Logit-L1, Logit-L2.Бинарная логистическая регрессия;Положительные обучающие примеры – синонимы,гиперонимы, ко-гипонимы из BLESS/SN;Отрицательные обучающие примеры – случайные парысемантически несвязных слов BLESS/SN;Отношение 〈ci , t, cj〉 ∈ R представлена с помощью векторапопарной близостей: x = (s1
ij , . . . , sNij ),N = 2, 16;
Категория yij :
yij =
{0 if 〈ci , t, cj〉 случайное отношение1 иначе
Использование модели (w1, . . . ,wK ) длякомбинирования:
scmbij =
11+ e−z , z =
K∑k=1
wkskij + w0.
Александр Панченко 29/44
Введение PatternSim Сравнение HybridSim Приложения
Методы комбинирования с учителем
9 SVM.
Веса w и опорные вектораSV :
w =∑
xi∈SV
αiyixi .
Использование модели
scmbij = wTx+b =
K∑k=1
wi skij +b.
Александр Панченко 30/44
Введение PatternSim Сравнение HybridSim Приложения
Методы комбинирования с учителем
График Точность-Полнота вычисленный на коллекции BLESS:(a) 16 отдельных метрик и гибридная метрика Logit-E15;(b) 8 гибридных метрик.
Александр Панченко 31/44
Введение PatternSim Сравнение HybridSim Приложения
Методы комбинирования с учителем Logit-E15
Рис.: Значение подобия между 74 словами связанными со словом“acacia”.
Александр Панченко 32/44
Введение PatternSim Сравнение HybridSim Приложения
Методы комбинирования с учителем
Александр Панченко 33/44
Введение PatternSim Сравнение HybridSim Приложения
Методы комбинирования с учителем (продолжение)
Рис.: Оптимизация мета-параметров метрики C-SVM-radial-E15.
Александр Панченко 34/44
Введение PatternSim Сравнение HybridSim Приложения
План
1 Введение
2 Метрика основанная на лексико-синтаксических шаблонах
3 Сравнение метрик семантической близости
4 Гибридная метрика семантической близости
5 Приложения метрик семантической близостиПоиск и визуализация семантически связанных словКлассификация коротких текстов
Александр Панченко 35/44
Введение PatternSim Сравнение HybridSim Приложения
Поиск и визуализация семантически связанных слов
План
1 Введение
2 Метрика основанная на лексико-синтаксических шаблонах
3 Сравнение метрик семантической близости
4 Гибридная метрика семантической близости
5 Приложения метрик семантической близостиПоиск и визуализация семантически связанных словКлассификация коротких текстов
Александр Панченко 36/44
Введение PatternSim Сравнение HybridSim Приложения
Поиск и визуализация семантически связанных слов
Серелекс: результаты в виде списка и графа слов
http://serelex.cental.be/
Александр Панченко 37/44
Введение PatternSim Сравнение HybridSim Приложения
Поиск и визуализация семантически связанных слов
Серелекс: результаты в виде множества изображений
Александр Панченко 38/44
Введение PatternSim Сравнение HybridSim Приложения
Поиск и визуализация семантически связанных слов
Оценка качества работы системы Серелекс
Рис.: Удовлетворенность пользователей первыми 20 результатамипоиска для 353 запросов.
Александр Панченко 39/44
Введение PatternSim Сравнение HybridSim Приложения
Классификация коротких текстов
План
1 Введение
2 Метрика основанная на лексико-синтаксических шаблонах
3 Сравнение метрик семантической близости
4 Гибридная метрика семантической близости
5 Приложения метрик семантической близостиПоиск и визуализация семантически связанных словКлассификация коротких текстов
Александр Панченко 40/44
Введение PatternSim Сравнение HybridSim Приложения
Классификация коротких текстов
iCop: классификация имен файлов
Рис.: Структура системы.
Использование семантических отношений для расширенияимени файла (Vocabulary Projection).
Александр Панченко 41/44
Введение PatternSim Сравнение HybridSim Приложения
Классификация коротких текстов
iCop: пример Vocabulary Projection
Александр Панченко 42/44
Введение PatternSim Сравнение HybridSim Приложения
Классификация коротких текстов
Качество классификации
Обучающая выборка Тестовая выборка Accuracy Accuracy (voc. projection)Gallery (train) Gallery 96.41 96.83 (+0.42)PirateBay Title+Desc+Tags PirateBay Title+Desc+Tags 98.92 98.86 (–0.06)PirateBay Title+Tags PirateBay Title+Tags 97.73 97.63 (–0.10)Gallery PirateBay Title+Desc+Tags 90.57 91.48 (+0.91)Gallery PirateBay Title+Tags 84.23 88.89 (+4.66)PirateBay Title+Desc+Tags Gallery 88.83 89.04 (+0.21)PirateBay Title+Tags Gallery 91.16 91.30 (+0.14)
Таблица: Качество классификации с использованием C-SVM-linear cучетом кросс-валидации.
Александр Панченко 43/44
Введение PatternSim Сравнение HybridSim Приложения
Классификация коротких текстов
Спасибо за внимание!Вопросы?
Александр Панченко 44/44