constr spb2015
Post on 17-Jul-2015
125 Views
Preview:
TRANSCRIPT
Статус коллокации в лингвистическом описании 118 мая 2015www.helsinki.fi/yliopisto
Cтатус коллокации в лингвистическом описании
Михаил Копотев, Дарья Кормачева, Лидия Пивоварова
Университет Хельсинки
Статус коллокации в лингвистическом описании 218 мая 2015www.helsinki.fi/yliopisto
CoCoCo
Collocation Colligation Corpora – проект по разработке методов извлечения, классификации и
анализа неоднословных целостностей.
Университет Хельсинки, руководитель Копотев М. В.
Статус коллокации в лингвистическом описании 318 мая 2015www.helsinki.fi/yliopisto
ГРЕТЬ + N
ДУШУ
КРОВЬ
ВОДУМОЛОКО
ЧАЙ
РУКИЛАДОНИ
НОГИКОПЫТАСПИНУ
МАШИНУМОТОР
Статус коллокации в лингвистическом описании 418 мая 2015www.helsinki.fi/yliopisto
ГРЕТЬ + N
ДУШУ
КРОВЬ
ВОДУМОЛОКО
ЧАЙ
РУКИЛАДОНИ
НОГИКОПЫТАСПИНУ
МАШИНУМОТОР
Коллокации в прикладном значении слова – все неоднословные целостности, которые могут быть извлечены из корпуса автоматически.
Статус коллокации в лингвистическом описании 518 мая 2015www.helsinki.fi/yliopisto
ГРЕТЬ + N
ДУШУ
КРОВЬ
ВОДУМОЛОКО
ЧАЙ
РУКИЛАДОНИ
НОГИКОПЫТАСПИНУ
МАШИНУМОТОР
Коллокации.
Collocation typically denotes frequently repeated or statistically significant co-occurences, whether or not there are special semantic bonds between collocating items (Moon, 1998)
Статус коллокации в лингвистическом описании 618 мая 2015www.helsinki.fi/yliopisto
ГРЕТЬ + X
ДУШУ
КРОВЬ
ВОДУМОЛОКО
ЧАЙ
РУКИЛАДОНИ
НОГИСПИНУ
МАШИНУМОТОР
Коллигация.
Colligation – the grammatical company a word keeps (or avoids keeping) and the positions it prefers (Hoey, 2004)
N.acc
Статус коллокации в лингвистическом описании 718 мая 2015www.helsinki.fi/yliopisto
ГРЕТЬ + N
ДУШУ
КРОВЬ
ВОДУМОЛОКО
ЧАЙ
РУКИЛАДОНИ
НОГИКОПЫТАСПИНУ
МАШИНУМОТОР
Конструкции.
Construction – a pairing of form with meaning/ use such that some aspect of the form or some aspect of the meaning/use is not strictly predictable. (Goldberg, 1996: 68)
Статус коллокации в лингвистическом описании 818 мая 2015www.helsinki.fi/yliopisto
● Слова, стоящие рядом в тексте, скрепляются разнородными силами – грамматическими, лексическими, или комбинацией и тех, и других.● Определить статус коллокации – значит установить, какая связь наиболее сильна в том или ином случае.● Метод – статистическое профилирование с последующим экспертным анализом.
Статус коллокации в лингвистическом описании 918 мая 2015www.helsinki.fi/yliopisto
Автоматическое профилирование
query Datacollection
For each part of speach
case
gender
…
token
lemma
Determine stable
features
For each grammatical
feature
…
nouns
verbs
…
…
particular values for the
features
most specific tokens / lemmas
most specific
semantic classes
Output
colligations
collocations
constructions
…
Статус коллокации в лингвистическом описании 1018 мая 2015www.helsinki.fi/yliopisto
Алгоритм
query Datacollection
For each part of speach
case
gender
…
token
lemma
Determine stable
features
For each gramemme
…
nouns
verbs
…
…
particular values for the
features
most specific tokens / lemmas
most specific
semantic classes
Output
colligations
collocations
constructions
…
Статус коллокации в лингвистическом описании 1118 мая 2015www.helsinki.fi/yliopisto
Kullback-Leibler divergence
Kopotev et al. 2013
Статус коллокации в лингвистическом описании 1218 мая 2015www.helsinki.fi/yliopisto
Автоматическое профилирование
query Datacollection
For each part of speach
case
gender
…
token
lemma
Determine stable
features
For each grammatical
feature
…
nouns
verbs
…
…
particular values for the
features
most specific tokens / lemmas
most specific
semantic classes
Output
colligations
collocations
constructions
…
Статус коллокации в лингвистическом описании 1318 мая 2015www.helsinki.fi/yliopisto
Frequency ratio
Kopotev et al. 2013: исследование на материале 25-ти предлогов, подкорпус НКРЯ со снятой омонимией
DKL
в 100% случаев выявляет падеж как наиболее значимую характеристику
FR с точностью 95% и полнотой 89% предсказывает правильное значение падежа
Статус коллокации в лингвистическом описании 1418 мая 2015www.helsinki.fi/yliopisto
Автоматическое профилирование
query Datacollection
For each part of speach
case
gender
…
token
lemma
Determine stable
features
For each grammatical
feature
…
nouns
verbs
…
…
particular values for the
features
most specific tokens / lemmas
most specific
semantic classes
Output
colligations
collocations
constructions
…
Статус коллокации в лингвистическом описании 1518 мая 2015www.helsinki.fi/yliopisto
Weighted frequency ratio
Kormacheva et al. 2014: исследование на материале 25-ти предлогов, подкорпус НКРЯ со снятой омонимией
Сравнение wFR с пятью другими мерами для задачи извлечения коллокаций; wFR дает наилучшие результаты.
Однако точность извлечения сильно варьируется для разных предлогов – от 75% до 4%
Статус коллокации в лингвистическом описании 1618 мая 2015www.helsinki.fi/yliopisto
У + N
ПОДНОЖИЯ
ОКНА, СТЕНЫ, КРЫЛЬЦА, ПЕЧКИ – 16
КОШКИ, КОРОВЫ, МЛЕКОПИТАЮЩЕГО,
МЕДВЕДЯ – 13
РЕБЕНКА, ПАПЫ, ТЕЩИ, БАБУШКИ - 10
СТОЙКИ, ТЕЛЕВИЗОРА, КАМИНА – 8
НЕМЦА, РУССКОГО, ЦЫГАНА, ЯПОНЦА - 6
Статус коллокации в лингвистическом описании 1718 мая 2015www.helsinki.fi/yliopisto
У + N
ПОДНОЖИЯ
ОКНА, СТЕНЫ, КРЫЛЬЦА, ПЕЧКИ – 16
КОШКИ, КОРОВЫ, МЛЕКОПИТАЮЩЕГО,
МЕДВЕДЯ – 13
РЕБЕНКА, ПАПЫ, ТЕЩИ, БАБУШКИ - 10
СТОЙКИ, ТЕЛЕВИЗОРА, КАМИНА – 8
НЕМЦА, РУССКОГО, ЦЫГАНА, ЯПОНЦА - 6
Исследовательская интуиция говорит, что такого рода конструкции могут быть извлечены из корпуса с использованием (модифицированного) соотношения частот (frequency ratio).
Однако в нашем распоряжении нет корпуса с размеченными семантическими классами.
Поэтому встает вопрос об извлечении семантических классов из текста автоматически.
Статус коллокации в лингвистическом описании 1818 мая 2015www.helsinki.fi/yliopisto
Дистрибутивная семантика
● Подход в котором семантическая близость слов определяется похожестью их контекстов в корпусе.
“You know the word by the company it keeps.” (Firth, 1957)
● Современные информационные технологии позволяют применять этот принцип для автоматического подсчета семантического расстояния между словами в масштабе корпуса.
Статус коллокации в лингвистическом описании 1918 мая 2015www.helsinki.fi/yliopisto
Дистрибутивная семантика
w1 w2 w3 ...
w1 0 1 5 ...
w2 1 1 10 ...
w3 5 10 0 ...
... ... ... ... ...
SVD – стандартный
метод понижения
размерности данных
ω1 ω2 ω3 ...
w1 0 1 5 ...
w2 1 1 10 ...
w3 0 8 0 ...
... ... ... ... ...
w1 w2 w3 ...
w1 1 0.8 0.5 ...
w2 0.8 1 0.1 ...
w3 0.5 0.1 1 ...
... ... ... ... ...
КОНТЕКСТЫ
РАССТОЯНИЯ
Статус коллокации в лингвистическом описании 2018 мая 2015www.helsinki.fi/yliopisto
Эксперименты
Pivovarova et al. 2015 (в печати)
● НКРЯ, подкорпус со снятой неоднозначностью
● Существительные с частотой >12
● Контекст – все слова на расстоянии ±2
● DISSECT (Baroni et.al)
● Все слова, дистанция между которыми выше пороговой, считаются семантически связанными
Статус коллокации в лингвистическом описании 2118 мая 2015www.helsinki.fi/yliopisto
Конструкционный профиль[молодой + N]
Статус коллокации в лингвистическом описании 2218 мая 2015www.helsinki.fi/yliopisto
Семантическая кластеризация
● Kmeans, 500 кластеров● Оценка - в идеале: семантический словарь или ворднет - эксперимент с информантами● Нас интересует качество кластеров применительно к задаче конструкционного профилирования
Статус коллокации в лингвистическом описании 2318 мая 2015www.helsinki.fi/yliopisto
Предсказательная сила семантической кластеризации
ПОЗДНИЙ + N
Для 31-го запроса из 39 (79%) семантическая кластеризация обладала большей предсказательной силой, чем несгруппированные лексемы.
Pivovarova et al. 2015 (в печати)
НКРЯ ИНТЕРНЕТ-корпус
беременность время год начало период срок час
беременность время год день конец месяц начало период половина срок час
вечер ночь обед рассвет утро вечер ночь полдень полночь сумерки утро
весна осень весна зима лето осень
Статус коллокации в лингвистическом описании 2418 мая 2015www.helsinki.fi/yliopisto
lemma ARI words lemma ARI words
плохой + N 0.02 91 главный + N 0.1 74
важный + N -0.01 33 маленький + N
-0.02 32
хороший + N 0.08 68 молодой + N 0.08 40
равный + N 0.28 87 нужный + N 0 73
новый + N 0 39 подобный + N 0 78
высокий + N 0 63 поздний + N 0.22 67
последний + N 0.23 61 различный + N
0.11 91
российский + N -0.02 58 разный + N 0 75
следующий + N 0.19 94 N + город 0 67
крайний + N 0.49 87 N + мир 0.06 81
N + пора 0.06 73
Статус коллокации в лингвистическом описании 2518 мая 2015www.helsinki.fi/yliopisto
Сравнение с ручной разметкой
● Для 12 из 21 запросов (57%) имеются неслучайные пересечения между автоматическими кластерами и вручную выделенными конструкциями
РОССИЙСКИЙ + X
биатолонист, парламентарий
биатолонист, премьер-лига
Вручную размечались только первые 100 биграм.Автоматическая кластеризация позволяет найти конструкции ниже.
ВЫСОКИЙ + {дерево, дуб, ель, липа, ...}
Статус коллокации в лингвистическом описании 2618 мая 2015www.helsinki.fi/yliopisto
Профилирование
● Профиль – статистика появления лексемы в корпусе в различных формах и контекстах.
● Gries and Divjak (2009), Gries (2010), Janda and Lyashevskaya (2011), Divjak and Arppe (2013)
● Профиль – набор дополнительных свойств, которые дают более полное представление о статусе коллокации.
Статус коллокации в лингвистическом описании 2718 мая 2015www.helsinki.fi/yliopisto
Морфологическое профилирование
Морфологический профиль лексемы ведомо, НКРЯ, XIX-XX век:
gen - без ведома, с ведома – 1516
все остальные падежи – 4 раза
Вероятностные предпочтения той или иной морфологической формы – показатель степени связанности лексемы.
Статус коллокации в лингвистическом описании 2818 мая 2015www.helsinki.fi/yliopisto
Профиль проницаемости
Статус коллокации в лингвистическом описании 2918 мая 2015www.helsinki.fi/yliopisto
Лексический профиль
Статус коллокации в лингвистическом описании 3018 мая 2015www.helsinki.fi/yliopisto
Конструкционный профильnom gen dat acc ins loc
топонимы 10374 11270 1369 5866 1496 9246
Москва 1000 816 99 769 84 963
Америка 57 117 18 118 14 215
Волга 4923 2894 2785 4612 690 2823
Статус коллокации в лингвистическом описании 3118 мая 2015www.helsinki.fi/yliopisto
Статус коллокации в лингвистическом описании 3218 мая 2015www.helsinki.fi/yliopisto
Заключение● Границы между языковыми уровнями проницаемы
(ср. constructicon A. Goldberg)
● Принцип идиоматичности: говорящий имеет в своем распоряжении большое число полуоформленных фраз, которые представляют собой уже готовые единицы, даже несмотря на то, что при анализе и можно разбить на сегменты (Sinclair 1991: 105)
● Cоссюровская дихотомия langue-parole заменяется представлением о первичности речевой деятельности и плавной вероятностой шкалой от речевого штампа до грамматического правила.
● Адекватным описанием оказывается не грамматика, а компьютерная база данных, которая отвечает на запросы пользователя на ходу - онлайн.
Статус коллокации в лингвистическом описании 3318 мая 2015www.helsinki.fi/yliopisto
СПАСИБО ЗА + X!
top related