Компьютерная лексикография

20
Компьютерная лексикография Лексикография. Лекция 9 А.В. Луканин

Upload: artem-lukanin

Post on 16-Jun-2015

193 views

Category:

Education


11 download

TRANSCRIPT

Page 1: Компьютерная лексикография

Компьютерная лексикография

Лексикография. Лекция 9

А.В. Луканин

Page 2: Компьютерная лексикография

Компьютерная лексикография

это совокупность методов и программных средств обработки текстовой информации для создания словарей

К инструментальным средствам в рамках компьютерной лексикографии относятся базы данных компьютерные картотеки программы обработки текста

Page 3: Компьютерная лексикография

Компьютерная лексикография

Множество различных компьютерных лексикографических программ разделяют на две больших группы: компьютерные (автоматические) словари

различных типов, включающие лексикографические базы данных

программы поддержки лексикографических работ

Page 4: Компьютерная лексикография

Компьютерный (автоматический) словарь это словарь в специальном машинном

формате, предназначенный для использования на ЭВМ пользователем или компьютерной программой обработки текста автоматические словари конечного

пользователя-человека автоматические словари для программ

обработки текста

Page 5: Компьютерная лексикография

RussNet: компьютерный тезаурус русского языка типа WordNet С 1999 г. на кафедре математической

лингвистики исследовательская группа под руководством И. В. Азаровой

Наполнение структур RussNet: сначала исследуется ядро лексики русского

языка – наиболее частотные слова с наиболее общим значением

затем полученные иерархические структуры расширяются за счет менее употребительной лексики

Page 6: Компьютерная лексикография

Структура RussNet

Дополнительно в структуру RussNet внесены следующие элементы, позволяющие фиксировать специфическую для русского языка информацию расширен набор собственно семантических

отношений за счет введения инхоативных отношений;

вводится набор семантико-деривационных и семантико-грамматических отношений;

Page 7: Компьютерная лексикография

Структура RussNet

основными единицами структуры RussNet, на которых задаются семантико-деривационные и семантико-грамматические отношения, являются составляющие синсетов – лексико-семантические варианты слов;

введено описание валентностной структуры глаголов, включающее как семантические, так и поверхностно-грамматические атрибуты;

прилагательные организованы в иерархические структуры на основе их сочетаемости с существительными

Page 8: Компьютерная лексикография

RussNet: отношение синонимии

устанавливается между лексико-семантическими вариантами слов, которые принадлежат одной части речи имеют сходные значения могут быть взаимозаменяемы в контексте

В RussNet члены синсета оказываются упорядочены в соответствии с частотой их появления в текстах: от нейтральных абсолютных синонимов и дублетов – к эмоционально и стилистически окрашенным

Page 9: Компьютерная лексикография

RussNet: отношение антонимии

связывает синсеты, которые противопоставляются по наиболее существенному компоненту значения

Антонимические отношения, устанавливающиеся между синсетами принадлежат одной части речи имеют общую часть значения – принадлежат одной

лексико-семантической группе, имеют общий гипероним, противопоставляются по существенному признаку

значения, взаимозаменяемы в контексте под отрицанием или в

противительной конструкции

Page 10: Компьютерная лексикография

RussNet: другие отношения

Типичным для тезаурусных представлений является отношение меронимии ("часть - целое")

Менее типичными для тезаурусных представлений являются такие отношения в глагольной лексике, как каузация (каузативный глагол —

результирующее состояние каузации, например, убить - умереть, высушить - стать сухим и т. п.);

Page 11: Компьютерная лексикография

RussNet: другие отношения

отношение сложного действия и его части – отношение лексического вывода например, спать - храпеть, красить - мазать

и т.п. отношение пресуппозиции (действие –

необходимое предыдущее действие) например, выиграть - играть, развязать -

завязать

Page 12: Компьютерная лексикография

Синтагматические отношения

связывают слова, которые принадлежат различным частям речи: прилагательные и существительные глаголы и существительные глаголы и прилагательные и т. п.

что дает возможность использовать WordNet и для контекстного поиска

Page 13: Компьютерная лексикография

RussNet: cинтагматические отношения для ЛСВ глагола указываются

грамматические структура валентностей; для ЛСВ прилагательных указываются

классы существительных, сочетаемость с которыми можно предсказать, исходя из значения прилагательных

Page 14: Компьютерная лексикография

Семантико-грамматические и семантико-деривационные отношения Для лексики русского языка, особенно

существительных и глаголов, характерно многообразие и высокая продуктивность словообразовательных моделей

доля мотивированной лексики составляет в русском языке около 85 %

Page 15: Компьютерная лексикография

Семантико-грамматические и семантико-деривационные отношения В рамках RussNet введён ряд особых

семантических отношений, предполагающих обязательное формальное выражение на грамматическом или деривационном уровне

Специфика данных отношений заключается в том, что они устанавливаются между членами синсетов – лексико-семантическими вариантами слов

Page 16: Компьютерная лексикография

RussNet: деривационная синонимия отношение, связывающее нейтральное

слово и его экспрессивные, эмоционально окрашенные дериваты

например, старик1 - старикан, старик – старичок

Такие слова обладают тождественным референциальным значением, различия между ними касаются только отношения говорящего к референту

Page 17: Компьютерная лексикография

RussNet: деривационная синонимия Слова с такой коннотацией, как правило, не

взаимозаменяемы в контексте Экспрессивные синонимы включаются в тот же

синсет, что и нейтральное слово например, {старик, старикан (пейор.),

старичок1(мелиор.)}

при этом дериваты сопровождаются специальными пометами, характеризующими их коннотативное значение:

пейоративный – отрицательная коннотация, мелиоративный – положительная коннотация.

Page 18: Компьютерная лексикография

RussNet: деривационная гипонимия отличается от деривационной синонимии тем,

что в данном случае деривационный аффикс придает производному слову дополнительный смысловой оттенок, несводимый к эмоционально-экспрессивному или стилистическому плану:

белый – беловатый (суффикс -оват- указывает на неинтенсивность признака)

старик – старичок2 (в данном случае -ок указывает на изменение референции, старичок2 = «маленький старичок»)

Page 19: Компьютерная лексикография

RussNet: деривационная гипонимия В зависимости от того, какой дополнительный

компонент присутствует в значении производного слова, выделяются следующие подтипы деривационной гипонимии:

диминутивная (цветок - цветочек, книга - книжица)

минимальная (маленький - малюсенький) аугментативная (рука - ручища, дом - домина,

высокий - превысокий) максимальная (последний - распоследний)

Page 20: Компьютерная лексикография

RussNet: деривационные ролевые отношения охватывают ряд семантико-деривационных

связей типа «глагол - актант»: «глагол - агенс»

«глагол - инструмент» и др. например, сеять – сеянец, сеятель, сеялка

Необходимость введения данных отношений обусловлена тем, что дериваты наследуют не только семантические, но и синтаксические свойства, например, рамки управления

бороться за правое дело – борьба за правое дело – борец за правое дело