Электронные словари паронимов

Post on 12-Jul-2015

2.596 Views

Category:

Documents

3 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Электронные словарипаронимов

Белова Татьяна 525гр.

Научный руководитель:Большакова Е.И.

2

Содержание

1. Паронимы2. Электронные словари паронимов

• Исследование вариативности слов• Эффект кластеризации искажений

3. Морфемные модели4. Морфемные паронимы5. Звуковые паронимы

3

Паронимы• не существует единого понимания термина

«пароним»Паронимы – слова со схожим звучанием приих семантическом различии (полном иличастичном).

Паронимы – однокоренные слова, принадлежащие к одной части речи.

время – бремяскрытый – скрытныйнервный – неровный

4

Виды паронимов

• звуковые (квазиомонимы)исламский – исландский,

• буквенныекалинка – калитка,

• морфемные (однокоренные)одеть – надеть,

• морфемныеналичность – комичность.

5

Электронные словари паронимов

Авторы: В.Д. Гусев, Н.В. СаломатинаИсходный словарь:

D. Worth, A. Kozak, D. JonsonRussian Derivation Dictionary

100 960 словДля создания словарей потребовалось:• формальное определение паронимов• эффективный алгоритм построения

6

Основные понятия

• Каноническая словоформа (лексема) –единица языка, рассматриваемая во всейсовокупности своих форм и значений.

• Редакционные операции: замена, вставка, удаление символа

• Редакционное расстояние (d) –минимальное число ред. операций, переводящих одно слово в другое

лень – тень (d=1), роса – проза (d=2)

7

Формализация понятия паронима

Слова a и b являются паронимами, если

где d(a,b) – редакционное расстояние,q – некоторый порог (обычно q≤1/3),|a| – длина слова

( ) ,),min(

, qba

bad≤

8

Словарь паронимов: версия 1

редакционное расстояние d = 1Процедура построения:• подмножества слов одинаковой длины• итеративный процесс по номерупозиции, в которой производитсязамена (или вставка) символа

• представление в виде дерева, вкотором склеены одинаковыепрефиксные части

9

Вариативность слов

• доля слов, имеющих паронимы - 43%• среди редакционных операцийпреобладают замены

• вариативность и число паронимовзависят от длины слова (убывают сувеличением длины слова)

• число паронимов зависит от номерапозиции

10

Количественные характеристики• слова с рекордным числом паронимов

– операция замены бок (20), полить (17), – операция вставки есть (11), поить (11)

• зависимость вариативности от длины слова:Вариативность – отношение числа слов длины j, имеющих паронимы, к общему числу слов длины j.

Длина слова Среднее числопаронимов

Максимальноечисло паронимов

Вариативность

2 4,2 16

31

18

100%

4 1,86 88%

10 1,3 40%

11

Словарь паронимов: версия 2

• увеличение степени искажения (d=2)Отличия:• комбинирование операций• появление новых операций

(перестановка символов, переноссимвола)

• эффект позиционной кластеризацииискажений

• рост рекордных показателей

12

Количественные характеристикипаронимов

• Мощность редакционных операцийSS>SD>SI>DD>II>DI

(S>D>I для d=1),S - замена

D - удалениеI - вставка

• доля слов, имеющих паронимы - 82%(43% для d=1)

13

Наиболее и наименееизменчивые слова

Наиболее изменчивые слова• длина ≥ 6• преимущественно глаголыРекорды:

рака - 277 паронимовполить - 225 паронимов

Наименее изменчивые слова• низкочастотные• преимущественно: существительные, словаиностранного происхождения, составные слова

взгляд, хнычущий, кенгуру, чудо-юдо

14

Эффект кластеризацииискажений

• Новый параметр – расстояние междуискажениями

• Кластеризованные искажения –искажения, затрагивающие соседниепозицииЭффект кластеризации искаженийЧисло кластеризованных искаженийсущественно выше, чем в модели снезависимым распределением

15

Свойства кластеризованныхискажений

• обе позиции принадлежат одному итому же слогу/морфемесиневатый – сизоватый,скрываться – скрыться

• наблюдается в основном для операцийII, DD и SS

• высокочастотные искажения жесткопривязаны к морфемной структуре слов

16

Векторы искажений

• Наиболее высокочастотные:за 1813по 1632ся 1590на 1342вы – за 1290с – за 1087

• наиболее вариативная часть слова –префикс

17

Дальнейшее увеличение степениискажения (d=3)

• качественно новых эффектов не появляется• отмеченные ранее свойства проявляются болееярко:– рекорды

j=10: макс. число паронимов для SSS – 178(при d=2 рекордное число для SS – 53)

– наиболее вариативны приставки– кластеризация четко фиксирует морфемнуюструктуру словподход - расходантичность – лиричность

18

Морфемные паронимыМорфемными паронимами называются слова,• относящиеся к одной части речи• имеющие одинаковый корень (возможно, свнутрикоренными чередованиями) илиомонимичные корни

• различающиеся вспомогательнымиморфемами, т.е. суффиксами, суффиксоидами, префиксами, префиксоидамиосудить – обсудить, песочный - песчаный

19

Морфемные модели

- представление слов в виде цепочкиморфем с унифицированным корнем

под-R-к-а (подборка, подножка, подземка)• на 100 тыс. слов – ~30 тыс. моделей• исследовались модели, встретившиеся всловаре не менее 10 раз(покрывают более 80% всех слов)

• Редакционные операции: замена/удалениеодного морфа

20

Вариативность морфемныхмоделей

• Доля слов, имеющих паронимы:– 32% (операция замены)– 39% (операция вставки)

• Наиболее частая– вставка: не – 479 раз– замена: а – и – 205 раз

• Наиболее вариативные части слова: перваяприставка и первый суффикс.

• Варьируются чаще многосимвольныеморфемы

21

Фонетическое сходство

Снижается:• с ростом редакционного расстояния• при изменении ударения• при сильном разнесении по позициям

карточка - картошкакрыса – рысакшило - мыло

22

Словарь звуковых паронимов

• Словарь звуковых паронимов –фонетический аналог словарябуквенных паронимов

• схожесть звуков определяется поартикуляционно-акустическимпризнакам (твердость/глухость, ударность/безударность)

• наблюдаются те же закономерности, что и в буквенной версии словаря

23

Постановка задачи

• построение компьютерного словарябуквенных и морфемных паронимов

• основа: текстовые файлы, содержащиесловарные данныеИспользование:

• поиск паронимов• исправление ошибок, связанных снеправильным употреблением слов-паронимов

24

Схема базы данныхСлова

РасстоянияМорфемный состав

Морфы

25

Реализация

• Язык реализации – JavaИспользуемая СУБД:• HSQLDB – реляционная СУБД

– небольшого размера (~600Кб)– можно использовать как библиотеку

На данный момент реализованочастичное заполнение базы данных.

Спасибо за внимание!

Вопросы?

top related