Классификация корпусов

15
Классификация корпусов Технологии корпусной лингвистики. Лекция 2 А.В. Луканин

Upload: artem-lukanin

Post on 16-Jun-2015

139 views

Category:

Education


8 download

TRANSCRIPT

Page 1: Классификация корпусов

Классификация корпусов

Технологии корпусной лингвистики. Лекция 2

А.В. Луканин

Page 2: Классификация корпусов

2 основных способа деления корпусов на классы 1) противопоставление корпусов, относящихся ко

всему языку (часто к языку определенного периода), корпусам, относящимся к какому-либо подъязыку (жанр, стиль, язык определенной возрастной или социальной группы, язык писателя или ученого и т.д.);

Page 3: Классификация корпусов

2 основных способа деления корпусов на классы 2) разделение корпусов по типу лингвистической

разметки. Несмотря на наличие множества типов разметки,

большинство реально существующих корпусов относится к корпусам морфологического типа синтаксического типа (treebanks, «банки синтаксических

структур»).

Page 4: Классификация корпусов

Классификация корпусов

по типу языковых данных письменные (Брауновский корпус, Ланкастер-

Осло-Берген) устные смешанные (национальные корпусы: НКРЯ, BNC

и др.)

Page 5: Классификация корпусов

По критерию параллельности

одноязычные противопоставляются диалекты, варианты языка например, разновидности английского языка, как английский как

родной и английский как иностранный

двуязычные и многоязычные например, корпус материалов конференций по определенной

научной проблеме, проходивших в разных странах и на разных языках

множество текстов-оригиналов, написанных на каком-либо исходном языке, и текстов-переводов этих исходных текстов на один или несколько других языков

Page 6: Классификация корпусов

По критерию «литературности»

литературные диалектные разговорные

корпус Один Речевой День

терминологические корпус текстов по корпусной лингвистике, позволяющий

разрабатывать терминологический словарь непосредственно на живом текстовом материале

смешанные

Page 7: Классификация корпусов

По цели создания

многоцелевые обычно содержат тексты различных жанров (сюда

относятся национальные корпусы) специализированные

ограничиваются одним жанром или группой жанров

Page 8: Классификация корпусов

По жанру

литературные фольклорные драматургические публицистические

Компьютерный корпус текстов русских газет конца ХХ-ого века http://www.philol.msu.ru/~lex/corpus/

корпус политических метафор и др.

Page 9: Классификация корпусов

По критерию доступности

Свободно доступные on-line доступ ко всем текстам корпуса в полном объеме загрузка полного корпуса свободный доступ к части корпуса

Коммерческие нужно покупать право его использования on-line или копию на

компакт-диске Закрытые корпусы

создаются для узко специфических целей и не предназначены для публичного использования

Page 10: Классификация корпусов

По назначению

Исследовательские создаются с целью изучения различных аспектов

функционирования языка ориентированы на широкий класс лингвистических задач

Иллюстративные создаются после проведения научного исследования: их

цель не столько выявить новые факты, сколько подтвердить и обосновать уже полученные результаты

Page 11: Классификация корпусов

По «динамичности»

Статические содержат тексты какого-то небольшого временнóго промежутка например, авторские корпусы – коллекции текстов писателей

Динамические для выявления функционирования языковых феноменов на

временнóй шкале – например, изменения значения слов, частоты использования тех или иных синтаксических конструкций и т.д.

Page 12: Классификация корпусов

Динамические корпусы

называют также мониторными или мониторинговыми

Цель – «складировать» постоянно растущее количество текстов в памяти компьютера

В течение заранее фиксированного промежутка времени происходит обновление и/или дополнение множества текстов корпуса

Page 13: Классификация корпусов

Динамические корпусы

позволяют лексикографам следить за новыми словами, проникающими в язык, или за уже существующими словами, меняющими свое значение, а также за балансом их употребления в соответствии со стилем

В них, как правило, включают письменные источники большого временнóго периода

Они предназначены для проведения различных диахронических исследований

Page 14: Классификация корпусов

Классификация по критерию размеченности размеченные (индексированные, аннотированные,

таггированые) словам или предложениям присваиваются метки (тэги) в

соответствии с характером разметки: морфологические синтаксические семантические просодические и др.

неразмеченные (неиндексированные, неаннотированные, нетаггированные)

Page 15: Классификация корпусов

По критерию «объём текстов»

полнотекстовые некоторые корпусы текстов определенного автора корпусы коротких текстов

например, корпус мерфизмов (так называемых «законов подлости») корпус газетных заголовков

фрагментотекстовые Брауновский корпус и корпус Ланкастер-Осло-Берген должны были

строго соответствовать определенным критериям - длина текста = 2000 слов (словоупотреблений)

текстов, строго соответствующих таким критериям, практически нет