ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ...
TRANSCRIPT
![Page 1: ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ ...elar.urfu.ru/bitstream/10995/1486/2/1324795_methodinst.pdf · 2019. 12. 21. · русских текстов](https://reader033.vdocuments.pub/reader033/viewer/2022051906/5ff9492ed36cb63bd166daa3/html5/thumbnails/1.jpg)
ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ
Государственное образовательное учреждение высшего профессионального образования «Уральский государственный университет им. А.М. Горького»
ИОНЦ «Русский язык»
филологический факультет
кафедра современного русского языка
Компьютерные технологии в филологии Методические указания к изучению дисциплины
Подпись руководителя ИОНЦ Дата
Екатеринбург 2007
![Page 2: ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ ...elar.urfu.ru/bitstream/10995/1486/2/1324795_methodinst.pdf · 2019. 12. 21. · русских текстов](https://reader033.vdocuments.pub/reader033/viewer/2022051906/5ff9492ed36cb63bd166daa3/html5/thumbnails/2.jpg)
2
Утверждено учебно-методической комиссией филологического факульте-
та
Методические указания состоят из следующих частей:
1. Введение
2. Программа учебного курса «Компьютерные технологии в филологии»,
включающая содержание лекционного курса и материалы для самостоятельной
работы студента по основным темам, сформулированные в тезисном виде.
3. Списки рекомендуемой учебной и научной литературы (основной и до-
понительной).
4. Темы лабораторных, семинарских занятий и коллоквиумов.
5. Вопросы и задания для самоконтроля.
6. Перечень вопросов к зачету.
ВВЕДЕНИЕ
Цель данной дисциплины — сформировать у студентов и магистрантов
системное представление о приложимости и развитии компьютерных техноло-
гий в филологических исследованиях. Филология объединяет разные по мето-
дологии направления: лингвистику, литературоведение и фольклористику. В то
же время их объединяет общий объект, которым является текст. Формализация
текстовых данных и возможность быстрой обработки больших текстов создают
новые стимулы для развития филологии. Данный курс в целом способствует
интеграции гуманитарного и естественнонаучного знания, расширению фило-
логического кругозора, развитию более серьезного отношения к применению
статистических методов в студенческих научных работах и практической цен-
ности гуманитарных исследований.
Задачи дисциплины: определить наиболее существенные филологические
направления, в которых активно задействуются компьютерные технологии; вы-
явить значимые аспекты автоматической обработки текста в программах ин-
![Page 3: ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ ...elar.urfu.ru/bitstream/10995/1486/2/1324795_methodinst.pdf · 2019. 12. 21. · русских текстов](https://reader033.vdocuments.pub/reader033/viewer/2022051906/5ff9492ed36cb63bd166daa3/html5/thumbnails/3.jpg)
3
формационного поиска, машинного перевода, атрибуции текста, в лингвистиче-
ских базах данных и т.п.; дать студентам представление о работе с компьютер-
ными программами, задействующими филологическую информацию.
Данный курс, с одной стороны, базируется на филологической информа-
ции, которую студенты получают в рамках лингвистических и историко-
литературных курсов. С другой стороны, синтетический характер курса пред-
полагает привлечение информации естественно-научных дисциплин: информа-
тики, математики, статистики.
Изучение курса предполагает общую ориентацию в привлечении совре-
менных компьютерных технологий в филологических исследованиях, знание
принципов устроуства лингвистических баз данных, существующих корпусов
русских текстов и умение ими пользоваться. Желательно умение грамотно
пользоваться поисковыми системами (в том числе грамотно построить запрос к
ИПС), системами машинного перевода и современными электронными слова-
рями. Студенты должны быть компетентны в плане применения своих знаний в
любой сфере, в которой может быть востребована филологическая информация.
ПРОГРАММА УЧЕБНОГО КУРСА
«КОМПЬЮТЕРНЫЕ ТЕХНОЛОГИИ В ФИЛОЛОГИИ»
Содержание лекционного курса
и материалы для самостоятельной работы студента
I. Введение
Содержани е л екций
Филологические направления, в которых активно задействуются компью-
терные технологии. Экскурс в проблемы автоматической обработки текста, не-
обходимой для работы программ, анализирующих и преобразующих текстовые
данные.
![Page 4: ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ ...elar.urfu.ru/bitstream/10995/1486/2/1324795_methodinst.pdf · 2019. 12. 21. · русских текстов](https://reader033.vdocuments.pub/reader033/viewer/2022051906/5ff9492ed36cb63bd166daa3/html5/thumbnails/4.jpg)
4
II. Компьютерная лексикография
Содержани е л екций
1. Общие сведения. Формализация структуры словаря. Устройство базы
данных словаря. Типы информации в словаре и базе данных (БД).
2. Объекты БД: таблицы и формы, фильтры, запросы, отчеты, макропро-
граммы. Пользовательская работа с объектами базы в лексикографической
практике.
3. Идеографическая лексикография. Словарь-тезаурус. Устройство идео-
графической базы данных, системное представление семантической иерархии.
Руские идеографические словари. Проект WordNet и его развитие в разных
странах.
Материалы для работы студента
Лексикография — практика, а теперь и большая теория разработки слова-
рей разного типа. Заведомо прикладная дисциплина.
Словари и энциклопедии on-line и в полнотекстовом формате можно най-
ти по следующим адресам:
● gramota.ru
● slovari.ru
● cfrl.ru
● lsw.ru
● rusgram.narod.ru (Грамматика-80)
● speakrus.narod.ru/dict-mirror
● ru.wikipedia.org (сайт «Википедии»)
… …
Словари на дисках
Сегодня большой выбор лексикографических источников, но некоторые
важные словари пока не существуют в электронном формате.
Формализация структуры словаря:
![Page 5: ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ ...elar.urfu.ru/bitstream/10995/1486/2/1324795_methodinst.pdf · 2019. 12. 21. · русских текстов](https://reader033.vdocuments.pub/reader033/viewer/2022051906/5ff9492ed36cb63bd166daa3/html5/thumbnails/5.jpg)
5
● макроструктура — словник и его организация (словник — совокуп-
ность описываемых единиц, не только слов),
● микроструктура – повторяющаяся модель словарной статьи.
Микроструктура обычного толкового словаря:
● заголовочная единица («лексический вход», вокабула, лемма),
● № значения,
●грамматическая информация,
● стилистическая информация,
● толкование,
● иллюстрации,
● производные единицы,
● фразеология,
● этимологическая информация.
Графическая разметка статьи (пример из БТС):
НÓТА –ы, ж. [от лат. nota – знак, замечание]. Дипл. Официальное ди-
пломатическое письменное обращение правительства одного государства к
другому. Н. протеста. Обмен нотами. < Нóтный, -ая, -ое.
Микроструктура конкретной статьи может быть неполной.
Словарь – заведомо формализованный источник, однако он делается для
людей, способных элементарно разделить словарные статьи на зоны.
Это приводит к неполной формализации данных.
Этапы создания современного словаря:
● корпус текстов (на его основе формируется словник и иллюстрации),
● словарные статьи,
● ввод информации в базу данных,
● редактирование информации в базе данных,
● компиляция словаря в текст,
● редактирование в тексте и базе данных,
● верстка и оригинал-макет,
● печать.
![Page 6: ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ ...elar.urfu.ru/bitstream/10995/1486/2/1324795_methodinst.pdf · 2019. 12. 21. · русских текстов](https://reader033.vdocuments.pub/reader033/viewer/2022051906/5ff9492ed36cb63bd166daa3/html5/thumbnails/6.jpg)
6
Пример словаря:
Русские глагольные предложения: экспериментальный синтаксический
словарь / Под ред. Л. Г. Бабенко. Москва, Флинта-Наука, 2000.
Схема обеспечения словаря:
● структура толкового словаря глаголов,
● иллюстрации из художественных текстов (конкорданс),
● речения авторов,
● массив структурных схем предложений,
● набор компонентов пропозиции,
● СЛОВАРНАЯ СТАТЬЯ,
● макет,
● печать,
Необходимость быстрой индексации, поиска, сплошного редактирования
информации и т.п.
Среды (системы) управления базами данных (СУБД).
MS Access – наиболее доступная рядовому пользователю СУБД, интегри-
рованная в пакет MS Office.
Содержит средства создания объектов базы данных для неопытных поль-
зователей.
Мастер (Wizard) – процедура создания объекта в полуавтоматическом
(диалоговом) режиме.
Архитектура СУБД:
● средства создания таблиц и поддержания связи между ними,
● средства ввода, поиска, редактирования, вывода данных,
● средства программирования.
Элементы СУБД:
● таблицы,
● формы,
● фильтры — запросы — отчеты,
![Page 7: ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ ...elar.urfu.ru/bitstream/10995/1486/2/1324795_methodinst.pdf · 2019. 12. 21. · русских текстов](https://reader033.vdocuments.pub/reader033/viewer/2022051906/5ff9492ed36cb63bd166daa3/html5/thumbnails/7.jpg)
7
● программные модули.
Элементы таблицы:
● строка = запись (record) БД,
● столбец = поле (field) БД.
Строки содержат одинаковое число столбцов, но столбцы могут содер-
жать разные виды данных.
Типы полей таблицы — типы информации в базе данных и словаре
● счетчик (Autonumber)
● числовой (number)
● текстовый (text)
● догический (boolean)
● мемо, примечание (memory)
● general, OLE (Object Linking and Embedding)
● дата, время (date, time)
● гиперссылка (hyperlink)
● денежный (currency)
Пример словарной статьи (из БТС) — разбить на типы информации:
НÓТА –ы, ж. [от лат. nota – знак, замечание]. Дипл. Официальное ди-
пломатическое письменное обращение правительства одного государства к
другому. Н. протеста. Обмен нотами. < Нóтный, -ая, -ое.
Объект «форма» как словарная карточка.
Основные признаки объектов:
● макет (внешний вид),
● данные,
● события.
Создание объектов СУБД:
● в режиме конструктора (обычно),
● в режиме мастера (для начинающих)
Идеографическая лексикография. Словари для изучения:
![Page 8: ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ ...elar.urfu.ru/bitstream/10995/1486/2/1324795_methodinst.pdf · 2019. 12. 21. · русских текстов](https://reader033.vdocuments.pub/reader033/viewer/2022051906/5ff9492ed36cb63bd166daa3/html5/thumbnails/8.jpg)
8
● Большой толковый словарь русских существительных: Идеографиче-
ское описание. Синонимы. Антонимы. Сер. «Фундаментальные словари». Под
ред. проф. Л. Г. Бабенко. М., 2005. 864 с.
● Большой толковый словарь русских глаголов: Идеографическое описа-
ние. Синонимы. Антонимы. Английские эквиваленты. Сер. «Фундаментальные
словари». Под ред. проф. Л. Г. Бабенко. М., 2007. 576 с.
● Русские глагольные предложения: экспериментальный синтаксический
словарь / Под ред. Л. Г. Бабенко. Москва, Флинта-Наука, 2000.
● Русский семантический словарь. Толковый словарь, систематизирован-
ный по классам слов и значений / Под общей ред. Н. Ю. Шведовой. М.: "Азбу-
ковник". Издание продолжается.
И другие издания.
WordNet как идеографическая система
Из аннотации: «WordNet was developed by the Cognitive Science Laboratory
at Princeton University (1985) under the direction of Professor George A. Miller».
http://wordnet.princeton.edu/
Визуализация семантических сетей: http://www.visualthesaurus.com/
Проекты EuroWordNet, BalcaNet
http://www.illc.uva.nl/EuroWordNet/
Русский WordNet: RussNet и др. проекты
Идея автоматического поиска семантических связей (Google):
www.labs.google.com/sets)
III. Корпусная лингвистика
Содержани е л екций
Введение в корпусную лингвистику (КЛ). Общие соображения. Понятия
КЛ. Требования к корпусу. Специфика разметки языковых данных. Проблемы
снятия неоднозначностей в корпусах текстов. Достижения КЛ. Современные
![Page 9: ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ ...elar.urfu.ru/bitstream/10995/1486/2/1324795_methodinst.pdf · 2019. 12. 21. · русских текстов](https://reader033.vdocuments.pub/reader033/viewer/2022051906/5ff9492ed36cb63bd166daa3/html5/thumbnails/9.jpg)
9
проекты. Корпуса текстов on-line. Проблемы современной корпусной лингвис-
тики.
Материалы для работы студента
Корпус — это сформированная по определенным правилам выборка язы-
ковых данных. По сути это лингвистическая база данных.
Чаще всего под корпусом понимают корпус текстов. Корпус не просто
хранилище в электроном. формате (библиотека), он содержит метатекстовую
разметку, т.е. единицам корпуса приписана содержательная лингвистическая
информация.
Плунгян Владимир Александрович, доктор филол. наук, координатор
проекта «Национальный корпус русского языка»: «Теперь ограничений на объ-
ем анализируемого материала и скорость поиска информации в нем по суще-
ству нет, а это означает, что в распоряжении исследователя оказываются
колоссальные массивы текстов самого разного типа. Это не замедлило ска-
заться на развитии наших знаний о языке <…> подлинно научные описания
грамматического строя языков, а также авторитетные академические сло-
вари — практически все без исключений — должны составляться на основе
корпусов этих языков» .
Появление корпусов изменило философию лингвистического исследова-
ния:
● возможность работы с огромными объемами информации,
● наличие корпусов не только подтверждение научных гипотез, но и по-
становка оригинальных проблем перед теоретической лингвистикой.
В итоге не дихотомия, а триада: Язык — Речь — Корпус
Построение словарей на основе корпуса.
Конкорданс — массив употреблений одной единицы.
Все смешалось в доме Облонских.
Дети бегали по дому как потерянные.
Подъехав к дому, Облонский высадил сестру.
… … … и еще множество контекстов.
![Page 10: ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ ...elar.urfu.ru/bitstream/10995/1486/2/1324795_methodinst.pdf · 2019. 12. 21. · русских текстов](https://reader033.vdocuments.pub/reader033/viewer/2022051906/5ff9492ed36cb63bd166daa3/html5/thumbnails/10.jpg)
10
Залог качественной, «неумозрительной» выборки материала ⇒ качест-
венная дефиниция в словаре.
Раньше конкорданс можно было представить на карточках словарной
коллекции. Он не был репрезентативен. На него уходило большое количество
времени и усилий.
Понятия корпусной лингвистики:
● корпус данных (чаще текстов),
● проблемная область,
● единица хранения и уровень разметки,
● порог отображения данных: пропорциональное сужение.
Вопрос объема корпуса:
● проблема недостаточности данных
● проблема чрезмерности данных.
Вопрос решается опытным путем.
Типология корпусов:
● статические — динамические,
● исследовательские — иллюстративные,
● параллельные (полиязыковые) – моноязыковые,
● структурированные – неструктурированные (последние нормальными
корпусами не являются).
Требования к корпусу:
● репрезентативность,
● полнота,
● разноуровневая разметка (желательно со снятой омонимией),
● прозрачность и логичность разметки,
● легкость ввода, редактирования и вывода данных в нужном формате,
● программное обеспечение.
Достижения корпусной лингвистики.
![Page 11: ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ ...elar.urfu.ru/bitstream/10995/1486/2/1324795_methodinst.pdf · 2019. 12. 21. · русских текстов](https://reader033.vdocuments.pub/reader033/viewer/2022051906/5ff9492ed36cb63bd166daa3/html5/thumbnails/11.jpg)
11
● Брауновский корпус американского английского (создан в 1962-1963
гг.) — около 1 млн словоупотреблений.
http://www.hd.uib.no/icame/bcm.html
● Британский национальный корпус (создан в 1990 г., published in 1994) –
около 1 млн словоупотреблений.
http://www.natcorp.ox.ac.uk
● Чешский национальный корпус Карлова университета (Прага).
Основан в 1994 г., 20 млн словоупотреблений для пользователей Интер-
нета, 100 млн словоупотреблений в целом.
http://www.ucnk.ff.cuni.cz
● Проект «Персей» (Perseus). Изначально размеченный массив античных
текстов, а теперь — расширенное хранилище:
Renaissance Materials.
Англоязычные тексты – около 10 млн словоупотреблений.
Латинские тексты — около 1 млн словоупотреблений. И прочее.
http://www.perseus.tufts.edu
Русские проекты
Уппсальский корпус (создан в Швеции в 1987 г.)
Единица хранения – текст.
Основа русского корпуса Тюбингенского университета (ФРГ)
http://www.sfb441.uni-tuebingen.de/b1/en/korpora.html
Русские проекты
Машинный (компьютерный) фонд Института русского языка РАН.
The Computer Fund of Russian Language (CFRL) is a research and develop-
ment department within the V.V.Vinogradov Institute for Russian Language of the
Russian Academy of Sciences. It was started in 1985.
(www.cfrl.ru )
![Page 12: ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ ...elar.urfu.ru/bitstream/10995/1486/2/1324795_methodinst.pdf · 2019. 12. 21. · русских текстов](https://reader033.vdocuments.pub/reader033/viewer/2022051906/5ff9492ed36cb63bd166daa3/html5/thumbnails/12.jpg)
12
Русские проекты
● Корпус газетных текстов, созданный под руководством Анатолия Яно-
вича Шайкевича (Машинный фонд Института русского языка РАН).
Около 7,5 млн словоупотреблений в 29,5 тысячах текстовых фрагментов.
Материал взят из публицистики 2-й половины 1990-х гг.
Выставлен на сайте Машинного фонда Русского языка
Пример разметки в корпусе Шайкевича:
[%iso88591; ]> CFRL Parole encoding Computer Fund of Russian Language
http:// On-line 99-01-27 &parole.tax; 99-01-27 Russian
izi02edu
Жизнь в России все же не темна. Есть 1 сентября — праздник, который
всегда с тобой…]
Кроме газетного корпуса, за время существования Машинного фонда соз-
дано несколько менее объемных собраний:
● корпус языка Ф. М. Достоевского,
● корпус рекламных слоганов,
● корпус метафор,
● корпус дискурсивных слов и ряд других.
● Национальный корпус русского языка (www.ruscorpora.ru). Руководи-
тель работ проф. В. А. Плунгян.
Около 100 млн словоупотреблений.
Метатекстовая, акцентная, морфологическая, синтаксическая и семанти-
ческая разметка.
Зона со снятой грамматической омонимией (около 5 млн словоформ)
Подразделы корпуса:
1) основной корпус (письменные и устные тексты),
2) диалектный корпус,
3) поэтический корпус,
4) параллельный корпус.
![Page 13: ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ ...elar.urfu.ru/bitstream/10995/1486/2/1324795_methodinst.pdf · 2019. 12. 21. · русских текстов](https://reader033.vdocuments.pub/reader033/viewer/2022051906/5ff9492ed36cb63bd166daa3/html5/thumbnails/13.jpg)
13
Принципы поиска в корпусе (на примере Национального корпуса русско-
го языка):
● создание подкорпуса,
● поиск по метатекстовым признакам,
● поиск по морфологическим, синтаксическим, семантическим призна-
кам,
● возможность задать расстояние между словами
Неровность проекта на сегодняшний день. Несистемные лакуны в зоне со
снятой омонимией. Тем не менее этот проект сегодня стал самым мощным и
перспективным.
● Хельсинкский аннотированный корпус (ХАНКО). Основан на материа-
лах журнала «Итоги».
100.000 словоупотреблений. Морфологическая разметка.
Руководитель проекта — проф. Арто Мустайоки, координатор — Михаил
Копотев.
Корпус небольшой, зато качественно подобранный и размеченный.
(http://www.slav.helsinki.fi/hanco/)
● Корпус газетных текстов, созданный под руководством А. А. Поликар-
пова (МГУ, филологический факультет, лаборатория общей и компьютерной
лексикографии).
Около 205.000 словоупотреблений. Выставлен на сайте лаборатории.
Кроме того, новый проект лаборатории (© МГУ, 2006):
Корпус «Поэзия и драматургия А. С. Пушкина» и «Путеводитель по Пуш-
кину»
Текстовые единицы размечены информацией 15 типов:
● «Дата»,
● «Адресаты»,
![Page 14: ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ ...elar.urfu.ru/bitstream/10995/1486/2/1324795_methodinst.pdf · 2019. 12. 21. · русских текстов](https://reader033.vdocuments.pub/reader033/viewer/2022051906/5ff9492ed36cb63bd166daa3/html5/thumbnails/14.jpg)
14
● «Варианты слов»,
● «Персонажи и лица»,
● «Цвето- и светообозначения» и т.д.
● Электронные библиотеки
Самое известное русское собрание – библиотека Максима Мошкова.
(www.lib.ru)
Там же можно найти множество ссылок на др. библиотеки.
В первое время самая большая часть русскоязычных собраний — русская
фантастика.
● www.aot.ru: поиск по библиотеке Мошкова: поиск без снятой омони-
мии, но объем корпуса таков, что он может быть полезен для пользователя.
Проблемы КЛ
● плохое качество электронных текстов,
● затратность в плане времени и ресурсов,
● создание корпуса под конкретный проект; проблема универсальности
корпуса.
IV. Статистический анализ текста
1. Проблема атрибуции текста
Содержани е л екций
Введение в проблему. Этапы и методы атрибуции художественного тек-
ста. Примеры квантитативных методов атрибуции текстов.
Литературоведческие и лингвистические методики. Методы буквенного
(А.А.Поликарпов, Д.В.Хмелев), грамматического, лексического, синтаксиче-
ского анализа. Вопросы, методы, решения. Примеры атрибуции текстов Ф.
Достоевского, М. Шолохова, М. Агеева.
Известные случаи атрибуции анонимных и псевдонимных текстов. Атри-
буция текста в криминалистике. Общие проблемы атрибуции текстов.
![Page 15: ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ ...elar.urfu.ru/bitstream/10995/1486/2/1324795_methodinst.pdf · 2019. 12. 21. · русских текстов](https://reader033.vdocuments.pub/reader033/viewer/2022051906/5ff9492ed36cb63bd166daa3/html5/thumbnails/15.jpg)
15
Материалы для работы студента
Термины-синонимы:
атрибуция = авторизация = установление авторства анонимного текста
(или текста с мистифицированным авторством)
В шир. смысле — приписывание тексту атрибутов (не только авторства,
но и времени и места создания, жанра и проч.).
Формулировки — результаты атрибуции:
● текст принадлежит автору Х,
● текст не принадлежит автору Х,
● текст, вероятней всего, принадлежит автору Х,
● текст может принадлежать автору Х.
→ Проблема оценки вероятности
Аспекты проблемы:
● текстологический,
● криминалистический.
Проблемы авторства:
● древнерусские литературные памятники
● литература XIX в. (например, стихотворения, приписываемые Пушки-
ну, «Гавриилиада»),
● проблемы авторства: ХХ в. («Тихий Дон», «Роман с кокаином» и т.д.).
ХХ в.. Развитие проблемы:
● Н. А Морозов, «формальная» школа (Б. Томашевский, Ю. Тынянов, Б.
Эйхенбаум),
● «объективно-исторический» подход (В. Виноградов, Д. Лихачев),
● современные направления (широкое использование квантитативных
методов).
Приемы атрибуции
● извлечение смысловой информации из содержания текста, словаря ав-
тора, референциальной среды (1),
● извлечение смысловой информации из «формы» текста (2).
![Page 16: ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ ...elar.urfu.ru/bitstream/10995/1486/2/1324795_methodinst.pdf · 2019. 12. 21. · русских текстов](https://reader033.vdocuments.pub/reader033/viewer/2022051906/5ff9492ed36cb63bd166daa3/html5/thumbnails/16.jpg)
16
(1):
● документально-фактологический материал,
● сравнение проблематики, сюжета и тематики с текстами-образцами,
● совпадение/несовпадение семантики и формы мелких сегментов (изби-
рательно-стилистический подход).
(2):
● палеографический и графологический анализ,
● квантитативный метод — собственно математико-лингвистический
Примеры квантитативных методик:
● Н. А. Морозов (1915 г.): идея «лингвистических спектров».
Изучение частотности служебных слов в классических текстах.
Частные наблюдения Морозова:
частица “было” (например, чуть было) — только у Пушкина; “близ” —
только у Тургенева (у других “около”); “ведь” — отсутствует у Карамзина и За-
госкина; “вдруг” и “даже” редки у Толстого; “еле” — только у Гоголя; “заме-
сто”— только у Тургенева; “ибо”— еще употребляется часто Карамзиным и Го-
голем, изредка Пушкиным, но уже совсем отсутствует у Толстого, Тургенева и
Загоскина и т.п.
Поиск характеристик текста, которые вряд ли мог учитывать автор.
● А. Л. Гришунин: анализ дублетных языковых средств (Иванович – Ива-
ныч, дверь – двери, много лет (тому) назад, может быть – быть может и
проч.).
● Г. В. Ермоленко (Анонимные произведения и их авторы. Минск, 1988).
4 приема:
анализ высокочастотной лексики,
анализ низкочастотной лексики,
выявление речевых параллелей (дублетов),
анализ покрытия текста нейтральными словами.
![Page 17: ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ ...elar.urfu.ru/bitstream/10995/1486/2/1324795_methodinst.pdf · 2019. 12. 21. · русских текстов](https://reader033.vdocuments.pub/reader033/viewer/2022051906/5ff9492ed36cb63bd166daa3/html5/thumbnails/17.jpg)
17
● Милов Л. В. и др. ( От Нестора до Фонвизина: Новые методы определе-
ния авторства. М., 1994): атрибуция древнерусских литературных памятников и
анонимных произведений XVII-XVIII вв.
Проведен морфологический и синтаксический анализ, выявлено порядка
150 признаков.
● Методика Дмитрия Хмелева (лингвоанализатор)
Самый любопытный ввиду абсолютной «формальности» метод:
● буквы текста как реализация марковских цепей,
● матрица буквосочетаний,
● оценка вероятности авторства.
Атрибуция «Тихого Дона»
Хьетсо Г. и др. Кто написал «Тихий Дон»? М., 1989.
Использованы традиционные способы; кроме того, проанализированы:
● словарный профиль,
● словарный запас,
● дистрибуция классов слов,
● частотность частей речи в разных позициях в предложении,
● самые частотные сочетания слов.
Атрибуция в криминалистике. Объекты:
● плагиат и авторские права
● дискредитация конкурентов
● разные тексты, связанные с составом преступления (угрозы, шантаж,
взятки, договоренности о сбыте наркотиков и т.п.)
→ Работа как с письменными, так и устными источниками
Методы:
● идентификационные,
● неидентификационные.
Выводы
● количественные методы атрибуции самые надежные;
![Page 18: ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ ...elar.urfu.ru/bitstream/10995/1486/2/1324795_methodinst.pdf · 2019. 12. 21. · русских текстов](https://reader033.vdocuments.pub/reader033/viewer/2022051906/5ff9492ed36cb63bd166daa3/html5/thumbnails/18.jpg)
18
● слабость методов — в их зависимости от длины анализируемых тек-
стов;
● поиск стилистических характеристик, не подверженных авторской во-
ле;
● важность временн'ых характеристик текстов.
2. Лингвистические принципы автоматического выделения инфор-
мации из текста
Содержани е л екций
Выделение терминов из корпуса текстов: графический уровень, словооб-
разовательный уровень, лексический уровень, синтаксический уровень, тексто-
вый уровень. Проблемы автоматического реферирования документов.
Материалы для работы студента
Основные задачи:
● выделение ключевых слов («терминов»)
● установление семантических связей между ними
● автоматическое реферирование документа (если необходимо)
Приложимость в научно-технической сфере. Экономия времени и денег.
Уровни языка и печатного текста:
● графический,
● словообразовательный,
● лексический,
● морфологический,
● синтаксический,
● текстовый.
Проблемы:
● идиоматичность семантики,
● размытость понятий «словосочетание» и «термин»,
● многофункциональность текстов,
![Page 19: ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ ...elar.urfu.ru/bitstream/10995/1486/2/1324795_methodinst.pdf · 2019. 12. 21. · русских текстов](https://reader033.vdocuments.pub/reader033/viewer/2022051906/5ff9492ed36cb63bd166daa3/html5/thumbnails/19.jpg)
19
● существование различных форматов (doc, pdf, txt, html и т.п.),
● «незавершенность» интернет-текстов.
Графический уровень: распознавание шрифтовых средств. Разметка в
html-документах.
Словообразовательный уровень: сложные термины (маркер — дефис),
аббревиатуры.
Лексический уровень:
● ключевые термины, keywords (они могут быть указаны — «плюсы» и
«минусы» анализа),
● статистическая идея, удаление «стоп-слов»; проблема ложной стати-
стики, тематическая и стилистическая специфика документа,
● поиск (квази)синонимии,
Лексическая частотность и закон Ципфа:
● закономерность распределения частоты слов естественного языка: если
все слова языка (или просто достаточно длинного текста) упорядочить по убы-
ванию частоты их использования, то частота n-го слова в таком списке окажет-
ся приблизительно обратно пропорциональной его порядковому номеру n (так
называемому рангу этого слова. Закон носит имя своего первооткрывателя —
американского лингвиста Джорджа Ципфа (George Kingsley Zipf) из
Гарвардского университета.
Морфология и синтаксис
● формы слов (использование форм род. п. в терминологии и др. шабло-
ны)
● частотность словосочетаний типа:
Adj + N
Adj + Adj + N
● статистика по типам предложений
«Дефиниционные конструкции». Фактор длины предложения
Текстовый уровень
![Page 20: ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ ...elar.urfu.ru/bitstream/10995/1486/2/1324795_methodinst.pdf · 2019. 12. 21. · русских текстов](https://reader033.vdocuments.pub/reader033/viewer/2022051906/5ff9492ed36cb63bd166daa3/html5/thumbnails/20.jpg)
20
● Роль тематической рубрикации.
● Авторские аннотации
● Источник информации (например, портал gramota.ru)
● Любые внешние сведения о документе
● Ранжирование слов по встречаемости в разных позициях:
заголовок,
1 абзац,
последний абзац,
2-4 абзацы,
подзаголовки, рубрикации, шрифтовые выделения,
первое и последнее предложение в каждом абзаце.
Задачи автоматического реферирования:
● список ключевых слов (иногда этого вполне достаточно),
● синтез текста из существующих предложений (sentence extraction),
● синтез принципиально нового текста (уровень с опорой на понимание),
● оценка исходного текста (?) – аналитический уровень.
Требования к реферату:
● информативность,
● соответствие содержанию исходного текста,
● хороший процент попадания ключевых слов,
● отсутствие «мусора»,
● небольшой объем,
● соответствие нормам естественного языка (лексические, морфологиче-
ские, синтаксические связи).
Ранжирование предложений: «вес» предложения, вероятно, связан с его
позицией в тексте.
Конечная обработка реферата:
● нормализация длины,
● построение связей между предложениями, вставка анафорических эле-
ментов,
![Page 21: ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ ...elar.urfu.ru/bitstream/10995/1486/2/1324795_methodinst.pdf · 2019. 12. 21. · русских текстов](https://reader033.vdocuments.pub/reader033/viewer/2022051906/5ff9492ed36cb63bd166daa3/html5/thumbnails/21.jpg)
21
● добавление ссылок на исходные источники и т.д.
3. Формализация филологических моделей художественного текста
Содержани е л екций
Лексическая статистика и идиостиль автора. Количественные методы в
применении к структуре сюжета. Статистические исследования стихотворного
ритма.
V. Автоматическая проверка орфографии и грамматики
Содержани е л екций
Общие проблемы проверки орфографии и грамматики. Спеллеры. Задей-
ствование разных уровней автоматической обработки текста для решения ор-
фографических проблем. Повышение скорости набора при помощи словарей.
Использование систем орфоконтроля в современных сотовых телефонах.
VI. Информационно-поисковые системы
Содержани е л екций
Поиск информации как лингвистическая проблема. Современные ИПС
(Google, Яндекс, Rambler и др.). Возможности расширенного поиска в ИПС.
Синтаксис запросов. Общие принципы индексации и ранжирования докумен-
тов.
Материалы для работы студента
Исходные положения:
● неконтролируемость, быстрота пополнения ресурсов и объем Интерне-
та,
● огромное количество дубликатов,
● представление информации в разных форматах,
● тематическое разнообразие текстов,
● специфика программирования WEB-страниц; спам,
![Page 22: ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ ...elar.urfu.ru/bitstream/10995/1486/2/1324795_methodinst.pdf · 2019. 12. 21. · русских текстов](https://reader033.vdocuments.pub/reader033/viewer/2022051906/5ff9492ed36cb63bd166daa3/html5/thumbnails/22.jpg)
22
● «коварство» гипертекста, гиперссылки.
Информационный поиск (Information retrieval, IR) — поиск неструктури-
рованной информации, единицей которой является документ произвольных
форматов. Предмет поиска – информационная потребность пользователя, вы-
раженная в поисковом запросе (query).
Синонимы:
● информационно-поисковая система (ИПС),
● поисковая система (ПС),
● поисковая машина (ПМ), машина поиска (МП),
● searching engine (SE),
● поисковик.
Направления передачи информации:
● запрос к ПМ,
● отклик ПМ.
Методология поиска:
● прямой поиск (подстроки в документе без дополнительной обработки),
● индексирование документов (создание «поискового образа» докумен-
та).
Предварительная обработка документа:
● извлечение,
● определение формата, кодировки и языка,
● сегментация (выделение слов и предложений) = «токенизация» (про-
блема многословных токенов и границ предложений),
● удаление стоп-слов,
● морфоанализ (при необходимости).
Предварительная обработка запроса: преобразование языковых выраже-
ний.
Инвертированный файл индекса:
![Page 23: ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ ...elar.urfu.ru/bitstream/10995/1486/2/1324795_methodinst.pdf · 2019. 12. 21. · русских текстов](https://reader033.vdocuments.pub/reader033/viewer/2022051906/5ff9492ed36cb63bd166daa3/html5/thumbnails/23.jpg)
23
в индексе поисковой системы значатся слова коллекции документов, а
для каждого слова перечислены все места, в которых оно встретилось:
подберезовик: 1→3→7→10→15
подосиновик: 2→3→5→11→15 →23
опенок: 10→15→27→114
Вопросы к индексу
● Сколько единиц должен содержать индекс?
● Какова вероятность отсутствия нужных ссылок в индексе?
● Как должен изменяться индекс в соответствии с изменением источни-
ков информации?
Пополнение баз поисковых систем:
● прямая индексация: разработчик сайта сам посылает информацию в ПС,
● программы-роботы, которые находят ссылки на новые страницы; за-
пускаются разработчиками (основной способ).
«География» поиска:
● в «открытом пространстве» Интернета,
● в закрытой коллекции.
Принцип человеко-машинного взаимодействия. Возможное участие экс-
пертов в индексировании: деньги VS. качество
Базовые установки поисковой системы:
● формат представления данных в ПС,
● формат запросов,
● оценка релевантности документов (степени близости запроса и доку-
мента).
Модели ИП:
● Булевская (булевая, boolean model, двоичная модель): опирается на опе-
рации пересечения, объединения и вычитания множеств.
● Векторная: документы и запросы рассматриваются как векторы в про-
странстве слов, а релевантность как расстояние между ними.
![Page 24: ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ ...elar.urfu.ru/bitstream/10995/1486/2/1324795_methodinst.pdf · 2019. 12. 21. · русских текстов](https://reader033.vdocuments.pub/reader033/viewer/2022051906/5ff9492ed36cb63bd166daa3/html5/thumbnails/24.jpg)
24
Булевская модель ИП. Работа с логическими операторами (And, Or,
(And)Not)
● Киркоров And Пугачева [++]
● Киркоров Or Пугачева [+/+]
● Киркоров Not Пугачева [+/–]
Простота и удобство для тех, кто умеет пользоваться логическими опера-
торами, но излишняя строгость, отсутствие механизмов оценки релевантности
слова для документа (и, соответственно, запроса), требование вроде простых,
но все же специальных знаний.
Векторная модель ИП
● Оценка значимости термина в документе и запросе.
● Мера близости.
Вес термина: отношение между частотой в тексте и частотой в коллекции
насколько часто встречается в документе?
Частота термина (term frequency, TF) – частота употреблений слова в до-
кументе.
Частота (слова) в документах (document frequency, DF) – число докумен-
тов в коллекции, содержащих данное слово.
Чем чаще термин встречается в коллекции, тем он менее интересен для
ИП.
Сравним термины звук и фонема в лингвистическом тексте.
Какой более значим для автоматической оценки содержания текста и оп-
ределения его тематики?
При использовании векторной модели оценивается важность термина
(есть механизм ранжирования), но модель плохо работает при анализе текстов
небольшого объема.
Общая идея страницы поисковой системы:
● поле для ввода запроса с необязательной кнопкой типа «Найти», «По-
иск», «Find», «Search» и т.п.
![Page 25: ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ ...elar.urfu.ru/bitstream/10995/1486/2/1324795_methodinst.pdf · 2019. 12. 21. · русских текстов](https://reader033.vdocuments.pub/reader033/viewer/2022051906/5ff9492ed36cb63bd166daa3/html5/thumbnails/25.jpg)
25
● отклик — вывод контекстов в ответ на запрос и ссылки на первоисточ-
ники.
Длительность ожидания зависит от сложности запроса, скорости работы
ПС, качества связи. Последнее обычно наиболее актуально.
Дополнительные возможности ПС:
● возможность указать группу WEB-сайтов (новости, магазины, картин-
ки, блоги и т.п.),
● возможность задать регион(ы) поиска,
● поиск по уже найденным страницам,
● расширенные запросы,
● сортировка результатов по релевантности, дате и др. показателям.
Новые пути развития ПС
В настоящее время порталы современных ПС функционально существен-
но расширяются не только за счет собственно поиска:
● словари,
● новости (автоматически обновляющиеся),
● погода,
● телепрограммы,
● гороскопы.
ПС как большой бизнес:
● реклама (разнообразные формы),
● системы перевода денег,
● интернет-магазины,
● программные продукты (не только поисковые: браузеры, плейеры, иг-
ры, антиспам, лингвистические модули etc.).
Статистика только Яndex’а: 3-5,5 млн посещений в день!
Использование конкретной ПС – это часто дело привычки и вкуса, а так-
же вопрос ареала поиска.
Как оценить работу ПС? Критерии точности (precision, P) и полноты (re-
call, R):
![Page 26: ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ ...elar.urfu.ru/bitstream/10995/1486/2/1324795_methodinst.pdf · 2019. 12. 21. · русских текстов](https://reader033.vdocuments.pub/reader033/viewer/2022051906/5ff9492ed36cb63bd166daa3/html5/thumbnails/26.jpg)
26
Проекты оценки ИП:
● РОМИП — Российский семинар по оценке методов
информационного поиска (www.romip.ru)
● TREC – Text Retrieval Evaluation Conference (www.trec.nist.gov)
Соревнования по ИП:
В России – кубок Яndex’а (www.kubok.yandex.ru).
Проблема грамотного составления запроса. Средний запрос колеблется
вокруг двух слов. В итоге пользователь расплачивается сотнями (тысячами)
лишних ссылок.
Синтаксис запросов в ПС (Яndex): полезные операторы и язык запросов:
www.yandex.ru/advanced.html
www.help.yandex.ru/search/
VII. Проблемы машинного перевода
Содержани е л екций
Перевод как прикладная лингвистическая дисциплина. Комбинирование
различных методов уровневого лингвистического анализа при переводе. Идея
универсализации перевода: утопия и реальность. Современные проекты (UNL).
Материалы для работы студента
Неоднозначность термина «перевод»:
● деятельность,
● результат деятельности,
● теория осуществления этой деятельности.
Перевод как прикладная лингвистическая дисциплина:
● теория перевода,
● анализ перевода,
● методика обучения переводу.
![Page 27: ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ ...elar.urfu.ru/bitstream/10995/1486/2/1324795_methodinst.pdf · 2019. 12. 21. · русских текстов](https://reader033.vdocuments.pub/reader033/viewer/2022051906/5ff9492ed36cb63bd166daa3/html5/thumbnails/27.jpg)
27
Междисциплинарность перевода. Перевод как сложный когнитивный фе-
номен
Классификации перевода:
● по типу речи: устный (синхронный / последовательный) / письменный,
● по направлению: односторонний / двусторонний,
● по задачам: пословный → подстрочник / буквальный / филологический
/ адаптивный (реферативный).
Машинный перевод (МП) — интенсивно развивающаяся область иссле-
дований, экспериментальных разработок и работающих систем, в которых к
процессу перевода с одного естественного языка на другой привлекаются ком-
пьютеры.
Междисциплинарность МП.
Привлекательность МП:
● АОТ на всех уровнях языка,
● отработка лингвистических теорий,
● лексико-синтаксическая основа,
● «интеллектуальность».
→ МП называют центральным направлением искусственного интеллекта.
Лингвистические проблемы:
● разрешение неоднозначностей,
● текстовый уровень их появления (ситуативная обусловленность текста,
экстралингвистические знания),
● возможность построения альтернативных структур текста,
● несовершенство формальных методов анализа текста, необходимость
их уточнения,
● обучаемость системы МП.
Альтернативы МП:
● изучение иностранных языков,
● выработка универсального языка,
● распространение одного из языков.
![Page 28: ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ ...elar.urfu.ru/bitstream/10995/1486/2/1324795_methodinst.pdf · 2019. 12. 21. · русских текстов](https://reader033.vdocuments.pub/reader033/viewer/2022051906/5ff9492ed36cb63bd166daa3/html5/thumbnails/28.jpg)
28
Но рынок перевода увеличивается ≈ на 15 % в год!
Наиболее актуальные сферы МП:
● научно-технический,
● коммерческий / деловой,
● рекламный,
● юридический,
● политический.
Сфера художественного перевода не является самой актуальной.
Отраслевые предпосылки:
● большой поток иноязычной информации в отрасли,
● политематический массив документов в международных организациях,
● техническая документация к экспортируемой продукции,
● поток однотипных сообщений.
Хронология МП
● к. 1940-х. – 1950-е гг. Постановка проблемы, разработка первичных ко-
дов, презентации первых систем;
● 1960-е – время разочарования: МП нерентабелен;
● 1970-е – новые возможности вычислительных систем, подъем работ;
● 1980-е – удешевление ПК, появление экономически оправданных раз-
работок;
● 1990-е – развитие Интернет, новый взгляд на МП как инструмент ком-
муникации;
2 основных направления МП:
● прямой перевод (нет различий между анализом и синтезом естественно-
го языка),
● системы с трансфером (построение промежуточного семантического
представления).
→ стратегия языка-посредника, создание «knowledge-based systems»
![Page 29: ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ ...elar.urfu.ru/bitstream/10995/1486/2/1324795_methodinst.pdf · 2019. 12. 21. · русских текстов](https://reader033.vdocuments.pub/reader033/viewer/2022051906/5ff9492ed36cb63bd166daa3/html5/thumbnails/29.jpg)
29
Стратегия «универсального семантического языка»
Проект UNL (www.unl.ru). Многоязыковой лингвистический конвертер,
основанный на семантических примитивах.
Разумные решения в практике МП:
● сужение проблемной области,
● тематические сферы текстов,
● следование прагматике перевода.
● стратегия ограниченного МП (пред- и постредактирование, полуавто-
матическое снятие омонимии.
Классификация систем МП (Л. Чайлдс, 1990):
● FAMT – полностью автоматизированный МП
● HAMT – МП при участии человека
● MAHT – перевод, осуществляемый человеком при помощи компьютера
Существующие системы МП и словари.
Выводы:
● МП как технологическая реальность,
● четкая постановка задачи,
● тематическое сужение,
● работа в новых форматах (UNL),
● обучаемость программ,
● отсутствие косности в плане «человеческого» перевода,
● избавление от утопических взглядов.
VIII. Заключение
Содержани е л екций
Перспективы развития компьютерных технологий в филологии. Взаимо-
влияние различных филологических направлений и методов. Вопрос о новом
месте филологии в современном мире.
![Page 30: ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ ...elar.urfu.ru/bitstream/10995/1486/2/1324795_methodinst.pdf · 2019. 12. 21. · русских текстов](https://reader033.vdocuments.pub/reader033/viewer/2022051906/5ff9492ed36cb63bd166daa3/html5/thumbnails/30.jpg)
30
РЕКОМЕНДУЕМАЯ ЛИТЕРАТУРА (ОСНОВНАЯ)
1. Апресян Ю. Д., Богуславский И. М., Иомдин Л. Л. и др. Лингвистиче-
ское обеспечение системы ЭТАП-2. М., 1989.
2. Баевский В. С. Лингвистические, математические, семиотические и
компьютерные модели в истории и теории литературы. М., 2001.
3. Богданов В. В. Статистические концепции языка и речи // Статистика
речи и автоматический анализ текста. М., 1973. С. 9–19.
4. Виноградов В.В. Проблема авторства и теория стилей. М., 1961.
5. Ермоленко Г. В. Анонимные произведения и их авторы. Минск, 1988.
[Атрибуция текста: филологические и количественные методы.]
6. Интернет-сайты, связаные с направлениями прикладной филологии:
dialog-21.ru, aot.ru, ruscorpora.ru и др.
7. Караулов Ю.Н. Лингвистическое конструирование и тезаурус литера-
турного языка. М., 1981.
8. Кукушкина О. В., Поликарпов А. А., Хмелев Д. В. Определение автор-
ства текста с использованием буквенной и грамматической информа-
ции // Проблемы передачи информации. Т. 37, № 2. М., 2001; http://
lexigraph.nm.ru/library.htm (сайт Лаборатории общей и компьютерной
лексикографии МГУ).
9. Лингвистический энциклопедический словарь. М., 1990. Ст.: "Автома-
тическая обработка текстов", "Количественные методы" и др..
10. Марчук Ю. Н. Методы моделирования перевода. М., 1985.
11. Марчук Ю.Н. Проблема машинного перевода. М., 1983.
12. Машинный перевод и прикладная лингвистика. М., 1986.
13. Машинный фонд русского языка: идеи и суждения. М., 1986.
14. Мельников Г.П. Системология и языковые аспекты кибернетики. М.,
1978.
![Page 31: ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ ...elar.urfu.ru/bitstream/10995/1486/2/1324795_methodinst.pdf · 2019. 12. 21. · русских текстов](https://reader033.vdocuments.pub/reader033/viewer/2022051906/5ff9492ed36cb63bd166daa3/html5/thumbnails/31.jpg)
31
15. Мельчук И. А. Опыт теории лингвистических моделей «Смысл —
Текст»: семантика, синтаксис. М., 1999. (Или: Мельчук И. А. Опыт тео-
рии лингвистических моделей «Смысл — Текст». М., 1974.)
16. Моделирование языковой деятельности в интеллектуальных системах.
М., 1987.
17. От Нестора до Фонвизина: Новые методы определения авторства / Ми-
лов Л.В. и др. М., 1994.
18. Хьетсо Г., Густавссон С. и др. Кто написал “Тихий Дон”? М., 1989.
19. Эндрю А. Искусственный интеллект. М., 1985.
РЕКОМЕНДУЕМАЯ ЛИТЕРАТУРА (ДОПОЛНИТЕЛЬНАЯ)
1. Андреев Д. Н. Статистико-комбинаторные методы в теоретическом и
прикладном языковедении. Л., 1967.
2. Богданов В. В. Статистические концепции языка и речи // Статистика
речи и автоматический анализ текста. М., 1973. С. 9–19.
3. Виноград Т. Программа, понимающая естественный язык. М., 1976.
4. Виноград Т. Работа с естественными языками // Современный компью-
тер. М., 1986.
5. Искусственный интеллект. В 3-х кн. М., 1990. — Кн. 1. Системы обще-
ния и экспертные системы. Кн. 2. Модели и методы.
6. Кулагина О.С., Мельчук И.А. Автоматический перевод: краткая исто-
рия, современное состояние, возможные перспективы // Автоматиче-
ский перевод. М., 1971.
7. Лавошникова К. Э. Спеллер, ты не прав! О подводных камнях в систе-
мах проверки правописания // http:// infolex.ru/elword4.html.
8. Лингвистические проблемы автоматизации редакционно-издательских
процессов. Киев, 1986.
9. Лукьянова Е. М. Информационная база автоматических словарей //
Статистика речи и автоматический анализ текста. М., 1980.С. 106–144.
![Page 32: ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ ...elar.urfu.ru/bitstream/10995/1486/2/1324795_methodinst.pdf · 2019. 12. 21. · русских текстов](https://reader033.vdocuments.pub/reader033/viewer/2022051906/5ff9492ed36cb63bd166daa3/html5/thumbnails/32.jpg)
32
10. Перцова Н. Н. Автоматические системы типа «вопрос — ответ», рабо-
тающие с естественным языком: история, современное состояние, пер-
спективы // Прикладная лингвистика. М., 1976. С. 135–161.
11. Попов Э.В. Общение с ЭВМ на естественном языке. М., 1982.
12. Попов Э.В. Экспертные системы. М., 1987.
13. Поспелов Д.А. Логико-лингвистические модели в системах управления.
М., 1981.
14. Прикладная лингвистика и автоматический анализ текста. Тарту, 1988.
15. Прикладные аспекты лингвистики. М., 1989.
16. Промышленные системы машинного перевода. Вып. 20. М., 1991.
17. Реферирование в общественных науках. Теория и методика. М., 1982.
18. Рождественский, Ю.В., Марчук, Ю.Н., Волков, А.А. Введение в при-
кладную филологию. М., 1998. (Рождественский Ю. В. и др. Введение в
прикладную филологию. М., 1987.)
19. Севбо И. П. Сквозной анализ как шаг к структурированию текстовых
знаний // НТИ. Сер. 2. 1989. № 2.
20. Скороходько Э. Ф. Лингвистические проблемы обработки текстов в ав-
томатизированных ИПС // Вопросы информационной теории и практи-
ки. N 25. М., 1974.
21. Струве Н. Роман-загадка // Агеев М. Роман с кокаином. М., 1990. С.200-
221.
22. Шенк Р. Обработка концептуальной информации. М., 1980.
ТЕМЫ ЛАБОРАТОРНЫХ, СЕМИНАРСКИХ ЗАНЯТИЙ
И КОЛЛОКВИУМОВ
1. Системы русского морфологического анализа (Mystem, Диалинг).
2. Автоматический синтаксический и семантический анализ (Диалинг).
3. Корпусная лингвистика. Русские проекты. Синтакис запросов.
![Page 33: ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ ...elar.urfu.ru/bitstream/10995/1486/2/1324795_methodinst.pdf · 2019. 12. 21. · русских текстов](https://reader033.vdocuments.pub/reader033/viewer/2022051906/5ff9492ed36cb63bd166daa3/html5/thumbnails/33.jpg)
33
4. Знакомство с работой словарной базы данных.
5. Разработка объектов словарной базы данных.
6. Поисковые системы. Синтакисис запросов.
7. Автоматизация поиска и замены в текстовом процессоре Word.
8. Макропрограммирование в текстовом процессоре Word.
ВОПРОСЫ И ЗАДАНИЯ ДЛЯ САМОКОНТРОЛЯ
I. Контрольные задания для самостоятельной работы:
1) формализация структуры словаря (на выбор). Выделение типов ин-
формации,
2) создание простейшей лексикографической базы данных,
3) проблемы атрибуции художественного текста (реферирование ли-
тературы),
4) атрибуция текста в криминалистике (по материалам Интернета),
5) сопоставление современных ИПС, изучение критериев оценки по-
исковых систем,
6) современные многоязычные словари и программы перевода: общая
характеристика,
7) тестирование системы проверки орфографии MS Office,
Принципы выделения значимой информации из текста:
8) словообразовательный уровень,
9) морфологический уровень,
10) лексический уровень,
11) композиционно-текстовый уровень.
![Page 34: ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ ...elar.urfu.ru/bitstream/10995/1486/2/1324795_methodinst.pdf · 2019. 12. 21. · русских текстов](https://reader033.vdocuments.pub/reader033/viewer/2022051906/5ff9492ed36cb63bd166daa3/html5/thumbnails/34.jpg)
34
II. Вопросы для самостоятельной подготовки к семинарским и практиче-
ским занятиям
12) системы русского морфологического анализа (Mystem, Диалинг),
13) автоматический синтаксический и семантический анализ (Диа-
линг),
14) корпусная лингвистика (русские проекты, синтаксис запросов в
корпусе),
15) знакомство с работой словарной базы данных,
16) разработка объектов словарной базы данных.
17) поисковые системы, синтаксис запросов,
18) автоматизация поиска и замены в текстовом процессоре Word,
19) макропрограммирование в текстовом процессоре Word.
III. Задания для самостоятельного реферирования источников:
20) современные методы атрибуции текста: постановка проблемы,
21) атрибуция текста: «шведское решение» проблемы «Тихого Дона»,
22) атрибуция текста: графический метод (Д. Хмелев),
23) количественные методы в применении к структуре сюжета,
24) лексикографические базы данных,
25) принципы автоматического выделения терминологии из корпуса
текстов,
26) общие проблемы создания вопросно-ответных систем,
27) общие проблемы статистических подходов к языку,
28) лингвистические модели текстообразования,
29) основы дистрибутивно-статистического метода анализа лексики,
30) проблемы машинного перевода,
31) статистические исследования стихотворного ритма,
32) структура и задачи машинного фонда русского языка,
33) формализация семантики: опыт распознавания смысла текста,
![Page 35: ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ ...elar.urfu.ru/bitstream/10995/1486/2/1324795_methodinst.pdf · 2019. 12. 21. · русских текстов](https://reader033.vdocuments.pub/reader033/viewer/2022051906/5ff9492ed36cb63bd166daa3/html5/thumbnails/35.jpg)
35
34) формализация семантики: опыт составления толково-комбина-
торного словаря.
ПЕРЕЧЕНЬ ВОПРОСОВ К ЗАЧЕТУ
1. Применимость компьютерных технологий в филологических исследо-
ваниях. Использование прикладных филологических разработок в дру-
гих сферах деятельности.
2. Возможности автоматической обработки печатного текста при верстке
в современных текстовых процессорах и издательских системах.
3. Компьютерная лексикография как современный этап словарного дела.
Компьютерные словари.
4. Формализация структуры словаря. Лингвистическое и компьютерное
обеспечение словарей.
5. Типы информации в словаре и компьютерной базе данных.
6. Элементы систем управления базами данных. Таблицы, формы, фильт-
ры, запросы, отчеты.
7. Идеографическая лексикография. Устройство тематических словарей и
проблемы организации иерархических баз данных.
8. Проблемы и задачи корпусной лингвистики.
9. Понятия корпусной лингвистики: проблемная область, единица хране-
ния, порог отображения данных и др.
10. Основные требования к лингвистическому корпусу данных.
11. Достижения и перспективы развития корпусной лингвистики. Сущест-
вующие национальные корпуса текстов.
12. Проблемы "нормализации" и разметки текста для корпуса. Специфика
текстовых библиотек в Интернете.
13. Атрибуция текста: история разработки и сферы применения.
14. Современные приемы и методы атрибуции художественного текста.
15. Атрибуция текста как элемент судебно-психологической экспертизы.
![Page 36: ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ ...elar.urfu.ru/bitstream/10995/1486/2/1324795_methodinst.pdf · 2019. 12. 21. · русских текстов](https://reader033.vdocuments.pub/reader033/viewer/2022051906/5ff9492ed36cb63bd166daa3/html5/thumbnails/36.jpg)
36
16. Квантитативный анализ художественного текста: изучение идиостиля
автора.
17. Количественные методы в применении к структуре сюжета.
18. Статистические исследования стихотворного ритма.
19. Проблемы автоматической проверки орфографии и грамматики
20. Повышение скорости набора при помощи словарей. Современные сис-
темы орфоконтроля.
21. Информационно-поисковые системы. История разработки и современ-
ное состояние. Семинары оценки методов ИП.
22. Принципы поиска в ИПС.
23. Принципы ранжирования документов в ИПС.
24. Машинный перевод как проблема искусственного интеллекта. История
систем МП.
25. Лингвистические проблемы современного машинного перевода.
26. Перспективы развития компьютерных технологий в филологии. Меж-
дисциплинарный характер исследований.