Download - Системы аннотирования и реферирования
![Page 1: Системы аннотирования и реферирования](https://reader036.vdocuments.pub/reader036/viewer/2022062307/557758a6d8b42aac5c8b544d/html5/thumbnails/1.jpg)
Системы аннотирования и реферирования
А.В. Луканин
Автоматическая обработка естественного языка. Лекция 5
![Page 2: Системы аннотирования и реферирования](https://reader036.vdocuments.pub/reader036/viewer/2022062307/557758a6d8b42aac5c8b544d/html5/thumbnails/2.jpg)
Свёртывание информации
• Задачи– Индексирование– Аннотирование– Реферирование– Конспектирование– Фрагментирование
• Это сжатие, или компрессия, текста первичного документа при его переработке в текст вторичного документа
![Page 3: Системы аннотирования и реферирования](https://reader036.vdocuments.pub/reader036/viewer/2022062307/557758a6d8b42aac5c8b544d/html5/thumbnails/3.jpg)
Типы свертывания информации
• Аннотация– 150-200 знаков
– указательный реферат(indicative abstract)
• Реферат– 1500-2000 знаков
– информативный реферат(informative abstract)
Связный текст, который кратко выражает центральную тему или предмет какого-то документа
Связный текст, который кроме этого кратко выражает цель, применяемые методы и основные результаты описанного исследования или разработки
![Page 4: Системы аннотирования и реферирования](https://reader036.vdocuments.pub/reader036/viewer/2022062307/557758a6d8b42aac5c8b544d/html5/thumbnails/4.jpg)
Типология• выдержки vs резюме
– фрагменты документа– заново переписанный текст
• общий vs основан на запросе vs ориентирован на пользователя– в одинаковой мере раскрыты все основные темы– основан на запросе “what are the causes of the
war?”– пользователь интересуется химией
• для новичка vs для эксперта– включение предпосылок– только новая информация
![Page 5: Системы аннотирования и реферирования](https://reader036.vdocuments.pub/reader036/viewer/2022062307/557758a6d8b42aac5c8b544d/html5/thumbnails/5.jpg)
Типология• однодокументный vs многодокументный
– научная статья– сборник докладов конференции
• текстовая форма vs перечисление vs таблица vs структурированная информация– абзац– список основных положений, тезисов– числовая информация в таблице– с заголовками
• на языке документа vs на другом языке– одноязычное реферирование– перевод реферата
![Page 6: Системы аннотирования и реферирования](https://reader036.vdocuments.pub/reader036/viewer/2022062307/557758a6d8b42aac5c8b544d/html5/thumbnails/6.jpg)
Исследователи
• Г.П.Лун• Г.Эдмундсон• В.Е.Берзон• И.П.Севбо• Э.Ф.Скороходько• Д.Г.Лахути• В.П.Леонов• Р.Г.Пиотровский
![Page 7: Системы аннотирования и реферирования](https://reader036.vdocuments.pub/reader036/viewer/2022062307/557758a6d8b42aac5c8b544d/html5/thumbnails/7.jpg)
Направления
• Квазиреферирование– экстракция из первичных документов
наиболее информативных фрагментов и их склейка
• Собственно автоматическое реферирование– выделение существенной информации и
порождение новых текстов
![Page 8: Системы аннотирования и реферирования](https://reader036.vdocuments.pub/reader036/viewer/2022062307/557758a6d8b42aac5c8b544d/html5/thumbnails/8.jpg)
Направления
• Квазиреферирование– анализ поверхностно-синтаксических
отношений в тексте
• Собственно автоматическое реферирование– обращение к глубинно-семантическим
процессам – экспериментальные исследования, до
широкой реализации еще не дошло
![Page 9: Системы аннотирования и реферирования](https://reader036.vdocuments.pub/reader036/viewer/2022062307/557758a6d8b42aac5c8b544d/html5/thumbnails/9.jpg)
Экстрактивные методы
• Акцент на выделение характерных фрагментов – предложений
• С помощью фразовых шаблонов• И статистики• В большинстве методов применяется
модель линейных весовых коэффициентов – каждому блоку текста назначаются веса
• Самые «тяжёлые» блоки склеиваются
![Page 10: Системы аннотирования и реферирования](https://reader036.vdocuments.pub/reader036/viewer/2022062307/557758a6d8b42aac5c8b544d/html5/thumbnails/10.jpg)
Расчёт веса блока текста
• Weight(U):= Location(U) + CuePhrase(U) + StatTerm(U) + AddTerm(U)
• Location: в начале, в середине или в конце; в вводной части или в заключении
• CuePhrase: «в заключение», «в данной статье», «согласно результатам анализа» и т.д.
![Page 11: Системы аннотирования и реферирования](https://reader036.vdocuments.pub/reader036/viewer/2022062307/557758a6d8b42aac5c8b544d/html5/thumbnails/11.jpg)
Расчёт веса блока текста
• Weight(U):= Location(U) + CuePhrase(U) + StatTerm(U) + AddTerm(U)
• StatTerm: статистическая важностьавтоматическая индексация (например, метрика tf.idf)
• AddTerm: есть ли в блоке текста также термины из – заголовка, – колонтитула, – 1-го параграфа, – пользовательского запроса
![Page 12: Системы аннотирования и реферирования](https://reader036.vdocuments.pub/reader036/viewer/2022062307/557758a6d8b42aac5c8b544d/html5/thumbnails/12.jpg)
Обобщенная архитектура реферирования без опоры на
знания
Билл Диксон поступил на работу в Procter & Gamble в 1994 году. В 1996 году он стал ее вице-президентом
Исходный текст
Измерениястатистической
важности
Сопоставление шаблонов
Расчёт частоты
Расчёт частоты
Выделе-ние
Выбор
Анализ Синтез
![Page 13: Системы аннотирования и реферирования](https://reader036.vdocuments.pub/reader036/viewer/2022062307/557758a6d8b42aac5c8b544d/html5/thumbnails/13.jpg)
Статистические методы
Метод Луна (Luhn, 1958)
1. часто встречающиеся в тексте слова являются наиболее значимыми
2. чем больше часто встречающихся слов оказывается рядом, тем более существенную информацию содержит предложение
– Игнорируются смысловые связи между словами
+ простота анализа, однородность получаемых результатов
![Page 14: Системы аннотирования и реферирования](https://reader036.vdocuments.pub/reader036/viewer/2022062307/557758a6d8b42aac5c8b544d/html5/thumbnails/14.jpg)
Метод ACSI-Matic (Assistant Chief of Staff for Intelligence)
• Метод Луна незначительно модифицирован
– N R NN R NNN R NN– 1 + 1/4 + 1 + 1/8 + 1= 3 + 3/8
• R – слова, частота встречаемости которых превосходит среднюю частоту слов в документе
• 10% предложений (<=20) – размер реферата
![Page 15: Системы аннотирования и реферирования](https://reader036.vdocuments.pub/reader036/viewer/2022062307/557758a6d8b42aac5c8b544d/html5/thumbnails/15.jpg)
Метод ACSI-Matic (Assistant Chief of Staff for Intelligence)
• Предложения с большими весами подлежали включению в реферат
• Со средним — помечались как «резервные»• Если число встретившихся в двух
предложениях синонимов и близких по значению слов > 25% от общего количества слов в предложении, то такие предложения считались избыточными и вычеркивались
• В этом случае для реферата выбирались предложения из резерва
• Этот процесс длился до тех пор, пока не устранялись избыточные или не заканчивались «резервные» предложения
![Page 16: Системы аннотирования и реферирования](https://reader036.vdocuments.pub/reader036/viewer/2022062307/557758a6d8b42aac5c8b544d/html5/thumbnails/16.jpg)
Метод Освальда
• Использовался инструмент, применяемый при индексировании:
• Предложения анализируемого текста сопоставлялись с заданными перечнями слов, объединёнными по смыслу
• Отбирались предложения с наибольшим количеством совпавших с перечнем слов
• Отобранные предложения далее обрабатывались по методу Г. Луна
![Page 17: Системы аннотирования и реферирования](https://reader036.vdocuments.pub/reader036/viewer/2022062307/557758a6d8b42aac5c8b544d/html5/thumbnails/17.jpg)
Метод Освальда
• выявление слов, отражающих содержание документа;
• выявление «мультитермов», т.е. устойчивых словосочетаний, при условии, что они встречаются в тексте чаще одного раза;
• выявление предложений с двумя и более мультитермами;
• расположение мультитермов в порядке частоты встречаемости;
• отбор предложений с наибольшим количеством основных слов и мультитермов
![Page 18: Системы аннотирования и реферирования](https://reader036.vdocuments.pub/reader036/viewer/2022062307/557758a6d8b42aac5c8b544d/html5/thumbnails/18.jpg)
Методы статистических ассоциаций
• Л. Дойл и М. Квиллиан• применили для отражения содержания
документов ассоциативные методы создания семантически связанных групп (пучков) терминов (word clusters)
• совместная встречаемость терминов в предложениях
• В реферат включаются не только основные термины, но и другие элементы текста
![Page 19: Системы аннотирования и реферирования](https://reader036.vdocuments.pub/reader036/viewer/2022062307/557758a6d8b42aac5c8b544d/html5/thumbnails/19.jpg)
Ассоциативные карты Л. Дойла
• Сначала создаётся исходная матрица (ключевые слова текста) и матрица взаимосвязанных элементов.
• Использовав коэффициент корреляции Пирсона, Л. Дойл вычислил коэффициенты подобия между терминами отдельных документов
• Реферат представлял собой реферат телеграфного стиля (короткие назывные предложения или набор ключевых слов (дескрипторов)
![Page 20: Системы аннотирования и реферирования](https://reader036.vdocuments.pub/reader036/viewer/2022062307/557758a6d8b42aac5c8b544d/html5/thumbnails/20.jpg)
Семантические картыМ. Квиллиана
• М. Квиллиан предложил использовать не ассоциативные карты, составленные на основе статистических показателей, а семантические карты.
• При этом учитывались взаимосвязи не между отдельными словами, а между информативными концептами
![Page 21: Системы аннотирования и реферирования](https://reader036.vdocuments.pub/reader036/viewer/2022062307/557758a6d8b42aac5c8b544d/html5/thumbnails/21.jpg)
Экстрактивные методы
• Дистрибутивный метод Эрла (Earl)
• Метод автоматического реферирования документов (Automatic Document Abstracting Method — ADAM)
• Дж. Раш, Р. Сальвадор и А. Замора «Метод отказа от предложений» (method for rejecting sentenses)
• Метод текстовых связей
![Page 22: Системы аннотирования и реферирования](https://reader036.vdocuments.pub/reader036/viewer/2022062307/557758a6d8b42aac5c8b544d/html5/thumbnails/22.jpg)
Методы с опорой на знания
Два основных подхода метода формирования краткого изложения