01 информационный поиск

21
Информационный Информационный поиск поиск Лидия Михайловна Лидия Михайловна Пивоварова Пивоварова Системы понимания текста Системы понимания текста

Upload: lidia-pivovarova

Post on 10-May-2015

3.798 views

Category:

Education


0 download

DESCRIPTION

Презентация к курсу "Системы понимания текста" http://mathlingvo.ru/courses/ponimanie.

TRANSCRIPT

Page 1: 01 информационный поиск

ИнформационнИнформационный поискый поискЛидия Михайловна Лидия Михайловна

ПивовароваПивоварова

Системы понимания Системы понимания текстатекста

Page 2: 01 информационный поиск

ВведениеВведение Информационный поиск – поиск в большой Информационный поиск – поиск в большой

коллекции документов, удовлетворяющих коллекции документов, удовлетворяющих потребности пользователя, потребности пользователя, сформулированной в виде короткого сформулированной в виде короткого запроса на естественном языке. запроса на естественном языке.

Стремительный рост Интернета и успешное Стремительный рост Интернета и успешное развитие информационно-поисковых систем развитие информационно-поисковых систем привели к тому, что современный привели к тому, что современный информационный поиск как дисциплина включает информационный поиск как дисциплина включает широкий круг вопросов, связанных со сбором, широкий круг вопросов, связанных со сбором, хранением, поиском и представлением самой хранением, поиском и представлением самой разнообразной информации; сюда же разнообразной информации; сюда же естественным образом относятся многие задачи естественным образом относятся многие задачи автоматической обработки текста.автоматической обработки текста.

Page 3: 01 информационный поиск

СодержаниеСодержание

1.1. ИндексированиеИндексирование

2.2. Модели информационного поискаМодели информационного поиска

3.3. Оценка информационного поискаОценка информационного поиска

4.4. Роль автоматической обработки Роль автоматической обработки текста в информационном поискетекста в информационном поиске

Page 4: 01 информационный поиск

ИндексированиеИндексирование Поиск по большим коллекциям не может Поиск по большим коллекциям не может

осуществляться в режиме реального времени. осуществляться в режиме реального времени. Для быстрого поиска коллекция Для быстрого поиска коллекция

предварительно обрабатывается и по ней предварительно обрабатывается и по ней строится строится индексиндекс(ы)(ы) – – набор атрибутов, набор атрибутов, которые упорядочены в удобном для поиска которые упорядочены в удобном для поиска порядке.порядке.

В случае полнотекстового поиска такими В случае полнотекстового поиска такими атрибутами являются слова (словосочетания), атрибутами являются слова (словосочетания), приведенные к нормальной форме.приведенные к нормальной форме.

Page 5: 01 информационный поиск

Структура индексаСтруктура индекса

Page 6: 01 информационный поиск

Процесс Процесс индексированияиндексирования

1.1. Анализ структуры – выделение заголовков, Анализ структуры – выделение заголовков, абзацев и т.п.; удаление абзацев и т.п.; удаление html-html-разметки и разметки и т.д;т.д;

2.2. Токенизация – разбиение текста на слова, Токенизация – разбиение текста на слова, удаление знаков препинания;удаление знаков препинания;

3.3. Удаление стоп-слов - высокочастотных Удаление стоп-слов - высокочастотных служебных слов (предлогов, союзов и т.п.); служебных слов (предлогов, союзов и т.п.);

4.4. Лемматизация – приведение слов к Лемматизация – приведение слов к нормальной (например, словарной) форме;нормальной (например, словарной) форме;

5.5. ВзвешиваниеВзвешивание

Page 7: 01 информационный поиск

ВзвешиваниеВзвешивание

В индексе хочется учитывать не В индексе хочется учитывать не только сам факт вхождения слова в только сам факт вхождения слова в документ, но и «вес», т.е. документ, но и «вес», т.е. информацию о частоте данного слова информацию о частоте данного слова в документе.в документе.

Однако саму по себе частоту Однако саму по себе частоту использовать плохо, поскольку слова использовать плохо, поскольку слова распределены в языке неравномерно: распределены в языке неравномерно: некоторые встречаются гораздо чаще некоторые встречаются гораздо чаще других других

Page 8: 01 информационный поиск

Закон ЦипфаЗакон Ципфа (Zipf) (Zipf)

0

1

2

3

4

5

6

1 3 5 7 9 11 13 15 17 19 21

ранг r

час

тота

f

Произведение частоты термина f на его ранг r остается примерно постоянной величиной

f = C/r, C ≈ N/10

Page 9: 01 информационный поиск

Принцип Луна (Принцип Луна (LuhnLuhn))

0

1

2

3

4

5

6

1 3 5 7 9 11 13 15 17 19 21

ранг r

час

тота

f

Разрешающая способность

Значимые слова

Самые часто встречающиеся слова – не самые значимые!

Page 10: 01 информационный поиск

Классический метод Классический метод взвешивания: взвешивания: tftf--idfidf

tf – tf – относительная частота слова в относительная частота слова в документедокументе

idf – idf – обратная документальная частота обратная документальная частота (чем меньше в коллекции документов, в (чем меньше в коллекции документов, в которые входит это слово, тем которые входит это слово, тем idf idf больше)больше)

Вес слова в документе: Вес слова в документе:

В современных поисковых системах используются более сложные варианты взвешивания.

Page 11: 01 информационный поиск

СодержаниеСодержание

1.1. ИндексированиеИндексирование

2.2. Модели информационного поискаМодели информационного поиска

3.3. Оценка информационного поискаОценка информационного поиска

4.4. Роль автоматической обработки Роль автоматической обработки текста в информационном поискетекста в информационном поиске

Page 12: 01 информационный поиск

Булева модельБулева модель

Запрос: булево выражение:Запрос: булево выражение: Ответ: Ответ: Плюс: простота; минус: отсутствие Плюс: простота; минус: отсутствие

ранжирование ранжирование

Page 13: 01 информационный поиск

Векторная модельВекторная модель Коллекция из Коллекция из n n документовдокументов и и m m различных различных

терминов представляется в виде матрицы терминов представляется в виде матрицы mxnmxn, где каждый документ – вектор в , где каждый документ – вектор в m-m-мерном пространстве.мерном пространстве.

Веса терминов можно считать по разному: Веса терминов можно считать по разному: частота, бинарная частота (входит – не частота, бинарная частота (входит – не входит), входит), tf*idftf*idf……

Порядок слов не учитывается (Порядок слов не учитывается (bag of words)bag of words) Матрица очень большая (большое число Матрица очень большая (большое число

различных терминов в гетерогенной различных терминов в гетерогенной коллекции).коллекции).

В матрице много нулейВ матрице много нулей

Page 14: 01 информационный поиск

Векторная модельВекторная модель Близость запроса к документу: Близость запроса к документу:

косинусная мера близостикосинусная мера близости

Page 15: 01 информационный поиск

Вероятность вычисляется на основе теоремы БайесаВероятность вычисляется на основе теоремы Байеса::

P(R)P(R) – – вероятность того, что случайно выбранный из вероятность того, что случайно выбранный из коллекции документ коллекции документ DD является релевантнымявляется релевантным

P(d|R)P(d|R) – – вероятность случайного выбора документа вероятность случайного выбора документа dd из из множества релевантных документовмножества релевантных документов

P(d)P(d) – – вероятность случайного выборавероятность случайного выбора документа документа dd из из коллекции коллекции DD

Вероятностные моделиВероятностные модели

dP

RPRdPdRP

||

Page 16: 01 информационный поиск

Вероятностные Вероятностные моделимодели

Решающее правило заключается в Решающее правило заключается в максимизации следующей функциимаксимизации следующей функции::

Rd

RddS

|Pr

|Pr

Page 17: 01 информационный поиск

СодержаниеСодержание

1.1. ИндексированиеИндексирование

2.2. Модели информационного поискаМодели информационного поиска

3.3. Оценка информационного поискаОценка информационного поиска

4.4. Роль автоматической обработки Роль автоматической обработки текста в информационном поискетекста в информационном поиске

Page 18: 01 информационный поиск

Оценка информационного Оценка информационного поискапоиска

Полнота (Полнота (recall):recall):R = tp / (tp+fn)R = tp / (tp+fn)

Точность (Точность (presicion):presicion):P = tp / (tp+fp)P = tp / (tp+fp)

F-F-мера:мера:

Аккуратность Аккуратность (accuracy)(accuracy)::A = (tp + tn) / (tp + tn A = (tp + tn) / (tp + tn

+fp +fn)+fp +fn)

РелевантнРелевантныеые

НерелевантНерелевантныеные

НайденныНайденныее

tptp fpfp

НенайденНенайденныеные

fnfn tntn

Оценка требует большой коллекции размеченных документов, т.е. огромного труда асессоров.Большое продвижение дают конференции-соревнования: TREC, РОМИП и т.д.

Page 19: 01 информационный поиск

СодержаниеСодержание

1.1. ИндексированиеИндексирование

2.2. Модели информационного поискаМодели информационного поиска

3.3. Оценка информационного поискаОценка информационного поиска

4.4. Роль автоматической обработки Роль автоматической обработки текста в информационном поискетекста в информационном поиске

Page 20: 01 информационный поиск

Уровни анализа языкаУровни анализа языка Морфологический анализМорфологический анализ

– – признан необходимым для информационного поиска, признан необходимым для информационного поиска, особенно для флективных языков (например, русского); особенно для флективных языков (например, русского); сюда же относится предсказательная морфология (для сюда же относится предсказательная морфология (для незнакомых слов), а также исправление опечаток.незнакомых слов), а также исправление опечаток.

Синтаксический анализСинтаксический анализ – – уже из самого понятия уже из самого понятия “bag of words”“bag of words” следует, что следует, что

синтаксис здесь практически не используется; синтаксис здесь практически не используется; исключения: линейный порядок слов, именные группы, исключения: линейный порядок слов, именные группы, сборка терминологических словосочетаний.сборка терминологических словосочетаний.

Семантический анализ Семантический анализ – – в классическом информационном поиске как правило в классическом информационном поиске как правило

не используется; некоторые элементы лексической не используется; некоторые элементы лексической семантики применяются при расширении запросов, семантики применяются при расширении запросов, индексировании документов и составлении каталогов.индексировании документов и составлении каталогов.

Page 21: 01 информационный поиск

ИсточникиИсточники

1.1. J. Savoy, E. Gaussier Information Retrieval // J. Savoy, E. Gaussier Information Retrieval // Handbook of natural language processing, Handbook of natural language processing, Second Edition Editor(s): Nitin Indurkhya; Fred Second Edition Editor(s): Nitin Indurkhya; Fred J. Damerau, Goshen, Connecticut, USA – 2010 – J. Damerau, Goshen, Connecticut, USA – 2010 – pp. 455-484pp. 455-484

2.2. КК.. Д. Маннинг, П Д. Маннинг, П.. Рагхаван, Х Рагхаван, Х.. Шютце Шютце Введение в информационный поиск – Вильямс, Введение в информационный поиск – Вильямс, 20112011

3.3. А.В. Сычев Информационно-поисковые А.В. Сычев Информационно-поисковые системы - системы - http://company.yandex.ru/academic/class2006/syhttp://company.yandex.ru/academic/class2006/sychev.xmlchev.xml