01 информационный поиск

ИнформационнИнформационный поискый поискЛидия Михайловна Лидия Михайловна

ПивовароваПивоварова

Системы понимания Системы понимания текстатекста

ВведениеВведение Информационный поиск – поиск в большой Информационный поиск – поиск в большой

коллекции документов, удовлетворяющих коллекции документов, удовлетворяющих потребности пользователя, потребности пользователя, сформулированной в виде короткого сформулированной в виде короткого запроса на естественном языке. запроса на естественном языке.

Стремительный рост Интернета и успешное Стремительный рост Интернета и успешное развитие информационно-поисковых систем развитие информационно-поисковых систем привели к тому, что современный привели к тому, что современный информационный поиск как дисциплина включает информационный поиск как дисциплина включает широкий круг вопросов, связанных со сбором, широкий круг вопросов, связанных со сбором, хранением, поиском и представлением самой хранением, поиском и представлением самой разнообразной информации; сюда же разнообразной информации; сюда же естественным образом относятся многие задачи естественным образом относятся многие задачи автоматической обработки текста.автоматической обработки текста.

СодержаниеСодержание

1.1. ИндексированиеИндексирование

2.2. Модели информационного поискаМодели информационного поиска

3.3. Оценка информационного поискаОценка информационного поиска

4.4. Роль автоматической обработки Роль автоматической обработки текста в информационном поискетекста в информационном поиске

ИндексированиеИндексирование Поиск по большим коллекциям не может Поиск по большим коллекциям не может

осуществляться в режиме реального времени. осуществляться в режиме реального времени. Для быстрого поиска коллекция Для быстрого поиска коллекция

предварительно обрабатывается и по ней предварительно обрабатывается и по ней строится строится индексиндекс(ы)(ы) – – набор атрибутов, набор атрибутов, которые упорядочены в удобном для поиска которые упорядочены в удобном для поиска порядке.порядке.

В случае полнотекстового поиска такими В случае полнотекстового поиска такими атрибутами являются слова (словосочетания), атрибутами являются слова (словосочетания), приведенные к нормальной форме.приведенные к нормальной форме.

Структура индексаСтруктура индекса

Процесс Процесс индексированияиндексирования

1.1. Анализ структуры – выделение заголовков, Анализ структуры – выделение заголовков, абзацев и т.п.; удаление абзацев и т.п.; удаление html-html-разметки и разметки и т.д;т.д;

2.2. Токенизация – разбиение текста на слова, Токенизация – разбиение текста на слова, удаление знаков препинания;удаление знаков препинания;

3.3. Удаление стоп-слов - высокочастотных Удаление стоп-слов - высокочастотных служебных слов (предлогов, союзов и т.п.); служебных слов (предлогов, союзов и т.п.);

4.4. Лемматизация – приведение слов к Лемматизация – приведение слов к нормальной (например, словарной) форме;нормальной (например, словарной) форме;

5.5. ВзвешиваниеВзвешивание

ВзвешиваниеВзвешивание

В индексе хочется учитывать не В индексе хочется учитывать не только сам факт вхождения слова в только сам факт вхождения слова в документ, но и «вес», т.е. документ, но и «вес», т.е. информацию о частоте данного слова информацию о частоте данного слова в документе.в документе.

Однако саму по себе частоту Однако саму по себе частоту использовать плохо, поскольку слова использовать плохо, поскольку слова распределены в языке неравномерно: распределены в языке неравномерно: некоторые встречаются гораздо чаще некоторые встречаются гораздо чаще других других

Закон ЦипфаЗакон Ципфа (Zipf) (Zipf)

0

1

2

3

4

5

6

1 3 5 7 9 11 13 15 17 19 21

ранг r

час

тота

f

Произведение частоты термина f на его ранг r остается примерно постоянной величиной

f = C/r, C ≈ N/10

Принцип Луна (Принцип Луна (LuhnLuhn))

0

1

2

3

4

5

6

1 3 5 7 9 11 13 15 17 19 21

ранг r

час

тота

f

Разрешающая способность

Значимые слова

Самые часто встречающиеся слова – не самые значимые!

Классический метод Классический метод взвешивания: взвешивания: tftf--idfidf

tf – tf – относительная частота слова в относительная частота слова в документедокументе

idf – idf – обратная документальная частота обратная документальная частота (чем меньше в коллекции документов, в (чем меньше в коллекции документов, в которые входит это слово, тем которые входит это слово, тем idf idf больше)больше)

Вес слова в документе: Вес слова в документе:

В современных поисковых системах используются более сложные варианты взвешивания.

Булева модельБулева модель

Запрос: булево выражение:Запрос: булево выражение: Ответ: Ответ: Плюс: простота; минус: отсутствие Плюс: простота; минус: отсутствие

ранжирование ранжирование

Векторная модельВекторная модель Коллекция из Коллекция из n n документовдокументов и и m m различных различных

терминов представляется в виде матрицы терминов представляется в виде матрицы mxnmxn, где каждый документ – вектор в , где каждый документ – вектор в m-m-мерном пространстве.мерном пространстве.

Веса терминов можно считать по разному: Веса терминов можно считать по разному: частота, бинарная частота (входит – не частота, бинарная частота (входит – не входит), входит), tf*idftf*idf……

Порядок слов не учитывается (Порядок слов не учитывается (bag of words)bag of words) Матрица очень большая (большое число Матрица очень большая (большое число

различных терминов в гетерогенной различных терминов в гетерогенной коллекции).коллекции).

В матрице много нулейВ матрице много нулей

Векторная модельВекторная модель Близость запроса к документу: Близость запроса к документу:

косинусная мера близостикосинусная мера близости

Вероятность вычисляется на основе теоремы БайесаВероятность вычисляется на основе теоремы Байеса::

P(R)P(R) – – вероятность того, что случайно выбранный из вероятность того, что случайно выбранный из коллекции документ коллекции документ DD является релевантнымявляется релевантным

P(d|R)P(d|R) – – вероятность случайного выбора документа вероятность случайного выбора документа dd из из множества релевантных документовмножества релевантных документов

P(d)P(d) – – вероятность случайного выборавероятность случайного выбора документа документа dd из из коллекции коллекции DD

Вероятностные моделиВероятностные модели

dP

RPRdPdRP

||

Вероятностные Вероятностные моделимодели

Решающее правило заключается в Решающее правило заключается в максимизации следующей функциимаксимизации следующей функции::

Rd

RddS

|Pr

|Pr

Оценка информационного Оценка информационного поискапоиска

Полнота (Полнота (recall):recall):R = tp / (tp+fn)R = tp / (tp+fn)

Точность (Точность (presicion):presicion):P = tp / (tp+fp)P = tp / (tp+fp)

F-F-мера:мера:

Аккуратность Аккуратность (accuracy)(accuracy)::A = (tp + tn) / (tp + tn A = (tp + tn) / (tp + tn

+fp +fn)+fp +fn)

РелевантнРелевантныеые

НерелевантНерелевантныеные

НайденныНайденныее

tptp fpfp

НенайденНенайденныеные

fnfn tntn

Оценка требует большой коллекции размеченных документов, т.е. огромного труда асессоров.Большое продвижение дают конференции-соревнования: TREC, РОМИП и т.д.

Уровни анализа языкаУровни анализа языка Морфологический анализМорфологический анализ

– – признан необходимым для информационного поиска, признан необходимым для информационного поиска, особенно для флективных языков (например, русского); особенно для флективных языков (например, русского); сюда же относится предсказательная морфология (для сюда же относится предсказательная морфология (для незнакомых слов), а также исправление опечаток.незнакомых слов), а также исправление опечаток.

Синтаксический анализСинтаксический анализ – – уже из самого понятия уже из самого понятия “bag of words”“bag of words” следует, что следует, что

синтаксис здесь практически не используется; синтаксис здесь практически не используется; исключения: линейный порядок слов, именные группы, исключения: линейный порядок слов, именные группы, сборка терминологических словосочетаний.сборка терминологических словосочетаний.

Семантический анализ Семантический анализ – – в классическом информационном поиске как правило в классическом информационном поиске как правило

не используется; некоторые элементы лексической не используется; некоторые элементы лексической семантики применяются при расширении запросов, семантики применяются при расширении запросов, индексировании документов и составлении каталогов.индексировании документов и составлении каталогов.

ИсточникиИсточники

1.1. J. Savoy, E. Gaussier Information Retrieval // J. Savoy, E. Gaussier Information Retrieval // Handbook of natural language processing, Handbook of natural language processing, Second Edition Editor(s): Nitin Indurkhya; Fred Second Edition Editor(s): Nitin Indurkhya; Fred J. Damerau, Goshen, Connecticut, USA – 2010 – J. Damerau, Goshen, Connecticut, USA – 2010 – pp. 455-484pp. 455-484

2.2. КК.. Д. Маннинг, П Д. Маннинг, П.. Рагхаван, Х Рагхаван, Х.. Шютце Шютце Введение в информационный поиск – Вильямс, Введение в информационный поиск – Вильямс, 20112011

3.3. А.В. Сычев Информационно-поисковые А.В. Сычев Информационно-поисковые системы - системы - http://company.yandex.ru/academic/class2006/syhttp://company.yandex.ru/academic/class2006/sychev.xmlchev.xml

01 информационный поиск

Education