russir 2008 russian summer school in information...

38
RuSSIR 2010 Russian Summer School in Information Retrieval 13-18 сентября 2010 Воронеж Как это было…

Upload: others

Post on 02-Sep-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: RuSSIR 2008 Russian Summer School in Information Retrievalcache-mskm908.cdn.yandex.net/download.yandex.ru...- Может отражать социальные характеристики

RuSSIR 2010Russian Summer School in Information Retrieval

13-18 сентября 2010 Воронеж

Как это было…

Page 2: RuSSIR 2008 Russian Summer School in Information Retrievalcache-mskm908.cdn.yandex.net/download.yandex.ru...- Может отражать социальные характеристики

Немного истории

• Школы проводятся совместно с РОМИП

• Школы поддерживаются и спонсируются разными компаниями

• RuSSIR 2007 Екатеринбург

• RuSSIR 2008 Таганрог

• RuSSIR 2009 Петрозаводск

Page 3: RuSSIR 2008 Russian Summer School in Information Retrievalcache-mskm908.cdn.yandex.net/download.yandex.ru...- Может отражать социальные характеристики

Немного статистики

• Воронежский Государственный университет

• 5 курсов, 2 спонсорские лекции

• Конференция молодых ученых (10 докладов)‏(4 лучшие получили публикацию в ВАК)

• Все курсы по-английски

• 9 часов 45 минут занятий в день (с перерывами)‏

• Всего около 110 человек

• Конкурс: примерно 2 человека на место

Page 4: RuSSIR 2008 Russian Summer School in Information Retrievalcache-mskm908.cdn.yandex.net/download.yandex.ru...- Может отражать социальные характеристики

Курс

• Web Data Mining (WDM)

• Ricardo Baeza-Yates,Yahoo! Research Barcelona, Spain

Page 5: RuSSIR 2008 Russian Summer School in Information Retrievalcache-mskm908.cdn.yandex.net/download.yandex.ru...- Может отражать социальные характеристики

Что можно майнить? • Контент: текст и

мультимедиа• Структура: анализ ссылок и

графов• Поведение, использование:

логи, запросы• Веб в научном плане новая

среда, много перспектив, много всего неисследованного, широкое поле для деятельности…

• НО в докладе не всегда новая информация

Web Data Mining

Веб – отражение общества.Например, ссылки между доменами стран распределены очень похоже на объемы экспорта и импорта между странами.

Page 6: RuSSIR 2008 Russian Summer School in Information Retrievalcache-mskm908.cdn.yandex.net/download.yandex.ru...- Может отражать социальные характеристики

Crawling

Общая задача

• Найти последовательность запросов на скачивание страниц, которая– Оптимизирует объем, качество и свежесть документов– Работает ограниченное время– Не перегружает хосты– Оптимально использует имеющуюся пропускную способность• Рассчитывается на лету

Page 7: RuSSIR 2008 Russian Summer School in Information Retrievalcache-mskm908.cdn.yandex.net/download.yandex.ru...- Может отражать социальные характеристики

Crawling

Эвристики• Проход в ширину • Упорядочивание по рангу:– PageRank• Упорядочивание по размеру• Использование– Частичных данные– Временных данные• Трудно оценить качество

Page 8: RuSSIR 2008 Russian Summer School in Information Retrievalcache-mskm908.cdn.yandex.net/download.yandex.ru...- Может отражать социальные характеристики

Wisdom of the crowd

Heavy Long Tail

Большое количество запросов, каждый из которых был задан небольшое количество раз, составляют большУю часть всех запросов.

• Пользователи -> искусственные сессии

- тематические• Трудности при нахождении похожих запросов и объединении их в сессии

Постобработка

• Легко удалить запросы, заданные небольшим количеством пользователей• Online?

Query Log Mining

Page 9: RuSSIR 2008 Russian Summer School in Information Retrievalcache-mskm908.cdn.yandex.net/download.yandex.ru...- Может отражать социальные характеристики

Анонимизация данных• Лог запросов к AOL’у (август 2006 г.)• Данные as is => личные данные• Установление личности пользователей (запросы + «желтые страницы»)

• SCANDAL

Background: Как разделить секрет среди n человек, чтобы любые k человек могли узнать секрет, а k-1 не могли? Решение: метод с полиномом k-1 степени

Наивный подход (token-based hashing) восстановим по частотам

• Запрос q кодируется полиномом k-1 степени fq

• Когда пользователь ui вводит запрос q, в лог пишется (ui , fq (ui ))• Если больше, чем k пользователей ввели запрос q, запрос может быть расшифрован.

Online фильтрация

Query Log Mining

Page 10: RuSSIR 2008 Russian Summer School in Information Retrievalcache-mskm908.cdn.yandex.net/download.yandex.ru...- Может отражать социальные характеристики

Graph Mining

Реальные графы не похожи на случайныеЗаконы построения:- Степенной закон- Лог-нормальное распределение- Preferential attachment- «Деньги к деньгам» (rich get richer)

• Prestige• Centrality• Co-citation• PageRank (+ enhancements)• HITS

Page 11: RuSSIR 2008 Russian Summer School in Information Retrievalcache-mskm908.cdn.yandex.net/download.yandex.ru...- Может отражать социальные характеристики

Graph MiningОбнаружение сообществ

- Один из подходов к кластеризации веба- Может отражать социальные характеристики- «Размазывание» признаков по всей группе

• Сетевые сообщества описываются плотные направленные двудольные графы [Kumar et al., 1999]• ~ Hubs and authorities (пример: сайты спортивных машин и фанаты)

Page 12: RuSSIR 2008 Russian Summer School in Information Retrievalcache-mskm908.cdn.yandex.net/download.yandex.ru...- Может отражать социальные характеристики

Цели борьбы с поисковым спамом:Не дать спаму влиять на ранжирование, сохранив при этом:– Релевантность (“Perfect

spam”)– Свежесть (нельзя

отказываться от обхода новых документов из-за того, что в сети встречается спам)– Полноту (навигационный

поиск должен работать в том числе для спама)

What is in the Web?• Information

• Porn

Get rich now now now!!!+On-line casinos + Free movies + Cheap

software + Buy a MBA diploma +Prescription - free drugs + V!-4-gra +

Spam

Фокусироваться только на двух типах:1)Спам, который неоправданно высоко ранжируется2) Спам, на который «съедает» системные ресурсы(Все остальное “темная материя”)

Page 13: RuSSIR 2008 Russian Summer School in Information Retrievalcache-mskm908.cdn.yandex.net/download.yandex.ru...- Может отражать социальные характеристики

Спамеры имитируют нормальное сетевое поведение, но– Любое статистическое отклонение

подозрительно– Усеченный PageRank: множество входящих ссылок для

спам-сайтов обычно меньше, чем для нормальных сайтов

«Метод соседей»

Spam

Даже если в приближении спам-сеть может быть похожа на естественную, ее можно вычислить при изменении масштаба.

Page 14: RuSSIR 2008 Russian Summer School in Information Retrievalcache-mskm908.cdn.yandex.net/download.yandex.ru...- Может отражать социальные характеристики

Курс

• Multimedia Information Retrieval (MMIR)

• Stefan Rüger, The Open University

Page 15: RuSSIR 2008 Russian Summer School in Information Retrievalcache-mskm908.cdn.yandex.net/download.yandex.ru...- Может отражать социальные характеристики

Поиск по мультимедиа

Почему бы не заполнить все эти клеточки?

Запрос может быть любого типа

Можем исходить из

– метаданных

– содержимого

Но лучше - объединить

Page 16: RuSSIR 2008 Russian Summer School in Information Retrievalcache-mskm908.cdn.yandex.net/download.yandex.ru...- Может отражать социальные характеристики

Автоматическое аннотирование изображений

Вода

Здание

Город

Закат

Атмосфера

Можно аннотировать

– видео

– музыку

(жанр, муз. инструменты)

Page 17: RuSSIR 2008 Russian Summer School in Information Retrievalcache-mskm908.cdn.yandex.net/download.yandex.ru...- Может отражать социальные характеристики

Идентификация по отпечатку

Фингерпринтинг:

Быстрый

Надежный

Однозначный

Устойчивый

Page 18: RuSSIR 2008 Russian Summer School in Information Retrievalcache-mskm908.cdn.yandex.net/download.yandex.ru...- Может отражать социальные характеристики

Извлечение признаков

Изображения:

– гистограмма цвета

– текстура

Звук:

– пики спектрограммы

– тембр

– ритмический рисунок

Page 19: RuSSIR 2008 Russian Summer School in Information Retrievalcache-mskm908.cdn.yandex.net/download.yandex.ru...- Может отражать социальные характеристики

Реализация: признаки и расстояния

Как это работает:

– запрос

– фичи запроса

– сравнение хешей с БД

– минимизация расстояния

– …

– PROFIT! БД хешей фич

Функция расстояния

Непосильный объем вычислений при росте размерности пространства

Page 20: RuSSIR 2008 Russian Summer School in Information Retrievalcache-mskm908.cdn.yandex.net/download.yandex.ru...- Может отражать социальные характеристики

• Distributed Information Retrieval (DIR)

• Fabio Crestani & Ilya Markov, University of Lugano

Курс

Page 21: RuSSIR 2008 Russian Summer School in Information Retrievalcache-mskm908.cdn.yandex.net/download.yandex.ru...- Может отражать социальные характеристики

Распределенный поиск

Распределенный поиск - это система, которая позволяет искать информацию, рассредоточенную по различным ресурсам.Ресурс = коллекция документов + поисковый движок.

Зачем нужен распределенный поиск?• глубинный веб: в сети много ценной информации, недоступной для обхода поисковыми роботами• сохраняются авторские права, права доступа• документы всегда актуальны• поиск оптимизирован под структуру данных (видео, картинки, блоги, новости, etc.)

Page 22: RuSSIR 2008 Russian Summer School in Information Retrievalcache-mskm908.cdn.yandex.net/download.yandex.ru...- Может отражать социальные характеристики

Архитектура распределенного поиска

Общая‏

коллекция

Распределенные‏

индексы

Централизованн

ый‏индекс

Гибрид:‏

индексируем‏

индексы‏

P2P

Обход робота

Сбор метаданныхБрокер

Общий‏

индекс‏для‏

всех‏

ресурсов

У‏каждого‏

ресурса‏

свой‏

собственный‏

индекс

Page 23: RuSSIR 2008 Russian Summer School in Information Retrievalcache-mskm908.cdn.yandex.net/download.yandex.ru...- Может отражать социальные характеристики

Общая схема работы («брокер»)

• Поиск ресурсов: нужно найти ресурсы, подходящие для объединения (есть свой поиск, поддерживают протокол связи и т.д.).

• Описание ресурсов: необходимо получить информацию о каждом ресурсе с помощью его поискового движка.

• Выбор ресурсов: когда запрос задан, поисковая система выбирает подходящие ресурсы для поиска внутри них.

• Синтез результатов: результаты поиска, полученные из каждого из выбранных ресурсов, объединяются в единый ранжированный список, возвращаемый пользователю.

• Представление результатов: в конечном итоге результаты должны быть показаны пользователю в полном и понятном виде.

•Открытые ресурсы: предоставляют доступ к документам, индексу и отвечают на запросы•«Черные ящики»: задаем запрос и получаем ответ

• слияние результатов• «хочу ещё!»• вкладки (tabbed)• side-by-side

Page 24: RuSSIR 2008 Russian Summer School in Information Retrievalcache-mskm908.cdn.yandex.net/download.yandex.ru...- Может отражать социальные характеристики

Приложения распределенного поиска

1. Вертикальный поиск: поиск по коллекциям документов из определенной области или медиафайлам разных типов: новости, путешествия, погода, картинки, музыка, видео… Можно использовать слова-маркеры для определения области.

Для выбора типа вертикального поиска можно использовать:• классификацию (показываем или нет по решению классификатора):

факторы по запросам, логам запросов, лексике;• вероятностный подход (у каждого вертикального поиска есть

вероятность).

Page 25: RuSSIR 2008 Russian Summer School in Information Retrievalcache-mskm908.cdn.yandex.net/download.yandex.ru...- Может отражать социальные характеристики

2. Поиск по блогам: считаем «ресурсом» каждый блог в отдельности. Можем считать, что «блог = большой документ» или «блог = много постов». Собираем метаданные: время публикации, ссылки (посты ссылаются друг на друга их содержание связано; чем больше входящих ссылок, тем авторитетнее пост), авторство, комментарии, etc.

3. Экспертный поиск: документы имеют неравный вес в зависимости от авторства.

4. Персональный поиск: нужно найти среди личных файлов и документов пользователя наиболее релевантные запросу (возможно, документы разных типов).

Приложения распределенного поиска

Page 26: RuSSIR 2008 Russian Summer School in Information Retrievalcache-mskm908.cdn.yandex.net/download.yandex.ru...- Может отражать социальные характеристики

Лекция

NLP@ Google overview

Multi-Sentence Compression

• Katja FilippovaGoogle Inc

Page 27: RuSSIR 2008 Russian Summer School in Information Retrievalcache-mskm908.cdn.yandex.net/download.yandex.ru...- Может отражать социальные характеристики

По этим фразам строится граф:• вершины = токены U {Start, End}• рёбра графа обозначают соседство токенов в фразах

Сжатой фразой называется любой путь в графе от Start до End.

На вход алгоритм получает кластер сходных фраз, например:1. Hillary Clinton wanted to visit China last month but postponed her plans till Monday last week.2. Hillary Clinton paid a visit to the People’s Republic of China on Monday.3. The wife of a former U.S. president Bill Clinton Hillary Clinton visited China last Monday.4. Last week the Secretary of State Ms. Clinton visited Chinese officials.

Page 28: RuSSIR 2008 Russian Summer School in Information Retrievalcache-mskm908.cdn.yandex.net/download.yandex.ru...- Может отражать социальные характеристики

Слова из фразы в граф добавляются за три шага:• однозначные не-стоп-слова – сливаются с существующей вершиной или создают новую• неоднозначные не-стоп-слова – склеиваются по максимуму покрытия• стоп-слова – склеиваются, если есть пересечение в их контекстах

Полученный граф допускает циклы, однако каждое исходное предложение в нём представлено путём без циклов.

S last

Hillary

to

week

Clinton

visited

paid

Chinese Officials

Clinton

Monday

of

wanted

Month

till

China

E

Ms

visit

the

1

2

3

4

last

on

Page 29: RuSSIR 2008 Russian Summer School in Information Retrievalcache-mskm908.cdn.yandex.net/download.yandex.ru...- Может отражать социальные характеристики

U Vfreq(e)

freq(v)freq(u)

В графе строятся k кратчайших путей, при этом:• Пути короче 8 вершин отбрасываются• Пути, не проходящие через глагол, отбрасываются• Длина пути нормализуется на число вершин пути

Путь в графе, обладающий наименьшим весом – искомый!

Page 30: RuSSIR 2008 Russian Summer School in Information Retrievalcache-mskm908.cdn.yandex.net/download.yandex.ru...- Может отражать социальные характеристики

System Gram-2 Gram-1 Gram-0 Avg. Len.

Baseline (EN) 21% 15% 65% 8 / 28

Shortest path (EN) 52% 16% 32% 10 / 28

Shortest path++ (EN) 64% 13% 23% 12 / 28

Baseline (ES) 12% 15% 74% 8 / 35

Shortest path (ES) 58% 21% 21% 10 / 35

Shortest path++ (ES) 50% 21% 29% 12 / 35

System Info-2 Info-1 Info-0 Avg. Len.

Baseline (EN) 18% 10% 73% 8 / 28

Shortest path (EN) 36% 33% 31% 10 / 28

Shortest path++ (EN) 52% 32% 16% 12 / 28

Baseline (ES) 9% 19% 72% 8 / 35

Shortest path (ES) 23% 26% 51% 10 / 35

Shortest path++ (ES) 40% 40% 20% 12 / 35

Использовались 80 английских и 40 испанских новостных кластеровВыбиралось первое предложение каждого документа

Результаты оценки асессорами:

Page 31: RuSSIR 2008 Russian Summer School in Information Retrievalcache-mskm908.cdn.yandex.net/download.yandex.ru...- Может отражать социальные характеристики

Лекция

Расширения поисковых запросов

• Алексей Сокирко, Евгений СоловьёвЯндекс

Page 32: RuSSIR 2008 Russian Summer School in Information Retrievalcache-mskm908.cdn.yandex.net/download.yandex.ru...- Может отражать социальные характеристики

• Введение: отношение «синонимии» в запросах• Общий дизайн поисковых расширений• Словоизменение и словообразование• Транслитерация и акронимы• Machine learning в поисковых расширениях

Page 33: RuSSIR 2008 Russian Summer School in Information Retrievalcache-mskm908.cdn.yandex.net/download.yandex.ru...- Может отражать социальные характеристики

Популярные классы синонимии

• Словоизменение (слон → слоны, бежал → бежать)

• Словообразование (лемма → лемматизировать)

• Транслитерация (Bosch → Бош, Яндекс → Yandex)

• Акронимы (Российская Федерация → РФ)

• Орфоварианты (мильон → миллион, colour → color)

• Неточные синонимы (сотовый → мобильныйтелефон)

Page 34: RuSSIR 2008 Russian Summer School in Information Retrievalcache-mskm908.cdn.yandex.net/download.yandex.ru...- Может отражать социальные характеристики

Лингвистическая‏модель Общие факторы

Дополнительные‏

факторы

Open Source словари‏+

Ручная‏разметкаРасширение запроса

Machine

Learning

Page 35: RuSSIR 2008 Russian Summer School in Information Retrievalcache-mskm908.cdn.yandex.net/download.yandex.ru...- Может отражать социальные характеристики

Конференция молодых ученых

Приняты без публикации:

• Разметка обучающего множества для Марковской модели максимальной энтропии, используемой в задаче извлечения собственных имен из текста.Глазова М.А., Санкт-Петербургский Государственный Университет, Санкт-Петербург, Россия

• Извлечение информации о глагольной сочетаемости на основе коллекции текстовКочеткова Н. А. Литвинов М. И., МИЭМ, Москва, Россия

• Усовершенствование метода пополнения морфологического словаря, Черненьков Д.М., Гугл / МИЭМ, Москва, Россия

• Текстовые классификаторы. Математические модели, Юрий Басов, Рамблер/МГУ, Москва, Россия

Page 36: RuSSIR 2008 Russian Summer School in Information Retrievalcache-mskm908.cdn.yandex.net/download.yandex.ru...- Может отражать социальные характеристики

• Link Graph Analysis for Adult Images ClassificationEvgeny Kharitonov et al., Яндекс, МФТИ, Москва, Россия

• Unsupervised Query Segmentation Using Click Data and Dictionaries InformationJulia Kiseleva, CПбГУ, Санкт-Петербург, Россия

• Could we automatically reproduce semantic relations of an Information Retrieval thesaurus?Alexander Panchenko, Center for Natural Language Processing, Catholic University of Louvain, Лувен-ля-Нёв, Бельгия

• Tapping Into Sociological Lexicons for Sentiment Polarity ClassificationYelena Mejova, University of Iowa, Iowa City, IA, USA

• Прогнозирование Загруженности Автомобильных ДорогПупырев Сергей, Пронченков Александр, УрГУ, Екатеринбург

• Прогнозирование пробок на улицах по известным данным о скорости автомобилейГуда С.А., Рябов Д.С., Южный федеральный университет, Ростов-на-Дону, Россия

Page 38: RuSSIR 2008 Russian Summer School in Information Retrievalcache-mskm908.cdn.yandex.net/download.yandex.ru...- Может отражать социальные характеристики

Материалы

• Видеозаписи‏лекций‏скоро‏появятся

• Презентации‏вы‏можете‏почитать‏уже‏сейчас‏‏

http://romip.ru/russir2010/program.html