Владимир Батыгин "Методы автоматического сбора...
DESCRIPTION
Владимир Батыгин "Методы автоматического сбора данных" Я.Субботник в Санкт-Петербурге О докладе: В настоящее время в интернете наблюдается стремительный рост количества полезной для пользователей информации. Чтобы в ней хорошо ориентироваться, нужны все более умные поисковые системы, собирающие не просто тексты, а структурированную информацию. За её сбор отвечает направление web content mining. В докладе будет рассказано об этом направлении, а также будет дан обзор методов ведущих специалистов в этой области.TRANSCRIPT
Методы автоматического сбора данных Владимир Батыгин Разработчик Я.Субботник, Санкт-‐Петербург, 3 декабря
План o Мотивация o Классификация методов o Примеры существующих систем o Заключение.
2
1996 Web Mining
3
«The World-Wide Web: quagmire or gold mine?» Professor Oren Etzioni Director of the Turing Center
Интернет
• 2003 год: в рунете 200 тысяч сайтов
• Сейчас: в рунете 3,5 миллионов сайтов
4
Использование в сервисах
Использование в сервисах
6
Использование в сниппетах
7
Использование в сниппетах
8
План o Мотивация o Классификация методов o Примеры существующих систем o Заключение.
9
Wrapper Induction
System
Составные части систем [Chang2006]
10
Wrapper
Extracted Data
Test Page
Un-labeled Web Pages
Manual | Supervised | Semi-supervised | Un-supervised
Классификация методов [Chang2006]
11
Wrapper
Extracted Data
Test Page
Manual
Manual | Supervised | Semi-supervised | Un-supervised
Wrapper Induction
System
Классификация методов [Chang2006]
12
Wrapper
Extracted Data
Test Page
Un-labeled Web Pages
Supervised
Labeled Web Pages
Manual | Supervised | Semi-supervised | Un-supervised
Wrapper Induction
System
Классификация методов [Chang2006]
13
Wrapper
Extracted Data
Test Page
Un-labeled Web Pages
Semi-supervised
Manual | Supervised | Semi-supervised | Un-supervised
Wrapper Induction
System
Классификация методов [Chang2006]
14
Wrapper
Extracted Data
Test Page
Un-labeled Web Pages
Unsupervised
План o Мотивация o Классификация методов o Примеры существующих систем o Заключение.
15
Существующие подходы Manual Supervised Semi-supervised Unsupervised TSIMMIS [Hammer1997]
Minerva [Crescenzi1998] WebQOL [Arocena1998] XWRAP [Liu2000] W4F [Saiiuguet2001]
WIEN [Kushmerick1997] SRV [Freitag1998] RAPIER [Califf1998] NoDoSe [Adelberg1998] SoftMealy [Hsu1998]
WHISK [Soderland1999] STALKER [Muslea1999]
DEByE [Laender2002]
IEPAD [Chang2001] OLERA [Chang2004] Thresher [Hogue2005] IDE [Zhai2005]
RoadRunner [Crescenzi2001] DeLa [Wang2002] EXALG [Arasu2003] DEPTA [Znai2005] NET [Zhai2005] IEKA [Wong2007] ViDE [Liu2010]
16
Примеры существующих подходов и систем
• Manual o Supervised и Semi-supervised o Unsupervised o Гибридные методы
17
Manual
Особенности:
• Парсеры пишутся вручную;
• Для разбора используют
– Xpath; – RegExp.
18
WebHarvest: Easy Web Scraping from Java
19 http://web-harvest.sourceforge.net/
Таких инструментов много
20
30 Digits Web Extractor Software
Djuggler Happy Harvester Irobot Soft ListGrabber
http://www.theeasybee.com/
Проблема
• Высокая стоимость разарботки
• Высокая стоимость поддержки
21
Примеры существующих подходов и систем
ü Manual • Supervised и Semi-supervised o Unsupervised o Гибридные методы
22
Supervised и Semi-‐supervised
Особенность:
• Правила извлечения генерируются автоматически или под контролем пользователя.
23
24
Инструменты
25
http://www.visualwebripper.com/
http://www.lixto.com/
http://www.denodo.com
Проблема
• Высокая стоимость поддержки для большого количества сайтов
26
Примеры существующих подходов и систем
ü Manual ü Supervised и Semi-supervised ü Unsupervised o Гибридные методы
27
Unsupervised
Особенности:
Полностью автоматические. Не требуют контроля со стороны пользователя.
28
Исследовательские центры на карте мира
29
University of Illinois at Chicago
Università di Roma Tre Università della Basilicata
Microsoft Research Asia
Crescenzi et al: RoadRunner
• Дано множество «хороших» страниц;
• Строится wrapper в форме RegExp.
Подход
• Wrapper строится на основании сравнения двух страниц одинаковой структуры.
30
31
32
33
34
Crescenzi et al: RoadRunner. Пример
A B C D E F G H I Albania
Football Association of Albania
1930 1954 1932 PAPADHOPULLI Dhimiter
STAROVA Sulejman
None*
ZHEGA Medin
35
Проблема
• Низкая полнота и точность
• Невозможно настроить под любой сайт
36
Примеры существующих подходов и систем
ü Manual ü Supervised и Semi-supervised ü Unsupervised o Гибридные методы
37
Исследовательские центры
38
University of Illinois at Chicago
Università di Roma Tre Università della Basilicata
Microsoft Research Asia
From one tree to a forest
• Размечается несколько начальных сайтов
• Система настраиватется для всех сайтов с вертикали
39 [Qiang Hao et. al. 2011]
From one tree to a forest
40 [Qiang Hao et. al. 2011]
Оценка
41 [Qiang Hao et. al. 2011]
План o Мотивация o Классификация методов o Примеры существующих систем o Заключение.
42
Заключение
• Manual
– Когда надо собрать мало данных
• Supervised, Semi-supervised
– Когда важна точность
• Unsupervised
– Когда важна полнота
43
Спасибо за внимание!
Вопросы?
44
Владимир Батыгин разработчик vbatygin@yandex-‐team.ru
45