Расширение представления документов при поиске в Веб

11
Расширение представления документов при поиске в Веб Владимир Иванов, Игорь Некрестьянов, Надежда Пантелеева Санкт-Петербургский Государственный Университет http://ir.apmath.spbu.ru

Upload: lois-boone

Post on 01-Jan-2016

57 views

Category:

Documents


0 download

DESCRIPTION

Расширение представления документов при поиске в Веб. Владимир Иванов, Игорь Некрестьянов, Надежда Пантелеева Санкт-Петербургский Государственный Университет http://ir.apmath.spbu.ru. Методы представления документов в ИПС. Цели работы. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Расширение представления документов при поиске в Веб

Расширение представления документов при поиске в Веб

Владимир Иванов, Игорь Некрестьянов, Надежда Пантелеева

Санкт-Петербургский Государственный Университет

http://ir.apmath.spbu.ru

Page 2: Расширение представления документов при поиске в Веб

Методы представления документов в ИПС

Единица информац

ии

Контекст

Применениеплоский текст

гипер-текст

Файл + + традиционное

Параграф + +Фактографический поиск, обогащение информацией профилей документов

Логический документ (файл и его окрестность)

- +

Поиск логических документов, повышение качества классификации/кластеризации документов

Page 3: Расширение представления документов при поиске в Веб

Цели работы

Помогает ли расширение представления повысить качество поиска?

Какие объективные характеристики обуславливают улучшение?

Page 4: Расширение представления документов при поиске в Веб

Методы расширения Веб-документов

Base (одна Веб-страница) SameDirectory (Веб-страница и

ее соседи в рамках директории) SameServer (Веб-страница и ее

соседи в рамках Веб-сервера) Greedy (Веб-страница и все ее

соседи)

Page 5: Расширение представления документов при поиске в Веб

Влияние на классификацию

Методы: Tfidf Probabalistic Indexing (prind) NaiveBayes (NB) Support Vector Machine (SVM)

Критерий качества классификации:

Accuracy = Ncorrect / Nincorrect * 100 %

Page 6: Расширение представления документов при поиске в Веб

Наборы данных

Dataset50 – набор 50 категорий из каталога List.Ru по 100 документов в каждой категории

Представление

Общий размер представлений

(Kb) (физ. страниц)

Base 29620 4734

Greedy 718920 135274

SameServer 544724 98589

SameDirесtory 186400 32753

Page 7: Расширение представления документов при поиске в Веб

Расширение представления повышает качество поиска

Page 8: Расширение представления документов при поиске в Веб

Стабильность результата

Доля документов для обучения

Номер случайной выборки

1 2 3 4 5

0.2 0 0 0 0 0

0.4 0 0 0 0 0

0.6 1 1 1 1 1

0.8 1 1 1 1 1

Кол-во категори

й

Номер случайной выборки

1 2 3 4 5

2 0 -1 1 1 1

5 1 1 1 1 0

10 0 1 1 1 1

25 1 1 1 1 1

Page 9: Расширение представления документов при поиске в Веб

Изменение объективных характеристик

размер

Словаря (слов)Пересечения test/train

(%)

Base 229073 25

SameDir 789573 26.5

SameServer 1344656 28

Greedy 1494319 28.31

Page 10: Расширение представления документов при поиске в Веб

Обучение и тестирование на разных представлениях

0

20

40

60

Base/BaseSameServer/SameServerBase/SameServerSameServer/Base

Page 11: Расширение представления документов при поиске в Веб

Наблюдения

Расширение представления позволяет повысить качество решения задач поиска

Да

Качество решения зависит от метода расширения Да

Качество решения зависит от метода классификации Да

Качество решения зависит от разделения представлений в train/test Нет

Качество решения обуславливается изменением объективных характеристик

Да