Расширение представления документов при поиске в Веб

Post on 01-Jan-2016

57 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

DESCRIPTION

Расширение представления документов при поиске в Веб. Владимир Иванов, Игорь Некрестьянов, Надежда Пантелеева Санкт-Петербургский Государственный Университет http://ir.apmath.spbu.ru. Методы представления документов в ИПС. Цели работы. - PowerPoint PPT Presentation

TRANSCRIPT

Расширение представления документов при поиске в Веб

Владимир Иванов, Игорь Некрестьянов, Надежда Пантелеева

Санкт-Петербургский Государственный Университет

http://ir.apmath.spbu.ru

Методы представления документов в ИПС

Единица информац

ии

Контекст

Применениеплоский текст

гипер-текст

Файл + + традиционное

Параграф + +Фактографический поиск, обогащение информацией профилей документов

Логический документ (файл и его окрестность)

- +

Поиск логических документов, повышение качества классификации/кластеризации документов

Цели работы

Помогает ли расширение представления повысить качество поиска?

Какие объективные характеристики обуславливают улучшение?

Методы расширения Веб-документов

Base (одна Веб-страница) SameDirectory (Веб-страница и

ее соседи в рамках директории) SameServer (Веб-страница и ее

соседи в рамках Веб-сервера) Greedy (Веб-страница и все ее

соседи)

Влияние на классификацию

Методы: Tfidf Probabalistic Indexing (prind) NaiveBayes (NB) Support Vector Machine (SVM)

Критерий качества классификации:

Accuracy = Ncorrect / Nincorrect * 100 %

Наборы данных

Dataset50 – набор 50 категорий из каталога List.Ru по 100 документов в каждой категории

Представление

Общий размер представлений

(Kb) (физ. страниц)

Base 29620 4734

Greedy 718920 135274

SameServer 544724 98589

SameDirесtory 186400 32753

Расширение представления повышает качество поиска

Стабильность результата

Доля документов для обучения

Номер случайной выборки

1 2 3 4 5

0.2 0 0 0 0 0

0.4 0 0 0 0 0

0.6 1 1 1 1 1

0.8 1 1 1 1 1

Кол-во категори

й

Номер случайной выборки

1 2 3 4 5

2 0 -1 1 1 1

5 1 1 1 1 0

10 0 1 1 1 1

25 1 1 1 1 1

Изменение объективных характеристик

размер

Словаря (слов)Пересечения test/train

(%)

Base 229073 25

SameDir 789573 26.5

SameServer 1344656 28

Greedy 1494319 28.31

Обучение и тестирование на разных представлениях

0

20

40

60

Base/BaseSameServer/SameServerBase/SameServerSameServer/Base

Наблюдения

Расширение представления позволяет повысить качество решения задач поиска

Да

Качество решения зависит от метода расширения Да

Качество решения зависит от метода классификации Да

Качество решения зависит от разделения представлений в train/test Нет

Качество решения обуславливается изменением объективных характеристик

Да

top related