Расширение представления документов при поиске в Веб
DESCRIPTION
Расширение представления документов при поиске в Веб. Владимир Иванов, Игорь Некрестьянов, Надежда Пантелеева Санкт-Петербургский Государственный Университет http://ir.apmath.spbu.ru. Методы представления документов в ИПС. Цели работы. - PowerPoint PPT PresentationTRANSCRIPT
Расширение представления документов при поиске в Веб
Владимир Иванов, Игорь Некрестьянов, Надежда Пантелеева
Санкт-Петербургский Государственный Университет
http://ir.apmath.spbu.ru
Методы представления документов в ИПС
Единица информац
ии
Контекст
Применениеплоский текст
гипер-текст
Файл + + традиционное
Параграф + +Фактографический поиск, обогащение информацией профилей документов
Логический документ (файл и его окрестность)
- +
Поиск логических документов, повышение качества классификации/кластеризации документов
Цели работы
Помогает ли расширение представления повысить качество поиска?
Какие объективные характеристики обуславливают улучшение?
Методы расширения Веб-документов
Base (одна Веб-страница) SameDirectory (Веб-страница и
ее соседи в рамках директории) SameServer (Веб-страница и ее
соседи в рамках Веб-сервера) Greedy (Веб-страница и все ее
соседи)
Влияние на классификацию
Методы: Tfidf Probabalistic Indexing (prind) NaiveBayes (NB) Support Vector Machine (SVM)
Критерий качества классификации:
Accuracy = Ncorrect / Nincorrect * 100 %
Наборы данных
Dataset50 – набор 50 категорий из каталога List.Ru по 100 документов в каждой категории
Представление
Общий размер представлений
(Kb) (физ. страниц)
Base 29620 4734
Greedy 718920 135274
SameServer 544724 98589
SameDirесtory 186400 32753
Расширение представления повышает качество поиска
Стабильность результата
Доля документов для обучения
Номер случайной выборки
1 2 3 4 5
0.2 0 0 0 0 0
0.4 0 0 0 0 0
0.6 1 1 1 1 1
0.8 1 1 1 1 1
Кол-во категори
й
Номер случайной выборки
1 2 3 4 5
2 0 -1 1 1 1
5 1 1 1 1 0
10 0 1 1 1 1
25 1 1 1 1 1
Изменение объективных характеристик
размер
Словаря (слов)Пересечения test/train
(%)
Base 229073 25
SameDir 789573 26.5
SameServer 1344656 28
Greedy 1494319 28.31
Обучение и тестирование на разных представлениях
0
20
40
60
Base/BaseSameServer/SameServerBase/SameServerSameServer/Base
Наблюдения
Расширение представления позволяет повысить качество решения задач поиска
Да
Качество решения зависит от метода расширения Да
Качество решения зависит от метода классификации Да
Качество решения зависит от разделения представлений в train/test Нет
Качество решения обуславливается изменением объективных характеристик
Да