![Page 1: Расширение представления документов при поиске в Веб](https://reader036.vdocuments.pub/reader036/viewer/2022082402/5681311b550346895d97856f/html5/thumbnails/1.jpg)
Расширение представления документов при поиске в Веб
Владимир Иванов, Игорь Некрестьянов, Надежда Пантелеева
Санкт-Петербургский Государственный Университет
http://ir.apmath.spbu.ru
![Page 2: Расширение представления документов при поиске в Веб](https://reader036.vdocuments.pub/reader036/viewer/2022082402/5681311b550346895d97856f/html5/thumbnails/2.jpg)
Методы представления документов в ИПС
Единица информац
ии
Контекст
Применениеплоский текст
гипер-текст
Файл + + традиционное
Параграф + +Фактографический поиск, обогащение информацией профилей документов
Логический документ (файл и его окрестность)
- +
Поиск логических документов, повышение качества классификации/кластеризации документов
![Page 3: Расширение представления документов при поиске в Веб](https://reader036.vdocuments.pub/reader036/viewer/2022082402/5681311b550346895d97856f/html5/thumbnails/3.jpg)
Цели работы
Помогает ли расширение представления повысить качество поиска?
Какие объективные характеристики обуславливают улучшение?
![Page 4: Расширение представления документов при поиске в Веб](https://reader036.vdocuments.pub/reader036/viewer/2022082402/5681311b550346895d97856f/html5/thumbnails/4.jpg)
Методы расширения Веб-документов
Base (одна Веб-страница) SameDirectory (Веб-страница и
ее соседи в рамках директории) SameServer (Веб-страница и ее
соседи в рамках Веб-сервера) Greedy (Веб-страница и все ее
соседи)
![Page 5: Расширение представления документов при поиске в Веб](https://reader036.vdocuments.pub/reader036/viewer/2022082402/5681311b550346895d97856f/html5/thumbnails/5.jpg)
Влияние на классификацию
Методы: Tfidf Probabalistic Indexing (prind) NaiveBayes (NB) Support Vector Machine (SVM)
Критерий качества классификации:
Accuracy = Ncorrect / Nincorrect * 100 %
![Page 6: Расширение представления документов при поиске в Веб](https://reader036.vdocuments.pub/reader036/viewer/2022082402/5681311b550346895d97856f/html5/thumbnails/6.jpg)
Наборы данных
Dataset50 – набор 50 категорий из каталога List.Ru по 100 документов в каждой категории
Представление
Общий размер представлений
(Kb) (физ. страниц)
Base 29620 4734
Greedy 718920 135274
SameServer 544724 98589
SameDirесtory 186400 32753
![Page 7: Расширение представления документов при поиске в Веб](https://reader036.vdocuments.pub/reader036/viewer/2022082402/5681311b550346895d97856f/html5/thumbnails/7.jpg)
Расширение представления повышает качество поиска
![Page 8: Расширение представления документов при поиске в Веб](https://reader036.vdocuments.pub/reader036/viewer/2022082402/5681311b550346895d97856f/html5/thumbnails/8.jpg)
Стабильность результата
Доля документов для обучения
Номер случайной выборки
1 2 3 4 5
0.2 0 0 0 0 0
0.4 0 0 0 0 0
0.6 1 1 1 1 1
0.8 1 1 1 1 1
Кол-во категори
й
Номер случайной выборки
1 2 3 4 5
2 0 -1 1 1 1
5 1 1 1 1 0
10 0 1 1 1 1
25 1 1 1 1 1
![Page 9: Расширение представления документов при поиске в Веб](https://reader036.vdocuments.pub/reader036/viewer/2022082402/5681311b550346895d97856f/html5/thumbnails/9.jpg)
Изменение объективных характеристик
размер
Словаря (слов)Пересечения test/train
(%)
Base 229073 25
SameDir 789573 26.5
SameServer 1344656 28
Greedy 1494319 28.31
![Page 10: Расширение представления документов при поиске в Веб](https://reader036.vdocuments.pub/reader036/viewer/2022082402/5681311b550346895d97856f/html5/thumbnails/10.jpg)
Обучение и тестирование на разных представлениях
0
20
40
60
Base/BaseSameServer/SameServerBase/SameServerSameServer/Base
![Page 11: Расширение представления документов при поиске в Веб](https://reader036.vdocuments.pub/reader036/viewer/2022082402/5681311b550346895d97856f/html5/thumbnails/11.jpg)
Наблюдения
Расширение представления позволяет повысить качество решения задач поиска
Да
Качество решения зависит от метода расширения Да
Качество решения зависит от метода классификации Да
Качество решения зависит от разделения представлений в train/test Нет
Качество решения обуславливается изменением объективных характеристик
Да