magistarska teza - prezentacija
TRANSCRIPT
![Page 1: Magistarska teza - prezentacija](https://reader034.vdocuments.pub/reader034/viewer/2022052418/58ac87df1a28abad118b505f/html5/thumbnails/1.jpg)
Реализација окружења за сарадничко претраживање
информацијаваријантом методе најближег
суседаи профилима мултиграма
Поповић ЗоранЦентар за мултидисциплинарне
студијеУниверзитет у Београду
http://www.cms.bg.ac.rs
![Page 2: Magistarska teza - prezentacija](https://reader034.vdocuments.pub/reader034/viewer/2022052418/58ac87df1a28abad118b505f/html5/thumbnails/2.jpg)
О раду● Основни циљ овог рада је конструкција прототипа
система за претраживање информација (ПИ) који користи СПИ, употребом одабраних метода и алата.
● Неопходно је да прототип буде практично употребљив, предвидљиво ефикасан и флексибилан.
● Mотив за то је конструкција окружења за СПИ које нуди практичне примене и могуће комерцијалне примере у даљем развоју, које се може интегрисати са другим информационим системима, као и даље испитивање модела и метода који се користе у раду.
![Page 3: Magistarska teza - prezentacija](https://reader034.vdocuments.pub/reader034/viewer/2022052418/58ac87df1a28abad118b505f/html5/thumbnails/3.jpg)
О раду● Према циљевима, одабраним методама и
њиховим математичким основама које се даље образлажу, као начини решавања одабрани су:
– модуларна и слојевита структура прототипа која
– подразумева базу података као слој којим се реализујеБулов модел ПИ и модел профила мултиграма
– развојни алати, хардверска и извршна програмскаплатформа оријентисана ка решењима отвореног кôда
– пробни подаци и методе мерења перформанси
![Page 4: Magistarska teza - prezentacija](https://reader034.vdocuments.pub/reader034/viewer/2022052418/58ac87df1a28abad118b505f/html5/thumbnails/4.jpg)
Сарадничко претраживање информација (СПИ)
![Page 5: Magistarska teza - prezentacija](https://reader034.vdocuments.pub/reader034/viewer/2022052418/58ac87df1a28abad118b505f/html5/thumbnails/5.jpg)
Основни појмови
● Информација је релевантан податак (корисник му даје значaj, није неопходна интерпретација у односу на неки контекст тј. знање).
● Домен претраге: документи, објекти претраге (О).
● Потреба (Need): упити (Q), имплицитно задате информације (I) специфичне за сваког корисника (U) посебно, и изведене информације L(I).
● Претраживање информација (ПИ) је релација релевантности: ρ⊆O×Q×LI
![Page 6: Magistarska teza - prezentacija](https://reader034.vdocuments.pub/reader034/viewer/2022052418/58ac87df1a28abad118b505f/html5/thumbnails/6.jpg)
Основни појмови● Ако корисничка потреба за информацијама
(Information Need) не зависи од корисника, у питању је класично ПИ (Content Filtering), у супротном је сарадничко ПИ (Collaborative Filtering).
● Резултат је подскуп домена претраге, скуп релевантних докумената према одабраној методи у односу на дати упит или корисничку потребу.
● У општијем случају, релација релевантности може бити фази (корисно и као метод рангирања резултата). Рангирање је посебан процес.
IN=Q×L I
![Page 7: Magistarska teza - prezentacija](https://reader034.vdocuments.pub/reader034/viewer/2022052418/58ac87df1a28abad118b505f/html5/thumbnails/7.jpg)
Модел корисник-О-А-В● или модел корисник-документ-особина-вредност
(проширени О-А-В модел), где документ има особине (атрибуте), на пример:
– субјективна оцена релевантности документа за корисника(потреба),
– садржај документа (нпр. речи, N-грами), као и изведенеособине (плитко или дубоко структуриране),
– мета-особине (нпр. описане веб онтологијама), итд.
● У таквом моделу, конкретна инстанца документа има конкретне вредности својих особина (могу бити и вишеструке), за сваког корисника понаособ.
![Page 8: Magistarska teza - prezentacija](https://reader034.vdocuments.pub/reader034/viewer/2022052418/58ac87df1a28abad118b505f/html5/thumbnails/8.jpg)
Примери система СПИ на вебу
● Аутоматско предлагање садржаја(Aumatic Content Recommendation):Google, Amazon, Pandora, Last.fm, Ebay, ...
● Друштвене мреже: Facebook, Twitter, LinkedIn, ...
![Page 9: Magistarska teza - prezentacija](https://reader034.vdocuments.pub/reader034/viewer/2022052418/58ac87df1a28abad118b505f/html5/thumbnails/9.jpg)
Профили мултиграма и репрезентација докумената
![Page 10: Magistarska teza - prezentacija](https://reader034.vdocuments.pub/reader034/viewer/2022052418/58ac87df1a28abad118b505f/html5/thumbnails/10.jpg)
N-грами и профили мултиграма
● Документ као ниска речи дужине L.● Свака његова подниска дужине N
зове се (i-ти) N-грам:
– има их L-N+1 у датој нисци,
– једнаки (исти) су ако су једнаки као ниске,
– број понављања истог N-грама је његова фреквенција у документу, односно у колекцији докумената
t1 , ... , t L
t i , ... , t iN−1
![Page 11: Magistarska teza - prezentacija](https://reader034.vdocuments.pub/reader034/viewer/2022052418/58ac87df1a28abad118b505f/html5/thumbnails/11.jpg)
N-грами и профили мултиграма
● Пресликавање N-грама документа (или колекције докумената) у њихове фреквенције јесте профил N-грама документа (или глобални профил у случају колекције докумената).
● Ако то пресликавање користи различите дужине N-грама (N=1,2,3,...) онда је у питању профил мултиграма.
● Прототип користи и инверзну фреквенцију N-грама (однос броја докумената који га садрже и укупног броја докумената у колекцији) поред опсега рангова (као праг одсецања профила код класификације)
![Page 12: Magistarska teza - prezentacija](https://reader034.vdocuments.pub/reader034/viewer/2022052418/58ac87df1a28abad118b505f/html5/thumbnails/12.jpg)
Репрезентација документа
● Скуп кластера докумената:
● и одговарајући скуп Dрепрезената кластера серади једноставности честопоистовећују и зову документима:
● Репрезенти код прототипа су профили мултиграма
D
D={D1, ... , Dm }⊆P O
D
O1
O2
Om
......
D1D2
Dm
D={ O1, ... , Om }
![Page 13: Magistarska teza - prezentacija](https://reader034.vdocuments.pub/reader034/viewer/2022052418/58ac87df1a28abad118b505f/html5/thumbnails/13.jpg)
N-грами као особине докумената● Редослед речи у упиту код Буловог модела не
утиче на резултат● N-грами подразумевају и редослед речи:
За упит ,,Винстон је увече”, прототип са профилима мултиграма који укључују N=3 наградиће (1) више него (2), у супротном ће бити једнако рангирани. Редослед речи упита ће имати значаја и са , док са N=1 неће.
● N-грами могу увести комбинаторну експлозију.
(1) Винстон је увече имао више посла него икад ...(2) Винстон је стајао окренут телекрану леђима ... Oбично je увече код куће ...(3) Винстон крете ка степеницама ... То можда не би било опасније него један изостанак увече из центра ... Улица је била ћорсокак ...
N≤2
![Page 14: Magistarska teza - prezentacija](https://reader034.vdocuments.pub/reader034/viewer/2022052418/58ac87df1a28abad118b505f/html5/thumbnails/14.jpg)
Метода најближих суседа
![Page 15: Magistarska teza - prezentacija](https://reader034.vdocuments.pub/reader034/viewer/2022052418/58ac87df1a28abad118b505f/html5/thumbnails/15.jpg)
МНС класификација
Oдaбирaњeм из скупа обучавања нajближих k сусeдa (инстанци) пo нeкoj мeтрици (на пример Eуклидскoj) вeктoру кojи сe тeстирa, бирa сe кaтeгoриja кoja je нajбрojниja кao oцeнa кaтeгoриje.
f : X=X 1×...×X nВ={v i }
S={ xi , y i ∣ xi∈X , y i∈B }
f xq =argmaxv∈B∑i=1
kwi v , f x i ,
xq∉{x i∣ x i , y i∈S }, wi≡1
d xq , xi2
xq
(скуп обучавања)
![Page 16: Magistarska teza - prezentacija](https://reader034.vdocuments.pub/reader034/viewer/2022052418/58ac87df1a28abad118b505f/html5/thumbnails/16.jpg)
МНС као метода оцене релевантности документа● У непрекидном случају , важи:
● Оцене релевантности документа j корисника u могу се посматрати као ова врста проблема класификације. Ако је скуп (околина корисника u) и сличност међу корисницима
, где је:
● тада је оценарелевантности по МНС:
● уместо k (за МНС)
Du, v=∑i=1
∣D∣R u, i−R v ,i
2
∣D∣W i , j=1−
Di , j
2
Ru , j=∑i∈S u
W u ,i Ri , j
∑i∈SuW u, i
Su={v∣Du ,v2}
B=ℝ f xq =∑i=1
kwi f x i
∑i=1
kw i
Ru , j
![Page 17: Magistarska teza - prezentacija](https://reader034.vdocuments.pub/reader034/viewer/2022052418/58ac87df1a28abad118b505f/html5/thumbnails/17.jpg)
Модификована МНС
● За потребе прототипа, рангирање се врши према следећем изразу, за корисника u и документ резултата ј, сортирањем у опадајућем редоследу:
где је фреквенција N-грама i у документу j, а је ранг тог N-грама ( ) у глобалном профилу.
Su, j=max k rangk ∑i=1
n [ f i j1R u, j]N i
rangi
f ijrang i N=N i
![Page 18: Magistarska teza - prezentacija](https://reader034.vdocuments.pub/reader034/viewer/2022052418/58ac87df1a28abad118b505f/html5/thumbnails/18.jpg)
Претраживање интернета као претраживање информација
![Page 19: Magistarska teza - prezentacija](https://reader034.vdocuments.pub/reader034/viewer/2022052418/58ac87df1a28abad118b505f/html5/thumbnails/19.jpg)
Интерфејс Интерфејс
Репозиторијум Репозиторијум
Претраживање интернета
Модул за индексирање
Модул за индексирање
ШетачШетач
упитпотреба Модул за
упитивање
Модул за упитивање
Модул за рангирање
Модул за рангирање ИндексиИндекси
КорисникКорисник
WWW
резултат
● Класичне методе - инверзни индекс:
● Језички ресурси: зауставна листа, речници, стеминг● Канонски модел претраживања веба:
реч: документ: <позиција, позиција,...> ; документ: <позиција,... >; ...
![Page 20: Magistarska teza - prezentacija](https://reader034.vdocuments.pub/reader034/viewer/2022052418/58ac87df1a28abad118b505f/html5/thumbnails/20.jpg)
Булов модел ПИ● Механизам реализације Буловог модела ПИ је
нешто што се подразумева у већини данашњих веб претраживача, као и код класичних система за управљање релационим базама података.
● Прототип користи упите само у облику простих коњункција (без негативних литерала) и реализацију Буловог модела ПИ проширену мултиграмима (уместо литерала).
● Реализација се ослања на базу података која као слој игра улогу инверзног индекса и репозиторијума у канонском прототипу ПИ.
![Page 21: Magistarska teza - prezentacija](https://reader034.vdocuments.pub/reader034/viewer/2022052418/58ac87df1a28abad118b505f/html5/thumbnails/21.jpg)
Позната решења за ПИ● Решења отвореног кôда:– Apache Lucene - систем за текстуелно ПИ
– Terrier (TERabyte RetrIEveR) - комплетан систем ПИреализован потпуно у Java окружењу
– Xapian - комплетан класичан систем ПИ за Posixплатформе (могуће га је портирати на cygwin/gcc)
– ht://Dig - класичан систем ПИ на вебу за Posix OS
● Комерцијална решења:– SAP TREX, Oracle UltraSearch, MS Indexing Service /
Desktop Search, ...– EDMS: EMC Documentum, Oracle UCM, SAP Content
Server, PBS, Knowledge Tree, ...
![Page 22: Magistarska teza - prezentacija](https://reader034.vdocuments.pub/reader034/viewer/2022052418/58ac87df1a28abad118b505f/html5/thumbnails/22.jpg)
MuSE – Multigram Search Engine
![Page 23: Magistarska teza - prezentacija](https://reader034.vdocuments.pub/reader034/viewer/2022052418/58ac87df1a28abad118b505f/html5/thumbnails/23.jpg)
Окружење● Прототип одликују мултигтрами као особине уместо
речи и релевантност резултата по кориснику
● Развојни алати и извршно окружење:– Eclipse 3.4.0, Oracle/Sun Java SDK 1.5 (RMI/IIOP)– Weka 3.5.8, jchardet (Mozilla alg. port)– Oracle 10g XE RDBMS / APEX– Apache Tomcat 5.5– Selenic Mercurial (hg)
● Решења отвореног кôда:– многи произвођачи (Oracle, SAP) их подржавају
(захтев за отворениим стандардима, заједница)– ефикаснији развој и интеграција са ИС
![Page 24: Magistarska teza - prezentacija](https://reader034.vdocuments.pub/reader034/viewer/2022052418/58ac87df1a28abad118b505f/html5/thumbnails/24.jpg)
Интерфејс q Интерфејс q
Интерфејс 1 Интерфејс 1
MuSE - прототип● Структура - слојеви:– База– Сервер: шетач (Crawler), ажурирање профила
(индекса), део ф-налности модула за упитивање, ...– Интерфејс (JSP)– browser
qServer 1
qServer 2
qServer p
База КориснициКорисници
orbd
![Page 25: Magistarska teza - prezentacija](https://reader034.vdocuments.pub/reader034/viewer/2022052418/58ac87df1a28abad118b505f/html5/thumbnails/25.jpg)
База – релациони модел● Модели: профила мултиграма (фразни индекс,
профили мултиграма), к-О-А-В, Булов модел
URLS
NIDNGRAMTAGCOUNTRANKSELECTEDNTYPE
NNGRAM_IDBAG_IDCOUNTNTYPECATEGORY
USERNAMEBAG_IDATTRIBUTECATEGORYATYPERANK
BAG_IDURLHASHDATUMNTYPEHUBAUTHORITYDESCRTITLE
BAG_IDURLHASHDATUMNTYPEHUBAUTHORITYDESCRTITLE
PROPERTIESTSHAREDNSHARED
LURLS
LINKS
from_id bag_id
URLDEPTHEXECUTEDSUCCESS
WORD
STOPWORDS
QUEUE
![Page 26: Magistarska teza - prezentacija](https://reader034.vdocuments.pub/reader034/viewer/2022052418/58ac87df1a28abad118b505f/html5/thumbnails/26.jpg)
Демонстрација
![Page 27: Magistarska teza - prezentacija](https://reader034.vdocuments.pub/reader034/viewer/2022052418/58ac87df1a28abad118b505f/html5/thumbnails/27.jpg)
Демонстрација
![Page 28: Magistarska teza - prezentacija](https://reader034.vdocuments.pub/reader034/viewer/2022052418/58ac87df1a28abad118b505f/html5/thumbnails/28.jpg)
Преглед резултата и могућих побољшања
![Page 29: Magistarska teza - prezentacija](https://reader034.vdocuments.pub/reader034/viewer/2022052418/58ac87df1a28abad118b505f/html5/thumbnails/29.jpg)
Резултати
● Мерења:– Укупан број преузетих страна (време извршавања
шетача варира највише у односу на платформу) – око1000 докумената (веб страница са сликама)
– Укупан пораст заузећа простора у бази (у приближноједнаким размацима)
– Време извршења базног упита (модула за упитивање)
● Мерење 2 је са оптимизованим базним индексима, за разлику од мерења 1.
![Page 30: Magistarska teza - prezentacija](https://reader034.vdocuments.pub/reader034/viewer/2022052418/58ac87df1a28abad118b505f/html5/thumbnails/30.jpg)
Резултати● Заузеће простора у бази у односу на број докумената
(од тога бинарне датотеке најмање 50%, индекси 60%):
(30% укупне величине преузетог садржаја код Apache Lucene-а)
0M 0.65M 15.35M 34.65M 47.7M 63.2М 83.7М0
50
100
150
200
250
300
350
400
Мерење 1. (M)Мерење 2. (M)100% (M)
![Page 31: Magistarska teza - prezentacija](https://reader034.vdocuments.pub/reader034/viewer/2022052418/58ac87df1a28abad118b505f/html5/thumbnails/31.jpg)
Резултати● Динамички базни упит се са истим подацима извршава за 0.06
секунди (и далеко мање зависи од броја кључних речи):
0.65M 15.35M 34.65M 47.7M 63.2M0
0.2
0.4
0.6
0.8
1
1.2
1.4
Мерење 1.Мерење 2. (секунде)
![Page 32: Magistarska teza - prezentacija](https://reader034.vdocuments.pub/reader034/viewer/2022052418/58ac87df1a28abad118b505f/html5/thumbnails/32.jpg)
Побољшања● Одсецање профила (према информационом добитку,
потреби корисника, евалуацијом, итд), простор у бази директно утиче на перформансе.
● Класификација и додатне особине (проширена МНС где се оцењује и релевантност атрибута):
N idf Max rang % исправних / не N-грама секунди
4 0.34 500 98.48 / 1.52 2094646 6.27
4 0.5 500 94.83 / 5.16 2094646 6.16
4 0.5 500 94.83 / 5.16 1048576 6.28
3 0.34 500 97.17 / 2.83 1807820 6.81
4 0.34 800 98.10 / 1.90 2094646 8.14
5 0.34 800 97.12 / 2.88 2247852 8.38
4 0.34 1000 94.76 / 5.24 2094646 8.28
2 0.34 800 92.16 / 7.84 65536 7.25
1 0.34 800 93.10 / 6.90 256 1.73
1 0.66 800 73.68 / 26.32 256 0.77
4 0.25 250 96.37 / 3.63 2094646 6.47
![Page 33: Magistarska teza - prezentacija](https://reader034.vdocuments.pub/reader034/viewer/2022052418/58ac87df1a28abad118b505f/html5/thumbnails/33.jpg)
Побољшања
● Побољшања сервера: зауставне листе, формална евалуација резултата, експанзија упита, рангирање и конективизам (HITS, SALSA, PageRank)
● Језички алати (етикете и стемови уместо речи)● Техничка побољшања:– рачунање у меморији, JADE уместо RMI/IIOP, HA– употреба напредних опција Oracle RDBMS
(партиционисање и паралелизам, RAC, компресија)– дедупликација на нивоу уређаја за складиштење
податакa (virtual appliance уместо специјалног хардвера)– обављање периодичних послова на серверу
![Page 34: Magistarska teza - prezentacija](https://reader034.vdocuments.pub/reader034/viewer/2022052418/58ac87df1a28abad118b505f/html5/thumbnails/34.jpg)
Закључак
![Page 35: Magistarska teza - prezentacija](https://reader034.vdocuments.pub/reader034/viewer/2022052418/58ac87df1a28abad118b505f/html5/thumbnails/35.jpg)
Закључак● Показује се да је прототип веома погодан код претраге
великих мултимедијалних датотека (нпр. систем за одржавање медијатеке) ако се упит може постављати подношењем (једног дела) датотеке преко веб клијента.
● Техничка архитектура прототипа омогућава и употребу уређаја који не морају бити специјализовани.
● Решења отвореног кôда и Java платформа омогућавају једноставну интеграцију са неким пословним системима.
● Могуће је проучавање особина предложеног модела ПИ, и даљи развој и истраживање.
● Добијени резултати показују да се прототип и предложена методологија могу практично користити.
![Page 36: Magistarska teza - prezentacija](https://reader034.vdocuments.pub/reader034/viewer/2022052418/58ac87df1a28abad118b505f/html5/thumbnails/36.jpg)
Дискусија - питања
?