igrid index
DESCRIPTION
IGrid index. Roman Krejčík. Obsah. Motivace Prokletí dimenze Míry podobnosti IGrid, IGrid+ Experimentální porovnání. Motivace. Pro data reprezentovaná vektory vysokých dimenzí jsou tradiční indexační metody neefektivní. IGrid index – navržen pro indexaci vyskodimenzionálních dat. - PowerPoint PPT PresentationTRANSCRIPT
![Page 1: IGrid index](https://reader036.vdocuments.pub/reader036/viewer/2022062518/5681444d550346895db0ea21/html5/thumbnails/1.jpg)
IGrid index
Roman Krejčík
![Page 2: IGrid index](https://reader036.vdocuments.pub/reader036/viewer/2022062518/5681444d550346895db0ea21/html5/thumbnails/2.jpg)
Obsah
Motivace Prokletí dimenze Míry podobnosti IGrid, IGrid+ Experimentální porovnání
![Page 3: IGrid index](https://reader036.vdocuments.pub/reader036/viewer/2022062518/5681444d550346895db0ea21/html5/thumbnails/3.jpg)
Motivace
Pro data reprezentovaná vektory vysokých dimenzí jsou tradiční indexační metody neefektivní.
IGrid index – navržen pro indexaci vyskodimenzionálních dat
![Page 4: IGrid index](https://reader036.vdocuments.pub/reader036/viewer/2022062518/5681444d550346895db0ea21/html5/thumbnails/4.jpg)
Prokletí dimenzionality
Ve vysokých dimenzích (pro Lp metriky) : Neexistuje „hluboký prostor“ Ztrácí se rozdíly mezi nejbližším a
nejvzdálenějším sousedem.
Formálněji: Pro dimenzi → ∞ (při splnění jistých podmínek)
(Dmax - Dmin) / Dmin → 0 (ve většině případů)
![Page 5: IGrid index](https://reader036.vdocuments.pub/reader036/viewer/2022062518/5681444d550346895db0ea21/html5/thumbnails/5.jpg)
Prokletí dimenzionality 2
Příčina Způsob výpočtu vzdálenosti/podobnosti Mnoho dimenzí → i nejbližší sousedé se
pravděpodobně v některých složkách vektorů odlišují o hodně (pro náhodná uniformně rozdělená data)
Důsledky pro MAM: Neexistují shluky, regiony se překrývají MAM degradují na sekvenční průchod
![Page 6: IGrid index](https://reader036.vdocuments.pub/reader036/viewer/2022062518/5681444d550346895db0ea21/html5/thumbnails/6.jpg)
Prokletí dimenzionality 3
Má taková podobnost smysl ? Uspořádní není stabilní Nepatrná změna dat může nejbližího souseda změnit v
nejvzdálenějšího. Modelování reálných objektů vnáší nepřesnosti
Řešení Aproximativní vyhledávání, redukce dimenze Použítí vhodnější podobnostní míry
![Page 7: IGrid index](https://reader036.vdocuments.pub/reader036/viewer/2022062518/5681444d550346895db0ea21/html5/thumbnails/7.jpg)
Podobnostní míra
Běžná podobnost založená na Lp vzdálenosti ui, li – horní a dolní mez hodnot příslušné dimenze Zohledňuje „podobnost a odlišnost“ složek Chtěli bychom zohlednit pouze „podobnost“
ppd
i ii
ii
lu
yxYXSim
/1
1
1),(
![Page 8: IGrid index](https://reader036.vdocuments.pub/reader036/viewer/2022062518/5681444d550346895db0ea21/html5/thumbnails/8.jpg)
Mřížka
Rozdělení vektorového prostoru mřížkou
Každá dimenze na kd
intervalů každý interval obsahuje
stejně objektů – tj N / kd
kd konstanta zavislá na dimenzi
![Page 9: IGrid index](https://reader036.vdocuments.pub/reader036/viewer/2022062518/5681444d550346895db0ea21/html5/thumbnails/9.jpg)
Lepší podobnost
p
kYXSi
p
ii
iid
dnm
yxkYXPSim
/1
,,
1),,(
S[…] – dimenze ve kterých X a Y leží ve stejném intervalu m,n – horní a dolní mez příslušného intervalu mřížky Vychází z původní podobnosti Zohledňuje pouze složky vektoru X,Y které jsou „blízko“
![Page 10: IGrid index](https://reader036.vdocuments.pub/reader036/viewer/2022062518/5681444d550346895db0ea21/html5/thumbnails/10.jpg)
IGrid index
Podobný invertovanému seznamu V paměti je uloženo:
meze všech intervalů mřížky (tj. d ∙ kd intervalů) pro každý interval seznam objektů v něm ležících pro jednotlivé záznamy v seznamech souřadnice
odkazovaného objektu pro příslušnou dimenzi
Velikost reprezentace je lineárně závislá na počtu objektů
![Page 11: IGrid index](https://reader036.vdocuments.pub/reader036/viewer/2022062518/5681444d550346895db0ea21/html5/thumbnails/11.jpg)
NN dotaz v IGrid indexu
Podobnost měříme podle PSim
1. Pro dotaz (tj. bod prostoru) Q se najde příslušný interval mřížky pro každou dimenzi
2. Pro každý interval se projde invertovaný seznam a spočítá příspěvek do celkové podobnosti
3. Jednotlivé příspěvky se příčítají do hashovací tabulky indexované objekty
4. Na konci se z hash tabulky vyberou objekty s největší hodnotou podobnosti
![Page 12: IGrid index](https://reader036.vdocuments.pub/reader036/viewer/2022062518/5681444d550346895db0ea21/html5/thumbnails/12.jpg)
Složitost NN dotazu
Index obsahuje N ∙ d záznamů v invertovaných seznamech
Prochází se 1 / kd indexu (tj. N ∙ d / kd záznamů)
Složitost závislá na parametru indexu kd
Jaká je optimální hodnota ?
![Page 13: IGrid index](https://reader036.vdocuments.pub/reader036/viewer/2022062518/5681444d550346895db0ea21/html5/thumbnails/13.jpg)
Optimální hodnota kd
Vysoké kd zvyšuje rychlost vyhledávání Příliš vysoké kd → krátké intervaly → “false
drop”
→ kd nejmenší takové kdy se neprojeví prokletí dimezionality lze teoreticky ukázat, že kd musí být alespoň
lineárně závislé na d, prakticky kd = θ ∙ d pro θ od 0.5 do 1
![Page 14: IGrid index](https://reader036.vdocuments.pub/reader036/viewer/2022062518/5681444d550346895db0ea21/html5/thumbnails/14.jpg)
Vylepšení metody
Objekty ležící v sousedních intervalech mohou být také podobné. Řešení: rozdělit jednotlivé intervaly na g
segmentů Invertované seznamy až pro segmenty Při dotazovaní se prochází g segmentů
nejbližších dotazu Experimentálně: už g = 3 uspokojivé výsledky
![Page 15: IGrid index](https://reader036.vdocuments.pub/reader036/viewer/2022062518/5681444d550346895db0ea21/html5/thumbnails/15.jpg)
Korelace dimenzí
Vysoký počet dimenzí → některé jsou korelované
Pokud dimenze d1,d2 korelované → podobné objekty leží pravděpodobně ve stejných intervalech pro d1 a d2
Zohledníme korelace intervalů při výpočtu podobností
![Page 16: IGrid index](https://reader036.vdocuments.pub/reader036/viewer/2022062518/5681444d550346895db0ea21/html5/thumbnails/16.jpg)
Podobnost CSim
Spočteme korelaci pro všechny dvojice intervalů různých dimenzí cij počet objektů ležících v obou intervalech i a j f nejvíce korelovaných intervalů označíme jako
závislé CSim(X,Y):
Počet závislých dvojit intervalů i,j kde X leží v i a Y leží v j
![Page 17: IGrid index](https://reader036.vdocuments.pub/reader036/viewer/2022062518/5681444d550346895db0ea21/html5/thumbnails/17.jpg)
IGrid+ index
Podobnostní míra PCSim = PSim + CSim
Potřebujeme navíc spočítat závislé intervaly Jak volit parametr f ? (počet závislých dvojic)
Cheme rozumně vyvážit příspěvek od PSim i CSim
f = 1 / ((d – 1) ∙ kd
![Page 18: IGrid index](https://reader036.vdocuments.pub/reader036/viewer/2022062518/5681444d550346895db0ea21/html5/thumbnails/18.jpg)
Experimentální porovnání
Smysluplnost použité podobnostï porovnání Lp, PSim, PCSim
Rychlost dotazů porovnání iGrid, iGrid+, VA-file
Parametr kd
resp. θ, neboť kd = θ ∙ d
![Page 19: IGrid index](https://reader036.vdocuments.pub/reader036/viewer/2022062518/5681444d550346895db0ea21/html5/thumbnails/19.jpg)
Smysluplnost podobnosti
Testovací sada – vektory klasifikované do tříd Pro každý objekt NN-5 objektů Měří se počet objektů ze stejné třídy ve
výsledkuData / Dimenze
Random Euclidan PSim PCSim
A / 8 60 293 354 386
B / 160 65 255 636 671
C / 14 1499 2535 2619 2671
D / 39 144 688 755 802
E / 34 926 1371 1538 1606
![Page 20: IGrid index](https://reader036.vdocuments.pub/reader036/viewer/2022062518/5681444d550346895db0ea21/html5/thumbnails/20.jpg)
Efektivita dotazování
![Page 21: IGrid index](https://reader036.vdocuments.pub/reader036/viewer/2022062518/5681444d550346895db0ea21/html5/thumbnails/21.jpg)
Zdroje
Charu C. Aggarwal, Philip S. Yu:
The IGrid Index: Reversing the Dimensionality Curse For Similarity Indexing in High Dimensional Space