vyhledávání v multimediálních databázích tomáš skopal ksi mff uk
DESCRIPTION
Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK. 9. Vnitřní dimenze a aproximativní vyhledávání. Osnova. prokletí dimenzionality vnitřní dimenze aproximativní vyhledávání přibližné vyhledávání pravděpodobnostní vyhledávání kombinace (tzv. PAC queries). - PowerPoint PPT PresentationTRANSCRIPT
![Page 1: Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK](https://reader035.vdocuments.pub/reader035/viewer/2022081513/56813a08550346895da1d6f5/html5/thumbnails/1.jpg)
Vyhledávání v multimediálních databázích
Tomáš SkopalKSI MFF UK
9. Vnitřní dimenze a aproximativní vyhledávání
![Page 2: Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK](https://reader035.vdocuments.pub/reader035/viewer/2022081513/56813a08550346895da1d6f5/html5/thumbnails/2.jpg)
Osnova
prokletí dimenzionality vnitřní dimenze aproximativní vyhledávání
přibližné vyhledávánípravděpodobnostní vyhledáváníkombinace (tzv. PAC queries)
![Page 3: Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK](https://reader035.vdocuments.pub/reader035/viewer/2022081513/56813a08550346895da1d6f5/html5/thumbnails/3.jpg)
Prokletí dimenzionality
předpoklady: vektorová sada, uniformní distribuce (resp. nízká korelace souřadnic)
se vzrůstající dimenzí rostou efekty prokletí dimenzionality prokletí = většina efektů je nepříznivých pro potřeby
vyhledávání (i jiné potřeby) řešení
aproximativní vyhledávání redukce dimenze
![Page 4: Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK](https://reader035.vdocuments.pub/reader035/viewer/2022081513/56813a08550346895da1d6f5/html5/thumbnails/4.jpg)
Efekty vysokých dimenzí (1)
objemy
1) uvažujme L2 kouli vepsanou do n-rozměrné jednotkové krychle – střed koule je tedy [0.5, 0.5, ..., 0.5]
2) dále uvažujme bod [0.51, 0.51, ..., 0.51] – tedy bod, který je v každé dimenzi vzdálen od středu koule o 0.1
3) pro dimenzi • n < 25 je bod uvnitř koule• n = 25 je bod přesně na hranici koule• n > 25 je bod vně koule
![Page 5: Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK](https://reader035.vdocuments.pub/reader035/viewer/2022081513/56813a08550346895da1d6f5/html5/thumbnails/5.jpg)
Efekty vysokých dimenzí (2)
objemy
S rostoucí dimenzí klesá poměr objemu koule a krychle.
Data jsou řídká – exponenciální objem vs. konst. data
![Page 6: Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK](https://reader035.vdocuments.pub/reader035/viewer/2022081513/56813a08550346895da1d6f5/html5/thumbnails/6.jpg)
Efekty vysokých dimenzí (3)
povrchy
počet k-rozměrných krychlí (kvadrantů) „dotýkajících se„n-rozměrné krychle
Data jsou blízko os, jejich vektory jsou téměř ortogonální.(viz náhodné projekce – ortogonalita sloupců matice)
![Page 7: Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK](https://reader035.vdocuments.pub/reader035/viewer/2022081513/56813a08550346895da1d6f5/html5/thumbnails/7.jpg)
Efekty vysokých dimenzí (4)
vzdálenosti
S rostoucí dimenzí se vzdálenosti bodů (k počátku) přibližují.
Nejbližší a nejvzdálenější soused (čehokoliv) mají srovnatelné vzdálenosti.
![Page 8: Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK](https://reader035.vdocuments.pub/reader035/viewer/2022081513/56813a08550346895da1d6f5/html5/thumbnails/8.jpg)
Vnitřní dimenze (1)
vektorová (embedding) dimenze neříká nic o distribuci dat, např. vektory [x, y, y, y, ..., y] jsou sice
vysokorozměrné, ale vlastně pouze 2-rozměrné
vektory [x, 2*x, 3*x,..., d*x] leží na přímce jak měřit dimenzi u nevektorových dat? odpověď: vnitřní dimenze
![Page 9: Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK](https://reader035.vdocuments.pub/reader035/viewer/2022081513/56813a08550346895da1d6f5/html5/thumbnails/9.jpg)
Vnitřní dimenze (2)
zobecnění vektorové dimenze, resp. popis struktury dat (a ne struktury prostoru)
mnoho definic vnitřní/fraktální dimenze „statistická“ vnitřní dimenze (Chávez et al.)
kde je průměr 2 rozptyl vzdáleností (mezi všemi objekty) v datové sadě
tato definice je „zpětně kompatibilní“, tj. vnitřní dimenze všech (nebo velkého počtu náhodně vybraných) bodů vektorového prostoru dimenze n je O(n)
![Page 10: Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK](https://reader035.vdocuments.pub/reader035/viewer/2022081513/56813a08550346895da1d6f5/html5/thumbnails/10.jpg)
Vnitřní dimenze (3)
příklad
nízká vnitřní dimenze vysoká vnitřní dimenze(2D vektorová sada a L1) (30D vektorová sada a L1)
![Page 11: Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK](https://reader035.vdocuments.pub/reader035/viewer/2022081513/56813a08550346895da1d6f5/html5/thumbnails/11.jpg)
Vysoká vnitřní dimenze a MAMs
všechny objekty jsou víceméně stejně (hodně) vzdálené neexistují těsné shluky všechny regiony MAM se překrývají s libovolným dotazem
![Page 12: Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK](https://reader035.vdocuments.pub/reader035/viewer/2022081513/56813a08550346895da1d6f5/html5/thumbnails/12.jpg)
Aproximativní vyhledávání
přibližné vyhledávání (approximately correct search) je garantována nějaká odchylka vzdálenosti, např. násobek
vzdálenosti k nejbližšímu sousedu relativně malé zrychlení vyhledávání
pravděpodobnostní vyhledávání (probabilistic search) je garantována pouze pravděpodobnost, že nalezený výsledek
bude správný (tj. v konkrétním případě může být úplně špatný) vyšší urychlení vyhledávání, ale také vyšší riziko
false dropů/false hitů kombinace – tzv. PAC queries (probably approximately
correct)
![Page 13: Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK](https://reader035.vdocuments.pub/reader035/viewer/2022081513/56813a08550346895da1d6f5/html5/thumbnails/13.jpg)
Přibližné vyhledávání (1)
k-NN dotazy v M-stromu relativní chyba hledání (1+)nejbližšího souseda, tj. takový soused není dál než
(1+) násobku ke skutečnému nejbližšímu sousedu úprava algoritmu kNN: z PR jsou v každém kroku odfiltrovány ty
regiony které neprotínají dynamický dotaz s poloměrem rQ’ = rQ/(1+)
rychlejší, ale ne o moc
![Page 14: Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK](https://reader035.vdocuments.pub/reader035/viewer/2022081513/56813a08550346895da1d6f5/html5/thumbnails/14.jpg)
Přibližné vyhledávání (2)
opět k-NN v M-stromu ukončení algoritmu, když se změna poslední hodnoty v
NN (tj. vzdálenosti ke kandidátovi na k-tého souseda) za posledních několik kroků zpomalí
z časové řady úprav této vzdálenosti se stanoví derivace – pokud spadne pod uživatelsky definovanou konstantu , je algoritmus zastaven a obsah NN je výsledek
lze interpretovat jako šanci, že se podaří najít lepšího kandidáta
![Page 15: Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK](https://reader035.vdocuments.pub/reader035/viewer/2022081513/56813a08550346895da1d6f5/html5/thumbnails/15.jpg)
Pravděpodobnostní vyhledávání
u LAESA metod zmenšení vyhledávacího „prstence“ dělením vyhledávácího
poloměru rQ
aby zmenšený poloměr zaručoval stanovenou pravděpodobnost korektního vyhledávání, je definován jako
kdep je počet pivotů2 je rozptyl na distribuci vzdáleností
![Page 16: Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK](https://reader035.vdocuments.pub/reader035/viewer/2022081513/56813a08550346895da1d6f5/html5/thumbnails/16.jpg)
PAC queries
kombinace aproximativních a pravděpodobnostních metod
např. pro M-strom a k-NN hledá se opět (1+)-NN, ale pouze s
pravděpodobností ukončovací podmínka algoritmu je navíc rozšířena o
testování poklesu dynamického poloměru rQ pod rQ, což je odhad vzdálenosti (1+)NN počítaný z distribuce vzdáleností
![Page 17: Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK](https://reader035.vdocuments.pub/reader035/viewer/2022081513/56813a08550346895da1d6f5/html5/thumbnails/17.jpg)
Compact partitions (1) – inkrementální vyhledávání předpoklad: best-first algoritmus využívající frontu PR s
výsledky nebo kandidáty (viz minulé přednášky) kNN algoritmus u M-stromu (navíc pole NN) lze použít i pro obyčejný rozsahový dotaz, kde poloměr je fixní a
tedy se nezmenšuje jako u kNN
hlavní idea – limitace počtu aplikací metriky jakmile je algoritmus ve stavu kdy je spočítáno M vzdáleností, je
výpočet zastaven a uživateli vrácen aktuální obsah PR vzhledem k tomu, že fronta je setříděna podle vzdálenosti k
datazu, nedostane se (díky limitaci) na neperspektivní objekty/zóny
jiná terminologie: region = zóna
![Page 18: Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK](https://reader035.vdocuments.pub/reader035/viewer/2022081513/56813a08550346895da1d6f5/html5/thumbnails/18.jpg)
Compact partitions (2)– inkrementální vyhledávání
![Page 19: Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK](https://reader035.vdocuments.pub/reader035/viewer/2022081513/56813a08550346895da1d6f5/html5/thumbnails/19.jpg)
Compact partitions (3) – hodnocení zón (zone ranking) zobecnění předchozího definováním dalších heuristik
pro setřídění fronty PR původní heuristika dLB = d(Q, center(Z)) – rZ vzdálenost dotazu k
nejbližšímu možnému objektu v zóně d(Q, center(Z)) - vzdálenost dotazu k centru zóny d(Q, center(Z)) + rZ - vzdálenost k nejvzdálenějšímu možnému
objektu v zóně dynamic beta = (d(Q, center(Z)) – rZ)
= 1/(1.0 – center(Z)/mcr), kde mcr je maximální možný poloměr zóny
podobný princip jako u pravděpodobnostní LAESA
![Page 20: Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK](https://reader035.vdocuments.pub/reader035/viewer/2022081513/56813a08550346895da1d6f5/html5/thumbnails/20.jpg)
Region proximity (1)
region proximity – „datová“ vzdálenost dvou regionů pravděpodobnost, že dva regiony (Ox, rx), (Oy, ry) mají ve svém
průniku společný objekt O (náhodně vybraný) – jak ji spočítat?
triviální aproximace: v metrickém prostoru nemáme objem, tj. průnik musíme kvantifikovat alternativně, např.
tento přístup je jednoduchý, nicméně nezohledňuje distribuci datových objektů a tudíž to není dobrá aproximace
![Page 21: Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK](https://reader035.vdocuments.pub/reader035/viewer/2022081513/56813a08550346895da1d6f5/html5/thumbnails/21.jpg)
Region proximity (2)
region proximity – „datová“ vzdálenost dvou regionů aproximace zohledňující distribuci vzdáleností:
celková vzdálenost párů regionů se stejnou vzdáleností mezi centry Ox, Oy
jak ji spočítat? – uvažujme spojenou podmíněnou hustotucož je pravděpodobnost, že d(Ox, O) = x a d(Oy, O) = y za předpokladu d(Ox, Oy) = dxy potom lze Xdxy spočítat jako
bohužel, neznáme analytickou formu
![Page 22: Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK](https://reader035.vdocuments.pub/reader035/viewer/2022081513/56813a08550346895da1d6f5/html5/thumbnails/22.jpg)
Region proximity (3)
region proximity – „datová“ vzdálenost dvou regionů místo toho autoři navrhují aproximaci Xdxy jako
kde fX, Y(x,y) je spojená hustota vzdáleností, tj. fX, Y(x,y) = fX (x) fY(y), nicméně X a Y jsou nezávislé náhodné proměnné, takže lze místo fX, Y použít f(x) (ta lze získat jednoduše nasamplováním z databáze) f(x) vlatně aproximuje původní
bx, by jsou jisté funkce, které umožňují použít různé aproximace (ortogonální, rovnoběžnou, diagonální a normalizovanou)
využití při pravděpodobnostním vyhledávání, jsou prohledány pouze takové datové regiony, které mají vzdálenost (proximity) ke koule dotazu vyšší než daná prahová hodnota
![Page 23: Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK](https://reader035.vdocuments.pub/reader035/viewer/2022081513/56813a08550346895da1d6f5/html5/thumbnails/23.jpg)
Semimetrické vyhledávání (1)
uvažujme rostoucí funkci s počátkem v 0 libovolná taková funkce aplikovaná na podobnostní míru zachovává
podobnostní uspořádání, tj. pokud ji použijeme k sekvenčnímu vzhodnocení, obdržíme stejný výsledek jako s původní mírou
pokud tato funkce bude konvexní, aplikací na metriku obdržíme funkci vzdálenosti, která bude vykazovatnižší vnitřní dimenzi (vyhledem k libovolné databázi)
bohužel tato nová míra může být pouze semimetrikou, tj. nemusí se zachovat trojúhelníková nerovnost
![Page 24: Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK](https://reader035.vdocuments.pub/reader035/viewer/2022081513/56813a08550346895da1d6f5/html5/thumbnails/24.jpg)
Semimetrické vyhledávání (2)
takto vzniklou semimetriku můžeme použít v libovolné MAM
tím, že vnitřní dimenze je nižší, je i vyhledávání rychlejší
na druhou stranu absence trojúhelníkové nerovnosti může vést k nekorektnímu filtrování a tedy ke ztrátě přesnosti výsledku toto lze korigovat volbou modifikující funkce tak, aby
její konvexita narušovala trojúhelníkovou nerovnost v dostatečně malé míře
![Page 25: Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK](https://reader035.vdocuments.pub/reader035/viewer/2022081513/56813a08550346895da1d6f5/html5/thumbnails/25.jpg)
Zdroje
Bustos and Navarro: Probabilistic proximity searching algorithms based on compact partitions, Journal of Discrete Algorithms 2(1):115-134, 2004
Amato et al.: Region proximity in metric spaces and its use for approximate similarity search, ACM TODS 21(2):192-227, 2003
Skopal et al.: Metric Indexing for the Vector Model in Text Retrieval, SPIRE 2004