térbeli-szöveges hasonlósági összekapcsolások (st-sjoin)
DESCRIPTION
Térbeli-szöveges hasonlósági összekapcsolások (ST-SJOIN). A cikk körülményei. Szerzői: Panagiotis Bouros ( University of Hong Kong) , Shen Ge (University of Hong Kong) , Nikos Mamoulis ( University of Hong Kong) Esemény: VLDB Feldolgozás: Gergácz Dániel (prezentáció) , - PowerPoint PPT PresentationTRANSCRIPT
![Page 1: Térbeli-szöveges hasonlósági összekapcsolások (ST-SJOIN)](https://reader035.vdocuments.pub/reader035/viewer/2022062722/56813a52550346895da249a9/html5/thumbnails/1.jpg)
1
Térbeli-szöveges hasonlósági összekapcsolások (ST-SJOIN)
![Page 2: Térbeli-szöveges hasonlósági összekapcsolások (ST-SJOIN)](https://reader035.vdocuments.pub/reader035/viewer/2022062722/56813a52550346895da249a9/html5/thumbnails/2.jpg)
2
A cikk körülményei
Szerzői: Panagiotis Bouros (University of Hong Kong), Shen Ge (University of Hong Kong), Nikos Mamoulis (University of Hong Kong)
Esemény: VLDB
Feldolgozás: Gergácz Dániel (prezentáció) , Nagy Tamás (program), Tomcsik Bence (tanulmány)
![Page 3: Térbeli-szöveges hasonlósági összekapcsolások (ST-SJOIN)](https://reader035.vdocuments.pub/reader035/viewer/2022062722/56813a52550346895da249a9/html5/thumbnails/3.jpg)
3
Probléma leírása
Adott objektumok egy gyűjteménye, amely tartalmaz térbeli és szöveges információkat
Feladat: Keressünk olyan objektumpárokat, amelyek térben közeliek és szövegesen hasonlóak.
![Page 4: Térbeli-szöveges hasonlósági összekapcsolások (ST-SJOIN)](https://reader035.vdocuments.pub/reader035/viewer/2022062722/56813a52550346895da249a9/html5/thumbnails/4.jpg)
4
Alkalmazások
Személyes adatbázisok: Közösségi ajánlások Direkt marketing
Redundáns adatok: Adattömörítés és tisztítás FLICKR
POI adatbázisok: Üzleti verseny felderítése Turisztikai alkalmazások
![Page 5: Térbeli-szöveges hasonlósági összekapcsolások (ST-SJOIN)](https://reader035.vdocuments.pub/reader035/viewer/2022062722/56813a52550346895da249a9/html5/thumbnails/5.jpg)
5
Térbeli távolsági összekapcsolás
Térbeli adatok indexelése: R-fa adatszerkezet MBR használata
-távolsági összekapcsolás: Adott R és S adathalmaz térbeli
adatokkal:
![Page 6: Térbeli-szöveges hasonlósági összekapcsolások (ST-SJOIN)](https://reader035.vdocuments.pub/reader035/viewer/2022062722/56813a52550346895da249a9/html5/thumbnails/6.jpg)
6
Halmaz hasonlósági összekapcsolás
Adott egy D adathalmaz és egy :
Fő alkalmazása: Hasonló objektumok
keresése Szöveg egyezőség vizsgálat
![Page 7: Térbeli-szöveges hasonlósági összekapcsolások (ST-SJOIN)](https://reader035.vdocuments.pub/reader035/viewer/2022062722/56813a52550346895da249a9/html5/thumbnails/7.jpg)
7
Térbeli-szöveges keresés
Nagy érdeklődés a helyadatok iránt Tárolása MBR segítségével
Szöveges és térbeli adatok keresése egyszerre alkalmazások: Google Maps, SPIRIT megvalósítás: R-fa kiterjesztésével,
invertált fájllal
![Page 8: Térbeli-szöveges hasonlósági összekapcsolások (ST-SJOIN)](https://reader035.vdocuments.pub/reader035/viewer/2022062722/56813a52550346895da249a9/html5/thumbnails/8.jpg)
8
Jelölések 1.
Térbeli-szöveges objektum:
: azonosító : szélességi és hosszúsági értékek : terminálisok véges halmaza egy véges
szótár felett. Minden term tartalmazhat súlyértéket
objektum mérete: –ben lévő termek száma. Jelölése:
![Page 9: Térbeli-szöveges hasonlósági összekapcsolások (ST-SJOIN)](https://reader035.vdocuments.pub/reader035/viewer/2022062722/56813a52550346895da249a9/html5/thumbnails/9.jpg)
9
Jelölések 2.
térbeli távolság: halmaz hasonlóság: Ezek a mértékek sokféleképpen
értelmezhetőek, jelentésük itt a következő:▪
(Euklideszi távolság)
▪ (Jaccard hasonlóság)
![Page 10: Térbeli-szöveges hasonlósági összekapcsolások (ST-SJOIN)](https://reader035.vdocuments.pub/reader035/viewer/2022062722/56813a52550346895da249a9/html5/thumbnails/10.jpg)
10
Definíció
Adott térbeli-szöveges objektumok egy halmaza, egy térbeli távolság, és egy szöveges hasonlósági küszöb:
![Page 11: Térbeli-szöveges hasonlósági összekapcsolások (ST-SJOIN)](https://reader035.vdocuments.pub/reader035/viewer/2022062722/56813a52550346895da249a9/html5/thumbnails/11.jpg)
11
Adatok ábrázolása
![Page 12: Térbeli-szöveges hasonlósági összekapcsolások (ST-SJOIN)](https://reader035.vdocuments.pub/reader035/viewer/2022062722/56813a52550346895da249a9/html5/thumbnails/12.jpg)
12
Halmaz hasonlósági összekapcsolások háttere
Invertált fájlok Hasonlóság gyorsabb
felderítésére
Probléma A gyakori termeknek hosszú a postings listája nagy számú lehetséges párok
Javítása
Szűrés alkalmazása prefix szűrő
![Page 13: Térbeli-szöveges hasonlósági összekapcsolások (ST-SJOIN)](https://reader035.vdocuments.pub/reader035/viewer/2022062722/56813a52550346895da249a9/html5/thumbnails/13.jpg)
13
Prefix szűrő
Rendezzük az -ben lévő kifejezéseket, hogy a legritkábbak szerepeljenek elöl.
az próba prefixe Hossza függ: , a hasonlósági függvénytől
és a -tól.
Ha és hasonló, akkor a és halmazoknak minimum egy közös eleme létezik
![Page 14: Térbeli-szöveges hasonlósági összekapcsolások (ST-SJOIN)](https://reader035.vdocuments.pub/reader035/viewer/2022062722/56813a52550346895da249a9/html5/thumbnails/14.jpg)
14
ALL-PAIRS algoritmus
Prefix szűrő elve, invertált index csökkentése
Növekvő sorrendben nézi az objektumokat
Index prefix:
Maximális átfedés meghatározása:
![Page 15: Térbeli-szöveges hasonlósági összekapcsolások (ST-SJOIN)](https://reader035.vdocuments.pub/reader035/viewer/2022062722/56813a52550346895da249a9/html5/thumbnails/15.jpg)
15
PPJOIN algoritmus
ALL-PAIRS kiterjesztése pozíció- és suffix szűrő
Ötlet: átfedés vizsgálatok Felülről becslés:▪ Ha ez kisebb mint a által meghatározott
érték, akkor elhagyhatjuk Alulról becslés: Hamming távolság▪ Ha ennek eleget tesz, akkor megtartjuk
![Page 16: Térbeli-szöveges hasonlósági összekapcsolások (ST-SJOIN)](https://reader035.vdocuments.pub/reader035/viewer/2022062722/56813a52550346895da249a9/html5/thumbnails/16.jpg)
16
PPJ algoritmus
PPJOIN algoritmus kiegészítése térbeli távolság vizsgálata hatékonyabb, mint a pozíció- és a suffix
szűrés
Hátránya Postings listában szereplő összes elemre
elvégzi a térbeli összehasonlítást
![Page 17: Térbeli-szöveges hasonlósági összekapcsolások (ST-SJOIN)](https://reader035.vdocuments.pub/reader035/viewer/2022062722/56813a52550346895da249a9/html5/thumbnails/17.jpg)
17
Dinamikus rács felosztás
Dinamikusan számolta paraméterek alapján
Két verziót vizsgálunk: PPJ-I algoritmus PPJ-C algoritmus
![Page 18: Térbeli-szöveges hasonlósági összekapcsolások (ST-SJOIN)](https://reader035.vdocuments.pub/reader035/viewer/2022062722/56813a52550346895da249a9/html5/thumbnails/18.jpg)
18
PPJ-I algoritmus
Cellánként 3 intervallumot tárol
A postings lista elemei szerint növekvő
„lightweight” cella-index minden postings listához ->
![Page 19: Térbeli-szöveges hasonlósági összekapcsolások (ST-SJOIN)](https://reader035.vdocuments.pub/reader035/viewer/2022062722/56813a52550346895da249a9/html5/thumbnails/19.jpg)
19
PPJ-C algoritmus
Elsősorban cell-id alapján, másodsorban méret alapján vannak rendezve
halmaz
Minden t terminálishozcellánként invertált index
Példa: a cellában
![Page 20: Térbeli-szöveges hasonlósági összekapcsolások (ST-SJOIN)](https://reader035.vdocuments.pub/reader035/viewer/2022062722/56813a52550346895da249a9/html5/thumbnails/20.jpg)
20
PPJ-R algoritmus
Az objektumok indexelése R-fával
PPJ kiterjesztése
Bemenete a fa két csúcsa: rekurzív
![Page 21: Térbeli-szöveges hasonlósági összekapcsolások (ST-SJOIN)](https://reader035.vdocuments.pub/reader035/viewer/2022062722/56813a52550346895da249a9/html5/thumbnails/21.jpg)
21
Csoportosítás
alapján csoportosítunk: Ha két csoport -ében nincs közös elem, akkor
figyelmen kívül hagyhatjuk
Hibái: Plusz költség a csoportosítás miatt A csoportok mérete alapján történik a
vizsgálat, nem pedig az objektumok mérete alapján
Megoldás: nézzük az objektumok méretét is
![Page 22: Térbeli-szöveges hasonlósági összekapcsolások (ST-SJOIN)](https://reader035.vdocuments.pub/reader035/viewer/2022062722/56813a52550346895da249a9/html5/thumbnails/22.jpg)
22
Felhasznált adatbázisok
Valós adatok: FLICK adatbázis nagy szótár POI-USCA és POI-AU kis szótár
Mesterséges adatok: Objektumok számának változtatása Globális szótár változtatása Térbeli helyzet alapján: egységes és
klaszterizált
![Page 23: Térbeli-szöveges hasonlósági összekapcsolások (ST-SJOIN)](https://reader035.vdocuments.pub/reader035/viewer/2022062722/56813a52550346895da249a9/html5/thumbnails/23.jpg)
23
Megéri csoportosítani?
FLICKR A csoportok
többségének csak egy eleme van
![Page 24: Térbeli-szöveges hasonlósági összekapcsolások (ST-SJOIN)](https://reader035.vdocuments.pub/reader035/viewer/2022062722/56813a52550346895da249a9/html5/thumbnails/24.jpg)
24
Összehasonlítás az alap algoritmusokkal
Válaszidők vizsgálata
PPJ-R esetében az R-fának sok levele van
FLICKR helyzete: -nak nincs akkora
ráhatása, mint a -nak
Eredmények csökkenése
![Page 25: Térbeli-szöveges hasonlósági összekapcsolások (ST-SJOIN)](https://reader035.vdocuments.pub/reader035/viewer/2022062722/56813a52550346895da249a9/html5/thumbnails/25.jpg)
25
ST-SJOIN eljárások összehasonlítása
Legjobb: PPJ-C Legrosszabb: PPJ
Nem alkalmazza a térbeli indexelő technikát, ami kihasználná az -t
![Page 26: Térbeli-szöveges hasonlósági összekapcsolások (ST-SJOIN)](https://reader035.vdocuments.pub/reader035/viewer/2022062722/56813a52550346895da249a9/html5/thumbnails/26.jpg)
26
Köszönöm a figyelmet!