web spam: manipulált tartalom a világhálón
DESCRIPTION
Web Spam: manipulált tartalom a Világhálón. Pereszlényi Attila Benczúr András, Bíró István, Fekete Zsolt Rácz Simon, Siklósi Dávid, Szabó Jácint MTA SZTAKI Adatbányászat és Webkeresés Kutatócsoport. Miről lesz szó. Web spam: gép megtévesztése. Web Spam és E-mail Spam. - PowerPoint PPT PresentationTRANSCRIPT
![Page 1: Web Spam: manipulált tartalom a Világhálón](https://reader035.vdocuments.pub/reader035/viewer/2022062519/56814ddf550346895dbb48fa/html5/thumbnails/1.jpg)
Web Spam: manipulált tartalom a Világhálón
Pereszlényi AttilaBenczúr András, Bíró István, Fekete
Zsolt Rácz Simon, Siklósi Dávid, Szabó Jácint
MTA SZTAKIAdatbányászat és Webkeresés
Kutatócsoport
![Page 2: Web Spam: manipulált tartalom a Világhálón](https://reader035.vdocuments.pub/reader035/viewer/2022062519/56814ddf550346895dbb48fa/html5/thumbnails/2.jpg)
Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26
Miről lesz szó
![Page 3: Web Spam: manipulált tartalom a Világhálón](https://reader035.vdocuments.pub/reader035/viewer/2022062519/56814ddf550346895dbb48fa/html5/thumbnails/3.jpg)
Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26
Web spam: gép megtévesztése
![Page 4: Web Spam: manipulált tartalom a Világhálón](https://reader035.vdocuments.pub/reader035/viewer/2022062519/56814ddf550346895dbb48fa/html5/thumbnails/4.jpg)
Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26
Web Spam és E-mail Spam
• Cél nem (feltétlenül) a végfelhasználóPl. Javítsuk a Google pozícióját egy „ügyfél”
oldalának
• Szűrés nem a kliensnélKeresőrendszer központilag szűrNem lehet letölteni és tesztelni a spam
szűrőt
• Spammer dolga nehezebbEredmény megjelenése lassú folyamat(Robot megtalálja, index frissül)
![Page 5: Web Spam: manipulált tartalom a Világhálón](https://reader035.vdocuments.pub/reader035/viewer/2022062519/56814ddf550346895dbb48fa/html5/thumbnails/5.jpg)
Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26
• Kereső top találat forgalmat, bevételt jelent•Manipuláció, “Search Engine Optimization”•Tartalom spam
Kulcsszavak, népszerű kifejezések, elírások•Link spam
„Farmok”: sűrűn linkelt, redirect-elt site-ok• Bevétel gyakran indirekt
•„Affiliate” programok, Google AdSense•Reklámok megjelenítése, forgalom
továbbterelése
A spammer célpontja a Google
![Page 6: Web Spam: manipulált tartalom a Világhálón](https://reader035.vdocuments.pub/reader035/viewer/2022062519/56814ddf550346895dbb48fa/html5/thumbnails/6.jpg)
Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26
A Web Spammer célja
• Kereső felhasználási tapasztalat:
• Csak az első oldal tetejét (sőt, csak az első 2 találatot) nézzük meg
![Page 7: Web Spam: manipulált tartalom a Világhálón](https://reader035.vdocuments.pub/reader035/viewer/2022062519/56814ddf550346895dbb48fa/html5/thumbnails/7.jpg)
Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26
Keresési találati pozíció hatása
Talá
lati
pozí
ció n
ézé
sével tö
ltött
id
ő
Talá
lath
oz
érk
ezé
s id
eje
„spam industry had a revenue potential of $4.5 billion in year 2004 if they
had been able to completely fool all search
engines on all commercially viable
queries”[Amitay 2004]
[Granka,Joachims,Gay 2004]
![Page 8: Web Spam: manipulált tartalom a Világhálón](https://reader035.vdocuments.pub/reader035/viewer/2022062519/56814ddf550346895dbb48fa/html5/thumbnails/8.jpg)
Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26
A Web Spammer célja
• Kereső felhasználási tapasztalat:
• Csak az első oldal tetejét (sőt, csak az első 2 találatot) nézzük meg
• Jó rangsor – Search Engine Optimization célpontja
• Mitől függ a rangsor?
• Szóelőfordulás, HTML elemekkel (cím, fejléc, méret, stb.) súlyozva
• Hivatkozó (anchor) szöveg, domén, URL szavai – legjobb!
• URL hossza, könyvtárszint mélysége
• Rámutató hivatkozások száma, PageRank
![Page 9: Web Spam: manipulált tartalom a Világhálón](https://reader035.vdocuments.pub/reader035/viewer/2022062519/56814ddf550346895dbb48fa/html5/thumbnails/9.jpg)
Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26
Web spam
• Spam szűrés nélkül egy keresőrendszer ma csak spamet találna
![Page 10: Web Spam: manipulált tartalom a Világhálón](https://reader035.vdocuments.pub/reader035/viewer/2022062519/56814ddf550346895dbb48fa/html5/thumbnails/10.jpg)
Web Spam Taxonómia 1.
Tartalom spam
![Page 11: Web Spam: manipulált tartalom a Világhálón](https://reader035.vdocuments.pub/reader035/viewer/2022062519/56814ddf550346895dbb48fa/html5/thumbnails/11.jpg)
Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26
Kulcsszó értéke
Google AdWords Competition
10k10th wedding anniversary128mb, 1950s, …abc, abercrombie, …b2b, baby, bad credit, …digital cameraearn big money, easy, …f1, family, flower, fantasygameboy, gates, girl, …hair, harry potter, …ibiza, import car, …james bond, janet jacksonkarate, konica, kostenloseladies, lesbian, lingerie, ……
![Page 12: Web Spam: manipulált tartalom a Világhálón](https://reader035.vdocuments.pub/reader035/viewer/2022062519/56814ddf550346895dbb48fa/html5/thumbnails/12.jpg)
Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26
Tartalom modellezés példa
Nemsp téma 4
Nemsp téma 10
club (0.035) music (0.022)
team (0.012) band (0.012)
league (0.009)
film (0.011)
win (0.009) festival (0.009)
Spam téma 7
loan (0.080)
unsecured (0.026)
credit (0.024)
home (0.022)
Példa 20 spam és 50 nemspam generatív téma modellből [Bíró, Szabó, Benczúr 2008]
![Page 13: Web Spam: manipulált tartalom a Világhálón](https://reader035.vdocuments.pub/reader035/viewer/2022062519/56814ddf550346895dbb48fa/html5/thumbnails/13.jpg)
Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26
Spammelt rangsor-elemek
• Domén név adjustableloanmortgagemastersonline.compay.dahannusaprima.co.ukbuy-canon-rebel-20d-lens-case.camerasx.com
• Anchor szöveg (title, H1, stb)<a href=“target.html”>free, great deals, cheap, inexpensive, cheap, free</a>
• Meta keywords – nem érdemes<meta name="keywords" content="UK Swingers, UK,
swingers, swinging, genuine, adult contacts, connect4fun, sex, … >
![Page 14: Web Spam: manipulált tartalom a Világhálón](https://reader035.vdocuments.pub/reader035/viewer/2022062519/56814ddf550346895dbb48fa/html5/thumbnails/14.jpg)
Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26
Parkoló domén
<div style="position:absolute; top:20px; width:600px; height:90px; overflow:hidden;"><font size=-1>atangledweb.co.uk currently offline<br>atangledweb.co.uk back soon<br></font><br><br><a href="http://www.atangledweb.co.uk"><font size=-1>atangledweb.co.uk</font></a><br><br><br>Soundbridge HomeMusic WiFi Media Play<a class=l href="http://www.atangledweb.co.uk/index01.html">-</a>>... SanDisk Sansa e250 - 2GB MP3 Player -<a class=l href="http://www.atangledweb.co.uk/index02.html">-</a>>... AIGO F820+ 1GB Beach inspired MP3 Pla<a class=l href="http://www.atangledweb.co.uk/index03.html">-</a>>... Targus I-Pod Mini Sound Enhancer<a class=l href="http://www.atangledweb.co.uk/index04.html">-</a>>... Sony NWA806FP.CE7 4GB video WALKMAN <a class=l href="http://www.atangledweb.co.uk/index05.html">-</a>>... Ministry of Sound 512MB MP3 player<a class=l href="http://www.mp3roze.co.uk/cat7000.html">-</a>>... Nokia 6125 - Fold Design - 1.3 Megapi<a class=l href="http://www.mp3roze.co.uk/cat7001.html">-</a>>... Samsung E350 - Camera Phone With Flas<a class=l
![Page 15: Web Spam: manipulált tartalom a Világhálón](https://reader035.vdocuments.pub/reader035/viewer/2022062519/56814ddf550346895dbb48fa/html5/thumbnails/15.jpg)
Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26
Kulcsszó zsúfolás, másolatok
![Page 16: Web Spam: manipulált tartalom a Világhálón](https://reader035.vdocuments.pub/reader035/viewer/2022062519/56814ddf550346895dbb48fa/html5/thumbnails/16.jpg)
Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26
Google hirdetések
![Page 17: Web Spam: manipulált tartalom a Világhálón](https://reader035.vdocuments.pub/reader035/viewer/2022062519/56814ddf550346895dbb48fa/html5/thumbnails/17.jpg)
Web Spam Taxonómia 2.
Hivatkozás spam
![Page 18: Web Spam: manipulált tartalom a Világhálón](https://reader035.vdocuments.pub/reader035/viewer/2022062519/56814ddf550346895dbb48fa/html5/thumbnails/18.jpg)
Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26
“hyperlink structure contains an enormous amount of latent human annotation that can be extremely valuable for automatically inferring notions of authority.” (Chakrabarti et. al. ’99)•Becsületes, emberi ajánlást
tartalmazó hivatkozás
•Nem ajánló értékű, pl. „affiliate program”, vagy fórum, lista navigáció …
•Szándékos, manipulatív link spam
Hivatkozások: A Jó, a Rossz és a Csúf
![Page 19: Web Spam: manipulált tartalom a Világhálón](https://reader035.vdocuments.pub/reader035/viewer/2022062519/56814ddf550346895dbb48fa/html5/thumbnails/19.jpg)
Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26
Link farmok
W W W
Becsületes Web kilépési pont: • Mézesmadzag: pl keresett tartalom másolata• Parkoló domén régi hivatkozása• Blog, vendégkönyv spam
![Page 20: Web Spam: manipulált tartalom a Világhálón](https://reader035.vdocuments.pub/reader035/viewer/2022062519/56814ddf550346895dbb48fa/html5/thumbnails/20.jpg)
Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26
Link farmok
Sok domén,sőt, sok IP
411fashion.com
411 sites A-Z list
Mézesmadzag: keresett tartalom
411amusement.com
411 sites A-Z list
411zoos.com
411 sites A-Z list
target
![Page 21: Web Spam: manipulált tartalom a Világhálón](https://reader035.vdocuments.pub/reader035/viewer/2022062519/56814ddf550346895dbb48fa/html5/thumbnails/21.jpg)
Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26
ρ=0.97 ρ=0.61
Becsületes:fhh.hamburg.de
Spam: radiopr.bildflirt.de(www.popdata.de farm része)
PageRank támogatók eloszlása
alacsony magas
PageRank
alacsony magas
PageRank
[Benczúr,Csalogány,Sarlós,Uher 2005]
![Page 22: Web Spam: manipulált tartalom a Világhálón](https://reader035.vdocuments.pub/reader035/viewer/2022062519/56814ddf550346895dbb48fa/html5/thumbnails/22.jpg)
Web Spam Taxonómia 3.
Rejtőzködés
![Page 23: Web Spam: manipulált tartalom a Világhálón](https://reader035.vdocuments.pub/reader035/viewer/2022062519/56814ddf550346895dbb48fa/html5/thumbnails/23.jpg)
Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26
Formázás
• Egy-pixeles kép
• Fehér alaponfehér
• Stylesheet határozza meg a színt, elhelyezést
• …Elv: robot HTML feldolgozó kódja
egyszerűsített
![Page 24: Web Spam: manipulált tartalom a Világhálón](https://reader035.vdocuments.pub/reader035/viewer/2022062519/56814ddf550346895dbb48fa/html5/thumbnails/24.jpg)
Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26
JavaScript alkalmazása
<SCRIPT language=javascript> var1=100;var3=200;var2=var1 + var3; var4=var1;var5=var4 + var3; if(var2==var5) document.location="http://umlander.info/ mega/free software downloads.html";
</SCRIPT>
• window.location elemen keresztüli átirányítás
• eval: véletlenszerűnek tűnő statikus adatokból való spam tartalom (szöveg, link)
• document.write
![Page 25: Web Spam: manipulált tartalom a Világhálón](https://reader035.vdocuments.pub/reader035/viewer/2022062519/56814ddf550346895dbb48fa/html5/thumbnails/25.jpg)
Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26
HTTP szintű rejtőzködés
• User agent, kliens host szerint
• Más tartalom a felhasználónak, más a GoogleBot-nak
![Page 26: Web Spam: manipulált tartalom a Világhálón](https://reader035.vdocuments.pub/reader035/viewer/2022062519/56814ddf550346895dbb48fa/html5/thumbnails/26.jpg)
Web Spam Taxonómia 4.
Közösségi tartalom spam
![Page 27: Web Spam: manipulált tartalom a Világhálón](https://reader035.vdocuments.pub/reader035/viewer/2022062519/56814ddf550346895dbb48fa/html5/thumbnails/27.jpg)
Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26
Új célpont: vendégkönyvek, blogok
![Page 28: Web Spam: manipulált tartalom a Világhálón](https://reader035.vdocuments.pub/reader035/viewer/2022062519/56814ddf550346895dbb48fa/html5/thumbnails/28.jpg)
Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26
„Fórumnak látszó tárgy”
![Page 29: Web Spam: manipulált tartalom a Világhálón](https://reader035.vdocuments.pub/reader035/viewer/2022062519/56814ddf550346895dbb48fa/html5/thumbnails/29.jpg)
Spam vadászat
![Page 30: Web Spam: manipulált tartalom a Világhálón](https://reader035.vdocuments.pub/reader035/viewer/2022062519/56814ddf550346895dbb48fa/html5/thumbnails/30.jpg)
Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26
Jellemzők
• Szóelőfordulások (szózsák modell)• TrustRank: becsületes oldalakból induló
PageRank• Ki- és be-linkek száma, kölcsönösség• Szavak száma, hossza, HTML elemek (title,
anchor) közötti eloszlása• Sikeresség népszerű kulcsszavakra
spamszűrés nélküli teszt keresőrendszerben
• Google hirdetések száma• Site felépítése, mélysége, belső
hivatkozás-szerkezete, dok formátumok, …
![Page 31: Web Spam: manipulált tartalom a Világhálón](https://reader035.vdocuments.pub/reader035/viewer/2022062519/56814ddf550346895dbb48fa/html5/thumbnails/31.jpg)
Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26
Gráf-simítás: „know your neighbor”
• Becsületes oldal ritkán mutat spamre• Spamre sok más spam hivatkozik
1. Spamség jóslat p(v) minden oldalra
2. Céloldal u, szomszéd p(v) aggregálásával új jellemző: f(u)
3. Újraklasszifikáció az új jellemzővel
?u
v1
v2
v7
![Page 32: Web Spam: manipulált tartalom a Világhálón](https://reader035.vdocuments.pub/reader035/viewer/2022062519/56814ddf550346895dbb48fa/html5/thumbnails/32.jpg)
Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26
A Web Spam Challenge
• UK-WEBSPAM2006 (Yahoo Research, 2007-ben)• 9000 Web site, 500,000 hivatkozás• 767 spam, 7472 becsületes
• UK-WEBSPAM2007 (verseny most)• 114,000 Web site, 3 Md hivatkozás• 222 spam, 3776 becsületes• Teljes letöltés 3 TByte
• UK-WEBSPAM2008? Mi szervezzük?• Internet Archívummal együttműködve, időben
folyamatos letöltés•Cél: spam időbeliségének, mozgásának
vizsgálata
![Page 33: Web Spam: manipulált tartalom a Világhálón](https://reader035.vdocuments.pub/reader035/viewer/2022062519/56814ddf550346895dbb48fa/html5/thumbnails/33.jpg)
Magunkról
![Page 34: Web Spam: manipulált tartalom a Világhálón](https://reader035.vdocuments.pub/reader035/viewer/2022062519/56814ddf550346895dbb48fa/html5/thumbnails/34.jpg)
Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26
Benczúr AndrásKutatás-Fejlesztés
Lukács AndrásKutatás, Ipari kapcsolatok
Rónyai LajosInformatika Labor
vezető
Adatbányászat és Keresés Kutatócsoport
3 posztdoktor
8 doktorandusz
5 fejlesztő
![Page 35: Web Spam: manipulált tartalom a Világhálón](https://reader035.vdocuments.pub/reader035/viewer/2022062519/56814ddf550346895dbb48fa/html5/thumbnails/35.jpg)
Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26
• Egyedi technológiák extrém adatméretekre
• (web)keresés, szövegfeldolgozás
Európai Internet Archívum Web Spam szűrés
• viselkedésmodellezés, eseményfelderítés
biztosítási csalás felderítő eszköz
együttműködés az EU terrorelhárítás adatbányászati támogatás előkészítésére
nagyméretű webszerver naplók hosszú időtartamú elemzése
• lemorzsolódás, árrugalmasság vizsgálatok
hazai biztosítók, telefontársaságok
• ajánló rendszerek
KDD Cup első helyezés
Adatbányászat és Keresés Kutatócsoport
0.1
1
10
100
1000
10000
100000
1000000
1 10 100 1000adott felhasználó által letöltött oldalak sz. (x)
x a
ktiv
itás
ú fe
lhas
znál
ók s
zám
a