content based antiwebspammer מבצעים: אבישי ליבנה איציק בן בסט מנחה:...

Post on 21-Dec-2015

233 Views

Category:

Documents

1 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Content based AntiWebSpammer

מבצעים: אבישי ליבנה

איציק בן בסט

מנחה: מקסים גורביץ

מצגת סיום

חורף תשס"ז

הטכניון - המעבדה לתוכנה

תוכן המצגת

מוטיבציה•

יעדי הפרויקט•

רקע•

סקירה ארכיטקטונית של המערכת•

אופן פעולת המערכת•

סקירת תוצאות•

סיכום•

מוטיבציהספאם היא תופעה מוכרת שנכנסה לתודעה הציבורית עוד בשנים•

הראשונות של רשת האינטרנט.

המונח מוכר בעיקר בהקשר של אימייל, אך קיים בתחומים שונים.•

בפרוייקט נתמקד בתחום מנועי החיפוש. ברשת קיימים אתרים שכל•

מטרתם לפרסם, תוך כדי פגיעה בחווית הגלישה והחיפוש של

המשתמשים.

הדרך העיקרית להתמודדות עם ספאם ברשת היא ע"י סריקת•

הלינקים באתרים ובניית גרף אמינויות תלויות.

בפרויקט נבחן דרך חלופית המתבססת על סינון ספאם באמצעות •

תוכן האתרים בלבד.

הפרויקטיעדי על סמך תוכנם.HTMLמימוש מערכת שמתייגת דפי •

המערכת תתייג כל דף כספאם או כדף חוקי.–

פעולת המיון תתבצע על סמך תוכן הדפים בלבד.–

קבלת ההחלטות תתבצע באמצעות עצי החלטה.–

הפרויקט יממש את המאמר–

Detecting Spam Web Pages through Content Analysis,

By Alexandros Ntoulas, Marc Najork, Mark Manasse and Dennis Fetterly.

.HTML, Decision treesהכרת –

רקע – סינון ספאםהדרך הנפוצה להתמודד עם ספאם היא סריקת לינקים ובניית

גרף תלויות.

דורשת משאבים ומידע על דפים אחרים כדי לקבל החלטה •

על דף בודד.

(.link farmsקיימות דרכים להטעות את מנוע החיפוש )•

סינון ע"י תוכן – מספיק לבחון את תוכן הדף הבודד.•

צורך פחות משאבים, ניתן למיקבול.•

ניתן לשלב בין השיטות )סינון מקדים, סינון אינטנסיבי, •

דירוג(

)Decision trees(רקע – עצי החלטה כלי לקבלת החלטות•

אופן הפעולה:•

סריקת התכונות השונות ומציאת המבחנים שיוצרים את –

ההפרדה הטובה ביותר.

יצירת צמתי מבחן, בד"כ השוואה של תכונה בודדת עם ערך.–

בהתאם לתוצאת ההשוואה תקבע אחת משתי האפשרויות –

להמשך הבדיקה.

עלה בעץ מציין קבלת החלטה )תוצאת המיון, ערך התכונה –

הנבדקת(.

סקירת המערכתאיפיון תכונות

המערכת תבצע ניתוח דפים ותיצור מכל דף רשימה של תכונות.•

המערכת תוכל לבנות החלטות בהתבסס על דפים שתויגו •

מראש.

המערכת תוכל למיין דפים בעזרת עץ ההחלטות שנבנה בשלב •

האימון.

כל תת פעולה יכולה להתבצע בנפרד.•

ניתן לשמור את עץ ההחלטות / ניתוח הדפים לשימוש חוזר.•

סקירת המערכתתכונות הדפים הנבדקות

• Words in page

• Words in title

• Average length of words

• Amount of anchor text

• Fraction of visible content

• Compressibility

• Fraction of page drawn from popular keywords

• Fraction of popular keywords

Parser

Trainer Decision Tree

Classifier

Parsed pages

אופן פעולת המערכת

סקירת תוצאות

Recall Precision

Spam 71.5% 60.6%

Non-spam 95.3% 96.9%

Match rate = 92.7%

Recall – spam matches out of real spam.Precision – spam matches out of tagged as spam.

סקירת תוצאותnumber of words

0%

2%

4%

6%

8%

10%

12%

14%

16%

18%

spam

non-spam

סקירת תוצאות

סקירת תוצאותAverage word length

0%

1%

2%

3%

4%

5%

6%

7%

8%

spam

non-spam

סקירת תוצאות

סקירת תוצאותnumber of words

0%

2%

4%

6%

8%

10%

12%

14%

16%

18%

spam

non-spam

Average word length

0%

1%

2%

3%

4%

5%

6%

7%

8%

spam

non-spam

מסקנות ותובנות

למספר הדפים שמשמשים לבניית העץ יש השפעה •משמעותית על ביצועיו.

יש לתת יחס מיוחד לדפים קטנים באופן משמעותי •שמכניסים רעש למערכת.

עצי החלטה מדויקים מדי )אנטרופיה נמוכה( עלולים •להתאים רק לנתונים שעל פיהם הם נבנו, תוך פגיעה

בביצועיהם על דפים חדשים.התכונות שנבחנו בפרויקט לא מספיקות כדי לבצע מיון •

ברמה מספיק טובה, יש לשלב תכונות נוספות בבדיקה.

סיכום העבודהיעדי הפרויקט שהושגו:

.למידת המאמר והרקע התאורטי הכרה והתנסות עם החבילותHTMLParser, jaDT.

.מימוש האפליקציה והרצת סימולציות

אפשרויות המשך לפרויקטים עתידיים: בדיקת התכונות הנוספות המתוארות במאמר(n-

grams.)

מימושDecision tree.חלופי

.)הוספת כלים נוספים למיון )לא מבוססי תוכן

.הטמעה במנוע חיפוש

It was fun!

Let’s do it again…

top related