a. frank-t.sharon 1 internet resources discovery (ird) introduction to search engines thanks to chen...
Post on 20-Dec-2015
220 views
TRANSCRIPT
A. Frank-T.Sharon1
Internet Resources Discovery (IRD)
Introduction to
Search Engines
Thanks to Chen Lin, Yossi Yitshaki and Ofer Kaatabi
A. Frank-T.Sharon2
Contents
Searchמבוא למנועי חיפוש )•Engines)
מבוא לסוגי מנועי חיפוש • מבוא לאיחזור מידע •
(Information Retrieval)
A. Frank-T.Sharon3
When to start Searching!?
A. Frank-T.Sharon4
Why Search Engines?
מנוע חיפוש הוא משאב קריטי המאפשר חיפוש מידע •ברשת. עם כמות המידע באינטרנט קשה לתארו ללא
מנועי חיפוש.מכיוון שהמידע באינטרנט הוא דיגיטאלי יש יותר יכולת •
לחפש בו מאשר מה שאפשרי בחיפוש בספריה רגילה.בספריה, כשרוצים לחפש ספר, מקישים במסוף צרוף •
מילים ומוצאים את הספר ע"פ מחבר או שם הספר. מנועי חיפוש באינטרנט שונים בכך שהם מאפשרים
לחפש גם בתוכן דפי האינטרנט ובכותרות של דפים, דבר אשר הופך אותם לכלי בעל עוצמה חזקה יותר.
כמו כן הם לרוב מחפשים בכל האינטרנט - זה כמו •חיפוש ספר בכל הספריות שקיימות בעולם.
A. Frank-T.Sharon5
Search Literacy
להיות מיומן בשימוש במנועי חיפוש זהו •המפתח למציאת מידע באינטרנט.
לעיתים משתמשים "ננעלים" על מנוע חיפוש •הנוח להם ומשתמשים רק בו, לא פלא שאנו עדיין שומעים את המשפט הידוע "אי אפשר
למצוא כלום ברשת"! החוכמה היא לשלב בצורה מושכלת בין מנועי •
החיפוש.( ניתן למצוא את כל המידע שתרצו )או לא •
באינטרנט - החוכמה היא לדעת לחפש.
A. Frank-T.Sharon6
Basic Web Search Engines
( -Information Searchאחזור מידע )•.סיפוק שירותי חיפוש דרך מנשק חיפוש
( -Information Gatheringאיסוף מידע )• אינדוקס משאבי רשת – בעיקר דפי
Web.מנועי חיפוש בסיסיים משתמשים לרוב •
למיניהם: ברובוטים/זוחליםrobots, crawlers, spiders, wanderers, ants
A. Frank-T.Sharon7
Anatomy of a Web Search Engine
מנועי חיפוש בסיסיים מורכבים מארבעה •מרכיבים עיקריים:
האתר אליו נכנסים ובו מקישים את 1.השאילתא.
מסד הנתונים של מידע-על בו נערך 2.החיפוש הראשוני.
כלי התוכנה שבה משתמשים כדי לבצע את 3.החיפוש.
רשימת התוצאות המוחזרת אל המשתמש.4.המונח “מנוע חיפוש” משמש לרוב לציון •
כל ארבעת המרכיבים האלו ביחד.
A. Frank-T.Sharon8
Basic Web Search Engine
database
RetrievalGathering
WWW
Administrator Users
Search Engine
Search Engine
A. Frank-T.Sharon9
Crawlers Collecting Metadata
אינטרנט
Metadata
Metadata
חיפוש מנועי
Metadataעל מידע
Metadataעל מידע
Metadataעל מידע
Metadata -על מידע
A. Frank-T.Sharon10
אינטרנט
SE Basic Data Structure: Inverted File
חיפוש מנוע
מפתח 1מילת
מפתח 2מילת
מפתח 3מילת
A. Frank-T.Sharon11
Search is done on Local SE Repository
Search Engine
מפתח 1מילת
מפתח 2מילת
מפתח 3מילת
URL1URL2
...
URL3
URL1URL4
מפתח מילות חפש
רשימת החזרכתובות
משתמשים
A. Frank-T.Sharon12
There are many search engines
A. Frank-T.Sharon13
Common Types of Search Engines
• Basic Search Engines/Index – assembled by software -- automated "spiders" or softbots.
• Directory/Guide– Hierarchical list of subject categories -- assembled by
people (“humanly-compiled”).
• Meta-Search Engines– Uses several basic search engines in parallel.
• Special(ty) Search Engines/Tools– Dedicated to a focused domain/community/media.
• Popularity Search Engines– Use popularity link/usage analysis.
Portals - Almost all, lately?!
There are also combinations of the above!
A. Frank-T.Sharon14
Examples of Search Engines
• Basic Search Engines– Webcrawler, AltaVista,
• Directory/Guide– Yahoo, Looksmart
• Meta-Search Engines– Hotbot, Metacrawler
• Special(ty) Search Engines/Tools– Usenet, Whowhere
• Popularity Search Engines– Google, DirectHit
Portals – Yahoo, MSN
A. Frank-T.Sharon15
Basic/Popular Search Engines
• Fast: www.alltheweb.com
• Google: www.google.com
• AltaVista: www.altavista.com
• Northern Light: www.nlsearch.com
• Webcrawler: www.webcrawler.com
A. Frank-T.Sharon16
Directories
• Yahoo dir.yahoo.com
• DirectHit: www.directhit.com
• Looksmart www.looksmart.com
A. Frank-T.Sharon17
Meta-Search Engines
• Metacrawler: www.metacrawler.com
• HotBot: hotbot.lycos.com
• AskJeeves: www.askjeeves.com
• DogPile: www.dogpile.com
A. Frank-T.Sharon18
Special(ty) Search Engines/Tools
• People - http://www.whowhere.com
• Newsgroups - http://groups.google.com/
• International Index for Search Engines - http://www.searchenginecolossus.com
• Educational Study Guide - http://www.studyweb.com
• Geneology - http://www.familysearch.org
A. Frank-T.Sharon19
Contributions to a SE database
עכבישים/רובוטים - בעצם תוכנות•אינדוקס.
( על ידי URLs)שליחת/הכנסת מענים •אתרים.-משתמשים/בעלי
הכנסה ע"י צוותי העובדים במנועי •החיפוש.
A. Frank-T.Sharon20
Maintenance of Search Engines
זמינות/יעילות מנועי חיפוש תלויים באחזקה שלהם.•
מנועים אלו רצים על מחשבים חזקים ולעיתים רבות •מורכבים ממספר מחשבים הפועלים בו-זמנית, כך
שניתן "לכבות" אחד מהמנועים ע"מ לבצע אחזקה והמשתמש לא ירגיש דבר.
הוא לא מנוע יחיד. כאשר yahoo לדוגמא: • http://www.yahoo.comהמשתמש מגיע לאתר
הוא מגיע לאחד ממחשבים רבים וכאשר הוא מבצע ) הוא אוטומטית עובר למחשב אחר. refreshרענון (
A. Frank-T.Sharon21
Query Types
• Natural Language
• Logical/Boolean– (a OR b) AND c
• Statistical– list of keywords
– perform statistical formulation to guess how much a document fits the query.
A. Frank-T.Sharon22
Query Keywords Analysis
• Morphological analysis (dog, dogs)
• Stemming (identifying stem/root)
• Stop words removal (of, the) http://searchenginewatch.com/facts/article.php/2156061
Used both for Boolean and Statistical queries!
A. Frank-T.Sharon23
The Process of Searching - Retrieval
User need
User request(verbalized)
Query toSE
Results
A. Frank-T.Sharon24
The Process of Searching – Retrieval Problems
User need
User request(verbalized)
Query toSE
Results
Translationproblems
PolysemySynonymy
Problems
A. Frank-T.Sharon25
Retrieval Example – Why don’t the users get what they want?
User need
User request(verbalized)
Query toSE
Results
Translationproblems
PolysemySynonymy
ExampleI need to get rid of
mice in the basementWhat’s the best way to trap mice alive?
Mouse trap
Computer suppliessoftware, etc
Problems
A. Frank-T.Sharon26
AltaVista Output: mouse trap
A. Frank-T.Sharon27
AltaVista Output: mice trap
A. Frank-T.Sharon28
Another Problem: Quality
A. Frank-T.Sharon29
Information Retrieval Measures
בהינתן שאילתא, איך מעריכים את איכות • מדדים 2(? יש Retrieval Quality)האחזור בסיסיים:
( – מדד למספר המסמכים Recallהחזר )1.הרלוונטיים שהוחזרו מתוך כלל המסמכים
הרלוונטיים הקיימים.( – מדד למספר המסמכים Precisionדיוק )2.
שהם רלוונטיים. שהוחזרו
A. Frank-T.Sharon30
Information Retrieval Measures
Recall = RR/Relevant
החזר = כל המסמכים הרלוונטיים
שהוחזרו / כל המסמכים הרלוונטיים הקיימים.
Precision = RR/Returned
דיוק = כל המסמכים הרלוונטיים שהוחזרו
/ כל המסמכים שהוחזרו.
Retrieved(Ret)
Resources
RR
RelevantReturned
A. Frank-T.Sharon31
Example: Recall and Precision in Random Case
דפים.10,000גודל המאגר - • דפים.200מספר הדפים הרלוונטיים - •.100מספר הדפים שהוחזרו - • 50מספר הדפים הרלוונטיים שהוחזרו - •
דפים.
0.25 = 50/200החזר -
0.5 = 50/100 דיוק -
A. Frank-T.Sharon32
Recall and Precision when Retrieving all Documents
דפים.10,000גודל המאגר - •
דפים.200מספר הדפים הרלוונטיים - •
.10,000מספר הדפים שהוחזרו - •
200מספר הדפים הרלוונטיים שהוחזר - •
1 = 200/200 -החזר
0.02 = 200/10,000- דיוק
A. Frank-T.Sharon33
Precision and Recall Tradeoff
דיוק
החזר0
1
1
Randomcase
Retrieve alldocuments
Repository 10,000 10,000
Relevant 200 200
Returned 100 10,000
RR 50 200
Recall 0.25 1
Precision 0.5 0.02
A. Frank-T.Sharon34
SE Comparison Parameters
• Database size and coverage• Specialty searches (directory, shopping, news,
images, papers, etc.)• User interface• Searching options (+,-,NEAR, and/or, etc.)• Ranking quality• Personalization options:
– Save search– Portal content– Email services– Toolbars
• Others (paid placements, etc.)