a. frank-t.sharon 1 internet resources discovery (ird) introduction to search engines thanks to chen...

34
A. Frank-T.Sharon 1 Internet Resources Discovery (IRD) Introduction to Search Engines Thanks to Chen Lin, Yossi Yitshaki and Ofer Kaatabi

Post on 20-Dec-2015

220 views

Category:

Documents


2 download

TRANSCRIPT

Page 1: A. Frank-T.Sharon 1 Internet Resources Discovery (IRD) Introduction to Search Engines Thanks to Chen Lin, Yossi Yitshaki and Ofer Kaatabi

A. Frank-T.Sharon1

Internet Resources Discovery (IRD)

Introduction to

Search Engines

Thanks to Chen Lin, Yossi Yitshaki and Ofer Kaatabi

Page 2: A. Frank-T.Sharon 1 Internet Resources Discovery (IRD) Introduction to Search Engines Thanks to Chen Lin, Yossi Yitshaki and Ofer Kaatabi

A. Frank-T.Sharon2

Contents

Searchמבוא למנועי חיפוש )•Engines)

מבוא לסוגי מנועי חיפוש • מבוא לאיחזור מידע •

(Information Retrieval)

Page 3: A. Frank-T.Sharon 1 Internet Resources Discovery (IRD) Introduction to Search Engines Thanks to Chen Lin, Yossi Yitshaki and Ofer Kaatabi

A. Frank-T.Sharon3

When to start Searching!?

Page 4: A. Frank-T.Sharon 1 Internet Resources Discovery (IRD) Introduction to Search Engines Thanks to Chen Lin, Yossi Yitshaki and Ofer Kaatabi

A. Frank-T.Sharon4

Why Search Engines?

מנוע חיפוש הוא משאב קריטי המאפשר חיפוש מידע •ברשת. עם כמות המידע באינטרנט קשה לתארו ללא

מנועי חיפוש.מכיוון שהמידע באינטרנט הוא דיגיטאלי יש יותר יכולת •

לחפש בו מאשר מה שאפשרי בחיפוש בספריה רגילה.בספריה, כשרוצים לחפש ספר, מקישים במסוף צרוף •

מילים ומוצאים את הספר ע"פ מחבר או שם הספר. מנועי חיפוש באינטרנט שונים בכך שהם מאפשרים

לחפש גם בתוכן דפי האינטרנט ובכותרות של דפים, דבר אשר הופך אותם לכלי בעל עוצמה חזקה יותר.

כמו כן הם לרוב מחפשים בכל האינטרנט - זה כמו •חיפוש ספר בכל הספריות שקיימות בעולם.

Page 5: A. Frank-T.Sharon 1 Internet Resources Discovery (IRD) Introduction to Search Engines Thanks to Chen Lin, Yossi Yitshaki and Ofer Kaatabi

A. Frank-T.Sharon5

Search Literacy

להיות מיומן בשימוש במנועי חיפוש זהו •המפתח למציאת מידע באינטרנט.

לעיתים משתמשים "ננעלים" על מנוע חיפוש •הנוח להם ומשתמשים רק בו, לא פלא שאנו עדיין שומעים את המשפט הידוע "אי אפשר

למצוא כלום ברשת"! החוכמה היא לשלב בצורה מושכלת בין מנועי •

החיפוש.( ניתן למצוא את כל המידע שתרצו )או לא •

באינטרנט - החוכמה היא לדעת לחפש.

Page 6: A. Frank-T.Sharon 1 Internet Resources Discovery (IRD) Introduction to Search Engines Thanks to Chen Lin, Yossi Yitshaki and Ofer Kaatabi

A. Frank-T.Sharon6

Basic Web Search Engines

( -Information Searchאחזור מידע )•.סיפוק שירותי חיפוש דרך מנשק חיפוש

( -Information Gatheringאיסוף מידע )• אינדוקס משאבי רשת – בעיקר דפי

Web.מנועי חיפוש בסיסיים משתמשים לרוב •

למיניהם: ברובוטים/זוחליםrobots, crawlers, spiders, wanderers, ants

Page 7: A. Frank-T.Sharon 1 Internet Resources Discovery (IRD) Introduction to Search Engines Thanks to Chen Lin, Yossi Yitshaki and Ofer Kaatabi

A. Frank-T.Sharon7

Anatomy of a Web Search Engine

מנועי חיפוש בסיסיים מורכבים מארבעה •מרכיבים עיקריים:

האתר אליו נכנסים ובו מקישים את 1.השאילתא.

מסד הנתונים של מידע-על בו נערך 2.החיפוש הראשוני.

כלי התוכנה שבה משתמשים כדי לבצע את 3.החיפוש.

רשימת התוצאות המוחזרת אל המשתמש.4.המונח “מנוע חיפוש” משמש לרוב לציון •

כל ארבעת המרכיבים האלו ביחד.

Page 8: A. Frank-T.Sharon 1 Internet Resources Discovery (IRD) Introduction to Search Engines Thanks to Chen Lin, Yossi Yitshaki and Ofer Kaatabi

A. Frank-T.Sharon8

Basic Web Search Engine

database

RetrievalGathering

WWW

Administrator Users

Search Engine

Search Engine

Page 9: A. Frank-T.Sharon 1 Internet Resources Discovery (IRD) Introduction to Search Engines Thanks to Chen Lin, Yossi Yitshaki and Ofer Kaatabi

A. Frank-T.Sharon9

Crawlers Collecting Metadata

אינטרנט

Metadata

Metadata

חיפוש מנועי

Metadataעל מידע

Metadataעל מידע

Metadataעל מידע

Metadata -על מידע

Page 10: A. Frank-T.Sharon 1 Internet Resources Discovery (IRD) Introduction to Search Engines Thanks to Chen Lin, Yossi Yitshaki and Ofer Kaatabi

A. Frank-T.Sharon10

אינטרנט

SE Basic Data Structure: Inverted File

חיפוש מנוע

מפתח 1מילת

מפתח 2מילת

מפתח 3מילת

Page 11: A. Frank-T.Sharon 1 Internet Resources Discovery (IRD) Introduction to Search Engines Thanks to Chen Lin, Yossi Yitshaki and Ofer Kaatabi

A. Frank-T.Sharon11

Search is done on Local SE Repository

Search Engine

מפתח 1מילת

מפתח 2מילת

מפתח 3מילת

URL1URL2

...

URL3

URL1URL4

מפתח מילות חפש

רשימת החזרכתובות

משתמשים

Page 12: A. Frank-T.Sharon 1 Internet Resources Discovery (IRD) Introduction to Search Engines Thanks to Chen Lin, Yossi Yitshaki and Ofer Kaatabi

A. Frank-T.Sharon12

There are many search engines

Page 13: A. Frank-T.Sharon 1 Internet Resources Discovery (IRD) Introduction to Search Engines Thanks to Chen Lin, Yossi Yitshaki and Ofer Kaatabi

A. Frank-T.Sharon13

Common Types of Search Engines

• Basic Search Engines/Index – assembled by software -- automated "spiders" or softbots.

• Directory/Guide– Hierarchical list of subject categories -- assembled by

people (“humanly-compiled”).

• Meta-Search Engines– Uses several basic search engines in parallel.

• Special(ty) Search Engines/Tools– Dedicated to a focused domain/community/media.

• Popularity Search Engines– Use popularity link/usage analysis.

Portals - Almost all, lately?!

There are also combinations of the above!

Page 14: A. Frank-T.Sharon 1 Internet Resources Discovery (IRD) Introduction to Search Engines Thanks to Chen Lin, Yossi Yitshaki and Ofer Kaatabi

A. Frank-T.Sharon14

Examples of Search Engines

• Basic Search Engines– Webcrawler, AltaVista,

• Directory/Guide– Yahoo, Looksmart

• Meta-Search Engines– Hotbot, Metacrawler

• Special(ty) Search Engines/Tools– Usenet, Whowhere

• Popularity Search Engines– Google, DirectHit

Portals – Yahoo, MSN

Page 15: A. Frank-T.Sharon 1 Internet Resources Discovery (IRD) Introduction to Search Engines Thanks to Chen Lin, Yossi Yitshaki and Ofer Kaatabi

A. Frank-T.Sharon15

Basic/Popular Search Engines

• Fast: www.alltheweb.com

• Google: www.google.com

• AltaVista: www.altavista.com

• Northern Light: www.nlsearch.com

• Webcrawler: www.webcrawler.com

Page 16: A. Frank-T.Sharon 1 Internet Resources Discovery (IRD) Introduction to Search Engines Thanks to Chen Lin, Yossi Yitshaki and Ofer Kaatabi

A. Frank-T.Sharon16

Directories

• Yahoo dir.yahoo.com

• DirectHit: www.directhit.com

• Looksmart www.looksmart.com

Page 17: A. Frank-T.Sharon 1 Internet Resources Discovery (IRD) Introduction to Search Engines Thanks to Chen Lin, Yossi Yitshaki and Ofer Kaatabi

A. Frank-T.Sharon17

Meta-Search Engines

• Metacrawler: www.metacrawler.com

• HotBot: hotbot.lycos.com

• AskJeeves:  www.askjeeves.com

• DogPile: www.dogpile.com

Page 18: A. Frank-T.Sharon 1 Internet Resources Discovery (IRD) Introduction to Search Engines Thanks to Chen Lin, Yossi Yitshaki and Ofer Kaatabi

A. Frank-T.Sharon18

Special(ty) Search Engines/Tools

• People - http://www.whowhere.com

• Newsgroups - http://groups.google.com/

• International Index for Search Engines - http://www.searchenginecolossus.com

• Educational Study Guide - http://www.studyweb.com

• Geneology - http://www.familysearch.org

Page 19: A. Frank-T.Sharon 1 Internet Resources Discovery (IRD) Introduction to Search Engines Thanks to Chen Lin, Yossi Yitshaki and Ofer Kaatabi

A. Frank-T.Sharon19

Contributions to a SE database

עכבישים/רובוטים - בעצם תוכנות•אינדוקס.

( על ידי URLs)שליחת/הכנסת מענים •אתרים.-משתמשים/בעלי

הכנסה ע"י צוותי העובדים במנועי •החיפוש.

Page 20: A. Frank-T.Sharon 1 Internet Resources Discovery (IRD) Introduction to Search Engines Thanks to Chen Lin, Yossi Yitshaki and Ofer Kaatabi

A. Frank-T.Sharon20

Maintenance of Search Engines

זמינות/יעילות מנועי חיפוש תלויים באחזקה שלהם.•

מנועים אלו רצים על מחשבים חזקים ולעיתים רבות •מורכבים ממספר מחשבים הפועלים בו-זמנית, כך

שניתן "לכבות" אחד מהמנועים ע"מ לבצע אחזקה והמשתמש לא ירגיש דבר.

הוא לא מנוע יחיד. כאשר yahoo לדוגמא: • http://www.yahoo.comהמשתמש מגיע לאתר

הוא מגיע לאחד ממחשבים רבים וכאשר הוא מבצע ) הוא אוטומטית עובר למחשב אחר. refreshרענון (

Page 21: A. Frank-T.Sharon 1 Internet Resources Discovery (IRD) Introduction to Search Engines Thanks to Chen Lin, Yossi Yitshaki and Ofer Kaatabi

A. Frank-T.Sharon21

Query Types

• Natural Language

• Logical/Boolean– (a OR b) AND c

• Statistical– list of keywords

– perform statistical formulation to guess how much a document fits the query.

Page 22: A. Frank-T.Sharon 1 Internet Resources Discovery (IRD) Introduction to Search Engines Thanks to Chen Lin, Yossi Yitshaki and Ofer Kaatabi

A. Frank-T.Sharon22

Query Keywords Analysis

• Morphological analysis (dog, dogs)

• Stemming (identifying stem/root)

• Stop words removal (of, the) http://searchenginewatch.com/facts/article.php/2156061

Used both for Boolean and Statistical queries!

Page 23: A. Frank-T.Sharon 1 Internet Resources Discovery (IRD) Introduction to Search Engines Thanks to Chen Lin, Yossi Yitshaki and Ofer Kaatabi

A. Frank-T.Sharon23

The Process of Searching - Retrieval

User need

User request(verbalized)

Query toSE

Results

Page 24: A. Frank-T.Sharon 1 Internet Resources Discovery (IRD) Introduction to Search Engines Thanks to Chen Lin, Yossi Yitshaki and Ofer Kaatabi

A. Frank-T.Sharon24

The Process of Searching – Retrieval Problems

User need

User request(verbalized)

Query toSE

Results

Translationproblems

PolysemySynonymy

Problems

Page 25: A. Frank-T.Sharon 1 Internet Resources Discovery (IRD) Introduction to Search Engines Thanks to Chen Lin, Yossi Yitshaki and Ofer Kaatabi

A. Frank-T.Sharon25

Retrieval Example – Why don’t the users get what they want?

User need

User request(verbalized)

Query toSE

Results

Translationproblems

PolysemySynonymy

ExampleI need to get rid of

mice in the basementWhat’s the best way to trap mice alive?

Mouse trap

Computer suppliessoftware, etc

Problems

Page 26: A. Frank-T.Sharon 1 Internet Resources Discovery (IRD) Introduction to Search Engines Thanks to Chen Lin, Yossi Yitshaki and Ofer Kaatabi

A. Frank-T.Sharon26

AltaVista Output: mouse trap

Page 27: A. Frank-T.Sharon 1 Internet Resources Discovery (IRD) Introduction to Search Engines Thanks to Chen Lin, Yossi Yitshaki and Ofer Kaatabi

A. Frank-T.Sharon27

AltaVista Output: mice trap

Page 28: A. Frank-T.Sharon 1 Internet Resources Discovery (IRD) Introduction to Search Engines Thanks to Chen Lin, Yossi Yitshaki and Ofer Kaatabi

A. Frank-T.Sharon28

Another Problem: Quality

Page 29: A. Frank-T.Sharon 1 Internet Resources Discovery (IRD) Introduction to Search Engines Thanks to Chen Lin, Yossi Yitshaki and Ofer Kaatabi

A. Frank-T.Sharon29

Information Retrieval Measures

בהינתן שאילתא, איך מעריכים את איכות • מדדים 2(? יש Retrieval Quality)האחזור בסיסיים:

( – מדד למספר המסמכים Recallהחזר )1.הרלוונטיים שהוחזרו מתוך כלל המסמכים

הרלוונטיים הקיימים.( – מדד למספר המסמכים Precisionדיוק )2.

שהם רלוונטיים. שהוחזרו

Page 30: A. Frank-T.Sharon 1 Internet Resources Discovery (IRD) Introduction to Search Engines Thanks to Chen Lin, Yossi Yitshaki and Ofer Kaatabi

A. Frank-T.Sharon30

Information Retrieval Measures

Recall = RR/Relevant

החזר = כל המסמכים הרלוונטיים

שהוחזרו / כל המסמכים הרלוונטיים הקיימים.

Precision = RR/Returned

דיוק = כל המסמכים הרלוונטיים שהוחזרו

/ כל המסמכים שהוחזרו.

Retrieved(Ret)

Resources

RR

RelevantReturned

Page 31: A. Frank-T.Sharon 1 Internet Resources Discovery (IRD) Introduction to Search Engines Thanks to Chen Lin, Yossi Yitshaki and Ofer Kaatabi

A. Frank-T.Sharon31

Example: Recall and Precision in Random Case

דפים.10,000גודל המאגר - • דפים.200מספר הדפים הרלוונטיים - •.100מספר הדפים שהוחזרו - • 50מספר הדפים הרלוונטיים שהוחזרו - •

דפים.

0.25 = 50/200החזר -

0.5 = 50/100 דיוק -

Page 32: A. Frank-T.Sharon 1 Internet Resources Discovery (IRD) Introduction to Search Engines Thanks to Chen Lin, Yossi Yitshaki and Ofer Kaatabi

A. Frank-T.Sharon32

Recall and Precision when Retrieving all Documents

דפים.10,000גודל המאגר - •

דפים.200מספר הדפים הרלוונטיים - •

.10,000מספר הדפים שהוחזרו - •

200מספר הדפים הרלוונטיים שהוחזר - •

1 = 200/200 -החזר

0.02 = 200/10,000- דיוק

Page 33: A. Frank-T.Sharon 1 Internet Resources Discovery (IRD) Introduction to Search Engines Thanks to Chen Lin, Yossi Yitshaki and Ofer Kaatabi

A. Frank-T.Sharon33

Precision and Recall Tradeoff

דיוק

החזר0

1

1

Randomcase

Retrieve alldocuments

Repository 10,000 10,000

Relevant 200 200

Returned 100 10,000

RR 50 200

Recall 0.25 1

Precision 0.5 0.02

Page 34: A. Frank-T.Sharon 1 Internet Resources Discovery (IRD) Introduction to Search Engines Thanks to Chen Lin, Yossi Yitshaki and Ofer Kaatabi

A. Frank-T.Sharon34

SE Comparison Parameters

• Database size and coverage• Specialty searches (directory, shopping, news,

images, papers, etc.)• User interface• Searching options (+,-,NEAR, and/or, etc.)• Ranking quality• Personalization options:

– Save search– Portal content– Email services– Toolbars

• Others (paid placements, etc.)