ct477 information retrieval - ramkhamhaeng...

130
Information Retrieval โดย ผศ.ดร.อุไร ทองหัวไผ่ ภาควิชาวิทยาการคอมพิวเตอร์ มหาวิทยาลัยรามคาแหง

Upload: others

Post on 27-Apr-2020

7 views

Category:

Documents


1 download

TRANSCRIPT

Information Retrieval

โดย ผศ.ดร.อไร ทองหวไผ ภาควชาวทยาการคอมพวเตอร

มหาวทยาลยรามค าแหง

เนอหา

บทท 1 ภาพรวมของระบบคนคนสารสนเทศ

บทท 2 การวเคราะหขอความ บทท 3 การแบงกลมขอมลอตโนมต

บทท 4 โครงสรางแฟมขอมล

บทท 5 กลยทธการคนหาขอมล

บทท 6 การประเมนผลการคนคนขอมล

บทท 7 ระบบคนคนสารสนเทศบน WWW

ต ารา

Ray Larson, Marc Davis ,”Information Organization and Retrieval”, UC Berkeley SIMS, http://www.sims.berkeley.edu/academics/courses/is202/f04

อไร ทองหวไผ, “ ระบบคนคนสารสนเทศ Information Retrieval “ , CT477 มหาวทยาลยรามค าแหง , 2551

สมาล เมองไพศาล , การจดการขอมลและการเรยกใชขอมล Information Organization and Retrieval , CS337 มหาวทยาลยรามค าแหง , 2535

http://instruction.ru.ac.th/urai

http://e-book.ram.edu/e-book/inside/html/dlbook.asp?code=CT477

บทท 1

ภาพรวมของระบบคนคนสารสนเทศ

ระบบคออะไร?

กลมสวนประกอบหรอระบบยอยตางๆทมการท างานรวมกน เพอใหประสบผลส าเรจตามวตถประสงคทตงไว

ระบบ

ระบบหนงๆ ประกอบดวยกจกรรม(activities)หรอเหตการณตางๆทเกดขนในระบบ

กจกรรมหนงๆนนประกอบดวยสมาชกทเกยวพนธกน เรยกวา ออฟเจก(objects) หรอ เอนตต(entities)

ระบบถกจ ากดดวยขอบเขต (System Boundary) ซงจะเปนตวแยกระบบนนๆ ออกจากสงแวดลอม

ระบบการหายใจ

ระบบการผลต

ระบบงานคอมพวเตอร

ระบบตรวจสอบการช าระเงน(Paycheck system)

ขอมลและสารสนเทศ

ขอมล (Data) คอขอมลดบ (Raw Data) หรอขอเทจจรงทเกดขนทมความหมายในตวเอง ซงไมไดกอใหเกดประโยชน

สารสนเทศ (Information) คอการน าขอมลดบมาผานกระบวนการ (Process) เพอใหเกดผลลพธหรอสารสนเทศทมประโยชนในตอการตดสนใจ

Information and Communication Technology (ICT) การน าเทคโนโลยสารสนเทศ (IT) + เทคโนโลยการสอสาร (CT)

น ามาสรางสารสนเทศและเชอมตอระบบยอยๆขององคกรเขาดวยกน โดยมลกษณะการด าเนนงานคอ การรวบรวมเกบขอมลประมวลผล การน าเสนอผล การแจกจาย การตดตอสอสารขอมลและสารสนเทศ

เพอสนบสนน ควบคม วเคราะห ตดสนใจ และการวางแผน

พฒนาการของเทคโนโลยสารสนเทศ

1980 1990 2000 2010 1970 Pre-1960 1960

Mainframe

Mini

Batch Systems

Batch & On-line

CIM SYSTEMS (Thailand) Co., Ltd.

On-line Systems

Network Processing

PC

Internet

E-Commerce

Mobile Computing

Mobile Phone

Mobile Commerce/G3

Voice Commerce

E-Services

Mobile Computing

เทคโนโลยสารสนเทศ (Information Technology)

หมายถงกระบวนการตางๆและระบบงานทชวยใหไดสารสนเทศทตองการโดยจะรวมถง เครองมอและอปกรณตางๆหมายถง เครองคอมพวเตอร เครองใชส านกงาน อปกรณโทรคมนาคมตางๆรวมทงซอฟตแวรทงระบบส าเรจรปและพฒนาขนโดยเฉพาะดาน

กระบวนการในการน าอปกรณเครองมอตางๆ มาใชงาน โดย รวบรวมเกบขอมล จดเกบประมวลผล และแสดงผลลพธเปนสารสนเทศในรปแบบตางๆ ทสามารถน าไปใชประโยชนไดตอไป

Information System (IS)

ระบบสารสนเทศ

คอระบบงานทมการน า IT เขามาเพอประยกตใชในการจดเกบขอมล ประมวลผล และเรยกดขอมล

สวนประกอบของระบบสารสนเทศ

ประเภทของระบบสารสนเทศ

ระบบประมวลผลขอมล(Data Processing System หรอ DP)

ระบบประมวลผลรายการ (Transaction Processing System หรอ TPS)

เปนการน าคอมพวเตอรมาใชในการจดขอมลพนฐาน โดยเนนทการประมวลผลรายการประจ าวน และการเกบรกษาขอมล

ระบบประมวลผลรายการประจ าวน (TPS)

ใชจดเกบขอมลแทนระบบการจดเกบดวยมอ (Manual) เปนงานทตองท าซ า ๆ ในแตละวนของการด าเนนธรกจ เชน

บนทกรายการสงซอสนคาประจ าวน ขอมลจะถกรวบรวมไวเพอน าไปจดท ารายงานตามความ

ตองการตอไป

บางครงเรยกวาระบบปฏบตงาน (Operational

System)

ระบบประมวลผลขอมล(Data Processing System หรอ DP)

ระบบเงนเดอน

ระบบประมวลผลขอมล(Data Processing System หรอ DP)

ระบบขายสนคา

ระบบจองตวเครองบนออนไลน

Drugstore Network

Systems Operations Division (SOD)

SOD manages the operation, installation, and maintenance of all operational

observing and weather information systems

ระบบสารสนเทศเพอการบรหาร (Management Information System หรอ MIS )

เปนระบบบรหารทใหสารสนเทศทผบรหารตองการ ระบบนผลตรายงานสรปสารสนเทศซงรวบรวมจากฐานขอมลขององคกรเปน

คาบระยะเวลา หรอเปนรายงานตามความตองการ หรอเปนรายงานในเหตการณทเปนสภาวการณผดปกต หรออาจเปนรายงานพยากรณ

รายงานเหลานเปนสารสนเทศทส าคญส าหรบผบรหารในการควบคม สงการ การปฏบตการ และวางแผนในองคกรไดถกตอง

Schedule report

On-demand report

Forecasting report

ระบบสารสนเทศควบคมการบรหารจดการภายในกจการ (ERP)

ERP(Enterprise Resource Planning )

องคกรธรกจประกอบกจกรรมธรกจในการสงมอบสนคาหรอบรการใหแกลกคา กจกรรมดงกลาวเปนกจกรรม “สรางมลคา” ของทรพยากรธรกจใหเกดเปนสนคาหรอบรการและสงมอบ “มลคา” นนใหแกลกคา โดยกระบวนการสรางมลคาจะแบงออกเปนสวนๆ โดยแตละสวนจะรบผดชอบงานในสวนของตน และมลคาสดทายจะเกดจากการประสานงานระหวางแตละสวนหรอแผนกยอยๆ

ระบบสารสนเทศเพอการบรหารจดการโรงเรยน

ระบบส านกงานอตโนมต (OIS/OAS)

เปนระบบทเพมประสทธภาพงานดานการจดการส านกงานและการสอสาร

ซอฟทแวรทสนบสนนระบบ OIS/OAS

โปรแกรมประมวลผลค า (Word Processing)

ซอฟทแวรทสนบสนนระบบ OIS/OAS

โปรแกรมตารางงาน (Spreadsheet)

ซอฟทแวรทสนบสนนระบบ OIS/OAS

โปรแกรมจดการฐานขอมล (Database Management)

ซอฟทแวรทสนบสนนระบบ OIS/OAS

โปรแกรมน าเสนอผลงาน (Presentation)

ซอฟทแวรทสนบสนนระบบ OIS/OAS

จดหมายอเลกทรอนกส (Electronic Mail)

ระบบสนบสนนการตดสนใจ (Decision Support System หรอ DSS ) ระบบสารสนเทศสนบสนนการตดสนใจของผบรหารอยางมประสทธภาพ

การสรางแบบจ าลอง(Model)สถานการณปจจบนของการด าเนนงานในองคกรขนมา

ผบรหารโตตอบเพอหาทางเลอกของการด าเนนงานทดทสด หรอมความเสยงต าทสด ซงอาจมการจดอนดบทางเลอกในการด าเนนงานใหกบผบรหาร

ผลลพธอยในรปแบบของกราฟกแบบตางๆ หรอสารสนเทศทเปนคาจากการประมาณการ

โครงการพฒนาพนทเสยงภยแลง

ระบบสารสนเทศภมศาสตร (Geographic Information System : GIS ) สนบสนนการวางแผน และตดสนใจเกยวกบพนท

ทรพยากรน า

ระบบสารสนเทศเพอผบรหารระดบสง (Executive Information System หรอ EIS)

ระบบสารสนเทศทเนนการใหสารสนเทศทส าคญตอการบรหารแกผบรหารระดบสงสด

ใชในการตรวจสอบ ควบคมการด าเนนงานในองคกร รวมทงการตดสนใจ

การใชงานจะเปนภาพกราฟก ทผใชงานไมจ าเปนตองมทกษะสง

ผลลพธจะอยในรปแบบทเขาใจไดงายในรปของกราฟก ภาพ เสยง หรอ ระบบมลตมเดย

ระบบผเชยวชาญ(Expert System หรอ ES)

ระบบคอมพวเตอรทชวยในการตดสนใจโดยใชวธเดยวกบมนษยทมความเชยวชาญ เกยวของกบการจดการความร(Knowledge)

หลกการท างานดวยระบบ ปญญาประดษฐ (Artificial Intelligence) ซงเปนระบบถาม-ตอบ (Question-Answering System หรอ QA)

จดการเกยวกบสารสนเทศทเปนลกษณะแบบธรรมชาต เปนความจรง (facts) ทใหความรแกผใช

ตวอยาง ระบบวเคราะหโรค ระบบวเคราะหการคา

การวนจฉยโรค

The Expert System is one of the most important Tools for

Navcon Engineers to develop Noise Control Plans.

ADBUL (Artificial BudDy U Love) หรอ อบดล คอระบบสนทนาออนไลนทโตตอบกบผใชแบบอตโนมตผาน โปรแกรม Windows

Live Messenger (MSN)

บรบทตางๆ ของการใชภาษา

การน าเทคโนโลยสมยใหมมาประยกตใช

การน าเทคโนโลยสมยใหมมาประยกตใช

1. E-Commerce

ใชเวบในการด าเนนงานทางธรกจ

2. Enterprise Resource Planning System (ERP)

รวมระบบสารสนเทศหลายๆ ระบบทมอยในระดบการบรหารตางๆ ทมหนาทการท างานทแตกตางกนเขาไวดวยกน/ท างานรวมกน

การน าเทคโนโลยสมยใหมมาประยกตใช (ตอ)

3. Wireless and Handheld Device

การท า M-Commerce คอการน าโทรศพทมอถอหรอ PDAเขามาใชในการ ท าธรกจ เชน สง SMS รายงานหน

4. Open Source

การใช Linux เปนระบบปฏบตการ หรอ Apache เพอเปนเครอง Server ในการใหบรการ Internet

ขอดของการใชเวบ

1. เพมการใหบรการ ขายสนคา ผลตภณฑ จ านวนบรษท จ านวนโรงงาน บคคล และกลมบคคลทเขามาตดตอ

2. ผใชสามารถเขามาใชบรการไดตลอด 24 ชวโมง

ขอดของการใชเวบ (ตอ)

3. มมาตรฐานในการออกแบบการตดตอ interface ใหเปนมาตรฐานเดยวกน

4. สามารถขยายขอบเขตการใหบรการไปไดทวโลก (Global System)

ฐานขอมล(Data base)

ระบบบรหารฐานขอมล (Data Base Management System หรอ DBMS)

ระบบทจดการเกยวกบฐานขอมล เชน การเกบบนทก การบ ารงรกษา และการคนคนขอมลตางๆ

รปแบบการจดเกบ ไมใชภาษาธรรมชาต อยในรปแบบตวเลข หรอตาราง ประกอบดวยเรคอรดขอมล แตละฟลดมลกษณะเฉพาะ

ผลลพธ เปนเรคอรดทตองการ ทถกจดตามรปแบบตางๆ การคนหา ตองระบคาทเปนเอกลกษณ สารสนเทศทดงออกมาจะเปนรายการขอมลตามทผใชระบ

DoyleSoft Knowledge Base

Knowledge Base is

perfect for: dental,

medical, veterinary, legal,

High-tech, and financial offices.

Development of Meta-Level Knowledge Base

Systems for Integrating Cultural, Social, and

Natural Sciences

พก 15 นาท

ความหมาย?

ระบบคนคนสารสนเทศ

Information retrieval

การคนคนสารสนเทศ (Information retrieval)

การคนคน (Retrieve ) หมายถงการไดรบสงทตองการกลบคนมา เปนการคนเพอใหไดผลการคนตามตองการ มงเนนทผลการคนเปนส าคญ ซงการคนหา (searching) เปนกระบวนการคน

การคนคนสารสนเทศ (Information retrieval) การกระท าใดๆ ทใหไดรบสารสนเทศทตองการ ซงอาจเปนขอมลหรอรายการเอกสารซงบรรจเนอหาทตองการ และสงใหกบผรบอยางรวดเรว โดยใชแรงงานมนษยหรอคอมพวเตอร

การคนวรรณกรรม (Literature searching) หมายถง กระบวนการคนเอกสาร เพอใหไดเอกสารทเกยวของกบเรองใดเรองหนง สงใหแกผใชอยางรวดเรว ทนการ เชน บตรรายการ สงพมพดรรชน เปนตน

โสภณ ทองเกษม จฬาลงกรณมหาวทยาลย

Reitz, 2004-2010 P.19

Information Storage and Retrieval (ISAR/ISR)

“Operations performed by the hardware and

software used in indexing and storing a file of

machine-readable records whenever a user

queries the system for information relevant to

a specific topic. For records to be retrieved,

the search statement must be expressed in syntax executable by the computer”

Daintith, 2004 :Page 20

The linked activities of storing and retrieving

information, and the strategies and

techniques for doing so. • The activities are

linked because the means of retrieving

information are dependent on the means by

which it was stored. • The storage strategy

must be designed for the most efficient

retrieval, consistent with the characteristics of

the information and the time and cost that can be tolerated.

สรป

ระบบคนคนสารสนเทศ?

ระบบคนคนสารสนเทศ (Information Retrieval System หรอ IR)

ระบบทจดการประมวลผลสารสนเทศประเภทเอกสาร(Document) ในรปแบบตางๆ เชน ขอมล, หนงสอ , วารสาร , บทความ เปนตน โดยเกยวของในเรองการสรางดรรชน ,การเกบบนทก ,การดงเอกสาร โดยใชกลยทธและเทคนคตางๆ เพอแสดงรปแบบของผลลพธใหกบผใชซงใชเวลาและคาใชจายในเกณฑยอมรบได

A digital library is a type of IR system and a

collection of documents in organized electronic form.

ความซบซอนของการจดเกบและการคนคน สารสนเทศ

สารสนเทศปรมาณมาก สารสนเทศในรปอนาลอก และ ดจทล

สารสนเทศตางรปลกษณหรอรปแบบ (format) เชน เอกสาร บทความ หนงสอ วารสาร แผนพบ

สารสนเทศตางประเภท เชน เสยง ภาพลกษณ ภาพกราฟก และขอความ

หนาทของระบบคนคนสารสนเทศ

ชวยแกปญหาการตดตามสารสนเทศใหมๆ ซงมปรมาณเพมขน ระบบคนคนสารสนเทศจะชวยคน คดเลอก และกลนกรองสารสนเทศทเกยวของ เพอการใชประโยชนตอไป

สวนประกอบของระบบคนคน

การคดเลอก เปนการการรวบรวมเอกสารตามเกณฑและนโยบายทก าหนดไว ซงสอดคลองกบความตองการของผใช

การวเคราะหเอกสาร ไดแกการจดหมวดหม การจดท ารายการ การท าดรรชน และการท าสาระสงเขป

การจดระเบยบแฟมขอมล การคนคน วเคราะหแนวคดและก าหนดศพท หลงจากนนกน าค าศพทไป

ด าเนนการคน ถาค าศพทตรงกบดรรชนค าคนของเอกสารนน จะไดรบเอกสารจ านวนหนง หรอผคนจะท าการปรบปรงเอกสารใหเปนทพอใจของผใชบรการ

การแจกจาย เปนการน าสงผลการคนคนใหแกผใช ทมความตองการเอกสารเอกสารในเรองนนๆ

รป : แสดงภาพรวมของระบบคนคนสารสนเทศ

ประสทธภาพของระบบคนคน

ดานฐานขอมล ขนกบ เอกสารทจดเกบ ความละเอยดของดรรชน ความเพยงพอของค าศพทในระบบทใชแทนเนอหาของเอกสาร

ดานการใชระบบ ตามความตองการของผใช

ระบบคนคนสารสนเทศสามารถแบงได 3 ประเภทคอ

ระบบคนคนทใหค าถาม – ค าตอบ เปนการบรการคนค าตอบส าหรบค าถามทตองการค าตอบ ทเปนขอเทจจรง

ระบบคนคนทใหขอมลเปนตวเลขหรอสญลกษณ เปนระบบจดเกบขอมลทางฟสกส เคม ส ามะโนประชากร เปนตน

ระบบคนคนขอความจากวารสาร เปนระบบทจดเกบตวเนอหาเอกสารและสามารถเรยกขอความสวนใดสวนหนงของเอกสารได เชน ฐานขอมลทางกฎหมาย เปนตน

OSQA: Free question AnswerSystem

http://www.cocut.cn/software/3915-osqa-free-question-answers-system.html

OSQA is the free, open source Q&A system it is a full-featured Q&A community.

Users can ask and answer questions,

comment and vote for the questions of others

and their answers

Both questions and answers can be revised and improved.

โปรแกรมตารางธาตเคม

ระบบโอแพกคอ?

ระบบการคนหารายการทรพยากรสารนเทศดวยระบบคอมพวเตอรออนไลน จะใชเครองปลายทางเปนเครองมอคนหารายการสารนเทศทตองการ โดยใชโปรแกรมส าเรจ หรอโปรแกรมการจดการฐานขอมลในระบบหองสมดอตโนมต

ระบบสบคนขอมลออนไลน (OPAC - Online Public Access Cataloging)

ประโยชนของการคนคนระบบโอแพก

สามารถคนรายการสารนเทศทตองการไดมากกวาการคนคนจากบตรรายการ ระบบโอแพกผคนสามารถคนไดจากดรรชนหลายประเภท เชน Boolean หรอ คนค าจากเขตขอมล เฉพาะทตองการ หรอคนจากค าส าคญ

ท าใหไดรบความสะดวกในการใชงาน รายการสารนเทศทไดรบถกตอง แมนย า

กระตนและสงเสรมใหผใชเกดความตองการใชทรพยากรสารสนเทศอยางคมคา ผใชสามารถคนคนสารสนเทศจากสถานททอยหางไกล สามารถเชอมโยงไปยงระบบโอแพกของสถาบนบรการอนๆทงในประเทศและ

ตางประเทศบนระบบเครอขาย

เครองมอชวยคนหาขอมลบนอนเทอรเนตม 5 ประเภทใหญๆ คอ (Bradley, 2002)

Free text Search Engines

Directory Search Engines

Meta Search Engines

Natural-language Search Engines

Resource or Site-specific Search

Engines

Free text Search Engines

เปน Search Engines ทสามารถคนไดโดยใชค าคนเพยงค าเดยวหรอหลายๆ ค า หรอคนดวยวลได เชน ชอบรษท ชอบคคล ชอนกรอง วรรคตอนทยกมาจากบทกลอน ชออาหาร ผลไม ชอเทศกาล หรอค าภาษาตางประเทศ

เหมาะกบการคนหาสารสนเทศเฉพาะเรองมากกวาการคนหาเรองทว ๆ ไป ทผคนยงไมคนเคยกบประเดนเรอง (ไมรวาค าใด จะท าใหคนแลวไดเรองทตรงความตองการ)

Free text Search Engines

คณภาพของผลการคน ขนอยกบความสามารถของผคนในการก าหนดค าคนเปนส าคญ (ตองใชค าคนทถกตอง)

ใหผลการคนทดหากผคนมความคนเคยกบเนอหาของเรองทคน ผคนทราบแนชดวาตองการสารสนเทศเรองใด การคนทใชศพทเฉพาะ เชน ตองการคนหาเรองเกยวกบระบบเครอขายคอมพวเตอรทใชสายไฟฟา ผคนจ าเปนตองก าหนดค าคนทถกตอง ตองใชศพทเฉพาะจงจะไดผลการคนทตรงกบความตองการ

Free text Search Engines http://home.kku.ac.th/hslib/412141/internet/freetext.htm

Directory Search Engines

จดท าโดยมนษย

โดยน าขอมลทปรากฏใน Web ตางๆ มาจดเปนหมวดหม เปนเรองๆ ภายใตแตละเรอง จะท าการแบงเปนเรองยอยๆ ตามล าดบ จากเรองทวไป ไปสเรองทมความเฉพาะเจาะจงมากขน

โครงสรางของการจดหมวดหมจะถกเตรยมไวกอน จากนนจงน าเวบไซตตางๆ ทรวบรวมมาไปจดเกบตามหมวดหมทจดท าไว

ขอด Directory Search Engines

การแบงหมวดหมทชดเจน ชวยน าทางในการเขาถงขอมล ในการคนผใชไมจ าเปนตองมความรในเรองทคน เหมาะใน

การคนหาเรองทวๆ ไปมากกวาเรองทมความเฉพาะเจาะจง

ขอเสย Directory Search Engines

การจดหมวดหมอาจขนอยกบ ความรของผจดท า และผใช การก าหนดโครงสรางความสมพนธของหมวดหมไมชดเจน

ไมสมเหตสมผล หมวดยอยมความซ าซอน หรอคาบเกยวกน เรองเดยวกนแตอยไดหลายทหลายระดบ อาจสรางความสบสนใหกบผคนได

Directory Search Engines

Meta Search Engines

Search Engines ประเภทน อาจจดไดวาไมใช Search

Engines ทแทจรง เนองจากไมไดท าการสบคนขอมลเอง แตจะสงตอค าถามจากผใช (query) ไปให Search Engines ตวอน

ผลการคนทไดจงแสดงทมา (ชอของ Search Engines) ทเปนเจาของขอมลไวตอทายรายการทคนไดแตละรายการ

ขอด Meta Search Engines

สามารถคนเรองทตองการไดจากแหลงเดยว ไมตองเสยเวลาไปคนจากหลายท โดยตดขอมลทมความซ าซอนกนออกไป เหมาะทจะใชในกรณทตองการรวบรวมขอมลทตองการใหครอบคลมมากทสด

ขอเสย Meta Search Engines

ในกรณทค าคน มการสรางสตรการคนทซบซอน หรอใชภาษาอนๆ ทไมใชภาษาองกฤษ อาจใหผลการคนไมเทยงตรงได เนองจากไมเขาใจค าสงทแทจรง

Meta Search Engines

Dogpile (http://www.dogpile.com)

Metacrawler (http://www.metacrawler.com)

ProFusion (http://www.profusion.com)

Search (http://www.search.com)

SurfWax (http://www.surfwax.com)

Ixquick (http://www.ixquick.com)

Natural-language Search Engines

เปนพฒนาการใหมของ Search Engines โดยนอกจากจะคนตามค าคนทผใชพมพเขามาแลว จะน าค าคนของผใชไปเปรยบเทยบกบค าศพทอนๆ ทมลกษณะใกลเคยงกนหรอมความเกยวของกน

คนดวยค าวา "tax revenue" Search Engines จะดงขอมลจากประเดนทคดวาเกยวของออกมาดวย เชน Financial,

Business and Economic

เวบไซตทเปนทนยมคอ Ask Jeeves (http://www.aj.com)

หรอ http://www.ask.co.uk

ขอด Natural-language Search Engines

เมอผใชไมทราบวาจะใชค าศพทค าใดในการคนหาสารสนเทศทตองการ สามารถถามระบบเพอใหระบบตอบกลบมาได ตองการคนหาขอมลเกยวกบกาซทสามารถละลายในน า โดยไมมความรในเรอง

ดงกลาวมากอน สามารถท าการคนโดยการถามค าถามวา

"Which gases are partially soluble in water?"

Search Engines จะท าการคนหาค าตอบใหได

Natural-language Search Engines

ค าถาม

ค าตอบ

Resource or Site-specific Search Engines เปนกลมของ Search Engines ทมจ านวนมาก

ทสด จดท าขนเพอใชคนหาขอมลในเรองใดเรองหนงโดยเฉพาะ

เนนการรวบรวมทงในระดบกวางและลกของสาขาวชาทรบผดชอบ ขอมลทจดเกบมกไมมใน Search

Engines ทวๆ ไป (Tyner, 2002)

Google Scholar

(http://scholar.google.com/) เปนบรการทเกดขนมาตอบสนองกลมผบรโภคทเปนนกเรยนนกศกษาไม

สามารถจะน ามาเชอมโยงไดโดยบรการคนหาขอมลแบบธรรมดา

Yahoo! Picture Gallery (http://gallery.yahoo.com/)

GameSpot

(http://gamespot.com/gamespot/)

User-centric Math Information Retrieval System

http://www.ieee-tcdl.org/Bulletin/v4n2/zhao/zhao.html

ตาราง : แสดงความแตกตางระหวางการคนคนขอมลและ การคนคนสารสนเทศ

Data Retrieval (DR) Information Retrieval (IR)

Matching Exact match Partial match, best match Inference Deduction Induction Model Deterministic Probabilistic Classification Monothetic Polythetic Query language Artificial Natural

Query specification Complete Incomplete Items wanted Matching Relevant Error response Sensitive Insensitive

Deterministic

เหตการณทเกดขนทงหมดจะเกดขนภายใตกฎเกณฑทแนนอนและไดมการก าหนดเวลาทแนนอน

เวลาจะมผลกระทบมาจากความนาจะเปนหรอความแปรปรวนจากการมาของเวลาทไมคงท เรยกวา Stochastic

รปท: แสดงความแตกตางระหวาง Database และ IR

แนนอน ถกตอง

คลมเครอ

หมาย

รป: แสดงสวนประกอบของระบบคนคนสารสนเทศ

สวนน าเขาขอมล(Input)

โปรเซสเซอร (Processor) สวนของผลลพธ(OUTPUT)

สวนน าเขาขอมล(Input)

เปนสวนของการปอนขอค าถาม(query)จากผใชซงเปนภาษาธรรมชาต หรออาจเปนการน าเขาMetadata ซงเปนสารสนเทศเกยวกบเอกสารหรออาจไมเปนสวนหนงของเอกสารกไดแตเปนขอมลเกยวกบขอมล (data about data)หรอค าถาม

Descriptive metadata -ผแตง(Author)

-ชอเรอง(Title)

-แหลงทมา (book, magazine)

-วนท (Date)

-ISBN -ส านกพมพ(Publisher)

-ความยาว(Length)

Semantic metadata concerns the content -บทคดยอ(Abstract)

-ค าส าคญ(Keywords)

-รหสของหวเรอง(Subject Codes )

เทอมของหวเรอง (Subject terms)

สารสนเทศของเวป(Web Metadata)

-META tag in HTML

Markup Languages

Language used to annotate documents with “tags”

that indicate layout or semantic information.

Most document languages (Word, RTF, Latex,

HTML) primarily define layout.

History of Generalized Markup Languages:

GML(1969) SGML (1985)

HTML (1993)

XML (1998)

Standard

HyperText

eXtensible

Basic SGML Document Syntax

Blocks of text surrounded by start and end tags.

<tagname attribute=value attribute=value …>

</tagname>

Tagged blocks can be nested.

In HTML end tag is not always necessary, but in XML

it is

HTML

Developed for hypertext on the web

<a href=“http://www.cs.su.ac.th”>

May include code such as Javascript in Dynamic

HTML (DHTML)

Separates layout somewhat by using style sheets

(Cascade Style Sheets, CSS)

However, primarily defines layout and formatting

XML

Like SGML, a metalanguage for defining specific document languages

Simplification of original SGML for the web promoted by WWW Consortium (W3C)

Fully separates semantic information and layout

Provides structured data (such as a relational DB) in a document format

Replacement for an explicit database schema

XML (cont)

Allows programs to easily interpret information in a document, as opposed to HTML intended as layout language for formatting docs for human consumption

New tags are defined as needed

Structures can be nested arbitrarily deep

Separate (optional) Document Type Definition (DTD) defines tags and document grammar

XML Example

<person>

<name> <firstname>John</firstname>

<middlename/>

<lastname>Doe</lastname>

</name>

<age> 38 </age>

<email> [email protected]</email>

</person>

<tag/> is shorthand for empty tag <tag></tag>

Tag names are case-sensitive (unlike HTML)

A tagged piece of text is called an element.

XML Example with Attributes

<product type=“food”>

<name language=“Thai”>Tom Yum Kung</name>

<price currency=“Baht”>250</price>

</product>

Attribute values must be strings enclosed in quotes.

For a given tag, an attribute name can only appear once.

โปรเซสเซอร (Processor)

เปนสวนของการประมวลผล ไดแก การจดโครงสรางของสารสนเทศในรปแบบทเหมาะสม

การสรางตวแทนเอกสาร การแบงแยกกลมของเอกสาร

การจดเกบสารสนเทศ การดงขอมลตามทผใชตองการ

การท างานนนจะน าขอค าถามไปเปรยบเทยบกบตวแทนเอกสารทมอย เพอดงเอกสารทใกลเคยงน าออกมาใหแกผสอบถาม

การตดค า คอ การแบงตวอกษรจากขอความ (String) เพอหาขอบเขตของแตละหนวยค า (Morpheme)

สวนของผลลพธ(OUTPUT)

ผลลพธทไดจากระบบเปนขอความสนๆ เชน ชอ หนงสอ, หมายเลขเอกสาร, ชอผแตง, ส านกพมพ เปนตน

ผใชสามารถปรบปรงขอค าถามใหมเพอใหขอค าถามนนสบคนสารสนเทศไดตรงกบความตองการมากทสด เปนระบบตอบกลบ(feedback) ดงนนผลลพธทไดจงขนอยกบ ขอค าถาม (Query)

รปแสดงกระบวนการกระท าซ าของระบบคนคนสารสนเทศ

Repositories/

Resources

Workspace

Goals/

Needs

ทเกบทรวม

รป :แสดงระบบตอบกลบ