information retrieval (chapter 4: 질의언어 )

26
Sogang University: Dept of Computer Science Information Retrieval Information Retrieval (Chapter 4: (Chapter 4: 질질질질 질질질질 ) ) 질질질질질 질질질질질 Office: Office: 질질질 질질질 816 816 Tel: 705-8488 Tel: 705-8488 Email: Email: [email protected] [email protected]

Upload: axel

Post on 12-Jan-2016

26 views

Category:

Documents


0 download

DESCRIPTION

서정연교수 Office: 공학관 816 Tel: 705-8488 Email: [email protected]. Information Retrieval (Chapter 4: 질의언어 ). 키워드 기반 질의. 가장 간단하다 . 키워드와 몇 가지 연산으로 구성된다 . 키워드가 포함된 문서를 검색한다 . 널리 사용된다 . ( 이유 ) 직관적이다 . 쉽게 표현할 수 있다 . 순위화가 쉽다 . 종류 단일 단어 질의 (single-word queries) - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Information Retrieval (Chapter 4:  질의언어 )

Sogang University: Dept of Computer Science

Information RetrievalInformation Retrieval

(Chapter 4: (Chapter 4: 질의언어질의언어 ))

서정연교수서정연교수Office: Office: 공학관 공학관 816816

Tel: 705-8488Tel: 705-8488

Email: Email: [email protected]@sogang.ac.kr

Page 2: Information Retrieval (Chapter 4:  질의언어 )

Page 2Information Retrieval

Chapter 4: 질의언어

키워드 기반 질의키워드 기반 질의키워드 기반 질의키워드 기반 질의 가장 간단하다 .

키워드와 몇 가지 연산으로 구성된다 . 키워드가 포함된 문서를 검색한다 .

널리 사용된다 . ( 이유 ) 직관적이다 . 쉽게 표현할 수 있다 . 순위화가 쉽다 .

종류 단일 단어 질의 (single-word queries) 문맥 질의 (context queries) 불리안 질의 (Boolean queries) 자연어 질의 (natural language)

Page 3: Information Retrieval (Chapter 4:  질의언어 )

Page 3Information Retrieval

Chapter 4: 질의언어

단일 단어 질의단일 단어 질의단일 단어 질의단일 단어 질의 가정 :

텍스트는 단어의 나열이다 . 단어는 분리자 (separators) 를 경계로 된 문자의 나열이다 .

분리자 :

– 공백 (white space), 쉼표 (comma)– 하이픈 (hyphen) : on-line (?), off-line (?)

단어 질의의 결과 질의에 있는 단어가 적어도 하나라도 포함된 문서의 집합 질의와 유사도에 따라서 검색된 문서를 순위화한다 .

사용자 인터페이스 문서에서 질의에 포함된 단어의 정확한 위치를 표시한다 .

Page 4: Information Retrieval (Chapter 4:  질의언어 )

Page 4Information Retrieval

Chapter 4: 질의언어

문맥 질의문맥 질의문맥 질의문맥 질의 주어진 문맥 ( 근접한 다른 단어 ) 내에서 단어를 검색한다 . 문맥 질의의 종류

구 (phrase) 문맥 질의 연속적인 단일단어의 나열로 질의를 표현한다 . 문서에서 분리자가 질의에서 분리자와 정확히 같을 필요가 없다 .

– 예 ) query : "enhance retrieval" text : "enhance the retrieval", "enhance retrieval"

근접 (proximity) 문맥 질의 단어가 함께 사용될 수 있는 범위를 지정하는 질의

– 범위 : • 절 (paragraph)• 단어와 단어 사이의 최대 거리

예 ) within 4 words : query : "enhance retrieval" text : "...enhance the power of retrieval …" 질의에서 표현된 순서와 같은 순서로 텍스트에 표현될 필요는 없다 .

단일단어 질의와 비슷한 방법으로 순위화할 수 있다 .

Page 5: Information Retrieval (Chapter 4:  질의언어 )

Page 5Information Retrieval

Chapter 4: 질의언어

불리안 질의불리안 질의불리안 질의불리안 질의 간단한 문법으로 구성된다 .

단어 (atom) (i.e 기본 질의 ) 불리안 연산자 :

e1 OR e2,

e1 AND e2

e1 BUT e2 : e1 AND NOT e2,

질의 구문 트리 (query syntax tree) 리프노드 : 단어 내부 노드 : 불리안 연산자

질의의 결과 특별한 기준에 따라서 검색된 문서를 순위화한다 . 문서에서 질의에 포함된 단어의 정확한 위치를 표시한다 .

퍼지 불리안 질의 : some (between AND and OR)

AND

ORtranslation

syntax syntactic

Page 6: Information Retrieval (Chapter 4:  질의언어 )

Page 6Information Retrieval

Chapter 4: 질의언어

자연어 질의자연어 질의자연어 질의자연어 질의 문장으로 표현

자연어 질의는 검색 시스템에 의해서 불리안 질의와 같은 형식으로 표현하여 검색한다 .

Page 7: Information Retrieval (Chapter 4:  질의언어 )
Page 8: Information Retrieval (Chapter 4:  질의언어 )

Page 8Information Retrieval

Chapter 4: 질의언어

Good Retrieval (Good Retrieval ( 세계에서 제일 높은 산세계에서 제일 높은 산 ))Good Retrieval (Good Retrieval ( 세계에서 제일 높은 산세계에서 제일 높은 산 ))

Untitled Document  ( 정확도 : 99 %) 세계에서 가장 높은 산은 어느 것일까요 ? 해 면 아래와 위를 합쳐서 가장 높은 산은 미국의 하와이 섬에 있는 ' 마우나케아 ' 입니다 . 이 산은 해발 4,205 미터이고 , 해면 아래는 4,877 미터입니다 . 마우나케아 산의 전체 높이는 9,000 미터를 넘기 때문에 세계에서 가장 높은 산이라 http://www.tgedu.net/student/cho_ja/html/5000/5111-10.html

세 계 의 명 산 ( 정확도 : 97 %)산 8000m 급 14 개 봉중의 (10 위봉 ) 노아 방주가 내려앉은 산 8000m 급 14개 봉중의 (12 위봉 ) 사각형의 분화구를 이룬 사화산 칠레에서 가장 아름다운 산 8000m 급 14 개 봉중의 (8 위봉 ) 돌로미테 지역의 산 러시아에서 가장 높은 산 뉴질랜드에서 가장 높은 산 세계에서 가장 높은 http://www.kuac.net/txt/d_02.htm

Page 9: Information Retrieval (Chapter 4:  질의언어 )

Page 9Information Retrieval

Chapter 4: 질의언어

Bad Retrieval (Bad Retrieval ( 세계에서 제일 높은 산세계에서 제일 높은 산 ))Bad Retrieval (Bad Retrieval ( 세계에서 제일 높은 산세계에서 제일 높은 산 ))

WWW Home page of 이남희 (Lee Nam Hee) ( 정확도 : 88 %)세계에서 제일 높은 기차역 - 융프라우 산 위에서 내려다 본 스위스 마을 ttp://salmosa.kaist.ac.kr/~nhlee/Europe/e

urope20.html

그림대여시스템 / 판화세계 ( 정확도 : 77 %)태생의 현존 작가 . 현재 미국 산 앤토니오에서 작품활동하고 있다 . 강렬한 화면 구성과 기법으로 화면 가득히 역동감이 넘친다 . 뉴욕 프랫트 인스티튜트에서 공부하였으며 미국은 물론 유럽에서도 높은 평가를 받고 있다 . 판화세계 전화 : (02)6060-919 / H.P : 011-9778-0919 http://www.artrental.co.kr/alireza.htm

PAXNet 뉴스센터 ( 정확도 : 77 %)산 맥주잔과 향기초세트 , 이집트산 향수병 , 우루과이산 돌반지 , 태국산 향초 등 각국의 유명 특산품들이 한자리에 모였다 . 세계풍물기행 벼룩시장전은 시중가보다 평균 30% 정도 할인된 가격에서 입찰이 시작하는 특가경매 형태로 진행된다 . 경매 종료시점까지 가장 높은 가격을 http://www.paxnet.co.kr/news/datacenter/200011/29/20001129100828_06.sht

Page 10: Information Retrieval (Chapter 4:  질의언어 )

Page 10Information Retrieval

Chapter 4: 질의언어

Ask jeeves (www.ask.com)Ask jeeves (www.ask.com) Ask jeeves (www.ask.com)Ask jeeves (www.ask.com)

Page 11: Information Retrieval (Chapter 4:  질의언어 )

Page 11Information Retrieval

Chapter 4: 질의언어

Response with suggested questionsResponse with suggested questionsResponse with suggested questionsResponse with suggested questions

Page 12: Information Retrieval (Chapter 4:  질의언어 )

Page 12Information Retrieval

Chapter 4: 질의언어

Who was the first man on the moon?Who was the first man on the moon?Who was the first man on the moon?Who was the first man on the moon?

Page 13: Information Retrieval (Chapter 4:  질의언어 )

Page 13Information Retrieval

Chapter 4: 질의언어

패턴 정합패턴 정합패턴 정합패턴 정합 패턴 : 텍스트에서 출현되는 구문적 특징들의 집합 패턴의 종류

단어 : "compute" 접두사 :"comput“ : "computer", "computation", ... 접미사 : "ters" : "computers", "testers", "painters" ... 부분문자열 :

"tal" : "coastal", "talk", “metallic" … ; "any flowers" : "many flowers"

범위 : 사전 순서로 두 문자열 사이에 있는 어떤 문자열과도 정합 "held..hold" : "hoax" “hissing”

허용 오류 : 철자 오류도 검색된다 . Levenshtein 거리 ( 편집 거리 ) 이용 :

– 두 문자열을 같게 만들기 위한 문자 삽입 , 삭제 , 치환의 최소 수 "flower" : "flo wer"

정규표현 : "word|phrase", "pro(blem|tein)(s|)(0|1|2)*" 확장된 패턴 : 간단한 문법을 가진 정규표현

내부적으로는 정규표현을 변환한다 .

Page 14: Information Retrieval (Chapter 4:  질의언어 )

Page 14Information Retrieval

Chapter 4: 질의언어

질의응답 시스템질의응답 시스템질의응답 시스템질의응답 시스템 Question Answering

Finding the exact answer to the user’s question in a large text collection

The main difference between IR and QA

IR system :

QA system : User Query(specific)

User Query(general)

collection

-- - - - -- - - - - - -

-- - - - - - - - - - - - - -

Document List

Answers

Page 15: Information Retrieval (Chapter 4:  질의언어 )

Page 15Information Retrieval

Chapter 4: 질의언어

질문에 대한 정답추천

관련 홈페이지 직접 연결

질의응답 시스템질의응답 시스템질의응답 시스템질의응답 시스템

Page 16: Information Retrieval (Chapter 4:  질의언어 )

Page 16Information Retrieval

Chapter 4: 질의언어

질문에 대한 정답추천

관련 홈페이지 직접 연결

질의응답 시스템질의응답 시스템질의응답 시스템질의응답 시스템

Page 17: Information Retrieval (Chapter 4:  질의언어 )

Page 17Information Retrieval

Chapter 4: 질의언어

• 종합봉사실 전화번호는 ?

IR system QA system

Search engine vs. Q/A engine

Page 18: Information Retrieval (Chapter 4:  질의언어 )

Page 18Information Retrieval

Chapter 4: 질의언어

As – Is ( 기존의 검색 시스템 )

• 기능 측면에서의 질의 응답 결과 1. 해당되는 문서를 단순 나열함 . 2. 문서 속에서 정답 검색이 여전히 필요 . 3. 정보 검색 과정에 많은 시간 소요 . 4. 사용자의 문서 활용도가 매우 낮음 .

• 정확도 측면에서의 질의 응답 결과 1. 질문에서 키워드만을 추출 . 2. 키워드에 대한 통계적 검색 결과만 제시 . 3. 정확한 의도 분석이 불가능 .

To – Be ( 질의 응답 시스템 )

• 기능 측면에서의 질의 응답 결과 1. 문서에서 정답을 직접 찾아서 제시 . 2. 정답 검색 과정 시간 단축 . 3. 사용자 문서 활용도 증가 인지도 향상 . 4. 웹 문서뿐 아니라 데이터베이스까지 검색 5. 특정 문서 직접 제시 가능

• 정확도 측면에서의 질의 응답 결과 1. 질문의 어휘 구조 , 질문 의도까지 파악 . 2. 정확한 질의 분석 의미있는 부분만 검색 . 3. 검색 성능 최적화 가능 .

• 질문 : “ 서정연 교수님의 전화번호는 ?” 1. 서정연 + 교수 + 전화 + 번호 문서 내에서 단순히 발현되는 정도 측정 . “ 서정연” , “ 교수” , “ 전화” , “ 번호” , “ 전화번호” 라는 단어가 들어간 불필요한 모든 문서들을 제시

• 질문 : “ 서정연 교수님의 전화번호는 ?” 1. 전화번호에 관한 질문 ( 서정연 교수 ) 우선 전화번호에 관한 질문이라는 것이 파악 되고 , 그 대상이 서정연 교수라는 것을 인식 하여 정답 추출

웹사이트를 위한 지능형 정보 검색 에이전트웹사이트를 위한 지능형 정보 검색 에이전트 ..

사용자 질의 의도를 정확하게 파악하여 정확도를 최대로 높이는 진정한 의미의 사용자 질의 의도를 정확하게 파악하여 정확도를 최대로 높이는 진정한 의미의 Vertical Vertical 검색엔진검색엔진 ..

Search engine vs. Q/A engine

Page 19: Information Retrieval (Chapter 4:  질의언어 )

Page 19Information Retrieval

Chapter 4: 질의언어

START (MIT, AI Lab)START (MIT, AI Lab)START (MIT, AI Lab)START (MIT, AI Lab)

Page 20: Information Retrieval (Chapter 4:  질의언어 )

Page 20Information Retrieval

Chapter 4: 질의언어

What is the population of the Korea?What is the population of the Korea?What is the population of the Korea?What is the population of the Korea?

Page 21: Information Retrieval (Chapter 4:  질의언어 )

Page 21Information Retrieval

Chapter 4: 질의언어

구조 질의구조 질의구조 질의구조 질의 텍스트 구조

양식 형태의 구조 하이퍼텍스트 구조 계층적 구조

Page 22: Information Retrieval (Chapter 4:  질의언어 )

Page 22Information Retrieval

Chapter 4: 질의언어

고정 구조고정 구조고정 구조고정 구조 문서는 양식과 같이 필드의 집합으로 구성된다 . 필드는 텍스트이다 .

중첩 (nested) 되거나 중복 (overlap) 되지 않는다 . 예 ) 메일 : 보내는 사람 , 받는 사람 , 날짜 , 주제 , 본문

질의 : 주제에 “ football” 이 들어 있고 "Cliton" 에게 보낸 메일을 찾아라.

HTML 문서와 같은 계층구조 (hierarchical structure) 로 된 문서의 검색표현으로는 부적합하다 .

데이터베이스의 관계형 모델에 적용할 수 있다 . 필드 : DB 의 필드에 해당한다 . 구조질의언어 (SQL, structured query language) 를 확장하여 전문검색이

가능하게 할 수 있다 .

SFQL (structured full-text query language)

Page 23: Information Retrieval (Chapter 4:  질의언어 )

Page 23Information Retrieval

Chapter 4: 질의언어

하이퍼텍스트하이퍼텍스트하이퍼텍스트하이퍼텍스트 방향성 그래프로 간주된다 .

노드 : 텍스트 링크 : 노드 사이를 연결 혹은 노드 내 어떤 위치 사이에 존재하는

연결 검색

하이퍼텍스트의 항해 원하는 문서를 찾기 위해서 링크를 따라 노드를 따라간다 .

WebGlimpse: 웹에서 브라우징과 검색을 결합하기 위한 시도 웹 네비게이션 + 현재 노드 (text) 와 연결된 노드들 (texts) 의 검색

기능 현재 하이퍼텍스트의 내용과 구조를 병합해서 검색하려는 시도가

이루어지고 있으나 많은 어려움이 있는 작업임 .

Page 24: Information Retrieval (Chapter 4:  질의언어 )

Page 24Information Retrieval

Chapter 4: 질의언어

계층 구조계층 구조계층 구조계층 구조 하이퍼텍스트와 고정 구조가 중간 정도의 형태 장 (chapter), 절 (section) 과 같이 나누어서 표현된 거의 모든 문서들

예 ) 서적 , 논문 , 법률 문서 , 구조화 프로그램 계층적 구조는 하이퍼텍스트보다 간단하기 때문에 질의 처리가 빠르다 .

Chapter 44.1 IntroductionWe cover in this chapterthe different kinds of …….4.4 Structural Query...

chapter

section section

title title title

Introduction We cover …. ….. Structural …

in

with

with

"structural"

figure

title

section

서적의 페이지 Schematic view parsed query to retrieve the figure

Page 25: Information Retrieval (Chapter 4:  질의언어 )

Page 25Information Retrieval

Chapter 4: 질의언어

계층 구조계층 구조 (( 계속계속 ))계층 구조계층 구조 (( 계속계속 ))

계층 모델 PAT 표현 겹침 (overlapped) 리스트 참조 리스트 인접 노드 트리 정합

Page 26: Information Retrieval (Chapter 4:  질의언어 )

Page 26Information Retrieval

Chapter 4: 질의언어

질의 프로트콜질의 프로트콜질의 프로트콜질의 프로트콜 텍스트 DB 를 검색하기 위한 표준 . 종류

Z39.50; 1995년 ANSI 와 NISO 에서 표준으로 인정 클라이언트와 호스트 데이터베이스 관리기 사이의 표준 인터페이스 서버와 클라이언트가 세션을 연결하는 방법 , 초기에는 서지 정보에 위주였으나 , 점차 다른 형태의 정보도 검색할 수 있도록

확장 . WAIS: Wide Area Information Service(광역 정보 서비스 )

1990년대 초반 웹이 유행하기 전에 많이 사용되던 프로토콜 WAIS 의 목표는 네트워크 출판 프로토콜과 인터넷을 통하여 데이터베이스를

검색 CD-ROM 프로트콜

종류 CCL (common command language) CD-RDx (compact disk read only data exchange) SFQL (structured full-text query language)