정보검색 테스트 컬렉션 hantec 구축 사례

25
정정정정 정정정 정정정 HANTEC 정정 정정 2000 정 4 정 1 정 정 정 정 정정정정정 정정정정정정정

Upload: danil

Post on 22-Jan-2016

72 views

Category:

Documents


0 download

DESCRIPTION

정보검색 테스트 컬렉션 HANTEC 구축 사례. 2000 년 4 월 1 일 맹 성 현 충남대학교 정보통신공학부. Outline. HANTEC 구축 배경 HANTEC 이전 현황 ( 국내 , 국외 ) ‘98 년도 구축 결과 ‘ 99 년도 추진 결과 결론. 구축 배경. 목적 1998 년도에 구축된 HANTEC (Hangul TEst Collection) 정보검색 테스트 컬렉션의 품질 향상 및 규모 확장 필요성 정보검색시스템 신뢰도 (effectiveness) 평가의 표준화 - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: 정보검색 테스트 컬렉션  HANTEC  구축 사례

정보검색 테스트 컬렉션 HANTEC 구축 사례

2000 년 4 월 1 일

맹 성 현

충남대학교 정보통신공학부

Page 2: 정보검색 테스트 컬렉션  HANTEC  구축 사례

2

Outline

HANTEC 구축 배경 HANTEC 이전 현황 ( 국내 , 국외 )

‘98 년도 구축 결과 ‘99 년도 추진 결과 결론

Page 3: 정보검색 테스트 컬렉션  HANTEC  구축 사례

3

구축 배경

목적 1998 년도에 구축된 HANTEC (Hangul TEst Collection)

정보검색 테스트 컬렉션의 품질 향상 및 규모 확장필요성

정보검색시스템 신뢰도 (effectiveness) 평가의 표준화 관련 기술 , 운용 시스템 , 검색 서비스의 품질 향상 국제 수준의 컬렉션 개발을 통한 international community

와의 협력

Page 4: 정보검색 테스트 컬렉션  HANTEC  구축 사례

4

HANTEC 이전 현황

KT-SET 1.0 (1994) 1,053 건 문서 ( 학회 논문 초록 ) 30 개의 단순 질의

KT-SET 2.0 (1996) 4,414 건 문서 ( 논문 , 신문기사 포함 ) 50 개의 자연어 및 불리언 질의

KRIST 컬렉션 (1995) 13,315 건 ( 과기처연구보고서 초록 ) 30 개 질의 (topic statements)

ETRI-Kyemong 계몽사 백과사전 23,113 건 , 46 개 질의 , 76 개 범주로 분류

Page 5: 정보검색 테스트 컬렉션  HANTEC  구축 사례

5

외국 사례 (1) - 미국

TREC Test Collection 미국 NIST 주관 + 정보검색분야 전문가 위원회 대규모 컬렉션 구축을 목표로 1991 년부터 매년 컬렉션 규모

및 평가 분야 추가• TREC-7 (1998): 총 1,634,243 건 문서 , 350 질의

매년 시스템 및 알고리즘 평가 결과 발표 평가 대상 종류

• ad-hoc vs. routing algorithms

• English, Japanese, Spanish, (Chinese),German, French, Italian

• Cross-language IR (English, French, German)

• Filtering, High Precision, Interactive, SDR(Spoken Document Retrieval), VLC(Very Large Corpus)

99 년 Web Track 추가

Page 6: 정보검색 테스트 컬렉션  HANTEC  구축 사례

6

외국 사례 (2) - 일본

NACSIS test collection ( 일본 ) 330,000 문서 (65 개 분야 학회논문 요약 ) 100 개 질의 일어 - 영어 병행 코퍼스 대상 평가를 위한 conference 개최 (99.8)

BMIR-J1 & J2 ( 일본 ) 600 건 문서 , 60 개 질의 (J1) 5080 건 문서 , 60 개 질의 (J2) Economics and engineering Query categorization

Page 7: 정보검색 테스트 컬렉션  HANTEC  구축 사례

7

HANTEC (HANgul TEst Collection)-1998 년도 구축 결과 -

문서 : 12 만건 (244MB) 일반 , 사회과학 , 자연과학기술 각각 40,000 건 문서 크기 (51byte - 360Kbyte/doc)

질의 : 30 건 TREC-6 형식

적합성 판정 5 점 척도 1 건 당 2 인 판정

Page 8: 정보검색 테스트 컬렉션  HANTEC  구축 사례

8

적합성 판정을 위한 pooling

질의질의

검색기 1검색기 1 검색기 2검색기 2 검색기 n검색기 n…

상위 200건검색결과

상위 200건검색결과

상위 200건검색결과

상위 200건검색결과

상위 200건검색결과

상위 200건검색결과

적합문서 후보 500건 생성적합문서 후보 500건 생성 문서당 적합성판정

문서당 적합성판정

Page 9: 정보검색 테스트 컬렉션  HANTEC  구축 사례

9

HANTEC 질의 예

<num> 01

<title> 월드컵 축구 유치<desc> 한국의 2002 년 월드컵 축구 유치 활동 내용<narr> 한국의 2002 년 월드컵 축구 유치를 위한 국내외

적인 활동이나 한국개최에 대한 회원국들의 반응 을 포함한 정보는 ?

<quer> 2002 년 월드컵 축구 피파 FIFA 회원국 한국 개최 주최 유치 전략 홍보 활동

Page 10: 정보검색 테스트 컬렉션  HANTEC  구축 사례

10

HANTEC 의 특징 (1)

문서의 다양성

분야별 문서집합일반 사회 과학 과학 기술

한국 일보 : 22,000

웹 (gov): 9,000

웹 (com): 9,000

한국 경제 신문 : 39,480

여성 개발원 논문 : 110

경북 도의회 회의록 : 410

과기처지원연구보고서 : 10,000

해외 과학기술 동향 : 18,000

학술논문 서지사항 : 12,000

Page 11: 정보검색 테스트 컬렉션  HANTEC  구축 사례

11

HANTEC 의 특징 (2)

질의 종류의 다양성

적합성 판정

일반인

영역 전문가중고등학생

일반종합 과학 기술 사회 과학

4

3

3

4

3

3

4

3

3

Page 12: 정보검색 테스트 컬렉션  HANTEC  구축 사례

12

“HANTEC-98” 분석 (1)

Pool depth 에 따른 평균 적합문서 분포도

0

2

4

6

8

10

12

5 10 15 20 25 30 35 40 45 50

Pool Depth

적합

문서

2,3,4,5: relevant

Page 13: 정보검색 테스트 컬렉션  HANTEC  구축 사례

13

“HANTEC-98” 분석 (2)

내용별 적합 문서의 분포도

0

1

2

3

4

5

6

5 10 15 20 25 30 35 40 45 50

Pool Depth

합문

서수

일반사회과학

과학기술

Page 14: 정보검색 테스트 컬렉션  HANTEC  구축 사례

14

“HANTEC-98” 분석 (3)

사용자별 적합 문서의 분포도

01234567

5 10 15 20 25 30 35 40 45 50

Pool Depth

합문

서수

일반인청소 년전문가

Page 15: 정보검색 테스트 컬렉션  HANTEC  구축 사례

15

1999 년도 구축 목표

HANTEC 98 품질 향상 수정된 검색기로 새로운 검색 결과 생성 추가 문서의 적합성 판정 실시

• 추가 문서 5571 건 => 추가 적합 문서 182 건

HANTEC 의 확장 질의 20 건 추가 각 질의에 대한 기존 문서 (12 만건 ) 적합성 판정

일한 교차 언어 검색용 컬렉션으로 확장 한일 교차언어 검색용 컬렉션 구축 지원

Page 16: 정보검색 테스트 컬렉션  HANTEC  구축 사례

16

HANTEC 2.0 (1)

목표 : 자연과학기술 분야 질의를 총 30 개로 확장일본 NACSIS 의 질의 사용 (science & engineering

분야 )총 83 개를 한글로 번역HANTEC 컬렉션과 관련 있는 질의 79 개 선정질의 20 개 선정을 위한 작업

선정된 질의를 사용하여 일차 검색 검색 결과에 대한 일차 적합성 판정 적합성 문서 분포에 따른 최종 질의 선정

Page 17: 정보검색 테스트 컬렉션  HANTEC  구축 사례

17

HANTEC 2.0 (2)- 후보 문서 생성 -

Pooling 방법 총 41 개 run 들로부터 상위 50 개 문서 사용 중복 문서 제거

사용된 후보 문서 생성 시스템 충남대 검색기 (20 runs)

• 색인 방법 , 질의 구성 방법 , relevance feedback (RF) 사용 여부 KRISTAL II (2 runs)

• P-norm 사용 , P-norm 사용 + 거리밀도 사용 숭실대 검색기 (18 runs)

• Bigram 혹은 형태소 단위 색인 , 가중치 부여 방법 , RF 사용 여부 다센 21 (1 run)

Page 18: 정보검색 테스트 컬렉션  HANTEC  구축 사례

18

HANTEC 2.0 (3)- 적합성 판정 -

대상 : 각 질의 당 생성된 최종 후보문서 집합8 명의 평가자를 2 인 1 조로 구성

각 질의 당 각 문서의 적합성을 2 인이 판정평가자 들간의 관점 차이 최소화

가평가 과정을 거쳐 적합성 판정 과정을 숙지 각 질의의 내용에 대한 사전 토의 -> 독립된 평가 평가자 간 3 점 이상의 차이는 상호협의를 통해 조정

5 점 척도 섬세한 평가 -> 평가자간의 양극화 현상 방지 시간이 많이 걸리는 단점

Page 19: 정보검색 테스트 컬렉션  HANTEC  구축 사례

19

HANTEC 2.0 (4)- 질의 별 적합문서 개수 -

적합기준질의번호

G2 G3 G4 G5 L2 L3 L4 L5질의당문서수

1 90 38 13 2 52 22 7 0 6092 112 31 2 1 62 8 2 0 6583 16 4 1 0 4 1 0 0 7414 78 21 6 1 31 10 3 0 4475 124 35 6 1 58 19 4 0 6116 47 14 2 0 17 5 1 0 5507 48 12 1 0 17 5 0 0 5948 82 38 11 3 56 20 6 1 4609 108 70 13 2 82 46 6 0 46310 107 23 7 0 38 10 5 0 62111 51 20 11 2 22 12 2 0 62612 81 13 2 0 21 4 1 0 63013 87 29 6 1 34 15 4 0 64714 75 32 10 2 43 21 4 0 57215 72 47 29 20 50 34 20 1 49816 83 10 1 0 17 2 0 0 72317 124 44 16 4 49 26 6 1 38718 34 3 2 0 6 2 0 0 73319 14 1 0 0 3 0 0 0 57920 101 32 10 3 47 20 8 1 356

평균(%) 13.3 4.49 1.3 0.37 6.16 2.45 1.69 0.04

Page 20: 정보검색 테스트 컬렉션  HANTEC  구축 사례

20

HANTEC 2.0 (5)- 유효성 평가 -

문제점 : 후보 문서만을 대상으로 적합성 평가 나머지 문서 중 적합한 문서가 존재할 가능성 재현율이 고평가 될 수 있는 가능성 새로운 시스템 평가가 불공정할 수 있음

평가 방안 1. 각 질의 별 pool depth 를 가변적으로 증가 시키면서

새로운 적합문서의 출현 상황 관찰 2. 새로운 시스템으로부터 추가되는 적합 문서 개수 관찰

1 번 방법 사용 Pool 깊이를 50 까지 증가 시켜 가면서 추이 관찰

Page 21: 정보검색 테스트 컬렉션  HANTEC  구축 사례

21

HANTEC 2.0 (6)- Pool Depth 에 따른 적합문서의 변화 추이도 -

G2

05

1015

2025

5 10 15 20 25 30 35 40 45 50

Pool depth

New

rele

vant

docu

men

ts

Page 22: 정보검색 테스트 컬렉션  HANTEC  구축 사례

22

HANTEC 2.0 (7)- Pool Depth 에 따른 적합문서의 변화 추이도 -

L2

05

1015

2025

5 10 15 20 25 30 35 40 45 50

Pool depth

New

rele

vant

docu

men

ts

Page 23: 정보검색 테스트 컬렉션  HANTEC  구축 사례

23

HANTEC 2.0 (8)- Pool depth 증가에 따른 추가 적합문서 수의 예측 -

적합기준에 따른 적합문서 수Pool depth

G2 L2

1-50 ( Actual) 1534 709

51-55(predicated) 77 25

56-60(predicated) 74 23

61-65(predicated) 71 21

66-70(predicated) 68 20

71-75(predicated) 65 19

76-80(predicated) 63 18

81-85(predicated) 31 17

86-90(predicated) 59 16

91-95(predicated) 57 16

96-100(predicated) 55 15

51-100(predicated) 651 191

Page 24: 정보검색 테스트 컬렉션  HANTEC  구축 사례

24

HANTEC 2.0 (9)- Pool depth 증가에 따른 추가 적합문서 수의 예측 -

50 이후 줄어들지 않는 질의 제외 (G2:10, L2:3)

적합기준에 따른 적합문서 수Pool depth

G2 L2

1-50 ( Actual) 528 489

51-55(predicated) 14 14

56-60(predicated) 13 13

61-65(predicated) 12 12

66-70(predicated) 11 11

71-75(predicated) 10 10

76-80(predicated) 10 9

81-85(predicated) 9 9

86-90(predicated) 8 8

91-95(predicated) 8 8

96-100(predicated) 7 7

51-100(predicated) 105 101

Page 25: 정보검색 테스트 컬렉션  HANTEC  구축 사례

25

결론

보다 객관적인 test collection 을 위한 노력TREC 과 같은 검색 시스템 및 알고리즘 평가회 필요

일본 , 중국과의 협력 고려규모의 확장Test collection 종류의 확장

교차언어 검색 , interactive IR, etc. Filtering, Summarization, Categorization, etc.

지속적인 지원 및 관심 필요 국가 기관 및 전문가의 협조 평가 체제 및 분위기 확산