정보검색 테스트 컬렉션 hantec 구축 사례
DESCRIPTION
정보검색 테스트 컬렉션 HANTEC 구축 사례. 2000 년 4 월 1 일 맹 성 현 충남대학교 정보통신공학부. Outline. HANTEC 구축 배경 HANTEC 이전 현황 ( 국내 , 국외 ) ‘98 년도 구축 결과 ‘ 99 년도 추진 결과 결론. 구축 배경. 목적 1998 년도에 구축된 HANTEC (Hangul TEst Collection) 정보검색 테스트 컬렉션의 품질 향상 및 규모 확장 필요성 정보검색시스템 신뢰도 (effectiveness) 평가의 표준화 - PowerPoint PPT PresentationTRANSCRIPT
정보검색 테스트 컬렉션 HANTEC 구축 사례
2000 년 4 월 1 일
맹 성 현
충남대학교 정보통신공학부
2
Outline
HANTEC 구축 배경 HANTEC 이전 현황 ( 국내 , 국외 )
‘98 년도 구축 결과 ‘99 년도 추진 결과 결론
3
구축 배경
목적 1998 년도에 구축된 HANTEC (Hangul TEst Collection)
정보검색 테스트 컬렉션의 품질 향상 및 규모 확장필요성
정보검색시스템 신뢰도 (effectiveness) 평가의 표준화 관련 기술 , 운용 시스템 , 검색 서비스의 품질 향상 국제 수준의 컬렉션 개발을 통한 international community
와의 협력
4
HANTEC 이전 현황
KT-SET 1.0 (1994) 1,053 건 문서 ( 학회 논문 초록 ) 30 개의 단순 질의
KT-SET 2.0 (1996) 4,414 건 문서 ( 논문 , 신문기사 포함 ) 50 개의 자연어 및 불리언 질의
KRIST 컬렉션 (1995) 13,315 건 ( 과기처연구보고서 초록 ) 30 개 질의 (topic statements)
ETRI-Kyemong 계몽사 백과사전 23,113 건 , 46 개 질의 , 76 개 범주로 분류
5
외국 사례 (1) - 미국
TREC Test Collection 미국 NIST 주관 + 정보검색분야 전문가 위원회 대규모 컬렉션 구축을 목표로 1991 년부터 매년 컬렉션 규모
및 평가 분야 추가• TREC-7 (1998): 총 1,634,243 건 문서 , 350 질의
매년 시스템 및 알고리즘 평가 결과 발표 평가 대상 종류
• ad-hoc vs. routing algorithms
• English, Japanese, Spanish, (Chinese),German, French, Italian
• Cross-language IR (English, French, German)
• Filtering, High Precision, Interactive, SDR(Spoken Document Retrieval), VLC(Very Large Corpus)
99 년 Web Track 추가
6
외국 사례 (2) - 일본
NACSIS test collection ( 일본 ) 330,000 문서 (65 개 분야 학회논문 요약 ) 100 개 질의 일어 - 영어 병행 코퍼스 대상 평가를 위한 conference 개최 (99.8)
BMIR-J1 & J2 ( 일본 ) 600 건 문서 , 60 개 질의 (J1) 5080 건 문서 , 60 개 질의 (J2) Economics and engineering Query categorization
7
HANTEC (HANgul TEst Collection)-1998 년도 구축 결과 -
문서 : 12 만건 (244MB) 일반 , 사회과학 , 자연과학기술 각각 40,000 건 문서 크기 (51byte - 360Kbyte/doc)
질의 : 30 건 TREC-6 형식
적합성 판정 5 점 척도 1 건 당 2 인 판정
8
적합성 판정을 위한 pooling
질의질의
검색기 1검색기 1 검색기 2검색기 2 검색기 n검색기 n…
상위 200건검색결과
상위 200건검색결과
상위 200건검색결과
상위 200건검색결과
상위 200건검색결과
상위 200건검색결과
적합문서 후보 500건 생성적합문서 후보 500건 생성 문서당 적합성판정
문서당 적합성판정
…
9
HANTEC 질의 예
<num> 01
<title> 월드컵 축구 유치<desc> 한국의 2002 년 월드컵 축구 유치 활동 내용<narr> 한국의 2002 년 월드컵 축구 유치를 위한 국내외
적인 활동이나 한국개최에 대한 회원국들의 반응 을 포함한 정보는 ?
<quer> 2002 년 월드컵 축구 피파 FIFA 회원국 한국 개최 주최 유치 전략 홍보 활동
10
HANTEC 의 특징 (1)
문서의 다양성
분야별 문서집합일반 사회 과학 과학 기술
한국 일보 : 22,000
웹 (gov): 9,000
웹 (com): 9,000
한국 경제 신문 : 39,480
여성 개발원 논문 : 110
경북 도의회 회의록 : 410
과기처지원연구보고서 : 10,000
해외 과학기술 동향 : 18,000
학술논문 서지사항 : 12,000
11
HANTEC 의 특징 (2)
질의 종류의 다양성
적합성 판정
일반인
영역 전문가중고등학생
일반종합 과학 기술 사회 과학
4
3
3
4
3
3
4
3
3
12
“HANTEC-98” 분석 (1)
Pool depth 에 따른 평균 적합문서 분포도
0
2
4
6
8
10
12
5 10 15 20 25 30 35 40 45 50
Pool Depth
적합
문서
수
2,3,4,5: relevant
13
“HANTEC-98” 분석 (2)
내용별 적합 문서의 분포도
0
1
2
3
4
5
6
5 10 15 20 25 30 35 40 45 50
Pool Depth
적
합문
서수
일반사회과학
과학기술
14
“HANTEC-98” 분석 (3)
사용자별 적합 문서의 분포도
01234567
5 10 15 20 25 30 35 40 45 50
Pool Depth
적
합문
서수
일반인청소 년전문가
년
15
1999 년도 구축 목표
HANTEC 98 품질 향상 수정된 검색기로 새로운 검색 결과 생성 추가 문서의 적합성 판정 실시
• 추가 문서 5571 건 => 추가 적합 문서 182 건
HANTEC 의 확장 질의 20 건 추가 각 질의에 대한 기존 문서 (12 만건 ) 적합성 판정
일한 교차 언어 검색용 컬렉션으로 확장 한일 교차언어 검색용 컬렉션 구축 지원
16
HANTEC 2.0 (1)
목표 : 자연과학기술 분야 질의를 총 30 개로 확장일본 NACSIS 의 질의 사용 (science & engineering
분야 )총 83 개를 한글로 번역HANTEC 컬렉션과 관련 있는 질의 79 개 선정질의 20 개 선정을 위한 작업
선정된 질의를 사용하여 일차 검색 검색 결과에 대한 일차 적합성 판정 적합성 문서 분포에 따른 최종 질의 선정
17
HANTEC 2.0 (2)- 후보 문서 생성 -
Pooling 방법 총 41 개 run 들로부터 상위 50 개 문서 사용 중복 문서 제거
사용된 후보 문서 생성 시스템 충남대 검색기 (20 runs)
• 색인 방법 , 질의 구성 방법 , relevance feedback (RF) 사용 여부 KRISTAL II (2 runs)
• P-norm 사용 , P-norm 사용 + 거리밀도 사용 숭실대 검색기 (18 runs)
• Bigram 혹은 형태소 단위 색인 , 가중치 부여 방법 , RF 사용 여부 다센 21 (1 run)
18
HANTEC 2.0 (3)- 적합성 판정 -
대상 : 각 질의 당 생성된 최종 후보문서 집합8 명의 평가자를 2 인 1 조로 구성
각 질의 당 각 문서의 적합성을 2 인이 판정평가자 들간의 관점 차이 최소화
가평가 과정을 거쳐 적합성 판정 과정을 숙지 각 질의의 내용에 대한 사전 토의 -> 독립된 평가 평가자 간 3 점 이상의 차이는 상호협의를 통해 조정
5 점 척도 섬세한 평가 -> 평가자간의 양극화 현상 방지 시간이 많이 걸리는 단점
19
HANTEC 2.0 (4)- 질의 별 적합문서 개수 -
적합기준질의번호
G2 G3 G4 G5 L2 L3 L4 L5질의당문서수
1 90 38 13 2 52 22 7 0 6092 112 31 2 1 62 8 2 0 6583 16 4 1 0 4 1 0 0 7414 78 21 6 1 31 10 3 0 4475 124 35 6 1 58 19 4 0 6116 47 14 2 0 17 5 1 0 5507 48 12 1 0 17 5 0 0 5948 82 38 11 3 56 20 6 1 4609 108 70 13 2 82 46 6 0 46310 107 23 7 0 38 10 5 0 62111 51 20 11 2 22 12 2 0 62612 81 13 2 0 21 4 1 0 63013 87 29 6 1 34 15 4 0 64714 75 32 10 2 43 21 4 0 57215 72 47 29 20 50 34 20 1 49816 83 10 1 0 17 2 0 0 72317 124 44 16 4 49 26 6 1 38718 34 3 2 0 6 2 0 0 73319 14 1 0 0 3 0 0 0 57920 101 32 10 3 47 20 8 1 356
평균(%) 13.3 4.49 1.3 0.37 6.16 2.45 1.69 0.04
20
HANTEC 2.0 (5)- 유효성 평가 -
문제점 : 후보 문서만을 대상으로 적합성 평가 나머지 문서 중 적합한 문서가 존재할 가능성 재현율이 고평가 될 수 있는 가능성 새로운 시스템 평가가 불공정할 수 있음
평가 방안 1. 각 질의 별 pool depth 를 가변적으로 증가 시키면서
새로운 적합문서의 출현 상황 관찰 2. 새로운 시스템으로부터 추가되는 적합 문서 개수 관찰
1 번 방법 사용 Pool 깊이를 50 까지 증가 시켜 가면서 추이 관찰
21
HANTEC 2.0 (6)- Pool Depth 에 따른 적합문서의 변화 추이도 -
G2
05
1015
2025
5 10 15 20 25 30 35 40 45 50
Pool depth
New
rele
vant
docu
men
ts
22
HANTEC 2.0 (7)- Pool Depth 에 따른 적합문서의 변화 추이도 -
L2
05
1015
2025
5 10 15 20 25 30 35 40 45 50
Pool depth
New
rele
vant
docu
men
ts
23
HANTEC 2.0 (8)- Pool depth 증가에 따른 추가 적합문서 수의 예측 -
적합기준에 따른 적합문서 수Pool depth
G2 L2
1-50 ( Actual) 1534 709
51-55(predicated) 77 25
56-60(predicated) 74 23
61-65(predicated) 71 21
66-70(predicated) 68 20
71-75(predicated) 65 19
76-80(predicated) 63 18
81-85(predicated) 31 17
86-90(predicated) 59 16
91-95(predicated) 57 16
96-100(predicated) 55 15
51-100(predicated) 651 191
24
HANTEC 2.0 (9)- Pool depth 증가에 따른 추가 적합문서 수의 예측 -
50 이후 줄어들지 않는 질의 제외 (G2:10, L2:3)
적합기준에 따른 적합문서 수Pool depth
G2 L2
1-50 ( Actual) 528 489
51-55(predicated) 14 14
56-60(predicated) 13 13
61-65(predicated) 12 12
66-70(predicated) 11 11
71-75(predicated) 10 10
76-80(predicated) 10 9
81-85(predicated) 9 9
86-90(predicated) 8 8
91-95(predicated) 8 8
96-100(predicated) 7 7
51-100(predicated) 105 101
25
결론
보다 객관적인 test collection 을 위한 노력TREC 과 같은 검색 시스템 및 알고리즘 평가회 필요
일본 , 중국과의 협력 고려규모의 확장Test collection 종류의 확장
교차언어 검색 , interactive IR, etc. Filtering, Summarization, Categorization, etc.
지속적인 지원 및 관심 필요 국가 기관 및 전문가의 협조 평가 체제 및 분위기 확산