제 10 장 벡터 공간 모델

1

ARTCOMARTCOM

제 10 장 벡터 공간 모델

- 정 보 검 색 론 -

2

10-1 유사도 계산

10-2 색인어 가중치 산출

10-3 색인어 가중치 산출 기법 분석

순서

3

10 벡터 공간 모델

• 벡터 공간 모델• 문서와 질의를 가중치가 부여된 색인어들의 벡터로 표현

Wdi : 문서 D 에서 i 번째 색인어 ti 의 가중치

Wqi : 질의 Q 에서 i 번째 색인어 ti 의 가중치

Q

Dt 2

t 1 t3

θ

4

10-1 유사도 계산

• 유사도 계산• 문서 D 와 질의 Q 의 유사도

ex) d1 : { ( 정보 , 0.3), ( 검색 , 0.5), ( 시스템 , 0.2) } d2 : { ( 정보 , 0.3), ( 전송 , 0.7) } q1 : { ( 정보 , 0.3), ( 검색 , 0.7) }

Sim (d1, q1) = 0.3*0.3 + 0.5*0.7 = 0.44 Sim (d2, q1) = 0.3*0.3 = 0.09

• 질의과 문서 사이의 유사도 값에 따라 내림차순으로 문서정렬 → 가중치 값에 의해 결정 : 가중치 산출 기법은 검색효과에 영향

5


• 색인어 산출 구성 요소1. 출현 빈도 (term frequency) - 문서 내 자주 출현하는 색인어에 높은 가중치 부여

2. 장서 빈도 (collection frequency) - 전체 문서들 중 적은 문서에 출현하는 색인어에 높은 가중치 부여

3. 정규화 요소 (normalization) - 모든 문서 벡터 길이 일치 - 작은 크기의 문서들이 유사도 계산에 있어 공정하게 취급

6


• 색인어 산출 구성 요소

7


• lnc · ltc 기법• lnc : 문서 색인어 가중치 산출에 적용 - 색인어 출현 빈도의 로그 값을 코사인 정규화

• ltc : 질의 색인어 가중치 산출에 적용 - 색인어 빈도와 역 문헌 빈도를 곱한 값을 코사인 정규화

8


• 문서 형태 분류• 출현 빈도 벡터 길이 (tf-vector length) : 출현 빈도의 합

- tfi : 색인어의 출현 빈도

- n : 벡터를 구성하는 색인어의 수 ex) d3 = { (t1, 1), (t2, 2), (t3, 3), (t4, 4) } 문서 d3 의 출현 빈도 벡터 길이 : 1+2+3+4 = 10

• 출현 빈도 벡터에 따른 문서 분류 - 짧은 출현 빈도 벡터 길이 (short tf-vector length) - 중간 출현 빈도 벡터 길이 (median tv-vector length) - 긴 출현 빈도 벡터 길이 (long tv-vector length)• 다루는 주제의 수에 따른 문서 분류 - 단일 주제 (single topic) - 다중 주제 (multiple topic)

9


• 색인어 가중치 산출 기법의 특성• 출현 빈도 벡터 길이 정규화 기법 d4 = { (t1,1), (t2,1), (t3,1), (t4,1), … , (tn, 1) } d5 = { (t1,2), (t2,2), (t3,2), (t4,2), … , (tn, 2) }

- 출현 빈도 벡터길이 미포함 가중치 기법 : lnn(ln tf+1.0) d4.lnn = { (t1,1), (t2,1), (t3,1), (t4,1), … , (tn, 1) } d5.lnn = { (t1,1.69), (t2,1.69), (t3,1.69), (t4,1.69), … , (tn, 1.69) } → 같은 색인어를 포함한 질의에 대한 유사도 계산 결과는 d5 가 d4 에 비해 1.69 배의 유사도를 갖는다 → 출현 빈도 벡터 길이를 고려할 때 문서에서의 유사한 중요도를 갖고 있지만 ( 거의 동일 문서 ) d5 문서가 상위 문서로 결정 될 수 있다

10


• 출현 빈도 벡터 길이 정규화 기법• 일반적으로 모든 문서를 동등하게 취급되어야 함 - 출현 빈도 벡터길이 정규화 ( 코사인 정규화 ) :

d4.lnc

d5.lnc

• 장점 - 코사인 정규화 요소를 포함하지 않은 기법보다 높은 검색 효과 제공• 단점 - 다중 주제를 다루는 문서의 검색에 대한 효과 저하

11


• 여러가지 주제를 다루는 문서• 문서 d4 는 단일 주제 , d5 는 d4 의 주제를 포함한 여러가지 다중 주제

• lnc( 코사인 정규화 ) 기법 적용

• 유사도 계산 ( q2 = { (t1,w1), …, (tm,wm), (tm+1,0), …, (tn,0) } )

→ n>m 이므로 d4 에 높은 순위를 부여 같은 양의 정보를 포함한 문서이므로 올바르지 않은 결과

12


• 최대 출현 빈도 정규화• 특정 경우 적용

• ann(0.5 + 0.5*tf/maxtf) 기법 적용

→ 동일한 벡터로 표현• 다음 경우 적용 불가

- ann 적용 - 색인어 가중치 산출 기법 (lnc) 적용

→ 색인어 t1 만이 다른 거의 동일한 문서지만 d8 이 높은 순위를 받음

13


• 색인어 가중치 산출 기법 분류1. 코사인 정규화를 수행하는 가중치 기법2. 최대 정규화를 수행하고 코사인 정규화를 실행하지 않는 기법3. 코사인 정규화와 최대 정규화를 모두 수행하지 않는 기법 - 색인어 가중치 산출 기법에 따라 다른 형태의 문서 검색

제 10 장 벡터 공간 모델

Documents