signal-to-noise ratio

26
1 Signal-to-Noise Ratio Information theory 에 에에 1948, Claude Shannon information (Shannon 에 에에 ) unexpectedness of a message ( 에에에에 에에 ) information content of a choice H(p1,p2,…,pn) n 에에 message(event), message i 에 에에에에 pi p1+p2+…+pn=1(pi:nonnegative) goal to measure the information content of the choi ce of a message from this set of messag es

Upload: cadee

Post on 04-Feb-2016

62 views

Category:

Documents


0 download

DESCRIPTION

Signal-to-Noise Ratio. Information theory 에 기반 1948, Claude Shannon information (Shannon 의 정의 ) unexpectedness of a message ( 의미와는 무관 ) information content of a choice H (p 1 ,p 2 ,…,p n ) n 개의 message(event), message i 의 발생확률 p i p 1 +p 2 +…+p n =1(p i :nonnegative) goal - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Signal-to-Noise Ratio

1

Signal-to-Noise Ratio

Information theory 에 기반 1948, Claude Shannon

information (Shannon 의 정의 ) unexpectedness of a message ( 의미와는 무관 )

information content of a choice H(p1,p2,…,pn)

n 개의 message(event), message i 의 발생확률 pi

p1+p2+…+pn=1(pi:nonnegative)

goal to measure the information content of the choice of a

message from this set of messages

Page 2: Signal-to-Noise Ratio

2

Signal-to-Noise Ratio

H 를 정의하기 위한 3 가지 가정 H is a continuous function of the pi

확률이 조금 변하면 H 도 조금 변한다

각 확률 pi 가 같다면 (pi = 1/n), H 는 n 의 단조 증가 함수이다

후보 메시지의 수가 많으면 H 가 크다 하나의 선택을 2 개의 연속적인 선택으로 분할할

수 있으면 , 분할 후의 H 의 합은 원래의 H 와 같아야 한다

Page 3: Signal-to-Noise Ratio

3

Signal-to-Noise Ratio 세번째 가정을 설명하는 예

p1=1/2, p2=1/3, p3=1/6 3 가지 메시지 중 1 개를 직접 선택하는 경우

H(1/2, 1/3, 1/6)

첫번째와 나머지 중 하나를 먼저 선택하는 경우 H(1/2, 1/3 , 1/6 ) = H(1/2, 1/2) + 1/2 H(2/3, 1/3)

두번째와 나머지 중 하나를 먼저 선택하는 경우 H(1/2, 1/3 , 1/6 ) = H(2/3, 1/3) + 2/3 H(3/4, 1/4)

Page 4: Signal-to-Noise Ratio

4

Signal-to-Noise Ratio H 의 3 가지 가정을 모두 만족하는유일한

함수는 물리학의 entropy 함수이다 H = -K pilog2pi

K=1 일 때 , H = pilog2(1/pi) average information content

Page 5: Signal-to-Noise Ratio

5

[ 정리 ] 2 가지 information content

1. 사건 (event) 의 information content 사건 발생의 unexpectedness log2(1/pi)

2. 사건 선택 (choice) 의 information content 각 후보 사건의 확률합 = 1 각 후보 사건의 information content 들의

평균적인 information content H = pilog2(1/pi)

각 사건의 확률이 비슷할수록 높은 값 선택의 information content 가 낮더라도 , 확률이

낮은 (information content 가 큰 ) 사건의 발생은 높은 unexpectedness

Page 6: Signal-to-Noise Ratio

6

Signal-to-Noise Ratio(continued)

Signal-to-noise ratio: sk

정보 이론의 관점에서 index term 의 가치를 측정

weight wik=fiksk

noise of term k

nk= (fik/tk)log2(tk/fik)= log2[(tk/fik)(fik/tk)] t : the total frequency in the collection f : the frequency of the document

signal of term k

sk=log2tk - nk (>0, why?)

Page 7: Signal-to-Noise Ratio

7

Term Discrimination Value

How well a term distinguish one document from another need to measure the similarity of two documents

같은 key term 을 가지고 있는가 ? Document similarity :

(D1,D2) : 매우 비슷하면 1, 전혀 다르면 0

Average similarity of a document collection 1/(N(N-1)) (D1,D2) (O(N2) 의 복잡도 ) a simpler computation

centroid document, D* (O(N) 의 복잡도 )

f*k= fik/N = tk/N, * = c(D*, Di)

Page 8: Signal-to-Noise Ratio

8

Term Discrimination Value

discrimination value of term k k= *k- *

*k : deleted average similarity for term k * : average similarity containing term k

k>0 : term k increases the dissimilarity k<0 : term k decreases the dissimilarity 좋은 식별자일수록 더 큰 양의 k 값을 가진다

weight wik=fikk

Page 9: Signal-to-Noise Ratio

9

Other methods of analysis

document 는 단순한 통계 정보 이상의 것을 담고 있다 e.g. natural language processing

Pragmatic factors trigger phrases

특정 유형의 정보가 있음을 알림 figure, table, for example, conclusion, ...

source of document 유명한 저자 , 저명 학술지 , ...

사용자에 대한 정보 high school student or Ph.D.?, well versed or not?

Page 10: Signal-to-Noise Ratio

10

Document Similarity

Similarity key concept behind information storage and retriev

al.

목적 query 에 의해 표현된 정보와 유사한 내용을 가지고

있는 document 를 검색하는 것 .

Lexically based measures are dominant. 문서 길이 등에 의한 편차를 줄이기 위해

정규화된 (normalized) similarity measure 를 사용

Page 11: Signal-to-Noise Ratio

11

Lexically based measure

Basic representation vector form

D = <t1, t2, …, tN> ti : ith term in the vocabulary

t1, t2, …, tN term frequencies,

or indicator of term occurrence

Page 12: Signal-to-Noise Ratio

12

Occurrence-oriented(0-1 vector) Basic comparison unit

(D1, D2) = w - (n1n2/N) 0 보다 클수도 있고 작을수도 있다 ( 클수록 비

슷 ) 0 인 경우 : independence value of w (w = n1n2/N)

n1 = w+x n2 = w+y N = w+x+y+z w = the number of terms for which t1i = t2i = 1 x = the number of terms for which t1i = 1, t2i = 0 y = the number of terms for which t1i = 0, t2i = 1 z = the number of terms for which t1i = 0, t2i = 0

Page 13: Signal-to-Noise Ratio

13

Occurrence-oriented(0-1 vector)

Page 14: Signal-to-Noise Ratio

14

Coefficient of association 상관 계수 C(D1,D2) = (D1, D2) / 만 단독으로 사용하면 너무 큰 값이 될 수

있으므로 계수 로 나눈 값을 최종 상관 ( 유사 ) 계수로 사용

N=10,000, w=1000, n1=1000, n2=1000 이면 , 는 900

Separation Coefficient 두 문서가 분리된 정도 ( 유사도의 반대 개념 ) (>0, <1)

유사도 = 평균적 분리도 – 두 문서 간 분리도 (S)=N/2

Occurrence-oriented(0-1 vector)

Page 15: Signal-to-Noise Ratio

15

Occurrence-oriented(0-1 vector)

Page 16: Signal-to-Noise Ratio

16

Other coefficients

Occurrence-oriented(0-1 vector)

Page 17: Signal-to-Noise Ratio

17

를 사용하지 않는 coefficient( 상관계수 ) Dice’s Coefficient

independant value 를 사용하지 않음 w 항만을 사용 ( 산술 평균으로 나눈값 )

Cosine Coefficient

Occurrence-oriented(0-1 vector)

Page 18: Signal-to-Noise Ratio

18

frequency-oriented

빈도수 기반 유사도 based on metric or distance measure

3 가지 가정 nonnegative, 동일 문서간 거리 =0 symmetric triangle inequality: d(A, B)+d(B, C) > d(A, C)

similarity 는 distance 에 반비례 pseudo-metric

실제로는 다른 문서간 거리가 0 이 되는 것을 허용 list of key terms 를 사용하는 경우 : full text 검색에

적합

Page 19: Signal-to-Noise Ratio

19

frequency-oriented

유사도 (similarity) 는 distance 의 반비례 함수 ex) if d is distance, e-d can be the similarity function

Lp metrics

일반적으로 p 는 , 1:city block(or Manhatan) distance

2:Euclidean distance

:maximal direction distance

Page 20: Signal-to-Noise Ratio

20

frequency-oriented

예제 : D1=<2, 0, 3, 5>, D2=<0, 4, 0, 1>,

D3=<3, 1, 1, 2>, D4=<2, 4, 1, 0>

D1 으로부터 D2, D4 까지의 상대 거리는 측정값의 종류에 따라 달라짐

Page 21: Signal-to-Noise Ratio

21

7. Problems of using a uncontrolled vocabulary

The impact of very common terms stop list

variants of a given term stemming

the use of different terms with similar meanings thesaurus

Page 22: Signal-to-Noise Ratio

22

Stop list (Negative dictionary)

most common words(the,of,and,…) in English account for 50% or more of any given text.

maintaining stop list can increase performance But, the use of stop words should be carefully

considered. ex) “To be, or not to be”

Adding subject dependent stop list to general one can solve this problem more or less.

Page 23: Signal-to-Noise Ratio

23

Stemming

a given word may occur in many different forms.

for example, computer, computers, computing, compute, comput

es, computation, computational, computationally

stemming algorithm can increase performance 주로 접미사 (suffix) 를 반복적으로 제거

맨끝으로부터 가장 긴 접미사를 찾는 것이 목적

Page 24: Signal-to-Noise Ratio

24

Stemming 접두사 (prefix) 를 활용하지 않는 이유

접두사인지 단어의 일부인지를 구별하기 힘들다 inner, interior, into

접두사의 제거가 단어의 뜻을 크게 변화시킬 수도 있다 negative prefixes (unfortunate vs. fortunate)

problems Result of stemming can make the meaning of words change.

ex) breed = bre + ed

Stem changes in plural of noun in English. ex) knives = knive + s

full text 의 stemming 에는 매우 큰 비용 대안 : query 에 대해서만 stemming 하고 * 를 사용한다

computers -> comput*

Page 25: Signal-to-Noise Ratio

25

Thesaurus

different terms can assume similar meanings. ex) post a letter = mail a letter

Thesaurus contains synonyms and antonyms broader and narrower terms closely related terms

during stroage process, control the vocabulary replace each term variant with a standard term chos

en on the basis of the thesaurus

Page 26: Signal-to-Noise Ratio

26

Thesaurus During query process,

broaden a query and ensures that relevant documents are not missed.

problems Homographs

two words with distinct meanings but identical spellings 구분을 위해서는 syntactic, semantic, pragmatic analysi

s 가 모두 필요하다 ex) I can can a can.

Homonyms (multimedia document 의 경우 ) words that sound alike but have distinct meanings ex) bore vs boar