추놀 3회 유사도 측정(우리아기는 누구와 더 닮았는가?)

19
추천아 놀자 3회 못다한이야기 (유사도측정) 방송 강의 자료

Upload: -

Post on 19-Nov-2014

531 views

Category:

Engineering


7 download

DESCRIPTION

유사도 측정(우리아기는 누구와 더 닮았는가?) cosine vs euclidean

TRANSCRIPT

Page 1: 추놀 3회 유사도 측정(우리아기는 누구와 더 닮았는가?)

추천아 놀자 3회

못다한이야기 (유사도측정)

방송 강의 자료

Page 2: 추놀 3회 유사도 측정(우리아기는 누구와 더 닮았는가?)

유사도 측정

Page 3: 추놀 3회 유사도 측정(우리아기는 누구와 더 닮았는가?)

별첨 – 추천 알고리즘 용어 설명

Jaccard , Cosine, Euclidean 란?

우선 정식 명칭은 : Euclidean Distance / Cosine Similarity / Jaccard coefficient 이 3개의 알고리즘은 모두 두 Vector간의 거리를 구하는 알고리즘입니다. 그래서 추천알고리즘에서 상품(Vector)간의 거리 즉 유사도를 측정할 때 사용합니다.

상품1 상품2

Jaccard : 상품간의 교집의 크기

0

1000

2000

3000

4000

5000

6000

7000

0 1000 2000 3000 4000 5000 6000

Euclidean Distance 상품간의 거리

상품1

상품2

θ Cosine Similarity 상품간의 각도

Page 4: 추놀 3회 유사도 측정(우리아기는 누구와 더 닮았는가?)

별첨 – 추천 알고리즘 용어 설명

Jaccard Coefficient

각각의 두 방송의 본 시청자 중 두 방송을 모두 본 시청자 수의 비율을 수치로 나타내는 방식입니다. (예시) 아래와 같이 염보성방송, 김택용방송, 양띵방송을 시청 했습니다.

방송 시청자1 시청자2 시청자3 시청자4 시청자5 시청자6 시청자7

염보성 방송(스타1) ● ● ● ● ●

김택용 방송(스타1) ● ● ● ● ●

양띵 방송(마인크래프트) ● ● ●

[김택용 - 염보성 방송] Jaccard 값 : 공통시청자수(5명) / 두방송의 전체 시청자수(6명) = 0.83

[김택용 – 양띵 방송] Jaccard 값 : 공통시청자수(2명) / 두방송의 전체 시청자수(6명) = 0.33

김택용 방송은 양띵 방송(0.33)보다 염보성 방송(0.83)과 유사하다

Page 5: 추놀 3회 유사도 측정(우리아기는 누구와 더 닮았는가?)

별첨 – 추천 알고리즘 용어 설명

Cosine Similarity, Euclidean Distance

각각의 두 방송의 정보(시청자, 시청자수, 채팅수 등)를 Vector로 나타낼 때 두 Vector간의 각도(내적)를 측정하는 방식이 Cosine-Similarity 두 Vector간의 거리를 측정하는 방식이 Euclidean Distance 방식이다. Cosine Similarity의 장점은 각도로 유사도를 측정하기 때문에 유명BJ의 일반 BJ간의 유사도를 측정할 수 있습니다.

0

1000

2000

3000

4000

5000

6000

7000

0 1000 2000 3000 4000 5000 6000

Euclidean Distance 상품간의 거리

상품1

상품2

θ Cosine Similarity 상품간의 각도

Page 6: 추놀 3회 유사도 측정(우리아기는 누구와 더 닮았는가?)

별첨 – 추천 알고리즘 용어 설명

K-Means 란?

주어진 데이터를 K개의 군집으로 나누는 알고리즘이다.

① 나눌 군집 개수 K 를 결정

② 임의의 군집 중심으로 가까운 점들끼리 묶음

③ 각각의 군집에 대하여 평균을 새로 구함

④ 새로운 평균의 중심값으로 가장 근접한 점들끼리 묶음

⑤ 3번, 4번 단계를 반복적으로 수행하여 변경이 없을때까지 수행

① ② ③ ④

Page 7: 추놀 3회 유사도 측정(우리아기는 누구와 더 닮았는가?)

유사도 측정 – 우리 아기는 아빠와 엄마중 누구와 더 닮았을까요?

Page 8: 추놀 3회 유사도 측정(우리아기는 누구와 더 닮았는가?)

유사도 측정 – 어떻게 비교하는가

얼굴의 너비 얼굴의 높이 눈간격 입크기

를 측정하여 유사도를 계산

Page 9: 추놀 3회 유사도 측정(우리아기는 누구와 더 닮았는가?)

유사도 측정 – 사진에에서 데이터 측정

얼굴너비 얼굴높이 입크기 눈간격

아빠 191 173 79 46 엄마 124 129 56 34 아기 91 59 21 24

Page 10: 추놀 3회 유사도 측정(우리아기는 누구와 더 닮았는가?)

유사도 측정 – 누구와 비슷한가?

Cosine Similarity 엄마-아기 = 0.96966224 아빠-아기 = 0.98190527 ( WIN )

Euclidean Similarity 엄마-아기 = 85 ( Win ) 아빠-아기 = 163

Page 11: 추놀 3회 유사도 측정(우리아기는 누구와 더 닮았는가?)

유사도 측정 – 왜 이렇게 알고리즘에 따라 결과가 다른가?

Cosine Similarity 엄마-아기 = 0.96966224 아빠-아기 = 0.98190527 ( WIN )

Euclidean Similarity 엄마-아기 = 85 ( Win ) 아빠-아기 = 163

Page 12: 추놀 3회 유사도 측정(우리아기는 누구와 더 닮았는가?)

유사도 측정 – 왜 이렇게 알고리즘에 따라 결과가 다른가?

Cosine Similarity 아빠와 더 닮은 이유? Cosine 방식은 Item의 각도 즉 비율을 측정 그래서 전체적인 비율이 비슷한 아빠가 유사도가 높음

Euclidean Similarity 엄마와 더 닮은 이유? Euclidean은 Item간에 떨어진 거리르 측정 그래서 엄마가 얼굴이 더 작아서 엄마가 유사도가 높음

Page 13: 추놀 3회 유사도 측정(우리아기는 누구와 더 닮았는가?)

이런 사진으로 유사도를 측정한다면?

Euclidean 방식은 아기와 가까운 곳에 있는 사람이 유사하다고 측정됨

Page 14: 추놀 3회 유사도 측정(우리아기는 누구와 더 닮았는가?)

나사의 분류 – 어떻게 분류 할것인가를 정합니다.

Page 15: 추놀 3회 유사도 측정(우리아기는 누구와 더 닮았는가?)

나사의 분류 – 크기 중심

데이터 - 못의 길이 - 못 머리의 크기 - 못의 원통 지름 A못 : 100mm, 5mm, 3mm B못 : 90mm, 4mm, 2mm

Page 16: 추놀 3회 유사도 측정(우리아기는 누구와 더 닮았는가?)

나사의 분류 - 크기 중심

Euclidean 방식으로 분류해 보면 어떻게 생각합니다. 만일 비율 기반하여 분류한다면 Cosine방식으로 유사도 측정

Page 17: 추놀 3회 유사도 측정(우리아기는 누구와 더 닮았는가?)

나사의 분류 – 기능 중심

데이터 - 못의 용도 : 콘크리트 용, 나무 - 못 머리 형태 : 육각, 십자, 일자 - 못 머리 크기 A못 : 콘크리스, 십자, 3mm B못 : 나무스크류, 십자, 2mm

Page 18: 추놀 3회 유사도 측정(우리아기는 누구와 더 닮았는가?)

나사의 분류 - 크기 중심

Jaccard와 Cosine을 적절히 조합하여 유사도를 측정하여 유사한 것끼리 분류

Page 19: 추놀 3회 유사도 측정(우리아기는 누구와 더 닮았는가?)

감사합니다. 방송국 : Afreecatv.com/goodvc 블로그 : goodvc78.postach.io