[4차]페이스북 알고리즘 분석(151106)

23
오진영 조한빈 성지영 오정민 김영균

Upload: -its

Post on 16-Apr-2017

613 views

Category:

Technology


4 download

TRANSCRIPT

Page 1: [4차]페이스북 알고리즘 분석(151106)

오진영 조한빈 성지영 오정민 김영균

Page 2: [4차]페이스북 알고리즘 분석(151106)

Contents

알고리즘?

트위터의 알고리즘

페이스북의 알고리즘

페이스북 알고리즘의 현재와 미래

2

Page 3: [4차]페이스북 알고리즘 분석(151106)

#알고리즘

순서도프로그래밍 = 자료구조 + 알고리즘

문제 해결을 위해 명확히 정의된 유한개의 규칙과 절차의 모임

입력: 외부에서 제공되는 데이터가 0개 이상 있다

출력: 적어도 한 가지 결과가 발생한다

명백: 각 명령 등은 명확히 정의되어야 한다(Well-Defined)

유한성: 한정된 단계를 처리한 후에 종료된다

효과성: 각 명령은 실행 가능한 것이어야 한다

프로그램 구상 단계에 사용하는

알고리즘의 다이어그램

자료 구조:

전산 데이터를 효율적으로 저장, 표현, 관리하는 구조

알고리즘:

3

Page 4: [4차]페이스북 알고리즘 분석(151106)

SNS에 왜 알고리즘이 필요한가?

NewsFeed 사용자와 관련된 모든 친구, 페이지, 그룹 등의 컨텐츠가 보여지는 공간

Chris Cox (CPO of Facebook)

초기의 뉴스피드는 복잡할 필요가 없었다.

사람들은 많은 것을 공유하려 하지 않았고, 충분한 수의 친구도 없었기 때문이다.

그러나 우리가 March Madness(전미 대학 농구 협회의 대회) 중계를 위해 ESPN과 통합하자

농구와 관련된 글들이 홍수처럼 쏟아졌던 것처럼 일순간 글이 폭발하는 순간들이 발생했다.

곧 뉴스피드에는 하루 평균 1,500개의 글이 게시되었고, 사용자는 이를 모두 확인할 수 없었다.

2013.08.07

Lars Backstrom (News Feed team)

우리의 목표는 사람들에게 그들이 보고 싶은 글을 선별하여 보여주는 것이다.

우리 팀은 현재 각 사용자가 선호하는 것에 대한 빅데이터를 보유하고 있으며 이를 통해 점점

더 정확한 순위 부여 방식을 고안하고 있다. 4

Page 5: [4차]페이스북 알고리즘 분석(151106)

사용자가 트위터를 사용하지 않을 때 발생한 트윗 가운데

사용자에게 중요하다고 판단되는 트윗들을 선별해 주는 알고리즘

지나간 모든 트윗을 시간대별로 찾지 않고도 중요한 콘텐츠 확인 가능

(팔로우하는 계정 가운데 가장 참여도가 높았던 트윗)

#트위터 #리캡

“While you were away…”

5

Page 6: [4차]페이스북 알고리즘 분석(151106)

나와 비슷한 사용자를 추천해주는 알고리즘

팔로우/팔로잉이 겹치는 정도팔로우/팔로워 비율총 트윗 수트윗 빈도트윗 단어 유사도태그 유사도한 트윗을 기준으로 동시에 트윗/멘션을 한 경우

#트위터 #유사사용자

출처 : http://lucyhong.blogspot.kr/2013/02/blog-post_6046.html

“(사용자)님과 비슷한 사용자”

6

Page 7: [4차]페이스북 알고리즘 분석(151106)

#트위터 #욕설

처음 보이는 트윗 중 폭력적이거나 욕설이 있는 트윗을 선별하여 노출하지 않는다.

팔로우 하는 사람들의 트윗에는 해당하지 않는다.

출처 : http://lucyhong.blogspot.kr/2013/02/blog-post_6046.html

트위터의 트윗 선별 알고리즘: 비공개 (폐쇄적)

7

Page 8: [4차]페이스북 알고리즘 분석(151106)

1억 7500만 가입자 (2010)

#트위터

출처 : http://www.bloter.net/archives/54896

트위터 웹사이트(twitter.com) 방문

공식 앱/ API기반 서드 파티 클라이언트 서비스 사용

65%

35%

8

Page 9: [4차]페이스북 알고리즘 분석(151106)

#트위터

트위터 웹사이트(twitter.com) 방문

공식 앱/ API기반 서드 파티 클라이언트 서비스 사용

65%

35%

API 약관 변경

: 더 이상 클라이언트 서비스를 만들지 말 것

(트위터의 일반 사용자를 대상으로 하는 서비스 독점)

= 무한한 외부 개발자의 창의성 + 개별 사용자의 취향= 트위터 생태계 성장의 원동력

8

1억 7500만 가입자 (2010)

Page 10: [4차]페이스북 알고리즘 분석(151106)

#트위터 #결과

48%갈 곳 잃은 API기반 서드 파티 클라이언트 서비스 사용자

전체 사용자 중 적극적 사용자 비중 50% 이하

9

Page 11: [4차]페이스북 알고리즘 분석(151106)

#EdgeRank

출처: http://www.theprconsulting.com/?p=5829

친밀도(Affinity) 가중치(Weight) 시간(Decay)

_e e e

세 가지 기준에 따라 점수 부여

친밀도 > 가중치 > 시간 순서로 점수에 가중치 부여

합산 점수의 순위가 높을수록 상위에 노출

e

친밀도(Affinity) 점수 부여 기준

10

Page 12: [4차]페이스북 알고리즘 분석(151106)

출처: http://www.theprconsulting.com/?p=5829

#EdgeRank #친밀도

친밀도(Affinity) 가중치(Weight) 시간(Decay)

_e e e

세 가지 기준에 따라 점수 부여

친밀도 > 가중치 > 시간 순서로 점수에 가중치 부여

합산 점수의 순위가 높을수록 상위에 노출

e

친밀도(Affinity) 점수 부여 기준

‘사용자와 작성자간의 관계’

사용자의

작성자의 다른 게시물에 대한 반응

작성자 담벼락 게시물에 대한 반응

작성자의

사용자의 게시물에 대한 반응

사용자 담벼락 게시물에 대한 반응

사용자와 작성자간 메신저 이용도

11

Page 13: [4차]페이스북 알고리즘 분석(151106)

출처: http://www.theprconsulting.com/?p=5829

#EdgeRank #가중치

친밀도(Affinity) 가중치(Weight) 시간(Decay)

_e e e

세 가지 기준에 따라 점수 부여

친밀도 > 가중치 > 시간 순서로 점수에 가중치 부여

합산 점수의 순위가 높을수록 상위에 노출

점수 부여 기준

e

가중치(Weight)

텍스트 < 그림/사진 < 동영상

링크 < 직접 작성

과거 사용자가 반응한 게시물과의

유사성

다른 사용자들의 반응

12

Page 14: [4차]페이스북 알고리즘 분석(151106)

출처: http://www.theprconsulting.com/?p=5829

#EdgeRank #시간

친밀도(Affinity) 가중치(Weight) 시간(Decay)

_e e e

세 가지 기준에 따라 점수 부여

친밀도 > 가중치 > 시간 순서로 점수에 가중치 부여

합산 점수의 순위가 높을수록 상위에 노출

점수 부여 기준시간(Decay)

게시물이 작성된 시간e

게시물에 대한 마지막 반응 시간

작성자와 관계를 맺은 시기

13

Page 15: [4차]페이스북 알고리즘 분석(151106)

미처 확인하지 못한 게시물을 끌어 올린다.

좋아요/댓글/공유 횟수 증가율

개인 게시물: 5%

페이지 게시물: 8%

출처: http://www.theprconsulting.com/?p=5829

#StoryBumping

전체 게시물 중 사용자가 실제로

읽는 게시물의 비중

Story Bumping 사용 전: 57%

Story Bumping 사용 후: 70%

14

Page 16: [4차]페이스북 알고리즘 분석(151106)

노출될 게시물을 실시간으로 결정

출처: http://www.theprconsulting.com/?p=5829

최근 사용자와 교류한 50명의

활동과 관련된 게시물 우선 노출

#Last_Actor

친구들이 최근에 한 활동을 알려준다.

교류:

사용자간 메신저

상호 게시물에 대한 반응

사용자의 일방적 탐색

(게시물 클릭, 담벼락 방문)

15

Page 17: [4차]페이스북 알고리즘 분석(151106)

출처: http://www.theprconsulting.com/?p=5829

#Chronological_by_Actor

한 작성자의 글을 시간에 따라 보여준다.

한 작성자가 여러 글을 연이어 게시한 경우 다른 조건의 영향을 배제하고 시간에 따라 노출한다.

(게시물에 대한 반응도 하락 등의 부작용으로 인해 아직 시험 단계)

50

Classic Relevancy-Sorted FeedChronological By Actor/

Relevancy-Sorted Hybrid Feed

16

Page 18: [4차]페이스북 알고리즘 분석(151106)

#페이스북 #결과

20%

뉴스피드님이 전체 게시글 중 20%를

우선적으로 처리하여 보여줍니다.

3분기 매출 5조 1187억 원

전체 14억 명의 가입자

하루 활동 사용자 10억 명

동영상 하루 80억 건 시청

2015년

1,400,000,000

17

Page 19: [4차]페이스북 알고리즘 분석(151106)

#페이스북 #결과

2014년 페이지 게시물 도달율

12.0511.58

8.7

7.7

6.15

4.043.51

2.97 2.712.11

0

2

4

6

8

10

12

14

10월 11월 12월 1월 2월

모든 페이지

50만 이상 좋아요

도달율

개인 계정 > 페이지

: 페이지를 통한 바이럴 어렵다

도달율에 결정적 영향

Facebook Messenger

18

Page 20: [4차]페이스북 알고리즘 분석(151106)

#페이스북 #결과 #감정조작

페이스북 감정 실험

게시물의 검열을 통한 감정 조작

70만 사용자 상대로 실험 인정

“기업에서 컨텐츠를 선별하는 것

자체가 이미 위험하다”

19

Page 21: [4차]페이스북 알고리즘 분석(151106)

#페이스북 #결과 #감정조작

부정적 단어 노출 축소시

페이스북 감정 실험

긍정적 단어 증가

부정적 단어 감소

긍정적 단어 노출 축소시

긍정적 단어 감소

부정적 단어 증가

Control

Experimental

감정의 전이가 가능하다면,

정치 성향, 이념, 사상도

조작 가능하다

20

Page 22: [4차]페이스북 알고리즘 분석(151106)

#페이스북 #대응

뉴스피드 알고리즘 수정Chris Cox (CPO of Facebook)님이

뉴스피드 알고리즘 내용을 공유합니다.2015.04.09 – Lars Backstrom님과 함께

페이스북 오픈 행사 F8에서 뉴스피드 업데이트 발표

21

Page 23: [4차]페이스북 알고리즘 분석(151106)

오진영 조한빈 성지영 오정민 김영균

↑ 새 소식