링크드인의 big data recommendation products - 어제의 데이터를 통해 내일을...

링크드인의 Big Data Recommendation Products- 어제의 데이터를 통해 내일을 예측한다 -

김형진 (Evion Kim), Senior Software Engineer

+

+추천 (Recommendation) 이란 ?

내가 좋아하는 음식 ,내가 보고싶어하는 영화 ,내가 읽고 싶어하는 책 ,내가 알만한 사람 ,내가 데이트 하고싶은 여자 ( 남자 ),

를 알려주세요 .

… 그걸 어떻게 알아 ?


점쟁이의 돗자리다 . 마녀의 수정구슬이다

= 예언 or 예측 !


예측 (Prediction) 이다 .

사용자에게 x1, x2, x3… 로 구성되는 정보를 보여주었을 때 , 과연 어떤 반응을 보일 것인가 예측

예측을 바탕으로 사용자에게 더 관련성 높은 정보를 제공

+예측은 어떻게 ?

여자 손님은 스파게티를 좋아하시더라 20 대 남자는 액션이 많고 플롯이 탄탄한 영화를 많이 보더라개발자 남자에게는 개발자 여자를 소개팅 시켜주면 좋아하더라 .

그러니까 이 메뉴 / 이 영화 / 이 개발자 를 추천해주자 .

=> 과거의 데이터를 기반으로 미래의 사용자의 행동을 예측

+미리보는 결론 - 그래서 , 링크드인에게 추천이란 ?

추천은 예측이다 .

예측 Algorithm어제의 데이터를 분석하여 내일의 사용자의 행동을 예측하는 머신 러닝 알고리즘

예측 InfrastructureHadoop, Key-Value Store, 각종 오픈 소스 프로덕트를 활용한 링크드인의 빅데이터 에코시스템

본 발표의 내용은 , Sam Shah(Principal Software Engineer, LinkedIn) 의 “Building Data Products With Hadoop”,

“LinkedIn Endorsements: Reputation, Virality, and Social Tagging”, “The ‘Big Data’ Ecosystem at Linkedin”

등을 참고 하였습니다 .

+발표자 - 김형진

Software Engineer/Data Scientist

+오늘의 발표

1. 링크드인의 빅데이터1. 빅데이터 에코시스템2. Encapsulation3. Offline vs. Online

2. Supervised Machine Learning 기반의 추천3. Recommendation Product 만들기 – Step By Step

1. Intuition2. Feature Extraction3. Model training4. Data Generation5. Application & Evaluation

4. 분석 example5. 결론

1. Big Data @ LinkedIn

+LinkedIn: 프로페셔널 소셜 네트워크

2 억 3 천 8 백만 사용자

+링크드인의 추천 프로덕트들

People You May Know – 친구 추천Skills and Endorsements – 누구의 어떤 스킬을 승인 (like) 할 것인가 ?Jobs You May be Interested In – 어떤 새 직장에 관심이 있을 것인가 ?News Recommendation – 어떤 뉴스를 읽고 싶은가 ?

+Skill Endorsements

+특징 1. Big Data Ecosystem

하둡 클러스터 Key/Value Store

유저 인터랙션 데이터

+특징 2. Encapsulation

시스템에 대해 잘 모르는 데이터 사이언티스트가 Recommendation Algorithm 을 만들고 싶다면 ?

데이터 모델링 , 분석 레벨의 지식과인프라스트럭쳐 레벨의 지식이 분리됨 .

R, Linkedin’s Azkaban(Hadoop workflow management), Apache Pig, LinkedIn’s DataFu

Hadoop, LinkedIn’s Voldemort(Key/Value storage)

Analytics/Modeling Layer

Infrastructure Layer

+특징 3. Online VS. Offline

Massive Scale Machine Learning 및 Data generation 은 Offline에서 ,

Filtering, 최종 Business Logic 적용 등은 Online 에서

장점 사용자에게 최신의 정보를 제공 가능

더 빠른 개발과 iterationScale 쉬움Failure toleration

단점 더 긴 개발시간Scale 어려움Failure handling 에 더 신경써야함

최신의 정보를 제공 할 수 없음

Online Offline

2.Supervised Machine Learning 기반의 추천

+머신 러닝 기반의 추천

Supervised 머신 러닝과거의 데이터를 통해 모델을 traintrain 된 모델을 사용하여 실제로 예측

Binary Classification결과가 1/0 으로 나오는 supervised 머신 러닝 문제

다양한 Binary Classification 알고리즘들Decision Tree, Support Vector Machine, Logistic

Regression, …

+머신 러닝 기반의 추천

과거주어진 상황 (feature f1, f2,~ fn) 하에서 , 유저 x 의 행동을 관찰유저가 클릭 : Score = 1유저가 무시 : Score = 0

현재데이터를 바탕으로 모델을 training 시킬 수 있음 주어진 과거 데이터의 오류를 최소화 하는 모델을 만듬

미래조건부 확률 P(Click y | user x views y with f1, f2, .. fn) 을 계산 만들어진 모델을 통해 미래의 유저 반응을 예측

3.Big Data Recommendation Product 만들기 – Step By Step

+Recommendation Product 만들기

머신 러닝 모델링을 바탕으로 한 추천

하둡 인프라 스트럭쳐 기반 ,1. Intuition: 프로덕트 아이디어와 유저의 행동에 대한 가정 .2. Feature Extraction: 모델에 사용할 feature 들을 선택하고 수집3. Model Training: 선택된 feature 를 이용하여 모델을 train.4. Data Generation: Train 된 모델을 적용하여 데이터 생성5. Serving Data: 추천 데이터 서빙

Intuition Feature Extraction

Model Building

Data Generation

Serving Data

Hadoop Infrastructure