줌인터넷 빅데이터 활용사례 김우승

16

Click here to load reader

Upload: wooseung-kim

Post on 18-Jun-2015

22.624 views

Category:

Technology


8 download

DESCRIPTION

개방형포털을 지향하는 줌인터넷의 빅데이터 활용사례 소개 자료

TRANSCRIPT

Page 1: 줌인터넷 빅데이터 활용사례 김우승

줌인터넷(주)빅데이터 활용사례

김우승

Page 2: 줌인터넷 빅데이터 활용사례 김우승

소개

} 줌인터넷(주) 연구소장} 이력

} 줌인터넷} SK 플래닛} SK 텔레콤} 삼성전자

} http://kimws.wordpress.com} @kimws

Page 3: 줌인터넷 빅데이터 활용사례 김우승

회사 소개 : zum.com

}검색포털 회사

Page 4: 줌인터넷 빅데이터 활용사례 김우승

검색 회사(검색 서비스)가 하는 일 …

출처: http://www.ibm.com/developerworks/web/library/wa-lucene2/

storage

Crawling

Analyzing

Serving

Real-time

Batch

Crawler

Analyzing

Parsing

Page 5: 줌인터넷 빅데이터 활용사례 김우승

Crawl

문서를 크롤하면 (> 10억건)

메타데이터 저장

HTML 저장

제목, 본문 추출

이미지 추출

썸네일 생성

원본 이미지 저장

Structured Data

Unstructured Data

Multimedia Data

Semi-structured Data

Crawler 시스템은 분산 처리를 하기 위해서 MapReduce + Downloader 등으로 구현

Page 6: 줌인터넷 빅데이터 활용사례 김우승

Analyzer

} 중복 문서 제거} 스팸 문서} 성인 필터링} 검색 랭킹 계산} 문서 클러스터링} 수십여가지 분석프로세

(Pig + UDF ) + Python + Shell

Java Map-Reduce program

- 분석 데이터의 종류와 범위에 따라서 다양한 주기로 설정된 스케줄로 프로세스들이 실행- 프로세스의 우선 순위에 따라 Pig & MR Job에 우선순위와 리소스를 상이하게 할당

Hadoop & Hbase 는 Legacy System !

Page 7: 줌인터넷 빅데이터 활용사례 김우승

Service} Daily 수천만 PV 이상을 처리하기 위해서 …

Web & Application & DB Clustering 필수

각 Layer 별로 Caching System 적용

시스템 장애 감지와 통합 모니터링 시스템 역시 필수수십/수백대로 구성된 서버팜

오픈소스및자체개발시스템을통합해서활용

장애대응을위한 HA 구성

LVS

Tomcat

Squid

Memcached

100% Linux Server

인덱싱 & 검색 처리

Page 8: 줌인터넷 빅데이터 활용사례 김우승

그 밖에 오픈소스들

서비스와 데이터 요구사항에 맞게 코어가 되는검색엔진, 미디어 서버, KeyValue 시스템등을 자체 개발

Page 9: 줌인터넷 빅데이터 활용사례 김우승

ZUM Data Platform} 로그 수집 체계

} 로그 포맷 표준화} 중앙 데이터 저장소 구축} 로그 데이터 수집 프레임워크 개발 (Flume-ng, Fluentd)

} Access log} ZUM service log} Application log

} 분석시스템 개발} Hive 가메인도구} Pig 는 Hive Table 을생성하는전처리(ETL) 용스크립트} Job Scheduler

Page 10: 줌인터넷 빅데이터 활용사례 김우승

Log Analysis

} 각종 Service Log

} Server Access Log

} Application Log

JSON

Apache Log Format

Log4J

개발자들이 Apache Pig Script 로 분석

기획자들이 직접 데이터 통계나 분석을 할려면?

Pig

Page 11: 줌인터넷 빅데이터 활용사례 김우승

DAUM용클러스터

안티피싱서버

노출/클릭로그수집

서버

ES-LOGStats(2대)

(ATS)

NAS

서비스분석클러스터

es-admin

estat

웹브라우저

검색로그

SAMBA

툴바안티피싱

안티피싱서버

Krystal

통계Admin

CTR피드백시스템

광고플랫폼

쇼핑

???

-------

ALL Serversaccess log

미정

광고플랫폼

서비스 로그

zum log

Log4j log

zum log

ES-LOG개발

클러스터

수집클러스터

FTP서버

ES-LOG통계용

클러스터

URL수집서버

FTP서버

em-admin

alto

olba

log(

1/10

분량

만)

http

rsync/scp

DFSClinet API

samba

unknown/undetermined

zum log

----

ftp

Relay DB

DB I/F

인기검색어,Suggest, …

Term weight, URLs for crawler, …

alto

olba

log

미개발

Other IDC

Log Data Flow Diagram

Get/Redirect

미정

로그수집

admin

alto

olba

log

Hadoop

MIDAS

zum log

zum

log

뉴스

Page 12: 줌인터넷 빅데이터 활용사례 김우승

통계 지표 관리} 고정 지표

} 상시 분석해서 결과를 파악해야 하는 지표

} 공통 지표 정의

} 서비스별 지표 정의} 배치성 지표

} 실시간성 지표

} 유동 지표} 서비스별로 필요한 경우에 따라서 파악할 지표

} 중요도에 따라 고정지표로 전환

자동화의 대상

Ad-hoc 업무

데이터 분석 업무가 기존 개발자에서기획자, 데이터 분석가의 손에서 다루어질 수 있도록

Page 13: 줌인터넷 빅데이터 활용사례 김우승

Service 1Service 1

… …… …

Service NService N

Service N+1Service N+1

……

ZUM Data PlatformLog

AgentLog

Agent

Flume-NGFlume-NG

Data Repository (HDFS)Data Repository (HDFS)

LogAgentLog

Agent

LogAgentLog

Agent

LogAgentLog

Agent

LogAgentLog

Agent

Web

HD

FS

Raw dataRaw dataHiveTableHiveTable

결과DB결과DB

변환 분석

Web BrowserWeb Browser

JobScheduler

JobScheduler

DataViewerData

ViewerHive

ConsoleHive

Console

Reporting ServerReporting Server

RExcelText File

RExcelText File

HistoricalDB

HistoricalDB

Service 1Service 1

Service 2Service 2

… …… …

ServiceServerServiceServer

ServiceServerServiceServer…

fusefuse

Hive 는 Metadata 을 담고 있음SQL 은 개발자가 아닌 기획자들도 간편히 로직 구현 가능

Real-time Analyzer(ESPER)

Real-time Analyzer(ESPER)

Avroadapter

시스템엔지니어는 로그용량을 고려하여 설정이 된 에이전트 설치

개발자는 Pig등을 이용해서Raw Data를 Hive Data 등으로 변환

Page 14: 줌인터넷 빅데이터 활용사례 김우승

분석프로세스개선

데이터분석담당 개발자데이터추출결과확인

URL 추출조건확인후추출요청

1) 추출된데이터확인

2) 추출조건수정하여재추출

기획자

데이터추출요청

데이터전달

데이터분석담당기획자

데이터추출요청

데이터전달

Before

After

Page 15: 줌인터넷 빅데이터 활용사례 김우승

마지막으로 요즘 드는 생각 …Apaceh Hadoop / HBase 가 이미 Legacy System 되어가고 있고

다른 이가 만든 기술에 대한 의존은 여전하고때론 한계에 부딛히기도 하다

Core 에 대한 깊은 이해 없이대충 이해하고 응용 어플리케이션 / 서비스 만

들기도 바쁘다

그래서?직접 만들어 볼 필요도 있다!!!

Don’t reinvent the wheel?

결국 점점 복잡해지고, 무거워지고, 이해하기 힘들어지고 …

Page 16: 줌인터넷 빅데이터 활용사례 김우승

감사합니다

Q&A