빅데이터, 멀리보고 가볍게 시작하라

3
빅데이터, 멀리 보고 가볍게 시작하라 >> 경제적인 처리 방법 요구 여러 가지로 정의되는 빅데이터 개념은 간단하게 ‘전통적인 데이터베이스나 시 스템 환경에서 처리하기 힘들 정도로 큰 데이터’로 설명할 수 있다. 빅데이터란 말 이 등장하기 전에도 대용량 데이터를 다 루는 방법은 존재했다. 슈퍼컴퓨터 같은 고가의 성능 좋은 시스템을 이용해 대용 량 데이터를 처리할 수 있었다. 하지만 기 존 시스템 환경에서 덜 중요하다고 여겨 지던 대용량 데이터를 처리할 경우, 예상 되는 결과에 비해 소요 비용이 너무 높았 다. 또한 자유롭게 분석할 수 있는 환경을 구축하는 것도 어려워 전반적으로 투자대 비 수익(ROI)을 기대하기 힘들었다. 이렇 듯 더 효율적인 데이터 처리 방법론에 대 한 요구는 계속돼 온 것이다. 2000년 중반부터 오픈소스를 중심으로 불붙기 시작했던 클라우드 컴퓨팅 기술이 >> 빅데이터, 빅머니 IT 벤더들의 적극적인 마케팅 활동 덕분에 기업들은 빅데이터 인프라를 통해 빅인사 이트, 더 나아가 빅머니 달성이라는 기대 로 촉각을 곤두세우고 있다. 하지만 빅데 이터 기술의 탄생 배경과 발전과정을 살 펴보면 기업들에게 빅데이터는 아직까지 그리 호락호락한 분야는 아닌 듯 싶다. 급속한 스마트 단말기 보급과 소셜 네트 워크 서비스 데이터의 폭발적인 증가, 새 로 주목 받는 사물 네트워크(M2M)의 센 서 데이터 확대로 인해 자연스럽게 빅데 이터 영역이 떠오르고 있다. 빅데이터 기 술은 그동안 중요성을 인정받지 못해 지 금까지는 저장 또는 분석하지 않고 버려 졌던 다양한 대용량 로그 데이터의 가치 까지 되살려내겠다는 태세다. 지난해 하반기부터 빅데이터 열풍이 국내에까지 불어 닥치고 있다. 해외 IT 벤더들은 빅데이터 전문업체를 속속 인수하면서 빅데이터 열풍을 주도하고 있다. 특집 2부 Technology 권영길 그루터 대표 [email protected]

Upload: gruter

Post on 10-May-2015

1.054 views

Category:

Documents


5 download

TRANSCRIPT

Page 1: 빅데이터, 멀리보고 가볍게 시작하라

빅데이터, 멀리 보고 가볍게 시작하라

>> 경제적인 처리 방법 요구

여러 가지로 정의되는 빅데이터 개념은

간단하게 ‘전통적인 데이터베이스나 시

스템 환경에서 처리하기 힘들 정도로 큰

데이터’로 설명할 수 있다. 빅데이터란 말

이 등장하기 전에도 대용량 데이터를 다

루는 방법은 존재했다. 슈퍼컴퓨터 같은

고가의 성능 좋은 시스템을 이용해 대용

량 데이터를 처리할 수 있었다. 하지만 기

존 시스템 환경에서 덜 중요하다고 여겨

지던 대용량 데이터를 처리할 경우, 예상

되는 결과에 비해 소요 비용이 너무 높았

다. 또한 자유롭게 분석할 수 있는 환경을

구축하는 것도 어려워 전반적으로 투자대

비 수익(ROI)을 기대하기 힘들었다. 이렇

듯 더 효율적인 데이터 처리 방법론에 대

한 요구는 계속돼 온 것이다.

2000년 중반부터 오픈소스를 중심으로

불붙기 시작했던 클라우드 컴퓨팅 기술이

>> 빅데이터, 빅머니

IT 벤더들의 적극적인 마케팅 활동 덕분에

기업들은 빅데이터 인프라를 통해 빅인사

이트, 더 나아가 빅머니 달성이라는 기대

로 촉각을 곤두세우고 있다. 하지만 빅데

이터 기술의 탄생 배경과 발전과정을 살

펴보면 기업들에게 빅데이터는 아직까지

그리 호락호락한 분야는 아닌 듯 싶다.

급속한 스마트 단말기 보급과 소셜 네트

워크 서비스 데이터의 폭발적인 증가, 새

로 주목 받는 사물 네트워크(M2M)의 센

서 데이터 확대로 인해 자연스럽게 빅데

이터 영역이 떠오르고 있다. 빅데이터 기

술은 그동안 중요성을 인정받지 못해 지

금까지는 저장 또는 분석하지 않고 버려

졌던 다양한 대용량 로그 데이터의 가치

까지 되살려내겠다는 태세다.

지난해 하반기부터 빅데이터 열풍이 국내에까지 불어 닥치고 있다.

해외 IT 벤더들은 빅데이터 전문업체를 속속 인수하면서

빅데이터 열풍을 주도하고 있다.

특집 2부 Technology 글 권영길 그루터 대표 [email protected]

Page 2: 빅데이터, 멀리보고 가볍게 시작하라

있더라도 핵심 기술이나 기술 개발·발

전은 커뮤니티 중심의 마일스톤을 기준

으로 움직인다.

단적인 예로 오픈소스는 버그가 발견되더

라도 아무도 책임지지 않는다. 어느 누군

가가 이를 해결해주길 기다리는 수밖에

없다. 그게 아니라면 버그를 발견한 당사

자가 그것을 해결해 사용해야 하는 기술

적 성숙도를 요구한다.

또한 빅데이터 처리 기술은 데이터 생성

부터 안정적인 저장, 빠른 분석이 가능한

데이터 라이프사이클 전체를 커버해야 한

다. 또한 하둡뿐 아니라 데이터 수집을 위

한 Flume, scribe, 분산 데이터베이스인

NoSQL, 분석을 위한 Hive와 Pig, 각종

알고리즘 구현체인 mahout와 R를 비롯

해 수많은 솔루션이 결합된 매우 큰 소프

트웨어 스택이다.

이처럼 빅데이터 요소 기술 대부분이 오픈

소스이기 때문에 기업에서 빅데이터를 제

대로 접근하려면 해당 오픈소스를 제대로

이해하는 기술력을 보유하거나 기술지원

업체와 협력 환경이 조성돼야 한다.

내로라 하는 외국계 IT 벤더들은 이런 빅

데이터 기술의 특성을 감안해 전문기업

인수 또는 협력 네트워크를 구축하면서

대응하는 모습이다. 모니터링 도구 등 또

다른 솔루션들과 결합하면서 하둡 어플라

이언스를 제공하기 시작했지만, 아직 그

틀을 짜나가고 있는 단계로 보인다.

>> 대세로 다가오는 빅데이터 기술

빅데이터 관련 국내 기술인력 풀이나 인

프라를 놓고 보면, 국내 기업 환경에 빅

데이터가 적용되기까지는 약간의 시간이

더 필요해 보인다. 빅데이터 관련 기술을

확보하고 있다고 인정받는 곳은 NHN, 엔

씨소프트 같은 대형 포탈업체 또는 게임

서비스 업체, KT·SKT 같은 오래 전부

터 대용량 데이터 처리를 놓고 고민해왔

던 기간통신업체와 몇 년 전부터 준비해

온 몇몇 벤처기업 정도이다.

지난해부터 해외 IT 벤더들이 하둡 어플

기존처럼 비싼 장비와 비용 부담 없이 대

용량 데이터의 저장·분석이 가능한 인프

라를 탄생시켰다. 고가의 대형 시스템에

투자하지 않더라도 저렴한 x86 리눅스 시

스템에서도 소프트웨어 기술을 이용해 안

정적으로 데이터를 저장하고 고속 처리할

수 있게 된 것이다.

이 중심에는 하둡(Hadoop)이라는 오픈소

스 대용량 파일 시스템 및 분산 병렬처리

프레임워크가 있다. 하둡이 처음 발표됐

을 때만 해도 이미 이와 유사한 아키텍처

나 기술적 시도들이 있었기 때문에 성공

여부에 논란이 따랐다. 하지만 요즘 하둡

은 명실공히 이 분야에서 가장 주목 받는

솔루션 가운데 하나로 자리잡았다.

이제는 낮은 비용으로도 대용량 데이터를

처리할 수 있는 인프라 구축이 가능해짐

에 따라 새로운 시도들이 펼쳐지고 있다.

>> 오픈소스와 빅데이터 기술

여기서는 또 다른 빅데이터 기술의 중요

한 측면을 살펴볼 필요가 있다. 하둡으로

대표되는 빅데이터 기술은 기존 엔터프라

이즈용 IT 솔루션과 달리 오픈소스 중심

으로 탄생·발전하고 있다는 점이다. 빅

데이터 기술은 전통적인 엔터프라이즈 영

역 IT 벤더들이 주창한 것이 아닌, 구글·

야후·페이스북 등 상대적으로 역사가 짧

은 인터넷 서비스 업체들이 앞서 개척한

오픈소스 기술이다.

오픈소스 생태계는 엔터프라이즈 솔루션

영역과는 다른 지원체계를 갖고 있다. 기존

엔터프라이즈 솔루션은 비교적 빠른 기술

지원을 보장한다. 반면, 오픈소스 솔루션

은 전문 기술지원 또는 컨설팅 업체들이

2012 Spring, NO.104 9

그림 하둡 에코시스템

하이 레벨 인터페이스

모어 하이 레벨 인터페이스

비정형 데이터

RDBMS

검색엔진

NO-SQL

모니터링과 관리

워크플로우

지원

Page 3: 빅데이터, 멀리보고 가볍게 시작하라

10 Hyosung Information Systems Magazine 2012 Spring, NO.104 11

>> 가볍게 시작하라

이런 어려움에도 불구하고 빅데이터가 필

요한 기업이라면 작은 규모라도 먼저 빅

데이터 프로젝트를 시작해볼 필요가 있다.

내부 전문가가 없다면 외부 전문가나 전문

조직과 함께 작은 프로젝트를 시작할 수

있다. 이 과정에서 내부 교육과 경험을 확

보할 수 있을 것이다. 빅데이터는 작게 시

작해 규모가 커지더라도 확장이 쉽고 대규

모로 확장해도 동일한 아키텍처를 유지할

수 있다. 작게라도 우선 시작한다면 기술

및 경험 습득뿐 아니라 업무 특성과 직무,

나아가 문화와 조직까지 아우르는 새로운

변화에 미리 대비할 수 있을 것이다.

빅데이터를 바라보는 또 다른 시각은 지

나친 신중론. 무엇을 얻을 것인가를 알기

전까지는 시작하지 말라는 시각이다. 축

적한 데이터에 가치를 산정할 수 없었기

때문에 활용은 커녕 들여다 보지도 못하

고 폐기하는 데이터가 얼마나 많았던가?

하루가 다르게 발전하는 오픈소스 클라

우드 컴퓨팅 기술은 이제 적은 비용으로

이렇게 버려야만 했던 데이터에 대한 실

험을 할 수 있게 했다. 일거에 모든 것을

얻겠다는 접근에서 벗어나 그동안 확보한

데이터를 빅데이터 플랫폼에 올려놓고 다

양한 관점에서 분석하는 과정을 되풀이

해보라. 그 과정에서 데이터가 기업에게

어떤 가치를 줄 수 있는지 발견할 수 있을

것이다. 상상하고 그것을 데이터로 확인

하면서 새로운 가치를 만들어 낼 수 있다.

그것이 빅데이터 플랫폼이 기업에게 가져

다 주는 새로운 가치생성 기회이다.

데이터는 롱테일 현상으로 봐야 한다. 예

상치 못하게 쏟아지는 주변의 데이터가

지금 당장 수익과 연결되지 않더라도 결

국에는 가치를 만든다는 것이 롱테일의

현상이 말하는 가치이다.

라이언스를 앞세워 빅데이터 공론화를 시

작한 단계이기 때문에 눈길을 끌 만한 성

공사례나 실적도 부족하거나 없는 상태이

다. 이에 따라 일부에서는 빅데이터의 가

능성에 대해 회의적인 의견을 제시한다.

그러나 빅데이터의 대표적인 기업인 구글

이 그러했고 아마존, 페이스북 등 서비스

업체나 월마트 등 많은 사례들은 빅데이

터를 통해 얻을 수 있는 새로운 비즈니스

의 가능성이 충분함을 증명했다. 또한 기

업마다 기업에 직·간접적으로 관련된 대

용량 데이터는 앞으로 더 급속하게 늘어

날 것이다. 당장은 아니더라도 언젠가는

다뤄야 할 대상이라면 지금부터 차근차근

준비하는 게 맞다.

>> 경험 자산이 더 중요

빅데이터 분야는 그 가능성만큼이나 축적

된 기술과 많은 경험을 요구한다. 특히 다

양한 분석 기술과 노하우가 필요하다. 이

러한 특성 때문에 단 한번의 도입 프로젝

트를 통해 빅데이터 관련 고민을 해결하

기도 매우 위험하다. 무엇보다 아직 기존

엔터프라이즈 시스템만큼 안정적인 작동

도 보장할 수 없는 상태다.

결국 빅데이터의 기술과 지식은 하루아

침에 정착되기 어려운 것이다. 세계적으

로 빅데이터 관련 인력은 절대적으로 부

족한데, 이런 전문가 부족 현상은 집중적

인 노력을 통해 확보한 지식을 넘어선 경

험 자산이 더 중요한 이 분야의 특성 때

문이다. 단순히 도입으로 끝나는 것이 아

니라, 운영과정에서 얻을 수 있는 전반적

인 경험 습득이 최선의 방법이라는 의견

이 지배적이다. H