idg summary│ data preparation-paxata 데이터 기반 비즈니스를 … · 셀프서비스...

10
무단 전재 재배포 금지 본 PDF 문서는 IDG Korea의 프리미엄 회원에게 제공하는 문서로, 저작권법의 보호를 받습니다. IDG Korea의 허락 없이 PDF 문서를 온라인 사이트 등에 무단 게재, 전재하거나 유포할 수 없습니다. IDG Summary │ Data Preparation-Paxata 데이터 기반 비즈니스를 위한 셀프서비스 데이터 프레퍼레이션 빅데이터 시대에 기업들은 데이터 기반의 비즈니스를 실현하기 위해 노력하고 있다. 하지만 정작 데이터를 활용하는 데에는 여러 가지 제약이 있고 데이터를 활용하는 시간보다 준비하는 시간이 오히려 더 많이 걸린다. 그래서 데이터를 분석하기 위해서는 가공, 정제, 변환, 모델링 등 데이터 준비 과정이 필요한데, 이를 데이터 프레퍼레이션이라고 한다. 셀프서비스 데이터 프레퍼레이션의 의미와 과제, 그리고 빅데이터 프레퍼레이션을 위한 10가지 조건에 대해 알아보자. TM

Upload: others

Post on 06-Jan-2020

1 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: IDG Summary│ Data Preparation-Paxata 데이터 기반 비즈니스를 … · 셀프서비스 bi를 구축해 이를 현업 사용자가 사용할 수 있다 하더라도 문제

무단 전재 재배포 금지

본 PDF 문서는 IDG Korea의 프리미엄 회원에게 제공하는 문서로, 저작권법의 보호를 받습니다.

IDG Korea의 허락 없이 PDF 문서를 온라인 사이트 등에 무단 게재, 전재하거나 유포할 수 없습니다.

I D G S u m m a r y │ Data Preparation-Paxata

데이터 기반 비즈니스를 위한 셀프서비스 데이터 프레퍼레이션빅데이터 시대에 기업들은 데이터 기반의 비즈니스를 실현하기 위해 노력하고 있다. 하지만 정작 데이터를 활용하는

데에는 여러 가지 제약이 있고 데이터를 활용하는 시간보다 준비하는 시간이 오히려 더 많이 걸린다. 그래서 데이터를

분석하기 위해서는 가공, 정제, 변환, 모델링 등 데이터 준비 과정이 필요한데, 이를 데이터 프레퍼레이션이라고 한다.

셀프서비스 데이터 프레퍼레이션의 의미와 과제, 그리고 빅데이터 프레퍼레이션을 위한 10가지 조건에 대해 알아보자.

TM

Page 2: IDG Summary│ Data Preparation-Paxata 데이터 기반 비즈니스를 … · 셀프서비스 bi를 구축해 이를 현업 사용자가 사용할 수 있다 하더라도 문제

▶▶▶ 1

IDG Summary│Data Preparation-Paxata

데이터 기반 비즈니스는 의사결정권자의 경험이나 직감에 의한 비즈니스

의사 결정을 하는 게 아니라 실제 데이터를 기반으로 비즈니스 의사 결

정을 하는 기업으로의 진화를 의미한다.

기존에는 활용할 수 없었던 데이터들을 데이터 처리 기술의 발전과 데이터 관

련 비용이 낮아져 데이터 기반 비즈니스가 가능하게 된 것이다.

특히 지난 수년간 데이터 기반 비즈니스를 도입한 기업들이 비용절감은 물론,

고객 서비스 향상, 빠른 의사 결정 등의 탁월한 효과를 보여주면서 기업들에게

데이터 기반 비즈니스는 ‘왜’가 아닌 ‘어떻게’라는 과제를 던졌다.

데이터 기반 비즈니스를 위한 필요 요소

데이터 기반 비즈니스는 도입해 활용하고 싶다고 바로 도입할 수 있는 것이

아니다. 이를 위해서는 시스템뿐만 아니라 조직의 문화까지 바꿔야 하는, 상당

히 많은 준비 과정이 필요하다.

셀프서비스 BI를 구축해 이를 현업 사용자가 사용할 수 있다 하더라도 문제

는 해결된 것이 아니다. 오히려 문제의 시작이다.

우선 현업 사용자는 분석할 데이터가 없다는데 가장 큰 불만을 갖고 있다. 또

한 스스로 분석을 하다 보면 요구사항이 바뀌게 마련인데, 새로운 데이터가 필

요한 경우 데이터 준비 과정을 수정해야 한다. 이는 IT 팀이나 전산팀에 요구사

항을 전달해 기존 데이터를 수정하는 프로세스를 거친다. 문제는 이 작업이 이

르면 수일, 경우에 따라 수개월이 걸리게 되는데, 변경 작업 도중에 요구사항이

바뀌지 않으리란 법도 없다.

분석할 데이터가 부족하다 보니, 의사결정이 계속 지연되고 현업 사용자들의

불만은 사라지지 않는다.

IT 입장에서도 과제와 불만은 증가하고 있었다. 오라클, IBM, SAP, SQL 등

의 레거시 데이터뿐만 아니라 비정형 데이터, 빅데이터, 외부 데이터, 소셜 데

이터 등의 다양한 데이터들이 폭증하고 있다. 또한 현업 사용자들은 개인이 갖

고 있는 파일, 데이터들을 함께 통합해서 보고자 하는 요구들도 많아지고 수정

요구 사항 또한 빈번해졌다.

분석 요건이 바뀌거나 새로운 데이터가 필요할 때마다 현업 사용자는 IT 부서

에 요청한다. IT 부서에서는 모델, 추출, 변환, 적재, 최적화라는 선형적인 ETL

데이터 기반 비즈니스를 위한 셀프서비스 데이터 프레퍼레이션

이준호 상무 | 잘레시아 솔루션본부

Page 3: IDG Summary│ Data Preparation-Paxata 데이터 기반 비즈니스를 … · 셀프서비스 bi를 구축해 이를 현업 사용자가 사용할 수 있다 하더라도 문제

IDG Summary│Data Preparation-Paxata

2 ◀◀◀

과정을 수행하는데, 때로는 수작업을 통한 스크립팅과 코딩 작업을 수행해야

할 경우도 있다. 이런 과정을 수행하는 데에는 통상 수일에서 수개월이 걸린다.

결국 현업 사용자들은 필요한 데이터가 적시에 공급되지 않고, 항상 지연되어

의사결정이 늦어지거나 필요한 데이터 부족에 불만을 갖게 되며 IT 부서는 계속

되는 요건 변경과 새로운 데이터 요구로 백로그에 시달리게 된다.

이를 해결하기 위해 SQL과 엑셀을 사용해 현업 사용자가 요구하는 사항들을

즉각적으로 처리해도 IT 부서 입장에서는 데이터 통제가 되지 않고, 이는 보안

과 거버넌스 문제를 일으킨다. 현재 계속되는 변화와 폭증하는 데이터를 관리

하고 활용해야 하는 기업들의 고민을 요약하면 다음과 같다.

- 기존 EDW를 지속적으로 확장 개편해서 해결될 문제인가

- 빅데이터는 어떻게 할 것인가

- 투자는 계속 증가하는데 효과는 확실한가

진정 기업이 원하는 환경은 어떤 것일까? 현업 사용자는 필요한 데이터를 필

요할 때마다 스스로 준비해 활용할 수 있어야 하고 엑셀/SQL 사용 역량이 부

족한 리더의 경우 누구나 협업하고 결과를 공유해 재사용할 수 있는 환경을 제

공해야 한다.

IT 부서는 데이터 통제와 원천 데이터 접근 권한을 확보해야 하며, CIO는 데

이터 자산을 보호하면서, 현업에서 쉽고 자유롭게 데이터를 가공할 수 있는 환

경을 제공해야 한다.

데이터 기반 비즈니스 기업으로 거듭나기 위해서는, 장기적 관점의 탄탄한

IT 프로세스를 구축함과 동시에, 빠른 변화와 고객 요구에 능동적으로 대응할

수 있는 유동성을 동시에 유지해야 한다.

이를 위해서는 안정성과 효율성, 그리고 유연성과 신속성이라는 2가지 상반

그림 1│바이모달(Bimodal) IT

Page 4: IDG Summary│ Data Preparation-Paxata 데이터 기반 비즈니스를 … · 셀프서비스 bi를 구축해 이를 현업 사용자가 사용할 수 있다 하더라도 문제

IDG Summary│Data Preparation-Paxata

▶▶▶ 3

된 개념을 동시에 추구해야 한다. 일반적으로 안정성과 효율성을 추구하면 유

연성과 신속성이 떨어지고 유연성과 신속성을 추구하면 안정성과 효율성이 떨

어진다. 이런 모순적인 목표를 달성하기 위해 기업은 2개의 접근방식을 병행해

야 한다는 것이 바로 바이모달(Bimodal) IT다.

2마리 토끼를 동시에 잡는다, 바이모달 IT

기업 입장에서는 EDW 기반의 시스템, 즉 안정성과 효율성을 기반으로 하는

기존 시스템을 버릴 수는 없다. 다만 기존 시스템을 유지하되, 점점 복잡해지

는 로우 데이터, 즉 원천 데이터를 빠르게 처리하고 고객과 현업 사용자의 요

구를 반영할 수 있는 유연성과 신속성을 제공할 수 있는 새로운 시스템을 함께

구축해야 한다.

가트너는 기존 시스템을 모드 1이라 하고, 새로운 시스템을 모드 2라고 규정

한다. 현업 사용자들은 모드 2 기반으로 데이터가 필요할 때마다 사용자 스스

로 원천 데이터까지 바로 접근해 본인이 알고 있는 비즈니스 로직을 저용, 원하

는 데이터를 얻을 수 있다.

이와 함께 IT 부서는 현업 사용자에게 원천 데이터를 그대로 열어주는 것이

아니라 여러 가지 거버넌스나 권한 관리, 보안 통제 등을 통해 모드 2에 해당하

는 시스템을 통제하는 것이다. 모드 2의 시스템 통제 자체는 IT 부서가 하되, 분

석가나 사용자들은 기존 EDW의 정형데이터, 대시보드 데이터 등을 제공받음

과 동시에 자신이 원하는 데이터를 신속하고 유연성있게 접근할 수 있게 된다.

가트너는 이를 동시에 구현하려면 2개의 별도의 조직을 갖고 가야 한다고 주

장했다. 하지만 바이모달 IT를 조직 구조 측면에서 구현하면, 서로 다른 성격

의 2개의 IT 부서가 한정된 영향력과 투자 및 자원, 힘을 둘러싸고 갈등을 벌이

게 될 것이 자명해진다.

팍사타(Paxata)는 바이모달 IT를 조직 구조가 아닌 시스템 구조로 제시했다.

안정성과 효율성이 뒷받침되는 기존 EDW 시스템을 전사 분석 시스템으로 하

는 모드 1, 새로운 셀프서비스 데이터 프레퍼레이션(Data Preparation) 시스

템을 모드 2로 규정하고 현업 사용자와 IT 부서 모두가 만족할 수 있는 시스템

환경을 추구한다. 이를 통해 단일 조직에서 모드 1, 2를 모두 관리함으로써 IT

부서 내 관리적인 문제도 없어진다.

셀프서비스 데이터 프레퍼레이션의 정의

유연성과 신속성이 보장된 시스템, 즉 모드 2에 해당하는 시스템은 어떻게 구

현할 것인가의 과제가 남아있다.

가트너에 따르면, 기업들은 통상 분석 시간의 70~80%를 분석할 데이터를

모으고 가공하는데 사용하고 있다. 비즈니스 분석가와 데이터 과학자들이 업

무의 대부분의 시간을 데이터 탐색, 정제, 프로파일링, 변환, 중복제거, 모델링

등과 같은 데이터 준비 과정에 사용하고 있다는 것이다. 포레스터는 데이터웨

어하우스/데이터 마트 구축과 요구사항 변경에 수개월이 소요되는 상황으로 인

Page 5: IDG Summary│ Data Preparation-Paxata 데이터 기반 비즈니스를 … · 셀프서비스 bi를 구축해 이를 현업 사용자가 사용할 수 있다 하더라도 문제

IDG Summary│Data Preparation-Paxata

4 ◀◀◀

해 경쟁력 저하와 가시성 없는 경영이 이어지고 있다고 말했다.

이처럼 셀프서비스 BI가 활성화되더라도 바로 즉시 원천 데이터를 사용할

수 있는 것이 아니다. 기존 데이터를 활용, 분석하는 것과 마찬가지로 원천데

이터를 활용할 수 있는 과정이 필요하다. IT 부서는 기존 보고서 작업 업무에

서 벗어나는 대신 데이터를 준비하는 업무가 발생한다. 이런 과정을 줄이기

위해 등장한 것이 바로 셀프서비스 데이터 프레퍼레이션(Self-Service Data

Preparation)이다.

셀프서비스 데이터 프레퍼레이션은 셀프서비스 BI를 위해 데이터 탐색, 조

합, 정제 작업 등을 능동적으로 수행함으로써 원천 데이터를 최적화된 데이터

셋으로 쉽고 빠르게 제공하는 것이다. 이를 통해 현업사용자는 민첩하고 신뢰

할만한 방법으로 데이터에 대한 탐색, 분석, 접근 등의 업무를 수행할 수 있다.

가트너는 2018년까지 대부분의 기업에서 분석을 위한 데이터 준비에 셀프서

비스 데이터 프랩 툴을 도입할 것이라고 예상했다.

팍사타(Paxata)는 IT 및 현업 사용자들이 데이터를 취합, 가공하기 위해 수

행하는 수작업의 대부분을 줄일 수 있도록 도와주는 엔터프라이즈 데이터 프레

퍼레이션 플랫폼이다.

원천 데이터, 정형/비정형 데이터, RDB 데이터, 소셜 데이터, 클라우드/온

프레이스 데이터들을 모두 수집해 전체 데이터를 탐색하고 클린징하고 쉐이핑

(shaping), 피벗팅(Pivoting), 그룹바이(group by)에서 요약(summarizing)

하거나, 마스터 데이터, 기준 정보 데이터 등을 병합하거나, 연 단위 데이터 병

합, 보강, 추가 등을 하는 것이다. 이런 모든 과정을 최종 사용자가 특별한 도구

없이 순수 HTML5 기반의 웹브라우저만으로 클릭 위주로 다 수행할 수 있다.

특히 어떤 코딩이나 스크립팅, SQL, 모델링 과정이 필요없으며, 사용자가 직

접 클릭을 통해 최종적으로 자신이 분석하고자 하는 결과데이터 셋(Answer-

Set)을 만들어 배포하면 기존 시각화 툴이나 셀프서비스 BI 툴, 통계 툴 등에서

바로 접속해 사용할 수 있는 구조다. 한 마디로 다양한 원천 데이터 소스와 각

종 분석 툴 중간에서 데이터 준비 과정을 해준다는 것이다(그림 2 참조).

그림 2│셀프서비스 데이터 프레퍼레이션 의미

Page 6: IDG Summary│ Data Preparation-Paxata 데이터 기반 비즈니스를 … · 셀프서비스 bi를 구축해 이를 현업 사용자가 사용할 수 있다 하더라도 문제

IDG Summary│Data Preparation-Paxata

▶▶▶ 5

이를 통해 원천 데이터부터 최종 대시보드까지 분석의 모든 과정에서 IT 부

서의 개입을 최소화하고 분석가와 현업 사용자는 본인이 가장 잘 알고 있는 비

즈니스 로직이나 업무 지식을 활용해 본연의 목적이었던 분석 과정에 집중할

수 있다.

모드 1 단계의 경우, 현업 사용자들은 비즈니스 로직은 잘 알고 있지만 IT는

잘 모르며, 반대로 IT 부서는 비즈니스 로직를 잘 모른다. 이로 인해 현업 사용

자가 IT 부서에 로직을 설명하고 이를 IT 부서가 이해하고 원천 데이터를 끌어

다가 DW/DM를 구축하고 리포트를 제공하는 프로세스였다. 여기까지 걸리는

시간만 해도 수개월이다. 그런데 현업 사용자에게 제공한 리포트 대시보드가

정작 원하는 형태가 아닐 경우가 번번히 발생한다.

셀프서비스 BI를 통해 이제는 현업 사용자가 자신의 비즈니스 지식을 기반으

로 원천 데이터를 직접 가져다 활용할 수 있게 됐다. 물론 이 과정에서 데이터

네이밍이나 테이블 명칭, 컬럼 명칭 등을 IT 부서에서 작업해야 부분도 있다.

이 초기단계 작업을 거치면 나머지 단계는 모두 사용자들이 직접 할 수 있다.

특히 코딩 기반이 아니라 클릭 위주의 수행으로 수주에서 수개월이 걸리는 작

업을 수분만에 할 수 있기 때문에 모드 2에 최적화됐다고 볼 수 있다.

이렇게 분석 과정이 빠르게 가능하게 된 것은 하둡 스파크 기반의 팍사타 인

텔리퓨전(Paxata IntelliFusion) 엔진 덕분이다. 팍사타 인텔리퓨전의 가장 큰

특징은 오픈소스 기반의 스파크를 통해 병렬 인메모리, 분산처리 시스템이 작

동한다는 점이다.

팍사타 인텔리퓨전 엔진에는 자체적인 데이터 프랩을 위한 머신러닝(Ma-

chine learning) 알고리즘이 내장되어 있어 어떤 통계 패턴이나 입수 데이터

에 대한 원천 데이터를 자동으로 판단, 파싱하거나 데이터 형태에 따라 추천

할 수 있다.

그림 3│팍사타 데이터 프레퍼레이션 구조

Page 7: IDG Summary│ Data Preparation-Paxata 데이터 기반 비즈니스를 … · 셀프서비스 bi를 구축해 이를 현업 사용자가 사용할 수 있다 하더라도 문제

IDG Summary│Data Preparation-Paxata

6 ◀◀◀

빅데이터 프레퍼레이션을 위한 10가지 조건

1. 다양한 데이터 소스 지원

현업 사용자는 이기종 데이터들이 어디서 왔는지, 어떤 형태인지 상관없다.

어떤 데이터든지 오로지 비즈니스 관점에서만 데이터를 바라보고 분석한다. 팍

사타는 하둡, SFDC(Salesforce.com), 엑셀, XML JSON, 애브로(Avro), 로

그파일, RDB 등 형식에 관계없이 데이터를 불러올 수 있으며, 상품, 고객, 날

짜, 시간, 지리 정보와 같은 데이터의 유형과 의미를 자동으로 파싱하고 인식

한다.

2. 뛰어난 처리 성능과 속도

현업 사용자는 좀더 빠른 분석 결과를 원하며 실시간 분석에 대한 요구는 언

제나 옳다. 이를 위해 기존에는 하둡 기반의 맵리듀스(Map Reduce)를 사용해

좀더 빠른 분석 결과를 제공했다. 하지만 맵리듀스 작업은 각 단계별 Disk I/O

가 불가피해 필연적인 지연시간이 존재했다.

팍사타는 분산 인메모리 처리 엔진인 스파크는 RDD(Resilient Distributed

DataSet) 방식으로 하드디스크를 거치지 않고 메모리 사용을 극대화함으로써

맵리듀스 대비 10~100배 이상 빠른 성능을 제공한다.

또한 팍사타는 명령어를 컴파일해 스파크에 명령을 내리게 되는데, 명령어

자체가 스파크에 가장 최적화된 형태이기 때문에 기존 개발 방식에 비해 최적

화된 처리를 할 수 있다.

3. Join 키 자동 추천

팍사타는 머신러닝 기반 인텔리퓨전 기능을 통해 여러 개의 정형, 비정형 소

스 데이터 간의 공통적인 속성을 빠르게 찾아내 데이터의 매칭 비율에 근거해

데이터 조인(Join) 키를 자동으로 탐지하고 추천한다.

4. 클러스터+편집에서의 자연어 처리(Natural Language Processing, NPL)

빅데이터 시대에서 외부 데이터나 소셜 데이터, 사용자 작성 데이터들은 글

자 자체의 오류나 배열 순서 등이 다른 경우가 많다. 따라서 단어 순서가 다르

거나 잘못 입력한 데이터, 불일치 데이터들을 정제해 하나로 그룹핑, 클러스터

링해주는 작업이 반드시 필요하다.

NLP 알고리즘은 컬럼 데이터를 빠르게 표준화하고, 불일치 데이터를 정제

하는데 유용한데, 이를 통해 가장 유사한 값들을 하나의 클러스터로 그룹핑

(Grouping)할 수 있다.

팍사타의 NLP 알고리즘은 자체적으로 메타폰(Metaphone), N-그램(N-

gram), 핑거프린트(Fingerprint) 알고리즘을 갖고 있다. 메타폰은 영어 발음

기준으로 유사한 단어들을 클러스터링해주는 것이고, 주로 검색엔진에서 많이

사용되는 엔그램 알고리즘은 숫자, 문자의 개수를 가지고 각각 다 분리해낸 뒤

각각 유사성, 개연성 기반으로 비교하는 개념이다. 핑거프린트는 문장 및 단어

Page 8: IDG Summary│ Data Preparation-Paxata 데이터 기반 비즈니스를 … · 셀프서비스 bi를 구축해 이를 현업 사용자가 사용할 수 있다 하더라도 문제

IDG Summary│Data Preparation-Paxata

▶▶▶ 7

의 순서, 대/소문자의 구분만 가능한 알고리즘으로 보통 이름을 비교하는 기능

에서 많이 볼 수 있다.

특히 팍사타의 국내 총판인 잘레시아는 한글 로컬라이제이션 작업을 하면서

한글과 한자까지 처리할 수 있는 알고리즘인 코르마이즈(Kormize)를 추가했

다.

5. 고급 필터링 기능

수천만, 수억 건의 원천 데이터를 필터링해 웹브라우저 상에서 바로 즉시 볼

수 있어야 한다.

팍사타에서 제공하는 필터그램은 데이터의 필터 기능과, 히스토그램 정보를

보여주는 기능을 결합한 강력한 도구로, 텍스트(Text), 수(Numeric), 날짜/시

간(Date/Time), 불린(Boolean), 소스(Source) 타입에 대해 적용 가능하다. 텍

스트형은 해당 컬럼의 각각 아이템과 발생 회수(Distinct Count), 히스토그램

을 표시하며 목록 형태로 나타난다. 숫자형의 경우, 그래프 형태로 숫자 값의

분포와 발생 회수를 확인할 수 있으며, 드래그를 통해 원하는 범위를 확대, 선

택할 수 있다. 날짜형은 월별, 주별, 일별, 요일별, 시간대별 이런 템플릿이 있

어 데이터를 가지고 쉽게 날짜 데이터를 필터링할 수 있는 필터그램 기능이 제

공되고 있다.

6. HTML 5 웹 UI 및 유연한 서버 아키텍처

사용자는 어떤 애플리케이션도 설치할 필요없이 순수 웹브라우저만으로, 혹

은 패드에서도, 스마트폰에서도 수천만 건, 수억 건의 데이터를 처리할 수 있어

야 하며 데이터의 증감에 따라 유연하게 대처할 수 있는 구조가 필요하다. 스케

일 업(Scale-Up) 아키텍처는 고성능 부품 사용을 위한 구매비용 이슈와 비효

율적인 리소스 사용의 문제가 있다. 반면 스케일 아웃(Scale-Out)의 경우 데

이터의 양이나 시간대 등을 고려해 연산 노드들을 탄력적으로 추가, 제거할 수

있어 서비스 가용시간과 비용 효율성을 증대시킬 수 있다.

팍사타는 HTML5 기반 웹 UI를 통해 사용자가 손쉽게 작업을 할 수 있도

록 하며 대용량 데이터 처리를 위한 서버는 스파크 클러스터 기반의 분산 처리

(Distributed In-Memory Parallel Processing) 아키텍처로 유연한 확장성

과 성능을 제공한다.

7. 코딩없이 마우스 클릭만으로 손쉽게 작업

데이터 준비 과정을 작업할 때 사용자는 IT 전문가가 아니므로 쉽게 할 수 있

어야 한다. 그래서 대부분의 작업이 마우스 클릭으로 손쉽게 가능해야 한다. 이

런 작업을 하드 코딩으로 하려면 수백, 수천 라인을 작성해야 한다.

팍사타는 코딩작업 없이 마우스 클릭만으로 대부분의 기능을 수행할 수 있어,

현업 사용자가 직접 데이터 준비 과정을 손쉽게 처리할 수 있다.

Page 9: IDG Summary│ Data Preparation-Paxata 데이터 기반 비즈니스를 … · 셀프서비스 bi를 구축해 이를 현업 사용자가 사용할 수 있다 하더라도 문제

IDG Summary│Data Preparation-Paxata

8 ◀◀◀

8. 커스텀 알고리즘을 통한 기능 확장

팍사타는 사용자가 보유하고 있는 알고리즘이나 기타 데이터 조작 알고리즘

을 적용해 결과를 도출해낼 수 있다. 예를 들어, 개발단계에서 클러스터알고리

즘(ClusterAlgorithm) 인터페이스를 상속받아 커스텀 알고리즘을 추가하거나

*.jar로 컴파일해 경로 서버에 복사, 클러스터+편집, 계산 컬럼에서 해당 알고

리즘을 활용할 수 있다.

회사명칭, 혹은 입력값 기준을 표준화하거나 우리나라 주소 데이터, 지번 데

이터를 도로명 주소로 변환한다거나 이런 알고리즘을 추가할 수도 있다. 이처

럼 각 기업에서 원하는 커스텀 알고리즘을 추가할 수 있다.

9. 어떤 외부 BI 툴과도 연결

데이터 프레퍼레이션이 완료된 앤서셋(AnswerSets) 데이터를 출력해 외부

BI 툴에서의 연결 및 URL 방식의 클릭투프렙(ClickToPrep) 기능 호출을 이용

해 사용자가 직접 데이터 프렙 로직을 확인하고 수정함으로써 끊김없는 정보

활용과 함께 발전시켜나갈 수 있다.

10. 거버넌스 확보

데이터 준비와 분석 과정을 모두 사용자에게 맡기면 데이터를 추적하고 통제

하고, 사용자 권한 관리를 해야하는 IT 부서 입장에서는 어려움이 있을 수 있

다. 그래서 프로젝트에서 진행한 모든 시간대별 작업 내용들에 대한 버전을 관

리해 각 버전별로 주석을 입력해 쉽게 인식하고 복원시킬 수 있어야 한다. 또

한 편집 단계에서는 프로젝트의 단계를 확인 및 수정, 추가, 조정하고 삭제할

수 있어야 한다. 특히 앤서셋을 생성하기 위해 필요로 하는 여러가지 반복적

인 작업들을 줄여주기 위해 라이브러리 자동화와 프로젝트 자동화 기능을 제

그림 4│데이터 기반 비즈니스를 위한 최적의 아키텍처

Page 10: IDG Summary│ Data Preparation-Paxata 데이터 기반 비즈니스를 … · 셀프서비스 bi를 구축해 이를 현업 사용자가 사용할 수 있다 하더라도 문제

IDG Summary│Data Preparation-Paxata

▶▶▶ 9

공해야 한다.

라이브러리 자동화는 라이브러리에 저장되어있는 데이터를 설정한 스케쥴에

따라 최신의 데이터로 업데이트한다. 프로젝트 자동화는 설정한 스케쥴에 따라

해당 프로젝트의 처리 결과 데이터를 업데이트한다.

팍사타는 프로젝트에서 수행하면서 발생한 모든 작업들을 기록해 추적할 수

있다. 이를 통해 언제든지 작업을 단계별로 재수행이 가능하며, 작업 순서 변경

이나 새로운 데이터 집합 생성시에도 재사용할 수 있다.

기존 모드 1에 해당하는 EDW 기반의 시스템은 안정성과 효율성 측면에서 운

영될 것이다. 내부 데이터들은 안정적으로 자원을 효율적으로 활용해 사용자에

게 리포팅이나 대시보드 등 기업의 단일 뷰를 제공하게 된다. 이와 동시에 신속

성과 유연성을 제공할 수 있는 아키텍처인 셀프서비스 데이터 프레퍼레이션이

바로 모드 2 시스템으로 구현된다. 기업이 이 2가지를 병행해 사용자에게 제공

하는 것이 사용자와 IT 부서 모두를 만족시킬 수 있는, 그리고 끊임없이 급변하

는 빅데이터 시대에 데이터 기반의 비즈니스가 될 것이다.

기업 IT 책임자를 위한 글로벌 IT 트렌드와 깊이 있는 정보

ITWorld의 주 독차층인 기업 IT 책임자들이 원하는 정보는 보다

효과적으로 IT 환경을 구축하고 IT 서비스를 제공하여 기업의 비즈

니스 경쟁력을 높일 수 있는 실질적인 정보입니다.

ITWorld는 단편적인 뉴스를 전달하는 데 그치지 않고 업계 전문가

들의 분석과 실제 사용자들의 평가를 기반으로 한 깊이 있는 정보

를 전달하는 데 주력하고 있습니다. 이를 위해 다양한 설문조사와

사례 분석을 진행하고 있으며, 실무에 활용할 수 있고 자료로서의

가치가 있는 내용과 형식을 지향하고 있습니다.

특히 IDG의 글로벌 네트워크를 통해 확보된 방대한 정보와 전세계

IT 리더들의 경험 및 의견을 통해 글로벌 IT의 표준 패러다임을 제

시하고자 합니다.

테 크 놀 로 지 및 비 즈 니 스 의 사 결 정 을 위 한 최 적 의 미 디 어 파 트 너