big data handling skill, is it a key of performance ?

13
Big Data handling skill, Is it a key of performance ? 기기기기기 기기기기 기기기 2012 년 12 년 10 년

Upload: joanna

Post on 24-Jan-2016

38 views

Category:

Documents


0 download

DESCRIPTION

Big Data handling skill, Is it a key of performance ?. 기술경영학 협동과정 류성일 2012 년 12 월 10 일. 1. BigData 특징. Big Data 의 5 대 특징 : 대용량 , 다양성 , 속도↑ , 복잡성 , 분석모델無 ( 가트너 , 매킨지 , 베인 , 부즈 ). Bain & Company (2012), Navigating the Big Data challenge. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Big Data handling skill,  Is it a key of performance ?

Big Data handling skill,

Is it a key of

performance ?

기술경영학 협동과정 류성일2012 년 12 월 10 일

Page 2: Big Data handling skill,  Is it a key of performance ?

2

1. BigData 특징

Big Data 의 5 대 특징 : 대용량 , 다양성 , 속도↑ , 복잡성 , 분석모델無 ( 가트너 , 매킨지 , 베인 , 부즈 )

James Manyika, Michael Chui, Brad Brown, Jacques Bughin, Richard Dobbs, Charles Rox-burgh, Angela Hung Byers (2011), Big data: The next frontier for innovation, competi-tion, and productivity, McKinsey Global Institute, McKinsey & Co.

Data Vol-umes

처리해야 할 데이터량 방대함 ( 물리적인 크기뿐만 아니라 현재의 기술로 처리가능한 양인지 아닌지에 따라 판단 )

Gathner (2011)McKinsey (2011)Bain&co. (2012)Booz&co.(2012)

Data Struc-ture

비정형 데이터의 비중이 높음( 소셜 미디어 데이터 , 로그 파일 , 클릭스트림 데이터 , 콜센터 로그 , 통신 로그 등 )

Gathner (2011)McKinsey (2011) Bain&co. (2012)Booz&co.(2012)

Velocity ↑실시간으로 데이터가 생성될 때 데이터를 빠르게 처리하는 니즈 증가실시간 처리 , 스트림 처리 등이 주목받음

McKinsey (2011) Bain&co. (2012)Booz&co.(2012)

Processing Complexity

처리 복잡도가 높음 ( 다양한 데이터 소스 , 복잡한 로직 처리 등 )

Gathner (2011)Bain&co. (2012)

Analysis flexibility

잘 정의된 데이터 모델 / 상관관계 / 절차 등이 없음기존 데이터 처리방법과 프레임이 짜여진 바가 없음 ( 따라서 처리 방법에 유연성이 높음 )

Gathner (2011)

Bain & Company (2012), Navigating the Big Data challenge

Booz&co. (2012), Benefitting from Big Data Leveraging Unstructured Data Capabilities for Competitive AdvantageGathner (2011), CEO Advisory : Bit Data Equals Big Opportunity

Gathner (2011), Big Data Analytics

Page 3: Big Data handling skill,  Is it a key of performance ?

3

1. BigData 특징

Big Data 의 분류 (IDC, 2011)

IDC's Digital Universe Study, sponsored by EMC, June 2011

Page 4: Big Data handling skill,  Is it a key of performance ?

4

2. BigData 활용으로 기업이 얻는 효과

Big Data 의 가치 : 투명성 , 성과향상 , 세그먼트 , 의사결정 , 신상품및 BM 발굴 (McKinsey, 2011)

James Manyika, Michael Chui, Brad Brown, Jacques Bughin, Richard Dobbs, Charles Rox-burgh, Angela Hung Byers (2011), Big data: The next frontier for innovation, competi-tion, and productivity, McKinsey Global Institute, McKinsey & Co.

Creating transparency

빅데이터를 통해 주주들에게 올바른 정보를 적시에 제공될 수 있음 .R&D 나 제조 부문에서도 통합된 데이터는 결과물의 품질과 소요시간을 단축시킴 .

Improve per-formance

제품 재고 현황 에서부터 직원 병가에 이르기까지의 모든 데이터가 관리됨으로써 , 보다 정확하고 상세한 데이터를 수집할 수 있고 이를 통해 매니저는 성과 향상을 위한 솔루션을 찾을 수 있음

Segmenting populations 빅데이터를 통해 보다 세밀하고 정확한 제품 / 고객 세그먼트를 발견할 수 있음

Decision mak-ing

의사결정 지원을 위한 자동화된 알고리즘 개발이 가능이러한 도구를 통해 리스크를 줄이고 보이지 않던 인사이트를 발견할 수 있음 .

New BM, product and services

빅데이터 분석을 통해 새로운 제품 및 서비스를 발견하거나 전혀 다른 비즈니스 모델을 발견할 수 있음

Page 5: Big Data handling skill,  Is it a key of performance ?

5

3. BigData 경쟁우위 Level

McKinsey (2011) NIA (2012) Booz&Co. (2012)

Tech. & Technique

스토리지 , 컴퓨팅 , 분석 S/W 등의 기술적 뒷받침이 필요

[ 기술 ] 데이터 저장 / 관리 기술 , 데이터 분석 기술 ( 자연어처리 , 데이터마이닝 ), 시각화

[Solution Maturity] 분석 방법론 아직 정착안됨[Tech.] Velocity, Volume, Va-riety of Data 를 커버할 기술

Access to data

다양한 원천으로부터 데이터를 수집하고 통합할 수 있어야 함

[ 자원 ] 데이터 자원 확보 , 데이터 품질 관리 -

Organiza-tional change and talent

빅데이터 활용에 대한 이해가 충분한 사람이 조직의 리더를 맡아야 하며 , 보상체계와 업무 체계를 갖추어야 함

[ 인력 ] 데이터 엔지니어 육성 및 확보

[ 조직적 한계 ] 데이터 핸들링 /분석 전문성 부족 해결해야[ 문화적 허들 ] 조직 문화가 빅데이터를 잘 활용할 수 있게 바뀌어야 함 .

Data Policy

프라이버시 침해 , 보안 문제를 해결해야 하며 , Linked-Data 증대가 초래할 분쟁에 대비해 법률적 뒷받침도 필요

-[Privacy 문제 ] 개인 정보의 활용에 거부감 , 리스크 있음[Trust 이슈 ] 보안 문제

Competitive structure

빅데이터를 통한 가치 실현을 위해 산업내 경쟁환경 필요 ( 경쟁 강도가 약한 공공부문은 생산성 향상 노력이 부족하므로 , 빅데이터 활용 시도 또한 잘 이뤄지지 않음 )

-

James Manyika, Michael Chui, Brad Brown, Jacques Bughin, Richard Dobbs, Charles Roxburgh, Angela Hung Byers (2011), Big data: The next frontier for innovation, competition, and productivity, McKinsey Global Institute, McKinsey & Co.

BigData 로 부터 경쟁우위를 얻기 위한 요건

NIA (2012), 성공적인 빅데이터 활용을 위한 3 대 요소 : 자원 , 기술 , 인력Booz&co. (2012), Benefitting from Big Data Leveraging Unstructured Data Capabilities for Competitive Advan-tage

Page 6: Big Data handling skill,  Is it a key of performance ?

6

3. BigData 경쟁우위 Level

→ ‘4. BigData 프로세스별 기술 Level’ 챕터에서…

1) ‘Tech. & Technique’ Level

a) 데이터 원천 확보 / 확장을 위해 얼마나 노력하고 있는 지를 측정b) 전년도에 비해 확보 데이터 원천이 증가했는 지를 확인

2) ‘Access to data’ Level

a) 데이터 전문가 영입 또는 육성 노력 수준을 평가b) 빅데이터 운용 / 분석 성과를 측정하기 위한 인사 제도 및 보상 체계 마련 수준c) 부문 리더가 빅데이터에 대한 이해를 갖추고 있는지 평가

3) ‘Organizational change and talent’ Level

a) 빅데이터 관련 프라이버시 침해 , 보안 문제를 해결하기 위한 약관 마련 , 제도 보완b) 기업 외부 및 타 부서간 Linked-Data 에 대한 소유권 , 책임 등의 제도 마련

4) ‘Data Policy’ Level

Page 7: Big Data handling skill,  Is it a key of performance ?

7

BigData 프로세스 별 , [Tech. & Technique] 리뷰

Pete Varden (2011), 문혜정 (2012) 안창원 , 황승구 (2012)

Data source

내부 데이터 (DB, File 관리시스템 )외부 데이터 (SNS, 공개정보 수집 )

-

Collecting Crawling ( 검색 엔진의 로봇을 이용한 데이터 수집 )ETL ( 소스 데이터의 추출 , 전송 , 변환 , 적재 )

데이터수집 로봇 , Life Logger데이터 가상화 기술

Prepro-cess 데이터 통합 , 데이터 정제 , ETL

Storage DB, 기록매체 , 서버관리 대용량 파일분산 시스템 , MapReduce, 인 - 메모리 DB, 인 -DB 분석Handling 데이터의 추출 , 가공

Analysis 자연어처리 , 기계 학습 , 서열화 등의 분석 자연어처리 , Text 마이닝 , 예측분석 등

Expres-sion 표현 ( 도표 , 그래픽으로 시각화 ) 그래픽 기반 모델링 도구 , 인포그래픽스 ,

동적 가시화 도구

Pete Warden (2011), Big Data Glossary, O’Reilly Media

문혜정 (2011), Big Data 구축기술과 사례를 중심으로

안창원 , 황승구 (2012), 빅데이터 기술과 주요 이슈

4. BigData 프로세스별 기술 Level

Page 8: Big Data handling skill,  Is it a key of performance ?

8

4. BigData 프로세스별 기술 Level

얼마나 풍부한 데이터 수집 방법을 도입하고 있는지를 평가

ex) 외부 Big Data 자동 수집 방법 (NIA, 2012)

Log 수집 Crawling Sencing Open API

조직 내부에 존재하는 정보의 로그 수집

( 웹로그 , 트랜잭션 로그 , 클릭 로그 , DB

로그 )

조직 외부에 존재하는 소셜 데이터 등의 공개된

자료를 수집

공개된 자료는 아니지만 , 자체 도구 / 방법론을 이용해 추가 데이터를

수집

데이터 공유 , 참여를 지원하는 웹 2,0 기술을 활용하여 더 많은 정보를

수집

자신의 데이터가 내 / 외부 다른 소스의 데이터와 연계되고 인용되는 등 ,

Linked Data 가 만들어질 수 있는 수준 ( 다른 조직에서 데이터 시너지 효과 창출 가능성 )

NIA (2012), 빅데이터 시대의 데이터 자원 확보와 품질 관리 방안

1) Collecting 및 Preprocess 단계

a) 데이터를 기록 / 관리 캐파 향상을 위해 노력하고 있는지를 평가b) 전년도에 비해 확보 서버 / 스토리지 수준이 증가했는 지를 확인c) 메인프레임형 서버 → 분산형 서버로 교체 수준 ( 예정 ) 을 확인d) 비정형 데이터 처리 증가 수준 평가

2) Storage 및 Handling 단계

ex) 분산형 스토리지 / 클라우드형 스토리지 운용 여부 평가

분산형 스토리지 혹은 클라우드형 스토리지 도입 수준 등으로 평가(ex: Hadoop 등 )

Page 9: Big Data handling skill,  Is it a key of performance ?

9

4. BigData 프로세스별 기술 Level

ex) 비정형 데이터를 기록 / 관리 수준으로 평가

비정형 데이터는 어느정도 구조적인 형태로 변형하여 저장해야 함(ex: Scribe, Flume, Chuckwa 등의 오픈소스 솔루션 )

ex) Linked Data 5-Level (Berners-Lee, 2009)

1 등급 2 등급 3 등급 4 등급 5 등급

임의의 형식으로 공개 / 제공

기계 처리 가능한 정형 데이터 (ex: 그림파일

대신 엑셀파일 )

표준 공개 형식(ex: CSV 파일 )

확장된 표준(ex: W3C 의 RDF,

SPARQL)

타조직 / 외부의 데이터와 링크해서 데이터를 진화시킴 (Linked RDF)

자신의 데이터가 내 / 외부 다른 소스의 데이터와 연계되고 인용되는 등 ,

Linked Data 가 만들어질 수 있는 수준 ( 다른 조직에서 데이터 시너지 효과 창출 가능성 )

Berners-Lee, T.(2009) Linked Data, http://www.w3.org/DesignIssues/LinkedData.html.

※ SPARQL 은 RDF 트리플로 이루어진 그래프 구조의 시맨틱 웹 데이터를 효과적으로 질의하기 위한 언어 2008년 W3C 의 권고안 (Recommendation-http://www.w3.org/TR/rdf-sparql-query/) 으로 제정된 SPARQL 1.0 은 RDF, RDFS, OWL 과 같은 시맨틱웹 표준으로 기술된 시맨틱웹 데이터를 접근하기 위한 표준

4) Analysis 단계

a) 데이터 분석 수준 및 범위 증대를 위해 노력하고 있는지를 평가b) 데이터 분석 과업에 투입한 시간 x 인력 (MM) 가 증가했는 지를 확인c) Hadoop 등의 분산형 빅데이터 분석 S/W 도입 수준을 평가

5) Expression 단계

a) 빅데이터 Visualization 툴 개발 노력 평가b) ‘ 클릭뷰’ , ‘ 스팟파이어’ 등과 같은 데이터 Visualization 솔루션 도입 여부 평가c) 빅데이터 기반의 실시간 프리젠테이션 활용 정도 평가

Page 10: Big Data handling skill,  Is it a key of performance ?

10

5. R&D performance

BSC(Balanced Scorecard)-based R&D 성과 지표 (kerssens-van Drongelen, 1997)R&D 특성상 최종 제품이 아닌 경우가 대부분으로 , 재무지표 외에 고객관점 및 혁신수행관점 등의 평가 척도가 포함됨

Perspec-tive

Category Measure

Internal business

Productivity hours spent on projects/total hour R&D

Speed to market technol-ogy/design reuse

Current time to market(development time)/reference timeto market (development time)

Reliable delivery of out-puts

sum of revised project durations/sum of planned durations

Quality of output no. of times rework required

Innovation and

learning

Technology leadership no. of patentable discoveries per $ spent on R&D

Long-term focus% of budget spent internally and externally on basic and ap-plied research

High absorptive capacity % of project in cooperation with third party

Learning organization % of project evaluation ideas applied in new projects

Financial

Survive PV of R&D accomplishments / R&D expenditure

Succeed % of sales from new products

Prosper Market share gained due to R&D

Customer

High customer satisfac-tion

Score on customer satisfaction audit % of customer driven projects

Anticipation of internal and external customers needs

% of customer driven projects

High level of design for manufacture

Engineering hours on projects / engineering hours on project and troubleshooting

R&D hit rate % of projects terminated before implementation

Kerssens-van Drongelen, I.C., and Cooke, A. (1997), Design principles for the development of measurement systems for research and development processes. R&D Management, 27, 4, 345–357.

Page 11: Big Data handling skill,  Is it a key of performance ?

11

6. 최종 연구 모형

Access to data

BigData 경쟁우위 Level

Tech. & Technique

Organizational change and tal-

ent

Data Policy

Collecting & Preprocess

Storage & Handling

Analysis

Expression

BigData 프로세스별기술 Level

Big dataManagement

Level

R&DPerformance

How close it is to big data condition

BigData Management Level

R&DPerformance

Data Structure

Data Volumes

Velocity ↑

Processing Com-plexity

Analysis flexibilityCompetitive

structure

(moderator)

과업 / 프로세스의BigData 연관성

Competitiveenvironment

BigData 의 요건

P7,8,9

P5,6

P4 P10

p2

p5

Page 12: Big Data handling skill,  Is it a key of performance ?

12

7. 후속 작업

- 독립변수 : BigData 프로세스별 기술 Level, BigData 경쟁우위 Level - 종속변수 : R&D Performance - 조절변수 : Environment (

조절변수 )

1) 추가 문헌 리뷰 , 모형 단계별 측정 지표 정교화

- 파일롯 테스트 결과 , 연구 모형 검토 및 수정- 최종 서베이 문항 확정

2) 측정 서베이 설계 및 파일롯 테스트

- 필요시 서베이 전문 업체 용역 활용- 여건이 허락한다면 , 중 / 소 vs 대기업으로 설문 대상을 구분

3) 최종 서베이 수행

- 분석 결과의 시사점 수준에 따라 , 논문의 향후 활용 방안 결정

4) 논문 작성

Page 13: Big Data handling skill,  Is it a key of performance ?

Thank you