주제 : 빅 데이터의 오늘과 , 내일

20
주주 : 주 주주주주 주주주 , 주주 네네네네 네네네 네네네네 B네 네네네 : 네네네 네네 : 네네네 네네네 네네네

Upload: premala-susan

Post on 01-Jan-2016

48 views

Category:

Documents


5 download

DESCRIPTION

주제 : 빅 데이터의 오늘과 , 내일. 네트워크 컴퓨팅 프로젝트. B 반. 발표자 : 이광복 팀원 : 김정훈 박기호 이광복. 네트워크 컴퓨팅. 1. Big Data - Big data 정의 및 특징 - Big data 배경 2. 빅 데이터 기술 및 업체 동향 - 기술 동향 - 업체 동향 - 적용 사례 3. 전망 - 향후 전망 - 관련 이슈 및 과제. 목차. 네트워크 컴퓨팅. IT 업계의 새로운 화두 Big Data 란 ??. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: 주제 :  빅  데이터의 오늘과 ,  내일

주제 : 빅 데이터의 오늘과 , 내일

네트워크 컴퓨팅 프로젝트

B 반발표자 : 이광복

팀원 : 김정훈박기호이광복

Page 2: 주제 :  빅  데이터의 오늘과 ,  내일

목차 네트워크 컴퓨팅

1. Big Data- Big data 정의 및 특징- Big data 배경

2. 빅 데이터 기술 및 업체 동향- 기술 동향- 업체 동향- 적용 사례

3. 전망- 향후 전망- 관련 이슈 및 과제

Page 3: 주제 :  빅  데이터의 오늘과 ,  내일

1. Big Data - 정의 및 특징 (1) 네트워크 컴퓨팅

IT 업계의 새로운 화두 Big Data란 ??

단순히 많은 양의 데이터

너무 방대해 일반적으로 사용하는 방법이나 도구로 수집 , 저장 , 검색 , 분석 , 시각화 등을 하기 어려운 데이터 집합

그러한 데이터 집합을 활용하는 영역이나 기술까지

데이터 베이스의 규모에 초점을 맞춘 정의 (McKinsey, 2011)- 일반적인 데이터베이스 SW 가 저장 , 관리 , 분석할 수 있는 범위를 초과하는 규모의 데이터

데이터 베이스가 아닌 업무수행에 초점을 맞춘 정의 (IDC, 2011) -다양한 종류의 대규모 데이터로부터 저렴한 비용으로 가치를 추출하고 데이터의 초고속 수집 , 발굴 , 분석을 지원하도록 고안된 차세대 기술 및 아키텍처

Page 4: 주제 :  빅  데이터의 오늘과 ,  내일

1. Big Data - 정의 및 특징 (2) 네트워크 컴퓨팅

빅 데이터의 3 가지 특징

데이터 종류의 증가비정형 , 구조화 되지 않은 데이터

데이터의 기하급수적인 증가방대한 데이터의 집합

대 용 량

다 양 성

실시간 데이터 생성 , 활용빠른 데이터 분석 , 처리

속 도

Page 5: 주제 :  빅  데이터의 오늘과 ,  내일

1. Big Data - 배경 네트워크 컴퓨팅

빅 데이터의 등장 배경

비정형 데이터의 증가

SNS 의 대중화

데이터 분석 기술의 발전

소셜미디어 상호작용 , 스마트폰 등 인터넷 연결기기의 폭증 , 멀티미디어 콘텐츠의 활용증대

빅데이터 분석을 통해 의미있는 정보를 실시간으로 도출 , 비즈니스적 가치 확보

구글 , IBM, HP, 후지쯔 , NEC 등 글로벌 IT 기업들은 빅데이터 지원 제품 및 서비스 제공

Big Data

Page 6: 주제 :  빅  데이터의 오늘과 ,  내일

2. 빅 데이터 기술 및 업체 동향 - 기술 동향 (1) 네트워크 컴퓨팅

데이터의 증가 더욱 고사양 고가의 장비로 교체 ?

전 서비스 영역에서 개인화 서비스와 소셜 서비스를 제공해야 하는 환경으로 변화

기존의 시스템 , 소프트웨어 아키텍처의 Scale-Up만으로는 한계

Page 7: 주제 :  빅  데이터의 오늘과 ,  내일

2. 빅 데이터 기술 및 업체 동향 - 기술 동향 (2) 네트워크 컴퓨팅

분산 처리 시스템

- 효과적인 분산처리 시스템을 통한 유연한 서버 운용이 핵심 경쟁력- 서버 사양과 단일 스토리지 용량보다는 이를 효율적으로 운용하는 소프트웨어가 중요해 짐- 기술이 발전하고 있는 과정 , 대부분 오픈소스 형태

Page 8: 주제 :  빅  데이터의 오늘과 ,  내일

2. 빅 데이터 기술 및 업체 동향 - 기술 동향 (3) 네트워크 컴퓨팅

아파치 H 베이스 (Apache HBase)

아파치 H 베이스 (Apache HBase) 는 구글의 빅테이블 (BigTable) 을 본떠 자바로 작성된 오픈소스 비관계 열지향 분산형 데이터베이스 (non-relational columnar dis-tributed database) 로 , 하둡 분산형 파일시스템 (HDFS, Hadoop Distributed Filesystem) 에 기반한 구동을 목적으로 설계됐다 . 이는 폴트 톨러런트 스토리지(fault-tolerant storage) 와 대량의 희소 데이터 (sparse data) 에의 신속한 접속을 지원한다 . H 베이스는 지난 몇 해간 시장의 관심을 모은 NoSQL 데이터 스토어(NoSQL data store) 중 하나다 .

아파치 카우치 DB(Apach CouchDB)

아파치 카우치 DB(Apach CouchDB) 역시 오픈소스 NoSQL 데이터 스토어 중 하나다 . 이는 JSON 을 이용해 데이터를 저장하고 있으며 자바스크립트를 쿼리 랭기지 (query language) 로 , 맵리듀스와 HTTP 를 API 로 사용하고 있다 .

몽고 DB(MongoDB)

몽고 DB(MongoDB) 는 대중적으로 사랑받는 또 다른 NoSQL 데이터 스토어다 . 몽고 DB 는 역동적 스키마(dynamic schema) 를 통해 정형 데이터를 BSON(Binary JSON) 이라고 하는 JSON 형태의 문서로 저장한다 . 시장의 여러 대기업들이 몽고 DB 를 채택하고 있다 .

하둡 (Hadoop)

데이터 집약적 분산형 애플리케이션 (data-intensive distributed application) 용 오픈소스 소프트웨어 프레임워크이다 . 복수의 컴퓨터를 연결해 처리하기 위해 맵리듀스 기능과 분산 파일 시스템을 도입했고 , 이로부터 하둡의 역사가 시작됐다 . 현재 하둡은 빅 데이터를 구성하는 정형 , 반정형 , 비정형 데이터를 저장하는 가장 대중적인 테크놀로지로 사랑받고 있다 .

엘라스틱서치 (ElasticSearch)

엘라스틱서치 (ElasticSearch) 는 분산형 레스트풀(RESTful) 오픈소스 검색 서버다 . 이는 특별한 설정 없이도 거의 실시간의 검색과 멀티테넌시(multitenancy) 를 지원하는 스케일러블 솔루션(scalable solution) 이다 . 현재는 스텀블어폰(StumbleUpon) 이나 모질라와 같은 여러 기업들이 이를 채택하고 있다 .

R

R 은 오픈소스 프로그래밍 언어이자 통계적 컴퓨팅과 가상화를 지원하는 소프트웨어 환경이다 . 대량의

데이터 셋을 통계적으로 분석하기 위한 툴로 큰 인기를 누리고 있다 .

캐스케이딩 (Cascading)

하둡용 오픈소스 소프트웨어 추상화 계층 (abstraction layer) 으로 , 사용자들이 JVM 기반 언어를 활용해 하둡 클러스터에서 데이터 프로세싱 워크플로 (data process-ing workflow) 를 제작 , 실행할 수 있도록 지원한다 . 캐스케이딩의 장점은 맵리듀스 작업 근간의 복잡성을 숨겨준다는데 있다 . 스크라이브 (Scribe)

스크라이브 (Scribe) 는 페이스북이 개발한 서버로 , 2008년부터 사용되기 시작했다 . 이는 여러 서버들에서 실시간으로 스트림되는 로그

데이터를 종합하는 역할을 한다 . 페이스북의 자체 스케일링 (scaling) 작업을 위해 설계된 스크라이브는

현재 매일 수백 억 건의 메시지를 처리하고 있다 . 카산드라 (Cassandra)

또 하나의 NoSQL 데이터 스토어 아파치 카산드라는 자신들의 인박스 서치 (Inbox Search) 기능을 지원할 목적으로 페이스북이 개발한 오픈소스 분산형 데이터베이스 관리 시스템이다 . 페이스북이 2010년 카산드라를 포기하고 H 베이스를 채택하긴 했지만 , 카산드라는 여전히 많은 기업들에서 활용되고 있다 .

Page 9: 주제 :  빅  데이터의 오늘과 ,  내일

2. 빅 데이터 기술 및 업체 동향 - 업체 동향 (1) 네트워크 컴퓨팅

빅 데이터는 클라우드 기반의 대용량 데이터 처리 기술인 하둡 (Hadoop) 을 비롯해 , 전통적인 RDBMS 를 보완하기 위한 NoSQL(Notonly SQL), 그리고 각종 데이터 시각화(Data Visualization) 기법에 이르기까지 방대한 기술 세트를 사용한다 .

따라서 데이터를 저장하고 분석하는 부분에서 경쟁사보다 우수한 기술을 보유한 신생 기업이 나타나면 이를 경쟁적으로 인수하고 있는 상황이다 .

위키본 (Wikibon) 에 따르면 , 2011 년 빅 데이터 시장 규모는 52 억 달러였으며 하드웨어 , 소프트웨어 , 서비스 분야 중 서비스 매출이 44% 로서 가장 큰 비중을 차지했다 .

빅 데이터 시장에서 앞서가기 위해서는 서비스 역량이 가장 중요할 것으로 판단 . 빅 데이터의 궁극적인 목적은 기술의 도입이 아니라 이를 통해 비즈니스 통찰력을 도출하고 실제로 비즈니스를 향상시키는 것이기 때문이다 .

Page 10: 주제 :  빅  데이터의 오늘과 ,  내일

2. 빅 데이터 기술 및 업체 동향 - 업체 동향 (2) 네트워크 컴퓨팅

● 데이터 저장부터 관리 , 분석까지 빅데이터와 관한 모든 것을 제공하기 위해 그린플럼 , 아이실론 등 빅데이터 솔루션 업체 및 데이터 관련 다수업체 인수 ● 빅데이터 스토리지 솔루션 ( 아이실론 , 이트모스 ), 콘텐츠 관리 솔루션 등 제공 ● EMC 애널리스트 랩을 운영하며 데이터 사이언티스트 (Data Scientist) 육성

● 140 억 달러 이상을 투자하여 비즈니스 분석 관련업체 인수 - 분석용 데이터 저장관리 업체 ( 네티자 ), 데이터 통합 업체 ( 에센셜 ), 분석 솔루션 업체 등 ● 빅데이터 솔루션 : InfoSphere BigInsight(Hadoop). InfoSphere Streams ● 지속가능한 지구를 만들기 위해 지구 데이터 ( 기온 , 토양상태 , 교통 흐름 등 ) 를 분석하는 ‘스마트 플래닛 (smart planet)’ 프로젝트 전개

● 세계적인 DB 업체 , ‘ 하이페리온社’를 인수로 분석기술 확보 ● 오라클 빅데이터 어플라이언스 제품 출시

Page 11: 주제 :  빅  데이터의 오늘과 ,  내일

2. 빅 데이터 기술 및 업체 동향 - 업체 동향 (3) 네트워크 컴퓨팅

● 업무용 어플리케이션 업체에서 최근 DB 전문업체로 변신 ● 메모리 기반 DB 어플라이언스 (HANA) 제시 ● BI 소프트웨어 , 플랫폼을 제공하는 ‘비즈니스 오브젝트社’ 인수

● 데이터웨어하우징 및 비즈니스 인텔리전스 (BI) 전문업체 ● 비정형 데이터의 고급분석 , 관리 솔루션 업체 인수 ( 애스터데이터 ) ● 애스터 맵리듀스 플랫폼 제시

● BI 솔루션 업체 ‘버티카’ , 기업용 검색엔진 업체 ‘오토노미’ 인수 ● 버티카와 오토노미를 결합하여 빅데이터 분석 시장에 진입 ● 인스턴트 - 온 엔터프라이즈 (Instant-On Enterprise) 솔루션으로 기업경영의사 결정 , 경영정보 분석 등 경영지원 전략 수립 서비스 제공

Page 12: 주제 :  빅  데이터의 오늘과 ,  내일

2. 빅 데이터 기술 및 업체 동향 - 업체 동향 (4) 네트워크 컴퓨팅

● 비즈니스 인텔리젼스 (BI) 소프트웨어 공급업체 ● BI(Business Intelligence) 에 빅데이터 분석 처리를 접목하여 사업 역량 강화

● 대용량 데이터 처리 기술 발표 : GFS(Google File System, 2003 년 ), MapReduce(2004 년 ), Sawzall(2005 년 ), Bigtable(2006 년 ) ● 빅쿼리 (Big Query) 서비스 공개 (2011 년 ): 이용자 ( 기업 등 ) 가 업로드한 거대한 양의 데이터 분석 처리를 지원하는 서비스

● 윈도 애저 (Windows Azure) 와 윈도 서버 플랫폼용 아파치 하둡 개발 계획 ● 하둡 (Hadoop) 기술 전문업체 ‘호튼웍스’와 협력

Page 13: 주제 :  빅  데이터의 오늘과 ,  내일

2. 빅 데이터 기술 및 업체 동향 - 적용 사례 (1) 네트워크 컴퓨팅

구글 독감예보

• 시간별 , 지역별 독감 관련 검색어 빈도를 지도에 표시 , 확산 정도 뿐만 아니라 확산되는 방향에 따라 예보도 하는 서비스 제공

• 미국 질병통제예방센터보다 2 주나 빠르고 정확히 예측http://www.google.org/

flutrends/

구글 실시간 번역 및 오타체크 서비스

• 미리 번역한 문서에서 뜻이 비슷한 문장과 어구를 대응시키는 방식 . 엄청난 양의 데이터를 통원해 번역의 정확성을 크게 높임 . 수십억장의 문서를 바탕으로 총 65 개의 번역서비스 제공 .

• 매일 3 억 건씩 발생하는 검색창의 오타입력과 수정 정보를 활용해 오타체크 프로그램 제작

Page 14: 주제 :  빅  데이터의 오늘과 ,  내일

2. 빅 데이터 기술 및 업체 동향 - 적용 사례 (2) 네트워크 컴퓨팅

페이스북 친구 추천

• 회원들의 관계 데이터들을 수집해 지인들이 많이 겹치는 사람을 우선적으로 친구로 추천 .

같은 학교 , 직장 , 동아리 사람들을 친구로 추천 , 심지어 자신을 검색한 적이 있는 사람을 친구로 추천 .

아마존 추천 기능• ‘ 데이터는 절대 버리지 않는다’는 경영진 기조를 바탕으로 데이터 분석을 경영 철학화

• 소비자 성향 및 패턴을 분석하여 ‘당신이 아마도 좋아할 것들’ 이라는 말을 붙여 구매를 유도하는 추천엔진 개발 . 매출의 30% 가 추천엔진에서 발생

Page 15: 주제 :  빅  데이터의 오늘과 ,  내일

2. 빅 데이터 기술 및 업체 동향 - 적용 사례 (3) 네트워크 컴퓨팅

T-mobile 고객 이탈 방지• 매일 170 억 건 이상의 통화 및 송수신 내역을 담은 데이터 발생 , 이를 분석해 다른 통신사로 옮긴 고객이 사전에 보였던 특유의 패턴 발견

• 고객간 소셜 네트워크를 분석 , 영향력이 큰 고객을 따라 지인들이 동반 이탈하는 현상 발견 . 이탈 징후 보이는 고객에게 맞춤형 추가혜택 제공하여 Lock-in 유도

• 시스템 구축 직후인 2011 년 2/4 분기 이탈 고객 수 5 만 명으로 1/4분기 9 만 9,000 명 절반 수준으로 감소

포드 스마트 자동차• 시시각각으로 운전데이터를 수집 , 유저가 어디로 향하려 하는가 등을 실시간으로 예측하는 등의 미래 스마트자동차 개발 목표

• 구글과 ' 하이브리드 자동차스마트 서비스 ' 공동 개발 중 . 실시간으로 수집되는 교통정보 데이터를 분석하여 교통혼잡지역을 피함과 동시에 운전자의 운전습관에 기초하여 가장 에너지를 절약하는 방식으로 운전자의 목적지 경로를 추천

Page 16: 주제 :  빅  데이터의 오늘과 ,  내일

3. 전망 - 향후 전망 (1) 네트워크 컴퓨팅

5 년간 Big Data 시장규모 전망

$50.1억

$534 억

Page 17: 주제 :  빅  데이터의 오늘과 ,  내일

3. 전망 - 향후 전망 (2) 네트워크 컴퓨팅

빅 데이터 활용이 정보통신 , 교육 , 의료 , 금융 등 사회 각 분야로 확산되면서 사회전반의 생산성 향상에 기여할 전망

Page 18: 주제 :  빅  데이터의 오늘과 ,  내일

3. 전망 - 향후 전망 (3) 네트워크 컴퓨팅

향후 빅 데이터 시장 전개 방향

첫째 , 데이터의 가치가 증대됨에 따라 업체들간에 데이터를 거래하는 데이터 마켓플레이스가 주목 받게 될 것이다 .

둘째 , 물리적 현상을 나타내는 데이터를 수집함에 따라 온라인과 오프라인의 연계가 더욱 중요해질 것이다 .

셋째 , 빅 데이터에서 탁월한 성과를 내기 위해서는 무엇보다도 빅 데이터를 활용할 수있는 성숙된 IT/ 조직 문화의 확립해야 한다 . 더불어 IT 및 비즈니스 도메인 지식을 갖춘 인력 , 그리고 통계학 , 수학적 지식을 갖춘 데이터 사이언티스트를 확보하는 것이 중요한 선결과제라고 볼 수 있다 .

Page 19: 주제 :  빅  데이터의 오늘과 ,  내일

3. 전망 - 관련 이슈 및 과제 네트워크 컴퓨팅

개인정보 유출 및 사생활 침해 문제 보안 및 영업비밀의 유출 문제

소유권 및 사용권 문제 인프라 구축과 전문인력 확보

Page 20: 주제 :  빅  데이터의 오늘과 ,  내일

감사합니다 .

소아과