big data ウェビナー シリーズ hadoopベーシック - …...2015/04/08  ·...

28
シスコシステムズ合同会社 Big Data ウェビナー シリーズ ビッグデータの中心的技術Hadoopを知る Hadoopベーシック

Upload: others

Post on 24-May-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

シスコシステムズ合同会社

Big Data ウェビナー シリーズ ビッグデータの中心的技術Hadoopを知る 「Hadoopベーシック」

期間: 2015年3月11日〜7月15日 毎週水曜日

時間:基本 夕方30分間(16:00〜17:00の間)

対象:シスコ パートナー様、シスコ製品ユーザ様

スピーカー:シスコ社員、エコ パートナー様

目的:ビッグデータ初心者に対してビッグデータの一般知識、

製品知識をお伝えする。

また、シスコの製品とシスコ エコ パートナー

の組み合わせで実現できる

ビッグデータ&IoEソリューションについて言及する。

Big Data ウェビナー シリーズ

ビッグデータ ウェビナー シリーズ予定 *現時点での予定でスピーカーの都合などにより予定は変更の可能性がございます。

3/11 ビッグデータ を取り巻く ビジネスとは

シスコ パートナー様にとってビッグデータってなに?

3/18 ビッグデータってどういう技術で成り立っているの?

3/25 シスコ ビッグデータ ポートフォーリオ

4/8 ビッグデータ

の中心的技術

Hadoopを知る

Hadoopベーシック

4/15 シスコのHadoopリセールについて

4/22 Hadoopサイジング ガイドライン

5/13 シスコのビッグデータ用統合インフラ CPA

5/20 ゲストスピーカー MapR社の製品概要とシスコとの協業

5/27 ゲストスピーカー Cloudera社の製品概要とシスコとの協業

6/3 ゲストスピーカー Hortonworks社の製品概要とシスコとの協業

6/10 Hadoopと ネットワーク

Hadoop環境で考慮すべきネットワークの設計

6/17 Cisco Application Centric Infrastructure (ACI)とビッグデータ

IoE/ビッグデータを加速するポートフォーリオ

ルータ

産業用ルーター CGR 1120 IOx

シスコ産業用スイッチ IE2K,4K

Wi-Fi

工場サーバ ルーム

車両

店舗

Cisco ISR

Cisco CGR

Cisco UCS

データセンター

次世代データ処理基盤

構造化データをより高速に処理

大量の非構造化データを分散処理

屋外、室内、キャンパス

様々なものをつなぎ、情報収集

できるものは現場で処理

Connected Analytics (将来)

様々な集めた情報を分析、

解析、表示。

ソフトウェアおよびサービス

Cisco Nexus & ACI

ビックデータ:Hadoop基盤としてのCisco UCS

ソリューションパック名 スターター パック

ハイ パフォーマンス パック

パフォーマンス 最適化 パック

キャパシティ 最適化 パック

大規模 キャパ シティパック

サーバ UCS C220 M4 (8台) UCS C220 M4(8台) UCS C240 M4(16台) UCS C240 M4(16台

) UCS C3160(2台)

プロセッサ 2 x Intel Xeon

E5-2620 v3 2 x Intel Xeon

E5-2680 v3 2 x Intel Xeon

E5-2680 v3 2 x Intel Xeon

E5-2620 v3 2 x Intel Xeon

E5-2695 v2

メモリ 256G 384G 256G 128G 256G

ストレージ容量

8 x1.2-TB 10K

SAS SFF HDD

2 x 1.2-TB 10K SAS

SFF HDD,, 6 x400-

GB SAS SSD

2 x120-GB SATA SSD,

24 x 1.2-TB 10K SAS

SFF HDD

2 x120-GB SATA

SSD. 12 x 4-TB

7.2K SAS LFF HDD

2 x 120-GB SATA SSD,

60 x 4-TB 7.2K SAS LFF

HDD

IO 帯域 UCS VIC 1227 2

10GE UCS VIC 1227 2

10GE UCS VIC 1227 2 10GE

UCS VIC 1227 2

10GE 2 UCS VIC 1227 2 10GE

型番 UCS-SL-CPA3-S UCS-SL-CPA3-H UCS-SL-CPA3-P UCS-SL-CPA3-C UCS-SL-CPA3-D

用途

アナリティクス、NoSQL, エントリーレベル

Hadoop

非常にパフォーマンスと密度を要求されるア

ナリティクス

Hadoop, NoSQL, MPP等スケールアウト

アプリでパフォーマンス重視

ディスク容量が必要なHadoopやスケールアウトストレージ

大容量ディスク。 テラバイト単価がお得&高

密度

Webで 簡単アクセス

UCS

Director

Express

UCS

Manager

OS/

Hadoop

インストール

Hadoop

Manager

アプリ

モニター

検証済ソリューションパック (CPA: Common Platform Architecture) v3

スモール スタート可能で100台超への拡張も容易

労力削減!物理サーバ、Hadoopクラスタの展開は、テンプレートを コピーして適用するだけ。数10台の 環境セットアップも数10分で完了。

Big Dataに最適な性能を提供(大容量メモリと広帯域接続)

集中的なHadoopクラスタと物理インフラストラクチャの可視化、インベントリ、トラブルシューティングも容易に!

大量のデータを保管するストレージとしても!

ビッグデータのスタンダードHWとしての豊富な実績

Why Cisco UCS?

シスコからCloudera, Hortonworks, MapRのHadoop

ソフトウェアサブスクリプションも購入できます。

UCS Director Express for Big Data

UCS Director Expressによる一元的な、ラック サーバ,

ネットワーク、Hadoopソフトの展開、管理

検証済ソリューション パックで、Hadoop基盤をシンプル&迅速に構築

Cloudera

MapR

Hortonworks

Agenda

• Hadoopの誕生と進化

いろいろなデータソース(構造と非構造) どのようなときに使うのか

Hadoopのエコシステム

商用ディストリビューション

• 活用事例

いろいろなデータソース

クラウド データ

ソース Big Data / IOE

ソース トラディショナルデータ ソース

これらのデータをどのように活用しますか?

SAP

HANA MongoDB Hadoop Teradata

Oracle

Database IBM DB2 Salesforce REUTERS Amazon

ビックデータの活用イメージ

総務省 http://www.soumu.go.jp/johotsusintokei/whitepaper/ja/h24/html/nc121410.html

(出典)情報通信審議会ICT基本戦略ボード「ビッグデータの活用に関するアドホックグループ」資料

• Cisco IE Series

• Wireless AP

• Firewalll

• ISR + UCS-E

• UCS

• Nexus

• UCS Invicta

• UCS Director

Express for BigData

•品質を高める •収益を上げる

• データを取り出す

• データを解析する

• データを処理する

• データから価値を引き出す

• データを視覚化する

• データを人に伝える

ビッグデータの課題

事業効率性分析

Web サービス

Excel ファイル

課金 DB

顧客DB 人材管理 ソフト

Web アクセス履歴

顧客の360度分析 収益の分析 リソース分析

財務会計 DB

Hadoop

安価なストレージ

Data warehouse

安定した分析環境

接続できない データソース

必要なデータを抽出してコピー ロケーションの集約

増える一方の分析手法とアプリケーション

様々な課題 •データ量と種類の課題 DWHに入りきらない・方式で接続不可など

•セキュリティの課題 データ複製によるコンプライアンス低下

•時間の課題 新しい分析をするには、DWHのストレージ増設、抽出のためのスクリプト・分析手法開発などで数か月以上かかる

• コストの課題 データ ウェアハウスのストレージ、上記開発などの費用がかさむ

現在のデータ環境 •データの増加 データそのものだけでなく、ソースのシステムやバリエーションも増加

•分析に対するデマンド データ解析手法も増加し、経営支援に 利用

同じ値段で得られるストレージの容量

SAN ストレージ

$2 - $10/Gigabyte

$1Mで:

0.5Petabytes

200,000 IOPS

1Gbyte/sec

NAS ファイラー

$1 - $5/Gigabyte

$1Mで:

1 Petabyte

400,000 IOPS

2Gbyte/sec

ローカル ストレージ

$0.10/Gigabyte

$1Mで:

10 Petabytes

800,000 IOPS

800 Gbytes/sec

Source: VMWare Strata Conference

ビックデータ処理への適用領域

ビッグデータの3大特性

• Volume(量) • Variety (多様性) • Velocity(頻度)

アーキテクチャは

スケール アップから

スケール アウトへ

出所:NRI『ITソリューションフロンティア』 2012年4月号の記事に基づき作成

主なベンダー

• Cloudera

• Hortonworks

• MapR

• Pivotal

Cisco Public 12 © 2015 Cisco and/or its affiliates. All rights reserved.

何故Hadoopなのか?

Big Dataの問題 Hadoopソリューション

• HDDのパフォーマンスがCPU

の処理能力、コア密度の急速な発展に追いつけず、処理に対して十分早くデータの提供ができない

• 非構造化データの爆発的増加の処理においてはトランザクション重視の、スキーマに凝り固まったRDBMSは適切ではない

• 水平型のスケール アウトが必須

• データ オリエンテッドな環境に移行。SAN/NASに起因するボトルネックを解消

• ソフトウェア コードに拡張性を実装, コモディティ ハードウェアを有効活用

• 頻繁な部分故障を考慮に入れたリカバリ メカニズム

• 分散コンピューティングの開発を容易に

Cisco Public 13 © 2015 Cisco and/or its affiliates. All rights reserved.

• Apache HadoopはGoogle File Systemをもとにしたオープンソース フレームワーク

• GFSとMapReduceによってクラスタにおける大量のデータを(100TBからPB級のデータまで)保持及び処理方法を規定

2002 2004 2006 2008 2010

Google File System 論文

Google MapReduce 論文

Nutch uses MapReduce

NutchからHadoopプロジェクト独立

Apache Hadoopプロジェクト

Apache Hadoopの来歴

Cisco Public 14 © 2015 Cisco and/or its affiliates. All rights reserved.

• 非構造化データの格納(HDFS)と分散処理処理(MapReduce)

Hadoop Distributed File System

(HDFS)

分散ファイル システム

Map-Reduce 分散データ処理

PIG Hive Sqoop エコシステム

各種インターフェース ETL Tools BI

Reporting RDBMS

HBASE

主なHadoopの構成要素

• バッチ処理 (MapReduce / Spark)

• 全文検索エンジン (Solr)

• ストリーミング処理 (Spark Streaming)

• SQL (Hive / Impala)

• NoSQL (HBase)

Cisco Public 15 © 2015 Cisco and/or its affiliates. All rights reserved.

例: サーチエンジン インデクシング (すべてのin-linksを見つける)

Map: 各サイトのtoURL (outlink)のリストを作成 (各サイトへinlink) Reduce: 同種のtoURLを統合

基本概念

ジョブの複雑さ(MapとReduce)はジョブの利用方法に依存しており、またネットワーク負荷に対して大きな影響を与える

例: 過去の気象データ(各年ごとの最大気温)

Maps: 気温と年を巨大な過去のデータから取り出す

Reducers: 各年の最大気温を計算

Source: O’Reilly Hadoop A definitive Guide

Map Reduceの基本

Cisco Public 16 © 2015 Cisco and/or its affiliates. All rights reserved.

1

Switch

Name Node

Data Nodeのマッピング情報をメモリー上に格納

/usr/sean/foo.txt:blk_1,blk_2

/usr/jacob/bar.txt:blk_3,blk_4

Data node 1:blk_1

Data node 2:blk_2, blk_3

Data node 3:blk_4

1

1

2

2

2

3

3

3

4

4

4 4

HDFSアーキテクチャ

Cisco Public 17 © 2015 Cisco and/or its affiliates. All rights reserved.

Switch

Job Tracker

MapとReduceタスクを

Task Trackerが割り当て

Job1:TT1:Mapper1,Mapper2

Job1:TT5:Mapper3,Reducer1

Job2:TT6:Reducer2

Job2:TT7:Mapper1,Mapper3

M1

M2

M3

R1

M1

M3

R2

M1

MapReduceアーキテクチャ

Hadoop パートナー

2008年からApatch Hadoop(CDH)をリリースし Enterprise機能(セキュリティ、管理性、信頼性)に対応。 管理ツールのCloudera Managerにより管理が容易。 2014/3にIntelが$740M投資。

Apache Hadoop 100% open source distributionを提供。 Yahooからのスピン アウト。主な顧客はYahoo! 2013/7 HPがHortonworksと戦略提携。 2014/6/24 HPが$50M投資

Hadoopに様々な最適化を実施し配布。バックアップやスナップ ショット、NFSやSMBでのアクセスが可能なため運用性が優れている。

Open

Source

Open

Source

MA

NA

GE

ME

NT

Open

Source

MA

NA

GE

ME

NT

ARCHITECTURAL

INNOVATIONS

Hortonworks

Cloudera

MapR

Hadoop

Hadoop

Hadoop

どこにどう使われているか

ウェブ企業 通信

ビッグデータ ストレージ

DWH/ETL最適化

Webアクセス、ネットワーク分析

IoT/BI/アナリティックス

難易度

製造/小売/公共/金融

• 各事業部 -> IT

• HaaS (Hadoop as a Service)

Hadoopの活用場所

(参考)http://itpro.nikkeibp.co.jp/atcl/news/14/111301899/

MapR

Hadoop構成

Cisco UCS C220/240

Nexus 9372PX

Hadoopクラスタ

BI

Client

Tableau

MapR+NetApp+Ciscoによる共同検証構成

NetApp Eシリーズ

UCS Cシリーズ

SAS

6Gb

「NetApp ビッグデータ ソリューション for MapR」は、ネットアップのストレージ「NetApp Eシリーズ」と、MapRのHadoopディストリビューション「MapR M5」、シスコの「Cisco UCS」サーバー、ノーチラス・テクノロジーズの分散処理フレームワーク「Asakusa Framework」を組み合わせたソリューション。

MapR

Databases

Data Platforms Reference Architecture

Docs, Cases,

Content, Social

Media, Clicksteam

Operational

Intelligence

Index & Search

(ELK+)

IT App & System

Logs & Config.

Internet of

Everything (IoE)

Self Service

Dashboard

Rapid Business

Intell.

Data Exploration

Mission Critical

Operational

Reports

Financial

Reporting &

Extract

Operational

Intelligence(Splu

nk UI)

Real time

Predictive

Data Analysis,

Text Analytics

Machine Learning,,

Statistical Analysis

(R)

Machine Data

Insights (e.g. In

supply chain)

SFDC

Data Sources Data Consumption

Big Data

Platform

Hadoop on UCS

• Machine Learning

• Data Archiving

• Data Science

Mission Critical

Reporting

Teradata

• Financial SSOTs

• Stable core

• Controlled Change

Agile Analytics

SAP HANA on

UCS

• Predictive Engine

• Real time BI

Network of

Truth

(Mobile / Browser / Data Service)

Experience Toolkit

Data Virtualization (Composite) Rapid Prototyping

/ Light Integration

SAS

Hadoop

Data Storage and Processing

HANA

Analytics

& Modeling

IBM SPSS

Data Security, Infra

Customer Network,

Product Usage

Database N

ERP

Databases

ALL other

Sources

SAP

Tableau

Oracle

Cisco ITのHadoopプラットフォーム コンポーネント

C240 M3

x 16台

コンポーネント 概要

Cisco UCS 6248UP ファブリック インターコネクト

サーバに高速で低遅延のネットワーク接続を提供し、すべての接続デバイスをUCS Managerにて統合統一管理できるようにします

Cisco Nexus 2232PP

ファブリック エクステンダー

拡張性が高く非常にコスト効率のよいサーバ収容接続を実現します

Cisco UCS C240 M3

Intel Xeon E5-2600

256 GB の RAM

24 TB のローカルストレージ

(HDFS 22 TB 、

2 TB オヘレーティングシステム)

ラックマウント サーバ

コンピュー ティング、I/O、ストレージ容量に関するさまざ まな要求に対応するために設計された 2RU サーバです。

MapR Apache Hadoop

Cisco Tidal Enterprise

Scheduler(TES)

ジョブのスケジュール管理とワークロードの自動化

リクルート社

Webアクセスのログ処理

従来、1週間分が限界

8万人の会員にしか

レコメンドメールが送信できない

1年半分のログの処理が

可能に

全会員20万人の会員に

レコメンド メールが送信

が可能に

Hadoopに よる処理の高速化

広告のクリックされた割合、および、Webサイトにアクセス数のうち

購入に至った割合が約1.6倍に上昇

他のHadoopの利用例: バナー広告、自然検索、有料検索エンジン登録などのうちどの集客施作が

実際に購入に至ったか分析し、広告の費用対効果結果より予算配分

Webのアクセス履歴を分析し会員にオススメのお店を紹介

出展:http://www.amazon.co.jp/ビッグデータの衝撃――巨大なデータが戦略を決める-城田-真琴/dp/4492580964

HOT PEPPER グルメ

事例:大手クレジット会社

26

大手クレジット会社

• 18ヶ月で$25Mの投資(25億円 $1=100)

• 1000台以上のサーバインストール。

18ヶ月で2000台インストール予定。

• HPが競合。数ヶ月におよぶパフォーマンス ベンチマーク争いの結果、UCSを選定

• 複数のサーバドメインがあり、Nexus 7000を 使用してドメイン間を接続

• 使用例 • 1億400万のカード メンバーに対する サービス

• パーソナライズ サービス提供によるユーザ体験、満足度の向上

• 不正利用検知

Cisco Hadoop PoC環境@東京ミッドタウン

10GE

UCS Manager による サーバ全体管理

Baremetal Agent

• Red Hat ISO - RHEL6.4

• MapRディストリビューション

連携 UCS Director Express for BigData

PoCメニュー例 データはお客様に持ち込んでいただできます

• 導入、運用管理性

• SQLやBIでのアクセス

• Hadoopへのデータの出し入れ

• バックアップ

UCS C220 M3

CPU E5-2620 v2 6C/2.10 GHz x 2

Memory 64GB (16GB x 4)

HDD 300GB SAS 10K RPM x 8

MegaRAID 9271CV x 1

Cisco VIC 1225 x 1