期間: 2015年3月11日〜7月15日 毎週水曜日
時間:基本 夕方30分間(16:00〜17:00の間)
対象:シスコ パートナー様、シスコ製品ユーザ様
スピーカー:シスコ社員、エコ パートナー様
目的:ビッグデータ初心者に対してビッグデータの一般知識、
製品知識をお伝えする。
また、シスコの製品とシスコ エコ パートナー
の組み合わせで実現できる
ビッグデータ&IoEソリューションについて言及する。
Big Data ウェビナー シリーズ
ビッグデータ ウェビナー シリーズ予定 *現時点での予定でスピーカーの都合などにより予定は変更の可能性がございます。
3/11 ビッグデータ を取り巻く ビジネスとは
シスコ パートナー様にとってビッグデータってなに?
3/18 ビッグデータってどういう技術で成り立っているの?
3/25 シスコ ビッグデータ ポートフォーリオ
4/8 ビッグデータ
の中心的技術
Hadoopを知る
Hadoopベーシック
4/15 シスコのHadoopリセールについて
4/22 Hadoopサイジング ガイドライン
5/13 シスコのビッグデータ用統合インフラ CPA
5/20 ゲストスピーカー MapR社の製品概要とシスコとの協業
5/27 ゲストスピーカー Cloudera社の製品概要とシスコとの協業
6/3 ゲストスピーカー Hortonworks社の製品概要とシスコとの協業
6/10 Hadoopと ネットワーク
Hadoop環境で考慮すべきネットワークの設計
6/17 Cisco Application Centric Infrastructure (ACI)とビッグデータ
IoE/ビッグデータを加速するポートフォーリオ
ルータ
産業用ルーター CGR 1120 IOx
シスコ産業用スイッチ IE2K,4K
Wi-Fi
工場サーバ ルーム
車両
店舗
Cisco ISR
Cisco CGR
Cisco UCS
データセンター
次世代データ処理基盤
構造化データをより高速に処理
大量の非構造化データを分散処理
屋外、室内、キャンパス
様々なものをつなぎ、情報収集
できるものは現場で処理
Connected Analytics (将来)
様々な集めた情報を分析、
解析、表示。
ソフトウェアおよびサービス
Cisco Nexus & ACI
ビックデータ:Hadoop基盤としてのCisco UCS
ソリューションパック名 スターター パック
ハイ パフォーマンス パック
パフォーマンス 最適化 パック
キャパシティ 最適化 パック
大規模 キャパ シティパック
サーバ UCS C220 M4 (8台) UCS C220 M4(8台) UCS C240 M4(16台) UCS C240 M4(16台
) UCS C3160(2台)
プロセッサ 2 x Intel Xeon
E5-2620 v3 2 x Intel Xeon
E5-2680 v3 2 x Intel Xeon
E5-2680 v3 2 x Intel Xeon
E5-2620 v3 2 x Intel Xeon
E5-2695 v2
メモリ 256G 384G 256G 128G 256G
ストレージ容量
8 x1.2-TB 10K
SAS SFF HDD
2 x 1.2-TB 10K SAS
SFF HDD,, 6 x400-
GB SAS SSD
2 x120-GB SATA SSD,
24 x 1.2-TB 10K SAS
SFF HDD
2 x120-GB SATA
SSD. 12 x 4-TB
7.2K SAS LFF HDD
2 x 120-GB SATA SSD,
60 x 4-TB 7.2K SAS LFF
HDD
IO 帯域 UCS VIC 1227 2
10GE UCS VIC 1227 2
10GE UCS VIC 1227 2 10GE
UCS VIC 1227 2
10GE 2 UCS VIC 1227 2 10GE
型番 UCS-SL-CPA3-S UCS-SL-CPA3-H UCS-SL-CPA3-P UCS-SL-CPA3-C UCS-SL-CPA3-D
用途
アナリティクス、NoSQL, エントリーレベル
Hadoop
非常にパフォーマンスと密度を要求されるア
ナリティクス
Hadoop, NoSQL, MPP等スケールアウト
アプリでパフォーマンス重視
ディスク容量が必要なHadoopやスケールアウトストレージ
大容量ディスク。 テラバイト単価がお得&高
密度
Webで 簡単アクセス
UCS
Director
Express
UCS
Manager
OS/
Hadoop
インストール
Hadoop
Manager
アプリ
モニター
検証済ソリューションパック (CPA: Common Platform Architecture) v3
スモール スタート可能で100台超への拡張も容易
労力削減!物理サーバ、Hadoopクラスタの展開は、テンプレートを コピーして適用するだけ。数10台の 環境セットアップも数10分で完了。
Big Dataに最適な性能を提供(大容量メモリと広帯域接続)
集中的なHadoopクラスタと物理インフラストラクチャの可視化、インベントリ、トラブルシューティングも容易に!
大量のデータを保管するストレージとしても!
ビッグデータのスタンダードHWとしての豊富な実績
Why Cisco UCS?
シスコからCloudera, Hortonworks, MapRのHadoop
ソフトウェアサブスクリプションも購入できます。
UCS Director Express for Big Data
UCS Director Expressによる一元的な、ラック サーバ,
ネットワーク、Hadoopソフトの展開、管理
検証済ソリューション パックで、Hadoop基盤をシンプル&迅速に構築
Cloudera
MapR
Hortonworks
いろいろなデータソース
クラウド データ
ソース Big Data / IOE
ソース トラディショナルデータ ソース
これらのデータをどのように活用しますか?
SAP
HANA MongoDB Hadoop Teradata
Oracle
Database IBM DB2 Salesforce REUTERS Amazon
ビックデータの活用イメージ
総務省 http://www.soumu.go.jp/johotsusintokei/whitepaper/ja/h24/html/nc121410.html
(出典)情報通信審議会ICT基本戦略ボード「ビッグデータの活用に関するアドホックグループ」資料
• Cisco IE Series
• Wireless AP
• Firewalll
• ISR + UCS-E
• UCS
• Nexus
• UCS Invicta
• UCS Director
Express for BigData
•品質を高める •収益を上げる
• データを取り出す
• データを解析する
• データを処理する
• データから価値を引き出す
• データを視覚化する
• データを人に伝える
ビッグデータの課題
事業効率性分析
Web サービス
Excel ファイル
課金 DB
顧客DB 人材管理 ソフト
Web アクセス履歴
顧客の360度分析 収益の分析 リソース分析
財務会計 DB
Hadoop
安価なストレージ
Data warehouse
安定した分析環境
接続できない データソース
必要なデータを抽出してコピー ロケーションの集約
増える一方の分析手法とアプリケーション
様々な課題 •データ量と種類の課題 DWHに入りきらない・方式で接続不可など
•セキュリティの課題 データ複製によるコンプライアンス低下
•時間の課題 新しい分析をするには、DWHのストレージ増設、抽出のためのスクリプト・分析手法開発などで数か月以上かかる
• コストの課題 データ ウェアハウスのストレージ、上記開発などの費用がかさむ
現在のデータ環境 •データの増加 データそのものだけでなく、ソースのシステムやバリエーションも増加
•分析に対するデマンド データ解析手法も増加し、経営支援に 利用
同じ値段で得られるストレージの容量
SAN ストレージ
$2 - $10/Gigabyte
$1Mで:
0.5Petabytes
200,000 IOPS
1Gbyte/sec
NAS ファイラー
$1 - $5/Gigabyte
$1Mで:
1 Petabyte
400,000 IOPS
2Gbyte/sec
ローカル ストレージ
$0.10/Gigabyte
$1Mで:
10 Petabytes
800,000 IOPS
800 Gbytes/sec
Source: VMWare Strata Conference
ビックデータ処理への適用領域
ビッグデータの3大特性
• Volume(量) • Variety (多様性) • Velocity(頻度)
アーキテクチャは
スケール アップから
スケール アウトへ
出所:NRI『ITソリューションフロンティア』 2012年4月号の記事に基づき作成
主なベンダー
• Cloudera
• Hortonworks
• MapR
• Pivotal
Cisco Public 12 © 2015 Cisco and/or its affiliates. All rights reserved.
何故Hadoopなのか?
Big Dataの問題 Hadoopソリューション
• HDDのパフォーマンスがCPU
の処理能力、コア密度の急速な発展に追いつけず、処理に対して十分早くデータの提供ができない
• 非構造化データの爆発的増加の処理においてはトランザクション重視の、スキーマに凝り固まったRDBMSは適切ではない
• 水平型のスケール アウトが必須
• データ オリエンテッドな環境に移行。SAN/NASに起因するボトルネックを解消
• ソフトウェア コードに拡張性を実装, コモディティ ハードウェアを有効活用
• 頻繁な部分故障を考慮に入れたリカバリ メカニズム
• 分散コンピューティングの開発を容易に
Cisco Public 13 © 2015 Cisco and/or its affiliates. All rights reserved.
• Apache HadoopはGoogle File Systemをもとにしたオープンソース フレームワーク
• GFSとMapReduceによってクラスタにおける大量のデータを(100TBからPB級のデータまで)保持及び処理方法を規定
2002 2004 2006 2008 2010
Google File System 論文
Google MapReduce 論文
Nutch uses MapReduce
NutchからHadoopプロジェクト独立
Apache Hadoopプロジェクト
Apache Hadoopの来歴
Cisco Public 14 © 2015 Cisco and/or its affiliates. All rights reserved.
• 非構造化データの格納(HDFS)と分散処理処理(MapReduce)
Hadoop Distributed File System
(HDFS)
分散ファイル システム
Map-Reduce 分散データ処理
PIG Hive Sqoop エコシステム
各種インターフェース ETL Tools BI
Reporting RDBMS
HBASE
主なHadoopの構成要素
• バッチ処理 (MapReduce / Spark)
• 全文検索エンジン (Solr)
• ストリーミング処理 (Spark Streaming)
• SQL (Hive / Impala)
• NoSQL (HBase)
Cisco Public 15 © 2015 Cisco and/or its affiliates. All rights reserved.
例: サーチエンジン インデクシング (すべてのin-linksを見つける)
Map: 各サイトのtoURL (outlink)のリストを作成 (各サイトへinlink) Reduce: 同種のtoURLを統合
基本概念
ジョブの複雑さ(MapとReduce)はジョブの利用方法に依存しており、またネットワーク負荷に対して大きな影響を与える
例: 過去の気象データ(各年ごとの最大気温)
Maps: 気温と年を巨大な過去のデータから取り出す
Reducers: 各年の最大気温を計算
Source: O’Reilly Hadoop A definitive Guide
Map Reduceの基本
Cisco Public 16 © 2015 Cisco and/or its affiliates. All rights reserved.
1
Switch
Name Node
Data Nodeのマッピング情報をメモリー上に格納
/usr/sean/foo.txt:blk_1,blk_2
/usr/jacob/bar.txt:blk_3,blk_4
Data node 1:blk_1
Data node 2:blk_2, blk_3
Data node 3:blk_4
1
1
2
2
2
3
3
3
4
4
4 4
HDFSアーキテクチャ
Cisco Public 17 © 2015 Cisco and/or its affiliates. All rights reserved.
Switch
Job Tracker
MapとReduceタスクを
Task Trackerが割り当て
Job1:TT1:Mapper1,Mapper2
Job1:TT5:Mapper3,Reducer1
Job2:TT6:Reducer2
Job2:TT7:Mapper1,Mapper3
M1
M2
M3
R1
M1
M3
R2
M1
MapReduceアーキテクチャ
Hadoop パートナー
2008年からApatch Hadoop(CDH)をリリースし Enterprise機能(セキュリティ、管理性、信頼性)に対応。 管理ツールのCloudera Managerにより管理が容易。 2014/3にIntelが$740M投資。
Apache Hadoop 100% open source distributionを提供。 Yahooからのスピン アウト。主な顧客はYahoo! 2013/7 HPがHortonworksと戦略提携。 2014/6/24 HPが$50M投資
Hadoopに様々な最適化を実施し配布。バックアップやスナップ ショット、NFSやSMBでのアクセスが可能なため運用性が優れている。
Open
Source
Open
Source
MA
NA
GE
ME
NT
Open
Source
MA
NA
GE
ME
NT
ARCHITECTURAL
INNOVATIONS
Hortonworks
Cloudera
MapR
Hadoop
Hadoop
Hadoop
• 各事業部 -> IT
• HaaS (Hadoop as a Service)
Hadoopの活用場所
(参考)http://itpro.nikkeibp.co.jp/atcl/news/14/111301899/
MapR
MapR+NetApp+Ciscoによる共同検証構成
NetApp Eシリーズ
UCS Cシリーズ
SAS
6Gb
「NetApp ビッグデータ ソリューション for MapR」は、ネットアップのストレージ「NetApp Eシリーズ」と、MapRのHadoopディストリビューション「MapR M5」、シスコの「Cisco UCS」サーバー、ノーチラス・テクノロジーズの分散処理フレームワーク「Asakusa Framework」を組み合わせたソリューション。
MapR
Databases
Data Platforms Reference Architecture
Docs, Cases,
Content, Social
Media, Clicksteam
Operational
Intelligence
Index & Search
(ELK+)
IT App & System
Logs & Config.
Internet of
Everything (IoE)
Self Service
Dashboard
Rapid Business
Intell.
Data Exploration
Mission Critical
Operational
Reports
Financial
Reporting &
Extract
Operational
Intelligence(Splu
nk UI)
Real time
Predictive
Data Analysis,
Text Analytics
Machine Learning,,
Statistical Analysis
(R)
Machine Data
Insights (e.g. In
supply chain)
SFDC
Data Sources Data Consumption
Big Data
Platform
Hadoop on UCS
• Machine Learning
• Data Archiving
• Data Science
Mission Critical
Reporting
Teradata
• Financial SSOTs
• Stable core
• Controlled Change
Agile Analytics
SAP HANA on
UCS
• Predictive Engine
• Real time BI
Network of
Truth
(Mobile / Browser / Data Service)
Experience Toolkit
Data Virtualization (Composite) Rapid Prototyping
/ Light Integration
SAS
Hadoop
Data Storage and Processing
HANA
Analytics
& Modeling
IBM SPSS
Data Security, Infra
Customer Network,
Product Usage
Database N
ERP
Databases
ALL other
Sources
SAP
Tableau
Oracle
Cisco ITのHadoopプラットフォーム コンポーネント
C240 M3
x 16台
コンポーネント 概要
Cisco UCS 6248UP ファブリック インターコネクト
サーバに高速で低遅延のネットワーク接続を提供し、すべての接続デバイスをUCS Managerにて統合統一管理できるようにします
Cisco Nexus 2232PP
ファブリック エクステンダー
拡張性が高く非常にコスト効率のよいサーバ収容接続を実現します
Cisco UCS C240 M3
Intel Xeon E5-2600
256 GB の RAM
24 TB のローカルストレージ
(HDFS 22 TB 、
2 TB オヘレーティングシステム)
ラックマウント サーバ
コンピュー ティング、I/O、ストレージ容量に関するさまざ まな要求に対応するために設計された 2RU サーバです。
MapR Apache Hadoop
Cisco Tidal Enterprise
Scheduler(TES)
ジョブのスケジュール管理とワークロードの自動化
リクルート社
Webアクセスのログ処理
従来、1週間分が限界
8万人の会員にしか
レコメンドメールが送信できない
1年半分のログの処理が
可能に
全会員20万人の会員に
レコメンド メールが送信
が可能に
Hadoopに よる処理の高速化
広告のクリックされた割合、および、Webサイトにアクセス数のうち
購入に至った割合が約1.6倍に上昇
他のHadoopの利用例: バナー広告、自然検索、有料検索エンジン登録などのうちどの集客施作が
実際に購入に至ったか分析し、広告の費用対効果結果より予算配分
Webのアクセス履歴を分析し会員にオススメのお店を紹介
出展:http://www.amazon.co.jp/ビッグデータの衝撃――巨大なデータが戦略を決める-城田-真琴/dp/4492580964
HOT PEPPER グルメ
事例:大手クレジット会社
26
大手クレジット会社
• 18ヶ月で$25Mの投資(25億円 $1=100)
• 1000台以上のサーバインストール。
18ヶ月で2000台インストール予定。
• HPが競合。数ヶ月におよぶパフォーマンス ベンチマーク争いの結果、UCSを選定
• 複数のサーバドメインがあり、Nexus 7000を 使用してドメイン間を接続
• 使用例 • 1億400万のカード メンバーに対する サービス
• パーソナライズ サービス提供によるユーザ体験、満足度の向上
• 不正利用検知
Cisco Hadoop PoC環境@東京ミッドタウン
10GE
UCS Manager による サーバ全体管理
Baremetal Agent
• Red Hat ISO - RHEL6.4
• MapRディストリビューション
連携 UCS Director Express for BigData
PoCメニュー例 データはお客様に持ち込んでいただできます
• 導入、運用管理性
• SQLやBIでのアクセス
• Hadoopへのデータの出し入れ
• バックアップ
UCS C220 M3
CPU E5-2620 v2 6C/2.10 GHz x 2
Memory 64GB (16GB x 4)
HDD 300GB SAS 10K RPM x 8
MegaRAID 9271CV x 1
Cisco VIC 1225 x 1