gpu クラウド コンピューティング
Post on 14-Apr-2017
766 Views
Preview:
TRANSCRIPT
マネージド AI サービスと GPU IaaSクラウドで GPU が活きる二つの選択肢
Amazon AI
Google Cloud Vision API 等
IBM Watson
Microsoft Cognitive Services
Amazon EC2 – P2 インスタンス
Google Compute Engine
IBM Bluemix Infrastructure
Microsoft Azure – N シリーズ
IDCF - “GPU BOOST” タイプ
マネージド AI サービス GPU IaaS
Amazon AI開発者向け人工知能サービス (API 群)
Amazon PollyAmazon
RekognitionAmazon Lex
音声やテキストを使用した会話型インターフェイスを持つアプリケーションを構築
ディープラーニングを使用して文章をリアルな音声に変換
ディープラーニングに基づくイメージ認識サービス
P2 インスタンスTesla K80 を搭載する GPU インスタンス
インスタンス名 GPU 数 GPU メモリ (GB) CUDA コア数 vCPU 数 メモリ (GB)
p2.xlarge1
(K80 半分)12 2,496 4 61
p2.8xlarge8
(K80 4枚)96 19,968 32 488
p2.16xlarge16
(K80 8枚)192 39,936 64 732
GPU 対応の AMI 各種GPU ドライバや各種フレームワーク・アプリケーション導入済み
AWS 提供
NVIDIA提供
Deep Learning AMI
64-bit, Amazon Linux 2015.05.04
NVIDIA GPU ドライバMXNet, Caffe, TensorFlow, Theano, Torch
NVIDIA DIGITS 4 AMI
NVIDIA DIGITS 4 on Ubuntu 14.04 (64-bit)
NVIDIA CUDA Toolkit 7.5 AMI
CUDA Toolkit 7.5 on Amazon Linux 2016.03 (64-bit)
Windows AMI (NVIDIA GPU ドライバ付)
Windows Server 2012 R2
分散型ディープラーニングを簡単にCloudFormation で GPU クラスタを自動デプロイ
AWS は MXNet をデフォルトのディープラーニングフレームワークとして採用し、そのコードやドキュメンテーションに貢献しています。
その一環として、GPUクラスタを簡単に構築可能な、CloudFormation テンプレートが公開されています。
VPC の作成、セキュリティやオートスケーリングの設定から、GPU ドライバやフレームワークのインストールまで完全に自動化されます。
MXNet と CloudFormation
https://github.com/dmlc/mxnet/tree/master/tools/cfn
AWS パブリックデータセット無料でアクセス可能な大規模データ
データセット名 内容
ランドサット ランドサット 8 号衛星により作成中の地球全土の衛星画像コレクション
SpaceNetコンピュータビジョンアルゴリズムの開発における革新を促進するために衛星画像とラベリングされたトレーニングデータを集めたデータベース
地勢タイル 世界各地の地表の標高などの地勢を示すデータセット
NASA NEXNASA が保守管理する地球の科学的データセットのコレクション。気候変化予測や地表の衛星画像などが含まれる
TCGAがんゲノムアトラス (TCGA) からの未処理および処理済みのゲノム、トランスクリプトミクス、およびエピゲノミクスのデータで、がんゲノムクラウドを介して認定された研究者のみが利用可能
マルチメディアコモンズ オーディオビジュアル機能と注釈を備えた 1 億近い画像と動画のコレクション
Japan Census Data 日本の国勢調査、事業所・企業統計調査、経済センサス
※ 上記は一部の例。詳しくは: https://aws.amazon.com/jp/public-datasets
パブリックデータセットの利用例SpaceNet を NVIDIA DIGITS で解析
SpaceNet は NVIDIA もその立ち上げにかかわったオンライン衛星画像リポジトリです
ディープラーニングフレームワークの Web フロントエンドである NVIDIA DIGITS で DetectNet というオブジェクト検出ネットワークを使って、 SpaceNet の画像から建物を検出する方法を、 PARALLEL FORALL
ブログで解説しています
https://devblogs.nvidia.com/parallelforall/exploring-spacenet-dataset-using-digits/
NVIDIA DIGITS による物体検出
“Exploring the SpaceNet Dataset Using DIGITS”
Azure N シリーズ GPU インスタンス2 種類の NVIDIA GPUを搭載
名称 コア数 メモリ SSD RDMA GPU
NV6 6 56 GB 380 GB - M60 半分 (GPU 1基)
NV12 12 112 GB 680 GB - M60 1枚 (GPU 2基)
NV24 24 224 GB 1.5 TB - M60 2枚 (GPU 4基)
NC6 6 56 GB 380 GB - K80 半分 (GPU 1基)
NC12 12 112 GB 680 GB - K80 1枚 (GPU 2基)
NC24 24 224 GB 1.5 TB - K80 2枚 (GPU 4基)
NC24r 24 224 GB 1.5 TB InfiniBand K80 2枚 (GPU 4基)
Visualization の
NV 系
Tesla M60搭載
Compute の
NC 系
Tesla K80 搭載
NVIDIA と Microsoft の協業Cognitive Toolkit (旧称: CNTK) を Azure と DGX-1 の双方に最適化
NVIDIA Tesla GPU
NVIDIA DGX-1 Azure Data Center
NVIDIA GPUDL Toolkit
Microsoft Cognitive Toolkit (旧称: CNTK)様々なマイクロソフト製品・サービスを支え AI を民主化
Cortanaパーソナルアシスタント
Skype多言語間翻訳
Bingサーチエンジン
HoloLens拡張現実
IBM Bluemix InfrastructureGPU 搭載のベアメタルサーバーを月単位 / 時間単位で
GPU 種別GPU メモリ
(GB)CUDA コア数 CPU
CPUコア数
メモリ(GB)
ディスク
Tesla K80 24 4,992
2 x E5-2620 v3 12
64 1TB SATA2 x E5-2650 v3 20
2 x E5-2690 v3 24
2 x E5-2620 v4 16 128 2x 800GB SSD
Tesla M60 16 4,096
2 x E5-2620 v3 12
64 1TB SATA2 x E5-2650 v3 20
2 x E5-2690 v3 24
Hourly
※ この他、 GRID K2 と Tesla K10 が選択可能
Google Cloud PlatformGoogle のコアとなるインフラストラクチャ、データ解析、機械学習を活用
Cloud Machine Learning Vision API
Speech API Natural Language API
Translation API
Jobs API
Google Compute EngineGoogle の IaaS に Tesla K80 と P100 がまもなく登場
Tesla K80 と Tesla P100 を利用可能
様々なインスタンスに GPU をアタッチ可能
分単位の課金で効率的に利用
近日登場予定!
GCE の GPU マシン
IDCF クラウドTesla M40 搭載 “GPU BOOST” 仮想マシン
インスタンス名 GPUGPU メモリ
(GB)CUDA コア数 vCPU 数 メモリ (GB) SSD (GB)
gpu.7XLM40 1 x M40 24 3,072
56 256 2,100
gpu.7XLP100 1 x P100 16 3,584近日登場予定
第1回 AI チャレンジコンテスト人工知能技術戦略会議等主催
賞品は NVIDIA TITAN X画像データ提供: クックパッド株式会社
主催 人工知能技術戦略会議、内閣府、文部科学省
応募受付期間 平成29年1月10日(火)~平成29年3月9日(木)
参加費 無料
テーマ料理画像を対象に、
(1) 「料理領域検出」、 (2) 「料理分類」の2 部門を実施
IDC フロンティア様からTesla M40 搭載
GPU サーバー提供(参加者間で共同利用)
データセンターのために設計された Tesla
データセンター仕様24 時間 365 日の稼働時間
データセンターのスループットをブースト
スケーラブルパフォーマンス
信頼性の最大化 システム運用管理を効率化
システム稼働時間のためのエンドツーエンド設計24時間365日の稼働時間
スケーラブルパフォーマンス
データセンター仕様
保証品質
システム出荷判定試験:熱、ストレス、空気流量、衝撃および振動
Tesla のみのシステム監視と管理
障害分析のための専任技術スタッフ
広範な出荷判定項目と試験
長時間の高温負荷テスト
1 件のエラーも許容しない厳格な基準
高信頼性のための技術を使用しても、 5% の GPU がスクリーニングアウト
信頼性を高めるための様々な技術
長期信頼性のための低動作電圧
品質を保証するため大きな設計マージンを確保
データ整合性を担保する ECC メモリ
稼働時間を最大化するダイナミックページリタイアメント24時間365日の稼働時間
スケーラブルパフォーマンス
データセンター仕様
GPU メモリ
訂正不可能なデータエラーがアプリケーションをクラッシュさせる
弱いメモリが使われなくなる
ダイナミックページリタイアメントのある Tesla
ダイナミックページリタイアメントのない GPU
弱いメモリが使われ続ける
1. ジョブがクラッシュすると生産性が低下します
2. IT 管理者は物理的にサーバーを開けて障害のあるGPU を取り外す必要があります
3. ダウンタイムの発生が顧客満足度を下げる危険があります
1. 不良メモリを GPU の再起動で取り除けます
2. IT 管理者のための物理的な作業は発生しません
3. リタイアするページの合計サイズは最大 256KB 程度性能へのインパクトは無視できる範囲です
サーバー OEM ベンダーによるデータセンター最適化24時間365日の稼働時間
スケーラブルパフォーマンス
データセンター仕様
Tesla GPU を搭載したサーバー
データセンタ用ではないGPU を搭載したサーバー
GPU 内エアフローを最大にする設計
前後双方向のエアフローをサポート
低い電力消費
LINPACK 実行時の GPU の温度: 54度
サーバーのエアフローに反した動作
大きな電力消費
低い信頼性
LINPACK 実行時の GPU の温度: 71度
エアフロー
温度: 54度
温度: 71度
データセンター GPU マネージメント
24時間365日の稼働時間
スケーラブルパフォーマンス
デバイスマネージメント
• デバイス認識
• ボードモニタリング
• クロックマネージメント
GPU 毎の構成及びモニタリング
データセンター仕様
データセンター運用のためのエンタープライズ向けマネージメントツール
アクティブヘルスモニタリング
診断 及びシステム検証
ランタイムヘルスチェック
プロローグチェック
エピローグチェック
詳しいハードウェア診断
システム検証テスト
ポリシーとグループ構成管理
事前設定されたポリシー
ジョブ毎のモニタリング
ステートフル設定
電源及びクロック管理
ダイナミックパワーキャッピング
同期クロックブースト
データセンター GPU マネージャー (Tesla GPUのみ)
全てのエヌビディア GPU が対象
計画的な製品ライフサイクルとサポート24時間365日の稼働時間
スケーラブルパフォーマンス
データセンター仕様
www.nvidia.com/enterpriseservices
安定した製品供給
エンタープライズサービス
• 頻繁に EOL を迎えるコンシューマー用 GPU よりも、長い製品ライフサイクル
• サーバー利用では無保証のコンシューマー用 GPU と異なり、3 年間の保証
• 長期間サポート及びメンテナンス
• 技術専門家との直接のコミュニケーション
• 問題解決への迅速な対応
• 専任技術担当者、オンサイトコンサルテーション、トレーニング
GeForce で開発、Tesla で運用
GeForce開発者とゲーマーのために設計された GPU
どこでも入手可能
https://developer.nvidia.com/cuda-gpus
Teslaデータセンターのために設計された GPU
サーバー用に設計ダイナミックページリタイアメント
GPUDirect RDMA
NVLink
データセンター管理ツールエンタープライズサービス
GTC 2017 参加登録受付中2017/5/8 - 11 サンノゼで開催
http://www.gputechconf.com/
40 % のリピーター 割引実施中 (1/18 まで)
#GTC17
基調講演 テクニカルセッション
ポスター展示
ハンズオンラボ
専門家との交流 スペシャルイベント
top related