high performance computing - sstc...the phantom menace スケーラブルシステムズ株式会社...
TRANSCRIPT
High Performance Computing
スケーラブルシステムズ株式会社
スケーラブルシステムズ株式会社
温故知新
故きを温ねて新しきを知
れば以て師と為るべし
スケーラブルシステムズ株式会社
温故知新
bull はじめに
bull HPCシステムの歴史
bull HPCシステムの課題
ndash ソフトウエア
ndashハードウエア
ndashマイクロプロセッサ
スケーラブルシステムズ株式会社
HPCシステム
bull HPCからHPMS (High-Performance Modeling and
Simulation)
ndash 計算システム+ストレージ+可視化の統合システム
ndash High Performance と High Productivity
bull Capability(単一ジョブの高速処理)vs Capacity(複数ジョブの多重処理)
bull ハイエンドコンピューティングに関する課題
ndash プログラミングモデル(Programming Productivity - Safety
Portability Performance Integrationなど)
ndash 仮想化IOOSAPIなど様々か課題
bull マイクロプロセッサの動向の変化
スケーラブルシステムズ株式会社
このスライドは誰が
スケーラブルシステムズ株式会社
HPCの歴史
Episode I
The Phantom Menace
スケーラブルシステムズ株式会社
Cray システム
bull Cray-1 (1977)
ndash 250 MFLOPS
ndash 80 MHz
ndash 1 MWord (64-bit)
bull PC 8088 (1979) ndash 5 MHz
ndash 1 MB RAM
bull Modern PC (Pentium 4) ndash 32 GHz (Dual Core)
ndash 128 GFLOPS
ndash 4 GB RAM
httped-thelenorgcomp-histCRAY-1-HardRefManCRAY-1-HRMhtml
スケーラブルシステムズ株式会社
Crayシステムピーク性能
1
10
100
1000
10000
100000
1000000
1970 1975 1980 1985 1990 1995 2000
製品化年度
ピークMFLOPS値
1976
Cray-1
1983
XMP4
1987
YMP8
1987
C9016
1987
T9032
1983
XMP1
1987
YMP1
1987
C901
1987
T901
シングルプロセッサ性能
マルチプロセッサ性能24ヶ月で2倍の性能
スケーラブルシステムズ株式会社
HPMS (High-Performance Modeling and Simulation)
実験
観察
理論
計算科学High Performance Computing
バーチャルリアリティ仮想現実空間の構築
物理モデリングコンピュータグラフィックス
「インシリコ」テストバイオサイエンスとシュミレーション
大規模並列システムスケーラブルコンピューティング
現象
High-Performance Modeling and
Simulation
スケーラブルシステムズ株式会社
シュミレーション事例
スケーラブルシステムズ株式会社
シュミレーション事例
スケーラブルシステムズ株式会社
シュミレーション事例
スケーラブルシステムズ株式会社
シングルプロセッサ性能Linpack
Cray 1s
Xmp
Xmp
Ymp
C90
Sun 4260
MIPS M120
MIPS M2000
IBM RS6000540HP 9000750
DEC Alpha AXP
HP9000735
MIPS R4400
IBM Power2990
1
10
100
1000
10000
1975 1980 1985 1990 1995 2000
Lin
pack
MF
LO
PS
Cray n=1000 Cray n=100
Micro n=1000 Micro n=100
DEC 8200
T94
スケーラブルシステムズ株式会社
ベクトル計算機の性能
Q なぜベクトル計算機の性能がマイクロプロセッサの性能のように向上しなかったのでしょうか
A ベクトル計算機はグローバル共有メモリに対する高い接続性能にその性能が依存していたためにこのメモリ間接続の性能向上がボトルネックとなってしまいました
例DRAMメモリの性能と仕様
1979標準DRAM 1999200 MHz SDRAM 1979rarr1999
16K bit
1-bit wide interface
5 Mbs uniform access BW
2 Mbs random access BW
256 Mbit
16-bit wide interface
3200 Mbs uniform access BW
1000 Mbs random access BW
X 16000
X 640
X 500
X 25
スケーラブルシステムズ株式会社
The Pahntom Menace
1993-2000
ベクトル計算機の凋落
商用プロセッサの台頭
スケーラブルシステムズ株式会社
ベクトル計算機の逆襲
Episode V
The Empire Strikes Back
スケーラブルシステムズ株式会社
ベクトル計算機の逆襲
bull 2002
bull 地球シュミレータ
bull コンピュータにおけるスプートニックショック
10487075120 (640 8-way nodes) 500 MHz NEC
10487078 GFLOPS per CPU (41 TFLOPS total)
10487072 GB Memory per CPU (10 TB total)
104870720 kVA power consumption per node
スケーラブルシステムズ株式会社
HPCの歴史
Episode II
Attack of the Clones
スケーラブルシステムズ株式会社
イノベーションのジレンマ
bull クレイトンクリステンセンの「イノベーションのジレンマ」
bull 持続的イノベーションと破壊的イノベーションによるマーケットの動向を分析
bull 持続的イノベーション
ndash 技術革新が顧客の求める性能向上軸に沿っている
bull 破壊的イノベーション
ndash 既存顧客が求める性能とは異なる軸の性能(特性)
スケーラブルシステムズ株式会社
製品の性能
時間
製品の性能(異なる尺度で評価)
時間
Commodity-Based Cluster
RISCベースのSMPNUMAシステム
ベクトル計算機
破壊的イノベーション
スケーラブルシステムズ株式会社
Beowulf プロジェクト
Wiglaf - 1994
16 Intel 80486 100 MHz
VESA Local bus
256 Mbytes memory
64 Gbytes of disk
Dual 10 base-T Ethernet
72 Mflops sustained
$40K
Hrothgar - 1995
16 Intel Pentium100 MHz
PCI
1 Gbyte memory
64 Gbytes of disk
100 base-T Fast Ethernet
(hub)
240 Mflops sustained
$46K
Hyglac-1996 (Caltech)
16 Pentium Pro 200 MHz
PCI
2 Gbytes memory
496 Gbytes of disk
100 base-T Fast Ethernet
(switch)
125 Gflops sustained
$50K
スケーラブルシステムズ株式会社
クラスタシステムの台頭
2000-2005
スケーラブルシステムズ株式会社
課題
Episode III
Revenge of the sith
スケーラブルシステムズ株式会社
HPCの現状
Going UP Going DOWN
システムの規模解析モデルのサイズ運用管理の複雑さbull電力bullスペースbullシステムの相互接続bull管理コスト
生産性bullプログラミングbullシステムの可用性bull実効性能ピーク性能システムバランスHWコスト
スケーラブルシステムズ株式会社
HPCマーケット
bull HPCマーケットでのHPCシステム構築及び製品は次の3つのセグメントに分かれているndash 一般商用システム( Commodity-based systems)
bull 一般のクラスタシステム(Dell HPCCなど)
ndash 付加価値システム( Value-based systems)bull 多くのSMPやNUMAシステム(SGI Altixなど)
ndash 特定目的システム( Purpose-built systems)bull アプリケーションと解析対象に合わせたシステム設計(IBM
BlueGeneLなど)
bull IDCなどのレポートでも一般商用システムのHPCマーケットでの導入がもっともその成長が大きいndash 付加価値システムの課題(一般商用システムとの競合に対する対応もしくは新たな分野の開拓rarrペタスケールコンピューティング)
ndash HPCSプログラムはこの付加価値システムのベンダーにとっても生き残りを賭けた戦い (2006July)
スケーラブルシステムズ株式会社
HPCシステムの現状分析
bull Good News
ldquoHPCシステムにおける問題はたった2つだけであるrdquo
スケーラブルシステムズ株式会社
ソフトウエアとハードウエア
bull ソフトウエアThe Law of Morehellip
ndashシステム規模とその複雑さの急速な増加拡大
ndash ソフトウエアの準備が出来た時点でハードウエアは既に陳腐化し次のシステムの導入の検討が進む
bull ハードウエアMoore‟s Law (ムーアの法則)ndash消費電力の問題のためプロセッサの動作クロックを今までのペースで上げることは困難
ndashプロセッサとメモリの性能差の拡大によるCPUサイクルとのギャップ
ndashピーク性能と実効性能のギャップの拡大
スケーラブルシステムズ株式会社
ソフトウエアThe Law of Morehellip
bull 研究者はより多くの時間(More Time)をソフトウエアの開発のために必要としている
bull 問題はより複雑(More Complex)になりそしてより多くのプロセッサ(More Processors)を利用して処理を行うにはより多くの困難(More
Difficult)が伴います
スケーラブルシステムズ株式会社
アルゴリズムの最適化
bull 計算機自身の進化と共に計算アルゴリズムも最適化されている
bull 例編微分方程式の解法ndash N=106の場合ガウスの消去法で線形方程式を解く場合と
MGでの計算では108倍の計算量が違うndash これは1Mflopssの計算機で100Tflopssの計算機に相当する計算を行ったことになる
O(N)F-cycle MG
O(N76 log(N))CGMILU
O(N43 log(N))Optimal SOR
O(N53 log(N))Gauss Seidel
O(N73)Banded Gauss Elimination
計算オペレーション数(概数)アルゴリズム
2u=f 100
100100
スケーラブルシステムズ株式会社
ソフトウエアThe Law of Morehellip
bull 一般の商用製品を活用したクラスタソリューションでは「Capacity」の実現は容易であるが「Capability」の実現については依然として課題が多いndash コストパフォーマンスの高いシステムの構築は可能だとしてもコストプロダクティビティの高いシステムの構築も課題
bull 数百~数千プロセッサ構成のシステムの利用技術と解析対象の検討ndash 小規模中規模問題の高速処理への対応ndash ソフトウエア開発の生産性
bull 数プロセッサ~数十プロセッサをより簡便に容易に利用できる技術ndash シングルプロセッサシングルスレッドを利用するのと同じようにhellip
スケーラブルシステムズ株式会社
ソフトウエアとハードウエア
bull ソフトウエアThe Law of Morehellip
ndashシステム規模とその複雑さの急速な増加拡大
ndash ソフトウエアの準備が出来た時点でハードウエアは既に陳腐化し次のシステムの導入の検討が進む
bull ハードウエアMoore‟s Law (ムーアの法則)ndash消費電力の問題のためプロセッサの動作クロックを今までのペースで上げることは困難
ndashプロセッサとメモリの性能差の拡大によるCPUサイクルとのギャップ
ndashピーク性能と実効性能のギャップの拡大
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash過去12年間でPentiumプロセッサの動作周波数は60 MHz から 3800 MHz にまでアップ
ndash現在までの高性能化の約80 はクロック周波数の向上によるもの
スケーラブルシステムズ株式会社
ハードウエアの問題Moore‟s Lawムーアの法則
bull インテルの共同設立者の1人である Gordon Moore 博士が1965年4月19日号の「Electronics」誌に投稿した 「一定面積に集積されるトランジスタの数は12か月で倍増しそれに伴いトランジスタの動作速度が向上する」という予測 (その後1975年に Moore 博士はチップの複雑化を考慮してトランジスタ数の倍増ペースを24か月に修正)
bull また一般にはあまり知られていないがテクノロジの進歩とともに製造コストが劇的に下落することも予測(左図)
httpwwwintelcojpjpdevelopertechnologysiliconmooreslawindexhtm
指数関数的成長は永遠には続かないしかしその永遠を先延ばしにすることはできる [英語 PDF 形式 2MB]
Gordon E Moore2003年2月10日ISSCC (International
Solid State Circuits Conference) でのプレゼンテーション
Dr Gordon Moore
(co-founder of Intel)
スケーラブルシステムズ株式会社
Technology Trend
ムーアの法則依然として有効
スケーラブルシステムズ株式会社
性能向上の源泉は
ハードウエアデバイス技術の進歩bull ロジック回路のスイッチング速度の向上とデバイス密度bull メモリサイズの拡大とアクセス速度の向上bull 通信性能(バンド幅とレイテンシの向上)
bull 並列性ndash 1サイクルでの命令実行数
bull 命令レベルでの並列性(ILP)
bull ベクトル処理ndash プロセッサあたりコア数ndash ノードあたりのプロセッサ数ndash システムあたりのノード数
コンピュータアーキテクチャbull 命令発行実行速度の向上
ndash パイプライン化ndash 分岐予測ndash キャッシュndash Out-of-order など
スケーラブルシステムズ株式会社
GHz競争
bull 2000年に開催されたIEEE国際電子デバイス会議2000(2000
IEEE International Electron Devices MeetingIEDM) においてインテル社は4億個以上のトランジスタを集積した10GHz駆動のプロセッサが2005年までに実現可能だと発表しましたndash 実際にはインテル社の最速プロセッサは6ヶ月前に発表された
38GHz(Intel Pentium 4)となっています
bull Prescottプロセッサの6xxシリーズ発表に際してインテル社はldquoadding value beyond GHzrdquo のコメントを出していますそれ以降インテル社の多くのドキュメントやプレスリリースはこのldquoadding value beyond GHzrdquo についての内容を含んでいます
スケーラブルシステムズ株式会社
発熱の問題が深刻化
Bob Colwell氏の資料より抜粋
Increasing Frequency
Watt
scm
2
1
10
100
1000
15 10 07 05 035 025 018 013 01 007
i386i486
PentiumPentium Pro
Pentium IIPentium III
Hot Plate
Nuclear Reactor
Rocket Nozzle
Pentium 4(Prescott)
Pentium 4(Willamette)
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash過去12年間でPentiumプロセッサの動作周波数は60 MHz から 3800 MHz にまでアップ
ndash現在までの高性能化の約80 はクロック周波数の向上によるもの
bull 命令実行の強化と最適化
ndashより強力なインストラクションセット
ndash命令実行の最適化(パイプライン化分岐予測複数命令の同時実行命令実行順序の変更など)
スケーラブルシステムズ株式会社
技術のSカーブ技術開発の進展と製品性能の成長の関係
bull 技術開発の初期は製品性能はゆっくりと向上するがしだいに性能の向上の幅が大きくなるしかし次第に技術開発が成熟段階に入ると性能向上は逓減していく
製品の性能
時間
First Technology
Second Technology
Third Technology
RISCアウトオブオーダー実行lt1 instruction cycle
スーパースカラー RISCアウトオブオーダー実行lt2 instructions cycle
明示的並列命令コンピューティング技術 (EPIC)
命令の並列実行度の向上
スケーラブルシステムズ株式会社
マイクロアーキテクチャのSカーブ
Johan De Gelas Quest for More Processing Power
AnandTech Feb 8 2005
httpwwwanandtechcomcpuchipsetsshowdocaspxi=2343
101
102
103
104
105
106
MIP
S
1980 1985 1990 1995 2000 2005 2010
Pentium Architecture
Super Scalar
Pentium Pro Architecture
Speculative Out-of-Order
Pentium 4 Architecture
Trace Cache
Pentium 4 and Xeon Architecture with HT
Multi-Threaded
Multi-Threaded Multi-Core
Era of
Instruction
Parallelism
Era of
Thread
Parallelism
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash 過去12年間でPentiumプロセッサの動作周波数は60
MHz から 3800 MHz にまでアップ
ndash 現在までの高性能化の約80 はクロック周波数の向上によるもの
bull 命令実行の強化と最適化
ndash より強力なインストラクションセット
ndash 命令実行の最適化(パイプライン化分岐予測複数命令の同時実行命令実行順序の変更など)
bull 大容量キャッシュ
ndash プロセッサの速度とメモリレイテンシ(待ち時間)とバンド幅のギャップの拡大に対する対策対応としての容量の拡張
スケーラブルシステムズ株式会社
性能ギャップの問題
bull プロセッサ速度とメモリアクセスの速度差によってプロセッサがより高速になったとしてもプロセッサはその演算能力を完全に使い切ることが出来ない
1
10
100
1000Performance
1980 1990 2000
microProc
60yr
DRAM
7yr
バンド幅とレイテンシの問題が今後はより深刻(プロセッサ性能とのギャップはほぼ年率50の差で広がっている)
DRAM
CPU
プロセッサはほぼナノ秒に一回命令実行DRAMへのアクセスはほぼ100ナノ秒の時間
スケーラブルシステムズ株式会社
今後の発展と課題
Episode IV
A New Hope
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash 過去12年間でPentiumプロセッサの動作周波数は60
MHz から 3800 MHz にまでアップ
ndash 現在までの高性能化の約80 はクロック周波数の向上によるもの
bull 命令実行の強化と最適化
ndash より強力なインストラクションセット
ndash 命令実行の最適化(パイプライン化分岐予測複数命令の同時実行命令実行順序の変更など)
bull 大容量キャッシュ
ndash プロセッサの速度とメモリレイテンシ(待ち時間)とバンド幅のギャップの拡大に対する対策対応としての容量の拡張
スケーラブルシステムズ株式会社
デュアルコアプロセッサ
bull チップ上のトランジスタのより有効活用が可能bull スレッドレベルでの並列処理を活用bull よりシンプルなプロセッサの設計が可能
bull 将来のマイクロプロセッサはより多くのコアを実装可能bull 将来のマイクロプロセッサはより大容量のキャッシュの実装が可能
IBM Power5
with 19MB L2
AMD Opteron
with 2MB L2
Intel Montecito
With 24MB L3
スケーラブルシステムズ株式会社
イノベーションのジレンマ
製品の性能
時間
First Technology
Second Technology
Third Technology
RISCアウトオブオーダー実行lt1 instruction cycle
スーパースカラー RISCアウトオブオーダー実行lt2 instructions cycle
明示的並列命令コンピューティング技術 (EPIC)
命令の並列実行度の向上
製品の性能(異なる尺度)
時間
持続的イノベーション
技術革新が顧客の求める性能向上軸(ムーアの法則)に沿っている
破壊的イノベーションマルチコアとマルチスレッドによる並列処理
短期的には(シングルスレッドの性能)としては性能が低下するが将来の大きな性能向上とコスト低下機能強化の可能性が大きい
スケーラブルシステムズ株式会社
マルチコアの利点
ワークロードの処理効率の向上
bull マルチスレッドアプリケーションndash現在多くのアプリケーション(データベース
WEB科学技術計算)はマルチスレッド化
ndashマルチコアプロセッサではこれらのアプリケーションのマルチスレッドでの実行が容易に可能
bull 複数ジョブの処理ndashシステムでは複数のワークロード同時に処理することが必要
ndashマルチコアではこれらのワークロードへの処理が可能
スケーラブルシステムズ株式会社
マルチコアの利点
消費電力あたりの性能を最大にし高性能で低消費電力のシステム構築が可能
bull OS自身のマルチスレッド対応
ndash OSのサービスもマルチスレッドで処理することでより効率よく処理することが可能
bull 仮想化
ndashサーバのセキュリティや管理の強化
ndash管理するノード数を減らし運用コストの削減を図る
bull 最新のソフトウエアテクノロジの活用
スケーラブルシステムズ株式会社
大きな変革しかし容易ではない
マルチコアプロセッシング(または汎用もしくは専用プロセッサをソケットに複数搭載可能なこと)はEthernetの誕生以来ITインフラに対しての大きなインパクトをもたらします
デュアルプロセッサは386プロセッサの発表以来性能に関して最大の向上を実現しますしかしこのような性能向上にはソフトウエアの最適化がプロセッサの性能をフルに発揮するためには必要です
スケーラブルシステムズ株式会社
並列性(Parallelism)の利用
マルチタスク処理
MPIなどによる複数のノード間での並列処理
ユーザ及びコンパイラによるスレッドレベルでの並列処理(TLP)
コンパイラによる命列実行レベルでの並列処理(ILP)
マルチコア
マルチプロセッサ
マルチノード
マルチインストラクション
システム
スケーラブルシステムズ株式会社
ムーアの法則(GHz から MC へ)
マルチコアによる性能向上
動作周波数の向上による性能向上
性能
2005
bullマルチスレッドbullマルチタスクbull トレーニングbullツールbullhelliphellip
並列処理による性能向上についてはシステムサポートやプログラミングサポートなどの面での技術支援が重要です
スケーラブルシステムズ株式会社
Episode VI
Return of the Jedi
Ts for HPC - インテルテクノロジのHPCにおける価値の考察
スケーラブルシステムズ株式会社
将来予測の難しさ
bull ldquoI think there is a world market for maybe five
computersrdquobull Thomas Watson chairman of IBM 1943
bull ldquoThere is no reason for any individual to have a
computer in their homerdquobull Ken Olson president and founder of digital equipment
corporation 1977
bull ldquoThere are only about 100 potential customers
worldwide for a Cray-1rdquobull Seymour Cray 1977
bull ldquo640K [of memory] ought to be enough for
anybodyrdquobull Bill Gates chairman of Microsoft1981
スケーラブルシステムズ株式会社
「未来を予測する最良の方法はそれを創造してしまうことである」The best way to predict future is to invent it
Dr Alan Kay President of Viewpoints Research
Institute Inc
スケーラブルシステムズ株式会社
ITマネージメントの課題
bull プラットフォームの内部からの保護ndash ウイルスやワームなど悪意あるソフトウェアからの保護
bull 資産管理ndash 多くの IT 部門では特定できない資産が問題
bull オンラインおよびリモート管理診断機能 ndash アップグレード診断復旧のための作業の効率化
bull アプリケーション統合の困難さ
ndash アプリケーションの高度化と複雑化によって複数のアプリケーションを組み合わせるての動作に問題
bull 動的なリソース割り当て
ndash 組織内で未使用のCPUやメモリの活用
スケーラブルシステムズ株式会社
マーケットトレンド
All Servers Worldwide 2003 2004 2005 20062003 to 2006
CAGR
2005 to 2006
CAGR
Total Factory Revenue($B) $46149 $49146 $51268 $52251 42 19
Units Shipped(same as nodes) 5278222 6307484 7050099 7472649 123 60
Processor Dies Shipped 8662823 10134624 11712766 12779159 138 91
HPC Technical Servers Worldwide 2003 2004 2005 20062003 to 2006
CAGR
2005 to 2006
CAGR
HPC Server Revenue($B) $5698 $7393 $9208 $10030 207 89
Adjusted Revenues(To much
enterprise)$5128 $6654 $8287 $9027 207 89
Node Units Shipped 411327 734510 1215735 1419221 511 167
Processor Elements Shipped 1002905 1657827 2681079 3351843 495 250
HPC As A Ratio Of All Servers 2003 2004 2005 2006
Revenue($B) 123 150 180 192
Adjusted Revenues(Apples-to-
apples)111 135 162 173
Units Shipped(Nodes) 78 116 172 190
Processors Shipped 116 164 226 261
Source IDC 2007
スケーラブルシステムズ株式会社
HPCマーケット(対全サーバマーケット)
0
5
10
15
20
25
30
2003 2004 2005 2006
Revenue($B)
Adjusted Revenues(Apples-to-apples)
Units Shipped(Nodes)
Processors Shipped
スケーラブルシステムズ株式会社
マーケットトレンド
Source IDC 2004
Cost of mgmt amp admin 10 CAGR
$0
$20
$40
$60
$80
$100
$120
$140
$160
$180
$200
1996 rsquo97 rsquo98 rsquo992000 rsquo01 rsquo02 rsquo03 rsquo04 rsquo05 rsquo06 rsquo07 rsquo08-
New server spending (USM$) 3 CAGR
Spending (USB$)
5
10
15
20
25
30
35
Installed Base (M Units)
bull ハードウェアの減価償却費は IT の TCO 全体の約25 にすぎない
bull ソフトウェアのコストはわずか10~15
bull 電気などの公共料金フロアスペース電話回線など設備面のコストの割合もきわめて小さい
bull プラットフォームのコストではなくTCOの大きな比率を占めるのは人件費となっている
スケーラブルシステムズ株式会社
運用管理コストの低減
bull 「もっと処理性能を」と「より安価に」を実現するためにワークステーションやサーバでの分散処理の導入
bull ユーザや企業に新たな価値をもたらしてはいるが管理責任とその負担の分散を招き結果的に運用管理コストを押し上げる
メインフレームスーパーコンピュータ
仮想化によるサーバコンソリデーション
クラスタによる仮想コンピュータ
スケーラブルシステムズ株式会社
次世代HPCインフラ
bull コアとスレッド
ndash より多くのスレッドを効率よく利用可能
ndash マルチスレッド向け最適化
bull 電力管理
ndash 省電力
ndash データセンター運用管理機能
bull 仮想化
ndash 柔軟性と優れた運用管理
ndash 仮想的なシステムパーティション
bull RAS
ndash ハードウエアベースの自己監視自己管理
ndash ファームウエアベースのエラー履歴管理
bull システム管理
ndash より低いTCOを実現するための一般標準化されたマネージメント機能
スケーラブルシステムズ株式会社
高速プロセッサ
64ビットアドレス
メモリ性能と容
量
IOバンド幅
インターコネクト
省電力
システムのlsquoバランスrsquo
マルチコアによってプロセッサ単体の処理性能の向上を図る
64ビットのアドレス空間と
拡張されたレジスタによるOSとアプリケーション双方の機能性能拡張
64ビット化とマルチコア化
にともなう高速大容量へのニーズに対応しまたその拡張性の高い実装技術の実現
CPU-メモリ間の高速な
データ転送やより高速なネットワーク大規模なストレージのサポート
大規模なクラスタシステムの構築及びアプリケーションのワークロードに対応した高速性能
エコシステムに対応するためにも電力消費量や発熱量を積極的に抑える技術の開発
スケーラブルシステムズ株式会社
HPCの二極分化
Going UP
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
Going DOWN
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
スケーラブルシステムズ株式会社
システムとユーザの尺度
bull ユーザの尺度での性能(Performance)は時間当たりにどれだけの仕事を処理出来るか(仕事量 時間)
bull Flopsでの評価は実際には意味がないまた問題の規模(small medium large) という評価も難しい
bull ldquoスケーラビリティrdquoは対象を明確に規定する必要がある
システムの尺度 ユーザの尺度
Flops hArr 計算終了までの時間
メモリサイズ(GB) hArr モデルのサイズと計算結果
プロセッサ数 hArr ワークロードでの試行
データ長 hArr 計算精度
システム構成(クラスタ) hArr 導入コストと運用コスト
スケーラビリティ hArr ベンチマーク
スケーラブルシステムズ株式会社
HPCシステムの動向国家プロジェクトと商用製品のギャップの拡大
Going UP
Going DOWN
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
Peta-Scaleコンピューティングに求められる基本技術と現在のHPCの主要マーケットでの要求はあまりにも差が大きいrarrHPCSシステムは各社とのlsquoCommodityrsquoのマイクロプロセッサではなく独自のプロセッサを開発中
ハードウエアはrsquoCommodityrsquo
なものを利用してSWの改善サポート利用技術のサポートが今後の主要マーケットでの成功の鍵となる
スケーラブルシステムズ株式会社
HPCシステムの動向国家プロジェクト
Going UP
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
Peta-Scaleコンピューティングに求められる基本技術と現在のHPCの主要マーケットでの要求はあまりにも差が大きいrarrHPCSシステムは各社とのlsquoCommodityrsquoのマイクロプロセッサではなく独自のプロセッサを開発中
スケーラブルシステムズ株式会社
TOP500性能予測
1993 1995 1997 1999 2001 2003 2005 2007 2009 2011 2013 2015
N=
50
SUM
1 Gflops
1 Tflops
100 Mflops
100 Gflops
100 Tflops
10 Gflops
10 Tflops
1 Pflops
10 Pflops
IBM ASCI White
Blue GeneEarth Simulator
Intel
TOP500の総計が1PFを超えています
TOP500に掲載されるには1TF
が最低条件になっています
シングルシステムの1PFの実現は2009年
システム(プロセッサ数) 13倍年プロセッサ性能向上 14倍年トータル性能 18倍年
2009年までに1ペタFLOPS
スケーラブルシステムズ株式会社
性能ギャップの拡大
bull ピーク性能の大幅な向上ndash 1990年台は性能の向上は102のオーダーでしたが2000年台になると103のオーダーで性能は向上しています
しかしhellipndash 多くの科学技術計算用途のアプリケーションのピーク性能に対する実効性能の比率は5-10となっています(1990年代のベクトル計算機は40-50の対ピーク性能を示していました)
bull 今必要なのはndash より高い実効性能を発揮することが可能な計算アルゴリズムと手法の開発とスケーラビリティの向上
ndash プログラミングモデルなども含めてスケーラブルな計算機環境の構築
01
1
10
100
1000
2000 2004
Tera
flo
ps
1996
Performance
Gap
Peak Performance
Real Performance
NERSC User Group Meeting June 24-25 2004
Osni Marques and Tony Drummond
Lawrence Berkeley National Laboratory
スケーラブルシステムズ株式会社
ペタスケールシステムの構築
bull ソフトウエア(アプリケーションOSプログラミングAPIなど)の課題の克服が課題
bull システムの複雑さと生産性
例Linpack Benchmark
bull オリジナルベンチマークプログラム ~100ライン
bull HPL ベンチマークプログラム ~10000ライン(x100より複雑)
lsquo複雑さrsquoの壁
現在のテラFLOPS級の問題
Source ORNL
スケーラブルシステムズ株式会社
HPCシステムの動向商用製品
Going DOWN
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
ハードウエアはrsquoCommodityrsquo
なものを利用してSWの改善サポート利用技術のサポートが今後の主要マーケットでの成功の鍵となる
スケーラブルシステムズ株式会社
標準コンポーネントの進化
bull プロセッサの性能向上ndash lsquoマルチコアrsquoによる省電力での性能向上が可能
ndash HPCアプリケーションは容易にlsquoマルチコアrsquoの利点を活用可能 (OpenMPやMPI)
bull ファイルシステムndash高性能なスケーラブルファイルシステム(オープンソース)
bull インターコネクトndash PCI-Express (メモリlarrrarrインターコネクト)
ndash高速の商用製品やオープンソースでの強力(OpenIBなど)
スケーラブルシステムズ株式会社
標準コンポーネントの利点
bull 特定のベンダーからのシステムを組み合わせるのではなく他社のシステムも含めてベストなシステムの選択が可能
ndashスケーラブルSMPベクトル計算機クラスタの幅広い選択肢
ndash 64ビットマルチコアマイクロプロセッサの性能向上を最大限に活用
bull 標準コンポーネントの技術革新の活用
ndash PCI-ExpressやFB-DIMMの利用技術
スケーラブルシステムズ株式会社
Breaking the 1-2K nodes Barrier
bull 音の障壁サウンドバリヤー(sound barrier)飛行機の速度が音速近くになると衝撃波の発生によって抵抗の増大境界層の剥離など設計運用上のさまざまな障害(壁)に出合って超音速飛行は不可能かと思われた時代があった(1947年ごろまで)ので音の障壁といわれていた
httpwwwwilk4commiscsoundbreakhtm
クラスタのノード数がある規模に近くなるとその構築や運用において負担の増大システムの安定稼動スケーラビリティなど設計運用上のさまざまな障害(壁)に出合ってクラスタ構築は不可能と思われた時代があった()
スケーラブルシステムズ株式会社
ビルゲイツ氏の基調講演HPC goes mainstream
スケーラブルシステムズ株式会社
「Fast」「Good」「Cheap」のパズル
Fast
+ Cheap
Inferior
高い性能を廉価なシステムで構築することも可能ですただそのようなシステムの場合システムの構築や利用は必ずしも容易ではありません
Good
+ Cheap
Slow比較的小規模なシステムであれば廉価で使い勝手の良いものを探すことは可能ですしかしそのようなシステムでは拡張性やより大規模なシステム構築が出来ません
Good
+ Fast
Expensive
付加価値の高い性能の高いシステムは一般には高価ですその付加価値がユーザにとってメリットが無ければコストパフォーマンスの悪いシステムになるだけです
スケーラブルシステムズ株式会社
まとめとして
bull 「テクノロジー」をどのようにとらえるかndash企業経営基盤のコア要素
ndashユーザの本質的な課題を解決する戦略的な武器
bull マーケットを牽引する「テクノロジ」に求められることndashテクノロジとHPCにおけるITインフラの関係を明確にすること
bull ユーザに何らかのメリットをもたらさない「テクノロジー」は意味を成さない
ndashテクノロジーを最適に組み合わせることで問題解決のためのソリューションの提供が可能
スケーラブルシステムズ株式会社
まとめとして
bull bdquoTs‟ for HPC - インテルテクノロジのHPCにおける価値
ndash インテルテクノロジはHPCにおいて重要な構成要素となっている
ndashそれらの構成要素を統合することでより高い価値の提供が可能となる
ndash二分化しつつあるHPCシステムにおいて「標準コ
ンポーネント」としてのプラットフォームの動向として今後もその動向には注目する必要がある
スケーラブルシステムズ株式会社
さらに詳しい情報はhellip
bull 弊社のコンサルテーションに関するご提案資料もダウンロード可能です(非公開WEBページ)別途弊社に内容等についてはお尋ねください
お問い合わせ先102-0083
東京都千代田区麹町3-5-2
BUREX麹町 8F
電話03-5875-4718
FAX03-3237-7612
E-mailbizsstccojp
httpwwwsstccojp wwwsstccojpbiz
スケーラブルシステムズ株式会社
スケーラブルシステムズ株式会社
ハイエンドコンピューティングに関するコンサルテーションとして幅広いサービスをご提供致します
このサービスを最大限に活用していただくことでコラボレーションによる「顧客志向」 のコン
サルテーションサービスをご提供できればと思っております
スケーラブルシステムズ株式会社
社名製品名などは一般に各社の商標または登録商標です無断での引用転載を禁じます
In general the name of the company and the product name etc are the trademarks or registered trademarks of each company
Copyright Scalable Systems Co Ltd 2005 Unauthorized use is strictly forbidden
2005年11月
スケーラブルシステムズ株式会社
温故知新
故きを温ねて新しきを知
れば以て師と為るべし
スケーラブルシステムズ株式会社
温故知新
bull はじめに
bull HPCシステムの歴史
bull HPCシステムの課題
ndash ソフトウエア
ndashハードウエア
ndashマイクロプロセッサ
スケーラブルシステムズ株式会社
HPCシステム
bull HPCからHPMS (High-Performance Modeling and
Simulation)
ndash 計算システム+ストレージ+可視化の統合システム
ndash High Performance と High Productivity
bull Capability(単一ジョブの高速処理)vs Capacity(複数ジョブの多重処理)
bull ハイエンドコンピューティングに関する課題
ndash プログラミングモデル(Programming Productivity - Safety
Portability Performance Integrationなど)
ndash 仮想化IOOSAPIなど様々か課題
bull マイクロプロセッサの動向の変化
スケーラブルシステムズ株式会社
このスライドは誰が
スケーラブルシステムズ株式会社
HPCの歴史
Episode I
The Phantom Menace
スケーラブルシステムズ株式会社
Cray システム
bull Cray-1 (1977)
ndash 250 MFLOPS
ndash 80 MHz
ndash 1 MWord (64-bit)
bull PC 8088 (1979) ndash 5 MHz
ndash 1 MB RAM
bull Modern PC (Pentium 4) ndash 32 GHz (Dual Core)
ndash 128 GFLOPS
ndash 4 GB RAM
httped-thelenorgcomp-histCRAY-1-HardRefManCRAY-1-HRMhtml
スケーラブルシステムズ株式会社
Crayシステムピーク性能
1
10
100
1000
10000
100000
1000000
1970 1975 1980 1985 1990 1995 2000
製品化年度
ピークMFLOPS値
1976
Cray-1
1983
XMP4
1987
YMP8
1987
C9016
1987
T9032
1983
XMP1
1987
YMP1
1987
C901
1987
T901
シングルプロセッサ性能
マルチプロセッサ性能24ヶ月で2倍の性能
スケーラブルシステムズ株式会社
HPMS (High-Performance Modeling and Simulation)
実験
観察
理論
計算科学High Performance Computing
バーチャルリアリティ仮想現実空間の構築
物理モデリングコンピュータグラフィックス
「インシリコ」テストバイオサイエンスとシュミレーション
大規模並列システムスケーラブルコンピューティング
現象
High-Performance Modeling and
Simulation
スケーラブルシステムズ株式会社
シュミレーション事例
スケーラブルシステムズ株式会社
シュミレーション事例
スケーラブルシステムズ株式会社
シュミレーション事例
スケーラブルシステムズ株式会社
シングルプロセッサ性能Linpack
Cray 1s
Xmp
Xmp
Ymp
C90
Sun 4260
MIPS M120
MIPS M2000
IBM RS6000540HP 9000750
DEC Alpha AXP
HP9000735
MIPS R4400
IBM Power2990
1
10
100
1000
10000
1975 1980 1985 1990 1995 2000
Lin
pack
MF
LO
PS
Cray n=1000 Cray n=100
Micro n=1000 Micro n=100
DEC 8200
T94
スケーラブルシステムズ株式会社
ベクトル計算機の性能
Q なぜベクトル計算機の性能がマイクロプロセッサの性能のように向上しなかったのでしょうか
A ベクトル計算機はグローバル共有メモリに対する高い接続性能にその性能が依存していたためにこのメモリ間接続の性能向上がボトルネックとなってしまいました
例DRAMメモリの性能と仕様
1979標準DRAM 1999200 MHz SDRAM 1979rarr1999
16K bit
1-bit wide interface
5 Mbs uniform access BW
2 Mbs random access BW
256 Mbit
16-bit wide interface
3200 Mbs uniform access BW
1000 Mbs random access BW
X 16000
X 640
X 500
X 25
スケーラブルシステムズ株式会社
The Pahntom Menace
1993-2000
ベクトル計算機の凋落
商用プロセッサの台頭
スケーラブルシステムズ株式会社
ベクトル計算機の逆襲
Episode V
The Empire Strikes Back
スケーラブルシステムズ株式会社
ベクトル計算機の逆襲
bull 2002
bull 地球シュミレータ
bull コンピュータにおけるスプートニックショック
10487075120 (640 8-way nodes) 500 MHz NEC
10487078 GFLOPS per CPU (41 TFLOPS total)
10487072 GB Memory per CPU (10 TB total)
104870720 kVA power consumption per node
スケーラブルシステムズ株式会社
HPCの歴史
Episode II
Attack of the Clones
スケーラブルシステムズ株式会社
イノベーションのジレンマ
bull クレイトンクリステンセンの「イノベーションのジレンマ」
bull 持続的イノベーションと破壊的イノベーションによるマーケットの動向を分析
bull 持続的イノベーション
ndash 技術革新が顧客の求める性能向上軸に沿っている
bull 破壊的イノベーション
ndash 既存顧客が求める性能とは異なる軸の性能(特性)
スケーラブルシステムズ株式会社
製品の性能
時間
製品の性能(異なる尺度で評価)
時間
Commodity-Based Cluster
RISCベースのSMPNUMAシステム
ベクトル計算機
破壊的イノベーション
スケーラブルシステムズ株式会社
Beowulf プロジェクト
Wiglaf - 1994
16 Intel 80486 100 MHz
VESA Local bus
256 Mbytes memory
64 Gbytes of disk
Dual 10 base-T Ethernet
72 Mflops sustained
$40K
Hrothgar - 1995
16 Intel Pentium100 MHz
PCI
1 Gbyte memory
64 Gbytes of disk
100 base-T Fast Ethernet
(hub)
240 Mflops sustained
$46K
Hyglac-1996 (Caltech)
16 Pentium Pro 200 MHz
PCI
2 Gbytes memory
496 Gbytes of disk
100 base-T Fast Ethernet
(switch)
125 Gflops sustained
$50K
スケーラブルシステムズ株式会社
クラスタシステムの台頭
2000-2005
スケーラブルシステムズ株式会社
課題
Episode III
Revenge of the sith
スケーラブルシステムズ株式会社
HPCの現状
Going UP Going DOWN
システムの規模解析モデルのサイズ運用管理の複雑さbull電力bullスペースbullシステムの相互接続bull管理コスト
生産性bullプログラミングbullシステムの可用性bull実効性能ピーク性能システムバランスHWコスト
スケーラブルシステムズ株式会社
HPCマーケット
bull HPCマーケットでのHPCシステム構築及び製品は次の3つのセグメントに分かれているndash 一般商用システム( Commodity-based systems)
bull 一般のクラスタシステム(Dell HPCCなど)
ndash 付加価値システム( Value-based systems)bull 多くのSMPやNUMAシステム(SGI Altixなど)
ndash 特定目的システム( Purpose-built systems)bull アプリケーションと解析対象に合わせたシステム設計(IBM
BlueGeneLなど)
bull IDCなどのレポートでも一般商用システムのHPCマーケットでの導入がもっともその成長が大きいndash 付加価値システムの課題(一般商用システムとの競合に対する対応もしくは新たな分野の開拓rarrペタスケールコンピューティング)
ndash HPCSプログラムはこの付加価値システムのベンダーにとっても生き残りを賭けた戦い (2006July)
スケーラブルシステムズ株式会社
HPCシステムの現状分析
bull Good News
ldquoHPCシステムにおける問題はたった2つだけであるrdquo
スケーラブルシステムズ株式会社
ソフトウエアとハードウエア
bull ソフトウエアThe Law of Morehellip
ndashシステム規模とその複雑さの急速な増加拡大
ndash ソフトウエアの準備が出来た時点でハードウエアは既に陳腐化し次のシステムの導入の検討が進む
bull ハードウエアMoore‟s Law (ムーアの法則)ndash消費電力の問題のためプロセッサの動作クロックを今までのペースで上げることは困難
ndashプロセッサとメモリの性能差の拡大によるCPUサイクルとのギャップ
ndashピーク性能と実効性能のギャップの拡大
スケーラブルシステムズ株式会社
ソフトウエアThe Law of Morehellip
bull 研究者はより多くの時間(More Time)をソフトウエアの開発のために必要としている
bull 問題はより複雑(More Complex)になりそしてより多くのプロセッサ(More Processors)を利用して処理を行うにはより多くの困難(More
Difficult)が伴います
スケーラブルシステムズ株式会社
アルゴリズムの最適化
bull 計算機自身の進化と共に計算アルゴリズムも最適化されている
bull 例編微分方程式の解法ndash N=106の場合ガウスの消去法で線形方程式を解く場合と
MGでの計算では108倍の計算量が違うndash これは1Mflopssの計算機で100Tflopssの計算機に相当する計算を行ったことになる
O(N)F-cycle MG
O(N76 log(N))CGMILU
O(N43 log(N))Optimal SOR
O(N53 log(N))Gauss Seidel
O(N73)Banded Gauss Elimination
計算オペレーション数(概数)アルゴリズム
2u=f 100
100100
スケーラブルシステムズ株式会社
ソフトウエアThe Law of Morehellip
bull 一般の商用製品を活用したクラスタソリューションでは「Capacity」の実現は容易であるが「Capability」の実現については依然として課題が多いndash コストパフォーマンスの高いシステムの構築は可能だとしてもコストプロダクティビティの高いシステムの構築も課題
bull 数百~数千プロセッサ構成のシステムの利用技術と解析対象の検討ndash 小規模中規模問題の高速処理への対応ndash ソフトウエア開発の生産性
bull 数プロセッサ~数十プロセッサをより簡便に容易に利用できる技術ndash シングルプロセッサシングルスレッドを利用するのと同じようにhellip
スケーラブルシステムズ株式会社
ソフトウエアとハードウエア
bull ソフトウエアThe Law of Morehellip
ndashシステム規模とその複雑さの急速な増加拡大
ndash ソフトウエアの準備が出来た時点でハードウエアは既に陳腐化し次のシステムの導入の検討が進む
bull ハードウエアMoore‟s Law (ムーアの法則)ndash消費電力の問題のためプロセッサの動作クロックを今までのペースで上げることは困難
ndashプロセッサとメモリの性能差の拡大によるCPUサイクルとのギャップ
ndashピーク性能と実効性能のギャップの拡大
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash過去12年間でPentiumプロセッサの動作周波数は60 MHz から 3800 MHz にまでアップ
ndash現在までの高性能化の約80 はクロック周波数の向上によるもの
スケーラブルシステムズ株式会社
ハードウエアの問題Moore‟s Lawムーアの法則
bull インテルの共同設立者の1人である Gordon Moore 博士が1965年4月19日号の「Electronics」誌に投稿した 「一定面積に集積されるトランジスタの数は12か月で倍増しそれに伴いトランジスタの動作速度が向上する」という予測 (その後1975年に Moore 博士はチップの複雑化を考慮してトランジスタ数の倍増ペースを24か月に修正)
bull また一般にはあまり知られていないがテクノロジの進歩とともに製造コストが劇的に下落することも予測(左図)
httpwwwintelcojpjpdevelopertechnologysiliconmooreslawindexhtm
指数関数的成長は永遠には続かないしかしその永遠を先延ばしにすることはできる [英語 PDF 形式 2MB]
Gordon E Moore2003年2月10日ISSCC (International
Solid State Circuits Conference) でのプレゼンテーション
Dr Gordon Moore
(co-founder of Intel)
スケーラブルシステムズ株式会社
Technology Trend
ムーアの法則依然として有効
スケーラブルシステムズ株式会社
性能向上の源泉は
ハードウエアデバイス技術の進歩bull ロジック回路のスイッチング速度の向上とデバイス密度bull メモリサイズの拡大とアクセス速度の向上bull 通信性能(バンド幅とレイテンシの向上)
bull 並列性ndash 1サイクルでの命令実行数
bull 命令レベルでの並列性(ILP)
bull ベクトル処理ndash プロセッサあたりコア数ndash ノードあたりのプロセッサ数ndash システムあたりのノード数
コンピュータアーキテクチャbull 命令発行実行速度の向上
ndash パイプライン化ndash 分岐予測ndash キャッシュndash Out-of-order など
スケーラブルシステムズ株式会社
GHz競争
bull 2000年に開催されたIEEE国際電子デバイス会議2000(2000
IEEE International Electron Devices MeetingIEDM) においてインテル社は4億個以上のトランジスタを集積した10GHz駆動のプロセッサが2005年までに実現可能だと発表しましたndash 実際にはインテル社の最速プロセッサは6ヶ月前に発表された
38GHz(Intel Pentium 4)となっています
bull Prescottプロセッサの6xxシリーズ発表に際してインテル社はldquoadding value beyond GHzrdquo のコメントを出していますそれ以降インテル社の多くのドキュメントやプレスリリースはこのldquoadding value beyond GHzrdquo についての内容を含んでいます
スケーラブルシステムズ株式会社
発熱の問題が深刻化
Bob Colwell氏の資料より抜粋
Increasing Frequency
Watt
scm
2
1
10
100
1000
15 10 07 05 035 025 018 013 01 007
i386i486
PentiumPentium Pro
Pentium IIPentium III
Hot Plate
Nuclear Reactor
Rocket Nozzle
Pentium 4(Prescott)
Pentium 4(Willamette)
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash過去12年間でPentiumプロセッサの動作周波数は60 MHz から 3800 MHz にまでアップ
ndash現在までの高性能化の約80 はクロック周波数の向上によるもの
bull 命令実行の強化と最適化
ndashより強力なインストラクションセット
ndash命令実行の最適化(パイプライン化分岐予測複数命令の同時実行命令実行順序の変更など)
スケーラブルシステムズ株式会社
技術のSカーブ技術開発の進展と製品性能の成長の関係
bull 技術開発の初期は製品性能はゆっくりと向上するがしだいに性能の向上の幅が大きくなるしかし次第に技術開発が成熟段階に入ると性能向上は逓減していく
製品の性能
時間
First Technology
Second Technology
Third Technology
RISCアウトオブオーダー実行lt1 instruction cycle
スーパースカラー RISCアウトオブオーダー実行lt2 instructions cycle
明示的並列命令コンピューティング技術 (EPIC)
命令の並列実行度の向上
スケーラブルシステムズ株式会社
マイクロアーキテクチャのSカーブ
Johan De Gelas Quest for More Processing Power
AnandTech Feb 8 2005
httpwwwanandtechcomcpuchipsetsshowdocaspxi=2343
101
102
103
104
105
106
MIP
S
1980 1985 1990 1995 2000 2005 2010
Pentium Architecture
Super Scalar
Pentium Pro Architecture
Speculative Out-of-Order
Pentium 4 Architecture
Trace Cache
Pentium 4 and Xeon Architecture with HT
Multi-Threaded
Multi-Threaded Multi-Core
Era of
Instruction
Parallelism
Era of
Thread
Parallelism
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash 過去12年間でPentiumプロセッサの動作周波数は60
MHz から 3800 MHz にまでアップ
ndash 現在までの高性能化の約80 はクロック周波数の向上によるもの
bull 命令実行の強化と最適化
ndash より強力なインストラクションセット
ndash 命令実行の最適化(パイプライン化分岐予測複数命令の同時実行命令実行順序の変更など)
bull 大容量キャッシュ
ndash プロセッサの速度とメモリレイテンシ(待ち時間)とバンド幅のギャップの拡大に対する対策対応としての容量の拡張
スケーラブルシステムズ株式会社
性能ギャップの問題
bull プロセッサ速度とメモリアクセスの速度差によってプロセッサがより高速になったとしてもプロセッサはその演算能力を完全に使い切ることが出来ない
1
10
100
1000Performance
1980 1990 2000
microProc
60yr
DRAM
7yr
バンド幅とレイテンシの問題が今後はより深刻(プロセッサ性能とのギャップはほぼ年率50の差で広がっている)
DRAM
CPU
プロセッサはほぼナノ秒に一回命令実行DRAMへのアクセスはほぼ100ナノ秒の時間
スケーラブルシステムズ株式会社
今後の発展と課題
Episode IV
A New Hope
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash 過去12年間でPentiumプロセッサの動作周波数は60
MHz から 3800 MHz にまでアップ
ndash 現在までの高性能化の約80 はクロック周波数の向上によるもの
bull 命令実行の強化と最適化
ndash より強力なインストラクションセット
ndash 命令実行の最適化(パイプライン化分岐予測複数命令の同時実行命令実行順序の変更など)
bull 大容量キャッシュ
ndash プロセッサの速度とメモリレイテンシ(待ち時間)とバンド幅のギャップの拡大に対する対策対応としての容量の拡張
スケーラブルシステムズ株式会社
デュアルコアプロセッサ
bull チップ上のトランジスタのより有効活用が可能bull スレッドレベルでの並列処理を活用bull よりシンプルなプロセッサの設計が可能
bull 将来のマイクロプロセッサはより多くのコアを実装可能bull 将来のマイクロプロセッサはより大容量のキャッシュの実装が可能
IBM Power5
with 19MB L2
AMD Opteron
with 2MB L2
Intel Montecito
With 24MB L3
スケーラブルシステムズ株式会社
イノベーションのジレンマ
製品の性能
時間
First Technology
Second Technology
Third Technology
RISCアウトオブオーダー実行lt1 instruction cycle
スーパースカラー RISCアウトオブオーダー実行lt2 instructions cycle
明示的並列命令コンピューティング技術 (EPIC)
命令の並列実行度の向上
製品の性能(異なる尺度)
時間
持続的イノベーション
技術革新が顧客の求める性能向上軸(ムーアの法則)に沿っている
破壊的イノベーションマルチコアとマルチスレッドによる並列処理
短期的には(シングルスレッドの性能)としては性能が低下するが将来の大きな性能向上とコスト低下機能強化の可能性が大きい
スケーラブルシステムズ株式会社
マルチコアの利点
ワークロードの処理効率の向上
bull マルチスレッドアプリケーションndash現在多くのアプリケーション(データベース
WEB科学技術計算)はマルチスレッド化
ndashマルチコアプロセッサではこれらのアプリケーションのマルチスレッドでの実行が容易に可能
bull 複数ジョブの処理ndashシステムでは複数のワークロード同時に処理することが必要
ndashマルチコアではこれらのワークロードへの処理が可能
スケーラブルシステムズ株式会社
マルチコアの利点
消費電力あたりの性能を最大にし高性能で低消費電力のシステム構築が可能
bull OS自身のマルチスレッド対応
ndash OSのサービスもマルチスレッドで処理することでより効率よく処理することが可能
bull 仮想化
ndashサーバのセキュリティや管理の強化
ndash管理するノード数を減らし運用コストの削減を図る
bull 最新のソフトウエアテクノロジの活用
スケーラブルシステムズ株式会社
大きな変革しかし容易ではない
マルチコアプロセッシング(または汎用もしくは専用プロセッサをソケットに複数搭載可能なこと)はEthernetの誕生以来ITインフラに対しての大きなインパクトをもたらします
デュアルプロセッサは386プロセッサの発表以来性能に関して最大の向上を実現しますしかしこのような性能向上にはソフトウエアの最適化がプロセッサの性能をフルに発揮するためには必要です
スケーラブルシステムズ株式会社
並列性(Parallelism)の利用
マルチタスク処理
MPIなどによる複数のノード間での並列処理
ユーザ及びコンパイラによるスレッドレベルでの並列処理(TLP)
コンパイラによる命列実行レベルでの並列処理(ILP)
マルチコア
マルチプロセッサ
マルチノード
マルチインストラクション
システム
スケーラブルシステムズ株式会社
ムーアの法則(GHz から MC へ)
マルチコアによる性能向上
動作周波数の向上による性能向上
性能
2005
bullマルチスレッドbullマルチタスクbull トレーニングbullツールbullhelliphellip
並列処理による性能向上についてはシステムサポートやプログラミングサポートなどの面での技術支援が重要です
スケーラブルシステムズ株式会社
Episode VI
Return of the Jedi
Ts for HPC - インテルテクノロジのHPCにおける価値の考察
スケーラブルシステムズ株式会社
将来予測の難しさ
bull ldquoI think there is a world market for maybe five
computersrdquobull Thomas Watson chairman of IBM 1943
bull ldquoThere is no reason for any individual to have a
computer in their homerdquobull Ken Olson president and founder of digital equipment
corporation 1977
bull ldquoThere are only about 100 potential customers
worldwide for a Cray-1rdquobull Seymour Cray 1977
bull ldquo640K [of memory] ought to be enough for
anybodyrdquobull Bill Gates chairman of Microsoft1981
スケーラブルシステムズ株式会社
「未来を予測する最良の方法はそれを創造してしまうことである」The best way to predict future is to invent it
Dr Alan Kay President of Viewpoints Research
Institute Inc
スケーラブルシステムズ株式会社
ITマネージメントの課題
bull プラットフォームの内部からの保護ndash ウイルスやワームなど悪意あるソフトウェアからの保護
bull 資産管理ndash 多くの IT 部門では特定できない資産が問題
bull オンラインおよびリモート管理診断機能 ndash アップグレード診断復旧のための作業の効率化
bull アプリケーション統合の困難さ
ndash アプリケーションの高度化と複雑化によって複数のアプリケーションを組み合わせるての動作に問題
bull 動的なリソース割り当て
ndash 組織内で未使用のCPUやメモリの活用
スケーラブルシステムズ株式会社
マーケットトレンド
All Servers Worldwide 2003 2004 2005 20062003 to 2006
CAGR
2005 to 2006
CAGR
Total Factory Revenue($B) $46149 $49146 $51268 $52251 42 19
Units Shipped(same as nodes) 5278222 6307484 7050099 7472649 123 60
Processor Dies Shipped 8662823 10134624 11712766 12779159 138 91
HPC Technical Servers Worldwide 2003 2004 2005 20062003 to 2006
CAGR
2005 to 2006
CAGR
HPC Server Revenue($B) $5698 $7393 $9208 $10030 207 89
Adjusted Revenues(To much
enterprise)$5128 $6654 $8287 $9027 207 89
Node Units Shipped 411327 734510 1215735 1419221 511 167
Processor Elements Shipped 1002905 1657827 2681079 3351843 495 250
HPC As A Ratio Of All Servers 2003 2004 2005 2006
Revenue($B) 123 150 180 192
Adjusted Revenues(Apples-to-
apples)111 135 162 173
Units Shipped(Nodes) 78 116 172 190
Processors Shipped 116 164 226 261
Source IDC 2007
スケーラブルシステムズ株式会社
HPCマーケット(対全サーバマーケット)
0
5
10
15
20
25
30
2003 2004 2005 2006
Revenue($B)
Adjusted Revenues(Apples-to-apples)
Units Shipped(Nodes)
Processors Shipped
スケーラブルシステムズ株式会社
マーケットトレンド
Source IDC 2004
Cost of mgmt amp admin 10 CAGR
$0
$20
$40
$60
$80
$100
$120
$140
$160
$180
$200
1996 rsquo97 rsquo98 rsquo992000 rsquo01 rsquo02 rsquo03 rsquo04 rsquo05 rsquo06 rsquo07 rsquo08-
New server spending (USM$) 3 CAGR
Spending (USB$)
5
10
15
20
25
30
35
Installed Base (M Units)
bull ハードウェアの減価償却費は IT の TCO 全体の約25 にすぎない
bull ソフトウェアのコストはわずか10~15
bull 電気などの公共料金フロアスペース電話回線など設備面のコストの割合もきわめて小さい
bull プラットフォームのコストではなくTCOの大きな比率を占めるのは人件費となっている
スケーラブルシステムズ株式会社
運用管理コストの低減
bull 「もっと処理性能を」と「より安価に」を実現するためにワークステーションやサーバでの分散処理の導入
bull ユーザや企業に新たな価値をもたらしてはいるが管理責任とその負担の分散を招き結果的に運用管理コストを押し上げる
メインフレームスーパーコンピュータ
仮想化によるサーバコンソリデーション
クラスタによる仮想コンピュータ
スケーラブルシステムズ株式会社
次世代HPCインフラ
bull コアとスレッド
ndash より多くのスレッドを効率よく利用可能
ndash マルチスレッド向け最適化
bull 電力管理
ndash 省電力
ndash データセンター運用管理機能
bull 仮想化
ndash 柔軟性と優れた運用管理
ndash 仮想的なシステムパーティション
bull RAS
ndash ハードウエアベースの自己監視自己管理
ndash ファームウエアベースのエラー履歴管理
bull システム管理
ndash より低いTCOを実現するための一般標準化されたマネージメント機能
スケーラブルシステムズ株式会社
高速プロセッサ
64ビットアドレス
メモリ性能と容
量
IOバンド幅
インターコネクト
省電力
システムのlsquoバランスrsquo
マルチコアによってプロセッサ単体の処理性能の向上を図る
64ビットのアドレス空間と
拡張されたレジスタによるOSとアプリケーション双方の機能性能拡張
64ビット化とマルチコア化
にともなう高速大容量へのニーズに対応しまたその拡張性の高い実装技術の実現
CPU-メモリ間の高速な
データ転送やより高速なネットワーク大規模なストレージのサポート
大規模なクラスタシステムの構築及びアプリケーションのワークロードに対応した高速性能
エコシステムに対応するためにも電力消費量や発熱量を積極的に抑える技術の開発
スケーラブルシステムズ株式会社
HPCの二極分化
Going UP
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
Going DOWN
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
スケーラブルシステムズ株式会社
システムとユーザの尺度
bull ユーザの尺度での性能(Performance)は時間当たりにどれだけの仕事を処理出来るか(仕事量 時間)
bull Flopsでの評価は実際には意味がないまた問題の規模(small medium large) という評価も難しい
bull ldquoスケーラビリティrdquoは対象を明確に規定する必要がある
システムの尺度 ユーザの尺度
Flops hArr 計算終了までの時間
メモリサイズ(GB) hArr モデルのサイズと計算結果
プロセッサ数 hArr ワークロードでの試行
データ長 hArr 計算精度
システム構成(クラスタ) hArr 導入コストと運用コスト
スケーラビリティ hArr ベンチマーク
スケーラブルシステムズ株式会社
HPCシステムの動向国家プロジェクトと商用製品のギャップの拡大
Going UP
Going DOWN
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
Peta-Scaleコンピューティングに求められる基本技術と現在のHPCの主要マーケットでの要求はあまりにも差が大きいrarrHPCSシステムは各社とのlsquoCommodityrsquoのマイクロプロセッサではなく独自のプロセッサを開発中
ハードウエアはrsquoCommodityrsquo
なものを利用してSWの改善サポート利用技術のサポートが今後の主要マーケットでの成功の鍵となる
スケーラブルシステムズ株式会社
HPCシステムの動向国家プロジェクト
Going UP
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
Peta-Scaleコンピューティングに求められる基本技術と現在のHPCの主要マーケットでの要求はあまりにも差が大きいrarrHPCSシステムは各社とのlsquoCommodityrsquoのマイクロプロセッサではなく独自のプロセッサを開発中
スケーラブルシステムズ株式会社
TOP500性能予測
1993 1995 1997 1999 2001 2003 2005 2007 2009 2011 2013 2015
N=
50
SUM
1 Gflops
1 Tflops
100 Mflops
100 Gflops
100 Tflops
10 Gflops
10 Tflops
1 Pflops
10 Pflops
IBM ASCI White
Blue GeneEarth Simulator
Intel
TOP500の総計が1PFを超えています
TOP500に掲載されるには1TF
が最低条件になっています
シングルシステムの1PFの実現は2009年
システム(プロセッサ数) 13倍年プロセッサ性能向上 14倍年トータル性能 18倍年
2009年までに1ペタFLOPS
スケーラブルシステムズ株式会社
性能ギャップの拡大
bull ピーク性能の大幅な向上ndash 1990年台は性能の向上は102のオーダーでしたが2000年台になると103のオーダーで性能は向上しています
しかしhellipndash 多くの科学技術計算用途のアプリケーションのピーク性能に対する実効性能の比率は5-10となっています(1990年代のベクトル計算機は40-50の対ピーク性能を示していました)
bull 今必要なのはndash より高い実効性能を発揮することが可能な計算アルゴリズムと手法の開発とスケーラビリティの向上
ndash プログラミングモデルなども含めてスケーラブルな計算機環境の構築
01
1
10
100
1000
2000 2004
Tera
flo
ps
1996
Performance
Gap
Peak Performance
Real Performance
NERSC User Group Meeting June 24-25 2004
Osni Marques and Tony Drummond
Lawrence Berkeley National Laboratory
スケーラブルシステムズ株式会社
ペタスケールシステムの構築
bull ソフトウエア(アプリケーションOSプログラミングAPIなど)の課題の克服が課題
bull システムの複雑さと生産性
例Linpack Benchmark
bull オリジナルベンチマークプログラム ~100ライン
bull HPL ベンチマークプログラム ~10000ライン(x100より複雑)
lsquo複雑さrsquoの壁
現在のテラFLOPS級の問題
Source ORNL
スケーラブルシステムズ株式会社
HPCシステムの動向商用製品
Going DOWN
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
ハードウエアはrsquoCommodityrsquo
なものを利用してSWの改善サポート利用技術のサポートが今後の主要マーケットでの成功の鍵となる
スケーラブルシステムズ株式会社
標準コンポーネントの進化
bull プロセッサの性能向上ndash lsquoマルチコアrsquoによる省電力での性能向上が可能
ndash HPCアプリケーションは容易にlsquoマルチコアrsquoの利点を活用可能 (OpenMPやMPI)
bull ファイルシステムndash高性能なスケーラブルファイルシステム(オープンソース)
bull インターコネクトndash PCI-Express (メモリlarrrarrインターコネクト)
ndash高速の商用製品やオープンソースでの強力(OpenIBなど)
スケーラブルシステムズ株式会社
標準コンポーネントの利点
bull 特定のベンダーからのシステムを組み合わせるのではなく他社のシステムも含めてベストなシステムの選択が可能
ndashスケーラブルSMPベクトル計算機クラスタの幅広い選択肢
ndash 64ビットマルチコアマイクロプロセッサの性能向上を最大限に活用
bull 標準コンポーネントの技術革新の活用
ndash PCI-ExpressやFB-DIMMの利用技術
スケーラブルシステムズ株式会社
Breaking the 1-2K nodes Barrier
bull 音の障壁サウンドバリヤー(sound barrier)飛行機の速度が音速近くになると衝撃波の発生によって抵抗の増大境界層の剥離など設計運用上のさまざまな障害(壁)に出合って超音速飛行は不可能かと思われた時代があった(1947年ごろまで)ので音の障壁といわれていた
httpwwwwilk4commiscsoundbreakhtm
クラスタのノード数がある規模に近くなるとその構築や運用において負担の増大システムの安定稼動スケーラビリティなど設計運用上のさまざまな障害(壁)に出合ってクラスタ構築は不可能と思われた時代があった()
スケーラブルシステムズ株式会社
ビルゲイツ氏の基調講演HPC goes mainstream
スケーラブルシステムズ株式会社
「Fast」「Good」「Cheap」のパズル
Fast
+ Cheap
Inferior
高い性能を廉価なシステムで構築することも可能ですただそのようなシステムの場合システムの構築や利用は必ずしも容易ではありません
Good
+ Cheap
Slow比較的小規模なシステムであれば廉価で使い勝手の良いものを探すことは可能ですしかしそのようなシステムでは拡張性やより大規模なシステム構築が出来ません
Good
+ Fast
Expensive
付加価値の高い性能の高いシステムは一般には高価ですその付加価値がユーザにとってメリットが無ければコストパフォーマンスの悪いシステムになるだけです
スケーラブルシステムズ株式会社
まとめとして
bull 「テクノロジー」をどのようにとらえるかndash企業経営基盤のコア要素
ndashユーザの本質的な課題を解決する戦略的な武器
bull マーケットを牽引する「テクノロジ」に求められることndashテクノロジとHPCにおけるITインフラの関係を明確にすること
bull ユーザに何らかのメリットをもたらさない「テクノロジー」は意味を成さない
ndashテクノロジーを最適に組み合わせることで問題解決のためのソリューションの提供が可能
スケーラブルシステムズ株式会社
まとめとして
bull bdquoTs‟ for HPC - インテルテクノロジのHPCにおける価値
ndash インテルテクノロジはHPCにおいて重要な構成要素となっている
ndashそれらの構成要素を統合することでより高い価値の提供が可能となる
ndash二分化しつつあるHPCシステムにおいて「標準コ
ンポーネント」としてのプラットフォームの動向として今後もその動向には注目する必要がある
スケーラブルシステムズ株式会社
さらに詳しい情報はhellip
bull 弊社のコンサルテーションに関するご提案資料もダウンロード可能です(非公開WEBページ)別途弊社に内容等についてはお尋ねください
お問い合わせ先102-0083
東京都千代田区麹町3-5-2
BUREX麹町 8F
電話03-5875-4718
FAX03-3237-7612
E-mailbizsstccojp
httpwwwsstccojp wwwsstccojpbiz
スケーラブルシステムズ株式会社
スケーラブルシステムズ株式会社
ハイエンドコンピューティングに関するコンサルテーションとして幅広いサービスをご提供致します
このサービスを最大限に活用していただくことでコラボレーションによる「顧客志向」 のコン
サルテーションサービスをご提供できればと思っております
スケーラブルシステムズ株式会社
社名製品名などは一般に各社の商標または登録商標です無断での引用転載を禁じます
In general the name of the company and the product name etc are the trademarks or registered trademarks of each company
Copyright Scalable Systems Co Ltd 2005 Unauthorized use is strictly forbidden
2005年11月
スケーラブルシステムズ株式会社
温故知新
bull はじめに
bull HPCシステムの歴史
bull HPCシステムの課題
ndash ソフトウエア
ndashハードウエア
ndashマイクロプロセッサ
スケーラブルシステムズ株式会社
HPCシステム
bull HPCからHPMS (High-Performance Modeling and
Simulation)
ndash 計算システム+ストレージ+可視化の統合システム
ndash High Performance と High Productivity
bull Capability(単一ジョブの高速処理)vs Capacity(複数ジョブの多重処理)
bull ハイエンドコンピューティングに関する課題
ndash プログラミングモデル(Programming Productivity - Safety
Portability Performance Integrationなど)
ndash 仮想化IOOSAPIなど様々か課題
bull マイクロプロセッサの動向の変化
スケーラブルシステムズ株式会社
このスライドは誰が
スケーラブルシステムズ株式会社
HPCの歴史
Episode I
The Phantom Menace
スケーラブルシステムズ株式会社
Cray システム
bull Cray-1 (1977)
ndash 250 MFLOPS
ndash 80 MHz
ndash 1 MWord (64-bit)
bull PC 8088 (1979) ndash 5 MHz
ndash 1 MB RAM
bull Modern PC (Pentium 4) ndash 32 GHz (Dual Core)
ndash 128 GFLOPS
ndash 4 GB RAM
httped-thelenorgcomp-histCRAY-1-HardRefManCRAY-1-HRMhtml
スケーラブルシステムズ株式会社
Crayシステムピーク性能
1
10
100
1000
10000
100000
1000000
1970 1975 1980 1985 1990 1995 2000
製品化年度
ピークMFLOPS値
1976
Cray-1
1983
XMP4
1987
YMP8
1987
C9016
1987
T9032
1983
XMP1
1987
YMP1
1987
C901
1987
T901
シングルプロセッサ性能
マルチプロセッサ性能24ヶ月で2倍の性能
スケーラブルシステムズ株式会社
HPMS (High-Performance Modeling and Simulation)
実験
観察
理論
計算科学High Performance Computing
バーチャルリアリティ仮想現実空間の構築
物理モデリングコンピュータグラフィックス
「インシリコ」テストバイオサイエンスとシュミレーション
大規模並列システムスケーラブルコンピューティング
現象
High-Performance Modeling and
Simulation
スケーラブルシステムズ株式会社
シュミレーション事例
スケーラブルシステムズ株式会社
シュミレーション事例
スケーラブルシステムズ株式会社
シュミレーション事例
スケーラブルシステムズ株式会社
シングルプロセッサ性能Linpack
Cray 1s
Xmp
Xmp
Ymp
C90
Sun 4260
MIPS M120
MIPS M2000
IBM RS6000540HP 9000750
DEC Alpha AXP
HP9000735
MIPS R4400
IBM Power2990
1
10
100
1000
10000
1975 1980 1985 1990 1995 2000
Lin
pack
MF
LO
PS
Cray n=1000 Cray n=100
Micro n=1000 Micro n=100
DEC 8200
T94
スケーラブルシステムズ株式会社
ベクトル計算機の性能
Q なぜベクトル計算機の性能がマイクロプロセッサの性能のように向上しなかったのでしょうか
A ベクトル計算機はグローバル共有メモリに対する高い接続性能にその性能が依存していたためにこのメモリ間接続の性能向上がボトルネックとなってしまいました
例DRAMメモリの性能と仕様
1979標準DRAM 1999200 MHz SDRAM 1979rarr1999
16K bit
1-bit wide interface
5 Mbs uniform access BW
2 Mbs random access BW
256 Mbit
16-bit wide interface
3200 Mbs uniform access BW
1000 Mbs random access BW
X 16000
X 640
X 500
X 25
スケーラブルシステムズ株式会社
The Pahntom Menace
1993-2000
ベクトル計算機の凋落
商用プロセッサの台頭
スケーラブルシステムズ株式会社
ベクトル計算機の逆襲
Episode V
The Empire Strikes Back
スケーラブルシステムズ株式会社
ベクトル計算機の逆襲
bull 2002
bull 地球シュミレータ
bull コンピュータにおけるスプートニックショック
10487075120 (640 8-way nodes) 500 MHz NEC
10487078 GFLOPS per CPU (41 TFLOPS total)
10487072 GB Memory per CPU (10 TB total)
104870720 kVA power consumption per node
スケーラブルシステムズ株式会社
HPCの歴史
Episode II
Attack of the Clones
スケーラブルシステムズ株式会社
イノベーションのジレンマ
bull クレイトンクリステンセンの「イノベーションのジレンマ」
bull 持続的イノベーションと破壊的イノベーションによるマーケットの動向を分析
bull 持続的イノベーション
ndash 技術革新が顧客の求める性能向上軸に沿っている
bull 破壊的イノベーション
ndash 既存顧客が求める性能とは異なる軸の性能(特性)
スケーラブルシステムズ株式会社
製品の性能
時間
製品の性能(異なる尺度で評価)
時間
Commodity-Based Cluster
RISCベースのSMPNUMAシステム
ベクトル計算機
破壊的イノベーション
スケーラブルシステムズ株式会社
Beowulf プロジェクト
Wiglaf - 1994
16 Intel 80486 100 MHz
VESA Local bus
256 Mbytes memory
64 Gbytes of disk
Dual 10 base-T Ethernet
72 Mflops sustained
$40K
Hrothgar - 1995
16 Intel Pentium100 MHz
PCI
1 Gbyte memory
64 Gbytes of disk
100 base-T Fast Ethernet
(hub)
240 Mflops sustained
$46K
Hyglac-1996 (Caltech)
16 Pentium Pro 200 MHz
PCI
2 Gbytes memory
496 Gbytes of disk
100 base-T Fast Ethernet
(switch)
125 Gflops sustained
$50K
スケーラブルシステムズ株式会社
クラスタシステムの台頭
2000-2005
スケーラブルシステムズ株式会社
課題
Episode III
Revenge of the sith
スケーラブルシステムズ株式会社
HPCの現状
Going UP Going DOWN
システムの規模解析モデルのサイズ運用管理の複雑さbull電力bullスペースbullシステムの相互接続bull管理コスト
生産性bullプログラミングbullシステムの可用性bull実効性能ピーク性能システムバランスHWコスト
スケーラブルシステムズ株式会社
HPCマーケット
bull HPCマーケットでのHPCシステム構築及び製品は次の3つのセグメントに分かれているndash 一般商用システム( Commodity-based systems)
bull 一般のクラスタシステム(Dell HPCCなど)
ndash 付加価値システム( Value-based systems)bull 多くのSMPやNUMAシステム(SGI Altixなど)
ndash 特定目的システム( Purpose-built systems)bull アプリケーションと解析対象に合わせたシステム設計(IBM
BlueGeneLなど)
bull IDCなどのレポートでも一般商用システムのHPCマーケットでの導入がもっともその成長が大きいndash 付加価値システムの課題(一般商用システムとの競合に対する対応もしくは新たな分野の開拓rarrペタスケールコンピューティング)
ndash HPCSプログラムはこの付加価値システムのベンダーにとっても生き残りを賭けた戦い (2006July)
スケーラブルシステムズ株式会社
HPCシステムの現状分析
bull Good News
ldquoHPCシステムにおける問題はたった2つだけであるrdquo
スケーラブルシステムズ株式会社
ソフトウエアとハードウエア
bull ソフトウエアThe Law of Morehellip
ndashシステム規模とその複雑さの急速な増加拡大
ndash ソフトウエアの準備が出来た時点でハードウエアは既に陳腐化し次のシステムの導入の検討が進む
bull ハードウエアMoore‟s Law (ムーアの法則)ndash消費電力の問題のためプロセッサの動作クロックを今までのペースで上げることは困難
ndashプロセッサとメモリの性能差の拡大によるCPUサイクルとのギャップ
ndashピーク性能と実効性能のギャップの拡大
スケーラブルシステムズ株式会社
ソフトウエアThe Law of Morehellip
bull 研究者はより多くの時間(More Time)をソフトウエアの開発のために必要としている
bull 問題はより複雑(More Complex)になりそしてより多くのプロセッサ(More Processors)を利用して処理を行うにはより多くの困難(More
Difficult)が伴います
スケーラブルシステムズ株式会社
アルゴリズムの最適化
bull 計算機自身の進化と共に計算アルゴリズムも最適化されている
bull 例編微分方程式の解法ndash N=106の場合ガウスの消去法で線形方程式を解く場合と
MGでの計算では108倍の計算量が違うndash これは1Mflopssの計算機で100Tflopssの計算機に相当する計算を行ったことになる
O(N)F-cycle MG
O(N76 log(N))CGMILU
O(N43 log(N))Optimal SOR
O(N53 log(N))Gauss Seidel
O(N73)Banded Gauss Elimination
計算オペレーション数(概数)アルゴリズム
2u=f 100
100100
スケーラブルシステムズ株式会社
ソフトウエアThe Law of Morehellip
bull 一般の商用製品を活用したクラスタソリューションでは「Capacity」の実現は容易であるが「Capability」の実現については依然として課題が多いndash コストパフォーマンスの高いシステムの構築は可能だとしてもコストプロダクティビティの高いシステムの構築も課題
bull 数百~数千プロセッサ構成のシステムの利用技術と解析対象の検討ndash 小規模中規模問題の高速処理への対応ndash ソフトウエア開発の生産性
bull 数プロセッサ~数十プロセッサをより簡便に容易に利用できる技術ndash シングルプロセッサシングルスレッドを利用するのと同じようにhellip
スケーラブルシステムズ株式会社
ソフトウエアとハードウエア
bull ソフトウエアThe Law of Morehellip
ndashシステム規模とその複雑さの急速な増加拡大
ndash ソフトウエアの準備が出来た時点でハードウエアは既に陳腐化し次のシステムの導入の検討が進む
bull ハードウエアMoore‟s Law (ムーアの法則)ndash消費電力の問題のためプロセッサの動作クロックを今までのペースで上げることは困難
ndashプロセッサとメモリの性能差の拡大によるCPUサイクルとのギャップ
ndashピーク性能と実効性能のギャップの拡大
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash過去12年間でPentiumプロセッサの動作周波数は60 MHz から 3800 MHz にまでアップ
ndash現在までの高性能化の約80 はクロック周波数の向上によるもの
スケーラブルシステムズ株式会社
ハードウエアの問題Moore‟s Lawムーアの法則
bull インテルの共同設立者の1人である Gordon Moore 博士が1965年4月19日号の「Electronics」誌に投稿した 「一定面積に集積されるトランジスタの数は12か月で倍増しそれに伴いトランジスタの動作速度が向上する」という予測 (その後1975年に Moore 博士はチップの複雑化を考慮してトランジスタ数の倍増ペースを24か月に修正)
bull また一般にはあまり知られていないがテクノロジの進歩とともに製造コストが劇的に下落することも予測(左図)
httpwwwintelcojpjpdevelopertechnologysiliconmooreslawindexhtm
指数関数的成長は永遠には続かないしかしその永遠を先延ばしにすることはできる [英語 PDF 形式 2MB]
Gordon E Moore2003年2月10日ISSCC (International
Solid State Circuits Conference) でのプレゼンテーション
Dr Gordon Moore
(co-founder of Intel)
スケーラブルシステムズ株式会社
Technology Trend
ムーアの法則依然として有効
スケーラブルシステムズ株式会社
性能向上の源泉は
ハードウエアデバイス技術の進歩bull ロジック回路のスイッチング速度の向上とデバイス密度bull メモリサイズの拡大とアクセス速度の向上bull 通信性能(バンド幅とレイテンシの向上)
bull 並列性ndash 1サイクルでの命令実行数
bull 命令レベルでの並列性(ILP)
bull ベクトル処理ndash プロセッサあたりコア数ndash ノードあたりのプロセッサ数ndash システムあたりのノード数
コンピュータアーキテクチャbull 命令発行実行速度の向上
ndash パイプライン化ndash 分岐予測ndash キャッシュndash Out-of-order など
スケーラブルシステムズ株式会社
GHz競争
bull 2000年に開催されたIEEE国際電子デバイス会議2000(2000
IEEE International Electron Devices MeetingIEDM) においてインテル社は4億個以上のトランジスタを集積した10GHz駆動のプロセッサが2005年までに実現可能だと発表しましたndash 実際にはインテル社の最速プロセッサは6ヶ月前に発表された
38GHz(Intel Pentium 4)となっています
bull Prescottプロセッサの6xxシリーズ発表に際してインテル社はldquoadding value beyond GHzrdquo のコメントを出していますそれ以降インテル社の多くのドキュメントやプレスリリースはこのldquoadding value beyond GHzrdquo についての内容を含んでいます
スケーラブルシステムズ株式会社
発熱の問題が深刻化
Bob Colwell氏の資料より抜粋
Increasing Frequency
Watt
scm
2
1
10
100
1000
15 10 07 05 035 025 018 013 01 007
i386i486
PentiumPentium Pro
Pentium IIPentium III
Hot Plate
Nuclear Reactor
Rocket Nozzle
Pentium 4(Prescott)
Pentium 4(Willamette)
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash過去12年間でPentiumプロセッサの動作周波数は60 MHz から 3800 MHz にまでアップ
ndash現在までの高性能化の約80 はクロック周波数の向上によるもの
bull 命令実行の強化と最適化
ndashより強力なインストラクションセット
ndash命令実行の最適化(パイプライン化分岐予測複数命令の同時実行命令実行順序の変更など)
スケーラブルシステムズ株式会社
技術のSカーブ技術開発の進展と製品性能の成長の関係
bull 技術開発の初期は製品性能はゆっくりと向上するがしだいに性能の向上の幅が大きくなるしかし次第に技術開発が成熟段階に入ると性能向上は逓減していく
製品の性能
時間
First Technology
Second Technology
Third Technology
RISCアウトオブオーダー実行lt1 instruction cycle
スーパースカラー RISCアウトオブオーダー実行lt2 instructions cycle
明示的並列命令コンピューティング技術 (EPIC)
命令の並列実行度の向上
スケーラブルシステムズ株式会社
マイクロアーキテクチャのSカーブ
Johan De Gelas Quest for More Processing Power
AnandTech Feb 8 2005
httpwwwanandtechcomcpuchipsetsshowdocaspxi=2343
101
102
103
104
105
106
MIP
S
1980 1985 1990 1995 2000 2005 2010
Pentium Architecture
Super Scalar
Pentium Pro Architecture
Speculative Out-of-Order
Pentium 4 Architecture
Trace Cache
Pentium 4 and Xeon Architecture with HT
Multi-Threaded
Multi-Threaded Multi-Core
Era of
Instruction
Parallelism
Era of
Thread
Parallelism
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash 過去12年間でPentiumプロセッサの動作周波数は60
MHz から 3800 MHz にまでアップ
ndash 現在までの高性能化の約80 はクロック周波数の向上によるもの
bull 命令実行の強化と最適化
ndash より強力なインストラクションセット
ndash 命令実行の最適化(パイプライン化分岐予測複数命令の同時実行命令実行順序の変更など)
bull 大容量キャッシュ
ndash プロセッサの速度とメモリレイテンシ(待ち時間)とバンド幅のギャップの拡大に対する対策対応としての容量の拡張
スケーラブルシステムズ株式会社
性能ギャップの問題
bull プロセッサ速度とメモリアクセスの速度差によってプロセッサがより高速になったとしてもプロセッサはその演算能力を完全に使い切ることが出来ない
1
10
100
1000Performance
1980 1990 2000
microProc
60yr
DRAM
7yr
バンド幅とレイテンシの問題が今後はより深刻(プロセッサ性能とのギャップはほぼ年率50の差で広がっている)
DRAM
CPU
プロセッサはほぼナノ秒に一回命令実行DRAMへのアクセスはほぼ100ナノ秒の時間
スケーラブルシステムズ株式会社
今後の発展と課題
Episode IV
A New Hope
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash 過去12年間でPentiumプロセッサの動作周波数は60
MHz から 3800 MHz にまでアップ
ndash 現在までの高性能化の約80 はクロック周波数の向上によるもの
bull 命令実行の強化と最適化
ndash より強力なインストラクションセット
ndash 命令実行の最適化(パイプライン化分岐予測複数命令の同時実行命令実行順序の変更など)
bull 大容量キャッシュ
ndash プロセッサの速度とメモリレイテンシ(待ち時間)とバンド幅のギャップの拡大に対する対策対応としての容量の拡張
スケーラブルシステムズ株式会社
デュアルコアプロセッサ
bull チップ上のトランジスタのより有効活用が可能bull スレッドレベルでの並列処理を活用bull よりシンプルなプロセッサの設計が可能
bull 将来のマイクロプロセッサはより多くのコアを実装可能bull 将来のマイクロプロセッサはより大容量のキャッシュの実装が可能
IBM Power5
with 19MB L2
AMD Opteron
with 2MB L2
Intel Montecito
With 24MB L3
スケーラブルシステムズ株式会社
イノベーションのジレンマ
製品の性能
時間
First Technology
Second Technology
Third Technology
RISCアウトオブオーダー実行lt1 instruction cycle
スーパースカラー RISCアウトオブオーダー実行lt2 instructions cycle
明示的並列命令コンピューティング技術 (EPIC)
命令の並列実行度の向上
製品の性能(異なる尺度)
時間
持続的イノベーション
技術革新が顧客の求める性能向上軸(ムーアの法則)に沿っている
破壊的イノベーションマルチコアとマルチスレッドによる並列処理
短期的には(シングルスレッドの性能)としては性能が低下するが将来の大きな性能向上とコスト低下機能強化の可能性が大きい
スケーラブルシステムズ株式会社
マルチコアの利点
ワークロードの処理効率の向上
bull マルチスレッドアプリケーションndash現在多くのアプリケーション(データベース
WEB科学技術計算)はマルチスレッド化
ndashマルチコアプロセッサではこれらのアプリケーションのマルチスレッドでの実行が容易に可能
bull 複数ジョブの処理ndashシステムでは複数のワークロード同時に処理することが必要
ndashマルチコアではこれらのワークロードへの処理が可能
スケーラブルシステムズ株式会社
マルチコアの利点
消費電力あたりの性能を最大にし高性能で低消費電力のシステム構築が可能
bull OS自身のマルチスレッド対応
ndash OSのサービスもマルチスレッドで処理することでより効率よく処理することが可能
bull 仮想化
ndashサーバのセキュリティや管理の強化
ndash管理するノード数を減らし運用コストの削減を図る
bull 最新のソフトウエアテクノロジの活用
スケーラブルシステムズ株式会社
大きな変革しかし容易ではない
マルチコアプロセッシング(または汎用もしくは専用プロセッサをソケットに複数搭載可能なこと)はEthernetの誕生以来ITインフラに対しての大きなインパクトをもたらします
デュアルプロセッサは386プロセッサの発表以来性能に関して最大の向上を実現しますしかしこのような性能向上にはソフトウエアの最適化がプロセッサの性能をフルに発揮するためには必要です
スケーラブルシステムズ株式会社
並列性(Parallelism)の利用
マルチタスク処理
MPIなどによる複数のノード間での並列処理
ユーザ及びコンパイラによるスレッドレベルでの並列処理(TLP)
コンパイラによる命列実行レベルでの並列処理(ILP)
マルチコア
マルチプロセッサ
マルチノード
マルチインストラクション
システム
スケーラブルシステムズ株式会社
ムーアの法則(GHz から MC へ)
マルチコアによる性能向上
動作周波数の向上による性能向上
性能
2005
bullマルチスレッドbullマルチタスクbull トレーニングbullツールbullhelliphellip
並列処理による性能向上についてはシステムサポートやプログラミングサポートなどの面での技術支援が重要です
スケーラブルシステムズ株式会社
Episode VI
Return of the Jedi
Ts for HPC - インテルテクノロジのHPCにおける価値の考察
スケーラブルシステムズ株式会社
将来予測の難しさ
bull ldquoI think there is a world market for maybe five
computersrdquobull Thomas Watson chairman of IBM 1943
bull ldquoThere is no reason for any individual to have a
computer in their homerdquobull Ken Olson president and founder of digital equipment
corporation 1977
bull ldquoThere are only about 100 potential customers
worldwide for a Cray-1rdquobull Seymour Cray 1977
bull ldquo640K [of memory] ought to be enough for
anybodyrdquobull Bill Gates chairman of Microsoft1981
スケーラブルシステムズ株式会社
「未来を予測する最良の方法はそれを創造してしまうことである」The best way to predict future is to invent it
Dr Alan Kay President of Viewpoints Research
Institute Inc
スケーラブルシステムズ株式会社
ITマネージメントの課題
bull プラットフォームの内部からの保護ndash ウイルスやワームなど悪意あるソフトウェアからの保護
bull 資産管理ndash 多くの IT 部門では特定できない資産が問題
bull オンラインおよびリモート管理診断機能 ndash アップグレード診断復旧のための作業の効率化
bull アプリケーション統合の困難さ
ndash アプリケーションの高度化と複雑化によって複数のアプリケーションを組み合わせるての動作に問題
bull 動的なリソース割り当て
ndash 組織内で未使用のCPUやメモリの活用
スケーラブルシステムズ株式会社
マーケットトレンド
All Servers Worldwide 2003 2004 2005 20062003 to 2006
CAGR
2005 to 2006
CAGR
Total Factory Revenue($B) $46149 $49146 $51268 $52251 42 19
Units Shipped(same as nodes) 5278222 6307484 7050099 7472649 123 60
Processor Dies Shipped 8662823 10134624 11712766 12779159 138 91
HPC Technical Servers Worldwide 2003 2004 2005 20062003 to 2006
CAGR
2005 to 2006
CAGR
HPC Server Revenue($B) $5698 $7393 $9208 $10030 207 89
Adjusted Revenues(To much
enterprise)$5128 $6654 $8287 $9027 207 89
Node Units Shipped 411327 734510 1215735 1419221 511 167
Processor Elements Shipped 1002905 1657827 2681079 3351843 495 250
HPC As A Ratio Of All Servers 2003 2004 2005 2006
Revenue($B) 123 150 180 192
Adjusted Revenues(Apples-to-
apples)111 135 162 173
Units Shipped(Nodes) 78 116 172 190
Processors Shipped 116 164 226 261
Source IDC 2007
スケーラブルシステムズ株式会社
HPCマーケット(対全サーバマーケット)
0
5
10
15
20
25
30
2003 2004 2005 2006
Revenue($B)
Adjusted Revenues(Apples-to-apples)
Units Shipped(Nodes)
Processors Shipped
スケーラブルシステムズ株式会社
マーケットトレンド
Source IDC 2004
Cost of mgmt amp admin 10 CAGR
$0
$20
$40
$60
$80
$100
$120
$140
$160
$180
$200
1996 rsquo97 rsquo98 rsquo992000 rsquo01 rsquo02 rsquo03 rsquo04 rsquo05 rsquo06 rsquo07 rsquo08-
New server spending (USM$) 3 CAGR
Spending (USB$)
5
10
15
20
25
30
35
Installed Base (M Units)
bull ハードウェアの減価償却費は IT の TCO 全体の約25 にすぎない
bull ソフトウェアのコストはわずか10~15
bull 電気などの公共料金フロアスペース電話回線など設備面のコストの割合もきわめて小さい
bull プラットフォームのコストではなくTCOの大きな比率を占めるのは人件費となっている
スケーラブルシステムズ株式会社
運用管理コストの低減
bull 「もっと処理性能を」と「より安価に」を実現するためにワークステーションやサーバでの分散処理の導入
bull ユーザや企業に新たな価値をもたらしてはいるが管理責任とその負担の分散を招き結果的に運用管理コストを押し上げる
メインフレームスーパーコンピュータ
仮想化によるサーバコンソリデーション
クラスタによる仮想コンピュータ
スケーラブルシステムズ株式会社
次世代HPCインフラ
bull コアとスレッド
ndash より多くのスレッドを効率よく利用可能
ndash マルチスレッド向け最適化
bull 電力管理
ndash 省電力
ndash データセンター運用管理機能
bull 仮想化
ndash 柔軟性と優れた運用管理
ndash 仮想的なシステムパーティション
bull RAS
ndash ハードウエアベースの自己監視自己管理
ndash ファームウエアベースのエラー履歴管理
bull システム管理
ndash より低いTCOを実現するための一般標準化されたマネージメント機能
スケーラブルシステムズ株式会社
高速プロセッサ
64ビットアドレス
メモリ性能と容
量
IOバンド幅
インターコネクト
省電力
システムのlsquoバランスrsquo
マルチコアによってプロセッサ単体の処理性能の向上を図る
64ビットのアドレス空間と
拡張されたレジスタによるOSとアプリケーション双方の機能性能拡張
64ビット化とマルチコア化
にともなう高速大容量へのニーズに対応しまたその拡張性の高い実装技術の実現
CPU-メモリ間の高速な
データ転送やより高速なネットワーク大規模なストレージのサポート
大規模なクラスタシステムの構築及びアプリケーションのワークロードに対応した高速性能
エコシステムに対応するためにも電力消費量や発熱量を積極的に抑える技術の開発
スケーラブルシステムズ株式会社
HPCの二極分化
Going UP
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
Going DOWN
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
スケーラブルシステムズ株式会社
システムとユーザの尺度
bull ユーザの尺度での性能(Performance)は時間当たりにどれだけの仕事を処理出来るか(仕事量 時間)
bull Flopsでの評価は実際には意味がないまた問題の規模(small medium large) という評価も難しい
bull ldquoスケーラビリティrdquoは対象を明確に規定する必要がある
システムの尺度 ユーザの尺度
Flops hArr 計算終了までの時間
メモリサイズ(GB) hArr モデルのサイズと計算結果
プロセッサ数 hArr ワークロードでの試行
データ長 hArr 計算精度
システム構成(クラスタ) hArr 導入コストと運用コスト
スケーラビリティ hArr ベンチマーク
スケーラブルシステムズ株式会社
HPCシステムの動向国家プロジェクトと商用製品のギャップの拡大
Going UP
Going DOWN
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
Peta-Scaleコンピューティングに求められる基本技術と現在のHPCの主要マーケットでの要求はあまりにも差が大きいrarrHPCSシステムは各社とのlsquoCommodityrsquoのマイクロプロセッサではなく独自のプロセッサを開発中
ハードウエアはrsquoCommodityrsquo
なものを利用してSWの改善サポート利用技術のサポートが今後の主要マーケットでの成功の鍵となる
スケーラブルシステムズ株式会社
HPCシステムの動向国家プロジェクト
Going UP
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
Peta-Scaleコンピューティングに求められる基本技術と現在のHPCの主要マーケットでの要求はあまりにも差が大きいrarrHPCSシステムは各社とのlsquoCommodityrsquoのマイクロプロセッサではなく独自のプロセッサを開発中
スケーラブルシステムズ株式会社
TOP500性能予測
1993 1995 1997 1999 2001 2003 2005 2007 2009 2011 2013 2015
N=
50
SUM
1 Gflops
1 Tflops
100 Mflops
100 Gflops
100 Tflops
10 Gflops
10 Tflops
1 Pflops
10 Pflops
IBM ASCI White
Blue GeneEarth Simulator
Intel
TOP500の総計が1PFを超えています
TOP500に掲載されるには1TF
が最低条件になっています
シングルシステムの1PFの実現は2009年
システム(プロセッサ数) 13倍年プロセッサ性能向上 14倍年トータル性能 18倍年
2009年までに1ペタFLOPS
スケーラブルシステムズ株式会社
性能ギャップの拡大
bull ピーク性能の大幅な向上ndash 1990年台は性能の向上は102のオーダーでしたが2000年台になると103のオーダーで性能は向上しています
しかしhellipndash 多くの科学技術計算用途のアプリケーションのピーク性能に対する実効性能の比率は5-10となっています(1990年代のベクトル計算機は40-50の対ピーク性能を示していました)
bull 今必要なのはndash より高い実効性能を発揮することが可能な計算アルゴリズムと手法の開発とスケーラビリティの向上
ndash プログラミングモデルなども含めてスケーラブルな計算機環境の構築
01
1
10
100
1000
2000 2004
Tera
flo
ps
1996
Performance
Gap
Peak Performance
Real Performance
NERSC User Group Meeting June 24-25 2004
Osni Marques and Tony Drummond
Lawrence Berkeley National Laboratory
スケーラブルシステムズ株式会社
ペタスケールシステムの構築
bull ソフトウエア(アプリケーションOSプログラミングAPIなど)の課題の克服が課題
bull システムの複雑さと生産性
例Linpack Benchmark
bull オリジナルベンチマークプログラム ~100ライン
bull HPL ベンチマークプログラム ~10000ライン(x100より複雑)
lsquo複雑さrsquoの壁
現在のテラFLOPS級の問題
Source ORNL
スケーラブルシステムズ株式会社
HPCシステムの動向商用製品
Going DOWN
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
ハードウエアはrsquoCommodityrsquo
なものを利用してSWの改善サポート利用技術のサポートが今後の主要マーケットでの成功の鍵となる
スケーラブルシステムズ株式会社
標準コンポーネントの進化
bull プロセッサの性能向上ndash lsquoマルチコアrsquoによる省電力での性能向上が可能
ndash HPCアプリケーションは容易にlsquoマルチコアrsquoの利点を活用可能 (OpenMPやMPI)
bull ファイルシステムndash高性能なスケーラブルファイルシステム(オープンソース)
bull インターコネクトndash PCI-Express (メモリlarrrarrインターコネクト)
ndash高速の商用製品やオープンソースでの強力(OpenIBなど)
スケーラブルシステムズ株式会社
標準コンポーネントの利点
bull 特定のベンダーからのシステムを組み合わせるのではなく他社のシステムも含めてベストなシステムの選択が可能
ndashスケーラブルSMPベクトル計算機クラスタの幅広い選択肢
ndash 64ビットマルチコアマイクロプロセッサの性能向上を最大限に活用
bull 標準コンポーネントの技術革新の活用
ndash PCI-ExpressやFB-DIMMの利用技術
スケーラブルシステムズ株式会社
Breaking the 1-2K nodes Barrier
bull 音の障壁サウンドバリヤー(sound barrier)飛行機の速度が音速近くになると衝撃波の発生によって抵抗の増大境界層の剥離など設計運用上のさまざまな障害(壁)に出合って超音速飛行は不可能かと思われた時代があった(1947年ごろまで)ので音の障壁といわれていた
httpwwwwilk4commiscsoundbreakhtm
クラスタのノード数がある規模に近くなるとその構築や運用において負担の増大システムの安定稼動スケーラビリティなど設計運用上のさまざまな障害(壁)に出合ってクラスタ構築は不可能と思われた時代があった()
スケーラブルシステムズ株式会社
ビルゲイツ氏の基調講演HPC goes mainstream
スケーラブルシステムズ株式会社
「Fast」「Good」「Cheap」のパズル
Fast
+ Cheap
Inferior
高い性能を廉価なシステムで構築することも可能ですただそのようなシステムの場合システムの構築や利用は必ずしも容易ではありません
Good
+ Cheap
Slow比較的小規模なシステムであれば廉価で使い勝手の良いものを探すことは可能ですしかしそのようなシステムでは拡張性やより大規模なシステム構築が出来ません
Good
+ Fast
Expensive
付加価値の高い性能の高いシステムは一般には高価ですその付加価値がユーザにとってメリットが無ければコストパフォーマンスの悪いシステムになるだけです
スケーラブルシステムズ株式会社
まとめとして
bull 「テクノロジー」をどのようにとらえるかndash企業経営基盤のコア要素
ndashユーザの本質的な課題を解決する戦略的な武器
bull マーケットを牽引する「テクノロジ」に求められることndashテクノロジとHPCにおけるITインフラの関係を明確にすること
bull ユーザに何らかのメリットをもたらさない「テクノロジー」は意味を成さない
ndashテクノロジーを最適に組み合わせることで問題解決のためのソリューションの提供が可能
スケーラブルシステムズ株式会社
まとめとして
bull bdquoTs‟ for HPC - インテルテクノロジのHPCにおける価値
ndash インテルテクノロジはHPCにおいて重要な構成要素となっている
ndashそれらの構成要素を統合することでより高い価値の提供が可能となる
ndash二分化しつつあるHPCシステムにおいて「標準コ
ンポーネント」としてのプラットフォームの動向として今後もその動向には注目する必要がある
スケーラブルシステムズ株式会社
さらに詳しい情報はhellip
bull 弊社のコンサルテーションに関するご提案資料もダウンロード可能です(非公開WEBページ)別途弊社に内容等についてはお尋ねください
お問い合わせ先102-0083
東京都千代田区麹町3-5-2
BUREX麹町 8F
電話03-5875-4718
FAX03-3237-7612
E-mailbizsstccojp
httpwwwsstccojp wwwsstccojpbiz
スケーラブルシステムズ株式会社
スケーラブルシステムズ株式会社
ハイエンドコンピューティングに関するコンサルテーションとして幅広いサービスをご提供致します
このサービスを最大限に活用していただくことでコラボレーションによる「顧客志向」 のコン
サルテーションサービスをご提供できればと思っております
スケーラブルシステムズ株式会社
社名製品名などは一般に各社の商標または登録商標です無断での引用転載を禁じます
In general the name of the company and the product name etc are the trademarks or registered trademarks of each company
Copyright Scalable Systems Co Ltd 2005 Unauthorized use is strictly forbidden
2005年11月
スケーラブルシステムズ株式会社
HPCシステム
bull HPCからHPMS (High-Performance Modeling and
Simulation)
ndash 計算システム+ストレージ+可視化の統合システム
ndash High Performance と High Productivity
bull Capability(単一ジョブの高速処理)vs Capacity(複数ジョブの多重処理)
bull ハイエンドコンピューティングに関する課題
ndash プログラミングモデル(Programming Productivity - Safety
Portability Performance Integrationなど)
ndash 仮想化IOOSAPIなど様々か課題
bull マイクロプロセッサの動向の変化
スケーラブルシステムズ株式会社
このスライドは誰が
スケーラブルシステムズ株式会社
HPCの歴史
Episode I
The Phantom Menace
スケーラブルシステムズ株式会社
Cray システム
bull Cray-1 (1977)
ndash 250 MFLOPS
ndash 80 MHz
ndash 1 MWord (64-bit)
bull PC 8088 (1979) ndash 5 MHz
ndash 1 MB RAM
bull Modern PC (Pentium 4) ndash 32 GHz (Dual Core)
ndash 128 GFLOPS
ndash 4 GB RAM
httped-thelenorgcomp-histCRAY-1-HardRefManCRAY-1-HRMhtml
スケーラブルシステムズ株式会社
Crayシステムピーク性能
1
10
100
1000
10000
100000
1000000
1970 1975 1980 1985 1990 1995 2000
製品化年度
ピークMFLOPS値
1976
Cray-1
1983
XMP4
1987
YMP8
1987
C9016
1987
T9032
1983
XMP1
1987
YMP1
1987
C901
1987
T901
シングルプロセッサ性能
マルチプロセッサ性能24ヶ月で2倍の性能
スケーラブルシステムズ株式会社
HPMS (High-Performance Modeling and Simulation)
実験
観察
理論
計算科学High Performance Computing
バーチャルリアリティ仮想現実空間の構築
物理モデリングコンピュータグラフィックス
「インシリコ」テストバイオサイエンスとシュミレーション
大規模並列システムスケーラブルコンピューティング
現象
High-Performance Modeling and
Simulation
スケーラブルシステムズ株式会社
シュミレーション事例
スケーラブルシステムズ株式会社
シュミレーション事例
スケーラブルシステムズ株式会社
シュミレーション事例
スケーラブルシステムズ株式会社
シングルプロセッサ性能Linpack
Cray 1s
Xmp
Xmp
Ymp
C90
Sun 4260
MIPS M120
MIPS M2000
IBM RS6000540HP 9000750
DEC Alpha AXP
HP9000735
MIPS R4400
IBM Power2990
1
10
100
1000
10000
1975 1980 1985 1990 1995 2000
Lin
pack
MF
LO
PS
Cray n=1000 Cray n=100
Micro n=1000 Micro n=100
DEC 8200
T94
スケーラブルシステムズ株式会社
ベクトル計算機の性能
Q なぜベクトル計算機の性能がマイクロプロセッサの性能のように向上しなかったのでしょうか
A ベクトル計算機はグローバル共有メモリに対する高い接続性能にその性能が依存していたためにこのメモリ間接続の性能向上がボトルネックとなってしまいました
例DRAMメモリの性能と仕様
1979標準DRAM 1999200 MHz SDRAM 1979rarr1999
16K bit
1-bit wide interface
5 Mbs uniform access BW
2 Mbs random access BW
256 Mbit
16-bit wide interface
3200 Mbs uniform access BW
1000 Mbs random access BW
X 16000
X 640
X 500
X 25
スケーラブルシステムズ株式会社
The Pahntom Menace
1993-2000
ベクトル計算機の凋落
商用プロセッサの台頭
スケーラブルシステムズ株式会社
ベクトル計算機の逆襲
Episode V
The Empire Strikes Back
スケーラブルシステムズ株式会社
ベクトル計算機の逆襲
bull 2002
bull 地球シュミレータ
bull コンピュータにおけるスプートニックショック
10487075120 (640 8-way nodes) 500 MHz NEC
10487078 GFLOPS per CPU (41 TFLOPS total)
10487072 GB Memory per CPU (10 TB total)
104870720 kVA power consumption per node
スケーラブルシステムズ株式会社
HPCの歴史
Episode II
Attack of the Clones
スケーラブルシステムズ株式会社
イノベーションのジレンマ
bull クレイトンクリステンセンの「イノベーションのジレンマ」
bull 持続的イノベーションと破壊的イノベーションによるマーケットの動向を分析
bull 持続的イノベーション
ndash 技術革新が顧客の求める性能向上軸に沿っている
bull 破壊的イノベーション
ndash 既存顧客が求める性能とは異なる軸の性能(特性)
スケーラブルシステムズ株式会社
製品の性能
時間
製品の性能(異なる尺度で評価)
時間
Commodity-Based Cluster
RISCベースのSMPNUMAシステム
ベクトル計算機
破壊的イノベーション
スケーラブルシステムズ株式会社
Beowulf プロジェクト
Wiglaf - 1994
16 Intel 80486 100 MHz
VESA Local bus
256 Mbytes memory
64 Gbytes of disk
Dual 10 base-T Ethernet
72 Mflops sustained
$40K
Hrothgar - 1995
16 Intel Pentium100 MHz
PCI
1 Gbyte memory
64 Gbytes of disk
100 base-T Fast Ethernet
(hub)
240 Mflops sustained
$46K
Hyglac-1996 (Caltech)
16 Pentium Pro 200 MHz
PCI
2 Gbytes memory
496 Gbytes of disk
100 base-T Fast Ethernet
(switch)
125 Gflops sustained
$50K
スケーラブルシステムズ株式会社
クラスタシステムの台頭
2000-2005
スケーラブルシステムズ株式会社
課題
Episode III
Revenge of the sith
スケーラブルシステムズ株式会社
HPCの現状
Going UP Going DOWN
システムの規模解析モデルのサイズ運用管理の複雑さbull電力bullスペースbullシステムの相互接続bull管理コスト
生産性bullプログラミングbullシステムの可用性bull実効性能ピーク性能システムバランスHWコスト
スケーラブルシステムズ株式会社
HPCマーケット
bull HPCマーケットでのHPCシステム構築及び製品は次の3つのセグメントに分かれているndash 一般商用システム( Commodity-based systems)
bull 一般のクラスタシステム(Dell HPCCなど)
ndash 付加価値システム( Value-based systems)bull 多くのSMPやNUMAシステム(SGI Altixなど)
ndash 特定目的システム( Purpose-built systems)bull アプリケーションと解析対象に合わせたシステム設計(IBM
BlueGeneLなど)
bull IDCなどのレポートでも一般商用システムのHPCマーケットでの導入がもっともその成長が大きいndash 付加価値システムの課題(一般商用システムとの競合に対する対応もしくは新たな分野の開拓rarrペタスケールコンピューティング)
ndash HPCSプログラムはこの付加価値システムのベンダーにとっても生き残りを賭けた戦い (2006July)
スケーラブルシステムズ株式会社
HPCシステムの現状分析
bull Good News
ldquoHPCシステムにおける問題はたった2つだけであるrdquo
スケーラブルシステムズ株式会社
ソフトウエアとハードウエア
bull ソフトウエアThe Law of Morehellip
ndashシステム規模とその複雑さの急速な増加拡大
ndash ソフトウエアの準備が出来た時点でハードウエアは既に陳腐化し次のシステムの導入の検討が進む
bull ハードウエアMoore‟s Law (ムーアの法則)ndash消費電力の問題のためプロセッサの動作クロックを今までのペースで上げることは困難
ndashプロセッサとメモリの性能差の拡大によるCPUサイクルとのギャップ
ndashピーク性能と実効性能のギャップの拡大
スケーラブルシステムズ株式会社
ソフトウエアThe Law of Morehellip
bull 研究者はより多くの時間(More Time)をソフトウエアの開発のために必要としている
bull 問題はより複雑(More Complex)になりそしてより多くのプロセッサ(More Processors)を利用して処理を行うにはより多くの困難(More
Difficult)が伴います
スケーラブルシステムズ株式会社
アルゴリズムの最適化
bull 計算機自身の進化と共に計算アルゴリズムも最適化されている
bull 例編微分方程式の解法ndash N=106の場合ガウスの消去法で線形方程式を解く場合と
MGでの計算では108倍の計算量が違うndash これは1Mflopssの計算機で100Tflopssの計算機に相当する計算を行ったことになる
O(N)F-cycle MG
O(N76 log(N))CGMILU
O(N43 log(N))Optimal SOR
O(N53 log(N))Gauss Seidel
O(N73)Banded Gauss Elimination
計算オペレーション数(概数)アルゴリズム
2u=f 100
100100
スケーラブルシステムズ株式会社
ソフトウエアThe Law of Morehellip
bull 一般の商用製品を活用したクラスタソリューションでは「Capacity」の実現は容易であるが「Capability」の実現については依然として課題が多いndash コストパフォーマンスの高いシステムの構築は可能だとしてもコストプロダクティビティの高いシステムの構築も課題
bull 数百~数千プロセッサ構成のシステムの利用技術と解析対象の検討ndash 小規模中規模問題の高速処理への対応ndash ソフトウエア開発の生産性
bull 数プロセッサ~数十プロセッサをより簡便に容易に利用できる技術ndash シングルプロセッサシングルスレッドを利用するのと同じようにhellip
スケーラブルシステムズ株式会社
ソフトウエアとハードウエア
bull ソフトウエアThe Law of Morehellip
ndashシステム規模とその複雑さの急速な増加拡大
ndash ソフトウエアの準備が出来た時点でハードウエアは既に陳腐化し次のシステムの導入の検討が進む
bull ハードウエアMoore‟s Law (ムーアの法則)ndash消費電力の問題のためプロセッサの動作クロックを今までのペースで上げることは困難
ndashプロセッサとメモリの性能差の拡大によるCPUサイクルとのギャップ
ndashピーク性能と実効性能のギャップの拡大
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash過去12年間でPentiumプロセッサの動作周波数は60 MHz から 3800 MHz にまでアップ
ndash現在までの高性能化の約80 はクロック周波数の向上によるもの
スケーラブルシステムズ株式会社
ハードウエアの問題Moore‟s Lawムーアの法則
bull インテルの共同設立者の1人である Gordon Moore 博士が1965年4月19日号の「Electronics」誌に投稿した 「一定面積に集積されるトランジスタの数は12か月で倍増しそれに伴いトランジスタの動作速度が向上する」という予測 (その後1975年に Moore 博士はチップの複雑化を考慮してトランジスタ数の倍増ペースを24か月に修正)
bull また一般にはあまり知られていないがテクノロジの進歩とともに製造コストが劇的に下落することも予測(左図)
httpwwwintelcojpjpdevelopertechnologysiliconmooreslawindexhtm
指数関数的成長は永遠には続かないしかしその永遠を先延ばしにすることはできる [英語 PDF 形式 2MB]
Gordon E Moore2003年2月10日ISSCC (International
Solid State Circuits Conference) でのプレゼンテーション
Dr Gordon Moore
(co-founder of Intel)
スケーラブルシステムズ株式会社
Technology Trend
ムーアの法則依然として有効
スケーラブルシステムズ株式会社
性能向上の源泉は
ハードウエアデバイス技術の進歩bull ロジック回路のスイッチング速度の向上とデバイス密度bull メモリサイズの拡大とアクセス速度の向上bull 通信性能(バンド幅とレイテンシの向上)
bull 並列性ndash 1サイクルでの命令実行数
bull 命令レベルでの並列性(ILP)
bull ベクトル処理ndash プロセッサあたりコア数ndash ノードあたりのプロセッサ数ndash システムあたりのノード数
コンピュータアーキテクチャbull 命令発行実行速度の向上
ndash パイプライン化ndash 分岐予測ndash キャッシュndash Out-of-order など
スケーラブルシステムズ株式会社
GHz競争
bull 2000年に開催されたIEEE国際電子デバイス会議2000(2000
IEEE International Electron Devices MeetingIEDM) においてインテル社は4億個以上のトランジスタを集積した10GHz駆動のプロセッサが2005年までに実現可能だと発表しましたndash 実際にはインテル社の最速プロセッサは6ヶ月前に発表された
38GHz(Intel Pentium 4)となっています
bull Prescottプロセッサの6xxシリーズ発表に際してインテル社はldquoadding value beyond GHzrdquo のコメントを出していますそれ以降インテル社の多くのドキュメントやプレスリリースはこのldquoadding value beyond GHzrdquo についての内容を含んでいます
スケーラブルシステムズ株式会社
発熱の問題が深刻化
Bob Colwell氏の資料より抜粋
Increasing Frequency
Watt
scm
2
1
10
100
1000
15 10 07 05 035 025 018 013 01 007
i386i486
PentiumPentium Pro
Pentium IIPentium III
Hot Plate
Nuclear Reactor
Rocket Nozzle
Pentium 4(Prescott)
Pentium 4(Willamette)
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash過去12年間でPentiumプロセッサの動作周波数は60 MHz から 3800 MHz にまでアップ
ndash現在までの高性能化の約80 はクロック周波数の向上によるもの
bull 命令実行の強化と最適化
ndashより強力なインストラクションセット
ndash命令実行の最適化(パイプライン化分岐予測複数命令の同時実行命令実行順序の変更など)
スケーラブルシステムズ株式会社
技術のSカーブ技術開発の進展と製品性能の成長の関係
bull 技術開発の初期は製品性能はゆっくりと向上するがしだいに性能の向上の幅が大きくなるしかし次第に技術開発が成熟段階に入ると性能向上は逓減していく
製品の性能
時間
First Technology
Second Technology
Third Technology
RISCアウトオブオーダー実行lt1 instruction cycle
スーパースカラー RISCアウトオブオーダー実行lt2 instructions cycle
明示的並列命令コンピューティング技術 (EPIC)
命令の並列実行度の向上
スケーラブルシステムズ株式会社
マイクロアーキテクチャのSカーブ
Johan De Gelas Quest for More Processing Power
AnandTech Feb 8 2005
httpwwwanandtechcomcpuchipsetsshowdocaspxi=2343
101
102
103
104
105
106
MIP
S
1980 1985 1990 1995 2000 2005 2010
Pentium Architecture
Super Scalar
Pentium Pro Architecture
Speculative Out-of-Order
Pentium 4 Architecture
Trace Cache
Pentium 4 and Xeon Architecture with HT
Multi-Threaded
Multi-Threaded Multi-Core
Era of
Instruction
Parallelism
Era of
Thread
Parallelism
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash 過去12年間でPentiumプロセッサの動作周波数は60
MHz から 3800 MHz にまでアップ
ndash 現在までの高性能化の約80 はクロック周波数の向上によるもの
bull 命令実行の強化と最適化
ndash より強力なインストラクションセット
ndash 命令実行の最適化(パイプライン化分岐予測複数命令の同時実行命令実行順序の変更など)
bull 大容量キャッシュ
ndash プロセッサの速度とメモリレイテンシ(待ち時間)とバンド幅のギャップの拡大に対する対策対応としての容量の拡張
スケーラブルシステムズ株式会社
性能ギャップの問題
bull プロセッサ速度とメモリアクセスの速度差によってプロセッサがより高速になったとしてもプロセッサはその演算能力を完全に使い切ることが出来ない
1
10
100
1000Performance
1980 1990 2000
microProc
60yr
DRAM
7yr
バンド幅とレイテンシの問題が今後はより深刻(プロセッサ性能とのギャップはほぼ年率50の差で広がっている)
DRAM
CPU
プロセッサはほぼナノ秒に一回命令実行DRAMへのアクセスはほぼ100ナノ秒の時間
スケーラブルシステムズ株式会社
今後の発展と課題
Episode IV
A New Hope
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash 過去12年間でPentiumプロセッサの動作周波数は60
MHz から 3800 MHz にまでアップ
ndash 現在までの高性能化の約80 はクロック周波数の向上によるもの
bull 命令実行の強化と最適化
ndash より強力なインストラクションセット
ndash 命令実行の最適化(パイプライン化分岐予測複数命令の同時実行命令実行順序の変更など)
bull 大容量キャッシュ
ndash プロセッサの速度とメモリレイテンシ(待ち時間)とバンド幅のギャップの拡大に対する対策対応としての容量の拡張
スケーラブルシステムズ株式会社
デュアルコアプロセッサ
bull チップ上のトランジスタのより有効活用が可能bull スレッドレベルでの並列処理を活用bull よりシンプルなプロセッサの設計が可能
bull 将来のマイクロプロセッサはより多くのコアを実装可能bull 将来のマイクロプロセッサはより大容量のキャッシュの実装が可能
IBM Power5
with 19MB L2
AMD Opteron
with 2MB L2
Intel Montecito
With 24MB L3
スケーラブルシステムズ株式会社
イノベーションのジレンマ
製品の性能
時間
First Technology
Second Technology
Third Technology
RISCアウトオブオーダー実行lt1 instruction cycle
スーパースカラー RISCアウトオブオーダー実行lt2 instructions cycle
明示的並列命令コンピューティング技術 (EPIC)
命令の並列実行度の向上
製品の性能(異なる尺度)
時間
持続的イノベーション
技術革新が顧客の求める性能向上軸(ムーアの法則)に沿っている
破壊的イノベーションマルチコアとマルチスレッドによる並列処理
短期的には(シングルスレッドの性能)としては性能が低下するが将来の大きな性能向上とコスト低下機能強化の可能性が大きい
スケーラブルシステムズ株式会社
マルチコアの利点
ワークロードの処理効率の向上
bull マルチスレッドアプリケーションndash現在多くのアプリケーション(データベース
WEB科学技術計算)はマルチスレッド化
ndashマルチコアプロセッサではこれらのアプリケーションのマルチスレッドでの実行が容易に可能
bull 複数ジョブの処理ndashシステムでは複数のワークロード同時に処理することが必要
ndashマルチコアではこれらのワークロードへの処理が可能
スケーラブルシステムズ株式会社
マルチコアの利点
消費電力あたりの性能を最大にし高性能で低消費電力のシステム構築が可能
bull OS自身のマルチスレッド対応
ndash OSのサービスもマルチスレッドで処理することでより効率よく処理することが可能
bull 仮想化
ndashサーバのセキュリティや管理の強化
ndash管理するノード数を減らし運用コストの削減を図る
bull 最新のソフトウエアテクノロジの活用
スケーラブルシステムズ株式会社
大きな変革しかし容易ではない
マルチコアプロセッシング(または汎用もしくは専用プロセッサをソケットに複数搭載可能なこと)はEthernetの誕生以来ITインフラに対しての大きなインパクトをもたらします
デュアルプロセッサは386プロセッサの発表以来性能に関して最大の向上を実現しますしかしこのような性能向上にはソフトウエアの最適化がプロセッサの性能をフルに発揮するためには必要です
スケーラブルシステムズ株式会社
並列性(Parallelism)の利用
マルチタスク処理
MPIなどによる複数のノード間での並列処理
ユーザ及びコンパイラによるスレッドレベルでの並列処理(TLP)
コンパイラによる命列実行レベルでの並列処理(ILP)
マルチコア
マルチプロセッサ
マルチノード
マルチインストラクション
システム
スケーラブルシステムズ株式会社
ムーアの法則(GHz から MC へ)
マルチコアによる性能向上
動作周波数の向上による性能向上
性能
2005
bullマルチスレッドbullマルチタスクbull トレーニングbullツールbullhelliphellip
並列処理による性能向上についてはシステムサポートやプログラミングサポートなどの面での技術支援が重要です
スケーラブルシステムズ株式会社
Episode VI
Return of the Jedi
Ts for HPC - インテルテクノロジのHPCにおける価値の考察
スケーラブルシステムズ株式会社
将来予測の難しさ
bull ldquoI think there is a world market for maybe five
computersrdquobull Thomas Watson chairman of IBM 1943
bull ldquoThere is no reason for any individual to have a
computer in their homerdquobull Ken Olson president and founder of digital equipment
corporation 1977
bull ldquoThere are only about 100 potential customers
worldwide for a Cray-1rdquobull Seymour Cray 1977
bull ldquo640K [of memory] ought to be enough for
anybodyrdquobull Bill Gates chairman of Microsoft1981
スケーラブルシステムズ株式会社
「未来を予測する最良の方法はそれを創造してしまうことである」The best way to predict future is to invent it
Dr Alan Kay President of Viewpoints Research
Institute Inc
スケーラブルシステムズ株式会社
ITマネージメントの課題
bull プラットフォームの内部からの保護ndash ウイルスやワームなど悪意あるソフトウェアからの保護
bull 資産管理ndash 多くの IT 部門では特定できない資産が問題
bull オンラインおよびリモート管理診断機能 ndash アップグレード診断復旧のための作業の効率化
bull アプリケーション統合の困難さ
ndash アプリケーションの高度化と複雑化によって複数のアプリケーションを組み合わせるての動作に問題
bull 動的なリソース割り当て
ndash 組織内で未使用のCPUやメモリの活用
スケーラブルシステムズ株式会社
マーケットトレンド
All Servers Worldwide 2003 2004 2005 20062003 to 2006
CAGR
2005 to 2006
CAGR
Total Factory Revenue($B) $46149 $49146 $51268 $52251 42 19
Units Shipped(same as nodes) 5278222 6307484 7050099 7472649 123 60
Processor Dies Shipped 8662823 10134624 11712766 12779159 138 91
HPC Technical Servers Worldwide 2003 2004 2005 20062003 to 2006
CAGR
2005 to 2006
CAGR
HPC Server Revenue($B) $5698 $7393 $9208 $10030 207 89
Adjusted Revenues(To much
enterprise)$5128 $6654 $8287 $9027 207 89
Node Units Shipped 411327 734510 1215735 1419221 511 167
Processor Elements Shipped 1002905 1657827 2681079 3351843 495 250
HPC As A Ratio Of All Servers 2003 2004 2005 2006
Revenue($B) 123 150 180 192
Adjusted Revenues(Apples-to-
apples)111 135 162 173
Units Shipped(Nodes) 78 116 172 190
Processors Shipped 116 164 226 261
Source IDC 2007
スケーラブルシステムズ株式会社
HPCマーケット(対全サーバマーケット)
0
5
10
15
20
25
30
2003 2004 2005 2006
Revenue($B)
Adjusted Revenues(Apples-to-apples)
Units Shipped(Nodes)
Processors Shipped
スケーラブルシステムズ株式会社
マーケットトレンド
Source IDC 2004
Cost of mgmt amp admin 10 CAGR
$0
$20
$40
$60
$80
$100
$120
$140
$160
$180
$200
1996 rsquo97 rsquo98 rsquo992000 rsquo01 rsquo02 rsquo03 rsquo04 rsquo05 rsquo06 rsquo07 rsquo08-
New server spending (USM$) 3 CAGR
Spending (USB$)
5
10
15
20
25
30
35
Installed Base (M Units)
bull ハードウェアの減価償却費は IT の TCO 全体の約25 にすぎない
bull ソフトウェアのコストはわずか10~15
bull 電気などの公共料金フロアスペース電話回線など設備面のコストの割合もきわめて小さい
bull プラットフォームのコストではなくTCOの大きな比率を占めるのは人件費となっている
スケーラブルシステムズ株式会社
運用管理コストの低減
bull 「もっと処理性能を」と「より安価に」を実現するためにワークステーションやサーバでの分散処理の導入
bull ユーザや企業に新たな価値をもたらしてはいるが管理責任とその負担の分散を招き結果的に運用管理コストを押し上げる
メインフレームスーパーコンピュータ
仮想化によるサーバコンソリデーション
クラスタによる仮想コンピュータ
スケーラブルシステムズ株式会社
次世代HPCインフラ
bull コアとスレッド
ndash より多くのスレッドを効率よく利用可能
ndash マルチスレッド向け最適化
bull 電力管理
ndash 省電力
ndash データセンター運用管理機能
bull 仮想化
ndash 柔軟性と優れた運用管理
ndash 仮想的なシステムパーティション
bull RAS
ndash ハードウエアベースの自己監視自己管理
ndash ファームウエアベースのエラー履歴管理
bull システム管理
ndash より低いTCOを実現するための一般標準化されたマネージメント機能
スケーラブルシステムズ株式会社
高速プロセッサ
64ビットアドレス
メモリ性能と容
量
IOバンド幅
インターコネクト
省電力
システムのlsquoバランスrsquo
マルチコアによってプロセッサ単体の処理性能の向上を図る
64ビットのアドレス空間と
拡張されたレジスタによるOSとアプリケーション双方の機能性能拡張
64ビット化とマルチコア化
にともなう高速大容量へのニーズに対応しまたその拡張性の高い実装技術の実現
CPU-メモリ間の高速な
データ転送やより高速なネットワーク大規模なストレージのサポート
大規模なクラスタシステムの構築及びアプリケーションのワークロードに対応した高速性能
エコシステムに対応するためにも電力消費量や発熱量を積極的に抑える技術の開発
スケーラブルシステムズ株式会社
HPCの二極分化
Going UP
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
Going DOWN
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
スケーラブルシステムズ株式会社
システムとユーザの尺度
bull ユーザの尺度での性能(Performance)は時間当たりにどれだけの仕事を処理出来るか(仕事量 時間)
bull Flopsでの評価は実際には意味がないまた問題の規模(small medium large) という評価も難しい
bull ldquoスケーラビリティrdquoは対象を明確に規定する必要がある
システムの尺度 ユーザの尺度
Flops hArr 計算終了までの時間
メモリサイズ(GB) hArr モデルのサイズと計算結果
プロセッサ数 hArr ワークロードでの試行
データ長 hArr 計算精度
システム構成(クラスタ) hArr 導入コストと運用コスト
スケーラビリティ hArr ベンチマーク
スケーラブルシステムズ株式会社
HPCシステムの動向国家プロジェクトと商用製品のギャップの拡大
Going UP
Going DOWN
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
Peta-Scaleコンピューティングに求められる基本技術と現在のHPCの主要マーケットでの要求はあまりにも差が大きいrarrHPCSシステムは各社とのlsquoCommodityrsquoのマイクロプロセッサではなく独自のプロセッサを開発中
ハードウエアはrsquoCommodityrsquo
なものを利用してSWの改善サポート利用技術のサポートが今後の主要マーケットでの成功の鍵となる
スケーラブルシステムズ株式会社
HPCシステムの動向国家プロジェクト
Going UP
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
Peta-Scaleコンピューティングに求められる基本技術と現在のHPCの主要マーケットでの要求はあまりにも差が大きいrarrHPCSシステムは各社とのlsquoCommodityrsquoのマイクロプロセッサではなく独自のプロセッサを開発中
スケーラブルシステムズ株式会社
TOP500性能予測
1993 1995 1997 1999 2001 2003 2005 2007 2009 2011 2013 2015
N=
50
SUM
1 Gflops
1 Tflops
100 Mflops
100 Gflops
100 Tflops
10 Gflops
10 Tflops
1 Pflops
10 Pflops
IBM ASCI White
Blue GeneEarth Simulator
Intel
TOP500の総計が1PFを超えています
TOP500に掲載されるには1TF
が最低条件になっています
シングルシステムの1PFの実現は2009年
システム(プロセッサ数) 13倍年プロセッサ性能向上 14倍年トータル性能 18倍年
2009年までに1ペタFLOPS
スケーラブルシステムズ株式会社
性能ギャップの拡大
bull ピーク性能の大幅な向上ndash 1990年台は性能の向上は102のオーダーでしたが2000年台になると103のオーダーで性能は向上しています
しかしhellipndash 多くの科学技術計算用途のアプリケーションのピーク性能に対する実効性能の比率は5-10となっています(1990年代のベクトル計算機は40-50の対ピーク性能を示していました)
bull 今必要なのはndash より高い実効性能を発揮することが可能な計算アルゴリズムと手法の開発とスケーラビリティの向上
ndash プログラミングモデルなども含めてスケーラブルな計算機環境の構築
01
1
10
100
1000
2000 2004
Tera
flo
ps
1996
Performance
Gap
Peak Performance
Real Performance
NERSC User Group Meeting June 24-25 2004
Osni Marques and Tony Drummond
Lawrence Berkeley National Laboratory
スケーラブルシステムズ株式会社
ペタスケールシステムの構築
bull ソフトウエア(アプリケーションOSプログラミングAPIなど)の課題の克服が課題
bull システムの複雑さと生産性
例Linpack Benchmark
bull オリジナルベンチマークプログラム ~100ライン
bull HPL ベンチマークプログラム ~10000ライン(x100より複雑)
lsquo複雑さrsquoの壁
現在のテラFLOPS級の問題
Source ORNL
スケーラブルシステムズ株式会社
HPCシステムの動向商用製品
Going DOWN
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
ハードウエアはrsquoCommodityrsquo
なものを利用してSWの改善サポート利用技術のサポートが今後の主要マーケットでの成功の鍵となる
スケーラブルシステムズ株式会社
標準コンポーネントの進化
bull プロセッサの性能向上ndash lsquoマルチコアrsquoによる省電力での性能向上が可能
ndash HPCアプリケーションは容易にlsquoマルチコアrsquoの利点を活用可能 (OpenMPやMPI)
bull ファイルシステムndash高性能なスケーラブルファイルシステム(オープンソース)
bull インターコネクトndash PCI-Express (メモリlarrrarrインターコネクト)
ndash高速の商用製品やオープンソースでの強力(OpenIBなど)
スケーラブルシステムズ株式会社
標準コンポーネントの利点
bull 特定のベンダーからのシステムを組み合わせるのではなく他社のシステムも含めてベストなシステムの選択が可能
ndashスケーラブルSMPベクトル計算機クラスタの幅広い選択肢
ndash 64ビットマルチコアマイクロプロセッサの性能向上を最大限に活用
bull 標準コンポーネントの技術革新の活用
ndash PCI-ExpressやFB-DIMMの利用技術
スケーラブルシステムズ株式会社
Breaking the 1-2K nodes Barrier
bull 音の障壁サウンドバリヤー(sound barrier)飛行機の速度が音速近くになると衝撃波の発生によって抵抗の増大境界層の剥離など設計運用上のさまざまな障害(壁)に出合って超音速飛行は不可能かと思われた時代があった(1947年ごろまで)ので音の障壁といわれていた
httpwwwwilk4commiscsoundbreakhtm
クラスタのノード数がある規模に近くなるとその構築や運用において負担の増大システムの安定稼動スケーラビリティなど設計運用上のさまざまな障害(壁)に出合ってクラスタ構築は不可能と思われた時代があった()
スケーラブルシステムズ株式会社
ビルゲイツ氏の基調講演HPC goes mainstream
スケーラブルシステムズ株式会社
「Fast」「Good」「Cheap」のパズル
Fast
+ Cheap
Inferior
高い性能を廉価なシステムで構築することも可能ですただそのようなシステムの場合システムの構築や利用は必ずしも容易ではありません
Good
+ Cheap
Slow比較的小規模なシステムであれば廉価で使い勝手の良いものを探すことは可能ですしかしそのようなシステムでは拡張性やより大規模なシステム構築が出来ません
Good
+ Fast
Expensive
付加価値の高い性能の高いシステムは一般には高価ですその付加価値がユーザにとってメリットが無ければコストパフォーマンスの悪いシステムになるだけです
スケーラブルシステムズ株式会社
まとめとして
bull 「テクノロジー」をどのようにとらえるかndash企業経営基盤のコア要素
ndashユーザの本質的な課題を解決する戦略的な武器
bull マーケットを牽引する「テクノロジ」に求められることndashテクノロジとHPCにおけるITインフラの関係を明確にすること
bull ユーザに何らかのメリットをもたらさない「テクノロジー」は意味を成さない
ndashテクノロジーを最適に組み合わせることで問題解決のためのソリューションの提供が可能
スケーラブルシステムズ株式会社
まとめとして
bull bdquoTs‟ for HPC - インテルテクノロジのHPCにおける価値
ndash インテルテクノロジはHPCにおいて重要な構成要素となっている
ndashそれらの構成要素を統合することでより高い価値の提供が可能となる
ndash二分化しつつあるHPCシステムにおいて「標準コ
ンポーネント」としてのプラットフォームの動向として今後もその動向には注目する必要がある
スケーラブルシステムズ株式会社
さらに詳しい情報はhellip
bull 弊社のコンサルテーションに関するご提案資料もダウンロード可能です(非公開WEBページ)別途弊社に内容等についてはお尋ねください
お問い合わせ先102-0083
東京都千代田区麹町3-5-2
BUREX麹町 8F
電話03-5875-4718
FAX03-3237-7612
E-mailbizsstccojp
httpwwwsstccojp wwwsstccojpbiz
スケーラブルシステムズ株式会社
スケーラブルシステムズ株式会社
ハイエンドコンピューティングに関するコンサルテーションとして幅広いサービスをご提供致します
このサービスを最大限に活用していただくことでコラボレーションによる「顧客志向」 のコン
サルテーションサービスをご提供できればと思っております
スケーラブルシステムズ株式会社
社名製品名などは一般に各社の商標または登録商標です無断での引用転載を禁じます
In general the name of the company and the product name etc are the trademarks or registered trademarks of each company
Copyright Scalable Systems Co Ltd 2005 Unauthorized use is strictly forbidden
2005年11月
スケーラブルシステムズ株式会社
このスライドは誰が
スケーラブルシステムズ株式会社
HPCの歴史
Episode I
The Phantom Menace
スケーラブルシステムズ株式会社
Cray システム
bull Cray-1 (1977)
ndash 250 MFLOPS
ndash 80 MHz
ndash 1 MWord (64-bit)
bull PC 8088 (1979) ndash 5 MHz
ndash 1 MB RAM
bull Modern PC (Pentium 4) ndash 32 GHz (Dual Core)
ndash 128 GFLOPS
ndash 4 GB RAM
httped-thelenorgcomp-histCRAY-1-HardRefManCRAY-1-HRMhtml
スケーラブルシステムズ株式会社
Crayシステムピーク性能
1
10
100
1000
10000
100000
1000000
1970 1975 1980 1985 1990 1995 2000
製品化年度
ピークMFLOPS値
1976
Cray-1
1983
XMP4
1987
YMP8
1987
C9016
1987
T9032
1983
XMP1
1987
YMP1
1987
C901
1987
T901
シングルプロセッサ性能
マルチプロセッサ性能24ヶ月で2倍の性能
スケーラブルシステムズ株式会社
HPMS (High-Performance Modeling and Simulation)
実験
観察
理論
計算科学High Performance Computing
バーチャルリアリティ仮想現実空間の構築
物理モデリングコンピュータグラフィックス
「インシリコ」テストバイオサイエンスとシュミレーション
大規模並列システムスケーラブルコンピューティング
現象
High-Performance Modeling and
Simulation
スケーラブルシステムズ株式会社
シュミレーション事例
スケーラブルシステムズ株式会社
シュミレーション事例
スケーラブルシステムズ株式会社
シュミレーション事例
スケーラブルシステムズ株式会社
シングルプロセッサ性能Linpack
Cray 1s
Xmp
Xmp
Ymp
C90
Sun 4260
MIPS M120
MIPS M2000
IBM RS6000540HP 9000750
DEC Alpha AXP
HP9000735
MIPS R4400
IBM Power2990
1
10
100
1000
10000
1975 1980 1985 1990 1995 2000
Lin
pack
MF
LO
PS
Cray n=1000 Cray n=100
Micro n=1000 Micro n=100
DEC 8200
T94
スケーラブルシステムズ株式会社
ベクトル計算機の性能
Q なぜベクトル計算機の性能がマイクロプロセッサの性能のように向上しなかったのでしょうか
A ベクトル計算機はグローバル共有メモリに対する高い接続性能にその性能が依存していたためにこのメモリ間接続の性能向上がボトルネックとなってしまいました
例DRAMメモリの性能と仕様
1979標準DRAM 1999200 MHz SDRAM 1979rarr1999
16K bit
1-bit wide interface
5 Mbs uniform access BW
2 Mbs random access BW
256 Mbit
16-bit wide interface
3200 Mbs uniform access BW
1000 Mbs random access BW
X 16000
X 640
X 500
X 25
スケーラブルシステムズ株式会社
The Pahntom Menace
1993-2000
ベクトル計算機の凋落
商用プロセッサの台頭
スケーラブルシステムズ株式会社
ベクトル計算機の逆襲
Episode V
The Empire Strikes Back
スケーラブルシステムズ株式会社
ベクトル計算機の逆襲
bull 2002
bull 地球シュミレータ
bull コンピュータにおけるスプートニックショック
10487075120 (640 8-way nodes) 500 MHz NEC
10487078 GFLOPS per CPU (41 TFLOPS total)
10487072 GB Memory per CPU (10 TB total)
104870720 kVA power consumption per node
スケーラブルシステムズ株式会社
HPCの歴史
Episode II
Attack of the Clones
スケーラブルシステムズ株式会社
イノベーションのジレンマ
bull クレイトンクリステンセンの「イノベーションのジレンマ」
bull 持続的イノベーションと破壊的イノベーションによるマーケットの動向を分析
bull 持続的イノベーション
ndash 技術革新が顧客の求める性能向上軸に沿っている
bull 破壊的イノベーション
ndash 既存顧客が求める性能とは異なる軸の性能(特性)
スケーラブルシステムズ株式会社
製品の性能
時間
製品の性能(異なる尺度で評価)
時間
Commodity-Based Cluster
RISCベースのSMPNUMAシステム
ベクトル計算機
破壊的イノベーション
スケーラブルシステムズ株式会社
Beowulf プロジェクト
Wiglaf - 1994
16 Intel 80486 100 MHz
VESA Local bus
256 Mbytes memory
64 Gbytes of disk
Dual 10 base-T Ethernet
72 Mflops sustained
$40K
Hrothgar - 1995
16 Intel Pentium100 MHz
PCI
1 Gbyte memory
64 Gbytes of disk
100 base-T Fast Ethernet
(hub)
240 Mflops sustained
$46K
Hyglac-1996 (Caltech)
16 Pentium Pro 200 MHz
PCI
2 Gbytes memory
496 Gbytes of disk
100 base-T Fast Ethernet
(switch)
125 Gflops sustained
$50K
スケーラブルシステムズ株式会社
クラスタシステムの台頭
2000-2005
スケーラブルシステムズ株式会社
課題
Episode III
Revenge of the sith
スケーラブルシステムズ株式会社
HPCの現状
Going UP Going DOWN
システムの規模解析モデルのサイズ運用管理の複雑さbull電力bullスペースbullシステムの相互接続bull管理コスト
生産性bullプログラミングbullシステムの可用性bull実効性能ピーク性能システムバランスHWコスト
スケーラブルシステムズ株式会社
HPCマーケット
bull HPCマーケットでのHPCシステム構築及び製品は次の3つのセグメントに分かれているndash 一般商用システム( Commodity-based systems)
bull 一般のクラスタシステム(Dell HPCCなど)
ndash 付加価値システム( Value-based systems)bull 多くのSMPやNUMAシステム(SGI Altixなど)
ndash 特定目的システム( Purpose-built systems)bull アプリケーションと解析対象に合わせたシステム設計(IBM
BlueGeneLなど)
bull IDCなどのレポートでも一般商用システムのHPCマーケットでの導入がもっともその成長が大きいndash 付加価値システムの課題(一般商用システムとの競合に対する対応もしくは新たな分野の開拓rarrペタスケールコンピューティング)
ndash HPCSプログラムはこの付加価値システムのベンダーにとっても生き残りを賭けた戦い (2006July)
スケーラブルシステムズ株式会社
HPCシステムの現状分析
bull Good News
ldquoHPCシステムにおける問題はたった2つだけであるrdquo
スケーラブルシステムズ株式会社
ソフトウエアとハードウエア
bull ソフトウエアThe Law of Morehellip
ndashシステム規模とその複雑さの急速な増加拡大
ndash ソフトウエアの準備が出来た時点でハードウエアは既に陳腐化し次のシステムの導入の検討が進む
bull ハードウエアMoore‟s Law (ムーアの法則)ndash消費電力の問題のためプロセッサの動作クロックを今までのペースで上げることは困難
ndashプロセッサとメモリの性能差の拡大によるCPUサイクルとのギャップ
ndashピーク性能と実効性能のギャップの拡大
スケーラブルシステムズ株式会社
ソフトウエアThe Law of Morehellip
bull 研究者はより多くの時間(More Time)をソフトウエアの開発のために必要としている
bull 問題はより複雑(More Complex)になりそしてより多くのプロセッサ(More Processors)を利用して処理を行うにはより多くの困難(More
Difficult)が伴います
スケーラブルシステムズ株式会社
アルゴリズムの最適化
bull 計算機自身の進化と共に計算アルゴリズムも最適化されている
bull 例編微分方程式の解法ndash N=106の場合ガウスの消去法で線形方程式を解く場合と
MGでの計算では108倍の計算量が違うndash これは1Mflopssの計算機で100Tflopssの計算機に相当する計算を行ったことになる
O(N)F-cycle MG
O(N76 log(N))CGMILU
O(N43 log(N))Optimal SOR
O(N53 log(N))Gauss Seidel
O(N73)Banded Gauss Elimination
計算オペレーション数(概数)アルゴリズム
2u=f 100
100100
スケーラブルシステムズ株式会社
ソフトウエアThe Law of Morehellip
bull 一般の商用製品を活用したクラスタソリューションでは「Capacity」の実現は容易であるが「Capability」の実現については依然として課題が多いndash コストパフォーマンスの高いシステムの構築は可能だとしてもコストプロダクティビティの高いシステムの構築も課題
bull 数百~数千プロセッサ構成のシステムの利用技術と解析対象の検討ndash 小規模中規模問題の高速処理への対応ndash ソフトウエア開発の生産性
bull 数プロセッサ~数十プロセッサをより簡便に容易に利用できる技術ndash シングルプロセッサシングルスレッドを利用するのと同じようにhellip
スケーラブルシステムズ株式会社
ソフトウエアとハードウエア
bull ソフトウエアThe Law of Morehellip
ndashシステム規模とその複雑さの急速な増加拡大
ndash ソフトウエアの準備が出来た時点でハードウエアは既に陳腐化し次のシステムの導入の検討が進む
bull ハードウエアMoore‟s Law (ムーアの法則)ndash消費電力の問題のためプロセッサの動作クロックを今までのペースで上げることは困難
ndashプロセッサとメモリの性能差の拡大によるCPUサイクルとのギャップ
ndashピーク性能と実効性能のギャップの拡大
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash過去12年間でPentiumプロセッサの動作周波数は60 MHz から 3800 MHz にまでアップ
ndash現在までの高性能化の約80 はクロック周波数の向上によるもの
スケーラブルシステムズ株式会社
ハードウエアの問題Moore‟s Lawムーアの法則
bull インテルの共同設立者の1人である Gordon Moore 博士が1965年4月19日号の「Electronics」誌に投稿した 「一定面積に集積されるトランジスタの数は12か月で倍増しそれに伴いトランジスタの動作速度が向上する」という予測 (その後1975年に Moore 博士はチップの複雑化を考慮してトランジスタ数の倍増ペースを24か月に修正)
bull また一般にはあまり知られていないがテクノロジの進歩とともに製造コストが劇的に下落することも予測(左図)
httpwwwintelcojpjpdevelopertechnologysiliconmooreslawindexhtm
指数関数的成長は永遠には続かないしかしその永遠を先延ばしにすることはできる [英語 PDF 形式 2MB]
Gordon E Moore2003年2月10日ISSCC (International
Solid State Circuits Conference) でのプレゼンテーション
Dr Gordon Moore
(co-founder of Intel)
スケーラブルシステムズ株式会社
Technology Trend
ムーアの法則依然として有効
スケーラブルシステムズ株式会社
性能向上の源泉は
ハードウエアデバイス技術の進歩bull ロジック回路のスイッチング速度の向上とデバイス密度bull メモリサイズの拡大とアクセス速度の向上bull 通信性能(バンド幅とレイテンシの向上)
bull 並列性ndash 1サイクルでの命令実行数
bull 命令レベルでの並列性(ILP)
bull ベクトル処理ndash プロセッサあたりコア数ndash ノードあたりのプロセッサ数ndash システムあたりのノード数
コンピュータアーキテクチャbull 命令発行実行速度の向上
ndash パイプライン化ndash 分岐予測ndash キャッシュndash Out-of-order など
スケーラブルシステムズ株式会社
GHz競争
bull 2000年に開催されたIEEE国際電子デバイス会議2000(2000
IEEE International Electron Devices MeetingIEDM) においてインテル社は4億個以上のトランジスタを集積した10GHz駆動のプロセッサが2005年までに実現可能だと発表しましたndash 実際にはインテル社の最速プロセッサは6ヶ月前に発表された
38GHz(Intel Pentium 4)となっています
bull Prescottプロセッサの6xxシリーズ発表に際してインテル社はldquoadding value beyond GHzrdquo のコメントを出していますそれ以降インテル社の多くのドキュメントやプレスリリースはこのldquoadding value beyond GHzrdquo についての内容を含んでいます
スケーラブルシステムズ株式会社
発熱の問題が深刻化
Bob Colwell氏の資料より抜粋
Increasing Frequency
Watt
scm
2
1
10
100
1000
15 10 07 05 035 025 018 013 01 007
i386i486
PentiumPentium Pro
Pentium IIPentium III
Hot Plate
Nuclear Reactor
Rocket Nozzle
Pentium 4(Prescott)
Pentium 4(Willamette)
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash過去12年間でPentiumプロセッサの動作周波数は60 MHz から 3800 MHz にまでアップ
ndash現在までの高性能化の約80 はクロック周波数の向上によるもの
bull 命令実行の強化と最適化
ndashより強力なインストラクションセット
ndash命令実行の最適化(パイプライン化分岐予測複数命令の同時実行命令実行順序の変更など)
スケーラブルシステムズ株式会社
技術のSカーブ技術開発の進展と製品性能の成長の関係
bull 技術開発の初期は製品性能はゆっくりと向上するがしだいに性能の向上の幅が大きくなるしかし次第に技術開発が成熟段階に入ると性能向上は逓減していく
製品の性能
時間
First Technology
Second Technology
Third Technology
RISCアウトオブオーダー実行lt1 instruction cycle
スーパースカラー RISCアウトオブオーダー実行lt2 instructions cycle
明示的並列命令コンピューティング技術 (EPIC)
命令の並列実行度の向上
スケーラブルシステムズ株式会社
マイクロアーキテクチャのSカーブ
Johan De Gelas Quest for More Processing Power
AnandTech Feb 8 2005
httpwwwanandtechcomcpuchipsetsshowdocaspxi=2343
101
102
103
104
105
106
MIP
S
1980 1985 1990 1995 2000 2005 2010
Pentium Architecture
Super Scalar
Pentium Pro Architecture
Speculative Out-of-Order
Pentium 4 Architecture
Trace Cache
Pentium 4 and Xeon Architecture with HT
Multi-Threaded
Multi-Threaded Multi-Core
Era of
Instruction
Parallelism
Era of
Thread
Parallelism
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash 過去12年間でPentiumプロセッサの動作周波数は60
MHz から 3800 MHz にまでアップ
ndash 現在までの高性能化の約80 はクロック周波数の向上によるもの
bull 命令実行の強化と最適化
ndash より強力なインストラクションセット
ndash 命令実行の最適化(パイプライン化分岐予測複数命令の同時実行命令実行順序の変更など)
bull 大容量キャッシュ
ndash プロセッサの速度とメモリレイテンシ(待ち時間)とバンド幅のギャップの拡大に対する対策対応としての容量の拡張
スケーラブルシステムズ株式会社
性能ギャップの問題
bull プロセッサ速度とメモリアクセスの速度差によってプロセッサがより高速になったとしてもプロセッサはその演算能力を完全に使い切ることが出来ない
1
10
100
1000Performance
1980 1990 2000
microProc
60yr
DRAM
7yr
バンド幅とレイテンシの問題が今後はより深刻(プロセッサ性能とのギャップはほぼ年率50の差で広がっている)
DRAM
CPU
プロセッサはほぼナノ秒に一回命令実行DRAMへのアクセスはほぼ100ナノ秒の時間
スケーラブルシステムズ株式会社
今後の発展と課題
Episode IV
A New Hope
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash 過去12年間でPentiumプロセッサの動作周波数は60
MHz から 3800 MHz にまでアップ
ndash 現在までの高性能化の約80 はクロック周波数の向上によるもの
bull 命令実行の強化と最適化
ndash より強力なインストラクションセット
ndash 命令実行の最適化(パイプライン化分岐予測複数命令の同時実行命令実行順序の変更など)
bull 大容量キャッシュ
ndash プロセッサの速度とメモリレイテンシ(待ち時間)とバンド幅のギャップの拡大に対する対策対応としての容量の拡張
スケーラブルシステムズ株式会社
デュアルコアプロセッサ
bull チップ上のトランジスタのより有効活用が可能bull スレッドレベルでの並列処理を活用bull よりシンプルなプロセッサの設計が可能
bull 将来のマイクロプロセッサはより多くのコアを実装可能bull 将来のマイクロプロセッサはより大容量のキャッシュの実装が可能
IBM Power5
with 19MB L2
AMD Opteron
with 2MB L2
Intel Montecito
With 24MB L3
スケーラブルシステムズ株式会社
イノベーションのジレンマ
製品の性能
時間
First Technology
Second Technology
Third Technology
RISCアウトオブオーダー実行lt1 instruction cycle
スーパースカラー RISCアウトオブオーダー実行lt2 instructions cycle
明示的並列命令コンピューティング技術 (EPIC)
命令の並列実行度の向上
製品の性能(異なる尺度)
時間
持続的イノベーション
技術革新が顧客の求める性能向上軸(ムーアの法則)に沿っている
破壊的イノベーションマルチコアとマルチスレッドによる並列処理
短期的には(シングルスレッドの性能)としては性能が低下するが将来の大きな性能向上とコスト低下機能強化の可能性が大きい
スケーラブルシステムズ株式会社
マルチコアの利点
ワークロードの処理効率の向上
bull マルチスレッドアプリケーションndash現在多くのアプリケーション(データベース
WEB科学技術計算)はマルチスレッド化
ndashマルチコアプロセッサではこれらのアプリケーションのマルチスレッドでの実行が容易に可能
bull 複数ジョブの処理ndashシステムでは複数のワークロード同時に処理することが必要
ndashマルチコアではこれらのワークロードへの処理が可能
スケーラブルシステムズ株式会社
マルチコアの利点
消費電力あたりの性能を最大にし高性能で低消費電力のシステム構築が可能
bull OS自身のマルチスレッド対応
ndash OSのサービスもマルチスレッドで処理することでより効率よく処理することが可能
bull 仮想化
ndashサーバのセキュリティや管理の強化
ndash管理するノード数を減らし運用コストの削減を図る
bull 最新のソフトウエアテクノロジの活用
スケーラブルシステムズ株式会社
大きな変革しかし容易ではない
マルチコアプロセッシング(または汎用もしくは専用プロセッサをソケットに複数搭載可能なこと)はEthernetの誕生以来ITインフラに対しての大きなインパクトをもたらします
デュアルプロセッサは386プロセッサの発表以来性能に関して最大の向上を実現しますしかしこのような性能向上にはソフトウエアの最適化がプロセッサの性能をフルに発揮するためには必要です
スケーラブルシステムズ株式会社
並列性(Parallelism)の利用
マルチタスク処理
MPIなどによる複数のノード間での並列処理
ユーザ及びコンパイラによるスレッドレベルでの並列処理(TLP)
コンパイラによる命列実行レベルでの並列処理(ILP)
マルチコア
マルチプロセッサ
マルチノード
マルチインストラクション
システム
スケーラブルシステムズ株式会社
ムーアの法則(GHz から MC へ)
マルチコアによる性能向上
動作周波数の向上による性能向上
性能
2005
bullマルチスレッドbullマルチタスクbull トレーニングbullツールbullhelliphellip
並列処理による性能向上についてはシステムサポートやプログラミングサポートなどの面での技術支援が重要です
スケーラブルシステムズ株式会社
Episode VI
Return of the Jedi
Ts for HPC - インテルテクノロジのHPCにおける価値の考察
スケーラブルシステムズ株式会社
将来予測の難しさ
bull ldquoI think there is a world market for maybe five
computersrdquobull Thomas Watson chairman of IBM 1943
bull ldquoThere is no reason for any individual to have a
computer in their homerdquobull Ken Olson president and founder of digital equipment
corporation 1977
bull ldquoThere are only about 100 potential customers
worldwide for a Cray-1rdquobull Seymour Cray 1977
bull ldquo640K [of memory] ought to be enough for
anybodyrdquobull Bill Gates chairman of Microsoft1981
スケーラブルシステムズ株式会社
「未来を予測する最良の方法はそれを創造してしまうことである」The best way to predict future is to invent it
Dr Alan Kay President of Viewpoints Research
Institute Inc
スケーラブルシステムズ株式会社
ITマネージメントの課題
bull プラットフォームの内部からの保護ndash ウイルスやワームなど悪意あるソフトウェアからの保護
bull 資産管理ndash 多くの IT 部門では特定できない資産が問題
bull オンラインおよびリモート管理診断機能 ndash アップグレード診断復旧のための作業の効率化
bull アプリケーション統合の困難さ
ndash アプリケーションの高度化と複雑化によって複数のアプリケーションを組み合わせるての動作に問題
bull 動的なリソース割り当て
ndash 組織内で未使用のCPUやメモリの活用
スケーラブルシステムズ株式会社
マーケットトレンド
All Servers Worldwide 2003 2004 2005 20062003 to 2006
CAGR
2005 to 2006
CAGR
Total Factory Revenue($B) $46149 $49146 $51268 $52251 42 19
Units Shipped(same as nodes) 5278222 6307484 7050099 7472649 123 60
Processor Dies Shipped 8662823 10134624 11712766 12779159 138 91
HPC Technical Servers Worldwide 2003 2004 2005 20062003 to 2006
CAGR
2005 to 2006
CAGR
HPC Server Revenue($B) $5698 $7393 $9208 $10030 207 89
Adjusted Revenues(To much
enterprise)$5128 $6654 $8287 $9027 207 89
Node Units Shipped 411327 734510 1215735 1419221 511 167
Processor Elements Shipped 1002905 1657827 2681079 3351843 495 250
HPC As A Ratio Of All Servers 2003 2004 2005 2006
Revenue($B) 123 150 180 192
Adjusted Revenues(Apples-to-
apples)111 135 162 173
Units Shipped(Nodes) 78 116 172 190
Processors Shipped 116 164 226 261
Source IDC 2007
スケーラブルシステムズ株式会社
HPCマーケット(対全サーバマーケット)
0
5
10
15
20
25
30
2003 2004 2005 2006
Revenue($B)
Adjusted Revenues(Apples-to-apples)
Units Shipped(Nodes)
Processors Shipped
スケーラブルシステムズ株式会社
マーケットトレンド
Source IDC 2004
Cost of mgmt amp admin 10 CAGR
$0
$20
$40
$60
$80
$100
$120
$140
$160
$180
$200
1996 rsquo97 rsquo98 rsquo992000 rsquo01 rsquo02 rsquo03 rsquo04 rsquo05 rsquo06 rsquo07 rsquo08-
New server spending (USM$) 3 CAGR
Spending (USB$)
5
10
15
20
25
30
35
Installed Base (M Units)
bull ハードウェアの減価償却費は IT の TCO 全体の約25 にすぎない
bull ソフトウェアのコストはわずか10~15
bull 電気などの公共料金フロアスペース電話回線など設備面のコストの割合もきわめて小さい
bull プラットフォームのコストではなくTCOの大きな比率を占めるのは人件費となっている
スケーラブルシステムズ株式会社
運用管理コストの低減
bull 「もっと処理性能を」と「より安価に」を実現するためにワークステーションやサーバでの分散処理の導入
bull ユーザや企業に新たな価値をもたらしてはいるが管理責任とその負担の分散を招き結果的に運用管理コストを押し上げる
メインフレームスーパーコンピュータ
仮想化によるサーバコンソリデーション
クラスタによる仮想コンピュータ
スケーラブルシステムズ株式会社
次世代HPCインフラ
bull コアとスレッド
ndash より多くのスレッドを効率よく利用可能
ndash マルチスレッド向け最適化
bull 電力管理
ndash 省電力
ndash データセンター運用管理機能
bull 仮想化
ndash 柔軟性と優れた運用管理
ndash 仮想的なシステムパーティション
bull RAS
ndash ハードウエアベースの自己監視自己管理
ndash ファームウエアベースのエラー履歴管理
bull システム管理
ndash より低いTCOを実現するための一般標準化されたマネージメント機能
スケーラブルシステムズ株式会社
高速プロセッサ
64ビットアドレス
メモリ性能と容
量
IOバンド幅
インターコネクト
省電力
システムのlsquoバランスrsquo
マルチコアによってプロセッサ単体の処理性能の向上を図る
64ビットのアドレス空間と
拡張されたレジスタによるOSとアプリケーション双方の機能性能拡張
64ビット化とマルチコア化
にともなう高速大容量へのニーズに対応しまたその拡張性の高い実装技術の実現
CPU-メモリ間の高速な
データ転送やより高速なネットワーク大規模なストレージのサポート
大規模なクラスタシステムの構築及びアプリケーションのワークロードに対応した高速性能
エコシステムに対応するためにも電力消費量や発熱量を積極的に抑える技術の開発
スケーラブルシステムズ株式会社
HPCの二極分化
Going UP
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
Going DOWN
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
スケーラブルシステムズ株式会社
システムとユーザの尺度
bull ユーザの尺度での性能(Performance)は時間当たりにどれだけの仕事を処理出来るか(仕事量 時間)
bull Flopsでの評価は実際には意味がないまた問題の規模(small medium large) という評価も難しい
bull ldquoスケーラビリティrdquoは対象を明確に規定する必要がある
システムの尺度 ユーザの尺度
Flops hArr 計算終了までの時間
メモリサイズ(GB) hArr モデルのサイズと計算結果
プロセッサ数 hArr ワークロードでの試行
データ長 hArr 計算精度
システム構成(クラスタ) hArr 導入コストと運用コスト
スケーラビリティ hArr ベンチマーク
スケーラブルシステムズ株式会社
HPCシステムの動向国家プロジェクトと商用製品のギャップの拡大
Going UP
Going DOWN
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
Peta-Scaleコンピューティングに求められる基本技術と現在のHPCの主要マーケットでの要求はあまりにも差が大きいrarrHPCSシステムは各社とのlsquoCommodityrsquoのマイクロプロセッサではなく独自のプロセッサを開発中
ハードウエアはrsquoCommodityrsquo
なものを利用してSWの改善サポート利用技術のサポートが今後の主要マーケットでの成功の鍵となる
スケーラブルシステムズ株式会社
HPCシステムの動向国家プロジェクト
Going UP
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
Peta-Scaleコンピューティングに求められる基本技術と現在のHPCの主要マーケットでの要求はあまりにも差が大きいrarrHPCSシステムは各社とのlsquoCommodityrsquoのマイクロプロセッサではなく独自のプロセッサを開発中
スケーラブルシステムズ株式会社
TOP500性能予測
1993 1995 1997 1999 2001 2003 2005 2007 2009 2011 2013 2015
N=
50
SUM
1 Gflops
1 Tflops
100 Mflops
100 Gflops
100 Tflops
10 Gflops
10 Tflops
1 Pflops
10 Pflops
IBM ASCI White
Blue GeneEarth Simulator
Intel
TOP500の総計が1PFを超えています
TOP500に掲載されるには1TF
が最低条件になっています
シングルシステムの1PFの実現は2009年
システム(プロセッサ数) 13倍年プロセッサ性能向上 14倍年トータル性能 18倍年
2009年までに1ペタFLOPS
スケーラブルシステムズ株式会社
性能ギャップの拡大
bull ピーク性能の大幅な向上ndash 1990年台は性能の向上は102のオーダーでしたが2000年台になると103のオーダーで性能は向上しています
しかしhellipndash 多くの科学技術計算用途のアプリケーションのピーク性能に対する実効性能の比率は5-10となっています(1990年代のベクトル計算機は40-50の対ピーク性能を示していました)
bull 今必要なのはndash より高い実効性能を発揮することが可能な計算アルゴリズムと手法の開発とスケーラビリティの向上
ndash プログラミングモデルなども含めてスケーラブルな計算機環境の構築
01
1
10
100
1000
2000 2004
Tera
flo
ps
1996
Performance
Gap
Peak Performance
Real Performance
NERSC User Group Meeting June 24-25 2004
Osni Marques and Tony Drummond
Lawrence Berkeley National Laboratory
スケーラブルシステムズ株式会社
ペタスケールシステムの構築
bull ソフトウエア(アプリケーションOSプログラミングAPIなど)の課題の克服が課題
bull システムの複雑さと生産性
例Linpack Benchmark
bull オリジナルベンチマークプログラム ~100ライン
bull HPL ベンチマークプログラム ~10000ライン(x100より複雑)
lsquo複雑さrsquoの壁
現在のテラFLOPS級の問題
Source ORNL
スケーラブルシステムズ株式会社
HPCシステムの動向商用製品
Going DOWN
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
ハードウエアはrsquoCommodityrsquo
なものを利用してSWの改善サポート利用技術のサポートが今後の主要マーケットでの成功の鍵となる
スケーラブルシステムズ株式会社
標準コンポーネントの進化
bull プロセッサの性能向上ndash lsquoマルチコアrsquoによる省電力での性能向上が可能
ndash HPCアプリケーションは容易にlsquoマルチコアrsquoの利点を活用可能 (OpenMPやMPI)
bull ファイルシステムndash高性能なスケーラブルファイルシステム(オープンソース)
bull インターコネクトndash PCI-Express (メモリlarrrarrインターコネクト)
ndash高速の商用製品やオープンソースでの強力(OpenIBなど)
スケーラブルシステムズ株式会社
標準コンポーネントの利点
bull 特定のベンダーからのシステムを組み合わせるのではなく他社のシステムも含めてベストなシステムの選択が可能
ndashスケーラブルSMPベクトル計算機クラスタの幅広い選択肢
ndash 64ビットマルチコアマイクロプロセッサの性能向上を最大限に活用
bull 標準コンポーネントの技術革新の活用
ndash PCI-ExpressやFB-DIMMの利用技術
スケーラブルシステムズ株式会社
Breaking the 1-2K nodes Barrier
bull 音の障壁サウンドバリヤー(sound barrier)飛行機の速度が音速近くになると衝撃波の発生によって抵抗の増大境界層の剥離など設計運用上のさまざまな障害(壁)に出合って超音速飛行は不可能かと思われた時代があった(1947年ごろまで)ので音の障壁といわれていた
httpwwwwilk4commiscsoundbreakhtm
クラスタのノード数がある規模に近くなるとその構築や運用において負担の増大システムの安定稼動スケーラビリティなど設計運用上のさまざまな障害(壁)に出合ってクラスタ構築は不可能と思われた時代があった()
スケーラブルシステムズ株式会社
ビルゲイツ氏の基調講演HPC goes mainstream
スケーラブルシステムズ株式会社
「Fast」「Good」「Cheap」のパズル
Fast
+ Cheap
Inferior
高い性能を廉価なシステムで構築することも可能ですただそのようなシステムの場合システムの構築や利用は必ずしも容易ではありません
Good
+ Cheap
Slow比較的小規模なシステムであれば廉価で使い勝手の良いものを探すことは可能ですしかしそのようなシステムでは拡張性やより大規模なシステム構築が出来ません
Good
+ Fast
Expensive
付加価値の高い性能の高いシステムは一般には高価ですその付加価値がユーザにとってメリットが無ければコストパフォーマンスの悪いシステムになるだけです
スケーラブルシステムズ株式会社
まとめとして
bull 「テクノロジー」をどのようにとらえるかndash企業経営基盤のコア要素
ndashユーザの本質的な課題を解決する戦略的な武器
bull マーケットを牽引する「テクノロジ」に求められることndashテクノロジとHPCにおけるITインフラの関係を明確にすること
bull ユーザに何らかのメリットをもたらさない「テクノロジー」は意味を成さない
ndashテクノロジーを最適に組み合わせることで問題解決のためのソリューションの提供が可能
スケーラブルシステムズ株式会社
まとめとして
bull bdquoTs‟ for HPC - インテルテクノロジのHPCにおける価値
ndash インテルテクノロジはHPCにおいて重要な構成要素となっている
ndashそれらの構成要素を統合することでより高い価値の提供が可能となる
ndash二分化しつつあるHPCシステムにおいて「標準コ
ンポーネント」としてのプラットフォームの動向として今後もその動向には注目する必要がある
スケーラブルシステムズ株式会社
さらに詳しい情報はhellip
bull 弊社のコンサルテーションに関するご提案資料もダウンロード可能です(非公開WEBページ)別途弊社に内容等についてはお尋ねください
お問い合わせ先102-0083
東京都千代田区麹町3-5-2
BUREX麹町 8F
電話03-5875-4718
FAX03-3237-7612
E-mailbizsstccojp
httpwwwsstccojp wwwsstccojpbiz
スケーラブルシステムズ株式会社
スケーラブルシステムズ株式会社
ハイエンドコンピューティングに関するコンサルテーションとして幅広いサービスをご提供致します
このサービスを最大限に活用していただくことでコラボレーションによる「顧客志向」 のコン
サルテーションサービスをご提供できればと思っております
スケーラブルシステムズ株式会社
社名製品名などは一般に各社の商標または登録商標です無断での引用転載を禁じます
In general the name of the company and the product name etc are the trademarks or registered trademarks of each company
Copyright Scalable Systems Co Ltd 2005 Unauthorized use is strictly forbidden
2005年11月
スケーラブルシステムズ株式会社
HPCの歴史
Episode I
The Phantom Menace
スケーラブルシステムズ株式会社
Cray システム
bull Cray-1 (1977)
ndash 250 MFLOPS
ndash 80 MHz
ndash 1 MWord (64-bit)
bull PC 8088 (1979) ndash 5 MHz
ndash 1 MB RAM
bull Modern PC (Pentium 4) ndash 32 GHz (Dual Core)
ndash 128 GFLOPS
ndash 4 GB RAM
httped-thelenorgcomp-histCRAY-1-HardRefManCRAY-1-HRMhtml
スケーラブルシステムズ株式会社
Crayシステムピーク性能
1
10
100
1000
10000
100000
1000000
1970 1975 1980 1985 1990 1995 2000
製品化年度
ピークMFLOPS値
1976
Cray-1
1983
XMP4
1987
YMP8
1987
C9016
1987
T9032
1983
XMP1
1987
YMP1
1987
C901
1987
T901
シングルプロセッサ性能
マルチプロセッサ性能24ヶ月で2倍の性能
スケーラブルシステムズ株式会社
HPMS (High-Performance Modeling and Simulation)
実験
観察
理論
計算科学High Performance Computing
バーチャルリアリティ仮想現実空間の構築
物理モデリングコンピュータグラフィックス
「インシリコ」テストバイオサイエンスとシュミレーション
大規模並列システムスケーラブルコンピューティング
現象
High-Performance Modeling and
Simulation
スケーラブルシステムズ株式会社
シュミレーション事例
スケーラブルシステムズ株式会社
シュミレーション事例
スケーラブルシステムズ株式会社
シュミレーション事例
スケーラブルシステムズ株式会社
シングルプロセッサ性能Linpack
Cray 1s
Xmp
Xmp
Ymp
C90
Sun 4260
MIPS M120
MIPS M2000
IBM RS6000540HP 9000750
DEC Alpha AXP
HP9000735
MIPS R4400
IBM Power2990
1
10
100
1000
10000
1975 1980 1985 1990 1995 2000
Lin
pack
MF
LO
PS
Cray n=1000 Cray n=100
Micro n=1000 Micro n=100
DEC 8200
T94
スケーラブルシステムズ株式会社
ベクトル計算機の性能
Q なぜベクトル計算機の性能がマイクロプロセッサの性能のように向上しなかったのでしょうか
A ベクトル計算機はグローバル共有メモリに対する高い接続性能にその性能が依存していたためにこのメモリ間接続の性能向上がボトルネックとなってしまいました
例DRAMメモリの性能と仕様
1979標準DRAM 1999200 MHz SDRAM 1979rarr1999
16K bit
1-bit wide interface
5 Mbs uniform access BW
2 Mbs random access BW
256 Mbit
16-bit wide interface
3200 Mbs uniform access BW
1000 Mbs random access BW
X 16000
X 640
X 500
X 25
スケーラブルシステムズ株式会社
The Pahntom Menace
1993-2000
ベクトル計算機の凋落
商用プロセッサの台頭
スケーラブルシステムズ株式会社
ベクトル計算機の逆襲
Episode V
The Empire Strikes Back
スケーラブルシステムズ株式会社
ベクトル計算機の逆襲
bull 2002
bull 地球シュミレータ
bull コンピュータにおけるスプートニックショック
10487075120 (640 8-way nodes) 500 MHz NEC
10487078 GFLOPS per CPU (41 TFLOPS total)
10487072 GB Memory per CPU (10 TB total)
104870720 kVA power consumption per node
スケーラブルシステムズ株式会社
HPCの歴史
Episode II
Attack of the Clones
スケーラブルシステムズ株式会社
イノベーションのジレンマ
bull クレイトンクリステンセンの「イノベーションのジレンマ」
bull 持続的イノベーションと破壊的イノベーションによるマーケットの動向を分析
bull 持続的イノベーション
ndash 技術革新が顧客の求める性能向上軸に沿っている
bull 破壊的イノベーション
ndash 既存顧客が求める性能とは異なる軸の性能(特性)
スケーラブルシステムズ株式会社
製品の性能
時間
製品の性能(異なる尺度で評価)
時間
Commodity-Based Cluster
RISCベースのSMPNUMAシステム
ベクトル計算機
破壊的イノベーション
スケーラブルシステムズ株式会社
Beowulf プロジェクト
Wiglaf - 1994
16 Intel 80486 100 MHz
VESA Local bus
256 Mbytes memory
64 Gbytes of disk
Dual 10 base-T Ethernet
72 Mflops sustained
$40K
Hrothgar - 1995
16 Intel Pentium100 MHz
PCI
1 Gbyte memory
64 Gbytes of disk
100 base-T Fast Ethernet
(hub)
240 Mflops sustained
$46K
Hyglac-1996 (Caltech)
16 Pentium Pro 200 MHz
PCI
2 Gbytes memory
496 Gbytes of disk
100 base-T Fast Ethernet
(switch)
125 Gflops sustained
$50K
スケーラブルシステムズ株式会社
クラスタシステムの台頭
2000-2005
スケーラブルシステムズ株式会社
課題
Episode III
Revenge of the sith
スケーラブルシステムズ株式会社
HPCの現状
Going UP Going DOWN
システムの規模解析モデルのサイズ運用管理の複雑さbull電力bullスペースbullシステムの相互接続bull管理コスト
生産性bullプログラミングbullシステムの可用性bull実効性能ピーク性能システムバランスHWコスト
スケーラブルシステムズ株式会社
HPCマーケット
bull HPCマーケットでのHPCシステム構築及び製品は次の3つのセグメントに分かれているndash 一般商用システム( Commodity-based systems)
bull 一般のクラスタシステム(Dell HPCCなど)
ndash 付加価値システム( Value-based systems)bull 多くのSMPやNUMAシステム(SGI Altixなど)
ndash 特定目的システム( Purpose-built systems)bull アプリケーションと解析対象に合わせたシステム設計(IBM
BlueGeneLなど)
bull IDCなどのレポートでも一般商用システムのHPCマーケットでの導入がもっともその成長が大きいndash 付加価値システムの課題(一般商用システムとの競合に対する対応もしくは新たな分野の開拓rarrペタスケールコンピューティング)
ndash HPCSプログラムはこの付加価値システムのベンダーにとっても生き残りを賭けた戦い (2006July)
スケーラブルシステムズ株式会社
HPCシステムの現状分析
bull Good News
ldquoHPCシステムにおける問題はたった2つだけであるrdquo
スケーラブルシステムズ株式会社
ソフトウエアとハードウエア
bull ソフトウエアThe Law of Morehellip
ndashシステム規模とその複雑さの急速な増加拡大
ndash ソフトウエアの準備が出来た時点でハードウエアは既に陳腐化し次のシステムの導入の検討が進む
bull ハードウエアMoore‟s Law (ムーアの法則)ndash消費電力の問題のためプロセッサの動作クロックを今までのペースで上げることは困難
ndashプロセッサとメモリの性能差の拡大によるCPUサイクルとのギャップ
ndashピーク性能と実効性能のギャップの拡大
スケーラブルシステムズ株式会社
ソフトウエアThe Law of Morehellip
bull 研究者はより多くの時間(More Time)をソフトウエアの開発のために必要としている
bull 問題はより複雑(More Complex)になりそしてより多くのプロセッサ(More Processors)を利用して処理を行うにはより多くの困難(More
Difficult)が伴います
スケーラブルシステムズ株式会社
アルゴリズムの最適化
bull 計算機自身の進化と共に計算アルゴリズムも最適化されている
bull 例編微分方程式の解法ndash N=106の場合ガウスの消去法で線形方程式を解く場合と
MGでの計算では108倍の計算量が違うndash これは1Mflopssの計算機で100Tflopssの計算機に相当する計算を行ったことになる
O(N)F-cycle MG
O(N76 log(N))CGMILU
O(N43 log(N))Optimal SOR
O(N53 log(N))Gauss Seidel
O(N73)Banded Gauss Elimination
計算オペレーション数(概数)アルゴリズム
2u=f 100
100100
スケーラブルシステムズ株式会社
ソフトウエアThe Law of Morehellip
bull 一般の商用製品を活用したクラスタソリューションでは「Capacity」の実現は容易であるが「Capability」の実現については依然として課題が多いndash コストパフォーマンスの高いシステムの構築は可能だとしてもコストプロダクティビティの高いシステムの構築も課題
bull 数百~数千プロセッサ構成のシステムの利用技術と解析対象の検討ndash 小規模中規模問題の高速処理への対応ndash ソフトウエア開発の生産性
bull 数プロセッサ~数十プロセッサをより簡便に容易に利用できる技術ndash シングルプロセッサシングルスレッドを利用するのと同じようにhellip
スケーラブルシステムズ株式会社
ソフトウエアとハードウエア
bull ソフトウエアThe Law of Morehellip
ndashシステム規模とその複雑さの急速な増加拡大
ndash ソフトウエアの準備が出来た時点でハードウエアは既に陳腐化し次のシステムの導入の検討が進む
bull ハードウエアMoore‟s Law (ムーアの法則)ndash消費電力の問題のためプロセッサの動作クロックを今までのペースで上げることは困難
ndashプロセッサとメモリの性能差の拡大によるCPUサイクルとのギャップ
ndashピーク性能と実効性能のギャップの拡大
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash過去12年間でPentiumプロセッサの動作周波数は60 MHz から 3800 MHz にまでアップ
ndash現在までの高性能化の約80 はクロック周波数の向上によるもの
スケーラブルシステムズ株式会社
ハードウエアの問題Moore‟s Lawムーアの法則
bull インテルの共同設立者の1人である Gordon Moore 博士が1965年4月19日号の「Electronics」誌に投稿した 「一定面積に集積されるトランジスタの数は12か月で倍増しそれに伴いトランジスタの動作速度が向上する」という予測 (その後1975年に Moore 博士はチップの複雑化を考慮してトランジスタ数の倍増ペースを24か月に修正)
bull また一般にはあまり知られていないがテクノロジの進歩とともに製造コストが劇的に下落することも予測(左図)
httpwwwintelcojpjpdevelopertechnologysiliconmooreslawindexhtm
指数関数的成長は永遠には続かないしかしその永遠を先延ばしにすることはできる [英語 PDF 形式 2MB]
Gordon E Moore2003年2月10日ISSCC (International
Solid State Circuits Conference) でのプレゼンテーション
Dr Gordon Moore
(co-founder of Intel)
スケーラブルシステムズ株式会社
Technology Trend
ムーアの法則依然として有効
スケーラブルシステムズ株式会社
性能向上の源泉は
ハードウエアデバイス技術の進歩bull ロジック回路のスイッチング速度の向上とデバイス密度bull メモリサイズの拡大とアクセス速度の向上bull 通信性能(バンド幅とレイテンシの向上)
bull 並列性ndash 1サイクルでの命令実行数
bull 命令レベルでの並列性(ILP)
bull ベクトル処理ndash プロセッサあたりコア数ndash ノードあたりのプロセッサ数ndash システムあたりのノード数
コンピュータアーキテクチャbull 命令発行実行速度の向上
ndash パイプライン化ndash 分岐予測ndash キャッシュndash Out-of-order など
スケーラブルシステムズ株式会社
GHz競争
bull 2000年に開催されたIEEE国際電子デバイス会議2000(2000
IEEE International Electron Devices MeetingIEDM) においてインテル社は4億個以上のトランジスタを集積した10GHz駆動のプロセッサが2005年までに実現可能だと発表しましたndash 実際にはインテル社の最速プロセッサは6ヶ月前に発表された
38GHz(Intel Pentium 4)となっています
bull Prescottプロセッサの6xxシリーズ発表に際してインテル社はldquoadding value beyond GHzrdquo のコメントを出していますそれ以降インテル社の多くのドキュメントやプレスリリースはこのldquoadding value beyond GHzrdquo についての内容を含んでいます
スケーラブルシステムズ株式会社
発熱の問題が深刻化
Bob Colwell氏の資料より抜粋
Increasing Frequency
Watt
scm
2
1
10
100
1000
15 10 07 05 035 025 018 013 01 007
i386i486
PentiumPentium Pro
Pentium IIPentium III
Hot Plate
Nuclear Reactor
Rocket Nozzle
Pentium 4(Prescott)
Pentium 4(Willamette)
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash過去12年間でPentiumプロセッサの動作周波数は60 MHz から 3800 MHz にまでアップ
ndash現在までの高性能化の約80 はクロック周波数の向上によるもの
bull 命令実行の強化と最適化
ndashより強力なインストラクションセット
ndash命令実行の最適化(パイプライン化分岐予測複数命令の同時実行命令実行順序の変更など)
スケーラブルシステムズ株式会社
技術のSカーブ技術開発の進展と製品性能の成長の関係
bull 技術開発の初期は製品性能はゆっくりと向上するがしだいに性能の向上の幅が大きくなるしかし次第に技術開発が成熟段階に入ると性能向上は逓減していく
製品の性能
時間
First Technology
Second Technology
Third Technology
RISCアウトオブオーダー実行lt1 instruction cycle
スーパースカラー RISCアウトオブオーダー実行lt2 instructions cycle
明示的並列命令コンピューティング技術 (EPIC)
命令の並列実行度の向上
スケーラブルシステムズ株式会社
マイクロアーキテクチャのSカーブ
Johan De Gelas Quest for More Processing Power
AnandTech Feb 8 2005
httpwwwanandtechcomcpuchipsetsshowdocaspxi=2343
101
102
103
104
105
106
MIP
S
1980 1985 1990 1995 2000 2005 2010
Pentium Architecture
Super Scalar
Pentium Pro Architecture
Speculative Out-of-Order
Pentium 4 Architecture
Trace Cache
Pentium 4 and Xeon Architecture with HT
Multi-Threaded
Multi-Threaded Multi-Core
Era of
Instruction
Parallelism
Era of
Thread
Parallelism
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash 過去12年間でPentiumプロセッサの動作周波数は60
MHz から 3800 MHz にまでアップ
ndash 現在までの高性能化の約80 はクロック周波数の向上によるもの
bull 命令実行の強化と最適化
ndash より強力なインストラクションセット
ndash 命令実行の最適化(パイプライン化分岐予測複数命令の同時実行命令実行順序の変更など)
bull 大容量キャッシュ
ndash プロセッサの速度とメモリレイテンシ(待ち時間)とバンド幅のギャップの拡大に対する対策対応としての容量の拡張
スケーラブルシステムズ株式会社
性能ギャップの問題
bull プロセッサ速度とメモリアクセスの速度差によってプロセッサがより高速になったとしてもプロセッサはその演算能力を完全に使い切ることが出来ない
1
10
100
1000Performance
1980 1990 2000
microProc
60yr
DRAM
7yr
バンド幅とレイテンシの問題が今後はより深刻(プロセッサ性能とのギャップはほぼ年率50の差で広がっている)
DRAM
CPU
プロセッサはほぼナノ秒に一回命令実行DRAMへのアクセスはほぼ100ナノ秒の時間
スケーラブルシステムズ株式会社
今後の発展と課題
Episode IV
A New Hope
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash 過去12年間でPentiumプロセッサの動作周波数は60
MHz から 3800 MHz にまでアップ
ndash 現在までの高性能化の約80 はクロック周波数の向上によるもの
bull 命令実行の強化と最適化
ndash より強力なインストラクションセット
ndash 命令実行の最適化(パイプライン化分岐予測複数命令の同時実行命令実行順序の変更など)
bull 大容量キャッシュ
ndash プロセッサの速度とメモリレイテンシ(待ち時間)とバンド幅のギャップの拡大に対する対策対応としての容量の拡張
スケーラブルシステムズ株式会社
デュアルコアプロセッサ
bull チップ上のトランジスタのより有効活用が可能bull スレッドレベルでの並列処理を活用bull よりシンプルなプロセッサの設計が可能
bull 将来のマイクロプロセッサはより多くのコアを実装可能bull 将来のマイクロプロセッサはより大容量のキャッシュの実装が可能
IBM Power5
with 19MB L2
AMD Opteron
with 2MB L2
Intel Montecito
With 24MB L3
スケーラブルシステムズ株式会社
イノベーションのジレンマ
製品の性能
時間
First Technology
Second Technology
Third Technology
RISCアウトオブオーダー実行lt1 instruction cycle
スーパースカラー RISCアウトオブオーダー実行lt2 instructions cycle
明示的並列命令コンピューティング技術 (EPIC)
命令の並列実行度の向上
製品の性能(異なる尺度)
時間
持続的イノベーション
技術革新が顧客の求める性能向上軸(ムーアの法則)に沿っている
破壊的イノベーションマルチコアとマルチスレッドによる並列処理
短期的には(シングルスレッドの性能)としては性能が低下するが将来の大きな性能向上とコスト低下機能強化の可能性が大きい
スケーラブルシステムズ株式会社
マルチコアの利点
ワークロードの処理効率の向上
bull マルチスレッドアプリケーションndash現在多くのアプリケーション(データベース
WEB科学技術計算)はマルチスレッド化
ndashマルチコアプロセッサではこれらのアプリケーションのマルチスレッドでの実行が容易に可能
bull 複数ジョブの処理ndashシステムでは複数のワークロード同時に処理することが必要
ndashマルチコアではこれらのワークロードへの処理が可能
スケーラブルシステムズ株式会社
マルチコアの利点
消費電力あたりの性能を最大にし高性能で低消費電力のシステム構築が可能
bull OS自身のマルチスレッド対応
ndash OSのサービスもマルチスレッドで処理することでより効率よく処理することが可能
bull 仮想化
ndashサーバのセキュリティや管理の強化
ndash管理するノード数を減らし運用コストの削減を図る
bull 最新のソフトウエアテクノロジの活用
スケーラブルシステムズ株式会社
大きな変革しかし容易ではない
マルチコアプロセッシング(または汎用もしくは専用プロセッサをソケットに複数搭載可能なこと)はEthernetの誕生以来ITインフラに対しての大きなインパクトをもたらします
デュアルプロセッサは386プロセッサの発表以来性能に関して最大の向上を実現しますしかしこのような性能向上にはソフトウエアの最適化がプロセッサの性能をフルに発揮するためには必要です
スケーラブルシステムズ株式会社
並列性(Parallelism)の利用
マルチタスク処理
MPIなどによる複数のノード間での並列処理
ユーザ及びコンパイラによるスレッドレベルでの並列処理(TLP)
コンパイラによる命列実行レベルでの並列処理(ILP)
マルチコア
マルチプロセッサ
マルチノード
マルチインストラクション
システム
スケーラブルシステムズ株式会社
ムーアの法則(GHz から MC へ)
マルチコアによる性能向上
動作周波数の向上による性能向上
性能
2005
bullマルチスレッドbullマルチタスクbull トレーニングbullツールbullhelliphellip
並列処理による性能向上についてはシステムサポートやプログラミングサポートなどの面での技術支援が重要です
スケーラブルシステムズ株式会社
Episode VI
Return of the Jedi
Ts for HPC - インテルテクノロジのHPCにおける価値の考察
スケーラブルシステムズ株式会社
将来予測の難しさ
bull ldquoI think there is a world market for maybe five
computersrdquobull Thomas Watson chairman of IBM 1943
bull ldquoThere is no reason for any individual to have a
computer in their homerdquobull Ken Olson president and founder of digital equipment
corporation 1977
bull ldquoThere are only about 100 potential customers
worldwide for a Cray-1rdquobull Seymour Cray 1977
bull ldquo640K [of memory] ought to be enough for
anybodyrdquobull Bill Gates chairman of Microsoft1981
スケーラブルシステムズ株式会社
「未来を予測する最良の方法はそれを創造してしまうことである」The best way to predict future is to invent it
Dr Alan Kay President of Viewpoints Research
Institute Inc
スケーラブルシステムズ株式会社
ITマネージメントの課題
bull プラットフォームの内部からの保護ndash ウイルスやワームなど悪意あるソフトウェアからの保護
bull 資産管理ndash 多くの IT 部門では特定できない資産が問題
bull オンラインおよびリモート管理診断機能 ndash アップグレード診断復旧のための作業の効率化
bull アプリケーション統合の困難さ
ndash アプリケーションの高度化と複雑化によって複数のアプリケーションを組み合わせるての動作に問題
bull 動的なリソース割り当て
ndash 組織内で未使用のCPUやメモリの活用
スケーラブルシステムズ株式会社
マーケットトレンド
All Servers Worldwide 2003 2004 2005 20062003 to 2006
CAGR
2005 to 2006
CAGR
Total Factory Revenue($B) $46149 $49146 $51268 $52251 42 19
Units Shipped(same as nodes) 5278222 6307484 7050099 7472649 123 60
Processor Dies Shipped 8662823 10134624 11712766 12779159 138 91
HPC Technical Servers Worldwide 2003 2004 2005 20062003 to 2006
CAGR
2005 to 2006
CAGR
HPC Server Revenue($B) $5698 $7393 $9208 $10030 207 89
Adjusted Revenues(To much
enterprise)$5128 $6654 $8287 $9027 207 89
Node Units Shipped 411327 734510 1215735 1419221 511 167
Processor Elements Shipped 1002905 1657827 2681079 3351843 495 250
HPC As A Ratio Of All Servers 2003 2004 2005 2006
Revenue($B) 123 150 180 192
Adjusted Revenues(Apples-to-
apples)111 135 162 173
Units Shipped(Nodes) 78 116 172 190
Processors Shipped 116 164 226 261
Source IDC 2007
スケーラブルシステムズ株式会社
HPCマーケット(対全サーバマーケット)
0
5
10
15
20
25
30
2003 2004 2005 2006
Revenue($B)
Adjusted Revenues(Apples-to-apples)
Units Shipped(Nodes)
Processors Shipped
スケーラブルシステムズ株式会社
マーケットトレンド
Source IDC 2004
Cost of mgmt amp admin 10 CAGR
$0
$20
$40
$60
$80
$100
$120
$140
$160
$180
$200
1996 rsquo97 rsquo98 rsquo992000 rsquo01 rsquo02 rsquo03 rsquo04 rsquo05 rsquo06 rsquo07 rsquo08-
New server spending (USM$) 3 CAGR
Spending (USB$)
5
10
15
20
25
30
35
Installed Base (M Units)
bull ハードウェアの減価償却費は IT の TCO 全体の約25 にすぎない
bull ソフトウェアのコストはわずか10~15
bull 電気などの公共料金フロアスペース電話回線など設備面のコストの割合もきわめて小さい
bull プラットフォームのコストではなくTCOの大きな比率を占めるのは人件費となっている
スケーラブルシステムズ株式会社
運用管理コストの低減
bull 「もっと処理性能を」と「より安価に」を実現するためにワークステーションやサーバでの分散処理の導入
bull ユーザや企業に新たな価値をもたらしてはいるが管理責任とその負担の分散を招き結果的に運用管理コストを押し上げる
メインフレームスーパーコンピュータ
仮想化によるサーバコンソリデーション
クラスタによる仮想コンピュータ
スケーラブルシステムズ株式会社
次世代HPCインフラ
bull コアとスレッド
ndash より多くのスレッドを効率よく利用可能
ndash マルチスレッド向け最適化
bull 電力管理
ndash 省電力
ndash データセンター運用管理機能
bull 仮想化
ndash 柔軟性と優れた運用管理
ndash 仮想的なシステムパーティション
bull RAS
ndash ハードウエアベースの自己監視自己管理
ndash ファームウエアベースのエラー履歴管理
bull システム管理
ndash より低いTCOを実現するための一般標準化されたマネージメント機能
スケーラブルシステムズ株式会社
高速プロセッサ
64ビットアドレス
メモリ性能と容
量
IOバンド幅
インターコネクト
省電力
システムのlsquoバランスrsquo
マルチコアによってプロセッサ単体の処理性能の向上を図る
64ビットのアドレス空間と
拡張されたレジスタによるOSとアプリケーション双方の機能性能拡張
64ビット化とマルチコア化
にともなう高速大容量へのニーズに対応しまたその拡張性の高い実装技術の実現
CPU-メモリ間の高速な
データ転送やより高速なネットワーク大規模なストレージのサポート
大規模なクラスタシステムの構築及びアプリケーションのワークロードに対応した高速性能
エコシステムに対応するためにも電力消費量や発熱量を積極的に抑える技術の開発
スケーラブルシステムズ株式会社
HPCの二極分化
Going UP
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
Going DOWN
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
スケーラブルシステムズ株式会社
システムとユーザの尺度
bull ユーザの尺度での性能(Performance)は時間当たりにどれだけの仕事を処理出来るか(仕事量 時間)
bull Flopsでの評価は実際には意味がないまた問題の規模(small medium large) という評価も難しい
bull ldquoスケーラビリティrdquoは対象を明確に規定する必要がある
システムの尺度 ユーザの尺度
Flops hArr 計算終了までの時間
メモリサイズ(GB) hArr モデルのサイズと計算結果
プロセッサ数 hArr ワークロードでの試行
データ長 hArr 計算精度
システム構成(クラスタ) hArr 導入コストと運用コスト
スケーラビリティ hArr ベンチマーク
スケーラブルシステムズ株式会社
HPCシステムの動向国家プロジェクトと商用製品のギャップの拡大
Going UP
Going DOWN
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
Peta-Scaleコンピューティングに求められる基本技術と現在のHPCの主要マーケットでの要求はあまりにも差が大きいrarrHPCSシステムは各社とのlsquoCommodityrsquoのマイクロプロセッサではなく独自のプロセッサを開発中
ハードウエアはrsquoCommodityrsquo
なものを利用してSWの改善サポート利用技術のサポートが今後の主要マーケットでの成功の鍵となる
スケーラブルシステムズ株式会社
HPCシステムの動向国家プロジェクト
Going UP
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
Peta-Scaleコンピューティングに求められる基本技術と現在のHPCの主要マーケットでの要求はあまりにも差が大きいrarrHPCSシステムは各社とのlsquoCommodityrsquoのマイクロプロセッサではなく独自のプロセッサを開発中
スケーラブルシステムズ株式会社
TOP500性能予測
1993 1995 1997 1999 2001 2003 2005 2007 2009 2011 2013 2015
N=
50
SUM
1 Gflops
1 Tflops
100 Mflops
100 Gflops
100 Tflops
10 Gflops
10 Tflops
1 Pflops
10 Pflops
IBM ASCI White
Blue GeneEarth Simulator
Intel
TOP500の総計が1PFを超えています
TOP500に掲載されるには1TF
が最低条件になっています
シングルシステムの1PFの実現は2009年
システム(プロセッサ数) 13倍年プロセッサ性能向上 14倍年トータル性能 18倍年
2009年までに1ペタFLOPS
スケーラブルシステムズ株式会社
性能ギャップの拡大
bull ピーク性能の大幅な向上ndash 1990年台は性能の向上は102のオーダーでしたが2000年台になると103のオーダーで性能は向上しています
しかしhellipndash 多くの科学技術計算用途のアプリケーションのピーク性能に対する実効性能の比率は5-10となっています(1990年代のベクトル計算機は40-50の対ピーク性能を示していました)
bull 今必要なのはndash より高い実効性能を発揮することが可能な計算アルゴリズムと手法の開発とスケーラビリティの向上
ndash プログラミングモデルなども含めてスケーラブルな計算機環境の構築
01
1
10
100
1000
2000 2004
Tera
flo
ps
1996
Performance
Gap
Peak Performance
Real Performance
NERSC User Group Meeting June 24-25 2004
Osni Marques and Tony Drummond
Lawrence Berkeley National Laboratory
スケーラブルシステムズ株式会社
ペタスケールシステムの構築
bull ソフトウエア(アプリケーションOSプログラミングAPIなど)の課題の克服が課題
bull システムの複雑さと生産性
例Linpack Benchmark
bull オリジナルベンチマークプログラム ~100ライン
bull HPL ベンチマークプログラム ~10000ライン(x100より複雑)
lsquo複雑さrsquoの壁
現在のテラFLOPS級の問題
Source ORNL
スケーラブルシステムズ株式会社
HPCシステムの動向商用製品
Going DOWN
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
ハードウエアはrsquoCommodityrsquo
なものを利用してSWの改善サポート利用技術のサポートが今後の主要マーケットでの成功の鍵となる
スケーラブルシステムズ株式会社
標準コンポーネントの進化
bull プロセッサの性能向上ndash lsquoマルチコアrsquoによる省電力での性能向上が可能
ndash HPCアプリケーションは容易にlsquoマルチコアrsquoの利点を活用可能 (OpenMPやMPI)
bull ファイルシステムndash高性能なスケーラブルファイルシステム(オープンソース)
bull インターコネクトndash PCI-Express (メモリlarrrarrインターコネクト)
ndash高速の商用製品やオープンソースでの強力(OpenIBなど)
スケーラブルシステムズ株式会社
標準コンポーネントの利点
bull 特定のベンダーからのシステムを組み合わせるのではなく他社のシステムも含めてベストなシステムの選択が可能
ndashスケーラブルSMPベクトル計算機クラスタの幅広い選択肢
ndash 64ビットマルチコアマイクロプロセッサの性能向上を最大限に活用
bull 標準コンポーネントの技術革新の活用
ndash PCI-ExpressやFB-DIMMの利用技術
スケーラブルシステムズ株式会社
Breaking the 1-2K nodes Barrier
bull 音の障壁サウンドバリヤー(sound barrier)飛行機の速度が音速近くになると衝撃波の発生によって抵抗の増大境界層の剥離など設計運用上のさまざまな障害(壁)に出合って超音速飛行は不可能かと思われた時代があった(1947年ごろまで)ので音の障壁といわれていた
httpwwwwilk4commiscsoundbreakhtm
クラスタのノード数がある規模に近くなるとその構築や運用において負担の増大システムの安定稼動スケーラビリティなど設計運用上のさまざまな障害(壁)に出合ってクラスタ構築は不可能と思われた時代があった()
スケーラブルシステムズ株式会社
ビルゲイツ氏の基調講演HPC goes mainstream
スケーラブルシステムズ株式会社
「Fast」「Good」「Cheap」のパズル
Fast
+ Cheap
Inferior
高い性能を廉価なシステムで構築することも可能ですただそのようなシステムの場合システムの構築や利用は必ずしも容易ではありません
Good
+ Cheap
Slow比較的小規模なシステムであれば廉価で使い勝手の良いものを探すことは可能ですしかしそのようなシステムでは拡張性やより大規模なシステム構築が出来ません
Good
+ Fast
Expensive
付加価値の高い性能の高いシステムは一般には高価ですその付加価値がユーザにとってメリットが無ければコストパフォーマンスの悪いシステムになるだけです
スケーラブルシステムズ株式会社
まとめとして
bull 「テクノロジー」をどのようにとらえるかndash企業経営基盤のコア要素
ndashユーザの本質的な課題を解決する戦略的な武器
bull マーケットを牽引する「テクノロジ」に求められることndashテクノロジとHPCにおけるITインフラの関係を明確にすること
bull ユーザに何らかのメリットをもたらさない「テクノロジー」は意味を成さない
ndashテクノロジーを最適に組み合わせることで問題解決のためのソリューションの提供が可能
スケーラブルシステムズ株式会社
まとめとして
bull bdquoTs‟ for HPC - インテルテクノロジのHPCにおける価値
ndash インテルテクノロジはHPCにおいて重要な構成要素となっている
ndashそれらの構成要素を統合することでより高い価値の提供が可能となる
ndash二分化しつつあるHPCシステムにおいて「標準コ
ンポーネント」としてのプラットフォームの動向として今後もその動向には注目する必要がある
スケーラブルシステムズ株式会社
さらに詳しい情報はhellip
bull 弊社のコンサルテーションに関するご提案資料もダウンロード可能です(非公開WEBページ)別途弊社に内容等についてはお尋ねください
お問い合わせ先102-0083
東京都千代田区麹町3-5-2
BUREX麹町 8F
電話03-5875-4718
FAX03-3237-7612
E-mailbizsstccojp
httpwwwsstccojp wwwsstccojpbiz
スケーラブルシステムズ株式会社
スケーラブルシステムズ株式会社
ハイエンドコンピューティングに関するコンサルテーションとして幅広いサービスをご提供致します
このサービスを最大限に活用していただくことでコラボレーションによる「顧客志向」 のコン
サルテーションサービスをご提供できればと思っております
スケーラブルシステムズ株式会社
社名製品名などは一般に各社の商標または登録商標です無断での引用転載を禁じます
In general the name of the company and the product name etc are the trademarks or registered trademarks of each company
Copyright Scalable Systems Co Ltd 2005 Unauthorized use is strictly forbidden
2005年11月
スケーラブルシステムズ株式会社
Cray システム
bull Cray-1 (1977)
ndash 250 MFLOPS
ndash 80 MHz
ndash 1 MWord (64-bit)
bull PC 8088 (1979) ndash 5 MHz
ndash 1 MB RAM
bull Modern PC (Pentium 4) ndash 32 GHz (Dual Core)
ndash 128 GFLOPS
ndash 4 GB RAM
httped-thelenorgcomp-histCRAY-1-HardRefManCRAY-1-HRMhtml
スケーラブルシステムズ株式会社
Crayシステムピーク性能
1
10
100
1000
10000
100000
1000000
1970 1975 1980 1985 1990 1995 2000
製品化年度
ピークMFLOPS値
1976
Cray-1
1983
XMP4
1987
YMP8
1987
C9016
1987
T9032
1983
XMP1
1987
YMP1
1987
C901
1987
T901
シングルプロセッサ性能
マルチプロセッサ性能24ヶ月で2倍の性能
スケーラブルシステムズ株式会社
HPMS (High-Performance Modeling and Simulation)
実験
観察
理論
計算科学High Performance Computing
バーチャルリアリティ仮想現実空間の構築
物理モデリングコンピュータグラフィックス
「インシリコ」テストバイオサイエンスとシュミレーション
大規模並列システムスケーラブルコンピューティング
現象
High-Performance Modeling and
Simulation
スケーラブルシステムズ株式会社
シュミレーション事例
スケーラブルシステムズ株式会社
シュミレーション事例
スケーラブルシステムズ株式会社
シュミレーション事例
スケーラブルシステムズ株式会社
シングルプロセッサ性能Linpack
Cray 1s
Xmp
Xmp
Ymp
C90
Sun 4260
MIPS M120
MIPS M2000
IBM RS6000540HP 9000750
DEC Alpha AXP
HP9000735
MIPS R4400
IBM Power2990
1
10
100
1000
10000
1975 1980 1985 1990 1995 2000
Lin
pack
MF
LO
PS
Cray n=1000 Cray n=100
Micro n=1000 Micro n=100
DEC 8200
T94
スケーラブルシステムズ株式会社
ベクトル計算機の性能
Q なぜベクトル計算機の性能がマイクロプロセッサの性能のように向上しなかったのでしょうか
A ベクトル計算機はグローバル共有メモリに対する高い接続性能にその性能が依存していたためにこのメモリ間接続の性能向上がボトルネックとなってしまいました
例DRAMメモリの性能と仕様
1979標準DRAM 1999200 MHz SDRAM 1979rarr1999
16K bit
1-bit wide interface
5 Mbs uniform access BW
2 Mbs random access BW
256 Mbit
16-bit wide interface
3200 Mbs uniform access BW
1000 Mbs random access BW
X 16000
X 640
X 500
X 25
スケーラブルシステムズ株式会社
The Pahntom Menace
1993-2000
ベクトル計算機の凋落
商用プロセッサの台頭
スケーラブルシステムズ株式会社
ベクトル計算機の逆襲
Episode V
The Empire Strikes Back
スケーラブルシステムズ株式会社
ベクトル計算機の逆襲
bull 2002
bull 地球シュミレータ
bull コンピュータにおけるスプートニックショック
10487075120 (640 8-way nodes) 500 MHz NEC
10487078 GFLOPS per CPU (41 TFLOPS total)
10487072 GB Memory per CPU (10 TB total)
104870720 kVA power consumption per node
スケーラブルシステムズ株式会社
HPCの歴史
Episode II
Attack of the Clones
スケーラブルシステムズ株式会社
イノベーションのジレンマ
bull クレイトンクリステンセンの「イノベーションのジレンマ」
bull 持続的イノベーションと破壊的イノベーションによるマーケットの動向を分析
bull 持続的イノベーション
ndash 技術革新が顧客の求める性能向上軸に沿っている
bull 破壊的イノベーション
ndash 既存顧客が求める性能とは異なる軸の性能(特性)
スケーラブルシステムズ株式会社
製品の性能
時間
製品の性能(異なる尺度で評価)
時間
Commodity-Based Cluster
RISCベースのSMPNUMAシステム
ベクトル計算機
破壊的イノベーション
スケーラブルシステムズ株式会社
Beowulf プロジェクト
Wiglaf - 1994
16 Intel 80486 100 MHz
VESA Local bus
256 Mbytes memory
64 Gbytes of disk
Dual 10 base-T Ethernet
72 Mflops sustained
$40K
Hrothgar - 1995
16 Intel Pentium100 MHz
PCI
1 Gbyte memory
64 Gbytes of disk
100 base-T Fast Ethernet
(hub)
240 Mflops sustained
$46K
Hyglac-1996 (Caltech)
16 Pentium Pro 200 MHz
PCI
2 Gbytes memory
496 Gbytes of disk
100 base-T Fast Ethernet
(switch)
125 Gflops sustained
$50K
スケーラブルシステムズ株式会社
クラスタシステムの台頭
2000-2005
スケーラブルシステムズ株式会社
課題
Episode III
Revenge of the sith
スケーラブルシステムズ株式会社
HPCの現状
Going UP Going DOWN
システムの規模解析モデルのサイズ運用管理の複雑さbull電力bullスペースbullシステムの相互接続bull管理コスト
生産性bullプログラミングbullシステムの可用性bull実効性能ピーク性能システムバランスHWコスト
スケーラブルシステムズ株式会社
HPCマーケット
bull HPCマーケットでのHPCシステム構築及び製品は次の3つのセグメントに分かれているndash 一般商用システム( Commodity-based systems)
bull 一般のクラスタシステム(Dell HPCCなど)
ndash 付加価値システム( Value-based systems)bull 多くのSMPやNUMAシステム(SGI Altixなど)
ndash 特定目的システム( Purpose-built systems)bull アプリケーションと解析対象に合わせたシステム設計(IBM
BlueGeneLなど)
bull IDCなどのレポートでも一般商用システムのHPCマーケットでの導入がもっともその成長が大きいndash 付加価値システムの課題(一般商用システムとの競合に対する対応もしくは新たな分野の開拓rarrペタスケールコンピューティング)
ndash HPCSプログラムはこの付加価値システムのベンダーにとっても生き残りを賭けた戦い (2006July)
スケーラブルシステムズ株式会社
HPCシステムの現状分析
bull Good News
ldquoHPCシステムにおける問題はたった2つだけであるrdquo
スケーラブルシステムズ株式会社
ソフトウエアとハードウエア
bull ソフトウエアThe Law of Morehellip
ndashシステム規模とその複雑さの急速な増加拡大
ndash ソフトウエアの準備が出来た時点でハードウエアは既に陳腐化し次のシステムの導入の検討が進む
bull ハードウエアMoore‟s Law (ムーアの法則)ndash消費電力の問題のためプロセッサの動作クロックを今までのペースで上げることは困難
ndashプロセッサとメモリの性能差の拡大によるCPUサイクルとのギャップ
ndashピーク性能と実効性能のギャップの拡大
スケーラブルシステムズ株式会社
ソフトウエアThe Law of Morehellip
bull 研究者はより多くの時間(More Time)をソフトウエアの開発のために必要としている
bull 問題はより複雑(More Complex)になりそしてより多くのプロセッサ(More Processors)を利用して処理を行うにはより多くの困難(More
Difficult)が伴います
スケーラブルシステムズ株式会社
アルゴリズムの最適化
bull 計算機自身の進化と共に計算アルゴリズムも最適化されている
bull 例編微分方程式の解法ndash N=106の場合ガウスの消去法で線形方程式を解く場合と
MGでの計算では108倍の計算量が違うndash これは1Mflopssの計算機で100Tflopssの計算機に相当する計算を行ったことになる
O(N)F-cycle MG
O(N76 log(N))CGMILU
O(N43 log(N))Optimal SOR
O(N53 log(N))Gauss Seidel
O(N73)Banded Gauss Elimination
計算オペレーション数(概数)アルゴリズム
2u=f 100
100100
スケーラブルシステムズ株式会社
ソフトウエアThe Law of Morehellip
bull 一般の商用製品を活用したクラスタソリューションでは「Capacity」の実現は容易であるが「Capability」の実現については依然として課題が多いndash コストパフォーマンスの高いシステムの構築は可能だとしてもコストプロダクティビティの高いシステムの構築も課題
bull 数百~数千プロセッサ構成のシステムの利用技術と解析対象の検討ndash 小規模中規模問題の高速処理への対応ndash ソフトウエア開発の生産性
bull 数プロセッサ~数十プロセッサをより簡便に容易に利用できる技術ndash シングルプロセッサシングルスレッドを利用するのと同じようにhellip
スケーラブルシステムズ株式会社
ソフトウエアとハードウエア
bull ソフトウエアThe Law of Morehellip
ndashシステム規模とその複雑さの急速な増加拡大
ndash ソフトウエアの準備が出来た時点でハードウエアは既に陳腐化し次のシステムの導入の検討が進む
bull ハードウエアMoore‟s Law (ムーアの法則)ndash消費電力の問題のためプロセッサの動作クロックを今までのペースで上げることは困難
ndashプロセッサとメモリの性能差の拡大によるCPUサイクルとのギャップ
ndashピーク性能と実効性能のギャップの拡大
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash過去12年間でPentiumプロセッサの動作周波数は60 MHz から 3800 MHz にまでアップ
ndash現在までの高性能化の約80 はクロック周波数の向上によるもの
スケーラブルシステムズ株式会社
ハードウエアの問題Moore‟s Lawムーアの法則
bull インテルの共同設立者の1人である Gordon Moore 博士が1965年4月19日号の「Electronics」誌に投稿した 「一定面積に集積されるトランジスタの数は12か月で倍増しそれに伴いトランジスタの動作速度が向上する」という予測 (その後1975年に Moore 博士はチップの複雑化を考慮してトランジスタ数の倍増ペースを24か月に修正)
bull また一般にはあまり知られていないがテクノロジの進歩とともに製造コストが劇的に下落することも予測(左図)
httpwwwintelcojpjpdevelopertechnologysiliconmooreslawindexhtm
指数関数的成長は永遠には続かないしかしその永遠を先延ばしにすることはできる [英語 PDF 形式 2MB]
Gordon E Moore2003年2月10日ISSCC (International
Solid State Circuits Conference) でのプレゼンテーション
Dr Gordon Moore
(co-founder of Intel)
スケーラブルシステムズ株式会社
Technology Trend
ムーアの法則依然として有効
スケーラブルシステムズ株式会社
性能向上の源泉は
ハードウエアデバイス技術の進歩bull ロジック回路のスイッチング速度の向上とデバイス密度bull メモリサイズの拡大とアクセス速度の向上bull 通信性能(バンド幅とレイテンシの向上)
bull 並列性ndash 1サイクルでの命令実行数
bull 命令レベルでの並列性(ILP)
bull ベクトル処理ndash プロセッサあたりコア数ndash ノードあたりのプロセッサ数ndash システムあたりのノード数
コンピュータアーキテクチャbull 命令発行実行速度の向上
ndash パイプライン化ndash 分岐予測ndash キャッシュndash Out-of-order など
スケーラブルシステムズ株式会社
GHz競争
bull 2000年に開催されたIEEE国際電子デバイス会議2000(2000
IEEE International Electron Devices MeetingIEDM) においてインテル社は4億個以上のトランジスタを集積した10GHz駆動のプロセッサが2005年までに実現可能だと発表しましたndash 実際にはインテル社の最速プロセッサは6ヶ月前に発表された
38GHz(Intel Pentium 4)となっています
bull Prescottプロセッサの6xxシリーズ発表に際してインテル社はldquoadding value beyond GHzrdquo のコメントを出していますそれ以降インテル社の多くのドキュメントやプレスリリースはこのldquoadding value beyond GHzrdquo についての内容を含んでいます
スケーラブルシステムズ株式会社
発熱の問題が深刻化
Bob Colwell氏の資料より抜粋
Increasing Frequency
Watt
scm
2
1
10
100
1000
15 10 07 05 035 025 018 013 01 007
i386i486
PentiumPentium Pro
Pentium IIPentium III
Hot Plate
Nuclear Reactor
Rocket Nozzle
Pentium 4(Prescott)
Pentium 4(Willamette)
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash過去12年間でPentiumプロセッサの動作周波数は60 MHz から 3800 MHz にまでアップ
ndash現在までの高性能化の約80 はクロック周波数の向上によるもの
bull 命令実行の強化と最適化
ndashより強力なインストラクションセット
ndash命令実行の最適化(パイプライン化分岐予測複数命令の同時実行命令実行順序の変更など)
スケーラブルシステムズ株式会社
技術のSカーブ技術開発の進展と製品性能の成長の関係
bull 技術開発の初期は製品性能はゆっくりと向上するがしだいに性能の向上の幅が大きくなるしかし次第に技術開発が成熟段階に入ると性能向上は逓減していく
製品の性能
時間
First Technology
Second Technology
Third Technology
RISCアウトオブオーダー実行lt1 instruction cycle
スーパースカラー RISCアウトオブオーダー実行lt2 instructions cycle
明示的並列命令コンピューティング技術 (EPIC)
命令の並列実行度の向上
スケーラブルシステムズ株式会社
マイクロアーキテクチャのSカーブ
Johan De Gelas Quest for More Processing Power
AnandTech Feb 8 2005
httpwwwanandtechcomcpuchipsetsshowdocaspxi=2343
101
102
103
104
105
106
MIP
S
1980 1985 1990 1995 2000 2005 2010
Pentium Architecture
Super Scalar
Pentium Pro Architecture
Speculative Out-of-Order
Pentium 4 Architecture
Trace Cache
Pentium 4 and Xeon Architecture with HT
Multi-Threaded
Multi-Threaded Multi-Core
Era of
Instruction
Parallelism
Era of
Thread
Parallelism
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash 過去12年間でPentiumプロセッサの動作周波数は60
MHz から 3800 MHz にまでアップ
ndash 現在までの高性能化の約80 はクロック周波数の向上によるもの
bull 命令実行の強化と最適化
ndash より強力なインストラクションセット
ndash 命令実行の最適化(パイプライン化分岐予測複数命令の同時実行命令実行順序の変更など)
bull 大容量キャッシュ
ndash プロセッサの速度とメモリレイテンシ(待ち時間)とバンド幅のギャップの拡大に対する対策対応としての容量の拡張
スケーラブルシステムズ株式会社
性能ギャップの問題
bull プロセッサ速度とメモリアクセスの速度差によってプロセッサがより高速になったとしてもプロセッサはその演算能力を完全に使い切ることが出来ない
1
10
100
1000Performance
1980 1990 2000
microProc
60yr
DRAM
7yr
バンド幅とレイテンシの問題が今後はより深刻(プロセッサ性能とのギャップはほぼ年率50の差で広がっている)
DRAM
CPU
プロセッサはほぼナノ秒に一回命令実行DRAMへのアクセスはほぼ100ナノ秒の時間
スケーラブルシステムズ株式会社
今後の発展と課題
Episode IV
A New Hope
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash 過去12年間でPentiumプロセッサの動作周波数は60
MHz から 3800 MHz にまでアップ
ndash 現在までの高性能化の約80 はクロック周波数の向上によるもの
bull 命令実行の強化と最適化
ndash より強力なインストラクションセット
ndash 命令実行の最適化(パイプライン化分岐予測複数命令の同時実行命令実行順序の変更など)
bull 大容量キャッシュ
ndash プロセッサの速度とメモリレイテンシ(待ち時間)とバンド幅のギャップの拡大に対する対策対応としての容量の拡張
スケーラブルシステムズ株式会社
デュアルコアプロセッサ
bull チップ上のトランジスタのより有効活用が可能bull スレッドレベルでの並列処理を活用bull よりシンプルなプロセッサの設計が可能
bull 将来のマイクロプロセッサはより多くのコアを実装可能bull 将来のマイクロプロセッサはより大容量のキャッシュの実装が可能
IBM Power5
with 19MB L2
AMD Opteron
with 2MB L2
Intel Montecito
With 24MB L3
スケーラブルシステムズ株式会社
イノベーションのジレンマ
製品の性能
時間
First Technology
Second Technology
Third Technology
RISCアウトオブオーダー実行lt1 instruction cycle
スーパースカラー RISCアウトオブオーダー実行lt2 instructions cycle
明示的並列命令コンピューティング技術 (EPIC)
命令の並列実行度の向上
製品の性能(異なる尺度)
時間
持続的イノベーション
技術革新が顧客の求める性能向上軸(ムーアの法則)に沿っている
破壊的イノベーションマルチコアとマルチスレッドによる並列処理
短期的には(シングルスレッドの性能)としては性能が低下するが将来の大きな性能向上とコスト低下機能強化の可能性が大きい
スケーラブルシステムズ株式会社
マルチコアの利点
ワークロードの処理効率の向上
bull マルチスレッドアプリケーションndash現在多くのアプリケーション(データベース
WEB科学技術計算)はマルチスレッド化
ndashマルチコアプロセッサではこれらのアプリケーションのマルチスレッドでの実行が容易に可能
bull 複数ジョブの処理ndashシステムでは複数のワークロード同時に処理することが必要
ndashマルチコアではこれらのワークロードへの処理が可能
スケーラブルシステムズ株式会社
マルチコアの利点
消費電力あたりの性能を最大にし高性能で低消費電力のシステム構築が可能
bull OS自身のマルチスレッド対応
ndash OSのサービスもマルチスレッドで処理することでより効率よく処理することが可能
bull 仮想化
ndashサーバのセキュリティや管理の強化
ndash管理するノード数を減らし運用コストの削減を図る
bull 最新のソフトウエアテクノロジの活用
スケーラブルシステムズ株式会社
大きな変革しかし容易ではない
マルチコアプロセッシング(または汎用もしくは専用プロセッサをソケットに複数搭載可能なこと)はEthernetの誕生以来ITインフラに対しての大きなインパクトをもたらします
デュアルプロセッサは386プロセッサの発表以来性能に関して最大の向上を実現しますしかしこのような性能向上にはソフトウエアの最適化がプロセッサの性能をフルに発揮するためには必要です
スケーラブルシステムズ株式会社
並列性(Parallelism)の利用
マルチタスク処理
MPIなどによる複数のノード間での並列処理
ユーザ及びコンパイラによるスレッドレベルでの並列処理(TLP)
コンパイラによる命列実行レベルでの並列処理(ILP)
マルチコア
マルチプロセッサ
マルチノード
マルチインストラクション
システム
スケーラブルシステムズ株式会社
ムーアの法則(GHz から MC へ)
マルチコアによる性能向上
動作周波数の向上による性能向上
性能
2005
bullマルチスレッドbullマルチタスクbull トレーニングbullツールbullhelliphellip
並列処理による性能向上についてはシステムサポートやプログラミングサポートなどの面での技術支援が重要です
スケーラブルシステムズ株式会社
Episode VI
Return of the Jedi
Ts for HPC - インテルテクノロジのHPCにおける価値の考察
スケーラブルシステムズ株式会社
将来予測の難しさ
bull ldquoI think there is a world market for maybe five
computersrdquobull Thomas Watson chairman of IBM 1943
bull ldquoThere is no reason for any individual to have a
computer in their homerdquobull Ken Olson president and founder of digital equipment
corporation 1977
bull ldquoThere are only about 100 potential customers
worldwide for a Cray-1rdquobull Seymour Cray 1977
bull ldquo640K [of memory] ought to be enough for
anybodyrdquobull Bill Gates chairman of Microsoft1981
スケーラブルシステムズ株式会社
「未来を予測する最良の方法はそれを創造してしまうことである」The best way to predict future is to invent it
Dr Alan Kay President of Viewpoints Research
Institute Inc
スケーラブルシステムズ株式会社
ITマネージメントの課題
bull プラットフォームの内部からの保護ndash ウイルスやワームなど悪意あるソフトウェアからの保護
bull 資産管理ndash 多くの IT 部門では特定できない資産が問題
bull オンラインおよびリモート管理診断機能 ndash アップグレード診断復旧のための作業の効率化
bull アプリケーション統合の困難さ
ndash アプリケーションの高度化と複雑化によって複数のアプリケーションを組み合わせるての動作に問題
bull 動的なリソース割り当て
ndash 組織内で未使用のCPUやメモリの活用
スケーラブルシステムズ株式会社
マーケットトレンド
All Servers Worldwide 2003 2004 2005 20062003 to 2006
CAGR
2005 to 2006
CAGR
Total Factory Revenue($B) $46149 $49146 $51268 $52251 42 19
Units Shipped(same as nodes) 5278222 6307484 7050099 7472649 123 60
Processor Dies Shipped 8662823 10134624 11712766 12779159 138 91
HPC Technical Servers Worldwide 2003 2004 2005 20062003 to 2006
CAGR
2005 to 2006
CAGR
HPC Server Revenue($B) $5698 $7393 $9208 $10030 207 89
Adjusted Revenues(To much
enterprise)$5128 $6654 $8287 $9027 207 89
Node Units Shipped 411327 734510 1215735 1419221 511 167
Processor Elements Shipped 1002905 1657827 2681079 3351843 495 250
HPC As A Ratio Of All Servers 2003 2004 2005 2006
Revenue($B) 123 150 180 192
Adjusted Revenues(Apples-to-
apples)111 135 162 173
Units Shipped(Nodes) 78 116 172 190
Processors Shipped 116 164 226 261
Source IDC 2007
スケーラブルシステムズ株式会社
HPCマーケット(対全サーバマーケット)
0
5
10
15
20
25
30
2003 2004 2005 2006
Revenue($B)
Adjusted Revenues(Apples-to-apples)
Units Shipped(Nodes)
Processors Shipped
スケーラブルシステムズ株式会社
マーケットトレンド
Source IDC 2004
Cost of mgmt amp admin 10 CAGR
$0
$20
$40
$60
$80
$100
$120
$140
$160
$180
$200
1996 rsquo97 rsquo98 rsquo992000 rsquo01 rsquo02 rsquo03 rsquo04 rsquo05 rsquo06 rsquo07 rsquo08-
New server spending (USM$) 3 CAGR
Spending (USB$)
5
10
15
20
25
30
35
Installed Base (M Units)
bull ハードウェアの減価償却費は IT の TCO 全体の約25 にすぎない
bull ソフトウェアのコストはわずか10~15
bull 電気などの公共料金フロアスペース電話回線など設備面のコストの割合もきわめて小さい
bull プラットフォームのコストではなくTCOの大きな比率を占めるのは人件費となっている
スケーラブルシステムズ株式会社
運用管理コストの低減
bull 「もっと処理性能を」と「より安価に」を実現するためにワークステーションやサーバでの分散処理の導入
bull ユーザや企業に新たな価値をもたらしてはいるが管理責任とその負担の分散を招き結果的に運用管理コストを押し上げる
メインフレームスーパーコンピュータ
仮想化によるサーバコンソリデーション
クラスタによる仮想コンピュータ
スケーラブルシステムズ株式会社
次世代HPCインフラ
bull コアとスレッド
ndash より多くのスレッドを効率よく利用可能
ndash マルチスレッド向け最適化
bull 電力管理
ndash 省電力
ndash データセンター運用管理機能
bull 仮想化
ndash 柔軟性と優れた運用管理
ndash 仮想的なシステムパーティション
bull RAS
ndash ハードウエアベースの自己監視自己管理
ndash ファームウエアベースのエラー履歴管理
bull システム管理
ndash より低いTCOを実現するための一般標準化されたマネージメント機能
スケーラブルシステムズ株式会社
高速プロセッサ
64ビットアドレス
メモリ性能と容
量
IOバンド幅
インターコネクト
省電力
システムのlsquoバランスrsquo
マルチコアによってプロセッサ単体の処理性能の向上を図る
64ビットのアドレス空間と
拡張されたレジスタによるOSとアプリケーション双方の機能性能拡張
64ビット化とマルチコア化
にともなう高速大容量へのニーズに対応しまたその拡張性の高い実装技術の実現
CPU-メモリ間の高速な
データ転送やより高速なネットワーク大規模なストレージのサポート
大規模なクラスタシステムの構築及びアプリケーションのワークロードに対応した高速性能
エコシステムに対応するためにも電力消費量や発熱量を積極的に抑える技術の開発
スケーラブルシステムズ株式会社
HPCの二極分化
Going UP
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
Going DOWN
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
スケーラブルシステムズ株式会社
システムとユーザの尺度
bull ユーザの尺度での性能(Performance)は時間当たりにどれだけの仕事を処理出来るか(仕事量 時間)
bull Flopsでの評価は実際には意味がないまた問題の規模(small medium large) という評価も難しい
bull ldquoスケーラビリティrdquoは対象を明確に規定する必要がある
システムの尺度 ユーザの尺度
Flops hArr 計算終了までの時間
メモリサイズ(GB) hArr モデルのサイズと計算結果
プロセッサ数 hArr ワークロードでの試行
データ長 hArr 計算精度
システム構成(クラスタ) hArr 導入コストと運用コスト
スケーラビリティ hArr ベンチマーク
スケーラブルシステムズ株式会社
HPCシステムの動向国家プロジェクトと商用製品のギャップの拡大
Going UP
Going DOWN
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
Peta-Scaleコンピューティングに求められる基本技術と現在のHPCの主要マーケットでの要求はあまりにも差が大きいrarrHPCSシステムは各社とのlsquoCommodityrsquoのマイクロプロセッサではなく独自のプロセッサを開発中
ハードウエアはrsquoCommodityrsquo
なものを利用してSWの改善サポート利用技術のサポートが今後の主要マーケットでの成功の鍵となる
スケーラブルシステムズ株式会社
HPCシステムの動向国家プロジェクト
Going UP
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
Peta-Scaleコンピューティングに求められる基本技術と現在のHPCの主要マーケットでの要求はあまりにも差が大きいrarrHPCSシステムは各社とのlsquoCommodityrsquoのマイクロプロセッサではなく独自のプロセッサを開発中
スケーラブルシステムズ株式会社
TOP500性能予測
1993 1995 1997 1999 2001 2003 2005 2007 2009 2011 2013 2015
N=
50
SUM
1 Gflops
1 Tflops
100 Mflops
100 Gflops
100 Tflops
10 Gflops
10 Tflops
1 Pflops
10 Pflops
IBM ASCI White
Blue GeneEarth Simulator
Intel
TOP500の総計が1PFを超えています
TOP500に掲載されるには1TF
が最低条件になっています
シングルシステムの1PFの実現は2009年
システム(プロセッサ数) 13倍年プロセッサ性能向上 14倍年トータル性能 18倍年
2009年までに1ペタFLOPS
スケーラブルシステムズ株式会社
性能ギャップの拡大
bull ピーク性能の大幅な向上ndash 1990年台は性能の向上は102のオーダーでしたが2000年台になると103のオーダーで性能は向上しています
しかしhellipndash 多くの科学技術計算用途のアプリケーションのピーク性能に対する実効性能の比率は5-10となっています(1990年代のベクトル計算機は40-50の対ピーク性能を示していました)
bull 今必要なのはndash より高い実効性能を発揮することが可能な計算アルゴリズムと手法の開発とスケーラビリティの向上
ndash プログラミングモデルなども含めてスケーラブルな計算機環境の構築
01
1
10
100
1000
2000 2004
Tera
flo
ps
1996
Performance
Gap
Peak Performance
Real Performance
NERSC User Group Meeting June 24-25 2004
Osni Marques and Tony Drummond
Lawrence Berkeley National Laboratory
スケーラブルシステムズ株式会社
ペタスケールシステムの構築
bull ソフトウエア(アプリケーションOSプログラミングAPIなど)の課題の克服が課題
bull システムの複雑さと生産性
例Linpack Benchmark
bull オリジナルベンチマークプログラム ~100ライン
bull HPL ベンチマークプログラム ~10000ライン(x100より複雑)
lsquo複雑さrsquoの壁
現在のテラFLOPS級の問題
Source ORNL
スケーラブルシステムズ株式会社
HPCシステムの動向商用製品
Going DOWN
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
ハードウエアはrsquoCommodityrsquo
なものを利用してSWの改善サポート利用技術のサポートが今後の主要マーケットでの成功の鍵となる
スケーラブルシステムズ株式会社
標準コンポーネントの進化
bull プロセッサの性能向上ndash lsquoマルチコアrsquoによる省電力での性能向上が可能
ndash HPCアプリケーションは容易にlsquoマルチコアrsquoの利点を活用可能 (OpenMPやMPI)
bull ファイルシステムndash高性能なスケーラブルファイルシステム(オープンソース)
bull インターコネクトndash PCI-Express (メモリlarrrarrインターコネクト)
ndash高速の商用製品やオープンソースでの強力(OpenIBなど)
スケーラブルシステムズ株式会社
標準コンポーネントの利点
bull 特定のベンダーからのシステムを組み合わせるのではなく他社のシステムも含めてベストなシステムの選択が可能
ndashスケーラブルSMPベクトル計算機クラスタの幅広い選択肢
ndash 64ビットマルチコアマイクロプロセッサの性能向上を最大限に活用
bull 標準コンポーネントの技術革新の活用
ndash PCI-ExpressやFB-DIMMの利用技術
スケーラブルシステムズ株式会社
Breaking the 1-2K nodes Barrier
bull 音の障壁サウンドバリヤー(sound barrier)飛行機の速度が音速近くになると衝撃波の発生によって抵抗の増大境界層の剥離など設計運用上のさまざまな障害(壁)に出合って超音速飛行は不可能かと思われた時代があった(1947年ごろまで)ので音の障壁といわれていた
httpwwwwilk4commiscsoundbreakhtm
クラスタのノード数がある規模に近くなるとその構築や運用において負担の増大システムの安定稼動スケーラビリティなど設計運用上のさまざまな障害(壁)に出合ってクラスタ構築は不可能と思われた時代があった()
スケーラブルシステムズ株式会社
ビルゲイツ氏の基調講演HPC goes mainstream
スケーラブルシステムズ株式会社
「Fast」「Good」「Cheap」のパズル
Fast
+ Cheap
Inferior
高い性能を廉価なシステムで構築することも可能ですただそのようなシステムの場合システムの構築や利用は必ずしも容易ではありません
Good
+ Cheap
Slow比較的小規模なシステムであれば廉価で使い勝手の良いものを探すことは可能ですしかしそのようなシステムでは拡張性やより大規模なシステム構築が出来ません
Good
+ Fast
Expensive
付加価値の高い性能の高いシステムは一般には高価ですその付加価値がユーザにとってメリットが無ければコストパフォーマンスの悪いシステムになるだけです
スケーラブルシステムズ株式会社
まとめとして
bull 「テクノロジー」をどのようにとらえるかndash企業経営基盤のコア要素
ndashユーザの本質的な課題を解決する戦略的な武器
bull マーケットを牽引する「テクノロジ」に求められることndashテクノロジとHPCにおけるITインフラの関係を明確にすること
bull ユーザに何らかのメリットをもたらさない「テクノロジー」は意味を成さない
ndashテクノロジーを最適に組み合わせることで問題解決のためのソリューションの提供が可能
スケーラブルシステムズ株式会社
まとめとして
bull bdquoTs‟ for HPC - インテルテクノロジのHPCにおける価値
ndash インテルテクノロジはHPCにおいて重要な構成要素となっている
ndashそれらの構成要素を統合することでより高い価値の提供が可能となる
ndash二分化しつつあるHPCシステムにおいて「標準コ
ンポーネント」としてのプラットフォームの動向として今後もその動向には注目する必要がある
スケーラブルシステムズ株式会社
さらに詳しい情報はhellip
bull 弊社のコンサルテーションに関するご提案資料もダウンロード可能です(非公開WEBページ)別途弊社に内容等についてはお尋ねください
お問い合わせ先102-0083
東京都千代田区麹町3-5-2
BUREX麹町 8F
電話03-5875-4718
FAX03-3237-7612
E-mailbizsstccojp
httpwwwsstccojp wwwsstccojpbiz
スケーラブルシステムズ株式会社
スケーラブルシステムズ株式会社
ハイエンドコンピューティングに関するコンサルテーションとして幅広いサービスをご提供致します
このサービスを最大限に活用していただくことでコラボレーションによる「顧客志向」 のコン
サルテーションサービスをご提供できればと思っております
スケーラブルシステムズ株式会社
社名製品名などは一般に各社の商標または登録商標です無断での引用転載を禁じます
In general the name of the company and the product name etc are the trademarks or registered trademarks of each company
Copyright Scalable Systems Co Ltd 2005 Unauthorized use is strictly forbidden
2005年11月
スケーラブルシステムズ株式会社
Crayシステムピーク性能
1
10
100
1000
10000
100000
1000000
1970 1975 1980 1985 1990 1995 2000
製品化年度
ピークMFLOPS値
1976
Cray-1
1983
XMP4
1987
YMP8
1987
C9016
1987
T9032
1983
XMP1
1987
YMP1
1987
C901
1987
T901
シングルプロセッサ性能
マルチプロセッサ性能24ヶ月で2倍の性能
スケーラブルシステムズ株式会社
HPMS (High-Performance Modeling and Simulation)
実験
観察
理論
計算科学High Performance Computing
バーチャルリアリティ仮想現実空間の構築
物理モデリングコンピュータグラフィックス
「インシリコ」テストバイオサイエンスとシュミレーション
大規模並列システムスケーラブルコンピューティング
現象
High-Performance Modeling and
Simulation
スケーラブルシステムズ株式会社
シュミレーション事例
スケーラブルシステムズ株式会社
シュミレーション事例
スケーラブルシステムズ株式会社
シュミレーション事例
スケーラブルシステムズ株式会社
シングルプロセッサ性能Linpack
Cray 1s
Xmp
Xmp
Ymp
C90
Sun 4260
MIPS M120
MIPS M2000
IBM RS6000540HP 9000750
DEC Alpha AXP
HP9000735
MIPS R4400
IBM Power2990
1
10
100
1000
10000
1975 1980 1985 1990 1995 2000
Lin
pack
MF
LO
PS
Cray n=1000 Cray n=100
Micro n=1000 Micro n=100
DEC 8200
T94
スケーラブルシステムズ株式会社
ベクトル計算機の性能
Q なぜベクトル計算機の性能がマイクロプロセッサの性能のように向上しなかったのでしょうか
A ベクトル計算機はグローバル共有メモリに対する高い接続性能にその性能が依存していたためにこのメモリ間接続の性能向上がボトルネックとなってしまいました
例DRAMメモリの性能と仕様
1979標準DRAM 1999200 MHz SDRAM 1979rarr1999
16K bit
1-bit wide interface
5 Mbs uniform access BW
2 Mbs random access BW
256 Mbit
16-bit wide interface
3200 Mbs uniform access BW
1000 Mbs random access BW
X 16000
X 640
X 500
X 25
スケーラブルシステムズ株式会社
The Pahntom Menace
1993-2000
ベクトル計算機の凋落
商用プロセッサの台頭
スケーラブルシステムズ株式会社
ベクトル計算機の逆襲
Episode V
The Empire Strikes Back
スケーラブルシステムズ株式会社
ベクトル計算機の逆襲
bull 2002
bull 地球シュミレータ
bull コンピュータにおけるスプートニックショック
10487075120 (640 8-way nodes) 500 MHz NEC
10487078 GFLOPS per CPU (41 TFLOPS total)
10487072 GB Memory per CPU (10 TB total)
104870720 kVA power consumption per node
スケーラブルシステムズ株式会社
HPCの歴史
Episode II
Attack of the Clones
スケーラブルシステムズ株式会社
イノベーションのジレンマ
bull クレイトンクリステンセンの「イノベーションのジレンマ」
bull 持続的イノベーションと破壊的イノベーションによるマーケットの動向を分析
bull 持続的イノベーション
ndash 技術革新が顧客の求める性能向上軸に沿っている
bull 破壊的イノベーション
ndash 既存顧客が求める性能とは異なる軸の性能(特性)
スケーラブルシステムズ株式会社
製品の性能
時間
製品の性能(異なる尺度で評価)
時間
Commodity-Based Cluster
RISCベースのSMPNUMAシステム
ベクトル計算機
破壊的イノベーション
スケーラブルシステムズ株式会社
Beowulf プロジェクト
Wiglaf - 1994
16 Intel 80486 100 MHz
VESA Local bus
256 Mbytes memory
64 Gbytes of disk
Dual 10 base-T Ethernet
72 Mflops sustained
$40K
Hrothgar - 1995
16 Intel Pentium100 MHz
PCI
1 Gbyte memory
64 Gbytes of disk
100 base-T Fast Ethernet
(hub)
240 Mflops sustained
$46K
Hyglac-1996 (Caltech)
16 Pentium Pro 200 MHz
PCI
2 Gbytes memory
496 Gbytes of disk
100 base-T Fast Ethernet
(switch)
125 Gflops sustained
$50K
スケーラブルシステムズ株式会社
クラスタシステムの台頭
2000-2005
スケーラブルシステムズ株式会社
課題
Episode III
Revenge of the sith
スケーラブルシステムズ株式会社
HPCの現状
Going UP Going DOWN
システムの規模解析モデルのサイズ運用管理の複雑さbull電力bullスペースbullシステムの相互接続bull管理コスト
生産性bullプログラミングbullシステムの可用性bull実効性能ピーク性能システムバランスHWコスト
スケーラブルシステムズ株式会社
HPCマーケット
bull HPCマーケットでのHPCシステム構築及び製品は次の3つのセグメントに分かれているndash 一般商用システム( Commodity-based systems)
bull 一般のクラスタシステム(Dell HPCCなど)
ndash 付加価値システム( Value-based systems)bull 多くのSMPやNUMAシステム(SGI Altixなど)
ndash 特定目的システム( Purpose-built systems)bull アプリケーションと解析対象に合わせたシステム設計(IBM
BlueGeneLなど)
bull IDCなどのレポートでも一般商用システムのHPCマーケットでの導入がもっともその成長が大きいndash 付加価値システムの課題(一般商用システムとの競合に対する対応もしくは新たな分野の開拓rarrペタスケールコンピューティング)
ndash HPCSプログラムはこの付加価値システムのベンダーにとっても生き残りを賭けた戦い (2006July)
スケーラブルシステムズ株式会社
HPCシステムの現状分析
bull Good News
ldquoHPCシステムにおける問題はたった2つだけであるrdquo
スケーラブルシステムズ株式会社
ソフトウエアとハードウエア
bull ソフトウエアThe Law of Morehellip
ndashシステム規模とその複雑さの急速な増加拡大
ndash ソフトウエアの準備が出来た時点でハードウエアは既に陳腐化し次のシステムの導入の検討が進む
bull ハードウエアMoore‟s Law (ムーアの法則)ndash消費電力の問題のためプロセッサの動作クロックを今までのペースで上げることは困難
ndashプロセッサとメモリの性能差の拡大によるCPUサイクルとのギャップ
ndashピーク性能と実効性能のギャップの拡大
スケーラブルシステムズ株式会社
ソフトウエアThe Law of Morehellip
bull 研究者はより多くの時間(More Time)をソフトウエアの開発のために必要としている
bull 問題はより複雑(More Complex)になりそしてより多くのプロセッサ(More Processors)を利用して処理を行うにはより多くの困難(More
Difficult)が伴います
スケーラブルシステムズ株式会社
アルゴリズムの最適化
bull 計算機自身の進化と共に計算アルゴリズムも最適化されている
bull 例編微分方程式の解法ndash N=106の場合ガウスの消去法で線形方程式を解く場合と
MGでの計算では108倍の計算量が違うndash これは1Mflopssの計算機で100Tflopssの計算機に相当する計算を行ったことになる
O(N)F-cycle MG
O(N76 log(N))CGMILU
O(N43 log(N))Optimal SOR
O(N53 log(N))Gauss Seidel
O(N73)Banded Gauss Elimination
計算オペレーション数(概数)アルゴリズム
2u=f 100
100100
スケーラブルシステムズ株式会社
ソフトウエアThe Law of Morehellip
bull 一般の商用製品を活用したクラスタソリューションでは「Capacity」の実現は容易であるが「Capability」の実現については依然として課題が多いndash コストパフォーマンスの高いシステムの構築は可能だとしてもコストプロダクティビティの高いシステムの構築も課題
bull 数百~数千プロセッサ構成のシステムの利用技術と解析対象の検討ndash 小規模中規模問題の高速処理への対応ndash ソフトウエア開発の生産性
bull 数プロセッサ~数十プロセッサをより簡便に容易に利用できる技術ndash シングルプロセッサシングルスレッドを利用するのと同じようにhellip
スケーラブルシステムズ株式会社
ソフトウエアとハードウエア
bull ソフトウエアThe Law of Morehellip
ndashシステム規模とその複雑さの急速な増加拡大
ndash ソフトウエアの準備が出来た時点でハードウエアは既に陳腐化し次のシステムの導入の検討が進む
bull ハードウエアMoore‟s Law (ムーアの法則)ndash消費電力の問題のためプロセッサの動作クロックを今までのペースで上げることは困難
ndashプロセッサとメモリの性能差の拡大によるCPUサイクルとのギャップ
ndashピーク性能と実効性能のギャップの拡大
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash過去12年間でPentiumプロセッサの動作周波数は60 MHz から 3800 MHz にまでアップ
ndash現在までの高性能化の約80 はクロック周波数の向上によるもの
スケーラブルシステムズ株式会社
ハードウエアの問題Moore‟s Lawムーアの法則
bull インテルの共同設立者の1人である Gordon Moore 博士が1965年4月19日号の「Electronics」誌に投稿した 「一定面積に集積されるトランジスタの数は12か月で倍増しそれに伴いトランジスタの動作速度が向上する」という予測 (その後1975年に Moore 博士はチップの複雑化を考慮してトランジスタ数の倍増ペースを24か月に修正)
bull また一般にはあまり知られていないがテクノロジの進歩とともに製造コストが劇的に下落することも予測(左図)
httpwwwintelcojpjpdevelopertechnologysiliconmooreslawindexhtm
指数関数的成長は永遠には続かないしかしその永遠を先延ばしにすることはできる [英語 PDF 形式 2MB]
Gordon E Moore2003年2月10日ISSCC (International
Solid State Circuits Conference) でのプレゼンテーション
Dr Gordon Moore
(co-founder of Intel)
スケーラブルシステムズ株式会社
Technology Trend
ムーアの法則依然として有効
スケーラブルシステムズ株式会社
性能向上の源泉は
ハードウエアデバイス技術の進歩bull ロジック回路のスイッチング速度の向上とデバイス密度bull メモリサイズの拡大とアクセス速度の向上bull 通信性能(バンド幅とレイテンシの向上)
bull 並列性ndash 1サイクルでの命令実行数
bull 命令レベルでの並列性(ILP)
bull ベクトル処理ndash プロセッサあたりコア数ndash ノードあたりのプロセッサ数ndash システムあたりのノード数
コンピュータアーキテクチャbull 命令発行実行速度の向上
ndash パイプライン化ndash 分岐予測ndash キャッシュndash Out-of-order など
スケーラブルシステムズ株式会社
GHz競争
bull 2000年に開催されたIEEE国際電子デバイス会議2000(2000
IEEE International Electron Devices MeetingIEDM) においてインテル社は4億個以上のトランジスタを集積した10GHz駆動のプロセッサが2005年までに実現可能だと発表しましたndash 実際にはインテル社の最速プロセッサは6ヶ月前に発表された
38GHz(Intel Pentium 4)となっています
bull Prescottプロセッサの6xxシリーズ発表に際してインテル社はldquoadding value beyond GHzrdquo のコメントを出していますそれ以降インテル社の多くのドキュメントやプレスリリースはこのldquoadding value beyond GHzrdquo についての内容を含んでいます
スケーラブルシステムズ株式会社
発熱の問題が深刻化
Bob Colwell氏の資料より抜粋
Increasing Frequency
Watt
scm
2
1
10
100
1000
15 10 07 05 035 025 018 013 01 007
i386i486
PentiumPentium Pro
Pentium IIPentium III
Hot Plate
Nuclear Reactor
Rocket Nozzle
Pentium 4(Prescott)
Pentium 4(Willamette)
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash過去12年間でPentiumプロセッサの動作周波数は60 MHz から 3800 MHz にまでアップ
ndash現在までの高性能化の約80 はクロック周波数の向上によるもの
bull 命令実行の強化と最適化
ndashより強力なインストラクションセット
ndash命令実行の最適化(パイプライン化分岐予測複数命令の同時実行命令実行順序の変更など)
スケーラブルシステムズ株式会社
技術のSカーブ技術開発の進展と製品性能の成長の関係
bull 技術開発の初期は製品性能はゆっくりと向上するがしだいに性能の向上の幅が大きくなるしかし次第に技術開発が成熟段階に入ると性能向上は逓減していく
製品の性能
時間
First Technology
Second Technology
Third Technology
RISCアウトオブオーダー実行lt1 instruction cycle
スーパースカラー RISCアウトオブオーダー実行lt2 instructions cycle
明示的並列命令コンピューティング技術 (EPIC)
命令の並列実行度の向上
スケーラブルシステムズ株式会社
マイクロアーキテクチャのSカーブ
Johan De Gelas Quest for More Processing Power
AnandTech Feb 8 2005
httpwwwanandtechcomcpuchipsetsshowdocaspxi=2343
101
102
103
104
105
106
MIP
S
1980 1985 1990 1995 2000 2005 2010
Pentium Architecture
Super Scalar
Pentium Pro Architecture
Speculative Out-of-Order
Pentium 4 Architecture
Trace Cache
Pentium 4 and Xeon Architecture with HT
Multi-Threaded
Multi-Threaded Multi-Core
Era of
Instruction
Parallelism
Era of
Thread
Parallelism
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash 過去12年間でPentiumプロセッサの動作周波数は60
MHz から 3800 MHz にまでアップ
ndash 現在までの高性能化の約80 はクロック周波数の向上によるもの
bull 命令実行の強化と最適化
ndash より強力なインストラクションセット
ndash 命令実行の最適化(パイプライン化分岐予測複数命令の同時実行命令実行順序の変更など)
bull 大容量キャッシュ
ndash プロセッサの速度とメモリレイテンシ(待ち時間)とバンド幅のギャップの拡大に対する対策対応としての容量の拡張
スケーラブルシステムズ株式会社
性能ギャップの問題
bull プロセッサ速度とメモリアクセスの速度差によってプロセッサがより高速になったとしてもプロセッサはその演算能力を完全に使い切ることが出来ない
1
10
100
1000Performance
1980 1990 2000
microProc
60yr
DRAM
7yr
バンド幅とレイテンシの問題が今後はより深刻(プロセッサ性能とのギャップはほぼ年率50の差で広がっている)
DRAM
CPU
プロセッサはほぼナノ秒に一回命令実行DRAMへのアクセスはほぼ100ナノ秒の時間
スケーラブルシステムズ株式会社
今後の発展と課題
Episode IV
A New Hope
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash 過去12年間でPentiumプロセッサの動作周波数は60
MHz から 3800 MHz にまでアップ
ndash 現在までの高性能化の約80 はクロック周波数の向上によるもの
bull 命令実行の強化と最適化
ndash より強力なインストラクションセット
ndash 命令実行の最適化(パイプライン化分岐予測複数命令の同時実行命令実行順序の変更など)
bull 大容量キャッシュ
ndash プロセッサの速度とメモリレイテンシ(待ち時間)とバンド幅のギャップの拡大に対する対策対応としての容量の拡張
スケーラブルシステムズ株式会社
デュアルコアプロセッサ
bull チップ上のトランジスタのより有効活用が可能bull スレッドレベルでの並列処理を活用bull よりシンプルなプロセッサの設計が可能
bull 将来のマイクロプロセッサはより多くのコアを実装可能bull 将来のマイクロプロセッサはより大容量のキャッシュの実装が可能
IBM Power5
with 19MB L2
AMD Opteron
with 2MB L2
Intel Montecito
With 24MB L3
スケーラブルシステムズ株式会社
イノベーションのジレンマ
製品の性能
時間
First Technology
Second Technology
Third Technology
RISCアウトオブオーダー実行lt1 instruction cycle
スーパースカラー RISCアウトオブオーダー実行lt2 instructions cycle
明示的並列命令コンピューティング技術 (EPIC)
命令の並列実行度の向上
製品の性能(異なる尺度)
時間
持続的イノベーション
技術革新が顧客の求める性能向上軸(ムーアの法則)に沿っている
破壊的イノベーションマルチコアとマルチスレッドによる並列処理
短期的には(シングルスレッドの性能)としては性能が低下するが将来の大きな性能向上とコスト低下機能強化の可能性が大きい
スケーラブルシステムズ株式会社
マルチコアの利点
ワークロードの処理効率の向上
bull マルチスレッドアプリケーションndash現在多くのアプリケーション(データベース
WEB科学技術計算)はマルチスレッド化
ndashマルチコアプロセッサではこれらのアプリケーションのマルチスレッドでの実行が容易に可能
bull 複数ジョブの処理ndashシステムでは複数のワークロード同時に処理することが必要
ndashマルチコアではこれらのワークロードへの処理が可能
スケーラブルシステムズ株式会社
マルチコアの利点
消費電力あたりの性能を最大にし高性能で低消費電力のシステム構築が可能
bull OS自身のマルチスレッド対応
ndash OSのサービスもマルチスレッドで処理することでより効率よく処理することが可能
bull 仮想化
ndashサーバのセキュリティや管理の強化
ndash管理するノード数を減らし運用コストの削減を図る
bull 最新のソフトウエアテクノロジの活用
スケーラブルシステムズ株式会社
大きな変革しかし容易ではない
マルチコアプロセッシング(または汎用もしくは専用プロセッサをソケットに複数搭載可能なこと)はEthernetの誕生以来ITインフラに対しての大きなインパクトをもたらします
デュアルプロセッサは386プロセッサの発表以来性能に関して最大の向上を実現しますしかしこのような性能向上にはソフトウエアの最適化がプロセッサの性能をフルに発揮するためには必要です
スケーラブルシステムズ株式会社
並列性(Parallelism)の利用
マルチタスク処理
MPIなどによる複数のノード間での並列処理
ユーザ及びコンパイラによるスレッドレベルでの並列処理(TLP)
コンパイラによる命列実行レベルでの並列処理(ILP)
マルチコア
マルチプロセッサ
マルチノード
マルチインストラクション
システム
スケーラブルシステムズ株式会社
ムーアの法則(GHz から MC へ)
マルチコアによる性能向上
動作周波数の向上による性能向上
性能
2005
bullマルチスレッドbullマルチタスクbull トレーニングbullツールbullhelliphellip
並列処理による性能向上についてはシステムサポートやプログラミングサポートなどの面での技術支援が重要です
スケーラブルシステムズ株式会社
Episode VI
Return of the Jedi
Ts for HPC - インテルテクノロジのHPCにおける価値の考察
スケーラブルシステムズ株式会社
将来予測の難しさ
bull ldquoI think there is a world market for maybe five
computersrdquobull Thomas Watson chairman of IBM 1943
bull ldquoThere is no reason for any individual to have a
computer in their homerdquobull Ken Olson president and founder of digital equipment
corporation 1977
bull ldquoThere are only about 100 potential customers
worldwide for a Cray-1rdquobull Seymour Cray 1977
bull ldquo640K [of memory] ought to be enough for
anybodyrdquobull Bill Gates chairman of Microsoft1981
スケーラブルシステムズ株式会社
「未来を予測する最良の方法はそれを創造してしまうことである」The best way to predict future is to invent it
Dr Alan Kay President of Viewpoints Research
Institute Inc
スケーラブルシステムズ株式会社
ITマネージメントの課題
bull プラットフォームの内部からの保護ndash ウイルスやワームなど悪意あるソフトウェアからの保護
bull 資産管理ndash 多くの IT 部門では特定できない資産が問題
bull オンラインおよびリモート管理診断機能 ndash アップグレード診断復旧のための作業の効率化
bull アプリケーション統合の困難さ
ndash アプリケーションの高度化と複雑化によって複数のアプリケーションを組み合わせるての動作に問題
bull 動的なリソース割り当て
ndash 組織内で未使用のCPUやメモリの活用
スケーラブルシステムズ株式会社
マーケットトレンド
All Servers Worldwide 2003 2004 2005 20062003 to 2006
CAGR
2005 to 2006
CAGR
Total Factory Revenue($B) $46149 $49146 $51268 $52251 42 19
Units Shipped(same as nodes) 5278222 6307484 7050099 7472649 123 60
Processor Dies Shipped 8662823 10134624 11712766 12779159 138 91
HPC Technical Servers Worldwide 2003 2004 2005 20062003 to 2006
CAGR
2005 to 2006
CAGR
HPC Server Revenue($B) $5698 $7393 $9208 $10030 207 89
Adjusted Revenues(To much
enterprise)$5128 $6654 $8287 $9027 207 89
Node Units Shipped 411327 734510 1215735 1419221 511 167
Processor Elements Shipped 1002905 1657827 2681079 3351843 495 250
HPC As A Ratio Of All Servers 2003 2004 2005 2006
Revenue($B) 123 150 180 192
Adjusted Revenues(Apples-to-
apples)111 135 162 173
Units Shipped(Nodes) 78 116 172 190
Processors Shipped 116 164 226 261
Source IDC 2007
スケーラブルシステムズ株式会社
HPCマーケット(対全サーバマーケット)
0
5
10
15
20
25
30
2003 2004 2005 2006
Revenue($B)
Adjusted Revenues(Apples-to-apples)
Units Shipped(Nodes)
Processors Shipped
スケーラブルシステムズ株式会社
マーケットトレンド
Source IDC 2004
Cost of mgmt amp admin 10 CAGR
$0
$20
$40
$60
$80
$100
$120
$140
$160
$180
$200
1996 rsquo97 rsquo98 rsquo992000 rsquo01 rsquo02 rsquo03 rsquo04 rsquo05 rsquo06 rsquo07 rsquo08-
New server spending (USM$) 3 CAGR
Spending (USB$)
5
10
15
20
25
30
35
Installed Base (M Units)
bull ハードウェアの減価償却費は IT の TCO 全体の約25 にすぎない
bull ソフトウェアのコストはわずか10~15
bull 電気などの公共料金フロアスペース電話回線など設備面のコストの割合もきわめて小さい
bull プラットフォームのコストではなくTCOの大きな比率を占めるのは人件費となっている
スケーラブルシステムズ株式会社
運用管理コストの低減
bull 「もっと処理性能を」と「より安価に」を実現するためにワークステーションやサーバでの分散処理の導入
bull ユーザや企業に新たな価値をもたらしてはいるが管理責任とその負担の分散を招き結果的に運用管理コストを押し上げる
メインフレームスーパーコンピュータ
仮想化によるサーバコンソリデーション
クラスタによる仮想コンピュータ
スケーラブルシステムズ株式会社
次世代HPCインフラ
bull コアとスレッド
ndash より多くのスレッドを効率よく利用可能
ndash マルチスレッド向け最適化
bull 電力管理
ndash 省電力
ndash データセンター運用管理機能
bull 仮想化
ndash 柔軟性と優れた運用管理
ndash 仮想的なシステムパーティション
bull RAS
ndash ハードウエアベースの自己監視自己管理
ndash ファームウエアベースのエラー履歴管理
bull システム管理
ndash より低いTCOを実現するための一般標準化されたマネージメント機能
スケーラブルシステムズ株式会社
高速プロセッサ
64ビットアドレス
メモリ性能と容
量
IOバンド幅
インターコネクト
省電力
システムのlsquoバランスrsquo
マルチコアによってプロセッサ単体の処理性能の向上を図る
64ビットのアドレス空間と
拡張されたレジスタによるOSとアプリケーション双方の機能性能拡張
64ビット化とマルチコア化
にともなう高速大容量へのニーズに対応しまたその拡張性の高い実装技術の実現
CPU-メモリ間の高速な
データ転送やより高速なネットワーク大規模なストレージのサポート
大規模なクラスタシステムの構築及びアプリケーションのワークロードに対応した高速性能
エコシステムに対応するためにも電力消費量や発熱量を積極的に抑える技術の開発
スケーラブルシステムズ株式会社
HPCの二極分化
Going UP
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
Going DOWN
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
スケーラブルシステムズ株式会社
システムとユーザの尺度
bull ユーザの尺度での性能(Performance)は時間当たりにどれだけの仕事を処理出来るか(仕事量 時間)
bull Flopsでの評価は実際には意味がないまた問題の規模(small medium large) という評価も難しい
bull ldquoスケーラビリティrdquoは対象を明確に規定する必要がある
システムの尺度 ユーザの尺度
Flops hArr 計算終了までの時間
メモリサイズ(GB) hArr モデルのサイズと計算結果
プロセッサ数 hArr ワークロードでの試行
データ長 hArr 計算精度
システム構成(クラスタ) hArr 導入コストと運用コスト
スケーラビリティ hArr ベンチマーク
スケーラブルシステムズ株式会社
HPCシステムの動向国家プロジェクトと商用製品のギャップの拡大
Going UP
Going DOWN
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
Peta-Scaleコンピューティングに求められる基本技術と現在のHPCの主要マーケットでの要求はあまりにも差が大きいrarrHPCSシステムは各社とのlsquoCommodityrsquoのマイクロプロセッサではなく独自のプロセッサを開発中
ハードウエアはrsquoCommodityrsquo
なものを利用してSWの改善サポート利用技術のサポートが今後の主要マーケットでの成功の鍵となる
スケーラブルシステムズ株式会社
HPCシステムの動向国家プロジェクト
Going UP
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
Peta-Scaleコンピューティングに求められる基本技術と現在のHPCの主要マーケットでの要求はあまりにも差が大きいrarrHPCSシステムは各社とのlsquoCommodityrsquoのマイクロプロセッサではなく独自のプロセッサを開発中
スケーラブルシステムズ株式会社
TOP500性能予測
1993 1995 1997 1999 2001 2003 2005 2007 2009 2011 2013 2015
N=
50
SUM
1 Gflops
1 Tflops
100 Mflops
100 Gflops
100 Tflops
10 Gflops
10 Tflops
1 Pflops
10 Pflops
IBM ASCI White
Blue GeneEarth Simulator
Intel
TOP500の総計が1PFを超えています
TOP500に掲載されるには1TF
が最低条件になっています
シングルシステムの1PFの実現は2009年
システム(プロセッサ数) 13倍年プロセッサ性能向上 14倍年トータル性能 18倍年
2009年までに1ペタFLOPS
スケーラブルシステムズ株式会社
性能ギャップの拡大
bull ピーク性能の大幅な向上ndash 1990年台は性能の向上は102のオーダーでしたが2000年台になると103のオーダーで性能は向上しています
しかしhellipndash 多くの科学技術計算用途のアプリケーションのピーク性能に対する実効性能の比率は5-10となっています(1990年代のベクトル計算機は40-50の対ピーク性能を示していました)
bull 今必要なのはndash より高い実効性能を発揮することが可能な計算アルゴリズムと手法の開発とスケーラビリティの向上
ndash プログラミングモデルなども含めてスケーラブルな計算機環境の構築
01
1
10
100
1000
2000 2004
Tera
flo
ps
1996
Performance
Gap
Peak Performance
Real Performance
NERSC User Group Meeting June 24-25 2004
Osni Marques and Tony Drummond
Lawrence Berkeley National Laboratory
スケーラブルシステムズ株式会社
ペタスケールシステムの構築
bull ソフトウエア(アプリケーションOSプログラミングAPIなど)の課題の克服が課題
bull システムの複雑さと生産性
例Linpack Benchmark
bull オリジナルベンチマークプログラム ~100ライン
bull HPL ベンチマークプログラム ~10000ライン(x100より複雑)
lsquo複雑さrsquoの壁
現在のテラFLOPS級の問題
Source ORNL
スケーラブルシステムズ株式会社
HPCシステムの動向商用製品
Going DOWN
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
ハードウエアはrsquoCommodityrsquo
なものを利用してSWの改善サポート利用技術のサポートが今後の主要マーケットでの成功の鍵となる
スケーラブルシステムズ株式会社
標準コンポーネントの進化
bull プロセッサの性能向上ndash lsquoマルチコアrsquoによる省電力での性能向上が可能
ndash HPCアプリケーションは容易にlsquoマルチコアrsquoの利点を活用可能 (OpenMPやMPI)
bull ファイルシステムndash高性能なスケーラブルファイルシステム(オープンソース)
bull インターコネクトndash PCI-Express (メモリlarrrarrインターコネクト)
ndash高速の商用製品やオープンソースでの強力(OpenIBなど)
スケーラブルシステムズ株式会社
標準コンポーネントの利点
bull 特定のベンダーからのシステムを組み合わせるのではなく他社のシステムも含めてベストなシステムの選択が可能
ndashスケーラブルSMPベクトル計算機クラスタの幅広い選択肢
ndash 64ビットマルチコアマイクロプロセッサの性能向上を最大限に活用
bull 標準コンポーネントの技術革新の活用
ndash PCI-ExpressやFB-DIMMの利用技術
スケーラブルシステムズ株式会社
Breaking the 1-2K nodes Barrier
bull 音の障壁サウンドバリヤー(sound barrier)飛行機の速度が音速近くになると衝撃波の発生によって抵抗の増大境界層の剥離など設計運用上のさまざまな障害(壁)に出合って超音速飛行は不可能かと思われた時代があった(1947年ごろまで)ので音の障壁といわれていた
httpwwwwilk4commiscsoundbreakhtm
クラスタのノード数がある規模に近くなるとその構築や運用において負担の増大システムの安定稼動スケーラビリティなど設計運用上のさまざまな障害(壁)に出合ってクラスタ構築は不可能と思われた時代があった()
スケーラブルシステムズ株式会社
ビルゲイツ氏の基調講演HPC goes mainstream
スケーラブルシステムズ株式会社
「Fast」「Good」「Cheap」のパズル
Fast
+ Cheap
Inferior
高い性能を廉価なシステムで構築することも可能ですただそのようなシステムの場合システムの構築や利用は必ずしも容易ではありません
Good
+ Cheap
Slow比較的小規模なシステムであれば廉価で使い勝手の良いものを探すことは可能ですしかしそのようなシステムでは拡張性やより大規模なシステム構築が出来ません
Good
+ Fast
Expensive
付加価値の高い性能の高いシステムは一般には高価ですその付加価値がユーザにとってメリットが無ければコストパフォーマンスの悪いシステムになるだけです
スケーラブルシステムズ株式会社
まとめとして
bull 「テクノロジー」をどのようにとらえるかndash企業経営基盤のコア要素
ndashユーザの本質的な課題を解決する戦略的な武器
bull マーケットを牽引する「テクノロジ」に求められることndashテクノロジとHPCにおけるITインフラの関係を明確にすること
bull ユーザに何らかのメリットをもたらさない「テクノロジー」は意味を成さない
ndashテクノロジーを最適に組み合わせることで問題解決のためのソリューションの提供が可能
スケーラブルシステムズ株式会社
まとめとして
bull bdquoTs‟ for HPC - インテルテクノロジのHPCにおける価値
ndash インテルテクノロジはHPCにおいて重要な構成要素となっている
ndashそれらの構成要素を統合することでより高い価値の提供が可能となる
ndash二分化しつつあるHPCシステムにおいて「標準コ
ンポーネント」としてのプラットフォームの動向として今後もその動向には注目する必要がある
スケーラブルシステムズ株式会社
さらに詳しい情報はhellip
bull 弊社のコンサルテーションに関するご提案資料もダウンロード可能です(非公開WEBページ)別途弊社に内容等についてはお尋ねください
お問い合わせ先102-0083
東京都千代田区麹町3-5-2
BUREX麹町 8F
電話03-5875-4718
FAX03-3237-7612
E-mailbizsstccojp
httpwwwsstccojp wwwsstccojpbiz
スケーラブルシステムズ株式会社
スケーラブルシステムズ株式会社
ハイエンドコンピューティングに関するコンサルテーションとして幅広いサービスをご提供致します
このサービスを最大限に活用していただくことでコラボレーションによる「顧客志向」 のコン
サルテーションサービスをご提供できればと思っております
スケーラブルシステムズ株式会社
社名製品名などは一般に各社の商標または登録商標です無断での引用転載を禁じます
In general the name of the company and the product name etc are the trademarks or registered trademarks of each company
Copyright Scalable Systems Co Ltd 2005 Unauthorized use is strictly forbidden
2005年11月
スケーラブルシステムズ株式会社
HPMS (High-Performance Modeling and Simulation)
実験
観察
理論
計算科学High Performance Computing
バーチャルリアリティ仮想現実空間の構築
物理モデリングコンピュータグラフィックス
「インシリコ」テストバイオサイエンスとシュミレーション
大規模並列システムスケーラブルコンピューティング
現象
High-Performance Modeling and
Simulation
スケーラブルシステムズ株式会社
シュミレーション事例
スケーラブルシステムズ株式会社
シュミレーション事例
スケーラブルシステムズ株式会社
シュミレーション事例
スケーラブルシステムズ株式会社
シングルプロセッサ性能Linpack
Cray 1s
Xmp
Xmp
Ymp
C90
Sun 4260
MIPS M120
MIPS M2000
IBM RS6000540HP 9000750
DEC Alpha AXP
HP9000735
MIPS R4400
IBM Power2990
1
10
100
1000
10000
1975 1980 1985 1990 1995 2000
Lin
pack
MF
LO
PS
Cray n=1000 Cray n=100
Micro n=1000 Micro n=100
DEC 8200
T94
スケーラブルシステムズ株式会社
ベクトル計算機の性能
Q なぜベクトル計算機の性能がマイクロプロセッサの性能のように向上しなかったのでしょうか
A ベクトル計算機はグローバル共有メモリに対する高い接続性能にその性能が依存していたためにこのメモリ間接続の性能向上がボトルネックとなってしまいました
例DRAMメモリの性能と仕様
1979標準DRAM 1999200 MHz SDRAM 1979rarr1999
16K bit
1-bit wide interface
5 Mbs uniform access BW
2 Mbs random access BW
256 Mbit
16-bit wide interface
3200 Mbs uniform access BW
1000 Mbs random access BW
X 16000
X 640
X 500
X 25
スケーラブルシステムズ株式会社
The Pahntom Menace
1993-2000
ベクトル計算機の凋落
商用プロセッサの台頭
スケーラブルシステムズ株式会社
ベクトル計算機の逆襲
Episode V
The Empire Strikes Back
スケーラブルシステムズ株式会社
ベクトル計算機の逆襲
bull 2002
bull 地球シュミレータ
bull コンピュータにおけるスプートニックショック
10487075120 (640 8-way nodes) 500 MHz NEC
10487078 GFLOPS per CPU (41 TFLOPS total)
10487072 GB Memory per CPU (10 TB total)
104870720 kVA power consumption per node
スケーラブルシステムズ株式会社
HPCの歴史
Episode II
Attack of the Clones
スケーラブルシステムズ株式会社
イノベーションのジレンマ
bull クレイトンクリステンセンの「イノベーションのジレンマ」
bull 持続的イノベーションと破壊的イノベーションによるマーケットの動向を分析
bull 持続的イノベーション
ndash 技術革新が顧客の求める性能向上軸に沿っている
bull 破壊的イノベーション
ndash 既存顧客が求める性能とは異なる軸の性能(特性)
スケーラブルシステムズ株式会社
製品の性能
時間
製品の性能(異なる尺度で評価)
時間
Commodity-Based Cluster
RISCベースのSMPNUMAシステム
ベクトル計算機
破壊的イノベーション
スケーラブルシステムズ株式会社
Beowulf プロジェクト
Wiglaf - 1994
16 Intel 80486 100 MHz
VESA Local bus
256 Mbytes memory
64 Gbytes of disk
Dual 10 base-T Ethernet
72 Mflops sustained
$40K
Hrothgar - 1995
16 Intel Pentium100 MHz
PCI
1 Gbyte memory
64 Gbytes of disk
100 base-T Fast Ethernet
(hub)
240 Mflops sustained
$46K
Hyglac-1996 (Caltech)
16 Pentium Pro 200 MHz
PCI
2 Gbytes memory
496 Gbytes of disk
100 base-T Fast Ethernet
(switch)
125 Gflops sustained
$50K
スケーラブルシステムズ株式会社
クラスタシステムの台頭
2000-2005
スケーラブルシステムズ株式会社
課題
Episode III
Revenge of the sith
スケーラブルシステムズ株式会社
HPCの現状
Going UP Going DOWN
システムの規模解析モデルのサイズ運用管理の複雑さbull電力bullスペースbullシステムの相互接続bull管理コスト
生産性bullプログラミングbullシステムの可用性bull実効性能ピーク性能システムバランスHWコスト
スケーラブルシステムズ株式会社
HPCマーケット
bull HPCマーケットでのHPCシステム構築及び製品は次の3つのセグメントに分かれているndash 一般商用システム( Commodity-based systems)
bull 一般のクラスタシステム(Dell HPCCなど)
ndash 付加価値システム( Value-based systems)bull 多くのSMPやNUMAシステム(SGI Altixなど)
ndash 特定目的システム( Purpose-built systems)bull アプリケーションと解析対象に合わせたシステム設計(IBM
BlueGeneLなど)
bull IDCなどのレポートでも一般商用システムのHPCマーケットでの導入がもっともその成長が大きいndash 付加価値システムの課題(一般商用システムとの競合に対する対応もしくは新たな分野の開拓rarrペタスケールコンピューティング)
ndash HPCSプログラムはこの付加価値システムのベンダーにとっても生き残りを賭けた戦い (2006July)
スケーラブルシステムズ株式会社
HPCシステムの現状分析
bull Good News
ldquoHPCシステムにおける問題はたった2つだけであるrdquo
スケーラブルシステムズ株式会社
ソフトウエアとハードウエア
bull ソフトウエアThe Law of Morehellip
ndashシステム規模とその複雑さの急速な増加拡大
ndash ソフトウエアの準備が出来た時点でハードウエアは既に陳腐化し次のシステムの導入の検討が進む
bull ハードウエアMoore‟s Law (ムーアの法則)ndash消費電力の問題のためプロセッサの動作クロックを今までのペースで上げることは困難
ndashプロセッサとメモリの性能差の拡大によるCPUサイクルとのギャップ
ndashピーク性能と実効性能のギャップの拡大
スケーラブルシステムズ株式会社
ソフトウエアThe Law of Morehellip
bull 研究者はより多くの時間(More Time)をソフトウエアの開発のために必要としている
bull 問題はより複雑(More Complex)になりそしてより多くのプロセッサ(More Processors)を利用して処理を行うにはより多くの困難(More
Difficult)が伴います
スケーラブルシステムズ株式会社
アルゴリズムの最適化
bull 計算機自身の進化と共に計算アルゴリズムも最適化されている
bull 例編微分方程式の解法ndash N=106の場合ガウスの消去法で線形方程式を解く場合と
MGでの計算では108倍の計算量が違うndash これは1Mflopssの計算機で100Tflopssの計算機に相当する計算を行ったことになる
O(N)F-cycle MG
O(N76 log(N))CGMILU
O(N43 log(N))Optimal SOR
O(N53 log(N))Gauss Seidel
O(N73)Banded Gauss Elimination
計算オペレーション数(概数)アルゴリズム
2u=f 100
100100
スケーラブルシステムズ株式会社
ソフトウエアThe Law of Morehellip
bull 一般の商用製品を活用したクラスタソリューションでは「Capacity」の実現は容易であるが「Capability」の実現については依然として課題が多いndash コストパフォーマンスの高いシステムの構築は可能だとしてもコストプロダクティビティの高いシステムの構築も課題
bull 数百~数千プロセッサ構成のシステムの利用技術と解析対象の検討ndash 小規模中規模問題の高速処理への対応ndash ソフトウエア開発の生産性
bull 数プロセッサ~数十プロセッサをより簡便に容易に利用できる技術ndash シングルプロセッサシングルスレッドを利用するのと同じようにhellip
スケーラブルシステムズ株式会社
ソフトウエアとハードウエア
bull ソフトウエアThe Law of Morehellip
ndashシステム規模とその複雑さの急速な増加拡大
ndash ソフトウエアの準備が出来た時点でハードウエアは既に陳腐化し次のシステムの導入の検討が進む
bull ハードウエアMoore‟s Law (ムーアの法則)ndash消費電力の問題のためプロセッサの動作クロックを今までのペースで上げることは困難
ndashプロセッサとメモリの性能差の拡大によるCPUサイクルとのギャップ
ndashピーク性能と実効性能のギャップの拡大
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash過去12年間でPentiumプロセッサの動作周波数は60 MHz から 3800 MHz にまでアップ
ndash現在までの高性能化の約80 はクロック周波数の向上によるもの
スケーラブルシステムズ株式会社
ハードウエアの問題Moore‟s Lawムーアの法則
bull インテルの共同設立者の1人である Gordon Moore 博士が1965年4月19日号の「Electronics」誌に投稿した 「一定面積に集積されるトランジスタの数は12か月で倍増しそれに伴いトランジスタの動作速度が向上する」という予測 (その後1975年に Moore 博士はチップの複雑化を考慮してトランジスタ数の倍増ペースを24か月に修正)
bull また一般にはあまり知られていないがテクノロジの進歩とともに製造コストが劇的に下落することも予測(左図)
httpwwwintelcojpjpdevelopertechnologysiliconmooreslawindexhtm
指数関数的成長は永遠には続かないしかしその永遠を先延ばしにすることはできる [英語 PDF 形式 2MB]
Gordon E Moore2003年2月10日ISSCC (International
Solid State Circuits Conference) でのプレゼンテーション
Dr Gordon Moore
(co-founder of Intel)
スケーラブルシステムズ株式会社
Technology Trend
ムーアの法則依然として有効
スケーラブルシステムズ株式会社
性能向上の源泉は
ハードウエアデバイス技術の進歩bull ロジック回路のスイッチング速度の向上とデバイス密度bull メモリサイズの拡大とアクセス速度の向上bull 通信性能(バンド幅とレイテンシの向上)
bull 並列性ndash 1サイクルでの命令実行数
bull 命令レベルでの並列性(ILP)
bull ベクトル処理ndash プロセッサあたりコア数ndash ノードあたりのプロセッサ数ndash システムあたりのノード数
コンピュータアーキテクチャbull 命令発行実行速度の向上
ndash パイプライン化ndash 分岐予測ndash キャッシュndash Out-of-order など
スケーラブルシステムズ株式会社
GHz競争
bull 2000年に開催されたIEEE国際電子デバイス会議2000(2000
IEEE International Electron Devices MeetingIEDM) においてインテル社は4億個以上のトランジスタを集積した10GHz駆動のプロセッサが2005年までに実現可能だと発表しましたndash 実際にはインテル社の最速プロセッサは6ヶ月前に発表された
38GHz(Intel Pentium 4)となっています
bull Prescottプロセッサの6xxシリーズ発表に際してインテル社はldquoadding value beyond GHzrdquo のコメントを出していますそれ以降インテル社の多くのドキュメントやプレスリリースはこのldquoadding value beyond GHzrdquo についての内容を含んでいます
スケーラブルシステムズ株式会社
発熱の問題が深刻化
Bob Colwell氏の資料より抜粋
Increasing Frequency
Watt
scm
2
1
10
100
1000
15 10 07 05 035 025 018 013 01 007
i386i486
PentiumPentium Pro
Pentium IIPentium III
Hot Plate
Nuclear Reactor
Rocket Nozzle
Pentium 4(Prescott)
Pentium 4(Willamette)
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash過去12年間でPentiumプロセッサの動作周波数は60 MHz から 3800 MHz にまでアップ
ndash現在までの高性能化の約80 はクロック周波数の向上によるもの
bull 命令実行の強化と最適化
ndashより強力なインストラクションセット
ndash命令実行の最適化(パイプライン化分岐予測複数命令の同時実行命令実行順序の変更など)
スケーラブルシステムズ株式会社
技術のSカーブ技術開発の進展と製品性能の成長の関係
bull 技術開発の初期は製品性能はゆっくりと向上するがしだいに性能の向上の幅が大きくなるしかし次第に技術開発が成熟段階に入ると性能向上は逓減していく
製品の性能
時間
First Technology
Second Technology
Third Technology
RISCアウトオブオーダー実行lt1 instruction cycle
スーパースカラー RISCアウトオブオーダー実行lt2 instructions cycle
明示的並列命令コンピューティング技術 (EPIC)
命令の並列実行度の向上
スケーラブルシステムズ株式会社
マイクロアーキテクチャのSカーブ
Johan De Gelas Quest for More Processing Power
AnandTech Feb 8 2005
httpwwwanandtechcomcpuchipsetsshowdocaspxi=2343
101
102
103
104
105
106
MIP
S
1980 1985 1990 1995 2000 2005 2010
Pentium Architecture
Super Scalar
Pentium Pro Architecture
Speculative Out-of-Order
Pentium 4 Architecture
Trace Cache
Pentium 4 and Xeon Architecture with HT
Multi-Threaded
Multi-Threaded Multi-Core
Era of
Instruction
Parallelism
Era of
Thread
Parallelism
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash 過去12年間でPentiumプロセッサの動作周波数は60
MHz から 3800 MHz にまでアップ
ndash 現在までの高性能化の約80 はクロック周波数の向上によるもの
bull 命令実行の強化と最適化
ndash より強力なインストラクションセット
ndash 命令実行の最適化(パイプライン化分岐予測複数命令の同時実行命令実行順序の変更など)
bull 大容量キャッシュ
ndash プロセッサの速度とメモリレイテンシ(待ち時間)とバンド幅のギャップの拡大に対する対策対応としての容量の拡張
スケーラブルシステムズ株式会社
性能ギャップの問題
bull プロセッサ速度とメモリアクセスの速度差によってプロセッサがより高速になったとしてもプロセッサはその演算能力を完全に使い切ることが出来ない
1
10
100
1000Performance
1980 1990 2000
microProc
60yr
DRAM
7yr
バンド幅とレイテンシの問題が今後はより深刻(プロセッサ性能とのギャップはほぼ年率50の差で広がっている)
DRAM
CPU
プロセッサはほぼナノ秒に一回命令実行DRAMへのアクセスはほぼ100ナノ秒の時間
スケーラブルシステムズ株式会社
今後の発展と課題
Episode IV
A New Hope
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash 過去12年間でPentiumプロセッサの動作周波数は60
MHz から 3800 MHz にまでアップ
ndash 現在までの高性能化の約80 はクロック周波数の向上によるもの
bull 命令実行の強化と最適化
ndash より強力なインストラクションセット
ndash 命令実行の最適化(パイプライン化分岐予測複数命令の同時実行命令実行順序の変更など)
bull 大容量キャッシュ
ndash プロセッサの速度とメモリレイテンシ(待ち時間)とバンド幅のギャップの拡大に対する対策対応としての容量の拡張
スケーラブルシステムズ株式会社
デュアルコアプロセッサ
bull チップ上のトランジスタのより有効活用が可能bull スレッドレベルでの並列処理を活用bull よりシンプルなプロセッサの設計が可能
bull 将来のマイクロプロセッサはより多くのコアを実装可能bull 将来のマイクロプロセッサはより大容量のキャッシュの実装が可能
IBM Power5
with 19MB L2
AMD Opteron
with 2MB L2
Intel Montecito
With 24MB L3
スケーラブルシステムズ株式会社
イノベーションのジレンマ
製品の性能
時間
First Technology
Second Technology
Third Technology
RISCアウトオブオーダー実行lt1 instruction cycle
スーパースカラー RISCアウトオブオーダー実行lt2 instructions cycle
明示的並列命令コンピューティング技術 (EPIC)
命令の並列実行度の向上
製品の性能(異なる尺度)
時間
持続的イノベーション
技術革新が顧客の求める性能向上軸(ムーアの法則)に沿っている
破壊的イノベーションマルチコアとマルチスレッドによる並列処理
短期的には(シングルスレッドの性能)としては性能が低下するが将来の大きな性能向上とコスト低下機能強化の可能性が大きい
スケーラブルシステムズ株式会社
マルチコアの利点
ワークロードの処理効率の向上
bull マルチスレッドアプリケーションndash現在多くのアプリケーション(データベース
WEB科学技術計算)はマルチスレッド化
ndashマルチコアプロセッサではこれらのアプリケーションのマルチスレッドでの実行が容易に可能
bull 複数ジョブの処理ndashシステムでは複数のワークロード同時に処理することが必要
ndashマルチコアではこれらのワークロードへの処理が可能
スケーラブルシステムズ株式会社
マルチコアの利点
消費電力あたりの性能を最大にし高性能で低消費電力のシステム構築が可能
bull OS自身のマルチスレッド対応
ndash OSのサービスもマルチスレッドで処理することでより効率よく処理することが可能
bull 仮想化
ndashサーバのセキュリティや管理の強化
ndash管理するノード数を減らし運用コストの削減を図る
bull 最新のソフトウエアテクノロジの活用
スケーラブルシステムズ株式会社
大きな変革しかし容易ではない
マルチコアプロセッシング(または汎用もしくは専用プロセッサをソケットに複数搭載可能なこと)はEthernetの誕生以来ITインフラに対しての大きなインパクトをもたらします
デュアルプロセッサは386プロセッサの発表以来性能に関して最大の向上を実現しますしかしこのような性能向上にはソフトウエアの最適化がプロセッサの性能をフルに発揮するためには必要です
スケーラブルシステムズ株式会社
並列性(Parallelism)の利用
マルチタスク処理
MPIなどによる複数のノード間での並列処理
ユーザ及びコンパイラによるスレッドレベルでの並列処理(TLP)
コンパイラによる命列実行レベルでの並列処理(ILP)
マルチコア
マルチプロセッサ
マルチノード
マルチインストラクション
システム
スケーラブルシステムズ株式会社
ムーアの法則(GHz から MC へ)
マルチコアによる性能向上
動作周波数の向上による性能向上
性能
2005
bullマルチスレッドbullマルチタスクbull トレーニングbullツールbullhelliphellip
並列処理による性能向上についてはシステムサポートやプログラミングサポートなどの面での技術支援が重要です
スケーラブルシステムズ株式会社
Episode VI
Return of the Jedi
Ts for HPC - インテルテクノロジのHPCにおける価値の考察
スケーラブルシステムズ株式会社
将来予測の難しさ
bull ldquoI think there is a world market for maybe five
computersrdquobull Thomas Watson chairman of IBM 1943
bull ldquoThere is no reason for any individual to have a
computer in their homerdquobull Ken Olson president and founder of digital equipment
corporation 1977
bull ldquoThere are only about 100 potential customers
worldwide for a Cray-1rdquobull Seymour Cray 1977
bull ldquo640K [of memory] ought to be enough for
anybodyrdquobull Bill Gates chairman of Microsoft1981
スケーラブルシステムズ株式会社
「未来を予測する最良の方法はそれを創造してしまうことである」The best way to predict future is to invent it
Dr Alan Kay President of Viewpoints Research
Institute Inc
スケーラブルシステムズ株式会社
ITマネージメントの課題
bull プラットフォームの内部からの保護ndash ウイルスやワームなど悪意あるソフトウェアからの保護
bull 資産管理ndash 多くの IT 部門では特定できない資産が問題
bull オンラインおよびリモート管理診断機能 ndash アップグレード診断復旧のための作業の効率化
bull アプリケーション統合の困難さ
ndash アプリケーションの高度化と複雑化によって複数のアプリケーションを組み合わせるての動作に問題
bull 動的なリソース割り当て
ndash 組織内で未使用のCPUやメモリの活用
スケーラブルシステムズ株式会社
マーケットトレンド
All Servers Worldwide 2003 2004 2005 20062003 to 2006
CAGR
2005 to 2006
CAGR
Total Factory Revenue($B) $46149 $49146 $51268 $52251 42 19
Units Shipped(same as nodes) 5278222 6307484 7050099 7472649 123 60
Processor Dies Shipped 8662823 10134624 11712766 12779159 138 91
HPC Technical Servers Worldwide 2003 2004 2005 20062003 to 2006
CAGR
2005 to 2006
CAGR
HPC Server Revenue($B) $5698 $7393 $9208 $10030 207 89
Adjusted Revenues(To much
enterprise)$5128 $6654 $8287 $9027 207 89
Node Units Shipped 411327 734510 1215735 1419221 511 167
Processor Elements Shipped 1002905 1657827 2681079 3351843 495 250
HPC As A Ratio Of All Servers 2003 2004 2005 2006
Revenue($B) 123 150 180 192
Adjusted Revenues(Apples-to-
apples)111 135 162 173
Units Shipped(Nodes) 78 116 172 190
Processors Shipped 116 164 226 261
Source IDC 2007
スケーラブルシステムズ株式会社
HPCマーケット(対全サーバマーケット)
0
5
10
15
20
25
30
2003 2004 2005 2006
Revenue($B)
Adjusted Revenues(Apples-to-apples)
Units Shipped(Nodes)
Processors Shipped
スケーラブルシステムズ株式会社
マーケットトレンド
Source IDC 2004
Cost of mgmt amp admin 10 CAGR
$0
$20
$40
$60
$80
$100
$120
$140
$160
$180
$200
1996 rsquo97 rsquo98 rsquo992000 rsquo01 rsquo02 rsquo03 rsquo04 rsquo05 rsquo06 rsquo07 rsquo08-
New server spending (USM$) 3 CAGR
Spending (USB$)
5
10
15
20
25
30
35
Installed Base (M Units)
bull ハードウェアの減価償却費は IT の TCO 全体の約25 にすぎない
bull ソフトウェアのコストはわずか10~15
bull 電気などの公共料金フロアスペース電話回線など設備面のコストの割合もきわめて小さい
bull プラットフォームのコストではなくTCOの大きな比率を占めるのは人件費となっている
スケーラブルシステムズ株式会社
運用管理コストの低減
bull 「もっと処理性能を」と「より安価に」を実現するためにワークステーションやサーバでの分散処理の導入
bull ユーザや企業に新たな価値をもたらしてはいるが管理責任とその負担の分散を招き結果的に運用管理コストを押し上げる
メインフレームスーパーコンピュータ
仮想化によるサーバコンソリデーション
クラスタによる仮想コンピュータ
スケーラブルシステムズ株式会社
次世代HPCインフラ
bull コアとスレッド
ndash より多くのスレッドを効率よく利用可能
ndash マルチスレッド向け最適化
bull 電力管理
ndash 省電力
ndash データセンター運用管理機能
bull 仮想化
ndash 柔軟性と優れた運用管理
ndash 仮想的なシステムパーティション
bull RAS
ndash ハードウエアベースの自己監視自己管理
ndash ファームウエアベースのエラー履歴管理
bull システム管理
ndash より低いTCOを実現するための一般標準化されたマネージメント機能
スケーラブルシステムズ株式会社
高速プロセッサ
64ビットアドレス
メモリ性能と容
量
IOバンド幅
インターコネクト
省電力
システムのlsquoバランスrsquo
マルチコアによってプロセッサ単体の処理性能の向上を図る
64ビットのアドレス空間と
拡張されたレジスタによるOSとアプリケーション双方の機能性能拡張
64ビット化とマルチコア化
にともなう高速大容量へのニーズに対応しまたその拡張性の高い実装技術の実現
CPU-メモリ間の高速な
データ転送やより高速なネットワーク大規模なストレージのサポート
大規模なクラスタシステムの構築及びアプリケーションのワークロードに対応した高速性能
エコシステムに対応するためにも電力消費量や発熱量を積極的に抑える技術の開発
スケーラブルシステムズ株式会社
HPCの二極分化
Going UP
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
Going DOWN
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
スケーラブルシステムズ株式会社
システムとユーザの尺度
bull ユーザの尺度での性能(Performance)は時間当たりにどれだけの仕事を処理出来るか(仕事量 時間)
bull Flopsでの評価は実際には意味がないまた問題の規模(small medium large) という評価も難しい
bull ldquoスケーラビリティrdquoは対象を明確に規定する必要がある
システムの尺度 ユーザの尺度
Flops hArr 計算終了までの時間
メモリサイズ(GB) hArr モデルのサイズと計算結果
プロセッサ数 hArr ワークロードでの試行
データ長 hArr 計算精度
システム構成(クラスタ) hArr 導入コストと運用コスト
スケーラビリティ hArr ベンチマーク
スケーラブルシステムズ株式会社
HPCシステムの動向国家プロジェクトと商用製品のギャップの拡大
Going UP
Going DOWN
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
Peta-Scaleコンピューティングに求められる基本技術と現在のHPCの主要マーケットでの要求はあまりにも差が大きいrarrHPCSシステムは各社とのlsquoCommodityrsquoのマイクロプロセッサではなく独自のプロセッサを開発中
ハードウエアはrsquoCommodityrsquo
なものを利用してSWの改善サポート利用技術のサポートが今後の主要マーケットでの成功の鍵となる
スケーラブルシステムズ株式会社
HPCシステムの動向国家プロジェクト
Going UP
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
Peta-Scaleコンピューティングに求められる基本技術と現在のHPCの主要マーケットでの要求はあまりにも差が大きいrarrHPCSシステムは各社とのlsquoCommodityrsquoのマイクロプロセッサではなく独自のプロセッサを開発中
スケーラブルシステムズ株式会社
TOP500性能予測
1993 1995 1997 1999 2001 2003 2005 2007 2009 2011 2013 2015
N=
50
SUM
1 Gflops
1 Tflops
100 Mflops
100 Gflops
100 Tflops
10 Gflops
10 Tflops
1 Pflops
10 Pflops
IBM ASCI White
Blue GeneEarth Simulator
Intel
TOP500の総計が1PFを超えています
TOP500に掲載されるには1TF
が最低条件になっています
シングルシステムの1PFの実現は2009年
システム(プロセッサ数) 13倍年プロセッサ性能向上 14倍年トータル性能 18倍年
2009年までに1ペタFLOPS
スケーラブルシステムズ株式会社
性能ギャップの拡大
bull ピーク性能の大幅な向上ndash 1990年台は性能の向上は102のオーダーでしたが2000年台になると103のオーダーで性能は向上しています
しかしhellipndash 多くの科学技術計算用途のアプリケーションのピーク性能に対する実効性能の比率は5-10となっています(1990年代のベクトル計算機は40-50の対ピーク性能を示していました)
bull 今必要なのはndash より高い実効性能を発揮することが可能な計算アルゴリズムと手法の開発とスケーラビリティの向上
ndash プログラミングモデルなども含めてスケーラブルな計算機環境の構築
01
1
10
100
1000
2000 2004
Tera
flo
ps
1996
Performance
Gap
Peak Performance
Real Performance
NERSC User Group Meeting June 24-25 2004
Osni Marques and Tony Drummond
Lawrence Berkeley National Laboratory
スケーラブルシステムズ株式会社
ペタスケールシステムの構築
bull ソフトウエア(アプリケーションOSプログラミングAPIなど)の課題の克服が課題
bull システムの複雑さと生産性
例Linpack Benchmark
bull オリジナルベンチマークプログラム ~100ライン
bull HPL ベンチマークプログラム ~10000ライン(x100より複雑)
lsquo複雑さrsquoの壁
現在のテラFLOPS級の問題
Source ORNL
スケーラブルシステムズ株式会社
HPCシステムの動向商用製品
Going DOWN
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
ハードウエアはrsquoCommodityrsquo
なものを利用してSWの改善サポート利用技術のサポートが今後の主要マーケットでの成功の鍵となる
スケーラブルシステムズ株式会社
標準コンポーネントの進化
bull プロセッサの性能向上ndash lsquoマルチコアrsquoによる省電力での性能向上が可能
ndash HPCアプリケーションは容易にlsquoマルチコアrsquoの利点を活用可能 (OpenMPやMPI)
bull ファイルシステムndash高性能なスケーラブルファイルシステム(オープンソース)
bull インターコネクトndash PCI-Express (メモリlarrrarrインターコネクト)
ndash高速の商用製品やオープンソースでの強力(OpenIBなど)
スケーラブルシステムズ株式会社
標準コンポーネントの利点
bull 特定のベンダーからのシステムを組み合わせるのではなく他社のシステムも含めてベストなシステムの選択が可能
ndashスケーラブルSMPベクトル計算機クラスタの幅広い選択肢
ndash 64ビットマルチコアマイクロプロセッサの性能向上を最大限に活用
bull 標準コンポーネントの技術革新の活用
ndash PCI-ExpressやFB-DIMMの利用技術
スケーラブルシステムズ株式会社
Breaking the 1-2K nodes Barrier
bull 音の障壁サウンドバリヤー(sound barrier)飛行機の速度が音速近くになると衝撃波の発生によって抵抗の増大境界層の剥離など設計運用上のさまざまな障害(壁)に出合って超音速飛行は不可能かと思われた時代があった(1947年ごろまで)ので音の障壁といわれていた
httpwwwwilk4commiscsoundbreakhtm
クラスタのノード数がある規模に近くなるとその構築や運用において負担の増大システムの安定稼動スケーラビリティなど設計運用上のさまざまな障害(壁)に出合ってクラスタ構築は不可能と思われた時代があった()
スケーラブルシステムズ株式会社
ビルゲイツ氏の基調講演HPC goes mainstream
スケーラブルシステムズ株式会社
「Fast」「Good」「Cheap」のパズル
Fast
+ Cheap
Inferior
高い性能を廉価なシステムで構築することも可能ですただそのようなシステムの場合システムの構築や利用は必ずしも容易ではありません
Good
+ Cheap
Slow比較的小規模なシステムであれば廉価で使い勝手の良いものを探すことは可能ですしかしそのようなシステムでは拡張性やより大規模なシステム構築が出来ません
Good
+ Fast
Expensive
付加価値の高い性能の高いシステムは一般には高価ですその付加価値がユーザにとってメリットが無ければコストパフォーマンスの悪いシステムになるだけです
スケーラブルシステムズ株式会社
まとめとして
bull 「テクノロジー」をどのようにとらえるかndash企業経営基盤のコア要素
ndashユーザの本質的な課題を解決する戦略的な武器
bull マーケットを牽引する「テクノロジ」に求められることndashテクノロジとHPCにおけるITインフラの関係を明確にすること
bull ユーザに何らかのメリットをもたらさない「テクノロジー」は意味を成さない
ndashテクノロジーを最適に組み合わせることで問題解決のためのソリューションの提供が可能
スケーラブルシステムズ株式会社
まとめとして
bull bdquoTs‟ for HPC - インテルテクノロジのHPCにおける価値
ndash インテルテクノロジはHPCにおいて重要な構成要素となっている
ndashそれらの構成要素を統合することでより高い価値の提供が可能となる
ndash二分化しつつあるHPCシステムにおいて「標準コ
ンポーネント」としてのプラットフォームの動向として今後もその動向には注目する必要がある
スケーラブルシステムズ株式会社
さらに詳しい情報はhellip
bull 弊社のコンサルテーションに関するご提案資料もダウンロード可能です(非公開WEBページ)別途弊社に内容等についてはお尋ねください
お問い合わせ先102-0083
東京都千代田区麹町3-5-2
BUREX麹町 8F
電話03-5875-4718
FAX03-3237-7612
E-mailbizsstccojp
httpwwwsstccojp wwwsstccojpbiz
スケーラブルシステムズ株式会社
スケーラブルシステムズ株式会社
ハイエンドコンピューティングに関するコンサルテーションとして幅広いサービスをご提供致します
このサービスを最大限に活用していただくことでコラボレーションによる「顧客志向」 のコン
サルテーションサービスをご提供できればと思っております
スケーラブルシステムズ株式会社
社名製品名などは一般に各社の商標または登録商標です無断での引用転載を禁じます
In general the name of the company and the product name etc are the trademarks or registered trademarks of each company
Copyright Scalable Systems Co Ltd 2005 Unauthorized use is strictly forbidden
2005年11月
スケーラブルシステムズ株式会社
シュミレーション事例
スケーラブルシステムズ株式会社
シュミレーション事例
スケーラブルシステムズ株式会社
シュミレーション事例
スケーラブルシステムズ株式会社
シングルプロセッサ性能Linpack
Cray 1s
Xmp
Xmp
Ymp
C90
Sun 4260
MIPS M120
MIPS M2000
IBM RS6000540HP 9000750
DEC Alpha AXP
HP9000735
MIPS R4400
IBM Power2990
1
10
100
1000
10000
1975 1980 1985 1990 1995 2000
Lin
pack
MF
LO
PS
Cray n=1000 Cray n=100
Micro n=1000 Micro n=100
DEC 8200
T94
スケーラブルシステムズ株式会社
ベクトル計算機の性能
Q なぜベクトル計算機の性能がマイクロプロセッサの性能のように向上しなかったのでしょうか
A ベクトル計算機はグローバル共有メモリに対する高い接続性能にその性能が依存していたためにこのメモリ間接続の性能向上がボトルネックとなってしまいました
例DRAMメモリの性能と仕様
1979標準DRAM 1999200 MHz SDRAM 1979rarr1999
16K bit
1-bit wide interface
5 Mbs uniform access BW
2 Mbs random access BW
256 Mbit
16-bit wide interface
3200 Mbs uniform access BW
1000 Mbs random access BW
X 16000
X 640
X 500
X 25
スケーラブルシステムズ株式会社
The Pahntom Menace
1993-2000
ベクトル計算機の凋落
商用プロセッサの台頭
スケーラブルシステムズ株式会社
ベクトル計算機の逆襲
Episode V
The Empire Strikes Back
スケーラブルシステムズ株式会社
ベクトル計算機の逆襲
bull 2002
bull 地球シュミレータ
bull コンピュータにおけるスプートニックショック
10487075120 (640 8-way nodes) 500 MHz NEC
10487078 GFLOPS per CPU (41 TFLOPS total)
10487072 GB Memory per CPU (10 TB total)
104870720 kVA power consumption per node
スケーラブルシステムズ株式会社
HPCの歴史
Episode II
Attack of the Clones
スケーラブルシステムズ株式会社
イノベーションのジレンマ
bull クレイトンクリステンセンの「イノベーションのジレンマ」
bull 持続的イノベーションと破壊的イノベーションによるマーケットの動向を分析
bull 持続的イノベーション
ndash 技術革新が顧客の求める性能向上軸に沿っている
bull 破壊的イノベーション
ndash 既存顧客が求める性能とは異なる軸の性能(特性)
スケーラブルシステムズ株式会社
製品の性能
時間
製品の性能(異なる尺度で評価)
時間
Commodity-Based Cluster
RISCベースのSMPNUMAシステム
ベクトル計算機
破壊的イノベーション
スケーラブルシステムズ株式会社
Beowulf プロジェクト
Wiglaf - 1994
16 Intel 80486 100 MHz
VESA Local bus
256 Mbytes memory
64 Gbytes of disk
Dual 10 base-T Ethernet
72 Mflops sustained
$40K
Hrothgar - 1995
16 Intel Pentium100 MHz
PCI
1 Gbyte memory
64 Gbytes of disk
100 base-T Fast Ethernet
(hub)
240 Mflops sustained
$46K
Hyglac-1996 (Caltech)
16 Pentium Pro 200 MHz
PCI
2 Gbytes memory
496 Gbytes of disk
100 base-T Fast Ethernet
(switch)
125 Gflops sustained
$50K
スケーラブルシステムズ株式会社
クラスタシステムの台頭
2000-2005
スケーラブルシステムズ株式会社
課題
Episode III
Revenge of the sith
スケーラブルシステムズ株式会社
HPCの現状
Going UP Going DOWN
システムの規模解析モデルのサイズ運用管理の複雑さbull電力bullスペースbullシステムの相互接続bull管理コスト
生産性bullプログラミングbullシステムの可用性bull実効性能ピーク性能システムバランスHWコスト
スケーラブルシステムズ株式会社
HPCマーケット
bull HPCマーケットでのHPCシステム構築及び製品は次の3つのセグメントに分かれているndash 一般商用システム( Commodity-based systems)
bull 一般のクラスタシステム(Dell HPCCなど)
ndash 付加価値システム( Value-based systems)bull 多くのSMPやNUMAシステム(SGI Altixなど)
ndash 特定目的システム( Purpose-built systems)bull アプリケーションと解析対象に合わせたシステム設計(IBM
BlueGeneLなど)
bull IDCなどのレポートでも一般商用システムのHPCマーケットでの導入がもっともその成長が大きいndash 付加価値システムの課題(一般商用システムとの競合に対する対応もしくは新たな分野の開拓rarrペタスケールコンピューティング)
ndash HPCSプログラムはこの付加価値システムのベンダーにとっても生き残りを賭けた戦い (2006July)
スケーラブルシステムズ株式会社
HPCシステムの現状分析
bull Good News
ldquoHPCシステムにおける問題はたった2つだけであるrdquo
スケーラブルシステムズ株式会社
ソフトウエアとハードウエア
bull ソフトウエアThe Law of Morehellip
ndashシステム規模とその複雑さの急速な増加拡大
ndash ソフトウエアの準備が出来た時点でハードウエアは既に陳腐化し次のシステムの導入の検討が進む
bull ハードウエアMoore‟s Law (ムーアの法則)ndash消費電力の問題のためプロセッサの動作クロックを今までのペースで上げることは困難
ndashプロセッサとメモリの性能差の拡大によるCPUサイクルとのギャップ
ndashピーク性能と実効性能のギャップの拡大
スケーラブルシステムズ株式会社
ソフトウエアThe Law of Morehellip
bull 研究者はより多くの時間(More Time)をソフトウエアの開発のために必要としている
bull 問題はより複雑(More Complex)になりそしてより多くのプロセッサ(More Processors)を利用して処理を行うにはより多くの困難(More
Difficult)が伴います
スケーラブルシステムズ株式会社
アルゴリズムの最適化
bull 計算機自身の進化と共に計算アルゴリズムも最適化されている
bull 例編微分方程式の解法ndash N=106の場合ガウスの消去法で線形方程式を解く場合と
MGでの計算では108倍の計算量が違うndash これは1Mflopssの計算機で100Tflopssの計算機に相当する計算を行ったことになる
O(N)F-cycle MG
O(N76 log(N))CGMILU
O(N43 log(N))Optimal SOR
O(N53 log(N))Gauss Seidel
O(N73)Banded Gauss Elimination
計算オペレーション数(概数)アルゴリズム
2u=f 100
100100
スケーラブルシステムズ株式会社
ソフトウエアThe Law of Morehellip
bull 一般の商用製品を活用したクラスタソリューションでは「Capacity」の実現は容易であるが「Capability」の実現については依然として課題が多いndash コストパフォーマンスの高いシステムの構築は可能だとしてもコストプロダクティビティの高いシステムの構築も課題
bull 数百~数千プロセッサ構成のシステムの利用技術と解析対象の検討ndash 小規模中規模問題の高速処理への対応ndash ソフトウエア開発の生産性
bull 数プロセッサ~数十プロセッサをより簡便に容易に利用できる技術ndash シングルプロセッサシングルスレッドを利用するのと同じようにhellip
スケーラブルシステムズ株式会社
ソフトウエアとハードウエア
bull ソフトウエアThe Law of Morehellip
ndashシステム規模とその複雑さの急速な増加拡大
ndash ソフトウエアの準備が出来た時点でハードウエアは既に陳腐化し次のシステムの導入の検討が進む
bull ハードウエアMoore‟s Law (ムーアの法則)ndash消費電力の問題のためプロセッサの動作クロックを今までのペースで上げることは困難
ndashプロセッサとメモリの性能差の拡大によるCPUサイクルとのギャップ
ndashピーク性能と実効性能のギャップの拡大
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash過去12年間でPentiumプロセッサの動作周波数は60 MHz から 3800 MHz にまでアップ
ndash現在までの高性能化の約80 はクロック周波数の向上によるもの
スケーラブルシステムズ株式会社
ハードウエアの問題Moore‟s Lawムーアの法則
bull インテルの共同設立者の1人である Gordon Moore 博士が1965年4月19日号の「Electronics」誌に投稿した 「一定面積に集積されるトランジスタの数は12か月で倍増しそれに伴いトランジスタの動作速度が向上する」という予測 (その後1975年に Moore 博士はチップの複雑化を考慮してトランジスタ数の倍増ペースを24か月に修正)
bull また一般にはあまり知られていないがテクノロジの進歩とともに製造コストが劇的に下落することも予測(左図)
httpwwwintelcojpjpdevelopertechnologysiliconmooreslawindexhtm
指数関数的成長は永遠には続かないしかしその永遠を先延ばしにすることはできる [英語 PDF 形式 2MB]
Gordon E Moore2003年2月10日ISSCC (International
Solid State Circuits Conference) でのプレゼンテーション
Dr Gordon Moore
(co-founder of Intel)
スケーラブルシステムズ株式会社
Technology Trend
ムーアの法則依然として有効
スケーラブルシステムズ株式会社
性能向上の源泉は
ハードウエアデバイス技術の進歩bull ロジック回路のスイッチング速度の向上とデバイス密度bull メモリサイズの拡大とアクセス速度の向上bull 通信性能(バンド幅とレイテンシの向上)
bull 並列性ndash 1サイクルでの命令実行数
bull 命令レベルでの並列性(ILP)
bull ベクトル処理ndash プロセッサあたりコア数ndash ノードあたりのプロセッサ数ndash システムあたりのノード数
コンピュータアーキテクチャbull 命令発行実行速度の向上
ndash パイプライン化ndash 分岐予測ndash キャッシュndash Out-of-order など
スケーラブルシステムズ株式会社
GHz競争
bull 2000年に開催されたIEEE国際電子デバイス会議2000(2000
IEEE International Electron Devices MeetingIEDM) においてインテル社は4億個以上のトランジスタを集積した10GHz駆動のプロセッサが2005年までに実現可能だと発表しましたndash 実際にはインテル社の最速プロセッサは6ヶ月前に発表された
38GHz(Intel Pentium 4)となっています
bull Prescottプロセッサの6xxシリーズ発表に際してインテル社はldquoadding value beyond GHzrdquo のコメントを出していますそれ以降インテル社の多くのドキュメントやプレスリリースはこのldquoadding value beyond GHzrdquo についての内容を含んでいます
スケーラブルシステムズ株式会社
発熱の問題が深刻化
Bob Colwell氏の資料より抜粋
Increasing Frequency
Watt
scm
2
1
10
100
1000
15 10 07 05 035 025 018 013 01 007
i386i486
PentiumPentium Pro
Pentium IIPentium III
Hot Plate
Nuclear Reactor
Rocket Nozzle
Pentium 4(Prescott)
Pentium 4(Willamette)
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash過去12年間でPentiumプロセッサの動作周波数は60 MHz から 3800 MHz にまでアップ
ndash現在までの高性能化の約80 はクロック周波数の向上によるもの
bull 命令実行の強化と最適化
ndashより強力なインストラクションセット
ndash命令実行の最適化(パイプライン化分岐予測複数命令の同時実行命令実行順序の変更など)
スケーラブルシステムズ株式会社
技術のSカーブ技術開発の進展と製品性能の成長の関係
bull 技術開発の初期は製品性能はゆっくりと向上するがしだいに性能の向上の幅が大きくなるしかし次第に技術開発が成熟段階に入ると性能向上は逓減していく
製品の性能
時間
First Technology
Second Technology
Third Technology
RISCアウトオブオーダー実行lt1 instruction cycle
スーパースカラー RISCアウトオブオーダー実行lt2 instructions cycle
明示的並列命令コンピューティング技術 (EPIC)
命令の並列実行度の向上
スケーラブルシステムズ株式会社
マイクロアーキテクチャのSカーブ
Johan De Gelas Quest for More Processing Power
AnandTech Feb 8 2005
httpwwwanandtechcomcpuchipsetsshowdocaspxi=2343
101
102
103
104
105
106
MIP
S
1980 1985 1990 1995 2000 2005 2010
Pentium Architecture
Super Scalar
Pentium Pro Architecture
Speculative Out-of-Order
Pentium 4 Architecture
Trace Cache
Pentium 4 and Xeon Architecture with HT
Multi-Threaded
Multi-Threaded Multi-Core
Era of
Instruction
Parallelism
Era of
Thread
Parallelism
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash 過去12年間でPentiumプロセッサの動作周波数は60
MHz から 3800 MHz にまでアップ
ndash 現在までの高性能化の約80 はクロック周波数の向上によるもの
bull 命令実行の強化と最適化
ndash より強力なインストラクションセット
ndash 命令実行の最適化(パイプライン化分岐予測複数命令の同時実行命令実行順序の変更など)
bull 大容量キャッシュ
ndash プロセッサの速度とメモリレイテンシ(待ち時間)とバンド幅のギャップの拡大に対する対策対応としての容量の拡張
スケーラブルシステムズ株式会社
性能ギャップの問題
bull プロセッサ速度とメモリアクセスの速度差によってプロセッサがより高速になったとしてもプロセッサはその演算能力を完全に使い切ることが出来ない
1
10
100
1000Performance
1980 1990 2000
microProc
60yr
DRAM
7yr
バンド幅とレイテンシの問題が今後はより深刻(プロセッサ性能とのギャップはほぼ年率50の差で広がっている)
DRAM
CPU
プロセッサはほぼナノ秒に一回命令実行DRAMへのアクセスはほぼ100ナノ秒の時間
スケーラブルシステムズ株式会社
今後の発展と課題
Episode IV
A New Hope
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash 過去12年間でPentiumプロセッサの動作周波数は60
MHz から 3800 MHz にまでアップ
ndash 現在までの高性能化の約80 はクロック周波数の向上によるもの
bull 命令実行の強化と最適化
ndash より強力なインストラクションセット
ndash 命令実行の最適化(パイプライン化分岐予測複数命令の同時実行命令実行順序の変更など)
bull 大容量キャッシュ
ndash プロセッサの速度とメモリレイテンシ(待ち時間)とバンド幅のギャップの拡大に対する対策対応としての容量の拡張
スケーラブルシステムズ株式会社
デュアルコアプロセッサ
bull チップ上のトランジスタのより有効活用が可能bull スレッドレベルでの並列処理を活用bull よりシンプルなプロセッサの設計が可能
bull 将来のマイクロプロセッサはより多くのコアを実装可能bull 将来のマイクロプロセッサはより大容量のキャッシュの実装が可能
IBM Power5
with 19MB L2
AMD Opteron
with 2MB L2
Intel Montecito
With 24MB L3
スケーラブルシステムズ株式会社
イノベーションのジレンマ
製品の性能
時間
First Technology
Second Technology
Third Technology
RISCアウトオブオーダー実行lt1 instruction cycle
スーパースカラー RISCアウトオブオーダー実行lt2 instructions cycle
明示的並列命令コンピューティング技術 (EPIC)
命令の並列実行度の向上
製品の性能(異なる尺度)
時間
持続的イノベーション
技術革新が顧客の求める性能向上軸(ムーアの法則)に沿っている
破壊的イノベーションマルチコアとマルチスレッドによる並列処理
短期的には(シングルスレッドの性能)としては性能が低下するが将来の大きな性能向上とコスト低下機能強化の可能性が大きい
スケーラブルシステムズ株式会社
マルチコアの利点
ワークロードの処理効率の向上
bull マルチスレッドアプリケーションndash現在多くのアプリケーション(データベース
WEB科学技術計算)はマルチスレッド化
ndashマルチコアプロセッサではこれらのアプリケーションのマルチスレッドでの実行が容易に可能
bull 複数ジョブの処理ndashシステムでは複数のワークロード同時に処理することが必要
ndashマルチコアではこれらのワークロードへの処理が可能
スケーラブルシステムズ株式会社
マルチコアの利点
消費電力あたりの性能を最大にし高性能で低消費電力のシステム構築が可能
bull OS自身のマルチスレッド対応
ndash OSのサービスもマルチスレッドで処理することでより効率よく処理することが可能
bull 仮想化
ndashサーバのセキュリティや管理の強化
ndash管理するノード数を減らし運用コストの削減を図る
bull 最新のソフトウエアテクノロジの活用
スケーラブルシステムズ株式会社
大きな変革しかし容易ではない
マルチコアプロセッシング(または汎用もしくは専用プロセッサをソケットに複数搭載可能なこと)はEthernetの誕生以来ITインフラに対しての大きなインパクトをもたらします
デュアルプロセッサは386プロセッサの発表以来性能に関して最大の向上を実現しますしかしこのような性能向上にはソフトウエアの最適化がプロセッサの性能をフルに発揮するためには必要です
スケーラブルシステムズ株式会社
並列性(Parallelism)の利用
マルチタスク処理
MPIなどによる複数のノード間での並列処理
ユーザ及びコンパイラによるスレッドレベルでの並列処理(TLP)
コンパイラによる命列実行レベルでの並列処理(ILP)
マルチコア
マルチプロセッサ
マルチノード
マルチインストラクション
システム
スケーラブルシステムズ株式会社
ムーアの法則(GHz から MC へ)
マルチコアによる性能向上
動作周波数の向上による性能向上
性能
2005
bullマルチスレッドbullマルチタスクbull トレーニングbullツールbullhelliphellip
並列処理による性能向上についてはシステムサポートやプログラミングサポートなどの面での技術支援が重要です
スケーラブルシステムズ株式会社
Episode VI
Return of the Jedi
Ts for HPC - インテルテクノロジのHPCにおける価値の考察
スケーラブルシステムズ株式会社
将来予測の難しさ
bull ldquoI think there is a world market for maybe five
computersrdquobull Thomas Watson chairman of IBM 1943
bull ldquoThere is no reason for any individual to have a
computer in their homerdquobull Ken Olson president and founder of digital equipment
corporation 1977
bull ldquoThere are only about 100 potential customers
worldwide for a Cray-1rdquobull Seymour Cray 1977
bull ldquo640K [of memory] ought to be enough for
anybodyrdquobull Bill Gates chairman of Microsoft1981
スケーラブルシステムズ株式会社
「未来を予測する最良の方法はそれを創造してしまうことである」The best way to predict future is to invent it
Dr Alan Kay President of Viewpoints Research
Institute Inc
スケーラブルシステムズ株式会社
ITマネージメントの課題
bull プラットフォームの内部からの保護ndash ウイルスやワームなど悪意あるソフトウェアからの保護
bull 資産管理ndash 多くの IT 部門では特定できない資産が問題
bull オンラインおよびリモート管理診断機能 ndash アップグレード診断復旧のための作業の効率化
bull アプリケーション統合の困難さ
ndash アプリケーションの高度化と複雑化によって複数のアプリケーションを組み合わせるての動作に問題
bull 動的なリソース割り当て
ndash 組織内で未使用のCPUやメモリの活用
スケーラブルシステムズ株式会社
マーケットトレンド
All Servers Worldwide 2003 2004 2005 20062003 to 2006
CAGR
2005 to 2006
CAGR
Total Factory Revenue($B) $46149 $49146 $51268 $52251 42 19
Units Shipped(same as nodes) 5278222 6307484 7050099 7472649 123 60
Processor Dies Shipped 8662823 10134624 11712766 12779159 138 91
HPC Technical Servers Worldwide 2003 2004 2005 20062003 to 2006
CAGR
2005 to 2006
CAGR
HPC Server Revenue($B) $5698 $7393 $9208 $10030 207 89
Adjusted Revenues(To much
enterprise)$5128 $6654 $8287 $9027 207 89
Node Units Shipped 411327 734510 1215735 1419221 511 167
Processor Elements Shipped 1002905 1657827 2681079 3351843 495 250
HPC As A Ratio Of All Servers 2003 2004 2005 2006
Revenue($B) 123 150 180 192
Adjusted Revenues(Apples-to-
apples)111 135 162 173
Units Shipped(Nodes) 78 116 172 190
Processors Shipped 116 164 226 261
Source IDC 2007
スケーラブルシステムズ株式会社
HPCマーケット(対全サーバマーケット)
0
5
10
15
20
25
30
2003 2004 2005 2006
Revenue($B)
Adjusted Revenues(Apples-to-apples)
Units Shipped(Nodes)
Processors Shipped
スケーラブルシステムズ株式会社
マーケットトレンド
Source IDC 2004
Cost of mgmt amp admin 10 CAGR
$0
$20
$40
$60
$80
$100
$120
$140
$160
$180
$200
1996 rsquo97 rsquo98 rsquo992000 rsquo01 rsquo02 rsquo03 rsquo04 rsquo05 rsquo06 rsquo07 rsquo08-
New server spending (USM$) 3 CAGR
Spending (USB$)
5
10
15
20
25
30
35
Installed Base (M Units)
bull ハードウェアの減価償却費は IT の TCO 全体の約25 にすぎない
bull ソフトウェアのコストはわずか10~15
bull 電気などの公共料金フロアスペース電話回線など設備面のコストの割合もきわめて小さい
bull プラットフォームのコストではなくTCOの大きな比率を占めるのは人件費となっている
スケーラブルシステムズ株式会社
運用管理コストの低減
bull 「もっと処理性能を」と「より安価に」を実現するためにワークステーションやサーバでの分散処理の導入
bull ユーザや企業に新たな価値をもたらしてはいるが管理責任とその負担の分散を招き結果的に運用管理コストを押し上げる
メインフレームスーパーコンピュータ
仮想化によるサーバコンソリデーション
クラスタによる仮想コンピュータ
スケーラブルシステムズ株式会社
次世代HPCインフラ
bull コアとスレッド
ndash より多くのスレッドを効率よく利用可能
ndash マルチスレッド向け最適化
bull 電力管理
ndash 省電力
ndash データセンター運用管理機能
bull 仮想化
ndash 柔軟性と優れた運用管理
ndash 仮想的なシステムパーティション
bull RAS
ndash ハードウエアベースの自己監視自己管理
ndash ファームウエアベースのエラー履歴管理
bull システム管理
ndash より低いTCOを実現するための一般標準化されたマネージメント機能
スケーラブルシステムズ株式会社
高速プロセッサ
64ビットアドレス
メモリ性能と容
量
IOバンド幅
インターコネクト
省電力
システムのlsquoバランスrsquo
マルチコアによってプロセッサ単体の処理性能の向上を図る
64ビットのアドレス空間と
拡張されたレジスタによるOSとアプリケーション双方の機能性能拡張
64ビット化とマルチコア化
にともなう高速大容量へのニーズに対応しまたその拡張性の高い実装技術の実現
CPU-メモリ間の高速な
データ転送やより高速なネットワーク大規模なストレージのサポート
大規模なクラスタシステムの構築及びアプリケーションのワークロードに対応した高速性能
エコシステムに対応するためにも電力消費量や発熱量を積極的に抑える技術の開発
スケーラブルシステムズ株式会社
HPCの二極分化
Going UP
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
Going DOWN
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
スケーラブルシステムズ株式会社
システムとユーザの尺度
bull ユーザの尺度での性能(Performance)は時間当たりにどれだけの仕事を処理出来るか(仕事量 時間)
bull Flopsでの評価は実際には意味がないまた問題の規模(small medium large) という評価も難しい
bull ldquoスケーラビリティrdquoは対象を明確に規定する必要がある
システムの尺度 ユーザの尺度
Flops hArr 計算終了までの時間
メモリサイズ(GB) hArr モデルのサイズと計算結果
プロセッサ数 hArr ワークロードでの試行
データ長 hArr 計算精度
システム構成(クラスタ) hArr 導入コストと運用コスト
スケーラビリティ hArr ベンチマーク
スケーラブルシステムズ株式会社
HPCシステムの動向国家プロジェクトと商用製品のギャップの拡大
Going UP
Going DOWN
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
Peta-Scaleコンピューティングに求められる基本技術と現在のHPCの主要マーケットでの要求はあまりにも差が大きいrarrHPCSシステムは各社とのlsquoCommodityrsquoのマイクロプロセッサではなく独自のプロセッサを開発中
ハードウエアはrsquoCommodityrsquo
なものを利用してSWの改善サポート利用技術のサポートが今後の主要マーケットでの成功の鍵となる
スケーラブルシステムズ株式会社
HPCシステムの動向国家プロジェクト
Going UP
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
Peta-Scaleコンピューティングに求められる基本技術と現在のHPCの主要マーケットでの要求はあまりにも差が大きいrarrHPCSシステムは各社とのlsquoCommodityrsquoのマイクロプロセッサではなく独自のプロセッサを開発中
スケーラブルシステムズ株式会社
TOP500性能予測
1993 1995 1997 1999 2001 2003 2005 2007 2009 2011 2013 2015
N=
50
SUM
1 Gflops
1 Tflops
100 Mflops
100 Gflops
100 Tflops
10 Gflops
10 Tflops
1 Pflops
10 Pflops
IBM ASCI White
Blue GeneEarth Simulator
Intel
TOP500の総計が1PFを超えています
TOP500に掲載されるには1TF
が最低条件になっています
シングルシステムの1PFの実現は2009年
システム(プロセッサ数) 13倍年プロセッサ性能向上 14倍年トータル性能 18倍年
2009年までに1ペタFLOPS
スケーラブルシステムズ株式会社
性能ギャップの拡大
bull ピーク性能の大幅な向上ndash 1990年台は性能の向上は102のオーダーでしたが2000年台になると103のオーダーで性能は向上しています
しかしhellipndash 多くの科学技術計算用途のアプリケーションのピーク性能に対する実効性能の比率は5-10となっています(1990年代のベクトル計算機は40-50の対ピーク性能を示していました)
bull 今必要なのはndash より高い実効性能を発揮することが可能な計算アルゴリズムと手法の開発とスケーラビリティの向上
ndash プログラミングモデルなども含めてスケーラブルな計算機環境の構築
01
1
10
100
1000
2000 2004
Tera
flo
ps
1996
Performance
Gap
Peak Performance
Real Performance
NERSC User Group Meeting June 24-25 2004
Osni Marques and Tony Drummond
Lawrence Berkeley National Laboratory
スケーラブルシステムズ株式会社
ペタスケールシステムの構築
bull ソフトウエア(アプリケーションOSプログラミングAPIなど)の課題の克服が課題
bull システムの複雑さと生産性
例Linpack Benchmark
bull オリジナルベンチマークプログラム ~100ライン
bull HPL ベンチマークプログラム ~10000ライン(x100より複雑)
lsquo複雑さrsquoの壁
現在のテラFLOPS級の問題
Source ORNL
スケーラブルシステムズ株式会社
HPCシステムの動向商用製品
Going DOWN
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
ハードウエアはrsquoCommodityrsquo
なものを利用してSWの改善サポート利用技術のサポートが今後の主要マーケットでの成功の鍵となる
スケーラブルシステムズ株式会社
標準コンポーネントの進化
bull プロセッサの性能向上ndash lsquoマルチコアrsquoによる省電力での性能向上が可能
ndash HPCアプリケーションは容易にlsquoマルチコアrsquoの利点を活用可能 (OpenMPやMPI)
bull ファイルシステムndash高性能なスケーラブルファイルシステム(オープンソース)
bull インターコネクトndash PCI-Express (メモリlarrrarrインターコネクト)
ndash高速の商用製品やオープンソースでの強力(OpenIBなど)
スケーラブルシステムズ株式会社
標準コンポーネントの利点
bull 特定のベンダーからのシステムを組み合わせるのではなく他社のシステムも含めてベストなシステムの選択が可能
ndashスケーラブルSMPベクトル計算機クラスタの幅広い選択肢
ndash 64ビットマルチコアマイクロプロセッサの性能向上を最大限に活用
bull 標準コンポーネントの技術革新の活用
ndash PCI-ExpressやFB-DIMMの利用技術
スケーラブルシステムズ株式会社
Breaking the 1-2K nodes Barrier
bull 音の障壁サウンドバリヤー(sound barrier)飛行機の速度が音速近くになると衝撃波の発生によって抵抗の増大境界層の剥離など設計運用上のさまざまな障害(壁)に出合って超音速飛行は不可能かと思われた時代があった(1947年ごろまで)ので音の障壁といわれていた
httpwwwwilk4commiscsoundbreakhtm
クラスタのノード数がある規模に近くなるとその構築や運用において負担の増大システムの安定稼動スケーラビリティなど設計運用上のさまざまな障害(壁)に出合ってクラスタ構築は不可能と思われた時代があった()
スケーラブルシステムズ株式会社
ビルゲイツ氏の基調講演HPC goes mainstream
スケーラブルシステムズ株式会社
「Fast」「Good」「Cheap」のパズル
Fast
+ Cheap
Inferior
高い性能を廉価なシステムで構築することも可能ですただそのようなシステムの場合システムの構築や利用は必ずしも容易ではありません
Good
+ Cheap
Slow比較的小規模なシステムであれば廉価で使い勝手の良いものを探すことは可能ですしかしそのようなシステムでは拡張性やより大規模なシステム構築が出来ません
Good
+ Fast
Expensive
付加価値の高い性能の高いシステムは一般には高価ですその付加価値がユーザにとってメリットが無ければコストパフォーマンスの悪いシステムになるだけです
スケーラブルシステムズ株式会社
まとめとして
bull 「テクノロジー」をどのようにとらえるかndash企業経営基盤のコア要素
ndashユーザの本質的な課題を解決する戦略的な武器
bull マーケットを牽引する「テクノロジ」に求められることndashテクノロジとHPCにおけるITインフラの関係を明確にすること
bull ユーザに何らかのメリットをもたらさない「テクノロジー」は意味を成さない
ndashテクノロジーを最適に組み合わせることで問題解決のためのソリューションの提供が可能
スケーラブルシステムズ株式会社
まとめとして
bull bdquoTs‟ for HPC - インテルテクノロジのHPCにおける価値
ndash インテルテクノロジはHPCにおいて重要な構成要素となっている
ndashそれらの構成要素を統合することでより高い価値の提供が可能となる
ndash二分化しつつあるHPCシステムにおいて「標準コ
ンポーネント」としてのプラットフォームの動向として今後もその動向には注目する必要がある
スケーラブルシステムズ株式会社
さらに詳しい情報はhellip
bull 弊社のコンサルテーションに関するご提案資料もダウンロード可能です(非公開WEBページ)別途弊社に内容等についてはお尋ねください
お問い合わせ先102-0083
東京都千代田区麹町3-5-2
BUREX麹町 8F
電話03-5875-4718
FAX03-3237-7612
E-mailbizsstccojp
httpwwwsstccojp wwwsstccojpbiz
スケーラブルシステムズ株式会社
スケーラブルシステムズ株式会社
ハイエンドコンピューティングに関するコンサルテーションとして幅広いサービスをご提供致します
このサービスを最大限に活用していただくことでコラボレーションによる「顧客志向」 のコン
サルテーションサービスをご提供できればと思っております
スケーラブルシステムズ株式会社
社名製品名などは一般に各社の商標または登録商標です無断での引用転載を禁じます
In general the name of the company and the product name etc are the trademarks or registered trademarks of each company
Copyright Scalable Systems Co Ltd 2005 Unauthorized use is strictly forbidden
2005年11月
スケーラブルシステムズ株式会社
シュミレーション事例
スケーラブルシステムズ株式会社
シュミレーション事例
スケーラブルシステムズ株式会社
シングルプロセッサ性能Linpack
Cray 1s
Xmp
Xmp
Ymp
C90
Sun 4260
MIPS M120
MIPS M2000
IBM RS6000540HP 9000750
DEC Alpha AXP
HP9000735
MIPS R4400
IBM Power2990
1
10
100
1000
10000
1975 1980 1985 1990 1995 2000
Lin
pack
MF
LO
PS
Cray n=1000 Cray n=100
Micro n=1000 Micro n=100
DEC 8200
T94
スケーラブルシステムズ株式会社
ベクトル計算機の性能
Q なぜベクトル計算機の性能がマイクロプロセッサの性能のように向上しなかったのでしょうか
A ベクトル計算機はグローバル共有メモリに対する高い接続性能にその性能が依存していたためにこのメモリ間接続の性能向上がボトルネックとなってしまいました
例DRAMメモリの性能と仕様
1979標準DRAM 1999200 MHz SDRAM 1979rarr1999
16K bit
1-bit wide interface
5 Mbs uniform access BW
2 Mbs random access BW
256 Mbit
16-bit wide interface
3200 Mbs uniform access BW
1000 Mbs random access BW
X 16000
X 640
X 500
X 25
スケーラブルシステムズ株式会社
The Pahntom Menace
1993-2000
ベクトル計算機の凋落
商用プロセッサの台頭
スケーラブルシステムズ株式会社
ベクトル計算機の逆襲
Episode V
The Empire Strikes Back
スケーラブルシステムズ株式会社
ベクトル計算機の逆襲
bull 2002
bull 地球シュミレータ
bull コンピュータにおけるスプートニックショック
10487075120 (640 8-way nodes) 500 MHz NEC
10487078 GFLOPS per CPU (41 TFLOPS total)
10487072 GB Memory per CPU (10 TB total)
104870720 kVA power consumption per node
スケーラブルシステムズ株式会社
HPCの歴史
Episode II
Attack of the Clones
スケーラブルシステムズ株式会社
イノベーションのジレンマ
bull クレイトンクリステンセンの「イノベーションのジレンマ」
bull 持続的イノベーションと破壊的イノベーションによるマーケットの動向を分析
bull 持続的イノベーション
ndash 技術革新が顧客の求める性能向上軸に沿っている
bull 破壊的イノベーション
ndash 既存顧客が求める性能とは異なる軸の性能(特性)
スケーラブルシステムズ株式会社
製品の性能
時間
製品の性能(異なる尺度で評価)
時間
Commodity-Based Cluster
RISCベースのSMPNUMAシステム
ベクトル計算機
破壊的イノベーション
スケーラブルシステムズ株式会社
Beowulf プロジェクト
Wiglaf - 1994
16 Intel 80486 100 MHz
VESA Local bus
256 Mbytes memory
64 Gbytes of disk
Dual 10 base-T Ethernet
72 Mflops sustained
$40K
Hrothgar - 1995
16 Intel Pentium100 MHz
PCI
1 Gbyte memory
64 Gbytes of disk
100 base-T Fast Ethernet
(hub)
240 Mflops sustained
$46K
Hyglac-1996 (Caltech)
16 Pentium Pro 200 MHz
PCI
2 Gbytes memory
496 Gbytes of disk
100 base-T Fast Ethernet
(switch)
125 Gflops sustained
$50K
スケーラブルシステムズ株式会社
クラスタシステムの台頭
2000-2005
スケーラブルシステムズ株式会社
課題
Episode III
Revenge of the sith
スケーラブルシステムズ株式会社
HPCの現状
Going UP Going DOWN
システムの規模解析モデルのサイズ運用管理の複雑さbull電力bullスペースbullシステムの相互接続bull管理コスト
生産性bullプログラミングbullシステムの可用性bull実効性能ピーク性能システムバランスHWコスト
スケーラブルシステムズ株式会社
HPCマーケット
bull HPCマーケットでのHPCシステム構築及び製品は次の3つのセグメントに分かれているndash 一般商用システム( Commodity-based systems)
bull 一般のクラスタシステム(Dell HPCCなど)
ndash 付加価値システム( Value-based systems)bull 多くのSMPやNUMAシステム(SGI Altixなど)
ndash 特定目的システム( Purpose-built systems)bull アプリケーションと解析対象に合わせたシステム設計(IBM
BlueGeneLなど)
bull IDCなどのレポートでも一般商用システムのHPCマーケットでの導入がもっともその成長が大きいndash 付加価値システムの課題(一般商用システムとの競合に対する対応もしくは新たな分野の開拓rarrペタスケールコンピューティング)
ndash HPCSプログラムはこの付加価値システムのベンダーにとっても生き残りを賭けた戦い (2006July)
スケーラブルシステムズ株式会社
HPCシステムの現状分析
bull Good News
ldquoHPCシステムにおける問題はたった2つだけであるrdquo
スケーラブルシステムズ株式会社
ソフトウエアとハードウエア
bull ソフトウエアThe Law of Morehellip
ndashシステム規模とその複雑さの急速な増加拡大
ndash ソフトウエアの準備が出来た時点でハードウエアは既に陳腐化し次のシステムの導入の検討が進む
bull ハードウエアMoore‟s Law (ムーアの法則)ndash消費電力の問題のためプロセッサの動作クロックを今までのペースで上げることは困難
ndashプロセッサとメモリの性能差の拡大によるCPUサイクルとのギャップ
ndashピーク性能と実効性能のギャップの拡大
スケーラブルシステムズ株式会社
ソフトウエアThe Law of Morehellip
bull 研究者はより多くの時間(More Time)をソフトウエアの開発のために必要としている
bull 問題はより複雑(More Complex)になりそしてより多くのプロセッサ(More Processors)を利用して処理を行うにはより多くの困難(More
Difficult)が伴います
スケーラブルシステムズ株式会社
アルゴリズムの最適化
bull 計算機自身の進化と共に計算アルゴリズムも最適化されている
bull 例編微分方程式の解法ndash N=106の場合ガウスの消去法で線形方程式を解く場合と
MGでの計算では108倍の計算量が違うndash これは1Mflopssの計算機で100Tflopssの計算機に相当する計算を行ったことになる
O(N)F-cycle MG
O(N76 log(N))CGMILU
O(N43 log(N))Optimal SOR
O(N53 log(N))Gauss Seidel
O(N73)Banded Gauss Elimination
計算オペレーション数(概数)アルゴリズム
2u=f 100
100100
スケーラブルシステムズ株式会社
ソフトウエアThe Law of Morehellip
bull 一般の商用製品を活用したクラスタソリューションでは「Capacity」の実現は容易であるが「Capability」の実現については依然として課題が多いndash コストパフォーマンスの高いシステムの構築は可能だとしてもコストプロダクティビティの高いシステムの構築も課題
bull 数百~数千プロセッサ構成のシステムの利用技術と解析対象の検討ndash 小規模中規模問題の高速処理への対応ndash ソフトウエア開発の生産性
bull 数プロセッサ~数十プロセッサをより簡便に容易に利用できる技術ndash シングルプロセッサシングルスレッドを利用するのと同じようにhellip
スケーラブルシステムズ株式会社
ソフトウエアとハードウエア
bull ソフトウエアThe Law of Morehellip
ndashシステム規模とその複雑さの急速な増加拡大
ndash ソフトウエアの準備が出来た時点でハードウエアは既に陳腐化し次のシステムの導入の検討が進む
bull ハードウエアMoore‟s Law (ムーアの法則)ndash消費電力の問題のためプロセッサの動作クロックを今までのペースで上げることは困難
ndashプロセッサとメモリの性能差の拡大によるCPUサイクルとのギャップ
ndashピーク性能と実効性能のギャップの拡大
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash過去12年間でPentiumプロセッサの動作周波数は60 MHz から 3800 MHz にまでアップ
ndash現在までの高性能化の約80 はクロック周波数の向上によるもの
スケーラブルシステムズ株式会社
ハードウエアの問題Moore‟s Lawムーアの法則
bull インテルの共同設立者の1人である Gordon Moore 博士が1965年4月19日号の「Electronics」誌に投稿した 「一定面積に集積されるトランジスタの数は12か月で倍増しそれに伴いトランジスタの動作速度が向上する」という予測 (その後1975年に Moore 博士はチップの複雑化を考慮してトランジスタ数の倍増ペースを24か月に修正)
bull また一般にはあまり知られていないがテクノロジの進歩とともに製造コストが劇的に下落することも予測(左図)
httpwwwintelcojpjpdevelopertechnologysiliconmooreslawindexhtm
指数関数的成長は永遠には続かないしかしその永遠を先延ばしにすることはできる [英語 PDF 形式 2MB]
Gordon E Moore2003年2月10日ISSCC (International
Solid State Circuits Conference) でのプレゼンテーション
Dr Gordon Moore
(co-founder of Intel)
スケーラブルシステムズ株式会社
Technology Trend
ムーアの法則依然として有効
スケーラブルシステムズ株式会社
性能向上の源泉は
ハードウエアデバイス技術の進歩bull ロジック回路のスイッチング速度の向上とデバイス密度bull メモリサイズの拡大とアクセス速度の向上bull 通信性能(バンド幅とレイテンシの向上)
bull 並列性ndash 1サイクルでの命令実行数
bull 命令レベルでの並列性(ILP)
bull ベクトル処理ndash プロセッサあたりコア数ndash ノードあたりのプロセッサ数ndash システムあたりのノード数
コンピュータアーキテクチャbull 命令発行実行速度の向上
ndash パイプライン化ndash 分岐予測ndash キャッシュndash Out-of-order など
スケーラブルシステムズ株式会社
GHz競争
bull 2000年に開催されたIEEE国際電子デバイス会議2000(2000
IEEE International Electron Devices MeetingIEDM) においてインテル社は4億個以上のトランジスタを集積した10GHz駆動のプロセッサが2005年までに実現可能だと発表しましたndash 実際にはインテル社の最速プロセッサは6ヶ月前に発表された
38GHz(Intel Pentium 4)となっています
bull Prescottプロセッサの6xxシリーズ発表に際してインテル社はldquoadding value beyond GHzrdquo のコメントを出していますそれ以降インテル社の多くのドキュメントやプレスリリースはこのldquoadding value beyond GHzrdquo についての内容を含んでいます
スケーラブルシステムズ株式会社
発熱の問題が深刻化
Bob Colwell氏の資料より抜粋
Increasing Frequency
Watt
scm
2
1
10
100
1000
15 10 07 05 035 025 018 013 01 007
i386i486
PentiumPentium Pro
Pentium IIPentium III
Hot Plate
Nuclear Reactor
Rocket Nozzle
Pentium 4(Prescott)
Pentium 4(Willamette)
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash過去12年間でPentiumプロセッサの動作周波数は60 MHz から 3800 MHz にまでアップ
ndash現在までの高性能化の約80 はクロック周波数の向上によるもの
bull 命令実行の強化と最適化
ndashより強力なインストラクションセット
ndash命令実行の最適化(パイプライン化分岐予測複数命令の同時実行命令実行順序の変更など)
スケーラブルシステムズ株式会社
技術のSカーブ技術開発の進展と製品性能の成長の関係
bull 技術開発の初期は製品性能はゆっくりと向上するがしだいに性能の向上の幅が大きくなるしかし次第に技術開発が成熟段階に入ると性能向上は逓減していく
製品の性能
時間
First Technology
Second Technology
Third Technology
RISCアウトオブオーダー実行lt1 instruction cycle
スーパースカラー RISCアウトオブオーダー実行lt2 instructions cycle
明示的並列命令コンピューティング技術 (EPIC)
命令の並列実行度の向上
スケーラブルシステムズ株式会社
マイクロアーキテクチャのSカーブ
Johan De Gelas Quest for More Processing Power
AnandTech Feb 8 2005
httpwwwanandtechcomcpuchipsetsshowdocaspxi=2343
101
102
103
104
105
106
MIP
S
1980 1985 1990 1995 2000 2005 2010
Pentium Architecture
Super Scalar
Pentium Pro Architecture
Speculative Out-of-Order
Pentium 4 Architecture
Trace Cache
Pentium 4 and Xeon Architecture with HT
Multi-Threaded
Multi-Threaded Multi-Core
Era of
Instruction
Parallelism
Era of
Thread
Parallelism
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash 過去12年間でPentiumプロセッサの動作周波数は60
MHz から 3800 MHz にまでアップ
ndash 現在までの高性能化の約80 はクロック周波数の向上によるもの
bull 命令実行の強化と最適化
ndash より強力なインストラクションセット
ndash 命令実行の最適化(パイプライン化分岐予測複数命令の同時実行命令実行順序の変更など)
bull 大容量キャッシュ
ndash プロセッサの速度とメモリレイテンシ(待ち時間)とバンド幅のギャップの拡大に対する対策対応としての容量の拡張
スケーラブルシステムズ株式会社
性能ギャップの問題
bull プロセッサ速度とメモリアクセスの速度差によってプロセッサがより高速になったとしてもプロセッサはその演算能力を完全に使い切ることが出来ない
1
10
100
1000Performance
1980 1990 2000
microProc
60yr
DRAM
7yr
バンド幅とレイテンシの問題が今後はより深刻(プロセッサ性能とのギャップはほぼ年率50の差で広がっている)
DRAM
CPU
プロセッサはほぼナノ秒に一回命令実行DRAMへのアクセスはほぼ100ナノ秒の時間
スケーラブルシステムズ株式会社
今後の発展と課題
Episode IV
A New Hope
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash 過去12年間でPentiumプロセッサの動作周波数は60
MHz から 3800 MHz にまでアップ
ndash 現在までの高性能化の約80 はクロック周波数の向上によるもの
bull 命令実行の強化と最適化
ndash より強力なインストラクションセット
ndash 命令実行の最適化(パイプライン化分岐予測複数命令の同時実行命令実行順序の変更など)
bull 大容量キャッシュ
ndash プロセッサの速度とメモリレイテンシ(待ち時間)とバンド幅のギャップの拡大に対する対策対応としての容量の拡張
スケーラブルシステムズ株式会社
デュアルコアプロセッサ
bull チップ上のトランジスタのより有効活用が可能bull スレッドレベルでの並列処理を活用bull よりシンプルなプロセッサの設計が可能
bull 将来のマイクロプロセッサはより多くのコアを実装可能bull 将来のマイクロプロセッサはより大容量のキャッシュの実装が可能
IBM Power5
with 19MB L2
AMD Opteron
with 2MB L2
Intel Montecito
With 24MB L3
スケーラブルシステムズ株式会社
イノベーションのジレンマ
製品の性能
時間
First Technology
Second Technology
Third Technology
RISCアウトオブオーダー実行lt1 instruction cycle
スーパースカラー RISCアウトオブオーダー実行lt2 instructions cycle
明示的並列命令コンピューティング技術 (EPIC)
命令の並列実行度の向上
製品の性能(異なる尺度)
時間
持続的イノベーション
技術革新が顧客の求める性能向上軸(ムーアの法則)に沿っている
破壊的イノベーションマルチコアとマルチスレッドによる並列処理
短期的には(シングルスレッドの性能)としては性能が低下するが将来の大きな性能向上とコスト低下機能強化の可能性が大きい
スケーラブルシステムズ株式会社
マルチコアの利点
ワークロードの処理効率の向上
bull マルチスレッドアプリケーションndash現在多くのアプリケーション(データベース
WEB科学技術計算)はマルチスレッド化
ndashマルチコアプロセッサではこれらのアプリケーションのマルチスレッドでの実行が容易に可能
bull 複数ジョブの処理ndashシステムでは複数のワークロード同時に処理することが必要
ndashマルチコアではこれらのワークロードへの処理が可能
スケーラブルシステムズ株式会社
マルチコアの利点
消費電力あたりの性能を最大にし高性能で低消費電力のシステム構築が可能
bull OS自身のマルチスレッド対応
ndash OSのサービスもマルチスレッドで処理することでより効率よく処理することが可能
bull 仮想化
ndashサーバのセキュリティや管理の強化
ndash管理するノード数を減らし運用コストの削減を図る
bull 最新のソフトウエアテクノロジの活用
スケーラブルシステムズ株式会社
大きな変革しかし容易ではない
マルチコアプロセッシング(または汎用もしくは専用プロセッサをソケットに複数搭載可能なこと)はEthernetの誕生以来ITインフラに対しての大きなインパクトをもたらします
デュアルプロセッサは386プロセッサの発表以来性能に関して最大の向上を実現しますしかしこのような性能向上にはソフトウエアの最適化がプロセッサの性能をフルに発揮するためには必要です
スケーラブルシステムズ株式会社
並列性(Parallelism)の利用
マルチタスク処理
MPIなどによる複数のノード間での並列処理
ユーザ及びコンパイラによるスレッドレベルでの並列処理(TLP)
コンパイラによる命列実行レベルでの並列処理(ILP)
マルチコア
マルチプロセッサ
マルチノード
マルチインストラクション
システム
スケーラブルシステムズ株式会社
ムーアの法則(GHz から MC へ)
マルチコアによる性能向上
動作周波数の向上による性能向上
性能
2005
bullマルチスレッドbullマルチタスクbull トレーニングbullツールbullhelliphellip
並列処理による性能向上についてはシステムサポートやプログラミングサポートなどの面での技術支援が重要です
スケーラブルシステムズ株式会社
Episode VI
Return of the Jedi
Ts for HPC - インテルテクノロジのHPCにおける価値の考察
スケーラブルシステムズ株式会社
将来予測の難しさ
bull ldquoI think there is a world market for maybe five
computersrdquobull Thomas Watson chairman of IBM 1943
bull ldquoThere is no reason for any individual to have a
computer in their homerdquobull Ken Olson president and founder of digital equipment
corporation 1977
bull ldquoThere are only about 100 potential customers
worldwide for a Cray-1rdquobull Seymour Cray 1977
bull ldquo640K [of memory] ought to be enough for
anybodyrdquobull Bill Gates chairman of Microsoft1981
スケーラブルシステムズ株式会社
「未来を予測する最良の方法はそれを創造してしまうことである」The best way to predict future is to invent it
Dr Alan Kay President of Viewpoints Research
Institute Inc
スケーラブルシステムズ株式会社
ITマネージメントの課題
bull プラットフォームの内部からの保護ndash ウイルスやワームなど悪意あるソフトウェアからの保護
bull 資産管理ndash 多くの IT 部門では特定できない資産が問題
bull オンラインおよびリモート管理診断機能 ndash アップグレード診断復旧のための作業の効率化
bull アプリケーション統合の困難さ
ndash アプリケーションの高度化と複雑化によって複数のアプリケーションを組み合わせるての動作に問題
bull 動的なリソース割り当て
ndash 組織内で未使用のCPUやメモリの活用
スケーラブルシステムズ株式会社
マーケットトレンド
All Servers Worldwide 2003 2004 2005 20062003 to 2006
CAGR
2005 to 2006
CAGR
Total Factory Revenue($B) $46149 $49146 $51268 $52251 42 19
Units Shipped(same as nodes) 5278222 6307484 7050099 7472649 123 60
Processor Dies Shipped 8662823 10134624 11712766 12779159 138 91
HPC Technical Servers Worldwide 2003 2004 2005 20062003 to 2006
CAGR
2005 to 2006
CAGR
HPC Server Revenue($B) $5698 $7393 $9208 $10030 207 89
Adjusted Revenues(To much
enterprise)$5128 $6654 $8287 $9027 207 89
Node Units Shipped 411327 734510 1215735 1419221 511 167
Processor Elements Shipped 1002905 1657827 2681079 3351843 495 250
HPC As A Ratio Of All Servers 2003 2004 2005 2006
Revenue($B) 123 150 180 192
Adjusted Revenues(Apples-to-
apples)111 135 162 173
Units Shipped(Nodes) 78 116 172 190
Processors Shipped 116 164 226 261
Source IDC 2007
スケーラブルシステムズ株式会社
HPCマーケット(対全サーバマーケット)
0
5
10
15
20
25
30
2003 2004 2005 2006
Revenue($B)
Adjusted Revenues(Apples-to-apples)
Units Shipped(Nodes)
Processors Shipped
スケーラブルシステムズ株式会社
マーケットトレンド
Source IDC 2004
Cost of mgmt amp admin 10 CAGR
$0
$20
$40
$60
$80
$100
$120
$140
$160
$180
$200
1996 rsquo97 rsquo98 rsquo992000 rsquo01 rsquo02 rsquo03 rsquo04 rsquo05 rsquo06 rsquo07 rsquo08-
New server spending (USM$) 3 CAGR
Spending (USB$)
5
10
15
20
25
30
35
Installed Base (M Units)
bull ハードウェアの減価償却費は IT の TCO 全体の約25 にすぎない
bull ソフトウェアのコストはわずか10~15
bull 電気などの公共料金フロアスペース電話回線など設備面のコストの割合もきわめて小さい
bull プラットフォームのコストではなくTCOの大きな比率を占めるのは人件費となっている
スケーラブルシステムズ株式会社
運用管理コストの低減
bull 「もっと処理性能を」と「より安価に」を実現するためにワークステーションやサーバでの分散処理の導入
bull ユーザや企業に新たな価値をもたらしてはいるが管理責任とその負担の分散を招き結果的に運用管理コストを押し上げる
メインフレームスーパーコンピュータ
仮想化によるサーバコンソリデーション
クラスタによる仮想コンピュータ
スケーラブルシステムズ株式会社
次世代HPCインフラ
bull コアとスレッド
ndash より多くのスレッドを効率よく利用可能
ndash マルチスレッド向け最適化
bull 電力管理
ndash 省電力
ndash データセンター運用管理機能
bull 仮想化
ndash 柔軟性と優れた運用管理
ndash 仮想的なシステムパーティション
bull RAS
ndash ハードウエアベースの自己監視自己管理
ndash ファームウエアベースのエラー履歴管理
bull システム管理
ndash より低いTCOを実現するための一般標準化されたマネージメント機能
スケーラブルシステムズ株式会社
高速プロセッサ
64ビットアドレス
メモリ性能と容
量
IOバンド幅
インターコネクト
省電力
システムのlsquoバランスrsquo
マルチコアによってプロセッサ単体の処理性能の向上を図る
64ビットのアドレス空間と
拡張されたレジスタによるOSとアプリケーション双方の機能性能拡張
64ビット化とマルチコア化
にともなう高速大容量へのニーズに対応しまたその拡張性の高い実装技術の実現
CPU-メモリ間の高速な
データ転送やより高速なネットワーク大規模なストレージのサポート
大規模なクラスタシステムの構築及びアプリケーションのワークロードに対応した高速性能
エコシステムに対応するためにも電力消費量や発熱量を積極的に抑える技術の開発
スケーラブルシステムズ株式会社
HPCの二極分化
Going UP
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
Going DOWN
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
スケーラブルシステムズ株式会社
システムとユーザの尺度
bull ユーザの尺度での性能(Performance)は時間当たりにどれだけの仕事を処理出来るか(仕事量 時間)
bull Flopsでの評価は実際には意味がないまた問題の規模(small medium large) という評価も難しい
bull ldquoスケーラビリティrdquoは対象を明確に規定する必要がある
システムの尺度 ユーザの尺度
Flops hArr 計算終了までの時間
メモリサイズ(GB) hArr モデルのサイズと計算結果
プロセッサ数 hArr ワークロードでの試行
データ長 hArr 計算精度
システム構成(クラスタ) hArr 導入コストと運用コスト
スケーラビリティ hArr ベンチマーク
スケーラブルシステムズ株式会社
HPCシステムの動向国家プロジェクトと商用製品のギャップの拡大
Going UP
Going DOWN
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
Peta-Scaleコンピューティングに求められる基本技術と現在のHPCの主要マーケットでの要求はあまりにも差が大きいrarrHPCSシステムは各社とのlsquoCommodityrsquoのマイクロプロセッサではなく独自のプロセッサを開発中
ハードウエアはrsquoCommodityrsquo
なものを利用してSWの改善サポート利用技術のサポートが今後の主要マーケットでの成功の鍵となる
スケーラブルシステムズ株式会社
HPCシステムの動向国家プロジェクト
Going UP
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
Peta-Scaleコンピューティングに求められる基本技術と現在のHPCの主要マーケットでの要求はあまりにも差が大きいrarrHPCSシステムは各社とのlsquoCommodityrsquoのマイクロプロセッサではなく独自のプロセッサを開発中
スケーラブルシステムズ株式会社
TOP500性能予測
1993 1995 1997 1999 2001 2003 2005 2007 2009 2011 2013 2015
N=
50
SUM
1 Gflops
1 Tflops
100 Mflops
100 Gflops
100 Tflops
10 Gflops
10 Tflops
1 Pflops
10 Pflops
IBM ASCI White
Blue GeneEarth Simulator
Intel
TOP500の総計が1PFを超えています
TOP500に掲載されるには1TF
が最低条件になっています
シングルシステムの1PFの実現は2009年
システム(プロセッサ数) 13倍年プロセッサ性能向上 14倍年トータル性能 18倍年
2009年までに1ペタFLOPS
スケーラブルシステムズ株式会社
性能ギャップの拡大
bull ピーク性能の大幅な向上ndash 1990年台は性能の向上は102のオーダーでしたが2000年台になると103のオーダーで性能は向上しています
しかしhellipndash 多くの科学技術計算用途のアプリケーションのピーク性能に対する実効性能の比率は5-10となっています(1990年代のベクトル計算機は40-50の対ピーク性能を示していました)
bull 今必要なのはndash より高い実効性能を発揮することが可能な計算アルゴリズムと手法の開発とスケーラビリティの向上
ndash プログラミングモデルなども含めてスケーラブルな計算機環境の構築
01
1
10
100
1000
2000 2004
Tera
flo
ps
1996
Performance
Gap
Peak Performance
Real Performance
NERSC User Group Meeting June 24-25 2004
Osni Marques and Tony Drummond
Lawrence Berkeley National Laboratory
スケーラブルシステムズ株式会社
ペタスケールシステムの構築
bull ソフトウエア(アプリケーションOSプログラミングAPIなど)の課題の克服が課題
bull システムの複雑さと生産性
例Linpack Benchmark
bull オリジナルベンチマークプログラム ~100ライン
bull HPL ベンチマークプログラム ~10000ライン(x100より複雑)
lsquo複雑さrsquoの壁
現在のテラFLOPS級の問題
Source ORNL
スケーラブルシステムズ株式会社
HPCシステムの動向商用製品
Going DOWN
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
ハードウエアはrsquoCommodityrsquo
なものを利用してSWの改善サポート利用技術のサポートが今後の主要マーケットでの成功の鍵となる
スケーラブルシステムズ株式会社
標準コンポーネントの進化
bull プロセッサの性能向上ndash lsquoマルチコアrsquoによる省電力での性能向上が可能
ndash HPCアプリケーションは容易にlsquoマルチコアrsquoの利点を活用可能 (OpenMPやMPI)
bull ファイルシステムndash高性能なスケーラブルファイルシステム(オープンソース)
bull インターコネクトndash PCI-Express (メモリlarrrarrインターコネクト)
ndash高速の商用製品やオープンソースでの強力(OpenIBなど)
スケーラブルシステムズ株式会社
標準コンポーネントの利点
bull 特定のベンダーからのシステムを組み合わせるのではなく他社のシステムも含めてベストなシステムの選択が可能
ndashスケーラブルSMPベクトル計算機クラスタの幅広い選択肢
ndash 64ビットマルチコアマイクロプロセッサの性能向上を最大限に活用
bull 標準コンポーネントの技術革新の活用
ndash PCI-ExpressやFB-DIMMの利用技術
スケーラブルシステムズ株式会社
Breaking the 1-2K nodes Barrier
bull 音の障壁サウンドバリヤー(sound barrier)飛行機の速度が音速近くになると衝撃波の発生によって抵抗の増大境界層の剥離など設計運用上のさまざまな障害(壁)に出合って超音速飛行は不可能かと思われた時代があった(1947年ごろまで)ので音の障壁といわれていた
httpwwwwilk4commiscsoundbreakhtm
クラスタのノード数がある規模に近くなるとその構築や運用において負担の増大システムの安定稼動スケーラビリティなど設計運用上のさまざまな障害(壁)に出合ってクラスタ構築は不可能と思われた時代があった()
スケーラブルシステムズ株式会社
ビルゲイツ氏の基調講演HPC goes mainstream
スケーラブルシステムズ株式会社
「Fast」「Good」「Cheap」のパズル
Fast
+ Cheap
Inferior
高い性能を廉価なシステムで構築することも可能ですただそのようなシステムの場合システムの構築や利用は必ずしも容易ではありません
Good
+ Cheap
Slow比較的小規模なシステムであれば廉価で使い勝手の良いものを探すことは可能ですしかしそのようなシステムでは拡張性やより大規模なシステム構築が出来ません
Good
+ Fast
Expensive
付加価値の高い性能の高いシステムは一般には高価ですその付加価値がユーザにとってメリットが無ければコストパフォーマンスの悪いシステムになるだけです
スケーラブルシステムズ株式会社
まとめとして
bull 「テクノロジー」をどのようにとらえるかndash企業経営基盤のコア要素
ndashユーザの本質的な課題を解決する戦略的な武器
bull マーケットを牽引する「テクノロジ」に求められることndashテクノロジとHPCにおけるITインフラの関係を明確にすること
bull ユーザに何らかのメリットをもたらさない「テクノロジー」は意味を成さない
ndashテクノロジーを最適に組み合わせることで問題解決のためのソリューションの提供が可能
スケーラブルシステムズ株式会社
まとめとして
bull bdquoTs‟ for HPC - インテルテクノロジのHPCにおける価値
ndash インテルテクノロジはHPCにおいて重要な構成要素となっている
ndashそれらの構成要素を統合することでより高い価値の提供が可能となる
ndash二分化しつつあるHPCシステムにおいて「標準コ
ンポーネント」としてのプラットフォームの動向として今後もその動向には注目する必要がある
スケーラブルシステムズ株式会社
さらに詳しい情報はhellip
bull 弊社のコンサルテーションに関するご提案資料もダウンロード可能です(非公開WEBページ)別途弊社に内容等についてはお尋ねください
お問い合わせ先102-0083
東京都千代田区麹町3-5-2
BUREX麹町 8F
電話03-5875-4718
FAX03-3237-7612
E-mailbizsstccojp
httpwwwsstccojp wwwsstccojpbiz
スケーラブルシステムズ株式会社
スケーラブルシステムズ株式会社
ハイエンドコンピューティングに関するコンサルテーションとして幅広いサービスをご提供致します
このサービスを最大限に活用していただくことでコラボレーションによる「顧客志向」 のコン
サルテーションサービスをご提供できればと思っております
スケーラブルシステムズ株式会社
社名製品名などは一般に各社の商標または登録商標です無断での引用転載を禁じます
In general the name of the company and the product name etc are the trademarks or registered trademarks of each company
Copyright Scalable Systems Co Ltd 2005 Unauthorized use is strictly forbidden
2005年11月
スケーラブルシステムズ株式会社
シュミレーション事例
スケーラブルシステムズ株式会社
シングルプロセッサ性能Linpack
Cray 1s
Xmp
Xmp
Ymp
C90
Sun 4260
MIPS M120
MIPS M2000
IBM RS6000540HP 9000750
DEC Alpha AXP
HP9000735
MIPS R4400
IBM Power2990
1
10
100
1000
10000
1975 1980 1985 1990 1995 2000
Lin
pack
MF
LO
PS
Cray n=1000 Cray n=100
Micro n=1000 Micro n=100
DEC 8200
T94
スケーラブルシステムズ株式会社
ベクトル計算機の性能
Q なぜベクトル計算機の性能がマイクロプロセッサの性能のように向上しなかったのでしょうか
A ベクトル計算機はグローバル共有メモリに対する高い接続性能にその性能が依存していたためにこのメモリ間接続の性能向上がボトルネックとなってしまいました
例DRAMメモリの性能と仕様
1979標準DRAM 1999200 MHz SDRAM 1979rarr1999
16K bit
1-bit wide interface
5 Mbs uniform access BW
2 Mbs random access BW
256 Mbit
16-bit wide interface
3200 Mbs uniform access BW
1000 Mbs random access BW
X 16000
X 640
X 500
X 25
スケーラブルシステムズ株式会社
The Pahntom Menace
1993-2000
ベクトル計算機の凋落
商用プロセッサの台頭
スケーラブルシステムズ株式会社
ベクトル計算機の逆襲
Episode V
The Empire Strikes Back
スケーラブルシステムズ株式会社
ベクトル計算機の逆襲
bull 2002
bull 地球シュミレータ
bull コンピュータにおけるスプートニックショック
10487075120 (640 8-way nodes) 500 MHz NEC
10487078 GFLOPS per CPU (41 TFLOPS total)
10487072 GB Memory per CPU (10 TB total)
104870720 kVA power consumption per node
スケーラブルシステムズ株式会社
HPCの歴史
Episode II
Attack of the Clones
スケーラブルシステムズ株式会社
イノベーションのジレンマ
bull クレイトンクリステンセンの「イノベーションのジレンマ」
bull 持続的イノベーションと破壊的イノベーションによるマーケットの動向を分析
bull 持続的イノベーション
ndash 技術革新が顧客の求める性能向上軸に沿っている
bull 破壊的イノベーション
ndash 既存顧客が求める性能とは異なる軸の性能(特性)
スケーラブルシステムズ株式会社
製品の性能
時間
製品の性能(異なる尺度で評価)
時間
Commodity-Based Cluster
RISCベースのSMPNUMAシステム
ベクトル計算機
破壊的イノベーション
スケーラブルシステムズ株式会社
Beowulf プロジェクト
Wiglaf - 1994
16 Intel 80486 100 MHz
VESA Local bus
256 Mbytes memory
64 Gbytes of disk
Dual 10 base-T Ethernet
72 Mflops sustained
$40K
Hrothgar - 1995
16 Intel Pentium100 MHz
PCI
1 Gbyte memory
64 Gbytes of disk
100 base-T Fast Ethernet
(hub)
240 Mflops sustained
$46K
Hyglac-1996 (Caltech)
16 Pentium Pro 200 MHz
PCI
2 Gbytes memory
496 Gbytes of disk
100 base-T Fast Ethernet
(switch)
125 Gflops sustained
$50K
スケーラブルシステムズ株式会社
クラスタシステムの台頭
2000-2005
スケーラブルシステムズ株式会社
課題
Episode III
Revenge of the sith
スケーラブルシステムズ株式会社
HPCの現状
Going UP Going DOWN
システムの規模解析モデルのサイズ運用管理の複雑さbull電力bullスペースbullシステムの相互接続bull管理コスト
生産性bullプログラミングbullシステムの可用性bull実効性能ピーク性能システムバランスHWコスト
スケーラブルシステムズ株式会社
HPCマーケット
bull HPCマーケットでのHPCシステム構築及び製品は次の3つのセグメントに分かれているndash 一般商用システム( Commodity-based systems)
bull 一般のクラスタシステム(Dell HPCCなど)
ndash 付加価値システム( Value-based systems)bull 多くのSMPやNUMAシステム(SGI Altixなど)
ndash 特定目的システム( Purpose-built systems)bull アプリケーションと解析対象に合わせたシステム設計(IBM
BlueGeneLなど)
bull IDCなどのレポートでも一般商用システムのHPCマーケットでの導入がもっともその成長が大きいndash 付加価値システムの課題(一般商用システムとの競合に対する対応もしくは新たな分野の開拓rarrペタスケールコンピューティング)
ndash HPCSプログラムはこの付加価値システムのベンダーにとっても生き残りを賭けた戦い (2006July)
スケーラブルシステムズ株式会社
HPCシステムの現状分析
bull Good News
ldquoHPCシステムにおける問題はたった2つだけであるrdquo
スケーラブルシステムズ株式会社
ソフトウエアとハードウエア
bull ソフトウエアThe Law of Morehellip
ndashシステム規模とその複雑さの急速な増加拡大
ndash ソフトウエアの準備が出来た時点でハードウエアは既に陳腐化し次のシステムの導入の検討が進む
bull ハードウエアMoore‟s Law (ムーアの法則)ndash消費電力の問題のためプロセッサの動作クロックを今までのペースで上げることは困難
ndashプロセッサとメモリの性能差の拡大によるCPUサイクルとのギャップ
ndashピーク性能と実効性能のギャップの拡大
スケーラブルシステムズ株式会社
ソフトウエアThe Law of Morehellip
bull 研究者はより多くの時間(More Time)をソフトウエアの開発のために必要としている
bull 問題はより複雑(More Complex)になりそしてより多くのプロセッサ(More Processors)を利用して処理を行うにはより多くの困難(More
Difficult)が伴います
スケーラブルシステムズ株式会社
アルゴリズムの最適化
bull 計算機自身の進化と共に計算アルゴリズムも最適化されている
bull 例編微分方程式の解法ndash N=106の場合ガウスの消去法で線形方程式を解く場合と
MGでの計算では108倍の計算量が違うndash これは1Mflopssの計算機で100Tflopssの計算機に相当する計算を行ったことになる
O(N)F-cycle MG
O(N76 log(N))CGMILU
O(N43 log(N))Optimal SOR
O(N53 log(N))Gauss Seidel
O(N73)Banded Gauss Elimination
計算オペレーション数(概数)アルゴリズム
2u=f 100
100100
スケーラブルシステムズ株式会社
ソフトウエアThe Law of Morehellip
bull 一般の商用製品を活用したクラスタソリューションでは「Capacity」の実現は容易であるが「Capability」の実現については依然として課題が多いndash コストパフォーマンスの高いシステムの構築は可能だとしてもコストプロダクティビティの高いシステムの構築も課題
bull 数百~数千プロセッサ構成のシステムの利用技術と解析対象の検討ndash 小規模中規模問題の高速処理への対応ndash ソフトウエア開発の生産性
bull 数プロセッサ~数十プロセッサをより簡便に容易に利用できる技術ndash シングルプロセッサシングルスレッドを利用するのと同じようにhellip
スケーラブルシステムズ株式会社
ソフトウエアとハードウエア
bull ソフトウエアThe Law of Morehellip
ndashシステム規模とその複雑さの急速な増加拡大
ndash ソフトウエアの準備が出来た時点でハードウエアは既に陳腐化し次のシステムの導入の検討が進む
bull ハードウエアMoore‟s Law (ムーアの法則)ndash消費電力の問題のためプロセッサの動作クロックを今までのペースで上げることは困難
ndashプロセッサとメモリの性能差の拡大によるCPUサイクルとのギャップ
ndashピーク性能と実効性能のギャップの拡大
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash過去12年間でPentiumプロセッサの動作周波数は60 MHz から 3800 MHz にまでアップ
ndash現在までの高性能化の約80 はクロック周波数の向上によるもの
スケーラブルシステムズ株式会社
ハードウエアの問題Moore‟s Lawムーアの法則
bull インテルの共同設立者の1人である Gordon Moore 博士が1965年4月19日号の「Electronics」誌に投稿した 「一定面積に集積されるトランジスタの数は12か月で倍増しそれに伴いトランジスタの動作速度が向上する」という予測 (その後1975年に Moore 博士はチップの複雑化を考慮してトランジスタ数の倍増ペースを24か月に修正)
bull また一般にはあまり知られていないがテクノロジの進歩とともに製造コストが劇的に下落することも予測(左図)
httpwwwintelcojpjpdevelopertechnologysiliconmooreslawindexhtm
指数関数的成長は永遠には続かないしかしその永遠を先延ばしにすることはできる [英語 PDF 形式 2MB]
Gordon E Moore2003年2月10日ISSCC (International
Solid State Circuits Conference) でのプレゼンテーション
Dr Gordon Moore
(co-founder of Intel)
スケーラブルシステムズ株式会社
Technology Trend
ムーアの法則依然として有効
スケーラブルシステムズ株式会社
性能向上の源泉は
ハードウエアデバイス技術の進歩bull ロジック回路のスイッチング速度の向上とデバイス密度bull メモリサイズの拡大とアクセス速度の向上bull 通信性能(バンド幅とレイテンシの向上)
bull 並列性ndash 1サイクルでの命令実行数
bull 命令レベルでの並列性(ILP)
bull ベクトル処理ndash プロセッサあたりコア数ndash ノードあたりのプロセッサ数ndash システムあたりのノード数
コンピュータアーキテクチャbull 命令発行実行速度の向上
ndash パイプライン化ndash 分岐予測ndash キャッシュndash Out-of-order など
スケーラブルシステムズ株式会社
GHz競争
bull 2000年に開催されたIEEE国際電子デバイス会議2000(2000
IEEE International Electron Devices MeetingIEDM) においてインテル社は4億個以上のトランジスタを集積した10GHz駆動のプロセッサが2005年までに実現可能だと発表しましたndash 実際にはインテル社の最速プロセッサは6ヶ月前に発表された
38GHz(Intel Pentium 4)となっています
bull Prescottプロセッサの6xxシリーズ発表に際してインテル社はldquoadding value beyond GHzrdquo のコメントを出していますそれ以降インテル社の多くのドキュメントやプレスリリースはこのldquoadding value beyond GHzrdquo についての内容を含んでいます
スケーラブルシステムズ株式会社
発熱の問題が深刻化
Bob Colwell氏の資料より抜粋
Increasing Frequency
Watt
scm
2
1
10
100
1000
15 10 07 05 035 025 018 013 01 007
i386i486
PentiumPentium Pro
Pentium IIPentium III
Hot Plate
Nuclear Reactor
Rocket Nozzle
Pentium 4(Prescott)
Pentium 4(Willamette)
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash過去12年間でPentiumプロセッサの動作周波数は60 MHz から 3800 MHz にまでアップ
ndash現在までの高性能化の約80 はクロック周波数の向上によるもの
bull 命令実行の強化と最適化
ndashより強力なインストラクションセット
ndash命令実行の最適化(パイプライン化分岐予測複数命令の同時実行命令実行順序の変更など)
スケーラブルシステムズ株式会社
技術のSカーブ技術開発の進展と製品性能の成長の関係
bull 技術開発の初期は製品性能はゆっくりと向上するがしだいに性能の向上の幅が大きくなるしかし次第に技術開発が成熟段階に入ると性能向上は逓減していく
製品の性能
時間
First Technology
Second Technology
Third Technology
RISCアウトオブオーダー実行lt1 instruction cycle
スーパースカラー RISCアウトオブオーダー実行lt2 instructions cycle
明示的並列命令コンピューティング技術 (EPIC)
命令の並列実行度の向上
スケーラブルシステムズ株式会社
マイクロアーキテクチャのSカーブ
Johan De Gelas Quest for More Processing Power
AnandTech Feb 8 2005
httpwwwanandtechcomcpuchipsetsshowdocaspxi=2343
101
102
103
104
105
106
MIP
S
1980 1985 1990 1995 2000 2005 2010
Pentium Architecture
Super Scalar
Pentium Pro Architecture
Speculative Out-of-Order
Pentium 4 Architecture
Trace Cache
Pentium 4 and Xeon Architecture with HT
Multi-Threaded
Multi-Threaded Multi-Core
Era of
Instruction
Parallelism
Era of
Thread
Parallelism
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash 過去12年間でPentiumプロセッサの動作周波数は60
MHz から 3800 MHz にまでアップ
ndash 現在までの高性能化の約80 はクロック周波数の向上によるもの
bull 命令実行の強化と最適化
ndash より強力なインストラクションセット
ndash 命令実行の最適化(パイプライン化分岐予測複数命令の同時実行命令実行順序の変更など)
bull 大容量キャッシュ
ndash プロセッサの速度とメモリレイテンシ(待ち時間)とバンド幅のギャップの拡大に対する対策対応としての容量の拡張
スケーラブルシステムズ株式会社
性能ギャップの問題
bull プロセッサ速度とメモリアクセスの速度差によってプロセッサがより高速になったとしてもプロセッサはその演算能力を完全に使い切ることが出来ない
1
10
100
1000Performance
1980 1990 2000
microProc
60yr
DRAM
7yr
バンド幅とレイテンシの問題が今後はより深刻(プロセッサ性能とのギャップはほぼ年率50の差で広がっている)
DRAM
CPU
プロセッサはほぼナノ秒に一回命令実行DRAMへのアクセスはほぼ100ナノ秒の時間
スケーラブルシステムズ株式会社
今後の発展と課題
Episode IV
A New Hope
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash 過去12年間でPentiumプロセッサの動作周波数は60
MHz から 3800 MHz にまでアップ
ndash 現在までの高性能化の約80 はクロック周波数の向上によるもの
bull 命令実行の強化と最適化
ndash より強力なインストラクションセット
ndash 命令実行の最適化(パイプライン化分岐予測複数命令の同時実行命令実行順序の変更など)
bull 大容量キャッシュ
ndash プロセッサの速度とメモリレイテンシ(待ち時間)とバンド幅のギャップの拡大に対する対策対応としての容量の拡張
スケーラブルシステムズ株式会社
デュアルコアプロセッサ
bull チップ上のトランジスタのより有効活用が可能bull スレッドレベルでの並列処理を活用bull よりシンプルなプロセッサの設計が可能
bull 将来のマイクロプロセッサはより多くのコアを実装可能bull 将来のマイクロプロセッサはより大容量のキャッシュの実装が可能
IBM Power5
with 19MB L2
AMD Opteron
with 2MB L2
Intel Montecito
With 24MB L3
スケーラブルシステムズ株式会社
イノベーションのジレンマ
製品の性能
時間
First Technology
Second Technology
Third Technology
RISCアウトオブオーダー実行lt1 instruction cycle
スーパースカラー RISCアウトオブオーダー実行lt2 instructions cycle
明示的並列命令コンピューティング技術 (EPIC)
命令の並列実行度の向上
製品の性能(異なる尺度)
時間
持続的イノベーション
技術革新が顧客の求める性能向上軸(ムーアの法則)に沿っている
破壊的イノベーションマルチコアとマルチスレッドによる並列処理
短期的には(シングルスレッドの性能)としては性能が低下するが将来の大きな性能向上とコスト低下機能強化の可能性が大きい
スケーラブルシステムズ株式会社
マルチコアの利点
ワークロードの処理効率の向上
bull マルチスレッドアプリケーションndash現在多くのアプリケーション(データベース
WEB科学技術計算)はマルチスレッド化
ndashマルチコアプロセッサではこれらのアプリケーションのマルチスレッドでの実行が容易に可能
bull 複数ジョブの処理ndashシステムでは複数のワークロード同時に処理することが必要
ndashマルチコアではこれらのワークロードへの処理が可能
スケーラブルシステムズ株式会社
マルチコアの利点
消費電力あたりの性能を最大にし高性能で低消費電力のシステム構築が可能
bull OS自身のマルチスレッド対応
ndash OSのサービスもマルチスレッドで処理することでより効率よく処理することが可能
bull 仮想化
ndashサーバのセキュリティや管理の強化
ndash管理するノード数を減らし運用コストの削減を図る
bull 最新のソフトウエアテクノロジの活用
スケーラブルシステムズ株式会社
大きな変革しかし容易ではない
マルチコアプロセッシング(または汎用もしくは専用プロセッサをソケットに複数搭載可能なこと)はEthernetの誕生以来ITインフラに対しての大きなインパクトをもたらします
デュアルプロセッサは386プロセッサの発表以来性能に関して最大の向上を実現しますしかしこのような性能向上にはソフトウエアの最適化がプロセッサの性能をフルに発揮するためには必要です
スケーラブルシステムズ株式会社
並列性(Parallelism)の利用
マルチタスク処理
MPIなどによる複数のノード間での並列処理
ユーザ及びコンパイラによるスレッドレベルでの並列処理(TLP)
コンパイラによる命列実行レベルでの並列処理(ILP)
マルチコア
マルチプロセッサ
マルチノード
マルチインストラクション
システム
スケーラブルシステムズ株式会社
ムーアの法則(GHz から MC へ)
マルチコアによる性能向上
動作周波数の向上による性能向上
性能
2005
bullマルチスレッドbullマルチタスクbull トレーニングbullツールbullhelliphellip
並列処理による性能向上についてはシステムサポートやプログラミングサポートなどの面での技術支援が重要です
スケーラブルシステムズ株式会社
Episode VI
Return of the Jedi
Ts for HPC - インテルテクノロジのHPCにおける価値の考察
スケーラブルシステムズ株式会社
将来予測の難しさ
bull ldquoI think there is a world market for maybe five
computersrdquobull Thomas Watson chairman of IBM 1943
bull ldquoThere is no reason for any individual to have a
computer in their homerdquobull Ken Olson president and founder of digital equipment
corporation 1977
bull ldquoThere are only about 100 potential customers
worldwide for a Cray-1rdquobull Seymour Cray 1977
bull ldquo640K [of memory] ought to be enough for
anybodyrdquobull Bill Gates chairman of Microsoft1981
スケーラブルシステムズ株式会社
「未来を予測する最良の方法はそれを創造してしまうことである」The best way to predict future is to invent it
Dr Alan Kay President of Viewpoints Research
Institute Inc
スケーラブルシステムズ株式会社
ITマネージメントの課題
bull プラットフォームの内部からの保護ndash ウイルスやワームなど悪意あるソフトウェアからの保護
bull 資産管理ndash 多くの IT 部門では特定できない資産が問題
bull オンラインおよびリモート管理診断機能 ndash アップグレード診断復旧のための作業の効率化
bull アプリケーション統合の困難さ
ndash アプリケーションの高度化と複雑化によって複数のアプリケーションを組み合わせるての動作に問題
bull 動的なリソース割り当て
ndash 組織内で未使用のCPUやメモリの活用
スケーラブルシステムズ株式会社
マーケットトレンド
All Servers Worldwide 2003 2004 2005 20062003 to 2006
CAGR
2005 to 2006
CAGR
Total Factory Revenue($B) $46149 $49146 $51268 $52251 42 19
Units Shipped(same as nodes) 5278222 6307484 7050099 7472649 123 60
Processor Dies Shipped 8662823 10134624 11712766 12779159 138 91
HPC Technical Servers Worldwide 2003 2004 2005 20062003 to 2006
CAGR
2005 to 2006
CAGR
HPC Server Revenue($B) $5698 $7393 $9208 $10030 207 89
Adjusted Revenues(To much
enterprise)$5128 $6654 $8287 $9027 207 89
Node Units Shipped 411327 734510 1215735 1419221 511 167
Processor Elements Shipped 1002905 1657827 2681079 3351843 495 250
HPC As A Ratio Of All Servers 2003 2004 2005 2006
Revenue($B) 123 150 180 192
Adjusted Revenues(Apples-to-
apples)111 135 162 173
Units Shipped(Nodes) 78 116 172 190
Processors Shipped 116 164 226 261
Source IDC 2007
スケーラブルシステムズ株式会社
HPCマーケット(対全サーバマーケット)
0
5
10
15
20
25
30
2003 2004 2005 2006
Revenue($B)
Adjusted Revenues(Apples-to-apples)
Units Shipped(Nodes)
Processors Shipped
スケーラブルシステムズ株式会社
マーケットトレンド
Source IDC 2004
Cost of mgmt amp admin 10 CAGR
$0
$20
$40
$60
$80
$100
$120
$140
$160
$180
$200
1996 rsquo97 rsquo98 rsquo992000 rsquo01 rsquo02 rsquo03 rsquo04 rsquo05 rsquo06 rsquo07 rsquo08-
New server spending (USM$) 3 CAGR
Spending (USB$)
5
10
15
20
25
30
35
Installed Base (M Units)
bull ハードウェアの減価償却費は IT の TCO 全体の約25 にすぎない
bull ソフトウェアのコストはわずか10~15
bull 電気などの公共料金フロアスペース電話回線など設備面のコストの割合もきわめて小さい
bull プラットフォームのコストではなくTCOの大きな比率を占めるのは人件費となっている
スケーラブルシステムズ株式会社
運用管理コストの低減
bull 「もっと処理性能を」と「より安価に」を実現するためにワークステーションやサーバでの分散処理の導入
bull ユーザや企業に新たな価値をもたらしてはいるが管理責任とその負担の分散を招き結果的に運用管理コストを押し上げる
メインフレームスーパーコンピュータ
仮想化によるサーバコンソリデーション
クラスタによる仮想コンピュータ
スケーラブルシステムズ株式会社
次世代HPCインフラ
bull コアとスレッド
ndash より多くのスレッドを効率よく利用可能
ndash マルチスレッド向け最適化
bull 電力管理
ndash 省電力
ndash データセンター運用管理機能
bull 仮想化
ndash 柔軟性と優れた運用管理
ndash 仮想的なシステムパーティション
bull RAS
ndash ハードウエアベースの自己監視自己管理
ndash ファームウエアベースのエラー履歴管理
bull システム管理
ndash より低いTCOを実現するための一般標準化されたマネージメント機能
スケーラブルシステムズ株式会社
高速プロセッサ
64ビットアドレス
メモリ性能と容
量
IOバンド幅
インターコネクト
省電力
システムのlsquoバランスrsquo
マルチコアによってプロセッサ単体の処理性能の向上を図る
64ビットのアドレス空間と
拡張されたレジスタによるOSとアプリケーション双方の機能性能拡張
64ビット化とマルチコア化
にともなう高速大容量へのニーズに対応しまたその拡張性の高い実装技術の実現
CPU-メモリ間の高速な
データ転送やより高速なネットワーク大規模なストレージのサポート
大規模なクラスタシステムの構築及びアプリケーションのワークロードに対応した高速性能
エコシステムに対応するためにも電力消費量や発熱量を積極的に抑える技術の開発
スケーラブルシステムズ株式会社
HPCの二極分化
Going UP
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
Going DOWN
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
スケーラブルシステムズ株式会社
システムとユーザの尺度
bull ユーザの尺度での性能(Performance)は時間当たりにどれだけの仕事を処理出来るか(仕事量 時間)
bull Flopsでの評価は実際には意味がないまた問題の規模(small medium large) という評価も難しい
bull ldquoスケーラビリティrdquoは対象を明確に規定する必要がある
システムの尺度 ユーザの尺度
Flops hArr 計算終了までの時間
メモリサイズ(GB) hArr モデルのサイズと計算結果
プロセッサ数 hArr ワークロードでの試行
データ長 hArr 計算精度
システム構成(クラスタ) hArr 導入コストと運用コスト
スケーラビリティ hArr ベンチマーク
スケーラブルシステムズ株式会社
HPCシステムの動向国家プロジェクトと商用製品のギャップの拡大
Going UP
Going DOWN
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
Peta-Scaleコンピューティングに求められる基本技術と現在のHPCの主要マーケットでの要求はあまりにも差が大きいrarrHPCSシステムは各社とのlsquoCommodityrsquoのマイクロプロセッサではなく独自のプロセッサを開発中
ハードウエアはrsquoCommodityrsquo
なものを利用してSWの改善サポート利用技術のサポートが今後の主要マーケットでの成功の鍵となる
スケーラブルシステムズ株式会社
HPCシステムの動向国家プロジェクト
Going UP
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
Peta-Scaleコンピューティングに求められる基本技術と現在のHPCの主要マーケットでの要求はあまりにも差が大きいrarrHPCSシステムは各社とのlsquoCommodityrsquoのマイクロプロセッサではなく独自のプロセッサを開発中
スケーラブルシステムズ株式会社
TOP500性能予測
1993 1995 1997 1999 2001 2003 2005 2007 2009 2011 2013 2015
N=
50
SUM
1 Gflops
1 Tflops
100 Mflops
100 Gflops
100 Tflops
10 Gflops
10 Tflops
1 Pflops
10 Pflops
IBM ASCI White
Blue GeneEarth Simulator
Intel
TOP500の総計が1PFを超えています
TOP500に掲載されるには1TF
が最低条件になっています
シングルシステムの1PFの実現は2009年
システム(プロセッサ数) 13倍年プロセッサ性能向上 14倍年トータル性能 18倍年
2009年までに1ペタFLOPS
スケーラブルシステムズ株式会社
性能ギャップの拡大
bull ピーク性能の大幅な向上ndash 1990年台は性能の向上は102のオーダーでしたが2000年台になると103のオーダーで性能は向上しています
しかしhellipndash 多くの科学技術計算用途のアプリケーションのピーク性能に対する実効性能の比率は5-10となっています(1990年代のベクトル計算機は40-50の対ピーク性能を示していました)
bull 今必要なのはndash より高い実効性能を発揮することが可能な計算アルゴリズムと手法の開発とスケーラビリティの向上
ndash プログラミングモデルなども含めてスケーラブルな計算機環境の構築
01
1
10
100
1000
2000 2004
Tera
flo
ps
1996
Performance
Gap
Peak Performance
Real Performance
NERSC User Group Meeting June 24-25 2004
Osni Marques and Tony Drummond
Lawrence Berkeley National Laboratory
スケーラブルシステムズ株式会社
ペタスケールシステムの構築
bull ソフトウエア(アプリケーションOSプログラミングAPIなど)の課題の克服が課題
bull システムの複雑さと生産性
例Linpack Benchmark
bull オリジナルベンチマークプログラム ~100ライン
bull HPL ベンチマークプログラム ~10000ライン(x100より複雑)
lsquo複雑さrsquoの壁
現在のテラFLOPS級の問題
Source ORNL
スケーラブルシステムズ株式会社
HPCシステムの動向商用製品
Going DOWN
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
ハードウエアはrsquoCommodityrsquo
なものを利用してSWの改善サポート利用技術のサポートが今後の主要マーケットでの成功の鍵となる
スケーラブルシステムズ株式会社
標準コンポーネントの進化
bull プロセッサの性能向上ndash lsquoマルチコアrsquoによる省電力での性能向上が可能
ndash HPCアプリケーションは容易にlsquoマルチコアrsquoの利点を活用可能 (OpenMPやMPI)
bull ファイルシステムndash高性能なスケーラブルファイルシステム(オープンソース)
bull インターコネクトndash PCI-Express (メモリlarrrarrインターコネクト)
ndash高速の商用製品やオープンソースでの強力(OpenIBなど)
スケーラブルシステムズ株式会社
標準コンポーネントの利点
bull 特定のベンダーからのシステムを組み合わせるのではなく他社のシステムも含めてベストなシステムの選択が可能
ndashスケーラブルSMPベクトル計算機クラスタの幅広い選択肢
ndash 64ビットマルチコアマイクロプロセッサの性能向上を最大限に活用
bull 標準コンポーネントの技術革新の活用
ndash PCI-ExpressやFB-DIMMの利用技術
スケーラブルシステムズ株式会社
Breaking the 1-2K nodes Barrier
bull 音の障壁サウンドバリヤー(sound barrier)飛行機の速度が音速近くになると衝撃波の発生によって抵抗の増大境界層の剥離など設計運用上のさまざまな障害(壁)に出合って超音速飛行は不可能かと思われた時代があった(1947年ごろまで)ので音の障壁といわれていた
httpwwwwilk4commiscsoundbreakhtm
クラスタのノード数がある規模に近くなるとその構築や運用において負担の増大システムの安定稼動スケーラビリティなど設計運用上のさまざまな障害(壁)に出合ってクラスタ構築は不可能と思われた時代があった()
スケーラブルシステムズ株式会社
ビルゲイツ氏の基調講演HPC goes mainstream
スケーラブルシステムズ株式会社
「Fast」「Good」「Cheap」のパズル
Fast
+ Cheap
Inferior
高い性能を廉価なシステムで構築することも可能ですただそのようなシステムの場合システムの構築や利用は必ずしも容易ではありません
Good
+ Cheap
Slow比較的小規模なシステムであれば廉価で使い勝手の良いものを探すことは可能ですしかしそのようなシステムでは拡張性やより大規模なシステム構築が出来ません
Good
+ Fast
Expensive
付加価値の高い性能の高いシステムは一般には高価ですその付加価値がユーザにとってメリットが無ければコストパフォーマンスの悪いシステムになるだけです
スケーラブルシステムズ株式会社
まとめとして
bull 「テクノロジー」をどのようにとらえるかndash企業経営基盤のコア要素
ndashユーザの本質的な課題を解決する戦略的な武器
bull マーケットを牽引する「テクノロジ」に求められることndashテクノロジとHPCにおけるITインフラの関係を明確にすること
bull ユーザに何らかのメリットをもたらさない「テクノロジー」は意味を成さない
ndashテクノロジーを最適に組み合わせることで問題解決のためのソリューションの提供が可能
スケーラブルシステムズ株式会社
まとめとして
bull bdquoTs‟ for HPC - インテルテクノロジのHPCにおける価値
ndash インテルテクノロジはHPCにおいて重要な構成要素となっている
ndashそれらの構成要素を統合することでより高い価値の提供が可能となる
ndash二分化しつつあるHPCシステムにおいて「標準コ
ンポーネント」としてのプラットフォームの動向として今後もその動向には注目する必要がある
スケーラブルシステムズ株式会社
さらに詳しい情報はhellip
bull 弊社のコンサルテーションに関するご提案資料もダウンロード可能です(非公開WEBページ)別途弊社に内容等についてはお尋ねください
お問い合わせ先102-0083
東京都千代田区麹町3-5-2
BUREX麹町 8F
電話03-5875-4718
FAX03-3237-7612
E-mailbizsstccojp
httpwwwsstccojp wwwsstccojpbiz
スケーラブルシステムズ株式会社
スケーラブルシステムズ株式会社
ハイエンドコンピューティングに関するコンサルテーションとして幅広いサービスをご提供致します
このサービスを最大限に活用していただくことでコラボレーションによる「顧客志向」 のコン
サルテーションサービスをご提供できればと思っております
スケーラブルシステムズ株式会社
社名製品名などは一般に各社の商標または登録商標です無断での引用転載を禁じます
In general the name of the company and the product name etc are the trademarks or registered trademarks of each company
Copyright Scalable Systems Co Ltd 2005 Unauthorized use is strictly forbidden
2005年11月
スケーラブルシステムズ株式会社
シングルプロセッサ性能Linpack
Cray 1s
Xmp
Xmp
Ymp
C90
Sun 4260
MIPS M120
MIPS M2000
IBM RS6000540HP 9000750
DEC Alpha AXP
HP9000735
MIPS R4400
IBM Power2990
1
10
100
1000
10000
1975 1980 1985 1990 1995 2000
Lin
pack
MF
LO
PS
Cray n=1000 Cray n=100
Micro n=1000 Micro n=100
DEC 8200
T94
スケーラブルシステムズ株式会社
ベクトル計算機の性能
Q なぜベクトル計算機の性能がマイクロプロセッサの性能のように向上しなかったのでしょうか
A ベクトル計算機はグローバル共有メモリに対する高い接続性能にその性能が依存していたためにこのメモリ間接続の性能向上がボトルネックとなってしまいました
例DRAMメモリの性能と仕様
1979標準DRAM 1999200 MHz SDRAM 1979rarr1999
16K bit
1-bit wide interface
5 Mbs uniform access BW
2 Mbs random access BW
256 Mbit
16-bit wide interface
3200 Mbs uniform access BW
1000 Mbs random access BW
X 16000
X 640
X 500
X 25
スケーラブルシステムズ株式会社
The Pahntom Menace
1993-2000
ベクトル計算機の凋落
商用プロセッサの台頭
スケーラブルシステムズ株式会社
ベクトル計算機の逆襲
Episode V
The Empire Strikes Back
スケーラブルシステムズ株式会社
ベクトル計算機の逆襲
bull 2002
bull 地球シュミレータ
bull コンピュータにおけるスプートニックショック
10487075120 (640 8-way nodes) 500 MHz NEC
10487078 GFLOPS per CPU (41 TFLOPS total)
10487072 GB Memory per CPU (10 TB total)
104870720 kVA power consumption per node
スケーラブルシステムズ株式会社
HPCの歴史
Episode II
Attack of the Clones
スケーラブルシステムズ株式会社
イノベーションのジレンマ
bull クレイトンクリステンセンの「イノベーションのジレンマ」
bull 持続的イノベーションと破壊的イノベーションによるマーケットの動向を分析
bull 持続的イノベーション
ndash 技術革新が顧客の求める性能向上軸に沿っている
bull 破壊的イノベーション
ndash 既存顧客が求める性能とは異なる軸の性能(特性)
スケーラブルシステムズ株式会社
製品の性能
時間
製品の性能(異なる尺度で評価)
時間
Commodity-Based Cluster
RISCベースのSMPNUMAシステム
ベクトル計算機
破壊的イノベーション
スケーラブルシステムズ株式会社
Beowulf プロジェクト
Wiglaf - 1994
16 Intel 80486 100 MHz
VESA Local bus
256 Mbytes memory
64 Gbytes of disk
Dual 10 base-T Ethernet
72 Mflops sustained
$40K
Hrothgar - 1995
16 Intel Pentium100 MHz
PCI
1 Gbyte memory
64 Gbytes of disk
100 base-T Fast Ethernet
(hub)
240 Mflops sustained
$46K
Hyglac-1996 (Caltech)
16 Pentium Pro 200 MHz
PCI
2 Gbytes memory
496 Gbytes of disk
100 base-T Fast Ethernet
(switch)
125 Gflops sustained
$50K
スケーラブルシステムズ株式会社
クラスタシステムの台頭
2000-2005
スケーラブルシステムズ株式会社
課題
Episode III
Revenge of the sith
スケーラブルシステムズ株式会社
HPCの現状
Going UP Going DOWN
システムの規模解析モデルのサイズ運用管理の複雑さbull電力bullスペースbullシステムの相互接続bull管理コスト
生産性bullプログラミングbullシステムの可用性bull実効性能ピーク性能システムバランスHWコスト
スケーラブルシステムズ株式会社
HPCマーケット
bull HPCマーケットでのHPCシステム構築及び製品は次の3つのセグメントに分かれているndash 一般商用システム( Commodity-based systems)
bull 一般のクラスタシステム(Dell HPCCなど)
ndash 付加価値システム( Value-based systems)bull 多くのSMPやNUMAシステム(SGI Altixなど)
ndash 特定目的システム( Purpose-built systems)bull アプリケーションと解析対象に合わせたシステム設計(IBM
BlueGeneLなど)
bull IDCなどのレポートでも一般商用システムのHPCマーケットでの導入がもっともその成長が大きいndash 付加価値システムの課題(一般商用システムとの競合に対する対応もしくは新たな分野の開拓rarrペタスケールコンピューティング)
ndash HPCSプログラムはこの付加価値システムのベンダーにとっても生き残りを賭けた戦い (2006July)
スケーラブルシステムズ株式会社
HPCシステムの現状分析
bull Good News
ldquoHPCシステムにおける問題はたった2つだけであるrdquo
スケーラブルシステムズ株式会社
ソフトウエアとハードウエア
bull ソフトウエアThe Law of Morehellip
ndashシステム規模とその複雑さの急速な増加拡大
ndash ソフトウエアの準備が出来た時点でハードウエアは既に陳腐化し次のシステムの導入の検討が進む
bull ハードウエアMoore‟s Law (ムーアの法則)ndash消費電力の問題のためプロセッサの動作クロックを今までのペースで上げることは困難
ndashプロセッサとメモリの性能差の拡大によるCPUサイクルとのギャップ
ndashピーク性能と実効性能のギャップの拡大
スケーラブルシステムズ株式会社
ソフトウエアThe Law of Morehellip
bull 研究者はより多くの時間(More Time)をソフトウエアの開発のために必要としている
bull 問題はより複雑(More Complex)になりそしてより多くのプロセッサ(More Processors)を利用して処理を行うにはより多くの困難(More
Difficult)が伴います
スケーラブルシステムズ株式会社
アルゴリズムの最適化
bull 計算機自身の進化と共に計算アルゴリズムも最適化されている
bull 例編微分方程式の解法ndash N=106の場合ガウスの消去法で線形方程式を解く場合と
MGでの計算では108倍の計算量が違うndash これは1Mflopssの計算機で100Tflopssの計算機に相当する計算を行ったことになる
O(N)F-cycle MG
O(N76 log(N))CGMILU
O(N43 log(N))Optimal SOR
O(N53 log(N))Gauss Seidel
O(N73)Banded Gauss Elimination
計算オペレーション数(概数)アルゴリズム
2u=f 100
100100
スケーラブルシステムズ株式会社
ソフトウエアThe Law of Morehellip
bull 一般の商用製品を活用したクラスタソリューションでは「Capacity」の実現は容易であるが「Capability」の実現については依然として課題が多いndash コストパフォーマンスの高いシステムの構築は可能だとしてもコストプロダクティビティの高いシステムの構築も課題
bull 数百~数千プロセッサ構成のシステムの利用技術と解析対象の検討ndash 小規模中規模問題の高速処理への対応ndash ソフトウエア開発の生産性
bull 数プロセッサ~数十プロセッサをより簡便に容易に利用できる技術ndash シングルプロセッサシングルスレッドを利用するのと同じようにhellip
スケーラブルシステムズ株式会社
ソフトウエアとハードウエア
bull ソフトウエアThe Law of Morehellip
ndashシステム規模とその複雑さの急速な増加拡大
ndash ソフトウエアの準備が出来た時点でハードウエアは既に陳腐化し次のシステムの導入の検討が進む
bull ハードウエアMoore‟s Law (ムーアの法則)ndash消費電力の問題のためプロセッサの動作クロックを今までのペースで上げることは困難
ndashプロセッサとメモリの性能差の拡大によるCPUサイクルとのギャップ
ndashピーク性能と実効性能のギャップの拡大
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash過去12年間でPentiumプロセッサの動作周波数は60 MHz から 3800 MHz にまでアップ
ndash現在までの高性能化の約80 はクロック周波数の向上によるもの
スケーラブルシステムズ株式会社
ハードウエアの問題Moore‟s Lawムーアの法則
bull インテルの共同設立者の1人である Gordon Moore 博士が1965年4月19日号の「Electronics」誌に投稿した 「一定面積に集積されるトランジスタの数は12か月で倍増しそれに伴いトランジスタの動作速度が向上する」という予測 (その後1975年に Moore 博士はチップの複雑化を考慮してトランジスタ数の倍増ペースを24か月に修正)
bull また一般にはあまり知られていないがテクノロジの進歩とともに製造コストが劇的に下落することも予測(左図)
httpwwwintelcojpjpdevelopertechnologysiliconmooreslawindexhtm
指数関数的成長は永遠には続かないしかしその永遠を先延ばしにすることはできる [英語 PDF 形式 2MB]
Gordon E Moore2003年2月10日ISSCC (International
Solid State Circuits Conference) でのプレゼンテーション
Dr Gordon Moore
(co-founder of Intel)
スケーラブルシステムズ株式会社
Technology Trend
ムーアの法則依然として有効
スケーラブルシステムズ株式会社
性能向上の源泉は
ハードウエアデバイス技術の進歩bull ロジック回路のスイッチング速度の向上とデバイス密度bull メモリサイズの拡大とアクセス速度の向上bull 通信性能(バンド幅とレイテンシの向上)
bull 並列性ndash 1サイクルでの命令実行数
bull 命令レベルでの並列性(ILP)
bull ベクトル処理ndash プロセッサあたりコア数ndash ノードあたりのプロセッサ数ndash システムあたりのノード数
コンピュータアーキテクチャbull 命令発行実行速度の向上
ndash パイプライン化ndash 分岐予測ndash キャッシュndash Out-of-order など
スケーラブルシステムズ株式会社
GHz競争
bull 2000年に開催されたIEEE国際電子デバイス会議2000(2000
IEEE International Electron Devices MeetingIEDM) においてインテル社は4億個以上のトランジスタを集積した10GHz駆動のプロセッサが2005年までに実現可能だと発表しましたndash 実際にはインテル社の最速プロセッサは6ヶ月前に発表された
38GHz(Intel Pentium 4)となっています
bull Prescottプロセッサの6xxシリーズ発表に際してインテル社はldquoadding value beyond GHzrdquo のコメントを出していますそれ以降インテル社の多くのドキュメントやプレスリリースはこのldquoadding value beyond GHzrdquo についての内容を含んでいます
スケーラブルシステムズ株式会社
発熱の問題が深刻化
Bob Colwell氏の資料より抜粋
Increasing Frequency
Watt
scm
2
1
10
100
1000
15 10 07 05 035 025 018 013 01 007
i386i486
PentiumPentium Pro
Pentium IIPentium III
Hot Plate
Nuclear Reactor
Rocket Nozzle
Pentium 4(Prescott)
Pentium 4(Willamette)
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash過去12年間でPentiumプロセッサの動作周波数は60 MHz から 3800 MHz にまでアップ
ndash現在までの高性能化の約80 はクロック周波数の向上によるもの
bull 命令実行の強化と最適化
ndashより強力なインストラクションセット
ndash命令実行の最適化(パイプライン化分岐予測複数命令の同時実行命令実行順序の変更など)
スケーラブルシステムズ株式会社
技術のSカーブ技術開発の進展と製品性能の成長の関係
bull 技術開発の初期は製品性能はゆっくりと向上するがしだいに性能の向上の幅が大きくなるしかし次第に技術開発が成熟段階に入ると性能向上は逓減していく
製品の性能
時間
First Technology
Second Technology
Third Technology
RISCアウトオブオーダー実行lt1 instruction cycle
スーパースカラー RISCアウトオブオーダー実行lt2 instructions cycle
明示的並列命令コンピューティング技術 (EPIC)
命令の並列実行度の向上
スケーラブルシステムズ株式会社
マイクロアーキテクチャのSカーブ
Johan De Gelas Quest for More Processing Power
AnandTech Feb 8 2005
httpwwwanandtechcomcpuchipsetsshowdocaspxi=2343
101
102
103
104
105
106
MIP
S
1980 1985 1990 1995 2000 2005 2010
Pentium Architecture
Super Scalar
Pentium Pro Architecture
Speculative Out-of-Order
Pentium 4 Architecture
Trace Cache
Pentium 4 and Xeon Architecture with HT
Multi-Threaded
Multi-Threaded Multi-Core
Era of
Instruction
Parallelism
Era of
Thread
Parallelism
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash 過去12年間でPentiumプロセッサの動作周波数は60
MHz から 3800 MHz にまでアップ
ndash 現在までの高性能化の約80 はクロック周波数の向上によるもの
bull 命令実行の強化と最適化
ndash より強力なインストラクションセット
ndash 命令実行の最適化(パイプライン化分岐予測複数命令の同時実行命令実行順序の変更など)
bull 大容量キャッシュ
ndash プロセッサの速度とメモリレイテンシ(待ち時間)とバンド幅のギャップの拡大に対する対策対応としての容量の拡張
スケーラブルシステムズ株式会社
性能ギャップの問題
bull プロセッサ速度とメモリアクセスの速度差によってプロセッサがより高速になったとしてもプロセッサはその演算能力を完全に使い切ることが出来ない
1
10
100
1000Performance
1980 1990 2000
microProc
60yr
DRAM
7yr
バンド幅とレイテンシの問題が今後はより深刻(プロセッサ性能とのギャップはほぼ年率50の差で広がっている)
DRAM
CPU
プロセッサはほぼナノ秒に一回命令実行DRAMへのアクセスはほぼ100ナノ秒の時間
スケーラブルシステムズ株式会社
今後の発展と課題
Episode IV
A New Hope
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash 過去12年間でPentiumプロセッサの動作周波数は60
MHz から 3800 MHz にまでアップ
ndash 現在までの高性能化の約80 はクロック周波数の向上によるもの
bull 命令実行の強化と最適化
ndash より強力なインストラクションセット
ndash 命令実行の最適化(パイプライン化分岐予測複数命令の同時実行命令実行順序の変更など)
bull 大容量キャッシュ
ndash プロセッサの速度とメモリレイテンシ(待ち時間)とバンド幅のギャップの拡大に対する対策対応としての容量の拡張
スケーラブルシステムズ株式会社
デュアルコアプロセッサ
bull チップ上のトランジスタのより有効活用が可能bull スレッドレベルでの並列処理を活用bull よりシンプルなプロセッサの設計が可能
bull 将来のマイクロプロセッサはより多くのコアを実装可能bull 将来のマイクロプロセッサはより大容量のキャッシュの実装が可能
IBM Power5
with 19MB L2
AMD Opteron
with 2MB L2
Intel Montecito
With 24MB L3
スケーラブルシステムズ株式会社
イノベーションのジレンマ
製品の性能
時間
First Technology
Second Technology
Third Technology
RISCアウトオブオーダー実行lt1 instruction cycle
スーパースカラー RISCアウトオブオーダー実行lt2 instructions cycle
明示的並列命令コンピューティング技術 (EPIC)
命令の並列実行度の向上
製品の性能(異なる尺度)
時間
持続的イノベーション
技術革新が顧客の求める性能向上軸(ムーアの法則)に沿っている
破壊的イノベーションマルチコアとマルチスレッドによる並列処理
短期的には(シングルスレッドの性能)としては性能が低下するが将来の大きな性能向上とコスト低下機能強化の可能性が大きい
スケーラブルシステムズ株式会社
マルチコアの利点
ワークロードの処理効率の向上
bull マルチスレッドアプリケーションndash現在多くのアプリケーション(データベース
WEB科学技術計算)はマルチスレッド化
ndashマルチコアプロセッサではこれらのアプリケーションのマルチスレッドでの実行が容易に可能
bull 複数ジョブの処理ndashシステムでは複数のワークロード同時に処理することが必要
ndashマルチコアではこれらのワークロードへの処理が可能
スケーラブルシステムズ株式会社
マルチコアの利点
消費電力あたりの性能を最大にし高性能で低消費電力のシステム構築が可能
bull OS自身のマルチスレッド対応
ndash OSのサービスもマルチスレッドで処理することでより効率よく処理することが可能
bull 仮想化
ndashサーバのセキュリティや管理の強化
ndash管理するノード数を減らし運用コストの削減を図る
bull 最新のソフトウエアテクノロジの活用
スケーラブルシステムズ株式会社
大きな変革しかし容易ではない
マルチコアプロセッシング(または汎用もしくは専用プロセッサをソケットに複数搭載可能なこと)はEthernetの誕生以来ITインフラに対しての大きなインパクトをもたらします
デュアルプロセッサは386プロセッサの発表以来性能に関して最大の向上を実現しますしかしこのような性能向上にはソフトウエアの最適化がプロセッサの性能をフルに発揮するためには必要です
スケーラブルシステムズ株式会社
並列性(Parallelism)の利用
マルチタスク処理
MPIなどによる複数のノード間での並列処理
ユーザ及びコンパイラによるスレッドレベルでの並列処理(TLP)
コンパイラによる命列実行レベルでの並列処理(ILP)
マルチコア
マルチプロセッサ
マルチノード
マルチインストラクション
システム
スケーラブルシステムズ株式会社
ムーアの法則(GHz から MC へ)
マルチコアによる性能向上
動作周波数の向上による性能向上
性能
2005
bullマルチスレッドbullマルチタスクbull トレーニングbullツールbullhelliphellip
並列処理による性能向上についてはシステムサポートやプログラミングサポートなどの面での技術支援が重要です
スケーラブルシステムズ株式会社
Episode VI
Return of the Jedi
Ts for HPC - インテルテクノロジのHPCにおける価値の考察
スケーラブルシステムズ株式会社
将来予測の難しさ
bull ldquoI think there is a world market for maybe five
computersrdquobull Thomas Watson chairman of IBM 1943
bull ldquoThere is no reason for any individual to have a
computer in their homerdquobull Ken Olson president and founder of digital equipment
corporation 1977
bull ldquoThere are only about 100 potential customers
worldwide for a Cray-1rdquobull Seymour Cray 1977
bull ldquo640K [of memory] ought to be enough for
anybodyrdquobull Bill Gates chairman of Microsoft1981
スケーラブルシステムズ株式会社
「未来を予測する最良の方法はそれを創造してしまうことである」The best way to predict future is to invent it
Dr Alan Kay President of Viewpoints Research
Institute Inc
スケーラブルシステムズ株式会社
ITマネージメントの課題
bull プラットフォームの内部からの保護ndash ウイルスやワームなど悪意あるソフトウェアからの保護
bull 資産管理ndash 多くの IT 部門では特定できない資産が問題
bull オンラインおよびリモート管理診断機能 ndash アップグレード診断復旧のための作業の効率化
bull アプリケーション統合の困難さ
ndash アプリケーションの高度化と複雑化によって複数のアプリケーションを組み合わせるての動作に問題
bull 動的なリソース割り当て
ndash 組織内で未使用のCPUやメモリの活用
スケーラブルシステムズ株式会社
マーケットトレンド
All Servers Worldwide 2003 2004 2005 20062003 to 2006
CAGR
2005 to 2006
CAGR
Total Factory Revenue($B) $46149 $49146 $51268 $52251 42 19
Units Shipped(same as nodes) 5278222 6307484 7050099 7472649 123 60
Processor Dies Shipped 8662823 10134624 11712766 12779159 138 91
HPC Technical Servers Worldwide 2003 2004 2005 20062003 to 2006
CAGR
2005 to 2006
CAGR
HPC Server Revenue($B) $5698 $7393 $9208 $10030 207 89
Adjusted Revenues(To much
enterprise)$5128 $6654 $8287 $9027 207 89
Node Units Shipped 411327 734510 1215735 1419221 511 167
Processor Elements Shipped 1002905 1657827 2681079 3351843 495 250
HPC As A Ratio Of All Servers 2003 2004 2005 2006
Revenue($B) 123 150 180 192
Adjusted Revenues(Apples-to-
apples)111 135 162 173
Units Shipped(Nodes) 78 116 172 190
Processors Shipped 116 164 226 261
Source IDC 2007
スケーラブルシステムズ株式会社
HPCマーケット(対全サーバマーケット)
0
5
10
15
20
25
30
2003 2004 2005 2006
Revenue($B)
Adjusted Revenues(Apples-to-apples)
Units Shipped(Nodes)
Processors Shipped
スケーラブルシステムズ株式会社
マーケットトレンド
Source IDC 2004
Cost of mgmt amp admin 10 CAGR
$0
$20
$40
$60
$80
$100
$120
$140
$160
$180
$200
1996 rsquo97 rsquo98 rsquo992000 rsquo01 rsquo02 rsquo03 rsquo04 rsquo05 rsquo06 rsquo07 rsquo08-
New server spending (USM$) 3 CAGR
Spending (USB$)
5
10
15
20
25
30
35
Installed Base (M Units)
bull ハードウェアの減価償却費は IT の TCO 全体の約25 にすぎない
bull ソフトウェアのコストはわずか10~15
bull 電気などの公共料金フロアスペース電話回線など設備面のコストの割合もきわめて小さい
bull プラットフォームのコストではなくTCOの大きな比率を占めるのは人件費となっている
スケーラブルシステムズ株式会社
運用管理コストの低減
bull 「もっと処理性能を」と「より安価に」を実現するためにワークステーションやサーバでの分散処理の導入
bull ユーザや企業に新たな価値をもたらしてはいるが管理責任とその負担の分散を招き結果的に運用管理コストを押し上げる
メインフレームスーパーコンピュータ
仮想化によるサーバコンソリデーション
クラスタによる仮想コンピュータ
スケーラブルシステムズ株式会社
次世代HPCインフラ
bull コアとスレッド
ndash より多くのスレッドを効率よく利用可能
ndash マルチスレッド向け最適化
bull 電力管理
ndash 省電力
ndash データセンター運用管理機能
bull 仮想化
ndash 柔軟性と優れた運用管理
ndash 仮想的なシステムパーティション
bull RAS
ndash ハードウエアベースの自己監視自己管理
ndash ファームウエアベースのエラー履歴管理
bull システム管理
ndash より低いTCOを実現するための一般標準化されたマネージメント機能
スケーラブルシステムズ株式会社
高速プロセッサ
64ビットアドレス
メモリ性能と容
量
IOバンド幅
インターコネクト
省電力
システムのlsquoバランスrsquo
マルチコアによってプロセッサ単体の処理性能の向上を図る
64ビットのアドレス空間と
拡張されたレジスタによるOSとアプリケーション双方の機能性能拡張
64ビット化とマルチコア化
にともなう高速大容量へのニーズに対応しまたその拡張性の高い実装技術の実現
CPU-メモリ間の高速な
データ転送やより高速なネットワーク大規模なストレージのサポート
大規模なクラスタシステムの構築及びアプリケーションのワークロードに対応した高速性能
エコシステムに対応するためにも電力消費量や発熱量を積極的に抑える技術の開発
スケーラブルシステムズ株式会社
HPCの二極分化
Going UP
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
Going DOWN
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
スケーラブルシステムズ株式会社
システムとユーザの尺度
bull ユーザの尺度での性能(Performance)は時間当たりにどれだけの仕事を処理出来るか(仕事量 時間)
bull Flopsでの評価は実際には意味がないまた問題の規模(small medium large) という評価も難しい
bull ldquoスケーラビリティrdquoは対象を明確に規定する必要がある
システムの尺度 ユーザの尺度
Flops hArr 計算終了までの時間
メモリサイズ(GB) hArr モデルのサイズと計算結果
プロセッサ数 hArr ワークロードでの試行
データ長 hArr 計算精度
システム構成(クラスタ) hArr 導入コストと運用コスト
スケーラビリティ hArr ベンチマーク
スケーラブルシステムズ株式会社
HPCシステムの動向国家プロジェクトと商用製品のギャップの拡大
Going UP
Going DOWN
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
Peta-Scaleコンピューティングに求められる基本技術と現在のHPCの主要マーケットでの要求はあまりにも差が大きいrarrHPCSシステムは各社とのlsquoCommodityrsquoのマイクロプロセッサではなく独自のプロセッサを開発中
ハードウエアはrsquoCommodityrsquo
なものを利用してSWの改善サポート利用技術のサポートが今後の主要マーケットでの成功の鍵となる
スケーラブルシステムズ株式会社
HPCシステムの動向国家プロジェクト
Going UP
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
Peta-Scaleコンピューティングに求められる基本技術と現在のHPCの主要マーケットでの要求はあまりにも差が大きいrarrHPCSシステムは各社とのlsquoCommodityrsquoのマイクロプロセッサではなく独自のプロセッサを開発中
スケーラブルシステムズ株式会社
TOP500性能予測
1993 1995 1997 1999 2001 2003 2005 2007 2009 2011 2013 2015
N=
50
SUM
1 Gflops
1 Tflops
100 Mflops
100 Gflops
100 Tflops
10 Gflops
10 Tflops
1 Pflops
10 Pflops
IBM ASCI White
Blue GeneEarth Simulator
Intel
TOP500の総計が1PFを超えています
TOP500に掲載されるには1TF
が最低条件になっています
シングルシステムの1PFの実現は2009年
システム(プロセッサ数) 13倍年プロセッサ性能向上 14倍年トータル性能 18倍年
2009年までに1ペタFLOPS
スケーラブルシステムズ株式会社
性能ギャップの拡大
bull ピーク性能の大幅な向上ndash 1990年台は性能の向上は102のオーダーでしたが2000年台になると103のオーダーで性能は向上しています
しかしhellipndash 多くの科学技術計算用途のアプリケーションのピーク性能に対する実効性能の比率は5-10となっています(1990年代のベクトル計算機は40-50の対ピーク性能を示していました)
bull 今必要なのはndash より高い実効性能を発揮することが可能な計算アルゴリズムと手法の開発とスケーラビリティの向上
ndash プログラミングモデルなども含めてスケーラブルな計算機環境の構築
01
1
10
100
1000
2000 2004
Tera
flo
ps
1996
Performance
Gap
Peak Performance
Real Performance
NERSC User Group Meeting June 24-25 2004
Osni Marques and Tony Drummond
Lawrence Berkeley National Laboratory
スケーラブルシステムズ株式会社
ペタスケールシステムの構築
bull ソフトウエア(アプリケーションOSプログラミングAPIなど)の課題の克服が課題
bull システムの複雑さと生産性
例Linpack Benchmark
bull オリジナルベンチマークプログラム ~100ライン
bull HPL ベンチマークプログラム ~10000ライン(x100より複雑)
lsquo複雑さrsquoの壁
現在のテラFLOPS級の問題
Source ORNL
スケーラブルシステムズ株式会社
HPCシステムの動向商用製品
Going DOWN
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
ハードウエアはrsquoCommodityrsquo
なものを利用してSWの改善サポート利用技術のサポートが今後の主要マーケットでの成功の鍵となる
スケーラブルシステムズ株式会社
標準コンポーネントの進化
bull プロセッサの性能向上ndash lsquoマルチコアrsquoによる省電力での性能向上が可能
ndash HPCアプリケーションは容易にlsquoマルチコアrsquoの利点を活用可能 (OpenMPやMPI)
bull ファイルシステムndash高性能なスケーラブルファイルシステム(オープンソース)
bull インターコネクトndash PCI-Express (メモリlarrrarrインターコネクト)
ndash高速の商用製品やオープンソースでの強力(OpenIBなど)
スケーラブルシステムズ株式会社
標準コンポーネントの利点
bull 特定のベンダーからのシステムを組み合わせるのではなく他社のシステムも含めてベストなシステムの選択が可能
ndashスケーラブルSMPベクトル計算機クラスタの幅広い選択肢
ndash 64ビットマルチコアマイクロプロセッサの性能向上を最大限に活用
bull 標準コンポーネントの技術革新の活用
ndash PCI-ExpressやFB-DIMMの利用技術
スケーラブルシステムズ株式会社
Breaking the 1-2K nodes Barrier
bull 音の障壁サウンドバリヤー(sound barrier)飛行機の速度が音速近くになると衝撃波の発生によって抵抗の増大境界層の剥離など設計運用上のさまざまな障害(壁)に出合って超音速飛行は不可能かと思われた時代があった(1947年ごろまで)ので音の障壁といわれていた
httpwwwwilk4commiscsoundbreakhtm
クラスタのノード数がある規模に近くなるとその構築や運用において負担の増大システムの安定稼動スケーラビリティなど設計運用上のさまざまな障害(壁)に出合ってクラスタ構築は不可能と思われた時代があった()
スケーラブルシステムズ株式会社
ビルゲイツ氏の基調講演HPC goes mainstream
スケーラブルシステムズ株式会社
「Fast」「Good」「Cheap」のパズル
Fast
+ Cheap
Inferior
高い性能を廉価なシステムで構築することも可能ですただそのようなシステムの場合システムの構築や利用は必ずしも容易ではありません
Good
+ Cheap
Slow比較的小規模なシステムであれば廉価で使い勝手の良いものを探すことは可能ですしかしそのようなシステムでは拡張性やより大規模なシステム構築が出来ません
Good
+ Fast
Expensive
付加価値の高い性能の高いシステムは一般には高価ですその付加価値がユーザにとってメリットが無ければコストパフォーマンスの悪いシステムになるだけです
スケーラブルシステムズ株式会社
まとめとして
bull 「テクノロジー」をどのようにとらえるかndash企業経営基盤のコア要素
ndashユーザの本質的な課題を解決する戦略的な武器
bull マーケットを牽引する「テクノロジ」に求められることndashテクノロジとHPCにおけるITインフラの関係を明確にすること
bull ユーザに何らかのメリットをもたらさない「テクノロジー」は意味を成さない
ndashテクノロジーを最適に組み合わせることで問題解決のためのソリューションの提供が可能
スケーラブルシステムズ株式会社
まとめとして
bull bdquoTs‟ for HPC - インテルテクノロジのHPCにおける価値
ndash インテルテクノロジはHPCにおいて重要な構成要素となっている
ndashそれらの構成要素を統合することでより高い価値の提供が可能となる
ndash二分化しつつあるHPCシステムにおいて「標準コ
ンポーネント」としてのプラットフォームの動向として今後もその動向には注目する必要がある
スケーラブルシステムズ株式会社
さらに詳しい情報はhellip
bull 弊社のコンサルテーションに関するご提案資料もダウンロード可能です(非公開WEBページ)別途弊社に内容等についてはお尋ねください
お問い合わせ先102-0083
東京都千代田区麹町3-5-2
BUREX麹町 8F
電話03-5875-4718
FAX03-3237-7612
E-mailbizsstccojp
httpwwwsstccojp wwwsstccojpbiz
スケーラブルシステムズ株式会社
スケーラブルシステムズ株式会社
ハイエンドコンピューティングに関するコンサルテーションとして幅広いサービスをご提供致します
このサービスを最大限に活用していただくことでコラボレーションによる「顧客志向」 のコン
サルテーションサービスをご提供できればと思っております
スケーラブルシステムズ株式会社
社名製品名などは一般に各社の商標または登録商標です無断での引用転載を禁じます
In general the name of the company and the product name etc are the trademarks or registered trademarks of each company
Copyright Scalable Systems Co Ltd 2005 Unauthorized use is strictly forbidden
2005年11月
スケーラブルシステムズ株式会社
ベクトル計算機の性能
Q なぜベクトル計算機の性能がマイクロプロセッサの性能のように向上しなかったのでしょうか
A ベクトル計算機はグローバル共有メモリに対する高い接続性能にその性能が依存していたためにこのメモリ間接続の性能向上がボトルネックとなってしまいました
例DRAMメモリの性能と仕様
1979標準DRAM 1999200 MHz SDRAM 1979rarr1999
16K bit
1-bit wide interface
5 Mbs uniform access BW
2 Mbs random access BW
256 Mbit
16-bit wide interface
3200 Mbs uniform access BW
1000 Mbs random access BW
X 16000
X 640
X 500
X 25
スケーラブルシステムズ株式会社
The Pahntom Menace
1993-2000
ベクトル計算機の凋落
商用プロセッサの台頭
スケーラブルシステムズ株式会社
ベクトル計算機の逆襲
Episode V
The Empire Strikes Back
スケーラブルシステムズ株式会社
ベクトル計算機の逆襲
bull 2002
bull 地球シュミレータ
bull コンピュータにおけるスプートニックショック
10487075120 (640 8-way nodes) 500 MHz NEC
10487078 GFLOPS per CPU (41 TFLOPS total)
10487072 GB Memory per CPU (10 TB total)
104870720 kVA power consumption per node
スケーラブルシステムズ株式会社
HPCの歴史
Episode II
Attack of the Clones
スケーラブルシステムズ株式会社
イノベーションのジレンマ
bull クレイトンクリステンセンの「イノベーションのジレンマ」
bull 持続的イノベーションと破壊的イノベーションによるマーケットの動向を分析
bull 持続的イノベーション
ndash 技術革新が顧客の求める性能向上軸に沿っている
bull 破壊的イノベーション
ndash 既存顧客が求める性能とは異なる軸の性能(特性)
スケーラブルシステムズ株式会社
製品の性能
時間
製品の性能(異なる尺度で評価)
時間
Commodity-Based Cluster
RISCベースのSMPNUMAシステム
ベクトル計算機
破壊的イノベーション
スケーラブルシステムズ株式会社
Beowulf プロジェクト
Wiglaf - 1994
16 Intel 80486 100 MHz
VESA Local bus
256 Mbytes memory
64 Gbytes of disk
Dual 10 base-T Ethernet
72 Mflops sustained
$40K
Hrothgar - 1995
16 Intel Pentium100 MHz
PCI
1 Gbyte memory
64 Gbytes of disk
100 base-T Fast Ethernet
(hub)
240 Mflops sustained
$46K
Hyglac-1996 (Caltech)
16 Pentium Pro 200 MHz
PCI
2 Gbytes memory
496 Gbytes of disk
100 base-T Fast Ethernet
(switch)
125 Gflops sustained
$50K
スケーラブルシステムズ株式会社
クラスタシステムの台頭
2000-2005
スケーラブルシステムズ株式会社
課題
Episode III
Revenge of the sith
スケーラブルシステムズ株式会社
HPCの現状
Going UP Going DOWN
システムの規模解析モデルのサイズ運用管理の複雑さbull電力bullスペースbullシステムの相互接続bull管理コスト
生産性bullプログラミングbullシステムの可用性bull実効性能ピーク性能システムバランスHWコスト
スケーラブルシステムズ株式会社
HPCマーケット
bull HPCマーケットでのHPCシステム構築及び製品は次の3つのセグメントに分かれているndash 一般商用システム( Commodity-based systems)
bull 一般のクラスタシステム(Dell HPCCなど)
ndash 付加価値システム( Value-based systems)bull 多くのSMPやNUMAシステム(SGI Altixなど)
ndash 特定目的システム( Purpose-built systems)bull アプリケーションと解析対象に合わせたシステム設計(IBM
BlueGeneLなど)
bull IDCなどのレポートでも一般商用システムのHPCマーケットでの導入がもっともその成長が大きいndash 付加価値システムの課題(一般商用システムとの競合に対する対応もしくは新たな分野の開拓rarrペタスケールコンピューティング)
ndash HPCSプログラムはこの付加価値システムのベンダーにとっても生き残りを賭けた戦い (2006July)
スケーラブルシステムズ株式会社
HPCシステムの現状分析
bull Good News
ldquoHPCシステムにおける問題はたった2つだけであるrdquo
スケーラブルシステムズ株式会社
ソフトウエアとハードウエア
bull ソフトウエアThe Law of Morehellip
ndashシステム規模とその複雑さの急速な増加拡大
ndash ソフトウエアの準備が出来た時点でハードウエアは既に陳腐化し次のシステムの導入の検討が進む
bull ハードウエアMoore‟s Law (ムーアの法則)ndash消費電力の問題のためプロセッサの動作クロックを今までのペースで上げることは困難
ndashプロセッサとメモリの性能差の拡大によるCPUサイクルとのギャップ
ndashピーク性能と実効性能のギャップの拡大
スケーラブルシステムズ株式会社
ソフトウエアThe Law of Morehellip
bull 研究者はより多くの時間(More Time)をソフトウエアの開発のために必要としている
bull 問題はより複雑(More Complex)になりそしてより多くのプロセッサ(More Processors)を利用して処理を行うにはより多くの困難(More
Difficult)が伴います
スケーラブルシステムズ株式会社
アルゴリズムの最適化
bull 計算機自身の進化と共に計算アルゴリズムも最適化されている
bull 例編微分方程式の解法ndash N=106の場合ガウスの消去法で線形方程式を解く場合と
MGでの計算では108倍の計算量が違うndash これは1Mflopssの計算機で100Tflopssの計算機に相当する計算を行ったことになる
O(N)F-cycle MG
O(N76 log(N))CGMILU
O(N43 log(N))Optimal SOR
O(N53 log(N))Gauss Seidel
O(N73)Banded Gauss Elimination
計算オペレーション数(概数)アルゴリズム
2u=f 100
100100
スケーラブルシステムズ株式会社
ソフトウエアThe Law of Morehellip
bull 一般の商用製品を活用したクラスタソリューションでは「Capacity」の実現は容易であるが「Capability」の実現については依然として課題が多いndash コストパフォーマンスの高いシステムの構築は可能だとしてもコストプロダクティビティの高いシステムの構築も課題
bull 数百~数千プロセッサ構成のシステムの利用技術と解析対象の検討ndash 小規模中規模問題の高速処理への対応ndash ソフトウエア開発の生産性
bull 数プロセッサ~数十プロセッサをより簡便に容易に利用できる技術ndash シングルプロセッサシングルスレッドを利用するのと同じようにhellip
スケーラブルシステムズ株式会社
ソフトウエアとハードウエア
bull ソフトウエアThe Law of Morehellip
ndashシステム規模とその複雑さの急速な増加拡大
ndash ソフトウエアの準備が出来た時点でハードウエアは既に陳腐化し次のシステムの導入の検討が進む
bull ハードウエアMoore‟s Law (ムーアの法則)ndash消費電力の問題のためプロセッサの動作クロックを今までのペースで上げることは困難
ndashプロセッサとメモリの性能差の拡大によるCPUサイクルとのギャップ
ndashピーク性能と実効性能のギャップの拡大
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash過去12年間でPentiumプロセッサの動作周波数は60 MHz から 3800 MHz にまでアップ
ndash現在までの高性能化の約80 はクロック周波数の向上によるもの
スケーラブルシステムズ株式会社
ハードウエアの問題Moore‟s Lawムーアの法則
bull インテルの共同設立者の1人である Gordon Moore 博士が1965年4月19日号の「Electronics」誌に投稿した 「一定面積に集積されるトランジスタの数は12か月で倍増しそれに伴いトランジスタの動作速度が向上する」という予測 (その後1975年に Moore 博士はチップの複雑化を考慮してトランジスタ数の倍増ペースを24か月に修正)
bull また一般にはあまり知られていないがテクノロジの進歩とともに製造コストが劇的に下落することも予測(左図)
httpwwwintelcojpjpdevelopertechnologysiliconmooreslawindexhtm
指数関数的成長は永遠には続かないしかしその永遠を先延ばしにすることはできる [英語 PDF 形式 2MB]
Gordon E Moore2003年2月10日ISSCC (International
Solid State Circuits Conference) でのプレゼンテーション
Dr Gordon Moore
(co-founder of Intel)
スケーラブルシステムズ株式会社
Technology Trend
ムーアの法則依然として有効
スケーラブルシステムズ株式会社
性能向上の源泉は
ハードウエアデバイス技術の進歩bull ロジック回路のスイッチング速度の向上とデバイス密度bull メモリサイズの拡大とアクセス速度の向上bull 通信性能(バンド幅とレイテンシの向上)
bull 並列性ndash 1サイクルでの命令実行数
bull 命令レベルでの並列性(ILP)
bull ベクトル処理ndash プロセッサあたりコア数ndash ノードあたりのプロセッサ数ndash システムあたりのノード数
コンピュータアーキテクチャbull 命令発行実行速度の向上
ndash パイプライン化ndash 分岐予測ndash キャッシュndash Out-of-order など
スケーラブルシステムズ株式会社
GHz競争
bull 2000年に開催されたIEEE国際電子デバイス会議2000(2000
IEEE International Electron Devices MeetingIEDM) においてインテル社は4億個以上のトランジスタを集積した10GHz駆動のプロセッサが2005年までに実現可能だと発表しましたndash 実際にはインテル社の最速プロセッサは6ヶ月前に発表された
38GHz(Intel Pentium 4)となっています
bull Prescottプロセッサの6xxシリーズ発表に際してインテル社はldquoadding value beyond GHzrdquo のコメントを出していますそれ以降インテル社の多くのドキュメントやプレスリリースはこのldquoadding value beyond GHzrdquo についての内容を含んでいます
スケーラブルシステムズ株式会社
発熱の問題が深刻化
Bob Colwell氏の資料より抜粋
Increasing Frequency
Watt
scm
2
1
10
100
1000
15 10 07 05 035 025 018 013 01 007
i386i486
PentiumPentium Pro
Pentium IIPentium III
Hot Plate
Nuclear Reactor
Rocket Nozzle
Pentium 4(Prescott)
Pentium 4(Willamette)
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash過去12年間でPentiumプロセッサの動作周波数は60 MHz から 3800 MHz にまでアップ
ndash現在までの高性能化の約80 はクロック周波数の向上によるもの
bull 命令実行の強化と最適化
ndashより強力なインストラクションセット
ndash命令実行の最適化(パイプライン化分岐予測複数命令の同時実行命令実行順序の変更など)
スケーラブルシステムズ株式会社
技術のSカーブ技術開発の進展と製品性能の成長の関係
bull 技術開発の初期は製品性能はゆっくりと向上するがしだいに性能の向上の幅が大きくなるしかし次第に技術開発が成熟段階に入ると性能向上は逓減していく
製品の性能
時間
First Technology
Second Technology
Third Technology
RISCアウトオブオーダー実行lt1 instruction cycle
スーパースカラー RISCアウトオブオーダー実行lt2 instructions cycle
明示的並列命令コンピューティング技術 (EPIC)
命令の並列実行度の向上
スケーラブルシステムズ株式会社
マイクロアーキテクチャのSカーブ
Johan De Gelas Quest for More Processing Power
AnandTech Feb 8 2005
httpwwwanandtechcomcpuchipsetsshowdocaspxi=2343
101
102
103
104
105
106
MIP
S
1980 1985 1990 1995 2000 2005 2010
Pentium Architecture
Super Scalar
Pentium Pro Architecture
Speculative Out-of-Order
Pentium 4 Architecture
Trace Cache
Pentium 4 and Xeon Architecture with HT
Multi-Threaded
Multi-Threaded Multi-Core
Era of
Instruction
Parallelism
Era of
Thread
Parallelism
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash 過去12年間でPentiumプロセッサの動作周波数は60
MHz から 3800 MHz にまでアップ
ndash 現在までの高性能化の約80 はクロック周波数の向上によるもの
bull 命令実行の強化と最適化
ndash より強力なインストラクションセット
ndash 命令実行の最適化(パイプライン化分岐予測複数命令の同時実行命令実行順序の変更など)
bull 大容量キャッシュ
ndash プロセッサの速度とメモリレイテンシ(待ち時間)とバンド幅のギャップの拡大に対する対策対応としての容量の拡張
スケーラブルシステムズ株式会社
性能ギャップの問題
bull プロセッサ速度とメモリアクセスの速度差によってプロセッサがより高速になったとしてもプロセッサはその演算能力を完全に使い切ることが出来ない
1
10
100
1000Performance
1980 1990 2000
microProc
60yr
DRAM
7yr
バンド幅とレイテンシの問題が今後はより深刻(プロセッサ性能とのギャップはほぼ年率50の差で広がっている)
DRAM
CPU
プロセッサはほぼナノ秒に一回命令実行DRAMへのアクセスはほぼ100ナノ秒の時間
スケーラブルシステムズ株式会社
今後の発展と課題
Episode IV
A New Hope
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash 過去12年間でPentiumプロセッサの動作周波数は60
MHz から 3800 MHz にまでアップ
ndash 現在までの高性能化の約80 はクロック周波数の向上によるもの
bull 命令実行の強化と最適化
ndash より強力なインストラクションセット
ndash 命令実行の最適化(パイプライン化分岐予測複数命令の同時実行命令実行順序の変更など)
bull 大容量キャッシュ
ndash プロセッサの速度とメモリレイテンシ(待ち時間)とバンド幅のギャップの拡大に対する対策対応としての容量の拡張
スケーラブルシステムズ株式会社
デュアルコアプロセッサ
bull チップ上のトランジスタのより有効活用が可能bull スレッドレベルでの並列処理を活用bull よりシンプルなプロセッサの設計が可能
bull 将来のマイクロプロセッサはより多くのコアを実装可能bull 将来のマイクロプロセッサはより大容量のキャッシュの実装が可能
IBM Power5
with 19MB L2
AMD Opteron
with 2MB L2
Intel Montecito
With 24MB L3
スケーラブルシステムズ株式会社
イノベーションのジレンマ
製品の性能
時間
First Technology
Second Technology
Third Technology
RISCアウトオブオーダー実行lt1 instruction cycle
スーパースカラー RISCアウトオブオーダー実行lt2 instructions cycle
明示的並列命令コンピューティング技術 (EPIC)
命令の並列実行度の向上
製品の性能(異なる尺度)
時間
持続的イノベーション
技術革新が顧客の求める性能向上軸(ムーアの法則)に沿っている
破壊的イノベーションマルチコアとマルチスレッドによる並列処理
短期的には(シングルスレッドの性能)としては性能が低下するが将来の大きな性能向上とコスト低下機能強化の可能性が大きい
スケーラブルシステムズ株式会社
マルチコアの利点
ワークロードの処理効率の向上
bull マルチスレッドアプリケーションndash現在多くのアプリケーション(データベース
WEB科学技術計算)はマルチスレッド化
ndashマルチコアプロセッサではこれらのアプリケーションのマルチスレッドでの実行が容易に可能
bull 複数ジョブの処理ndashシステムでは複数のワークロード同時に処理することが必要
ndashマルチコアではこれらのワークロードへの処理が可能
スケーラブルシステムズ株式会社
マルチコアの利点
消費電力あたりの性能を最大にし高性能で低消費電力のシステム構築が可能
bull OS自身のマルチスレッド対応
ndash OSのサービスもマルチスレッドで処理することでより効率よく処理することが可能
bull 仮想化
ndashサーバのセキュリティや管理の強化
ndash管理するノード数を減らし運用コストの削減を図る
bull 最新のソフトウエアテクノロジの活用
スケーラブルシステムズ株式会社
大きな変革しかし容易ではない
マルチコアプロセッシング(または汎用もしくは専用プロセッサをソケットに複数搭載可能なこと)はEthernetの誕生以来ITインフラに対しての大きなインパクトをもたらします
デュアルプロセッサは386プロセッサの発表以来性能に関して最大の向上を実現しますしかしこのような性能向上にはソフトウエアの最適化がプロセッサの性能をフルに発揮するためには必要です
スケーラブルシステムズ株式会社
並列性(Parallelism)の利用
マルチタスク処理
MPIなどによる複数のノード間での並列処理
ユーザ及びコンパイラによるスレッドレベルでの並列処理(TLP)
コンパイラによる命列実行レベルでの並列処理(ILP)
マルチコア
マルチプロセッサ
マルチノード
マルチインストラクション
システム
スケーラブルシステムズ株式会社
ムーアの法則(GHz から MC へ)
マルチコアによる性能向上
動作周波数の向上による性能向上
性能
2005
bullマルチスレッドbullマルチタスクbull トレーニングbullツールbullhelliphellip
並列処理による性能向上についてはシステムサポートやプログラミングサポートなどの面での技術支援が重要です
スケーラブルシステムズ株式会社
Episode VI
Return of the Jedi
Ts for HPC - インテルテクノロジのHPCにおける価値の考察
スケーラブルシステムズ株式会社
将来予測の難しさ
bull ldquoI think there is a world market for maybe five
computersrdquobull Thomas Watson chairman of IBM 1943
bull ldquoThere is no reason for any individual to have a
computer in their homerdquobull Ken Olson president and founder of digital equipment
corporation 1977
bull ldquoThere are only about 100 potential customers
worldwide for a Cray-1rdquobull Seymour Cray 1977
bull ldquo640K [of memory] ought to be enough for
anybodyrdquobull Bill Gates chairman of Microsoft1981
スケーラブルシステムズ株式会社
「未来を予測する最良の方法はそれを創造してしまうことである」The best way to predict future is to invent it
Dr Alan Kay President of Viewpoints Research
Institute Inc
スケーラブルシステムズ株式会社
ITマネージメントの課題
bull プラットフォームの内部からの保護ndash ウイルスやワームなど悪意あるソフトウェアからの保護
bull 資産管理ndash 多くの IT 部門では特定できない資産が問題
bull オンラインおよびリモート管理診断機能 ndash アップグレード診断復旧のための作業の効率化
bull アプリケーション統合の困難さ
ndash アプリケーションの高度化と複雑化によって複数のアプリケーションを組み合わせるての動作に問題
bull 動的なリソース割り当て
ndash 組織内で未使用のCPUやメモリの活用
スケーラブルシステムズ株式会社
マーケットトレンド
All Servers Worldwide 2003 2004 2005 20062003 to 2006
CAGR
2005 to 2006
CAGR
Total Factory Revenue($B) $46149 $49146 $51268 $52251 42 19
Units Shipped(same as nodes) 5278222 6307484 7050099 7472649 123 60
Processor Dies Shipped 8662823 10134624 11712766 12779159 138 91
HPC Technical Servers Worldwide 2003 2004 2005 20062003 to 2006
CAGR
2005 to 2006
CAGR
HPC Server Revenue($B) $5698 $7393 $9208 $10030 207 89
Adjusted Revenues(To much
enterprise)$5128 $6654 $8287 $9027 207 89
Node Units Shipped 411327 734510 1215735 1419221 511 167
Processor Elements Shipped 1002905 1657827 2681079 3351843 495 250
HPC As A Ratio Of All Servers 2003 2004 2005 2006
Revenue($B) 123 150 180 192
Adjusted Revenues(Apples-to-
apples)111 135 162 173
Units Shipped(Nodes) 78 116 172 190
Processors Shipped 116 164 226 261
Source IDC 2007
スケーラブルシステムズ株式会社
HPCマーケット(対全サーバマーケット)
0
5
10
15
20
25
30
2003 2004 2005 2006
Revenue($B)
Adjusted Revenues(Apples-to-apples)
Units Shipped(Nodes)
Processors Shipped
スケーラブルシステムズ株式会社
マーケットトレンド
Source IDC 2004
Cost of mgmt amp admin 10 CAGR
$0
$20
$40
$60
$80
$100
$120
$140
$160
$180
$200
1996 rsquo97 rsquo98 rsquo992000 rsquo01 rsquo02 rsquo03 rsquo04 rsquo05 rsquo06 rsquo07 rsquo08-
New server spending (USM$) 3 CAGR
Spending (USB$)
5
10
15
20
25
30
35
Installed Base (M Units)
bull ハードウェアの減価償却費は IT の TCO 全体の約25 にすぎない
bull ソフトウェアのコストはわずか10~15
bull 電気などの公共料金フロアスペース電話回線など設備面のコストの割合もきわめて小さい
bull プラットフォームのコストではなくTCOの大きな比率を占めるのは人件費となっている
スケーラブルシステムズ株式会社
運用管理コストの低減
bull 「もっと処理性能を」と「より安価に」を実現するためにワークステーションやサーバでの分散処理の導入
bull ユーザや企業に新たな価値をもたらしてはいるが管理責任とその負担の分散を招き結果的に運用管理コストを押し上げる
メインフレームスーパーコンピュータ
仮想化によるサーバコンソリデーション
クラスタによる仮想コンピュータ
スケーラブルシステムズ株式会社
次世代HPCインフラ
bull コアとスレッド
ndash より多くのスレッドを効率よく利用可能
ndash マルチスレッド向け最適化
bull 電力管理
ndash 省電力
ndash データセンター運用管理機能
bull 仮想化
ndash 柔軟性と優れた運用管理
ndash 仮想的なシステムパーティション
bull RAS
ndash ハードウエアベースの自己監視自己管理
ndash ファームウエアベースのエラー履歴管理
bull システム管理
ndash より低いTCOを実現するための一般標準化されたマネージメント機能
スケーラブルシステムズ株式会社
高速プロセッサ
64ビットアドレス
メモリ性能と容
量
IOバンド幅
インターコネクト
省電力
システムのlsquoバランスrsquo
マルチコアによってプロセッサ単体の処理性能の向上を図る
64ビットのアドレス空間と
拡張されたレジスタによるOSとアプリケーション双方の機能性能拡張
64ビット化とマルチコア化
にともなう高速大容量へのニーズに対応しまたその拡張性の高い実装技術の実現
CPU-メモリ間の高速な
データ転送やより高速なネットワーク大規模なストレージのサポート
大規模なクラスタシステムの構築及びアプリケーションのワークロードに対応した高速性能
エコシステムに対応するためにも電力消費量や発熱量を積極的に抑える技術の開発
スケーラブルシステムズ株式会社
HPCの二極分化
Going UP
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
Going DOWN
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
スケーラブルシステムズ株式会社
システムとユーザの尺度
bull ユーザの尺度での性能(Performance)は時間当たりにどれだけの仕事を処理出来るか(仕事量 時間)
bull Flopsでの評価は実際には意味がないまた問題の規模(small medium large) という評価も難しい
bull ldquoスケーラビリティrdquoは対象を明確に規定する必要がある
システムの尺度 ユーザの尺度
Flops hArr 計算終了までの時間
メモリサイズ(GB) hArr モデルのサイズと計算結果
プロセッサ数 hArr ワークロードでの試行
データ長 hArr 計算精度
システム構成(クラスタ) hArr 導入コストと運用コスト
スケーラビリティ hArr ベンチマーク
スケーラブルシステムズ株式会社
HPCシステムの動向国家プロジェクトと商用製品のギャップの拡大
Going UP
Going DOWN
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
Peta-Scaleコンピューティングに求められる基本技術と現在のHPCの主要マーケットでの要求はあまりにも差が大きいrarrHPCSシステムは各社とのlsquoCommodityrsquoのマイクロプロセッサではなく独自のプロセッサを開発中
ハードウエアはrsquoCommodityrsquo
なものを利用してSWの改善サポート利用技術のサポートが今後の主要マーケットでの成功の鍵となる
スケーラブルシステムズ株式会社
HPCシステムの動向国家プロジェクト
Going UP
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
Peta-Scaleコンピューティングに求められる基本技術と現在のHPCの主要マーケットでの要求はあまりにも差が大きいrarrHPCSシステムは各社とのlsquoCommodityrsquoのマイクロプロセッサではなく独自のプロセッサを開発中
スケーラブルシステムズ株式会社
TOP500性能予測
1993 1995 1997 1999 2001 2003 2005 2007 2009 2011 2013 2015
N=
50
SUM
1 Gflops
1 Tflops
100 Mflops
100 Gflops
100 Tflops
10 Gflops
10 Tflops
1 Pflops
10 Pflops
IBM ASCI White
Blue GeneEarth Simulator
Intel
TOP500の総計が1PFを超えています
TOP500に掲載されるには1TF
が最低条件になっています
シングルシステムの1PFの実現は2009年
システム(プロセッサ数) 13倍年プロセッサ性能向上 14倍年トータル性能 18倍年
2009年までに1ペタFLOPS
スケーラブルシステムズ株式会社
性能ギャップの拡大
bull ピーク性能の大幅な向上ndash 1990年台は性能の向上は102のオーダーでしたが2000年台になると103のオーダーで性能は向上しています
しかしhellipndash 多くの科学技術計算用途のアプリケーションのピーク性能に対する実効性能の比率は5-10となっています(1990年代のベクトル計算機は40-50の対ピーク性能を示していました)
bull 今必要なのはndash より高い実効性能を発揮することが可能な計算アルゴリズムと手法の開発とスケーラビリティの向上
ndash プログラミングモデルなども含めてスケーラブルな計算機環境の構築
01
1
10
100
1000
2000 2004
Tera
flo
ps
1996
Performance
Gap
Peak Performance
Real Performance
NERSC User Group Meeting June 24-25 2004
Osni Marques and Tony Drummond
Lawrence Berkeley National Laboratory
スケーラブルシステムズ株式会社
ペタスケールシステムの構築
bull ソフトウエア(アプリケーションOSプログラミングAPIなど)の課題の克服が課題
bull システムの複雑さと生産性
例Linpack Benchmark
bull オリジナルベンチマークプログラム ~100ライン
bull HPL ベンチマークプログラム ~10000ライン(x100より複雑)
lsquo複雑さrsquoの壁
現在のテラFLOPS級の問題
Source ORNL
スケーラブルシステムズ株式会社
HPCシステムの動向商用製品
Going DOWN
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
ハードウエアはrsquoCommodityrsquo
なものを利用してSWの改善サポート利用技術のサポートが今後の主要マーケットでの成功の鍵となる
スケーラブルシステムズ株式会社
標準コンポーネントの進化
bull プロセッサの性能向上ndash lsquoマルチコアrsquoによる省電力での性能向上が可能
ndash HPCアプリケーションは容易にlsquoマルチコアrsquoの利点を活用可能 (OpenMPやMPI)
bull ファイルシステムndash高性能なスケーラブルファイルシステム(オープンソース)
bull インターコネクトndash PCI-Express (メモリlarrrarrインターコネクト)
ndash高速の商用製品やオープンソースでの強力(OpenIBなど)
スケーラブルシステムズ株式会社
標準コンポーネントの利点
bull 特定のベンダーからのシステムを組み合わせるのではなく他社のシステムも含めてベストなシステムの選択が可能
ndashスケーラブルSMPベクトル計算機クラスタの幅広い選択肢
ndash 64ビットマルチコアマイクロプロセッサの性能向上を最大限に活用
bull 標準コンポーネントの技術革新の活用
ndash PCI-ExpressやFB-DIMMの利用技術
スケーラブルシステムズ株式会社
Breaking the 1-2K nodes Barrier
bull 音の障壁サウンドバリヤー(sound barrier)飛行機の速度が音速近くになると衝撃波の発生によって抵抗の増大境界層の剥離など設計運用上のさまざまな障害(壁)に出合って超音速飛行は不可能かと思われた時代があった(1947年ごろまで)ので音の障壁といわれていた
httpwwwwilk4commiscsoundbreakhtm
クラスタのノード数がある規模に近くなるとその構築や運用において負担の増大システムの安定稼動スケーラビリティなど設計運用上のさまざまな障害(壁)に出合ってクラスタ構築は不可能と思われた時代があった()
スケーラブルシステムズ株式会社
ビルゲイツ氏の基調講演HPC goes mainstream
スケーラブルシステムズ株式会社
「Fast」「Good」「Cheap」のパズル
Fast
+ Cheap
Inferior
高い性能を廉価なシステムで構築することも可能ですただそのようなシステムの場合システムの構築や利用は必ずしも容易ではありません
Good
+ Cheap
Slow比較的小規模なシステムであれば廉価で使い勝手の良いものを探すことは可能ですしかしそのようなシステムでは拡張性やより大規模なシステム構築が出来ません
Good
+ Fast
Expensive
付加価値の高い性能の高いシステムは一般には高価ですその付加価値がユーザにとってメリットが無ければコストパフォーマンスの悪いシステムになるだけです
スケーラブルシステムズ株式会社
まとめとして
bull 「テクノロジー」をどのようにとらえるかndash企業経営基盤のコア要素
ndashユーザの本質的な課題を解決する戦略的な武器
bull マーケットを牽引する「テクノロジ」に求められることndashテクノロジとHPCにおけるITインフラの関係を明確にすること
bull ユーザに何らかのメリットをもたらさない「テクノロジー」は意味を成さない
ndashテクノロジーを最適に組み合わせることで問題解決のためのソリューションの提供が可能
スケーラブルシステムズ株式会社
まとめとして
bull bdquoTs‟ for HPC - インテルテクノロジのHPCにおける価値
ndash インテルテクノロジはHPCにおいて重要な構成要素となっている
ndashそれらの構成要素を統合することでより高い価値の提供が可能となる
ndash二分化しつつあるHPCシステムにおいて「標準コ
ンポーネント」としてのプラットフォームの動向として今後もその動向には注目する必要がある
スケーラブルシステムズ株式会社
さらに詳しい情報はhellip
bull 弊社のコンサルテーションに関するご提案資料もダウンロード可能です(非公開WEBページ)別途弊社に内容等についてはお尋ねください
お問い合わせ先102-0083
東京都千代田区麹町3-5-2
BUREX麹町 8F
電話03-5875-4718
FAX03-3237-7612
E-mailbizsstccojp
httpwwwsstccojp wwwsstccojpbiz
スケーラブルシステムズ株式会社
スケーラブルシステムズ株式会社
ハイエンドコンピューティングに関するコンサルテーションとして幅広いサービスをご提供致します
このサービスを最大限に活用していただくことでコラボレーションによる「顧客志向」 のコン
サルテーションサービスをご提供できればと思っております
スケーラブルシステムズ株式会社
社名製品名などは一般に各社の商標または登録商標です無断での引用転載を禁じます
In general the name of the company and the product name etc are the trademarks or registered trademarks of each company
Copyright Scalable Systems Co Ltd 2005 Unauthorized use is strictly forbidden
2005年11月
スケーラブルシステムズ株式会社
The Pahntom Menace
1993-2000
ベクトル計算機の凋落
商用プロセッサの台頭
スケーラブルシステムズ株式会社
ベクトル計算機の逆襲
Episode V
The Empire Strikes Back
スケーラブルシステムズ株式会社
ベクトル計算機の逆襲
bull 2002
bull 地球シュミレータ
bull コンピュータにおけるスプートニックショック
10487075120 (640 8-way nodes) 500 MHz NEC
10487078 GFLOPS per CPU (41 TFLOPS total)
10487072 GB Memory per CPU (10 TB total)
104870720 kVA power consumption per node
スケーラブルシステムズ株式会社
HPCの歴史
Episode II
Attack of the Clones
スケーラブルシステムズ株式会社
イノベーションのジレンマ
bull クレイトンクリステンセンの「イノベーションのジレンマ」
bull 持続的イノベーションと破壊的イノベーションによるマーケットの動向を分析
bull 持続的イノベーション
ndash 技術革新が顧客の求める性能向上軸に沿っている
bull 破壊的イノベーション
ndash 既存顧客が求める性能とは異なる軸の性能(特性)
スケーラブルシステムズ株式会社
製品の性能
時間
製品の性能(異なる尺度で評価)
時間
Commodity-Based Cluster
RISCベースのSMPNUMAシステム
ベクトル計算機
破壊的イノベーション
スケーラブルシステムズ株式会社
Beowulf プロジェクト
Wiglaf - 1994
16 Intel 80486 100 MHz
VESA Local bus
256 Mbytes memory
64 Gbytes of disk
Dual 10 base-T Ethernet
72 Mflops sustained
$40K
Hrothgar - 1995
16 Intel Pentium100 MHz
PCI
1 Gbyte memory
64 Gbytes of disk
100 base-T Fast Ethernet
(hub)
240 Mflops sustained
$46K
Hyglac-1996 (Caltech)
16 Pentium Pro 200 MHz
PCI
2 Gbytes memory
496 Gbytes of disk
100 base-T Fast Ethernet
(switch)
125 Gflops sustained
$50K
スケーラブルシステムズ株式会社
クラスタシステムの台頭
2000-2005
スケーラブルシステムズ株式会社
課題
Episode III
Revenge of the sith
スケーラブルシステムズ株式会社
HPCの現状
Going UP Going DOWN
システムの規模解析モデルのサイズ運用管理の複雑さbull電力bullスペースbullシステムの相互接続bull管理コスト
生産性bullプログラミングbullシステムの可用性bull実効性能ピーク性能システムバランスHWコスト
スケーラブルシステムズ株式会社
HPCマーケット
bull HPCマーケットでのHPCシステム構築及び製品は次の3つのセグメントに分かれているndash 一般商用システム( Commodity-based systems)
bull 一般のクラスタシステム(Dell HPCCなど)
ndash 付加価値システム( Value-based systems)bull 多くのSMPやNUMAシステム(SGI Altixなど)
ndash 特定目的システム( Purpose-built systems)bull アプリケーションと解析対象に合わせたシステム設計(IBM
BlueGeneLなど)
bull IDCなどのレポートでも一般商用システムのHPCマーケットでの導入がもっともその成長が大きいndash 付加価値システムの課題(一般商用システムとの競合に対する対応もしくは新たな分野の開拓rarrペタスケールコンピューティング)
ndash HPCSプログラムはこの付加価値システムのベンダーにとっても生き残りを賭けた戦い (2006July)
スケーラブルシステムズ株式会社
HPCシステムの現状分析
bull Good News
ldquoHPCシステムにおける問題はたった2つだけであるrdquo
スケーラブルシステムズ株式会社
ソフトウエアとハードウエア
bull ソフトウエアThe Law of Morehellip
ndashシステム規模とその複雑さの急速な増加拡大
ndash ソフトウエアの準備が出来た時点でハードウエアは既に陳腐化し次のシステムの導入の検討が進む
bull ハードウエアMoore‟s Law (ムーアの法則)ndash消費電力の問題のためプロセッサの動作クロックを今までのペースで上げることは困難
ndashプロセッサとメモリの性能差の拡大によるCPUサイクルとのギャップ
ndashピーク性能と実効性能のギャップの拡大
スケーラブルシステムズ株式会社
ソフトウエアThe Law of Morehellip
bull 研究者はより多くの時間(More Time)をソフトウエアの開発のために必要としている
bull 問題はより複雑(More Complex)になりそしてより多くのプロセッサ(More Processors)を利用して処理を行うにはより多くの困難(More
Difficult)が伴います
スケーラブルシステムズ株式会社
アルゴリズムの最適化
bull 計算機自身の進化と共に計算アルゴリズムも最適化されている
bull 例編微分方程式の解法ndash N=106の場合ガウスの消去法で線形方程式を解く場合と
MGでの計算では108倍の計算量が違うndash これは1Mflopssの計算機で100Tflopssの計算機に相当する計算を行ったことになる
O(N)F-cycle MG
O(N76 log(N))CGMILU
O(N43 log(N))Optimal SOR
O(N53 log(N))Gauss Seidel
O(N73)Banded Gauss Elimination
計算オペレーション数(概数)アルゴリズム
2u=f 100
100100
スケーラブルシステムズ株式会社
ソフトウエアThe Law of Morehellip
bull 一般の商用製品を活用したクラスタソリューションでは「Capacity」の実現は容易であるが「Capability」の実現については依然として課題が多いndash コストパフォーマンスの高いシステムの構築は可能だとしてもコストプロダクティビティの高いシステムの構築も課題
bull 数百~数千プロセッサ構成のシステムの利用技術と解析対象の検討ndash 小規模中規模問題の高速処理への対応ndash ソフトウエア開発の生産性
bull 数プロセッサ~数十プロセッサをより簡便に容易に利用できる技術ndash シングルプロセッサシングルスレッドを利用するのと同じようにhellip
スケーラブルシステムズ株式会社
ソフトウエアとハードウエア
bull ソフトウエアThe Law of Morehellip
ndashシステム規模とその複雑さの急速な増加拡大
ndash ソフトウエアの準備が出来た時点でハードウエアは既に陳腐化し次のシステムの導入の検討が進む
bull ハードウエアMoore‟s Law (ムーアの法則)ndash消費電力の問題のためプロセッサの動作クロックを今までのペースで上げることは困難
ndashプロセッサとメモリの性能差の拡大によるCPUサイクルとのギャップ
ndashピーク性能と実効性能のギャップの拡大
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash過去12年間でPentiumプロセッサの動作周波数は60 MHz から 3800 MHz にまでアップ
ndash現在までの高性能化の約80 はクロック周波数の向上によるもの
スケーラブルシステムズ株式会社
ハードウエアの問題Moore‟s Lawムーアの法則
bull インテルの共同設立者の1人である Gordon Moore 博士が1965年4月19日号の「Electronics」誌に投稿した 「一定面積に集積されるトランジスタの数は12か月で倍増しそれに伴いトランジスタの動作速度が向上する」という予測 (その後1975年に Moore 博士はチップの複雑化を考慮してトランジスタ数の倍増ペースを24か月に修正)
bull また一般にはあまり知られていないがテクノロジの進歩とともに製造コストが劇的に下落することも予測(左図)
httpwwwintelcojpjpdevelopertechnologysiliconmooreslawindexhtm
指数関数的成長は永遠には続かないしかしその永遠を先延ばしにすることはできる [英語 PDF 形式 2MB]
Gordon E Moore2003年2月10日ISSCC (International
Solid State Circuits Conference) でのプレゼンテーション
Dr Gordon Moore
(co-founder of Intel)
スケーラブルシステムズ株式会社
Technology Trend
ムーアの法則依然として有効
スケーラブルシステムズ株式会社
性能向上の源泉は
ハードウエアデバイス技術の進歩bull ロジック回路のスイッチング速度の向上とデバイス密度bull メモリサイズの拡大とアクセス速度の向上bull 通信性能(バンド幅とレイテンシの向上)
bull 並列性ndash 1サイクルでの命令実行数
bull 命令レベルでの並列性(ILP)
bull ベクトル処理ndash プロセッサあたりコア数ndash ノードあたりのプロセッサ数ndash システムあたりのノード数
コンピュータアーキテクチャbull 命令発行実行速度の向上
ndash パイプライン化ndash 分岐予測ndash キャッシュndash Out-of-order など
スケーラブルシステムズ株式会社
GHz競争
bull 2000年に開催されたIEEE国際電子デバイス会議2000(2000
IEEE International Electron Devices MeetingIEDM) においてインテル社は4億個以上のトランジスタを集積した10GHz駆動のプロセッサが2005年までに実現可能だと発表しましたndash 実際にはインテル社の最速プロセッサは6ヶ月前に発表された
38GHz(Intel Pentium 4)となっています
bull Prescottプロセッサの6xxシリーズ発表に際してインテル社はldquoadding value beyond GHzrdquo のコメントを出していますそれ以降インテル社の多くのドキュメントやプレスリリースはこのldquoadding value beyond GHzrdquo についての内容を含んでいます
スケーラブルシステムズ株式会社
発熱の問題が深刻化
Bob Colwell氏の資料より抜粋
Increasing Frequency
Watt
scm
2
1
10
100
1000
15 10 07 05 035 025 018 013 01 007
i386i486
PentiumPentium Pro
Pentium IIPentium III
Hot Plate
Nuclear Reactor
Rocket Nozzle
Pentium 4(Prescott)
Pentium 4(Willamette)
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash過去12年間でPentiumプロセッサの動作周波数は60 MHz から 3800 MHz にまでアップ
ndash現在までの高性能化の約80 はクロック周波数の向上によるもの
bull 命令実行の強化と最適化
ndashより強力なインストラクションセット
ndash命令実行の最適化(パイプライン化分岐予測複数命令の同時実行命令実行順序の変更など)
スケーラブルシステムズ株式会社
技術のSカーブ技術開発の進展と製品性能の成長の関係
bull 技術開発の初期は製品性能はゆっくりと向上するがしだいに性能の向上の幅が大きくなるしかし次第に技術開発が成熟段階に入ると性能向上は逓減していく
製品の性能
時間
First Technology
Second Technology
Third Technology
RISCアウトオブオーダー実行lt1 instruction cycle
スーパースカラー RISCアウトオブオーダー実行lt2 instructions cycle
明示的並列命令コンピューティング技術 (EPIC)
命令の並列実行度の向上
スケーラブルシステムズ株式会社
マイクロアーキテクチャのSカーブ
Johan De Gelas Quest for More Processing Power
AnandTech Feb 8 2005
httpwwwanandtechcomcpuchipsetsshowdocaspxi=2343
101
102
103
104
105
106
MIP
S
1980 1985 1990 1995 2000 2005 2010
Pentium Architecture
Super Scalar
Pentium Pro Architecture
Speculative Out-of-Order
Pentium 4 Architecture
Trace Cache
Pentium 4 and Xeon Architecture with HT
Multi-Threaded
Multi-Threaded Multi-Core
Era of
Instruction
Parallelism
Era of
Thread
Parallelism
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash 過去12年間でPentiumプロセッサの動作周波数は60
MHz から 3800 MHz にまでアップ
ndash 現在までの高性能化の約80 はクロック周波数の向上によるもの
bull 命令実行の強化と最適化
ndash より強力なインストラクションセット
ndash 命令実行の最適化(パイプライン化分岐予測複数命令の同時実行命令実行順序の変更など)
bull 大容量キャッシュ
ndash プロセッサの速度とメモリレイテンシ(待ち時間)とバンド幅のギャップの拡大に対する対策対応としての容量の拡張
スケーラブルシステムズ株式会社
性能ギャップの問題
bull プロセッサ速度とメモリアクセスの速度差によってプロセッサがより高速になったとしてもプロセッサはその演算能力を完全に使い切ることが出来ない
1
10
100
1000Performance
1980 1990 2000
microProc
60yr
DRAM
7yr
バンド幅とレイテンシの問題が今後はより深刻(プロセッサ性能とのギャップはほぼ年率50の差で広がっている)
DRAM
CPU
プロセッサはほぼナノ秒に一回命令実行DRAMへのアクセスはほぼ100ナノ秒の時間
スケーラブルシステムズ株式会社
今後の発展と課題
Episode IV
A New Hope
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash 過去12年間でPentiumプロセッサの動作周波数は60
MHz から 3800 MHz にまでアップ
ndash 現在までの高性能化の約80 はクロック周波数の向上によるもの
bull 命令実行の強化と最適化
ndash より強力なインストラクションセット
ndash 命令実行の最適化(パイプライン化分岐予測複数命令の同時実行命令実行順序の変更など)
bull 大容量キャッシュ
ndash プロセッサの速度とメモリレイテンシ(待ち時間)とバンド幅のギャップの拡大に対する対策対応としての容量の拡張
スケーラブルシステムズ株式会社
デュアルコアプロセッサ
bull チップ上のトランジスタのより有効活用が可能bull スレッドレベルでの並列処理を活用bull よりシンプルなプロセッサの設計が可能
bull 将来のマイクロプロセッサはより多くのコアを実装可能bull 将来のマイクロプロセッサはより大容量のキャッシュの実装が可能
IBM Power5
with 19MB L2
AMD Opteron
with 2MB L2
Intel Montecito
With 24MB L3
スケーラブルシステムズ株式会社
イノベーションのジレンマ
製品の性能
時間
First Technology
Second Technology
Third Technology
RISCアウトオブオーダー実行lt1 instruction cycle
スーパースカラー RISCアウトオブオーダー実行lt2 instructions cycle
明示的並列命令コンピューティング技術 (EPIC)
命令の並列実行度の向上
製品の性能(異なる尺度)
時間
持続的イノベーション
技術革新が顧客の求める性能向上軸(ムーアの法則)に沿っている
破壊的イノベーションマルチコアとマルチスレッドによる並列処理
短期的には(シングルスレッドの性能)としては性能が低下するが将来の大きな性能向上とコスト低下機能強化の可能性が大きい
スケーラブルシステムズ株式会社
マルチコアの利点
ワークロードの処理効率の向上
bull マルチスレッドアプリケーションndash現在多くのアプリケーション(データベース
WEB科学技術計算)はマルチスレッド化
ndashマルチコアプロセッサではこれらのアプリケーションのマルチスレッドでの実行が容易に可能
bull 複数ジョブの処理ndashシステムでは複数のワークロード同時に処理することが必要
ndashマルチコアではこれらのワークロードへの処理が可能
スケーラブルシステムズ株式会社
マルチコアの利点
消費電力あたりの性能を最大にし高性能で低消費電力のシステム構築が可能
bull OS自身のマルチスレッド対応
ndash OSのサービスもマルチスレッドで処理することでより効率よく処理することが可能
bull 仮想化
ndashサーバのセキュリティや管理の強化
ndash管理するノード数を減らし運用コストの削減を図る
bull 最新のソフトウエアテクノロジの活用
スケーラブルシステムズ株式会社
大きな変革しかし容易ではない
マルチコアプロセッシング(または汎用もしくは専用プロセッサをソケットに複数搭載可能なこと)はEthernetの誕生以来ITインフラに対しての大きなインパクトをもたらします
デュアルプロセッサは386プロセッサの発表以来性能に関して最大の向上を実現しますしかしこのような性能向上にはソフトウエアの最適化がプロセッサの性能をフルに発揮するためには必要です
スケーラブルシステムズ株式会社
並列性(Parallelism)の利用
マルチタスク処理
MPIなどによる複数のノード間での並列処理
ユーザ及びコンパイラによるスレッドレベルでの並列処理(TLP)
コンパイラによる命列実行レベルでの並列処理(ILP)
マルチコア
マルチプロセッサ
マルチノード
マルチインストラクション
システム
スケーラブルシステムズ株式会社
ムーアの法則(GHz から MC へ)
マルチコアによる性能向上
動作周波数の向上による性能向上
性能
2005
bullマルチスレッドbullマルチタスクbull トレーニングbullツールbullhelliphellip
並列処理による性能向上についてはシステムサポートやプログラミングサポートなどの面での技術支援が重要です
スケーラブルシステムズ株式会社
Episode VI
Return of the Jedi
Ts for HPC - インテルテクノロジのHPCにおける価値の考察
スケーラブルシステムズ株式会社
将来予測の難しさ
bull ldquoI think there is a world market for maybe five
computersrdquobull Thomas Watson chairman of IBM 1943
bull ldquoThere is no reason for any individual to have a
computer in their homerdquobull Ken Olson president and founder of digital equipment
corporation 1977
bull ldquoThere are only about 100 potential customers
worldwide for a Cray-1rdquobull Seymour Cray 1977
bull ldquo640K [of memory] ought to be enough for
anybodyrdquobull Bill Gates chairman of Microsoft1981
スケーラブルシステムズ株式会社
「未来を予測する最良の方法はそれを創造してしまうことである」The best way to predict future is to invent it
Dr Alan Kay President of Viewpoints Research
Institute Inc
スケーラブルシステムズ株式会社
ITマネージメントの課題
bull プラットフォームの内部からの保護ndash ウイルスやワームなど悪意あるソフトウェアからの保護
bull 資産管理ndash 多くの IT 部門では特定できない資産が問題
bull オンラインおよびリモート管理診断機能 ndash アップグレード診断復旧のための作業の効率化
bull アプリケーション統合の困難さ
ndash アプリケーションの高度化と複雑化によって複数のアプリケーションを組み合わせるての動作に問題
bull 動的なリソース割り当て
ndash 組織内で未使用のCPUやメモリの活用
スケーラブルシステムズ株式会社
マーケットトレンド
All Servers Worldwide 2003 2004 2005 20062003 to 2006
CAGR
2005 to 2006
CAGR
Total Factory Revenue($B) $46149 $49146 $51268 $52251 42 19
Units Shipped(same as nodes) 5278222 6307484 7050099 7472649 123 60
Processor Dies Shipped 8662823 10134624 11712766 12779159 138 91
HPC Technical Servers Worldwide 2003 2004 2005 20062003 to 2006
CAGR
2005 to 2006
CAGR
HPC Server Revenue($B) $5698 $7393 $9208 $10030 207 89
Adjusted Revenues(To much
enterprise)$5128 $6654 $8287 $9027 207 89
Node Units Shipped 411327 734510 1215735 1419221 511 167
Processor Elements Shipped 1002905 1657827 2681079 3351843 495 250
HPC As A Ratio Of All Servers 2003 2004 2005 2006
Revenue($B) 123 150 180 192
Adjusted Revenues(Apples-to-
apples)111 135 162 173
Units Shipped(Nodes) 78 116 172 190
Processors Shipped 116 164 226 261
Source IDC 2007
スケーラブルシステムズ株式会社
HPCマーケット(対全サーバマーケット)
0
5
10
15
20
25
30
2003 2004 2005 2006
Revenue($B)
Adjusted Revenues(Apples-to-apples)
Units Shipped(Nodes)
Processors Shipped
スケーラブルシステムズ株式会社
マーケットトレンド
Source IDC 2004
Cost of mgmt amp admin 10 CAGR
$0
$20
$40
$60
$80
$100
$120
$140
$160
$180
$200
1996 rsquo97 rsquo98 rsquo992000 rsquo01 rsquo02 rsquo03 rsquo04 rsquo05 rsquo06 rsquo07 rsquo08-
New server spending (USM$) 3 CAGR
Spending (USB$)
5
10
15
20
25
30
35
Installed Base (M Units)
bull ハードウェアの減価償却費は IT の TCO 全体の約25 にすぎない
bull ソフトウェアのコストはわずか10~15
bull 電気などの公共料金フロアスペース電話回線など設備面のコストの割合もきわめて小さい
bull プラットフォームのコストではなくTCOの大きな比率を占めるのは人件費となっている
スケーラブルシステムズ株式会社
運用管理コストの低減
bull 「もっと処理性能を」と「より安価に」を実現するためにワークステーションやサーバでの分散処理の導入
bull ユーザや企業に新たな価値をもたらしてはいるが管理責任とその負担の分散を招き結果的に運用管理コストを押し上げる
メインフレームスーパーコンピュータ
仮想化によるサーバコンソリデーション
クラスタによる仮想コンピュータ
スケーラブルシステムズ株式会社
次世代HPCインフラ
bull コアとスレッド
ndash より多くのスレッドを効率よく利用可能
ndash マルチスレッド向け最適化
bull 電力管理
ndash 省電力
ndash データセンター運用管理機能
bull 仮想化
ndash 柔軟性と優れた運用管理
ndash 仮想的なシステムパーティション
bull RAS
ndash ハードウエアベースの自己監視自己管理
ndash ファームウエアベースのエラー履歴管理
bull システム管理
ndash より低いTCOを実現するための一般標準化されたマネージメント機能
スケーラブルシステムズ株式会社
高速プロセッサ
64ビットアドレス
メモリ性能と容
量
IOバンド幅
インターコネクト
省電力
システムのlsquoバランスrsquo
マルチコアによってプロセッサ単体の処理性能の向上を図る
64ビットのアドレス空間と
拡張されたレジスタによるOSとアプリケーション双方の機能性能拡張
64ビット化とマルチコア化
にともなう高速大容量へのニーズに対応しまたその拡張性の高い実装技術の実現
CPU-メモリ間の高速な
データ転送やより高速なネットワーク大規模なストレージのサポート
大規模なクラスタシステムの構築及びアプリケーションのワークロードに対応した高速性能
エコシステムに対応するためにも電力消費量や発熱量を積極的に抑える技術の開発
スケーラブルシステムズ株式会社
HPCの二極分化
Going UP
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
Going DOWN
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
スケーラブルシステムズ株式会社
システムとユーザの尺度
bull ユーザの尺度での性能(Performance)は時間当たりにどれだけの仕事を処理出来るか(仕事量 時間)
bull Flopsでの評価は実際には意味がないまた問題の規模(small medium large) という評価も難しい
bull ldquoスケーラビリティrdquoは対象を明確に規定する必要がある
システムの尺度 ユーザの尺度
Flops hArr 計算終了までの時間
メモリサイズ(GB) hArr モデルのサイズと計算結果
プロセッサ数 hArr ワークロードでの試行
データ長 hArr 計算精度
システム構成(クラスタ) hArr 導入コストと運用コスト
スケーラビリティ hArr ベンチマーク
スケーラブルシステムズ株式会社
HPCシステムの動向国家プロジェクトと商用製品のギャップの拡大
Going UP
Going DOWN
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
Peta-Scaleコンピューティングに求められる基本技術と現在のHPCの主要マーケットでの要求はあまりにも差が大きいrarrHPCSシステムは各社とのlsquoCommodityrsquoのマイクロプロセッサではなく独自のプロセッサを開発中
ハードウエアはrsquoCommodityrsquo
なものを利用してSWの改善サポート利用技術のサポートが今後の主要マーケットでの成功の鍵となる
スケーラブルシステムズ株式会社
HPCシステムの動向国家プロジェクト
Going UP
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
Peta-Scaleコンピューティングに求められる基本技術と現在のHPCの主要マーケットでの要求はあまりにも差が大きいrarrHPCSシステムは各社とのlsquoCommodityrsquoのマイクロプロセッサではなく独自のプロセッサを開発中
スケーラブルシステムズ株式会社
TOP500性能予測
1993 1995 1997 1999 2001 2003 2005 2007 2009 2011 2013 2015
N=
50
SUM
1 Gflops
1 Tflops
100 Mflops
100 Gflops
100 Tflops
10 Gflops
10 Tflops
1 Pflops
10 Pflops
IBM ASCI White
Blue GeneEarth Simulator
Intel
TOP500の総計が1PFを超えています
TOP500に掲載されるには1TF
が最低条件になっています
シングルシステムの1PFの実現は2009年
システム(プロセッサ数) 13倍年プロセッサ性能向上 14倍年トータル性能 18倍年
2009年までに1ペタFLOPS
スケーラブルシステムズ株式会社
性能ギャップの拡大
bull ピーク性能の大幅な向上ndash 1990年台は性能の向上は102のオーダーでしたが2000年台になると103のオーダーで性能は向上しています
しかしhellipndash 多くの科学技術計算用途のアプリケーションのピーク性能に対する実効性能の比率は5-10となっています(1990年代のベクトル計算機は40-50の対ピーク性能を示していました)
bull 今必要なのはndash より高い実効性能を発揮することが可能な計算アルゴリズムと手法の開発とスケーラビリティの向上
ndash プログラミングモデルなども含めてスケーラブルな計算機環境の構築
01
1
10
100
1000
2000 2004
Tera
flo
ps
1996
Performance
Gap
Peak Performance
Real Performance
NERSC User Group Meeting June 24-25 2004
Osni Marques and Tony Drummond
Lawrence Berkeley National Laboratory
スケーラブルシステムズ株式会社
ペタスケールシステムの構築
bull ソフトウエア(アプリケーションOSプログラミングAPIなど)の課題の克服が課題
bull システムの複雑さと生産性
例Linpack Benchmark
bull オリジナルベンチマークプログラム ~100ライン
bull HPL ベンチマークプログラム ~10000ライン(x100より複雑)
lsquo複雑さrsquoの壁
現在のテラFLOPS級の問題
Source ORNL
スケーラブルシステムズ株式会社
HPCシステムの動向商用製品
Going DOWN
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
ハードウエアはrsquoCommodityrsquo
なものを利用してSWの改善サポート利用技術のサポートが今後の主要マーケットでの成功の鍵となる
スケーラブルシステムズ株式会社
標準コンポーネントの進化
bull プロセッサの性能向上ndash lsquoマルチコアrsquoによる省電力での性能向上が可能
ndash HPCアプリケーションは容易にlsquoマルチコアrsquoの利点を活用可能 (OpenMPやMPI)
bull ファイルシステムndash高性能なスケーラブルファイルシステム(オープンソース)
bull インターコネクトndash PCI-Express (メモリlarrrarrインターコネクト)
ndash高速の商用製品やオープンソースでの強力(OpenIBなど)
スケーラブルシステムズ株式会社
標準コンポーネントの利点
bull 特定のベンダーからのシステムを組み合わせるのではなく他社のシステムも含めてベストなシステムの選択が可能
ndashスケーラブルSMPベクトル計算機クラスタの幅広い選択肢
ndash 64ビットマルチコアマイクロプロセッサの性能向上を最大限に活用
bull 標準コンポーネントの技術革新の活用
ndash PCI-ExpressやFB-DIMMの利用技術
スケーラブルシステムズ株式会社
Breaking the 1-2K nodes Barrier
bull 音の障壁サウンドバリヤー(sound barrier)飛行機の速度が音速近くになると衝撃波の発生によって抵抗の増大境界層の剥離など設計運用上のさまざまな障害(壁)に出合って超音速飛行は不可能かと思われた時代があった(1947年ごろまで)ので音の障壁といわれていた
httpwwwwilk4commiscsoundbreakhtm
クラスタのノード数がある規模に近くなるとその構築や運用において負担の増大システムの安定稼動スケーラビリティなど設計運用上のさまざまな障害(壁)に出合ってクラスタ構築は不可能と思われた時代があった()
スケーラブルシステムズ株式会社
ビルゲイツ氏の基調講演HPC goes mainstream
スケーラブルシステムズ株式会社
「Fast」「Good」「Cheap」のパズル
Fast
+ Cheap
Inferior
高い性能を廉価なシステムで構築することも可能ですただそのようなシステムの場合システムの構築や利用は必ずしも容易ではありません
Good
+ Cheap
Slow比較的小規模なシステムであれば廉価で使い勝手の良いものを探すことは可能ですしかしそのようなシステムでは拡張性やより大規模なシステム構築が出来ません
Good
+ Fast
Expensive
付加価値の高い性能の高いシステムは一般には高価ですその付加価値がユーザにとってメリットが無ければコストパフォーマンスの悪いシステムになるだけです
スケーラブルシステムズ株式会社
まとめとして
bull 「テクノロジー」をどのようにとらえるかndash企業経営基盤のコア要素
ndashユーザの本質的な課題を解決する戦略的な武器
bull マーケットを牽引する「テクノロジ」に求められることndashテクノロジとHPCにおけるITインフラの関係を明確にすること
bull ユーザに何らかのメリットをもたらさない「テクノロジー」は意味を成さない
ndashテクノロジーを最適に組み合わせることで問題解決のためのソリューションの提供が可能
スケーラブルシステムズ株式会社
まとめとして
bull bdquoTs‟ for HPC - インテルテクノロジのHPCにおける価値
ndash インテルテクノロジはHPCにおいて重要な構成要素となっている
ndashそれらの構成要素を統合することでより高い価値の提供が可能となる
ndash二分化しつつあるHPCシステムにおいて「標準コ
ンポーネント」としてのプラットフォームの動向として今後もその動向には注目する必要がある
スケーラブルシステムズ株式会社
さらに詳しい情報はhellip
bull 弊社のコンサルテーションに関するご提案資料もダウンロード可能です(非公開WEBページ)別途弊社に内容等についてはお尋ねください
お問い合わせ先102-0083
東京都千代田区麹町3-5-2
BUREX麹町 8F
電話03-5875-4718
FAX03-3237-7612
E-mailbizsstccojp
httpwwwsstccojp wwwsstccojpbiz
スケーラブルシステムズ株式会社
スケーラブルシステムズ株式会社
ハイエンドコンピューティングに関するコンサルテーションとして幅広いサービスをご提供致します
このサービスを最大限に活用していただくことでコラボレーションによる「顧客志向」 のコン
サルテーションサービスをご提供できればと思っております
スケーラブルシステムズ株式会社
社名製品名などは一般に各社の商標または登録商標です無断での引用転載を禁じます
In general the name of the company and the product name etc are the trademarks or registered trademarks of each company
Copyright Scalable Systems Co Ltd 2005 Unauthorized use is strictly forbidden
2005年11月
スケーラブルシステムズ株式会社
ベクトル計算機の逆襲
Episode V
The Empire Strikes Back
スケーラブルシステムズ株式会社
ベクトル計算機の逆襲
bull 2002
bull 地球シュミレータ
bull コンピュータにおけるスプートニックショック
10487075120 (640 8-way nodes) 500 MHz NEC
10487078 GFLOPS per CPU (41 TFLOPS total)
10487072 GB Memory per CPU (10 TB total)
104870720 kVA power consumption per node
スケーラブルシステムズ株式会社
HPCの歴史
Episode II
Attack of the Clones
スケーラブルシステムズ株式会社
イノベーションのジレンマ
bull クレイトンクリステンセンの「イノベーションのジレンマ」
bull 持続的イノベーションと破壊的イノベーションによるマーケットの動向を分析
bull 持続的イノベーション
ndash 技術革新が顧客の求める性能向上軸に沿っている
bull 破壊的イノベーション
ndash 既存顧客が求める性能とは異なる軸の性能(特性)
スケーラブルシステムズ株式会社
製品の性能
時間
製品の性能(異なる尺度で評価)
時間
Commodity-Based Cluster
RISCベースのSMPNUMAシステム
ベクトル計算機
破壊的イノベーション
スケーラブルシステムズ株式会社
Beowulf プロジェクト
Wiglaf - 1994
16 Intel 80486 100 MHz
VESA Local bus
256 Mbytes memory
64 Gbytes of disk
Dual 10 base-T Ethernet
72 Mflops sustained
$40K
Hrothgar - 1995
16 Intel Pentium100 MHz
PCI
1 Gbyte memory
64 Gbytes of disk
100 base-T Fast Ethernet
(hub)
240 Mflops sustained
$46K
Hyglac-1996 (Caltech)
16 Pentium Pro 200 MHz
PCI
2 Gbytes memory
496 Gbytes of disk
100 base-T Fast Ethernet
(switch)
125 Gflops sustained
$50K
スケーラブルシステムズ株式会社
クラスタシステムの台頭
2000-2005
スケーラブルシステムズ株式会社
課題
Episode III
Revenge of the sith
スケーラブルシステムズ株式会社
HPCの現状
Going UP Going DOWN
システムの規模解析モデルのサイズ運用管理の複雑さbull電力bullスペースbullシステムの相互接続bull管理コスト
生産性bullプログラミングbullシステムの可用性bull実効性能ピーク性能システムバランスHWコスト
スケーラブルシステムズ株式会社
HPCマーケット
bull HPCマーケットでのHPCシステム構築及び製品は次の3つのセグメントに分かれているndash 一般商用システム( Commodity-based systems)
bull 一般のクラスタシステム(Dell HPCCなど)
ndash 付加価値システム( Value-based systems)bull 多くのSMPやNUMAシステム(SGI Altixなど)
ndash 特定目的システム( Purpose-built systems)bull アプリケーションと解析対象に合わせたシステム設計(IBM
BlueGeneLなど)
bull IDCなどのレポートでも一般商用システムのHPCマーケットでの導入がもっともその成長が大きいndash 付加価値システムの課題(一般商用システムとの競合に対する対応もしくは新たな分野の開拓rarrペタスケールコンピューティング)
ndash HPCSプログラムはこの付加価値システムのベンダーにとっても生き残りを賭けた戦い (2006July)
スケーラブルシステムズ株式会社
HPCシステムの現状分析
bull Good News
ldquoHPCシステムにおける問題はたった2つだけであるrdquo
スケーラブルシステムズ株式会社
ソフトウエアとハードウエア
bull ソフトウエアThe Law of Morehellip
ndashシステム規模とその複雑さの急速な増加拡大
ndash ソフトウエアの準備が出来た時点でハードウエアは既に陳腐化し次のシステムの導入の検討が進む
bull ハードウエアMoore‟s Law (ムーアの法則)ndash消費電力の問題のためプロセッサの動作クロックを今までのペースで上げることは困難
ndashプロセッサとメモリの性能差の拡大によるCPUサイクルとのギャップ
ndashピーク性能と実効性能のギャップの拡大
スケーラブルシステムズ株式会社
ソフトウエアThe Law of Morehellip
bull 研究者はより多くの時間(More Time)をソフトウエアの開発のために必要としている
bull 問題はより複雑(More Complex)になりそしてより多くのプロセッサ(More Processors)を利用して処理を行うにはより多くの困難(More
Difficult)が伴います
スケーラブルシステムズ株式会社
アルゴリズムの最適化
bull 計算機自身の進化と共に計算アルゴリズムも最適化されている
bull 例編微分方程式の解法ndash N=106の場合ガウスの消去法で線形方程式を解く場合と
MGでの計算では108倍の計算量が違うndash これは1Mflopssの計算機で100Tflopssの計算機に相当する計算を行ったことになる
O(N)F-cycle MG
O(N76 log(N))CGMILU
O(N43 log(N))Optimal SOR
O(N53 log(N))Gauss Seidel
O(N73)Banded Gauss Elimination
計算オペレーション数(概数)アルゴリズム
2u=f 100
100100
スケーラブルシステムズ株式会社
ソフトウエアThe Law of Morehellip
bull 一般の商用製品を活用したクラスタソリューションでは「Capacity」の実現は容易であるが「Capability」の実現については依然として課題が多いndash コストパフォーマンスの高いシステムの構築は可能だとしてもコストプロダクティビティの高いシステムの構築も課題
bull 数百~数千プロセッサ構成のシステムの利用技術と解析対象の検討ndash 小規模中規模問題の高速処理への対応ndash ソフトウエア開発の生産性
bull 数プロセッサ~数十プロセッサをより簡便に容易に利用できる技術ndash シングルプロセッサシングルスレッドを利用するのと同じようにhellip
スケーラブルシステムズ株式会社
ソフトウエアとハードウエア
bull ソフトウエアThe Law of Morehellip
ndashシステム規模とその複雑さの急速な増加拡大
ndash ソフトウエアの準備が出来た時点でハードウエアは既に陳腐化し次のシステムの導入の検討が進む
bull ハードウエアMoore‟s Law (ムーアの法則)ndash消費電力の問題のためプロセッサの動作クロックを今までのペースで上げることは困難
ndashプロセッサとメモリの性能差の拡大によるCPUサイクルとのギャップ
ndashピーク性能と実効性能のギャップの拡大
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash過去12年間でPentiumプロセッサの動作周波数は60 MHz から 3800 MHz にまでアップ
ndash現在までの高性能化の約80 はクロック周波数の向上によるもの
スケーラブルシステムズ株式会社
ハードウエアの問題Moore‟s Lawムーアの法則
bull インテルの共同設立者の1人である Gordon Moore 博士が1965年4月19日号の「Electronics」誌に投稿した 「一定面積に集積されるトランジスタの数は12か月で倍増しそれに伴いトランジスタの動作速度が向上する」という予測 (その後1975年に Moore 博士はチップの複雑化を考慮してトランジスタ数の倍増ペースを24か月に修正)
bull また一般にはあまり知られていないがテクノロジの進歩とともに製造コストが劇的に下落することも予測(左図)
httpwwwintelcojpjpdevelopertechnologysiliconmooreslawindexhtm
指数関数的成長は永遠には続かないしかしその永遠を先延ばしにすることはできる [英語 PDF 形式 2MB]
Gordon E Moore2003年2月10日ISSCC (International
Solid State Circuits Conference) でのプレゼンテーション
Dr Gordon Moore
(co-founder of Intel)
スケーラブルシステムズ株式会社
Technology Trend
ムーアの法則依然として有効
スケーラブルシステムズ株式会社
性能向上の源泉は
ハードウエアデバイス技術の進歩bull ロジック回路のスイッチング速度の向上とデバイス密度bull メモリサイズの拡大とアクセス速度の向上bull 通信性能(バンド幅とレイテンシの向上)
bull 並列性ndash 1サイクルでの命令実行数
bull 命令レベルでの並列性(ILP)
bull ベクトル処理ndash プロセッサあたりコア数ndash ノードあたりのプロセッサ数ndash システムあたりのノード数
コンピュータアーキテクチャbull 命令発行実行速度の向上
ndash パイプライン化ndash 分岐予測ndash キャッシュndash Out-of-order など
スケーラブルシステムズ株式会社
GHz競争
bull 2000年に開催されたIEEE国際電子デバイス会議2000(2000
IEEE International Electron Devices MeetingIEDM) においてインテル社は4億個以上のトランジスタを集積した10GHz駆動のプロセッサが2005年までに実現可能だと発表しましたndash 実際にはインテル社の最速プロセッサは6ヶ月前に発表された
38GHz(Intel Pentium 4)となっています
bull Prescottプロセッサの6xxシリーズ発表に際してインテル社はldquoadding value beyond GHzrdquo のコメントを出していますそれ以降インテル社の多くのドキュメントやプレスリリースはこのldquoadding value beyond GHzrdquo についての内容を含んでいます
スケーラブルシステムズ株式会社
発熱の問題が深刻化
Bob Colwell氏の資料より抜粋
Increasing Frequency
Watt
scm
2
1
10
100
1000
15 10 07 05 035 025 018 013 01 007
i386i486
PentiumPentium Pro
Pentium IIPentium III
Hot Plate
Nuclear Reactor
Rocket Nozzle
Pentium 4(Prescott)
Pentium 4(Willamette)
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash過去12年間でPentiumプロセッサの動作周波数は60 MHz から 3800 MHz にまでアップ
ndash現在までの高性能化の約80 はクロック周波数の向上によるもの
bull 命令実行の強化と最適化
ndashより強力なインストラクションセット
ndash命令実行の最適化(パイプライン化分岐予測複数命令の同時実行命令実行順序の変更など)
スケーラブルシステムズ株式会社
技術のSカーブ技術開発の進展と製品性能の成長の関係
bull 技術開発の初期は製品性能はゆっくりと向上するがしだいに性能の向上の幅が大きくなるしかし次第に技術開発が成熟段階に入ると性能向上は逓減していく
製品の性能
時間
First Technology
Second Technology
Third Technology
RISCアウトオブオーダー実行lt1 instruction cycle
スーパースカラー RISCアウトオブオーダー実行lt2 instructions cycle
明示的並列命令コンピューティング技術 (EPIC)
命令の並列実行度の向上
スケーラブルシステムズ株式会社
マイクロアーキテクチャのSカーブ
Johan De Gelas Quest for More Processing Power
AnandTech Feb 8 2005
httpwwwanandtechcomcpuchipsetsshowdocaspxi=2343
101
102
103
104
105
106
MIP
S
1980 1985 1990 1995 2000 2005 2010
Pentium Architecture
Super Scalar
Pentium Pro Architecture
Speculative Out-of-Order
Pentium 4 Architecture
Trace Cache
Pentium 4 and Xeon Architecture with HT
Multi-Threaded
Multi-Threaded Multi-Core
Era of
Instruction
Parallelism
Era of
Thread
Parallelism
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash 過去12年間でPentiumプロセッサの動作周波数は60
MHz から 3800 MHz にまでアップ
ndash 現在までの高性能化の約80 はクロック周波数の向上によるもの
bull 命令実行の強化と最適化
ndash より強力なインストラクションセット
ndash 命令実行の最適化(パイプライン化分岐予測複数命令の同時実行命令実行順序の変更など)
bull 大容量キャッシュ
ndash プロセッサの速度とメモリレイテンシ(待ち時間)とバンド幅のギャップの拡大に対する対策対応としての容量の拡張
スケーラブルシステムズ株式会社
性能ギャップの問題
bull プロセッサ速度とメモリアクセスの速度差によってプロセッサがより高速になったとしてもプロセッサはその演算能力を完全に使い切ることが出来ない
1
10
100
1000Performance
1980 1990 2000
microProc
60yr
DRAM
7yr
バンド幅とレイテンシの問題が今後はより深刻(プロセッサ性能とのギャップはほぼ年率50の差で広がっている)
DRAM
CPU
プロセッサはほぼナノ秒に一回命令実行DRAMへのアクセスはほぼ100ナノ秒の時間
スケーラブルシステムズ株式会社
今後の発展と課題
Episode IV
A New Hope
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash 過去12年間でPentiumプロセッサの動作周波数は60
MHz から 3800 MHz にまでアップ
ndash 現在までの高性能化の約80 はクロック周波数の向上によるもの
bull 命令実行の強化と最適化
ndash より強力なインストラクションセット
ndash 命令実行の最適化(パイプライン化分岐予測複数命令の同時実行命令実行順序の変更など)
bull 大容量キャッシュ
ndash プロセッサの速度とメモリレイテンシ(待ち時間)とバンド幅のギャップの拡大に対する対策対応としての容量の拡張
スケーラブルシステムズ株式会社
デュアルコアプロセッサ
bull チップ上のトランジスタのより有効活用が可能bull スレッドレベルでの並列処理を活用bull よりシンプルなプロセッサの設計が可能
bull 将来のマイクロプロセッサはより多くのコアを実装可能bull 将来のマイクロプロセッサはより大容量のキャッシュの実装が可能
IBM Power5
with 19MB L2
AMD Opteron
with 2MB L2
Intel Montecito
With 24MB L3
スケーラブルシステムズ株式会社
イノベーションのジレンマ
製品の性能
時間
First Technology
Second Technology
Third Technology
RISCアウトオブオーダー実行lt1 instruction cycle
スーパースカラー RISCアウトオブオーダー実行lt2 instructions cycle
明示的並列命令コンピューティング技術 (EPIC)
命令の並列実行度の向上
製品の性能(異なる尺度)
時間
持続的イノベーション
技術革新が顧客の求める性能向上軸(ムーアの法則)に沿っている
破壊的イノベーションマルチコアとマルチスレッドによる並列処理
短期的には(シングルスレッドの性能)としては性能が低下するが将来の大きな性能向上とコスト低下機能強化の可能性が大きい
スケーラブルシステムズ株式会社
マルチコアの利点
ワークロードの処理効率の向上
bull マルチスレッドアプリケーションndash現在多くのアプリケーション(データベース
WEB科学技術計算)はマルチスレッド化
ndashマルチコアプロセッサではこれらのアプリケーションのマルチスレッドでの実行が容易に可能
bull 複数ジョブの処理ndashシステムでは複数のワークロード同時に処理することが必要
ndashマルチコアではこれらのワークロードへの処理が可能
スケーラブルシステムズ株式会社
マルチコアの利点
消費電力あたりの性能を最大にし高性能で低消費電力のシステム構築が可能
bull OS自身のマルチスレッド対応
ndash OSのサービスもマルチスレッドで処理することでより効率よく処理することが可能
bull 仮想化
ndashサーバのセキュリティや管理の強化
ndash管理するノード数を減らし運用コストの削減を図る
bull 最新のソフトウエアテクノロジの活用
スケーラブルシステムズ株式会社
大きな変革しかし容易ではない
マルチコアプロセッシング(または汎用もしくは専用プロセッサをソケットに複数搭載可能なこと)はEthernetの誕生以来ITインフラに対しての大きなインパクトをもたらします
デュアルプロセッサは386プロセッサの発表以来性能に関して最大の向上を実現しますしかしこのような性能向上にはソフトウエアの最適化がプロセッサの性能をフルに発揮するためには必要です
スケーラブルシステムズ株式会社
並列性(Parallelism)の利用
マルチタスク処理
MPIなどによる複数のノード間での並列処理
ユーザ及びコンパイラによるスレッドレベルでの並列処理(TLP)
コンパイラによる命列実行レベルでの並列処理(ILP)
マルチコア
マルチプロセッサ
マルチノード
マルチインストラクション
システム
スケーラブルシステムズ株式会社
ムーアの法則(GHz から MC へ)
マルチコアによる性能向上
動作周波数の向上による性能向上
性能
2005
bullマルチスレッドbullマルチタスクbull トレーニングbullツールbullhelliphellip
並列処理による性能向上についてはシステムサポートやプログラミングサポートなどの面での技術支援が重要です
スケーラブルシステムズ株式会社
Episode VI
Return of the Jedi
Ts for HPC - インテルテクノロジのHPCにおける価値の考察
スケーラブルシステムズ株式会社
将来予測の難しさ
bull ldquoI think there is a world market for maybe five
computersrdquobull Thomas Watson chairman of IBM 1943
bull ldquoThere is no reason for any individual to have a
computer in their homerdquobull Ken Olson president and founder of digital equipment
corporation 1977
bull ldquoThere are only about 100 potential customers
worldwide for a Cray-1rdquobull Seymour Cray 1977
bull ldquo640K [of memory] ought to be enough for
anybodyrdquobull Bill Gates chairman of Microsoft1981
スケーラブルシステムズ株式会社
「未来を予測する最良の方法はそれを創造してしまうことである」The best way to predict future is to invent it
Dr Alan Kay President of Viewpoints Research
Institute Inc
スケーラブルシステムズ株式会社
ITマネージメントの課題
bull プラットフォームの内部からの保護ndash ウイルスやワームなど悪意あるソフトウェアからの保護
bull 資産管理ndash 多くの IT 部門では特定できない資産が問題
bull オンラインおよびリモート管理診断機能 ndash アップグレード診断復旧のための作業の効率化
bull アプリケーション統合の困難さ
ndash アプリケーションの高度化と複雑化によって複数のアプリケーションを組み合わせるての動作に問題
bull 動的なリソース割り当て
ndash 組織内で未使用のCPUやメモリの活用
スケーラブルシステムズ株式会社
マーケットトレンド
All Servers Worldwide 2003 2004 2005 20062003 to 2006
CAGR
2005 to 2006
CAGR
Total Factory Revenue($B) $46149 $49146 $51268 $52251 42 19
Units Shipped(same as nodes) 5278222 6307484 7050099 7472649 123 60
Processor Dies Shipped 8662823 10134624 11712766 12779159 138 91
HPC Technical Servers Worldwide 2003 2004 2005 20062003 to 2006
CAGR
2005 to 2006
CAGR
HPC Server Revenue($B) $5698 $7393 $9208 $10030 207 89
Adjusted Revenues(To much
enterprise)$5128 $6654 $8287 $9027 207 89
Node Units Shipped 411327 734510 1215735 1419221 511 167
Processor Elements Shipped 1002905 1657827 2681079 3351843 495 250
HPC As A Ratio Of All Servers 2003 2004 2005 2006
Revenue($B) 123 150 180 192
Adjusted Revenues(Apples-to-
apples)111 135 162 173
Units Shipped(Nodes) 78 116 172 190
Processors Shipped 116 164 226 261
Source IDC 2007
スケーラブルシステムズ株式会社
HPCマーケット(対全サーバマーケット)
0
5
10
15
20
25
30
2003 2004 2005 2006
Revenue($B)
Adjusted Revenues(Apples-to-apples)
Units Shipped(Nodes)
Processors Shipped
スケーラブルシステムズ株式会社
マーケットトレンド
Source IDC 2004
Cost of mgmt amp admin 10 CAGR
$0
$20
$40
$60
$80
$100
$120
$140
$160
$180
$200
1996 rsquo97 rsquo98 rsquo992000 rsquo01 rsquo02 rsquo03 rsquo04 rsquo05 rsquo06 rsquo07 rsquo08-
New server spending (USM$) 3 CAGR
Spending (USB$)
5
10
15
20
25
30
35
Installed Base (M Units)
bull ハードウェアの減価償却費は IT の TCO 全体の約25 にすぎない
bull ソフトウェアのコストはわずか10~15
bull 電気などの公共料金フロアスペース電話回線など設備面のコストの割合もきわめて小さい
bull プラットフォームのコストではなくTCOの大きな比率を占めるのは人件費となっている
スケーラブルシステムズ株式会社
運用管理コストの低減
bull 「もっと処理性能を」と「より安価に」を実現するためにワークステーションやサーバでの分散処理の導入
bull ユーザや企業に新たな価値をもたらしてはいるが管理責任とその負担の分散を招き結果的に運用管理コストを押し上げる
メインフレームスーパーコンピュータ
仮想化によるサーバコンソリデーション
クラスタによる仮想コンピュータ
スケーラブルシステムズ株式会社
次世代HPCインフラ
bull コアとスレッド
ndash より多くのスレッドを効率よく利用可能
ndash マルチスレッド向け最適化
bull 電力管理
ndash 省電力
ndash データセンター運用管理機能
bull 仮想化
ndash 柔軟性と優れた運用管理
ndash 仮想的なシステムパーティション
bull RAS
ndash ハードウエアベースの自己監視自己管理
ndash ファームウエアベースのエラー履歴管理
bull システム管理
ndash より低いTCOを実現するための一般標準化されたマネージメント機能
スケーラブルシステムズ株式会社
高速プロセッサ
64ビットアドレス
メモリ性能と容
量
IOバンド幅
インターコネクト
省電力
システムのlsquoバランスrsquo
マルチコアによってプロセッサ単体の処理性能の向上を図る
64ビットのアドレス空間と
拡張されたレジスタによるOSとアプリケーション双方の機能性能拡張
64ビット化とマルチコア化
にともなう高速大容量へのニーズに対応しまたその拡張性の高い実装技術の実現
CPU-メモリ間の高速な
データ転送やより高速なネットワーク大規模なストレージのサポート
大規模なクラスタシステムの構築及びアプリケーションのワークロードに対応した高速性能
エコシステムに対応するためにも電力消費量や発熱量を積極的に抑える技術の開発
スケーラブルシステムズ株式会社
HPCの二極分化
Going UP
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
Going DOWN
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
スケーラブルシステムズ株式会社
システムとユーザの尺度
bull ユーザの尺度での性能(Performance)は時間当たりにどれだけの仕事を処理出来るか(仕事量 時間)
bull Flopsでの評価は実際には意味がないまた問題の規模(small medium large) という評価も難しい
bull ldquoスケーラビリティrdquoは対象を明確に規定する必要がある
システムの尺度 ユーザの尺度
Flops hArr 計算終了までの時間
メモリサイズ(GB) hArr モデルのサイズと計算結果
プロセッサ数 hArr ワークロードでの試行
データ長 hArr 計算精度
システム構成(クラスタ) hArr 導入コストと運用コスト
スケーラビリティ hArr ベンチマーク
スケーラブルシステムズ株式会社
HPCシステムの動向国家プロジェクトと商用製品のギャップの拡大
Going UP
Going DOWN
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
Peta-Scaleコンピューティングに求められる基本技術と現在のHPCの主要マーケットでの要求はあまりにも差が大きいrarrHPCSシステムは各社とのlsquoCommodityrsquoのマイクロプロセッサではなく独自のプロセッサを開発中
ハードウエアはrsquoCommodityrsquo
なものを利用してSWの改善サポート利用技術のサポートが今後の主要マーケットでの成功の鍵となる
スケーラブルシステムズ株式会社
HPCシステムの動向国家プロジェクト
Going UP
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
Peta-Scaleコンピューティングに求められる基本技術と現在のHPCの主要マーケットでの要求はあまりにも差が大きいrarrHPCSシステムは各社とのlsquoCommodityrsquoのマイクロプロセッサではなく独自のプロセッサを開発中
スケーラブルシステムズ株式会社
TOP500性能予測
1993 1995 1997 1999 2001 2003 2005 2007 2009 2011 2013 2015
N=
50
SUM
1 Gflops
1 Tflops
100 Mflops
100 Gflops
100 Tflops
10 Gflops
10 Tflops
1 Pflops
10 Pflops
IBM ASCI White
Blue GeneEarth Simulator
Intel
TOP500の総計が1PFを超えています
TOP500に掲載されるには1TF
が最低条件になっています
シングルシステムの1PFの実現は2009年
システム(プロセッサ数) 13倍年プロセッサ性能向上 14倍年トータル性能 18倍年
2009年までに1ペタFLOPS
スケーラブルシステムズ株式会社
性能ギャップの拡大
bull ピーク性能の大幅な向上ndash 1990年台は性能の向上は102のオーダーでしたが2000年台になると103のオーダーで性能は向上しています
しかしhellipndash 多くの科学技術計算用途のアプリケーションのピーク性能に対する実効性能の比率は5-10となっています(1990年代のベクトル計算機は40-50の対ピーク性能を示していました)
bull 今必要なのはndash より高い実効性能を発揮することが可能な計算アルゴリズムと手法の開発とスケーラビリティの向上
ndash プログラミングモデルなども含めてスケーラブルな計算機環境の構築
01
1
10
100
1000
2000 2004
Tera
flo
ps
1996
Performance
Gap
Peak Performance
Real Performance
NERSC User Group Meeting June 24-25 2004
Osni Marques and Tony Drummond
Lawrence Berkeley National Laboratory
スケーラブルシステムズ株式会社
ペタスケールシステムの構築
bull ソフトウエア(アプリケーションOSプログラミングAPIなど)の課題の克服が課題
bull システムの複雑さと生産性
例Linpack Benchmark
bull オリジナルベンチマークプログラム ~100ライン
bull HPL ベンチマークプログラム ~10000ライン(x100より複雑)
lsquo複雑さrsquoの壁
現在のテラFLOPS級の問題
Source ORNL
スケーラブルシステムズ株式会社
HPCシステムの動向商用製品
Going DOWN
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
ハードウエアはrsquoCommodityrsquo
なものを利用してSWの改善サポート利用技術のサポートが今後の主要マーケットでの成功の鍵となる
スケーラブルシステムズ株式会社
標準コンポーネントの進化
bull プロセッサの性能向上ndash lsquoマルチコアrsquoによる省電力での性能向上が可能
ndash HPCアプリケーションは容易にlsquoマルチコアrsquoの利点を活用可能 (OpenMPやMPI)
bull ファイルシステムndash高性能なスケーラブルファイルシステム(オープンソース)
bull インターコネクトndash PCI-Express (メモリlarrrarrインターコネクト)
ndash高速の商用製品やオープンソースでの強力(OpenIBなど)
スケーラブルシステムズ株式会社
標準コンポーネントの利点
bull 特定のベンダーからのシステムを組み合わせるのではなく他社のシステムも含めてベストなシステムの選択が可能
ndashスケーラブルSMPベクトル計算機クラスタの幅広い選択肢
ndash 64ビットマルチコアマイクロプロセッサの性能向上を最大限に活用
bull 標準コンポーネントの技術革新の活用
ndash PCI-ExpressやFB-DIMMの利用技術
スケーラブルシステムズ株式会社
Breaking the 1-2K nodes Barrier
bull 音の障壁サウンドバリヤー(sound barrier)飛行機の速度が音速近くになると衝撃波の発生によって抵抗の増大境界層の剥離など設計運用上のさまざまな障害(壁)に出合って超音速飛行は不可能かと思われた時代があった(1947年ごろまで)ので音の障壁といわれていた
httpwwwwilk4commiscsoundbreakhtm
クラスタのノード数がある規模に近くなるとその構築や運用において負担の増大システムの安定稼動スケーラビリティなど設計運用上のさまざまな障害(壁)に出合ってクラスタ構築は不可能と思われた時代があった()
スケーラブルシステムズ株式会社
ビルゲイツ氏の基調講演HPC goes mainstream
スケーラブルシステムズ株式会社
「Fast」「Good」「Cheap」のパズル
Fast
+ Cheap
Inferior
高い性能を廉価なシステムで構築することも可能ですただそのようなシステムの場合システムの構築や利用は必ずしも容易ではありません
Good
+ Cheap
Slow比較的小規模なシステムであれば廉価で使い勝手の良いものを探すことは可能ですしかしそのようなシステムでは拡張性やより大規模なシステム構築が出来ません
Good
+ Fast
Expensive
付加価値の高い性能の高いシステムは一般には高価ですその付加価値がユーザにとってメリットが無ければコストパフォーマンスの悪いシステムになるだけです
スケーラブルシステムズ株式会社
まとめとして
bull 「テクノロジー」をどのようにとらえるかndash企業経営基盤のコア要素
ndashユーザの本質的な課題を解決する戦略的な武器
bull マーケットを牽引する「テクノロジ」に求められることndashテクノロジとHPCにおけるITインフラの関係を明確にすること
bull ユーザに何らかのメリットをもたらさない「テクノロジー」は意味を成さない
ndashテクノロジーを最適に組み合わせることで問題解決のためのソリューションの提供が可能
スケーラブルシステムズ株式会社
まとめとして
bull bdquoTs‟ for HPC - インテルテクノロジのHPCにおける価値
ndash インテルテクノロジはHPCにおいて重要な構成要素となっている
ndashそれらの構成要素を統合することでより高い価値の提供が可能となる
ndash二分化しつつあるHPCシステムにおいて「標準コ
ンポーネント」としてのプラットフォームの動向として今後もその動向には注目する必要がある
スケーラブルシステムズ株式会社
さらに詳しい情報はhellip
bull 弊社のコンサルテーションに関するご提案資料もダウンロード可能です(非公開WEBページ)別途弊社に内容等についてはお尋ねください
お問い合わせ先102-0083
東京都千代田区麹町3-5-2
BUREX麹町 8F
電話03-5875-4718
FAX03-3237-7612
E-mailbizsstccojp
httpwwwsstccojp wwwsstccojpbiz
スケーラブルシステムズ株式会社
スケーラブルシステムズ株式会社
ハイエンドコンピューティングに関するコンサルテーションとして幅広いサービスをご提供致します
このサービスを最大限に活用していただくことでコラボレーションによる「顧客志向」 のコン
サルテーションサービスをご提供できればと思っております
スケーラブルシステムズ株式会社
社名製品名などは一般に各社の商標または登録商標です無断での引用転載を禁じます
In general the name of the company and the product name etc are the trademarks or registered trademarks of each company
Copyright Scalable Systems Co Ltd 2005 Unauthorized use is strictly forbidden
2005年11月
スケーラブルシステムズ株式会社
ベクトル計算機の逆襲
bull 2002
bull 地球シュミレータ
bull コンピュータにおけるスプートニックショック
10487075120 (640 8-way nodes) 500 MHz NEC
10487078 GFLOPS per CPU (41 TFLOPS total)
10487072 GB Memory per CPU (10 TB total)
104870720 kVA power consumption per node
スケーラブルシステムズ株式会社
HPCの歴史
Episode II
Attack of the Clones
スケーラブルシステムズ株式会社
イノベーションのジレンマ
bull クレイトンクリステンセンの「イノベーションのジレンマ」
bull 持続的イノベーションと破壊的イノベーションによるマーケットの動向を分析
bull 持続的イノベーション
ndash 技術革新が顧客の求める性能向上軸に沿っている
bull 破壊的イノベーション
ndash 既存顧客が求める性能とは異なる軸の性能(特性)
スケーラブルシステムズ株式会社
製品の性能
時間
製品の性能(異なる尺度で評価)
時間
Commodity-Based Cluster
RISCベースのSMPNUMAシステム
ベクトル計算機
破壊的イノベーション
スケーラブルシステムズ株式会社
Beowulf プロジェクト
Wiglaf - 1994
16 Intel 80486 100 MHz
VESA Local bus
256 Mbytes memory
64 Gbytes of disk
Dual 10 base-T Ethernet
72 Mflops sustained
$40K
Hrothgar - 1995
16 Intel Pentium100 MHz
PCI
1 Gbyte memory
64 Gbytes of disk
100 base-T Fast Ethernet
(hub)
240 Mflops sustained
$46K
Hyglac-1996 (Caltech)
16 Pentium Pro 200 MHz
PCI
2 Gbytes memory
496 Gbytes of disk
100 base-T Fast Ethernet
(switch)
125 Gflops sustained
$50K
スケーラブルシステムズ株式会社
クラスタシステムの台頭
2000-2005
スケーラブルシステムズ株式会社
課題
Episode III
Revenge of the sith
スケーラブルシステムズ株式会社
HPCの現状
Going UP Going DOWN
システムの規模解析モデルのサイズ運用管理の複雑さbull電力bullスペースbullシステムの相互接続bull管理コスト
生産性bullプログラミングbullシステムの可用性bull実効性能ピーク性能システムバランスHWコスト
スケーラブルシステムズ株式会社
HPCマーケット
bull HPCマーケットでのHPCシステム構築及び製品は次の3つのセグメントに分かれているndash 一般商用システム( Commodity-based systems)
bull 一般のクラスタシステム(Dell HPCCなど)
ndash 付加価値システム( Value-based systems)bull 多くのSMPやNUMAシステム(SGI Altixなど)
ndash 特定目的システム( Purpose-built systems)bull アプリケーションと解析対象に合わせたシステム設計(IBM
BlueGeneLなど)
bull IDCなどのレポートでも一般商用システムのHPCマーケットでの導入がもっともその成長が大きいndash 付加価値システムの課題(一般商用システムとの競合に対する対応もしくは新たな分野の開拓rarrペタスケールコンピューティング)
ndash HPCSプログラムはこの付加価値システムのベンダーにとっても生き残りを賭けた戦い (2006July)
スケーラブルシステムズ株式会社
HPCシステムの現状分析
bull Good News
ldquoHPCシステムにおける問題はたった2つだけであるrdquo
スケーラブルシステムズ株式会社
ソフトウエアとハードウエア
bull ソフトウエアThe Law of Morehellip
ndashシステム規模とその複雑さの急速な増加拡大
ndash ソフトウエアの準備が出来た時点でハードウエアは既に陳腐化し次のシステムの導入の検討が進む
bull ハードウエアMoore‟s Law (ムーアの法則)ndash消費電力の問題のためプロセッサの動作クロックを今までのペースで上げることは困難
ndashプロセッサとメモリの性能差の拡大によるCPUサイクルとのギャップ
ndashピーク性能と実効性能のギャップの拡大
スケーラブルシステムズ株式会社
ソフトウエアThe Law of Morehellip
bull 研究者はより多くの時間(More Time)をソフトウエアの開発のために必要としている
bull 問題はより複雑(More Complex)になりそしてより多くのプロセッサ(More Processors)を利用して処理を行うにはより多くの困難(More
Difficult)が伴います
スケーラブルシステムズ株式会社
アルゴリズムの最適化
bull 計算機自身の進化と共に計算アルゴリズムも最適化されている
bull 例編微分方程式の解法ndash N=106の場合ガウスの消去法で線形方程式を解く場合と
MGでの計算では108倍の計算量が違うndash これは1Mflopssの計算機で100Tflopssの計算機に相当する計算を行ったことになる
O(N)F-cycle MG
O(N76 log(N))CGMILU
O(N43 log(N))Optimal SOR
O(N53 log(N))Gauss Seidel
O(N73)Banded Gauss Elimination
計算オペレーション数(概数)アルゴリズム
2u=f 100
100100
スケーラブルシステムズ株式会社
ソフトウエアThe Law of Morehellip
bull 一般の商用製品を活用したクラスタソリューションでは「Capacity」の実現は容易であるが「Capability」の実現については依然として課題が多いndash コストパフォーマンスの高いシステムの構築は可能だとしてもコストプロダクティビティの高いシステムの構築も課題
bull 数百~数千プロセッサ構成のシステムの利用技術と解析対象の検討ndash 小規模中規模問題の高速処理への対応ndash ソフトウエア開発の生産性
bull 数プロセッサ~数十プロセッサをより簡便に容易に利用できる技術ndash シングルプロセッサシングルスレッドを利用するのと同じようにhellip
スケーラブルシステムズ株式会社
ソフトウエアとハードウエア
bull ソフトウエアThe Law of Morehellip
ndashシステム規模とその複雑さの急速な増加拡大
ndash ソフトウエアの準備が出来た時点でハードウエアは既に陳腐化し次のシステムの導入の検討が進む
bull ハードウエアMoore‟s Law (ムーアの法則)ndash消費電力の問題のためプロセッサの動作クロックを今までのペースで上げることは困難
ndashプロセッサとメモリの性能差の拡大によるCPUサイクルとのギャップ
ndashピーク性能と実効性能のギャップの拡大
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash過去12年間でPentiumプロセッサの動作周波数は60 MHz から 3800 MHz にまでアップ
ndash現在までの高性能化の約80 はクロック周波数の向上によるもの
スケーラブルシステムズ株式会社
ハードウエアの問題Moore‟s Lawムーアの法則
bull インテルの共同設立者の1人である Gordon Moore 博士が1965年4月19日号の「Electronics」誌に投稿した 「一定面積に集積されるトランジスタの数は12か月で倍増しそれに伴いトランジスタの動作速度が向上する」という予測 (その後1975年に Moore 博士はチップの複雑化を考慮してトランジスタ数の倍増ペースを24か月に修正)
bull また一般にはあまり知られていないがテクノロジの進歩とともに製造コストが劇的に下落することも予測(左図)
httpwwwintelcojpjpdevelopertechnologysiliconmooreslawindexhtm
指数関数的成長は永遠には続かないしかしその永遠を先延ばしにすることはできる [英語 PDF 形式 2MB]
Gordon E Moore2003年2月10日ISSCC (International
Solid State Circuits Conference) でのプレゼンテーション
Dr Gordon Moore
(co-founder of Intel)
スケーラブルシステムズ株式会社
Technology Trend
ムーアの法則依然として有効
スケーラブルシステムズ株式会社
性能向上の源泉は
ハードウエアデバイス技術の進歩bull ロジック回路のスイッチング速度の向上とデバイス密度bull メモリサイズの拡大とアクセス速度の向上bull 通信性能(バンド幅とレイテンシの向上)
bull 並列性ndash 1サイクルでの命令実行数
bull 命令レベルでの並列性(ILP)
bull ベクトル処理ndash プロセッサあたりコア数ndash ノードあたりのプロセッサ数ndash システムあたりのノード数
コンピュータアーキテクチャbull 命令発行実行速度の向上
ndash パイプライン化ndash 分岐予測ndash キャッシュndash Out-of-order など
スケーラブルシステムズ株式会社
GHz競争
bull 2000年に開催されたIEEE国際電子デバイス会議2000(2000
IEEE International Electron Devices MeetingIEDM) においてインテル社は4億個以上のトランジスタを集積した10GHz駆動のプロセッサが2005年までに実現可能だと発表しましたndash 実際にはインテル社の最速プロセッサは6ヶ月前に発表された
38GHz(Intel Pentium 4)となっています
bull Prescottプロセッサの6xxシリーズ発表に際してインテル社はldquoadding value beyond GHzrdquo のコメントを出していますそれ以降インテル社の多くのドキュメントやプレスリリースはこのldquoadding value beyond GHzrdquo についての内容を含んでいます
スケーラブルシステムズ株式会社
発熱の問題が深刻化
Bob Colwell氏の資料より抜粋
Increasing Frequency
Watt
scm
2
1
10
100
1000
15 10 07 05 035 025 018 013 01 007
i386i486
PentiumPentium Pro
Pentium IIPentium III
Hot Plate
Nuclear Reactor
Rocket Nozzle
Pentium 4(Prescott)
Pentium 4(Willamette)
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash過去12年間でPentiumプロセッサの動作周波数は60 MHz から 3800 MHz にまでアップ
ndash現在までの高性能化の約80 はクロック周波数の向上によるもの
bull 命令実行の強化と最適化
ndashより強力なインストラクションセット
ndash命令実行の最適化(パイプライン化分岐予測複数命令の同時実行命令実行順序の変更など)
スケーラブルシステムズ株式会社
技術のSカーブ技術開発の進展と製品性能の成長の関係
bull 技術開発の初期は製品性能はゆっくりと向上するがしだいに性能の向上の幅が大きくなるしかし次第に技術開発が成熟段階に入ると性能向上は逓減していく
製品の性能
時間
First Technology
Second Technology
Third Technology
RISCアウトオブオーダー実行lt1 instruction cycle
スーパースカラー RISCアウトオブオーダー実行lt2 instructions cycle
明示的並列命令コンピューティング技術 (EPIC)
命令の並列実行度の向上
スケーラブルシステムズ株式会社
マイクロアーキテクチャのSカーブ
Johan De Gelas Quest for More Processing Power
AnandTech Feb 8 2005
httpwwwanandtechcomcpuchipsetsshowdocaspxi=2343
101
102
103
104
105
106
MIP
S
1980 1985 1990 1995 2000 2005 2010
Pentium Architecture
Super Scalar
Pentium Pro Architecture
Speculative Out-of-Order
Pentium 4 Architecture
Trace Cache
Pentium 4 and Xeon Architecture with HT
Multi-Threaded
Multi-Threaded Multi-Core
Era of
Instruction
Parallelism
Era of
Thread
Parallelism
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash 過去12年間でPentiumプロセッサの動作周波数は60
MHz から 3800 MHz にまでアップ
ndash 現在までの高性能化の約80 はクロック周波数の向上によるもの
bull 命令実行の強化と最適化
ndash より強力なインストラクションセット
ndash 命令実行の最適化(パイプライン化分岐予測複数命令の同時実行命令実行順序の変更など)
bull 大容量キャッシュ
ndash プロセッサの速度とメモリレイテンシ(待ち時間)とバンド幅のギャップの拡大に対する対策対応としての容量の拡張
スケーラブルシステムズ株式会社
性能ギャップの問題
bull プロセッサ速度とメモリアクセスの速度差によってプロセッサがより高速になったとしてもプロセッサはその演算能力を完全に使い切ることが出来ない
1
10
100
1000Performance
1980 1990 2000
microProc
60yr
DRAM
7yr
バンド幅とレイテンシの問題が今後はより深刻(プロセッサ性能とのギャップはほぼ年率50の差で広がっている)
DRAM
CPU
プロセッサはほぼナノ秒に一回命令実行DRAMへのアクセスはほぼ100ナノ秒の時間
スケーラブルシステムズ株式会社
今後の発展と課題
Episode IV
A New Hope
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash 過去12年間でPentiumプロセッサの動作周波数は60
MHz から 3800 MHz にまでアップ
ndash 現在までの高性能化の約80 はクロック周波数の向上によるもの
bull 命令実行の強化と最適化
ndash より強力なインストラクションセット
ndash 命令実行の最適化(パイプライン化分岐予測複数命令の同時実行命令実行順序の変更など)
bull 大容量キャッシュ
ndash プロセッサの速度とメモリレイテンシ(待ち時間)とバンド幅のギャップの拡大に対する対策対応としての容量の拡張
スケーラブルシステムズ株式会社
デュアルコアプロセッサ
bull チップ上のトランジスタのより有効活用が可能bull スレッドレベルでの並列処理を活用bull よりシンプルなプロセッサの設計が可能
bull 将来のマイクロプロセッサはより多くのコアを実装可能bull 将来のマイクロプロセッサはより大容量のキャッシュの実装が可能
IBM Power5
with 19MB L2
AMD Opteron
with 2MB L2
Intel Montecito
With 24MB L3
スケーラブルシステムズ株式会社
イノベーションのジレンマ
製品の性能
時間
First Technology
Second Technology
Third Technology
RISCアウトオブオーダー実行lt1 instruction cycle
スーパースカラー RISCアウトオブオーダー実行lt2 instructions cycle
明示的並列命令コンピューティング技術 (EPIC)
命令の並列実行度の向上
製品の性能(異なる尺度)
時間
持続的イノベーション
技術革新が顧客の求める性能向上軸(ムーアの法則)に沿っている
破壊的イノベーションマルチコアとマルチスレッドによる並列処理
短期的には(シングルスレッドの性能)としては性能が低下するが将来の大きな性能向上とコスト低下機能強化の可能性が大きい
スケーラブルシステムズ株式会社
マルチコアの利点
ワークロードの処理効率の向上
bull マルチスレッドアプリケーションndash現在多くのアプリケーション(データベース
WEB科学技術計算)はマルチスレッド化
ndashマルチコアプロセッサではこれらのアプリケーションのマルチスレッドでの実行が容易に可能
bull 複数ジョブの処理ndashシステムでは複数のワークロード同時に処理することが必要
ndashマルチコアではこれらのワークロードへの処理が可能
スケーラブルシステムズ株式会社
マルチコアの利点
消費電力あたりの性能を最大にし高性能で低消費電力のシステム構築が可能
bull OS自身のマルチスレッド対応
ndash OSのサービスもマルチスレッドで処理することでより効率よく処理することが可能
bull 仮想化
ndashサーバのセキュリティや管理の強化
ndash管理するノード数を減らし運用コストの削減を図る
bull 最新のソフトウエアテクノロジの活用
スケーラブルシステムズ株式会社
大きな変革しかし容易ではない
マルチコアプロセッシング(または汎用もしくは専用プロセッサをソケットに複数搭載可能なこと)はEthernetの誕生以来ITインフラに対しての大きなインパクトをもたらします
デュアルプロセッサは386プロセッサの発表以来性能に関して最大の向上を実現しますしかしこのような性能向上にはソフトウエアの最適化がプロセッサの性能をフルに発揮するためには必要です
スケーラブルシステムズ株式会社
並列性(Parallelism)の利用
マルチタスク処理
MPIなどによる複数のノード間での並列処理
ユーザ及びコンパイラによるスレッドレベルでの並列処理(TLP)
コンパイラによる命列実行レベルでの並列処理(ILP)
マルチコア
マルチプロセッサ
マルチノード
マルチインストラクション
システム
スケーラブルシステムズ株式会社
ムーアの法則(GHz から MC へ)
マルチコアによる性能向上
動作周波数の向上による性能向上
性能
2005
bullマルチスレッドbullマルチタスクbull トレーニングbullツールbullhelliphellip
並列処理による性能向上についてはシステムサポートやプログラミングサポートなどの面での技術支援が重要です
スケーラブルシステムズ株式会社
Episode VI
Return of the Jedi
Ts for HPC - インテルテクノロジのHPCにおける価値の考察
スケーラブルシステムズ株式会社
将来予測の難しさ
bull ldquoI think there is a world market for maybe five
computersrdquobull Thomas Watson chairman of IBM 1943
bull ldquoThere is no reason for any individual to have a
computer in their homerdquobull Ken Olson president and founder of digital equipment
corporation 1977
bull ldquoThere are only about 100 potential customers
worldwide for a Cray-1rdquobull Seymour Cray 1977
bull ldquo640K [of memory] ought to be enough for
anybodyrdquobull Bill Gates chairman of Microsoft1981
スケーラブルシステムズ株式会社
「未来を予測する最良の方法はそれを創造してしまうことである」The best way to predict future is to invent it
Dr Alan Kay President of Viewpoints Research
Institute Inc
スケーラブルシステムズ株式会社
ITマネージメントの課題
bull プラットフォームの内部からの保護ndash ウイルスやワームなど悪意あるソフトウェアからの保護
bull 資産管理ndash 多くの IT 部門では特定できない資産が問題
bull オンラインおよびリモート管理診断機能 ndash アップグレード診断復旧のための作業の効率化
bull アプリケーション統合の困難さ
ndash アプリケーションの高度化と複雑化によって複数のアプリケーションを組み合わせるての動作に問題
bull 動的なリソース割り当て
ndash 組織内で未使用のCPUやメモリの活用
スケーラブルシステムズ株式会社
マーケットトレンド
All Servers Worldwide 2003 2004 2005 20062003 to 2006
CAGR
2005 to 2006
CAGR
Total Factory Revenue($B) $46149 $49146 $51268 $52251 42 19
Units Shipped(same as nodes) 5278222 6307484 7050099 7472649 123 60
Processor Dies Shipped 8662823 10134624 11712766 12779159 138 91
HPC Technical Servers Worldwide 2003 2004 2005 20062003 to 2006
CAGR
2005 to 2006
CAGR
HPC Server Revenue($B) $5698 $7393 $9208 $10030 207 89
Adjusted Revenues(To much
enterprise)$5128 $6654 $8287 $9027 207 89
Node Units Shipped 411327 734510 1215735 1419221 511 167
Processor Elements Shipped 1002905 1657827 2681079 3351843 495 250
HPC As A Ratio Of All Servers 2003 2004 2005 2006
Revenue($B) 123 150 180 192
Adjusted Revenues(Apples-to-
apples)111 135 162 173
Units Shipped(Nodes) 78 116 172 190
Processors Shipped 116 164 226 261
Source IDC 2007
スケーラブルシステムズ株式会社
HPCマーケット(対全サーバマーケット)
0
5
10
15
20
25
30
2003 2004 2005 2006
Revenue($B)
Adjusted Revenues(Apples-to-apples)
Units Shipped(Nodes)
Processors Shipped
スケーラブルシステムズ株式会社
マーケットトレンド
Source IDC 2004
Cost of mgmt amp admin 10 CAGR
$0
$20
$40
$60
$80
$100
$120
$140
$160
$180
$200
1996 rsquo97 rsquo98 rsquo992000 rsquo01 rsquo02 rsquo03 rsquo04 rsquo05 rsquo06 rsquo07 rsquo08-
New server spending (USM$) 3 CAGR
Spending (USB$)
5
10
15
20
25
30
35
Installed Base (M Units)
bull ハードウェアの減価償却費は IT の TCO 全体の約25 にすぎない
bull ソフトウェアのコストはわずか10~15
bull 電気などの公共料金フロアスペース電話回線など設備面のコストの割合もきわめて小さい
bull プラットフォームのコストではなくTCOの大きな比率を占めるのは人件費となっている
スケーラブルシステムズ株式会社
運用管理コストの低減
bull 「もっと処理性能を」と「より安価に」を実現するためにワークステーションやサーバでの分散処理の導入
bull ユーザや企業に新たな価値をもたらしてはいるが管理責任とその負担の分散を招き結果的に運用管理コストを押し上げる
メインフレームスーパーコンピュータ
仮想化によるサーバコンソリデーション
クラスタによる仮想コンピュータ
スケーラブルシステムズ株式会社
次世代HPCインフラ
bull コアとスレッド
ndash より多くのスレッドを効率よく利用可能
ndash マルチスレッド向け最適化
bull 電力管理
ndash 省電力
ndash データセンター運用管理機能
bull 仮想化
ndash 柔軟性と優れた運用管理
ndash 仮想的なシステムパーティション
bull RAS
ndash ハードウエアベースの自己監視自己管理
ndash ファームウエアベースのエラー履歴管理
bull システム管理
ndash より低いTCOを実現するための一般標準化されたマネージメント機能
スケーラブルシステムズ株式会社
高速プロセッサ
64ビットアドレス
メモリ性能と容
量
IOバンド幅
インターコネクト
省電力
システムのlsquoバランスrsquo
マルチコアによってプロセッサ単体の処理性能の向上を図る
64ビットのアドレス空間と
拡張されたレジスタによるOSとアプリケーション双方の機能性能拡張
64ビット化とマルチコア化
にともなう高速大容量へのニーズに対応しまたその拡張性の高い実装技術の実現
CPU-メモリ間の高速な
データ転送やより高速なネットワーク大規模なストレージのサポート
大規模なクラスタシステムの構築及びアプリケーションのワークロードに対応した高速性能
エコシステムに対応するためにも電力消費量や発熱量を積極的に抑える技術の開発
スケーラブルシステムズ株式会社
HPCの二極分化
Going UP
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
Going DOWN
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
スケーラブルシステムズ株式会社
システムとユーザの尺度
bull ユーザの尺度での性能(Performance)は時間当たりにどれだけの仕事を処理出来るか(仕事量 時間)
bull Flopsでの評価は実際には意味がないまた問題の規模(small medium large) という評価も難しい
bull ldquoスケーラビリティrdquoは対象を明確に規定する必要がある
システムの尺度 ユーザの尺度
Flops hArr 計算終了までの時間
メモリサイズ(GB) hArr モデルのサイズと計算結果
プロセッサ数 hArr ワークロードでの試行
データ長 hArr 計算精度
システム構成(クラスタ) hArr 導入コストと運用コスト
スケーラビリティ hArr ベンチマーク
スケーラブルシステムズ株式会社
HPCシステムの動向国家プロジェクトと商用製品のギャップの拡大
Going UP
Going DOWN
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
Peta-Scaleコンピューティングに求められる基本技術と現在のHPCの主要マーケットでの要求はあまりにも差が大きいrarrHPCSシステムは各社とのlsquoCommodityrsquoのマイクロプロセッサではなく独自のプロセッサを開発中
ハードウエアはrsquoCommodityrsquo
なものを利用してSWの改善サポート利用技術のサポートが今後の主要マーケットでの成功の鍵となる
スケーラブルシステムズ株式会社
HPCシステムの動向国家プロジェクト
Going UP
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
Peta-Scaleコンピューティングに求められる基本技術と現在のHPCの主要マーケットでの要求はあまりにも差が大きいrarrHPCSシステムは各社とのlsquoCommodityrsquoのマイクロプロセッサではなく独自のプロセッサを開発中
スケーラブルシステムズ株式会社
TOP500性能予測
1993 1995 1997 1999 2001 2003 2005 2007 2009 2011 2013 2015
N=
50
SUM
1 Gflops
1 Tflops
100 Mflops
100 Gflops
100 Tflops
10 Gflops
10 Tflops
1 Pflops
10 Pflops
IBM ASCI White
Blue GeneEarth Simulator
Intel
TOP500の総計が1PFを超えています
TOP500に掲載されるには1TF
が最低条件になっています
シングルシステムの1PFの実現は2009年
システム(プロセッサ数) 13倍年プロセッサ性能向上 14倍年トータル性能 18倍年
2009年までに1ペタFLOPS
スケーラブルシステムズ株式会社
性能ギャップの拡大
bull ピーク性能の大幅な向上ndash 1990年台は性能の向上は102のオーダーでしたが2000年台になると103のオーダーで性能は向上しています
しかしhellipndash 多くの科学技術計算用途のアプリケーションのピーク性能に対する実効性能の比率は5-10となっています(1990年代のベクトル計算機は40-50の対ピーク性能を示していました)
bull 今必要なのはndash より高い実効性能を発揮することが可能な計算アルゴリズムと手法の開発とスケーラビリティの向上
ndash プログラミングモデルなども含めてスケーラブルな計算機環境の構築
01
1
10
100
1000
2000 2004
Tera
flo
ps
1996
Performance
Gap
Peak Performance
Real Performance
NERSC User Group Meeting June 24-25 2004
Osni Marques and Tony Drummond
Lawrence Berkeley National Laboratory
スケーラブルシステムズ株式会社
ペタスケールシステムの構築
bull ソフトウエア(アプリケーションOSプログラミングAPIなど)の課題の克服が課題
bull システムの複雑さと生産性
例Linpack Benchmark
bull オリジナルベンチマークプログラム ~100ライン
bull HPL ベンチマークプログラム ~10000ライン(x100より複雑)
lsquo複雑さrsquoの壁
現在のテラFLOPS級の問題
Source ORNL
スケーラブルシステムズ株式会社
HPCシステムの動向商用製品
Going DOWN
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
ハードウエアはrsquoCommodityrsquo
なものを利用してSWの改善サポート利用技術のサポートが今後の主要マーケットでの成功の鍵となる
スケーラブルシステムズ株式会社
標準コンポーネントの進化
bull プロセッサの性能向上ndash lsquoマルチコアrsquoによる省電力での性能向上が可能
ndash HPCアプリケーションは容易にlsquoマルチコアrsquoの利点を活用可能 (OpenMPやMPI)
bull ファイルシステムndash高性能なスケーラブルファイルシステム(オープンソース)
bull インターコネクトndash PCI-Express (メモリlarrrarrインターコネクト)
ndash高速の商用製品やオープンソースでの強力(OpenIBなど)
スケーラブルシステムズ株式会社
標準コンポーネントの利点
bull 特定のベンダーからのシステムを組み合わせるのではなく他社のシステムも含めてベストなシステムの選択が可能
ndashスケーラブルSMPベクトル計算機クラスタの幅広い選択肢
ndash 64ビットマルチコアマイクロプロセッサの性能向上を最大限に活用
bull 標準コンポーネントの技術革新の活用
ndash PCI-ExpressやFB-DIMMの利用技術
スケーラブルシステムズ株式会社
Breaking the 1-2K nodes Barrier
bull 音の障壁サウンドバリヤー(sound barrier)飛行機の速度が音速近くになると衝撃波の発生によって抵抗の増大境界層の剥離など設計運用上のさまざまな障害(壁)に出合って超音速飛行は不可能かと思われた時代があった(1947年ごろまで)ので音の障壁といわれていた
httpwwwwilk4commiscsoundbreakhtm
クラスタのノード数がある規模に近くなるとその構築や運用において負担の増大システムの安定稼動スケーラビリティなど設計運用上のさまざまな障害(壁)に出合ってクラスタ構築は不可能と思われた時代があった()
スケーラブルシステムズ株式会社
ビルゲイツ氏の基調講演HPC goes mainstream
スケーラブルシステムズ株式会社
「Fast」「Good」「Cheap」のパズル
Fast
+ Cheap
Inferior
高い性能を廉価なシステムで構築することも可能ですただそのようなシステムの場合システムの構築や利用は必ずしも容易ではありません
Good
+ Cheap
Slow比較的小規模なシステムであれば廉価で使い勝手の良いものを探すことは可能ですしかしそのようなシステムでは拡張性やより大規模なシステム構築が出来ません
Good
+ Fast
Expensive
付加価値の高い性能の高いシステムは一般には高価ですその付加価値がユーザにとってメリットが無ければコストパフォーマンスの悪いシステムになるだけです
スケーラブルシステムズ株式会社
まとめとして
bull 「テクノロジー」をどのようにとらえるかndash企業経営基盤のコア要素
ndashユーザの本質的な課題を解決する戦略的な武器
bull マーケットを牽引する「テクノロジ」に求められることndashテクノロジとHPCにおけるITインフラの関係を明確にすること
bull ユーザに何らかのメリットをもたらさない「テクノロジー」は意味を成さない
ndashテクノロジーを最適に組み合わせることで問題解決のためのソリューションの提供が可能
スケーラブルシステムズ株式会社
まとめとして
bull bdquoTs‟ for HPC - インテルテクノロジのHPCにおける価値
ndash インテルテクノロジはHPCにおいて重要な構成要素となっている
ndashそれらの構成要素を統合することでより高い価値の提供が可能となる
ndash二分化しつつあるHPCシステムにおいて「標準コ
ンポーネント」としてのプラットフォームの動向として今後もその動向には注目する必要がある
スケーラブルシステムズ株式会社
さらに詳しい情報はhellip
bull 弊社のコンサルテーションに関するご提案資料もダウンロード可能です(非公開WEBページ)別途弊社に内容等についてはお尋ねください
お問い合わせ先102-0083
東京都千代田区麹町3-5-2
BUREX麹町 8F
電話03-5875-4718
FAX03-3237-7612
E-mailbizsstccojp
httpwwwsstccojp wwwsstccojpbiz
スケーラブルシステムズ株式会社
スケーラブルシステムズ株式会社
ハイエンドコンピューティングに関するコンサルテーションとして幅広いサービスをご提供致します
このサービスを最大限に活用していただくことでコラボレーションによる「顧客志向」 のコン
サルテーションサービスをご提供できればと思っております
スケーラブルシステムズ株式会社
社名製品名などは一般に各社の商標または登録商標です無断での引用転載を禁じます
In general the name of the company and the product name etc are the trademarks or registered trademarks of each company
Copyright Scalable Systems Co Ltd 2005 Unauthorized use is strictly forbidden
2005年11月
スケーラブルシステムズ株式会社
HPCの歴史
Episode II
Attack of the Clones
スケーラブルシステムズ株式会社
イノベーションのジレンマ
bull クレイトンクリステンセンの「イノベーションのジレンマ」
bull 持続的イノベーションと破壊的イノベーションによるマーケットの動向を分析
bull 持続的イノベーション
ndash 技術革新が顧客の求める性能向上軸に沿っている
bull 破壊的イノベーション
ndash 既存顧客が求める性能とは異なる軸の性能(特性)
スケーラブルシステムズ株式会社
製品の性能
時間
製品の性能(異なる尺度で評価)
時間
Commodity-Based Cluster
RISCベースのSMPNUMAシステム
ベクトル計算機
破壊的イノベーション
スケーラブルシステムズ株式会社
Beowulf プロジェクト
Wiglaf - 1994
16 Intel 80486 100 MHz
VESA Local bus
256 Mbytes memory
64 Gbytes of disk
Dual 10 base-T Ethernet
72 Mflops sustained
$40K
Hrothgar - 1995
16 Intel Pentium100 MHz
PCI
1 Gbyte memory
64 Gbytes of disk
100 base-T Fast Ethernet
(hub)
240 Mflops sustained
$46K
Hyglac-1996 (Caltech)
16 Pentium Pro 200 MHz
PCI
2 Gbytes memory
496 Gbytes of disk
100 base-T Fast Ethernet
(switch)
125 Gflops sustained
$50K
スケーラブルシステムズ株式会社
クラスタシステムの台頭
2000-2005
スケーラブルシステムズ株式会社
課題
Episode III
Revenge of the sith
スケーラブルシステムズ株式会社
HPCの現状
Going UP Going DOWN
システムの規模解析モデルのサイズ運用管理の複雑さbull電力bullスペースbullシステムの相互接続bull管理コスト
生産性bullプログラミングbullシステムの可用性bull実効性能ピーク性能システムバランスHWコスト
スケーラブルシステムズ株式会社
HPCマーケット
bull HPCマーケットでのHPCシステム構築及び製品は次の3つのセグメントに分かれているndash 一般商用システム( Commodity-based systems)
bull 一般のクラスタシステム(Dell HPCCなど)
ndash 付加価値システム( Value-based systems)bull 多くのSMPやNUMAシステム(SGI Altixなど)
ndash 特定目的システム( Purpose-built systems)bull アプリケーションと解析対象に合わせたシステム設計(IBM
BlueGeneLなど)
bull IDCなどのレポートでも一般商用システムのHPCマーケットでの導入がもっともその成長が大きいndash 付加価値システムの課題(一般商用システムとの競合に対する対応もしくは新たな分野の開拓rarrペタスケールコンピューティング)
ndash HPCSプログラムはこの付加価値システムのベンダーにとっても生き残りを賭けた戦い (2006July)
スケーラブルシステムズ株式会社
HPCシステムの現状分析
bull Good News
ldquoHPCシステムにおける問題はたった2つだけであるrdquo
スケーラブルシステムズ株式会社
ソフトウエアとハードウエア
bull ソフトウエアThe Law of Morehellip
ndashシステム規模とその複雑さの急速な増加拡大
ndash ソフトウエアの準備が出来た時点でハードウエアは既に陳腐化し次のシステムの導入の検討が進む
bull ハードウエアMoore‟s Law (ムーアの法則)ndash消費電力の問題のためプロセッサの動作クロックを今までのペースで上げることは困難
ndashプロセッサとメモリの性能差の拡大によるCPUサイクルとのギャップ
ndashピーク性能と実効性能のギャップの拡大
スケーラブルシステムズ株式会社
ソフトウエアThe Law of Morehellip
bull 研究者はより多くの時間(More Time)をソフトウエアの開発のために必要としている
bull 問題はより複雑(More Complex)になりそしてより多くのプロセッサ(More Processors)を利用して処理を行うにはより多くの困難(More
Difficult)が伴います
スケーラブルシステムズ株式会社
アルゴリズムの最適化
bull 計算機自身の進化と共に計算アルゴリズムも最適化されている
bull 例編微分方程式の解法ndash N=106の場合ガウスの消去法で線形方程式を解く場合と
MGでの計算では108倍の計算量が違うndash これは1Mflopssの計算機で100Tflopssの計算機に相当する計算を行ったことになる
O(N)F-cycle MG
O(N76 log(N))CGMILU
O(N43 log(N))Optimal SOR
O(N53 log(N))Gauss Seidel
O(N73)Banded Gauss Elimination
計算オペレーション数(概数)アルゴリズム
2u=f 100
100100
スケーラブルシステムズ株式会社
ソフトウエアThe Law of Morehellip
bull 一般の商用製品を活用したクラスタソリューションでは「Capacity」の実現は容易であるが「Capability」の実現については依然として課題が多いndash コストパフォーマンスの高いシステムの構築は可能だとしてもコストプロダクティビティの高いシステムの構築も課題
bull 数百~数千プロセッサ構成のシステムの利用技術と解析対象の検討ndash 小規模中規模問題の高速処理への対応ndash ソフトウエア開発の生産性
bull 数プロセッサ~数十プロセッサをより簡便に容易に利用できる技術ndash シングルプロセッサシングルスレッドを利用するのと同じようにhellip
スケーラブルシステムズ株式会社
ソフトウエアとハードウエア
bull ソフトウエアThe Law of Morehellip
ndashシステム規模とその複雑さの急速な増加拡大
ndash ソフトウエアの準備が出来た時点でハードウエアは既に陳腐化し次のシステムの導入の検討が進む
bull ハードウエアMoore‟s Law (ムーアの法則)ndash消費電力の問題のためプロセッサの動作クロックを今までのペースで上げることは困難
ndashプロセッサとメモリの性能差の拡大によるCPUサイクルとのギャップ
ndashピーク性能と実効性能のギャップの拡大
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash過去12年間でPentiumプロセッサの動作周波数は60 MHz から 3800 MHz にまでアップ
ndash現在までの高性能化の約80 はクロック周波数の向上によるもの
スケーラブルシステムズ株式会社
ハードウエアの問題Moore‟s Lawムーアの法則
bull インテルの共同設立者の1人である Gordon Moore 博士が1965年4月19日号の「Electronics」誌に投稿した 「一定面積に集積されるトランジスタの数は12か月で倍増しそれに伴いトランジスタの動作速度が向上する」という予測 (その後1975年に Moore 博士はチップの複雑化を考慮してトランジスタ数の倍増ペースを24か月に修正)
bull また一般にはあまり知られていないがテクノロジの進歩とともに製造コストが劇的に下落することも予測(左図)
httpwwwintelcojpjpdevelopertechnologysiliconmooreslawindexhtm
指数関数的成長は永遠には続かないしかしその永遠を先延ばしにすることはできる [英語 PDF 形式 2MB]
Gordon E Moore2003年2月10日ISSCC (International
Solid State Circuits Conference) でのプレゼンテーション
Dr Gordon Moore
(co-founder of Intel)
スケーラブルシステムズ株式会社
Technology Trend
ムーアの法則依然として有効
スケーラブルシステムズ株式会社
性能向上の源泉は
ハードウエアデバイス技術の進歩bull ロジック回路のスイッチング速度の向上とデバイス密度bull メモリサイズの拡大とアクセス速度の向上bull 通信性能(バンド幅とレイテンシの向上)
bull 並列性ndash 1サイクルでの命令実行数
bull 命令レベルでの並列性(ILP)
bull ベクトル処理ndash プロセッサあたりコア数ndash ノードあたりのプロセッサ数ndash システムあたりのノード数
コンピュータアーキテクチャbull 命令発行実行速度の向上
ndash パイプライン化ndash 分岐予測ndash キャッシュndash Out-of-order など
スケーラブルシステムズ株式会社
GHz競争
bull 2000年に開催されたIEEE国際電子デバイス会議2000(2000
IEEE International Electron Devices MeetingIEDM) においてインテル社は4億個以上のトランジスタを集積した10GHz駆動のプロセッサが2005年までに実現可能だと発表しましたndash 実際にはインテル社の最速プロセッサは6ヶ月前に発表された
38GHz(Intel Pentium 4)となっています
bull Prescottプロセッサの6xxシリーズ発表に際してインテル社はldquoadding value beyond GHzrdquo のコメントを出していますそれ以降インテル社の多くのドキュメントやプレスリリースはこのldquoadding value beyond GHzrdquo についての内容を含んでいます
スケーラブルシステムズ株式会社
発熱の問題が深刻化
Bob Colwell氏の資料より抜粋
Increasing Frequency
Watt
scm
2
1
10
100
1000
15 10 07 05 035 025 018 013 01 007
i386i486
PentiumPentium Pro
Pentium IIPentium III
Hot Plate
Nuclear Reactor
Rocket Nozzle
Pentium 4(Prescott)
Pentium 4(Willamette)
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash過去12年間でPentiumプロセッサの動作周波数は60 MHz から 3800 MHz にまでアップ
ndash現在までの高性能化の約80 はクロック周波数の向上によるもの
bull 命令実行の強化と最適化
ndashより強力なインストラクションセット
ndash命令実行の最適化(パイプライン化分岐予測複数命令の同時実行命令実行順序の変更など)
スケーラブルシステムズ株式会社
技術のSカーブ技術開発の進展と製品性能の成長の関係
bull 技術開発の初期は製品性能はゆっくりと向上するがしだいに性能の向上の幅が大きくなるしかし次第に技術開発が成熟段階に入ると性能向上は逓減していく
製品の性能
時間
First Technology
Second Technology
Third Technology
RISCアウトオブオーダー実行lt1 instruction cycle
スーパースカラー RISCアウトオブオーダー実行lt2 instructions cycle
明示的並列命令コンピューティング技術 (EPIC)
命令の並列実行度の向上
スケーラブルシステムズ株式会社
マイクロアーキテクチャのSカーブ
Johan De Gelas Quest for More Processing Power
AnandTech Feb 8 2005
httpwwwanandtechcomcpuchipsetsshowdocaspxi=2343
101
102
103
104
105
106
MIP
S
1980 1985 1990 1995 2000 2005 2010
Pentium Architecture
Super Scalar
Pentium Pro Architecture
Speculative Out-of-Order
Pentium 4 Architecture
Trace Cache
Pentium 4 and Xeon Architecture with HT
Multi-Threaded
Multi-Threaded Multi-Core
Era of
Instruction
Parallelism
Era of
Thread
Parallelism
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash 過去12年間でPentiumプロセッサの動作周波数は60
MHz から 3800 MHz にまでアップ
ndash 現在までの高性能化の約80 はクロック周波数の向上によるもの
bull 命令実行の強化と最適化
ndash より強力なインストラクションセット
ndash 命令実行の最適化(パイプライン化分岐予測複数命令の同時実行命令実行順序の変更など)
bull 大容量キャッシュ
ndash プロセッサの速度とメモリレイテンシ(待ち時間)とバンド幅のギャップの拡大に対する対策対応としての容量の拡張
スケーラブルシステムズ株式会社
性能ギャップの問題
bull プロセッサ速度とメモリアクセスの速度差によってプロセッサがより高速になったとしてもプロセッサはその演算能力を完全に使い切ることが出来ない
1
10
100
1000Performance
1980 1990 2000
microProc
60yr
DRAM
7yr
バンド幅とレイテンシの問題が今後はより深刻(プロセッサ性能とのギャップはほぼ年率50の差で広がっている)
DRAM
CPU
プロセッサはほぼナノ秒に一回命令実行DRAMへのアクセスはほぼ100ナノ秒の時間
スケーラブルシステムズ株式会社
今後の発展と課題
Episode IV
A New Hope
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash 過去12年間でPentiumプロセッサの動作周波数は60
MHz から 3800 MHz にまでアップ
ndash 現在までの高性能化の約80 はクロック周波数の向上によるもの
bull 命令実行の強化と最適化
ndash より強力なインストラクションセット
ndash 命令実行の最適化(パイプライン化分岐予測複数命令の同時実行命令実行順序の変更など)
bull 大容量キャッシュ
ndash プロセッサの速度とメモリレイテンシ(待ち時間)とバンド幅のギャップの拡大に対する対策対応としての容量の拡張
スケーラブルシステムズ株式会社
デュアルコアプロセッサ
bull チップ上のトランジスタのより有効活用が可能bull スレッドレベルでの並列処理を活用bull よりシンプルなプロセッサの設計が可能
bull 将来のマイクロプロセッサはより多くのコアを実装可能bull 将来のマイクロプロセッサはより大容量のキャッシュの実装が可能
IBM Power5
with 19MB L2
AMD Opteron
with 2MB L2
Intel Montecito
With 24MB L3
スケーラブルシステムズ株式会社
イノベーションのジレンマ
製品の性能
時間
First Technology
Second Technology
Third Technology
RISCアウトオブオーダー実行lt1 instruction cycle
スーパースカラー RISCアウトオブオーダー実行lt2 instructions cycle
明示的並列命令コンピューティング技術 (EPIC)
命令の並列実行度の向上
製品の性能(異なる尺度)
時間
持続的イノベーション
技術革新が顧客の求める性能向上軸(ムーアの法則)に沿っている
破壊的イノベーションマルチコアとマルチスレッドによる並列処理
短期的には(シングルスレッドの性能)としては性能が低下するが将来の大きな性能向上とコスト低下機能強化の可能性が大きい
スケーラブルシステムズ株式会社
マルチコアの利点
ワークロードの処理効率の向上
bull マルチスレッドアプリケーションndash現在多くのアプリケーション(データベース
WEB科学技術計算)はマルチスレッド化
ndashマルチコアプロセッサではこれらのアプリケーションのマルチスレッドでの実行が容易に可能
bull 複数ジョブの処理ndashシステムでは複数のワークロード同時に処理することが必要
ndashマルチコアではこれらのワークロードへの処理が可能
スケーラブルシステムズ株式会社
マルチコアの利点
消費電力あたりの性能を最大にし高性能で低消費電力のシステム構築が可能
bull OS自身のマルチスレッド対応
ndash OSのサービスもマルチスレッドで処理することでより効率よく処理することが可能
bull 仮想化
ndashサーバのセキュリティや管理の強化
ndash管理するノード数を減らし運用コストの削減を図る
bull 最新のソフトウエアテクノロジの活用
スケーラブルシステムズ株式会社
大きな変革しかし容易ではない
マルチコアプロセッシング(または汎用もしくは専用プロセッサをソケットに複数搭載可能なこと)はEthernetの誕生以来ITインフラに対しての大きなインパクトをもたらします
デュアルプロセッサは386プロセッサの発表以来性能に関して最大の向上を実現しますしかしこのような性能向上にはソフトウエアの最適化がプロセッサの性能をフルに発揮するためには必要です
スケーラブルシステムズ株式会社
並列性(Parallelism)の利用
マルチタスク処理
MPIなどによる複数のノード間での並列処理
ユーザ及びコンパイラによるスレッドレベルでの並列処理(TLP)
コンパイラによる命列実行レベルでの並列処理(ILP)
マルチコア
マルチプロセッサ
マルチノード
マルチインストラクション
システム
スケーラブルシステムズ株式会社
ムーアの法則(GHz から MC へ)
マルチコアによる性能向上
動作周波数の向上による性能向上
性能
2005
bullマルチスレッドbullマルチタスクbull トレーニングbullツールbullhelliphellip
並列処理による性能向上についてはシステムサポートやプログラミングサポートなどの面での技術支援が重要です
スケーラブルシステムズ株式会社
Episode VI
Return of the Jedi
Ts for HPC - インテルテクノロジのHPCにおける価値の考察
スケーラブルシステムズ株式会社
将来予測の難しさ
bull ldquoI think there is a world market for maybe five
computersrdquobull Thomas Watson chairman of IBM 1943
bull ldquoThere is no reason for any individual to have a
computer in their homerdquobull Ken Olson president and founder of digital equipment
corporation 1977
bull ldquoThere are only about 100 potential customers
worldwide for a Cray-1rdquobull Seymour Cray 1977
bull ldquo640K [of memory] ought to be enough for
anybodyrdquobull Bill Gates chairman of Microsoft1981
スケーラブルシステムズ株式会社
「未来を予測する最良の方法はそれを創造してしまうことである」The best way to predict future is to invent it
Dr Alan Kay President of Viewpoints Research
Institute Inc
スケーラブルシステムズ株式会社
ITマネージメントの課題
bull プラットフォームの内部からの保護ndash ウイルスやワームなど悪意あるソフトウェアからの保護
bull 資産管理ndash 多くの IT 部門では特定できない資産が問題
bull オンラインおよびリモート管理診断機能 ndash アップグレード診断復旧のための作業の効率化
bull アプリケーション統合の困難さ
ndash アプリケーションの高度化と複雑化によって複数のアプリケーションを組み合わせるての動作に問題
bull 動的なリソース割り当て
ndash 組織内で未使用のCPUやメモリの活用
スケーラブルシステムズ株式会社
マーケットトレンド
All Servers Worldwide 2003 2004 2005 20062003 to 2006
CAGR
2005 to 2006
CAGR
Total Factory Revenue($B) $46149 $49146 $51268 $52251 42 19
Units Shipped(same as nodes) 5278222 6307484 7050099 7472649 123 60
Processor Dies Shipped 8662823 10134624 11712766 12779159 138 91
HPC Technical Servers Worldwide 2003 2004 2005 20062003 to 2006
CAGR
2005 to 2006
CAGR
HPC Server Revenue($B) $5698 $7393 $9208 $10030 207 89
Adjusted Revenues(To much
enterprise)$5128 $6654 $8287 $9027 207 89
Node Units Shipped 411327 734510 1215735 1419221 511 167
Processor Elements Shipped 1002905 1657827 2681079 3351843 495 250
HPC As A Ratio Of All Servers 2003 2004 2005 2006
Revenue($B) 123 150 180 192
Adjusted Revenues(Apples-to-
apples)111 135 162 173
Units Shipped(Nodes) 78 116 172 190
Processors Shipped 116 164 226 261
Source IDC 2007
スケーラブルシステムズ株式会社
HPCマーケット(対全サーバマーケット)
0
5
10
15
20
25
30
2003 2004 2005 2006
Revenue($B)
Adjusted Revenues(Apples-to-apples)
Units Shipped(Nodes)
Processors Shipped
スケーラブルシステムズ株式会社
マーケットトレンド
Source IDC 2004
Cost of mgmt amp admin 10 CAGR
$0
$20
$40
$60
$80
$100
$120
$140
$160
$180
$200
1996 rsquo97 rsquo98 rsquo992000 rsquo01 rsquo02 rsquo03 rsquo04 rsquo05 rsquo06 rsquo07 rsquo08-
New server spending (USM$) 3 CAGR
Spending (USB$)
5
10
15
20
25
30
35
Installed Base (M Units)
bull ハードウェアの減価償却費は IT の TCO 全体の約25 にすぎない
bull ソフトウェアのコストはわずか10~15
bull 電気などの公共料金フロアスペース電話回線など設備面のコストの割合もきわめて小さい
bull プラットフォームのコストではなくTCOの大きな比率を占めるのは人件費となっている
スケーラブルシステムズ株式会社
運用管理コストの低減
bull 「もっと処理性能を」と「より安価に」を実現するためにワークステーションやサーバでの分散処理の導入
bull ユーザや企業に新たな価値をもたらしてはいるが管理責任とその負担の分散を招き結果的に運用管理コストを押し上げる
メインフレームスーパーコンピュータ
仮想化によるサーバコンソリデーション
クラスタによる仮想コンピュータ
スケーラブルシステムズ株式会社
次世代HPCインフラ
bull コアとスレッド
ndash より多くのスレッドを効率よく利用可能
ndash マルチスレッド向け最適化
bull 電力管理
ndash 省電力
ndash データセンター運用管理機能
bull 仮想化
ndash 柔軟性と優れた運用管理
ndash 仮想的なシステムパーティション
bull RAS
ndash ハードウエアベースの自己監視自己管理
ndash ファームウエアベースのエラー履歴管理
bull システム管理
ndash より低いTCOを実現するための一般標準化されたマネージメント機能
スケーラブルシステムズ株式会社
高速プロセッサ
64ビットアドレス
メモリ性能と容
量
IOバンド幅
インターコネクト
省電力
システムのlsquoバランスrsquo
マルチコアによってプロセッサ単体の処理性能の向上を図る
64ビットのアドレス空間と
拡張されたレジスタによるOSとアプリケーション双方の機能性能拡張
64ビット化とマルチコア化
にともなう高速大容量へのニーズに対応しまたその拡張性の高い実装技術の実現
CPU-メモリ間の高速な
データ転送やより高速なネットワーク大規模なストレージのサポート
大規模なクラスタシステムの構築及びアプリケーションのワークロードに対応した高速性能
エコシステムに対応するためにも電力消費量や発熱量を積極的に抑える技術の開発
スケーラブルシステムズ株式会社
HPCの二極分化
Going UP
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
Going DOWN
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
スケーラブルシステムズ株式会社
システムとユーザの尺度
bull ユーザの尺度での性能(Performance)は時間当たりにどれだけの仕事を処理出来るか(仕事量 時間)
bull Flopsでの評価は実際には意味がないまた問題の規模(small medium large) という評価も難しい
bull ldquoスケーラビリティrdquoは対象を明確に規定する必要がある
システムの尺度 ユーザの尺度
Flops hArr 計算終了までの時間
メモリサイズ(GB) hArr モデルのサイズと計算結果
プロセッサ数 hArr ワークロードでの試行
データ長 hArr 計算精度
システム構成(クラスタ) hArr 導入コストと運用コスト
スケーラビリティ hArr ベンチマーク
スケーラブルシステムズ株式会社
HPCシステムの動向国家プロジェクトと商用製品のギャップの拡大
Going UP
Going DOWN
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
Peta-Scaleコンピューティングに求められる基本技術と現在のHPCの主要マーケットでの要求はあまりにも差が大きいrarrHPCSシステムは各社とのlsquoCommodityrsquoのマイクロプロセッサではなく独自のプロセッサを開発中
ハードウエアはrsquoCommodityrsquo
なものを利用してSWの改善サポート利用技術のサポートが今後の主要マーケットでの成功の鍵となる
スケーラブルシステムズ株式会社
HPCシステムの動向国家プロジェクト
Going UP
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
Peta-Scaleコンピューティングに求められる基本技術と現在のHPCの主要マーケットでの要求はあまりにも差が大きいrarrHPCSシステムは各社とのlsquoCommodityrsquoのマイクロプロセッサではなく独自のプロセッサを開発中
スケーラブルシステムズ株式会社
TOP500性能予測
1993 1995 1997 1999 2001 2003 2005 2007 2009 2011 2013 2015
N=
50
SUM
1 Gflops
1 Tflops
100 Mflops
100 Gflops
100 Tflops
10 Gflops
10 Tflops
1 Pflops
10 Pflops
IBM ASCI White
Blue GeneEarth Simulator
Intel
TOP500の総計が1PFを超えています
TOP500に掲載されるには1TF
が最低条件になっています
シングルシステムの1PFの実現は2009年
システム(プロセッサ数) 13倍年プロセッサ性能向上 14倍年トータル性能 18倍年
2009年までに1ペタFLOPS
スケーラブルシステムズ株式会社
性能ギャップの拡大
bull ピーク性能の大幅な向上ndash 1990年台は性能の向上は102のオーダーでしたが2000年台になると103のオーダーで性能は向上しています
しかしhellipndash 多くの科学技術計算用途のアプリケーションのピーク性能に対する実効性能の比率は5-10となっています(1990年代のベクトル計算機は40-50の対ピーク性能を示していました)
bull 今必要なのはndash より高い実効性能を発揮することが可能な計算アルゴリズムと手法の開発とスケーラビリティの向上
ndash プログラミングモデルなども含めてスケーラブルな計算機環境の構築
01
1
10
100
1000
2000 2004
Tera
flo
ps
1996
Performance
Gap
Peak Performance
Real Performance
NERSC User Group Meeting June 24-25 2004
Osni Marques and Tony Drummond
Lawrence Berkeley National Laboratory
スケーラブルシステムズ株式会社
ペタスケールシステムの構築
bull ソフトウエア(アプリケーションOSプログラミングAPIなど)の課題の克服が課題
bull システムの複雑さと生産性
例Linpack Benchmark
bull オリジナルベンチマークプログラム ~100ライン
bull HPL ベンチマークプログラム ~10000ライン(x100より複雑)
lsquo複雑さrsquoの壁
現在のテラFLOPS級の問題
Source ORNL
スケーラブルシステムズ株式会社
HPCシステムの動向商用製品
Going DOWN
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
ハードウエアはrsquoCommodityrsquo
なものを利用してSWの改善サポート利用技術のサポートが今後の主要マーケットでの成功の鍵となる
スケーラブルシステムズ株式会社
標準コンポーネントの進化
bull プロセッサの性能向上ndash lsquoマルチコアrsquoによる省電力での性能向上が可能
ndash HPCアプリケーションは容易にlsquoマルチコアrsquoの利点を活用可能 (OpenMPやMPI)
bull ファイルシステムndash高性能なスケーラブルファイルシステム(オープンソース)
bull インターコネクトndash PCI-Express (メモリlarrrarrインターコネクト)
ndash高速の商用製品やオープンソースでの強力(OpenIBなど)
スケーラブルシステムズ株式会社
標準コンポーネントの利点
bull 特定のベンダーからのシステムを組み合わせるのではなく他社のシステムも含めてベストなシステムの選択が可能
ndashスケーラブルSMPベクトル計算機クラスタの幅広い選択肢
ndash 64ビットマルチコアマイクロプロセッサの性能向上を最大限に活用
bull 標準コンポーネントの技術革新の活用
ndash PCI-ExpressやFB-DIMMの利用技術
スケーラブルシステムズ株式会社
Breaking the 1-2K nodes Barrier
bull 音の障壁サウンドバリヤー(sound barrier)飛行機の速度が音速近くになると衝撃波の発生によって抵抗の増大境界層の剥離など設計運用上のさまざまな障害(壁)に出合って超音速飛行は不可能かと思われた時代があった(1947年ごろまで)ので音の障壁といわれていた
httpwwwwilk4commiscsoundbreakhtm
クラスタのノード数がある規模に近くなるとその構築や運用において負担の増大システムの安定稼動スケーラビリティなど設計運用上のさまざまな障害(壁)に出合ってクラスタ構築は不可能と思われた時代があった()
スケーラブルシステムズ株式会社
ビルゲイツ氏の基調講演HPC goes mainstream
スケーラブルシステムズ株式会社
「Fast」「Good」「Cheap」のパズル
Fast
+ Cheap
Inferior
高い性能を廉価なシステムで構築することも可能ですただそのようなシステムの場合システムの構築や利用は必ずしも容易ではありません
Good
+ Cheap
Slow比較的小規模なシステムであれば廉価で使い勝手の良いものを探すことは可能ですしかしそのようなシステムでは拡張性やより大規模なシステム構築が出来ません
Good
+ Fast
Expensive
付加価値の高い性能の高いシステムは一般には高価ですその付加価値がユーザにとってメリットが無ければコストパフォーマンスの悪いシステムになるだけです
スケーラブルシステムズ株式会社
まとめとして
bull 「テクノロジー」をどのようにとらえるかndash企業経営基盤のコア要素
ndashユーザの本質的な課題を解決する戦略的な武器
bull マーケットを牽引する「テクノロジ」に求められることndashテクノロジとHPCにおけるITインフラの関係を明確にすること
bull ユーザに何らかのメリットをもたらさない「テクノロジー」は意味を成さない
ndashテクノロジーを最適に組み合わせることで問題解決のためのソリューションの提供が可能
スケーラブルシステムズ株式会社
まとめとして
bull bdquoTs‟ for HPC - インテルテクノロジのHPCにおける価値
ndash インテルテクノロジはHPCにおいて重要な構成要素となっている
ndashそれらの構成要素を統合することでより高い価値の提供が可能となる
ndash二分化しつつあるHPCシステムにおいて「標準コ
ンポーネント」としてのプラットフォームの動向として今後もその動向には注目する必要がある
スケーラブルシステムズ株式会社
さらに詳しい情報はhellip
bull 弊社のコンサルテーションに関するご提案資料もダウンロード可能です(非公開WEBページ)別途弊社に内容等についてはお尋ねください
お問い合わせ先102-0083
東京都千代田区麹町3-5-2
BUREX麹町 8F
電話03-5875-4718
FAX03-3237-7612
E-mailbizsstccojp
httpwwwsstccojp wwwsstccojpbiz
スケーラブルシステムズ株式会社
スケーラブルシステムズ株式会社
ハイエンドコンピューティングに関するコンサルテーションとして幅広いサービスをご提供致します
このサービスを最大限に活用していただくことでコラボレーションによる「顧客志向」 のコン
サルテーションサービスをご提供できればと思っております
スケーラブルシステムズ株式会社
社名製品名などは一般に各社の商標または登録商標です無断での引用転載を禁じます
In general the name of the company and the product name etc are the trademarks or registered trademarks of each company
Copyright Scalable Systems Co Ltd 2005 Unauthorized use is strictly forbidden
2005年11月
スケーラブルシステムズ株式会社
イノベーションのジレンマ
bull クレイトンクリステンセンの「イノベーションのジレンマ」
bull 持続的イノベーションと破壊的イノベーションによるマーケットの動向を分析
bull 持続的イノベーション
ndash 技術革新が顧客の求める性能向上軸に沿っている
bull 破壊的イノベーション
ndash 既存顧客が求める性能とは異なる軸の性能(特性)
スケーラブルシステムズ株式会社
製品の性能
時間
製品の性能(異なる尺度で評価)
時間
Commodity-Based Cluster
RISCベースのSMPNUMAシステム
ベクトル計算機
破壊的イノベーション
スケーラブルシステムズ株式会社
Beowulf プロジェクト
Wiglaf - 1994
16 Intel 80486 100 MHz
VESA Local bus
256 Mbytes memory
64 Gbytes of disk
Dual 10 base-T Ethernet
72 Mflops sustained
$40K
Hrothgar - 1995
16 Intel Pentium100 MHz
PCI
1 Gbyte memory
64 Gbytes of disk
100 base-T Fast Ethernet
(hub)
240 Mflops sustained
$46K
Hyglac-1996 (Caltech)
16 Pentium Pro 200 MHz
PCI
2 Gbytes memory
496 Gbytes of disk
100 base-T Fast Ethernet
(switch)
125 Gflops sustained
$50K
スケーラブルシステムズ株式会社
クラスタシステムの台頭
2000-2005
スケーラブルシステムズ株式会社
課題
Episode III
Revenge of the sith
スケーラブルシステムズ株式会社
HPCの現状
Going UP Going DOWN
システムの規模解析モデルのサイズ運用管理の複雑さbull電力bullスペースbullシステムの相互接続bull管理コスト
生産性bullプログラミングbullシステムの可用性bull実効性能ピーク性能システムバランスHWコスト
スケーラブルシステムズ株式会社
HPCマーケット
bull HPCマーケットでのHPCシステム構築及び製品は次の3つのセグメントに分かれているndash 一般商用システム( Commodity-based systems)
bull 一般のクラスタシステム(Dell HPCCなど)
ndash 付加価値システム( Value-based systems)bull 多くのSMPやNUMAシステム(SGI Altixなど)
ndash 特定目的システム( Purpose-built systems)bull アプリケーションと解析対象に合わせたシステム設計(IBM
BlueGeneLなど)
bull IDCなどのレポートでも一般商用システムのHPCマーケットでの導入がもっともその成長が大きいndash 付加価値システムの課題(一般商用システムとの競合に対する対応もしくは新たな分野の開拓rarrペタスケールコンピューティング)
ndash HPCSプログラムはこの付加価値システムのベンダーにとっても生き残りを賭けた戦い (2006July)
スケーラブルシステムズ株式会社
HPCシステムの現状分析
bull Good News
ldquoHPCシステムにおける問題はたった2つだけであるrdquo
スケーラブルシステムズ株式会社
ソフトウエアとハードウエア
bull ソフトウエアThe Law of Morehellip
ndashシステム規模とその複雑さの急速な増加拡大
ndash ソフトウエアの準備が出来た時点でハードウエアは既に陳腐化し次のシステムの導入の検討が進む
bull ハードウエアMoore‟s Law (ムーアの法則)ndash消費電力の問題のためプロセッサの動作クロックを今までのペースで上げることは困難
ndashプロセッサとメモリの性能差の拡大によるCPUサイクルとのギャップ
ndashピーク性能と実効性能のギャップの拡大
スケーラブルシステムズ株式会社
ソフトウエアThe Law of Morehellip
bull 研究者はより多くの時間(More Time)をソフトウエアの開発のために必要としている
bull 問題はより複雑(More Complex)になりそしてより多くのプロセッサ(More Processors)を利用して処理を行うにはより多くの困難(More
Difficult)が伴います
スケーラブルシステムズ株式会社
アルゴリズムの最適化
bull 計算機自身の進化と共に計算アルゴリズムも最適化されている
bull 例編微分方程式の解法ndash N=106の場合ガウスの消去法で線形方程式を解く場合と
MGでの計算では108倍の計算量が違うndash これは1Mflopssの計算機で100Tflopssの計算機に相当する計算を行ったことになる
O(N)F-cycle MG
O(N76 log(N))CGMILU
O(N43 log(N))Optimal SOR
O(N53 log(N))Gauss Seidel
O(N73)Banded Gauss Elimination
計算オペレーション数(概数)アルゴリズム
2u=f 100
100100
スケーラブルシステムズ株式会社
ソフトウエアThe Law of Morehellip
bull 一般の商用製品を活用したクラスタソリューションでは「Capacity」の実現は容易であるが「Capability」の実現については依然として課題が多いndash コストパフォーマンスの高いシステムの構築は可能だとしてもコストプロダクティビティの高いシステムの構築も課題
bull 数百~数千プロセッサ構成のシステムの利用技術と解析対象の検討ndash 小規模中規模問題の高速処理への対応ndash ソフトウエア開発の生産性
bull 数プロセッサ~数十プロセッサをより簡便に容易に利用できる技術ndash シングルプロセッサシングルスレッドを利用するのと同じようにhellip
スケーラブルシステムズ株式会社
ソフトウエアとハードウエア
bull ソフトウエアThe Law of Morehellip
ndashシステム規模とその複雑さの急速な増加拡大
ndash ソフトウエアの準備が出来た時点でハードウエアは既に陳腐化し次のシステムの導入の検討が進む
bull ハードウエアMoore‟s Law (ムーアの法則)ndash消費電力の問題のためプロセッサの動作クロックを今までのペースで上げることは困難
ndashプロセッサとメモリの性能差の拡大によるCPUサイクルとのギャップ
ndashピーク性能と実効性能のギャップの拡大
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash過去12年間でPentiumプロセッサの動作周波数は60 MHz から 3800 MHz にまでアップ
ndash現在までの高性能化の約80 はクロック周波数の向上によるもの
スケーラブルシステムズ株式会社
ハードウエアの問題Moore‟s Lawムーアの法則
bull インテルの共同設立者の1人である Gordon Moore 博士が1965年4月19日号の「Electronics」誌に投稿した 「一定面積に集積されるトランジスタの数は12か月で倍増しそれに伴いトランジスタの動作速度が向上する」という予測 (その後1975年に Moore 博士はチップの複雑化を考慮してトランジスタ数の倍増ペースを24か月に修正)
bull また一般にはあまり知られていないがテクノロジの進歩とともに製造コストが劇的に下落することも予測(左図)
httpwwwintelcojpjpdevelopertechnologysiliconmooreslawindexhtm
指数関数的成長は永遠には続かないしかしその永遠を先延ばしにすることはできる [英語 PDF 形式 2MB]
Gordon E Moore2003年2月10日ISSCC (International
Solid State Circuits Conference) でのプレゼンテーション
Dr Gordon Moore
(co-founder of Intel)
スケーラブルシステムズ株式会社
Technology Trend
ムーアの法則依然として有効
スケーラブルシステムズ株式会社
性能向上の源泉は
ハードウエアデバイス技術の進歩bull ロジック回路のスイッチング速度の向上とデバイス密度bull メモリサイズの拡大とアクセス速度の向上bull 通信性能(バンド幅とレイテンシの向上)
bull 並列性ndash 1サイクルでの命令実行数
bull 命令レベルでの並列性(ILP)
bull ベクトル処理ndash プロセッサあたりコア数ndash ノードあたりのプロセッサ数ndash システムあたりのノード数
コンピュータアーキテクチャbull 命令発行実行速度の向上
ndash パイプライン化ndash 分岐予測ndash キャッシュndash Out-of-order など
スケーラブルシステムズ株式会社
GHz競争
bull 2000年に開催されたIEEE国際電子デバイス会議2000(2000
IEEE International Electron Devices MeetingIEDM) においてインテル社は4億個以上のトランジスタを集積した10GHz駆動のプロセッサが2005年までに実現可能だと発表しましたndash 実際にはインテル社の最速プロセッサは6ヶ月前に発表された
38GHz(Intel Pentium 4)となっています
bull Prescottプロセッサの6xxシリーズ発表に際してインテル社はldquoadding value beyond GHzrdquo のコメントを出していますそれ以降インテル社の多くのドキュメントやプレスリリースはこのldquoadding value beyond GHzrdquo についての内容を含んでいます
スケーラブルシステムズ株式会社
発熱の問題が深刻化
Bob Colwell氏の資料より抜粋
Increasing Frequency
Watt
scm
2
1
10
100
1000
15 10 07 05 035 025 018 013 01 007
i386i486
PentiumPentium Pro
Pentium IIPentium III
Hot Plate
Nuclear Reactor
Rocket Nozzle
Pentium 4(Prescott)
Pentium 4(Willamette)
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash過去12年間でPentiumプロセッサの動作周波数は60 MHz から 3800 MHz にまでアップ
ndash現在までの高性能化の約80 はクロック周波数の向上によるもの
bull 命令実行の強化と最適化
ndashより強力なインストラクションセット
ndash命令実行の最適化(パイプライン化分岐予測複数命令の同時実行命令実行順序の変更など)
スケーラブルシステムズ株式会社
技術のSカーブ技術開発の進展と製品性能の成長の関係
bull 技術開発の初期は製品性能はゆっくりと向上するがしだいに性能の向上の幅が大きくなるしかし次第に技術開発が成熟段階に入ると性能向上は逓減していく
製品の性能
時間
First Technology
Second Technology
Third Technology
RISCアウトオブオーダー実行lt1 instruction cycle
スーパースカラー RISCアウトオブオーダー実行lt2 instructions cycle
明示的並列命令コンピューティング技術 (EPIC)
命令の並列実行度の向上
スケーラブルシステムズ株式会社
マイクロアーキテクチャのSカーブ
Johan De Gelas Quest for More Processing Power
AnandTech Feb 8 2005
httpwwwanandtechcomcpuchipsetsshowdocaspxi=2343
101
102
103
104
105
106
MIP
S
1980 1985 1990 1995 2000 2005 2010
Pentium Architecture
Super Scalar
Pentium Pro Architecture
Speculative Out-of-Order
Pentium 4 Architecture
Trace Cache
Pentium 4 and Xeon Architecture with HT
Multi-Threaded
Multi-Threaded Multi-Core
Era of
Instruction
Parallelism
Era of
Thread
Parallelism
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash 過去12年間でPentiumプロセッサの動作周波数は60
MHz から 3800 MHz にまでアップ
ndash 現在までの高性能化の約80 はクロック周波数の向上によるもの
bull 命令実行の強化と最適化
ndash より強力なインストラクションセット
ndash 命令実行の最適化(パイプライン化分岐予測複数命令の同時実行命令実行順序の変更など)
bull 大容量キャッシュ
ndash プロセッサの速度とメモリレイテンシ(待ち時間)とバンド幅のギャップの拡大に対する対策対応としての容量の拡張
スケーラブルシステムズ株式会社
性能ギャップの問題
bull プロセッサ速度とメモリアクセスの速度差によってプロセッサがより高速になったとしてもプロセッサはその演算能力を完全に使い切ることが出来ない
1
10
100
1000Performance
1980 1990 2000
microProc
60yr
DRAM
7yr
バンド幅とレイテンシの問題が今後はより深刻(プロセッサ性能とのギャップはほぼ年率50の差で広がっている)
DRAM
CPU
プロセッサはほぼナノ秒に一回命令実行DRAMへのアクセスはほぼ100ナノ秒の時間
スケーラブルシステムズ株式会社
今後の発展と課題
Episode IV
A New Hope
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash 過去12年間でPentiumプロセッサの動作周波数は60
MHz から 3800 MHz にまでアップ
ndash 現在までの高性能化の約80 はクロック周波数の向上によるもの
bull 命令実行の強化と最適化
ndash より強力なインストラクションセット
ndash 命令実行の最適化(パイプライン化分岐予測複数命令の同時実行命令実行順序の変更など)
bull 大容量キャッシュ
ndash プロセッサの速度とメモリレイテンシ(待ち時間)とバンド幅のギャップの拡大に対する対策対応としての容量の拡張
スケーラブルシステムズ株式会社
デュアルコアプロセッサ
bull チップ上のトランジスタのより有効活用が可能bull スレッドレベルでの並列処理を活用bull よりシンプルなプロセッサの設計が可能
bull 将来のマイクロプロセッサはより多くのコアを実装可能bull 将来のマイクロプロセッサはより大容量のキャッシュの実装が可能
IBM Power5
with 19MB L2
AMD Opteron
with 2MB L2
Intel Montecito
With 24MB L3
スケーラブルシステムズ株式会社
イノベーションのジレンマ
製品の性能
時間
First Technology
Second Technology
Third Technology
RISCアウトオブオーダー実行lt1 instruction cycle
スーパースカラー RISCアウトオブオーダー実行lt2 instructions cycle
明示的並列命令コンピューティング技術 (EPIC)
命令の並列実行度の向上
製品の性能(異なる尺度)
時間
持続的イノベーション
技術革新が顧客の求める性能向上軸(ムーアの法則)に沿っている
破壊的イノベーションマルチコアとマルチスレッドによる並列処理
短期的には(シングルスレッドの性能)としては性能が低下するが将来の大きな性能向上とコスト低下機能強化の可能性が大きい
スケーラブルシステムズ株式会社
マルチコアの利点
ワークロードの処理効率の向上
bull マルチスレッドアプリケーションndash現在多くのアプリケーション(データベース
WEB科学技術計算)はマルチスレッド化
ndashマルチコアプロセッサではこれらのアプリケーションのマルチスレッドでの実行が容易に可能
bull 複数ジョブの処理ndashシステムでは複数のワークロード同時に処理することが必要
ndashマルチコアではこれらのワークロードへの処理が可能
スケーラブルシステムズ株式会社
マルチコアの利点
消費電力あたりの性能を最大にし高性能で低消費電力のシステム構築が可能
bull OS自身のマルチスレッド対応
ndash OSのサービスもマルチスレッドで処理することでより効率よく処理することが可能
bull 仮想化
ndashサーバのセキュリティや管理の強化
ndash管理するノード数を減らし運用コストの削減を図る
bull 最新のソフトウエアテクノロジの活用
スケーラブルシステムズ株式会社
大きな変革しかし容易ではない
マルチコアプロセッシング(または汎用もしくは専用プロセッサをソケットに複数搭載可能なこと)はEthernetの誕生以来ITインフラに対しての大きなインパクトをもたらします
デュアルプロセッサは386プロセッサの発表以来性能に関して最大の向上を実現しますしかしこのような性能向上にはソフトウエアの最適化がプロセッサの性能をフルに発揮するためには必要です
スケーラブルシステムズ株式会社
並列性(Parallelism)の利用
マルチタスク処理
MPIなどによる複数のノード間での並列処理
ユーザ及びコンパイラによるスレッドレベルでの並列処理(TLP)
コンパイラによる命列実行レベルでの並列処理(ILP)
マルチコア
マルチプロセッサ
マルチノード
マルチインストラクション
システム
スケーラブルシステムズ株式会社
ムーアの法則(GHz から MC へ)
マルチコアによる性能向上
動作周波数の向上による性能向上
性能
2005
bullマルチスレッドbullマルチタスクbull トレーニングbullツールbullhelliphellip
並列処理による性能向上についてはシステムサポートやプログラミングサポートなどの面での技術支援が重要です
スケーラブルシステムズ株式会社
Episode VI
Return of the Jedi
Ts for HPC - インテルテクノロジのHPCにおける価値の考察
スケーラブルシステムズ株式会社
将来予測の難しさ
bull ldquoI think there is a world market for maybe five
computersrdquobull Thomas Watson chairman of IBM 1943
bull ldquoThere is no reason for any individual to have a
computer in their homerdquobull Ken Olson president and founder of digital equipment
corporation 1977
bull ldquoThere are only about 100 potential customers
worldwide for a Cray-1rdquobull Seymour Cray 1977
bull ldquo640K [of memory] ought to be enough for
anybodyrdquobull Bill Gates chairman of Microsoft1981
スケーラブルシステムズ株式会社
「未来を予測する最良の方法はそれを創造してしまうことである」The best way to predict future is to invent it
Dr Alan Kay President of Viewpoints Research
Institute Inc
スケーラブルシステムズ株式会社
ITマネージメントの課題
bull プラットフォームの内部からの保護ndash ウイルスやワームなど悪意あるソフトウェアからの保護
bull 資産管理ndash 多くの IT 部門では特定できない資産が問題
bull オンラインおよびリモート管理診断機能 ndash アップグレード診断復旧のための作業の効率化
bull アプリケーション統合の困難さ
ndash アプリケーションの高度化と複雑化によって複数のアプリケーションを組み合わせるての動作に問題
bull 動的なリソース割り当て
ndash 組織内で未使用のCPUやメモリの活用
スケーラブルシステムズ株式会社
マーケットトレンド
All Servers Worldwide 2003 2004 2005 20062003 to 2006
CAGR
2005 to 2006
CAGR
Total Factory Revenue($B) $46149 $49146 $51268 $52251 42 19
Units Shipped(same as nodes) 5278222 6307484 7050099 7472649 123 60
Processor Dies Shipped 8662823 10134624 11712766 12779159 138 91
HPC Technical Servers Worldwide 2003 2004 2005 20062003 to 2006
CAGR
2005 to 2006
CAGR
HPC Server Revenue($B) $5698 $7393 $9208 $10030 207 89
Adjusted Revenues(To much
enterprise)$5128 $6654 $8287 $9027 207 89
Node Units Shipped 411327 734510 1215735 1419221 511 167
Processor Elements Shipped 1002905 1657827 2681079 3351843 495 250
HPC As A Ratio Of All Servers 2003 2004 2005 2006
Revenue($B) 123 150 180 192
Adjusted Revenues(Apples-to-
apples)111 135 162 173
Units Shipped(Nodes) 78 116 172 190
Processors Shipped 116 164 226 261
Source IDC 2007
スケーラブルシステムズ株式会社
HPCマーケット(対全サーバマーケット)
0
5
10
15
20
25
30
2003 2004 2005 2006
Revenue($B)
Adjusted Revenues(Apples-to-apples)
Units Shipped(Nodes)
Processors Shipped
スケーラブルシステムズ株式会社
マーケットトレンド
Source IDC 2004
Cost of mgmt amp admin 10 CAGR
$0
$20
$40
$60
$80
$100
$120
$140
$160
$180
$200
1996 rsquo97 rsquo98 rsquo992000 rsquo01 rsquo02 rsquo03 rsquo04 rsquo05 rsquo06 rsquo07 rsquo08-
New server spending (USM$) 3 CAGR
Spending (USB$)
5
10
15
20
25
30
35
Installed Base (M Units)
bull ハードウェアの減価償却費は IT の TCO 全体の約25 にすぎない
bull ソフトウェアのコストはわずか10~15
bull 電気などの公共料金フロアスペース電話回線など設備面のコストの割合もきわめて小さい
bull プラットフォームのコストではなくTCOの大きな比率を占めるのは人件費となっている
スケーラブルシステムズ株式会社
運用管理コストの低減
bull 「もっと処理性能を」と「より安価に」を実現するためにワークステーションやサーバでの分散処理の導入
bull ユーザや企業に新たな価値をもたらしてはいるが管理責任とその負担の分散を招き結果的に運用管理コストを押し上げる
メインフレームスーパーコンピュータ
仮想化によるサーバコンソリデーション
クラスタによる仮想コンピュータ
スケーラブルシステムズ株式会社
次世代HPCインフラ
bull コアとスレッド
ndash より多くのスレッドを効率よく利用可能
ndash マルチスレッド向け最適化
bull 電力管理
ndash 省電力
ndash データセンター運用管理機能
bull 仮想化
ndash 柔軟性と優れた運用管理
ndash 仮想的なシステムパーティション
bull RAS
ndash ハードウエアベースの自己監視自己管理
ndash ファームウエアベースのエラー履歴管理
bull システム管理
ndash より低いTCOを実現するための一般標準化されたマネージメント機能
スケーラブルシステムズ株式会社
高速プロセッサ
64ビットアドレス
メモリ性能と容
量
IOバンド幅
インターコネクト
省電力
システムのlsquoバランスrsquo
マルチコアによってプロセッサ単体の処理性能の向上を図る
64ビットのアドレス空間と
拡張されたレジスタによるOSとアプリケーション双方の機能性能拡張
64ビット化とマルチコア化
にともなう高速大容量へのニーズに対応しまたその拡張性の高い実装技術の実現
CPU-メモリ間の高速な
データ転送やより高速なネットワーク大規模なストレージのサポート
大規模なクラスタシステムの構築及びアプリケーションのワークロードに対応した高速性能
エコシステムに対応するためにも電力消費量や発熱量を積極的に抑える技術の開発
スケーラブルシステムズ株式会社
HPCの二極分化
Going UP
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
Going DOWN
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
スケーラブルシステムズ株式会社
システムとユーザの尺度
bull ユーザの尺度での性能(Performance)は時間当たりにどれだけの仕事を処理出来るか(仕事量 時間)
bull Flopsでの評価は実際には意味がないまた問題の規模(small medium large) という評価も難しい
bull ldquoスケーラビリティrdquoは対象を明確に規定する必要がある
システムの尺度 ユーザの尺度
Flops hArr 計算終了までの時間
メモリサイズ(GB) hArr モデルのサイズと計算結果
プロセッサ数 hArr ワークロードでの試行
データ長 hArr 計算精度
システム構成(クラスタ) hArr 導入コストと運用コスト
スケーラビリティ hArr ベンチマーク
スケーラブルシステムズ株式会社
HPCシステムの動向国家プロジェクトと商用製品のギャップの拡大
Going UP
Going DOWN
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
Peta-Scaleコンピューティングに求められる基本技術と現在のHPCの主要マーケットでの要求はあまりにも差が大きいrarrHPCSシステムは各社とのlsquoCommodityrsquoのマイクロプロセッサではなく独自のプロセッサを開発中
ハードウエアはrsquoCommodityrsquo
なものを利用してSWの改善サポート利用技術のサポートが今後の主要マーケットでの成功の鍵となる
スケーラブルシステムズ株式会社
HPCシステムの動向国家プロジェクト
Going UP
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
Peta-Scaleコンピューティングに求められる基本技術と現在のHPCの主要マーケットでの要求はあまりにも差が大きいrarrHPCSシステムは各社とのlsquoCommodityrsquoのマイクロプロセッサではなく独自のプロセッサを開発中
スケーラブルシステムズ株式会社
TOP500性能予測
1993 1995 1997 1999 2001 2003 2005 2007 2009 2011 2013 2015
N=
50
SUM
1 Gflops
1 Tflops
100 Mflops
100 Gflops
100 Tflops
10 Gflops
10 Tflops
1 Pflops
10 Pflops
IBM ASCI White
Blue GeneEarth Simulator
Intel
TOP500の総計が1PFを超えています
TOP500に掲載されるには1TF
が最低条件になっています
シングルシステムの1PFの実現は2009年
システム(プロセッサ数) 13倍年プロセッサ性能向上 14倍年トータル性能 18倍年
2009年までに1ペタFLOPS
スケーラブルシステムズ株式会社
性能ギャップの拡大
bull ピーク性能の大幅な向上ndash 1990年台は性能の向上は102のオーダーでしたが2000年台になると103のオーダーで性能は向上しています
しかしhellipndash 多くの科学技術計算用途のアプリケーションのピーク性能に対する実効性能の比率は5-10となっています(1990年代のベクトル計算機は40-50の対ピーク性能を示していました)
bull 今必要なのはndash より高い実効性能を発揮することが可能な計算アルゴリズムと手法の開発とスケーラビリティの向上
ndash プログラミングモデルなども含めてスケーラブルな計算機環境の構築
01
1
10
100
1000
2000 2004
Tera
flo
ps
1996
Performance
Gap
Peak Performance
Real Performance
NERSC User Group Meeting June 24-25 2004
Osni Marques and Tony Drummond
Lawrence Berkeley National Laboratory
スケーラブルシステムズ株式会社
ペタスケールシステムの構築
bull ソフトウエア(アプリケーションOSプログラミングAPIなど)の課題の克服が課題
bull システムの複雑さと生産性
例Linpack Benchmark
bull オリジナルベンチマークプログラム ~100ライン
bull HPL ベンチマークプログラム ~10000ライン(x100より複雑)
lsquo複雑さrsquoの壁
現在のテラFLOPS級の問題
Source ORNL
スケーラブルシステムズ株式会社
HPCシステムの動向商用製品
Going DOWN
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
ハードウエアはrsquoCommodityrsquo
なものを利用してSWの改善サポート利用技術のサポートが今後の主要マーケットでの成功の鍵となる
スケーラブルシステムズ株式会社
標準コンポーネントの進化
bull プロセッサの性能向上ndash lsquoマルチコアrsquoによる省電力での性能向上が可能
ndash HPCアプリケーションは容易にlsquoマルチコアrsquoの利点を活用可能 (OpenMPやMPI)
bull ファイルシステムndash高性能なスケーラブルファイルシステム(オープンソース)
bull インターコネクトndash PCI-Express (メモリlarrrarrインターコネクト)
ndash高速の商用製品やオープンソースでの強力(OpenIBなど)
スケーラブルシステムズ株式会社
標準コンポーネントの利点
bull 特定のベンダーからのシステムを組み合わせるのではなく他社のシステムも含めてベストなシステムの選択が可能
ndashスケーラブルSMPベクトル計算機クラスタの幅広い選択肢
ndash 64ビットマルチコアマイクロプロセッサの性能向上を最大限に活用
bull 標準コンポーネントの技術革新の活用
ndash PCI-ExpressやFB-DIMMの利用技術
スケーラブルシステムズ株式会社
Breaking the 1-2K nodes Barrier
bull 音の障壁サウンドバリヤー(sound barrier)飛行機の速度が音速近くになると衝撃波の発生によって抵抗の増大境界層の剥離など設計運用上のさまざまな障害(壁)に出合って超音速飛行は不可能かと思われた時代があった(1947年ごろまで)ので音の障壁といわれていた
httpwwwwilk4commiscsoundbreakhtm
クラスタのノード数がある規模に近くなるとその構築や運用において負担の増大システムの安定稼動スケーラビリティなど設計運用上のさまざまな障害(壁)に出合ってクラスタ構築は不可能と思われた時代があった()
スケーラブルシステムズ株式会社
ビルゲイツ氏の基調講演HPC goes mainstream
スケーラブルシステムズ株式会社
「Fast」「Good」「Cheap」のパズル
Fast
+ Cheap
Inferior
高い性能を廉価なシステムで構築することも可能ですただそのようなシステムの場合システムの構築や利用は必ずしも容易ではありません
Good
+ Cheap
Slow比較的小規模なシステムであれば廉価で使い勝手の良いものを探すことは可能ですしかしそのようなシステムでは拡張性やより大規模なシステム構築が出来ません
Good
+ Fast
Expensive
付加価値の高い性能の高いシステムは一般には高価ですその付加価値がユーザにとってメリットが無ければコストパフォーマンスの悪いシステムになるだけです
スケーラブルシステムズ株式会社
まとめとして
bull 「テクノロジー」をどのようにとらえるかndash企業経営基盤のコア要素
ndashユーザの本質的な課題を解決する戦略的な武器
bull マーケットを牽引する「テクノロジ」に求められることndashテクノロジとHPCにおけるITインフラの関係を明確にすること
bull ユーザに何らかのメリットをもたらさない「テクノロジー」は意味を成さない
ndashテクノロジーを最適に組み合わせることで問題解決のためのソリューションの提供が可能
スケーラブルシステムズ株式会社
まとめとして
bull bdquoTs‟ for HPC - インテルテクノロジのHPCにおける価値
ndash インテルテクノロジはHPCにおいて重要な構成要素となっている
ndashそれらの構成要素を統合することでより高い価値の提供が可能となる
ndash二分化しつつあるHPCシステムにおいて「標準コ
ンポーネント」としてのプラットフォームの動向として今後もその動向には注目する必要がある
スケーラブルシステムズ株式会社
さらに詳しい情報はhellip
bull 弊社のコンサルテーションに関するご提案資料もダウンロード可能です(非公開WEBページ)別途弊社に内容等についてはお尋ねください
お問い合わせ先102-0083
東京都千代田区麹町3-5-2
BUREX麹町 8F
電話03-5875-4718
FAX03-3237-7612
E-mailbizsstccojp
httpwwwsstccojp wwwsstccojpbiz
スケーラブルシステムズ株式会社
スケーラブルシステムズ株式会社
ハイエンドコンピューティングに関するコンサルテーションとして幅広いサービスをご提供致します
このサービスを最大限に活用していただくことでコラボレーションによる「顧客志向」 のコン
サルテーションサービスをご提供できればと思っております
スケーラブルシステムズ株式会社
社名製品名などは一般に各社の商標または登録商標です無断での引用転載を禁じます
In general the name of the company and the product name etc are the trademarks or registered trademarks of each company
Copyright Scalable Systems Co Ltd 2005 Unauthorized use is strictly forbidden
2005年11月
スケーラブルシステムズ株式会社
製品の性能
時間
製品の性能(異なる尺度で評価)
時間
Commodity-Based Cluster
RISCベースのSMPNUMAシステム
ベクトル計算機
破壊的イノベーション
スケーラブルシステムズ株式会社
Beowulf プロジェクト
Wiglaf - 1994
16 Intel 80486 100 MHz
VESA Local bus
256 Mbytes memory
64 Gbytes of disk
Dual 10 base-T Ethernet
72 Mflops sustained
$40K
Hrothgar - 1995
16 Intel Pentium100 MHz
PCI
1 Gbyte memory
64 Gbytes of disk
100 base-T Fast Ethernet
(hub)
240 Mflops sustained
$46K
Hyglac-1996 (Caltech)
16 Pentium Pro 200 MHz
PCI
2 Gbytes memory
496 Gbytes of disk
100 base-T Fast Ethernet
(switch)
125 Gflops sustained
$50K
スケーラブルシステムズ株式会社
クラスタシステムの台頭
2000-2005
スケーラブルシステムズ株式会社
課題
Episode III
Revenge of the sith
スケーラブルシステムズ株式会社
HPCの現状
Going UP Going DOWN
システムの規模解析モデルのサイズ運用管理の複雑さbull電力bullスペースbullシステムの相互接続bull管理コスト
生産性bullプログラミングbullシステムの可用性bull実効性能ピーク性能システムバランスHWコスト
スケーラブルシステムズ株式会社
HPCマーケット
bull HPCマーケットでのHPCシステム構築及び製品は次の3つのセグメントに分かれているndash 一般商用システム( Commodity-based systems)
bull 一般のクラスタシステム(Dell HPCCなど)
ndash 付加価値システム( Value-based systems)bull 多くのSMPやNUMAシステム(SGI Altixなど)
ndash 特定目的システム( Purpose-built systems)bull アプリケーションと解析対象に合わせたシステム設計(IBM
BlueGeneLなど)
bull IDCなどのレポートでも一般商用システムのHPCマーケットでの導入がもっともその成長が大きいndash 付加価値システムの課題(一般商用システムとの競合に対する対応もしくは新たな分野の開拓rarrペタスケールコンピューティング)
ndash HPCSプログラムはこの付加価値システムのベンダーにとっても生き残りを賭けた戦い (2006July)
スケーラブルシステムズ株式会社
HPCシステムの現状分析
bull Good News
ldquoHPCシステムにおける問題はたった2つだけであるrdquo
スケーラブルシステムズ株式会社
ソフトウエアとハードウエア
bull ソフトウエアThe Law of Morehellip
ndashシステム規模とその複雑さの急速な増加拡大
ndash ソフトウエアの準備が出来た時点でハードウエアは既に陳腐化し次のシステムの導入の検討が進む
bull ハードウエアMoore‟s Law (ムーアの法則)ndash消費電力の問題のためプロセッサの動作クロックを今までのペースで上げることは困難
ndashプロセッサとメモリの性能差の拡大によるCPUサイクルとのギャップ
ndashピーク性能と実効性能のギャップの拡大
スケーラブルシステムズ株式会社
ソフトウエアThe Law of Morehellip
bull 研究者はより多くの時間(More Time)をソフトウエアの開発のために必要としている
bull 問題はより複雑(More Complex)になりそしてより多くのプロセッサ(More Processors)を利用して処理を行うにはより多くの困難(More
Difficult)が伴います
スケーラブルシステムズ株式会社
アルゴリズムの最適化
bull 計算機自身の進化と共に計算アルゴリズムも最適化されている
bull 例編微分方程式の解法ndash N=106の場合ガウスの消去法で線形方程式を解く場合と
MGでの計算では108倍の計算量が違うndash これは1Mflopssの計算機で100Tflopssの計算機に相当する計算を行ったことになる
O(N)F-cycle MG
O(N76 log(N))CGMILU
O(N43 log(N))Optimal SOR
O(N53 log(N))Gauss Seidel
O(N73)Banded Gauss Elimination
計算オペレーション数(概数)アルゴリズム
2u=f 100
100100
スケーラブルシステムズ株式会社
ソフトウエアThe Law of Morehellip
bull 一般の商用製品を活用したクラスタソリューションでは「Capacity」の実現は容易であるが「Capability」の実現については依然として課題が多いndash コストパフォーマンスの高いシステムの構築は可能だとしてもコストプロダクティビティの高いシステムの構築も課題
bull 数百~数千プロセッサ構成のシステムの利用技術と解析対象の検討ndash 小規模中規模問題の高速処理への対応ndash ソフトウエア開発の生産性
bull 数プロセッサ~数十プロセッサをより簡便に容易に利用できる技術ndash シングルプロセッサシングルスレッドを利用するのと同じようにhellip
スケーラブルシステムズ株式会社
ソフトウエアとハードウエア
bull ソフトウエアThe Law of Morehellip
ndashシステム規模とその複雑さの急速な増加拡大
ndash ソフトウエアの準備が出来た時点でハードウエアは既に陳腐化し次のシステムの導入の検討が進む
bull ハードウエアMoore‟s Law (ムーアの法則)ndash消費電力の問題のためプロセッサの動作クロックを今までのペースで上げることは困難
ndashプロセッサとメモリの性能差の拡大によるCPUサイクルとのギャップ
ndashピーク性能と実効性能のギャップの拡大
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash過去12年間でPentiumプロセッサの動作周波数は60 MHz から 3800 MHz にまでアップ
ndash現在までの高性能化の約80 はクロック周波数の向上によるもの
スケーラブルシステムズ株式会社
ハードウエアの問題Moore‟s Lawムーアの法則
bull インテルの共同設立者の1人である Gordon Moore 博士が1965年4月19日号の「Electronics」誌に投稿した 「一定面積に集積されるトランジスタの数は12か月で倍増しそれに伴いトランジスタの動作速度が向上する」という予測 (その後1975年に Moore 博士はチップの複雑化を考慮してトランジスタ数の倍増ペースを24か月に修正)
bull また一般にはあまり知られていないがテクノロジの進歩とともに製造コストが劇的に下落することも予測(左図)
httpwwwintelcojpjpdevelopertechnologysiliconmooreslawindexhtm
指数関数的成長は永遠には続かないしかしその永遠を先延ばしにすることはできる [英語 PDF 形式 2MB]
Gordon E Moore2003年2月10日ISSCC (International
Solid State Circuits Conference) でのプレゼンテーション
Dr Gordon Moore
(co-founder of Intel)
スケーラブルシステムズ株式会社
Technology Trend
ムーアの法則依然として有効
スケーラブルシステムズ株式会社
性能向上の源泉は
ハードウエアデバイス技術の進歩bull ロジック回路のスイッチング速度の向上とデバイス密度bull メモリサイズの拡大とアクセス速度の向上bull 通信性能(バンド幅とレイテンシの向上)
bull 並列性ndash 1サイクルでの命令実行数
bull 命令レベルでの並列性(ILP)
bull ベクトル処理ndash プロセッサあたりコア数ndash ノードあたりのプロセッサ数ndash システムあたりのノード数
コンピュータアーキテクチャbull 命令発行実行速度の向上
ndash パイプライン化ndash 分岐予測ndash キャッシュndash Out-of-order など
スケーラブルシステムズ株式会社
GHz競争
bull 2000年に開催されたIEEE国際電子デバイス会議2000(2000
IEEE International Electron Devices MeetingIEDM) においてインテル社は4億個以上のトランジスタを集積した10GHz駆動のプロセッサが2005年までに実現可能だと発表しましたndash 実際にはインテル社の最速プロセッサは6ヶ月前に発表された
38GHz(Intel Pentium 4)となっています
bull Prescottプロセッサの6xxシリーズ発表に際してインテル社はldquoadding value beyond GHzrdquo のコメントを出していますそれ以降インテル社の多くのドキュメントやプレスリリースはこのldquoadding value beyond GHzrdquo についての内容を含んでいます
スケーラブルシステムズ株式会社
発熱の問題が深刻化
Bob Colwell氏の資料より抜粋
Increasing Frequency
Watt
scm
2
1
10
100
1000
15 10 07 05 035 025 018 013 01 007
i386i486
PentiumPentium Pro
Pentium IIPentium III
Hot Plate
Nuclear Reactor
Rocket Nozzle
Pentium 4(Prescott)
Pentium 4(Willamette)
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash過去12年間でPentiumプロセッサの動作周波数は60 MHz から 3800 MHz にまでアップ
ndash現在までの高性能化の約80 はクロック周波数の向上によるもの
bull 命令実行の強化と最適化
ndashより強力なインストラクションセット
ndash命令実行の最適化(パイプライン化分岐予測複数命令の同時実行命令実行順序の変更など)
スケーラブルシステムズ株式会社
技術のSカーブ技術開発の進展と製品性能の成長の関係
bull 技術開発の初期は製品性能はゆっくりと向上するがしだいに性能の向上の幅が大きくなるしかし次第に技術開発が成熟段階に入ると性能向上は逓減していく
製品の性能
時間
First Technology
Second Technology
Third Technology
RISCアウトオブオーダー実行lt1 instruction cycle
スーパースカラー RISCアウトオブオーダー実行lt2 instructions cycle
明示的並列命令コンピューティング技術 (EPIC)
命令の並列実行度の向上
スケーラブルシステムズ株式会社
マイクロアーキテクチャのSカーブ
Johan De Gelas Quest for More Processing Power
AnandTech Feb 8 2005
httpwwwanandtechcomcpuchipsetsshowdocaspxi=2343
101
102
103
104
105
106
MIP
S
1980 1985 1990 1995 2000 2005 2010
Pentium Architecture
Super Scalar
Pentium Pro Architecture
Speculative Out-of-Order
Pentium 4 Architecture
Trace Cache
Pentium 4 and Xeon Architecture with HT
Multi-Threaded
Multi-Threaded Multi-Core
Era of
Instruction
Parallelism
Era of
Thread
Parallelism
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash 過去12年間でPentiumプロセッサの動作周波数は60
MHz から 3800 MHz にまでアップ
ndash 現在までの高性能化の約80 はクロック周波数の向上によるもの
bull 命令実行の強化と最適化
ndash より強力なインストラクションセット
ndash 命令実行の最適化(パイプライン化分岐予測複数命令の同時実行命令実行順序の変更など)
bull 大容量キャッシュ
ndash プロセッサの速度とメモリレイテンシ(待ち時間)とバンド幅のギャップの拡大に対する対策対応としての容量の拡張
スケーラブルシステムズ株式会社
性能ギャップの問題
bull プロセッサ速度とメモリアクセスの速度差によってプロセッサがより高速になったとしてもプロセッサはその演算能力を完全に使い切ることが出来ない
1
10
100
1000Performance
1980 1990 2000
microProc
60yr
DRAM
7yr
バンド幅とレイテンシの問題が今後はより深刻(プロセッサ性能とのギャップはほぼ年率50の差で広がっている)
DRAM
CPU
プロセッサはほぼナノ秒に一回命令実行DRAMへのアクセスはほぼ100ナノ秒の時間
スケーラブルシステムズ株式会社
今後の発展と課題
Episode IV
A New Hope
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash 過去12年間でPentiumプロセッサの動作周波数は60
MHz から 3800 MHz にまでアップ
ndash 現在までの高性能化の約80 はクロック周波数の向上によるもの
bull 命令実行の強化と最適化
ndash より強力なインストラクションセット
ndash 命令実行の最適化(パイプライン化分岐予測複数命令の同時実行命令実行順序の変更など)
bull 大容量キャッシュ
ndash プロセッサの速度とメモリレイテンシ(待ち時間)とバンド幅のギャップの拡大に対する対策対応としての容量の拡張
スケーラブルシステムズ株式会社
デュアルコアプロセッサ
bull チップ上のトランジスタのより有効活用が可能bull スレッドレベルでの並列処理を活用bull よりシンプルなプロセッサの設計が可能
bull 将来のマイクロプロセッサはより多くのコアを実装可能bull 将来のマイクロプロセッサはより大容量のキャッシュの実装が可能
IBM Power5
with 19MB L2
AMD Opteron
with 2MB L2
Intel Montecito
With 24MB L3
スケーラブルシステムズ株式会社
イノベーションのジレンマ
製品の性能
時間
First Technology
Second Technology
Third Technology
RISCアウトオブオーダー実行lt1 instruction cycle
スーパースカラー RISCアウトオブオーダー実行lt2 instructions cycle
明示的並列命令コンピューティング技術 (EPIC)
命令の並列実行度の向上
製品の性能(異なる尺度)
時間
持続的イノベーション
技術革新が顧客の求める性能向上軸(ムーアの法則)に沿っている
破壊的イノベーションマルチコアとマルチスレッドによる並列処理
短期的には(シングルスレッドの性能)としては性能が低下するが将来の大きな性能向上とコスト低下機能強化の可能性が大きい
スケーラブルシステムズ株式会社
マルチコアの利点
ワークロードの処理効率の向上
bull マルチスレッドアプリケーションndash現在多くのアプリケーション(データベース
WEB科学技術計算)はマルチスレッド化
ndashマルチコアプロセッサではこれらのアプリケーションのマルチスレッドでの実行が容易に可能
bull 複数ジョブの処理ndashシステムでは複数のワークロード同時に処理することが必要
ndashマルチコアではこれらのワークロードへの処理が可能
スケーラブルシステムズ株式会社
マルチコアの利点
消費電力あたりの性能を最大にし高性能で低消費電力のシステム構築が可能
bull OS自身のマルチスレッド対応
ndash OSのサービスもマルチスレッドで処理することでより効率よく処理することが可能
bull 仮想化
ndashサーバのセキュリティや管理の強化
ndash管理するノード数を減らし運用コストの削減を図る
bull 最新のソフトウエアテクノロジの活用
スケーラブルシステムズ株式会社
大きな変革しかし容易ではない
マルチコアプロセッシング(または汎用もしくは専用プロセッサをソケットに複数搭載可能なこと)はEthernetの誕生以来ITインフラに対しての大きなインパクトをもたらします
デュアルプロセッサは386プロセッサの発表以来性能に関して最大の向上を実現しますしかしこのような性能向上にはソフトウエアの最適化がプロセッサの性能をフルに発揮するためには必要です
スケーラブルシステムズ株式会社
並列性(Parallelism)の利用
マルチタスク処理
MPIなどによる複数のノード間での並列処理
ユーザ及びコンパイラによるスレッドレベルでの並列処理(TLP)
コンパイラによる命列実行レベルでの並列処理(ILP)
マルチコア
マルチプロセッサ
マルチノード
マルチインストラクション
システム
スケーラブルシステムズ株式会社
ムーアの法則(GHz から MC へ)
マルチコアによる性能向上
動作周波数の向上による性能向上
性能
2005
bullマルチスレッドbullマルチタスクbull トレーニングbullツールbullhelliphellip
並列処理による性能向上についてはシステムサポートやプログラミングサポートなどの面での技術支援が重要です
スケーラブルシステムズ株式会社
Episode VI
Return of the Jedi
Ts for HPC - インテルテクノロジのHPCにおける価値の考察
スケーラブルシステムズ株式会社
将来予測の難しさ
bull ldquoI think there is a world market for maybe five
computersrdquobull Thomas Watson chairman of IBM 1943
bull ldquoThere is no reason for any individual to have a
computer in their homerdquobull Ken Olson president and founder of digital equipment
corporation 1977
bull ldquoThere are only about 100 potential customers
worldwide for a Cray-1rdquobull Seymour Cray 1977
bull ldquo640K [of memory] ought to be enough for
anybodyrdquobull Bill Gates chairman of Microsoft1981
スケーラブルシステムズ株式会社
「未来を予測する最良の方法はそれを創造してしまうことである」The best way to predict future is to invent it
Dr Alan Kay President of Viewpoints Research
Institute Inc
スケーラブルシステムズ株式会社
ITマネージメントの課題
bull プラットフォームの内部からの保護ndash ウイルスやワームなど悪意あるソフトウェアからの保護
bull 資産管理ndash 多くの IT 部門では特定できない資産が問題
bull オンラインおよびリモート管理診断機能 ndash アップグレード診断復旧のための作業の効率化
bull アプリケーション統合の困難さ
ndash アプリケーションの高度化と複雑化によって複数のアプリケーションを組み合わせるての動作に問題
bull 動的なリソース割り当て
ndash 組織内で未使用のCPUやメモリの活用
スケーラブルシステムズ株式会社
マーケットトレンド
All Servers Worldwide 2003 2004 2005 20062003 to 2006
CAGR
2005 to 2006
CAGR
Total Factory Revenue($B) $46149 $49146 $51268 $52251 42 19
Units Shipped(same as nodes) 5278222 6307484 7050099 7472649 123 60
Processor Dies Shipped 8662823 10134624 11712766 12779159 138 91
HPC Technical Servers Worldwide 2003 2004 2005 20062003 to 2006
CAGR
2005 to 2006
CAGR
HPC Server Revenue($B) $5698 $7393 $9208 $10030 207 89
Adjusted Revenues(To much
enterprise)$5128 $6654 $8287 $9027 207 89
Node Units Shipped 411327 734510 1215735 1419221 511 167
Processor Elements Shipped 1002905 1657827 2681079 3351843 495 250
HPC As A Ratio Of All Servers 2003 2004 2005 2006
Revenue($B) 123 150 180 192
Adjusted Revenues(Apples-to-
apples)111 135 162 173
Units Shipped(Nodes) 78 116 172 190
Processors Shipped 116 164 226 261
Source IDC 2007
スケーラブルシステムズ株式会社
HPCマーケット(対全サーバマーケット)
0
5
10
15
20
25
30
2003 2004 2005 2006
Revenue($B)
Adjusted Revenues(Apples-to-apples)
Units Shipped(Nodes)
Processors Shipped
スケーラブルシステムズ株式会社
マーケットトレンド
Source IDC 2004
Cost of mgmt amp admin 10 CAGR
$0
$20
$40
$60
$80
$100
$120
$140
$160
$180
$200
1996 rsquo97 rsquo98 rsquo992000 rsquo01 rsquo02 rsquo03 rsquo04 rsquo05 rsquo06 rsquo07 rsquo08-
New server spending (USM$) 3 CAGR
Spending (USB$)
5
10
15
20
25
30
35
Installed Base (M Units)
bull ハードウェアの減価償却費は IT の TCO 全体の約25 にすぎない
bull ソフトウェアのコストはわずか10~15
bull 電気などの公共料金フロアスペース電話回線など設備面のコストの割合もきわめて小さい
bull プラットフォームのコストではなくTCOの大きな比率を占めるのは人件費となっている
スケーラブルシステムズ株式会社
運用管理コストの低減
bull 「もっと処理性能を」と「より安価に」を実現するためにワークステーションやサーバでの分散処理の導入
bull ユーザや企業に新たな価値をもたらしてはいるが管理責任とその負担の分散を招き結果的に運用管理コストを押し上げる
メインフレームスーパーコンピュータ
仮想化によるサーバコンソリデーション
クラスタによる仮想コンピュータ
スケーラブルシステムズ株式会社
次世代HPCインフラ
bull コアとスレッド
ndash より多くのスレッドを効率よく利用可能
ndash マルチスレッド向け最適化
bull 電力管理
ndash 省電力
ndash データセンター運用管理機能
bull 仮想化
ndash 柔軟性と優れた運用管理
ndash 仮想的なシステムパーティション
bull RAS
ndash ハードウエアベースの自己監視自己管理
ndash ファームウエアベースのエラー履歴管理
bull システム管理
ndash より低いTCOを実現するための一般標準化されたマネージメント機能
スケーラブルシステムズ株式会社
高速プロセッサ
64ビットアドレス
メモリ性能と容
量
IOバンド幅
インターコネクト
省電力
システムのlsquoバランスrsquo
マルチコアによってプロセッサ単体の処理性能の向上を図る
64ビットのアドレス空間と
拡張されたレジスタによるOSとアプリケーション双方の機能性能拡張
64ビット化とマルチコア化
にともなう高速大容量へのニーズに対応しまたその拡張性の高い実装技術の実現
CPU-メモリ間の高速な
データ転送やより高速なネットワーク大規模なストレージのサポート
大規模なクラスタシステムの構築及びアプリケーションのワークロードに対応した高速性能
エコシステムに対応するためにも電力消費量や発熱量を積極的に抑える技術の開発
スケーラブルシステムズ株式会社
HPCの二極分化
Going UP
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
Going DOWN
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
スケーラブルシステムズ株式会社
システムとユーザの尺度
bull ユーザの尺度での性能(Performance)は時間当たりにどれだけの仕事を処理出来るか(仕事量 時間)
bull Flopsでの評価は実際には意味がないまた問題の規模(small medium large) という評価も難しい
bull ldquoスケーラビリティrdquoは対象を明確に規定する必要がある
システムの尺度 ユーザの尺度
Flops hArr 計算終了までの時間
メモリサイズ(GB) hArr モデルのサイズと計算結果
プロセッサ数 hArr ワークロードでの試行
データ長 hArr 計算精度
システム構成(クラスタ) hArr 導入コストと運用コスト
スケーラビリティ hArr ベンチマーク
スケーラブルシステムズ株式会社
HPCシステムの動向国家プロジェクトと商用製品のギャップの拡大
Going UP
Going DOWN
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
Peta-Scaleコンピューティングに求められる基本技術と現在のHPCの主要マーケットでの要求はあまりにも差が大きいrarrHPCSシステムは各社とのlsquoCommodityrsquoのマイクロプロセッサではなく独自のプロセッサを開発中
ハードウエアはrsquoCommodityrsquo
なものを利用してSWの改善サポート利用技術のサポートが今後の主要マーケットでの成功の鍵となる
スケーラブルシステムズ株式会社
HPCシステムの動向国家プロジェクト
Going UP
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
Peta-Scaleコンピューティングに求められる基本技術と現在のHPCの主要マーケットでの要求はあまりにも差が大きいrarrHPCSシステムは各社とのlsquoCommodityrsquoのマイクロプロセッサではなく独自のプロセッサを開発中
スケーラブルシステムズ株式会社
TOP500性能予測
1993 1995 1997 1999 2001 2003 2005 2007 2009 2011 2013 2015
N=
50
SUM
1 Gflops
1 Tflops
100 Mflops
100 Gflops
100 Tflops
10 Gflops
10 Tflops
1 Pflops
10 Pflops
IBM ASCI White
Blue GeneEarth Simulator
Intel
TOP500の総計が1PFを超えています
TOP500に掲載されるには1TF
が最低条件になっています
シングルシステムの1PFの実現は2009年
システム(プロセッサ数) 13倍年プロセッサ性能向上 14倍年トータル性能 18倍年
2009年までに1ペタFLOPS
スケーラブルシステムズ株式会社
性能ギャップの拡大
bull ピーク性能の大幅な向上ndash 1990年台は性能の向上は102のオーダーでしたが2000年台になると103のオーダーで性能は向上しています
しかしhellipndash 多くの科学技術計算用途のアプリケーションのピーク性能に対する実効性能の比率は5-10となっています(1990年代のベクトル計算機は40-50の対ピーク性能を示していました)
bull 今必要なのはndash より高い実効性能を発揮することが可能な計算アルゴリズムと手法の開発とスケーラビリティの向上
ndash プログラミングモデルなども含めてスケーラブルな計算機環境の構築
01
1
10
100
1000
2000 2004
Tera
flo
ps
1996
Performance
Gap
Peak Performance
Real Performance
NERSC User Group Meeting June 24-25 2004
Osni Marques and Tony Drummond
Lawrence Berkeley National Laboratory
スケーラブルシステムズ株式会社
ペタスケールシステムの構築
bull ソフトウエア(アプリケーションOSプログラミングAPIなど)の課題の克服が課題
bull システムの複雑さと生産性
例Linpack Benchmark
bull オリジナルベンチマークプログラム ~100ライン
bull HPL ベンチマークプログラム ~10000ライン(x100より複雑)
lsquo複雑さrsquoの壁
現在のテラFLOPS級の問題
Source ORNL
スケーラブルシステムズ株式会社
HPCシステムの動向商用製品
Going DOWN
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
ハードウエアはrsquoCommodityrsquo
なものを利用してSWの改善サポート利用技術のサポートが今後の主要マーケットでの成功の鍵となる
スケーラブルシステムズ株式会社
標準コンポーネントの進化
bull プロセッサの性能向上ndash lsquoマルチコアrsquoによる省電力での性能向上が可能
ndash HPCアプリケーションは容易にlsquoマルチコアrsquoの利点を活用可能 (OpenMPやMPI)
bull ファイルシステムndash高性能なスケーラブルファイルシステム(オープンソース)
bull インターコネクトndash PCI-Express (メモリlarrrarrインターコネクト)
ndash高速の商用製品やオープンソースでの強力(OpenIBなど)
スケーラブルシステムズ株式会社
標準コンポーネントの利点
bull 特定のベンダーからのシステムを組み合わせるのではなく他社のシステムも含めてベストなシステムの選択が可能
ndashスケーラブルSMPベクトル計算機クラスタの幅広い選択肢
ndash 64ビットマルチコアマイクロプロセッサの性能向上を最大限に活用
bull 標準コンポーネントの技術革新の活用
ndash PCI-ExpressやFB-DIMMの利用技術
スケーラブルシステムズ株式会社
Breaking the 1-2K nodes Barrier
bull 音の障壁サウンドバリヤー(sound barrier)飛行機の速度が音速近くになると衝撃波の発生によって抵抗の増大境界層の剥離など設計運用上のさまざまな障害(壁)に出合って超音速飛行は不可能かと思われた時代があった(1947年ごろまで)ので音の障壁といわれていた
httpwwwwilk4commiscsoundbreakhtm
クラスタのノード数がある規模に近くなるとその構築や運用において負担の増大システムの安定稼動スケーラビリティなど設計運用上のさまざまな障害(壁)に出合ってクラスタ構築は不可能と思われた時代があった()
スケーラブルシステムズ株式会社
ビルゲイツ氏の基調講演HPC goes mainstream
スケーラブルシステムズ株式会社
「Fast」「Good」「Cheap」のパズル
Fast
+ Cheap
Inferior
高い性能を廉価なシステムで構築することも可能ですただそのようなシステムの場合システムの構築や利用は必ずしも容易ではありません
Good
+ Cheap
Slow比較的小規模なシステムであれば廉価で使い勝手の良いものを探すことは可能ですしかしそのようなシステムでは拡張性やより大規模なシステム構築が出来ません
Good
+ Fast
Expensive
付加価値の高い性能の高いシステムは一般には高価ですその付加価値がユーザにとってメリットが無ければコストパフォーマンスの悪いシステムになるだけです
スケーラブルシステムズ株式会社
まとめとして
bull 「テクノロジー」をどのようにとらえるかndash企業経営基盤のコア要素
ndashユーザの本質的な課題を解決する戦略的な武器
bull マーケットを牽引する「テクノロジ」に求められることndashテクノロジとHPCにおけるITインフラの関係を明確にすること
bull ユーザに何らかのメリットをもたらさない「テクノロジー」は意味を成さない
ndashテクノロジーを最適に組み合わせることで問題解決のためのソリューションの提供が可能
スケーラブルシステムズ株式会社
まとめとして
bull bdquoTs‟ for HPC - インテルテクノロジのHPCにおける価値
ndash インテルテクノロジはHPCにおいて重要な構成要素となっている
ndashそれらの構成要素を統合することでより高い価値の提供が可能となる
ndash二分化しつつあるHPCシステムにおいて「標準コ
ンポーネント」としてのプラットフォームの動向として今後もその動向には注目する必要がある
スケーラブルシステムズ株式会社
さらに詳しい情報はhellip
bull 弊社のコンサルテーションに関するご提案資料もダウンロード可能です(非公開WEBページ)別途弊社に内容等についてはお尋ねください
お問い合わせ先102-0083
東京都千代田区麹町3-5-2
BUREX麹町 8F
電話03-5875-4718
FAX03-3237-7612
E-mailbizsstccojp
httpwwwsstccojp wwwsstccojpbiz
スケーラブルシステムズ株式会社
スケーラブルシステムズ株式会社
ハイエンドコンピューティングに関するコンサルテーションとして幅広いサービスをご提供致します
このサービスを最大限に活用していただくことでコラボレーションによる「顧客志向」 のコン
サルテーションサービスをご提供できればと思っております
スケーラブルシステムズ株式会社
社名製品名などは一般に各社の商標または登録商標です無断での引用転載を禁じます
In general the name of the company and the product name etc are the trademarks or registered trademarks of each company
Copyright Scalable Systems Co Ltd 2005 Unauthorized use is strictly forbidden
2005年11月
スケーラブルシステムズ株式会社
Beowulf プロジェクト
Wiglaf - 1994
16 Intel 80486 100 MHz
VESA Local bus
256 Mbytes memory
64 Gbytes of disk
Dual 10 base-T Ethernet
72 Mflops sustained
$40K
Hrothgar - 1995
16 Intel Pentium100 MHz
PCI
1 Gbyte memory
64 Gbytes of disk
100 base-T Fast Ethernet
(hub)
240 Mflops sustained
$46K
Hyglac-1996 (Caltech)
16 Pentium Pro 200 MHz
PCI
2 Gbytes memory
496 Gbytes of disk
100 base-T Fast Ethernet
(switch)
125 Gflops sustained
$50K
スケーラブルシステムズ株式会社
クラスタシステムの台頭
2000-2005
スケーラブルシステムズ株式会社
課題
Episode III
Revenge of the sith
スケーラブルシステムズ株式会社
HPCの現状
Going UP Going DOWN
システムの規模解析モデルのサイズ運用管理の複雑さbull電力bullスペースbullシステムの相互接続bull管理コスト
生産性bullプログラミングbullシステムの可用性bull実効性能ピーク性能システムバランスHWコスト
スケーラブルシステムズ株式会社
HPCマーケット
bull HPCマーケットでのHPCシステム構築及び製品は次の3つのセグメントに分かれているndash 一般商用システム( Commodity-based systems)
bull 一般のクラスタシステム(Dell HPCCなど)
ndash 付加価値システム( Value-based systems)bull 多くのSMPやNUMAシステム(SGI Altixなど)
ndash 特定目的システム( Purpose-built systems)bull アプリケーションと解析対象に合わせたシステム設計(IBM
BlueGeneLなど)
bull IDCなどのレポートでも一般商用システムのHPCマーケットでの導入がもっともその成長が大きいndash 付加価値システムの課題(一般商用システムとの競合に対する対応もしくは新たな分野の開拓rarrペタスケールコンピューティング)
ndash HPCSプログラムはこの付加価値システムのベンダーにとっても生き残りを賭けた戦い (2006July)
スケーラブルシステムズ株式会社
HPCシステムの現状分析
bull Good News
ldquoHPCシステムにおける問題はたった2つだけであるrdquo
スケーラブルシステムズ株式会社
ソフトウエアとハードウエア
bull ソフトウエアThe Law of Morehellip
ndashシステム規模とその複雑さの急速な増加拡大
ndash ソフトウエアの準備が出来た時点でハードウエアは既に陳腐化し次のシステムの導入の検討が進む
bull ハードウエアMoore‟s Law (ムーアの法則)ndash消費電力の問題のためプロセッサの動作クロックを今までのペースで上げることは困難
ndashプロセッサとメモリの性能差の拡大によるCPUサイクルとのギャップ
ndashピーク性能と実効性能のギャップの拡大
スケーラブルシステムズ株式会社
ソフトウエアThe Law of Morehellip
bull 研究者はより多くの時間(More Time)をソフトウエアの開発のために必要としている
bull 問題はより複雑(More Complex)になりそしてより多くのプロセッサ(More Processors)を利用して処理を行うにはより多くの困難(More
Difficult)が伴います
スケーラブルシステムズ株式会社
アルゴリズムの最適化
bull 計算機自身の進化と共に計算アルゴリズムも最適化されている
bull 例編微分方程式の解法ndash N=106の場合ガウスの消去法で線形方程式を解く場合と
MGでの計算では108倍の計算量が違うndash これは1Mflopssの計算機で100Tflopssの計算機に相当する計算を行ったことになる
O(N)F-cycle MG
O(N76 log(N))CGMILU
O(N43 log(N))Optimal SOR
O(N53 log(N))Gauss Seidel
O(N73)Banded Gauss Elimination
計算オペレーション数(概数)アルゴリズム
2u=f 100
100100
スケーラブルシステムズ株式会社
ソフトウエアThe Law of Morehellip
bull 一般の商用製品を活用したクラスタソリューションでは「Capacity」の実現は容易であるが「Capability」の実現については依然として課題が多いndash コストパフォーマンスの高いシステムの構築は可能だとしてもコストプロダクティビティの高いシステムの構築も課題
bull 数百~数千プロセッサ構成のシステムの利用技術と解析対象の検討ndash 小規模中規模問題の高速処理への対応ndash ソフトウエア開発の生産性
bull 数プロセッサ~数十プロセッサをより簡便に容易に利用できる技術ndash シングルプロセッサシングルスレッドを利用するのと同じようにhellip
スケーラブルシステムズ株式会社
ソフトウエアとハードウエア
bull ソフトウエアThe Law of Morehellip
ndashシステム規模とその複雑さの急速な増加拡大
ndash ソフトウエアの準備が出来た時点でハードウエアは既に陳腐化し次のシステムの導入の検討が進む
bull ハードウエアMoore‟s Law (ムーアの法則)ndash消費電力の問題のためプロセッサの動作クロックを今までのペースで上げることは困難
ndashプロセッサとメモリの性能差の拡大によるCPUサイクルとのギャップ
ndashピーク性能と実効性能のギャップの拡大
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash過去12年間でPentiumプロセッサの動作周波数は60 MHz から 3800 MHz にまでアップ
ndash現在までの高性能化の約80 はクロック周波数の向上によるもの
スケーラブルシステムズ株式会社
ハードウエアの問題Moore‟s Lawムーアの法則
bull インテルの共同設立者の1人である Gordon Moore 博士が1965年4月19日号の「Electronics」誌に投稿した 「一定面積に集積されるトランジスタの数は12か月で倍増しそれに伴いトランジスタの動作速度が向上する」という予測 (その後1975年に Moore 博士はチップの複雑化を考慮してトランジスタ数の倍増ペースを24か月に修正)
bull また一般にはあまり知られていないがテクノロジの進歩とともに製造コストが劇的に下落することも予測(左図)
httpwwwintelcojpjpdevelopertechnologysiliconmooreslawindexhtm
指数関数的成長は永遠には続かないしかしその永遠を先延ばしにすることはできる [英語 PDF 形式 2MB]
Gordon E Moore2003年2月10日ISSCC (International
Solid State Circuits Conference) でのプレゼンテーション
Dr Gordon Moore
(co-founder of Intel)
スケーラブルシステムズ株式会社
Technology Trend
ムーアの法則依然として有効
スケーラブルシステムズ株式会社
性能向上の源泉は
ハードウエアデバイス技術の進歩bull ロジック回路のスイッチング速度の向上とデバイス密度bull メモリサイズの拡大とアクセス速度の向上bull 通信性能(バンド幅とレイテンシの向上)
bull 並列性ndash 1サイクルでの命令実行数
bull 命令レベルでの並列性(ILP)
bull ベクトル処理ndash プロセッサあたりコア数ndash ノードあたりのプロセッサ数ndash システムあたりのノード数
コンピュータアーキテクチャbull 命令発行実行速度の向上
ndash パイプライン化ndash 分岐予測ndash キャッシュndash Out-of-order など
スケーラブルシステムズ株式会社
GHz競争
bull 2000年に開催されたIEEE国際電子デバイス会議2000(2000
IEEE International Electron Devices MeetingIEDM) においてインテル社は4億個以上のトランジスタを集積した10GHz駆動のプロセッサが2005年までに実現可能だと発表しましたndash 実際にはインテル社の最速プロセッサは6ヶ月前に発表された
38GHz(Intel Pentium 4)となっています
bull Prescottプロセッサの6xxシリーズ発表に際してインテル社はldquoadding value beyond GHzrdquo のコメントを出していますそれ以降インテル社の多くのドキュメントやプレスリリースはこのldquoadding value beyond GHzrdquo についての内容を含んでいます
スケーラブルシステムズ株式会社
発熱の問題が深刻化
Bob Colwell氏の資料より抜粋
Increasing Frequency
Watt
scm
2
1
10
100
1000
15 10 07 05 035 025 018 013 01 007
i386i486
PentiumPentium Pro
Pentium IIPentium III
Hot Plate
Nuclear Reactor
Rocket Nozzle
Pentium 4(Prescott)
Pentium 4(Willamette)
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash過去12年間でPentiumプロセッサの動作周波数は60 MHz から 3800 MHz にまでアップ
ndash現在までの高性能化の約80 はクロック周波数の向上によるもの
bull 命令実行の強化と最適化
ndashより強力なインストラクションセット
ndash命令実行の最適化(パイプライン化分岐予測複数命令の同時実行命令実行順序の変更など)
スケーラブルシステムズ株式会社
技術のSカーブ技術開発の進展と製品性能の成長の関係
bull 技術開発の初期は製品性能はゆっくりと向上するがしだいに性能の向上の幅が大きくなるしかし次第に技術開発が成熟段階に入ると性能向上は逓減していく
製品の性能
時間
First Technology
Second Technology
Third Technology
RISCアウトオブオーダー実行lt1 instruction cycle
スーパースカラー RISCアウトオブオーダー実行lt2 instructions cycle
明示的並列命令コンピューティング技術 (EPIC)
命令の並列実行度の向上
スケーラブルシステムズ株式会社
マイクロアーキテクチャのSカーブ
Johan De Gelas Quest for More Processing Power
AnandTech Feb 8 2005
httpwwwanandtechcomcpuchipsetsshowdocaspxi=2343
101
102
103
104
105
106
MIP
S
1980 1985 1990 1995 2000 2005 2010
Pentium Architecture
Super Scalar
Pentium Pro Architecture
Speculative Out-of-Order
Pentium 4 Architecture
Trace Cache
Pentium 4 and Xeon Architecture with HT
Multi-Threaded
Multi-Threaded Multi-Core
Era of
Instruction
Parallelism
Era of
Thread
Parallelism
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash 過去12年間でPentiumプロセッサの動作周波数は60
MHz から 3800 MHz にまでアップ
ndash 現在までの高性能化の約80 はクロック周波数の向上によるもの
bull 命令実行の強化と最適化
ndash より強力なインストラクションセット
ndash 命令実行の最適化(パイプライン化分岐予測複数命令の同時実行命令実行順序の変更など)
bull 大容量キャッシュ
ndash プロセッサの速度とメモリレイテンシ(待ち時間)とバンド幅のギャップの拡大に対する対策対応としての容量の拡張
スケーラブルシステムズ株式会社
性能ギャップの問題
bull プロセッサ速度とメモリアクセスの速度差によってプロセッサがより高速になったとしてもプロセッサはその演算能力を完全に使い切ることが出来ない
1
10
100
1000Performance
1980 1990 2000
microProc
60yr
DRAM
7yr
バンド幅とレイテンシの問題が今後はより深刻(プロセッサ性能とのギャップはほぼ年率50の差で広がっている)
DRAM
CPU
プロセッサはほぼナノ秒に一回命令実行DRAMへのアクセスはほぼ100ナノ秒の時間
スケーラブルシステムズ株式会社
今後の発展と課題
Episode IV
A New Hope
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash 過去12年間でPentiumプロセッサの動作周波数は60
MHz から 3800 MHz にまでアップ
ndash 現在までの高性能化の約80 はクロック周波数の向上によるもの
bull 命令実行の強化と最適化
ndash より強力なインストラクションセット
ndash 命令実行の最適化(パイプライン化分岐予測複数命令の同時実行命令実行順序の変更など)
bull 大容量キャッシュ
ndash プロセッサの速度とメモリレイテンシ(待ち時間)とバンド幅のギャップの拡大に対する対策対応としての容量の拡張
スケーラブルシステムズ株式会社
デュアルコアプロセッサ
bull チップ上のトランジスタのより有効活用が可能bull スレッドレベルでの並列処理を活用bull よりシンプルなプロセッサの設計が可能
bull 将来のマイクロプロセッサはより多くのコアを実装可能bull 将来のマイクロプロセッサはより大容量のキャッシュの実装が可能
IBM Power5
with 19MB L2
AMD Opteron
with 2MB L2
Intel Montecito
With 24MB L3
スケーラブルシステムズ株式会社
イノベーションのジレンマ
製品の性能
時間
First Technology
Second Technology
Third Technology
RISCアウトオブオーダー実行lt1 instruction cycle
スーパースカラー RISCアウトオブオーダー実行lt2 instructions cycle
明示的並列命令コンピューティング技術 (EPIC)
命令の並列実行度の向上
製品の性能(異なる尺度)
時間
持続的イノベーション
技術革新が顧客の求める性能向上軸(ムーアの法則)に沿っている
破壊的イノベーションマルチコアとマルチスレッドによる並列処理
短期的には(シングルスレッドの性能)としては性能が低下するが将来の大きな性能向上とコスト低下機能強化の可能性が大きい
スケーラブルシステムズ株式会社
マルチコアの利点
ワークロードの処理効率の向上
bull マルチスレッドアプリケーションndash現在多くのアプリケーション(データベース
WEB科学技術計算)はマルチスレッド化
ndashマルチコアプロセッサではこれらのアプリケーションのマルチスレッドでの実行が容易に可能
bull 複数ジョブの処理ndashシステムでは複数のワークロード同時に処理することが必要
ndashマルチコアではこれらのワークロードへの処理が可能
スケーラブルシステムズ株式会社
マルチコアの利点
消費電力あたりの性能を最大にし高性能で低消費電力のシステム構築が可能
bull OS自身のマルチスレッド対応
ndash OSのサービスもマルチスレッドで処理することでより効率よく処理することが可能
bull 仮想化
ndashサーバのセキュリティや管理の強化
ndash管理するノード数を減らし運用コストの削減を図る
bull 最新のソフトウエアテクノロジの活用
スケーラブルシステムズ株式会社
大きな変革しかし容易ではない
マルチコアプロセッシング(または汎用もしくは専用プロセッサをソケットに複数搭載可能なこと)はEthernetの誕生以来ITインフラに対しての大きなインパクトをもたらします
デュアルプロセッサは386プロセッサの発表以来性能に関して最大の向上を実現しますしかしこのような性能向上にはソフトウエアの最適化がプロセッサの性能をフルに発揮するためには必要です
スケーラブルシステムズ株式会社
並列性(Parallelism)の利用
マルチタスク処理
MPIなどによる複数のノード間での並列処理
ユーザ及びコンパイラによるスレッドレベルでの並列処理(TLP)
コンパイラによる命列実行レベルでの並列処理(ILP)
マルチコア
マルチプロセッサ
マルチノード
マルチインストラクション
システム
スケーラブルシステムズ株式会社
ムーアの法則(GHz から MC へ)
マルチコアによる性能向上
動作周波数の向上による性能向上
性能
2005
bullマルチスレッドbullマルチタスクbull トレーニングbullツールbullhelliphellip
並列処理による性能向上についてはシステムサポートやプログラミングサポートなどの面での技術支援が重要です
スケーラブルシステムズ株式会社
Episode VI
Return of the Jedi
Ts for HPC - インテルテクノロジのHPCにおける価値の考察
スケーラブルシステムズ株式会社
将来予測の難しさ
bull ldquoI think there is a world market for maybe five
computersrdquobull Thomas Watson chairman of IBM 1943
bull ldquoThere is no reason for any individual to have a
computer in their homerdquobull Ken Olson president and founder of digital equipment
corporation 1977
bull ldquoThere are only about 100 potential customers
worldwide for a Cray-1rdquobull Seymour Cray 1977
bull ldquo640K [of memory] ought to be enough for
anybodyrdquobull Bill Gates chairman of Microsoft1981
スケーラブルシステムズ株式会社
「未来を予測する最良の方法はそれを創造してしまうことである」The best way to predict future is to invent it
Dr Alan Kay President of Viewpoints Research
Institute Inc
スケーラブルシステムズ株式会社
ITマネージメントの課題
bull プラットフォームの内部からの保護ndash ウイルスやワームなど悪意あるソフトウェアからの保護
bull 資産管理ndash 多くの IT 部門では特定できない資産が問題
bull オンラインおよびリモート管理診断機能 ndash アップグレード診断復旧のための作業の効率化
bull アプリケーション統合の困難さ
ndash アプリケーションの高度化と複雑化によって複数のアプリケーションを組み合わせるての動作に問題
bull 動的なリソース割り当て
ndash 組織内で未使用のCPUやメモリの活用
スケーラブルシステムズ株式会社
マーケットトレンド
All Servers Worldwide 2003 2004 2005 20062003 to 2006
CAGR
2005 to 2006
CAGR
Total Factory Revenue($B) $46149 $49146 $51268 $52251 42 19
Units Shipped(same as nodes) 5278222 6307484 7050099 7472649 123 60
Processor Dies Shipped 8662823 10134624 11712766 12779159 138 91
HPC Technical Servers Worldwide 2003 2004 2005 20062003 to 2006
CAGR
2005 to 2006
CAGR
HPC Server Revenue($B) $5698 $7393 $9208 $10030 207 89
Adjusted Revenues(To much
enterprise)$5128 $6654 $8287 $9027 207 89
Node Units Shipped 411327 734510 1215735 1419221 511 167
Processor Elements Shipped 1002905 1657827 2681079 3351843 495 250
HPC As A Ratio Of All Servers 2003 2004 2005 2006
Revenue($B) 123 150 180 192
Adjusted Revenues(Apples-to-
apples)111 135 162 173
Units Shipped(Nodes) 78 116 172 190
Processors Shipped 116 164 226 261
Source IDC 2007
スケーラブルシステムズ株式会社
HPCマーケット(対全サーバマーケット)
0
5
10
15
20
25
30
2003 2004 2005 2006
Revenue($B)
Adjusted Revenues(Apples-to-apples)
Units Shipped(Nodes)
Processors Shipped
スケーラブルシステムズ株式会社
マーケットトレンド
Source IDC 2004
Cost of mgmt amp admin 10 CAGR
$0
$20
$40
$60
$80
$100
$120
$140
$160
$180
$200
1996 rsquo97 rsquo98 rsquo992000 rsquo01 rsquo02 rsquo03 rsquo04 rsquo05 rsquo06 rsquo07 rsquo08-
New server spending (USM$) 3 CAGR
Spending (USB$)
5
10
15
20
25
30
35
Installed Base (M Units)
bull ハードウェアの減価償却費は IT の TCO 全体の約25 にすぎない
bull ソフトウェアのコストはわずか10~15
bull 電気などの公共料金フロアスペース電話回線など設備面のコストの割合もきわめて小さい
bull プラットフォームのコストではなくTCOの大きな比率を占めるのは人件費となっている
スケーラブルシステムズ株式会社
運用管理コストの低減
bull 「もっと処理性能を」と「より安価に」を実現するためにワークステーションやサーバでの分散処理の導入
bull ユーザや企業に新たな価値をもたらしてはいるが管理責任とその負担の分散を招き結果的に運用管理コストを押し上げる
メインフレームスーパーコンピュータ
仮想化によるサーバコンソリデーション
クラスタによる仮想コンピュータ
スケーラブルシステムズ株式会社
次世代HPCインフラ
bull コアとスレッド
ndash より多くのスレッドを効率よく利用可能
ndash マルチスレッド向け最適化
bull 電力管理
ndash 省電力
ndash データセンター運用管理機能
bull 仮想化
ndash 柔軟性と優れた運用管理
ndash 仮想的なシステムパーティション
bull RAS
ndash ハードウエアベースの自己監視自己管理
ndash ファームウエアベースのエラー履歴管理
bull システム管理
ndash より低いTCOを実現するための一般標準化されたマネージメント機能
スケーラブルシステムズ株式会社
高速プロセッサ
64ビットアドレス
メモリ性能と容
量
IOバンド幅
インターコネクト
省電力
システムのlsquoバランスrsquo
マルチコアによってプロセッサ単体の処理性能の向上を図る
64ビットのアドレス空間と
拡張されたレジスタによるOSとアプリケーション双方の機能性能拡張
64ビット化とマルチコア化
にともなう高速大容量へのニーズに対応しまたその拡張性の高い実装技術の実現
CPU-メモリ間の高速な
データ転送やより高速なネットワーク大規模なストレージのサポート
大規模なクラスタシステムの構築及びアプリケーションのワークロードに対応した高速性能
エコシステムに対応するためにも電力消費量や発熱量を積極的に抑える技術の開発
スケーラブルシステムズ株式会社
HPCの二極分化
Going UP
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
Going DOWN
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
スケーラブルシステムズ株式会社
システムとユーザの尺度
bull ユーザの尺度での性能(Performance)は時間当たりにどれだけの仕事を処理出来るか(仕事量 時間)
bull Flopsでの評価は実際には意味がないまた問題の規模(small medium large) という評価も難しい
bull ldquoスケーラビリティrdquoは対象を明確に規定する必要がある
システムの尺度 ユーザの尺度
Flops hArr 計算終了までの時間
メモリサイズ(GB) hArr モデルのサイズと計算結果
プロセッサ数 hArr ワークロードでの試行
データ長 hArr 計算精度
システム構成(クラスタ) hArr 導入コストと運用コスト
スケーラビリティ hArr ベンチマーク
スケーラブルシステムズ株式会社
HPCシステムの動向国家プロジェクトと商用製品のギャップの拡大
Going UP
Going DOWN
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
Peta-Scaleコンピューティングに求められる基本技術と現在のHPCの主要マーケットでの要求はあまりにも差が大きいrarrHPCSシステムは各社とのlsquoCommodityrsquoのマイクロプロセッサではなく独自のプロセッサを開発中
ハードウエアはrsquoCommodityrsquo
なものを利用してSWの改善サポート利用技術のサポートが今後の主要マーケットでの成功の鍵となる
スケーラブルシステムズ株式会社
HPCシステムの動向国家プロジェクト
Going UP
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
Peta-Scaleコンピューティングに求められる基本技術と現在のHPCの主要マーケットでの要求はあまりにも差が大きいrarrHPCSシステムは各社とのlsquoCommodityrsquoのマイクロプロセッサではなく独自のプロセッサを開発中
スケーラブルシステムズ株式会社
TOP500性能予測
1993 1995 1997 1999 2001 2003 2005 2007 2009 2011 2013 2015
N=
50
SUM
1 Gflops
1 Tflops
100 Mflops
100 Gflops
100 Tflops
10 Gflops
10 Tflops
1 Pflops
10 Pflops
IBM ASCI White
Blue GeneEarth Simulator
Intel
TOP500の総計が1PFを超えています
TOP500に掲載されるには1TF
が最低条件になっています
シングルシステムの1PFの実現は2009年
システム(プロセッサ数) 13倍年プロセッサ性能向上 14倍年トータル性能 18倍年
2009年までに1ペタFLOPS
スケーラブルシステムズ株式会社
性能ギャップの拡大
bull ピーク性能の大幅な向上ndash 1990年台は性能の向上は102のオーダーでしたが2000年台になると103のオーダーで性能は向上しています
しかしhellipndash 多くの科学技術計算用途のアプリケーションのピーク性能に対する実効性能の比率は5-10となっています(1990年代のベクトル計算機は40-50の対ピーク性能を示していました)
bull 今必要なのはndash より高い実効性能を発揮することが可能な計算アルゴリズムと手法の開発とスケーラビリティの向上
ndash プログラミングモデルなども含めてスケーラブルな計算機環境の構築
01
1
10
100
1000
2000 2004
Tera
flo
ps
1996
Performance
Gap
Peak Performance
Real Performance
NERSC User Group Meeting June 24-25 2004
Osni Marques and Tony Drummond
Lawrence Berkeley National Laboratory
スケーラブルシステムズ株式会社
ペタスケールシステムの構築
bull ソフトウエア(アプリケーションOSプログラミングAPIなど)の課題の克服が課題
bull システムの複雑さと生産性
例Linpack Benchmark
bull オリジナルベンチマークプログラム ~100ライン
bull HPL ベンチマークプログラム ~10000ライン(x100より複雑)
lsquo複雑さrsquoの壁
現在のテラFLOPS級の問題
Source ORNL
スケーラブルシステムズ株式会社
HPCシステムの動向商用製品
Going DOWN
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
ハードウエアはrsquoCommodityrsquo
なものを利用してSWの改善サポート利用技術のサポートが今後の主要マーケットでの成功の鍵となる
スケーラブルシステムズ株式会社
標準コンポーネントの進化
bull プロセッサの性能向上ndash lsquoマルチコアrsquoによる省電力での性能向上が可能
ndash HPCアプリケーションは容易にlsquoマルチコアrsquoの利点を活用可能 (OpenMPやMPI)
bull ファイルシステムndash高性能なスケーラブルファイルシステム(オープンソース)
bull インターコネクトndash PCI-Express (メモリlarrrarrインターコネクト)
ndash高速の商用製品やオープンソースでの強力(OpenIBなど)
スケーラブルシステムズ株式会社
標準コンポーネントの利点
bull 特定のベンダーからのシステムを組み合わせるのではなく他社のシステムも含めてベストなシステムの選択が可能
ndashスケーラブルSMPベクトル計算機クラスタの幅広い選択肢
ndash 64ビットマルチコアマイクロプロセッサの性能向上を最大限に活用
bull 標準コンポーネントの技術革新の活用
ndash PCI-ExpressやFB-DIMMの利用技術
スケーラブルシステムズ株式会社
Breaking the 1-2K nodes Barrier
bull 音の障壁サウンドバリヤー(sound barrier)飛行機の速度が音速近くになると衝撃波の発生によって抵抗の増大境界層の剥離など設計運用上のさまざまな障害(壁)に出合って超音速飛行は不可能かと思われた時代があった(1947年ごろまで)ので音の障壁といわれていた
httpwwwwilk4commiscsoundbreakhtm
クラスタのノード数がある規模に近くなるとその構築や運用において負担の増大システムの安定稼動スケーラビリティなど設計運用上のさまざまな障害(壁)に出合ってクラスタ構築は不可能と思われた時代があった()
スケーラブルシステムズ株式会社
ビルゲイツ氏の基調講演HPC goes mainstream
スケーラブルシステムズ株式会社
「Fast」「Good」「Cheap」のパズル
Fast
+ Cheap
Inferior
高い性能を廉価なシステムで構築することも可能ですただそのようなシステムの場合システムの構築や利用は必ずしも容易ではありません
Good
+ Cheap
Slow比較的小規模なシステムであれば廉価で使い勝手の良いものを探すことは可能ですしかしそのようなシステムでは拡張性やより大規模なシステム構築が出来ません
Good
+ Fast
Expensive
付加価値の高い性能の高いシステムは一般には高価ですその付加価値がユーザにとってメリットが無ければコストパフォーマンスの悪いシステムになるだけです
スケーラブルシステムズ株式会社
まとめとして
bull 「テクノロジー」をどのようにとらえるかndash企業経営基盤のコア要素
ndashユーザの本質的な課題を解決する戦略的な武器
bull マーケットを牽引する「テクノロジ」に求められることndashテクノロジとHPCにおけるITインフラの関係を明確にすること
bull ユーザに何らかのメリットをもたらさない「テクノロジー」は意味を成さない
ndashテクノロジーを最適に組み合わせることで問題解決のためのソリューションの提供が可能
スケーラブルシステムズ株式会社
まとめとして
bull bdquoTs‟ for HPC - インテルテクノロジのHPCにおける価値
ndash インテルテクノロジはHPCにおいて重要な構成要素となっている
ndashそれらの構成要素を統合することでより高い価値の提供が可能となる
ndash二分化しつつあるHPCシステムにおいて「標準コ
ンポーネント」としてのプラットフォームの動向として今後もその動向には注目する必要がある
スケーラブルシステムズ株式会社
さらに詳しい情報はhellip
bull 弊社のコンサルテーションに関するご提案資料もダウンロード可能です(非公開WEBページ)別途弊社に内容等についてはお尋ねください
お問い合わせ先102-0083
東京都千代田区麹町3-5-2
BUREX麹町 8F
電話03-5875-4718
FAX03-3237-7612
E-mailbizsstccojp
httpwwwsstccojp wwwsstccojpbiz
スケーラブルシステムズ株式会社
スケーラブルシステムズ株式会社
ハイエンドコンピューティングに関するコンサルテーションとして幅広いサービスをご提供致します
このサービスを最大限に活用していただくことでコラボレーションによる「顧客志向」 のコン
サルテーションサービスをご提供できればと思っております
スケーラブルシステムズ株式会社
社名製品名などは一般に各社の商標または登録商標です無断での引用転載を禁じます
In general the name of the company and the product name etc are the trademarks or registered trademarks of each company
Copyright Scalable Systems Co Ltd 2005 Unauthorized use is strictly forbidden
2005年11月
スケーラブルシステムズ株式会社
クラスタシステムの台頭
2000-2005
スケーラブルシステムズ株式会社
課題
Episode III
Revenge of the sith
スケーラブルシステムズ株式会社
HPCの現状
Going UP Going DOWN
システムの規模解析モデルのサイズ運用管理の複雑さbull電力bullスペースbullシステムの相互接続bull管理コスト
生産性bullプログラミングbullシステムの可用性bull実効性能ピーク性能システムバランスHWコスト
スケーラブルシステムズ株式会社
HPCマーケット
bull HPCマーケットでのHPCシステム構築及び製品は次の3つのセグメントに分かれているndash 一般商用システム( Commodity-based systems)
bull 一般のクラスタシステム(Dell HPCCなど)
ndash 付加価値システム( Value-based systems)bull 多くのSMPやNUMAシステム(SGI Altixなど)
ndash 特定目的システム( Purpose-built systems)bull アプリケーションと解析対象に合わせたシステム設計(IBM
BlueGeneLなど)
bull IDCなどのレポートでも一般商用システムのHPCマーケットでの導入がもっともその成長が大きいndash 付加価値システムの課題(一般商用システムとの競合に対する対応もしくは新たな分野の開拓rarrペタスケールコンピューティング)
ndash HPCSプログラムはこの付加価値システムのベンダーにとっても生き残りを賭けた戦い (2006July)
スケーラブルシステムズ株式会社
HPCシステムの現状分析
bull Good News
ldquoHPCシステムにおける問題はたった2つだけであるrdquo
スケーラブルシステムズ株式会社
ソフトウエアとハードウエア
bull ソフトウエアThe Law of Morehellip
ndashシステム規模とその複雑さの急速な増加拡大
ndash ソフトウエアの準備が出来た時点でハードウエアは既に陳腐化し次のシステムの導入の検討が進む
bull ハードウエアMoore‟s Law (ムーアの法則)ndash消費電力の問題のためプロセッサの動作クロックを今までのペースで上げることは困難
ndashプロセッサとメモリの性能差の拡大によるCPUサイクルとのギャップ
ndashピーク性能と実効性能のギャップの拡大
スケーラブルシステムズ株式会社
ソフトウエアThe Law of Morehellip
bull 研究者はより多くの時間(More Time)をソフトウエアの開発のために必要としている
bull 問題はより複雑(More Complex)になりそしてより多くのプロセッサ(More Processors)を利用して処理を行うにはより多くの困難(More
Difficult)が伴います
スケーラブルシステムズ株式会社
アルゴリズムの最適化
bull 計算機自身の進化と共に計算アルゴリズムも最適化されている
bull 例編微分方程式の解法ndash N=106の場合ガウスの消去法で線形方程式を解く場合と
MGでの計算では108倍の計算量が違うndash これは1Mflopssの計算機で100Tflopssの計算機に相当する計算を行ったことになる
O(N)F-cycle MG
O(N76 log(N))CGMILU
O(N43 log(N))Optimal SOR
O(N53 log(N))Gauss Seidel
O(N73)Banded Gauss Elimination
計算オペレーション数(概数)アルゴリズム
2u=f 100
100100
スケーラブルシステムズ株式会社
ソフトウエアThe Law of Morehellip
bull 一般の商用製品を活用したクラスタソリューションでは「Capacity」の実現は容易であるが「Capability」の実現については依然として課題が多いndash コストパフォーマンスの高いシステムの構築は可能だとしてもコストプロダクティビティの高いシステムの構築も課題
bull 数百~数千プロセッサ構成のシステムの利用技術と解析対象の検討ndash 小規模中規模問題の高速処理への対応ndash ソフトウエア開発の生産性
bull 数プロセッサ~数十プロセッサをより簡便に容易に利用できる技術ndash シングルプロセッサシングルスレッドを利用するのと同じようにhellip
スケーラブルシステムズ株式会社
ソフトウエアとハードウエア
bull ソフトウエアThe Law of Morehellip
ndashシステム規模とその複雑さの急速な増加拡大
ndash ソフトウエアの準備が出来た時点でハードウエアは既に陳腐化し次のシステムの導入の検討が進む
bull ハードウエアMoore‟s Law (ムーアの法則)ndash消費電力の問題のためプロセッサの動作クロックを今までのペースで上げることは困難
ndashプロセッサとメモリの性能差の拡大によるCPUサイクルとのギャップ
ndashピーク性能と実効性能のギャップの拡大
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash過去12年間でPentiumプロセッサの動作周波数は60 MHz から 3800 MHz にまでアップ
ndash現在までの高性能化の約80 はクロック周波数の向上によるもの
スケーラブルシステムズ株式会社
ハードウエアの問題Moore‟s Lawムーアの法則
bull インテルの共同設立者の1人である Gordon Moore 博士が1965年4月19日号の「Electronics」誌に投稿した 「一定面積に集積されるトランジスタの数は12か月で倍増しそれに伴いトランジスタの動作速度が向上する」という予測 (その後1975年に Moore 博士はチップの複雑化を考慮してトランジスタ数の倍増ペースを24か月に修正)
bull また一般にはあまり知られていないがテクノロジの進歩とともに製造コストが劇的に下落することも予測(左図)
httpwwwintelcojpjpdevelopertechnologysiliconmooreslawindexhtm
指数関数的成長は永遠には続かないしかしその永遠を先延ばしにすることはできる [英語 PDF 形式 2MB]
Gordon E Moore2003年2月10日ISSCC (International
Solid State Circuits Conference) でのプレゼンテーション
Dr Gordon Moore
(co-founder of Intel)
スケーラブルシステムズ株式会社
Technology Trend
ムーアの法則依然として有効
スケーラブルシステムズ株式会社
性能向上の源泉は
ハードウエアデバイス技術の進歩bull ロジック回路のスイッチング速度の向上とデバイス密度bull メモリサイズの拡大とアクセス速度の向上bull 通信性能(バンド幅とレイテンシの向上)
bull 並列性ndash 1サイクルでの命令実行数
bull 命令レベルでの並列性(ILP)
bull ベクトル処理ndash プロセッサあたりコア数ndash ノードあたりのプロセッサ数ndash システムあたりのノード数
コンピュータアーキテクチャbull 命令発行実行速度の向上
ndash パイプライン化ndash 分岐予測ndash キャッシュndash Out-of-order など
スケーラブルシステムズ株式会社
GHz競争
bull 2000年に開催されたIEEE国際電子デバイス会議2000(2000
IEEE International Electron Devices MeetingIEDM) においてインテル社は4億個以上のトランジスタを集積した10GHz駆動のプロセッサが2005年までに実現可能だと発表しましたndash 実際にはインテル社の最速プロセッサは6ヶ月前に発表された
38GHz(Intel Pentium 4)となっています
bull Prescottプロセッサの6xxシリーズ発表に際してインテル社はldquoadding value beyond GHzrdquo のコメントを出していますそれ以降インテル社の多くのドキュメントやプレスリリースはこのldquoadding value beyond GHzrdquo についての内容を含んでいます
スケーラブルシステムズ株式会社
発熱の問題が深刻化
Bob Colwell氏の資料より抜粋
Increasing Frequency
Watt
scm
2
1
10
100
1000
15 10 07 05 035 025 018 013 01 007
i386i486
PentiumPentium Pro
Pentium IIPentium III
Hot Plate
Nuclear Reactor
Rocket Nozzle
Pentium 4(Prescott)
Pentium 4(Willamette)
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash過去12年間でPentiumプロセッサの動作周波数は60 MHz から 3800 MHz にまでアップ
ndash現在までの高性能化の約80 はクロック周波数の向上によるもの
bull 命令実行の強化と最適化
ndashより強力なインストラクションセット
ndash命令実行の最適化(パイプライン化分岐予測複数命令の同時実行命令実行順序の変更など)
スケーラブルシステムズ株式会社
技術のSカーブ技術開発の進展と製品性能の成長の関係
bull 技術開発の初期は製品性能はゆっくりと向上するがしだいに性能の向上の幅が大きくなるしかし次第に技術開発が成熟段階に入ると性能向上は逓減していく
製品の性能
時間
First Technology
Second Technology
Third Technology
RISCアウトオブオーダー実行lt1 instruction cycle
スーパースカラー RISCアウトオブオーダー実行lt2 instructions cycle
明示的並列命令コンピューティング技術 (EPIC)
命令の並列実行度の向上
スケーラブルシステムズ株式会社
マイクロアーキテクチャのSカーブ
Johan De Gelas Quest for More Processing Power
AnandTech Feb 8 2005
httpwwwanandtechcomcpuchipsetsshowdocaspxi=2343
101
102
103
104
105
106
MIP
S
1980 1985 1990 1995 2000 2005 2010
Pentium Architecture
Super Scalar
Pentium Pro Architecture
Speculative Out-of-Order
Pentium 4 Architecture
Trace Cache
Pentium 4 and Xeon Architecture with HT
Multi-Threaded
Multi-Threaded Multi-Core
Era of
Instruction
Parallelism
Era of
Thread
Parallelism
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash 過去12年間でPentiumプロセッサの動作周波数は60
MHz から 3800 MHz にまでアップ
ndash 現在までの高性能化の約80 はクロック周波数の向上によるもの
bull 命令実行の強化と最適化
ndash より強力なインストラクションセット
ndash 命令実行の最適化(パイプライン化分岐予測複数命令の同時実行命令実行順序の変更など)
bull 大容量キャッシュ
ndash プロセッサの速度とメモリレイテンシ(待ち時間)とバンド幅のギャップの拡大に対する対策対応としての容量の拡張
スケーラブルシステムズ株式会社
性能ギャップの問題
bull プロセッサ速度とメモリアクセスの速度差によってプロセッサがより高速になったとしてもプロセッサはその演算能力を完全に使い切ることが出来ない
1
10
100
1000Performance
1980 1990 2000
microProc
60yr
DRAM
7yr
バンド幅とレイテンシの問題が今後はより深刻(プロセッサ性能とのギャップはほぼ年率50の差で広がっている)
DRAM
CPU
プロセッサはほぼナノ秒に一回命令実行DRAMへのアクセスはほぼ100ナノ秒の時間
スケーラブルシステムズ株式会社
今後の発展と課題
Episode IV
A New Hope
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash 過去12年間でPentiumプロセッサの動作周波数は60
MHz から 3800 MHz にまでアップ
ndash 現在までの高性能化の約80 はクロック周波数の向上によるもの
bull 命令実行の強化と最適化
ndash より強力なインストラクションセット
ndash 命令実行の最適化(パイプライン化分岐予測複数命令の同時実行命令実行順序の変更など)
bull 大容量キャッシュ
ndash プロセッサの速度とメモリレイテンシ(待ち時間)とバンド幅のギャップの拡大に対する対策対応としての容量の拡張
スケーラブルシステムズ株式会社
デュアルコアプロセッサ
bull チップ上のトランジスタのより有効活用が可能bull スレッドレベルでの並列処理を活用bull よりシンプルなプロセッサの設計が可能
bull 将来のマイクロプロセッサはより多くのコアを実装可能bull 将来のマイクロプロセッサはより大容量のキャッシュの実装が可能
IBM Power5
with 19MB L2
AMD Opteron
with 2MB L2
Intel Montecito
With 24MB L3
スケーラブルシステムズ株式会社
イノベーションのジレンマ
製品の性能
時間
First Technology
Second Technology
Third Technology
RISCアウトオブオーダー実行lt1 instruction cycle
スーパースカラー RISCアウトオブオーダー実行lt2 instructions cycle
明示的並列命令コンピューティング技術 (EPIC)
命令の並列実行度の向上
製品の性能(異なる尺度)
時間
持続的イノベーション
技術革新が顧客の求める性能向上軸(ムーアの法則)に沿っている
破壊的イノベーションマルチコアとマルチスレッドによる並列処理
短期的には(シングルスレッドの性能)としては性能が低下するが将来の大きな性能向上とコスト低下機能強化の可能性が大きい
スケーラブルシステムズ株式会社
マルチコアの利点
ワークロードの処理効率の向上
bull マルチスレッドアプリケーションndash現在多くのアプリケーション(データベース
WEB科学技術計算)はマルチスレッド化
ndashマルチコアプロセッサではこれらのアプリケーションのマルチスレッドでの実行が容易に可能
bull 複数ジョブの処理ndashシステムでは複数のワークロード同時に処理することが必要
ndashマルチコアではこれらのワークロードへの処理が可能
スケーラブルシステムズ株式会社
マルチコアの利点
消費電力あたりの性能を最大にし高性能で低消費電力のシステム構築が可能
bull OS自身のマルチスレッド対応
ndash OSのサービスもマルチスレッドで処理することでより効率よく処理することが可能
bull 仮想化
ndashサーバのセキュリティや管理の強化
ndash管理するノード数を減らし運用コストの削減を図る
bull 最新のソフトウエアテクノロジの活用
スケーラブルシステムズ株式会社
大きな変革しかし容易ではない
マルチコアプロセッシング(または汎用もしくは専用プロセッサをソケットに複数搭載可能なこと)はEthernetの誕生以来ITインフラに対しての大きなインパクトをもたらします
デュアルプロセッサは386プロセッサの発表以来性能に関して最大の向上を実現しますしかしこのような性能向上にはソフトウエアの最適化がプロセッサの性能をフルに発揮するためには必要です
スケーラブルシステムズ株式会社
並列性(Parallelism)の利用
マルチタスク処理
MPIなどによる複数のノード間での並列処理
ユーザ及びコンパイラによるスレッドレベルでの並列処理(TLP)
コンパイラによる命列実行レベルでの並列処理(ILP)
マルチコア
マルチプロセッサ
マルチノード
マルチインストラクション
システム
スケーラブルシステムズ株式会社
ムーアの法則(GHz から MC へ)
マルチコアによる性能向上
動作周波数の向上による性能向上
性能
2005
bullマルチスレッドbullマルチタスクbull トレーニングbullツールbullhelliphellip
並列処理による性能向上についてはシステムサポートやプログラミングサポートなどの面での技術支援が重要です
スケーラブルシステムズ株式会社
Episode VI
Return of the Jedi
Ts for HPC - インテルテクノロジのHPCにおける価値の考察
スケーラブルシステムズ株式会社
将来予測の難しさ
bull ldquoI think there is a world market for maybe five
computersrdquobull Thomas Watson chairman of IBM 1943
bull ldquoThere is no reason for any individual to have a
computer in their homerdquobull Ken Olson president and founder of digital equipment
corporation 1977
bull ldquoThere are only about 100 potential customers
worldwide for a Cray-1rdquobull Seymour Cray 1977
bull ldquo640K [of memory] ought to be enough for
anybodyrdquobull Bill Gates chairman of Microsoft1981
スケーラブルシステムズ株式会社
「未来を予測する最良の方法はそれを創造してしまうことである」The best way to predict future is to invent it
Dr Alan Kay President of Viewpoints Research
Institute Inc
スケーラブルシステムズ株式会社
ITマネージメントの課題
bull プラットフォームの内部からの保護ndash ウイルスやワームなど悪意あるソフトウェアからの保護
bull 資産管理ndash 多くの IT 部門では特定できない資産が問題
bull オンラインおよびリモート管理診断機能 ndash アップグレード診断復旧のための作業の効率化
bull アプリケーション統合の困難さ
ndash アプリケーションの高度化と複雑化によって複数のアプリケーションを組み合わせるての動作に問題
bull 動的なリソース割り当て
ndash 組織内で未使用のCPUやメモリの活用
スケーラブルシステムズ株式会社
マーケットトレンド
All Servers Worldwide 2003 2004 2005 20062003 to 2006
CAGR
2005 to 2006
CAGR
Total Factory Revenue($B) $46149 $49146 $51268 $52251 42 19
Units Shipped(same as nodes) 5278222 6307484 7050099 7472649 123 60
Processor Dies Shipped 8662823 10134624 11712766 12779159 138 91
HPC Technical Servers Worldwide 2003 2004 2005 20062003 to 2006
CAGR
2005 to 2006
CAGR
HPC Server Revenue($B) $5698 $7393 $9208 $10030 207 89
Adjusted Revenues(To much
enterprise)$5128 $6654 $8287 $9027 207 89
Node Units Shipped 411327 734510 1215735 1419221 511 167
Processor Elements Shipped 1002905 1657827 2681079 3351843 495 250
HPC As A Ratio Of All Servers 2003 2004 2005 2006
Revenue($B) 123 150 180 192
Adjusted Revenues(Apples-to-
apples)111 135 162 173
Units Shipped(Nodes) 78 116 172 190
Processors Shipped 116 164 226 261
Source IDC 2007
スケーラブルシステムズ株式会社
HPCマーケット(対全サーバマーケット)
0
5
10
15
20
25
30
2003 2004 2005 2006
Revenue($B)
Adjusted Revenues(Apples-to-apples)
Units Shipped(Nodes)
Processors Shipped
スケーラブルシステムズ株式会社
マーケットトレンド
Source IDC 2004
Cost of mgmt amp admin 10 CAGR
$0
$20
$40
$60
$80
$100
$120
$140
$160
$180
$200
1996 rsquo97 rsquo98 rsquo992000 rsquo01 rsquo02 rsquo03 rsquo04 rsquo05 rsquo06 rsquo07 rsquo08-
New server spending (USM$) 3 CAGR
Spending (USB$)
5
10
15
20
25
30
35
Installed Base (M Units)
bull ハードウェアの減価償却費は IT の TCO 全体の約25 にすぎない
bull ソフトウェアのコストはわずか10~15
bull 電気などの公共料金フロアスペース電話回線など設備面のコストの割合もきわめて小さい
bull プラットフォームのコストではなくTCOの大きな比率を占めるのは人件費となっている
スケーラブルシステムズ株式会社
運用管理コストの低減
bull 「もっと処理性能を」と「より安価に」を実現するためにワークステーションやサーバでの分散処理の導入
bull ユーザや企業に新たな価値をもたらしてはいるが管理責任とその負担の分散を招き結果的に運用管理コストを押し上げる
メインフレームスーパーコンピュータ
仮想化によるサーバコンソリデーション
クラスタによる仮想コンピュータ
スケーラブルシステムズ株式会社
次世代HPCインフラ
bull コアとスレッド
ndash より多くのスレッドを効率よく利用可能
ndash マルチスレッド向け最適化
bull 電力管理
ndash 省電力
ndash データセンター運用管理機能
bull 仮想化
ndash 柔軟性と優れた運用管理
ndash 仮想的なシステムパーティション
bull RAS
ndash ハードウエアベースの自己監視自己管理
ndash ファームウエアベースのエラー履歴管理
bull システム管理
ndash より低いTCOを実現するための一般標準化されたマネージメント機能
スケーラブルシステムズ株式会社
高速プロセッサ
64ビットアドレス
メモリ性能と容
量
IOバンド幅
インターコネクト
省電力
システムのlsquoバランスrsquo
マルチコアによってプロセッサ単体の処理性能の向上を図る
64ビットのアドレス空間と
拡張されたレジスタによるOSとアプリケーション双方の機能性能拡張
64ビット化とマルチコア化
にともなう高速大容量へのニーズに対応しまたその拡張性の高い実装技術の実現
CPU-メモリ間の高速な
データ転送やより高速なネットワーク大規模なストレージのサポート
大規模なクラスタシステムの構築及びアプリケーションのワークロードに対応した高速性能
エコシステムに対応するためにも電力消費量や発熱量を積極的に抑える技術の開発
スケーラブルシステムズ株式会社
HPCの二極分化
Going UP
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
Going DOWN
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
スケーラブルシステムズ株式会社
システムとユーザの尺度
bull ユーザの尺度での性能(Performance)は時間当たりにどれだけの仕事を処理出来るか(仕事量 時間)
bull Flopsでの評価は実際には意味がないまた問題の規模(small medium large) という評価も難しい
bull ldquoスケーラビリティrdquoは対象を明確に規定する必要がある
システムの尺度 ユーザの尺度
Flops hArr 計算終了までの時間
メモリサイズ(GB) hArr モデルのサイズと計算結果
プロセッサ数 hArr ワークロードでの試行
データ長 hArr 計算精度
システム構成(クラスタ) hArr 導入コストと運用コスト
スケーラビリティ hArr ベンチマーク
スケーラブルシステムズ株式会社
HPCシステムの動向国家プロジェクトと商用製品のギャップの拡大
Going UP
Going DOWN
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
Peta-Scaleコンピューティングに求められる基本技術と現在のHPCの主要マーケットでの要求はあまりにも差が大きいrarrHPCSシステムは各社とのlsquoCommodityrsquoのマイクロプロセッサではなく独自のプロセッサを開発中
ハードウエアはrsquoCommodityrsquo
なものを利用してSWの改善サポート利用技術のサポートが今後の主要マーケットでの成功の鍵となる
スケーラブルシステムズ株式会社
HPCシステムの動向国家プロジェクト
Going UP
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
Peta-Scaleコンピューティングに求められる基本技術と現在のHPCの主要マーケットでの要求はあまりにも差が大きいrarrHPCSシステムは各社とのlsquoCommodityrsquoのマイクロプロセッサではなく独自のプロセッサを開発中
スケーラブルシステムズ株式会社
TOP500性能予測
1993 1995 1997 1999 2001 2003 2005 2007 2009 2011 2013 2015
N=
50
SUM
1 Gflops
1 Tflops
100 Mflops
100 Gflops
100 Tflops
10 Gflops
10 Tflops
1 Pflops
10 Pflops
IBM ASCI White
Blue GeneEarth Simulator
Intel
TOP500の総計が1PFを超えています
TOP500に掲載されるには1TF
が最低条件になっています
シングルシステムの1PFの実現は2009年
システム(プロセッサ数) 13倍年プロセッサ性能向上 14倍年トータル性能 18倍年
2009年までに1ペタFLOPS
スケーラブルシステムズ株式会社
性能ギャップの拡大
bull ピーク性能の大幅な向上ndash 1990年台は性能の向上は102のオーダーでしたが2000年台になると103のオーダーで性能は向上しています
しかしhellipndash 多くの科学技術計算用途のアプリケーションのピーク性能に対する実効性能の比率は5-10となっています(1990年代のベクトル計算機は40-50の対ピーク性能を示していました)
bull 今必要なのはndash より高い実効性能を発揮することが可能な計算アルゴリズムと手法の開発とスケーラビリティの向上
ndash プログラミングモデルなども含めてスケーラブルな計算機環境の構築
01
1
10
100
1000
2000 2004
Tera
flo
ps
1996
Performance
Gap
Peak Performance
Real Performance
NERSC User Group Meeting June 24-25 2004
Osni Marques and Tony Drummond
Lawrence Berkeley National Laboratory
スケーラブルシステムズ株式会社
ペタスケールシステムの構築
bull ソフトウエア(アプリケーションOSプログラミングAPIなど)の課題の克服が課題
bull システムの複雑さと生産性
例Linpack Benchmark
bull オリジナルベンチマークプログラム ~100ライン
bull HPL ベンチマークプログラム ~10000ライン(x100より複雑)
lsquo複雑さrsquoの壁
現在のテラFLOPS級の問題
Source ORNL
スケーラブルシステムズ株式会社
HPCシステムの動向商用製品
Going DOWN
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
ハードウエアはrsquoCommodityrsquo
なものを利用してSWの改善サポート利用技術のサポートが今後の主要マーケットでの成功の鍵となる
スケーラブルシステムズ株式会社
標準コンポーネントの進化
bull プロセッサの性能向上ndash lsquoマルチコアrsquoによる省電力での性能向上が可能
ndash HPCアプリケーションは容易にlsquoマルチコアrsquoの利点を活用可能 (OpenMPやMPI)
bull ファイルシステムndash高性能なスケーラブルファイルシステム(オープンソース)
bull インターコネクトndash PCI-Express (メモリlarrrarrインターコネクト)
ndash高速の商用製品やオープンソースでの強力(OpenIBなど)
スケーラブルシステムズ株式会社
標準コンポーネントの利点
bull 特定のベンダーからのシステムを組み合わせるのではなく他社のシステムも含めてベストなシステムの選択が可能
ndashスケーラブルSMPベクトル計算機クラスタの幅広い選択肢
ndash 64ビットマルチコアマイクロプロセッサの性能向上を最大限に活用
bull 標準コンポーネントの技術革新の活用
ndash PCI-ExpressやFB-DIMMの利用技術
スケーラブルシステムズ株式会社
Breaking the 1-2K nodes Barrier
bull 音の障壁サウンドバリヤー(sound barrier)飛行機の速度が音速近くになると衝撃波の発生によって抵抗の増大境界層の剥離など設計運用上のさまざまな障害(壁)に出合って超音速飛行は不可能かと思われた時代があった(1947年ごろまで)ので音の障壁といわれていた
httpwwwwilk4commiscsoundbreakhtm
クラスタのノード数がある規模に近くなるとその構築や運用において負担の増大システムの安定稼動スケーラビリティなど設計運用上のさまざまな障害(壁)に出合ってクラスタ構築は不可能と思われた時代があった()
スケーラブルシステムズ株式会社
ビルゲイツ氏の基調講演HPC goes mainstream
スケーラブルシステムズ株式会社
「Fast」「Good」「Cheap」のパズル
Fast
+ Cheap
Inferior
高い性能を廉価なシステムで構築することも可能ですただそのようなシステムの場合システムの構築や利用は必ずしも容易ではありません
Good
+ Cheap
Slow比較的小規模なシステムであれば廉価で使い勝手の良いものを探すことは可能ですしかしそのようなシステムでは拡張性やより大規模なシステム構築が出来ません
Good
+ Fast
Expensive
付加価値の高い性能の高いシステムは一般には高価ですその付加価値がユーザにとってメリットが無ければコストパフォーマンスの悪いシステムになるだけです
スケーラブルシステムズ株式会社
まとめとして
bull 「テクノロジー」をどのようにとらえるかndash企業経営基盤のコア要素
ndashユーザの本質的な課題を解決する戦略的な武器
bull マーケットを牽引する「テクノロジ」に求められることndashテクノロジとHPCにおけるITインフラの関係を明確にすること
bull ユーザに何らかのメリットをもたらさない「テクノロジー」は意味を成さない
ndashテクノロジーを最適に組み合わせることで問題解決のためのソリューションの提供が可能
スケーラブルシステムズ株式会社
まとめとして
bull bdquoTs‟ for HPC - インテルテクノロジのHPCにおける価値
ndash インテルテクノロジはHPCにおいて重要な構成要素となっている
ndashそれらの構成要素を統合することでより高い価値の提供が可能となる
ndash二分化しつつあるHPCシステムにおいて「標準コ
ンポーネント」としてのプラットフォームの動向として今後もその動向には注目する必要がある
スケーラブルシステムズ株式会社
さらに詳しい情報はhellip
bull 弊社のコンサルテーションに関するご提案資料もダウンロード可能です(非公開WEBページ)別途弊社に内容等についてはお尋ねください
お問い合わせ先102-0083
東京都千代田区麹町3-5-2
BUREX麹町 8F
電話03-5875-4718
FAX03-3237-7612
E-mailbizsstccojp
httpwwwsstccojp wwwsstccojpbiz
スケーラブルシステムズ株式会社
スケーラブルシステムズ株式会社
ハイエンドコンピューティングに関するコンサルテーションとして幅広いサービスをご提供致します
このサービスを最大限に活用していただくことでコラボレーションによる「顧客志向」 のコン
サルテーションサービスをご提供できればと思っております
スケーラブルシステムズ株式会社
社名製品名などは一般に各社の商標または登録商標です無断での引用転載を禁じます
In general the name of the company and the product name etc are the trademarks or registered trademarks of each company
Copyright Scalable Systems Co Ltd 2005 Unauthorized use is strictly forbidden
2005年11月
スケーラブルシステムズ株式会社
課題
Episode III
Revenge of the sith
スケーラブルシステムズ株式会社
HPCの現状
Going UP Going DOWN
システムの規模解析モデルのサイズ運用管理の複雑さbull電力bullスペースbullシステムの相互接続bull管理コスト
生産性bullプログラミングbullシステムの可用性bull実効性能ピーク性能システムバランスHWコスト
スケーラブルシステムズ株式会社
HPCマーケット
bull HPCマーケットでのHPCシステム構築及び製品は次の3つのセグメントに分かれているndash 一般商用システム( Commodity-based systems)
bull 一般のクラスタシステム(Dell HPCCなど)
ndash 付加価値システム( Value-based systems)bull 多くのSMPやNUMAシステム(SGI Altixなど)
ndash 特定目的システム( Purpose-built systems)bull アプリケーションと解析対象に合わせたシステム設計(IBM
BlueGeneLなど)
bull IDCなどのレポートでも一般商用システムのHPCマーケットでの導入がもっともその成長が大きいndash 付加価値システムの課題(一般商用システムとの競合に対する対応もしくは新たな分野の開拓rarrペタスケールコンピューティング)
ndash HPCSプログラムはこの付加価値システムのベンダーにとっても生き残りを賭けた戦い (2006July)
スケーラブルシステムズ株式会社
HPCシステムの現状分析
bull Good News
ldquoHPCシステムにおける問題はたった2つだけであるrdquo
スケーラブルシステムズ株式会社
ソフトウエアとハードウエア
bull ソフトウエアThe Law of Morehellip
ndashシステム規模とその複雑さの急速な増加拡大
ndash ソフトウエアの準備が出来た時点でハードウエアは既に陳腐化し次のシステムの導入の検討が進む
bull ハードウエアMoore‟s Law (ムーアの法則)ndash消費電力の問題のためプロセッサの動作クロックを今までのペースで上げることは困難
ndashプロセッサとメモリの性能差の拡大によるCPUサイクルとのギャップ
ndashピーク性能と実効性能のギャップの拡大
スケーラブルシステムズ株式会社
ソフトウエアThe Law of Morehellip
bull 研究者はより多くの時間(More Time)をソフトウエアの開発のために必要としている
bull 問題はより複雑(More Complex)になりそしてより多くのプロセッサ(More Processors)を利用して処理を行うにはより多くの困難(More
Difficult)が伴います
スケーラブルシステムズ株式会社
アルゴリズムの最適化
bull 計算機自身の進化と共に計算アルゴリズムも最適化されている
bull 例編微分方程式の解法ndash N=106の場合ガウスの消去法で線形方程式を解く場合と
MGでの計算では108倍の計算量が違うndash これは1Mflopssの計算機で100Tflopssの計算機に相当する計算を行ったことになる
O(N)F-cycle MG
O(N76 log(N))CGMILU
O(N43 log(N))Optimal SOR
O(N53 log(N))Gauss Seidel
O(N73)Banded Gauss Elimination
計算オペレーション数(概数)アルゴリズム
2u=f 100
100100
スケーラブルシステムズ株式会社
ソフトウエアThe Law of Morehellip
bull 一般の商用製品を活用したクラスタソリューションでは「Capacity」の実現は容易であるが「Capability」の実現については依然として課題が多いndash コストパフォーマンスの高いシステムの構築は可能だとしてもコストプロダクティビティの高いシステムの構築も課題
bull 数百~数千プロセッサ構成のシステムの利用技術と解析対象の検討ndash 小規模中規模問題の高速処理への対応ndash ソフトウエア開発の生産性
bull 数プロセッサ~数十プロセッサをより簡便に容易に利用できる技術ndash シングルプロセッサシングルスレッドを利用するのと同じようにhellip
スケーラブルシステムズ株式会社
ソフトウエアとハードウエア
bull ソフトウエアThe Law of Morehellip
ndashシステム規模とその複雑さの急速な増加拡大
ndash ソフトウエアの準備が出来た時点でハードウエアは既に陳腐化し次のシステムの導入の検討が進む
bull ハードウエアMoore‟s Law (ムーアの法則)ndash消費電力の問題のためプロセッサの動作クロックを今までのペースで上げることは困難
ndashプロセッサとメモリの性能差の拡大によるCPUサイクルとのギャップ
ndashピーク性能と実効性能のギャップの拡大
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash過去12年間でPentiumプロセッサの動作周波数は60 MHz から 3800 MHz にまでアップ
ndash現在までの高性能化の約80 はクロック周波数の向上によるもの
スケーラブルシステムズ株式会社
ハードウエアの問題Moore‟s Lawムーアの法則
bull インテルの共同設立者の1人である Gordon Moore 博士が1965年4月19日号の「Electronics」誌に投稿した 「一定面積に集積されるトランジスタの数は12か月で倍増しそれに伴いトランジスタの動作速度が向上する」という予測 (その後1975年に Moore 博士はチップの複雑化を考慮してトランジスタ数の倍増ペースを24か月に修正)
bull また一般にはあまり知られていないがテクノロジの進歩とともに製造コストが劇的に下落することも予測(左図)
httpwwwintelcojpjpdevelopertechnologysiliconmooreslawindexhtm
指数関数的成長は永遠には続かないしかしその永遠を先延ばしにすることはできる [英語 PDF 形式 2MB]
Gordon E Moore2003年2月10日ISSCC (International
Solid State Circuits Conference) でのプレゼンテーション
Dr Gordon Moore
(co-founder of Intel)
スケーラブルシステムズ株式会社
Technology Trend
ムーアの法則依然として有効
スケーラブルシステムズ株式会社
性能向上の源泉は
ハードウエアデバイス技術の進歩bull ロジック回路のスイッチング速度の向上とデバイス密度bull メモリサイズの拡大とアクセス速度の向上bull 通信性能(バンド幅とレイテンシの向上)
bull 並列性ndash 1サイクルでの命令実行数
bull 命令レベルでの並列性(ILP)
bull ベクトル処理ndash プロセッサあたりコア数ndash ノードあたりのプロセッサ数ndash システムあたりのノード数
コンピュータアーキテクチャbull 命令発行実行速度の向上
ndash パイプライン化ndash 分岐予測ndash キャッシュndash Out-of-order など
スケーラブルシステムズ株式会社
GHz競争
bull 2000年に開催されたIEEE国際電子デバイス会議2000(2000
IEEE International Electron Devices MeetingIEDM) においてインテル社は4億個以上のトランジスタを集積した10GHz駆動のプロセッサが2005年までに実現可能だと発表しましたndash 実際にはインテル社の最速プロセッサは6ヶ月前に発表された
38GHz(Intel Pentium 4)となっています
bull Prescottプロセッサの6xxシリーズ発表に際してインテル社はldquoadding value beyond GHzrdquo のコメントを出していますそれ以降インテル社の多くのドキュメントやプレスリリースはこのldquoadding value beyond GHzrdquo についての内容を含んでいます
スケーラブルシステムズ株式会社
発熱の問題が深刻化
Bob Colwell氏の資料より抜粋
Increasing Frequency
Watt
scm
2
1
10
100
1000
15 10 07 05 035 025 018 013 01 007
i386i486
PentiumPentium Pro
Pentium IIPentium III
Hot Plate
Nuclear Reactor
Rocket Nozzle
Pentium 4(Prescott)
Pentium 4(Willamette)
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash過去12年間でPentiumプロセッサの動作周波数は60 MHz から 3800 MHz にまでアップ
ndash現在までの高性能化の約80 はクロック周波数の向上によるもの
bull 命令実行の強化と最適化
ndashより強力なインストラクションセット
ndash命令実行の最適化(パイプライン化分岐予測複数命令の同時実行命令実行順序の変更など)
スケーラブルシステムズ株式会社
技術のSカーブ技術開発の進展と製品性能の成長の関係
bull 技術開発の初期は製品性能はゆっくりと向上するがしだいに性能の向上の幅が大きくなるしかし次第に技術開発が成熟段階に入ると性能向上は逓減していく
製品の性能
時間
First Technology
Second Technology
Third Technology
RISCアウトオブオーダー実行lt1 instruction cycle
スーパースカラー RISCアウトオブオーダー実行lt2 instructions cycle
明示的並列命令コンピューティング技術 (EPIC)
命令の並列実行度の向上
スケーラブルシステムズ株式会社
マイクロアーキテクチャのSカーブ
Johan De Gelas Quest for More Processing Power
AnandTech Feb 8 2005
httpwwwanandtechcomcpuchipsetsshowdocaspxi=2343
101
102
103
104
105
106
MIP
S
1980 1985 1990 1995 2000 2005 2010
Pentium Architecture
Super Scalar
Pentium Pro Architecture
Speculative Out-of-Order
Pentium 4 Architecture
Trace Cache
Pentium 4 and Xeon Architecture with HT
Multi-Threaded
Multi-Threaded Multi-Core
Era of
Instruction
Parallelism
Era of
Thread
Parallelism
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash 過去12年間でPentiumプロセッサの動作周波数は60
MHz から 3800 MHz にまでアップ
ndash 現在までの高性能化の約80 はクロック周波数の向上によるもの
bull 命令実行の強化と最適化
ndash より強力なインストラクションセット
ndash 命令実行の最適化(パイプライン化分岐予測複数命令の同時実行命令実行順序の変更など)
bull 大容量キャッシュ
ndash プロセッサの速度とメモリレイテンシ(待ち時間)とバンド幅のギャップの拡大に対する対策対応としての容量の拡張
スケーラブルシステムズ株式会社
性能ギャップの問題
bull プロセッサ速度とメモリアクセスの速度差によってプロセッサがより高速になったとしてもプロセッサはその演算能力を完全に使い切ることが出来ない
1
10
100
1000Performance
1980 1990 2000
microProc
60yr
DRAM
7yr
バンド幅とレイテンシの問題が今後はより深刻(プロセッサ性能とのギャップはほぼ年率50の差で広がっている)
DRAM
CPU
プロセッサはほぼナノ秒に一回命令実行DRAMへのアクセスはほぼ100ナノ秒の時間
スケーラブルシステムズ株式会社
今後の発展と課題
Episode IV
A New Hope
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash 過去12年間でPentiumプロセッサの動作周波数は60
MHz から 3800 MHz にまでアップ
ndash 現在までの高性能化の約80 はクロック周波数の向上によるもの
bull 命令実行の強化と最適化
ndash より強力なインストラクションセット
ndash 命令実行の最適化(パイプライン化分岐予測複数命令の同時実行命令実行順序の変更など)
bull 大容量キャッシュ
ndash プロセッサの速度とメモリレイテンシ(待ち時間)とバンド幅のギャップの拡大に対する対策対応としての容量の拡張
スケーラブルシステムズ株式会社
デュアルコアプロセッサ
bull チップ上のトランジスタのより有効活用が可能bull スレッドレベルでの並列処理を活用bull よりシンプルなプロセッサの設計が可能
bull 将来のマイクロプロセッサはより多くのコアを実装可能bull 将来のマイクロプロセッサはより大容量のキャッシュの実装が可能
IBM Power5
with 19MB L2
AMD Opteron
with 2MB L2
Intel Montecito
With 24MB L3
スケーラブルシステムズ株式会社
イノベーションのジレンマ
製品の性能
時間
First Technology
Second Technology
Third Technology
RISCアウトオブオーダー実行lt1 instruction cycle
スーパースカラー RISCアウトオブオーダー実行lt2 instructions cycle
明示的並列命令コンピューティング技術 (EPIC)
命令の並列実行度の向上
製品の性能(異なる尺度)
時間
持続的イノベーション
技術革新が顧客の求める性能向上軸(ムーアの法則)に沿っている
破壊的イノベーションマルチコアとマルチスレッドによる並列処理
短期的には(シングルスレッドの性能)としては性能が低下するが将来の大きな性能向上とコスト低下機能強化の可能性が大きい
スケーラブルシステムズ株式会社
マルチコアの利点
ワークロードの処理効率の向上
bull マルチスレッドアプリケーションndash現在多くのアプリケーション(データベース
WEB科学技術計算)はマルチスレッド化
ndashマルチコアプロセッサではこれらのアプリケーションのマルチスレッドでの実行が容易に可能
bull 複数ジョブの処理ndashシステムでは複数のワークロード同時に処理することが必要
ndashマルチコアではこれらのワークロードへの処理が可能
スケーラブルシステムズ株式会社
マルチコアの利点
消費電力あたりの性能を最大にし高性能で低消費電力のシステム構築が可能
bull OS自身のマルチスレッド対応
ndash OSのサービスもマルチスレッドで処理することでより効率よく処理することが可能
bull 仮想化
ndashサーバのセキュリティや管理の強化
ndash管理するノード数を減らし運用コストの削減を図る
bull 最新のソフトウエアテクノロジの活用
スケーラブルシステムズ株式会社
大きな変革しかし容易ではない
マルチコアプロセッシング(または汎用もしくは専用プロセッサをソケットに複数搭載可能なこと)はEthernetの誕生以来ITインフラに対しての大きなインパクトをもたらします
デュアルプロセッサは386プロセッサの発表以来性能に関して最大の向上を実現しますしかしこのような性能向上にはソフトウエアの最適化がプロセッサの性能をフルに発揮するためには必要です
スケーラブルシステムズ株式会社
並列性(Parallelism)の利用
マルチタスク処理
MPIなどによる複数のノード間での並列処理
ユーザ及びコンパイラによるスレッドレベルでの並列処理(TLP)
コンパイラによる命列実行レベルでの並列処理(ILP)
マルチコア
マルチプロセッサ
マルチノード
マルチインストラクション
システム
スケーラブルシステムズ株式会社
ムーアの法則(GHz から MC へ)
マルチコアによる性能向上
動作周波数の向上による性能向上
性能
2005
bullマルチスレッドbullマルチタスクbull トレーニングbullツールbullhelliphellip
並列処理による性能向上についてはシステムサポートやプログラミングサポートなどの面での技術支援が重要です
スケーラブルシステムズ株式会社
Episode VI
Return of the Jedi
Ts for HPC - インテルテクノロジのHPCにおける価値の考察
スケーラブルシステムズ株式会社
将来予測の難しさ
bull ldquoI think there is a world market for maybe five
computersrdquobull Thomas Watson chairman of IBM 1943
bull ldquoThere is no reason for any individual to have a
computer in their homerdquobull Ken Olson president and founder of digital equipment
corporation 1977
bull ldquoThere are only about 100 potential customers
worldwide for a Cray-1rdquobull Seymour Cray 1977
bull ldquo640K [of memory] ought to be enough for
anybodyrdquobull Bill Gates chairman of Microsoft1981
スケーラブルシステムズ株式会社
「未来を予測する最良の方法はそれを創造してしまうことである」The best way to predict future is to invent it
Dr Alan Kay President of Viewpoints Research
Institute Inc
スケーラブルシステムズ株式会社
ITマネージメントの課題
bull プラットフォームの内部からの保護ndash ウイルスやワームなど悪意あるソフトウェアからの保護
bull 資産管理ndash 多くの IT 部門では特定できない資産が問題
bull オンラインおよびリモート管理診断機能 ndash アップグレード診断復旧のための作業の効率化
bull アプリケーション統合の困難さ
ndash アプリケーションの高度化と複雑化によって複数のアプリケーションを組み合わせるての動作に問題
bull 動的なリソース割り当て
ndash 組織内で未使用のCPUやメモリの活用
スケーラブルシステムズ株式会社
マーケットトレンド
All Servers Worldwide 2003 2004 2005 20062003 to 2006
CAGR
2005 to 2006
CAGR
Total Factory Revenue($B) $46149 $49146 $51268 $52251 42 19
Units Shipped(same as nodes) 5278222 6307484 7050099 7472649 123 60
Processor Dies Shipped 8662823 10134624 11712766 12779159 138 91
HPC Technical Servers Worldwide 2003 2004 2005 20062003 to 2006
CAGR
2005 to 2006
CAGR
HPC Server Revenue($B) $5698 $7393 $9208 $10030 207 89
Adjusted Revenues(To much
enterprise)$5128 $6654 $8287 $9027 207 89
Node Units Shipped 411327 734510 1215735 1419221 511 167
Processor Elements Shipped 1002905 1657827 2681079 3351843 495 250
HPC As A Ratio Of All Servers 2003 2004 2005 2006
Revenue($B) 123 150 180 192
Adjusted Revenues(Apples-to-
apples)111 135 162 173
Units Shipped(Nodes) 78 116 172 190
Processors Shipped 116 164 226 261
Source IDC 2007
スケーラブルシステムズ株式会社
HPCマーケット(対全サーバマーケット)
0
5
10
15
20
25
30
2003 2004 2005 2006
Revenue($B)
Adjusted Revenues(Apples-to-apples)
Units Shipped(Nodes)
Processors Shipped
スケーラブルシステムズ株式会社
マーケットトレンド
Source IDC 2004
Cost of mgmt amp admin 10 CAGR
$0
$20
$40
$60
$80
$100
$120
$140
$160
$180
$200
1996 rsquo97 rsquo98 rsquo992000 rsquo01 rsquo02 rsquo03 rsquo04 rsquo05 rsquo06 rsquo07 rsquo08-
New server spending (USM$) 3 CAGR
Spending (USB$)
5
10
15
20
25
30
35
Installed Base (M Units)
bull ハードウェアの減価償却費は IT の TCO 全体の約25 にすぎない
bull ソフトウェアのコストはわずか10~15
bull 電気などの公共料金フロアスペース電話回線など設備面のコストの割合もきわめて小さい
bull プラットフォームのコストではなくTCOの大きな比率を占めるのは人件費となっている
スケーラブルシステムズ株式会社
運用管理コストの低減
bull 「もっと処理性能を」と「より安価に」を実現するためにワークステーションやサーバでの分散処理の導入
bull ユーザや企業に新たな価値をもたらしてはいるが管理責任とその負担の分散を招き結果的に運用管理コストを押し上げる
メインフレームスーパーコンピュータ
仮想化によるサーバコンソリデーション
クラスタによる仮想コンピュータ
スケーラブルシステムズ株式会社
次世代HPCインフラ
bull コアとスレッド
ndash より多くのスレッドを効率よく利用可能
ndash マルチスレッド向け最適化
bull 電力管理
ndash 省電力
ndash データセンター運用管理機能
bull 仮想化
ndash 柔軟性と優れた運用管理
ndash 仮想的なシステムパーティション
bull RAS
ndash ハードウエアベースの自己監視自己管理
ndash ファームウエアベースのエラー履歴管理
bull システム管理
ndash より低いTCOを実現するための一般標準化されたマネージメント機能
スケーラブルシステムズ株式会社
高速プロセッサ
64ビットアドレス
メモリ性能と容
量
IOバンド幅
インターコネクト
省電力
システムのlsquoバランスrsquo
マルチコアによってプロセッサ単体の処理性能の向上を図る
64ビットのアドレス空間と
拡張されたレジスタによるOSとアプリケーション双方の機能性能拡張
64ビット化とマルチコア化
にともなう高速大容量へのニーズに対応しまたその拡張性の高い実装技術の実現
CPU-メモリ間の高速な
データ転送やより高速なネットワーク大規模なストレージのサポート
大規模なクラスタシステムの構築及びアプリケーションのワークロードに対応した高速性能
エコシステムに対応するためにも電力消費量や発熱量を積極的に抑える技術の開発
スケーラブルシステムズ株式会社
HPCの二極分化
Going UP
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
Going DOWN
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
スケーラブルシステムズ株式会社
システムとユーザの尺度
bull ユーザの尺度での性能(Performance)は時間当たりにどれだけの仕事を処理出来るか(仕事量 時間)
bull Flopsでの評価は実際には意味がないまた問題の規模(small medium large) という評価も難しい
bull ldquoスケーラビリティrdquoは対象を明確に規定する必要がある
システムの尺度 ユーザの尺度
Flops hArr 計算終了までの時間
メモリサイズ(GB) hArr モデルのサイズと計算結果
プロセッサ数 hArr ワークロードでの試行
データ長 hArr 計算精度
システム構成(クラスタ) hArr 導入コストと運用コスト
スケーラビリティ hArr ベンチマーク
スケーラブルシステムズ株式会社
HPCシステムの動向国家プロジェクトと商用製品のギャップの拡大
Going UP
Going DOWN
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
Peta-Scaleコンピューティングに求められる基本技術と現在のHPCの主要マーケットでの要求はあまりにも差が大きいrarrHPCSシステムは各社とのlsquoCommodityrsquoのマイクロプロセッサではなく独自のプロセッサを開発中
ハードウエアはrsquoCommodityrsquo
なものを利用してSWの改善サポート利用技術のサポートが今後の主要マーケットでの成功の鍵となる
スケーラブルシステムズ株式会社
HPCシステムの動向国家プロジェクト
Going UP
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
Peta-Scaleコンピューティングに求められる基本技術と現在のHPCの主要マーケットでの要求はあまりにも差が大きいrarrHPCSシステムは各社とのlsquoCommodityrsquoのマイクロプロセッサではなく独自のプロセッサを開発中
スケーラブルシステムズ株式会社
TOP500性能予測
1993 1995 1997 1999 2001 2003 2005 2007 2009 2011 2013 2015
N=
50
SUM
1 Gflops
1 Tflops
100 Mflops
100 Gflops
100 Tflops
10 Gflops
10 Tflops
1 Pflops
10 Pflops
IBM ASCI White
Blue GeneEarth Simulator
Intel
TOP500の総計が1PFを超えています
TOP500に掲載されるには1TF
が最低条件になっています
シングルシステムの1PFの実現は2009年
システム(プロセッサ数) 13倍年プロセッサ性能向上 14倍年トータル性能 18倍年
2009年までに1ペタFLOPS
スケーラブルシステムズ株式会社
性能ギャップの拡大
bull ピーク性能の大幅な向上ndash 1990年台は性能の向上は102のオーダーでしたが2000年台になると103のオーダーで性能は向上しています
しかしhellipndash 多くの科学技術計算用途のアプリケーションのピーク性能に対する実効性能の比率は5-10となっています(1990年代のベクトル計算機は40-50の対ピーク性能を示していました)
bull 今必要なのはndash より高い実効性能を発揮することが可能な計算アルゴリズムと手法の開発とスケーラビリティの向上
ndash プログラミングモデルなども含めてスケーラブルな計算機環境の構築
01
1
10
100
1000
2000 2004
Tera
flo
ps
1996
Performance
Gap
Peak Performance
Real Performance
NERSC User Group Meeting June 24-25 2004
Osni Marques and Tony Drummond
Lawrence Berkeley National Laboratory
スケーラブルシステムズ株式会社
ペタスケールシステムの構築
bull ソフトウエア(アプリケーションOSプログラミングAPIなど)の課題の克服が課題
bull システムの複雑さと生産性
例Linpack Benchmark
bull オリジナルベンチマークプログラム ~100ライン
bull HPL ベンチマークプログラム ~10000ライン(x100より複雑)
lsquo複雑さrsquoの壁
現在のテラFLOPS級の問題
Source ORNL
スケーラブルシステムズ株式会社
HPCシステムの動向商用製品
Going DOWN
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
ハードウエアはrsquoCommodityrsquo
なものを利用してSWの改善サポート利用技術のサポートが今後の主要マーケットでの成功の鍵となる
スケーラブルシステムズ株式会社
標準コンポーネントの進化
bull プロセッサの性能向上ndash lsquoマルチコアrsquoによる省電力での性能向上が可能
ndash HPCアプリケーションは容易にlsquoマルチコアrsquoの利点を活用可能 (OpenMPやMPI)
bull ファイルシステムndash高性能なスケーラブルファイルシステム(オープンソース)
bull インターコネクトndash PCI-Express (メモリlarrrarrインターコネクト)
ndash高速の商用製品やオープンソースでの強力(OpenIBなど)
スケーラブルシステムズ株式会社
標準コンポーネントの利点
bull 特定のベンダーからのシステムを組み合わせるのではなく他社のシステムも含めてベストなシステムの選択が可能
ndashスケーラブルSMPベクトル計算機クラスタの幅広い選択肢
ndash 64ビットマルチコアマイクロプロセッサの性能向上を最大限に活用
bull 標準コンポーネントの技術革新の活用
ndash PCI-ExpressやFB-DIMMの利用技術
スケーラブルシステムズ株式会社
Breaking the 1-2K nodes Barrier
bull 音の障壁サウンドバリヤー(sound barrier)飛行機の速度が音速近くになると衝撃波の発生によって抵抗の増大境界層の剥離など設計運用上のさまざまな障害(壁)に出合って超音速飛行は不可能かと思われた時代があった(1947年ごろまで)ので音の障壁といわれていた
httpwwwwilk4commiscsoundbreakhtm
クラスタのノード数がある規模に近くなるとその構築や運用において負担の増大システムの安定稼動スケーラビリティなど設計運用上のさまざまな障害(壁)に出合ってクラスタ構築は不可能と思われた時代があった()
スケーラブルシステムズ株式会社
ビルゲイツ氏の基調講演HPC goes mainstream
スケーラブルシステムズ株式会社
「Fast」「Good」「Cheap」のパズル
Fast
+ Cheap
Inferior
高い性能を廉価なシステムで構築することも可能ですただそのようなシステムの場合システムの構築や利用は必ずしも容易ではありません
Good
+ Cheap
Slow比較的小規模なシステムであれば廉価で使い勝手の良いものを探すことは可能ですしかしそのようなシステムでは拡張性やより大規模なシステム構築が出来ません
Good
+ Fast
Expensive
付加価値の高い性能の高いシステムは一般には高価ですその付加価値がユーザにとってメリットが無ければコストパフォーマンスの悪いシステムになるだけです
スケーラブルシステムズ株式会社
まとめとして
bull 「テクノロジー」をどのようにとらえるかndash企業経営基盤のコア要素
ndashユーザの本質的な課題を解決する戦略的な武器
bull マーケットを牽引する「テクノロジ」に求められることndashテクノロジとHPCにおけるITインフラの関係を明確にすること
bull ユーザに何らかのメリットをもたらさない「テクノロジー」は意味を成さない
ndashテクノロジーを最適に組み合わせることで問題解決のためのソリューションの提供が可能
スケーラブルシステムズ株式会社
まとめとして
bull bdquoTs‟ for HPC - インテルテクノロジのHPCにおける価値
ndash インテルテクノロジはHPCにおいて重要な構成要素となっている
ndashそれらの構成要素を統合することでより高い価値の提供が可能となる
ndash二分化しつつあるHPCシステムにおいて「標準コ
ンポーネント」としてのプラットフォームの動向として今後もその動向には注目する必要がある
スケーラブルシステムズ株式会社
さらに詳しい情報はhellip
bull 弊社のコンサルテーションに関するご提案資料もダウンロード可能です(非公開WEBページ)別途弊社に内容等についてはお尋ねください
お問い合わせ先102-0083
東京都千代田区麹町3-5-2
BUREX麹町 8F
電話03-5875-4718
FAX03-3237-7612
E-mailbizsstccojp
httpwwwsstccojp wwwsstccojpbiz
スケーラブルシステムズ株式会社
スケーラブルシステムズ株式会社
ハイエンドコンピューティングに関するコンサルテーションとして幅広いサービスをご提供致します
このサービスを最大限に活用していただくことでコラボレーションによる「顧客志向」 のコン
サルテーションサービスをご提供できればと思っております
スケーラブルシステムズ株式会社
社名製品名などは一般に各社の商標または登録商標です無断での引用転載を禁じます
In general the name of the company and the product name etc are the trademarks or registered trademarks of each company
Copyright Scalable Systems Co Ltd 2005 Unauthorized use is strictly forbidden
2005年11月
スケーラブルシステムズ株式会社
HPCの現状
Going UP Going DOWN
システムの規模解析モデルのサイズ運用管理の複雑さbull電力bullスペースbullシステムの相互接続bull管理コスト
生産性bullプログラミングbullシステムの可用性bull実効性能ピーク性能システムバランスHWコスト
スケーラブルシステムズ株式会社
HPCマーケット
bull HPCマーケットでのHPCシステム構築及び製品は次の3つのセグメントに分かれているndash 一般商用システム( Commodity-based systems)
bull 一般のクラスタシステム(Dell HPCCなど)
ndash 付加価値システム( Value-based systems)bull 多くのSMPやNUMAシステム(SGI Altixなど)
ndash 特定目的システム( Purpose-built systems)bull アプリケーションと解析対象に合わせたシステム設計(IBM
BlueGeneLなど)
bull IDCなどのレポートでも一般商用システムのHPCマーケットでの導入がもっともその成長が大きいndash 付加価値システムの課題(一般商用システムとの競合に対する対応もしくは新たな分野の開拓rarrペタスケールコンピューティング)
ndash HPCSプログラムはこの付加価値システムのベンダーにとっても生き残りを賭けた戦い (2006July)
スケーラブルシステムズ株式会社
HPCシステムの現状分析
bull Good News
ldquoHPCシステムにおける問題はたった2つだけであるrdquo
スケーラブルシステムズ株式会社
ソフトウエアとハードウエア
bull ソフトウエアThe Law of Morehellip
ndashシステム規模とその複雑さの急速な増加拡大
ndash ソフトウエアの準備が出来た時点でハードウエアは既に陳腐化し次のシステムの導入の検討が進む
bull ハードウエアMoore‟s Law (ムーアの法則)ndash消費電力の問題のためプロセッサの動作クロックを今までのペースで上げることは困難
ndashプロセッサとメモリの性能差の拡大によるCPUサイクルとのギャップ
ndashピーク性能と実効性能のギャップの拡大
スケーラブルシステムズ株式会社
ソフトウエアThe Law of Morehellip
bull 研究者はより多くの時間(More Time)をソフトウエアの開発のために必要としている
bull 問題はより複雑(More Complex)になりそしてより多くのプロセッサ(More Processors)を利用して処理を行うにはより多くの困難(More
Difficult)が伴います
スケーラブルシステムズ株式会社
アルゴリズムの最適化
bull 計算機自身の進化と共に計算アルゴリズムも最適化されている
bull 例編微分方程式の解法ndash N=106の場合ガウスの消去法で線形方程式を解く場合と
MGでの計算では108倍の計算量が違うndash これは1Mflopssの計算機で100Tflopssの計算機に相当する計算を行ったことになる
O(N)F-cycle MG
O(N76 log(N))CGMILU
O(N43 log(N))Optimal SOR
O(N53 log(N))Gauss Seidel
O(N73)Banded Gauss Elimination
計算オペレーション数(概数)アルゴリズム
2u=f 100
100100
スケーラブルシステムズ株式会社
ソフトウエアThe Law of Morehellip
bull 一般の商用製品を活用したクラスタソリューションでは「Capacity」の実現は容易であるが「Capability」の実現については依然として課題が多いndash コストパフォーマンスの高いシステムの構築は可能だとしてもコストプロダクティビティの高いシステムの構築も課題
bull 数百~数千プロセッサ構成のシステムの利用技術と解析対象の検討ndash 小規模中規模問題の高速処理への対応ndash ソフトウエア開発の生産性
bull 数プロセッサ~数十プロセッサをより簡便に容易に利用できる技術ndash シングルプロセッサシングルスレッドを利用するのと同じようにhellip
スケーラブルシステムズ株式会社
ソフトウエアとハードウエア
bull ソフトウエアThe Law of Morehellip
ndashシステム規模とその複雑さの急速な増加拡大
ndash ソフトウエアの準備が出来た時点でハードウエアは既に陳腐化し次のシステムの導入の検討が進む
bull ハードウエアMoore‟s Law (ムーアの法則)ndash消費電力の問題のためプロセッサの動作クロックを今までのペースで上げることは困難
ndashプロセッサとメモリの性能差の拡大によるCPUサイクルとのギャップ
ndashピーク性能と実効性能のギャップの拡大
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash過去12年間でPentiumプロセッサの動作周波数は60 MHz から 3800 MHz にまでアップ
ndash現在までの高性能化の約80 はクロック周波数の向上によるもの
スケーラブルシステムズ株式会社
ハードウエアの問題Moore‟s Lawムーアの法則
bull インテルの共同設立者の1人である Gordon Moore 博士が1965年4月19日号の「Electronics」誌に投稿した 「一定面積に集積されるトランジスタの数は12か月で倍増しそれに伴いトランジスタの動作速度が向上する」という予測 (その後1975年に Moore 博士はチップの複雑化を考慮してトランジスタ数の倍増ペースを24か月に修正)
bull また一般にはあまり知られていないがテクノロジの進歩とともに製造コストが劇的に下落することも予測(左図)
httpwwwintelcojpjpdevelopertechnologysiliconmooreslawindexhtm
指数関数的成長は永遠には続かないしかしその永遠を先延ばしにすることはできる [英語 PDF 形式 2MB]
Gordon E Moore2003年2月10日ISSCC (International
Solid State Circuits Conference) でのプレゼンテーション
Dr Gordon Moore
(co-founder of Intel)
スケーラブルシステムズ株式会社
Technology Trend
ムーアの法則依然として有効
スケーラブルシステムズ株式会社
性能向上の源泉は
ハードウエアデバイス技術の進歩bull ロジック回路のスイッチング速度の向上とデバイス密度bull メモリサイズの拡大とアクセス速度の向上bull 通信性能(バンド幅とレイテンシの向上)
bull 並列性ndash 1サイクルでの命令実行数
bull 命令レベルでの並列性(ILP)
bull ベクトル処理ndash プロセッサあたりコア数ndash ノードあたりのプロセッサ数ndash システムあたりのノード数
コンピュータアーキテクチャbull 命令発行実行速度の向上
ndash パイプライン化ndash 分岐予測ndash キャッシュndash Out-of-order など
スケーラブルシステムズ株式会社
GHz競争
bull 2000年に開催されたIEEE国際電子デバイス会議2000(2000
IEEE International Electron Devices MeetingIEDM) においてインテル社は4億個以上のトランジスタを集積した10GHz駆動のプロセッサが2005年までに実現可能だと発表しましたndash 実際にはインテル社の最速プロセッサは6ヶ月前に発表された
38GHz(Intel Pentium 4)となっています
bull Prescottプロセッサの6xxシリーズ発表に際してインテル社はldquoadding value beyond GHzrdquo のコメントを出していますそれ以降インテル社の多くのドキュメントやプレスリリースはこのldquoadding value beyond GHzrdquo についての内容を含んでいます
スケーラブルシステムズ株式会社
発熱の問題が深刻化
Bob Colwell氏の資料より抜粋
Increasing Frequency
Watt
scm
2
1
10
100
1000
15 10 07 05 035 025 018 013 01 007
i386i486
PentiumPentium Pro
Pentium IIPentium III
Hot Plate
Nuclear Reactor
Rocket Nozzle
Pentium 4(Prescott)
Pentium 4(Willamette)
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash過去12年間でPentiumプロセッサの動作周波数は60 MHz から 3800 MHz にまでアップ
ndash現在までの高性能化の約80 はクロック周波数の向上によるもの
bull 命令実行の強化と最適化
ndashより強力なインストラクションセット
ndash命令実行の最適化(パイプライン化分岐予測複数命令の同時実行命令実行順序の変更など)
スケーラブルシステムズ株式会社
技術のSカーブ技術開発の進展と製品性能の成長の関係
bull 技術開発の初期は製品性能はゆっくりと向上するがしだいに性能の向上の幅が大きくなるしかし次第に技術開発が成熟段階に入ると性能向上は逓減していく
製品の性能
時間
First Technology
Second Technology
Third Technology
RISCアウトオブオーダー実行lt1 instruction cycle
スーパースカラー RISCアウトオブオーダー実行lt2 instructions cycle
明示的並列命令コンピューティング技術 (EPIC)
命令の並列実行度の向上
スケーラブルシステムズ株式会社
マイクロアーキテクチャのSカーブ
Johan De Gelas Quest for More Processing Power
AnandTech Feb 8 2005
httpwwwanandtechcomcpuchipsetsshowdocaspxi=2343
101
102
103
104
105
106
MIP
S
1980 1985 1990 1995 2000 2005 2010
Pentium Architecture
Super Scalar
Pentium Pro Architecture
Speculative Out-of-Order
Pentium 4 Architecture
Trace Cache
Pentium 4 and Xeon Architecture with HT
Multi-Threaded
Multi-Threaded Multi-Core
Era of
Instruction
Parallelism
Era of
Thread
Parallelism
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash 過去12年間でPentiumプロセッサの動作周波数は60
MHz から 3800 MHz にまでアップ
ndash 現在までの高性能化の約80 はクロック周波数の向上によるもの
bull 命令実行の強化と最適化
ndash より強力なインストラクションセット
ndash 命令実行の最適化(パイプライン化分岐予測複数命令の同時実行命令実行順序の変更など)
bull 大容量キャッシュ
ndash プロセッサの速度とメモリレイテンシ(待ち時間)とバンド幅のギャップの拡大に対する対策対応としての容量の拡張
スケーラブルシステムズ株式会社
性能ギャップの問題
bull プロセッサ速度とメモリアクセスの速度差によってプロセッサがより高速になったとしてもプロセッサはその演算能力を完全に使い切ることが出来ない
1
10
100
1000Performance
1980 1990 2000
microProc
60yr
DRAM
7yr
バンド幅とレイテンシの問題が今後はより深刻(プロセッサ性能とのギャップはほぼ年率50の差で広がっている)
DRAM
CPU
プロセッサはほぼナノ秒に一回命令実行DRAMへのアクセスはほぼ100ナノ秒の時間
スケーラブルシステムズ株式会社
今後の発展と課題
Episode IV
A New Hope
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash 過去12年間でPentiumプロセッサの動作周波数は60
MHz から 3800 MHz にまでアップ
ndash 現在までの高性能化の約80 はクロック周波数の向上によるもの
bull 命令実行の強化と最適化
ndash より強力なインストラクションセット
ndash 命令実行の最適化(パイプライン化分岐予測複数命令の同時実行命令実行順序の変更など)
bull 大容量キャッシュ
ndash プロセッサの速度とメモリレイテンシ(待ち時間)とバンド幅のギャップの拡大に対する対策対応としての容量の拡張
スケーラブルシステムズ株式会社
デュアルコアプロセッサ
bull チップ上のトランジスタのより有効活用が可能bull スレッドレベルでの並列処理を活用bull よりシンプルなプロセッサの設計が可能
bull 将来のマイクロプロセッサはより多くのコアを実装可能bull 将来のマイクロプロセッサはより大容量のキャッシュの実装が可能
IBM Power5
with 19MB L2
AMD Opteron
with 2MB L2
Intel Montecito
With 24MB L3
スケーラブルシステムズ株式会社
イノベーションのジレンマ
製品の性能
時間
First Technology
Second Technology
Third Technology
RISCアウトオブオーダー実行lt1 instruction cycle
スーパースカラー RISCアウトオブオーダー実行lt2 instructions cycle
明示的並列命令コンピューティング技術 (EPIC)
命令の並列実行度の向上
製品の性能(異なる尺度)
時間
持続的イノベーション
技術革新が顧客の求める性能向上軸(ムーアの法則)に沿っている
破壊的イノベーションマルチコアとマルチスレッドによる並列処理
短期的には(シングルスレッドの性能)としては性能が低下するが将来の大きな性能向上とコスト低下機能強化の可能性が大きい
スケーラブルシステムズ株式会社
マルチコアの利点
ワークロードの処理効率の向上
bull マルチスレッドアプリケーションndash現在多くのアプリケーション(データベース
WEB科学技術計算)はマルチスレッド化
ndashマルチコアプロセッサではこれらのアプリケーションのマルチスレッドでの実行が容易に可能
bull 複数ジョブの処理ndashシステムでは複数のワークロード同時に処理することが必要
ndashマルチコアではこれらのワークロードへの処理が可能
スケーラブルシステムズ株式会社
マルチコアの利点
消費電力あたりの性能を最大にし高性能で低消費電力のシステム構築が可能
bull OS自身のマルチスレッド対応
ndash OSのサービスもマルチスレッドで処理することでより効率よく処理することが可能
bull 仮想化
ndashサーバのセキュリティや管理の強化
ndash管理するノード数を減らし運用コストの削減を図る
bull 最新のソフトウエアテクノロジの活用
スケーラブルシステムズ株式会社
大きな変革しかし容易ではない
マルチコアプロセッシング(または汎用もしくは専用プロセッサをソケットに複数搭載可能なこと)はEthernetの誕生以来ITインフラに対しての大きなインパクトをもたらします
デュアルプロセッサは386プロセッサの発表以来性能に関して最大の向上を実現しますしかしこのような性能向上にはソフトウエアの最適化がプロセッサの性能をフルに発揮するためには必要です
スケーラブルシステムズ株式会社
並列性(Parallelism)の利用
マルチタスク処理
MPIなどによる複数のノード間での並列処理
ユーザ及びコンパイラによるスレッドレベルでの並列処理(TLP)
コンパイラによる命列実行レベルでの並列処理(ILP)
マルチコア
マルチプロセッサ
マルチノード
マルチインストラクション
システム
スケーラブルシステムズ株式会社
ムーアの法則(GHz から MC へ)
マルチコアによる性能向上
動作周波数の向上による性能向上
性能
2005
bullマルチスレッドbullマルチタスクbull トレーニングbullツールbullhelliphellip
並列処理による性能向上についてはシステムサポートやプログラミングサポートなどの面での技術支援が重要です
スケーラブルシステムズ株式会社
Episode VI
Return of the Jedi
Ts for HPC - インテルテクノロジのHPCにおける価値の考察
スケーラブルシステムズ株式会社
将来予測の難しさ
bull ldquoI think there is a world market for maybe five
computersrdquobull Thomas Watson chairman of IBM 1943
bull ldquoThere is no reason for any individual to have a
computer in their homerdquobull Ken Olson president and founder of digital equipment
corporation 1977
bull ldquoThere are only about 100 potential customers
worldwide for a Cray-1rdquobull Seymour Cray 1977
bull ldquo640K [of memory] ought to be enough for
anybodyrdquobull Bill Gates chairman of Microsoft1981
スケーラブルシステムズ株式会社
「未来を予測する最良の方法はそれを創造してしまうことである」The best way to predict future is to invent it
Dr Alan Kay President of Viewpoints Research
Institute Inc
スケーラブルシステムズ株式会社
ITマネージメントの課題
bull プラットフォームの内部からの保護ndash ウイルスやワームなど悪意あるソフトウェアからの保護
bull 資産管理ndash 多くの IT 部門では特定できない資産が問題
bull オンラインおよびリモート管理診断機能 ndash アップグレード診断復旧のための作業の効率化
bull アプリケーション統合の困難さ
ndash アプリケーションの高度化と複雑化によって複数のアプリケーションを組み合わせるての動作に問題
bull 動的なリソース割り当て
ndash 組織内で未使用のCPUやメモリの活用
スケーラブルシステムズ株式会社
マーケットトレンド
All Servers Worldwide 2003 2004 2005 20062003 to 2006
CAGR
2005 to 2006
CAGR
Total Factory Revenue($B) $46149 $49146 $51268 $52251 42 19
Units Shipped(same as nodes) 5278222 6307484 7050099 7472649 123 60
Processor Dies Shipped 8662823 10134624 11712766 12779159 138 91
HPC Technical Servers Worldwide 2003 2004 2005 20062003 to 2006
CAGR
2005 to 2006
CAGR
HPC Server Revenue($B) $5698 $7393 $9208 $10030 207 89
Adjusted Revenues(To much
enterprise)$5128 $6654 $8287 $9027 207 89
Node Units Shipped 411327 734510 1215735 1419221 511 167
Processor Elements Shipped 1002905 1657827 2681079 3351843 495 250
HPC As A Ratio Of All Servers 2003 2004 2005 2006
Revenue($B) 123 150 180 192
Adjusted Revenues(Apples-to-
apples)111 135 162 173
Units Shipped(Nodes) 78 116 172 190
Processors Shipped 116 164 226 261
Source IDC 2007
スケーラブルシステムズ株式会社
HPCマーケット(対全サーバマーケット)
0
5
10
15
20
25
30
2003 2004 2005 2006
Revenue($B)
Adjusted Revenues(Apples-to-apples)
Units Shipped(Nodes)
Processors Shipped
スケーラブルシステムズ株式会社
マーケットトレンド
Source IDC 2004
Cost of mgmt amp admin 10 CAGR
$0
$20
$40
$60
$80
$100
$120
$140
$160
$180
$200
1996 rsquo97 rsquo98 rsquo992000 rsquo01 rsquo02 rsquo03 rsquo04 rsquo05 rsquo06 rsquo07 rsquo08-
New server spending (USM$) 3 CAGR
Spending (USB$)
5
10
15
20
25
30
35
Installed Base (M Units)
bull ハードウェアの減価償却費は IT の TCO 全体の約25 にすぎない
bull ソフトウェアのコストはわずか10~15
bull 電気などの公共料金フロアスペース電話回線など設備面のコストの割合もきわめて小さい
bull プラットフォームのコストではなくTCOの大きな比率を占めるのは人件費となっている
スケーラブルシステムズ株式会社
運用管理コストの低減
bull 「もっと処理性能を」と「より安価に」を実現するためにワークステーションやサーバでの分散処理の導入
bull ユーザや企業に新たな価値をもたらしてはいるが管理責任とその負担の分散を招き結果的に運用管理コストを押し上げる
メインフレームスーパーコンピュータ
仮想化によるサーバコンソリデーション
クラスタによる仮想コンピュータ
スケーラブルシステムズ株式会社
次世代HPCインフラ
bull コアとスレッド
ndash より多くのスレッドを効率よく利用可能
ndash マルチスレッド向け最適化
bull 電力管理
ndash 省電力
ndash データセンター運用管理機能
bull 仮想化
ndash 柔軟性と優れた運用管理
ndash 仮想的なシステムパーティション
bull RAS
ndash ハードウエアベースの自己監視自己管理
ndash ファームウエアベースのエラー履歴管理
bull システム管理
ndash より低いTCOを実現するための一般標準化されたマネージメント機能
スケーラブルシステムズ株式会社
高速プロセッサ
64ビットアドレス
メモリ性能と容
量
IOバンド幅
インターコネクト
省電力
システムのlsquoバランスrsquo
マルチコアによってプロセッサ単体の処理性能の向上を図る
64ビットのアドレス空間と
拡張されたレジスタによるOSとアプリケーション双方の機能性能拡張
64ビット化とマルチコア化
にともなう高速大容量へのニーズに対応しまたその拡張性の高い実装技術の実現
CPU-メモリ間の高速な
データ転送やより高速なネットワーク大規模なストレージのサポート
大規模なクラスタシステムの構築及びアプリケーションのワークロードに対応した高速性能
エコシステムに対応するためにも電力消費量や発熱量を積極的に抑える技術の開発
スケーラブルシステムズ株式会社
HPCの二極分化
Going UP
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
Going DOWN
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
スケーラブルシステムズ株式会社
システムとユーザの尺度
bull ユーザの尺度での性能(Performance)は時間当たりにどれだけの仕事を処理出来るか(仕事量 時間)
bull Flopsでの評価は実際には意味がないまた問題の規模(small medium large) という評価も難しい
bull ldquoスケーラビリティrdquoは対象を明確に規定する必要がある
システムの尺度 ユーザの尺度
Flops hArr 計算終了までの時間
メモリサイズ(GB) hArr モデルのサイズと計算結果
プロセッサ数 hArr ワークロードでの試行
データ長 hArr 計算精度
システム構成(クラスタ) hArr 導入コストと運用コスト
スケーラビリティ hArr ベンチマーク
スケーラブルシステムズ株式会社
HPCシステムの動向国家プロジェクトと商用製品のギャップの拡大
Going UP
Going DOWN
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
Peta-Scaleコンピューティングに求められる基本技術と現在のHPCの主要マーケットでの要求はあまりにも差が大きいrarrHPCSシステムは各社とのlsquoCommodityrsquoのマイクロプロセッサではなく独自のプロセッサを開発中
ハードウエアはrsquoCommodityrsquo
なものを利用してSWの改善サポート利用技術のサポートが今後の主要マーケットでの成功の鍵となる
スケーラブルシステムズ株式会社
HPCシステムの動向国家プロジェクト
Going UP
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
Peta-Scaleコンピューティングに求められる基本技術と現在のHPCの主要マーケットでの要求はあまりにも差が大きいrarrHPCSシステムは各社とのlsquoCommodityrsquoのマイクロプロセッサではなく独自のプロセッサを開発中
スケーラブルシステムズ株式会社
TOP500性能予測
1993 1995 1997 1999 2001 2003 2005 2007 2009 2011 2013 2015
N=
50
SUM
1 Gflops
1 Tflops
100 Mflops
100 Gflops
100 Tflops
10 Gflops
10 Tflops
1 Pflops
10 Pflops
IBM ASCI White
Blue GeneEarth Simulator
Intel
TOP500の総計が1PFを超えています
TOP500に掲載されるには1TF
が最低条件になっています
シングルシステムの1PFの実現は2009年
システム(プロセッサ数) 13倍年プロセッサ性能向上 14倍年トータル性能 18倍年
2009年までに1ペタFLOPS
スケーラブルシステムズ株式会社
性能ギャップの拡大
bull ピーク性能の大幅な向上ndash 1990年台は性能の向上は102のオーダーでしたが2000年台になると103のオーダーで性能は向上しています
しかしhellipndash 多くの科学技術計算用途のアプリケーションのピーク性能に対する実効性能の比率は5-10となっています(1990年代のベクトル計算機は40-50の対ピーク性能を示していました)
bull 今必要なのはndash より高い実効性能を発揮することが可能な計算アルゴリズムと手法の開発とスケーラビリティの向上
ndash プログラミングモデルなども含めてスケーラブルな計算機環境の構築
01
1
10
100
1000
2000 2004
Tera
flo
ps
1996
Performance
Gap
Peak Performance
Real Performance
NERSC User Group Meeting June 24-25 2004
Osni Marques and Tony Drummond
Lawrence Berkeley National Laboratory
スケーラブルシステムズ株式会社
ペタスケールシステムの構築
bull ソフトウエア(アプリケーションOSプログラミングAPIなど)の課題の克服が課題
bull システムの複雑さと生産性
例Linpack Benchmark
bull オリジナルベンチマークプログラム ~100ライン
bull HPL ベンチマークプログラム ~10000ライン(x100より複雑)
lsquo複雑さrsquoの壁
現在のテラFLOPS級の問題
Source ORNL
スケーラブルシステムズ株式会社
HPCシステムの動向商用製品
Going DOWN
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
ハードウエアはrsquoCommodityrsquo
なものを利用してSWの改善サポート利用技術のサポートが今後の主要マーケットでの成功の鍵となる
スケーラブルシステムズ株式会社
標準コンポーネントの進化
bull プロセッサの性能向上ndash lsquoマルチコアrsquoによる省電力での性能向上が可能
ndash HPCアプリケーションは容易にlsquoマルチコアrsquoの利点を活用可能 (OpenMPやMPI)
bull ファイルシステムndash高性能なスケーラブルファイルシステム(オープンソース)
bull インターコネクトndash PCI-Express (メモリlarrrarrインターコネクト)
ndash高速の商用製品やオープンソースでの強力(OpenIBなど)
スケーラブルシステムズ株式会社
標準コンポーネントの利点
bull 特定のベンダーからのシステムを組み合わせるのではなく他社のシステムも含めてベストなシステムの選択が可能
ndashスケーラブルSMPベクトル計算機クラスタの幅広い選択肢
ndash 64ビットマルチコアマイクロプロセッサの性能向上を最大限に活用
bull 標準コンポーネントの技術革新の活用
ndash PCI-ExpressやFB-DIMMの利用技術
スケーラブルシステムズ株式会社
Breaking the 1-2K nodes Barrier
bull 音の障壁サウンドバリヤー(sound barrier)飛行機の速度が音速近くになると衝撃波の発生によって抵抗の増大境界層の剥離など設計運用上のさまざまな障害(壁)に出合って超音速飛行は不可能かと思われた時代があった(1947年ごろまで)ので音の障壁といわれていた
httpwwwwilk4commiscsoundbreakhtm
クラスタのノード数がある規模に近くなるとその構築や運用において負担の増大システムの安定稼動スケーラビリティなど設計運用上のさまざまな障害(壁)に出合ってクラスタ構築は不可能と思われた時代があった()
スケーラブルシステムズ株式会社
ビルゲイツ氏の基調講演HPC goes mainstream
スケーラブルシステムズ株式会社
「Fast」「Good」「Cheap」のパズル
Fast
+ Cheap
Inferior
高い性能を廉価なシステムで構築することも可能ですただそのようなシステムの場合システムの構築や利用は必ずしも容易ではありません
Good
+ Cheap
Slow比較的小規模なシステムであれば廉価で使い勝手の良いものを探すことは可能ですしかしそのようなシステムでは拡張性やより大規模なシステム構築が出来ません
Good
+ Fast
Expensive
付加価値の高い性能の高いシステムは一般には高価ですその付加価値がユーザにとってメリットが無ければコストパフォーマンスの悪いシステムになるだけです
スケーラブルシステムズ株式会社
まとめとして
bull 「テクノロジー」をどのようにとらえるかndash企業経営基盤のコア要素
ndashユーザの本質的な課題を解決する戦略的な武器
bull マーケットを牽引する「テクノロジ」に求められることndashテクノロジとHPCにおけるITインフラの関係を明確にすること
bull ユーザに何らかのメリットをもたらさない「テクノロジー」は意味を成さない
ndashテクノロジーを最適に組み合わせることで問題解決のためのソリューションの提供が可能
スケーラブルシステムズ株式会社
まとめとして
bull bdquoTs‟ for HPC - インテルテクノロジのHPCにおける価値
ndash インテルテクノロジはHPCにおいて重要な構成要素となっている
ndashそれらの構成要素を統合することでより高い価値の提供が可能となる
ndash二分化しつつあるHPCシステムにおいて「標準コ
ンポーネント」としてのプラットフォームの動向として今後もその動向には注目する必要がある
スケーラブルシステムズ株式会社
さらに詳しい情報はhellip
bull 弊社のコンサルテーションに関するご提案資料もダウンロード可能です(非公開WEBページ)別途弊社に内容等についてはお尋ねください
お問い合わせ先102-0083
東京都千代田区麹町3-5-2
BUREX麹町 8F
電話03-5875-4718
FAX03-3237-7612
E-mailbizsstccojp
httpwwwsstccojp wwwsstccojpbiz
スケーラブルシステムズ株式会社
スケーラブルシステムズ株式会社
ハイエンドコンピューティングに関するコンサルテーションとして幅広いサービスをご提供致します
このサービスを最大限に活用していただくことでコラボレーションによる「顧客志向」 のコン
サルテーションサービスをご提供できればと思っております
スケーラブルシステムズ株式会社
社名製品名などは一般に各社の商標または登録商標です無断での引用転載を禁じます
In general the name of the company and the product name etc are the trademarks or registered trademarks of each company
Copyright Scalable Systems Co Ltd 2005 Unauthorized use is strictly forbidden
2005年11月
スケーラブルシステムズ株式会社
HPCマーケット
bull HPCマーケットでのHPCシステム構築及び製品は次の3つのセグメントに分かれているndash 一般商用システム( Commodity-based systems)
bull 一般のクラスタシステム(Dell HPCCなど)
ndash 付加価値システム( Value-based systems)bull 多くのSMPやNUMAシステム(SGI Altixなど)
ndash 特定目的システム( Purpose-built systems)bull アプリケーションと解析対象に合わせたシステム設計(IBM
BlueGeneLなど)
bull IDCなどのレポートでも一般商用システムのHPCマーケットでの導入がもっともその成長が大きいndash 付加価値システムの課題(一般商用システムとの競合に対する対応もしくは新たな分野の開拓rarrペタスケールコンピューティング)
ndash HPCSプログラムはこの付加価値システムのベンダーにとっても生き残りを賭けた戦い (2006July)
スケーラブルシステムズ株式会社
HPCシステムの現状分析
bull Good News
ldquoHPCシステムにおける問題はたった2つだけであるrdquo
スケーラブルシステムズ株式会社
ソフトウエアとハードウエア
bull ソフトウエアThe Law of Morehellip
ndashシステム規模とその複雑さの急速な増加拡大
ndash ソフトウエアの準備が出来た時点でハードウエアは既に陳腐化し次のシステムの導入の検討が進む
bull ハードウエアMoore‟s Law (ムーアの法則)ndash消費電力の問題のためプロセッサの動作クロックを今までのペースで上げることは困難
ndashプロセッサとメモリの性能差の拡大によるCPUサイクルとのギャップ
ndashピーク性能と実効性能のギャップの拡大
スケーラブルシステムズ株式会社
ソフトウエアThe Law of Morehellip
bull 研究者はより多くの時間(More Time)をソフトウエアの開発のために必要としている
bull 問題はより複雑(More Complex)になりそしてより多くのプロセッサ(More Processors)を利用して処理を行うにはより多くの困難(More
Difficult)が伴います
スケーラブルシステムズ株式会社
アルゴリズムの最適化
bull 計算機自身の進化と共に計算アルゴリズムも最適化されている
bull 例編微分方程式の解法ndash N=106の場合ガウスの消去法で線形方程式を解く場合と
MGでの計算では108倍の計算量が違うndash これは1Mflopssの計算機で100Tflopssの計算機に相当する計算を行ったことになる
O(N)F-cycle MG
O(N76 log(N))CGMILU
O(N43 log(N))Optimal SOR
O(N53 log(N))Gauss Seidel
O(N73)Banded Gauss Elimination
計算オペレーション数(概数)アルゴリズム
2u=f 100
100100
スケーラブルシステムズ株式会社
ソフトウエアThe Law of Morehellip
bull 一般の商用製品を活用したクラスタソリューションでは「Capacity」の実現は容易であるが「Capability」の実現については依然として課題が多いndash コストパフォーマンスの高いシステムの構築は可能だとしてもコストプロダクティビティの高いシステムの構築も課題
bull 数百~数千プロセッサ構成のシステムの利用技術と解析対象の検討ndash 小規模中規模問題の高速処理への対応ndash ソフトウエア開発の生産性
bull 数プロセッサ~数十プロセッサをより簡便に容易に利用できる技術ndash シングルプロセッサシングルスレッドを利用するのと同じようにhellip
スケーラブルシステムズ株式会社
ソフトウエアとハードウエア
bull ソフトウエアThe Law of Morehellip
ndashシステム規模とその複雑さの急速な増加拡大
ndash ソフトウエアの準備が出来た時点でハードウエアは既に陳腐化し次のシステムの導入の検討が進む
bull ハードウエアMoore‟s Law (ムーアの法則)ndash消費電力の問題のためプロセッサの動作クロックを今までのペースで上げることは困難
ndashプロセッサとメモリの性能差の拡大によるCPUサイクルとのギャップ
ndashピーク性能と実効性能のギャップの拡大
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash過去12年間でPentiumプロセッサの動作周波数は60 MHz から 3800 MHz にまでアップ
ndash現在までの高性能化の約80 はクロック周波数の向上によるもの
スケーラブルシステムズ株式会社
ハードウエアの問題Moore‟s Lawムーアの法則
bull インテルの共同設立者の1人である Gordon Moore 博士が1965年4月19日号の「Electronics」誌に投稿した 「一定面積に集積されるトランジスタの数は12か月で倍増しそれに伴いトランジスタの動作速度が向上する」という予測 (その後1975年に Moore 博士はチップの複雑化を考慮してトランジスタ数の倍増ペースを24か月に修正)
bull また一般にはあまり知られていないがテクノロジの進歩とともに製造コストが劇的に下落することも予測(左図)
httpwwwintelcojpjpdevelopertechnologysiliconmooreslawindexhtm
指数関数的成長は永遠には続かないしかしその永遠を先延ばしにすることはできる [英語 PDF 形式 2MB]
Gordon E Moore2003年2月10日ISSCC (International
Solid State Circuits Conference) でのプレゼンテーション
Dr Gordon Moore
(co-founder of Intel)
スケーラブルシステムズ株式会社
Technology Trend
ムーアの法則依然として有効
スケーラブルシステムズ株式会社
性能向上の源泉は
ハードウエアデバイス技術の進歩bull ロジック回路のスイッチング速度の向上とデバイス密度bull メモリサイズの拡大とアクセス速度の向上bull 通信性能(バンド幅とレイテンシの向上)
bull 並列性ndash 1サイクルでの命令実行数
bull 命令レベルでの並列性(ILP)
bull ベクトル処理ndash プロセッサあたりコア数ndash ノードあたりのプロセッサ数ndash システムあたりのノード数
コンピュータアーキテクチャbull 命令発行実行速度の向上
ndash パイプライン化ndash 分岐予測ndash キャッシュndash Out-of-order など
スケーラブルシステムズ株式会社
GHz競争
bull 2000年に開催されたIEEE国際電子デバイス会議2000(2000
IEEE International Electron Devices MeetingIEDM) においてインテル社は4億個以上のトランジスタを集積した10GHz駆動のプロセッサが2005年までに実現可能だと発表しましたndash 実際にはインテル社の最速プロセッサは6ヶ月前に発表された
38GHz(Intel Pentium 4)となっています
bull Prescottプロセッサの6xxシリーズ発表に際してインテル社はldquoadding value beyond GHzrdquo のコメントを出していますそれ以降インテル社の多くのドキュメントやプレスリリースはこのldquoadding value beyond GHzrdquo についての内容を含んでいます
スケーラブルシステムズ株式会社
発熱の問題が深刻化
Bob Colwell氏の資料より抜粋
Increasing Frequency
Watt
scm
2
1
10
100
1000
15 10 07 05 035 025 018 013 01 007
i386i486
PentiumPentium Pro
Pentium IIPentium III
Hot Plate
Nuclear Reactor
Rocket Nozzle
Pentium 4(Prescott)
Pentium 4(Willamette)
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash過去12年間でPentiumプロセッサの動作周波数は60 MHz から 3800 MHz にまでアップ
ndash現在までの高性能化の約80 はクロック周波数の向上によるもの
bull 命令実行の強化と最適化
ndashより強力なインストラクションセット
ndash命令実行の最適化(パイプライン化分岐予測複数命令の同時実行命令実行順序の変更など)
スケーラブルシステムズ株式会社
技術のSカーブ技術開発の進展と製品性能の成長の関係
bull 技術開発の初期は製品性能はゆっくりと向上するがしだいに性能の向上の幅が大きくなるしかし次第に技術開発が成熟段階に入ると性能向上は逓減していく
製品の性能
時間
First Technology
Second Technology
Third Technology
RISCアウトオブオーダー実行lt1 instruction cycle
スーパースカラー RISCアウトオブオーダー実行lt2 instructions cycle
明示的並列命令コンピューティング技術 (EPIC)
命令の並列実行度の向上
スケーラブルシステムズ株式会社
マイクロアーキテクチャのSカーブ
Johan De Gelas Quest for More Processing Power
AnandTech Feb 8 2005
httpwwwanandtechcomcpuchipsetsshowdocaspxi=2343
101
102
103
104
105
106
MIP
S
1980 1985 1990 1995 2000 2005 2010
Pentium Architecture
Super Scalar
Pentium Pro Architecture
Speculative Out-of-Order
Pentium 4 Architecture
Trace Cache
Pentium 4 and Xeon Architecture with HT
Multi-Threaded
Multi-Threaded Multi-Core
Era of
Instruction
Parallelism
Era of
Thread
Parallelism
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash 過去12年間でPentiumプロセッサの動作周波数は60
MHz から 3800 MHz にまでアップ
ndash 現在までの高性能化の約80 はクロック周波数の向上によるもの
bull 命令実行の強化と最適化
ndash より強力なインストラクションセット
ndash 命令実行の最適化(パイプライン化分岐予測複数命令の同時実行命令実行順序の変更など)
bull 大容量キャッシュ
ndash プロセッサの速度とメモリレイテンシ(待ち時間)とバンド幅のギャップの拡大に対する対策対応としての容量の拡張
スケーラブルシステムズ株式会社
性能ギャップの問題
bull プロセッサ速度とメモリアクセスの速度差によってプロセッサがより高速になったとしてもプロセッサはその演算能力を完全に使い切ることが出来ない
1
10
100
1000Performance
1980 1990 2000
microProc
60yr
DRAM
7yr
バンド幅とレイテンシの問題が今後はより深刻(プロセッサ性能とのギャップはほぼ年率50の差で広がっている)
DRAM
CPU
プロセッサはほぼナノ秒に一回命令実行DRAMへのアクセスはほぼ100ナノ秒の時間
スケーラブルシステムズ株式会社
今後の発展と課題
Episode IV
A New Hope
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash 過去12年間でPentiumプロセッサの動作周波数は60
MHz から 3800 MHz にまでアップ
ndash 現在までの高性能化の約80 はクロック周波数の向上によるもの
bull 命令実行の強化と最適化
ndash より強力なインストラクションセット
ndash 命令実行の最適化(パイプライン化分岐予測複数命令の同時実行命令実行順序の変更など)
bull 大容量キャッシュ
ndash プロセッサの速度とメモリレイテンシ(待ち時間)とバンド幅のギャップの拡大に対する対策対応としての容量の拡張
スケーラブルシステムズ株式会社
デュアルコアプロセッサ
bull チップ上のトランジスタのより有効活用が可能bull スレッドレベルでの並列処理を活用bull よりシンプルなプロセッサの設計が可能
bull 将来のマイクロプロセッサはより多くのコアを実装可能bull 将来のマイクロプロセッサはより大容量のキャッシュの実装が可能
IBM Power5
with 19MB L2
AMD Opteron
with 2MB L2
Intel Montecito
With 24MB L3
スケーラブルシステムズ株式会社
イノベーションのジレンマ
製品の性能
時間
First Technology
Second Technology
Third Technology
RISCアウトオブオーダー実行lt1 instruction cycle
スーパースカラー RISCアウトオブオーダー実行lt2 instructions cycle
明示的並列命令コンピューティング技術 (EPIC)
命令の並列実行度の向上
製品の性能(異なる尺度)
時間
持続的イノベーション
技術革新が顧客の求める性能向上軸(ムーアの法則)に沿っている
破壊的イノベーションマルチコアとマルチスレッドによる並列処理
短期的には(シングルスレッドの性能)としては性能が低下するが将来の大きな性能向上とコスト低下機能強化の可能性が大きい
スケーラブルシステムズ株式会社
マルチコアの利点
ワークロードの処理効率の向上
bull マルチスレッドアプリケーションndash現在多くのアプリケーション(データベース
WEB科学技術計算)はマルチスレッド化
ndashマルチコアプロセッサではこれらのアプリケーションのマルチスレッドでの実行が容易に可能
bull 複数ジョブの処理ndashシステムでは複数のワークロード同時に処理することが必要
ndashマルチコアではこれらのワークロードへの処理が可能
スケーラブルシステムズ株式会社
マルチコアの利点
消費電力あたりの性能を最大にし高性能で低消費電力のシステム構築が可能
bull OS自身のマルチスレッド対応
ndash OSのサービスもマルチスレッドで処理することでより効率よく処理することが可能
bull 仮想化
ndashサーバのセキュリティや管理の強化
ndash管理するノード数を減らし運用コストの削減を図る
bull 最新のソフトウエアテクノロジの活用
スケーラブルシステムズ株式会社
大きな変革しかし容易ではない
マルチコアプロセッシング(または汎用もしくは専用プロセッサをソケットに複数搭載可能なこと)はEthernetの誕生以来ITインフラに対しての大きなインパクトをもたらします
デュアルプロセッサは386プロセッサの発表以来性能に関して最大の向上を実現しますしかしこのような性能向上にはソフトウエアの最適化がプロセッサの性能をフルに発揮するためには必要です
スケーラブルシステムズ株式会社
並列性(Parallelism)の利用
マルチタスク処理
MPIなどによる複数のノード間での並列処理
ユーザ及びコンパイラによるスレッドレベルでの並列処理(TLP)
コンパイラによる命列実行レベルでの並列処理(ILP)
マルチコア
マルチプロセッサ
マルチノード
マルチインストラクション
システム
スケーラブルシステムズ株式会社
ムーアの法則(GHz から MC へ)
マルチコアによる性能向上
動作周波数の向上による性能向上
性能
2005
bullマルチスレッドbullマルチタスクbull トレーニングbullツールbullhelliphellip
並列処理による性能向上についてはシステムサポートやプログラミングサポートなどの面での技術支援が重要です
スケーラブルシステムズ株式会社
Episode VI
Return of the Jedi
Ts for HPC - インテルテクノロジのHPCにおける価値の考察
スケーラブルシステムズ株式会社
将来予測の難しさ
bull ldquoI think there is a world market for maybe five
computersrdquobull Thomas Watson chairman of IBM 1943
bull ldquoThere is no reason for any individual to have a
computer in their homerdquobull Ken Olson president and founder of digital equipment
corporation 1977
bull ldquoThere are only about 100 potential customers
worldwide for a Cray-1rdquobull Seymour Cray 1977
bull ldquo640K [of memory] ought to be enough for
anybodyrdquobull Bill Gates chairman of Microsoft1981
スケーラブルシステムズ株式会社
「未来を予測する最良の方法はそれを創造してしまうことである」The best way to predict future is to invent it
Dr Alan Kay President of Viewpoints Research
Institute Inc
スケーラブルシステムズ株式会社
ITマネージメントの課題
bull プラットフォームの内部からの保護ndash ウイルスやワームなど悪意あるソフトウェアからの保護
bull 資産管理ndash 多くの IT 部門では特定できない資産が問題
bull オンラインおよびリモート管理診断機能 ndash アップグレード診断復旧のための作業の効率化
bull アプリケーション統合の困難さ
ndash アプリケーションの高度化と複雑化によって複数のアプリケーションを組み合わせるての動作に問題
bull 動的なリソース割り当て
ndash 組織内で未使用のCPUやメモリの活用
スケーラブルシステムズ株式会社
マーケットトレンド
All Servers Worldwide 2003 2004 2005 20062003 to 2006
CAGR
2005 to 2006
CAGR
Total Factory Revenue($B) $46149 $49146 $51268 $52251 42 19
Units Shipped(same as nodes) 5278222 6307484 7050099 7472649 123 60
Processor Dies Shipped 8662823 10134624 11712766 12779159 138 91
HPC Technical Servers Worldwide 2003 2004 2005 20062003 to 2006
CAGR
2005 to 2006
CAGR
HPC Server Revenue($B) $5698 $7393 $9208 $10030 207 89
Adjusted Revenues(To much
enterprise)$5128 $6654 $8287 $9027 207 89
Node Units Shipped 411327 734510 1215735 1419221 511 167
Processor Elements Shipped 1002905 1657827 2681079 3351843 495 250
HPC As A Ratio Of All Servers 2003 2004 2005 2006
Revenue($B) 123 150 180 192
Adjusted Revenues(Apples-to-
apples)111 135 162 173
Units Shipped(Nodes) 78 116 172 190
Processors Shipped 116 164 226 261
Source IDC 2007
スケーラブルシステムズ株式会社
HPCマーケット(対全サーバマーケット)
0
5
10
15
20
25
30
2003 2004 2005 2006
Revenue($B)
Adjusted Revenues(Apples-to-apples)
Units Shipped(Nodes)
Processors Shipped
スケーラブルシステムズ株式会社
マーケットトレンド
Source IDC 2004
Cost of mgmt amp admin 10 CAGR
$0
$20
$40
$60
$80
$100
$120
$140
$160
$180
$200
1996 rsquo97 rsquo98 rsquo992000 rsquo01 rsquo02 rsquo03 rsquo04 rsquo05 rsquo06 rsquo07 rsquo08-
New server spending (USM$) 3 CAGR
Spending (USB$)
5
10
15
20
25
30
35
Installed Base (M Units)
bull ハードウェアの減価償却費は IT の TCO 全体の約25 にすぎない
bull ソフトウェアのコストはわずか10~15
bull 電気などの公共料金フロアスペース電話回線など設備面のコストの割合もきわめて小さい
bull プラットフォームのコストではなくTCOの大きな比率を占めるのは人件費となっている
スケーラブルシステムズ株式会社
運用管理コストの低減
bull 「もっと処理性能を」と「より安価に」を実現するためにワークステーションやサーバでの分散処理の導入
bull ユーザや企業に新たな価値をもたらしてはいるが管理責任とその負担の分散を招き結果的に運用管理コストを押し上げる
メインフレームスーパーコンピュータ
仮想化によるサーバコンソリデーション
クラスタによる仮想コンピュータ
スケーラブルシステムズ株式会社
次世代HPCインフラ
bull コアとスレッド
ndash より多くのスレッドを効率よく利用可能
ndash マルチスレッド向け最適化
bull 電力管理
ndash 省電力
ndash データセンター運用管理機能
bull 仮想化
ndash 柔軟性と優れた運用管理
ndash 仮想的なシステムパーティション
bull RAS
ndash ハードウエアベースの自己監視自己管理
ndash ファームウエアベースのエラー履歴管理
bull システム管理
ndash より低いTCOを実現するための一般標準化されたマネージメント機能
スケーラブルシステムズ株式会社
高速プロセッサ
64ビットアドレス
メモリ性能と容
量
IOバンド幅
インターコネクト
省電力
システムのlsquoバランスrsquo
マルチコアによってプロセッサ単体の処理性能の向上を図る
64ビットのアドレス空間と
拡張されたレジスタによるOSとアプリケーション双方の機能性能拡張
64ビット化とマルチコア化
にともなう高速大容量へのニーズに対応しまたその拡張性の高い実装技術の実現
CPU-メモリ間の高速な
データ転送やより高速なネットワーク大規模なストレージのサポート
大規模なクラスタシステムの構築及びアプリケーションのワークロードに対応した高速性能
エコシステムに対応するためにも電力消費量や発熱量を積極的に抑える技術の開発
スケーラブルシステムズ株式会社
HPCの二極分化
Going UP
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
Going DOWN
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
スケーラブルシステムズ株式会社
システムとユーザの尺度
bull ユーザの尺度での性能(Performance)は時間当たりにどれだけの仕事を処理出来るか(仕事量 時間)
bull Flopsでの評価は実際には意味がないまた問題の規模(small medium large) という評価も難しい
bull ldquoスケーラビリティrdquoは対象を明確に規定する必要がある
システムの尺度 ユーザの尺度
Flops hArr 計算終了までの時間
メモリサイズ(GB) hArr モデルのサイズと計算結果
プロセッサ数 hArr ワークロードでの試行
データ長 hArr 計算精度
システム構成(クラスタ) hArr 導入コストと運用コスト
スケーラビリティ hArr ベンチマーク
スケーラブルシステムズ株式会社
HPCシステムの動向国家プロジェクトと商用製品のギャップの拡大
Going UP
Going DOWN
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
Peta-Scaleコンピューティングに求められる基本技術と現在のHPCの主要マーケットでの要求はあまりにも差が大きいrarrHPCSシステムは各社とのlsquoCommodityrsquoのマイクロプロセッサではなく独自のプロセッサを開発中
ハードウエアはrsquoCommodityrsquo
なものを利用してSWの改善サポート利用技術のサポートが今後の主要マーケットでの成功の鍵となる
スケーラブルシステムズ株式会社
HPCシステムの動向国家プロジェクト
Going UP
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
Peta-Scaleコンピューティングに求められる基本技術と現在のHPCの主要マーケットでの要求はあまりにも差が大きいrarrHPCSシステムは各社とのlsquoCommodityrsquoのマイクロプロセッサではなく独自のプロセッサを開発中
スケーラブルシステムズ株式会社
TOP500性能予測
1993 1995 1997 1999 2001 2003 2005 2007 2009 2011 2013 2015
N=
50
SUM
1 Gflops
1 Tflops
100 Mflops
100 Gflops
100 Tflops
10 Gflops
10 Tflops
1 Pflops
10 Pflops
IBM ASCI White
Blue GeneEarth Simulator
Intel
TOP500の総計が1PFを超えています
TOP500に掲載されるには1TF
が最低条件になっています
シングルシステムの1PFの実現は2009年
システム(プロセッサ数) 13倍年プロセッサ性能向上 14倍年トータル性能 18倍年
2009年までに1ペタFLOPS
スケーラブルシステムズ株式会社
性能ギャップの拡大
bull ピーク性能の大幅な向上ndash 1990年台は性能の向上は102のオーダーでしたが2000年台になると103のオーダーで性能は向上しています
しかしhellipndash 多くの科学技術計算用途のアプリケーションのピーク性能に対する実効性能の比率は5-10となっています(1990年代のベクトル計算機は40-50の対ピーク性能を示していました)
bull 今必要なのはndash より高い実効性能を発揮することが可能な計算アルゴリズムと手法の開発とスケーラビリティの向上
ndash プログラミングモデルなども含めてスケーラブルな計算機環境の構築
01
1
10
100
1000
2000 2004
Tera
flo
ps
1996
Performance
Gap
Peak Performance
Real Performance
NERSC User Group Meeting June 24-25 2004
Osni Marques and Tony Drummond
Lawrence Berkeley National Laboratory
スケーラブルシステムズ株式会社
ペタスケールシステムの構築
bull ソフトウエア(アプリケーションOSプログラミングAPIなど)の課題の克服が課題
bull システムの複雑さと生産性
例Linpack Benchmark
bull オリジナルベンチマークプログラム ~100ライン
bull HPL ベンチマークプログラム ~10000ライン(x100より複雑)
lsquo複雑さrsquoの壁
現在のテラFLOPS級の問題
Source ORNL
スケーラブルシステムズ株式会社
HPCシステムの動向商用製品
Going DOWN
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
ハードウエアはrsquoCommodityrsquo
なものを利用してSWの改善サポート利用技術のサポートが今後の主要マーケットでの成功の鍵となる
スケーラブルシステムズ株式会社
標準コンポーネントの進化
bull プロセッサの性能向上ndash lsquoマルチコアrsquoによる省電力での性能向上が可能
ndash HPCアプリケーションは容易にlsquoマルチコアrsquoの利点を活用可能 (OpenMPやMPI)
bull ファイルシステムndash高性能なスケーラブルファイルシステム(オープンソース)
bull インターコネクトndash PCI-Express (メモリlarrrarrインターコネクト)
ndash高速の商用製品やオープンソースでの強力(OpenIBなど)
スケーラブルシステムズ株式会社
標準コンポーネントの利点
bull 特定のベンダーからのシステムを組み合わせるのではなく他社のシステムも含めてベストなシステムの選択が可能
ndashスケーラブルSMPベクトル計算機クラスタの幅広い選択肢
ndash 64ビットマルチコアマイクロプロセッサの性能向上を最大限に活用
bull 標準コンポーネントの技術革新の活用
ndash PCI-ExpressやFB-DIMMの利用技術
スケーラブルシステムズ株式会社
Breaking the 1-2K nodes Barrier
bull 音の障壁サウンドバリヤー(sound barrier)飛行機の速度が音速近くになると衝撃波の発生によって抵抗の増大境界層の剥離など設計運用上のさまざまな障害(壁)に出合って超音速飛行は不可能かと思われた時代があった(1947年ごろまで)ので音の障壁といわれていた
httpwwwwilk4commiscsoundbreakhtm
クラスタのノード数がある規模に近くなるとその構築や運用において負担の増大システムの安定稼動スケーラビリティなど設計運用上のさまざまな障害(壁)に出合ってクラスタ構築は不可能と思われた時代があった()
スケーラブルシステムズ株式会社
ビルゲイツ氏の基調講演HPC goes mainstream
スケーラブルシステムズ株式会社
「Fast」「Good」「Cheap」のパズル
Fast
+ Cheap
Inferior
高い性能を廉価なシステムで構築することも可能ですただそのようなシステムの場合システムの構築や利用は必ずしも容易ではありません
Good
+ Cheap
Slow比較的小規模なシステムであれば廉価で使い勝手の良いものを探すことは可能ですしかしそのようなシステムでは拡張性やより大規模なシステム構築が出来ません
Good
+ Fast
Expensive
付加価値の高い性能の高いシステムは一般には高価ですその付加価値がユーザにとってメリットが無ければコストパフォーマンスの悪いシステムになるだけです
スケーラブルシステムズ株式会社
まとめとして
bull 「テクノロジー」をどのようにとらえるかndash企業経営基盤のコア要素
ndashユーザの本質的な課題を解決する戦略的な武器
bull マーケットを牽引する「テクノロジ」に求められることndashテクノロジとHPCにおけるITインフラの関係を明確にすること
bull ユーザに何らかのメリットをもたらさない「テクノロジー」は意味を成さない
ndashテクノロジーを最適に組み合わせることで問題解決のためのソリューションの提供が可能
スケーラブルシステムズ株式会社
まとめとして
bull bdquoTs‟ for HPC - インテルテクノロジのHPCにおける価値
ndash インテルテクノロジはHPCにおいて重要な構成要素となっている
ndashそれらの構成要素を統合することでより高い価値の提供が可能となる
ndash二分化しつつあるHPCシステムにおいて「標準コ
ンポーネント」としてのプラットフォームの動向として今後もその動向には注目する必要がある
スケーラブルシステムズ株式会社
さらに詳しい情報はhellip
bull 弊社のコンサルテーションに関するご提案資料もダウンロード可能です(非公開WEBページ)別途弊社に内容等についてはお尋ねください
お問い合わせ先102-0083
東京都千代田区麹町3-5-2
BUREX麹町 8F
電話03-5875-4718
FAX03-3237-7612
E-mailbizsstccojp
httpwwwsstccojp wwwsstccojpbiz
スケーラブルシステムズ株式会社
スケーラブルシステムズ株式会社
ハイエンドコンピューティングに関するコンサルテーションとして幅広いサービスをご提供致します
このサービスを最大限に活用していただくことでコラボレーションによる「顧客志向」 のコン
サルテーションサービスをご提供できればと思っております
スケーラブルシステムズ株式会社
社名製品名などは一般に各社の商標または登録商標です無断での引用転載を禁じます
In general the name of the company and the product name etc are the trademarks or registered trademarks of each company
Copyright Scalable Systems Co Ltd 2005 Unauthorized use is strictly forbidden
2005年11月
スケーラブルシステムズ株式会社
HPCシステムの現状分析
bull Good News
ldquoHPCシステムにおける問題はたった2つだけであるrdquo
スケーラブルシステムズ株式会社
ソフトウエアとハードウエア
bull ソフトウエアThe Law of Morehellip
ndashシステム規模とその複雑さの急速な増加拡大
ndash ソフトウエアの準備が出来た時点でハードウエアは既に陳腐化し次のシステムの導入の検討が進む
bull ハードウエアMoore‟s Law (ムーアの法則)ndash消費電力の問題のためプロセッサの動作クロックを今までのペースで上げることは困難
ndashプロセッサとメモリの性能差の拡大によるCPUサイクルとのギャップ
ndashピーク性能と実効性能のギャップの拡大
スケーラブルシステムズ株式会社
ソフトウエアThe Law of Morehellip
bull 研究者はより多くの時間(More Time)をソフトウエアの開発のために必要としている
bull 問題はより複雑(More Complex)になりそしてより多くのプロセッサ(More Processors)を利用して処理を行うにはより多くの困難(More
Difficult)が伴います
スケーラブルシステムズ株式会社
アルゴリズムの最適化
bull 計算機自身の進化と共に計算アルゴリズムも最適化されている
bull 例編微分方程式の解法ndash N=106の場合ガウスの消去法で線形方程式を解く場合と
MGでの計算では108倍の計算量が違うndash これは1Mflopssの計算機で100Tflopssの計算機に相当する計算を行ったことになる
O(N)F-cycle MG
O(N76 log(N))CGMILU
O(N43 log(N))Optimal SOR
O(N53 log(N))Gauss Seidel
O(N73)Banded Gauss Elimination
計算オペレーション数(概数)アルゴリズム
2u=f 100
100100
スケーラブルシステムズ株式会社
ソフトウエアThe Law of Morehellip
bull 一般の商用製品を活用したクラスタソリューションでは「Capacity」の実現は容易であるが「Capability」の実現については依然として課題が多いndash コストパフォーマンスの高いシステムの構築は可能だとしてもコストプロダクティビティの高いシステムの構築も課題
bull 数百~数千プロセッサ構成のシステムの利用技術と解析対象の検討ndash 小規模中規模問題の高速処理への対応ndash ソフトウエア開発の生産性
bull 数プロセッサ~数十プロセッサをより簡便に容易に利用できる技術ndash シングルプロセッサシングルスレッドを利用するのと同じようにhellip
スケーラブルシステムズ株式会社
ソフトウエアとハードウエア
bull ソフトウエアThe Law of Morehellip
ndashシステム規模とその複雑さの急速な増加拡大
ndash ソフトウエアの準備が出来た時点でハードウエアは既に陳腐化し次のシステムの導入の検討が進む
bull ハードウエアMoore‟s Law (ムーアの法則)ndash消費電力の問題のためプロセッサの動作クロックを今までのペースで上げることは困難
ndashプロセッサとメモリの性能差の拡大によるCPUサイクルとのギャップ
ndashピーク性能と実効性能のギャップの拡大
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash過去12年間でPentiumプロセッサの動作周波数は60 MHz から 3800 MHz にまでアップ
ndash現在までの高性能化の約80 はクロック周波数の向上によるもの
スケーラブルシステムズ株式会社
ハードウエアの問題Moore‟s Lawムーアの法則
bull インテルの共同設立者の1人である Gordon Moore 博士が1965年4月19日号の「Electronics」誌に投稿した 「一定面積に集積されるトランジスタの数は12か月で倍増しそれに伴いトランジスタの動作速度が向上する」という予測 (その後1975年に Moore 博士はチップの複雑化を考慮してトランジスタ数の倍増ペースを24か月に修正)
bull また一般にはあまり知られていないがテクノロジの進歩とともに製造コストが劇的に下落することも予測(左図)
httpwwwintelcojpjpdevelopertechnologysiliconmooreslawindexhtm
指数関数的成長は永遠には続かないしかしその永遠を先延ばしにすることはできる [英語 PDF 形式 2MB]
Gordon E Moore2003年2月10日ISSCC (International
Solid State Circuits Conference) でのプレゼンテーション
Dr Gordon Moore
(co-founder of Intel)
スケーラブルシステムズ株式会社
Technology Trend
ムーアの法則依然として有効
スケーラブルシステムズ株式会社
性能向上の源泉は
ハードウエアデバイス技術の進歩bull ロジック回路のスイッチング速度の向上とデバイス密度bull メモリサイズの拡大とアクセス速度の向上bull 通信性能(バンド幅とレイテンシの向上)
bull 並列性ndash 1サイクルでの命令実行数
bull 命令レベルでの並列性(ILP)
bull ベクトル処理ndash プロセッサあたりコア数ndash ノードあたりのプロセッサ数ndash システムあたりのノード数
コンピュータアーキテクチャbull 命令発行実行速度の向上
ndash パイプライン化ndash 分岐予測ndash キャッシュndash Out-of-order など
スケーラブルシステムズ株式会社
GHz競争
bull 2000年に開催されたIEEE国際電子デバイス会議2000(2000
IEEE International Electron Devices MeetingIEDM) においてインテル社は4億個以上のトランジスタを集積した10GHz駆動のプロセッサが2005年までに実現可能だと発表しましたndash 実際にはインテル社の最速プロセッサは6ヶ月前に発表された
38GHz(Intel Pentium 4)となっています
bull Prescottプロセッサの6xxシリーズ発表に際してインテル社はldquoadding value beyond GHzrdquo のコメントを出していますそれ以降インテル社の多くのドキュメントやプレスリリースはこのldquoadding value beyond GHzrdquo についての内容を含んでいます
スケーラブルシステムズ株式会社
発熱の問題が深刻化
Bob Colwell氏の資料より抜粋
Increasing Frequency
Watt
scm
2
1
10
100
1000
15 10 07 05 035 025 018 013 01 007
i386i486
PentiumPentium Pro
Pentium IIPentium III
Hot Plate
Nuclear Reactor
Rocket Nozzle
Pentium 4(Prescott)
Pentium 4(Willamette)
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash過去12年間でPentiumプロセッサの動作周波数は60 MHz から 3800 MHz にまでアップ
ndash現在までの高性能化の約80 はクロック周波数の向上によるもの
bull 命令実行の強化と最適化
ndashより強力なインストラクションセット
ndash命令実行の最適化(パイプライン化分岐予測複数命令の同時実行命令実行順序の変更など)
スケーラブルシステムズ株式会社
技術のSカーブ技術開発の進展と製品性能の成長の関係
bull 技術開発の初期は製品性能はゆっくりと向上するがしだいに性能の向上の幅が大きくなるしかし次第に技術開発が成熟段階に入ると性能向上は逓減していく
製品の性能
時間
First Technology
Second Technology
Third Technology
RISCアウトオブオーダー実行lt1 instruction cycle
スーパースカラー RISCアウトオブオーダー実行lt2 instructions cycle
明示的並列命令コンピューティング技術 (EPIC)
命令の並列実行度の向上
スケーラブルシステムズ株式会社
マイクロアーキテクチャのSカーブ
Johan De Gelas Quest for More Processing Power
AnandTech Feb 8 2005
httpwwwanandtechcomcpuchipsetsshowdocaspxi=2343
101
102
103
104
105
106
MIP
S
1980 1985 1990 1995 2000 2005 2010
Pentium Architecture
Super Scalar
Pentium Pro Architecture
Speculative Out-of-Order
Pentium 4 Architecture
Trace Cache
Pentium 4 and Xeon Architecture with HT
Multi-Threaded
Multi-Threaded Multi-Core
Era of
Instruction
Parallelism
Era of
Thread
Parallelism
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash 過去12年間でPentiumプロセッサの動作周波数は60
MHz から 3800 MHz にまでアップ
ndash 現在までの高性能化の約80 はクロック周波数の向上によるもの
bull 命令実行の強化と最適化
ndash より強力なインストラクションセット
ndash 命令実行の最適化(パイプライン化分岐予測複数命令の同時実行命令実行順序の変更など)
bull 大容量キャッシュ
ndash プロセッサの速度とメモリレイテンシ(待ち時間)とバンド幅のギャップの拡大に対する対策対応としての容量の拡張
スケーラブルシステムズ株式会社
性能ギャップの問題
bull プロセッサ速度とメモリアクセスの速度差によってプロセッサがより高速になったとしてもプロセッサはその演算能力を完全に使い切ることが出来ない
1
10
100
1000Performance
1980 1990 2000
microProc
60yr
DRAM
7yr
バンド幅とレイテンシの問題が今後はより深刻(プロセッサ性能とのギャップはほぼ年率50の差で広がっている)
DRAM
CPU
プロセッサはほぼナノ秒に一回命令実行DRAMへのアクセスはほぼ100ナノ秒の時間
スケーラブルシステムズ株式会社
今後の発展と課題
Episode IV
A New Hope
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash 過去12年間でPentiumプロセッサの動作周波数は60
MHz から 3800 MHz にまでアップ
ndash 現在までの高性能化の約80 はクロック周波数の向上によるもの
bull 命令実行の強化と最適化
ndash より強力なインストラクションセット
ndash 命令実行の最適化(パイプライン化分岐予測複数命令の同時実行命令実行順序の変更など)
bull 大容量キャッシュ
ndash プロセッサの速度とメモリレイテンシ(待ち時間)とバンド幅のギャップの拡大に対する対策対応としての容量の拡張
スケーラブルシステムズ株式会社
デュアルコアプロセッサ
bull チップ上のトランジスタのより有効活用が可能bull スレッドレベルでの並列処理を活用bull よりシンプルなプロセッサの設計が可能
bull 将来のマイクロプロセッサはより多くのコアを実装可能bull 将来のマイクロプロセッサはより大容量のキャッシュの実装が可能
IBM Power5
with 19MB L2
AMD Opteron
with 2MB L2
Intel Montecito
With 24MB L3
スケーラブルシステムズ株式会社
イノベーションのジレンマ
製品の性能
時間
First Technology
Second Technology
Third Technology
RISCアウトオブオーダー実行lt1 instruction cycle
スーパースカラー RISCアウトオブオーダー実行lt2 instructions cycle
明示的並列命令コンピューティング技術 (EPIC)
命令の並列実行度の向上
製品の性能(異なる尺度)
時間
持続的イノベーション
技術革新が顧客の求める性能向上軸(ムーアの法則)に沿っている
破壊的イノベーションマルチコアとマルチスレッドによる並列処理
短期的には(シングルスレッドの性能)としては性能が低下するが将来の大きな性能向上とコスト低下機能強化の可能性が大きい
スケーラブルシステムズ株式会社
マルチコアの利点
ワークロードの処理効率の向上
bull マルチスレッドアプリケーションndash現在多くのアプリケーション(データベース
WEB科学技術計算)はマルチスレッド化
ndashマルチコアプロセッサではこれらのアプリケーションのマルチスレッドでの実行が容易に可能
bull 複数ジョブの処理ndashシステムでは複数のワークロード同時に処理することが必要
ndashマルチコアではこれらのワークロードへの処理が可能
スケーラブルシステムズ株式会社
マルチコアの利点
消費電力あたりの性能を最大にし高性能で低消費電力のシステム構築が可能
bull OS自身のマルチスレッド対応
ndash OSのサービスもマルチスレッドで処理することでより効率よく処理することが可能
bull 仮想化
ndashサーバのセキュリティや管理の強化
ndash管理するノード数を減らし運用コストの削減を図る
bull 最新のソフトウエアテクノロジの活用
スケーラブルシステムズ株式会社
大きな変革しかし容易ではない
マルチコアプロセッシング(または汎用もしくは専用プロセッサをソケットに複数搭載可能なこと)はEthernetの誕生以来ITインフラに対しての大きなインパクトをもたらします
デュアルプロセッサは386プロセッサの発表以来性能に関して最大の向上を実現しますしかしこのような性能向上にはソフトウエアの最適化がプロセッサの性能をフルに発揮するためには必要です
スケーラブルシステムズ株式会社
並列性(Parallelism)の利用
マルチタスク処理
MPIなどによる複数のノード間での並列処理
ユーザ及びコンパイラによるスレッドレベルでの並列処理(TLP)
コンパイラによる命列実行レベルでの並列処理(ILP)
マルチコア
マルチプロセッサ
マルチノード
マルチインストラクション
システム
スケーラブルシステムズ株式会社
ムーアの法則(GHz から MC へ)
マルチコアによる性能向上
動作周波数の向上による性能向上
性能
2005
bullマルチスレッドbullマルチタスクbull トレーニングbullツールbullhelliphellip
並列処理による性能向上についてはシステムサポートやプログラミングサポートなどの面での技術支援が重要です
スケーラブルシステムズ株式会社
Episode VI
Return of the Jedi
Ts for HPC - インテルテクノロジのHPCにおける価値の考察
スケーラブルシステムズ株式会社
将来予測の難しさ
bull ldquoI think there is a world market for maybe five
computersrdquobull Thomas Watson chairman of IBM 1943
bull ldquoThere is no reason for any individual to have a
computer in their homerdquobull Ken Olson president and founder of digital equipment
corporation 1977
bull ldquoThere are only about 100 potential customers
worldwide for a Cray-1rdquobull Seymour Cray 1977
bull ldquo640K [of memory] ought to be enough for
anybodyrdquobull Bill Gates chairman of Microsoft1981
スケーラブルシステムズ株式会社
「未来を予測する最良の方法はそれを創造してしまうことである」The best way to predict future is to invent it
Dr Alan Kay President of Viewpoints Research
Institute Inc
スケーラブルシステムズ株式会社
ITマネージメントの課題
bull プラットフォームの内部からの保護ndash ウイルスやワームなど悪意あるソフトウェアからの保護
bull 資産管理ndash 多くの IT 部門では特定できない資産が問題
bull オンラインおよびリモート管理診断機能 ndash アップグレード診断復旧のための作業の効率化
bull アプリケーション統合の困難さ
ndash アプリケーションの高度化と複雑化によって複数のアプリケーションを組み合わせるての動作に問題
bull 動的なリソース割り当て
ndash 組織内で未使用のCPUやメモリの活用
スケーラブルシステムズ株式会社
マーケットトレンド
All Servers Worldwide 2003 2004 2005 20062003 to 2006
CAGR
2005 to 2006
CAGR
Total Factory Revenue($B) $46149 $49146 $51268 $52251 42 19
Units Shipped(same as nodes) 5278222 6307484 7050099 7472649 123 60
Processor Dies Shipped 8662823 10134624 11712766 12779159 138 91
HPC Technical Servers Worldwide 2003 2004 2005 20062003 to 2006
CAGR
2005 to 2006
CAGR
HPC Server Revenue($B) $5698 $7393 $9208 $10030 207 89
Adjusted Revenues(To much
enterprise)$5128 $6654 $8287 $9027 207 89
Node Units Shipped 411327 734510 1215735 1419221 511 167
Processor Elements Shipped 1002905 1657827 2681079 3351843 495 250
HPC As A Ratio Of All Servers 2003 2004 2005 2006
Revenue($B) 123 150 180 192
Adjusted Revenues(Apples-to-
apples)111 135 162 173
Units Shipped(Nodes) 78 116 172 190
Processors Shipped 116 164 226 261
Source IDC 2007
スケーラブルシステムズ株式会社
HPCマーケット(対全サーバマーケット)
0
5
10
15
20
25
30
2003 2004 2005 2006
Revenue($B)
Adjusted Revenues(Apples-to-apples)
Units Shipped(Nodes)
Processors Shipped
スケーラブルシステムズ株式会社
マーケットトレンド
Source IDC 2004
Cost of mgmt amp admin 10 CAGR
$0
$20
$40
$60
$80
$100
$120
$140
$160
$180
$200
1996 rsquo97 rsquo98 rsquo992000 rsquo01 rsquo02 rsquo03 rsquo04 rsquo05 rsquo06 rsquo07 rsquo08-
New server spending (USM$) 3 CAGR
Spending (USB$)
5
10
15
20
25
30
35
Installed Base (M Units)
bull ハードウェアの減価償却費は IT の TCO 全体の約25 にすぎない
bull ソフトウェアのコストはわずか10~15
bull 電気などの公共料金フロアスペース電話回線など設備面のコストの割合もきわめて小さい
bull プラットフォームのコストではなくTCOの大きな比率を占めるのは人件費となっている
スケーラブルシステムズ株式会社
運用管理コストの低減
bull 「もっと処理性能を」と「より安価に」を実現するためにワークステーションやサーバでの分散処理の導入
bull ユーザや企業に新たな価値をもたらしてはいるが管理責任とその負担の分散を招き結果的に運用管理コストを押し上げる
メインフレームスーパーコンピュータ
仮想化によるサーバコンソリデーション
クラスタによる仮想コンピュータ
スケーラブルシステムズ株式会社
次世代HPCインフラ
bull コアとスレッド
ndash より多くのスレッドを効率よく利用可能
ndash マルチスレッド向け最適化
bull 電力管理
ndash 省電力
ndash データセンター運用管理機能
bull 仮想化
ndash 柔軟性と優れた運用管理
ndash 仮想的なシステムパーティション
bull RAS
ndash ハードウエアベースの自己監視自己管理
ndash ファームウエアベースのエラー履歴管理
bull システム管理
ndash より低いTCOを実現するための一般標準化されたマネージメント機能
スケーラブルシステムズ株式会社
高速プロセッサ
64ビットアドレス
メモリ性能と容
量
IOバンド幅
インターコネクト
省電力
システムのlsquoバランスrsquo
マルチコアによってプロセッサ単体の処理性能の向上を図る
64ビットのアドレス空間と
拡張されたレジスタによるOSとアプリケーション双方の機能性能拡張
64ビット化とマルチコア化
にともなう高速大容量へのニーズに対応しまたその拡張性の高い実装技術の実現
CPU-メモリ間の高速な
データ転送やより高速なネットワーク大規模なストレージのサポート
大規模なクラスタシステムの構築及びアプリケーションのワークロードに対応した高速性能
エコシステムに対応するためにも電力消費量や発熱量を積極的に抑える技術の開発
スケーラブルシステムズ株式会社
HPCの二極分化
Going UP
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
Going DOWN
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
スケーラブルシステムズ株式会社
システムとユーザの尺度
bull ユーザの尺度での性能(Performance)は時間当たりにどれだけの仕事を処理出来るか(仕事量 時間)
bull Flopsでの評価は実際には意味がないまた問題の規模(small medium large) という評価も難しい
bull ldquoスケーラビリティrdquoは対象を明確に規定する必要がある
システムの尺度 ユーザの尺度
Flops hArr 計算終了までの時間
メモリサイズ(GB) hArr モデルのサイズと計算結果
プロセッサ数 hArr ワークロードでの試行
データ長 hArr 計算精度
システム構成(クラスタ) hArr 導入コストと運用コスト
スケーラビリティ hArr ベンチマーク
スケーラブルシステムズ株式会社
HPCシステムの動向国家プロジェクトと商用製品のギャップの拡大
Going UP
Going DOWN
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
Peta-Scaleコンピューティングに求められる基本技術と現在のHPCの主要マーケットでの要求はあまりにも差が大きいrarrHPCSシステムは各社とのlsquoCommodityrsquoのマイクロプロセッサではなく独自のプロセッサを開発中
ハードウエアはrsquoCommodityrsquo
なものを利用してSWの改善サポート利用技術のサポートが今後の主要マーケットでの成功の鍵となる
スケーラブルシステムズ株式会社
HPCシステムの動向国家プロジェクト
Going UP
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
Peta-Scaleコンピューティングに求められる基本技術と現在のHPCの主要マーケットでの要求はあまりにも差が大きいrarrHPCSシステムは各社とのlsquoCommodityrsquoのマイクロプロセッサではなく独自のプロセッサを開発中
スケーラブルシステムズ株式会社
TOP500性能予測
1993 1995 1997 1999 2001 2003 2005 2007 2009 2011 2013 2015
N=
50
SUM
1 Gflops
1 Tflops
100 Mflops
100 Gflops
100 Tflops
10 Gflops
10 Tflops
1 Pflops
10 Pflops
IBM ASCI White
Blue GeneEarth Simulator
Intel
TOP500の総計が1PFを超えています
TOP500に掲載されるには1TF
が最低条件になっています
シングルシステムの1PFの実現は2009年
システム(プロセッサ数) 13倍年プロセッサ性能向上 14倍年トータル性能 18倍年
2009年までに1ペタFLOPS
スケーラブルシステムズ株式会社
性能ギャップの拡大
bull ピーク性能の大幅な向上ndash 1990年台は性能の向上は102のオーダーでしたが2000年台になると103のオーダーで性能は向上しています
しかしhellipndash 多くの科学技術計算用途のアプリケーションのピーク性能に対する実効性能の比率は5-10となっています(1990年代のベクトル計算機は40-50の対ピーク性能を示していました)
bull 今必要なのはndash より高い実効性能を発揮することが可能な計算アルゴリズムと手法の開発とスケーラビリティの向上
ndash プログラミングモデルなども含めてスケーラブルな計算機環境の構築
01
1
10
100
1000
2000 2004
Tera
flo
ps
1996
Performance
Gap
Peak Performance
Real Performance
NERSC User Group Meeting June 24-25 2004
Osni Marques and Tony Drummond
Lawrence Berkeley National Laboratory
スケーラブルシステムズ株式会社
ペタスケールシステムの構築
bull ソフトウエア(アプリケーションOSプログラミングAPIなど)の課題の克服が課題
bull システムの複雑さと生産性
例Linpack Benchmark
bull オリジナルベンチマークプログラム ~100ライン
bull HPL ベンチマークプログラム ~10000ライン(x100より複雑)
lsquo複雑さrsquoの壁
現在のテラFLOPS級の問題
Source ORNL
スケーラブルシステムズ株式会社
HPCシステムの動向商用製品
Going DOWN
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
ハードウエアはrsquoCommodityrsquo
なものを利用してSWの改善サポート利用技術のサポートが今後の主要マーケットでの成功の鍵となる
スケーラブルシステムズ株式会社
標準コンポーネントの進化
bull プロセッサの性能向上ndash lsquoマルチコアrsquoによる省電力での性能向上が可能
ndash HPCアプリケーションは容易にlsquoマルチコアrsquoの利点を活用可能 (OpenMPやMPI)
bull ファイルシステムndash高性能なスケーラブルファイルシステム(オープンソース)
bull インターコネクトndash PCI-Express (メモリlarrrarrインターコネクト)
ndash高速の商用製品やオープンソースでの強力(OpenIBなど)
スケーラブルシステムズ株式会社
標準コンポーネントの利点
bull 特定のベンダーからのシステムを組み合わせるのではなく他社のシステムも含めてベストなシステムの選択が可能
ndashスケーラブルSMPベクトル計算機クラスタの幅広い選択肢
ndash 64ビットマルチコアマイクロプロセッサの性能向上を最大限に活用
bull 標準コンポーネントの技術革新の活用
ndash PCI-ExpressやFB-DIMMの利用技術
スケーラブルシステムズ株式会社
Breaking the 1-2K nodes Barrier
bull 音の障壁サウンドバリヤー(sound barrier)飛行機の速度が音速近くになると衝撃波の発生によって抵抗の増大境界層の剥離など設計運用上のさまざまな障害(壁)に出合って超音速飛行は不可能かと思われた時代があった(1947年ごろまで)ので音の障壁といわれていた
httpwwwwilk4commiscsoundbreakhtm
クラスタのノード数がある規模に近くなるとその構築や運用において負担の増大システムの安定稼動スケーラビリティなど設計運用上のさまざまな障害(壁)に出合ってクラスタ構築は不可能と思われた時代があった()
スケーラブルシステムズ株式会社
ビルゲイツ氏の基調講演HPC goes mainstream
スケーラブルシステムズ株式会社
「Fast」「Good」「Cheap」のパズル
Fast
+ Cheap
Inferior
高い性能を廉価なシステムで構築することも可能ですただそのようなシステムの場合システムの構築や利用は必ずしも容易ではありません
Good
+ Cheap
Slow比較的小規模なシステムであれば廉価で使い勝手の良いものを探すことは可能ですしかしそのようなシステムでは拡張性やより大規模なシステム構築が出来ません
Good
+ Fast
Expensive
付加価値の高い性能の高いシステムは一般には高価ですその付加価値がユーザにとってメリットが無ければコストパフォーマンスの悪いシステムになるだけです
スケーラブルシステムズ株式会社
まとめとして
bull 「テクノロジー」をどのようにとらえるかndash企業経営基盤のコア要素
ndashユーザの本質的な課題を解決する戦略的な武器
bull マーケットを牽引する「テクノロジ」に求められることndashテクノロジとHPCにおけるITインフラの関係を明確にすること
bull ユーザに何らかのメリットをもたらさない「テクノロジー」は意味を成さない
ndashテクノロジーを最適に組み合わせることで問題解決のためのソリューションの提供が可能
スケーラブルシステムズ株式会社
まとめとして
bull bdquoTs‟ for HPC - インテルテクノロジのHPCにおける価値
ndash インテルテクノロジはHPCにおいて重要な構成要素となっている
ndashそれらの構成要素を統合することでより高い価値の提供が可能となる
ndash二分化しつつあるHPCシステムにおいて「標準コ
ンポーネント」としてのプラットフォームの動向として今後もその動向には注目する必要がある
スケーラブルシステムズ株式会社
さらに詳しい情報はhellip
bull 弊社のコンサルテーションに関するご提案資料もダウンロード可能です(非公開WEBページ)別途弊社に内容等についてはお尋ねください
お問い合わせ先102-0083
東京都千代田区麹町3-5-2
BUREX麹町 8F
電話03-5875-4718
FAX03-3237-7612
E-mailbizsstccojp
httpwwwsstccojp wwwsstccojpbiz
スケーラブルシステムズ株式会社
スケーラブルシステムズ株式会社
ハイエンドコンピューティングに関するコンサルテーションとして幅広いサービスをご提供致します
このサービスを最大限に活用していただくことでコラボレーションによる「顧客志向」 のコン
サルテーションサービスをご提供できればと思っております
スケーラブルシステムズ株式会社
社名製品名などは一般に各社の商標または登録商標です無断での引用転載を禁じます
In general the name of the company and the product name etc are the trademarks or registered trademarks of each company
Copyright Scalable Systems Co Ltd 2005 Unauthorized use is strictly forbidden
2005年11月
スケーラブルシステムズ株式会社
ソフトウエアとハードウエア
bull ソフトウエアThe Law of Morehellip
ndashシステム規模とその複雑さの急速な増加拡大
ndash ソフトウエアの準備が出来た時点でハードウエアは既に陳腐化し次のシステムの導入の検討が進む
bull ハードウエアMoore‟s Law (ムーアの法則)ndash消費電力の問題のためプロセッサの動作クロックを今までのペースで上げることは困難
ndashプロセッサとメモリの性能差の拡大によるCPUサイクルとのギャップ
ndashピーク性能と実効性能のギャップの拡大
スケーラブルシステムズ株式会社
ソフトウエアThe Law of Morehellip
bull 研究者はより多くの時間(More Time)をソフトウエアの開発のために必要としている
bull 問題はより複雑(More Complex)になりそしてより多くのプロセッサ(More Processors)を利用して処理を行うにはより多くの困難(More
Difficult)が伴います
スケーラブルシステムズ株式会社
アルゴリズムの最適化
bull 計算機自身の進化と共に計算アルゴリズムも最適化されている
bull 例編微分方程式の解法ndash N=106の場合ガウスの消去法で線形方程式を解く場合と
MGでの計算では108倍の計算量が違うndash これは1Mflopssの計算機で100Tflopssの計算機に相当する計算を行ったことになる
O(N)F-cycle MG
O(N76 log(N))CGMILU
O(N43 log(N))Optimal SOR
O(N53 log(N))Gauss Seidel
O(N73)Banded Gauss Elimination
計算オペレーション数(概数)アルゴリズム
2u=f 100
100100
スケーラブルシステムズ株式会社
ソフトウエアThe Law of Morehellip
bull 一般の商用製品を活用したクラスタソリューションでは「Capacity」の実現は容易であるが「Capability」の実現については依然として課題が多いndash コストパフォーマンスの高いシステムの構築は可能だとしてもコストプロダクティビティの高いシステムの構築も課題
bull 数百~数千プロセッサ構成のシステムの利用技術と解析対象の検討ndash 小規模中規模問題の高速処理への対応ndash ソフトウエア開発の生産性
bull 数プロセッサ~数十プロセッサをより簡便に容易に利用できる技術ndash シングルプロセッサシングルスレッドを利用するのと同じようにhellip
スケーラブルシステムズ株式会社
ソフトウエアとハードウエア
bull ソフトウエアThe Law of Morehellip
ndashシステム規模とその複雑さの急速な増加拡大
ndash ソフトウエアの準備が出来た時点でハードウエアは既に陳腐化し次のシステムの導入の検討が進む
bull ハードウエアMoore‟s Law (ムーアの法則)ndash消費電力の問題のためプロセッサの動作クロックを今までのペースで上げることは困難
ndashプロセッサとメモリの性能差の拡大によるCPUサイクルとのギャップ
ndashピーク性能と実効性能のギャップの拡大
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash過去12年間でPentiumプロセッサの動作周波数は60 MHz から 3800 MHz にまでアップ
ndash現在までの高性能化の約80 はクロック周波数の向上によるもの
スケーラブルシステムズ株式会社
ハードウエアの問題Moore‟s Lawムーアの法則
bull インテルの共同設立者の1人である Gordon Moore 博士が1965年4月19日号の「Electronics」誌に投稿した 「一定面積に集積されるトランジスタの数は12か月で倍増しそれに伴いトランジスタの動作速度が向上する」という予測 (その後1975年に Moore 博士はチップの複雑化を考慮してトランジスタ数の倍増ペースを24か月に修正)
bull また一般にはあまり知られていないがテクノロジの進歩とともに製造コストが劇的に下落することも予測(左図)
httpwwwintelcojpjpdevelopertechnologysiliconmooreslawindexhtm
指数関数的成長は永遠には続かないしかしその永遠を先延ばしにすることはできる [英語 PDF 形式 2MB]
Gordon E Moore2003年2月10日ISSCC (International
Solid State Circuits Conference) でのプレゼンテーション
Dr Gordon Moore
(co-founder of Intel)
スケーラブルシステムズ株式会社
Technology Trend
ムーアの法則依然として有効
スケーラブルシステムズ株式会社
性能向上の源泉は
ハードウエアデバイス技術の進歩bull ロジック回路のスイッチング速度の向上とデバイス密度bull メモリサイズの拡大とアクセス速度の向上bull 通信性能(バンド幅とレイテンシの向上)
bull 並列性ndash 1サイクルでの命令実行数
bull 命令レベルでの並列性(ILP)
bull ベクトル処理ndash プロセッサあたりコア数ndash ノードあたりのプロセッサ数ndash システムあたりのノード数
コンピュータアーキテクチャbull 命令発行実行速度の向上
ndash パイプライン化ndash 分岐予測ndash キャッシュndash Out-of-order など
スケーラブルシステムズ株式会社
GHz競争
bull 2000年に開催されたIEEE国際電子デバイス会議2000(2000
IEEE International Electron Devices MeetingIEDM) においてインテル社は4億個以上のトランジスタを集積した10GHz駆動のプロセッサが2005年までに実現可能だと発表しましたndash 実際にはインテル社の最速プロセッサは6ヶ月前に発表された
38GHz(Intel Pentium 4)となっています
bull Prescottプロセッサの6xxシリーズ発表に際してインテル社はldquoadding value beyond GHzrdquo のコメントを出していますそれ以降インテル社の多くのドキュメントやプレスリリースはこのldquoadding value beyond GHzrdquo についての内容を含んでいます
スケーラブルシステムズ株式会社
発熱の問題が深刻化
Bob Colwell氏の資料より抜粋
Increasing Frequency
Watt
scm
2
1
10
100
1000
15 10 07 05 035 025 018 013 01 007
i386i486
PentiumPentium Pro
Pentium IIPentium III
Hot Plate
Nuclear Reactor
Rocket Nozzle
Pentium 4(Prescott)
Pentium 4(Willamette)
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash過去12年間でPentiumプロセッサの動作周波数は60 MHz から 3800 MHz にまでアップ
ndash現在までの高性能化の約80 はクロック周波数の向上によるもの
bull 命令実行の強化と最適化
ndashより強力なインストラクションセット
ndash命令実行の最適化(パイプライン化分岐予測複数命令の同時実行命令実行順序の変更など)
スケーラブルシステムズ株式会社
技術のSカーブ技術開発の進展と製品性能の成長の関係
bull 技術開発の初期は製品性能はゆっくりと向上するがしだいに性能の向上の幅が大きくなるしかし次第に技術開発が成熟段階に入ると性能向上は逓減していく
製品の性能
時間
First Technology
Second Technology
Third Technology
RISCアウトオブオーダー実行lt1 instruction cycle
スーパースカラー RISCアウトオブオーダー実行lt2 instructions cycle
明示的並列命令コンピューティング技術 (EPIC)
命令の並列実行度の向上
スケーラブルシステムズ株式会社
マイクロアーキテクチャのSカーブ
Johan De Gelas Quest for More Processing Power
AnandTech Feb 8 2005
httpwwwanandtechcomcpuchipsetsshowdocaspxi=2343
101
102
103
104
105
106
MIP
S
1980 1985 1990 1995 2000 2005 2010
Pentium Architecture
Super Scalar
Pentium Pro Architecture
Speculative Out-of-Order
Pentium 4 Architecture
Trace Cache
Pentium 4 and Xeon Architecture with HT
Multi-Threaded
Multi-Threaded Multi-Core
Era of
Instruction
Parallelism
Era of
Thread
Parallelism
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash 過去12年間でPentiumプロセッサの動作周波数は60
MHz から 3800 MHz にまでアップ
ndash 現在までの高性能化の約80 はクロック周波数の向上によるもの
bull 命令実行の強化と最適化
ndash より強力なインストラクションセット
ndash 命令実行の最適化(パイプライン化分岐予測複数命令の同時実行命令実行順序の変更など)
bull 大容量キャッシュ
ndash プロセッサの速度とメモリレイテンシ(待ち時間)とバンド幅のギャップの拡大に対する対策対応としての容量の拡張
スケーラブルシステムズ株式会社
性能ギャップの問題
bull プロセッサ速度とメモリアクセスの速度差によってプロセッサがより高速になったとしてもプロセッサはその演算能力を完全に使い切ることが出来ない
1
10
100
1000Performance
1980 1990 2000
microProc
60yr
DRAM
7yr
バンド幅とレイテンシの問題が今後はより深刻(プロセッサ性能とのギャップはほぼ年率50の差で広がっている)
DRAM
CPU
プロセッサはほぼナノ秒に一回命令実行DRAMへのアクセスはほぼ100ナノ秒の時間
スケーラブルシステムズ株式会社
今後の発展と課題
Episode IV
A New Hope
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash 過去12年間でPentiumプロセッサの動作周波数は60
MHz から 3800 MHz にまでアップ
ndash 現在までの高性能化の約80 はクロック周波数の向上によるもの
bull 命令実行の強化と最適化
ndash より強力なインストラクションセット
ndash 命令実行の最適化(パイプライン化分岐予測複数命令の同時実行命令実行順序の変更など)
bull 大容量キャッシュ
ndash プロセッサの速度とメモリレイテンシ(待ち時間)とバンド幅のギャップの拡大に対する対策対応としての容量の拡張
スケーラブルシステムズ株式会社
デュアルコアプロセッサ
bull チップ上のトランジスタのより有効活用が可能bull スレッドレベルでの並列処理を活用bull よりシンプルなプロセッサの設計が可能
bull 将来のマイクロプロセッサはより多くのコアを実装可能bull 将来のマイクロプロセッサはより大容量のキャッシュの実装が可能
IBM Power5
with 19MB L2
AMD Opteron
with 2MB L2
Intel Montecito
With 24MB L3
スケーラブルシステムズ株式会社
イノベーションのジレンマ
製品の性能
時間
First Technology
Second Technology
Third Technology
RISCアウトオブオーダー実行lt1 instruction cycle
スーパースカラー RISCアウトオブオーダー実行lt2 instructions cycle
明示的並列命令コンピューティング技術 (EPIC)
命令の並列実行度の向上
製品の性能(異なる尺度)
時間
持続的イノベーション
技術革新が顧客の求める性能向上軸(ムーアの法則)に沿っている
破壊的イノベーションマルチコアとマルチスレッドによる並列処理
短期的には(シングルスレッドの性能)としては性能が低下するが将来の大きな性能向上とコスト低下機能強化の可能性が大きい
スケーラブルシステムズ株式会社
マルチコアの利点
ワークロードの処理効率の向上
bull マルチスレッドアプリケーションndash現在多くのアプリケーション(データベース
WEB科学技術計算)はマルチスレッド化
ndashマルチコアプロセッサではこれらのアプリケーションのマルチスレッドでの実行が容易に可能
bull 複数ジョブの処理ndashシステムでは複数のワークロード同時に処理することが必要
ndashマルチコアではこれらのワークロードへの処理が可能
スケーラブルシステムズ株式会社
マルチコアの利点
消費電力あたりの性能を最大にし高性能で低消費電力のシステム構築が可能
bull OS自身のマルチスレッド対応
ndash OSのサービスもマルチスレッドで処理することでより効率よく処理することが可能
bull 仮想化
ndashサーバのセキュリティや管理の強化
ndash管理するノード数を減らし運用コストの削減を図る
bull 最新のソフトウエアテクノロジの活用
スケーラブルシステムズ株式会社
大きな変革しかし容易ではない
マルチコアプロセッシング(または汎用もしくは専用プロセッサをソケットに複数搭載可能なこと)はEthernetの誕生以来ITインフラに対しての大きなインパクトをもたらします
デュアルプロセッサは386プロセッサの発表以来性能に関して最大の向上を実現しますしかしこのような性能向上にはソフトウエアの最適化がプロセッサの性能をフルに発揮するためには必要です
スケーラブルシステムズ株式会社
並列性(Parallelism)の利用
マルチタスク処理
MPIなどによる複数のノード間での並列処理
ユーザ及びコンパイラによるスレッドレベルでの並列処理(TLP)
コンパイラによる命列実行レベルでの並列処理(ILP)
マルチコア
マルチプロセッサ
マルチノード
マルチインストラクション
システム
スケーラブルシステムズ株式会社
ムーアの法則(GHz から MC へ)
マルチコアによる性能向上
動作周波数の向上による性能向上
性能
2005
bullマルチスレッドbullマルチタスクbull トレーニングbullツールbullhelliphellip
並列処理による性能向上についてはシステムサポートやプログラミングサポートなどの面での技術支援が重要です
スケーラブルシステムズ株式会社
Episode VI
Return of the Jedi
Ts for HPC - インテルテクノロジのHPCにおける価値の考察
スケーラブルシステムズ株式会社
将来予測の難しさ
bull ldquoI think there is a world market for maybe five
computersrdquobull Thomas Watson chairman of IBM 1943
bull ldquoThere is no reason for any individual to have a
computer in their homerdquobull Ken Olson president and founder of digital equipment
corporation 1977
bull ldquoThere are only about 100 potential customers
worldwide for a Cray-1rdquobull Seymour Cray 1977
bull ldquo640K [of memory] ought to be enough for
anybodyrdquobull Bill Gates chairman of Microsoft1981
スケーラブルシステムズ株式会社
「未来を予測する最良の方法はそれを創造してしまうことである」The best way to predict future is to invent it
Dr Alan Kay President of Viewpoints Research
Institute Inc
スケーラブルシステムズ株式会社
ITマネージメントの課題
bull プラットフォームの内部からの保護ndash ウイルスやワームなど悪意あるソフトウェアからの保護
bull 資産管理ndash 多くの IT 部門では特定できない資産が問題
bull オンラインおよびリモート管理診断機能 ndash アップグレード診断復旧のための作業の効率化
bull アプリケーション統合の困難さ
ndash アプリケーションの高度化と複雑化によって複数のアプリケーションを組み合わせるての動作に問題
bull 動的なリソース割り当て
ndash 組織内で未使用のCPUやメモリの活用
スケーラブルシステムズ株式会社
マーケットトレンド
All Servers Worldwide 2003 2004 2005 20062003 to 2006
CAGR
2005 to 2006
CAGR
Total Factory Revenue($B) $46149 $49146 $51268 $52251 42 19
Units Shipped(same as nodes) 5278222 6307484 7050099 7472649 123 60
Processor Dies Shipped 8662823 10134624 11712766 12779159 138 91
HPC Technical Servers Worldwide 2003 2004 2005 20062003 to 2006
CAGR
2005 to 2006
CAGR
HPC Server Revenue($B) $5698 $7393 $9208 $10030 207 89
Adjusted Revenues(To much
enterprise)$5128 $6654 $8287 $9027 207 89
Node Units Shipped 411327 734510 1215735 1419221 511 167
Processor Elements Shipped 1002905 1657827 2681079 3351843 495 250
HPC As A Ratio Of All Servers 2003 2004 2005 2006
Revenue($B) 123 150 180 192
Adjusted Revenues(Apples-to-
apples)111 135 162 173
Units Shipped(Nodes) 78 116 172 190
Processors Shipped 116 164 226 261
Source IDC 2007
スケーラブルシステムズ株式会社
HPCマーケット(対全サーバマーケット)
0
5
10
15
20
25
30
2003 2004 2005 2006
Revenue($B)
Adjusted Revenues(Apples-to-apples)
Units Shipped(Nodes)
Processors Shipped
スケーラブルシステムズ株式会社
マーケットトレンド
Source IDC 2004
Cost of mgmt amp admin 10 CAGR
$0
$20
$40
$60
$80
$100
$120
$140
$160
$180
$200
1996 rsquo97 rsquo98 rsquo992000 rsquo01 rsquo02 rsquo03 rsquo04 rsquo05 rsquo06 rsquo07 rsquo08-
New server spending (USM$) 3 CAGR
Spending (USB$)
5
10
15
20
25
30
35
Installed Base (M Units)
bull ハードウェアの減価償却費は IT の TCO 全体の約25 にすぎない
bull ソフトウェアのコストはわずか10~15
bull 電気などの公共料金フロアスペース電話回線など設備面のコストの割合もきわめて小さい
bull プラットフォームのコストではなくTCOの大きな比率を占めるのは人件費となっている
スケーラブルシステムズ株式会社
運用管理コストの低減
bull 「もっと処理性能を」と「より安価に」を実現するためにワークステーションやサーバでの分散処理の導入
bull ユーザや企業に新たな価値をもたらしてはいるが管理責任とその負担の分散を招き結果的に運用管理コストを押し上げる
メインフレームスーパーコンピュータ
仮想化によるサーバコンソリデーション
クラスタによる仮想コンピュータ
スケーラブルシステムズ株式会社
次世代HPCインフラ
bull コアとスレッド
ndash より多くのスレッドを効率よく利用可能
ndash マルチスレッド向け最適化
bull 電力管理
ndash 省電力
ndash データセンター運用管理機能
bull 仮想化
ndash 柔軟性と優れた運用管理
ndash 仮想的なシステムパーティション
bull RAS
ndash ハードウエアベースの自己監視自己管理
ndash ファームウエアベースのエラー履歴管理
bull システム管理
ndash より低いTCOを実現するための一般標準化されたマネージメント機能
スケーラブルシステムズ株式会社
高速プロセッサ
64ビットアドレス
メモリ性能と容
量
IOバンド幅
インターコネクト
省電力
システムのlsquoバランスrsquo
マルチコアによってプロセッサ単体の処理性能の向上を図る
64ビットのアドレス空間と
拡張されたレジスタによるOSとアプリケーション双方の機能性能拡張
64ビット化とマルチコア化
にともなう高速大容量へのニーズに対応しまたその拡張性の高い実装技術の実現
CPU-メモリ間の高速な
データ転送やより高速なネットワーク大規模なストレージのサポート
大規模なクラスタシステムの構築及びアプリケーションのワークロードに対応した高速性能
エコシステムに対応するためにも電力消費量や発熱量を積極的に抑える技術の開発
スケーラブルシステムズ株式会社
HPCの二極分化
Going UP
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
Going DOWN
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
スケーラブルシステムズ株式会社
システムとユーザの尺度
bull ユーザの尺度での性能(Performance)は時間当たりにどれだけの仕事を処理出来るか(仕事量 時間)
bull Flopsでの評価は実際には意味がないまた問題の規模(small medium large) という評価も難しい
bull ldquoスケーラビリティrdquoは対象を明確に規定する必要がある
システムの尺度 ユーザの尺度
Flops hArr 計算終了までの時間
メモリサイズ(GB) hArr モデルのサイズと計算結果
プロセッサ数 hArr ワークロードでの試行
データ長 hArr 計算精度
システム構成(クラスタ) hArr 導入コストと運用コスト
スケーラビリティ hArr ベンチマーク
スケーラブルシステムズ株式会社
HPCシステムの動向国家プロジェクトと商用製品のギャップの拡大
Going UP
Going DOWN
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
Peta-Scaleコンピューティングに求められる基本技術と現在のHPCの主要マーケットでの要求はあまりにも差が大きいrarrHPCSシステムは各社とのlsquoCommodityrsquoのマイクロプロセッサではなく独自のプロセッサを開発中
ハードウエアはrsquoCommodityrsquo
なものを利用してSWの改善サポート利用技術のサポートが今後の主要マーケットでの成功の鍵となる
スケーラブルシステムズ株式会社
HPCシステムの動向国家プロジェクト
Going UP
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
Peta-Scaleコンピューティングに求められる基本技術と現在のHPCの主要マーケットでの要求はあまりにも差が大きいrarrHPCSシステムは各社とのlsquoCommodityrsquoのマイクロプロセッサではなく独自のプロセッサを開発中
スケーラブルシステムズ株式会社
TOP500性能予測
1993 1995 1997 1999 2001 2003 2005 2007 2009 2011 2013 2015
N=
50
SUM
1 Gflops
1 Tflops
100 Mflops
100 Gflops
100 Tflops
10 Gflops
10 Tflops
1 Pflops
10 Pflops
IBM ASCI White
Blue GeneEarth Simulator
Intel
TOP500の総計が1PFを超えています
TOP500に掲載されるには1TF
が最低条件になっています
シングルシステムの1PFの実現は2009年
システム(プロセッサ数) 13倍年プロセッサ性能向上 14倍年トータル性能 18倍年
2009年までに1ペタFLOPS
スケーラブルシステムズ株式会社
性能ギャップの拡大
bull ピーク性能の大幅な向上ndash 1990年台は性能の向上は102のオーダーでしたが2000年台になると103のオーダーで性能は向上しています
しかしhellipndash 多くの科学技術計算用途のアプリケーションのピーク性能に対する実効性能の比率は5-10となっています(1990年代のベクトル計算機は40-50の対ピーク性能を示していました)
bull 今必要なのはndash より高い実効性能を発揮することが可能な計算アルゴリズムと手法の開発とスケーラビリティの向上
ndash プログラミングモデルなども含めてスケーラブルな計算機環境の構築
01
1
10
100
1000
2000 2004
Tera
flo
ps
1996
Performance
Gap
Peak Performance
Real Performance
NERSC User Group Meeting June 24-25 2004
Osni Marques and Tony Drummond
Lawrence Berkeley National Laboratory
スケーラブルシステムズ株式会社
ペタスケールシステムの構築
bull ソフトウエア(アプリケーションOSプログラミングAPIなど)の課題の克服が課題
bull システムの複雑さと生産性
例Linpack Benchmark
bull オリジナルベンチマークプログラム ~100ライン
bull HPL ベンチマークプログラム ~10000ライン(x100より複雑)
lsquo複雑さrsquoの壁
現在のテラFLOPS級の問題
Source ORNL
スケーラブルシステムズ株式会社
HPCシステムの動向商用製品
Going DOWN
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
ハードウエアはrsquoCommodityrsquo
なものを利用してSWの改善サポート利用技術のサポートが今後の主要マーケットでの成功の鍵となる
スケーラブルシステムズ株式会社
標準コンポーネントの進化
bull プロセッサの性能向上ndash lsquoマルチコアrsquoによる省電力での性能向上が可能
ndash HPCアプリケーションは容易にlsquoマルチコアrsquoの利点を活用可能 (OpenMPやMPI)
bull ファイルシステムndash高性能なスケーラブルファイルシステム(オープンソース)
bull インターコネクトndash PCI-Express (メモリlarrrarrインターコネクト)
ndash高速の商用製品やオープンソースでの強力(OpenIBなど)
スケーラブルシステムズ株式会社
標準コンポーネントの利点
bull 特定のベンダーからのシステムを組み合わせるのではなく他社のシステムも含めてベストなシステムの選択が可能
ndashスケーラブルSMPベクトル計算機クラスタの幅広い選択肢
ndash 64ビットマルチコアマイクロプロセッサの性能向上を最大限に活用
bull 標準コンポーネントの技術革新の活用
ndash PCI-ExpressやFB-DIMMの利用技術
スケーラブルシステムズ株式会社
Breaking the 1-2K nodes Barrier
bull 音の障壁サウンドバリヤー(sound barrier)飛行機の速度が音速近くになると衝撃波の発生によって抵抗の増大境界層の剥離など設計運用上のさまざまな障害(壁)に出合って超音速飛行は不可能かと思われた時代があった(1947年ごろまで)ので音の障壁といわれていた
httpwwwwilk4commiscsoundbreakhtm
クラスタのノード数がある規模に近くなるとその構築や運用において負担の増大システムの安定稼動スケーラビリティなど設計運用上のさまざまな障害(壁)に出合ってクラスタ構築は不可能と思われた時代があった()
スケーラブルシステムズ株式会社
ビルゲイツ氏の基調講演HPC goes mainstream
スケーラブルシステムズ株式会社
「Fast」「Good」「Cheap」のパズル
Fast
+ Cheap
Inferior
高い性能を廉価なシステムで構築することも可能ですただそのようなシステムの場合システムの構築や利用は必ずしも容易ではありません
Good
+ Cheap
Slow比較的小規模なシステムであれば廉価で使い勝手の良いものを探すことは可能ですしかしそのようなシステムでは拡張性やより大規模なシステム構築が出来ません
Good
+ Fast
Expensive
付加価値の高い性能の高いシステムは一般には高価ですその付加価値がユーザにとってメリットが無ければコストパフォーマンスの悪いシステムになるだけです
スケーラブルシステムズ株式会社
まとめとして
bull 「テクノロジー」をどのようにとらえるかndash企業経営基盤のコア要素
ndashユーザの本質的な課題を解決する戦略的な武器
bull マーケットを牽引する「テクノロジ」に求められることndashテクノロジとHPCにおけるITインフラの関係を明確にすること
bull ユーザに何らかのメリットをもたらさない「テクノロジー」は意味を成さない
ndashテクノロジーを最適に組み合わせることで問題解決のためのソリューションの提供が可能
スケーラブルシステムズ株式会社
まとめとして
bull bdquoTs‟ for HPC - インテルテクノロジのHPCにおける価値
ndash インテルテクノロジはHPCにおいて重要な構成要素となっている
ndashそれらの構成要素を統合することでより高い価値の提供が可能となる
ndash二分化しつつあるHPCシステムにおいて「標準コ
ンポーネント」としてのプラットフォームの動向として今後もその動向には注目する必要がある
スケーラブルシステムズ株式会社
さらに詳しい情報はhellip
bull 弊社のコンサルテーションに関するご提案資料もダウンロード可能です(非公開WEBページ)別途弊社に内容等についてはお尋ねください
お問い合わせ先102-0083
東京都千代田区麹町3-5-2
BUREX麹町 8F
電話03-5875-4718
FAX03-3237-7612
E-mailbizsstccojp
httpwwwsstccojp wwwsstccojpbiz
スケーラブルシステムズ株式会社
スケーラブルシステムズ株式会社
ハイエンドコンピューティングに関するコンサルテーションとして幅広いサービスをご提供致します
このサービスを最大限に活用していただくことでコラボレーションによる「顧客志向」 のコン
サルテーションサービスをご提供できればと思っております
スケーラブルシステムズ株式会社
社名製品名などは一般に各社の商標または登録商標です無断での引用転載を禁じます
In general the name of the company and the product name etc are the trademarks or registered trademarks of each company
Copyright Scalable Systems Co Ltd 2005 Unauthorized use is strictly forbidden
2005年11月
スケーラブルシステムズ株式会社
ソフトウエアThe Law of Morehellip
bull 研究者はより多くの時間(More Time)をソフトウエアの開発のために必要としている
bull 問題はより複雑(More Complex)になりそしてより多くのプロセッサ(More Processors)を利用して処理を行うにはより多くの困難(More
Difficult)が伴います
スケーラブルシステムズ株式会社
アルゴリズムの最適化
bull 計算機自身の進化と共に計算アルゴリズムも最適化されている
bull 例編微分方程式の解法ndash N=106の場合ガウスの消去法で線形方程式を解く場合と
MGでの計算では108倍の計算量が違うndash これは1Mflopssの計算機で100Tflopssの計算機に相当する計算を行ったことになる
O(N)F-cycle MG
O(N76 log(N))CGMILU
O(N43 log(N))Optimal SOR
O(N53 log(N))Gauss Seidel
O(N73)Banded Gauss Elimination
計算オペレーション数(概数)アルゴリズム
2u=f 100
100100
スケーラブルシステムズ株式会社
ソフトウエアThe Law of Morehellip
bull 一般の商用製品を活用したクラスタソリューションでは「Capacity」の実現は容易であるが「Capability」の実現については依然として課題が多いndash コストパフォーマンスの高いシステムの構築は可能だとしてもコストプロダクティビティの高いシステムの構築も課題
bull 数百~数千プロセッサ構成のシステムの利用技術と解析対象の検討ndash 小規模中規模問題の高速処理への対応ndash ソフトウエア開発の生産性
bull 数プロセッサ~数十プロセッサをより簡便に容易に利用できる技術ndash シングルプロセッサシングルスレッドを利用するのと同じようにhellip
スケーラブルシステムズ株式会社
ソフトウエアとハードウエア
bull ソフトウエアThe Law of Morehellip
ndashシステム規模とその複雑さの急速な増加拡大
ndash ソフトウエアの準備が出来た時点でハードウエアは既に陳腐化し次のシステムの導入の検討が進む
bull ハードウエアMoore‟s Law (ムーアの法則)ndash消費電力の問題のためプロセッサの動作クロックを今までのペースで上げることは困難
ndashプロセッサとメモリの性能差の拡大によるCPUサイクルとのギャップ
ndashピーク性能と実効性能のギャップの拡大
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash過去12年間でPentiumプロセッサの動作周波数は60 MHz から 3800 MHz にまでアップ
ndash現在までの高性能化の約80 はクロック周波数の向上によるもの
スケーラブルシステムズ株式会社
ハードウエアの問題Moore‟s Lawムーアの法則
bull インテルの共同設立者の1人である Gordon Moore 博士が1965年4月19日号の「Electronics」誌に投稿した 「一定面積に集積されるトランジスタの数は12か月で倍増しそれに伴いトランジスタの動作速度が向上する」という予測 (その後1975年に Moore 博士はチップの複雑化を考慮してトランジスタ数の倍増ペースを24か月に修正)
bull また一般にはあまり知られていないがテクノロジの進歩とともに製造コストが劇的に下落することも予測(左図)
httpwwwintelcojpjpdevelopertechnologysiliconmooreslawindexhtm
指数関数的成長は永遠には続かないしかしその永遠を先延ばしにすることはできる [英語 PDF 形式 2MB]
Gordon E Moore2003年2月10日ISSCC (International
Solid State Circuits Conference) でのプレゼンテーション
Dr Gordon Moore
(co-founder of Intel)
スケーラブルシステムズ株式会社
Technology Trend
ムーアの法則依然として有効
スケーラブルシステムズ株式会社
性能向上の源泉は
ハードウエアデバイス技術の進歩bull ロジック回路のスイッチング速度の向上とデバイス密度bull メモリサイズの拡大とアクセス速度の向上bull 通信性能(バンド幅とレイテンシの向上)
bull 並列性ndash 1サイクルでの命令実行数
bull 命令レベルでの並列性(ILP)
bull ベクトル処理ndash プロセッサあたりコア数ndash ノードあたりのプロセッサ数ndash システムあたりのノード数
コンピュータアーキテクチャbull 命令発行実行速度の向上
ndash パイプライン化ndash 分岐予測ndash キャッシュndash Out-of-order など
スケーラブルシステムズ株式会社
GHz競争
bull 2000年に開催されたIEEE国際電子デバイス会議2000(2000
IEEE International Electron Devices MeetingIEDM) においてインテル社は4億個以上のトランジスタを集積した10GHz駆動のプロセッサが2005年までに実現可能だと発表しましたndash 実際にはインテル社の最速プロセッサは6ヶ月前に発表された
38GHz(Intel Pentium 4)となっています
bull Prescottプロセッサの6xxシリーズ発表に際してインテル社はldquoadding value beyond GHzrdquo のコメントを出していますそれ以降インテル社の多くのドキュメントやプレスリリースはこのldquoadding value beyond GHzrdquo についての内容を含んでいます
スケーラブルシステムズ株式会社
発熱の問題が深刻化
Bob Colwell氏の資料より抜粋
Increasing Frequency
Watt
scm
2
1
10
100
1000
15 10 07 05 035 025 018 013 01 007
i386i486
PentiumPentium Pro
Pentium IIPentium III
Hot Plate
Nuclear Reactor
Rocket Nozzle
Pentium 4(Prescott)
Pentium 4(Willamette)
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash過去12年間でPentiumプロセッサの動作周波数は60 MHz から 3800 MHz にまでアップ
ndash現在までの高性能化の約80 はクロック周波数の向上によるもの
bull 命令実行の強化と最適化
ndashより強力なインストラクションセット
ndash命令実行の最適化(パイプライン化分岐予測複数命令の同時実行命令実行順序の変更など)
スケーラブルシステムズ株式会社
技術のSカーブ技術開発の進展と製品性能の成長の関係
bull 技術開発の初期は製品性能はゆっくりと向上するがしだいに性能の向上の幅が大きくなるしかし次第に技術開発が成熟段階に入ると性能向上は逓減していく
製品の性能
時間
First Technology
Second Technology
Third Technology
RISCアウトオブオーダー実行lt1 instruction cycle
スーパースカラー RISCアウトオブオーダー実行lt2 instructions cycle
明示的並列命令コンピューティング技術 (EPIC)
命令の並列実行度の向上
スケーラブルシステムズ株式会社
マイクロアーキテクチャのSカーブ
Johan De Gelas Quest for More Processing Power
AnandTech Feb 8 2005
httpwwwanandtechcomcpuchipsetsshowdocaspxi=2343
101
102
103
104
105
106
MIP
S
1980 1985 1990 1995 2000 2005 2010
Pentium Architecture
Super Scalar
Pentium Pro Architecture
Speculative Out-of-Order
Pentium 4 Architecture
Trace Cache
Pentium 4 and Xeon Architecture with HT
Multi-Threaded
Multi-Threaded Multi-Core
Era of
Instruction
Parallelism
Era of
Thread
Parallelism
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash 過去12年間でPentiumプロセッサの動作周波数は60
MHz から 3800 MHz にまでアップ
ndash 現在までの高性能化の約80 はクロック周波数の向上によるもの
bull 命令実行の強化と最適化
ndash より強力なインストラクションセット
ndash 命令実行の最適化(パイプライン化分岐予測複数命令の同時実行命令実行順序の変更など)
bull 大容量キャッシュ
ndash プロセッサの速度とメモリレイテンシ(待ち時間)とバンド幅のギャップの拡大に対する対策対応としての容量の拡張
スケーラブルシステムズ株式会社
性能ギャップの問題
bull プロセッサ速度とメモリアクセスの速度差によってプロセッサがより高速になったとしてもプロセッサはその演算能力を完全に使い切ることが出来ない
1
10
100
1000Performance
1980 1990 2000
microProc
60yr
DRAM
7yr
バンド幅とレイテンシの問題が今後はより深刻(プロセッサ性能とのギャップはほぼ年率50の差で広がっている)
DRAM
CPU
プロセッサはほぼナノ秒に一回命令実行DRAMへのアクセスはほぼ100ナノ秒の時間
スケーラブルシステムズ株式会社
今後の発展と課題
Episode IV
A New Hope
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash 過去12年間でPentiumプロセッサの動作周波数は60
MHz から 3800 MHz にまでアップ
ndash 現在までの高性能化の約80 はクロック周波数の向上によるもの
bull 命令実行の強化と最適化
ndash より強力なインストラクションセット
ndash 命令実行の最適化(パイプライン化分岐予測複数命令の同時実行命令実行順序の変更など)
bull 大容量キャッシュ
ndash プロセッサの速度とメモリレイテンシ(待ち時間)とバンド幅のギャップの拡大に対する対策対応としての容量の拡張
スケーラブルシステムズ株式会社
デュアルコアプロセッサ
bull チップ上のトランジスタのより有効活用が可能bull スレッドレベルでの並列処理を活用bull よりシンプルなプロセッサの設計が可能
bull 将来のマイクロプロセッサはより多くのコアを実装可能bull 将来のマイクロプロセッサはより大容量のキャッシュの実装が可能
IBM Power5
with 19MB L2
AMD Opteron
with 2MB L2
Intel Montecito
With 24MB L3
スケーラブルシステムズ株式会社
イノベーションのジレンマ
製品の性能
時間
First Technology
Second Technology
Third Technology
RISCアウトオブオーダー実行lt1 instruction cycle
スーパースカラー RISCアウトオブオーダー実行lt2 instructions cycle
明示的並列命令コンピューティング技術 (EPIC)
命令の並列実行度の向上
製品の性能(異なる尺度)
時間
持続的イノベーション
技術革新が顧客の求める性能向上軸(ムーアの法則)に沿っている
破壊的イノベーションマルチコアとマルチスレッドによる並列処理
短期的には(シングルスレッドの性能)としては性能が低下するが将来の大きな性能向上とコスト低下機能強化の可能性が大きい
スケーラブルシステムズ株式会社
マルチコアの利点
ワークロードの処理効率の向上
bull マルチスレッドアプリケーションndash現在多くのアプリケーション(データベース
WEB科学技術計算)はマルチスレッド化
ndashマルチコアプロセッサではこれらのアプリケーションのマルチスレッドでの実行が容易に可能
bull 複数ジョブの処理ndashシステムでは複数のワークロード同時に処理することが必要
ndashマルチコアではこれらのワークロードへの処理が可能
スケーラブルシステムズ株式会社
マルチコアの利点
消費電力あたりの性能を最大にし高性能で低消費電力のシステム構築が可能
bull OS自身のマルチスレッド対応
ndash OSのサービスもマルチスレッドで処理することでより効率よく処理することが可能
bull 仮想化
ndashサーバのセキュリティや管理の強化
ndash管理するノード数を減らし運用コストの削減を図る
bull 最新のソフトウエアテクノロジの活用
スケーラブルシステムズ株式会社
大きな変革しかし容易ではない
マルチコアプロセッシング(または汎用もしくは専用プロセッサをソケットに複数搭載可能なこと)はEthernetの誕生以来ITインフラに対しての大きなインパクトをもたらします
デュアルプロセッサは386プロセッサの発表以来性能に関して最大の向上を実現しますしかしこのような性能向上にはソフトウエアの最適化がプロセッサの性能をフルに発揮するためには必要です
スケーラブルシステムズ株式会社
並列性(Parallelism)の利用
マルチタスク処理
MPIなどによる複数のノード間での並列処理
ユーザ及びコンパイラによるスレッドレベルでの並列処理(TLP)
コンパイラによる命列実行レベルでの並列処理(ILP)
マルチコア
マルチプロセッサ
マルチノード
マルチインストラクション
システム
スケーラブルシステムズ株式会社
ムーアの法則(GHz から MC へ)
マルチコアによる性能向上
動作周波数の向上による性能向上
性能
2005
bullマルチスレッドbullマルチタスクbull トレーニングbullツールbullhelliphellip
並列処理による性能向上についてはシステムサポートやプログラミングサポートなどの面での技術支援が重要です
スケーラブルシステムズ株式会社
Episode VI
Return of the Jedi
Ts for HPC - インテルテクノロジのHPCにおける価値の考察
スケーラブルシステムズ株式会社
将来予測の難しさ
bull ldquoI think there is a world market for maybe five
computersrdquobull Thomas Watson chairman of IBM 1943
bull ldquoThere is no reason for any individual to have a
computer in their homerdquobull Ken Olson president and founder of digital equipment
corporation 1977
bull ldquoThere are only about 100 potential customers
worldwide for a Cray-1rdquobull Seymour Cray 1977
bull ldquo640K [of memory] ought to be enough for
anybodyrdquobull Bill Gates chairman of Microsoft1981
スケーラブルシステムズ株式会社
「未来を予測する最良の方法はそれを創造してしまうことである」The best way to predict future is to invent it
Dr Alan Kay President of Viewpoints Research
Institute Inc
スケーラブルシステムズ株式会社
ITマネージメントの課題
bull プラットフォームの内部からの保護ndash ウイルスやワームなど悪意あるソフトウェアからの保護
bull 資産管理ndash 多くの IT 部門では特定できない資産が問題
bull オンラインおよびリモート管理診断機能 ndash アップグレード診断復旧のための作業の効率化
bull アプリケーション統合の困難さ
ndash アプリケーションの高度化と複雑化によって複数のアプリケーションを組み合わせるての動作に問題
bull 動的なリソース割り当て
ndash 組織内で未使用のCPUやメモリの活用
スケーラブルシステムズ株式会社
マーケットトレンド
All Servers Worldwide 2003 2004 2005 20062003 to 2006
CAGR
2005 to 2006
CAGR
Total Factory Revenue($B) $46149 $49146 $51268 $52251 42 19
Units Shipped(same as nodes) 5278222 6307484 7050099 7472649 123 60
Processor Dies Shipped 8662823 10134624 11712766 12779159 138 91
HPC Technical Servers Worldwide 2003 2004 2005 20062003 to 2006
CAGR
2005 to 2006
CAGR
HPC Server Revenue($B) $5698 $7393 $9208 $10030 207 89
Adjusted Revenues(To much
enterprise)$5128 $6654 $8287 $9027 207 89
Node Units Shipped 411327 734510 1215735 1419221 511 167
Processor Elements Shipped 1002905 1657827 2681079 3351843 495 250
HPC As A Ratio Of All Servers 2003 2004 2005 2006
Revenue($B) 123 150 180 192
Adjusted Revenues(Apples-to-
apples)111 135 162 173
Units Shipped(Nodes) 78 116 172 190
Processors Shipped 116 164 226 261
Source IDC 2007
スケーラブルシステムズ株式会社
HPCマーケット(対全サーバマーケット)
0
5
10
15
20
25
30
2003 2004 2005 2006
Revenue($B)
Adjusted Revenues(Apples-to-apples)
Units Shipped(Nodes)
Processors Shipped
スケーラブルシステムズ株式会社
マーケットトレンド
Source IDC 2004
Cost of mgmt amp admin 10 CAGR
$0
$20
$40
$60
$80
$100
$120
$140
$160
$180
$200
1996 rsquo97 rsquo98 rsquo992000 rsquo01 rsquo02 rsquo03 rsquo04 rsquo05 rsquo06 rsquo07 rsquo08-
New server spending (USM$) 3 CAGR
Spending (USB$)
5
10
15
20
25
30
35
Installed Base (M Units)
bull ハードウェアの減価償却費は IT の TCO 全体の約25 にすぎない
bull ソフトウェアのコストはわずか10~15
bull 電気などの公共料金フロアスペース電話回線など設備面のコストの割合もきわめて小さい
bull プラットフォームのコストではなくTCOの大きな比率を占めるのは人件費となっている
スケーラブルシステムズ株式会社
運用管理コストの低減
bull 「もっと処理性能を」と「より安価に」を実現するためにワークステーションやサーバでの分散処理の導入
bull ユーザや企業に新たな価値をもたらしてはいるが管理責任とその負担の分散を招き結果的に運用管理コストを押し上げる
メインフレームスーパーコンピュータ
仮想化によるサーバコンソリデーション
クラスタによる仮想コンピュータ
スケーラブルシステムズ株式会社
次世代HPCインフラ
bull コアとスレッド
ndash より多くのスレッドを効率よく利用可能
ndash マルチスレッド向け最適化
bull 電力管理
ndash 省電力
ndash データセンター運用管理機能
bull 仮想化
ndash 柔軟性と優れた運用管理
ndash 仮想的なシステムパーティション
bull RAS
ndash ハードウエアベースの自己監視自己管理
ndash ファームウエアベースのエラー履歴管理
bull システム管理
ndash より低いTCOを実現するための一般標準化されたマネージメント機能
スケーラブルシステムズ株式会社
高速プロセッサ
64ビットアドレス
メモリ性能と容
量
IOバンド幅
インターコネクト
省電力
システムのlsquoバランスrsquo
マルチコアによってプロセッサ単体の処理性能の向上を図る
64ビットのアドレス空間と
拡張されたレジスタによるOSとアプリケーション双方の機能性能拡張
64ビット化とマルチコア化
にともなう高速大容量へのニーズに対応しまたその拡張性の高い実装技術の実現
CPU-メモリ間の高速な
データ転送やより高速なネットワーク大規模なストレージのサポート
大規模なクラスタシステムの構築及びアプリケーションのワークロードに対応した高速性能
エコシステムに対応するためにも電力消費量や発熱量を積極的に抑える技術の開発
スケーラブルシステムズ株式会社
HPCの二極分化
Going UP
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
Going DOWN
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
スケーラブルシステムズ株式会社
システムとユーザの尺度
bull ユーザの尺度での性能(Performance)は時間当たりにどれだけの仕事を処理出来るか(仕事量 時間)
bull Flopsでの評価は実際には意味がないまた問題の規模(small medium large) という評価も難しい
bull ldquoスケーラビリティrdquoは対象を明確に規定する必要がある
システムの尺度 ユーザの尺度
Flops hArr 計算終了までの時間
メモリサイズ(GB) hArr モデルのサイズと計算結果
プロセッサ数 hArr ワークロードでの試行
データ長 hArr 計算精度
システム構成(クラスタ) hArr 導入コストと運用コスト
スケーラビリティ hArr ベンチマーク
スケーラブルシステムズ株式会社
HPCシステムの動向国家プロジェクトと商用製品のギャップの拡大
Going UP
Going DOWN
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
Peta-Scaleコンピューティングに求められる基本技術と現在のHPCの主要マーケットでの要求はあまりにも差が大きいrarrHPCSシステムは各社とのlsquoCommodityrsquoのマイクロプロセッサではなく独自のプロセッサを開発中
ハードウエアはrsquoCommodityrsquo
なものを利用してSWの改善サポート利用技術のサポートが今後の主要マーケットでの成功の鍵となる
スケーラブルシステムズ株式会社
HPCシステムの動向国家プロジェクト
Going UP
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
Peta-Scaleコンピューティングに求められる基本技術と現在のHPCの主要マーケットでの要求はあまりにも差が大きいrarrHPCSシステムは各社とのlsquoCommodityrsquoのマイクロプロセッサではなく独自のプロセッサを開発中
スケーラブルシステムズ株式会社
TOP500性能予測
1993 1995 1997 1999 2001 2003 2005 2007 2009 2011 2013 2015
N=
50
SUM
1 Gflops
1 Tflops
100 Mflops
100 Gflops
100 Tflops
10 Gflops
10 Tflops
1 Pflops
10 Pflops
IBM ASCI White
Blue GeneEarth Simulator
Intel
TOP500の総計が1PFを超えています
TOP500に掲載されるには1TF
が最低条件になっています
シングルシステムの1PFの実現は2009年
システム(プロセッサ数) 13倍年プロセッサ性能向上 14倍年トータル性能 18倍年
2009年までに1ペタFLOPS
スケーラブルシステムズ株式会社
性能ギャップの拡大
bull ピーク性能の大幅な向上ndash 1990年台は性能の向上は102のオーダーでしたが2000年台になると103のオーダーで性能は向上しています
しかしhellipndash 多くの科学技術計算用途のアプリケーションのピーク性能に対する実効性能の比率は5-10となっています(1990年代のベクトル計算機は40-50の対ピーク性能を示していました)
bull 今必要なのはndash より高い実効性能を発揮することが可能な計算アルゴリズムと手法の開発とスケーラビリティの向上
ndash プログラミングモデルなども含めてスケーラブルな計算機環境の構築
01
1
10
100
1000
2000 2004
Tera
flo
ps
1996
Performance
Gap
Peak Performance
Real Performance
NERSC User Group Meeting June 24-25 2004
Osni Marques and Tony Drummond
Lawrence Berkeley National Laboratory
スケーラブルシステムズ株式会社
ペタスケールシステムの構築
bull ソフトウエア(アプリケーションOSプログラミングAPIなど)の課題の克服が課題
bull システムの複雑さと生産性
例Linpack Benchmark
bull オリジナルベンチマークプログラム ~100ライン
bull HPL ベンチマークプログラム ~10000ライン(x100より複雑)
lsquo複雑さrsquoの壁
現在のテラFLOPS級の問題
Source ORNL
スケーラブルシステムズ株式会社
HPCシステムの動向商用製品
Going DOWN
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
ハードウエアはrsquoCommodityrsquo
なものを利用してSWの改善サポート利用技術のサポートが今後の主要マーケットでの成功の鍵となる
スケーラブルシステムズ株式会社
標準コンポーネントの進化
bull プロセッサの性能向上ndash lsquoマルチコアrsquoによる省電力での性能向上が可能
ndash HPCアプリケーションは容易にlsquoマルチコアrsquoの利点を活用可能 (OpenMPやMPI)
bull ファイルシステムndash高性能なスケーラブルファイルシステム(オープンソース)
bull インターコネクトndash PCI-Express (メモリlarrrarrインターコネクト)
ndash高速の商用製品やオープンソースでの強力(OpenIBなど)
スケーラブルシステムズ株式会社
標準コンポーネントの利点
bull 特定のベンダーからのシステムを組み合わせるのではなく他社のシステムも含めてベストなシステムの選択が可能
ndashスケーラブルSMPベクトル計算機クラスタの幅広い選択肢
ndash 64ビットマルチコアマイクロプロセッサの性能向上を最大限に活用
bull 標準コンポーネントの技術革新の活用
ndash PCI-ExpressやFB-DIMMの利用技術
スケーラブルシステムズ株式会社
Breaking the 1-2K nodes Barrier
bull 音の障壁サウンドバリヤー(sound barrier)飛行機の速度が音速近くになると衝撃波の発生によって抵抗の増大境界層の剥離など設計運用上のさまざまな障害(壁)に出合って超音速飛行は不可能かと思われた時代があった(1947年ごろまで)ので音の障壁といわれていた
httpwwwwilk4commiscsoundbreakhtm
クラスタのノード数がある規模に近くなるとその構築や運用において負担の増大システムの安定稼動スケーラビリティなど設計運用上のさまざまな障害(壁)に出合ってクラスタ構築は不可能と思われた時代があった()
スケーラブルシステムズ株式会社
ビルゲイツ氏の基調講演HPC goes mainstream
スケーラブルシステムズ株式会社
「Fast」「Good」「Cheap」のパズル
Fast
+ Cheap
Inferior
高い性能を廉価なシステムで構築することも可能ですただそのようなシステムの場合システムの構築や利用は必ずしも容易ではありません
Good
+ Cheap
Slow比較的小規模なシステムであれば廉価で使い勝手の良いものを探すことは可能ですしかしそのようなシステムでは拡張性やより大規模なシステム構築が出来ません
Good
+ Fast
Expensive
付加価値の高い性能の高いシステムは一般には高価ですその付加価値がユーザにとってメリットが無ければコストパフォーマンスの悪いシステムになるだけです
スケーラブルシステムズ株式会社
まとめとして
bull 「テクノロジー」をどのようにとらえるかndash企業経営基盤のコア要素
ndashユーザの本質的な課題を解決する戦略的な武器
bull マーケットを牽引する「テクノロジ」に求められることndashテクノロジとHPCにおけるITインフラの関係を明確にすること
bull ユーザに何らかのメリットをもたらさない「テクノロジー」は意味を成さない
ndashテクノロジーを最適に組み合わせることで問題解決のためのソリューションの提供が可能
スケーラブルシステムズ株式会社
まとめとして
bull bdquoTs‟ for HPC - インテルテクノロジのHPCにおける価値
ndash インテルテクノロジはHPCにおいて重要な構成要素となっている
ndashそれらの構成要素を統合することでより高い価値の提供が可能となる
ndash二分化しつつあるHPCシステムにおいて「標準コ
ンポーネント」としてのプラットフォームの動向として今後もその動向には注目する必要がある
スケーラブルシステムズ株式会社
さらに詳しい情報はhellip
bull 弊社のコンサルテーションに関するご提案資料もダウンロード可能です(非公開WEBページ)別途弊社に内容等についてはお尋ねください
お問い合わせ先102-0083
東京都千代田区麹町3-5-2
BUREX麹町 8F
電話03-5875-4718
FAX03-3237-7612
E-mailbizsstccojp
httpwwwsstccojp wwwsstccojpbiz
スケーラブルシステムズ株式会社
スケーラブルシステムズ株式会社
ハイエンドコンピューティングに関するコンサルテーションとして幅広いサービスをご提供致します
このサービスを最大限に活用していただくことでコラボレーションによる「顧客志向」 のコン
サルテーションサービスをご提供できればと思っております
スケーラブルシステムズ株式会社
社名製品名などは一般に各社の商標または登録商標です無断での引用転載を禁じます
In general the name of the company and the product name etc are the trademarks or registered trademarks of each company
Copyright Scalable Systems Co Ltd 2005 Unauthorized use is strictly forbidden
2005年11月
スケーラブルシステムズ株式会社
アルゴリズムの最適化
bull 計算機自身の進化と共に計算アルゴリズムも最適化されている
bull 例編微分方程式の解法ndash N=106の場合ガウスの消去法で線形方程式を解く場合と
MGでの計算では108倍の計算量が違うndash これは1Mflopssの計算機で100Tflopssの計算機に相当する計算を行ったことになる
O(N)F-cycle MG
O(N76 log(N))CGMILU
O(N43 log(N))Optimal SOR
O(N53 log(N))Gauss Seidel
O(N73)Banded Gauss Elimination
計算オペレーション数(概数)アルゴリズム
2u=f 100
100100
スケーラブルシステムズ株式会社
ソフトウエアThe Law of Morehellip
bull 一般の商用製品を活用したクラスタソリューションでは「Capacity」の実現は容易であるが「Capability」の実現については依然として課題が多いndash コストパフォーマンスの高いシステムの構築は可能だとしてもコストプロダクティビティの高いシステムの構築も課題
bull 数百~数千プロセッサ構成のシステムの利用技術と解析対象の検討ndash 小規模中規模問題の高速処理への対応ndash ソフトウエア開発の生産性
bull 数プロセッサ~数十プロセッサをより簡便に容易に利用できる技術ndash シングルプロセッサシングルスレッドを利用するのと同じようにhellip
スケーラブルシステムズ株式会社
ソフトウエアとハードウエア
bull ソフトウエアThe Law of Morehellip
ndashシステム規模とその複雑さの急速な増加拡大
ndash ソフトウエアの準備が出来た時点でハードウエアは既に陳腐化し次のシステムの導入の検討が進む
bull ハードウエアMoore‟s Law (ムーアの法則)ndash消費電力の問題のためプロセッサの動作クロックを今までのペースで上げることは困難
ndashプロセッサとメモリの性能差の拡大によるCPUサイクルとのギャップ
ndashピーク性能と実効性能のギャップの拡大
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash過去12年間でPentiumプロセッサの動作周波数は60 MHz から 3800 MHz にまでアップ
ndash現在までの高性能化の約80 はクロック周波数の向上によるもの
スケーラブルシステムズ株式会社
ハードウエアの問題Moore‟s Lawムーアの法則
bull インテルの共同設立者の1人である Gordon Moore 博士が1965年4月19日号の「Electronics」誌に投稿した 「一定面積に集積されるトランジスタの数は12か月で倍増しそれに伴いトランジスタの動作速度が向上する」という予測 (その後1975年に Moore 博士はチップの複雑化を考慮してトランジスタ数の倍増ペースを24か月に修正)
bull また一般にはあまり知られていないがテクノロジの進歩とともに製造コストが劇的に下落することも予測(左図)
httpwwwintelcojpjpdevelopertechnologysiliconmooreslawindexhtm
指数関数的成長は永遠には続かないしかしその永遠を先延ばしにすることはできる [英語 PDF 形式 2MB]
Gordon E Moore2003年2月10日ISSCC (International
Solid State Circuits Conference) でのプレゼンテーション
Dr Gordon Moore
(co-founder of Intel)
スケーラブルシステムズ株式会社
Technology Trend
ムーアの法則依然として有効
スケーラブルシステムズ株式会社
性能向上の源泉は
ハードウエアデバイス技術の進歩bull ロジック回路のスイッチング速度の向上とデバイス密度bull メモリサイズの拡大とアクセス速度の向上bull 通信性能(バンド幅とレイテンシの向上)
bull 並列性ndash 1サイクルでの命令実行数
bull 命令レベルでの並列性(ILP)
bull ベクトル処理ndash プロセッサあたりコア数ndash ノードあたりのプロセッサ数ndash システムあたりのノード数
コンピュータアーキテクチャbull 命令発行実行速度の向上
ndash パイプライン化ndash 分岐予測ndash キャッシュndash Out-of-order など
スケーラブルシステムズ株式会社
GHz競争
bull 2000年に開催されたIEEE国際電子デバイス会議2000(2000
IEEE International Electron Devices MeetingIEDM) においてインテル社は4億個以上のトランジスタを集積した10GHz駆動のプロセッサが2005年までに実現可能だと発表しましたndash 実際にはインテル社の最速プロセッサは6ヶ月前に発表された
38GHz(Intel Pentium 4)となっています
bull Prescottプロセッサの6xxシリーズ発表に際してインテル社はldquoadding value beyond GHzrdquo のコメントを出していますそれ以降インテル社の多くのドキュメントやプレスリリースはこのldquoadding value beyond GHzrdquo についての内容を含んでいます
スケーラブルシステムズ株式会社
発熱の問題が深刻化
Bob Colwell氏の資料より抜粋
Increasing Frequency
Watt
scm
2
1
10
100
1000
15 10 07 05 035 025 018 013 01 007
i386i486
PentiumPentium Pro
Pentium IIPentium III
Hot Plate
Nuclear Reactor
Rocket Nozzle
Pentium 4(Prescott)
Pentium 4(Willamette)
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash過去12年間でPentiumプロセッサの動作周波数は60 MHz から 3800 MHz にまでアップ
ndash現在までの高性能化の約80 はクロック周波数の向上によるもの
bull 命令実行の強化と最適化
ndashより強力なインストラクションセット
ndash命令実行の最適化(パイプライン化分岐予測複数命令の同時実行命令実行順序の変更など)
スケーラブルシステムズ株式会社
技術のSカーブ技術開発の進展と製品性能の成長の関係
bull 技術開発の初期は製品性能はゆっくりと向上するがしだいに性能の向上の幅が大きくなるしかし次第に技術開発が成熟段階に入ると性能向上は逓減していく
製品の性能
時間
First Technology
Second Technology
Third Technology
RISCアウトオブオーダー実行lt1 instruction cycle
スーパースカラー RISCアウトオブオーダー実行lt2 instructions cycle
明示的並列命令コンピューティング技術 (EPIC)
命令の並列実行度の向上
スケーラブルシステムズ株式会社
マイクロアーキテクチャのSカーブ
Johan De Gelas Quest for More Processing Power
AnandTech Feb 8 2005
httpwwwanandtechcomcpuchipsetsshowdocaspxi=2343
101
102
103
104
105
106
MIP
S
1980 1985 1990 1995 2000 2005 2010
Pentium Architecture
Super Scalar
Pentium Pro Architecture
Speculative Out-of-Order
Pentium 4 Architecture
Trace Cache
Pentium 4 and Xeon Architecture with HT
Multi-Threaded
Multi-Threaded Multi-Core
Era of
Instruction
Parallelism
Era of
Thread
Parallelism
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash 過去12年間でPentiumプロセッサの動作周波数は60
MHz から 3800 MHz にまでアップ
ndash 現在までの高性能化の約80 はクロック周波数の向上によるもの
bull 命令実行の強化と最適化
ndash より強力なインストラクションセット
ndash 命令実行の最適化(パイプライン化分岐予測複数命令の同時実行命令実行順序の変更など)
bull 大容量キャッシュ
ndash プロセッサの速度とメモリレイテンシ(待ち時間)とバンド幅のギャップの拡大に対する対策対応としての容量の拡張
スケーラブルシステムズ株式会社
性能ギャップの問題
bull プロセッサ速度とメモリアクセスの速度差によってプロセッサがより高速になったとしてもプロセッサはその演算能力を完全に使い切ることが出来ない
1
10
100
1000Performance
1980 1990 2000
microProc
60yr
DRAM
7yr
バンド幅とレイテンシの問題が今後はより深刻(プロセッサ性能とのギャップはほぼ年率50の差で広がっている)
DRAM
CPU
プロセッサはほぼナノ秒に一回命令実行DRAMへのアクセスはほぼ100ナノ秒の時間
スケーラブルシステムズ株式会社
今後の発展と課題
Episode IV
A New Hope
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash 過去12年間でPentiumプロセッサの動作周波数は60
MHz から 3800 MHz にまでアップ
ndash 現在までの高性能化の約80 はクロック周波数の向上によるもの
bull 命令実行の強化と最適化
ndash より強力なインストラクションセット
ndash 命令実行の最適化(パイプライン化分岐予測複数命令の同時実行命令実行順序の変更など)
bull 大容量キャッシュ
ndash プロセッサの速度とメモリレイテンシ(待ち時間)とバンド幅のギャップの拡大に対する対策対応としての容量の拡張
スケーラブルシステムズ株式会社
デュアルコアプロセッサ
bull チップ上のトランジスタのより有効活用が可能bull スレッドレベルでの並列処理を活用bull よりシンプルなプロセッサの設計が可能
bull 将来のマイクロプロセッサはより多くのコアを実装可能bull 将来のマイクロプロセッサはより大容量のキャッシュの実装が可能
IBM Power5
with 19MB L2
AMD Opteron
with 2MB L2
Intel Montecito
With 24MB L3
スケーラブルシステムズ株式会社
イノベーションのジレンマ
製品の性能
時間
First Technology
Second Technology
Third Technology
RISCアウトオブオーダー実行lt1 instruction cycle
スーパースカラー RISCアウトオブオーダー実行lt2 instructions cycle
明示的並列命令コンピューティング技術 (EPIC)
命令の並列実行度の向上
製品の性能(異なる尺度)
時間
持続的イノベーション
技術革新が顧客の求める性能向上軸(ムーアの法則)に沿っている
破壊的イノベーションマルチコアとマルチスレッドによる並列処理
短期的には(シングルスレッドの性能)としては性能が低下するが将来の大きな性能向上とコスト低下機能強化の可能性が大きい
スケーラブルシステムズ株式会社
マルチコアの利点
ワークロードの処理効率の向上
bull マルチスレッドアプリケーションndash現在多くのアプリケーション(データベース
WEB科学技術計算)はマルチスレッド化
ndashマルチコアプロセッサではこれらのアプリケーションのマルチスレッドでの実行が容易に可能
bull 複数ジョブの処理ndashシステムでは複数のワークロード同時に処理することが必要
ndashマルチコアではこれらのワークロードへの処理が可能
スケーラブルシステムズ株式会社
マルチコアの利点
消費電力あたりの性能を最大にし高性能で低消費電力のシステム構築が可能
bull OS自身のマルチスレッド対応
ndash OSのサービスもマルチスレッドで処理することでより効率よく処理することが可能
bull 仮想化
ndashサーバのセキュリティや管理の強化
ndash管理するノード数を減らし運用コストの削減を図る
bull 最新のソフトウエアテクノロジの活用
スケーラブルシステムズ株式会社
大きな変革しかし容易ではない
マルチコアプロセッシング(または汎用もしくは専用プロセッサをソケットに複数搭載可能なこと)はEthernetの誕生以来ITインフラに対しての大きなインパクトをもたらします
デュアルプロセッサは386プロセッサの発表以来性能に関して最大の向上を実現しますしかしこのような性能向上にはソフトウエアの最適化がプロセッサの性能をフルに発揮するためには必要です
スケーラブルシステムズ株式会社
並列性(Parallelism)の利用
マルチタスク処理
MPIなどによる複数のノード間での並列処理
ユーザ及びコンパイラによるスレッドレベルでの並列処理(TLP)
コンパイラによる命列実行レベルでの並列処理(ILP)
マルチコア
マルチプロセッサ
マルチノード
マルチインストラクション
システム
スケーラブルシステムズ株式会社
ムーアの法則(GHz から MC へ)
マルチコアによる性能向上
動作周波数の向上による性能向上
性能
2005
bullマルチスレッドbullマルチタスクbull トレーニングbullツールbullhelliphellip
並列処理による性能向上についてはシステムサポートやプログラミングサポートなどの面での技術支援が重要です
スケーラブルシステムズ株式会社
Episode VI
Return of the Jedi
Ts for HPC - インテルテクノロジのHPCにおける価値の考察
スケーラブルシステムズ株式会社
将来予測の難しさ
bull ldquoI think there is a world market for maybe five
computersrdquobull Thomas Watson chairman of IBM 1943
bull ldquoThere is no reason for any individual to have a
computer in their homerdquobull Ken Olson president and founder of digital equipment
corporation 1977
bull ldquoThere are only about 100 potential customers
worldwide for a Cray-1rdquobull Seymour Cray 1977
bull ldquo640K [of memory] ought to be enough for
anybodyrdquobull Bill Gates chairman of Microsoft1981
スケーラブルシステムズ株式会社
「未来を予測する最良の方法はそれを創造してしまうことである」The best way to predict future is to invent it
Dr Alan Kay President of Viewpoints Research
Institute Inc
スケーラブルシステムズ株式会社
ITマネージメントの課題
bull プラットフォームの内部からの保護ndash ウイルスやワームなど悪意あるソフトウェアからの保護
bull 資産管理ndash 多くの IT 部門では特定できない資産が問題
bull オンラインおよびリモート管理診断機能 ndash アップグレード診断復旧のための作業の効率化
bull アプリケーション統合の困難さ
ndash アプリケーションの高度化と複雑化によって複数のアプリケーションを組み合わせるての動作に問題
bull 動的なリソース割り当て
ndash 組織内で未使用のCPUやメモリの活用
スケーラブルシステムズ株式会社
マーケットトレンド
All Servers Worldwide 2003 2004 2005 20062003 to 2006
CAGR
2005 to 2006
CAGR
Total Factory Revenue($B) $46149 $49146 $51268 $52251 42 19
Units Shipped(same as nodes) 5278222 6307484 7050099 7472649 123 60
Processor Dies Shipped 8662823 10134624 11712766 12779159 138 91
HPC Technical Servers Worldwide 2003 2004 2005 20062003 to 2006
CAGR
2005 to 2006
CAGR
HPC Server Revenue($B) $5698 $7393 $9208 $10030 207 89
Adjusted Revenues(To much
enterprise)$5128 $6654 $8287 $9027 207 89
Node Units Shipped 411327 734510 1215735 1419221 511 167
Processor Elements Shipped 1002905 1657827 2681079 3351843 495 250
HPC As A Ratio Of All Servers 2003 2004 2005 2006
Revenue($B) 123 150 180 192
Adjusted Revenues(Apples-to-
apples)111 135 162 173
Units Shipped(Nodes) 78 116 172 190
Processors Shipped 116 164 226 261
Source IDC 2007
スケーラブルシステムズ株式会社
HPCマーケット(対全サーバマーケット)
0
5
10
15
20
25
30
2003 2004 2005 2006
Revenue($B)
Adjusted Revenues(Apples-to-apples)
Units Shipped(Nodes)
Processors Shipped
スケーラブルシステムズ株式会社
マーケットトレンド
Source IDC 2004
Cost of mgmt amp admin 10 CAGR
$0
$20
$40
$60
$80
$100
$120
$140
$160
$180
$200
1996 rsquo97 rsquo98 rsquo992000 rsquo01 rsquo02 rsquo03 rsquo04 rsquo05 rsquo06 rsquo07 rsquo08-
New server spending (USM$) 3 CAGR
Spending (USB$)
5
10
15
20
25
30
35
Installed Base (M Units)
bull ハードウェアの減価償却費は IT の TCO 全体の約25 にすぎない
bull ソフトウェアのコストはわずか10~15
bull 電気などの公共料金フロアスペース電話回線など設備面のコストの割合もきわめて小さい
bull プラットフォームのコストではなくTCOの大きな比率を占めるのは人件費となっている
スケーラブルシステムズ株式会社
運用管理コストの低減
bull 「もっと処理性能を」と「より安価に」を実現するためにワークステーションやサーバでの分散処理の導入
bull ユーザや企業に新たな価値をもたらしてはいるが管理責任とその負担の分散を招き結果的に運用管理コストを押し上げる
メインフレームスーパーコンピュータ
仮想化によるサーバコンソリデーション
クラスタによる仮想コンピュータ
スケーラブルシステムズ株式会社
次世代HPCインフラ
bull コアとスレッド
ndash より多くのスレッドを効率よく利用可能
ndash マルチスレッド向け最適化
bull 電力管理
ndash 省電力
ndash データセンター運用管理機能
bull 仮想化
ndash 柔軟性と優れた運用管理
ndash 仮想的なシステムパーティション
bull RAS
ndash ハードウエアベースの自己監視自己管理
ndash ファームウエアベースのエラー履歴管理
bull システム管理
ndash より低いTCOを実現するための一般標準化されたマネージメント機能
スケーラブルシステムズ株式会社
高速プロセッサ
64ビットアドレス
メモリ性能と容
量
IOバンド幅
インターコネクト
省電力
システムのlsquoバランスrsquo
マルチコアによってプロセッサ単体の処理性能の向上を図る
64ビットのアドレス空間と
拡張されたレジスタによるOSとアプリケーション双方の機能性能拡張
64ビット化とマルチコア化
にともなう高速大容量へのニーズに対応しまたその拡張性の高い実装技術の実現
CPU-メモリ間の高速な
データ転送やより高速なネットワーク大規模なストレージのサポート
大規模なクラスタシステムの構築及びアプリケーションのワークロードに対応した高速性能
エコシステムに対応するためにも電力消費量や発熱量を積極的に抑える技術の開発
スケーラブルシステムズ株式会社
HPCの二極分化
Going UP
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
Going DOWN
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
スケーラブルシステムズ株式会社
システムとユーザの尺度
bull ユーザの尺度での性能(Performance)は時間当たりにどれだけの仕事を処理出来るか(仕事量 時間)
bull Flopsでの評価は実際には意味がないまた問題の規模(small medium large) という評価も難しい
bull ldquoスケーラビリティrdquoは対象を明確に規定する必要がある
システムの尺度 ユーザの尺度
Flops hArr 計算終了までの時間
メモリサイズ(GB) hArr モデルのサイズと計算結果
プロセッサ数 hArr ワークロードでの試行
データ長 hArr 計算精度
システム構成(クラスタ) hArr 導入コストと運用コスト
スケーラビリティ hArr ベンチマーク
スケーラブルシステムズ株式会社
HPCシステムの動向国家プロジェクトと商用製品のギャップの拡大
Going UP
Going DOWN
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
Peta-Scaleコンピューティングに求められる基本技術と現在のHPCの主要マーケットでの要求はあまりにも差が大きいrarrHPCSシステムは各社とのlsquoCommodityrsquoのマイクロプロセッサではなく独自のプロセッサを開発中
ハードウエアはrsquoCommodityrsquo
なものを利用してSWの改善サポート利用技術のサポートが今後の主要マーケットでの成功の鍵となる
スケーラブルシステムズ株式会社
HPCシステムの動向国家プロジェクト
Going UP
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
Peta-Scaleコンピューティングに求められる基本技術と現在のHPCの主要マーケットでの要求はあまりにも差が大きいrarrHPCSシステムは各社とのlsquoCommodityrsquoのマイクロプロセッサではなく独自のプロセッサを開発中
スケーラブルシステムズ株式会社
TOP500性能予測
1993 1995 1997 1999 2001 2003 2005 2007 2009 2011 2013 2015
N=
50
SUM
1 Gflops
1 Tflops
100 Mflops
100 Gflops
100 Tflops
10 Gflops
10 Tflops
1 Pflops
10 Pflops
IBM ASCI White
Blue GeneEarth Simulator
Intel
TOP500の総計が1PFを超えています
TOP500に掲載されるには1TF
が最低条件になっています
シングルシステムの1PFの実現は2009年
システム(プロセッサ数) 13倍年プロセッサ性能向上 14倍年トータル性能 18倍年
2009年までに1ペタFLOPS
スケーラブルシステムズ株式会社
性能ギャップの拡大
bull ピーク性能の大幅な向上ndash 1990年台は性能の向上は102のオーダーでしたが2000年台になると103のオーダーで性能は向上しています
しかしhellipndash 多くの科学技術計算用途のアプリケーションのピーク性能に対する実効性能の比率は5-10となっています(1990年代のベクトル計算機は40-50の対ピーク性能を示していました)
bull 今必要なのはndash より高い実効性能を発揮することが可能な計算アルゴリズムと手法の開発とスケーラビリティの向上
ndash プログラミングモデルなども含めてスケーラブルな計算機環境の構築
01
1
10
100
1000
2000 2004
Tera
flo
ps
1996
Performance
Gap
Peak Performance
Real Performance
NERSC User Group Meeting June 24-25 2004
Osni Marques and Tony Drummond
Lawrence Berkeley National Laboratory
スケーラブルシステムズ株式会社
ペタスケールシステムの構築
bull ソフトウエア(アプリケーションOSプログラミングAPIなど)の課題の克服が課題
bull システムの複雑さと生産性
例Linpack Benchmark
bull オリジナルベンチマークプログラム ~100ライン
bull HPL ベンチマークプログラム ~10000ライン(x100より複雑)
lsquo複雑さrsquoの壁
現在のテラFLOPS級の問題
Source ORNL
スケーラブルシステムズ株式会社
HPCシステムの動向商用製品
Going DOWN
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
ハードウエアはrsquoCommodityrsquo
なものを利用してSWの改善サポート利用技術のサポートが今後の主要マーケットでの成功の鍵となる
スケーラブルシステムズ株式会社
標準コンポーネントの進化
bull プロセッサの性能向上ndash lsquoマルチコアrsquoによる省電力での性能向上が可能
ndash HPCアプリケーションは容易にlsquoマルチコアrsquoの利点を活用可能 (OpenMPやMPI)
bull ファイルシステムndash高性能なスケーラブルファイルシステム(オープンソース)
bull インターコネクトndash PCI-Express (メモリlarrrarrインターコネクト)
ndash高速の商用製品やオープンソースでの強力(OpenIBなど)
スケーラブルシステムズ株式会社
標準コンポーネントの利点
bull 特定のベンダーからのシステムを組み合わせるのではなく他社のシステムも含めてベストなシステムの選択が可能
ndashスケーラブルSMPベクトル計算機クラスタの幅広い選択肢
ndash 64ビットマルチコアマイクロプロセッサの性能向上を最大限に活用
bull 標準コンポーネントの技術革新の活用
ndash PCI-ExpressやFB-DIMMの利用技術
スケーラブルシステムズ株式会社
Breaking the 1-2K nodes Barrier
bull 音の障壁サウンドバリヤー(sound barrier)飛行機の速度が音速近くになると衝撃波の発生によって抵抗の増大境界層の剥離など設計運用上のさまざまな障害(壁)に出合って超音速飛行は不可能かと思われた時代があった(1947年ごろまで)ので音の障壁といわれていた
httpwwwwilk4commiscsoundbreakhtm
クラスタのノード数がある規模に近くなるとその構築や運用において負担の増大システムの安定稼動スケーラビリティなど設計運用上のさまざまな障害(壁)に出合ってクラスタ構築は不可能と思われた時代があった()
スケーラブルシステムズ株式会社
ビルゲイツ氏の基調講演HPC goes mainstream
スケーラブルシステムズ株式会社
「Fast」「Good」「Cheap」のパズル
Fast
+ Cheap
Inferior
高い性能を廉価なシステムで構築することも可能ですただそのようなシステムの場合システムの構築や利用は必ずしも容易ではありません
Good
+ Cheap
Slow比較的小規模なシステムであれば廉価で使い勝手の良いものを探すことは可能ですしかしそのようなシステムでは拡張性やより大規模なシステム構築が出来ません
Good
+ Fast
Expensive
付加価値の高い性能の高いシステムは一般には高価ですその付加価値がユーザにとってメリットが無ければコストパフォーマンスの悪いシステムになるだけです
スケーラブルシステムズ株式会社
まとめとして
bull 「テクノロジー」をどのようにとらえるかndash企業経営基盤のコア要素
ndashユーザの本質的な課題を解決する戦略的な武器
bull マーケットを牽引する「テクノロジ」に求められることndashテクノロジとHPCにおけるITインフラの関係を明確にすること
bull ユーザに何らかのメリットをもたらさない「テクノロジー」は意味を成さない
ndashテクノロジーを最適に組み合わせることで問題解決のためのソリューションの提供が可能
スケーラブルシステムズ株式会社
まとめとして
bull bdquoTs‟ for HPC - インテルテクノロジのHPCにおける価値
ndash インテルテクノロジはHPCにおいて重要な構成要素となっている
ndashそれらの構成要素を統合することでより高い価値の提供が可能となる
ndash二分化しつつあるHPCシステムにおいて「標準コ
ンポーネント」としてのプラットフォームの動向として今後もその動向には注目する必要がある
スケーラブルシステムズ株式会社
さらに詳しい情報はhellip
bull 弊社のコンサルテーションに関するご提案資料もダウンロード可能です(非公開WEBページ)別途弊社に内容等についてはお尋ねください
お問い合わせ先102-0083
東京都千代田区麹町3-5-2
BUREX麹町 8F
電話03-5875-4718
FAX03-3237-7612
E-mailbizsstccojp
httpwwwsstccojp wwwsstccojpbiz
スケーラブルシステムズ株式会社
スケーラブルシステムズ株式会社
ハイエンドコンピューティングに関するコンサルテーションとして幅広いサービスをご提供致します
このサービスを最大限に活用していただくことでコラボレーションによる「顧客志向」 のコン
サルテーションサービスをご提供できればと思っております
スケーラブルシステムズ株式会社
社名製品名などは一般に各社の商標または登録商標です無断での引用転載を禁じます
In general the name of the company and the product name etc are the trademarks or registered trademarks of each company
Copyright Scalable Systems Co Ltd 2005 Unauthorized use is strictly forbidden
2005年11月
スケーラブルシステムズ株式会社
ソフトウエアThe Law of Morehellip
bull 一般の商用製品を活用したクラスタソリューションでは「Capacity」の実現は容易であるが「Capability」の実現については依然として課題が多いndash コストパフォーマンスの高いシステムの構築は可能だとしてもコストプロダクティビティの高いシステムの構築も課題
bull 数百~数千プロセッサ構成のシステムの利用技術と解析対象の検討ndash 小規模中規模問題の高速処理への対応ndash ソフトウエア開発の生産性
bull 数プロセッサ~数十プロセッサをより簡便に容易に利用できる技術ndash シングルプロセッサシングルスレッドを利用するのと同じようにhellip
スケーラブルシステムズ株式会社
ソフトウエアとハードウエア
bull ソフトウエアThe Law of Morehellip
ndashシステム規模とその複雑さの急速な増加拡大
ndash ソフトウエアの準備が出来た時点でハードウエアは既に陳腐化し次のシステムの導入の検討が進む
bull ハードウエアMoore‟s Law (ムーアの法則)ndash消費電力の問題のためプロセッサの動作クロックを今までのペースで上げることは困難
ndashプロセッサとメモリの性能差の拡大によるCPUサイクルとのギャップ
ndashピーク性能と実効性能のギャップの拡大
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash過去12年間でPentiumプロセッサの動作周波数は60 MHz から 3800 MHz にまでアップ
ndash現在までの高性能化の約80 はクロック周波数の向上によるもの
スケーラブルシステムズ株式会社
ハードウエアの問題Moore‟s Lawムーアの法則
bull インテルの共同設立者の1人である Gordon Moore 博士が1965年4月19日号の「Electronics」誌に投稿した 「一定面積に集積されるトランジスタの数は12か月で倍増しそれに伴いトランジスタの動作速度が向上する」という予測 (その後1975年に Moore 博士はチップの複雑化を考慮してトランジスタ数の倍増ペースを24か月に修正)
bull また一般にはあまり知られていないがテクノロジの進歩とともに製造コストが劇的に下落することも予測(左図)
httpwwwintelcojpjpdevelopertechnologysiliconmooreslawindexhtm
指数関数的成長は永遠には続かないしかしその永遠を先延ばしにすることはできる [英語 PDF 形式 2MB]
Gordon E Moore2003年2月10日ISSCC (International
Solid State Circuits Conference) でのプレゼンテーション
Dr Gordon Moore
(co-founder of Intel)
スケーラブルシステムズ株式会社
Technology Trend
ムーアの法則依然として有効
スケーラブルシステムズ株式会社
性能向上の源泉は
ハードウエアデバイス技術の進歩bull ロジック回路のスイッチング速度の向上とデバイス密度bull メモリサイズの拡大とアクセス速度の向上bull 通信性能(バンド幅とレイテンシの向上)
bull 並列性ndash 1サイクルでの命令実行数
bull 命令レベルでの並列性(ILP)
bull ベクトル処理ndash プロセッサあたりコア数ndash ノードあたりのプロセッサ数ndash システムあたりのノード数
コンピュータアーキテクチャbull 命令発行実行速度の向上
ndash パイプライン化ndash 分岐予測ndash キャッシュndash Out-of-order など
スケーラブルシステムズ株式会社
GHz競争
bull 2000年に開催されたIEEE国際電子デバイス会議2000(2000
IEEE International Electron Devices MeetingIEDM) においてインテル社は4億個以上のトランジスタを集積した10GHz駆動のプロセッサが2005年までに実現可能だと発表しましたndash 実際にはインテル社の最速プロセッサは6ヶ月前に発表された
38GHz(Intel Pentium 4)となっています
bull Prescottプロセッサの6xxシリーズ発表に際してインテル社はldquoadding value beyond GHzrdquo のコメントを出していますそれ以降インテル社の多くのドキュメントやプレスリリースはこのldquoadding value beyond GHzrdquo についての内容を含んでいます
スケーラブルシステムズ株式会社
発熱の問題が深刻化
Bob Colwell氏の資料より抜粋
Increasing Frequency
Watt
scm
2
1
10
100
1000
15 10 07 05 035 025 018 013 01 007
i386i486
PentiumPentium Pro
Pentium IIPentium III
Hot Plate
Nuclear Reactor
Rocket Nozzle
Pentium 4(Prescott)
Pentium 4(Willamette)
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash過去12年間でPentiumプロセッサの動作周波数は60 MHz から 3800 MHz にまでアップ
ndash現在までの高性能化の約80 はクロック周波数の向上によるもの
bull 命令実行の強化と最適化
ndashより強力なインストラクションセット
ndash命令実行の最適化(パイプライン化分岐予測複数命令の同時実行命令実行順序の変更など)
スケーラブルシステムズ株式会社
技術のSカーブ技術開発の進展と製品性能の成長の関係
bull 技術開発の初期は製品性能はゆっくりと向上するがしだいに性能の向上の幅が大きくなるしかし次第に技術開発が成熟段階に入ると性能向上は逓減していく
製品の性能
時間
First Technology
Second Technology
Third Technology
RISCアウトオブオーダー実行lt1 instruction cycle
スーパースカラー RISCアウトオブオーダー実行lt2 instructions cycle
明示的並列命令コンピューティング技術 (EPIC)
命令の並列実行度の向上
スケーラブルシステムズ株式会社
マイクロアーキテクチャのSカーブ
Johan De Gelas Quest for More Processing Power
AnandTech Feb 8 2005
httpwwwanandtechcomcpuchipsetsshowdocaspxi=2343
101
102
103
104
105
106
MIP
S
1980 1985 1990 1995 2000 2005 2010
Pentium Architecture
Super Scalar
Pentium Pro Architecture
Speculative Out-of-Order
Pentium 4 Architecture
Trace Cache
Pentium 4 and Xeon Architecture with HT
Multi-Threaded
Multi-Threaded Multi-Core
Era of
Instruction
Parallelism
Era of
Thread
Parallelism
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash 過去12年間でPentiumプロセッサの動作周波数は60
MHz から 3800 MHz にまでアップ
ndash 現在までの高性能化の約80 はクロック周波数の向上によるもの
bull 命令実行の強化と最適化
ndash より強力なインストラクションセット
ndash 命令実行の最適化(パイプライン化分岐予測複数命令の同時実行命令実行順序の変更など)
bull 大容量キャッシュ
ndash プロセッサの速度とメモリレイテンシ(待ち時間)とバンド幅のギャップの拡大に対する対策対応としての容量の拡張
スケーラブルシステムズ株式会社
性能ギャップの問題
bull プロセッサ速度とメモリアクセスの速度差によってプロセッサがより高速になったとしてもプロセッサはその演算能力を完全に使い切ることが出来ない
1
10
100
1000Performance
1980 1990 2000
microProc
60yr
DRAM
7yr
バンド幅とレイテンシの問題が今後はより深刻(プロセッサ性能とのギャップはほぼ年率50の差で広がっている)
DRAM
CPU
プロセッサはほぼナノ秒に一回命令実行DRAMへのアクセスはほぼ100ナノ秒の時間
スケーラブルシステムズ株式会社
今後の発展と課題
Episode IV
A New Hope
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash 過去12年間でPentiumプロセッサの動作周波数は60
MHz から 3800 MHz にまでアップ
ndash 現在までの高性能化の約80 はクロック周波数の向上によるもの
bull 命令実行の強化と最適化
ndash より強力なインストラクションセット
ndash 命令実行の最適化(パイプライン化分岐予測複数命令の同時実行命令実行順序の変更など)
bull 大容量キャッシュ
ndash プロセッサの速度とメモリレイテンシ(待ち時間)とバンド幅のギャップの拡大に対する対策対応としての容量の拡張
スケーラブルシステムズ株式会社
デュアルコアプロセッサ
bull チップ上のトランジスタのより有効活用が可能bull スレッドレベルでの並列処理を活用bull よりシンプルなプロセッサの設計が可能
bull 将来のマイクロプロセッサはより多くのコアを実装可能bull 将来のマイクロプロセッサはより大容量のキャッシュの実装が可能
IBM Power5
with 19MB L2
AMD Opteron
with 2MB L2
Intel Montecito
With 24MB L3
スケーラブルシステムズ株式会社
イノベーションのジレンマ
製品の性能
時間
First Technology
Second Technology
Third Technology
RISCアウトオブオーダー実行lt1 instruction cycle
スーパースカラー RISCアウトオブオーダー実行lt2 instructions cycle
明示的並列命令コンピューティング技術 (EPIC)
命令の並列実行度の向上
製品の性能(異なる尺度)
時間
持続的イノベーション
技術革新が顧客の求める性能向上軸(ムーアの法則)に沿っている
破壊的イノベーションマルチコアとマルチスレッドによる並列処理
短期的には(シングルスレッドの性能)としては性能が低下するが将来の大きな性能向上とコスト低下機能強化の可能性が大きい
スケーラブルシステムズ株式会社
マルチコアの利点
ワークロードの処理効率の向上
bull マルチスレッドアプリケーションndash現在多くのアプリケーション(データベース
WEB科学技術計算)はマルチスレッド化
ndashマルチコアプロセッサではこれらのアプリケーションのマルチスレッドでの実行が容易に可能
bull 複数ジョブの処理ndashシステムでは複数のワークロード同時に処理することが必要
ndashマルチコアではこれらのワークロードへの処理が可能
スケーラブルシステムズ株式会社
マルチコアの利点
消費電力あたりの性能を最大にし高性能で低消費電力のシステム構築が可能
bull OS自身のマルチスレッド対応
ndash OSのサービスもマルチスレッドで処理することでより効率よく処理することが可能
bull 仮想化
ndashサーバのセキュリティや管理の強化
ndash管理するノード数を減らし運用コストの削減を図る
bull 最新のソフトウエアテクノロジの活用
スケーラブルシステムズ株式会社
大きな変革しかし容易ではない
マルチコアプロセッシング(または汎用もしくは専用プロセッサをソケットに複数搭載可能なこと)はEthernetの誕生以来ITインフラに対しての大きなインパクトをもたらします
デュアルプロセッサは386プロセッサの発表以来性能に関して最大の向上を実現しますしかしこのような性能向上にはソフトウエアの最適化がプロセッサの性能をフルに発揮するためには必要です
スケーラブルシステムズ株式会社
並列性(Parallelism)の利用
マルチタスク処理
MPIなどによる複数のノード間での並列処理
ユーザ及びコンパイラによるスレッドレベルでの並列処理(TLP)
コンパイラによる命列実行レベルでの並列処理(ILP)
マルチコア
マルチプロセッサ
マルチノード
マルチインストラクション
システム
スケーラブルシステムズ株式会社
ムーアの法則(GHz から MC へ)
マルチコアによる性能向上
動作周波数の向上による性能向上
性能
2005
bullマルチスレッドbullマルチタスクbull トレーニングbullツールbullhelliphellip
並列処理による性能向上についてはシステムサポートやプログラミングサポートなどの面での技術支援が重要です
スケーラブルシステムズ株式会社
Episode VI
Return of the Jedi
Ts for HPC - インテルテクノロジのHPCにおける価値の考察
スケーラブルシステムズ株式会社
将来予測の難しさ
bull ldquoI think there is a world market for maybe five
computersrdquobull Thomas Watson chairman of IBM 1943
bull ldquoThere is no reason for any individual to have a
computer in their homerdquobull Ken Olson president and founder of digital equipment
corporation 1977
bull ldquoThere are only about 100 potential customers
worldwide for a Cray-1rdquobull Seymour Cray 1977
bull ldquo640K [of memory] ought to be enough for
anybodyrdquobull Bill Gates chairman of Microsoft1981
スケーラブルシステムズ株式会社
「未来を予測する最良の方法はそれを創造してしまうことである」The best way to predict future is to invent it
Dr Alan Kay President of Viewpoints Research
Institute Inc
スケーラブルシステムズ株式会社
ITマネージメントの課題
bull プラットフォームの内部からの保護ndash ウイルスやワームなど悪意あるソフトウェアからの保護
bull 資産管理ndash 多くの IT 部門では特定できない資産が問題
bull オンラインおよびリモート管理診断機能 ndash アップグレード診断復旧のための作業の効率化
bull アプリケーション統合の困難さ
ndash アプリケーションの高度化と複雑化によって複数のアプリケーションを組み合わせるての動作に問題
bull 動的なリソース割り当て
ndash 組織内で未使用のCPUやメモリの活用
スケーラブルシステムズ株式会社
マーケットトレンド
All Servers Worldwide 2003 2004 2005 20062003 to 2006
CAGR
2005 to 2006
CAGR
Total Factory Revenue($B) $46149 $49146 $51268 $52251 42 19
Units Shipped(same as nodes) 5278222 6307484 7050099 7472649 123 60
Processor Dies Shipped 8662823 10134624 11712766 12779159 138 91
HPC Technical Servers Worldwide 2003 2004 2005 20062003 to 2006
CAGR
2005 to 2006
CAGR
HPC Server Revenue($B) $5698 $7393 $9208 $10030 207 89
Adjusted Revenues(To much
enterprise)$5128 $6654 $8287 $9027 207 89
Node Units Shipped 411327 734510 1215735 1419221 511 167
Processor Elements Shipped 1002905 1657827 2681079 3351843 495 250
HPC As A Ratio Of All Servers 2003 2004 2005 2006
Revenue($B) 123 150 180 192
Adjusted Revenues(Apples-to-
apples)111 135 162 173
Units Shipped(Nodes) 78 116 172 190
Processors Shipped 116 164 226 261
Source IDC 2007
スケーラブルシステムズ株式会社
HPCマーケット(対全サーバマーケット)
0
5
10
15
20
25
30
2003 2004 2005 2006
Revenue($B)
Adjusted Revenues(Apples-to-apples)
Units Shipped(Nodes)
Processors Shipped
スケーラブルシステムズ株式会社
マーケットトレンド
Source IDC 2004
Cost of mgmt amp admin 10 CAGR
$0
$20
$40
$60
$80
$100
$120
$140
$160
$180
$200
1996 rsquo97 rsquo98 rsquo992000 rsquo01 rsquo02 rsquo03 rsquo04 rsquo05 rsquo06 rsquo07 rsquo08-
New server spending (USM$) 3 CAGR
Spending (USB$)
5
10
15
20
25
30
35
Installed Base (M Units)
bull ハードウェアの減価償却費は IT の TCO 全体の約25 にすぎない
bull ソフトウェアのコストはわずか10~15
bull 電気などの公共料金フロアスペース電話回線など設備面のコストの割合もきわめて小さい
bull プラットフォームのコストではなくTCOの大きな比率を占めるのは人件費となっている
スケーラブルシステムズ株式会社
運用管理コストの低減
bull 「もっと処理性能を」と「より安価に」を実現するためにワークステーションやサーバでの分散処理の導入
bull ユーザや企業に新たな価値をもたらしてはいるが管理責任とその負担の分散を招き結果的に運用管理コストを押し上げる
メインフレームスーパーコンピュータ
仮想化によるサーバコンソリデーション
クラスタによる仮想コンピュータ
スケーラブルシステムズ株式会社
次世代HPCインフラ
bull コアとスレッド
ndash より多くのスレッドを効率よく利用可能
ndash マルチスレッド向け最適化
bull 電力管理
ndash 省電力
ndash データセンター運用管理機能
bull 仮想化
ndash 柔軟性と優れた運用管理
ndash 仮想的なシステムパーティション
bull RAS
ndash ハードウエアベースの自己監視自己管理
ndash ファームウエアベースのエラー履歴管理
bull システム管理
ndash より低いTCOを実現するための一般標準化されたマネージメント機能
スケーラブルシステムズ株式会社
高速プロセッサ
64ビットアドレス
メモリ性能と容
量
IOバンド幅
インターコネクト
省電力
システムのlsquoバランスrsquo
マルチコアによってプロセッサ単体の処理性能の向上を図る
64ビットのアドレス空間と
拡張されたレジスタによるOSとアプリケーション双方の機能性能拡張
64ビット化とマルチコア化
にともなう高速大容量へのニーズに対応しまたその拡張性の高い実装技術の実現
CPU-メモリ間の高速な
データ転送やより高速なネットワーク大規模なストレージのサポート
大規模なクラスタシステムの構築及びアプリケーションのワークロードに対応した高速性能
エコシステムに対応するためにも電力消費量や発熱量を積極的に抑える技術の開発
スケーラブルシステムズ株式会社
HPCの二極分化
Going UP
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
Going DOWN
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
スケーラブルシステムズ株式会社
システムとユーザの尺度
bull ユーザの尺度での性能(Performance)は時間当たりにどれだけの仕事を処理出来るか(仕事量 時間)
bull Flopsでの評価は実際には意味がないまた問題の規模(small medium large) という評価も難しい
bull ldquoスケーラビリティrdquoは対象を明確に規定する必要がある
システムの尺度 ユーザの尺度
Flops hArr 計算終了までの時間
メモリサイズ(GB) hArr モデルのサイズと計算結果
プロセッサ数 hArr ワークロードでの試行
データ長 hArr 計算精度
システム構成(クラスタ) hArr 導入コストと運用コスト
スケーラビリティ hArr ベンチマーク
スケーラブルシステムズ株式会社
HPCシステムの動向国家プロジェクトと商用製品のギャップの拡大
Going UP
Going DOWN
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
Peta-Scaleコンピューティングに求められる基本技術と現在のHPCの主要マーケットでの要求はあまりにも差が大きいrarrHPCSシステムは各社とのlsquoCommodityrsquoのマイクロプロセッサではなく独自のプロセッサを開発中
ハードウエアはrsquoCommodityrsquo
なものを利用してSWの改善サポート利用技術のサポートが今後の主要マーケットでの成功の鍵となる
スケーラブルシステムズ株式会社
HPCシステムの動向国家プロジェクト
Going UP
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
Peta-Scaleコンピューティングに求められる基本技術と現在のHPCの主要マーケットでの要求はあまりにも差が大きいrarrHPCSシステムは各社とのlsquoCommodityrsquoのマイクロプロセッサではなく独自のプロセッサを開発中
スケーラブルシステムズ株式会社
TOP500性能予測
1993 1995 1997 1999 2001 2003 2005 2007 2009 2011 2013 2015
N=
50
SUM
1 Gflops
1 Tflops
100 Mflops
100 Gflops
100 Tflops
10 Gflops
10 Tflops
1 Pflops
10 Pflops
IBM ASCI White
Blue GeneEarth Simulator
Intel
TOP500の総計が1PFを超えています
TOP500に掲載されるには1TF
が最低条件になっています
シングルシステムの1PFの実現は2009年
システム(プロセッサ数) 13倍年プロセッサ性能向上 14倍年トータル性能 18倍年
2009年までに1ペタFLOPS
スケーラブルシステムズ株式会社
性能ギャップの拡大
bull ピーク性能の大幅な向上ndash 1990年台は性能の向上は102のオーダーでしたが2000年台になると103のオーダーで性能は向上しています
しかしhellipndash 多くの科学技術計算用途のアプリケーションのピーク性能に対する実効性能の比率は5-10となっています(1990年代のベクトル計算機は40-50の対ピーク性能を示していました)
bull 今必要なのはndash より高い実効性能を発揮することが可能な計算アルゴリズムと手法の開発とスケーラビリティの向上
ndash プログラミングモデルなども含めてスケーラブルな計算機環境の構築
01
1
10
100
1000
2000 2004
Tera
flo
ps
1996
Performance
Gap
Peak Performance
Real Performance
NERSC User Group Meeting June 24-25 2004
Osni Marques and Tony Drummond
Lawrence Berkeley National Laboratory
スケーラブルシステムズ株式会社
ペタスケールシステムの構築
bull ソフトウエア(アプリケーションOSプログラミングAPIなど)の課題の克服が課題
bull システムの複雑さと生産性
例Linpack Benchmark
bull オリジナルベンチマークプログラム ~100ライン
bull HPL ベンチマークプログラム ~10000ライン(x100より複雑)
lsquo複雑さrsquoの壁
現在のテラFLOPS級の問題
Source ORNL
スケーラブルシステムズ株式会社
HPCシステムの動向商用製品
Going DOWN
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
ハードウエアはrsquoCommodityrsquo
なものを利用してSWの改善サポート利用技術のサポートが今後の主要マーケットでの成功の鍵となる
スケーラブルシステムズ株式会社
標準コンポーネントの進化
bull プロセッサの性能向上ndash lsquoマルチコアrsquoによる省電力での性能向上が可能
ndash HPCアプリケーションは容易にlsquoマルチコアrsquoの利点を活用可能 (OpenMPやMPI)
bull ファイルシステムndash高性能なスケーラブルファイルシステム(オープンソース)
bull インターコネクトndash PCI-Express (メモリlarrrarrインターコネクト)
ndash高速の商用製品やオープンソースでの強力(OpenIBなど)
スケーラブルシステムズ株式会社
標準コンポーネントの利点
bull 特定のベンダーからのシステムを組み合わせるのではなく他社のシステムも含めてベストなシステムの選択が可能
ndashスケーラブルSMPベクトル計算機クラスタの幅広い選択肢
ndash 64ビットマルチコアマイクロプロセッサの性能向上を最大限に活用
bull 標準コンポーネントの技術革新の活用
ndash PCI-ExpressやFB-DIMMの利用技術
スケーラブルシステムズ株式会社
Breaking the 1-2K nodes Barrier
bull 音の障壁サウンドバリヤー(sound barrier)飛行機の速度が音速近くになると衝撃波の発生によって抵抗の増大境界層の剥離など設計運用上のさまざまな障害(壁)に出合って超音速飛行は不可能かと思われた時代があった(1947年ごろまで)ので音の障壁といわれていた
httpwwwwilk4commiscsoundbreakhtm
クラスタのノード数がある規模に近くなるとその構築や運用において負担の増大システムの安定稼動スケーラビリティなど設計運用上のさまざまな障害(壁)に出合ってクラスタ構築は不可能と思われた時代があった()
スケーラブルシステムズ株式会社
ビルゲイツ氏の基調講演HPC goes mainstream
スケーラブルシステムズ株式会社
「Fast」「Good」「Cheap」のパズル
Fast
+ Cheap
Inferior
高い性能を廉価なシステムで構築することも可能ですただそのようなシステムの場合システムの構築や利用は必ずしも容易ではありません
Good
+ Cheap
Slow比較的小規模なシステムであれば廉価で使い勝手の良いものを探すことは可能ですしかしそのようなシステムでは拡張性やより大規模なシステム構築が出来ません
Good
+ Fast
Expensive
付加価値の高い性能の高いシステムは一般には高価ですその付加価値がユーザにとってメリットが無ければコストパフォーマンスの悪いシステムになるだけです
スケーラブルシステムズ株式会社
まとめとして
bull 「テクノロジー」をどのようにとらえるかndash企業経営基盤のコア要素
ndashユーザの本質的な課題を解決する戦略的な武器
bull マーケットを牽引する「テクノロジ」に求められることndashテクノロジとHPCにおけるITインフラの関係を明確にすること
bull ユーザに何らかのメリットをもたらさない「テクノロジー」は意味を成さない
ndashテクノロジーを最適に組み合わせることで問題解決のためのソリューションの提供が可能
スケーラブルシステムズ株式会社
まとめとして
bull bdquoTs‟ for HPC - インテルテクノロジのHPCにおける価値
ndash インテルテクノロジはHPCにおいて重要な構成要素となっている
ndashそれらの構成要素を統合することでより高い価値の提供が可能となる
ndash二分化しつつあるHPCシステムにおいて「標準コ
ンポーネント」としてのプラットフォームの動向として今後もその動向には注目する必要がある
スケーラブルシステムズ株式会社
さらに詳しい情報はhellip
bull 弊社のコンサルテーションに関するご提案資料もダウンロード可能です(非公開WEBページ)別途弊社に内容等についてはお尋ねください
お問い合わせ先102-0083
東京都千代田区麹町3-5-2
BUREX麹町 8F
電話03-5875-4718
FAX03-3237-7612
E-mailbizsstccojp
httpwwwsstccojp wwwsstccojpbiz
スケーラブルシステムズ株式会社
スケーラブルシステムズ株式会社
ハイエンドコンピューティングに関するコンサルテーションとして幅広いサービスをご提供致します
このサービスを最大限に活用していただくことでコラボレーションによる「顧客志向」 のコン
サルテーションサービスをご提供できればと思っております
スケーラブルシステムズ株式会社
社名製品名などは一般に各社の商標または登録商標です無断での引用転載を禁じます
In general the name of the company and the product name etc are the trademarks or registered trademarks of each company
Copyright Scalable Systems Co Ltd 2005 Unauthorized use is strictly forbidden
2005年11月
スケーラブルシステムズ株式会社
ソフトウエアとハードウエア
bull ソフトウエアThe Law of Morehellip
ndashシステム規模とその複雑さの急速な増加拡大
ndash ソフトウエアの準備が出来た時点でハードウエアは既に陳腐化し次のシステムの導入の検討が進む
bull ハードウエアMoore‟s Law (ムーアの法則)ndash消費電力の問題のためプロセッサの動作クロックを今までのペースで上げることは困難
ndashプロセッサとメモリの性能差の拡大によるCPUサイクルとのギャップ
ndashピーク性能と実効性能のギャップの拡大
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash過去12年間でPentiumプロセッサの動作周波数は60 MHz から 3800 MHz にまでアップ
ndash現在までの高性能化の約80 はクロック周波数の向上によるもの
スケーラブルシステムズ株式会社
ハードウエアの問題Moore‟s Lawムーアの法則
bull インテルの共同設立者の1人である Gordon Moore 博士が1965年4月19日号の「Electronics」誌に投稿した 「一定面積に集積されるトランジスタの数は12か月で倍増しそれに伴いトランジスタの動作速度が向上する」という予測 (その後1975年に Moore 博士はチップの複雑化を考慮してトランジスタ数の倍増ペースを24か月に修正)
bull また一般にはあまり知られていないがテクノロジの進歩とともに製造コストが劇的に下落することも予測(左図)
httpwwwintelcojpjpdevelopertechnologysiliconmooreslawindexhtm
指数関数的成長は永遠には続かないしかしその永遠を先延ばしにすることはできる [英語 PDF 形式 2MB]
Gordon E Moore2003年2月10日ISSCC (International
Solid State Circuits Conference) でのプレゼンテーション
Dr Gordon Moore
(co-founder of Intel)
スケーラブルシステムズ株式会社
Technology Trend
ムーアの法則依然として有効
スケーラブルシステムズ株式会社
性能向上の源泉は
ハードウエアデバイス技術の進歩bull ロジック回路のスイッチング速度の向上とデバイス密度bull メモリサイズの拡大とアクセス速度の向上bull 通信性能(バンド幅とレイテンシの向上)
bull 並列性ndash 1サイクルでの命令実行数
bull 命令レベルでの並列性(ILP)
bull ベクトル処理ndash プロセッサあたりコア数ndash ノードあたりのプロセッサ数ndash システムあたりのノード数
コンピュータアーキテクチャbull 命令発行実行速度の向上
ndash パイプライン化ndash 分岐予測ndash キャッシュndash Out-of-order など
スケーラブルシステムズ株式会社
GHz競争
bull 2000年に開催されたIEEE国際電子デバイス会議2000(2000
IEEE International Electron Devices MeetingIEDM) においてインテル社は4億個以上のトランジスタを集積した10GHz駆動のプロセッサが2005年までに実現可能だと発表しましたndash 実際にはインテル社の最速プロセッサは6ヶ月前に発表された
38GHz(Intel Pentium 4)となっています
bull Prescottプロセッサの6xxシリーズ発表に際してインテル社はldquoadding value beyond GHzrdquo のコメントを出していますそれ以降インテル社の多くのドキュメントやプレスリリースはこのldquoadding value beyond GHzrdquo についての内容を含んでいます
スケーラブルシステムズ株式会社
発熱の問題が深刻化
Bob Colwell氏の資料より抜粋
Increasing Frequency
Watt
scm
2
1
10
100
1000
15 10 07 05 035 025 018 013 01 007
i386i486
PentiumPentium Pro
Pentium IIPentium III
Hot Plate
Nuclear Reactor
Rocket Nozzle
Pentium 4(Prescott)
Pentium 4(Willamette)
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash過去12年間でPentiumプロセッサの動作周波数は60 MHz から 3800 MHz にまでアップ
ndash現在までの高性能化の約80 はクロック周波数の向上によるもの
bull 命令実行の強化と最適化
ndashより強力なインストラクションセット
ndash命令実行の最適化(パイプライン化分岐予測複数命令の同時実行命令実行順序の変更など)
スケーラブルシステムズ株式会社
技術のSカーブ技術開発の進展と製品性能の成長の関係
bull 技術開発の初期は製品性能はゆっくりと向上するがしだいに性能の向上の幅が大きくなるしかし次第に技術開発が成熟段階に入ると性能向上は逓減していく
製品の性能
時間
First Technology
Second Technology
Third Technology
RISCアウトオブオーダー実行lt1 instruction cycle
スーパースカラー RISCアウトオブオーダー実行lt2 instructions cycle
明示的並列命令コンピューティング技術 (EPIC)
命令の並列実行度の向上
スケーラブルシステムズ株式会社
マイクロアーキテクチャのSカーブ
Johan De Gelas Quest for More Processing Power
AnandTech Feb 8 2005
httpwwwanandtechcomcpuchipsetsshowdocaspxi=2343
101
102
103
104
105
106
MIP
S
1980 1985 1990 1995 2000 2005 2010
Pentium Architecture
Super Scalar
Pentium Pro Architecture
Speculative Out-of-Order
Pentium 4 Architecture
Trace Cache
Pentium 4 and Xeon Architecture with HT
Multi-Threaded
Multi-Threaded Multi-Core
Era of
Instruction
Parallelism
Era of
Thread
Parallelism
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash 過去12年間でPentiumプロセッサの動作周波数は60
MHz から 3800 MHz にまでアップ
ndash 現在までの高性能化の約80 はクロック周波数の向上によるもの
bull 命令実行の強化と最適化
ndash より強力なインストラクションセット
ndash 命令実行の最適化(パイプライン化分岐予測複数命令の同時実行命令実行順序の変更など)
bull 大容量キャッシュ
ndash プロセッサの速度とメモリレイテンシ(待ち時間)とバンド幅のギャップの拡大に対する対策対応としての容量の拡張
スケーラブルシステムズ株式会社
性能ギャップの問題
bull プロセッサ速度とメモリアクセスの速度差によってプロセッサがより高速になったとしてもプロセッサはその演算能力を完全に使い切ることが出来ない
1
10
100
1000Performance
1980 1990 2000
microProc
60yr
DRAM
7yr
バンド幅とレイテンシの問題が今後はより深刻(プロセッサ性能とのギャップはほぼ年率50の差で広がっている)
DRAM
CPU
プロセッサはほぼナノ秒に一回命令実行DRAMへのアクセスはほぼ100ナノ秒の時間
スケーラブルシステムズ株式会社
今後の発展と課題
Episode IV
A New Hope
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash 過去12年間でPentiumプロセッサの動作周波数は60
MHz から 3800 MHz にまでアップ
ndash 現在までの高性能化の約80 はクロック周波数の向上によるもの
bull 命令実行の強化と最適化
ndash より強力なインストラクションセット
ndash 命令実行の最適化(パイプライン化分岐予測複数命令の同時実行命令実行順序の変更など)
bull 大容量キャッシュ
ndash プロセッサの速度とメモリレイテンシ(待ち時間)とバンド幅のギャップの拡大に対する対策対応としての容量の拡張
スケーラブルシステムズ株式会社
デュアルコアプロセッサ
bull チップ上のトランジスタのより有効活用が可能bull スレッドレベルでの並列処理を活用bull よりシンプルなプロセッサの設計が可能
bull 将来のマイクロプロセッサはより多くのコアを実装可能bull 将来のマイクロプロセッサはより大容量のキャッシュの実装が可能
IBM Power5
with 19MB L2
AMD Opteron
with 2MB L2
Intel Montecito
With 24MB L3
スケーラブルシステムズ株式会社
イノベーションのジレンマ
製品の性能
時間
First Technology
Second Technology
Third Technology
RISCアウトオブオーダー実行lt1 instruction cycle
スーパースカラー RISCアウトオブオーダー実行lt2 instructions cycle
明示的並列命令コンピューティング技術 (EPIC)
命令の並列実行度の向上
製品の性能(異なる尺度)
時間
持続的イノベーション
技術革新が顧客の求める性能向上軸(ムーアの法則)に沿っている
破壊的イノベーションマルチコアとマルチスレッドによる並列処理
短期的には(シングルスレッドの性能)としては性能が低下するが将来の大きな性能向上とコスト低下機能強化の可能性が大きい
スケーラブルシステムズ株式会社
マルチコアの利点
ワークロードの処理効率の向上
bull マルチスレッドアプリケーションndash現在多くのアプリケーション(データベース
WEB科学技術計算)はマルチスレッド化
ndashマルチコアプロセッサではこれらのアプリケーションのマルチスレッドでの実行が容易に可能
bull 複数ジョブの処理ndashシステムでは複数のワークロード同時に処理することが必要
ndashマルチコアではこれらのワークロードへの処理が可能
スケーラブルシステムズ株式会社
マルチコアの利点
消費電力あたりの性能を最大にし高性能で低消費電力のシステム構築が可能
bull OS自身のマルチスレッド対応
ndash OSのサービスもマルチスレッドで処理することでより効率よく処理することが可能
bull 仮想化
ndashサーバのセキュリティや管理の強化
ndash管理するノード数を減らし運用コストの削減を図る
bull 最新のソフトウエアテクノロジの活用
スケーラブルシステムズ株式会社
大きな変革しかし容易ではない
マルチコアプロセッシング(または汎用もしくは専用プロセッサをソケットに複数搭載可能なこと)はEthernetの誕生以来ITインフラに対しての大きなインパクトをもたらします
デュアルプロセッサは386プロセッサの発表以来性能に関して最大の向上を実現しますしかしこのような性能向上にはソフトウエアの最適化がプロセッサの性能をフルに発揮するためには必要です
スケーラブルシステムズ株式会社
並列性(Parallelism)の利用
マルチタスク処理
MPIなどによる複数のノード間での並列処理
ユーザ及びコンパイラによるスレッドレベルでの並列処理(TLP)
コンパイラによる命列実行レベルでの並列処理(ILP)
マルチコア
マルチプロセッサ
マルチノード
マルチインストラクション
システム
スケーラブルシステムズ株式会社
ムーアの法則(GHz から MC へ)
マルチコアによる性能向上
動作周波数の向上による性能向上
性能
2005
bullマルチスレッドbullマルチタスクbull トレーニングbullツールbullhelliphellip
並列処理による性能向上についてはシステムサポートやプログラミングサポートなどの面での技術支援が重要です
スケーラブルシステムズ株式会社
Episode VI
Return of the Jedi
Ts for HPC - インテルテクノロジのHPCにおける価値の考察
スケーラブルシステムズ株式会社
将来予測の難しさ
bull ldquoI think there is a world market for maybe five
computersrdquobull Thomas Watson chairman of IBM 1943
bull ldquoThere is no reason for any individual to have a
computer in their homerdquobull Ken Olson president and founder of digital equipment
corporation 1977
bull ldquoThere are only about 100 potential customers
worldwide for a Cray-1rdquobull Seymour Cray 1977
bull ldquo640K [of memory] ought to be enough for
anybodyrdquobull Bill Gates chairman of Microsoft1981
スケーラブルシステムズ株式会社
「未来を予測する最良の方法はそれを創造してしまうことである」The best way to predict future is to invent it
Dr Alan Kay President of Viewpoints Research
Institute Inc
スケーラブルシステムズ株式会社
ITマネージメントの課題
bull プラットフォームの内部からの保護ndash ウイルスやワームなど悪意あるソフトウェアからの保護
bull 資産管理ndash 多くの IT 部門では特定できない資産が問題
bull オンラインおよびリモート管理診断機能 ndash アップグレード診断復旧のための作業の効率化
bull アプリケーション統合の困難さ
ndash アプリケーションの高度化と複雑化によって複数のアプリケーションを組み合わせるての動作に問題
bull 動的なリソース割り当て
ndash 組織内で未使用のCPUやメモリの活用
スケーラブルシステムズ株式会社
マーケットトレンド
All Servers Worldwide 2003 2004 2005 20062003 to 2006
CAGR
2005 to 2006
CAGR
Total Factory Revenue($B) $46149 $49146 $51268 $52251 42 19
Units Shipped(same as nodes) 5278222 6307484 7050099 7472649 123 60
Processor Dies Shipped 8662823 10134624 11712766 12779159 138 91
HPC Technical Servers Worldwide 2003 2004 2005 20062003 to 2006
CAGR
2005 to 2006
CAGR
HPC Server Revenue($B) $5698 $7393 $9208 $10030 207 89
Adjusted Revenues(To much
enterprise)$5128 $6654 $8287 $9027 207 89
Node Units Shipped 411327 734510 1215735 1419221 511 167
Processor Elements Shipped 1002905 1657827 2681079 3351843 495 250
HPC As A Ratio Of All Servers 2003 2004 2005 2006
Revenue($B) 123 150 180 192
Adjusted Revenues(Apples-to-
apples)111 135 162 173
Units Shipped(Nodes) 78 116 172 190
Processors Shipped 116 164 226 261
Source IDC 2007
スケーラブルシステムズ株式会社
HPCマーケット(対全サーバマーケット)
0
5
10
15
20
25
30
2003 2004 2005 2006
Revenue($B)
Adjusted Revenues(Apples-to-apples)
Units Shipped(Nodes)
Processors Shipped
スケーラブルシステムズ株式会社
マーケットトレンド
Source IDC 2004
Cost of mgmt amp admin 10 CAGR
$0
$20
$40
$60
$80
$100
$120
$140
$160
$180
$200
1996 rsquo97 rsquo98 rsquo992000 rsquo01 rsquo02 rsquo03 rsquo04 rsquo05 rsquo06 rsquo07 rsquo08-
New server spending (USM$) 3 CAGR
Spending (USB$)
5
10
15
20
25
30
35
Installed Base (M Units)
bull ハードウェアの減価償却費は IT の TCO 全体の約25 にすぎない
bull ソフトウェアのコストはわずか10~15
bull 電気などの公共料金フロアスペース電話回線など設備面のコストの割合もきわめて小さい
bull プラットフォームのコストではなくTCOの大きな比率を占めるのは人件費となっている
スケーラブルシステムズ株式会社
運用管理コストの低減
bull 「もっと処理性能を」と「より安価に」を実現するためにワークステーションやサーバでの分散処理の導入
bull ユーザや企業に新たな価値をもたらしてはいるが管理責任とその負担の分散を招き結果的に運用管理コストを押し上げる
メインフレームスーパーコンピュータ
仮想化によるサーバコンソリデーション
クラスタによる仮想コンピュータ
スケーラブルシステムズ株式会社
次世代HPCインフラ
bull コアとスレッド
ndash より多くのスレッドを効率よく利用可能
ndash マルチスレッド向け最適化
bull 電力管理
ndash 省電力
ndash データセンター運用管理機能
bull 仮想化
ndash 柔軟性と優れた運用管理
ndash 仮想的なシステムパーティション
bull RAS
ndash ハードウエアベースの自己監視自己管理
ndash ファームウエアベースのエラー履歴管理
bull システム管理
ndash より低いTCOを実現するための一般標準化されたマネージメント機能
スケーラブルシステムズ株式会社
高速プロセッサ
64ビットアドレス
メモリ性能と容
量
IOバンド幅
インターコネクト
省電力
システムのlsquoバランスrsquo
マルチコアによってプロセッサ単体の処理性能の向上を図る
64ビットのアドレス空間と
拡張されたレジスタによるOSとアプリケーション双方の機能性能拡張
64ビット化とマルチコア化
にともなう高速大容量へのニーズに対応しまたその拡張性の高い実装技術の実現
CPU-メモリ間の高速な
データ転送やより高速なネットワーク大規模なストレージのサポート
大規模なクラスタシステムの構築及びアプリケーションのワークロードに対応した高速性能
エコシステムに対応するためにも電力消費量や発熱量を積極的に抑える技術の開発
スケーラブルシステムズ株式会社
HPCの二極分化
Going UP
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
Going DOWN
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
スケーラブルシステムズ株式会社
システムとユーザの尺度
bull ユーザの尺度での性能(Performance)は時間当たりにどれだけの仕事を処理出来るか(仕事量 時間)
bull Flopsでの評価は実際には意味がないまた問題の規模(small medium large) という評価も難しい
bull ldquoスケーラビリティrdquoは対象を明確に規定する必要がある
システムの尺度 ユーザの尺度
Flops hArr 計算終了までの時間
メモリサイズ(GB) hArr モデルのサイズと計算結果
プロセッサ数 hArr ワークロードでの試行
データ長 hArr 計算精度
システム構成(クラスタ) hArr 導入コストと運用コスト
スケーラビリティ hArr ベンチマーク
スケーラブルシステムズ株式会社
HPCシステムの動向国家プロジェクトと商用製品のギャップの拡大
Going UP
Going DOWN
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
Peta-Scaleコンピューティングに求められる基本技術と現在のHPCの主要マーケットでの要求はあまりにも差が大きいrarrHPCSシステムは各社とのlsquoCommodityrsquoのマイクロプロセッサではなく独自のプロセッサを開発中
ハードウエアはrsquoCommodityrsquo
なものを利用してSWの改善サポート利用技術のサポートが今後の主要マーケットでの成功の鍵となる
スケーラブルシステムズ株式会社
HPCシステムの動向国家プロジェクト
Going UP
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
Peta-Scaleコンピューティングに求められる基本技術と現在のHPCの主要マーケットでの要求はあまりにも差が大きいrarrHPCSシステムは各社とのlsquoCommodityrsquoのマイクロプロセッサではなく独自のプロセッサを開発中
スケーラブルシステムズ株式会社
TOP500性能予測
1993 1995 1997 1999 2001 2003 2005 2007 2009 2011 2013 2015
N=
50
SUM
1 Gflops
1 Tflops
100 Mflops
100 Gflops
100 Tflops
10 Gflops
10 Tflops
1 Pflops
10 Pflops
IBM ASCI White
Blue GeneEarth Simulator
Intel
TOP500の総計が1PFを超えています
TOP500に掲載されるには1TF
が最低条件になっています
シングルシステムの1PFの実現は2009年
システム(プロセッサ数) 13倍年プロセッサ性能向上 14倍年トータル性能 18倍年
2009年までに1ペタFLOPS
スケーラブルシステムズ株式会社
性能ギャップの拡大
bull ピーク性能の大幅な向上ndash 1990年台は性能の向上は102のオーダーでしたが2000年台になると103のオーダーで性能は向上しています
しかしhellipndash 多くの科学技術計算用途のアプリケーションのピーク性能に対する実効性能の比率は5-10となっています(1990年代のベクトル計算機は40-50の対ピーク性能を示していました)
bull 今必要なのはndash より高い実効性能を発揮することが可能な計算アルゴリズムと手法の開発とスケーラビリティの向上
ndash プログラミングモデルなども含めてスケーラブルな計算機環境の構築
01
1
10
100
1000
2000 2004
Tera
flo
ps
1996
Performance
Gap
Peak Performance
Real Performance
NERSC User Group Meeting June 24-25 2004
Osni Marques and Tony Drummond
Lawrence Berkeley National Laboratory
スケーラブルシステムズ株式会社
ペタスケールシステムの構築
bull ソフトウエア(アプリケーションOSプログラミングAPIなど)の課題の克服が課題
bull システムの複雑さと生産性
例Linpack Benchmark
bull オリジナルベンチマークプログラム ~100ライン
bull HPL ベンチマークプログラム ~10000ライン(x100より複雑)
lsquo複雑さrsquoの壁
現在のテラFLOPS級の問題
Source ORNL
スケーラブルシステムズ株式会社
HPCシステムの動向商用製品
Going DOWN
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
ハードウエアはrsquoCommodityrsquo
なものを利用してSWの改善サポート利用技術のサポートが今後の主要マーケットでの成功の鍵となる
スケーラブルシステムズ株式会社
標準コンポーネントの進化
bull プロセッサの性能向上ndash lsquoマルチコアrsquoによる省電力での性能向上が可能
ndash HPCアプリケーションは容易にlsquoマルチコアrsquoの利点を活用可能 (OpenMPやMPI)
bull ファイルシステムndash高性能なスケーラブルファイルシステム(オープンソース)
bull インターコネクトndash PCI-Express (メモリlarrrarrインターコネクト)
ndash高速の商用製品やオープンソースでの強力(OpenIBなど)
スケーラブルシステムズ株式会社
標準コンポーネントの利点
bull 特定のベンダーからのシステムを組み合わせるのではなく他社のシステムも含めてベストなシステムの選択が可能
ndashスケーラブルSMPベクトル計算機クラスタの幅広い選択肢
ndash 64ビットマルチコアマイクロプロセッサの性能向上を最大限に活用
bull 標準コンポーネントの技術革新の活用
ndash PCI-ExpressやFB-DIMMの利用技術
スケーラブルシステムズ株式会社
Breaking the 1-2K nodes Barrier
bull 音の障壁サウンドバリヤー(sound barrier)飛行機の速度が音速近くになると衝撃波の発生によって抵抗の増大境界層の剥離など設計運用上のさまざまな障害(壁)に出合って超音速飛行は不可能かと思われた時代があった(1947年ごろまで)ので音の障壁といわれていた
httpwwwwilk4commiscsoundbreakhtm
クラスタのノード数がある規模に近くなるとその構築や運用において負担の増大システムの安定稼動スケーラビリティなど設計運用上のさまざまな障害(壁)に出合ってクラスタ構築は不可能と思われた時代があった()
スケーラブルシステムズ株式会社
ビルゲイツ氏の基調講演HPC goes mainstream
スケーラブルシステムズ株式会社
「Fast」「Good」「Cheap」のパズル
Fast
+ Cheap
Inferior
高い性能を廉価なシステムで構築することも可能ですただそのようなシステムの場合システムの構築や利用は必ずしも容易ではありません
Good
+ Cheap
Slow比較的小規模なシステムであれば廉価で使い勝手の良いものを探すことは可能ですしかしそのようなシステムでは拡張性やより大規模なシステム構築が出来ません
Good
+ Fast
Expensive
付加価値の高い性能の高いシステムは一般には高価ですその付加価値がユーザにとってメリットが無ければコストパフォーマンスの悪いシステムになるだけです
スケーラブルシステムズ株式会社
まとめとして
bull 「テクノロジー」をどのようにとらえるかndash企業経営基盤のコア要素
ndashユーザの本質的な課題を解決する戦略的な武器
bull マーケットを牽引する「テクノロジ」に求められることndashテクノロジとHPCにおけるITインフラの関係を明確にすること
bull ユーザに何らかのメリットをもたらさない「テクノロジー」は意味を成さない
ndashテクノロジーを最適に組み合わせることで問題解決のためのソリューションの提供が可能
スケーラブルシステムズ株式会社
まとめとして
bull bdquoTs‟ for HPC - インテルテクノロジのHPCにおける価値
ndash インテルテクノロジはHPCにおいて重要な構成要素となっている
ndashそれらの構成要素を統合することでより高い価値の提供が可能となる
ndash二分化しつつあるHPCシステムにおいて「標準コ
ンポーネント」としてのプラットフォームの動向として今後もその動向には注目する必要がある
スケーラブルシステムズ株式会社
さらに詳しい情報はhellip
bull 弊社のコンサルテーションに関するご提案資料もダウンロード可能です(非公開WEBページ)別途弊社に内容等についてはお尋ねください
お問い合わせ先102-0083
東京都千代田区麹町3-5-2
BUREX麹町 8F
電話03-5875-4718
FAX03-3237-7612
E-mailbizsstccojp
httpwwwsstccojp wwwsstccojpbiz
スケーラブルシステムズ株式会社
スケーラブルシステムズ株式会社
ハイエンドコンピューティングに関するコンサルテーションとして幅広いサービスをご提供致します
このサービスを最大限に活用していただくことでコラボレーションによる「顧客志向」 のコン
サルテーションサービスをご提供できればと思っております
スケーラブルシステムズ株式会社
社名製品名などは一般に各社の商標または登録商標です無断での引用転載を禁じます
In general the name of the company and the product name etc are the trademarks or registered trademarks of each company
Copyright Scalable Systems Co Ltd 2005 Unauthorized use is strictly forbidden
2005年11月
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash過去12年間でPentiumプロセッサの動作周波数は60 MHz から 3800 MHz にまでアップ
ndash現在までの高性能化の約80 はクロック周波数の向上によるもの
スケーラブルシステムズ株式会社
ハードウエアの問題Moore‟s Lawムーアの法則
bull インテルの共同設立者の1人である Gordon Moore 博士が1965年4月19日号の「Electronics」誌に投稿した 「一定面積に集積されるトランジスタの数は12か月で倍増しそれに伴いトランジスタの動作速度が向上する」という予測 (その後1975年に Moore 博士はチップの複雑化を考慮してトランジスタ数の倍増ペースを24か月に修正)
bull また一般にはあまり知られていないがテクノロジの進歩とともに製造コストが劇的に下落することも予測(左図)
httpwwwintelcojpjpdevelopertechnologysiliconmooreslawindexhtm
指数関数的成長は永遠には続かないしかしその永遠を先延ばしにすることはできる [英語 PDF 形式 2MB]
Gordon E Moore2003年2月10日ISSCC (International
Solid State Circuits Conference) でのプレゼンテーション
Dr Gordon Moore
(co-founder of Intel)
スケーラブルシステムズ株式会社
Technology Trend
ムーアの法則依然として有効
スケーラブルシステムズ株式会社
性能向上の源泉は
ハードウエアデバイス技術の進歩bull ロジック回路のスイッチング速度の向上とデバイス密度bull メモリサイズの拡大とアクセス速度の向上bull 通信性能(バンド幅とレイテンシの向上)
bull 並列性ndash 1サイクルでの命令実行数
bull 命令レベルでの並列性(ILP)
bull ベクトル処理ndash プロセッサあたりコア数ndash ノードあたりのプロセッサ数ndash システムあたりのノード数
コンピュータアーキテクチャbull 命令発行実行速度の向上
ndash パイプライン化ndash 分岐予測ndash キャッシュndash Out-of-order など
スケーラブルシステムズ株式会社
GHz競争
bull 2000年に開催されたIEEE国際電子デバイス会議2000(2000
IEEE International Electron Devices MeetingIEDM) においてインテル社は4億個以上のトランジスタを集積した10GHz駆動のプロセッサが2005年までに実現可能だと発表しましたndash 実際にはインテル社の最速プロセッサは6ヶ月前に発表された
38GHz(Intel Pentium 4)となっています
bull Prescottプロセッサの6xxシリーズ発表に際してインテル社はldquoadding value beyond GHzrdquo のコメントを出していますそれ以降インテル社の多くのドキュメントやプレスリリースはこのldquoadding value beyond GHzrdquo についての内容を含んでいます
スケーラブルシステムズ株式会社
発熱の問題が深刻化
Bob Colwell氏の資料より抜粋
Increasing Frequency
Watt
scm
2
1
10
100
1000
15 10 07 05 035 025 018 013 01 007
i386i486
PentiumPentium Pro
Pentium IIPentium III
Hot Plate
Nuclear Reactor
Rocket Nozzle
Pentium 4(Prescott)
Pentium 4(Willamette)
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash過去12年間でPentiumプロセッサの動作周波数は60 MHz から 3800 MHz にまでアップ
ndash現在までの高性能化の約80 はクロック周波数の向上によるもの
bull 命令実行の強化と最適化
ndashより強力なインストラクションセット
ndash命令実行の最適化(パイプライン化分岐予測複数命令の同時実行命令実行順序の変更など)
スケーラブルシステムズ株式会社
技術のSカーブ技術開発の進展と製品性能の成長の関係
bull 技術開発の初期は製品性能はゆっくりと向上するがしだいに性能の向上の幅が大きくなるしかし次第に技術開発が成熟段階に入ると性能向上は逓減していく
製品の性能
時間
First Technology
Second Technology
Third Technology
RISCアウトオブオーダー実行lt1 instruction cycle
スーパースカラー RISCアウトオブオーダー実行lt2 instructions cycle
明示的並列命令コンピューティング技術 (EPIC)
命令の並列実行度の向上
スケーラブルシステムズ株式会社
マイクロアーキテクチャのSカーブ
Johan De Gelas Quest for More Processing Power
AnandTech Feb 8 2005
httpwwwanandtechcomcpuchipsetsshowdocaspxi=2343
101
102
103
104
105
106
MIP
S
1980 1985 1990 1995 2000 2005 2010
Pentium Architecture
Super Scalar
Pentium Pro Architecture
Speculative Out-of-Order
Pentium 4 Architecture
Trace Cache
Pentium 4 and Xeon Architecture with HT
Multi-Threaded
Multi-Threaded Multi-Core
Era of
Instruction
Parallelism
Era of
Thread
Parallelism
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash 過去12年間でPentiumプロセッサの動作周波数は60
MHz から 3800 MHz にまでアップ
ndash 現在までの高性能化の約80 はクロック周波数の向上によるもの
bull 命令実行の強化と最適化
ndash より強力なインストラクションセット
ndash 命令実行の最適化(パイプライン化分岐予測複数命令の同時実行命令実行順序の変更など)
bull 大容量キャッシュ
ndash プロセッサの速度とメモリレイテンシ(待ち時間)とバンド幅のギャップの拡大に対する対策対応としての容量の拡張
スケーラブルシステムズ株式会社
性能ギャップの問題
bull プロセッサ速度とメモリアクセスの速度差によってプロセッサがより高速になったとしてもプロセッサはその演算能力を完全に使い切ることが出来ない
1
10
100
1000Performance
1980 1990 2000
microProc
60yr
DRAM
7yr
バンド幅とレイテンシの問題が今後はより深刻(プロセッサ性能とのギャップはほぼ年率50の差で広がっている)
DRAM
CPU
プロセッサはほぼナノ秒に一回命令実行DRAMへのアクセスはほぼ100ナノ秒の時間
スケーラブルシステムズ株式会社
今後の発展と課題
Episode IV
A New Hope
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash 過去12年間でPentiumプロセッサの動作周波数は60
MHz から 3800 MHz にまでアップ
ndash 現在までの高性能化の約80 はクロック周波数の向上によるもの
bull 命令実行の強化と最適化
ndash より強力なインストラクションセット
ndash 命令実行の最適化(パイプライン化分岐予測複数命令の同時実行命令実行順序の変更など)
bull 大容量キャッシュ
ndash プロセッサの速度とメモリレイテンシ(待ち時間)とバンド幅のギャップの拡大に対する対策対応としての容量の拡張
スケーラブルシステムズ株式会社
デュアルコアプロセッサ
bull チップ上のトランジスタのより有効活用が可能bull スレッドレベルでの並列処理を活用bull よりシンプルなプロセッサの設計が可能
bull 将来のマイクロプロセッサはより多くのコアを実装可能bull 将来のマイクロプロセッサはより大容量のキャッシュの実装が可能
IBM Power5
with 19MB L2
AMD Opteron
with 2MB L2
Intel Montecito
With 24MB L3
スケーラブルシステムズ株式会社
イノベーションのジレンマ
製品の性能
時間
First Technology
Second Technology
Third Technology
RISCアウトオブオーダー実行lt1 instruction cycle
スーパースカラー RISCアウトオブオーダー実行lt2 instructions cycle
明示的並列命令コンピューティング技術 (EPIC)
命令の並列実行度の向上
製品の性能(異なる尺度)
時間
持続的イノベーション
技術革新が顧客の求める性能向上軸(ムーアの法則)に沿っている
破壊的イノベーションマルチコアとマルチスレッドによる並列処理
短期的には(シングルスレッドの性能)としては性能が低下するが将来の大きな性能向上とコスト低下機能強化の可能性が大きい
スケーラブルシステムズ株式会社
マルチコアの利点
ワークロードの処理効率の向上
bull マルチスレッドアプリケーションndash現在多くのアプリケーション(データベース
WEB科学技術計算)はマルチスレッド化
ndashマルチコアプロセッサではこれらのアプリケーションのマルチスレッドでの実行が容易に可能
bull 複数ジョブの処理ndashシステムでは複数のワークロード同時に処理することが必要
ndashマルチコアではこれらのワークロードへの処理が可能
スケーラブルシステムズ株式会社
マルチコアの利点
消費電力あたりの性能を最大にし高性能で低消費電力のシステム構築が可能
bull OS自身のマルチスレッド対応
ndash OSのサービスもマルチスレッドで処理することでより効率よく処理することが可能
bull 仮想化
ndashサーバのセキュリティや管理の強化
ndash管理するノード数を減らし運用コストの削減を図る
bull 最新のソフトウエアテクノロジの活用
スケーラブルシステムズ株式会社
大きな変革しかし容易ではない
マルチコアプロセッシング(または汎用もしくは専用プロセッサをソケットに複数搭載可能なこと)はEthernetの誕生以来ITインフラに対しての大きなインパクトをもたらします
デュアルプロセッサは386プロセッサの発表以来性能に関して最大の向上を実現しますしかしこのような性能向上にはソフトウエアの最適化がプロセッサの性能をフルに発揮するためには必要です
スケーラブルシステムズ株式会社
並列性(Parallelism)の利用
マルチタスク処理
MPIなどによる複数のノード間での並列処理
ユーザ及びコンパイラによるスレッドレベルでの並列処理(TLP)
コンパイラによる命列実行レベルでの並列処理(ILP)
マルチコア
マルチプロセッサ
マルチノード
マルチインストラクション
システム
スケーラブルシステムズ株式会社
ムーアの法則(GHz から MC へ)
マルチコアによる性能向上
動作周波数の向上による性能向上
性能
2005
bullマルチスレッドbullマルチタスクbull トレーニングbullツールbullhelliphellip
並列処理による性能向上についてはシステムサポートやプログラミングサポートなどの面での技術支援が重要です
スケーラブルシステムズ株式会社
Episode VI
Return of the Jedi
Ts for HPC - インテルテクノロジのHPCにおける価値の考察
スケーラブルシステムズ株式会社
将来予測の難しさ
bull ldquoI think there is a world market for maybe five
computersrdquobull Thomas Watson chairman of IBM 1943
bull ldquoThere is no reason for any individual to have a
computer in their homerdquobull Ken Olson president and founder of digital equipment
corporation 1977
bull ldquoThere are only about 100 potential customers
worldwide for a Cray-1rdquobull Seymour Cray 1977
bull ldquo640K [of memory] ought to be enough for
anybodyrdquobull Bill Gates chairman of Microsoft1981
スケーラブルシステムズ株式会社
「未来を予測する最良の方法はそれを創造してしまうことである」The best way to predict future is to invent it
Dr Alan Kay President of Viewpoints Research
Institute Inc
スケーラブルシステムズ株式会社
ITマネージメントの課題
bull プラットフォームの内部からの保護ndash ウイルスやワームなど悪意あるソフトウェアからの保護
bull 資産管理ndash 多くの IT 部門では特定できない資産が問題
bull オンラインおよびリモート管理診断機能 ndash アップグレード診断復旧のための作業の効率化
bull アプリケーション統合の困難さ
ndash アプリケーションの高度化と複雑化によって複数のアプリケーションを組み合わせるての動作に問題
bull 動的なリソース割り当て
ndash 組織内で未使用のCPUやメモリの活用
スケーラブルシステムズ株式会社
マーケットトレンド
All Servers Worldwide 2003 2004 2005 20062003 to 2006
CAGR
2005 to 2006
CAGR
Total Factory Revenue($B) $46149 $49146 $51268 $52251 42 19
Units Shipped(same as nodes) 5278222 6307484 7050099 7472649 123 60
Processor Dies Shipped 8662823 10134624 11712766 12779159 138 91
HPC Technical Servers Worldwide 2003 2004 2005 20062003 to 2006
CAGR
2005 to 2006
CAGR
HPC Server Revenue($B) $5698 $7393 $9208 $10030 207 89
Adjusted Revenues(To much
enterprise)$5128 $6654 $8287 $9027 207 89
Node Units Shipped 411327 734510 1215735 1419221 511 167
Processor Elements Shipped 1002905 1657827 2681079 3351843 495 250
HPC As A Ratio Of All Servers 2003 2004 2005 2006
Revenue($B) 123 150 180 192
Adjusted Revenues(Apples-to-
apples)111 135 162 173
Units Shipped(Nodes) 78 116 172 190
Processors Shipped 116 164 226 261
Source IDC 2007
スケーラブルシステムズ株式会社
HPCマーケット(対全サーバマーケット)
0
5
10
15
20
25
30
2003 2004 2005 2006
Revenue($B)
Adjusted Revenues(Apples-to-apples)
Units Shipped(Nodes)
Processors Shipped
スケーラブルシステムズ株式会社
マーケットトレンド
Source IDC 2004
Cost of mgmt amp admin 10 CAGR
$0
$20
$40
$60
$80
$100
$120
$140
$160
$180
$200
1996 rsquo97 rsquo98 rsquo992000 rsquo01 rsquo02 rsquo03 rsquo04 rsquo05 rsquo06 rsquo07 rsquo08-
New server spending (USM$) 3 CAGR
Spending (USB$)
5
10
15
20
25
30
35
Installed Base (M Units)
bull ハードウェアの減価償却費は IT の TCO 全体の約25 にすぎない
bull ソフトウェアのコストはわずか10~15
bull 電気などの公共料金フロアスペース電話回線など設備面のコストの割合もきわめて小さい
bull プラットフォームのコストではなくTCOの大きな比率を占めるのは人件費となっている
スケーラブルシステムズ株式会社
運用管理コストの低減
bull 「もっと処理性能を」と「より安価に」を実現するためにワークステーションやサーバでの分散処理の導入
bull ユーザや企業に新たな価値をもたらしてはいるが管理責任とその負担の分散を招き結果的に運用管理コストを押し上げる
メインフレームスーパーコンピュータ
仮想化によるサーバコンソリデーション
クラスタによる仮想コンピュータ
スケーラブルシステムズ株式会社
次世代HPCインフラ
bull コアとスレッド
ndash より多くのスレッドを効率よく利用可能
ndash マルチスレッド向け最適化
bull 電力管理
ndash 省電力
ndash データセンター運用管理機能
bull 仮想化
ndash 柔軟性と優れた運用管理
ndash 仮想的なシステムパーティション
bull RAS
ndash ハードウエアベースの自己監視自己管理
ndash ファームウエアベースのエラー履歴管理
bull システム管理
ndash より低いTCOを実現するための一般標準化されたマネージメント機能
スケーラブルシステムズ株式会社
高速プロセッサ
64ビットアドレス
メモリ性能と容
量
IOバンド幅
インターコネクト
省電力
システムのlsquoバランスrsquo
マルチコアによってプロセッサ単体の処理性能の向上を図る
64ビットのアドレス空間と
拡張されたレジスタによるOSとアプリケーション双方の機能性能拡張
64ビット化とマルチコア化
にともなう高速大容量へのニーズに対応しまたその拡張性の高い実装技術の実現
CPU-メモリ間の高速な
データ転送やより高速なネットワーク大規模なストレージのサポート
大規模なクラスタシステムの構築及びアプリケーションのワークロードに対応した高速性能
エコシステムに対応するためにも電力消費量や発熱量を積極的に抑える技術の開発
スケーラブルシステムズ株式会社
HPCの二極分化
Going UP
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
Going DOWN
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
スケーラブルシステムズ株式会社
システムとユーザの尺度
bull ユーザの尺度での性能(Performance)は時間当たりにどれだけの仕事を処理出来るか(仕事量 時間)
bull Flopsでの評価は実際には意味がないまた問題の規模(small medium large) という評価も難しい
bull ldquoスケーラビリティrdquoは対象を明確に規定する必要がある
システムの尺度 ユーザの尺度
Flops hArr 計算終了までの時間
メモリサイズ(GB) hArr モデルのサイズと計算結果
プロセッサ数 hArr ワークロードでの試行
データ長 hArr 計算精度
システム構成(クラスタ) hArr 導入コストと運用コスト
スケーラビリティ hArr ベンチマーク
スケーラブルシステムズ株式会社
HPCシステムの動向国家プロジェクトと商用製品のギャップの拡大
Going UP
Going DOWN
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
Peta-Scaleコンピューティングに求められる基本技術と現在のHPCの主要マーケットでの要求はあまりにも差が大きいrarrHPCSシステムは各社とのlsquoCommodityrsquoのマイクロプロセッサではなく独自のプロセッサを開発中
ハードウエアはrsquoCommodityrsquo
なものを利用してSWの改善サポート利用技術のサポートが今後の主要マーケットでの成功の鍵となる
スケーラブルシステムズ株式会社
HPCシステムの動向国家プロジェクト
Going UP
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
Peta-Scaleコンピューティングに求められる基本技術と現在のHPCの主要マーケットでの要求はあまりにも差が大きいrarrHPCSシステムは各社とのlsquoCommodityrsquoのマイクロプロセッサではなく独自のプロセッサを開発中
スケーラブルシステムズ株式会社
TOP500性能予測
1993 1995 1997 1999 2001 2003 2005 2007 2009 2011 2013 2015
N=
50
SUM
1 Gflops
1 Tflops
100 Mflops
100 Gflops
100 Tflops
10 Gflops
10 Tflops
1 Pflops
10 Pflops
IBM ASCI White
Blue GeneEarth Simulator
Intel
TOP500の総計が1PFを超えています
TOP500に掲載されるには1TF
が最低条件になっています
シングルシステムの1PFの実現は2009年
システム(プロセッサ数) 13倍年プロセッサ性能向上 14倍年トータル性能 18倍年
2009年までに1ペタFLOPS
スケーラブルシステムズ株式会社
性能ギャップの拡大
bull ピーク性能の大幅な向上ndash 1990年台は性能の向上は102のオーダーでしたが2000年台になると103のオーダーで性能は向上しています
しかしhellipndash 多くの科学技術計算用途のアプリケーションのピーク性能に対する実効性能の比率は5-10となっています(1990年代のベクトル計算機は40-50の対ピーク性能を示していました)
bull 今必要なのはndash より高い実効性能を発揮することが可能な計算アルゴリズムと手法の開発とスケーラビリティの向上
ndash プログラミングモデルなども含めてスケーラブルな計算機環境の構築
01
1
10
100
1000
2000 2004
Tera
flo
ps
1996
Performance
Gap
Peak Performance
Real Performance
NERSC User Group Meeting June 24-25 2004
Osni Marques and Tony Drummond
Lawrence Berkeley National Laboratory
スケーラブルシステムズ株式会社
ペタスケールシステムの構築
bull ソフトウエア(アプリケーションOSプログラミングAPIなど)の課題の克服が課題
bull システムの複雑さと生産性
例Linpack Benchmark
bull オリジナルベンチマークプログラム ~100ライン
bull HPL ベンチマークプログラム ~10000ライン(x100より複雑)
lsquo複雑さrsquoの壁
現在のテラFLOPS級の問題
Source ORNL
スケーラブルシステムズ株式会社
HPCシステムの動向商用製品
Going DOWN
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
ハードウエアはrsquoCommodityrsquo
なものを利用してSWの改善サポート利用技術のサポートが今後の主要マーケットでの成功の鍵となる
スケーラブルシステムズ株式会社
標準コンポーネントの進化
bull プロセッサの性能向上ndash lsquoマルチコアrsquoによる省電力での性能向上が可能
ndash HPCアプリケーションは容易にlsquoマルチコアrsquoの利点を活用可能 (OpenMPやMPI)
bull ファイルシステムndash高性能なスケーラブルファイルシステム(オープンソース)
bull インターコネクトndash PCI-Express (メモリlarrrarrインターコネクト)
ndash高速の商用製品やオープンソースでの強力(OpenIBなど)
スケーラブルシステムズ株式会社
標準コンポーネントの利点
bull 特定のベンダーからのシステムを組み合わせるのではなく他社のシステムも含めてベストなシステムの選択が可能
ndashスケーラブルSMPベクトル計算機クラスタの幅広い選択肢
ndash 64ビットマルチコアマイクロプロセッサの性能向上を最大限に活用
bull 標準コンポーネントの技術革新の活用
ndash PCI-ExpressやFB-DIMMの利用技術
スケーラブルシステムズ株式会社
Breaking the 1-2K nodes Barrier
bull 音の障壁サウンドバリヤー(sound barrier)飛行機の速度が音速近くになると衝撃波の発生によって抵抗の増大境界層の剥離など設計運用上のさまざまな障害(壁)に出合って超音速飛行は不可能かと思われた時代があった(1947年ごろまで)ので音の障壁といわれていた
httpwwwwilk4commiscsoundbreakhtm
クラスタのノード数がある規模に近くなるとその構築や運用において負担の増大システムの安定稼動スケーラビリティなど設計運用上のさまざまな障害(壁)に出合ってクラスタ構築は不可能と思われた時代があった()
スケーラブルシステムズ株式会社
ビルゲイツ氏の基調講演HPC goes mainstream
スケーラブルシステムズ株式会社
「Fast」「Good」「Cheap」のパズル
Fast
+ Cheap
Inferior
高い性能を廉価なシステムで構築することも可能ですただそのようなシステムの場合システムの構築や利用は必ずしも容易ではありません
Good
+ Cheap
Slow比較的小規模なシステムであれば廉価で使い勝手の良いものを探すことは可能ですしかしそのようなシステムでは拡張性やより大規模なシステム構築が出来ません
Good
+ Fast
Expensive
付加価値の高い性能の高いシステムは一般には高価ですその付加価値がユーザにとってメリットが無ければコストパフォーマンスの悪いシステムになるだけです
スケーラブルシステムズ株式会社
まとめとして
bull 「テクノロジー」をどのようにとらえるかndash企業経営基盤のコア要素
ndashユーザの本質的な課題を解決する戦略的な武器
bull マーケットを牽引する「テクノロジ」に求められることndashテクノロジとHPCにおけるITインフラの関係を明確にすること
bull ユーザに何らかのメリットをもたらさない「テクノロジー」は意味を成さない
ndashテクノロジーを最適に組み合わせることで問題解決のためのソリューションの提供が可能
スケーラブルシステムズ株式会社
まとめとして
bull bdquoTs‟ for HPC - インテルテクノロジのHPCにおける価値
ndash インテルテクノロジはHPCにおいて重要な構成要素となっている
ndashそれらの構成要素を統合することでより高い価値の提供が可能となる
ndash二分化しつつあるHPCシステムにおいて「標準コ
ンポーネント」としてのプラットフォームの動向として今後もその動向には注目する必要がある
スケーラブルシステムズ株式会社
さらに詳しい情報はhellip
bull 弊社のコンサルテーションに関するご提案資料もダウンロード可能です(非公開WEBページ)別途弊社に内容等についてはお尋ねください
お問い合わせ先102-0083
東京都千代田区麹町3-5-2
BUREX麹町 8F
電話03-5875-4718
FAX03-3237-7612
E-mailbizsstccojp
httpwwwsstccojp wwwsstccojpbiz
スケーラブルシステムズ株式会社
スケーラブルシステムズ株式会社
ハイエンドコンピューティングに関するコンサルテーションとして幅広いサービスをご提供致します
このサービスを最大限に活用していただくことでコラボレーションによる「顧客志向」 のコン
サルテーションサービスをご提供できればと思っております
スケーラブルシステムズ株式会社
社名製品名などは一般に各社の商標または登録商標です無断での引用転載を禁じます
In general the name of the company and the product name etc are the trademarks or registered trademarks of each company
Copyright Scalable Systems Co Ltd 2005 Unauthorized use is strictly forbidden
2005年11月
スケーラブルシステムズ株式会社
ハードウエアの問題Moore‟s Lawムーアの法則
bull インテルの共同設立者の1人である Gordon Moore 博士が1965年4月19日号の「Electronics」誌に投稿した 「一定面積に集積されるトランジスタの数は12か月で倍増しそれに伴いトランジスタの動作速度が向上する」という予測 (その後1975年に Moore 博士はチップの複雑化を考慮してトランジスタ数の倍増ペースを24か月に修正)
bull また一般にはあまり知られていないがテクノロジの進歩とともに製造コストが劇的に下落することも予測(左図)
httpwwwintelcojpjpdevelopertechnologysiliconmooreslawindexhtm
指数関数的成長は永遠には続かないしかしその永遠を先延ばしにすることはできる [英語 PDF 形式 2MB]
Gordon E Moore2003年2月10日ISSCC (International
Solid State Circuits Conference) でのプレゼンテーション
Dr Gordon Moore
(co-founder of Intel)
スケーラブルシステムズ株式会社
Technology Trend
ムーアの法則依然として有効
スケーラブルシステムズ株式会社
性能向上の源泉は
ハードウエアデバイス技術の進歩bull ロジック回路のスイッチング速度の向上とデバイス密度bull メモリサイズの拡大とアクセス速度の向上bull 通信性能(バンド幅とレイテンシの向上)
bull 並列性ndash 1サイクルでの命令実行数
bull 命令レベルでの並列性(ILP)
bull ベクトル処理ndash プロセッサあたりコア数ndash ノードあたりのプロセッサ数ndash システムあたりのノード数
コンピュータアーキテクチャbull 命令発行実行速度の向上
ndash パイプライン化ndash 分岐予測ndash キャッシュndash Out-of-order など
スケーラブルシステムズ株式会社
GHz競争
bull 2000年に開催されたIEEE国際電子デバイス会議2000(2000
IEEE International Electron Devices MeetingIEDM) においてインテル社は4億個以上のトランジスタを集積した10GHz駆動のプロセッサが2005年までに実現可能だと発表しましたndash 実際にはインテル社の最速プロセッサは6ヶ月前に発表された
38GHz(Intel Pentium 4)となっています
bull Prescottプロセッサの6xxシリーズ発表に際してインテル社はldquoadding value beyond GHzrdquo のコメントを出していますそれ以降インテル社の多くのドキュメントやプレスリリースはこのldquoadding value beyond GHzrdquo についての内容を含んでいます
スケーラブルシステムズ株式会社
発熱の問題が深刻化
Bob Colwell氏の資料より抜粋
Increasing Frequency
Watt
scm
2
1
10
100
1000
15 10 07 05 035 025 018 013 01 007
i386i486
PentiumPentium Pro
Pentium IIPentium III
Hot Plate
Nuclear Reactor
Rocket Nozzle
Pentium 4(Prescott)
Pentium 4(Willamette)
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash過去12年間でPentiumプロセッサの動作周波数は60 MHz から 3800 MHz にまでアップ
ndash現在までの高性能化の約80 はクロック周波数の向上によるもの
bull 命令実行の強化と最適化
ndashより強力なインストラクションセット
ndash命令実行の最適化(パイプライン化分岐予測複数命令の同時実行命令実行順序の変更など)
スケーラブルシステムズ株式会社
技術のSカーブ技術開発の進展と製品性能の成長の関係
bull 技術開発の初期は製品性能はゆっくりと向上するがしだいに性能の向上の幅が大きくなるしかし次第に技術開発が成熟段階に入ると性能向上は逓減していく
製品の性能
時間
First Technology
Second Technology
Third Technology
RISCアウトオブオーダー実行lt1 instruction cycle
スーパースカラー RISCアウトオブオーダー実行lt2 instructions cycle
明示的並列命令コンピューティング技術 (EPIC)
命令の並列実行度の向上
スケーラブルシステムズ株式会社
マイクロアーキテクチャのSカーブ
Johan De Gelas Quest for More Processing Power
AnandTech Feb 8 2005
httpwwwanandtechcomcpuchipsetsshowdocaspxi=2343
101
102
103
104
105
106
MIP
S
1980 1985 1990 1995 2000 2005 2010
Pentium Architecture
Super Scalar
Pentium Pro Architecture
Speculative Out-of-Order
Pentium 4 Architecture
Trace Cache
Pentium 4 and Xeon Architecture with HT
Multi-Threaded
Multi-Threaded Multi-Core
Era of
Instruction
Parallelism
Era of
Thread
Parallelism
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash 過去12年間でPentiumプロセッサの動作周波数は60
MHz から 3800 MHz にまでアップ
ndash 現在までの高性能化の約80 はクロック周波数の向上によるもの
bull 命令実行の強化と最適化
ndash より強力なインストラクションセット
ndash 命令実行の最適化(パイプライン化分岐予測複数命令の同時実行命令実行順序の変更など)
bull 大容量キャッシュ
ndash プロセッサの速度とメモリレイテンシ(待ち時間)とバンド幅のギャップの拡大に対する対策対応としての容量の拡張
スケーラブルシステムズ株式会社
性能ギャップの問題
bull プロセッサ速度とメモリアクセスの速度差によってプロセッサがより高速になったとしてもプロセッサはその演算能力を完全に使い切ることが出来ない
1
10
100
1000Performance
1980 1990 2000
microProc
60yr
DRAM
7yr
バンド幅とレイテンシの問題が今後はより深刻(プロセッサ性能とのギャップはほぼ年率50の差で広がっている)
DRAM
CPU
プロセッサはほぼナノ秒に一回命令実行DRAMへのアクセスはほぼ100ナノ秒の時間
スケーラブルシステムズ株式会社
今後の発展と課題
Episode IV
A New Hope
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash 過去12年間でPentiumプロセッサの動作周波数は60
MHz から 3800 MHz にまでアップ
ndash 現在までの高性能化の約80 はクロック周波数の向上によるもの
bull 命令実行の強化と最適化
ndash より強力なインストラクションセット
ndash 命令実行の最適化(パイプライン化分岐予測複数命令の同時実行命令実行順序の変更など)
bull 大容量キャッシュ
ndash プロセッサの速度とメモリレイテンシ(待ち時間)とバンド幅のギャップの拡大に対する対策対応としての容量の拡張
スケーラブルシステムズ株式会社
デュアルコアプロセッサ
bull チップ上のトランジスタのより有効活用が可能bull スレッドレベルでの並列処理を活用bull よりシンプルなプロセッサの設計が可能
bull 将来のマイクロプロセッサはより多くのコアを実装可能bull 将来のマイクロプロセッサはより大容量のキャッシュの実装が可能
IBM Power5
with 19MB L2
AMD Opteron
with 2MB L2
Intel Montecito
With 24MB L3
スケーラブルシステムズ株式会社
イノベーションのジレンマ
製品の性能
時間
First Technology
Second Technology
Third Technology
RISCアウトオブオーダー実行lt1 instruction cycle
スーパースカラー RISCアウトオブオーダー実行lt2 instructions cycle
明示的並列命令コンピューティング技術 (EPIC)
命令の並列実行度の向上
製品の性能(異なる尺度)
時間
持続的イノベーション
技術革新が顧客の求める性能向上軸(ムーアの法則)に沿っている
破壊的イノベーションマルチコアとマルチスレッドによる並列処理
短期的には(シングルスレッドの性能)としては性能が低下するが将来の大きな性能向上とコスト低下機能強化の可能性が大きい
スケーラブルシステムズ株式会社
マルチコアの利点
ワークロードの処理効率の向上
bull マルチスレッドアプリケーションndash現在多くのアプリケーション(データベース
WEB科学技術計算)はマルチスレッド化
ndashマルチコアプロセッサではこれらのアプリケーションのマルチスレッドでの実行が容易に可能
bull 複数ジョブの処理ndashシステムでは複数のワークロード同時に処理することが必要
ndashマルチコアではこれらのワークロードへの処理が可能
スケーラブルシステムズ株式会社
マルチコアの利点
消費電力あたりの性能を最大にし高性能で低消費電力のシステム構築が可能
bull OS自身のマルチスレッド対応
ndash OSのサービスもマルチスレッドで処理することでより効率よく処理することが可能
bull 仮想化
ndashサーバのセキュリティや管理の強化
ndash管理するノード数を減らし運用コストの削減を図る
bull 最新のソフトウエアテクノロジの活用
スケーラブルシステムズ株式会社
大きな変革しかし容易ではない
マルチコアプロセッシング(または汎用もしくは専用プロセッサをソケットに複数搭載可能なこと)はEthernetの誕生以来ITインフラに対しての大きなインパクトをもたらします
デュアルプロセッサは386プロセッサの発表以来性能に関して最大の向上を実現しますしかしこのような性能向上にはソフトウエアの最適化がプロセッサの性能をフルに発揮するためには必要です
スケーラブルシステムズ株式会社
並列性(Parallelism)の利用
マルチタスク処理
MPIなどによる複数のノード間での並列処理
ユーザ及びコンパイラによるスレッドレベルでの並列処理(TLP)
コンパイラによる命列実行レベルでの並列処理(ILP)
マルチコア
マルチプロセッサ
マルチノード
マルチインストラクション
システム
スケーラブルシステムズ株式会社
ムーアの法則(GHz から MC へ)
マルチコアによる性能向上
動作周波数の向上による性能向上
性能
2005
bullマルチスレッドbullマルチタスクbull トレーニングbullツールbullhelliphellip
並列処理による性能向上についてはシステムサポートやプログラミングサポートなどの面での技術支援が重要です
スケーラブルシステムズ株式会社
Episode VI
Return of the Jedi
Ts for HPC - インテルテクノロジのHPCにおける価値の考察
スケーラブルシステムズ株式会社
将来予測の難しさ
bull ldquoI think there is a world market for maybe five
computersrdquobull Thomas Watson chairman of IBM 1943
bull ldquoThere is no reason for any individual to have a
computer in their homerdquobull Ken Olson president and founder of digital equipment
corporation 1977
bull ldquoThere are only about 100 potential customers
worldwide for a Cray-1rdquobull Seymour Cray 1977
bull ldquo640K [of memory] ought to be enough for
anybodyrdquobull Bill Gates chairman of Microsoft1981
スケーラブルシステムズ株式会社
「未来を予測する最良の方法はそれを創造してしまうことである」The best way to predict future is to invent it
Dr Alan Kay President of Viewpoints Research
Institute Inc
スケーラブルシステムズ株式会社
ITマネージメントの課題
bull プラットフォームの内部からの保護ndash ウイルスやワームなど悪意あるソフトウェアからの保護
bull 資産管理ndash 多くの IT 部門では特定できない資産が問題
bull オンラインおよびリモート管理診断機能 ndash アップグレード診断復旧のための作業の効率化
bull アプリケーション統合の困難さ
ndash アプリケーションの高度化と複雑化によって複数のアプリケーションを組み合わせるての動作に問題
bull 動的なリソース割り当て
ndash 組織内で未使用のCPUやメモリの活用
スケーラブルシステムズ株式会社
マーケットトレンド
All Servers Worldwide 2003 2004 2005 20062003 to 2006
CAGR
2005 to 2006
CAGR
Total Factory Revenue($B) $46149 $49146 $51268 $52251 42 19
Units Shipped(same as nodes) 5278222 6307484 7050099 7472649 123 60
Processor Dies Shipped 8662823 10134624 11712766 12779159 138 91
HPC Technical Servers Worldwide 2003 2004 2005 20062003 to 2006
CAGR
2005 to 2006
CAGR
HPC Server Revenue($B) $5698 $7393 $9208 $10030 207 89
Adjusted Revenues(To much
enterprise)$5128 $6654 $8287 $9027 207 89
Node Units Shipped 411327 734510 1215735 1419221 511 167
Processor Elements Shipped 1002905 1657827 2681079 3351843 495 250
HPC As A Ratio Of All Servers 2003 2004 2005 2006
Revenue($B) 123 150 180 192
Adjusted Revenues(Apples-to-
apples)111 135 162 173
Units Shipped(Nodes) 78 116 172 190
Processors Shipped 116 164 226 261
Source IDC 2007
スケーラブルシステムズ株式会社
HPCマーケット(対全サーバマーケット)
0
5
10
15
20
25
30
2003 2004 2005 2006
Revenue($B)
Adjusted Revenues(Apples-to-apples)
Units Shipped(Nodes)
Processors Shipped
スケーラブルシステムズ株式会社
マーケットトレンド
Source IDC 2004
Cost of mgmt amp admin 10 CAGR
$0
$20
$40
$60
$80
$100
$120
$140
$160
$180
$200
1996 rsquo97 rsquo98 rsquo992000 rsquo01 rsquo02 rsquo03 rsquo04 rsquo05 rsquo06 rsquo07 rsquo08-
New server spending (USM$) 3 CAGR
Spending (USB$)
5
10
15
20
25
30
35
Installed Base (M Units)
bull ハードウェアの減価償却費は IT の TCO 全体の約25 にすぎない
bull ソフトウェアのコストはわずか10~15
bull 電気などの公共料金フロアスペース電話回線など設備面のコストの割合もきわめて小さい
bull プラットフォームのコストではなくTCOの大きな比率を占めるのは人件費となっている
スケーラブルシステムズ株式会社
運用管理コストの低減
bull 「もっと処理性能を」と「より安価に」を実現するためにワークステーションやサーバでの分散処理の導入
bull ユーザや企業に新たな価値をもたらしてはいるが管理責任とその負担の分散を招き結果的に運用管理コストを押し上げる
メインフレームスーパーコンピュータ
仮想化によるサーバコンソリデーション
クラスタによる仮想コンピュータ
スケーラブルシステムズ株式会社
次世代HPCインフラ
bull コアとスレッド
ndash より多くのスレッドを効率よく利用可能
ndash マルチスレッド向け最適化
bull 電力管理
ndash 省電力
ndash データセンター運用管理機能
bull 仮想化
ndash 柔軟性と優れた運用管理
ndash 仮想的なシステムパーティション
bull RAS
ndash ハードウエアベースの自己監視自己管理
ndash ファームウエアベースのエラー履歴管理
bull システム管理
ndash より低いTCOを実現するための一般標準化されたマネージメント機能
スケーラブルシステムズ株式会社
高速プロセッサ
64ビットアドレス
メモリ性能と容
量
IOバンド幅
インターコネクト
省電力
システムのlsquoバランスrsquo
マルチコアによってプロセッサ単体の処理性能の向上を図る
64ビットのアドレス空間と
拡張されたレジスタによるOSとアプリケーション双方の機能性能拡張
64ビット化とマルチコア化
にともなう高速大容量へのニーズに対応しまたその拡張性の高い実装技術の実現
CPU-メモリ間の高速な
データ転送やより高速なネットワーク大規模なストレージのサポート
大規模なクラスタシステムの構築及びアプリケーションのワークロードに対応した高速性能
エコシステムに対応するためにも電力消費量や発熱量を積極的に抑える技術の開発
スケーラブルシステムズ株式会社
HPCの二極分化
Going UP
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
Going DOWN
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
スケーラブルシステムズ株式会社
システムとユーザの尺度
bull ユーザの尺度での性能(Performance)は時間当たりにどれだけの仕事を処理出来るか(仕事量 時間)
bull Flopsでの評価は実際には意味がないまた問題の規模(small medium large) という評価も難しい
bull ldquoスケーラビリティrdquoは対象を明確に規定する必要がある
システムの尺度 ユーザの尺度
Flops hArr 計算終了までの時間
メモリサイズ(GB) hArr モデルのサイズと計算結果
プロセッサ数 hArr ワークロードでの試行
データ長 hArr 計算精度
システム構成(クラスタ) hArr 導入コストと運用コスト
スケーラビリティ hArr ベンチマーク
スケーラブルシステムズ株式会社
HPCシステムの動向国家プロジェクトと商用製品のギャップの拡大
Going UP
Going DOWN
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
Peta-Scaleコンピューティングに求められる基本技術と現在のHPCの主要マーケットでの要求はあまりにも差が大きいrarrHPCSシステムは各社とのlsquoCommodityrsquoのマイクロプロセッサではなく独自のプロセッサを開発中
ハードウエアはrsquoCommodityrsquo
なものを利用してSWの改善サポート利用技術のサポートが今後の主要マーケットでの成功の鍵となる
スケーラブルシステムズ株式会社
HPCシステムの動向国家プロジェクト
Going UP
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
Peta-Scaleコンピューティングに求められる基本技術と現在のHPCの主要マーケットでの要求はあまりにも差が大きいrarrHPCSシステムは各社とのlsquoCommodityrsquoのマイクロプロセッサではなく独自のプロセッサを開発中
スケーラブルシステムズ株式会社
TOP500性能予測
1993 1995 1997 1999 2001 2003 2005 2007 2009 2011 2013 2015
N=
50
SUM
1 Gflops
1 Tflops
100 Mflops
100 Gflops
100 Tflops
10 Gflops
10 Tflops
1 Pflops
10 Pflops
IBM ASCI White
Blue GeneEarth Simulator
Intel
TOP500の総計が1PFを超えています
TOP500に掲載されるには1TF
が最低条件になっています
シングルシステムの1PFの実現は2009年
システム(プロセッサ数) 13倍年プロセッサ性能向上 14倍年トータル性能 18倍年
2009年までに1ペタFLOPS
スケーラブルシステムズ株式会社
性能ギャップの拡大
bull ピーク性能の大幅な向上ndash 1990年台は性能の向上は102のオーダーでしたが2000年台になると103のオーダーで性能は向上しています
しかしhellipndash 多くの科学技術計算用途のアプリケーションのピーク性能に対する実効性能の比率は5-10となっています(1990年代のベクトル計算機は40-50の対ピーク性能を示していました)
bull 今必要なのはndash より高い実効性能を発揮することが可能な計算アルゴリズムと手法の開発とスケーラビリティの向上
ndash プログラミングモデルなども含めてスケーラブルな計算機環境の構築
01
1
10
100
1000
2000 2004
Tera
flo
ps
1996
Performance
Gap
Peak Performance
Real Performance
NERSC User Group Meeting June 24-25 2004
Osni Marques and Tony Drummond
Lawrence Berkeley National Laboratory
スケーラブルシステムズ株式会社
ペタスケールシステムの構築
bull ソフトウエア(アプリケーションOSプログラミングAPIなど)の課題の克服が課題
bull システムの複雑さと生産性
例Linpack Benchmark
bull オリジナルベンチマークプログラム ~100ライン
bull HPL ベンチマークプログラム ~10000ライン(x100より複雑)
lsquo複雑さrsquoの壁
現在のテラFLOPS級の問題
Source ORNL
スケーラブルシステムズ株式会社
HPCシステムの動向商用製品
Going DOWN
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
ハードウエアはrsquoCommodityrsquo
なものを利用してSWの改善サポート利用技術のサポートが今後の主要マーケットでの成功の鍵となる
スケーラブルシステムズ株式会社
標準コンポーネントの進化
bull プロセッサの性能向上ndash lsquoマルチコアrsquoによる省電力での性能向上が可能
ndash HPCアプリケーションは容易にlsquoマルチコアrsquoの利点を活用可能 (OpenMPやMPI)
bull ファイルシステムndash高性能なスケーラブルファイルシステム(オープンソース)
bull インターコネクトndash PCI-Express (メモリlarrrarrインターコネクト)
ndash高速の商用製品やオープンソースでの強力(OpenIBなど)
スケーラブルシステムズ株式会社
標準コンポーネントの利点
bull 特定のベンダーからのシステムを組み合わせるのではなく他社のシステムも含めてベストなシステムの選択が可能
ndashスケーラブルSMPベクトル計算機クラスタの幅広い選択肢
ndash 64ビットマルチコアマイクロプロセッサの性能向上を最大限に活用
bull 標準コンポーネントの技術革新の活用
ndash PCI-ExpressやFB-DIMMの利用技術
スケーラブルシステムズ株式会社
Breaking the 1-2K nodes Barrier
bull 音の障壁サウンドバリヤー(sound barrier)飛行機の速度が音速近くになると衝撃波の発生によって抵抗の増大境界層の剥離など設計運用上のさまざまな障害(壁)に出合って超音速飛行は不可能かと思われた時代があった(1947年ごろまで)ので音の障壁といわれていた
httpwwwwilk4commiscsoundbreakhtm
クラスタのノード数がある規模に近くなるとその構築や運用において負担の増大システムの安定稼動スケーラビリティなど設計運用上のさまざまな障害(壁)に出合ってクラスタ構築は不可能と思われた時代があった()
スケーラブルシステムズ株式会社
ビルゲイツ氏の基調講演HPC goes mainstream
スケーラブルシステムズ株式会社
「Fast」「Good」「Cheap」のパズル
Fast
+ Cheap
Inferior
高い性能を廉価なシステムで構築することも可能ですただそのようなシステムの場合システムの構築や利用は必ずしも容易ではありません
Good
+ Cheap
Slow比較的小規模なシステムであれば廉価で使い勝手の良いものを探すことは可能ですしかしそのようなシステムでは拡張性やより大規模なシステム構築が出来ません
Good
+ Fast
Expensive
付加価値の高い性能の高いシステムは一般には高価ですその付加価値がユーザにとってメリットが無ければコストパフォーマンスの悪いシステムになるだけです
スケーラブルシステムズ株式会社
まとめとして
bull 「テクノロジー」をどのようにとらえるかndash企業経営基盤のコア要素
ndashユーザの本質的な課題を解決する戦略的な武器
bull マーケットを牽引する「テクノロジ」に求められることndashテクノロジとHPCにおけるITインフラの関係を明確にすること
bull ユーザに何らかのメリットをもたらさない「テクノロジー」は意味を成さない
ndashテクノロジーを最適に組み合わせることで問題解決のためのソリューションの提供が可能
スケーラブルシステムズ株式会社
まとめとして
bull bdquoTs‟ for HPC - インテルテクノロジのHPCにおける価値
ndash インテルテクノロジはHPCにおいて重要な構成要素となっている
ndashそれらの構成要素を統合することでより高い価値の提供が可能となる
ndash二分化しつつあるHPCシステムにおいて「標準コ
ンポーネント」としてのプラットフォームの動向として今後もその動向には注目する必要がある
スケーラブルシステムズ株式会社
さらに詳しい情報はhellip
bull 弊社のコンサルテーションに関するご提案資料もダウンロード可能です(非公開WEBページ)別途弊社に内容等についてはお尋ねください
お問い合わせ先102-0083
東京都千代田区麹町3-5-2
BUREX麹町 8F
電話03-5875-4718
FAX03-3237-7612
E-mailbizsstccojp
httpwwwsstccojp wwwsstccojpbiz
スケーラブルシステムズ株式会社
スケーラブルシステムズ株式会社
ハイエンドコンピューティングに関するコンサルテーションとして幅広いサービスをご提供致します
このサービスを最大限に活用していただくことでコラボレーションによる「顧客志向」 のコン
サルテーションサービスをご提供できればと思っております
スケーラブルシステムズ株式会社
社名製品名などは一般に各社の商標または登録商標です無断での引用転載を禁じます
In general the name of the company and the product name etc are the trademarks or registered trademarks of each company
Copyright Scalable Systems Co Ltd 2005 Unauthorized use is strictly forbidden
2005年11月
スケーラブルシステムズ株式会社
Technology Trend
ムーアの法則依然として有効
スケーラブルシステムズ株式会社
性能向上の源泉は
ハードウエアデバイス技術の進歩bull ロジック回路のスイッチング速度の向上とデバイス密度bull メモリサイズの拡大とアクセス速度の向上bull 通信性能(バンド幅とレイテンシの向上)
bull 並列性ndash 1サイクルでの命令実行数
bull 命令レベルでの並列性(ILP)
bull ベクトル処理ndash プロセッサあたりコア数ndash ノードあたりのプロセッサ数ndash システムあたりのノード数
コンピュータアーキテクチャbull 命令発行実行速度の向上
ndash パイプライン化ndash 分岐予測ndash キャッシュndash Out-of-order など
スケーラブルシステムズ株式会社
GHz競争
bull 2000年に開催されたIEEE国際電子デバイス会議2000(2000
IEEE International Electron Devices MeetingIEDM) においてインテル社は4億個以上のトランジスタを集積した10GHz駆動のプロセッサが2005年までに実現可能だと発表しましたndash 実際にはインテル社の最速プロセッサは6ヶ月前に発表された
38GHz(Intel Pentium 4)となっています
bull Prescottプロセッサの6xxシリーズ発表に際してインテル社はldquoadding value beyond GHzrdquo のコメントを出していますそれ以降インテル社の多くのドキュメントやプレスリリースはこのldquoadding value beyond GHzrdquo についての内容を含んでいます
スケーラブルシステムズ株式会社
発熱の問題が深刻化
Bob Colwell氏の資料より抜粋
Increasing Frequency
Watt
scm
2
1
10
100
1000
15 10 07 05 035 025 018 013 01 007
i386i486
PentiumPentium Pro
Pentium IIPentium III
Hot Plate
Nuclear Reactor
Rocket Nozzle
Pentium 4(Prescott)
Pentium 4(Willamette)
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash過去12年間でPentiumプロセッサの動作周波数は60 MHz から 3800 MHz にまでアップ
ndash現在までの高性能化の約80 はクロック周波数の向上によるもの
bull 命令実行の強化と最適化
ndashより強力なインストラクションセット
ndash命令実行の最適化(パイプライン化分岐予測複数命令の同時実行命令実行順序の変更など)
スケーラブルシステムズ株式会社
技術のSカーブ技術開発の進展と製品性能の成長の関係
bull 技術開発の初期は製品性能はゆっくりと向上するがしだいに性能の向上の幅が大きくなるしかし次第に技術開発が成熟段階に入ると性能向上は逓減していく
製品の性能
時間
First Technology
Second Technology
Third Technology
RISCアウトオブオーダー実行lt1 instruction cycle
スーパースカラー RISCアウトオブオーダー実行lt2 instructions cycle
明示的並列命令コンピューティング技術 (EPIC)
命令の並列実行度の向上
スケーラブルシステムズ株式会社
マイクロアーキテクチャのSカーブ
Johan De Gelas Quest for More Processing Power
AnandTech Feb 8 2005
httpwwwanandtechcomcpuchipsetsshowdocaspxi=2343
101
102
103
104
105
106
MIP
S
1980 1985 1990 1995 2000 2005 2010
Pentium Architecture
Super Scalar
Pentium Pro Architecture
Speculative Out-of-Order
Pentium 4 Architecture
Trace Cache
Pentium 4 and Xeon Architecture with HT
Multi-Threaded
Multi-Threaded Multi-Core
Era of
Instruction
Parallelism
Era of
Thread
Parallelism
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash 過去12年間でPentiumプロセッサの動作周波数は60
MHz から 3800 MHz にまでアップ
ndash 現在までの高性能化の約80 はクロック周波数の向上によるもの
bull 命令実行の強化と最適化
ndash より強力なインストラクションセット
ndash 命令実行の最適化(パイプライン化分岐予測複数命令の同時実行命令実行順序の変更など)
bull 大容量キャッシュ
ndash プロセッサの速度とメモリレイテンシ(待ち時間)とバンド幅のギャップの拡大に対する対策対応としての容量の拡張
スケーラブルシステムズ株式会社
性能ギャップの問題
bull プロセッサ速度とメモリアクセスの速度差によってプロセッサがより高速になったとしてもプロセッサはその演算能力を完全に使い切ることが出来ない
1
10
100
1000Performance
1980 1990 2000
microProc
60yr
DRAM
7yr
バンド幅とレイテンシの問題が今後はより深刻(プロセッサ性能とのギャップはほぼ年率50の差で広がっている)
DRAM
CPU
プロセッサはほぼナノ秒に一回命令実行DRAMへのアクセスはほぼ100ナノ秒の時間
スケーラブルシステムズ株式会社
今後の発展と課題
Episode IV
A New Hope
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash 過去12年間でPentiumプロセッサの動作周波数は60
MHz から 3800 MHz にまでアップ
ndash 現在までの高性能化の約80 はクロック周波数の向上によるもの
bull 命令実行の強化と最適化
ndash より強力なインストラクションセット
ndash 命令実行の最適化(パイプライン化分岐予測複数命令の同時実行命令実行順序の変更など)
bull 大容量キャッシュ
ndash プロセッサの速度とメモリレイテンシ(待ち時間)とバンド幅のギャップの拡大に対する対策対応としての容量の拡張
スケーラブルシステムズ株式会社
デュアルコアプロセッサ
bull チップ上のトランジスタのより有効活用が可能bull スレッドレベルでの並列処理を活用bull よりシンプルなプロセッサの設計が可能
bull 将来のマイクロプロセッサはより多くのコアを実装可能bull 将来のマイクロプロセッサはより大容量のキャッシュの実装が可能
IBM Power5
with 19MB L2
AMD Opteron
with 2MB L2
Intel Montecito
With 24MB L3
スケーラブルシステムズ株式会社
イノベーションのジレンマ
製品の性能
時間
First Technology
Second Technology
Third Technology
RISCアウトオブオーダー実行lt1 instruction cycle
スーパースカラー RISCアウトオブオーダー実行lt2 instructions cycle
明示的並列命令コンピューティング技術 (EPIC)
命令の並列実行度の向上
製品の性能(異なる尺度)
時間
持続的イノベーション
技術革新が顧客の求める性能向上軸(ムーアの法則)に沿っている
破壊的イノベーションマルチコアとマルチスレッドによる並列処理
短期的には(シングルスレッドの性能)としては性能が低下するが将来の大きな性能向上とコスト低下機能強化の可能性が大きい
スケーラブルシステムズ株式会社
マルチコアの利点
ワークロードの処理効率の向上
bull マルチスレッドアプリケーションndash現在多くのアプリケーション(データベース
WEB科学技術計算)はマルチスレッド化
ndashマルチコアプロセッサではこれらのアプリケーションのマルチスレッドでの実行が容易に可能
bull 複数ジョブの処理ndashシステムでは複数のワークロード同時に処理することが必要
ndashマルチコアではこれらのワークロードへの処理が可能
スケーラブルシステムズ株式会社
マルチコアの利点
消費電力あたりの性能を最大にし高性能で低消費電力のシステム構築が可能
bull OS自身のマルチスレッド対応
ndash OSのサービスもマルチスレッドで処理することでより効率よく処理することが可能
bull 仮想化
ndashサーバのセキュリティや管理の強化
ndash管理するノード数を減らし運用コストの削減を図る
bull 最新のソフトウエアテクノロジの活用
スケーラブルシステムズ株式会社
大きな変革しかし容易ではない
マルチコアプロセッシング(または汎用もしくは専用プロセッサをソケットに複数搭載可能なこと)はEthernetの誕生以来ITインフラに対しての大きなインパクトをもたらします
デュアルプロセッサは386プロセッサの発表以来性能に関して最大の向上を実現しますしかしこのような性能向上にはソフトウエアの最適化がプロセッサの性能をフルに発揮するためには必要です
スケーラブルシステムズ株式会社
並列性(Parallelism)の利用
マルチタスク処理
MPIなどによる複数のノード間での並列処理
ユーザ及びコンパイラによるスレッドレベルでの並列処理(TLP)
コンパイラによる命列実行レベルでの並列処理(ILP)
マルチコア
マルチプロセッサ
マルチノード
マルチインストラクション
システム
スケーラブルシステムズ株式会社
ムーアの法則(GHz から MC へ)
マルチコアによる性能向上
動作周波数の向上による性能向上
性能
2005
bullマルチスレッドbullマルチタスクbull トレーニングbullツールbullhelliphellip
並列処理による性能向上についてはシステムサポートやプログラミングサポートなどの面での技術支援が重要です
スケーラブルシステムズ株式会社
Episode VI
Return of the Jedi
Ts for HPC - インテルテクノロジのHPCにおける価値の考察
スケーラブルシステムズ株式会社
将来予測の難しさ
bull ldquoI think there is a world market for maybe five
computersrdquobull Thomas Watson chairman of IBM 1943
bull ldquoThere is no reason for any individual to have a
computer in their homerdquobull Ken Olson president and founder of digital equipment
corporation 1977
bull ldquoThere are only about 100 potential customers
worldwide for a Cray-1rdquobull Seymour Cray 1977
bull ldquo640K [of memory] ought to be enough for
anybodyrdquobull Bill Gates chairman of Microsoft1981
スケーラブルシステムズ株式会社
「未来を予測する最良の方法はそれを創造してしまうことである」The best way to predict future is to invent it
Dr Alan Kay President of Viewpoints Research
Institute Inc
スケーラブルシステムズ株式会社
ITマネージメントの課題
bull プラットフォームの内部からの保護ndash ウイルスやワームなど悪意あるソフトウェアからの保護
bull 資産管理ndash 多くの IT 部門では特定できない資産が問題
bull オンラインおよびリモート管理診断機能 ndash アップグレード診断復旧のための作業の効率化
bull アプリケーション統合の困難さ
ndash アプリケーションの高度化と複雑化によって複数のアプリケーションを組み合わせるての動作に問題
bull 動的なリソース割り当て
ndash 組織内で未使用のCPUやメモリの活用
スケーラブルシステムズ株式会社
マーケットトレンド
All Servers Worldwide 2003 2004 2005 20062003 to 2006
CAGR
2005 to 2006
CAGR
Total Factory Revenue($B) $46149 $49146 $51268 $52251 42 19
Units Shipped(same as nodes) 5278222 6307484 7050099 7472649 123 60
Processor Dies Shipped 8662823 10134624 11712766 12779159 138 91
HPC Technical Servers Worldwide 2003 2004 2005 20062003 to 2006
CAGR
2005 to 2006
CAGR
HPC Server Revenue($B) $5698 $7393 $9208 $10030 207 89
Adjusted Revenues(To much
enterprise)$5128 $6654 $8287 $9027 207 89
Node Units Shipped 411327 734510 1215735 1419221 511 167
Processor Elements Shipped 1002905 1657827 2681079 3351843 495 250
HPC As A Ratio Of All Servers 2003 2004 2005 2006
Revenue($B) 123 150 180 192
Adjusted Revenues(Apples-to-
apples)111 135 162 173
Units Shipped(Nodes) 78 116 172 190
Processors Shipped 116 164 226 261
Source IDC 2007
スケーラブルシステムズ株式会社
HPCマーケット(対全サーバマーケット)
0
5
10
15
20
25
30
2003 2004 2005 2006
Revenue($B)
Adjusted Revenues(Apples-to-apples)
Units Shipped(Nodes)
Processors Shipped
スケーラブルシステムズ株式会社
マーケットトレンド
Source IDC 2004
Cost of mgmt amp admin 10 CAGR
$0
$20
$40
$60
$80
$100
$120
$140
$160
$180
$200
1996 rsquo97 rsquo98 rsquo992000 rsquo01 rsquo02 rsquo03 rsquo04 rsquo05 rsquo06 rsquo07 rsquo08-
New server spending (USM$) 3 CAGR
Spending (USB$)
5
10
15
20
25
30
35
Installed Base (M Units)
bull ハードウェアの減価償却費は IT の TCO 全体の約25 にすぎない
bull ソフトウェアのコストはわずか10~15
bull 電気などの公共料金フロアスペース電話回線など設備面のコストの割合もきわめて小さい
bull プラットフォームのコストではなくTCOの大きな比率を占めるのは人件費となっている
スケーラブルシステムズ株式会社
運用管理コストの低減
bull 「もっと処理性能を」と「より安価に」を実現するためにワークステーションやサーバでの分散処理の導入
bull ユーザや企業に新たな価値をもたらしてはいるが管理責任とその負担の分散を招き結果的に運用管理コストを押し上げる
メインフレームスーパーコンピュータ
仮想化によるサーバコンソリデーション
クラスタによる仮想コンピュータ
スケーラブルシステムズ株式会社
次世代HPCインフラ
bull コアとスレッド
ndash より多くのスレッドを効率よく利用可能
ndash マルチスレッド向け最適化
bull 電力管理
ndash 省電力
ndash データセンター運用管理機能
bull 仮想化
ndash 柔軟性と優れた運用管理
ndash 仮想的なシステムパーティション
bull RAS
ndash ハードウエアベースの自己監視自己管理
ndash ファームウエアベースのエラー履歴管理
bull システム管理
ndash より低いTCOを実現するための一般標準化されたマネージメント機能
スケーラブルシステムズ株式会社
高速プロセッサ
64ビットアドレス
メモリ性能と容
量
IOバンド幅
インターコネクト
省電力
システムのlsquoバランスrsquo
マルチコアによってプロセッサ単体の処理性能の向上を図る
64ビットのアドレス空間と
拡張されたレジスタによるOSとアプリケーション双方の機能性能拡張
64ビット化とマルチコア化
にともなう高速大容量へのニーズに対応しまたその拡張性の高い実装技術の実現
CPU-メモリ間の高速な
データ転送やより高速なネットワーク大規模なストレージのサポート
大規模なクラスタシステムの構築及びアプリケーションのワークロードに対応した高速性能
エコシステムに対応するためにも電力消費量や発熱量を積極的に抑える技術の開発
スケーラブルシステムズ株式会社
HPCの二極分化
Going UP
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
Going DOWN
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
スケーラブルシステムズ株式会社
システムとユーザの尺度
bull ユーザの尺度での性能(Performance)は時間当たりにどれだけの仕事を処理出来るか(仕事量 時間)
bull Flopsでの評価は実際には意味がないまた問題の規模(small medium large) という評価も難しい
bull ldquoスケーラビリティrdquoは対象を明確に規定する必要がある
システムの尺度 ユーザの尺度
Flops hArr 計算終了までの時間
メモリサイズ(GB) hArr モデルのサイズと計算結果
プロセッサ数 hArr ワークロードでの試行
データ長 hArr 計算精度
システム構成(クラスタ) hArr 導入コストと運用コスト
スケーラビリティ hArr ベンチマーク
スケーラブルシステムズ株式会社
HPCシステムの動向国家プロジェクトと商用製品のギャップの拡大
Going UP
Going DOWN
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
Peta-Scaleコンピューティングに求められる基本技術と現在のHPCの主要マーケットでの要求はあまりにも差が大きいrarrHPCSシステムは各社とのlsquoCommodityrsquoのマイクロプロセッサではなく独自のプロセッサを開発中
ハードウエアはrsquoCommodityrsquo
なものを利用してSWの改善サポート利用技術のサポートが今後の主要マーケットでの成功の鍵となる
スケーラブルシステムズ株式会社
HPCシステムの動向国家プロジェクト
Going UP
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
Peta-Scaleコンピューティングに求められる基本技術と現在のHPCの主要マーケットでの要求はあまりにも差が大きいrarrHPCSシステムは各社とのlsquoCommodityrsquoのマイクロプロセッサではなく独自のプロセッサを開発中
スケーラブルシステムズ株式会社
TOP500性能予測
1993 1995 1997 1999 2001 2003 2005 2007 2009 2011 2013 2015
N=
50
SUM
1 Gflops
1 Tflops
100 Mflops
100 Gflops
100 Tflops
10 Gflops
10 Tflops
1 Pflops
10 Pflops
IBM ASCI White
Blue GeneEarth Simulator
Intel
TOP500の総計が1PFを超えています
TOP500に掲載されるには1TF
が最低条件になっています
シングルシステムの1PFの実現は2009年
システム(プロセッサ数) 13倍年プロセッサ性能向上 14倍年トータル性能 18倍年
2009年までに1ペタFLOPS
スケーラブルシステムズ株式会社
性能ギャップの拡大
bull ピーク性能の大幅な向上ndash 1990年台は性能の向上は102のオーダーでしたが2000年台になると103のオーダーで性能は向上しています
しかしhellipndash 多くの科学技術計算用途のアプリケーションのピーク性能に対する実効性能の比率は5-10となっています(1990年代のベクトル計算機は40-50の対ピーク性能を示していました)
bull 今必要なのはndash より高い実効性能を発揮することが可能な計算アルゴリズムと手法の開発とスケーラビリティの向上
ndash プログラミングモデルなども含めてスケーラブルな計算機環境の構築
01
1
10
100
1000
2000 2004
Tera
flo
ps
1996
Performance
Gap
Peak Performance
Real Performance
NERSC User Group Meeting June 24-25 2004
Osni Marques and Tony Drummond
Lawrence Berkeley National Laboratory
スケーラブルシステムズ株式会社
ペタスケールシステムの構築
bull ソフトウエア(アプリケーションOSプログラミングAPIなど)の課題の克服が課題
bull システムの複雑さと生産性
例Linpack Benchmark
bull オリジナルベンチマークプログラム ~100ライン
bull HPL ベンチマークプログラム ~10000ライン(x100より複雑)
lsquo複雑さrsquoの壁
現在のテラFLOPS級の問題
Source ORNL
スケーラブルシステムズ株式会社
HPCシステムの動向商用製品
Going DOWN
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
ハードウエアはrsquoCommodityrsquo
なものを利用してSWの改善サポート利用技術のサポートが今後の主要マーケットでの成功の鍵となる
スケーラブルシステムズ株式会社
標準コンポーネントの進化
bull プロセッサの性能向上ndash lsquoマルチコアrsquoによる省電力での性能向上が可能
ndash HPCアプリケーションは容易にlsquoマルチコアrsquoの利点を活用可能 (OpenMPやMPI)
bull ファイルシステムndash高性能なスケーラブルファイルシステム(オープンソース)
bull インターコネクトndash PCI-Express (メモリlarrrarrインターコネクト)
ndash高速の商用製品やオープンソースでの強力(OpenIBなど)
スケーラブルシステムズ株式会社
標準コンポーネントの利点
bull 特定のベンダーからのシステムを組み合わせるのではなく他社のシステムも含めてベストなシステムの選択が可能
ndashスケーラブルSMPベクトル計算機クラスタの幅広い選択肢
ndash 64ビットマルチコアマイクロプロセッサの性能向上を最大限に活用
bull 標準コンポーネントの技術革新の活用
ndash PCI-ExpressやFB-DIMMの利用技術
スケーラブルシステムズ株式会社
Breaking the 1-2K nodes Barrier
bull 音の障壁サウンドバリヤー(sound barrier)飛行機の速度が音速近くになると衝撃波の発生によって抵抗の増大境界層の剥離など設計運用上のさまざまな障害(壁)に出合って超音速飛行は不可能かと思われた時代があった(1947年ごろまで)ので音の障壁といわれていた
httpwwwwilk4commiscsoundbreakhtm
クラスタのノード数がある規模に近くなるとその構築や運用において負担の増大システムの安定稼動スケーラビリティなど設計運用上のさまざまな障害(壁)に出合ってクラスタ構築は不可能と思われた時代があった()
スケーラブルシステムズ株式会社
ビルゲイツ氏の基調講演HPC goes mainstream
スケーラブルシステムズ株式会社
「Fast」「Good」「Cheap」のパズル
Fast
+ Cheap
Inferior
高い性能を廉価なシステムで構築することも可能ですただそのようなシステムの場合システムの構築や利用は必ずしも容易ではありません
Good
+ Cheap
Slow比較的小規模なシステムであれば廉価で使い勝手の良いものを探すことは可能ですしかしそのようなシステムでは拡張性やより大規模なシステム構築が出来ません
Good
+ Fast
Expensive
付加価値の高い性能の高いシステムは一般には高価ですその付加価値がユーザにとってメリットが無ければコストパフォーマンスの悪いシステムになるだけです
スケーラブルシステムズ株式会社
まとめとして
bull 「テクノロジー」をどのようにとらえるかndash企業経営基盤のコア要素
ndashユーザの本質的な課題を解決する戦略的な武器
bull マーケットを牽引する「テクノロジ」に求められることndashテクノロジとHPCにおけるITインフラの関係を明確にすること
bull ユーザに何らかのメリットをもたらさない「テクノロジー」は意味を成さない
ndashテクノロジーを最適に組み合わせることで問題解決のためのソリューションの提供が可能
スケーラブルシステムズ株式会社
まとめとして
bull bdquoTs‟ for HPC - インテルテクノロジのHPCにおける価値
ndash インテルテクノロジはHPCにおいて重要な構成要素となっている
ndashそれらの構成要素を統合することでより高い価値の提供が可能となる
ndash二分化しつつあるHPCシステムにおいて「標準コ
ンポーネント」としてのプラットフォームの動向として今後もその動向には注目する必要がある
スケーラブルシステムズ株式会社
さらに詳しい情報はhellip
bull 弊社のコンサルテーションに関するご提案資料もダウンロード可能です(非公開WEBページ)別途弊社に内容等についてはお尋ねください
お問い合わせ先102-0083
東京都千代田区麹町3-5-2
BUREX麹町 8F
電話03-5875-4718
FAX03-3237-7612
E-mailbizsstccojp
httpwwwsstccojp wwwsstccojpbiz
スケーラブルシステムズ株式会社
スケーラブルシステムズ株式会社
ハイエンドコンピューティングに関するコンサルテーションとして幅広いサービスをご提供致します
このサービスを最大限に活用していただくことでコラボレーションによる「顧客志向」 のコン
サルテーションサービスをご提供できればと思っております
スケーラブルシステムズ株式会社
社名製品名などは一般に各社の商標または登録商標です無断での引用転載を禁じます
In general the name of the company and the product name etc are the trademarks or registered trademarks of each company
Copyright Scalable Systems Co Ltd 2005 Unauthorized use is strictly forbidden
2005年11月
スケーラブルシステムズ株式会社
性能向上の源泉は
ハードウエアデバイス技術の進歩bull ロジック回路のスイッチング速度の向上とデバイス密度bull メモリサイズの拡大とアクセス速度の向上bull 通信性能(バンド幅とレイテンシの向上)
bull 並列性ndash 1サイクルでの命令実行数
bull 命令レベルでの並列性(ILP)
bull ベクトル処理ndash プロセッサあたりコア数ndash ノードあたりのプロセッサ数ndash システムあたりのノード数
コンピュータアーキテクチャbull 命令発行実行速度の向上
ndash パイプライン化ndash 分岐予測ndash キャッシュndash Out-of-order など
スケーラブルシステムズ株式会社
GHz競争
bull 2000年に開催されたIEEE国際電子デバイス会議2000(2000
IEEE International Electron Devices MeetingIEDM) においてインテル社は4億個以上のトランジスタを集積した10GHz駆動のプロセッサが2005年までに実現可能だと発表しましたndash 実際にはインテル社の最速プロセッサは6ヶ月前に発表された
38GHz(Intel Pentium 4)となっています
bull Prescottプロセッサの6xxシリーズ発表に際してインテル社はldquoadding value beyond GHzrdquo のコメントを出していますそれ以降インテル社の多くのドキュメントやプレスリリースはこのldquoadding value beyond GHzrdquo についての内容を含んでいます
スケーラブルシステムズ株式会社
発熱の問題が深刻化
Bob Colwell氏の資料より抜粋
Increasing Frequency
Watt
scm
2
1
10
100
1000
15 10 07 05 035 025 018 013 01 007
i386i486
PentiumPentium Pro
Pentium IIPentium III
Hot Plate
Nuclear Reactor
Rocket Nozzle
Pentium 4(Prescott)
Pentium 4(Willamette)
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash過去12年間でPentiumプロセッサの動作周波数は60 MHz から 3800 MHz にまでアップ
ndash現在までの高性能化の約80 はクロック周波数の向上によるもの
bull 命令実行の強化と最適化
ndashより強力なインストラクションセット
ndash命令実行の最適化(パイプライン化分岐予測複数命令の同時実行命令実行順序の変更など)
スケーラブルシステムズ株式会社
技術のSカーブ技術開発の進展と製品性能の成長の関係
bull 技術開発の初期は製品性能はゆっくりと向上するがしだいに性能の向上の幅が大きくなるしかし次第に技術開発が成熟段階に入ると性能向上は逓減していく
製品の性能
時間
First Technology
Second Technology
Third Technology
RISCアウトオブオーダー実行lt1 instruction cycle
スーパースカラー RISCアウトオブオーダー実行lt2 instructions cycle
明示的並列命令コンピューティング技術 (EPIC)
命令の並列実行度の向上
スケーラブルシステムズ株式会社
マイクロアーキテクチャのSカーブ
Johan De Gelas Quest for More Processing Power
AnandTech Feb 8 2005
httpwwwanandtechcomcpuchipsetsshowdocaspxi=2343
101
102
103
104
105
106
MIP
S
1980 1985 1990 1995 2000 2005 2010
Pentium Architecture
Super Scalar
Pentium Pro Architecture
Speculative Out-of-Order
Pentium 4 Architecture
Trace Cache
Pentium 4 and Xeon Architecture with HT
Multi-Threaded
Multi-Threaded Multi-Core
Era of
Instruction
Parallelism
Era of
Thread
Parallelism
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash 過去12年間でPentiumプロセッサの動作周波数は60
MHz から 3800 MHz にまでアップ
ndash 現在までの高性能化の約80 はクロック周波数の向上によるもの
bull 命令実行の強化と最適化
ndash より強力なインストラクションセット
ndash 命令実行の最適化(パイプライン化分岐予測複数命令の同時実行命令実行順序の変更など)
bull 大容量キャッシュ
ndash プロセッサの速度とメモリレイテンシ(待ち時間)とバンド幅のギャップの拡大に対する対策対応としての容量の拡張
スケーラブルシステムズ株式会社
性能ギャップの問題
bull プロセッサ速度とメモリアクセスの速度差によってプロセッサがより高速になったとしてもプロセッサはその演算能力を完全に使い切ることが出来ない
1
10
100
1000Performance
1980 1990 2000
microProc
60yr
DRAM
7yr
バンド幅とレイテンシの問題が今後はより深刻(プロセッサ性能とのギャップはほぼ年率50の差で広がっている)
DRAM
CPU
プロセッサはほぼナノ秒に一回命令実行DRAMへのアクセスはほぼ100ナノ秒の時間
スケーラブルシステムズ株式会社
今後の発展と課題
Episode IV
A New Hope
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash 過去12年間でPentiumプロセッサの動作周波数は60
MHz から 3800 MHz にまでアップ
ndash 現在までの高性能化の約80 はクロック周波数の向上によるもの
bull 命令実行の強化と最適化
ndash より強力なインストラクションセット
ndash 命令実行の最適化(パイプライン化分岐予測複数命令の同時実行命令実行順序の変更など)
bull 大容量キャッシュ
ndash プロセッサの速度とメモリレイテンシ(待ち時間)とバンド幅のギャップの拡大に対する対策対応としての容量の拡張
スケーラブルシステムズ株式会社
デュアルコアプロセッサ
bull チップ上のトランジスタのより有効活用が可能bull スレッドレベルでの並列処理を活用bull よりシンプルなプロセッサの設計が可能
bull 将来のマイクロプロセッサはより多くのコアを実装可能bull 将来のマイクロプロセッサはより大容量のキャッシュの実装が可能
IBM Power5
with 19MB L2
AMD Opteron
with 2MB L2
Intel Montecito
With 24MB L3
スケーラブルシステムズ株式会社
イノベーションのジレンマ
製品の性能
時間
First Technology
Second Technology
Third Technology
RISCアウトオブオーダー実行lt1 instruction cycle
スーパースカラー RISCアウトオブオーダー実行lt2 instructions cycle
明示的並列命令コンピューティング技術 (EPIC)
命令の並列実行度の向上
製品の性能(異なる尺度)
時間
持続的イノベーション
技術革新が顧客の求める性能向上軸(ムーアの法則)に沿っている
破壊的イノベーションマルチコアとマルチスレッドによる並列処理
短期的には(シングルスレッドの性能)としては性能が低下するが将来の大きな性能向上とコスト低下機能強化の可能性が大きい
スケーラブルシステムズ株式会社
マルチコアの利点
ワークロードの処理効率の向上
bull マルチスレッドアプリケーションndash現在多くのアプリケーション(データベース
WEB科学技術計算)はマルチスレッド化
ndashマルチコアプロセッサではこれらのアプリケーションのマルチスレッドでの実行が容易に可能
bull 複数ジョブの処理ndashシステムでは複数のワークロード同時に処理することが必要
ndashマルチコアではこれらのワークロードへの処理が可能
スケーラブルシステムズ株式会社
マルチコアの利点
消費電力あたりの性能を最大にし高性能で低消費電力のシステム構築が可能
bull OS自身のマルチスレッド対応
ndash OSのサービスもマルチスレッドで処理することでより効率よく処理することが可能
bull 仮想化
ndashサーバのセキュリティや管理の強化
ndash管理するノード数を減らし運用コストの削減を図る
bull 最新のソフトウエアテクノロジの活用
スケーラブルシステムズ株式会社
大きな変革しかし容易ではない
マルチコアプロセッシング(または汎用もしくは専用プロセッサをソケットに複数搭載可能なこと)はEthernetの誕生以来ITインフラに対しての大きなインパクトをもたらします
デュアルプロセッサは386プロセッサの発表以来性能に関して最大の向上を実現しますしかしこのような性能向上にはソフトウエアの最適化がプロセッサの性能をフルに発揮するためには必要です
スケーラブルシステムズ株式会社
並列性(Parallelism)の利用
マルチタスク処理
MPIなどによる複数のノード間での並列処理
ユーザ及びコンパイラによるスレッドレベルでの並列処理(TLP)
コンパイラによる命列実行レベルでの並列処理(ILP)
マルチコア
マルチプロセッサ
マルチノード
マルチインストラクション
システム
スケーラブルシステムズ株式会社
ムーアの法則(GHz から MC へ)
マルチコアによる性能向上
動作周波数の向上による性能向上
性能
2005
bullマルチスレッドbullマルチタスクbull トレーニングbullツールbullhelliphellip
並列処理による性能向上についてはシステムサポートやプログラミングサポートなどの面での技術支援が重要です
スケーラブルシステムズ株式会社
Episode VI
Return of the Jedi
Ts for HPC - インテルテクノロジのHPCにおける価値の考察
スケーラブルシステムズ株式会社
将来予測の難しさ
bull ldquoI think there is a world market for maybe five
computersrdquobull Thomas Watson chairman of IBM 1943
bull ldquoThere is no reason for any individual to have a
computer in their homerdquobull Ken Olson president and founder of digital equipment
corporation 1977
bull ldquoThere are only about 100 potential customers
worldwide for a Cray-1rdquobull Seymour Cray 1977
bull ldquo640K [of memory] ought to be enough for
anybodyrdquobull Bill Gates chairman of Microsoft1981
スケーラブルシステムズ株式会社
「未来を予測する最良の方法はそれを創造してしまうことである」The best way to predict future is to invent it
Dr Alan Kay President of Viewpoints Research
Institute Inc
スケーラブルシステムズ株式会社
ITマネージメントの課題
bull プラットフォームの内部からの保護ndash ウイルスやワームなど悪意あるソフトウェアからの保護
bull 資産管理ndash 多くの IT 部門では特定できない資産が問題
bull オンラインおよびリモート管理診断機能 ndash アップグレード診断復旧のための作業の効率化
bull アプリケーション統合の困難さ
ndash アプリケーションの高度化と複雑化によって複数のアプリケーションを組み合わせるての動作に問題
bull 動的なリソース割り当て
ndash 組織内で未使用のCPUやメモリの活用
スケーラブルシステムズ株式会社
マーケットトレンド
All Servers Worldwide 2003 2004 2005 20062003 to 2006
CAGR
2005 to 2006
CAGR
Total Factory Revenue($B) $46149 $49146 $51268 $52251 42 19
Units Shipped(same as nodes) 5278222 6307484 7050099 7472649 123 60
Processor Dies Shipped 8662823 10134624 11712766 12779159 138 91
HPC Technical Servers Worldwide 2003 2004 2005 20062003 to 2006
CAGR
2005 to 2006
CAGR
HPC Server Revenue($B) $5698 $7393 $9208 $10030 207 89
Adjusted Revenues(To much
enterprise)$5128 $6654 $8287 $9027 207 89
Node Units Shipped 411327 734510 1215735 1419221 511 167
Processor Elements Shipped 1002905 1657827 2681079 3351843 495 250
HPC As A Ratio Of All Servers 2003 2004 2005 2006
Revenue($B) 123 150 180 192
Adjusted Revenues(Apples-to-
apples)111 135 162 173
Units Shipped(Nodes) 78 116 172 190
Processors Shipped 116 164 226 261
Source IDC 2007
スケーラブルシステムズ株式会社
HPCマーケット(対全サーバマーケット)
0
5
10
15
20
25
30
2003 2004 2005 2006
Revenue($B)
Adjusted Revenues(Apples-to-apples)
Units Shipped(Nodes)
Processors Shipped
スケーラブルシステムズ株式会社
マーケットトレンド
Source IDC 2004
Cost of mgmt amp admin 10 CAGR
$0
$20
$40
$60
$80
$100
$120
$140
$160
$180
$200
1996 rsquo97 rsquo98 rsquo992000 rsquo01 rsquo02 rsquo03 rsquo04 rsquo05 rsquo06 rsquo07 rsquo08-
New server spending (USM$) 3 CAGR
Spending (USB$)
5
10
15
20
25
30
35
Installed Base (M Units)
bull ハードウェアの減価償却費は IT の TCO 全体の約25 にすぎない
bull ソフトウェアのコストはわずか10~15
bull 電気などの公共料金フロアスペース電話回線など設備面のコストの割合もきわめて小さい
bull プラットフォームのコストではなくTCOの大きな比率を占めるのは人件費となっている
スケーラブルシステムズ株式会社
運用管理コストの低減
bull 「もっと処理性能を」と「より安価に」を実現するためにワークステーションやサーバでの分散処理の導入
bull ユーザや企業に新たな価値をもたらしてはいるが管理責任とその負担の分散を招き結果的に運用管理コストを押し上げる
メインフレームスーパーコンピュータ
仮想化によるサーバコンソリデーション
クラスタによる仮想コンピュータ
スケーラブルシステムズ株式会社
次世代HPCインフラ
bull コアとスレッド
ndash より多くのスレッドを効率よく利用可能
ndash マルチスレッド向け最適化
bull 電力管理
ndash 省電力
ndash データセンター運用管理機能
bull 仮想化
ndash 柔軟性と優れた運用管理
ndash 仮想的なシステムパーティション
bull RAS
ndash ハードウエアベースの自己監視自己管理
ndash ファームウエアベースのエラー履歴管理
bull システム管理
ndash より低いTCOを実現するための一般標準化されたマネージメント機能
スケーラブルシステムズ株式会社
高速プロセッサ
64ビットアドレス
メモリ性能と容
量
IOバンド幅
インターコネクト
省電力
システムのlsquoバランスrsquo
マルチコアによってプロセッサ単体の処理性能の向上を図る
64ビットのアドレス空間と
拡張されたレジスタによるOSとアプリケーション双方の機能性能拡張
64ビット化とマルチコア化
にともなう高速大容量へのニーズに対応しまたその拡張性の高い実装技術の実現
CPU-メモリ間の高速な
データ転送やより高速なネットワーク大規模なストレージのサポート
大規模なクラスタシステムの構築及びアプリケーションのワークロードに対応した高速性能
エコシステムに対応するためにも電力消費量や発熱量を積極的に抑える技術の開発
スケーラブルシステムズ株式会社
HPCの二極分化
Going UP
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
Going DOWN
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
スケーラブルシステムズ株式会社
システムとユーザの尺度
bull ユーザの尺度での性能(Performance)は時間当たりにどれだけの仕事を処理出来るか(仕事量 時間)
bull Flopsでの評価は実際には意味がないまた問題の規模(small medium large) という評価も難しい
bull ldquoスケーラビリティrdquoは対象を明確に規定する必要がある
システムの尺度 ユーザの尺度
Flops hArr 計算終了までの時間
メモリサイズ(GB) hArr モデルのサイズと計算結果
プロセッサ数 hArr ワークロードでの試行
データ長 hArr 計算精度
システム構成(クラスタ) hArr 導入コストと運用コスト
スケーラビリティ hArr ベンチマーク
スケーラブルシステムズ株式会社
HPCシステムの動向国家プロジェクトと商用製品のギャップの拡大
Going UP
Going DOWN
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
Peta-Scaleコンピューティングに求められる基本技術と現在のHPCの主要マーケットでの要求はあまりにも差が大きいrarrHPCSシステムは各社とのlsquoCommodityrsquoのマイクロプロセッサではなく独自のプロセッサを開発中
ハードウエアはrsquoCommodityrsquo
なものを利用してSWの改善サポート利用技術のサポートが今後の主要マーケットでの成功の鍵となる
スケーラブルシステムズ株式会社
HPCシステムの動向国家プロジェクト
Going UP
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
Peta-Scaleコンピューティングに求められる基本技術と現在のHPCの主要マーケットでの要求はあまりにも差が大きいrarrHPCSシステムは各社とのlsquoCommodityrsquoのマイクロプロセッサではなく独自のプロセッサを開発中
スケーラブルシステムズ株式会社
TOP500性能予測
1993 1995 1997 1999 2001 2003 2005 2007 2009 2011 2013 2015
N=
50
SUM
1 Gflops
1 Tflops
100 Mflops
100 Gflops
100 Tflops
10 Gflops
10 Tflops
1 Pflops
10 Pflops
IBM ASCI White
Blue GeneEarth Simulator
Intel
TOP500の総計が1PFを超えています
TOP500に掲載されるには1TF
が最低条件になっています
シングルシステムの1PFの実現は2009年
システム(プロセッサ数) 13倍年プロセッサ性能向上 14倍年トータル性能 18倍年
2009年までに1ペタFLOPS
スケーラブルシステムズ株式会社
性能ギャップの拡大
bull ピーク性能の大幅な向上ndash 1990年台は性能の向上は102のオーダーでしたが2000年台になると103のオーダーで性能は向上しています
しかしhellipndash 多くの科学技術計算用途のアプリケーションのピーク性能に対する実効性能の比率は5-10となっています(1990年代のベクトル計算機は40-50の対ピーク性能を示していました)
bull 今必要なのはndash より高い実効性能を発揮することが可能な計算アルゴリズムと手法の開発とスケーラビリティの向上
ndash プログラミングモデルなども含めてスケーラブルな計算機環境の構築
01
1
10
100
1000
2000 2004
Tera
flo
ps
1996
Performance
Gap
Peak Performance
Real Performance
NERSC User Group Meeting June 24-25 2004
Osni Marques and Tony Drummond
Lawrence Berkeley National Laboratory
スケーラブルシステムズ株式会社
ペタスケールシステムの構築
bull ソフトウエア(アプリケーションOSプログラミングAPIなど)の課題の克服が課題
bull システムの複雑さと生産性
例Linpack Benchmark
bull オリジナルベンチマークプログラム ~100ライン
bull HPL ベンチマークプログラム ~10000ライン(x100より複雑)
lsquo複雑さrsquoの壁
現在のテラFLOPS級の問題
Source ORNL
スケーラブルシステムズ株式会社
HPCシステムの動向商用製品
Going DOWN
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
ハードウエアはrsquoCommodityrsquo
なものを利用してSWの改善サポート利用技術のサポートが今後の主要マーケットでの成功の鍵となる
スケーラブルシステムズ株式会社
標準コンポーネントの進化
bull プロセッサの性能向上ndash lsquoマルチコアrsquoによる省電力での性能向上が可能
ndash HPCアプリケーションは容易にlsquoマルチコアrsquoの利点を活用可能 (OpenMPやMPI)
bull ファイルシステムndash高性能なスケーラブルファイルシステム(オープンソース)
bull インターコネクトndash PCI-Express (メモリlarrrarrインターコネクト)
ndash高速の商用製品やオープンソースでの強力(OpenIBなど)
スケーラブルシステムズ株式会社
標準コンポーネントの利点
bull 特定のベンダーからのシステムを組み合わせるのではなく他社のシステムも含めてベストなシステムの選択が可能
ndashスケーラブルSMPベクトル計算機クラスタの幅広い選択肢
ndash 64ビットマルチコアマイクロプロセッサの性能向上を最大限に活用
bull 標準コンポーネントの技術革新の活用
ndash PCI-ExpressやFB-DIMMの利用技術
スケーラブルシステムズ株式会社
Breaking the 1-2K nodes Barrier
bull 音の障壁サウンドバリヤー(sound barrier)飛行機の速度が音速近くになると衝撃波の発生によって抵抗の増大境界層の剥離など設計運用上のさまざまな障害(壁)に出合って超音速飛行は不可能かと思われた時代があった(1947年ごろまで)ので音の障壁といわれていた
httpwwwwilk4commiscsoundbreakhtm
クラスタのノード数がある規模に近くなるとその構築や運用において負担の増大システムの安定稼動スケーラビリティなど設計運用上のさまざまな障害(壁)に出合ってクラスタ構築は不可能と思われた時代があった()
スケーラブルシステムズ株式会社
ビルゲイツ氏の基調講演HPC goes mainstream
スケーラブルシステムズ株式会社
「Fast」「Good」「Cheap」のパズル
Fast
+ Cheap
Inferior
高い性能を廉価なシステムで構築することも可能ですただそのようなシステムの場合システムの構築や利用は必ずしも容易ではありません
Good
+ Cheap
Slow比較的小規模なシステムであれば廉価で使い勝手の良いものを探すことは可能ですしかしそのようなシステムでは拡張性やより大規模なシステム構築が出来ません
Good
+ Fast
Expensive
付加価値の高い性能の高いシステムは一般には高価ですその付加価値がユーザにとってメリットが無ければコストパフォーマンスの悪いシステムになるだけです
スケーラブルシステムズ株式会社
まとめとして
bull 「テクノロジー」をどのようにとらえるかndash企業経営基盤のコア要素
ndashユーザの本質的な課題を解決する戦略的な武器
bull マーケットを牽引する「テクノロジ」に求められることndashテクノロジとHPCにおけるITインフラの関係を明確にすること
bull ユーザに何らかのメリットをもたらさない「テクノロジー」は意味を成さない
ndashテクノロジーを最適に組み合わせることで問題解決のためのソリューションの提供が可能
スケーラブルシステムズ株式会社
まとめとして
bull bdquoTs‟ for HPC - インテルテクノロジのHPCにおける価値
ndash インテルテクノロジはHPCにおいて重要な構成要素となっている
ndashそれらの構成要素を統合することでより高い価値の提供が可能となる
ndash二分化しつつあるHPCシステムにおいて「標準コ
ンポーネント」としてのプラットフォームの動向として今後もその動向には注目する必要がある
スケーラブルシステムズ株式会社
さらに詳しい情報はhellip
bull 弊社のコンサルテーションに関するご提案資料もダウンロード可能です(非公開WEBページ)別途弊社に内容等についてはお尋ねください
お問い合わせ先102-0083
東京都千代田区麹町3-5-2
BUREX麹町 8F
電話03-5875-4718
FAX03-3237-7612
E-mailbizsstccojp
httpwwwsstccojp wwwsstccojpbiz
スケーラブルシステムズ株式会社
スケーラブルシステムズ株式会社
ハイエンドコンピューティングに関するコンサルテーションとして幅広いサービスをご提供致します
このサービスを最大限に活用していただくことでコラボレーションによる「顧客志向」 のコン
サルテーションサービスをご提供できればと思っております
スケーラブルシステムズ株式会社
社名製品名などは一般に各社の商標または登録商標です無断での引用転載を禁じます
In general the name of the company and the product name etc are the trademarks or registered trademarks of each company
Copyright Scalable Systems Co Ltd 2005 Unauthorized use is strictly forbidden
2005年11月
スケーラブルシステムズ株式会社
GHz競争
bull 2000年に開催されたIEEE国際電子デバイス会議2000(2000
IEEE International Electron Devices MeetingIEDM) においてインテル社は4億個以上のトランジスタを集積した10GHz駆動のプロセッサが2005年までに実現可能だと発表しましたndash 実際にはインテル社の最速プロセッサは6ヶ月前に発表された
38GHz(Intel Pentium 4)となっています
bull Prescottプロセッサの6xxシリーズ発表に際してインテル社はldquoadding value beyond GHzrdquo のコメントを出していますそれ以降インテル社の多くのドキュメントやプレスリリースはこのldquoadding value beyond GHzrdquo についての内容を含んでいます
スケーラブルシステムズ株式会社
発熱の問題が深刻化
Bob Colwell氏の資料より抜粋
Increasing Frequency
Watt
scm
2
1
10
100
1000
15 10 07 05 035 025 018 013 01 007
i386i486
PentiumPentium Pro
Pentium IIPentium III
Hot Plate
Nuclear Reactor
Rocket Nozzle
Pentium 4(Prescott)
Pentium 4(Willamette)
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash過去12年間でPentiumプロセッサの動作周波数は60 MHz から 3800 MHz にまでアップ
ndash現在までの高性能化の約80 はクロック周波数の向上によるもの
bull 命令実行の強化と最適化
ndashより強力なインストラクションセット
ndash命令実行の最適化(パイプライン化分岐予測複数命令の同時実行命令実行順序の変更など)
スケーラブルシステムズ株式会社
技術のSカーブ技術開発の進展と製品性能の成長の関係
bull 技術開発の初期は製品性能はゆっくりと向上するがしだいに性能の向上の幅が大きくなるしかし次第に技術開発が成熟段階に入ると性能向上は逓減していく
製品の性能
時間
First Technology
Second Technology
Third Technology
RISCアウトオブオーダー実行lt1 instruction cycle
スーパースカラー RISCアウトオブオーダー実行lt2 instructions cycle
明示的並列命令コンピューティング技術 (EPIC)
命令の並列実行度の向上
スケーラブルシステムズ株式会社
マイクロアーキテクチャのSカーブ
Johan De Gelas Quest for More Processing Power
AnandTech Feb 8 2005
httpwwwanandtechcomcpuchipsetsshowdocaspxi=2343
101
102
103
104
105
106
MIP
S
1980 1985 1990 1995 2000 2005 2010
Pentium Architecture
Super Scalar
Pentium Pro Architecture
Speculative Out-of-Order
Pentium 4 Architecture
Trace Cache
Pentium 4 and Xeon Architecture with HT
Multi-Threaded
Multi-Threaded Multi-Core
Era of
Instruction
Parallelism
Era of
Thread
Parallelism
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash 過去12年間でPentiumプロセッサの動作周波数は60
MHz から 3800 MHz にまでアップ
ndash 現在までの高性能化の約80 はクロック周波数の向上によるもの
bull 命令実行の強化と最適化
ndash より強力なインストラクションセット
ndash 命令実行の最適化(パイプライン化分岐予測複数命令の同時実行命令実行順序の変更など)
bull 大容量キャッシュ
ndash プロセッサの速度とメモリレイテンシ(待ち時間)とバンド幅のギャップの拡大に対する対策対応としての容量の拡張
スケーラブルシステムズ株式会社
性能ギャップの問題
bull プロセッサ速度とメモリアクセスの速度差によってプロセッサがより高速になったとしてもプロセッサはその演算能力を完全に使い切ることが出来ない
1
10
100
1000Performance
1980 1990 2000
microProc
60yr
DRAM
7yr
バンド幅とレイテンシの問題が今後はより深刻(プロセッサ性能とのギャップはほぼ年率50の差で広がっている)
DRAM
CPU
プロセッサはほぼナノ秒に一回命令実行DRAMへのアクセスはほぼ100ナノ秒の時間
スケーラブルシステムズ株式会社
今後の発展と課題
Episode IV
A New Hope
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash 過去12年間でPentiumプロセッサの動作周波数は60
MHz から 3800 MHz にまでアップ
ndash 現在までの高性能化の約80 はクロック周波数の向上によるもの
bull 命令実行の強化と最適化
ndash より強力なインストラクションセット
ndash 命令実行の最適化(パイプライン化分岐予測複数命令の同時実行命令実行順序の変更など)
bull 大容量キャッシュ
ndash プロセッサの速度とメモリレイテンシ(待ち時間)とバンド幅のギャップの拡大に対する対策対応としての容量の拡張
スケーラブルシステムズ株式会社
デュアルコアプロセッサ
bull チップ上のトランジスタのより有効活用が可能bull スレッドレベルでの並列処理を活用bull よりシンプルなプロセッサの設計が可能
bull 将来のマイクロプロセッサはより多くのコアを実装可能bull 将来のマイクロプロセッサはより大容量のキャッシュの実装が可能
IBM Power5
with 19MB L2
AMD Opteron
with 2MB L2
Intel Montecito
With 24MB L3
スケーラブルシステムズ株式会社
イノベーションのジレンマ
製品の性能
時間
First Technology
Second Technology
Third Technology
RISCアウトオブオーダー実行lt1 instruction cycle
スーパースカラー RISCアウトオブオーダー実行lt2 instructions cycle
明示的並列命令コンピューティング技術 (EPIC)
命令の並列実行度の向上
製品の性能(異なる尺度)
時間
持続的イノベーション
技術革新が顧客の求める性能向上軸(ムーアの法則)に沿っている
破壊的イノベーションマルチコアとマルチスレッドによる並列処理
短期的には(シングルスレッドの性能)としては性能が低下するが将来の大きな性能向上とコスト低下機能強化の可能性が大きい
スケーラブルシステムズ株式会社
マルチコアの利点
ワークロードの処理効率の向上
bull マルチスレッドアプリケーションndash現在多くのアプリケーション(データベース
WEB科学技術計算)はマルチスレッド化
ndashマルチコアプロセッサではこれらのアプリケーションのマルチスレッドでの実行が容易に可能
bull 複数ジョブの処理ndashシステムでは複数のワークロード同時に処理することが必要
ndashマルチコアではこれらのワークロードへの処理が可能
スケーラブルシステムズ株式会社
マルチコアの利点
消費電力あたりの性能を最大にし高性能で低消費電力のシステム構築が可能
bull OS自身のマルチスレッド対応
ndash OSのサービスもマルチスレッドで処理することでより効率よく処理することが可能
bull 仮想化
ndashサーバのセキュリティや管理の強化
ndash管理するノード数を減らし運用コストの削減を図る
bull 最新のソフトウエアテクノロジの活用
スケーラブルシステムズ株式会社
大きな変革しかし容易ではない
マルチコアプロセッシング(または汎用もしくは専用プロセッサをソケットに複数搭載可能なこと)はEthernetの誕生以来ITインフラに対しての大きなインパクトをもたらします
デュアルプロセッサは386プロセッサの発表以来性能に関して最大の向上を実現しますしかしこのような性能向上にはソフトウエアの最適化がプロセッサの性能をフルに発揮するためには必要です
スケーラブルシステムズ株式会社
並列性(Parallelism)の利用
マルチタスク処理
MPIなどによる複数のノード間での並列処理
ユーザ及びコンパイラによるスレッドレベルでの並列処理(TLP)
コンパイラによる命列実行レベルでの並列処理(ILP)
マルチコア
マルチプロセッサ
マルチノード
マルチインストラクション
システム
スケーラブルシステムズ株式会社
ムーアの法則(GHz から MC へ)
マルチコアによる性能向上
動作周波数の向上による性能向上
性能
2005
bullマルチスレッドbullマルチタスクbull トレーニングbullツールbullhelliphellip
並列処理による性能向上についてはシステムサポートやプログラミングサポートなどの面での技術支援が重要です
スケーラブルシステムズ株式会社
Episode VI
Return of the Jedi
Ts for HPC - インテルテクノロジのHPCにおける価値の考察
スケーラブルシステムズ株式会社
将来予測の難しさ
bull ldquoI think there is a world market for maybe five
computersrdquobull Thomas Watson chairman of IBM 1943
bull ldquoThere is no reason for any individual to have a
computer in their homerdquobull Ken Olson president and founder of digital equipment
corporation 1977
bull ldquoThere are only about 100 potential customers
worldwide for a Cray-1rdquobull Seymour Cray 1977
bull ldquo640K [of memory] ought to be enough for
anybodyrdquobull Bill Gates chairman of Microsoft1981
スケーラブルシステムズ株式会社
「未来を予測する最良の方法はそれを創造してしまうことである」The best way to predict future is to invent it
Dr Alan Kay President of Viewpoints Research
Institute Inc
スケーラブルシステムズ株式会社
ITマネージメントの課題
bull プラットフォームの内部からの保護ndash ウイルスやワームなど悪意あるソフトウェアからの保護
bull 資産管理ndash 多くの IT 部門では特定できない資産が問題
bull オンラインおよびリモート管理診断機能 ndash アップグレード診断復旧のための作業の効率化
bull アプリケーション統合の困難さ
ndash アプリケーションの高度化と複雑化によって複数のアプリケーションを組み合わせるての動作に問題
bull 動的なリソース割り当て
ndash 組織内で未使用のCPUやメモリの活用
スケーラブルシステムズ株式会社
マーケットトレンド
All Servers Worldwide 2003 2004 2005 20062003 to 2006
CAGR
2005 to 2006
CAGR
Total Factory Revenue($B) $46149 $49146 $51268 $52251 42 19
Units Shipped(same as nodes) 5278222 6307484 7050099 7472649 123 60
Processor Dies Shipped 8662823 10134624 11712766 12779159 138 91
HPC Technical Servers Worldwide 2003 2004 2005 20062003 to 2006
CAGR
2005 to 2006
CAGR
HPC Server Revenue($B) $5698 $7393 $9208 $10030 207 89
Adjusted Revenues(To much
enterprise)$5128 $6654 $8287 $9027 207 89
Node Units Shipped 411327 734510 1215735 1419221 511 167
Processor Elements Shipped 1002905 1657827 2681079 3351843 495 250
HPC As A Ratio Of All Servers 2003 2004 2005 2006
Revenue($B) 123 150 180 192
Adjusted Revenues(Apples-to-
apples)111 135 162 173
Units Shipped(Nodes) 78 116 172 190
Processors Shipped 116 164 226 261
Source IDC 2007
スケーラブルシステムズ株式会社
HPCマーケット(対全サーバマーケット)
0
5
10
15
20
25
30
2003 2004 2005 2006
Revenue($B)
Adjusted Revenues(Apples-to-apples)
Units Shipped(Nodes)
Processors Shipped
スケーラブルシステムズ株式会社
マーケットトレンド
Source IDC 2004
Cost of mgmt amp admin 10 CAGR
$0
$20
$40
$60
$80
$100
$120
$140
$160
$180
$200
1996 rsquo97 rsquo98 rsquo992000 rsquo01 rsquo02 rsquo03 rsquo04 rsquo05 rsquo06 rsquo07 rsquo08-
New server spending (USM$) 3 CAGR
Spending (USB$)
5
10
15
20
25
30
35
Installed Base (M Units)
bull ハードウェアの減価償却費は IT の TCO 全体の約25 にすぎない
bull ソフトウェアのコストはわずか10~15
bull 電気などの公共料金フロアスペース電話回線など設備面のコストの割合もきわめて小さい
bull プラットフォームのコストではなくTCOの大きな比率を占めるのは人件費となっている
スケーラブルシステムズ株式会社
運用管理コストの低減
bull 「もっと処理性能を」と「より安価に」を実現するためにワークステーションやサーバでの分散処理の導入
bull ユーザや企業に新たな価値をもたらしてはいるが管理責任とその負担の分散を招き結果的に運用管理コストを押し上げる
メインフレームスーパーコンピュータ
仮想化によるサーバコンソリデーション
クラスタによる仮想コンピュータ
スケーラブルシステムズ株式会社
次世代HPCインフラ
bull コアとスレッド
ndash より多くのスレッドを効率よく利用可能
ndash マルチスレッド向け最適化
bull 電力管理
ndash 省電力
ndash データセンター運用管理機能
bull 仮想化
ndash 柔軟性と優れた運用管理
ndash 仮想的なシステムパーティション
bull RAS
ndash ハードウエアベースの自己監視自己管理
ndash ファームウエアベースのエラー履歴管理
bull システム管理
ndash より低いTCOを実現するための一般標準化されたマネージメント機能
スケーラブルシステムズ株式会社
高速プロセッサ
64ビットアドレス
メモリ性能と容
量
IOバンド幅
インターコネクト
省電力
システムのlsquoバランスrsquo
マルチコアによってプロセッサ単体の処理性能の向上を図る
64ビットのアドレス空間と
拡張されたレジスタによるOSとアプリケーション双方の機能性能拡張
64ビット化とマルチコア化
にともなう高速大容量へのニーズに対応しまたその拡張性の高い実装技術の実現
CPU-メモリ間の高速な
データ転送やより高速なネットワーク大規模なストレージのサポート
大規模なクラスタシステムの構築及びアプリケーションのワークロードに対応した高速性能
エコシステムに対応するためにも電力消費量や発熱量を積極的に抑える技術の開発
スケーラブルシステムズ株式会社
HPCの二極分化
Going UP
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
Going DOWN
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
スケーラブルシステムズ株式会社
システムとユーザの尺度
bull ユーザの尺度での性能(Performance)は時間当たりにどれだけの仕事を処理出来るか(仕事量 時間)
bull Flopsでの評価は実際には意味がないまた問題の規模(small medium large) という評価も難しい
bull ldquoスケーラビリティrdquoは対象を明確に規定する必要がある
システムの尺度 ユーザの尺度
Flops hArr 計算終了までの時間
メモリサイズ(GB) hArr モデルのサイズと計算結果
プロセッサ数 hArr ワークロードでの試行
データ長 hArr 計算精度
システム構成(クラスタ) hArr 導入コストと運用コスト
スケーラビリティ hArr ベンチマーク
スケーラブルシステムズ株式会社
HPCシステムの動向国家プロジェクトと商用製品のギャップの拡大
Going UP
Going DOWN
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
Peta-Scaleコンピューティングに求められる基本技術と現在のHPCの主要マーケットでの要求はあまりにも差が大きいrarrHPCSシステムは各社とのlsquoCommodityrsquoのマイクロプロセッサではなく独自のプロセッサを開発中
ハードウエアはrsquoCommodityrsquo
なものを利用してSWの改善サポート利用技術のサポートが今後の主要マーケットでの成功の鍵となる
スケーラブルシステムズ株式会社
HPCシステムの動向国家プロジェクト
Going UP
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
Peta-Scaleコンピューティングに求められる基本技術と現在のHPCの主要マーケットでの要求はあまりにも差が大きいrarrHPCSシステムは各社とのlsquoCommodityrsquoのマイクロプロセッサではなく独自のプロセッサを開発中
スケーラブルシステムズ株式会社
TOP500性能予測
1993 1995 1997 1999 2001 2003 2005 2007 2009 2011 2013 2015
N=
50
SUM
1 Gflops
1 Tflops
100 Mflops
100 Gflops
100 Tflops
10 Gflops
10 Tflops
1 Pflops
10 Pflops
IBM ASCI White
Blue GeneEarth Simulator
Intel
TOP500の総計が1PFを超えています
TOP500に掲載されるには1TF
が最低条件になっています
シングルシステムの1PFの実現は2009年
システム(プロセッサ数) 13倍年プロセッサ性能向上 14倍年トータル性能 18倍年
2009年までに1ペタFLOPS
スケーラブルシステムズ株式会社
性能ギャップの拡大
bull ピーク性能の大幅な向上ndash 1990年台は性能の向上は102のオーダーでしたが2000年台になると103のオーダーで性能は向上しています
しかしhellipndash 多くの科学技術計算用途のアプリケーションのピーク性能に対する実効性能の比率は5-10となっています(1990年代のベクトル計算機は40-50の対ピーク性能を示していました)
bull 今必要なのはndash より高い実効性能を発揮することが可能な計算アルゴリズムと手法の開発とスケーラビリティの向上
ndash プログラミングモデルなども含めてスケーラブルな計算機環境の構築
01
1
10
100
1000
2000 2004
Tera
flo
ps
1996
Performance
Gap
Peak Performance
Real Performance
NERSC User Group Meeting June 24-25 2004
Osni Marques and Tony Drummond
Lawrence Berkeley National Laboratory
スケーラブルシステムズ株式会社
ペタスケールシステムの構築
bull ソフトウエア(アプリケーションOSプログラミングAPIなど)の課題の克服が課題
bull システムの複雑さと生産性
例Linpack Benchmark
bull オリジナルベンチマークプログラム ~100ライン
bull HPL ベンチマークプログラム ~10000ライン(x100より複雑)
lsquo複雑さrsquoの壁
現在のテラFLOPS級の問題
Source ORNL
スケーラブルシステムズ株式会社
HPCシステムの動向商用製品
Going DOWN
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
ハードウエアはrsquoCommodityrsquo
なものを利用してSWの改善サポート利用技術のサポートが今後の主要マーケットでの成功の鍵となる
スケーラブルシステムズ株式会社
標準コンポーネントの進化
bull プロセッサの性能向上ndash lsquoマルチコアrsquoによる省電力での性能向上が可能
ndash HPCアプリケーションは容易にlsquoマルチコアrsquoの利点を活用可能 (OpenMPやMPI)
bull ファイルシステムndash高性能なスケーラブルファイルシステム(オープンソース)
bull インターコネクトndash PCI-Express (メモリlarrrarrインターコネクト)
ndash高速の商用製品やオープンソースでの強力(OpenIBなど)
スケーラブルシステムズ株式会社
標準コンポーネントの利点
bull 特定のベンダーからのシステムを組み合わせるのではなく他社のシステムも含めてベストなシステムの選択が可能
ndashスケーラブルSMPベクトル計算機クラスタの幅広い選択肢
ndash 64ビットマルチコアマイクロプロセッサの性能向上を最大限に活用
bull 標準コンポーネントの技術革新の活用
ndash PCI-ExpressやFB-DIMMの利用技術
スケーラブルシステムズ株式会社
Breaking the 1-2K nodes Barrier
bull 音の障壁サウンドバリヤー(sound barrier)飛行機の速度が音速近くになると衝撃波の発生によって抵抗の増大境界層の剥離など設計運用上のさまざまな障害(壁)に出合って超音速飛行は不可能かと思われた時代があった(1947年ごろまで)ので音の障壁といわれていた
httpwwwwilk4commiscsoundbreakhtm
クラスタのノード数がある規模に近くなるとその構築や運用において負担の増大システムの安定稼動スケーラビリティなど設計運用上のさまざまな障害(壁)に出合ってクラスタ構築は不可能と思われた時代があった()
スケーラブルシステムズ株式会社
ビルゲイツ氏の基調講演HPC goes mainstream
スケーラブルシステムズ株式会社
「Fast」「Good」「Cheap」のパズル
Fast
+ Cheap
Inferior
高い性能を廉価なシステムで構築することも可能ですただそのようなシステムの場合システムの構築や利用は必ずしも容易ではありません
Good
+ Cheap
Slow比較的小規模なシステムであれば廉価で使い勝手の良いものを探すことは可能ですしかしそのようなシステムでは拡張性やより大規模なシステム構築が出来ません
Good
+ Fast
Expensive
付加価値の高い性能の高いシステムは一般には高価ですその付加価値がユーザにとってメリットが無ければコストパフォーマンスの悪いシステムになるだけです
スケーラブルシステムズ株式会社
まとめとして
bull 「テクノロジー」をどのようにとらえるかndash企業経営基盤のコア要素
ndashユーザの本質的な課題を解決する戦略的な武器
bull マーケットを牽引する「テクノロジ」に求められることndashテクノロジとHPCにおけるITインフラの関係を明確にすること
bull ユーザに何らかのメリットをもたらさない「テクノロジー」は意味を成さない
ndashテクノロジーを最適に組み合わせることで問題解決のためのソリューションの提供が可能
スケーラブルシステムズ株式会社
まとめとして
bull bdquoTs‟ for HPC - インテルテクノロジのHPCにおける価値
ndash インテルテクノロジはHPCにおいて重要な構成要素となっている
ndashそれらの構成要素を統合することでより高い価値の提供が可能となる
ndash二分化しつつあるHPCシステムにおいて「標準コ
ンポーネント」としてのプラットフォームの動向として今後もその動向には注目する必要がある
スケーラブルシステムズ株式会社
さらに詳しい情報はhellip
bull 弊社のコンサルテーションに関するご提案資料もダウンロード可能です(非公開WEBページ)別途弊社に内容等についてはお尋ねください
お問い合わせ先102-0083
東京都千代田区麹町3-5-2
BUREX麹町 8F
電話03-5875-4718
FAX03-3237-7612
E-mailbizsstccojp
httpwwwsstccojp wwwsstccojpbiz
スケーラブルシステムズ株式会社
スケーラブルシステムズ株式会社
ハイエンドコンピューティングに関するコンサルテーションとして幅広いサービスをご提供致します
このサービスを最大限に活用していただくことでコラボレーションによる「顧客志向」 のコン
サルテーションサービスをご提供できればと思っております
スケーラブルシステムズ株式会社
社名製品名などは一般に各社の商標または登録商標です無断での引用転載を禁じます
In general the name of the company and the product name etc are the trademarks or registered trademarks of each company
Copyright Scalable Systems Co Ltd 2005 Unauthorized use is strictly forbidden
2005年11月
スケーラブルシステムズ株式会社
発熱の問題が深刻化
Bob Colwell氏の資料より抜粋
Increasing Frequency
Watt
scm
2
1
10
100
1000
15 10 07 05 035 025 018 013 01 007
i386i486
PentiumPentium Pro
Pentium IIPentium III
Hot Plate
Nuclear Reactor
Rocket Nozzle
Pentium 4(Prescott)
Pentium 4(Willamette)
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash過去12年間でPentiumプロセッサの動作周波数は60 MHz から 3800 MHz にまでアップ
ndash現在までの高性能化の約80 はクロック周波数の向上によるもの
bull 命令実行の強化と最適化
ndashより強力なインストラクションセット
ndash命令実行の最適化(パイプライン化分岐予測複数命令の同時実行命令実行順序の変更など)
スケーラブルシステムズ株式会社
技術のSカーブ技術開発の進展と製品性能の成長の関係
bull 技術開発の初期は製品性能はゆっくりと向上するがしだいに性能の向上の幅が大きくなるしかし次第に技術開発が成熟段階に入ると性能向上は逓減していく
製品の性能
時間
First Technology
Second Technology
Third Technology
RISCアウトオブオーダー実行lt1 instruction cycle
スーパースカラー RISCアウトオブオーダー実行lt2 instructions cycle
明示的並列命令コンピューティング技術 (EPIC)
命令の並列実行度の向上
スケーラブルシステムズ株式会社
マイクロアーキテクチャのSカーブ
Johan De Gelas Quest for More Processing Power
AnandTech Feb 8 2005
httpwwwanandtechcomcpuchipsetsshowdocaspxi=2343
101
102
103
104
105
106
MIP
S
1980 1985 1990 1995 2000 2005 2010
Pentium Architecture
Super Scalar
Pentium Pro Architecture
Speculative Out-of-Order
Pentium 4 Architecture
Trace Cache
Pentium 4 and Xeon Architecture with HT
Multi-Threaded
Multi-Threaded Multi-Core
Era of
Instruction
Parallelism
Era of
Thread
Parallelism
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash 過去12年間でPentiumプロセッサの動作周波数は60
MHz から 3800 MHz にまでアップ
ndash 現在までの高性能化の約80 はクロック周波数の向上によるもの
bull 命令実行の強化と最適化
ndash より強力なインストラクションセット
ndash 命令実行の最適化(パイプライン化分岐予測複数命令の同時実行命令実行順序の変更など)
bull 大容量キャッシュ
ndash プロセッサの速度とメモリレイテンシ(待ち時間)とバンド幅のギャップの拡大に対する対策対応としての容量の拡張
スケーラブルシステムズ株式会社
性能ギャップの問題
bull プロセッサ速度とメモリアクセスの速度差によってプロセッサがより高速になったとしてもプロセッサはその演算能力を完全に使い切ることが出来ない
1
10
100
1000Performance
1980 1990 2000
microProc
60yr
DRAM
7yr
バンド幅とレイテンシの問題が今後はより深刻(プロセッサ性能とのギャップはほぼ年率50の差で広がっている)
DRAM
CPU
プロセッサはほぼナノ秒に一回命令実行DRAMへのアクセスはほぼ100ナノ秒の時間
スケーラブルシステムズ株式会社
今後の発展と課題
Episode IV
A New Hope
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash 過去12年間でPentiumプロセッサの動作周波数は60
MHz から 3800 MHz にまでアップ
ndash 現在までの高性能化の約80 はクロック周波数の向上によるもの
bull 命令実行の強化と最適化
ndash より強力なインストラクションセット
ndash 命令実行の最適化(パイプライン化分岐予測複数命令の同時実行命令実行順序の変更など)
bull 大容量キャッシュ
ndash プロセッサの速度とメモリレイテンシ(待ち時間)とバンド幅のギャップの拡大に対する対策対応としての容量の拡張
スケーラブルシステムズ株式会社
デュアルコアプロセッサ
bull チップ上のトランジスタのより有効活用が可能bull スレッドレベルでの並列処理を活用bull よりシンプルなプロセッサの設計が可能
bull 将来のマイクロプロセッサはより多くのコアを実装可能bull 将来のマイクロプロセッサはより大容量のキャッシュの実装が可能
IBM Power5
with 19MB L2
AMD Opteron
with 2MB L2
Intel Montecito
With 24MB L3
スケーラブルシステムズ株式会社
イノベーションのジレンマ
製品の性能
時間
First Technology
Second Technology
Third Technology
RISCアウトオブオーダー実行lt1 instruction cycle
スーパースカラー RISCアウトオブオーダー実行lt2 instructions cycle
明示的並列命令コンピューティング技術 (EPIC)
命令の並列実行度の向上
製品の性能(異なる尺度)
時間
持続的イノベーション
技術革新が顧客の求める性能向上軸(ムーアの法則)に沿っている
破壊的イノベーションマルチコアとマルチスレッドによる並列処理
短期的には(シングルスレッドの性能)としては性能が低下するが将来の大きな性能向上とコスト低下機能強化の可能性が大きい
スケーラブルシステムズ株式会社
マルチコアの利点
ワークロードの処理効率の向上
bull マルチスレッドアプリケーションndash現在多くのアプリケーション(データベース
WEB科学技術計算)はマルチスレッド化
ndashマルチコアプロセッサではこれらのアプリケーションのマルチスレッドでの実行が容易に可能
bull 複数ジョブの処理ndashシステムでは複数のワークロード同時に処理することが必要
ndashマルチコアではこれらのワークロードへの処理が可能
スケーラブルシステムズ株式会社
マルチコアの利点
消費電力あたりの性能を最大にし高性能で低消費電力のシステム構築が可能
bull OS自身のマルチスレッド対応
ndash OSのサービスもマルチスレッドで処理することでより効率よく処理することが可能
bull 仮想化
ndashサーバのセキュリティや管理の強化
ndash管理するノード数を減らし運用コストの削減を図る
bull 最新のソフトウエアテクノロジの活用
スケーラブルシステムズ株式会社
大きな変革しかし容易ではない
マルチコアプロセッシング(または汎用もしくは専用プロセッサをソケットに複数搭載可能なこと)はEthernetの誕生以来ITインフラに対しての大きなインパクトをもたらします
デュアルプロセッサは386プロセッサの発表以来性能に関して最大の向上を実現しますしかしこのような性能向上にはソフトウエアの最適化がプロセッサの性能をフルに発揮するためには必要です
スケーラブルシステムズ株式会社
並列性(Parallelism)の利用
マルチタスク処理
MPIなどによる複数のノード間での並列処理
ユーザ及びコンパイラによるスレッドレベルでの並列処理(TLP)
コンパイラによる命列実行レベルでの並列処理(ILP)
マルチコア
マルチプロセッサ
マルチノード
マルチインストラクション
システム
スケーラブルシステムズ株式会社
ムーアの法則(GHz から MC へ)
マルチコアによる性能向上
動作周波数の向上による性能向上
性能
2005
bullマルチスレッドbullマルチタスクbull トレーニングbullツールbullhelliphellip
並列処理による性能向上についてはシステムサポートやプログラミングサポートなどの面での技術支援が重要です
スケーラブルシステムズ株式会社
Episode VI
Return of the Jedi
Ts for HPC - インテルテクノロジのHPCにおける価値の考察
スケーラブルシステムズ株式会社
将来予測の難しさ
bull ldquoI think there is a world market for maybe five
computersrdquobull Thomas Watson chairman of IBM 1943
bull ldquoThere is no reason for any individual to have a
computer in their homerdquobull Ken Olson president and founder of digital equipment
corporation 1977
bull ldquoThere are only about 100 potential customers
worldwide for a Cray-1rdquobull Seymour Cray 1977
bull ldquo640K [of memory] ought to be enough for
anybodyrdquobull Bill Gates chairman of Microsoft1981
スケーラブルシステムズ株式会社
「未来を予測する最良の方法はそれを創造してしまうことである」The best way to predict future is to invent it
Dr Alan Kay President of Viewpoints Research
Institute Inc
スケーラブルシステムズ株式会社
ITマネージメントの課題
bull プラットフォームの内部からの保護ndash ウイルスやワームなど悪意あるソフトウェアからの保護
bull 資産管理ndash 多くの IT 部門では特定できない資産が問題
bull オンラインおよびリモート管理診断機能 ndash アップグレード診断復旧のための作業の効率化
bull アプリケーション統合の困難さ
ndash アプリケーションの高度化と複雑化によって複数のアプリケーションを組み合わせるての動作に問題
bull 動的なリソース割り当て
ndash 組織内で未使用のCPUやメモリの活用
スケーラブルシステムズ株式会社
マーケットトレンド
All Servers Worldwide 2003 2004 2005 20062003 to 2006
CAGR
2005 to 2006
CAGR
Total Factory Revenue($B) $46149 $49146 $51268 $52251 42 19
Units Shipped(same as nodes) 5278222 6307484 7050099 7472649 123 60
Processor Dies Shipped 8662823 10134624 11712766 12779159 138 91
HPC Technical Servers Worldwide 2003 2004 2005 20062003 to 2006
CAGR
2005 to 2006
CAGR
HPC Server Revenue($B) $5698 $7393 $9208 $10030 207 89
Adjusted Revenues(To much
enterprise)$5128 $6654 $8287 $9027 207 89
Node Units Shipped 411327 734510 1215735 1419221 511 167
Processor Elements Shipped 1002905 1657827 2681079 3351843 495 250
HPC As A Ratio Of All Servers 2003 2004 2005 2006
Revenue($B) 123 150 180 192
Adjusted Revenues(Apples-to-
apples)111 135 162 173
Units Shipped(Nodes) 78 116 172 190
Processors Shipped 116 164 226 261
Source IDC 2007
スケーラブルシステムズ株式会社
HPCマーケット(対全サーバマーケット)
0
5
10
15
20
25
30
2003 2004 2005 2006
Revenue($B)
Adjusted Revenues(Apples-to-apples)
Units Shipped(Nodes)
Processors Shipped
スケーラブルシステムズ株式会社
マーケットトレンド
Source IDC 2004
Cost of mgmt amp admin 10 CAGR
$0
$20
$40
$60
$80
$100
$120
$140
$160
$180
$200
1996 rsquo97 rsquo98 rsquo992000 rsquo01 rsquo02 rsquo03 rsquo04 rsquo05 rsquo06 rsquo07 rsquo08-
New server spending (USM$) 3 CAGR
Spending (USB$)
5
10
15
20
25
30
35
Installed Base (M Units)
bull ハードウェアの減価償却費は IT の TCO 全体の約25 にすぎない
bull ソフトウェアのコストはわずか10~15
bull 電気などの公共料金フロアスペース電話回線など設備面のコストの割合もきわめて小さい
bull プラットフォームのコストではなくTCOの大きな比率を占めるのは人件費となっている
スケーラブルシステムズ株式会社
運用管理コストの低減
bull 「もっと処理性能を」と「より安価に」を実現するためにワークステーションやサーバでの分散処理の導入
bull ユーザや企業に新たな価値をもたらしてはいるが管理責任とその負担の分散を招き結果的に運用管理コストを押し上げる
メインフレームスーパーコンピュータ
仮想化によるサーバコンソリデーション
クラスタによる仮想コンピュータ
スケーラブルシステムズ株式会社
次世代HPCインフラ
bull コアとスレッド
ndash より多くのスレッドを効率よく利用可能
ndash マルチスレッド向け最適化
bull 電力管理
ndash 省電力
ndash データセンター運用管理機能
bull 仮想化
ndash 柔軟性と優れた運用管理
ndash 仮想的なシステムパーティション
bull RAS
ndash ハードウエアベースの自己監視自己管理
ndash ファームウエアベースのエラー履歴管理
bull システム管理
ndash より低いTCOを実現するための一般標準化されたマネージメント機能
スケーラブルシステムズ株式会社
高速プロセッサ
64ビットアドレス
メモリ性能と容
量
IOバンド幅
インターコネクト
省電力
システムのlsquoバランスrsquo
マルチコアによってプロセッサ単体の処理性能の向上を図る
64ビットのアドレス空間と
拡張されたレジスタによるOSとアプリケーション双方の機能性能拡張
64ビット化とマルチコア化
にともなう高速大容量へのニーズに対応しまたその拡張性の高い実装技術の実現
CPU-メモリ間の高速な
データ転送やより高速なネットワーク大規模なストレージのサポート
大規模なクラスタシステムの構築及びアプリケーションのワークロードに対応した高速性能
エコシステムに対応するためにも電力消費量や発熱量を積極的に抑える技術の開発
スケーラブルシステムズ株式会社
HPCの二極分化
Going UP
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
Going DOWN
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
スケーラブルシステムズ株式会社
システムとユーザの尺度
bull ユーザの尺度での性能(Performance)は時間当たりにどれだけの仕事を処理出来るか(仕事量 時間)
bull Flopsでの評価は実際には意味がないまた問題の規模(small medium large) という評価も難しい
bull ldquoスケーラビリティrdquoは対象を明確に規定する必要がある
システムの尺度 ユーザの尺度
Flops hArr 計算終了までの時間
メモリサイズ(GB) hArr モデルのサイズと計算結果
プロセッサ数 hArr ワークロードでの試行
データ長 hArr 計算精度
システム構成(クラスタ) hArr 導入コストと運用コスト
スケーラビリティ hArr ベンチマーク
スケーラブルシステムズ株式会社
HPCシステムの動向国家プロジェクトと商用製品のギャップの拡大
Going UP
Going DOWN
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
Peta-Scaleコンピューティングに求められる基本技術と現在のHPCの主要マーケットでの要求はあまりにも差が大きいrarrHPCSシステムは各社とのlsquoCommodityrsquoのマイクロプロセッサではなく独自のプロセッサを開発中
ハードウエアはrsquoCommodityrsquo
なものを利用してSWの改善サポート利用技術のサポートが今後の主要マーケットでの成功の鍵となる
スケーラブルシステムズ株式会社
HPCシステムの動向国家プロジェクト
Going UP
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
Peta-Scaleコンピューティングに求められる基本技術と現在のHPCの主要マーケットでの要求はあまりにも差が大きいrarrHPCSシステムは各社とのlsquoCommodityrsquoのマイクロプロセッサではなく独自のプロセッサを開発中
スケーラブルシステムズ株式会社
TOP500性能予測
1993 1995 1997 1999 2001 2003 2005 2007 2009 2011 2013 2015
N=
50
SUM
1 Gflops
1 Tflops
100 Mflops
100 Gflops
100 Tflops
10 Gflops
10 Tflops
1 Pflops
10 Pflops
IBM ASCI White
Blue GeneEarth Simulator
Intel
TOP500の総計が1PFを超えています
TOP500に掲載されるには1TF
が最低条件になっています
シングルシステムの1PFの実現は2009年
システム(プロセッサ数) 13倍年プロセッサ性能向上 14倍年トータル性能 18倍年
2009年までに1ペタFLOPS
スケーラブルシステムズ株式会社
性能ギャップの拡大
bull ピーク性能の大幅な向上ndash 1990年台は性能の向上は102のオーダーでしたが2000年台になると103のオーダーで性能は向上しています
しかしhellipndash 多くの科学技術計算用途のアプリケーションのピーク性能に対する実効性能の比率は5-10となっています(1990年代のベクトル計算機は40-50の対ピーク性能を示していました)
bull 今必要なのはndash より高い実効性能を発揮することが可能な計算アルゴリズムと手法の開発とスケーラビリティの向上
ndash プログラミングモデルなども含めてスケーラブルな計算機環境の構築
01
1
10
100
1000
2000 2004
Tera
flo
ps
1996
Performance
Gap
Peak Performance
Real Performance
NERSC User Group Meeting June 24-25 2004
Osni Marques and Tony Drummond
Lawrence Berkeley National Laboratory
スケーラブルシステムズ株式会社
ペタスケールシステムの構築
bull ソフトウエア(アプリケーションOSプログラミングAPIなど)の課題の克服が課題
bull システムの複雑さと生産性
例Linpack Benchmark
bull オリジナルベンチマークプログラム ~100ライン
bull HPL ベンチマークプログラム ~10000ライン(x100より複雑)
lsquo複雑さrsquoの壁
現在のテラFLOPS級の問題
Source ORNL
スケーラブルシステムズ株式会社
HPCシステムの動向商用製品
Going DOWN
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
ハードウエアはrsquoCommodityrsquo
なものを利用してSWの改善サポート利用技術のサポートが今後の主要マーケットでの成功の鍵となる
スケーラブルシステムズ株式会社
標準コンポーネントの進化
bull プロセッサの性能向上ndash lsquoマルチコアrsquoによる省電力での性能向上が可能
ndash HPCアプリケーションは容易にlsquoマルチコアrsquoの利点を活用可能 (OpenMPやMPI)
bull ファイルシステムndash高性能なスケーラブルファイルシステム(オープンソース)
bull インターコネクトndash PCI-Express (メモリlarrrarrインターコネクト)
ndash高速の商用製品やオープンソースでの強力(OpenIBなど)
スケーラブルシステムズ株式会社
標準コンポーネントの利点
bull 特定のベンダーからのシステムを組み合わせるのではなく他社のシステムも含めてベストなシステムの選択が可能
ndashスケーラブルSMPベクトル計算機クラスタの幅広い選択肢
ndash 64ビットマルチコアマイクロプロセッサの性能向上を最大限に活用
bull 標準コンポーネントの技術革新の活用
ndash PCI-ExpressやFB-DIMMの利用技術
スケーラブルシステムズ株式会社
Breaking the 1-2K nodes Barrier
bull 音の障壁サウンドバリヤー(sound barrier)飛行機の速度が音速近くになると衝撃波の発生によって抵抗の増大境界層の剥離など設計運用上のさまざまな障害(壁)に出合って超音速飛行は不可能かと思われた時代があった(1947年ごろまで)ので音の障壁といわれていた
httpwwwwilk4commiscsoundbreakhtm
クラスタのノード数がある規模に近くなるとその構築や運用において負担の増大システムの安定稼動スケーラビリティなど設計運用上のさまざまな障害(壁)に出合ってクラスタ構築は不可能と思われた時代があった()
スケーラブルシステムズ株式会社
ビルゲイツ氏の基調講演HPC goes mainstream
スケーラブルシステムズ株式会社
「Fast」「Good」「Cheap」のパズル
Fast
+ Cheap
Inferior
高い性能を廉価なシステムで構築することも可能ですただそのようなシステムの場合システムの構築や利用は必ずしも容易ではありません
Good
+ Cheap
Slow比較的小規模なシステムであれば廉価で使い勝手の良いものを探すことは可能ですしかしそのようなシステムでは拡張性やより大規模なシステム構築が出来ません
Good
+ Fast
Expensive
付加価値の高い性能の高いシステムは一般には高価ですその付加価値がユーザにとってメリットが無ければコストパフォーマンスの悪いシステムになるだけです
スケーラブルシステムズ株式会社
まとめとして
bull 「テクノロジー」をどのようにとらえるかndash企業経営基盤のコア要素
ndashユーザの本質的な課題を解決する戦略的な武器
bull マーケットを牽引する「テクノロジ」に求められることndashテクノロジとHPCにおけるITインフラの関係を明確にすること
bull ユーザに何らかのメリットをもたらさない「テクノロジー」は意味を成さない
ndashテクノロジーを最適に組み合わせることで問題解決のためのソリューションの提供が可能
スケーラブルシステムズ株式会社
まとめとして
bull bdquoTs‟ for HPC - インテルテクノロジのHPCにおける価値
ndash インテルテクノロジはHPCにおいて重要な構成要素となっている
ndashそれらの構成要素を統合することでより高い価値の提供が可能となる
ndash二分化しつつあるHPCシステムにおいて「標準コ
ンポーネント」としてのプラットフォームの動向として今後もその動向には注目する必要がある
スケーラブルシステムズ株式会社
さらに詳しい情報はhellip
bull 弊社のコンサルテーションに関するご提案資料もダウンロード可能です(非公開WEBページ)別途弊社に内容等についてはお尋ねください
お問い合わせ先102-0083
東京都千代田区麹町3-5-2
BUREX麹町 8F
電話03-5875-4718
FAX03-3237-7612
E-mailbizsstccojp
httpwwwsstccojp wwwsstccojpbiz
スケーラブルシステムズ株式会社
スケーラブルシステムズ株式会社
ハイエンドコンピューティングに関するコンサルテーションとして幅広いサービスをご提供致します
このサービスを最大限に活用していただくことでコラボレーションによる「顧客志向」 のコン
サルテーションサービスをご提供できればと思っております
スケーラブルシステムズ株式会社
社名製品名などは一般に各社の商標または登録商標です無断での引用転載を禁じます
In general the name of the company and the product name etc are the trademarks or registered trademarks of each company
Copyright Scalable Systems Co Ltd 2005 Unauthorized use is strictly forbidden
2005年11月
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash過去12年間でPentiumプロセッサの動作周波数は60 MHz から 3800 MHz にまでアップ
ndash現在までの高性能化の約80 はクロック周波数の向上によるもの
bull 命令実行の強化と最適化
ndashより強力なインストラクションセット
ndash命令実行の最適化(パイプライン化分岐予測複数命令の同時実行命令実行順序の変更など)
スケーラブルシステムズ株式会社
技術のSカーブ技術開発の進展と製品性能の成長の関係
bull 技術開発の初期は製品性能はゆっくりと向上するがしだいに性能の向上の幅が大きくなるしかし次第に技術開発が成熟段階に入ると性能向上は逓減していく
製品の性能
時間
First Technology
Second Technology
Third Technology
RISCアウトオブオーダー実行lt1 instruction cycle
スーパースカラー RISCアウトオブオーダー実行lt2 instructions cycle
明示的並列命令コンピューティング技術 (EPIC)
命令の並列実行度の向上
スケーラブルシステムズ株式会社
マイクロアーキテクチャのSカーブ
Johan De Gelas Quest for More Processing Power
AnandTech Feb 8 2005
httpwwwanandtechcomcpuchipsetsshowdocaspxi=2343
101
102
103
104
105
106
MIP
S
1980 1985 1990 1995 2000 2005 2010
Pentium Architecture
Super Scalar
Pentium Pro Architecture
Speculative Out-of-Order
Pentium 4 Architecture
Trace Cache
Pentium 4 and Xeon Architecture with HT
Multi-Threaded
Multi-Threaded Multi-Core
Era of
Instruction
Parallelism
Era of
Thread
Parallelism
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash 過去12年間でPentiumプロセッサの動作周波数は60
MHz から 3800 MHz にまでアップ
ndash 現在までの高性能化の約80 はクロック周波数の向上によるもの
bull 命令実行の強化と最適化
ndash より強力なインストラクションセット
ndash 命令実行の最適化(パイプライン化分岐予測複数命令の同時実行命令実行順序の変更など)
bull 大容量キャッシュ
ndash プロセッサの速度とメモリレイテンシ(待ち時間)とバンド幅のギャップの拡大に対する対策対応としての容量の拡張
スケーラブルシステムズ株式会社
性能ギャップの問題
bull プロセッサ速度とメモリアクセスの速度差によってプロセッサがより高速になったとしてもプロセッサはその演算能力を完全に使い切ることが出来ない
1
10
100
1000Performance
1980 1990 2000
microProc
60yr
DRAM
7yr
バンド幅とレイテンシの問題が今後はより深刻(プロセッサ性能とのギャップはほぼ年率50の差で広がっている)
DRAM
CPU
プロセッサはほぼナノ秒に一回命令実行DRAMへのアクセスはほぼ100ナノ秒の時間
スケーラブルシステムズ株式会社
今後の発展と課題
Episode IV
A New Hope
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash 過去12年間でPentiumプロセッサの動作周波数は60
MHz から 3800 MHz にまでアップ
ndash 現在までの高性能化の約80 はクロック周波数の向上によるもの
bull 命令実行の強化と最適化
ndash より強力なインストラクションセット
ndash 命令実行の最適化(パイプライン化分岐予測複数命令の同時実行命令実行順序の変更など)
bull 大容量キャッシュ
ndash プロセッサの速度とメモリレイテンシ(待ち時間)とバンド幅のギャップの拡大に対する対策対応としての容量の拡張
スケーラブルシステムズ株式会社
デュアルコアプロセッサ
bull チップ上のトランジスタのより有効活用が可能bull スレッドレベルでの並列処理を活用bull よりシンプルなプロセッサの設計が可能
bull 将来のマイクロプロセッサはより多くのコアを実装可能bull 将来のマイクロプロセッサはより大容量のキャッシュの実装が可能
IBM Power5
with 19MB L2
AMD Opteron
with 2MB L2
Intel Montecito
With 24MB L3
スケーラブルシステムズ株式会社
イノベーションのジレンマ
製品の性能
時間
First Technology
Second Technology
Third Technology
RISCアウトオブオーダー実行lt1 instruction cycle
スーパースカラー RISCアウトオブオーダー実行lt2 instructions cycle
明示的並列命令コンピューティング技術 (EPIC)
命令の並列実行度の向上
製品の性能(異なる尺度)
時間
持続的イノベーション
技術革新が顧客の求める性能向上軸(ムーアの法則)に沿っている
破壊的イノベーションマルチコアとマルチスレッドによる並列処理
短期的には(シングルスレッドの性能)としては性能が低下するが将来の大きな性能向上とコスト低下機能強化の可能性が大きい
スケーラブルシステムズ株式会社
マルチコアの利点
ワークロードの処理効率の向上
bull マルチスレッドアプリケーションndash現在多くのアプリケーション(データベース
WEB科学技術計算)はマルチスレッド化
ndashマルチコアプロセッサではこれらのアプリケーションのマルチスレッドでの実行が容易に可能
bull 複数ジョブの処理ndashシステムでは複数のワークロード同時に処理することが必要
ndashマルチコアではこれらのワークロードへの処理が可能
スケーラブルシステムズ株式会社
マルチコアの利点
消費電力あたりの性能を最大にし高性能で低消費電力のシステム構築が可能
bull OS自身のマルチスレッド対応
ndash OSのサービスもマルチスレッドで処理することでより効率よく処理することが可能
bull 仮想化
ndashサーバのセキュリティや管理の強化
ndash管理するノード数を減らし運用コストの削減を図る
bull 最新のソフトウエアテクノロジの活用
スケーラブルシステムズ株式会社
大きな変革しかし容易ではない
マルチコアプロセッシング(または汎用もしくは専用プロセッサをソケットに複数搭載可能なこと)はEthernetの誕生以来ITインフラに対しての大きなインパクトをもたらします
デュアルプロセッサは386プロセッサの発表以来性能に関して最大の向上を実現しますしかしこのような性能向上にはソフトウエアの最適化がプロセッサの性能をフルに発揮するためには必要です
スケーラブルシステムズ株式会社
並列性(Parallelism)の利用
マルチタスク処理
MPIなどによる複数のノード間での並列処理
ユーザ及びコンパイラによるスレッドレベルでの並列処理(TLP)
コンパイラによる命列実行レベルでの並列処理(ILP)
マルチコア
マルチプロセッサ
マルチノード
マルチインストラクション
システム
スケーラブルシステムズ株式会社
ムーアの法則(GHz から MC へ)
マルチコアによる性能向上
動作周波数の向上による性能向上
性能
2005
bullマルチスレッドbullマルチタスクbull トレーニングbullツールbullhelliphellip
並列処理による性能向上についてはシステムサポートやプログラミングサポートなどの面での技術支援が重要です
スケーラブルシステムズ株式会社
Episode VI
Return of the Jedi
Ts for HPC - インテルテクノロジのHPCにおける価値の考察
スケーラブルシステムズ株式会社
将来予測の難しさ
bull ldquoI think there is a world market for maybe five
computersrdquobull Thomas Watson chairman of IBM 1943
bull ldquoThere is no reason for any individual to have a
computer in their homerdquobull Ken Olson president and founder of digital equipment
corporation 1977
bull ldquoThere are only about 100 potential customers
worldwide for a Cray-1rdquobull Seymour Cray 1977
bull ldquo640K [of memory] ought to be enough for
anybodyrdquobull Bill Gates chairman of Microsoft1981
スケーラブルシステムズ株式会社
「未来を予測する最良の方法はそれを創造してしまうことである」The best way to predict future is to invent it
Dr Alan Kay President of Viewpoints Research
Institute Inc
スケーラブルシステムズ株式会社
ITマネージメントの課題
bull プラットフォームの内部からの保護ndash ウイルスやワームなど悪意あるソフトウェアからの保護
bull 資産管理ndash 多くの IT 部門では特定できない資産が問題
bull オンラインおよびリモート管理診断機能 ndash アップグレード診断復旧のための作業の効率化
bull アプリケーション統合の困難さ
ndash アプリケーションの高度化と複雑化によって複数のアプリケーションを組み合わせるての動作に問題
bull 動的なリソース割り当て
ndash 組織内で未使用のCPUやメモリの活用
スケーラブルシステムズ株式会社
マーケットトレンド
All Servers Worldwide 2003 2004 2005 20062003 to 2006
CAGR
2005 to 2006
CAGR
Total Factory Revenue($B) $46149 $49146 $51268 $52251 42 19
Units Shipped(same as nodes) 5278222 6307484 7050099 7472649 123 60
Processor Dies Shipped 8662823 10134624 11712766 12779159 138 91
HPC Technical Servers Worldwide 2003 2004 2005 20062003 to 2006
CAGR
2005 to 2006
CAGR
HPC Server Revenue($B) $5698 $7393 $9208 $10030 207 89
Adjusted Revenues(To much
enterprise)$5128 $6654 $8287 $9027 207 89
Node Units Shipped 411327 734510 1215735 1419221 511 167
Processor Elements Shipped 1002905 1657827 2681079 3351843 495 250
HPC As A Ratio Of All Servers 2003 2004 2005 2006
Revenue($B) 123 150 180 192
Adjusted Revenues(Apples-to-
apples)111 135 162 173
Units Shipped(Nodes) 78 116 172 190
Processors Shipped 116 164 226 261
Source IDC 2007
スケーラブルシステムズ株式会社
HPCマーケット(対全サーバマーケット)
0
5
10
15
20
25
30
2003 2004 2005 2006
Revenue($B)
Adjusted Revenues(Apples-to-apples)
Units Shipped(Nodes)
Processors Shipped
スケーラブルシステムズ株式会社
マーケットトレンド
Source IDC 2004
Cost of mgmt amp admin 10 CAGR
$0
$20
$40
$60
$80
$100
$120
$140
$160
$180
$200
1996 rsquo97 rsquo98 rsquo992000 rsquo01 rsquo02 rsquo03 rsquo04 rsquo05 rsquo06 rsquo07 rsquo08-
New server spending (USM$) 3 CAGR
Spending (USB$)
5
10
15
20
25
30
35
Installed Base (M Units)
bull ハードウェアの減価償却費は IT の TCO 全体の約25 にすぎない
bull ソフトウェアのコストはわずか10~15
bull 電気などの公共料金フロアスペース電話回線など設備面のコストの割合もきわめて小さい
bull プラットフォームのコストではなくTCOの大きな比率を占めるのは人件費となっている
スケーラブルシステムズ株式会社
運用管理コストの低減
bull 「もっと処理性能を」と「より安価に」を実現するためにワークステーションやサーバでの分散処理の導入
bull ユーザや企業に新たな価値をもたらしてはいるが管理責任とその負担の分散を招き結果的に運用管理コストを押し上げる
メインフレームスーパーコンピュータ
仮想化によるサーバコンソリデーション
クラスタによる仮想コンピュータ
スケーラブルシステムズ株式会社
次世代HPCインフラ
bull コアとスレッド
ndash より多くのスレッドを効率よく利用可能
ndash マルチスレッド向け最適化
bull 電力管理
ndash 省電力
ndash データセンター運用管理機能
bull 仮想化
ndash 柔軟性と優れた運用管理
ndash 仮想的なシステムパーティション
bull RAS
ndash ハードウエアベースの自己監視自己管理
ndash ファームウエアベースのエラー履歴管理
bull システム管理
ndash より低いTCOを実現するための一般標準化されたマネージメント機能
スケーラブルシステムズ株式会社
高速プロセッサ
64ビットアドレス
メモリ性能と容
量
IOバンド幅
インターコネクト
省電力
システムのlsquoバランスrsquo
マルチコアによってプロセッサ単体の処理性能の向上を図る
64ビットのアドレス空間と
拡張されたレジスタによるOSとアプリケーション双方の機能性能拡張
64ビット化とマルチコア化
にともなう高速大容量へのニーズに対応しまたその拡張性の高い実装技術の実現
CPU-メモリ間の高速な
データ転送やより高速なネットワーク大規模なストレージのサポート
大規模なクラスタシステムの構築及びアプリケーションのワークロードに対応した高速性能
エコシステムに対応するためにも電力消費量や発熱量を積極的に抑える技術の開発
スケーラブルシステムズ株式会社
HPCの二極分化
Going UP
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
Going DOWN
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
スケーラブルシステムズ株式会社
システムとユーザの尺度
bull ユーザの尺度での性能(Performance)は時間当たりにどれだけの仕事を処理出来るか(仕事量 時間)
bull Flopsでの評価は実際には意味がないまた問題の規模(small medium large) という評価も難しい
bull ldquoスケーラビリティrdquoは対象を明確に規定する必要がある
システムの尺度 ユーザの尺度
Flops hArr 計算終了までの時間
メモリサイズ(GB) hArr モデルのサイズと計算結果
プロセッサ数 hArr ワークロードでの試行
データ長 hArr 計算精度
システム構成(クラスタ) hArr 導入コストと運用コスト
スケーラビリティ hArr ベンチマーク
スケーラブルシステムズ株式会社
HPCシステムの動向国家プロジェクトと商用製品のギャップの拡大
Going UP
Going DOWN
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
Peta-Scaleコンピューティングに求められる基本技術と現在のHPCの主要マーケットでの要求はあまりにも差が大きいrarrHPCSシステムは各社とのlsquoCommodityrsquoのマイクロプロセッサではなく独自のプロセッサを開発中
ハードウエアはrsquoCommodityrsquo
なものを利用してSWの改善サポート利用技術のサポートが今後の主要マーケットでの成功の鍵となる
スケーラブルシステムズ株式会社
HPCシステムの動向国家プロジェクト
Going UP
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
Peta-Scaleコンピューティングに求められる基本技術と現在のHPCの主要マーケットでの要求はあまりにも差が大きいrarrHPCSシステムは各社とのlsquoCommodityrsquoのマイクロプロセッサではなく独自のプロセッサを開発中
スケーラブルシステムズ株式会社
TOP500性能予測
1993 1995 1997 1999 2001 2003 2005 2007 2009 2011 2013 2015
N=
50
SUM
1 Gflops
1 Tflops
100 Mflops
100 Gflops
100 Tflops
10 Gflops
10 Tflops
1 Pflops
10 Pflops
IBM ASCI White
Blue GeneEarth Simulator
Intel
TOP500の総計が1PFを超えています
TOP500に掲載されるには1TF
が最低条件になっています
シングルシステムの1PFの実現は2009年
システム(プロセッサ数) 13倍年プロセッサ性能向上 14倍年トータル性能 18倍年
2009年までに1ペタFLOPS
スケーラブルシステムズ株式会社
性能ギャップの拡大
bull ピーク性能の大幅な向上ndash 1990年台は性能の向上は102のオーダーでしたが2000年台になると103のオーダーで性能は向上しています
しかしhellipndash 多くの科学技術計算用途のアプリケーションのピーク性能に対する実効性能の比率は5-10となっています(1990年代のベクトル計算機は40-50の対ピーク性能を示していました)
bull 今必要なのはndash より高い実効性能を発揮することが可能な計算アルゴリズムと手法の開発とスケーラビリティの向上
ndash プログラミングモデルなども含めてスケーラブルな計算機環境の構築
01
1
10
100
1000
2000 2004
Tera
flo
ps
1996
Performance
Gap
Peak Performance
Real Performance
NERSC User Group Meeting June 24-25 2004
Osni Marques and Tony Drummond
Lawrence Berkeley National Laboratory
スケーラブルシステムズ株式会社
ペタスケールシステムの構築
bull ソフトウエア(アプリケーションOSプログラミングAPIなど)の課題の克服が課題
bull システムの複雑さと生産性
例Linpack Benchmark
bull オリジナルベンチマークプログラム ~100ライン
bull HPL ベンチマークプログラム ~10000ライン(x100より複雑)
lsquo複雑さrsquoの壁
現在のテラFLOPS級の問題
Source ORNL
スケーラブルシステムズ株式会社
HPCシステムの動向商用製品
Going DOWN
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
ハードウエアはrsquoCommodityrsquo
なものを利用してSWの改善サポート利用技術のサポートが今後の主要マーケットでの成功の鍵となる
スケーラブルシステムズ株式会社
標準コンポーネントの進化
bull プロセッサの性能向上ndash lsquoマルチコアrsquoによる省電力での性能向上が可能
ndash HPCアプリケーションは容易にlsquoマルチコアrsquoの利点を活用可能 (OpenMPやMPI)
bull ファイルシステムndash高性能なスケーラブルファイルシステム(オープンソース)
bull インターコネクトndash PCI-Express (メモリlarrrarrインターコネクト)
ndash高速の商用製品やオープンソースでの強力(OpenIBなど)
スケーラブルシステムズ株式会社
標準コンポーネントの利点
bull 特定のベンダーからのシステムを組み合わせるのではなく他社のシステムも含めてベストなシステムの選択が可能
ndashスケーラブルSMPベクトル計算機クラスタの幅広い選択肢
ndash 64ビットマルチコアマイクロプロセッサの性能向上を最大限に活用
bull 標準コンポーネントの技術革新の活用
ndash PCI-ExpressやFB-DIMMの利用技術
スケーラブルシステムズ株式会社
Breaking the 1-2K nodes Barrier
bull 音の障壁サウンドバリヤー(sound barrier)飛行機の速度が音速近くになると衝撃波の発生によって抵抗の増大境界層の剥離など設計運用上のさまざまな障害(壁)に出合って超音速飛行は不可能かと思われた時代があった(1947年ごろまで)ので音の障壁といわれていた
httpwwwwilk4commiscsoundbreakhtm
クラスタのノード数がある規模に近くなるとその構築や運用において負担の増大システムの安定稼動スケーラビリティなど設計運用上のさまざまな障害(壁)に出合ってクラスタ構築は不可能と思われた時代があった()
スケーラブルシステムズ株式会社
ビルゲイツ氏の基調講演HPC goes mainstream
スケーラブルシステムズ株式会社
「Fast」「Good」「Cheap」のパズル
Fast
+ Cheap
Inferior
高い性能を廉価なシステムで構築することも可能ですただそのようなシステムの場合システムの構築や利用は必ずしも容易ではありません
Good
+ Cheap
Slow比較的小規模なシステムであれば廉価で使い勝手の良いものを探すことは可能ですしかしそのようなシステムでは拡張性やより大規模なシステム構築が出来ません
Good
+ Fast
Expensive
付加価値の高い性能の高いシステムは一般には高価ですその付加価値がユーザにとってメリットが無ければコストパフォーマンスの悪いシステムになるだけです
スケーラブルシステムズ株式会社
まとめとして
bull 「テクノロジー」をどのようにとらえるかndash企業経営基盤のコア要素
ndashユーザの本質的な課題を解決する戦略的な武器
bull マーケットを牽引する「テクノロジ」に求められることndashテクノロジとHPCにおけるITインフラの関係を明確にすること
bull ユーザに何らかのメリットをもたらさない「テクノロジー」は意味を成さない
ndashテクノロジーを最適に組み合わせることで問題解決のためのソリューションの提供が可能
スケーラブルシステムズ株式会社
まとめとして
bull bdquoTs‟ for HPC - インテルテクノロジのHPCにおける価値
ndash インテルテクノロジはHPCにおいて重要な構成要素となっている
ndashそれらの構成要素を統合することでより高い価値の提供が可能となる
ndash二分化しつつあるHPCシステムにおいて「標準コ
ンポーネント」としてのプラットフォームの動向として今後もその動向には注目する必要がある
スケーラブルシステムズ株式会社
さらに詳しい情報はhellip
bull 弊社のコンサルテーションに関するご提案資料もダウンロード可能です(非公開WEBページ)別途弊社に内容等についてはお尋ねください
お問い合わせ先102-0083
東京都千代田区麹町3-5-2
BUREX麹町 8F
電話03-5875-4718
FAX03-3237-7612
E-mailbizsstccojp
httpwwwsstccojp wwwsstccojpbiz
スケーラブルシステムズ株式会社
スケーラブルシステムズ株式会社
ハイエンドコンピューティングに関するコンサルテーションとして幅広いサービスをご提供致します
このサービスを最大限に活用していただくことでコラボレーションによる「顧客志向」 のコン
サルテーションサービスをご提供できればと思っております
スケーラブルシステムズ株式会社
社名製品名などは一般に各社の商標または登録商標です無断での引用転載を禁じます
In general the name of the company and the product name etc are the trademarks or registered trademarks of each company
Copyright Scalable Systems Co Ltd 2005 Unauthorized use is strictly forbidden
2005年11月
スケーラブルシステムズ株式会社
技術のSカーブ技術開発の進展と製品性能の成長の関係
bull 技術開発の初期は製品性能はゆっくりと向上するがしだいに性能の向上の幅が大きくなるしかし次第に技術開発が成熟段階に入ると性能向上は逓減していく
製品の性能
時間
First Technology
Second Technology
Third Technology
RISCアウトオブオーダー実行lt1 instruction cycle
スーパースカラー RISCアウトオブオーダー実行lt2 instructions cycle
明示的並列命令コンピューティング技術 (EPIC)
命令の並列実行度の向上
スケーラブルシステムズ株式会社
マイクロアーキテクチャのSカーブ
Johan De Gelas Quest for More Processing Power
AnandTech Feb 8 2005
httpwwwanandtechcomcpuchipsetsshowdocaspxi=2343
101
102
103
104
105
106
MIP
S
1980 1985 1990 1995 2000 2005 2010
Pentium Architecture
Super Scalar
Pentium Pro Architecture
Speculative Out-of-Order
Pentium 4 Architecture
Trace Cache
Pentium 4 and Xeon Architecture with HT
Multi-Threaded
Multi-Threaded Multi-Core
Era of
Instruction
Parallelism
Era of
Thread
Parallelism
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash 過去12年間でPentiumプロセッサの動作周波数は60
MHz から 3800 MHz にまでアップ
ndash 現在までの高性能化の約80 はクロック周波数の向上によるもの
bull 命令実行の強化と最適化
ndash より強力なインストラクションセット
ndash 命令実行の最適化(パイプライン化分岐予測複数命令の同時実行命令実行順序の変更など)
bull 大容量キャッシュ
ndash プロセッサの速度とメモリレイテンシ(待ち時間)とバンド幅のギャップの拡大に対する対策対応としての容量の拡張
スケーラブルシステムズ株式会社
性能ギャップの問題
bull プロセッサ速度とメモリアクセスの速度差によってプロセッサがより高速になったとしてもプロセッサはその演算能力を完全に使い切ることが出来ない
1
10
100
1000Performance
1980 1990 2000
microProc
60yr
DRAM
7yr
バンド幅とレイテンシの問題が今後はより深刻(プロセッサ性能とのギャップはほぼ年率50の差で広がっている)
DRAM
CPU
プロセッサはほぼナノ秒に一回命令実行DRAMへのアクセスはほぼ100ナノ秒の時間
スケーラブルシステムズ株式会社
今後の発展と課題
Episode IV
A New Hope
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash 過去12年間でPentiumプロセッサの動作周波数は60
MHz から 3800 MHz にまでアップ
ndash 現在までの高性能化の約80 はクロック周波数の向上によるもの
bull 命令実行の強化と最適化
ndash より強力なインストラクションセット
ndash 命令実行の最適化(パイプライン化分岐予測複数命令の同時実行命令実行順序の変更など)
bull 大容量キャッシュ
ndash プロセッサの速度とメモリレイテンシ(待ち時間)とバンド幅のギャップの拡大に対する対策対応としての容量の拡張
スケーラブルシステムズ株式会社
デュアルコアプロセッサ
bull チップ上のトランジスタのより有効活用が可能bull スレッドレベルでの並列処理を活用bull よりシンプルなプロセッサの設計が可能
bull 将来のマイクロプロセッサはより多くのコアを実装可能bull 将来のマイクロプロセッサはより大容量のキャッシュの実装が可能
IBM Power5
with 19MB L2
AMD Opteron
with 2MB L2
Intel Montecito
With 24MB L3
スケーラブルシステムズ株式会社
イノベーションのジレンマ
製品の性能
時間
First Technology
Second Technology
Third Technology
RISCアウトオブオーダー実行lt1 instruction cycle
スーパースカラー RISCアウトオブオーダー実行lt2 instructions cycle
明示的並列命令コンピューティング技術 (EPIC)
命令の並列実行度の向上
製品の性能(異なる尺度)
時間
持続的イノベーション
技術革新が顧客の求める性能向上軸(ムーアの法則)に沿っている
破壊的イノベーションマルチコアとマルチスレッドによる並列処理
短期的には(シングルスレッドの性能)としては性能が低下するが将来の大きな性能向上とコスト低下機能強化の可能性が大きい
スケーラブルシステムズ株式会社
マルチコアの利点
ワークロードの処理効率の向上
bull マルチスレッドアプリケーションndash現在多くのアプリケーション(データベース
WEB科学技術計算)はマルチスレッド化
ndashマルチコアプロセッサではこれらのアプリケーションのマルチスレッドでの実行が容易に可能
bull 複数ジョブの処理ndashシステムでは複数のワークロード同時に処理することが必要
ndashマルチコアではこれらのワークロードへの処理が可能
スケーラブルシステムズ株式会社
マルチコアの利点
消費電力あたりの性能を最大にし高性能で低消費電力のシステム構築が可能
bull OS自身のマルチスレッド対応
ndash OSのサービスもマルチスレッドで処理することでより効率よく処理することが可能
bull 仮想化
ndashサーバのセキュリティや管理の強化
ndash管理するノード数を減らし運用コストの削減を図る
bull 最新のソフトウエアテクノロジの活用
スケーラブルシステムズ株式会社
大きな変革しかし容易ではない
マルチコアプロセッシング(または汎用もしくは専用プロセッサをソケットに複数搭載可能なこと)はEthernetの誕生以来ITインフラに対しての大きなインパクトをもたらします
デュアルプロセッサは386プロセッサの発表以来性能に関して最大の向上を実現しますしかしこのような性能向上にはソフトウエアの最適化がプロセッサの性能をフルに発揮するためには必要です
スケーラブルシステムズ株式会社
並列性(Parallelism)の利用
マルチタスク処理
MPIなどによる複数のノード間での並列処理
ユーザ及びコンパイラによるスレッドレベルでの並列処理(TLP)
コンパイラによる命列実行レベルでの並列処理(ILP)
マルチコア
マルチプロセッサ
マルチノード
マルチインストラクション
システム
スケーラブルシステムズ株式会社
ムーアの法則(GHz から MC へ)
マルチコアによる性能向上
動作周波数の向上による性能向上
性能
2005
bullマルチスレッドbullマルチタスクbull トレーニングbullツールbullhelliphellip
並列処理による性能向上についてはシステムサポートやプログラミングサポートなどの面での技術支援が重要です
スケーラブルシステムズ株式会社
Episode VI
Return of the Jedi
Ts for HPC - インテルテクノロジのHPCにおける価値の考察
スケーラブルシステムズ株式会社
将来予測の難しさ
bull ldquoI think there is a world market for maybe five
computersrdquobull Thomas Watson chairman of IBM 1943
bull ldquoThere is no reason for any individual to have a
computer in their homerdquobull Ken Olson president and founder of digital equipment
corporation 1977
bull ldquoThere are only about 100 potential customers
worldwide for a Cray-1rdquobull Seymour Cray 1977
bull ldquo640K [of memory] ought to be enough for
anybodyrdquobull Bill Gates chairman of Microsoft1981
スケーラブルシステムズ株式会社
「未来を予測する最良の方法はそれを創造してしまうことである」The best way to predict future is to invent it
Dr Alan Kay President of Viewpoints Research
Institute Inc
スケーラブルシステムズ株式会社
ITマネージメントの課題
bull プラットフォームの内部からの保護ndash ウイルスやワームなど悪意あるソフトウェアからの保護
bull 資産管理ndash 多くの IT 部門では特定できない資産が問題
bull オンラインおよびリモート管理診断機能 ndash アップグレード診断復旧のための作業の効率化
bull アプリケーション統合の困難さ
ndash アプリケーションの高度化と複雑化によって複数のアプリケーションを組み合わせるての動作に問題
bull 動的なリソース割り当て
ndash 組織内で未使用のCPUやメモリの活用
スケーラブルシステムズ株式会社
マーケットトレンド
All Servers Worldwide 2003 2004 2005 20062003 to 2006
CAGR
2005 to 2006
CAGR
Total Factory Revenue($B) $46149 $49146 $51268 $52251 42 19
Units Shipped(same as nodes) 5278222 6307484 7050099 7472649 123 60
Processor Dies Shipped 8662823 10134624 11712766 12779159 138 91
HPC Technical Servers Worldwide 2003 2004 2005 20062003 to 2006
CAGR
2005 to 2006
CAGR
HPC Server Revenue($B) $5698 $7393 $9208 $10030 207 89
Adjusted Revenues(To much
enterprise)$5128 $6654 $8287 $9027 207 89
Node Units Shipped 411327 734510 1215735 1419221 511 167
Processor Elements Shipped 1002905 1657827 2681079 3351843 495 250
HPC As A Ratio Of All Servers 2003 2004 2005 2006
Revenue($B) 123 150 180 192
Adjusted Revenues(Apples-to-
apples)111 135 162 173
Units Shipped(Nodes) 78 116 172 190
Processors Shipped 116 164 226 261
Source IDC 2007
スケーラブルシステムズ株式会社
HPCマーケット(対全サーバマーケット)
0
5
10
15
20
25
30
2003 2004 2005 2006
Revenue($B)
Adjusted Revenues(Apples-to-apples)
Units Shipped(Nodes)
Processors Shipped
スケーラブルシステムズ株式会社
マーケットトレンド
Source IDC 2004
Cost of mgmt amp admin 10 CAGR
$0
$20
$40
$60
$80
$100
$120
$140
$160
$180
$200
1996 rsquo97 rsquo98 rsquo992000 rsquo01 rsquo02 rsquo03 rsquo04 rsquo05 rsquo06 rsquo07 rsquo08-
New server spending (USM$) 3 CAGR
Spending (USB$)
5
10
15
20
25
30
35
Installed Base (M Units)
bull ハードウェアの減価償却費は IT の TCO 全体の約25 にすぎない
bull ソフトウェアのコストはわずか10~15
bull 電気などの公共料金フロアスペース電話回線など設備面のコストの割合もきわめて小さい
bull プラットフォームのコストではなくTCOの大きな比率を占めるのは人件費となっている
スケーラブルシステムズ株式会社
運用管理コストの低減
bull 「もっと処理性能を」と「より安価に」を実現するためにワークステーションやサーバでの分散処理の導入
bull ユーザや企業に新たな価値をもたらしてはいるが管理責任とその負担の分散を招き結果的に運用管理コストを押し上げる
メインフレームスーパーコンピュータ
仮想化によるサーバコンソリデーション
クラスタによる仮想コンピュータ
スケーラブルシステムズ株式会社
次世代HPCインフラ
bull コアとスレッド
ndash より多くのスレッドを効率よく利用可能
ndash マルチスレッド向け最適化
bull 電力管理
ndash 省電力
ndash データセンター運用管理機能
bull 仮想化
ndash 柔軟性と優れた運用管理
ndash 仮想的なシステムパーティション
bull RAS
ndash ハードウエアベースの自己監視自己管理
ndash ファームウエアベースのエラー履歴管理
bull システム管理
ndash より低いTCOを実現するための一般標準化されたマネージメント機能
スケーラブルシステムズ株式会社
高速プロセッサ
64ビットアドレス
メモリ性能と容
量
IOバンド幅
インターコネクト
省電力
システムのlsquoバランスrsquo
マルチコアによってプロセッサ単体の処理性能の向上を図る
64ビットのアドレス空間と
拡張されたレジスタによるOSとアプリケーション双方の機能性能拡張
64ビット化とマルチコア化
にともなう高速大容量へのニーズに対応しまたその拡張性の高い実装技術の実現
CPU-メモリ間の高速な
データ転送やより高速なネットワーク大規模なストレージのサポート
大規模なクラスタシステムの構築及びアプリケーションのワークロードに対応した高速性能
エコシステムに対応するためにも電力消費量や発熱量を積極的に抑える技術の開発
スケーラブルシステムズ株式会社
HPCの二極分化
Going UP
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
Going DOWN
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
スケーラブルシステムズ株式会社
システムとユーザの尺度
bull ユーザの尺度での性能(Performance)は時間当たりにどれだけの仕事を処理出来るか(仕事量 時間)
bull Flopsでの評価は実際には意味がないまた問題の規模(small medium large) という評価も難しい
bull ldquoスケーラビリティrdquoは対象を明確に規定する必要がある
システムの尺度 ユーザの尺度
Flops hArr 計算終了までの時間
メモリサイズ(GB) hArr モデルのサイズと計算結果
プロセッサ数 hArr ワークロードでの試行
データ長 hArr 計算精度
システム構成(クラスタ) hArr 導入コストと運用コスト
スケーラビリティ hArr ベンチマーク
スケーラブルシステムズ株式会社
HPCシステムの動向国家プロジェクトと商用製品のギャップの拡大
Going UP
Going DOWN
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
Peta-Scaleコンピューティングに求められる基本技術と現在のHPCの主要マーケットでの要求はあまりにも差が大きいrarrHPCSシステムは各社とのlsquoCommodityrsquoのマイクロプロセッサではなく独自のプロセッサを開発中
ハードウエアはrsquoCommodityrsquo
なものを利用してSWの改善サポート利用技術のサポートが今後の主要マーケットでの成功の鍵となる
スケーラブルシステムズ株式会社
HPCシステムの動向国家プロジェクト
Going UP
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
Peta-Scaleコンピューティングに求められる基本技術と現在のHPCの主要マーケットでの要求はあまりにも差が大きいrarrHPCSシステムは各社とのlsquoCommodityrsquoのマイクロプロセッサではなく独自のプロセッサを開発中
スケーラブルシステムズ株式会社
TOP500性能予測
1993 1995 1997 1999 2001 2003 2005 2007 2009 2011 2013 2015
N=
50
SUM
1 Gflops
1 Tflops
100 Mflops
100 Gflops
100 Tflops
10 Gflops
10 Tflops
1 Pflops
10 Pflops
IBM ASCI White
Blue GeneEarth Simulator
Intel
TOP500の総計が1PFを超えています
TOP500に掲載されるには1TF
が最低条件になっています
シングルシステムの1PFの実現は2009年
システム(プロセッサ数) 13倍年プロセッサ性能向上 14倍年トータル性能 18倍年
2009年までに1ペタFLOPS
スケーラブルシステムズ株式会社
性能ギャップの拡大
bull ピーク性能の大幅な向上ndash 1990年台は性能の向上は102のオーダーでしたが2000年台になると103のオーダーで性能は向上しています
しかしhellipndash 多くの科学技術計算用途のアプリケーションのピーク性能に対する実効性能の比率は5-10となっています(1990年代のベクトル計算機は40-50の対ピーク性能を示していました)
bull 今必要なのはndash より高い実効性能を発揮することが可能な計算アルゴリズムと手法の開発とスケーラビリティの向上
ndash プログラミングモデルなども含めてスケーラブルな計算機環境の構築
01
1
10
100
1000
2000 2004
Tera
flo
ps
1996
Performance
Gap
Peak Performance
Real Performance
NERSC User Group Meeting June 24-25 2004
Osni Marques and Tony Drummond
Lawrence Berkeley National Laboratory
スケーラブルシステムズ株式会社
ペタスケールシステムの構築
bull ソフトウエア(アプリケーションOSプログラミングAPIなど)の課題の克服が課題
bull システムの複雑さと生産性
例Linpack Benchmark
bull オリジナルベンチマークプログラム ~100ライン
bull HPL ベンチマークプログラム ~10000ライン(x100より複雑)
lsquo複雑さrsquoの壁
現在のテラFLOPS級の問題
Source ORNL
スケーラブルシステムズ株式会社
HPCシステムの動向商用製品
Going DOWN
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
ハードウエアはrsquoCommodityrsquo
なものを利用してSWの改善サポート利用技術のサポートが今後の主要マーケットでの成功の鍵となる
スケーラブルシステムズ株式会社
標準コンポーネントの進化
bull プロセッサの性能向上ndash lsquoマルチコアrsquoによる省電力での性能向上が可能
ndash HPCアプリケーションは容易にlsquoマルチコアrsquoの利点を活用可能 (OpenMPやMPI)
bull ファイルシステムndash高性能なスケーラブルファイルシステム(オープンソース)
bull インターコネクトndash PCI-Express (メモリlarrrarrインターコネクト)
ndash高速の商用製品やオープンソースでの強力(OpenIBなど)
スケーラブルシステムズ株式会社
標準コンポーネントの利点
bull 特定のベンダーからのシステムを組み合わせるのではなく他社のシステムも含めてベストなシステムの選択が可能
ndashスケーラブルSMPベクトル計算機クラスタの幅広い選択肢
ndash 64ビットマルチコアマイクロプロセッサの性能向上を最大限に活用
bull 標準コンポーネントの技術革新の活用
ndash PCI-ExpressやFB-DIMMの利用技術
スケーラブルシステムズ株式会社
Breaking the 1-2K nodes Barrier
bull 音の障壁サウンドバリヤー(sound barrier)飛行機の速度が音速近くになると衝撃波の発生によって抵抗の増大境界層の剥離など設計運用上のさまざまな障害(壁)に出合って超音速飛行は不可能かと思われた時代があった(1947年ごろまで)ので音の障壁といわれていた
httpwwwwilk4commiscsoundbreakhtm
クラスタのノード数がある規模に近くなるとその構築や運用において負担の増大システムの安定稼動スケーラビリティなど設計運用上のさまざまな障害(壁)に出合ってクラスタ構築は不可能と思われた時代があった()
スケーラブルシステムズ株式会社
ビルゲイツ氏の基調講演HPC goes mainstream
スケーラブルシステムズ株式会社
「Fast」「Good」「Cheap」のパズル
Fast
+ Cheap
Inferior
高い性能を廉価なシステムで構築することも可能ですただそのようなシステムの場合システムの構築や利用は必ずしも容易ではありません
Good
+ Cheap
Slow比較的小規模なシステムであれば廉価で使い勝手の良いものを探すことは可能ですしかしそのようなシステムでは拡張性やより大規模なシステム構築が出来ません
Good
+ Fast
Expensive
付加価値の高い性能の高いシステムは一般には高価ですその付加価値がユーザにとってメリットが無ければコストパフォーマンスの悪いシステムになるだけです
スケーラブルシステムズ株式会社
まとめとして
bull 「テクノロジー」をどのようにとらえるかndash企業経営基盤のコア要素
ndashユーザの本質的な課題を解決する戦略的な武器
bull マーケットを牽引する「テクノロジ」に求められることndashテクノロジとHPCにおけるITインフラの関係を明確にすること
bull ユーザに何らかのメリットをもたらさない「テクノロジー」は意味を成さない
ndashテクノロジーを最適に組み合わせることで問題解決のためのソリューションの提供が可能
スケーラブルシステムズ株式会社
まとめとして
bull bdquoTs‟ for HPC - インテルテクノロジのHPCにおける価値
ndash インテルテクノロジはHPCにおいて重要な構成要素となっている
ndashそれらの構成要素を統合することでより高い価値の提供が可能となる
ndash二分化しつつあるHPCシステムにおいて「標準コ
ンポーネント」としてのプラットフォームの動向として今後もその動向には注目する必要がある
スケーラブルシステムズ株式会社
さらに詳しい情報はhellip
bull 弊社のコンサルテーションに関するご提案資料もダウンロード可能です(非公開WEBページ)別途弊社に内容等についてはお尋ねください
お問い合わせ先102-0083
東京都千代田区麹町3-5-2
BUREX麹町 8F
電話03-5875-4718
FAX03-3237-7612
E-mailbizsstccojp
httpwwwsstccojp wwwsstccojpbiz
スケーラブルシステムズ株式会社
スケーラブルシステムズ株式会社
ハイエンドコンピューティングに関するコンサルテーションとして幅広いサービスをご提供致します
このサービスを最大限に活用していただくことでコラボレーションによる「顧客志向」 のコン
サルテーションサービスをご提供できればと思っております
スケーラブルシステムズ株式会社
社名製品名などは一般に各社の商標または登録商標です無断での引用転載を禁じます
In general the name of the company and the product name etc are the trademarks or registered trademarks of each company
Copyright Scalable Systems Co Ltd 2005 Unauthorized use is strictly forbidden
2005年11月
スケーラブルシステムズ株式会社
マイクロアーキテクチャのSカーブ
Johan De Gelas Quest for More Processing Power
AnandTech Feb 8 2005
httpwwwanandtechcomcpuchipsetsshowdocaspxi=2343
101
102
103
104
105
106
MIP
S
1980 1985 1990 1995 2000 2005 2010
Pentium Architecture
Super Scalar
Pentium Pro Architecture
Speculative Out-of-Order
Pentium 4 Architecture
Trace Cache
Pentium 4 and Xeon Architecture with HT
Multi-Threaded
Multi-Threaded Multi-Core
Era of
Instruction
Parallelism
Era of
Thread
Parallelism
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash 過去12年間でPentiumプロセッサの動作周波数は60
MHz から 3800 MHz にまでアップ
ndash 現在までの高性能化の約80 はクロック周波数の向上によるもの
bull 命令実行の強化と最適化
ndash より強力なインストラクションセット
ndash 命令実行の最適化(パイプライン化分岐予測複数命令の同時実行命令実行順序の変更など)
bull 大容量キャッシュ
ndash プロセッサの速度とメモリレイテンシ(待ち時間)とバンド幅のギャップの拡大に対する対策対応としての容量の拡張
スケーラブルシステムズ株式会社
性能ギャップの問題
bull プロセッサ速度とメモリアクセスの速度差によってプロセッサがより高速になったとしてもプロセッサはその演算能力を完全に使い切ることが出来ない
1
10
100
1000Performance
1980 1990 2000
microProc
60yr
DRAM
7yr
バンド幅とレイテンシの問題が今後はより深刻(プロセッサ性能とのギャップはほぼ年率50の差で広がっている)
DRAM
CPU
プロセッサはほぼナノ秒に一回命令実行DRAMへのアクセスはほぼ100ナノ秒の時間
スケーラブルシステムズ株式会社
今後の発展と課題
Episode IV
A New Hope
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash 過去12年間でPentiumプロセッサの動作周波数は60
MHz から 3800 MHz にまでアップ
ndash 現在までの高性能化の約80 はクロック周波数の向上によるもの
bull 命令実行の強化と最適化
ndash より強力なインストラクションセット
ndash 命令実行の最適化(パイプライン化分岐予測複数命令の同時実行命令実行順序の変更など)
bull 大容量キャッシュ
ndash プロセッサの速度とメモリレイテンシ(待ち時間)とバンド幅のギャップの拡大に対する対策対応としての容量の拡張
スケーラブルシステムズ株式会社
デュアルコアプロセッサ
bull チップ上のトランジスタのより有効活用が可能bull スレッドレベルでの並列処理を活用bull よりシンプルなプロセッサの設計が可能
bull 将来のマイクロプロセッサはより多くのコアを実装可能bull 将来のマイクロプロセッサはより大容量のキャッシュの実装が可能
IBM Power5
with 19MB L2
AMD Opteron
with 2MB L2
Intel Montecito
With 24MB L3
スケーラブルシステムズ株式会社
イノベーションのジレンマ
製品の性能
時間
First Technology
Second Technology
Third Technology
RISCアウトオブオーダー実行lt1 instruction cycle
スーパースカラー RISCアウトオブオーダー実行lt2 instructions cycle
明示的並列命令コンピューティング技術 (EPIC)
命令の並列実行度の向上
製品の性能(異なる尺度)
時間
持続的イノベーション
技術革新が顧客の求める性能向上軸(ムーアの法則)に沿っている
破壊的イノベーションマルチコアとマルチスレッドによる並列処理
短期的には(シングルスレッドの性能)としては性能が低下するが将来の大きな性能向上とコスト低下機能強化の可能性が大きい
スケーラブルシステムズ株式会社
マルチコアの利点
ワークロードの処理効率の向上
bull マルチスレッドアプリケーションndash現在多くのアプリケーション(データベース
WEB科学技術計算)はマルチスレッド化
ndashマルチコアプロセッサではこれらのアプリケーションのマルチスレッドでの実行が容易に可能
bull 複数ジョブの処理ndashシステムでは複数のワークロード同時に処理することが必要
ndashマルチコアではこれらのワークロードへの処理が可能
スケーラブルシステムズ株式会社
マルチコアの利点
消費電力あたりの性能を最大にし高性能で低消費電力のシステム構築が可能
bull OS自身のマルチスレッド対応
ndash OSのサービスもマルチスレッドで処理することでより効率よく処理することが可能
bull 仮想化
ndashサーバのセキュリティや管理の強化
ndash管理するノード数を減らし運用コストの削減を図る
bull 最新のソフトウエアテクノロジの活用
スケーラブルシステムズ株式会社
大きな変革しかし容易ではない
マルチコアプロセッシング(または汎用もしくは専用プロセッサをソケットに複数搭載可能なこと)はEthernetの誕生以来ITインフラに対しての大きなインパクトをもたらします
デュアルプロセッサは386プロセッサの発表以来性能に関して最大の向上を実現しますしかしこのような性能向上にはソフトウエアの最適化がプロセッサの性能をフルに発揮するためには必要です
スケーラブルシステムズ株式会社
並列性(Parallelism)の利用
マルチタスク処理
MPIなどによる複数のノード間での並列処理
ユーザ及びコンパイラによるスレッドレベルでの並列処理(TLP)
コンパイラによる命列実行レベルでの並列処理(ILP)
マルチコア
マルチプロセッサ
マルチノード
マルチインストラクション
システム
スケーラブルシステムズ株式会社
ムーアの法則(GHz から MC へ)
マルチコアによる性能向上
動作周波数の向上による性能向上
性能
2005
bullマルチスレッドbullマルチタスクbull トレーニングbullツールbullhelliphellip
並列処理による性能向上についてはシステムサポートやプログラミングサポートなどの面での技術支援が重要です
スケーラブルシステムズ株式会社
Episode VI
Return of the Jedi
Ts for HPC - インテルテクノロジのHPCにおける価値の考察
スケーラブルシステムズ株式会社
将来予測の難しさ
bull ldquoI think there is a world market for maybe five
computersrdquobull Thomas Watson chairman of IBM 1943
bull ldquoThere is no reason for any individual to have a
computer in their homerdquobull Ken Olson president and founder of digital equipment
corporation 1977
bull ldquoThere are only about 100 potential customers
worldwide for a Cray-1rdquobull Seymour Cray 1977
bull ldquo640K [of memory] ought to be enough for
anybodyrdquobull Bill Gates chairman of Microsoft1981
スケーラブルシステムズ株式会社
「未来を予測する最良の方法はそれを創造してしまうことである」The best way to predict future is to invent it
Dr Alan Kay President of Viewpoints Research
Institute Inc
スケーラブルシステムズ株式会社
ITマネージメントの課題
bull プラットフォームの内部からの保護ndash ウイルスやワームなど悪意あるソフトウェアからの保護
bull 資産管理ndash 多くの IT 部門では特定できない資産が問題
bull オンラインおよびリモート管理診断機能 ndash アップグレード診断復旧のための作業の効率化
bull アプリケーション統合の困難さ
ndash アプリケーションの高度化と複雑化によって複数のアプリケーションを組み合わせるての動作に問題
bull 動的なリソース割り当て
ndash 組織内で未使用のCPUやメモリの活用
スケーラブルシステムズ株式会社
マーケットトレンド
All Servers Worldwide 2003 2004 2005 20062003 to 2006
CAGR
2005 to 2006
CAGR
Total Factory Revenue($B) $46149 $49146 $51268 $52251 42 19
Units Shipped(same as nodes) 5278222 6307484 7050099 7472649 123 60
Processor Dies Shipped 8662823 10134624 11712766 12779159 138 91
HPC Technical Servers Worldwide 2003 2004 2005 20062003 to 2006
CAGR
2005 to 2006
CAGR
HPC Server Revenue($B) $5698 $7393 $9208 $10030 207 89
Adjusted Revenues(To much
enterprise)$5128 $6654 $8287 $9027 207 89
Node Units Shipped 411327 734510 1215735 1419221 511 167
Processor Elements Shipped 1002905 1657827 2681079 3351843 495 250
HPC As A Ratio Of All Servers 2003 2004 2005 2006
Revenue($B) 123 150 180 192
Adjusted Revenues(Apples-to-
apples)111 135 162 173
Units Shipped(Nodes) 78 116 172 190
Processors Shipped 116 164 226 261
Source IDC 2007
スケーラブルシステムズ株式会社
HPCマーケット(対全サーバマーケット)
0
5
10
15
20
25
30
2003 2004 2005 2006
Revenue($B)
Adjusted Revenues(Apples-to-apples)
Units Shipped(Nodes)
Processors Shipped
スケーラブルシステムズ株式会社
マーケットトレンド
Source IDC 2004
Cost of mgmt amp admin 10 CAGR
$0
$20
$40
$60
$80
$100
$120
$140
$160
$180
$200
1996 rsquo97 rsquo98 rsquo992000 rsquo01 rsquo02 rsquo03 rsquo04 rsquo05 rsquo06 rsquo07 rsquo08-
New server spending (USM$) 3 CAGR
Spending (USB$)
5
10
15
20
25
30
35
Installed Base (M Units)
bull ハードウェアの減価償却費は IT の TCO 全体の約25 にすぎない
bull ソフトウェアのコストはわずか10~15
bull 電気などの公共料金フロアスペース電話回線など設備面のコストの割合もきわめて小さい
bull プラットフォームのコストではなくTCOの大きな比率を占めるのは人件費となっている
スケーラブルシステムズ株式会社
運用管理コストの低減
bull 「もっと処理性能を」と「より安価に」を実現するためにワークステーションやサーバでの分散処理の導入
bull ユーザや企業に新たな価値をもたらしてはいるが管理責任とその負担の分散を招き結果的に運用管理コストを押し上げる
メインフレームスーパーコンピュータ
仮想化によるサーバコンソリデーション
クラスタによる仮想コンピュータ
スケーラブルシステムズ株式会社
次世代HPCインフラ
bull コアとスレッド
ndash より多くのスレッドを効率よく利用可能
ndash マルチスレッド向け最適化
bull 電力管理
ndash 省電力
ndash データセンター運用管理機能
bull 仮想化
ndash 柔軟性と優れた運用管理
ndash 仮想的なシステムパーティション
bull RAS
ndash ハードウエアベースの自己監視自己管理
ndash ファームウエアベースのエラー履歴管理
bull システム管理
ndash より低いTCOを実現するための一般標準化されたマネージメント機能
スケーラブルシステムズ株式会社
高速プロセッサ
64ビットアドレス
メモリ性能と容
量
IOバンド幅
インターコネクト
省電力
システムのlsquoバランスrsquo
マルチコアによってプロセッサ単体の処理性能の向上を図る
64ビットのアドレス空間と
拡張されたレジスタによるOSとアプリケーション双方の機能性能拡張
64ビット化とマルチコア化
にともなう高速大容量へのニーズに対応しまたその拡張性の高い実装技術の実現
CPU-メモリ間の高速な
データ転送やより高速なネットワーク大規模なストレージのサポート
大規模なクラスタシステムの構築及びアプリケーションのワークロードに対応した高速性能
エコシステムに対応するためにも電力消費量や発熱量を積極的に抑える技術の開発
スケーラブルシステムズ株式会社
HPCの二極分化
Going UP
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
Going DOWN
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
スケーラブルシステムズ株式会社
システムとユーザの尺度
bull ユーザの尺度での性能(Performance)は時間当たりにどれだけの仕事を処理出来るか(仕事量 時間)
bull Flopsでの評価は実際には意味がないまた問題の規模(small medium large) という評価も難しい
bull ldquoスケーラビリティrdquoは対象を明確に規定する必要がある
システムの尺度 ユーザの尺度
Flops hArr 計算終了までの時間
メモリサイズ(GB) hArr モデルのサイズと計算結果
プロセッサ数 hArr ワークロードでの試行
データ長 hArr 計算精度
システム構成(クラスタ) hArr 導入コストと運用コスト
スケーラビリティ hArr ベンチマーク
スケーラブルシステムズ株式会社
HPCシステムの動向国家プロジェクトと商用製品のギャップの拡大
Going UP
Going DOWN
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
Peta-Scaleコンピューティングに求められる基本技術と現在のHPCの主要マーケットでの要求はあまりにも差が大きいrarrHPCSシステムは各社とのlsquoCommodityrsquoのマイクロプロセッサではなく独自のプロセッサを開発中
ハードウエアはrsquoCommodityrsquo
なものを利用してSWの改善サポート利用技術のサポートが今後の主要マーケットでの成功の鍵となる
スケーラブルシステムズ株式会社
HPCシステムの動向国家プロジェクト
Going UP
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
Peta-Scaleコンピューティングに求められる基本技術と現在のHPCの主要マーケットでの要求はあまりにも差が大きいrarrHPCSシステムは各社とのlsquoCommodityrsquoのマイクロプロセッサではなく独自のプロセッサを開発中
スケーラブルシステムズ株式会社
TOP500性能予測
1993 1995 1997 1999 2001 2003 2005 2007 2009 2011 2013 2015
N=
50
SUM
1 Gflops
1 Tflops
100 Mflops
100 Gflops
100 Tflops
10 Gflops
10 Tflops
1 Pflops
10 Pflops
IBM ASCI White
Blue GeneEarth Simulator
Intel
TOP500の総計が1PFを超えています
TOP500に掲載されるには1TF
が最低条件になっています
シングルシステムの1PFの実現は2009年
システム(プロセッサ数) 13倍年プロセッサ性能向上 14倍年トータル性能 18倍年
2009年までに1ペタFLOPS
スケーラブルシステムズ株式会社
性能ギャップの拡大
bull ピーク性能の大幅な向上ndash 1990年台は性能の向上は102のオーダーでしたが2000年台になると103のオーダーで性能は向上しています
しかしhellipndash 多くの科学技術計算用途のアプリケーションのピーク性能に対する実効性能の比率は5-10となっています(1990年代のベクトル計算機は40-50の対ピーク性能を示していました)
bull 今必要なのはndash より高い実効性能を発揮することが可能な計算アルゴリズムと手法の開発とスケーラビリティの向上
ndash プログラミングモデルなども含めてスケーラブルな計算機環境の構築
01
1
10
100
1000
2000 2004
Tera
flo
ps
1996
Performance
Gap
Peak Performance
Real Performance
NERSC User Group Meeting June 24-25 2004
Osni Marques and Tony Drummond
Lawrence Berkeley National Laboratory
スケーラブルシステムズ株式会社
ペタスケールシステムの構築
bull ソフトウエア(アプリケーションOSプログラミングAPIなど)の課題の克服が課題
bull システムの複雑さと生産性
例Linpack Benchmark
bull オリジナルベンチマークプログラム ~100ライン
bull HPL ベンチマークプログラム ~10000ライン(x100より複雑)
lsquo複雑さrsquoの壁
現在のテラFLOPS級の問題
Source ORNL
スケーラブルシステムズ株式会社
HPCシステムの動向商用製品
Going DOWN
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
ハードウエアはrsquoCommodityrsquo
なものを利用してSWの改善サポート利用技術のサポートが今後の主要マーケットでの成功の鍵となる
スケーラブルシステムズ株式会社
標準コンポーネントの進化
bull プロセッサの性能向上ndash lsquoマルチコアrsquoによる省電力での性能向上が可能
ndash HPCアプリケーションは容易にlsquoマルチコアrsquoの利点を活用可能 (OpenMPやMPI)
bull ファイルシステムndash高性能なスケーラブルファイルシステム(オープンソース)
bull インターコネクトndash PCI-Express (メモリlarrrarrインターコネクト)
ndash高速の商用製品やオープンソースでの強力(OpenIBなど)
スケーラブルシステムズ株式会社
標準コンポーネントの利点
bull 特定のベンダーからのシステムを組み合わせるのではなく他社のシステムも含めてベストなシステムの選択が可能
ndashスケーラブルSMPベクトル計算機クラスタの幅広い選択肢
ndash 64ビットマルチコアマイクロプロセッサの性能向上を最大限に活用
bull 標準コンポーネントの技術革新の活用
ndash PCI-ExpressやFB-DIMMの利用技術
スケーラブルシステムズ株式会社
Breaking the 1-2K nodes Barrier
bull 音の障壁サウンドバリヤー(sound barrier)飛行機の速度が音速近くになると衝撃波の発生によって抵抗の増大境界層の剥離など設計運用上のさまざまな障害(壁)に出合って超音速飛行は不可能かと思われた時代があった(1947年ごろまで)ので音の障壁といわれていた
httpwwwwilk4commiscsoundbreakhtm
クラスタのノード数がある規模に近くなるとその構築や運用において負担の増大システムの安定稼動スケーラビリティなど設計運用上のさまざまな障害(壁)に出合ってクラスタ構築は不可能と思われた時代があった()
スケーラブルシステムズ株式会社
ビルゲイツ氏の基調講演HPC goes mainstream
スケーラブルシステムズ株式会社
「Fast」「Good」「Cheap」のパズル
Fast
+ Cheap
Inferior
高い性能を廉価なシステムで構築することも可能ですただそのようなシステムの場合システムの構築や利用は必ずしも容易ではありません
Good
+ Cheap
Slow比較的小規模なシステムであれば廉価で使い勝手の良いものを探すことは可能ですしかしそのようなシステムでは拡張性やより大規模なシステム構築が出来ません
Good
+ Fast
Expensive
付加価値の高い性能の高いシステムは一般には高価ですその付加価値がユーザにとってメリットが無ければコストパフォーマンスの悪いシステムになるだけです
スケーラブルシステムズ株式会社
まとめとして
bull 「テクノロジー」をどのようにとらえるかndash企業経営基盤のコア要素
ndashユーザの本質的な課題を解決する戦略的な武器
bull マーケットを牽引する「テクノロジ」に求められることndashテクノロジとHPCにおけるITインフラの関係を明確にすること
bull ユーザに何らかのメリットをもたらさない「テクノロジー」は意味を成さない
ndashテクノロジーを最適に組み合わせることで問題解決のためのソリューションの提供が可能
スケーラブルシステムズ株式会社
まとめとして
bull bdquoTs‟ for HPC - インテルテクノロジのHPCにおける価値
ndash インテルテクノロジはHPCにおいて重要な構成要素となっている
ndashそれらの構成要素を統合することでより高い価値の提供が可能となる
ndash二分化しつつあるHPCシステムにおいて「標準コ
ンポーネント」としてのプラットフォームの動向として今後もその動向には注目する必要がある
スケーラブルシステムズ株式会社
さらに詳しい情報はhellip
bull 弊社のコンサルテーションに関するご提案資料もダウンロード可能です(非公開WEBページ)別途弊社に内容等についてはお尋ねください
お問い合わせ先102-0083
東京都千代田区麹町3-5-2
BUREX麹町 8F
電話03-5875-4718
FAX03-3237-7612
E-mailbizsstccojp
httpwwwsstccojp wwwsstccojpbiz
スケーラブルシステムズ株式会社
スケーラブルシステムズ株式会社
ハイエンドコンピューティングに関するコンサルテーションとして幅広いサービスをご提供致します
このサービスを最大限に活用していただくことでコラボレーションによる「顧客志向」 のコン
サルテーションサービスをご提供できればと思っております
スケーラブルシステムズ株式会社
社名製品名などは一般に各社の商標または登録商標です無断での引用転載を禁じます
In general the name of the company and the product name etc are the trademarks or registered trademarks of each company
Copyright Scalable Systems Co Ltd 2005 Unauthorized use is strictly forbidden
2005年11月
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash 過去12年間でPentiumプロセッサの動作周波数は60
MHz から 3800 MHz にまでアップ
ndash 現在までの高性能化の約80 はクロック周波数の向上によるもの
bull 命令実行の強化と最適化
ndash より強力なインストラクションセット
ndash 命令実行の最適化(パイプライン化分岐予測複数命令の同時実行命令実行順序の変更など)
bull 大容量キャッシュ
ndash プロセッサの速度とメモリレイテンシ(待ち時間)とバンド幅のギャップの拡大に対する対策対応としての容量の拡張
スケーラブルシステムズ株式会社
性能ギャップの問題
bull プロセッサ速度とメモリアクセスの速度差によってプロセッサがより高速になったとしてもプロセッサはその演算能力を完全に使い切ることが出来ない
1
10
100
1000Performance
1980 1990 2000
microProc
60yr
DRAM
7yr
バンド幅とレイテンシの問題が今後はより深刻(プロセッサ性能とのギャップはほぼ年率50の差で広がっている)
DRAM
CPU
プロセッサはほぼナノ秒に一回命令実行DRAMへのアクセスはほぼ100ナノ秒の時間
スケーラブルシステムズ株式会社
今後の発展と課題
Episode IV
A New Hope
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash 過去12年間でPentiumプロセッサの動作周波数は60
MHz から 3800 MHz にまでアップ
ndash 現在までの高性能化の約80 はクロック周波数の向上によるもの
bull 命令実行の強化と最適化
ndash より強力なインストラクションセット
ndash 命令実行の最適化(パイプライン化分岐予測複数命令の同時実行命令実行順序の変更など)
bull 大容量キャッシュ
ndash プロセッサの速度とメモリレイテンシ(待ち時間)とバンド幅のギャップの拡大に対する対策対応としての容量の拡張
スケーラブルシステムズ株式会社
デュアルコアプロセッサ
bull チップ上のトランジスタのより有効活用が可能bull スレッドレベルでの並列処理を活用bull よりシンプルなプロセッサの設計が可能
bull 将来のマイクロプロセッサはより多くのコアを実装可能bull 将来のマイクロプロセッサはより大容量のキャッシュの実装が可能
IBM Power5
with 19MB L2
AMD Opteron
with 2MB L2
Intel Montecito
With 24MB L3
スケーラブルシステムズ株式会社
イノベーションのジレンマ
製品の性能
時間
First Technology
Second Technology
Third Technology
RISCアウトオブオーダー実行lt1 instruction cycle
スーパースカラー RISCアウトオブオーダー実行lt2 instructions cycle
明示的並列命令コンピューティング技術 (EPIC)
命令の並列実行度の向上
製品の性能(異なる尺度)
時間
持続的イノベーション
技術革新が顧客の求める性能向上軸(ムーアの法則)に沿っている
破壊的イノベーションマルチコアとマルチスレッドによる並列処理
短期的には(シングルスレッドの性能)としては性能が低下するが将来の大きな性能向上とコスト低下機能強化の可能性が大きい
スケーラブルシステムズ株式会社
マルチコアの利点
ワークロードの処理効率の向上
bull マルチスレッドアプリケーションndash現在多くのアプリケーション(データベース
WEB科学技術計算)はマルチスレッド化
ndashマルチコアプロセッサではこれらのアプリケーションのマルチスレッドでの実行が容易に可能
bull 複数ジョブの処理ndashシステムでは複数のワークロード同時に処理することが必要
ndashマルチコアではこれらのワークロードへの処理が可能
スケーラブルシステムズ株式会社
マルチコアの利点
消費電力あたりの性能を最大にし高性能で低消費電力のシステム構築が可能
bull OS自身のマルチスレッド対応
ndash OSのサービスもマルチスレッドで処理することでより効率よく処理することが可能
bull 仮想化
ndashサーバのセキュリティや管理の強化
ndash管理するノード数を減らし運用コストの削減を図る
bull 最新のソフトウエアテクノロジの活用
スケーラブルシステムズ株式会社
大きな変革しかし容易ではない
マルチコアプロセッシング(または汎用もしくは専用プロセッサをソケットに複数搭載可能なこと)はEthernetの誕生以来ITインフラに対しての大きなインパクトをもたらします
デュアルプロセッサは386プロセッサの発表以来性能に関して最大の向上を実現しますしかしこのような性能向上にはソフトウエアの最適化がプロセッサの性能をフルに発揮するためには必要です
スケーラブルシステムズ株式会社
並列性(Parallelism)の利用
マルチタスク処理
MPIなどによる複数のノード間での並列処理
ユーザ及びコンパイラによるスレッドレベルでの並列処理(TLP)
コンパイラによる命列実行レベルでの並列処理(ILP)
マルチコア
マルチプロセッサ
マルチノード
マルチインストラクション
システム
スケーラブルシステムズ株式会社
ムーアの法則(GHz から MC へ)
マルチコアによる性能向上
動作周波数の向上による性能向上
性能
2005
bullマルチスレッドbullマルチタスクbull トレーニングbullツールbullhelliphellip
並列処理による性能向上についてはシステムサポートやプログラミングサポートなどの面での技術支援が重要です
スケーラブルシステムズ株式会社
Episode VI
Return of the Jedi
Ts for HPC - インテルテクノロジのHPCにおける価値の考察
スケーラブルシステムズ株式会社
将来予測の難しさ
bull ldquoI think there is a world market for maybe five
computersrdquobull Thomas Watson chairman of IBM 1943
bull ldquoThere is no reason for any individual to have a
computer in their homerdquobull Ken Olson president and founder of digital equipment
corporation 1977
bull ldquoThere are only about 100 potential customers
worldwide for a Cray-1rdquobull Seymour Cray 1977
bull ldquo640K [of memory] ought to be enough for
anybodyrdquobull Bill Gates chairman of Microsoft1981
スケーラブルシステムズ株式会社
「未来を予測する最良の方法はそれを創造してしまうことである」The best way to predict future is to invent it
Dr Alan Kay President of Viewpoints Research
Institute Inc
スケーラブルシステムズ株式会社
ITマネージメントの課題
bull プラットフォームの内部からの保護ndash ウイルスやワームなど悪意あるソフトウェアからの保護
bull 資産管理ndash 多くの IT 部門では特定できない資産が問題
bull オンラインおよびリモート管理診断機能 ndash アップグレード診断復旧のための作業の効率化
bull アプリケーション統合の困難さ
ndash アプリケーションの高度化と複雑化によって複数のアプリケーションを組み合わせるての動作に問題
bull 動的なリソース割り当て
ndash 組織内で未使用のCPUやメモリの活用
スケーラブルシステムズ株式会社
マーケットトレンド
All Servers Worldwide 2003 2004 2005 20062003 to 2006
CAGR
2005 to 2006
CAGR
Total Factory Revenue($B) $46149 $49146 $51268 $52251 42 19
Units Shipped(same as nodes) 5278222 6307484 7050099 7472649 123 60
Processor Dies Shipped 8662823 10134624 11712766 12779159 138 91
HPC Technical Servers Worldwide 2003 2004 2005 20062003 to 2006
CAGR
2005 to 2006
CAGR
HPC Server Revenue($B) $5698 $7393 $9208 $10030 207 89
Adjusted Revenues(To much
enterprise)$5128 $6654 $8287 $9027 207 89
Node Units Shipped 411327 734510 1215735 1419221 511 167
Processor Elements Shipped 1002905 1657827 2681079 3351843 495 250
HPC As A Ratio Of All Servers 2003 2004 2005 2006
Revenue($B) 123 150 180 192
Adjusted Revenues(Apples-to-
apples)111 135 162 173
Units Shipped(Nodes) 78 116 172 190
Processors Shipped 116 164 226 261
Source IDC 2007
スケーラブルシステムズ株式会社
HPCマーケット(対全サーバマーケット)
0
5
10
15
20
25
30
2003 2004 2005 2006
Revenue($B)
Adjusted Revenues(Apples-to-apples)
Units Shipped(Nodes)
Processors Shipped
スケーラブルシステムズ株式会社
マーケットトレンド
Source IDC 2004
Cost of mgmt amp admin 10 CAGR
$0
$20
$40
$60
$80
$100
$120
$140
$160
$180
$200
1996 rsquo97 rsquo98 rsquo992000 rsquo01 rsquo02 rsquo03 rsquo04 rsquo05 rsquo06 rsquo07 rsquo08-
New server spending (USM$) 3 CAGR
Spending (USB$)
5
10
15
20
25
30
35
Installed Base (M Units)
bull ハードウェアの減価償却費は IT の TCO 全体の約25 にすぎない
bull ソフトウェアのコストはわずか10~15
bull 電気などの公共料金フロアスペース電話回線など設備面のコストの割合もきわめて小さい
bull プラットフォームのコストではなくTCOの大きな比率を占めるのは人件費となっている
スケーラブルシステムズ株式会社
運用管理コストの低減
bull 「もっと処理性能を」と「より安価に」を実現するためにワークステーションやサーバでの分散処理の導入
bull ユーザや企業に新たな価値をもたらしてはいるが管理責任とその負担の分散を招き結果的に運用管理コストを押し上げる
メインフレームスーパーコンピュータ
仮想化によるサーバコンソリデーション
クラスタによる仮想コンピュータ
スケーラブルシステムズ株式会社
次世代HPCインフラ
bull コアとスレッド
ndash より多くのスレッドを効率よく利用可能
ndash マルチスレッド向け最適化
bull 電力管理
ndash 省電力
ndash データセンター運用管理機能
bull 仮想化
ndash 柔軟性と優れた運用管理
ndash 仮想的なシステムパーティション
bull RAS
ndash ハードウエアベースの自己監視自己管理
ndash ファームウエアベースのエラー履歴管理
bull システム管理
ndash より低いTCOを実現するための一般標準化されたマネージメント機能
スケーラブルシステムズ株式会社
高速プロセッサ
64ビットアドレス
メモリ性能と容
量
IOバンド幅
インターコネクト
省電力
システムのlsquoバランスrsquo
マルチコアによってプロセッサ単体の処理性能の向上を図る
64ビットのアドレス空間と
拡張されたレジスタによるOSとアプリケーション双方の機能性能拡張
64ビット化とマルチコア化
にともなう高速大容量へのニーズに対応しまたその拡張性の高い実装技術の実現
CPU-メモリ間の高速な
データ転送やより高速なネットワーク大規模なストレージのサポート
大規模なクラスタシステムの構築及びアプリケーションのワークロードに対応した高速性能
エコシステムに対応するためにも電力消費量や発熱量を積極的に抑える技術の開発
スケーラブルシステムズ株式会社
HPCの二極分化
Going UP
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
Going DOWN
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
スケーラブルシステムズ株式会社
システムとユーザの尺度
bull ユーザの尺度での性能(Performance)は時間当たりにどれだけの仕事を処理出来るか(仕事量 時間)
bull Flopsでの評価は実際には意味がないまた問題の規模(small medium large) という評価も難しい
bull ldquoスケーラビリティrdquoは対象を明確に規定する必要がある
システムの尺度 ユーザの尺度
Flops hArr 計算終了までの時間
メモリサイズ(GB) hArr モデルのサイズと計算結果
プロセッサ数 hArr ワークロードでの試行
データ長 hArr 計算精度
システム構成(クラスタ) hArr 導入コストと運用コスト
スケーラビリティ hArr ベンチマーク
スケーラブルシステムズ株式会社
HPCシステムの動向国家プロジェクトと商用製品のギャップの拡大
Going UP
Going DOWN
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
Peta-Scaleコンピューティングに求められる基本技術と現在のHPCの主要マーケットでの要求はあまりにも差が大きいrarrHPCSシステムは各社とのlsquoCommodityrsquoのマイクロプロセッサではなく独自のプロセッサを開発中
ハードウエアはrsquoCommodityrsquo
なものを利用してSWの改善サポート利用技術のサポートが今後の主要マーケットでの成功の鍵となる
スケーラブルシステムズ株式会社
HPCシステムの動向国家プロジェクト
Going UP
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
Peta-Scaleコンピューティングに求められる基本技術と現在のHPCの主要マーケットでの要求はあまりにも差が大きいrarrHPCSシステムは各社とのlsquoCommodityrsquoのマイクロプロセッサではなく独自のプロセッサを開発中
スケーラブルシステムズ株式会社
TOP500性能予測
1993 1995 1997 1999 2001 2003 2005 2007 2009 2011 2013 2015
N=
50
SUM
1 Gflops
1 Tflops
100 Mflops
100 Gflops
100 Tflops
10 Gflops
10 Tflops
1 Pflops
10 Pflops
IBM ASCI White
Blue GeneEarth Simulator
Intel
TOP500の総計が1PFを超えています
TOP500に掲載されるには1TF
が最低条件になっています
シングルシステムの1PFの実現は2009年
システム(プロセッサ数) 13倍年プロセッサ性能向上 14倍年トータル性能 18倍年
2009年までに1ペタFLOPS
スケーラブルシステムズ株式会社
性能ギャップの拡大
bull ピーク性能の大幅な向上ndash 1990年台は性能の向上は102のオーダーでしたが2000年台になると103のオーダーで性能は向上しています
しかしhellipndash 多くの科学技術計算用途のアプリケーションのピーク性能に対する実効性能の比率は5-10となっています(1990年代のベクトル計算機は40-50の対ピーク性能を示していました)
bull 今必要なのはndash より高い実効性能を発揮することが可能な計算アルゴリズムと手法の開発とスケーラビリティの向上
ndash プログラミングモデルなども含めてスケーラブルな計算機環境の構築
01
1
10
100
1000
2000 2004
Tera
flo
ps
1996
Performance
Gap
Peak Performance
Real Performance
NERSC User Group Meeting June 24-25 2004
Osni Marques and Tony Drummond
Lawrence Berkeley National Laboratory
スケーラブルシステムズ株式会社
ペタスケールシステムの構築
bull ソフトウエア(アプリケーションOSプログラミングAPIなど)の課題の克服が課題
bull システムの複雑さと生産性
例Linpack Benchmark
bull オリジナルベンチマークプログラム ~100ライン
bull HPL ベンチマークプログラム ~10000ライン(x100より複雑)
lsquo複雑さrsquoの壁
現在のテラFLOPS級の問題
Source ORNL
スケーラブルシステムズ株式会社
HPCシステムの動向商用製品
Going DOWN
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
ハードウエアはrsquoCommodityrsquo
なものを利用してSWの改善サポート利用技術のサポートが今後の主要マーケットでの成功の鍵となる
スケーラブルシステムズ株式会社
標準コンポーネントの進化
bull プロセッサの性能向上ndash lsquoマルチコアrsquoによる省電力での性能向上が可能
ndash HPCアプリケーションは容易にlsquoマルチコアrsquoの利点を活用可能 (OpenMPやMPI)
bull ファイルシステムndash高性能なスケーラブルファイルシステム(オープンソース)
bull インターコネクトndash PCI-Express (メモリlarrrarrインターコネクト)
ndash高速の商用製品やオープンソースでの強力(OpenIBなど)
スケーラブルシステムズ株式会社
標準コンポーネントの利点
bull 特定のベンダーからのシステムを組み合わせるのではなく他社のシステムも含めてベストなシステムの選択が可能
ndashスケーラブルSMPベクトル計算機クラスタの幅広い選択肢
ndash 64ビットマルチコアマイクロプロセッサの性能向上を最大限に活用
bull 標準コンポーネントの技術革新の活用
ndash PCI-ExpressやFB-DIMMの利用技術
スケーラブルシステムズ株式会社
Breaking the 1-2K nodes Barrier
bull 音の障壁サウンドバリヤー(sound barrier)飛行機の速度が音速近くになると衝撃波の発生によって抵抗の増大境界層の剥離など設計運用上のさまざまな障害(壁)に出合って超音速飛行は不可能かと思われた時代があった(1947年ごろまで)ので音の障壁といわれていた
httpwwwwilk4commiscsoundbreakhtm
クラスタのノード数がある規模に近くなるとその構築や運用において負担の増大システムの安定稼動スケーラビリティなど設計運用上のさまざまな障害(壁)に出合ってクラスタ構築は不可能と思われた時代があった()
スケーラブルシステムズ株式会社
ビルゲイツ氏の基調講演HPC goes mainstream
スケーラブルシステムズ株式会社
「Fast」「Good」「Cheap」のパズル
Fast
+ Cheap
Inferior
高い性能を廉価なシステムで構築することも可能ですただそのようなシステムの場合システムの構築や利用は必ずしも容易ではありません
Good
+ Cheap
Slow比較的小規模なシステムであれば廉価で使い勝手の良いものを探すことは可能ですしかしそのようなシステムでは拡張性やより大規模なシステム構築が出来ません
Good
+ Fast
Expensive
付加価値の高い性能の高いシステムは一般には高価ですその付加価値がユーザにとってメリットが無ければコストパフォーマンスの悪いシステムになるだけです
スケーラブルシステムズ株式会社
まとめとして
bull 「テクノロジー」をどのようにとらえるかndash企業経営基盤のコア要素
ndashユーザの本質的な課題を解決する戦略的な武器
bull マーケットを牽引する「テクノロジ」に求められることndashテクノロジとHPCにおけるITインフラの関係を明確にすること
bull ユーザに何らかのメリットをもたらさない「テクノロジー」は意味を成さない
ndashテクノロジーを最適に組み合わせることで問題解決のためのソリューションの提供が可能
スケーラブルシステムズ株式会社
まとめとして
bull bdquoTs‟ for HPC - インテルテクノロジのHPCにおける価値
ndash インテルテクノロジはHPCにおいて重要な構成要素となっている
ndashそれらの構成要素を統合することでより高い価値の提供が可能となる
ndash二分化しつつあるHPCシステムにおいて「標準コ
ンポーネント」としてのプラットフォームの動向として今後もその動向には注目する必要がある
スケーラブルシステムズ株式会社
さらに詳しい情報はhellip
bull 弊社のコンサルテーションに関するご提案資料もダウンロード可能です(非公開WEBページ)別途弊社に内容等についてはお尋ねください
お問い合わせ先102-0083
東京都千代田区麹町3-5-2
BUREX麹町 8F
電話03-5875-4718
FAX03-3237-7612
E-mailbizsstccojp
httpwwwsstccojp wwwsstccojpbiz
スケーラブルシステムズ株式会社
スケーラブルシステムズ株式会社
ハイエンドコンピューティングに関するコンサルテーションとして幅広いサービスをご提供致します
このサービスを最大限に活用していただくことでコラボレーションによる「顧客志向」 のコン
サルテーションサービスをご提供できればと思っております
スケーラブルシステムズ株式会社
社名製品名などは一般に各社の商標または登録商標です無断での引用転載を禁じます
In general the name of the company and the product name etc are the trademarks or registered trademarks of each company
Copyright Scalable Systems Co Ltd 2005 Unauthorized use is strictly forbidden
2005年11月
スケーラブルシステムズ株式会社
性能ギャップの問題
bull プロセッサ速度とメモリアクセスの速度差によってプロセッサがより高速になったとしてもプロセッサはその演算能力を完全に使い切ることが出来ない
1
10
100
1000Performance
1980 1990 2000
microProc
60yr
DRAM
7yr
バンド幅とレイテンシの問題が今後はより深刻(プロセッサ性能とのギャップはほぼ年率50の差で広がっている)
DRAM
CPU
プロセッサはほぼナノ秒に一回命令実行DRAMへのアクセスはほぼ100ナノ秒の時間
スケーラブルシステムズ株式会社
今後の発展と課題
Episode IV
A New Hope
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash 過去12年間でPentiumプロセッサの動作周波数は60
MHz から 3800 MHz にまでアップ
ndash 現在までの高性能化の約80 はクロック周波数の向上によるもの
bull 命令実行の強化と最適化
ndash より強力なインストラクションセット
ndash 命令実行の最適化(パイプライン化分岐予測複数命令の同時実行命令実行順序の変更など)
bull 大容量キャッシュ
ndash プロセッサの速度とメモリレイテンシ(待ち時間)とバンド幅のギャップの拡大に対する対策対応としての容量の拡張
スケーラブルシステムズ株式会社
デュアルコアプロセッサ
bull チップ上のトランジスタのより有効活用が可能bull スレッドレベルでの並列処理を活用bull よりシンプルなプロセッサの設計が可能
bull 将来のマイクロプロセッサはより多くのコアを実装可能bull 将来のマイクロプロセッサはより大容量のキャッシュの実装が可能
IBM Power5
with 19MB L2
AMD Opteron
with 2MB L2
Intel Montecito
With 24MB L3
スケーラブルシステムズ株式会社
イノベーションのジレンマ
製品の性能
時間
First Technology
Second Technology
Third Technology
RISCアウトオブオーダー実行lt1 instruction cycle
スーパースカラー RISCアウトオブオーダー実行lt2 instructions cycle
明示的並列命令コンピューティング技術 (EPIC)
命令の並列実行度の向上
製品の性能(異なる尺度)
時間
持続的イノベーション
技術革新が顧客の求める性能向上軸(ムーアの法則)に沿っている
破壊的イノベーションマルチコアとマルチスレッドによる並列処理
短期的には(シングルスレッドの性能)としては性能が低下するが将来の大きな性能向上とコスト低下機能強化の可能性が大きい
スケーラブルシステムズ株式会社
マルチコアの利点
ワークロードの処理効率の向上
bull マルチスレッドアプリケーションndash現在多くのアプリケーション(データベース
WEB科学技術計算)はマルチスレッド化
ndashマルチコアプロセッサではこれらのアプリケーションのマルチスレッドでの実行が容易に可能
bull 複数ジョブの処理ndashシステムでは複数のワークロード同時に処理することが必要
ndashマルチコアではこれらのワークロードへの処理が可能
スケーラブルシステムズ株式会社
マルチコアの利点
消費電力あたりの性能を最大にし高性能で低消費電力のシステム構築が可能
bull OS自身のマルチスレッド対応
ndash OSのサービスもマルチスレッドで処理することでより効率よく処理することが可能
bull 仮想化
ndashサーバのセキュリティや管理の強化
ndash管理するノード数を減らし運用コストの削減を図る
bull 最新のソフトウエアテクノロジの活用
スケーラブルシステムズ株式会社
大きな変革しかし容易ではない
マルチコアプロセッシング(または汎用もしくは専用プロセッサをソケットに複数搭載可能なこと)はEthernetの誕生以来ITインフラに対しての大きなインパクトをもたらします
デュアルプロセッサは386プロセッサの発表以来性能に関して最大の向上を実現しますしかしこのような性能向上にはソフトウエアの最適化がプロセッサの性能をフルに発揮するためには必要です
スケーラブルシステムズ株式会社
並列性(Parallelism)の利用
マルチタスク処理
MPIなどによる複数のノード間での並列処理
ユーザ及びコンパイラによるスレッドレベルでの並列処理(TLP)
コンパイラによる命列実行レベルでの並列処理(ILP)
マルチコア
マルチプロセッサ
マルチノード
マルチインストラクション
システム
スケーラブルシステムズ株式会社
ムーアの法則(GHz から MC へ)
マルチコアによる性能向上
動作周波数の向上による性能向上
性能
2005
bullマルチスレッドbullマルチタスクbull トレーニングbullツールbullhelliphellip
並列処理による性能向上についてはシステムサポートやプログラミングサポートなどの面での技術支援が重要です
スケーラブルシステムズ株式会社
Episode VI
Return of the Jedi
Ts for HPC - インテルテクノロジのHPCにおける価値の考察
スケーラブルシステムズ株式会社
将来予測の難しさ
bull ldquoI think there is a world market for maybe five
computersrdquobull Thomas Watson chairman of IBM 1943
bull ldquoThere is no reason for any individual to have a
computer in their homerdquobull Ken Olson president and founder of digital equipment
corporation 1977
bull ldquoThere are only about 100 potential customers
worldwide for a Cray-1rdquobull Seymour Cray 1977
bull ldquo640K [of memory] ought to be enough for
anybodyrdquobull Bill Gates chairman of Microsoft1981
スケーラブルシステムズ株式会社
「未来を予測する最良の方法はそれを創造してしまうことである」The best way to predict future is to invent it
Dr Alan Kay President of Viewpoints Research
Institute Inc
スケーラブルシステムズ株式会社
ITマネージメントの課題
bull プラットフォームの内部からの保護ndash ウイルスやワームなど悪意あるソフトウェアからの保護
bull 資産管理ndash 多くの IT 部門では特定できない資産が問題
bull オンラインおよびリモート管理診断機能 ndash アップグレード診断復旧のための作業の効率化
bull アプリケーション統合の困難さ
ndash アプリケーションの高度化と複雑化によって複数のアプリケーションを組み合わせるての動作に問題
bull 動的なリソース割り当て
ndash 組織内で未使用のCPUやメモリの活用
スケーラブルシステムズ株式会社
マーケットトレンド
All Servers Worldwide 2003 2004 2005 20062003 to 2006
CAGR
2005 to 2006
CAGR
Total Factory Revenue($B) $46149 $49146 $51268 $52251 42 19
Units Shipped(same as nodes) 5278222 6307484 7050099 7472649 123 60
Processor Dies Shipped 8662823 10134624 11712766 12779159 138 91
HPC Technical Servers Worldwide 2003 2004 2005 20062003 to 2006
CAGR
2005 to 2006
CAGR
HPC Server Revenue($B) $5698 $7393 $9208 $10030 207 89
Adjusted Revenues(To much
enterprise)$5128 $6654 $8287 $9027 207 89
Node Units Shipped 411327 734510 1215735 1419221 511 167
Processor Elements Shipped 1002905 1657827 2681079 3351843 495 250
HPC As A Ratio Of All Servers 2003 2004 2005 2006
Revenue($B) 123 150 180 192
Adjusted Revenues(Apples-to-
apples)111 135 162 173
Units Shipped(Nodes) 78 116 172 190
Processors Shipped 116 164 226 261
Source IDC 2007
スケーラブルシステムズ株式会社
HPCマーケット(対全サーバマーケット)
0
5
10
15
20
25
30
2003 2004 2005 2006
Revenue($B)
Adjusted Revenues(Apples-to-apples)
Units Shipped(Nodes)
Processors Shipped
スケーラブルシステムズ株式会社
マーケットトレンド
Source IDC 2004
Cost of mgmt amp admin 10 CAGR
$0
$20
$40
$60
$80
$100
$120
$140
$160
$180
$200
1996 rsquo97 rsquo98 rsquo992000 rsquo01 rsquo02 rsquo03 rsquo04 rsquo05 rsquo06 rsquo07 rsquo08-
New server spending (USM$) 3 CAGR
Spending (USB$)
5
10
15
20
25
30
35
Installed Base (M Units)
bull ハードウェアの減価償却費は IT の TCO 全体の約25 にすぎない
bull ソフトウェアのコストはわずか10~15
bull 電気などの公共料金フロアスペース電話回線など設備面のコストの割合もきわめて小さい
bull プラットフォームのコストではなくTCOの大きな比率を占めるのは人件費となっている
スケーラブルシステムズ株式会社
運用管理コストの低減
bull 「もっと処理性能を」と「より安価に」を実現するためにワークステーションやサーバでの分散処理の導入
bull ユーザや企業に新たな価値をもたらしてはいるが管理責任とその負担の分散を招き結果的に運用管理コストを押し上げる
メインフレームスーパーコンピュータ
仮想化によるサーバコンソリデーション
クラスタによる仮想コンピュータ
スケーラブルシステムズ株式会社
次世代HPCインフラ
bull コアとスレッド
ndash より多くのスレッドを効率よく利用可能
ndash マルチスレッド向け最適化
bull 電力管理
ndash 省電力
ndash データセンター運用管理機能
bull 仮想化
ndash 柔軟性と優れた運用管理
ndash 仮想的なシステムパーティション
bull RAS
ndash ハードウエアベースの自己監視自己管理
ndash ファームウエアベースのエラー履歴管理
bull システム管理
ndash より低いTCOを実現するための一般標準化されたマネージメント機能
スケーラブルシステムズ株式会社
高速プロセッサ
64ビットアドレス
メモリ性能と容
量
IOバンド幅
インターコネクト
省電力
システムのlsquoバランスrsquo
マルチコアによってプロセッサ単体の処理性能の向上を図る
64ビットのアドレス空間と
拡張されたレジスタによるOSとアプリケーション双方の機能性能拡張
64ビット化とマルチコア化
にともなう高速大容量へのニーズに対応しまたその拡張性の高い実装技術の実現
CPU-メモリ間の高速な
データ転送やより高速なネットワーク大規模なストレージのサポート
大規模なクラスタシステムの構築及びアプリケーションのワークロードに対応した高速性能
エコシステムに対応するためにも電力消費量や発熱量を積極的に抑える技術の開発
スケーラブルシステムズ株式会社
HPCの二極分化
Going UP
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
Going DOWN
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
スケーラブルシステムズ株式会社
システムとユーザの尺度
bull ユーザの尺度での性能(Performance)は時間当たりにどれだけの仕事を処理出来るか(仕事量 時間)
bull Flopsでの評価は実際には意味がないまた問題の規模(small medium large) という評価も難しい
bull ldquoスケーラビリティrdquoは対象を明確に規定する必要がある
システムの尺度 ユーザの尺度
Flops hArr 計算終了までの時間
メモリサイズ(GB) hArr モデルのサイズと計算結果
プロセッサ数 hArr ワークロードでの試行
データ長 hArr 計算精度
システム構成(クラスタ) hArr 導入コストと運用コスト
スケーラビリティ hArr ベンチマーク
スケーラブルシステムズ株式会社
HPCシステムの動向国家プロジェクトと商用製品のギャップの拡大
Going UP
Going DOWN
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
Peta-Scaleコンピューティングに求められる基本技術と現在のHPCの主要マーケットでの要求はあまりにも差が大きいrarrHPCSシステムは各社とのlsquoCommodityrsquoのマイクロプロセッサではなく独自のプロセッサを開発中
ハードウエアはrsquoCommodityrsquo
なものを利用してSWの改善サポート利用技術のサポートが今後の主要マーケットでの成功の鍵となる
スケーラブルシステムズ株式会社
HPCシステムの動向国家プロジェクト
Going UP
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
Peta-Scaleコンピューティングに求められる基本技術と現在のHPCの主要マーケットでの要求はあまりにも差が大きいrarrHPCSシステムは各社とのlsquoCommodityrsquoのマイクロプロセッサではなく独自のプロセッサを開発中
スケーラブルシステムズ株式会社
TOP500性能予測
1993 1995 1997 1999 2001 2003 2005 2007 2009 2011 2013 2015
N=
50
SUM
1 Gflops
1 Tflops
100 Mflops
100 Gflops
100 Tflops
10 Gflops
10 Tflops
1 Pflops
10 Pflops
IBM ASCI White
Blue GeneEarth Simulator
Intel
TOP500の総計が1PFを超えています
TOP500に掲載されるには1TF
が最低条件になっています
シングルシステムの1PFの実現は2009年
システム(プロセッサ数) 13倍年プロセッサ性能向上 14倍年トータル性能 18倍年
2009年までに1ペタFLOPS
スケーラブルシステムズ株式会社
性能ギャップの拡大
bull ピーク性能の大幅な向上ndash 1990年台は性能の向上は102のオーダーでしたが2000年台になると103のオーダーで性能は向上しています
しかしhellipndash 多くの科学技術計算用途のアプリケーションのピーク性能に対する実効性能の比率は5-10となっています(1990年代のベクトル計算機は40-50の対ピーク性能を示していました)
bull 今必要なのはndash より高い実効性能を発揮することが可能な計算アルゴリズムと手法の開発とスケーラビリティの向上
ndash プログラミングモデルなども含めてスケーラブルな計算機環境の構築
01
1
10
100
1000
2000 2004
Tera
flo
ps
1996
Performance
Gap
Peak Performance
Real Performance
NERSC User Group Meeting June 24-25 2004
Osni Marques and Tony Drummond
Lawrence Berkeley National Laboratory
スケーラブルシステムズ株式会社
ペタスケールシステムの構築
bull ソフトウエア(アプリケーションOSプログラミングAPIなど)の課題の克服が課題
bull システムの複雑さと生産性
例Linpack Benchmark
bull オリジナルベンチマークプログラム ~100ライン
bull HPL ベンチマークプログラム ~10000ライン(x100より複雑)
lsquo複雑さrsquoの壁
現在のテラFLOPS級の問題
Source ORNL
スケーラブルシステムズ株式会社
HPCシステムの動向商用製品
Going DOWN
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
ハードウエアはrsquoCommodityrsquo
なものを利用してSWの改善サポート利用技術のサポートが今後の主要マーケットでの成功の鍵となる
スケーラブルシステムズ株式会社
標準コンポーネントの進化
bull プロセッサの性能向上ndash lsquoマルチコアrsquoによる省電力での性能向上が可能
ndash HPCアプリケーションは容易にlsquoマルチコアrsquoの利点を活用可能 (OpenMPやMPI)
bull ファイルシステムndash高性能なスケーラブルファイルシステム(オープンソース)
bull インターコネクトndash PCI-Express (メモリlarrrarrインターコネクト)
ndash高速の商用製品やオープンソースでの強力(OpenIBなど)
スケーラブルシステムズ株式会社
標準コンポーネントの利点
bull 特定のベンダーからのシステムを組み合わせるのではなく他社のシステムも含めてベストなシステムの選択が可能
ndashスケーラブルSMPベクトル計算機クラスタの幅広い選択肢
ndash 64ビットマルチコアマイクロプロセッサの性能向上を最大限に活用
bull 標準コンポーネントの技術革新の活用
ndash PCI-ExpressやFB-DIMMの利用技術
スケーラブルシステムズ株式会社
Breaking the 1-2K nodes Barrier
bull 音の障壁サウンドバリヤー(sound barrier)飛行機の速度が音速近くになると衝撃波の発生によって抵抗の増大境界層の剥離など設計運用上のさまざまな障害(壁)に出合って超音速飛行は不可能かと思われた時代があった(1947年ごろまで)ので音の障壁といわれていた
httpwwwwilk4commiscsoundbreakhtm
クラスタのノード数がある規模に近くなるとその構築や運用において負担の増大システムの安定稼動スケーラビリティなど設計運用上のさまざまな障害(壁)に出合ってクラスタ構築は不可能と思われた時代があった()
スケーラブルシステムズ株式会社
ビルゲイツ氏の基調講演HPC goes mainstream
スケーラブルシステムズ株式会社
「Fast」「Good」「Cheap」のパズル
Fast
+ Cheap
Inferior
高い性能を廉価なシステムで構築することも可能ですただそのようなシステムの場合システムの構築や利用は必ずしも容易ではありません
Good
+ Cheap
Slow比較的小規模なシステムであれば廉価で使い勝手の良いものを探すことは可能ですしかしそのようなシステムでは拡張性やより大規模なシステム構築が出来ません
Good
+ Fast
Expensive
付加価値の高い性能の高いシステムは一般には高価ですその付加価値がユーザにとってメリットが無ければコストパフォーマンスの悪いシステムになるだけです
スケーラブルシステムズ株式会社
まとめとして
bull 「テクノロジー」をどのようにとらえるかndash企業経営基盤のコア要素
ndashユーザの本質的な課題を解決する戦略的な武器
bull マーケットを牽引する「テクノロジ」に求められることndashテクノロジとHPCにおけるITインフラの関係を明確にすること
bull ユーザに何らかのメリットをもたらさない「テクノロジー」は意味を成さない
ndashテクノロジーを最適に組み合わせることで問題解決のためのソリューションの提供が可能
スケーラブルシステムズ株式会社
まとめとして
bull bdquoTs‟ for HPC - インテルテクノロジのHPCにおける価値
ndash インテルテクノロジはHPCにおいて重要な構成要素となっている
ndashそれらの構成要素を統合することでより高い価値の提供が可能となる
ndash二分化しつつあるHPCシステムにおいて「標準コ
ンポーネント」としてのプラットフォームの動向として今後もその動向には注目する必要がある
スケーラブルシステムズ株式会社
さらに詳しい情報はhellip
bull 弊社のコンサルテーションに関するご提案資料もダウンロード可能です(非公開WEBページ)別途弊社に内容等についてはお尋ねください
お問い合わせ先102-0083
東京都千代田区麹町3-5-2
BUREX麹町 8F
電話03-5875-4718
FAX03-3237-7612
E-mailbizsstccojp
httpwwwsstccojp wwwsstccojpbiz
スケーラブルシステムズ株式会社
スケーラブルシステムズ株式会社
ハイエンドコンピューティングに関するコンサルテーションとして幅広いサービスをご提供致します
このサービスを最大限に活用していただくことでコラボレーションによる「顧客志向」 のコン
サルテーションサービスをご提供できればと思っております
スケーラブルシステムズ株式会社
社名製品名などは一般に各社の商標または登録商標です無断での引用転載を禁じます
In general the name of the company and the product name etc are the trademarks or registered trademarks of each company
Copyright Scalable Systems Co Ltd 2005 Unauthorized use is strictly forbidden
2005年11月
スケーラブルシステムズ株式会社
今後の発展と課題
Episode IV
A New Hope
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash 過去12年間でPentiumプロセッサの動作周波数は60
MHz から 3800 MHz にまでアップ
ndash 現在までの高性能化の約80 はクロック周波数の向上によるもの
bull 命令実行の強化と最適化
ndash より強力なインストラクションセット
ndash 命令実行の最適化(パイプライン化分岐予測複数命令の同時実行命令実行順序の変更など)
bull 大容量キャッシュ
ndash プロセッサの速度とメモリレイテンシ(待ち時間)とバンド幅のギャップの拡大に対する対策対応としての容量の拡張
スケーラブルシステムズ株式会社
デュアルコアプロセッサ
bull チップ上のトランジスタのより有効活用が可能bull スレッドレベルでの並列処理を活用bull よりシンプルなプロセッサの設計が可能
bull 将来のマイクロプロセッサはより多くのコアを実装可能bull 将来のマイクロプロセッサはより大容量のキャッシュの実装が可能
IBM Power5
with 19MB L2
AMD Opteron
with 2MB L2
Intel Montecito
With 24MB L3
スケーラブルシステムズ株式会社
イノベーションのジレンマ
製品の性能
時間
First Technology
Second Technology
Third Technology
RISCアウトオブオーダー実行lt1 instruction cycle
スーパースカラー RISCアウトオブオーダー実行lt2 instructions cycle
明示的並列命令コンピューティング技術 (EPIC)
命令の並列実行度の向上
製品の性能(異なる尺度)
時間
持続的イノベーション
技術革新が顧客の求める性能向上軸(ムーアの法則)に沿っている
破壊的イノベーションマルチコアとマルチスレッドによる並列処理
短期的には(シングルスレッドの性能)としては性能が低下するが将来の大きな性能向上とコスト低下機能強化の可能性が大きい
スケーラブルシステムズ株式会社
マルチコアの利点
ワークロードの処理効率の向上
bull マルチスレッドアプリケーションndash現在多くのアプリケーション(データベース
WEB科学技術計算)はマルチスレッド化
ndashマルチコアプロセッサではこれらのアプリケーションのマルチスレッドでの実行が容易に可能
bull 複数ジョブの処理ndashシステムでは複数のワークロード同時に処理することが必要
ndashマルチコアではこれらのワークロードへの処理が可能
スケーラブルシステムズ株式会社
マルチコアの利点
消費電力あたりの性能を最大にし高性能で低消費電力のシステム構築が可能
bull OS自身のマルチスレッド対応
ndash OSのサービスもマルチスレッドで処理することでより効率よく処理することが可能
bull 仮想化
ndashサーバのセキュリティや管理の強化
ndash管理するノード数を減らし運用コストの削減を図る
bull 最新のソフトウエアテクノロジの活用
スケーラブルシステムズ株式会社
大きな変革しかし容易ではない
マルチコアプロセッシング(または汎用もしくは専用プロセッサをソケットに複数搭載可能なこと)はEthernetの誕生以来ITインフラに対しての大きなインパクトをもたらします
デュアルプロセッサは386プロセッサの発表以来性能に関して最大の向上を実現しますしかしこのような性能向上にはソフトウエアの最適化がプロセッサの性能をフルに発揮するためには必要です
スケーラブルシステムズ株式会社
並列性(Parallelism)の利用
マルチタスク処理
MPIなどによる複数のノード間での並列処理
ユーザ及びコンパイラによるスレッドレベルでの並列処理(TLP)
コンパイラによる命列実行レベルでの並列処理(ILP)
マルチコア
マルチプロセッサ
マルチノード
マルチインストラクション
システム
スケーラブルシステムズ株式会社
ムーアの法則(GHz から MC へ)
マルチコアによる性能向上
動作周波数の向上による性能向上
性能
2005
bullマルチスレッドbullマルチタスクbull トレーニングbullツールbullhelliphellip
並列処理による性能向上についてはシステムサポートやプログラミングサポートなどの面での技術支援が重要です
スケーラブルシステムズ株式会社
Episode VI
Return of the Jedi
Ts for HPC - インテルテクノロジのHPCにおける価値の考察
スケーラブルシステムズ株式会社
将来予測の難しさ
bull ldquoI think there is a world market for maybe five
computersrdquobull Thomas Watson chairman of IBM 1943
bull ldquoThere is no reason for any individual to have a
computer in their homerdquobull Ken Olson president and founder of digital equipment
corporation 1977
bull ldquoThere are only about 100 potential customers
worldwide for a Cray-1rdquobull Seymour Cray 1977
bull ldquo640K [of memory] ought to be enough for
anybodyrdquobull Bill Gates chairman of Microsoft1981
スケーラブルシステムズ株式会社
「未来を予測する最良の方法はそれを創造してしまうことである」The best way to predict future is to invent it
Dr Alan Kay President of Viewpoints Research
Institute Inc
スケーラブルシステムズ株式会社
ITマネージメントの課題
bull プラットフォームの内部からの保護ndash ウイルスやワームなど悪意あるソフトウェアからの保護
bull 資産管理ndash 多くの IT 部門では特定できない資産が問題
bull オンラインおよびリモート管理診断機能 ndash アップグレード診断復旧のための作業の効率化
bull アプリケーション統合の困難さ
ndash アプリケーションの高度化と複雑化によって複数のアプリケーションを組み合わせるての動作に問題
bull 動的なリソース割り当て
ndash 組織内で未使用のCPUやメモリの活用
スケーラブルシステムズ株式会社
マーケットトレンド
All Servers Worldwide 2003 2004 2005 20062003 to 2006
CAGR
2005 to 2006
CAGR
Total Factory Revenue($B) $46149 $49146 $51268 $52251 42 19
Units Shipped(same as nodes) 5278222 6307484 7050099 7472649 123 60
Processor Dies Shipped 8662823 10134624 11712766 12779159 138 91
HPC Technical Servers Worldwide 2003 2004 2005 20062003 to 2006
CAGR
2005 to 2006
CAGR
HPC Server Revenue($B) $5698 $7393 $9208 $10030 207 89
Adjusted Revenues(To much
enterprise)$5128 $6654 $8287 $9027 207 89
Node Units Shipped 411327 734510 1215735 1419221 511 167
Processor Elements Shipped 1002905 1657827 2681079 3351843 495 250
HPC As A Ratio Of All Servers 2003 2004 2005 2006
Revenue($B) 123 150 180 192
Adjusted Revenues(Apples-to-
apples)111 135 162 173
Units Shipped(Nodes) 78 116 172 190
Processors Shipped 116 164 226 261
Source IDC 2007
スケーラブルシステムズ株式会社
HPCマーケット(対全サーバマーケット)
0
5
10
15
20
25
30
2003 2004 2005 2006
Revenue($B)
Adjusted Revenues(Apples-to-apples)
Units Shipped(Nodes)
Processors Shipped
スケーラブルシステムズ株式会社
マーケットトレンド
Source IDC 2004
Cost of mgmt amp admin 10 CAGR
$0
$20
$40
$60
$80
$100
$120
$140
$160
$180
$200
1996 rsquo97 rsquo98 rsquo992000 rsquo01 rsquo02 rsquo03 rsquo04 rsquo05 rsquo06 rsquo07 rsquo08-
New server spending (USM$) 3 CAGR
Spending (USB$)
5
10
15
20
25
30
35
Installed Base (M Units)
bull ハードウェアの減価償却費は IT の TCO 全体の約25 にすぎない
bull ソフトウェアのコストはわずか10~15
bull 電気などの公共料金フロアスペース電話回線など設備面のコストの割合もきわめて小さい
bull プラットフォームのコストではなくTCOの大きな比率を占めるのは人件費となっている
スケーラブルシステムズ株式会社
運用管理コストの低減
bull 「もっと処理性能を」と「より安価に」を実現するためにワークステーションやサーバでの分散処理の導入
bull ユーザや企業に新たな価値をもたらしてはいるが管理責任とその負担の分散を招き結果的に運用管理コストを押し上げる
メインフレームスーパーコンピュータ
仮想化によるサーバコンソリデーション
クラスタによる仮想コンピュータ
スケーラブルシステムズ株式会社
次世代HPCインフラ
bull コアとスレッド
ndash より多くのスレッドを効率よく利用可能
ndash マルチスレッド向け最適化
bull 電力管理
ndash 省電力
ndash データセンター運用管理機能
bull 仮想化
ndash 柔軟性と優れた運用管理
ndash 仮想的なシステムパーティション
bull RAS
ndash ハードウエアベースの自己監視自己管理
ndash ファームウエアベースのエラー履歴管理
bull システム管理
ndash より低いTCOを実現するための一般標準化されたマネージメント機能
スケーラブルシステムズ株式会社
高速プロセッサ
64ビットアドレス
メモリ性能と容
量
IOバンド幅
インターコネクト
省電力
システムのlsquoバランスrsquo
マルチコアによってプロセッサ単体の処理性能の向上を図る
64ビットのアドレス空間と
拡張されたレジスタによるOSとアプリケーション双方の機能性能拡張
64ビット化とマルチコア化
にともなう高速大容量へのニーズに対応しまたその拡張性の高い実装技術の実現
CPU-メモリ間の高速な
データ転送やより高速なネットワーク大規模なストレージのサポート
大規模なクラスタシステムの構築及びアプリケーションのワークロードに対応した高速性能
エコシステムに対応するためにも電力消費量や発熱量を積極的に抑える技術の開発
スケーラブルシステムズ株式会社
HPCの二極分化
Going UP
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
Going DOWN
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
スケーラブルシステムズ株式会社
システムとユーザの尺度
bull ユーザの尺度での性能(Performance)は時間当たりにどれだけの仕事を処理出来るか(仕事量 時間)
bull Flopsでの評価は実際には意味がないまた問題の規模(small medium large) という評価も難しい
bull ldquoスケーラビリティrdquoは対象を明確に規定する必要がある
システムの尺度 ユーザの尺度
Flops hArr 計算終了までの時間
メモリサイズ(GB) hArr モデルのサイズと計算結果
プロセッサ数 hArr ワークロードでの試行
データ長 hArr 計算精度
システム構成(クラスタ) hArr 導入コストと運用コスト
スケーラビリティ hArr ベンチマーク
スケーラブルシステムズ株式会社
HPCシステムの動向国家プロジェクトと商用製品のギャップの拡大
Going UP
Going DOWN
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
Peta-Scaleコンピューティングに求められる基本技術と現在のHPCの主要マーケットでの要求はあまりにも差が大きいrarrHPCSシステムは各社とのlsquoCommodityrsquoのマイクロプロセッサではなく独自のプロセッサを開発中
ハードウエアはrsquoCommodityrsquo
なものを利用してSWの改善サポート利用技術のサポートが今後の主要マーケットでの成功の鍵となる
スケーラブルシステムズ株式会社
HPCシステムの動向国家プロジェクト
Going UP
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
Peta-Scaleコンピューティングに求められる基本技術と現在のHPCの主要マーケットでの要求はあまりにも差が大きいrarrHPCSシステムは各社とのlsquoCommodityrsquoのマイクロプロセッサではなく独自のプロセッサを開発中
スケーラブルシステムズ株式会社
TOP500性能予測
1993 1995 1997 1999 2001 2003 2005 2007 2009 2011 2013 2015
N=
50
SUM
1 Gflops
1 Tflops
100 Mflops
100 Gflops
100 Tflops
10 Gflops
10 Tflops
1 Pflops
10 Pflops
IBM ASCI White
Blue GeneEarth Simulator
Intel
TOP500の総計が1PFを超えています
TOP500に掲載されるには1TF
が最低条件になっています
シングルシステムの1PFの実現は2009年
システム(プロセッサ数) 13倍年プロセッサ性能向上 14倍年トータル性能 18倍年
2009年までに1ペタFLOPS
スケーラブルシステムズ株式会社
性能ギャップの拡大
bull ピーク性能の大幅な向上ndash 1990年台は性能の向上は102のオーダーでしたが2000年台になると103のオーダーで性能は向上しています
しかしhellipndash 多くの科学技術計算用途のアプリケーションのピーク性能に対する実効性能の比率は5-10となっています(1990年代のベクトル計算機は40-50の対ピーク性能を示していました)
bull 今必要なのはndash より高い実効性能を発揮することが可能な計算アルゴリズムと手法の開発とスケーラビリティの向上
ndash プログラミングモデルなども含めてスケーラブルな計算機環境の構築
01
1
10
100
1000
2000 2004
Tera
flo
ps
1996
Performance
Gap
Peak Performance
Real Performance
NERSC User Group Meeting June 24-25 2004
Osni Marques and Tony Drummond
Lawrence Berkeley National Laboratory
スケーラブルシステムズ株式会社
ペタスケールシステムの構築
bull ソフトウエア(アプリケーションOSプログラミングAPIなど)の課題の克服が課題
bull システムの複雑さと生産性
例Linpack Benchmark
bull オリジナルベンチマークプログラム ~100ライン
bull HPL ベンチマークプログラム ~10000ライン(x100より複雑)
lsquo複雑さrsquoの壁
現在のテラFLOPS級の問題
Source ORNL
スケーラブルシステムズ株式会社
HPCシステムの動向商用製品
Going DOWN
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
ハードウエアはrsquoCommodityrsquo
なものを利用してSWの改善サポート利用技術のサポートが今後の主要マーケットでの成功の鍵となる
スケーラブルシステムズ株式会社
標準コンポーネントの進化
bull プロセッサの性能向上ndash lsquoマルチコアrsquoによる省電力での性能向上が可能
ndash HPCアプリケーションは容易にlsquoマルチコアrsquoの利点を活用可能 (OpenMPやMPI)
bull ファイルシステムndash高性能なスケーラブルファイルシステム(オープンソース)
bull インターコネクトndash PCI-Express (メモリlarrrarrインターコネクト)
ndash高速の商用製品やオープンソースでの強力(OpenIBなど)
スケーラブルシステムズ株式会社
標準コンポーネントの利点
bull 特定のベンダーからのシステムを組み合わせるのではなく他社のシステムも含めてベストなシステムの選択が可能
ndashスケーラブルSMPベクトル計算機クラスタの幅広い選択肢
ndash 64ビットマルチコアマイクロプロセッサの性能向上を最大限に活用
bull 標準コンポーネントの技術革新の活用
ndash PCI-ExpressやFB-DIMMの利用技術
スケーラブルシステムズ株式会社
Breaking the 1-2K nodes Barrier
bull 音の障壁サウンドバリヤー(sound barrier)飛行機の速度が音速近くになると衝撃波の発生によって抵抗の増大境界層の剥離など設計運用上のさまざまな障害(壁)に出合って超音速飛行は不可能かと思われた時代があった(1947年ごろまで)ので音の障壁といわれていた
httpwwwwilk4commiscsoundbreakhtm
クラスタのノード数がある規模に近くなるとその構築や運用において負担の増大システムの安定稼動スケーラビリティなど設計運用上のさまざまな障害(壁)に出合ってクラスタ構築は不可能と思われた時代があった()
スケーラブルシステムズ株式会社
ビルゲイツ氏の基調講演HPC goes mainstream
スケーラブルシステムズ株式会社
「Fast」「Good」「Cheap」のパズル
Fast
+ Cheap
Inferior
高い性能を廉価なシステムで構築することも可能ですただそのようなシステムの場合システムの構築や利用は必ずしも容易ではありません
Good
+ Cheap
Slow比較的小規模なシステムであれば廉価で使い勝手の良いものを探すことは可能ですしかしそのようなシステムでは拡張性やより大規模なシステム構築が出来ません
Good
+ Fast
Expensive
付加価値の高い性能の高いシステムは一般には高価ですその付加価値がユーザにとってメリットが無ければコストパフォーマンスの悪いシステムになるだけです
スケーラブルシステムズ株式会社
まとめとして
bull 「テクノロジー」をどのようにとらえるかndash企業経営基盤のコア要素
ndashユーザの本質的な課題を解決する戦略的な武器
bull マーケットを牽引する「テクノロジ」に求められることndashテクノロジとHPCにおけるITインフラの関係を明確にすること
bull ユーザに何らかのメリットをもたらさない「テクノロジー」は意味を成さない
ndashテクノロジーを最適に組み合わせることで問題解決のためのソリューションの提供が可能
スケーラブルシステムズ株式会社
まとめとして
bull bdquoTs‟ for HPC - インテルテクノロジのHPCにおける価値
ndash インテルテクノロジはHPCにおいて重要な構成要素となっている
ndashそれらの構成要素を統合することでより高い価値の提供が可能となる
ndash二分化しつつあるHPCシステムにおいて「標準コ
ンポーネント」としてのプラットフォームの動向として今後もその動向には注目する必要がある
スケーラブルシステムズ株式会社
さらに詳しい情報はhellip
bull 弊社のコンサルテーションに関するご提案資料もダウンロード可能です(非公開WEBページ)別途弊社に内容等についてはお尋ねください
お問い合わせ先102-0083
東京都千代田区麹町3-5-2
BUREX麹町 8F
電話03-5875-4718
FAX03-3237-7612
E-mailbizsstccojp
httpwwwsstccojp wwwsstccojpbiz
スケーラブルシステムズ株式会社
スケーラブルシステムズ株式会社
ハイエンドコンピューティングに関するコンサルテーションとして幅広いサービスをご提供致します
このサービスを最大限に活用していただくことでコラボレーションによる「顧客志向」 のコン
サルテーションサービスをご提供できればと思っております
スケーラブルシステムズ株式会社
社名製品名などは一般に各社の商標または登録商標です無断での引用転載を禁じます
In general the name of the company and the product name etc are the trademarks or registered trademarks of each company
Copyright Scalable Systems Co Ltd 2005 Unauthorized use is strictly forbidden
2005年11月
スケーラブルシステムズ株式会社
計算機の性能向上
bull 動作周波数(クロック)の向上
ndash 過去12年間でPentiumプロセッサの動作周波数は60
MHz から 3800 MHz にまでアップ
ndash 現在までの高性能化の約80 はクロック周波数の向上によるもの
bull 命令実行の強化と最適化
ndash より強力なインストラクションセット
ndash 命令実行の最適化(パイプライン化分岐予測複数命令の同時実行命令実行順序の変更など)
bull 大容量キャッシュ
ndash プロセッサの速度とメモリレイテンシ(待ち時間)とバンド幅のギャップの拡大に対する対策対応としての容量の拡張
スケーラブルシステムズ株式会社
デュアルコアプロセッサ
bull チップ上のトランジスタのより有効活用が可能bull スレッドレベルでの並列処理を活用bull よりシンプルなプロセッサの設計が可能
bull 将来のマイクロプロセッサはより多くのコアを実装可能bull 将来のマイクロプロセッサはより大容量のキャッシュの実装が可能
IBM Power5
with 19MB L2
AMD Opteron
with 2MB L2
Intel Montecito
With 24MB L3
スケーラブルシステムズ株式会社
イノベーションのジレンマ
製品の性能
時間
First Technology
Second Technology
Third Technology
RISCアウトオブオーダー実行lt1 instruction cycle
スーパースカラー RISCアウトオブオーダー実行lt2 instructions cycle
明示的並列命令コンピューティング技術 (EPIC)
命令の並列実行度の向上
製品の性能(異なる尺度)
時間
持続的イノベーション
技術革新が顧客の求める性能向上軸(ムーアの法則)に沿っている
破壊的イノベーションマルチコアとマルチスレッドによる並列処理
短期的には(シングルスレッドの性能)としては性能が低下するが将来の大きな性能向上とコスト低下機能強化の可能性が大きい
スケーラブルシステムズ株式会社
マルチコアの利点
ワークロードの処理効率の向上
bull マルチスレッドアプリケーションndash現在多くのアプリケーション(データベース
WEB科学技術計算)はマルチスレッド化
ndashマルチコアプロセッサではこれらのアプリケーションのマルチスレッドでの実行が容易に可能
bull 複数ジョブの処理ndashシステムでは複数のワークロード同時に処理することが必要
ndashマルチコアではこれらのワークロードへの処理が可能
スケーラブルシステムズ株式会社
マルチコアの利点
消費電力あたりの性能を最大にし高性能で低消費電力のシステム構築が可能
bull OS自身のマルチスレッド対応
ndash OSのサービスもマルチスレッドで処理することでより効率よく処理することが可能
bull 仮想化
ndashサーバのセキュリティや管理の強化
ndash管理するノード数を減らし運用コストの削減を図る
bull 最新のソフトウエアテクノロジの活用
スケーラブルシステムズ株式会社
大きな変革しかし容易ではない
マルチコアプロセッシング(または汎用もしくは専用プロセッサをソケットに複数搭載可能なこと)はEthernetの誕生以来ITインフラに対しての大きなインパクトをもたらします
デュアルプロセッサは386プロセッサの発表以来性能に関して最大の向上を実現しますしかしこのような性能向上にはソフトウエアの最適化がプロセッサの性能をフルに発揮するためには必要です
スケーラブルシステムズ株式会社
並列性(Parallelism)の利用
マルチタスク処理
MPIなどによる複数のノード間での並列処理
ユーザ及びコンパイラによるスレッドレベルでの並列処理(TLP)
コンパイラによる命列実行レベルでの並列処理(ILP)
マルチコア
マルチプロセッサ
マルチノード
マルチインストラクション
システム
スケーラブルシステムズ株式会社
ムーアの法則(GHz から MC へ)
マルチコアによる性能向上
動作周波数の向上による性能向上
性能
2005
bullマルチスレッドbullマルチタスクbull トレーニングbullツールbullhelliphellip
並列処理による性能向上についてはシステムサポートやプログラミングサポートなどの面での技術支援が重要です
スケーラブルシステムズ株式会社
Episode VI
Return of the Jedi
Ts for HPC - インテルテクノロジのHPCにおける価値の考察
スケーラブルシステムズ株式会社
将来予測の難しさ
bull ldquoI think there is a world market for maybe five
computersrdquobull Thomas Watson chairman of IBM 1943
bull ldquoThere is no reason for any individual to have a
computer in their homerdquobull Ken Olson president and founder of digital equipment
corporation 1977
bull ldquoThere are only about 100 potential customers
worldwide for a Cray-1rdquobull Seymour Cray 1977
bull ldquo640K [of memory] ought to be enough for
anybodyrdquobull Bill Gates chairman of Microsoft1981
スケーラブルシステムズ株式会社
「未来を予測する最良の方法はそれを創造してしまうことである」The best way to predict future is to invent it
Dr Alan Kay President of Viewpoints Research
Institute Inc
スケーラブルシステムズ株式会社
ITマネージメントの課題
bull プラットフォームの内部からの保護ndash ウイルスやワームなど悪意あるソフトウェアからの保護
bull 資産管理ndash 多くの IT 部門では特定できない資産が問題
bull オンラインおよびリモート管理診断機能 ndash アップグレード診断復旧のための作業の効率化
bull アプリケーション統合の困難さ
ndash アプリケーションの高度化と複雑化によって複数のアプリケーションを組み合わせるての動作に問題
bull 動的なリソース割り当て
ndash 組織内で未使用のCPUやメモリの活用
スケーラブルシステムズ株式会社
マーケットトレンド
All Servers Worldwide 2003 2004 2005 20062003 to 2006
CAGR
2005 to 2006
CAGR
Total Factory Revenue($B) $46149 $49146 $51268 $52251 42 19
Units Shipped(same as nodes) 5278222 6307484 7050099 7472649 123 60
Processor Dies Shipped 8662823 10134624 11712766 12779159 138 91
HPC Technical Servers Worldwide 2003 2004 2005 20062003 to 2006
CAGR
2005 to 2006
CAGR
HPC Server Revenue($B) $5698 $7393 $9208 $10030 207 89
Adjusted Revenues(To much
enterprise)$5128 $6654 $8287 $9027 207 89
Node Units Shipped 411327 734510 1215735 1419221 511 167
Processor Elements Shipped 1002905 1657827 2681079 3351843 495 250
HPC As A Ratio Of All Servers 2003 2004 2005 2006
Revenue($B) 123 150 180 192
Adjusted Revenues(Apples-to-
apples)111 135 162 173
Units Shipped(Nodes) 78 116 172 190
Processors Shipped 116 164 226 261
Source IDC 2007
スケーラブルシステムズ株式会社
HPCマーケット(対全サーバマーケット)
0
5
10
15
20
25
30
2003 2004 2005 2006
Revenue($B)
Adjusted Revenues(Apples-to-apples)
Units Shipped(Nodes)
Processors Shipped
スケーラブルシステムズ株式会社
マーケットトレンド
Source IDC 2004
Cost of mgmt amp admin 10 CAGR
$0
$20
$40
$60
$80
$100
$120
$140
$160
$180
$200
1996 rsquo97 rsquo98 rsquo992000 rsquo01 rsquo02 rsquo03 rsquo04 rsquo05 rsquo06 rsquo07 rsquo08-
New server spending (USM$) 3 CAGR
Spending (USB$)
5
10
15
20
25
30
35
Installed Base (M Units)
bull ハードウェアの減価償却費は IT の TCO 全体の約25 にすぎない
bull ソフトウェアのコストはわずか10~15
bull 電気などの公共料金フロアスペース電話回線など設備面のコストの割合もきわめて小さい
bull プラットフォームのコストではなくTCOの大きな比率を占めるのは人件費となっている
スケーラブルシステムズ株式会社
運用管理コストの低減
bull 「もっと処理性能を」と「より安価に」を実現するためにワークステーションやサーバでの分散処理の導入
bull ユーザや企業に新たな価値をもたらしてはいるが管理責任とその負担の分散を招き結果的に運用管理コストを押し上げる
メインフレームスーパーコンピュータ
仮想化によるサーバコンソリデーション
クラスタによる仮想コンピュータ
スケーラブルシステムズ株式会社
次世代HPCインフラ
bull コアとスレッド
ndash より多くのスレッドを効率よく利用可能
ndash マルチスレッド向け最適化
bull 電力管理
ndash 省電力
ndash データセンター運用管理機能
bull 仮想化
ndash 柔軟性と優れた運用管理
ndash 仮想的なシステムパーティション
bull RAS
ndash ハードウエアベースの自己監視自己管理
ndash ファームウエアベースのエラー履歴管理
bull システム管理
ndash より低いTCOを実現するための一般標準化されたマネージメント機能
スケーラブルシステムズ株式会社
高速プロセッサ
64ビットアドレス
メモリ性能と容
量
IOバンド幅
インターコネクト
省電力
システムのlsquoバランスrsquo
マルチコアによってプロセッサ単体の処理性能の向上を図る
64ビットのアドレス空間と
拡張されたレジスタによるOSとアプリケーション双方の機能性能拡張
64ビット化とマルチコア化
にともなう高速大容量へのニーズに対応しまたその拡張性の高い実装技術の実現
CPU-メモリ間の高速な
データ転送やより高速なネットワーク大規模なストレージのサポート
大規模なクラスタシステムの構築及びアプリケーションのワークロードに対応した高速性能
エコシステムに対応するためにも電力消費量や発熱量を積極的に抑える技術の開発
スケーラブルシステムズ株式会社
HPCの二極分化
Going UP
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
Going DOWN
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
スケーラブルシステムズ株式会社
システムとユーザの尺度
bull ユーザの尺度での性能(Performance)は時間当たりにどれだけの仕事を処理出来るか(仕事量 時間)
bull Flopsでの評価は実際には意味がないまた問題の規模(small medium large) という評価も難しい
bull ldquoスケーラビリティrdquoは対象を明確に規定する必要がある
システムの尺度 ユーザの尺度
Flops hArr 計算終了までの時間
メモリサイズ(GB) hArr モデルのサイズと計算結果
プロセッサ数 hArr ワークロードでの試行
データ長 hArr 計算精度
システム構成(クラスタ) hArr 導入コストと運用コスト
スケーラビリティ hArr ベンチマーク
スケーラブルシステムズ株式会社
HPCシステムの動向国家プロジェクトと商用製品のギャップの拡大
Going UP
Going DOWN
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
Peta-Scaleコンピューティングに求められる基本技術と現在のHPCの主要マーケットでの要求はあまりにも差が大きいrarrHPCSシステムは各社とのlsquoCommodityrsquoのマイクロプロセッサではなく独自のプロセッサを開発中
ハードウエアはrsquoCommodityrsquo
なものを利用してSWの改善サポート利用技術のサポートが今後の主要マーケットでの成功の鍵となる
スケーラブルシステムズ株式会社
HPCシステムの動向国家プロジェクト
Going UP
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
Peta-Scaleコンピューティングに求められる基本技術と現在のHPCの主要マーケットでの要求はあまりにも差が大きいrarrHPCSシステムは各社とのlsquoCommodityrsquoのマイクロプロセッサではなく独自のプロセッサを開発中
スケーラブルシステムズ株式会社
TOP500性能予測
1993 1995 1997 1999 2001 2003 2005 2007 2009 2011 2013 2015
N=
50
SUM
1 Gflops
1 Tflops
100 Mflops
100 Gflops
100 Tflops
10 Gflops
10 Tflops
1 Pflops
10 Pflops
IBM ASCI White
Blue GeneEarth Simulator
Intel
TOP500の総計が1PFを超えています
TOP500に掲載されるには1TF
が最低条件になっています
シングルシステムの1PFの実現は2009年
システム(プロセッサ数) 13倍年プロセッサ性能向上 14倍年トータル性能 18倍年
2009年までに1ペタFLOPS
スケーラブルシステムズ株式会社
性能ギャップの拡大
bull ピーク性能の大幅な向上ndash 1990年台は性能の向上は102のオーダーでしたが2000年台になると103のオーダーで性能は向上しています
しかしhellipndash 多くの科学技術計算用途のアプリケーションのピーク性能に対する実効性能の比率は5-10となっています(1990年代のベクトル計算機は40-50の対ピーク性能を示していました)
bull 今必要なのはndash より高い実効性能を発揮することが可能な計算アルゴリズムと手法の開発とスケーラビリティの向上
ndash プログラミングモデルなども含めてスケーラブルな計算機環境の構築
01
1
10
100
1000
2000 2004
Tera
flo
ps
1996
Performance
Gap
Peak Performance
Real Performance
NERSC User Group Meeting June 24-25 2004
Osni Marques and Tony Drummond
Lawrence Berkeley National Laboratory
スケーラブルシステムズ株式会社
ペタスケールシステムの構築
bull ソフトウエア(アプリケーションOSプログラミングAPIなど)の課題の克服が課題
bull システムの複雑さと生産性
例Linpack Benchmark
bull オリジナルベンチマークプログラム ~100ライン
bull HPL ベンチマークプログラム ~10000ライン(x100より複雑)
lsquo複雑さrsquoの壁
現在のテラFLOPS級の問題
Source ORNL
スケーラブルシステムズ株式会社
HPCシステムの動向商用製品
Going DOWN
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
ハードウエアはrsquoCommodityrsquo
なものを利用してSWの改善サポート利用技術のサポートが今後の主要マーケットでの成功の鍵となる
スケーラブルシステムズ株式会社
標準コンポーネントの進化
bull プロセッサの性能向上ndash lsquoマルチコアrsquoによる省電力での性能向上が可能
ndash HPCアプリケーションは容易にlsquoマルチコアrsquoの利点を活用可能 (OpenMPやMPI)
bull ファイルシステムndash高性能なスケーラブルファイルシステム(オープンソース)
bull インターコネクトndash PCI-Express (メモリlarrrarrインターコネクト)
ndash高速の商用製品やオープンソースでの強力(OpenIBなど)
スケーラブルシステムズ株式会社
標準コンポーネントの利点
bull 特定のベンダーからのシステムを組み合わせるのではなく他社のシステムも含めてベストなシステムの選択が可能
ndashスケーラブルSMPベクトル計算機クラスタの幅広い選択肢
ndash 64ビットマルチコアマイクロプロセッサの性能向上を最大限に活用
bull 標準コンポーネントの技術革新の活用
ndash PCI-ExpressやFB-DIMMの利用技術
スケーラブルシステムズ株式会社
Breaking the 1-2K nodes Barrier
bull 音の障壁サウンドバリヤー(sound barrier)飛行機の速度が音速近くになると衝撃波の発生によって抵抗の増大境界層の剥離など設計運用上のさまざまな障害(壁)に出合って超音速飛行は不可能かと思われた時代があった(1947年ごろまで)ので音の障壁といわれていた
httpwwwwilk4commiscsoundbreakhtm
クラスタのノード数がある規模に近くなるとその構築や運用において負担の増大システムの安定稼動スケーラビリティなど設計運用上のさまざまな障害(壁)に出合ってクラスタ構築は不可能と思われた時代があった()
スケーラブルシステムズ株式会社
ビルゲイツ氏の基調講演HPC goes mainstream
スケーラブルシステムズ株式会社
「Fast」「Good」「Cheap」のパズル
Fast
+ Cheap
Inferior
高い性能を廉価なシステムで構築することも可能ですただそのようなシステムの場合システムの構築や利用は必ずしも容易ではありません
Good
+ Cheap
Slow比較的小規模なシステムであれば廉価で使い勝手の良いものを探すことは可能ですしかしそのようなシステムでは拡張性やより大規模なシステム構築が出来ません
Good
+ Fast
Expensive
付加価値の高い性能の高いシステムは一般には高価ですその付加価値がユーザにとってメリットが無ければコストパフォーマンスの悪いシステムになるだけです
スケーラブルシステムズ株式会社
まとめとして
bull 「テクノロジー」をどのようにとらえるかndash企業経営基盤のコア要素
ndashユーザの本質的な課題を解決する戦略的な武器
bull マーケットを牽引する「テクノロジ」に求められることndashテクノロジとHPCにおけるITインフラの関係を明確にすること
bull ユーザに何らかのメリットをもたらさない「テクノロジー」は意味を成さない
ndashテクノロジーを最適に組み合わせることで問題解決のためのソリューションの提供が可能
スケーラブルシステムズ株式会社
まとめとして
bull bdquoTs‟ for HPC - インテルテクノロジのHPCにおける価値
ndash インテルテクノロジはHPCにおいて重要な構成要素となっている
ndashそれらの構成要素を統合することでより高い価値の提供が可能となる
ndash二分化しつつあるHPCシステムにおいて「標準コ
ンポーネント」としてのプラットフォームの動向として今後もその動向には注目する必要がある
スケーラブルシステムズ株式会社
さらに詳しい情報はhellip
bull 弊社のコンサルテーションに関するご提案資料もダウンロード可能です(非公開WEBページ)別途弊社に内容等についてはお尋ねください
お問い合わせ先102-0083
東京都千代田区麹町3-5-2
BUREX麹町 8F
電話03-5875-4718
FAX03-3237-7612
E-mailbizsstccojp
httpwwwsstccojp wwwsstccojpbiz
スケーラブルシステムズ株式会社
スケーラブルシステムズ株式会社
ハイエンドコンピューティングに関するコンサルテーションとして幅広いサービスをご提供致します
このサービスを最大限に活用していただくことでコラボレーションによる「顧客志向」 のコン
サルテーションサービスをご提供できればと思っております
スケーラブルシステムズ株式会社
社名製品名などは一般に各社の商標または登録商標です無断での引用転載を禁じます
In general the name of the company and the product name etc are the trademarks or registered trademarks of each company
Copyright Scalable Systems Co Ltd 2005 Unauthorized use is strictly forbidden
2005年11月
スケーラブルシステムズ株式会社
デュアルコアプロセッサ
bull チップ上のトランジスタのより有効活用が可能bull スレッドレベルでの並列処理を活用bull よりシンプルなプロセッサの設計が可能
bull 将来のマイクロプロセッサはより多くのコアを実装可能bull 将来のマイクロプロセッサはより大容量のキャッシュの実装が可能
IBM Power5
with 19MB L2
AMD Opteron
with 2MB L2
Intel Montecito
With 24MB L3
スケーラブルシステムズ株式会社
イノベーションのジレンマ
製品の性能
時間
First Technology
Second Technology
Third Technology
RISCアウトオブオーダー実行lt1 instruction cycle
スーパースカラー RISCアウトオブオーダー実行lt2 instructions cycle
明示的並列命令コンピューティング技術 (EPIC)
命令の並列実行度の向上
製品の性能(異なる尺度)
時間
持続的イノベーション
技術革新が顧客の求める性能向上軸(ムーアの法則)に沿っている
破壊的イノベーションマルチコアとマルチスレッドによる並列処理
短期的には(シングルスレッドの性能)としては性能が低下するが将来の大きな性能向上とコスト低下機能強化の可能性が大きい
スケーラブルシステムズ株式会社
マルチコアの利点
ワークロードの処理効率の向上
bull マルチスレッドアプリケーションndash現在多くのアプリケーション(データベース
WEB科学技術計算)はマルチスレッド化
ndashマルチコアプロセッサではこれらのアプリケーションのマルチスレッドでの実行が容易に可能
bull 複数ジョブの処理ndashシステムでは複数のワークロード同時に処理することが必要
ndashマルチコアではこれらのワークロードへの処理が可能
スケーラブルシステムズ株式会社
マルチコアの利点
消費電力あたりの性能を最大にし高性能で低消費電力のシステム構築が可能
bull OS自身のマルチスレッド対応
ndash OSのサービスもマルチスレッドで処理することでより効率よく処理することが可能
bull 仮想化
ndashサーバのセキュリティや管理の強化
ndash管理するノード数を減らし運用コストの削減を図る
bull 最新のソフトウエアテクノロジの活用
スケーラブルシステムズ株式会社
大きな変革しかし容易ではない
マルチコアプロセッシング(または汎用もしくは専用プロセッサをソケットに複数搭載可能なこと)はEthernetの誕生以来ITインフラに対しての大きなインパクトをもたらします
デュアルプロセッサは386プロセッサの発表以来性能に関して最大の向上を実現しますしかしこのような性能向上にはソフトウエアの最適化がプロセッサの性能をフルに発揮するためには必要です
スケーラブルシステムズ株式会社
並列性(Parallelism)の利用
マルチタスク処理
MPIなどによる複数のノード間での並列処理
ユーザ及びコンパイラによるスレッドレベルでの並列処理(TLP)
コンパイラによる命列実行レベルでの並列処理(ILP)
マルチコア
マルチプロセッサ
マルチノード
マルチインストラクション
システム
スケーラブルシステムズ株式会社
ムーアの法則(GHz から MC へ)
マルチコアによる性能向上
動作周波数の向上による性能向上
性能
2005
bullマルチスレッドbullマルチタスクbull トレーニングbullツールbullhelliphellip
並列処理による性能向上についてはシステムサポートやプログラミングサポートなどの面での技術支援が重要です
スケーラブルシステムズ株式会社
Episode VI
Return of the Jedi
Ts for HPC - インテルテクノロジのHPCにおける価値の考察
スケーラブルシステムズ株式会社
将来予測の難しさ
bull ldquoI think there is a world market for maybe five
computersrdquobull Thomas Watson chairman of IBM 1943
bull ldquoThere is no reason for any individual to have a
computer in their homerdquobull Ken Olson president and founder of digital equipment
corporation 1977
bull ldquoThere are only about 100 potential customers
worldwide for a Cray-1rdquobull Seymour Cray 1977
bull ldquo640K [of memory] ought to be enough for
anybodyrdquobull Bill Gates chairman of Microsoft1981
スケーラブルシステムズ株式会社
「未来を予測する最良の方法はそれを創造してしまうことである」The best way to predict future is to invent it
Dr Alan Kay President of Viewpoints Research
Institute Inc
スケーラブルシステムズ株式会社
ITマネージメントの課題
bull プラットフォームの内部からの保護ndash ウイルスやワームなど悪意あるソフトウェアからの保護
bull 資産管理ndash 多くの IT 部門では特定できない資産が問題
bull オンラインおよびリモート管理診断機能 ndash アップグレード診断復旧のための作業の効率化
bull アプリケーション統合の困難さ
ndash アプリケーションの高度化と複雑化によって複数のアプリケーションを組み合わせるての動作に問題
bull 動的なリソース割り当て
ndash 組織内で未使用のCPUやメモリの活用
スケーラブルシステムズ株式会社
マーケットトレンド
All Servers Worldwide 2003 2004 2005 20062003 to 2006
CAGR
2005 to 2006
CAGR
Total Factory Revenue($B) $46149 $49146 $51268 $52251 42 19
Units Shipped(same as nodes) 5278222 6307484 7050099 7472649 123 60
Processor Dies Shipped 8662823 10134624 11712766 12779159 138 91
HPC Technical Servers Worldwide 2003 2004 2005 20062003 to 2006
CAGR
2005 to 2006
CAGR
HPC Server Revenue($B) $5698 $7393 $9208 $10030 207 89
Adjusted Revenues(To much
enterprise)$5128 $6654 $8287 $9027 207 89
Node Units Shipped 411327 734510 1215735 1419221 511 167
Processor Elements Shipped 1002905 1657827 2681079 3351843 495 250
HPC As A Ratio Of All Servers 2003 2004 2005 2006
Revenue($B) 123 150 180 192
Adjusted Revenues(Apples-to-
apples)111 135 162 173
Units Shipped(Nodes) 78 116 172 190
Processors Shipped 116 164 226 261
Source IDC 2007
スケーラブルシステムズ株式会社
HPCマーケット(対全サーバマーケット)
0
5
10
15
20
25
30
2003 2004 2005 2006
Revenue($B)
Adjusted Revenues(Apples-to-apples)
Units Shipped(Nodes)
Processors Shipped
スケーラブルシステムズ株式会社
マーケットトレンド
Source IDC 2004
Cost of mgmt amp admin 10 CAGR
$0
$20
$40
$60
$80
$100
$120
$140
$160
$180
$200
1996 rsquo97 rsquo98 rsquo992000 rsquo01 rsquo02 rsquo03 rsquo04 rsquo05 rsquo06 rsquo07 rsquo08-
New server spending (USM$) 3 CAGR
Spending (USB$)
5
10
15
20
25
30
35
Installed Base (M Units)
bull ハードウェアの減価償却費は IT の TCO 全体の約25 にすぎない
bull ソフトウェアのコストはわずか10~15
bull 電気などの公共料金フロアスペース電話回線など設備面のコストの割合もきわめて小さい
bull プラットフォームのコストではなくTCOの大きな比率を占めるのは人件費となっている
スケーラブルシステムズ株式会社
運用管理コストの低減
bull 「もっと処理性能を」と「より安価に」を実現するためにワークステーションやサーバでの分散処理の導入
bull ユーザや企業に新たな価値をもたらしてはいるが管理責任とその負担の分散を招き結果的に運用管理コストを押し上げる
メインフレームスーパーコンピュータ
仮想化によるサーバコンソリデーション
クラスタによる仮想コンピュータ
スケーラブルシステムズ株式会社
次世代HPCインフラ
bull コアとスレッド
ndash より多くのスレッドを効率よく利用可能
ndash マルチスレッド向け最適化
bull 電力管理
ndash 省電力
ndash データセンター運用管理機能
bull 仮想化
ndash 柔軟性と優れた運用管理
ndash 仮想的なシステムパーティション
bull RAS
ndash ハードウエアベースの自己監視自己管理
ndash ファームウエアベースのエラー履歴管理
bull システム管理
ndash より低いTCOを実現するための一般標準化されたマネージメント機能
スケーラブルシステムズ株式会社
高速プロセッサ
64ビットアドレス
メモリ性能と容
量
IOバンド幅
インターコネクト
省電力
システムのlsquoバランスrsquo
マルチコアによってプロセッサ単体の処理性能の向上を図る
64ビットのアドレス空間と
拡張されたレジスタによるOSとアプリケーション双方の機能性能拡張
64ビット化とマルチコア化
にともなう高速大容量へのニーズに対応しまたその拡張性の高い実装技術の実現
CPU-メモリ間の高速な
データ転送やより高速なネットワーク大規模なストレージのサポート
大規模なクラスタシステムの構築及びアプリケーションのワークロードに対応した高速性能
エコシステムに対応するためにも電力消費量や発熱量を積極的に抑える技術の開発
スケーラブルシステムズ株式会社
HPCの二極分化
Going UP
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
Going DOWN
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
スケーラブルシステムズ株式会社
システムとユーザの尺度
bull ユーザの尺度での性能(Performance)は時間当たりにどれだけの仕事を処理出来るか(仕事量 時間)
bull Flopsでの評価は実際には意味がないまた問題の規模(small medium large) という評価も難しい
bull ldquoスケーラビリティrdquoは対象を明確に規定する必要がある
システムの尺度 ユーザの尺度
Flops hArr 計算終了までの時間
メモリサイズ(GB) hArr モデルのサイズと計算結果
プロセッサ数 hArr ワークロードでの試行
データ長 hArr 計算精度
システム構成(クラスタ) hArr 導入コストと運用コスト
スケーラビリティ hArr ベンチマーク
スケーラブルシステムズ株式会社
HPCシステムの動向国家プロジェクトと商用製品のギャップの拡大
Going UP
Going DOWN
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
Peta-Scaleコンピューティングに求められる基本技術と現在のHPCの主要マーケットでの要求はあまりにも差が大きいrarrHPCSシステムは各社とのlsquoCommodityrsquoのマイクロプロセッサではなく独自のプロセッサを開発中
ハードウエアはrsquoCommodityrsquo
なものを利用してSWの改善サポート利用技術のサポートが今後の主要マーケットでの成功の鍵となる
スケーラブルシステムズ株式会社
HPCシステムの動向国家プロジェクト
Going UP
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
Peta-Scaleコンピューティングに求められる基本技術と現在のHPCの主要マーケットでの要求はあまりにも差が大きいrarrHPCSシステムは各社とのlsquoCommodityrsquoのマイクロプロセッサではなく独自のプロセッサを開発中
スケーラブルシステムズ株式会社
TOP500性能予測
1993 1995 1997 1999 2001 2003 2005 2007 2009 2011 2013 2015
N=
50
SUM
1 Gflops
1 Tflops
100 Mflops
100 Gflops
100 Tflops
10 Gflops
10 Tflops
1 Pflops
10 Pflops
IBM ASCI White
Blue GeneEarth Simulator
Intel
TOP500の総計が1PFを超えています
TOP500に掲載されるには1TF
が最低条件になっています
シングルシステムの1PFの実現は2009年
システム(プロセッサ数) 13倍年プロセッサ性能向上 14倍年トータル性能 18倍年
2009年までに1ペタFLOPS
スケーラブルシステムズ株式会社
性能ギャップの拡大
bull ピーク性能の大幅な向上ndash 1990年台は性能の向上は102のオーダーでしたが2000年台になると103のオーダーで性能は向上しています
しかしhellipndash 多くの科学技術計算用途のアプリケーションのピーク性能に対する実効性能の比率は5-10となっています(1990年代のベクトル計算機は40-50の対ピーク性能を示していました)
bull 今必要なのはndash より高い実効性能を発揮することが可能な計算アルゴリズムと手法の開発とスケーラビリティの向上
ndash プログラミングモデルなども含めてスケーラブルな計算機環境の構築
01
1
10
100
1000
2000 2004
Tera
flo
ps
1996
Performance
Gap
Peak Performance
Real Performance
NERSC User Group Meeting June 24-25 2004
Osni Marques and Tony Drummond
Lawrence Berkeley National Laboratory
スケーラブルシステムズ株式会社
ペタスケールシステムの構築
bull ソフトウエア(アプリケーションOSプログラミングAPIなど)の課題の克服が課題
bull システムの複雑さと生産性
例Linpack Benchmark
bull オリジナルベンチマークプログラム ~100ライン
bull HPL ベンチマークプログラム ~10000ライン(x100より複雑)
lsquo複雑さrsquoの壁
現在のテラFLOPS級の問題
Source ORNL
スケーラブルシステムズ株式会社
HPCシステムの動向商用製品
Going DOWN
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
ハードウエアはrsquoCommodityrsquo
なものを利用してSWの改善サポート利用技術のサポートが今後の主要マーケットでの成功の鍵となる
スケーラブルシステムズ株式会社
標準コンポーネントの進化
bull プロセッサの性能向上ndash lsquoマルチコアrsquoによる省電力での性能向上が可能
ndash HPCアプリケーションは容易にlsquoマルチコアrsquoの利点を活用可能 (OpenMPやMPI)
bull ファイルシステムndash高性能なスケーラブルファイルシステム(オープンソース)
bull インターコネクトndash PCI-Express (メモリlarrrarrインターコネクト)
ndash高速の商用製品やオープンソースでの強力(OpenIBなど)
スケーラブルシステムズ株式会社
標準コンポーネントの利点
bull 特定のベンダーからのシステムを組み合わせるのではなく他社のシステムも含めてベストなシステムの選択が可能
ndashスケーラブルSMPベクトル計算機クラスタの幅広い選択肢
ndash 64ビットマルチコアマイクロプロセッサの性能向上を最大限に活用
bull 標準コンポーネントの技術革新の活用
ndash PCI-ExpressやFB-DIMMの利用技術
スケーラブルシステムズ株式会社
Breaking the 1-2K nodes Barrier
bull 音の障壁サウンドバリヤー(sound barrier)飛行機の速度が音速近くになると衝撃波の発生によって抵抗の増大境界層の剥離など設計運用上のさまざまな障害(壁)に出合って超音速飛行は不可能かと思われた時代があった(1947年ごろまで)ので音の障壁といわれていた
httpwwwwilk4commiscsoundbreakhtm
クラスタのノード数がある規模に近くなるとその構築や運用において負担の増大システムの安定稼動スケーラビリティなど設計運用上のさまざまな障害(壁)に出合ってクラスタ構築は不可能と思われた時代があった()
スケーラブルシステムズ株式会社
ビルゲイツ氏の基調講演HPC goes mainstream
スケーラブルシステムズ株式会社
「Fast」「Good」「Cheap」のパズル
Fast
+ Cheap
Inferior
高い性能を廉価なシステムで構築することも可能ですただそのようなシステムの場合システムの構築や利用は必ずしも容易ではありません
Good
+ Cheap
Slow比較的小規模なシステムであれば廉価で使い勝手の良いものを探すことは可能ですしかしそのようなシステムでは拡張性やより大規模なシステム構築が出来ません
Good
+ Fast
Expensive
付加価値の高い性能の高いシステムは一般には高価ですその付加価値がユーザにとってメリットが無ければコストパフォーマンスの悪いシステムになるだけです
スケーラブルシステムズ株式会社
まとめとして
bull 「テクノロジー」をどのようにとらえるかndash企業経営基盤のコア要素
ndashユーザの本質的な課題を解決する戦略的な武器
bull マーケットを牽引する「テクノロジ」に求められることndashテクノロジとHPCにおけるITインフラの関係を明確にすること
bull ユーザに何らかのメリットをもたらさない「テクノロジー」は意味を成さない
ndashテクノロジーを最適に組み合わせることで問題解決のためのソリューションの提供が可能
スケーラブルシステムズ株式会社
まとめとして
bull bdquoTs‟ for HPC - インテルテクノロジのHPCにおける価値
ndash インテルテクノロジはHPCにおいて重要な構成要素となっている
ndashそれらの構成要素を統合することでより高い価値の提供が可能となる
ndash二分化しつつあるHPCシステムにおいて「標準コ
ンポーネント」としてのプラットフォームの動向として今後もその動向には注目する必要がある
スケーラブルシステムズ株式会社
さらに詳しい情報はhellip
bull 弊社のコンサルテーションに関するご提案資料もダウンロード可能です(非公開WEBページ)別途弊社に内容等についてはお尋ねください
お問い合わせ先102-0083
東京都千代田区麹町3-5-2
BUREX麹町 8F
電話03-5875-4718
FAX03-3237-7612
E-mailbizsstccojp
httpwwwsstccojp wwwsstccojpbiz
スケーラブルシステムズ株式会社
スケーラブルシステムズ株式会社
ハイエンドコンピューティングに関するコンサルテーションとして幅広いサービスをご提供致します
このサービスを最大限に活用していただくことでコラボレーションによる「顧客志向」 のコン
サルテーションサービスをご提供できればと思っております
スケーラブルシステムズ株式会社
社名製品名などは一般に各社の商標または登録商標です無断での引用転載を禁じます
In general the name of the company and the product name etc are the trademarks or registered trademarks of each company
Copyright Scalable Systems Co Ltd 2005 Unauthorized use is strictly forbidden
2005年11月
スケーラブルシステムズ株式会社
イノベーションのジレンマ
製品の性能
時間
First Technology
Second Technology
Third Technology
RISCアウトオブオーダー実行lt1 instruction cycle
スーパースカラー RISCアウトオブオーダー実行lt2 instructions cycle
明示的並列命令コンピューティング技術 (EPIC)
命令の並列実行度の向上
製品の性能(異なる尺度)
時間
持続的イノベーション
技術革新が顧客の求める性能向上軸(ムーアの法則)に沿っている
破壊的イノベーションマルチコアとマルチスレッドによる並列処理
短期的には(シングルスレッドの性能)としては性能が低下するが将来の大きな性能向上とコスト低下機能強化の可能性が大きい
スケーラブルシステムズ株式会社
マルチコアの利点
ワークロードの処理効率の向上
bull マルチスレッドアプリケーションndash現在多くのアプリケーション(データベース
WEB科学技術計算)はマルチスレッド化
ndashマルチコアプロセッサではこれらのアプリケーションのマルチスレッドでの実行が容易に可能
bull 複数ジョブの処理ndashシステムでは複数のワークロード同時に処理することが必要
ndashマルチコアではこれらのワークロードへの処理が可能
スケーラブルシステムズ株式会社
マルチコアの利点
消費電力あたりの性能を最大にし高性能で低消費電力のシステム構築が可能
bull OS自身のマルチスレッド対応
ndash OSのサービスもマルチスレッドで処理することでより効率よく処理することが可能
bull 仮想化
ndashサーバのセキュリティや管理の強化
ndash管理するノード数を減らし運用コストの削減を図る
bull 最新のソフトウエアテクノロジの活用
スケーラブルシステムズ株式会社
大きな変革しかし容易ではない
マルチコアプロセッシング(または汎用もしくは専用プロセッサをソケットに複数搭載可能なこと)はEthernetの誕生以来ITインフラに対しての大きなインパクトをもたらします
デュアルプロセッサは386プロセッサの発表以来性能に関して最大の向上を実現しますしかしこのような性能向上にはソフトウエアの最適化がプロセッサの性能をフルに発揮するためには必要です
スケーラブルシステムズ株式会社
並列性(Parallelism)の利用
マルチタスク処理
MPIなどによる複数のノード間での並列処理
ユーザ及びコンパイラによるスレッドレベルでの並列処理(TLP)
コンパイラによる命列実行レベルでの並列処理(ILP)
マルチコア
マルチプロセッサ
マルチノード
マルチインストラクション
システム
スケーラブルシステムズ株式会社
ムーアの法則(GHz から MC へ)
マルチコアによる性能向上
動作周波数の向上による性能向上
性能
2005
bullマルチスレッドbullマルチタスクbull トレーニングbullツールbullhelliphellip
並列処理による性能向上についてはシステムサポートやプログラミングサポートなどの面での技術支援が重要です
スケーラブルシステムズ株式会社
Episode VI
Return of the Jedi
Ts for HPC - インテルテクノロジのHPCにおける価値の考察
スケーラブルシステムズ株式会社
将来予測の難しさ
bull ldquoI think there is a world market for maybe five
computersrdquobull Thomas Watson chairman of IBM 1943
bull ldquoThere is no reason for any individual to have a
computer in their homerdquobull Ken Olson president and founder of digital equipment
corporation 1977
bull ldquoThere are only about 100 potential customers
worldwide for a Cray-1rdquobull Seymour Cray 1977
bull ldquo640K [of memory] ought to be enough for
anybodyrdquobull Bill Gates chairman of Microsoft1981
スケーラブルシステムズ株式会社
「未来を予測する最良の方法はそれを創造してしまうことである」The best way to predict future is to invent it
Dr Alan Kay President of Viewpoints Research
Institute Inc
スケーラブルシステムズ株式会社
ITマネージメントの課題
bull プラットフォームの内部からの保護ndash ウイルスやワームなど悪意あるソフトウェアからの保護
bull 資産管理ndash 多くの IT 部門では特定できない資産が問題
bull オンラインおよびリモート管理診断機能 ndash アップグレード診断復旧のための作業の効率化
bull アプリケーション統合の困難さ
ndash アプリケーションの高度化と複雑化によって複数のアプリケーションを組み合わせるての動作に問題
bull 動的なリソース割り当て
ndash 組織内で未使用のCPUやメモリの活用
スケーラブルシステムズ株式会社
マーケットトレンド
All Servers Worldwide 2003 2004 2005 20062003 to 2006
CAGR
2005 to 2006
CAGR
Total Factory Revenue($B) $46149 $49146 $51268 $52251 42 19
Units Shipped(same as nodes) 5278222 6307484 7050099 7472649 123 60
Processor Dies Shipped 8662823 10134624 11712766 12779159 138 91
HPC Technical Servers Worldwide 2003 2004 2005 20062003 to 2006
CAGR
2005 to 2006
CAGR
HPC Server Revenue($B) $5698 $7393 $9208 $10030 207 89
Adjusted Revenues(To much
enterprise)$5128 $6654 $8287 $9027 207 89
Node Units Shipped 411327 734510 1215735 1419221 511 167
Processor Elements Shipped 1002905 1657827 2681079 3351843 495 250
HPC As A Ratio Of All Servers 2003 2004 2005 2006
Revenue($B) 123 150 180 192
Adjusted Revenues(Apples-to-
apples)111 135 162 173
Units Shipped(Nodes) 78 116 172 190
Processors Shipped 116 164 226 261
Source IDC 2007
スケーラブルシステムズ株式会社
HPCマーケット(対全サーバマーケット)
0
5
10
15
20
25
30
2003 2004 2005 2006
Revenue($B)
Adjusted Revenues(Apples-to-apples)
Units Shipped(Nodes)
Processors Shipped
スケーラブルシステムズ株式会社
マーケットトレンド
Source IDC 2004
Cost of mgmt amp admin 10 CAGR
$0
$20
$40
$60
$80
$100
$120
$140
$160
$180
$200
1996 rsquo97 rsquo98 rsquo992000 rsquo01 rsquo02 rsquo03 rsquo04 rsquo05 rsquo06 rsquo07 rsquo08-
New server spending (USM$) 3 CAGR
Spending (USB$)
5
10
15
20
25
30
35
Installed Base (M Units)
bull ハードウェアの減価償却費は IT の TCO 全体の約25 にすぎない
bull ソフトウェアのコストはわずか10~15
bull 電気などの公共料金フロアスペース電話回線など設備面のコストの割合もきわめて小さい
bull プラットフォームのコストではなくTCOの大きな比率を占めるのは人件費となっている
スケーラブルシステムズ株式会社
運用管理コストの低減
bull 「もっと処理性能を」と「より安価に」を実現するためにワークステーションやサーバでの分散処理の導入
bull ユーザや企業に新たな価値をもたらしてはいるが管理責任とその負担の分散を招き結果的に運用管理コストを押し上げる
メインフレームスーパーコンピュータ
仮想化によるサーバコンソリデーション
クラスタによる仮想コンピュータ
スケーラブルシステムズ株式会社
次世代HPCインフラ
bull コアとスレッド
ndash より多くのスレッドを効率よく利用可能
ndash マルチスレッド向け最適化
bull 電力管理
ndash 省電力
ndash データセンター運用管理機能
bull 仮想化
ndash 柔軟性と優れた運用管理
ndash 仮想的なシステムパーティション
bull RAS
ndash ハードウエアベースの自己監視自己管理
ndash ファームウエアベースのエラー履歴管理
bull システム管理
ndash より低いTCOを実現するための一般標準化されたマネージメント機能
スケーラブルシステムズ株式会社
高速プロセッサ
64ビットアドレス
メモリ性能と容
量
IOバンド幅
インターコネクト
省電力
システムのlsquoバランスrsquo
マルチコアによってプロセッサ単体の処理性能の向上を図る
64ビットのアドレス空間と
拡張されたレジスタによるOSとアプリケーション双方の機能性能拡張
64ビット化とマルチコア化
にともなう高速大容量へのニーズに対応しまたその拡張性の高い実装技術の実現
CPU-メモリ間の高速な
データ転送やより高速なネットワーク大規模なストレージのサポート
大規模なクラスタシステムの構築及びアプリケーションのワークロードに対応した高速性能
エコシステムに対応するためにも電力消費量や発熱量を積極的に抑える技術の開発
スケーラブルシステムズ株式会社
HPCの二極分化
Going UP
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
Going DOWN
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
スケーラブルシステムズ株式会社
システムとユーザの尺度
bull ユーザの尺度での性能(Performance)は時間当たりにどれだけの仕事を処理出来るか(仕事量 時間)
bull Flopsでの評価は実際には意味がないまた問題の規模(small medium large) という評価も難しい
bull ldquoスケーラビリティrdquoは対象を明確に規定する必要がある
システムの尺度 ユーザの尺度
Flops hArr 計算終了までの時間
メモリサイズ(GB) hArr モデルのサイズと計算結果
プロセッサ数 hArr ワークロードでの試行
データ長 hArr 計算精度
システム構成(クラスタ) hArr 導入コストと運用コスト
スケーラビリティ hArr ベンチマーク
スケーラブルシステムズ株式会社
HPCシステムの動向国家プロジェクトと商用製品のギャップの拡大
Going UP
Going DOWN
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
Peta-Scaleコンピューティングに求められる基本技術と現在のHPCの主要マーケットでの要求はあまりにも差が大きいrarrHPCSシステムは各社とのlsquoCommodityrsquoのマイクロプロセッサではなく独自のプロセッサを開発中
ハードウエアはrsquoCommodityrsquo
なものを利用してSWの改善サポート利用技術のサポートが今後の主要マーケットでの成功の鍵となる
スケーラブルシステムズ株式会社
HPCシステムの動向国家プロジェクト
Going UP
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
Peta-Scaleコンピューティングに求められる基本技術と現在のHPCの主要マーケットでの要求はあまりにも差が大きいrarrHPCSシステムは各社とのlsquoCommodityrsquoのマイクロプロセッサではなく独自のプロセッサを開発中
スケーラブルシステムズ株式会社
TOP500性能予測
1993 1995 1997 1999 2001 2003 2005 2007 2009 2011 2013 2015
N=
50
SUM
1 Gflops
1 Tflops
100 Mflops
100 Gflops
100 Tflops
10 Gflops
10 Tflops
1 Pflops
10 Pflops
IBM ASCI White
Blue GeneEarth Simulator
Intel
TOP500の総計が1PFを超えています
TOP500に掲載されるには1TF
が最低条件になっています
シングルシステムの1PFの実現は2009年
システム(プロセッサ数) 13倍年プロセッサ性能向上 14倍年トータル性能 18倍年
2009年までに1ペタFLOPS
スケーラブルシステムズ株式会社
性能ギャップの拡大
bull ピーク性能の大幅な向上ndash 1990年台は性能の向上は102のオーダーでしたが2000年台になると103のオーダーで性能は向上しています
しかしhellipndash 多くの科学技術計算用途のアプリケーションのピーク性能に対する実効性能の比率は5-10となっています(1990年代のベクトル計算機は40-50の対ピーク性能を示していました)
bull 今必要なのはndash より高い実効性能を発揮することが可能な計算アルゴリズムと手法の開発とスケーラビリティの向上
ndash プログラミングモデルなども含めてスケーラブルな計算機環境の構築
01
1
10
100
1000
2000 2004
Tera
flo
ps
1996
Performance
Gap
Peak Performance
Real Performance
NERSC User Group Meeting June 24-25 2004
Osni Marques and Tony Drummond
Lawrence Berkeley National Laboratory
スケーラブルシステムズ株式会社
ペタスケールシステムの構築
bull ソフトウエア(アプリケーションOSプログラミングAPIなど)の課題の克服が課題
bull システムの複雑さと生産性
例Linpack Benchmark
bull オリジナルベンチマークプログラム ~100ライン
bull HPL ベンチマークプログラム ~10000ライン(x100より複雑)
lsquo複雑さrsquoの壁
現在のテラFLOPS級の問題
Source ORNL
スケーラブルシステムズ株式会社
HPCシステムの動向商用製品
Going DOWN
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
ハードウエアはrsquoCommodityrsquo
なものを利用してSWの改善サポート利用技術のサポートが今後の主要マーケットでの成功の鍵となる
スケーラブルシステムズ株式会社
標準コンポーネントの進化
bull プロセッサの性能向上ndash lsquoマルチコアrsquoによる省電力での性能向上が可能
ndash HPCアプリケーションは容易にlsquoマルチコアrsquoの利点を活用可能 (OpenMPやMPI)
bull ファイルシステムndash高性能なスケーラブルファイルシステム(オープンソース)
bull インターコネクトndash PCI-Express (メモリlarrrarrインターコネクト)
ndash高速の商用製品やオープンソースでの強力(OpenIBなど)
スケーラブルシステムズ株式会社
標準コンポーネントの利点
bull 特定のベンダーからのシステムを組み合わせるのではなく他社のシステムも含めてベストなシステムの選択が可能
ndashスケーラブルSMPベクトル計算機クラスタの幅広い選択肢
ndash 64ビットマルチコアマイクロプロセッサの性能向上を最大限に活用
bull 標準コンポーネントの技術革新の活用
ndash PCI-ExpressやFB-DIMMの利用技術
スケーラブルシステムズ株式会社
Breaking the 1-2K nodes Barrier
bull 音の障壁サウンドバリヤー(sound barrier)飛行機の速度が音速近くになると衝撃波の発生によって抵抗の増大境界層の剥離など設計運用上のさまざまな障害(壁)に出合って超音速飛行は不可能かと思われた時代があった(1947年ごろまで)ので音の障壁といわれていた
httpwwwwilk4commiscsoundbreakhtm
クラスタのノード数がある規模に近くなるとその構築や運用において負担の増大システムの安定稼動スケーラビリティなど設計運用上のさまざまな障害(壁)に出合ってクラスタ構築は不可能と思われた時代があった()
スケーラブルシステムズ株式会社
ビルゲイツ氏の基調講演HPC goes mainstream
スケーラブルシステムズ株式会社
「Fast」「Good」「Cheap」のパズル
Fast
+ Cheap
Inferior
高い性能を廉価なシステムで構築することも可能ですただそのようなシステムの場合システムの構築や利用は必ずしも容易ではありません
Good
+ Cheap
Slow比較的小規模なシステムであれば廉価で使い勝手の良いものを探すことは可能ですしかしそのようなシステムでは拡張性やより大規模なシステム構築が出来ません
Good
+ Fast
Expensive
付加価値の高い性能の高いシステムは一般には高価ですその付加価値がユーザにとってメリットが無ければコストパフォーマンスの悪いシステムになるだけです
スケーラブルシステムズ株式会社
まとめとして
bull 「テクノロジー」をどのようにとらえるかndash企業経営基盤のコア要素
ndashユーザの本質的な課題を解決する戦略的な武器
bull マーケットを牽引する「テクノロジ」に求められることndashテクノロジとHPCにおけるITインフラの関係を明確にすること
bull ユーザに何らかのメリットをもたらさない「テクノロジー」は意味を成さない
ndashテクノロジーを最適に組み合わせることで問題解決のためのソリューションの提供が可能
スケーラブルシステムズ株式会社
まとめとして
bull bdquoTs‟ for HPC - インテルテクノロジのHPCにおける価値
ndash インテルテクノロジはHPCにおいて重要な構成要素となっている
ndashそれらの構成要素を統合することでより高い価値の提供が可能となる
ndash二分化しつつあるHPCシステムにおいて「標準コ
ンポーネント」としてのプラットフォームの動向として今後もその動向には注目する必要がある
スケーラブルシステムズ株式会社
さらに詳しい情報はhellip
bull 弊社のコンサルテーションに関するご提案資料もダウンロード可能です(非公開WEBページ)別途弊社に内容等についてはお尋ねください
お問い合わせ先102-0083
東京都千代田区麹町3-5-2
BUREX麹町 8F
電話03-5875-4718
FAX03-3237-7612
E-mailbizsstccojp
httpwwwsstccojp wwwsstccojpbiz
スケーラブルシステムズ株式会社
スケーラブルシステムズ株式会社
ハイエンドコンピューティングに関するコンサルテーションとして幅広いサービスをご提供致します
このサービスを最大限に活用していただくことでコラボレーションによる「顧客志向」 のコン
サルテーションサービスをご提供できればと思っております
スケーラブルシステムズ株式会社
社名製品名などは一般に各社の商標または登録商標です無断での引用転載を禁じます
In general the name of the company and the product name etc are the trademarks or registered trademarks of each company
Copyright Scalable Systems Co Ltd 2005 Unauthorized use is strictly forbidden
2005年11月
スケーラブルシステムズ株式会社
マルチコアの利点
ワークロードの処理効率の向上
bull マルチスレッドアプリケーションndash現在多くのアプリケーション(データベース
WEB科学技術計算)はマルチスレッド化
ndashマルチコアプロセッサではこれらのアプリケーションのマルチスレッドでの実行が容易に可能
bull 複数ジョブの処理ndashシステムでは複数のワークロード同時に処理することが必要
ndashマルチコアではこれらのワークロードへの処理が可能
スケーラブルシステムズ株式会社
マルチコアの利点
消費電力あたりの性能を最大にし高性能で低消費電力のシステム構築が可能
bull OS自身のマルチスレッド対応
ndash OSのサービスもマルチスレッドで処理することでより効率よく処理することが可能
bull 仮想化
ndashサーバのセキュリティや管理の強化
ndash管理するノード数を減らし運用コストの削減を図る
bull 最新のソフトウエアテクノロジの活用
スケーラブルシステムズ株式会社
大きな変革しかし容易ではない
マルチコアプロセッシング(または汎用もしくは専用プロセッサをソケットに複数搭載可能なこと)はEthernetの誕生以来ITインフラに対しての大きなインパクトをもたらします
デュアルプロセッサは386プロセッサの発表以来性能に関して最大の向上を実現しますしかしこのような性能向上にはソフトウエアの最適化がプロセッサの性能をフルに発揮するためには必要です
スケーラブルシステムズ株式会社
並列性(Parallelism)の利用
マルチタスク処理
MPIなどによる複数のノード間での並列処理
ユーザ及びコンパイラによるスレッドレベルでの並列処理(TLP)
コンパイラによる命列実行レベルでの並列処理(ILP)
マルチコア
マルチプロセッサ
マルチノード
マルチインストラクション
システム
スケーラブルシステムズ株式会社
ムーアの法則(GHz から MC へ)
マルチコアによる性能向上
動作周波数の向上による性能向上
性能
2005
bullマルチスレッドbullマルチタスクbull トレーニングbullツールbullhelliphellip
並列処理による性能向上についてはシステムサポートやプログラミングサポートなどの面での技術支援が重要です
スケーラブルシステムズ株式会社
Episode VI
Return of the Jedi
Ts for HPC - インテルテクノロジのHPCにおける価値の考察
スケーラブルシステムズ株式会社
将来予測の難しさ
bull ldquoI think there is a world market for maybe five
computersrdquobull Thomas Watson chairman of IBM 1943
bull ldquoThere is no reason for any individual to have a
computer in their homerdquobull Ken Olson president and founder of digital equipment
corporation 1977
bull ldquoThere are only about 100 potential customers
worldwide for a Cray-1rdquobull Seymour Cray 1977
bull ldquo640K [of memory] ought to be enough for
anybodyrdquobull Bill Gates chairman of Microsoft1981
スケーラブルシステムズ株式会社
「未来を予測する最良の方法はそれを創造してしまうことである」The best way to predict future is to invent it
Dr Alan Kay President of Viewpoints Research
Institute Inc
スケーラブルシステムズ株式会社
ITマネージメントの課題
bull プラットフォームの内部からの保護ndash ウイルスやワームなど悪意あるソフトウェアからの保護
bull 資産管理ndash 多くの IT 部門では特定できない資産が問題
bull オンラインおよびリモート管理診断機能 ndash アップグレード診断復旧のための作業の効率化
bull アプリケーション統合の困難さ
ndash アプリケーションの高度化と複雑化によって複数のアプリケーションを組み合わせるての動作に問題
bull 動的なリソース割り当て
ndash 組織内で未使用のCPUやメモリの活用
スケーラブルシステムズ株式会社
マーケットトレンド
All Servers Worldwide 2003 2004 2005 20062003 to 2006
CAGR
2005 to 2006
CAGR
Total Factory Revenue($B) $46149 $49146 $51268 $52251 42 19
Units Shipped(same as nodes) 5278222 6307484 7050099 7472649 123 60
Processor Dies Shipped 8662823 10134624 11712766 12779159 138 91
HPC Technical Servers Worldwide 2003 2004 2005 20062003 to 2006
CAGR
2005 to 2006
CAGR
HPC Server Revenue($B) $5698 $7393 $9208 $10030 207 89
Adjusted Revenues(To much
enterprise)$5128 $6654 $8287 $9027 207 89
Node Units Shipped 411327 734510 1215735 1419221 511 167
Processor Elements Shipped 1002905 1657827 2681079 3351843 495 250
HPC As A Ratio Of All Servers 2003 2004 2005 2006
Revenue($B) 123 150 180 192
Adjusted Revenues(Apples-to-
apples)111 135 162 173
Units Shipped(Nodes) 78 116 172 190
Processors Shipped 116 164 226 261
Source IDC 2007
スケーラブルシステムズ株式会社
HPCマーケット(対全サーバマーケット)
0
5
10
15
20
25
30
2003 2004 2005 2006
Revenue($B)
Adjusted Revenues(Apples-to-apples)
Units Shipped(Nodes)
Processors Shipped
スケーラブルシステムズ株式会社
マーケットトレンド
Source IDC 2004
Cost of mgmt amp admin 10 CAGR
$0
$20
$40
$60
$80
$100
$120
$140
$160
$180
$200
1996 rsquo97 rsquo98 rsquo992000 rsquo01 rsquo02 rsquo03 rsquo04 rsquo05 rsquo06 rsquo07 rsquo08-
New server spending (USM$) 3 CAGR
Spending (USB$)
5
10
15
20
25
30
35
Installed Base (M Units)
bull ハードウェアの減価償却費は IT の TCO 全体の約25 にすぎない
bull ソフトウェアのコストはわずか10~15
bull 電気などの公共料金フロアスペース電話回線など設備面のコストの割合もきわめて小さい
bull プラットフォームのコストではなくTCOの大きな比率を占めるのは人件費となっている
スケーラブルシステムズ株式会社
運用管理コストの低減
bull 「もっと処理性能を」と「より安価に」を実現するためにワークステーションやサーバでの分散処理の導入
bull ユーザや企業に新たな価値をもたらしてはいるが管理責任とその負担の分散を招き結果的に運用管理コストを押し上げる
メインフレームスーパーコンピュータ
仮想化によるサーバコンソリデーション
クラスタによる仮想コンピュータ
スケーラブルシステムズ株式会社
次世代HPCインフラ
bull コアとスレッド
ndash より多くのスレッドを効率よく利用可能
ndash マルチスレッド向け最適化
bull 電力管理
ndash 省電力
ndash データセンター運用管理機能
bull 仮想化
ndash 柔軟性と優れた運用管理
ndash 仮想的なシステムパーティション
bull RAS
ndash ハードウエアベースの自己監視自己管理
ndash ファームウエアベースのエラー履歴管理
bull システム管理
ndash より低いTCOを実現するための一般標準化されたマネージメント機能
スケーラブルシステムズ株式会社
高速プロセッサ
64ビットアドレス
メモリ性能と容
量
IOバンド幅
インターコネクト
省電力
システムのlsquoバランスrsquo
マルチコアによってプロセッサ単体の処理性能の向上を図る
64ビットのアドレス空間と
拡張されたレジスタによるOSとアプリケーション双方の機能性能拡張
64ビット化とマルチコア化
にともなう高速大容量へのニーズに対応しまたその拡張性の高い実装技術の実現
CPU-メモリ間の高速な
データ転送やより高速なネットワーク大規模なストレージのサポート
大規模なクラスタシステムの構築及びアプリケーションのワークロードに対応した高速性能
エコシステムに対応するためにも電力消費量や発熱量を積極的に抑える技術の開発
スケーラブルシステムズ株式会社
HPCの二極分化
Going UP
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
Going DOWN
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
スケーラブルシステムズ株式会社
システムとユーザの尺度
bull ユーザの尺度での性能(Performance)は時間当たりにどれだけの仕事を処理出来るか(仕事量 時間)
bull Flopsでの評価は実際には意味がないまた問題の規模(small medium large) という評価も難しい
bull ldquoスケーラビリティrdquoは対象を明確に規定する必要がある
システムの尺度 ユーザの尺度
Flops hArr 計算終了までの時間
メモリサイズ(GB) hArr モデルのサイズと計算結果
プロセッサ数 hArr ワークロードでの試行
データ長 hArr 計算精度
システム構成(クラスタ) hArr 導入コストと運用コスト
スケーラビリティ hArr ベンチマーク
スケーラブルシステムズ株式会社
HPCシステムの動向国家プロジェクトと商用製品のギャップの拡大
Going UP
Going DOWN
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
Peta-Scaleコンピューティングに求められる基本技術と現在のHPCの主要マーケットでの要求はあまりにも差が大きいrarrHPCSシステムは各社とのlsquoCommodityrsquoのマイクロプロセッサではなく独自のプロセッサを開発中
ハードウエアはrsquoCommodityrsquo
なものを利用してSWの改善サポート利用技術のサポートが今後の主要マーケットでの成功の鍵となる
スケーラブルシステムズ株式会社
HPCシステムの動向国家プロジェクト
Going UP
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
Peta-Scaleコンピューティングに求められる基本技術と現在のHPCの主要マーケットでの要求はあまりにも差が大きいrarrHPCSシステムは各社とのlsquoCommodityrsquoのマイクロプロセッサではなく独自のプロセッサを開発中
スケーラブルシステムズ株式会社
TOP500性能予測
1993 1995 1997 1999 2001 2003 2005 2007 2009 2011 2013 2015
N=
50
SUM
1 Gflops
1 Tflops
100 Mflops
100 Gflops
100 Tflops
10 Gflops
10 Tflops
1 Pflops
10 Pflops
IBM ASCI White
Blue GeneEarth Simulator
Intel
TOP500の総計が1PFを超えています
TOP500に掲載されるには1TF
が最低条件になっています
シングルシステムの1PFの実現は2009年
システム(プロセッサ数) 13倍年プロセッサ性能向上 14倍年トータル性能 18倍年
2009年までに1ペタFLOPS
スケーラブルシステムズ株式会社
性能ギャップの拡大
bull ピーク性能の大幅な向上ndash 1990年台は性能の向上は102のオーダーでしたが2000年台になると103のオーダーで性能は向上しています
しかしhellipndash 多くの科学技術計算用途のアプリケーションのピーク性能に対する実効性能の比率は5-10となっています(1990年代のベクトル計算機は40-50の対ピーク性能を示していました)
bull 今必要なのはndash より高い実効性能を発揮することが可能な計算アルゴリズムと手法の開発とスケーラビリティの向上
ndash プログラミングモデルなども含めてスケーラブルな計算機環境の構築
01
1
10
100
1000
2000 2004
Tera
flo
ps
1996
Performance
Gap
Peak Performance
Real Performance
NERSC User Group Meeting June 24-25 2004
Osni Marques and Tony Drummond
Lawrence Berkeley National Laboratory
スケーラブルシステムズ株式会社
ペタスケールシステムの構築
bull ソフトウエア(アプリケーションOSプログラミングAPIなど)の課題の克服が課題
bull システムの複雑さと生産性
例Linpack Benchmark
bull オリジナルベンチマークプログラム ~100ライン
bull HPL ベンチマークプログラム ~10000ライン(x100より複雑)
lsquo複雑さrsquoの壁
現在のテラFLOPS級の問題
Source ORNL
スケーラブルシステムズ株式会社
HPCシステムの動向商用製品
Going DOWN
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
ハードウエアはrsquoCommodityrsquo
なものを利用してSWの改善サポート利用技術のサポートが今後の主要マーケットでの成功の鍵となる
スケーラブルシステムズ株式会社
標準コンポーネントの進化
bull プロセッサの性能向上ndash lsquoマルチコアrsquoによる省電力での性能向上が可能
ndash HPCアプリケーションは容易にlsquoマルチコアrsquoの利点を活用可能 (OpenMPやMPI)
bull ファイルシステムndash高性能なスケーラブルファイルシステム(オープンソース)
bull インターコネクトndash PCI-Express (メモリlarrrarrインターコネクト)
ndash高速の商用製品やオープンソースでの強力(OpenIBなど)
スケーラブルシステムズ株式会社
標準コンポーネントの利点
bull 特定のベンダーからのシステムを組み合わせるのではなく他社のシステムも含めてベストなシステムの選択が可能
ndashスケーラブルSMPベクトル計算機クラスタの幅広い選択肢
ndash 64ビットマルチコアマイクロプロセッサの性能向上を最大限に活用
bull 標準コンポーネントの技術革新の活用
ndash PCI-ExpressやFB-DIMMの利用技術
スケーラブルシステムズ株式会社
Breaking the 1-2K nodes Barrier
bull 音の障壁サウンドバリヤー(sound barrier)飛行機の速度が音速近くになると衝撃波の発生によって抵抗の増大境界層の剥離など設計運用上のさまざまな障害(壁)に出合って超音速飛行は不可能かと思われた時代があった(1947年ごろまで)ので音の障壁といわれていた
httpwwwwilk4commiscsoundbreakhtm
クラスタのノード数がある規模に近くなるとその構築や運用において負担の増大システムの安定稼動スケーラビリティなど設計運用上のさまざまな障害(壁)に出合ってクラスタ構築は不可能と思われた時代があった()
スケーラブルシステムズ株式会社
ビルゲイツ氏の基調講演HPC goes mainstream
スケーラブルシステムズ株式会社
「Fast」「Good」「Cheap」のパズル
Fast
+ Cheap
Inferior
高い性能を廉価なシステムで構築することも可能ですただそのようなシステムの場合システムの構築や利用は必ずしも容易ではありません
Good
+ Cheap
Slow比較的小規模なシステムであれば廉価で使い勝手の良いものを探すことは可能ですしかしそのようなシステムでは拡張性やより大規模なシステム構築が出来ません
Good
+ Fast
Expensive
付加価値の高い性能の高いシステムは一般には高価ですその付加価値がユーザにとってメリットが無ければコストパフォーマンスの悪いシステムになるだけです
スケーラブルシステムズ株式会社
まとめとして
bull 「テクノロジー」をどのようにとらえるかndash企業経営基盤のコア要素
ndashユーザの本質的な課題を解決する戦略的な武器
bull マーケットを牽引する「テクノロジ」に求められることndashテクノロジとHPCにおけるITインフラの関係を明確にすること
bull ユーザに何らかのメリットをもたらさない「テクノロジー」は意味を成さない
ndashテクノロジーを最適に組み合わせることで問題解決のためのソリューションの提供が可能
スケーラブルシステムズ株式会社
まとめとして
bull bdquoTs‟ for HPC - インテルテクノロジのHPCにおける価値
ndash インテルテクノロジはHPCにおいて重要な構成要素となっている
ndashそれらの構成要素を統合することでより高い価値の提供が可能となる
ndash二分化しつつあるHPCシステムにおいて「標準コ
ンポーネント」としてのプラットフォームの動向として今後もその動向には注目する必要がある
スケーラブルシステムズ株式会社
さらに詳しい情報はhellip
bull 弊社のコンサルテーションに関するご提案資料もダウンロード可能です(非公開WEBページ)別途弊社に内容等についてはお尋ねください
お問い合わせ先102-0083
東京都千代田区麹町3-5-2
BUREX麹町 8F
電話03-5875-4718
FAX03-3237-7612
E-mailbizsstccojp
httpwwwsstccojp wwwsstccojpbiz
スケーラブルシステムズ株式会社
スケーラブルシステムズ株式会社
ハイエンドコンピューティングに関するコンサルテーションとして幅広いサービスをご提供致します
このサービスを最大限に活用していただくことでコラボレーションによる「顧客志向」 のコン
サルテーションサービスをご提供できればと思っております
スケーラブルシステムズ株式会社
社名製品名などは一般に各社の商標または登録商標です無断での引用転載を禁じます
In general the name of the company and the product name etc are the trademarks or registered trademarks of each company
Copyright Scalable Systems Co Ltd 2005 Unauthorized use is strictly forbidden
2005年11月
スケーラブルシステムズ株式会社
マルチコアの利点
消費電力あたりの性能を最大にし高性能で低消費電力のシステム構築が可能
bull OS自身のマルチスレッド対応
ndash OSのサービスもマルチスレッドで処理することでより効率よく処理することが可能
bull 仮想化
ndashサーバのセキュリティや管理の強化
ndash管理するノード数を減らし運用コストの削減を図る
bull 最新のソフトウエアテクノロジの活用
スケーラブルシステムズ株式会社
大きな変革しかし容易ではない
マルチコアプロセッシング(または汎用もしくは専用プロセッサをソケットに複数搭載可能なこと)はEthernetの誕生以来ITインフラに対しての大きなインパクトをもたらします
デュアルプロセッサは386プロセッサの発表以来性能に関して最大の向上を実現しますしかしこのような性能向上にはソフトウエアの最適化がプロセッサの性能をフルに発揮するためには必要です
スケーラブルシステムズ株式会社
並列性(Parallelism)の利用
マルチタスク処理
MPIなどによる複数のノード間での並列処理
ユーザ及びコンパイラによるスレッドレベルでの並列処理(TLP)
コンパイラによる命列実行レベルでの並列処理(ILP)
マルチコア
マルチプロセッサ
マルチノード
マルチインストラクション
システム
スケーラブルシステムズ株式会社
ムーアの法則(GHz から MC へ)
マルチコアによる性能向上
動作周波数の向上による性能向上
性能
2005
bullマルチスレッドbullマルチタスクbull トレーニングbullツールbullhelliphellip
並列処理による性能向上についてはシステムサポートやプログラミングサポートなどの面での技術支援が重要です
スケーラブルシステムズ株式会社
Episode VI
Return of the Jedi
Ts for HPC - インテルテクノロジのHPCにおける価値の考察
スケーラブルシステムズ株式会社
将来予測の難しさ
bull ldquoI think there is a world market for maybe five
computersrdquobull Thomas Watson chairman of IBM 1943
bull ldquoThere is no reason for any individual to have a
computer in their homerdquobull Ken Olson president and founder of digital equipment
corporation 1977
bull ldquoThere are only about 100 potential customers
worldwide for a Cray-1rdquobull Seymour Cray 1977
bull ldquo640K [of memory] ought to be enough for
anybodyrdquobull Bill Gates chairman of Microsoft1981
スケーラブルシステムズ株式会社
「未来を予測する最良の方法はそれを創造してしまうことである」The best way to predict future is to invent it
Dr Alan Kay President of Viewpoints Research
Institute Inc
スケーラブルシステムズ株式会社
ITマネージメントの課題
bull プラットフォームの内部からの保護ndash ウイルスやワームなど悪意あるソフトウェアからの保護
bull 資産管理ndash 多くの IT 部門では特定できない資産が問題
bull オンラインおよびリモート管理診断機能 ndash アップグレード診断復旧のための作業の効率化
bull アプリケーション統合の困難さ
ndash アプリケーションの高度化と複雑化によって複数のアプリケーションを組み合わせるての動作に問題
bull 動的なリソース割り当て
ndash 組織内で未使用のCPUやメモリの活用
スケーラブルシステムズ株式会社
マーケットトレンド
All Servers Worldwide 2003 2004 2005 20062003 to 2006
CAGR
2005 to 2006
CAGR
Total Factory Revenue($B) $46149 $49146 $51268 $52251 42 19
Units Shipped(same as nodes) 5278222 6307484 7050099 7472649 123 60
Processor Dies Shipped 8662823 10134624 11712766 12779159 138 91
HPC Technical Servers Worldwide 2003 2004 2005 20062003 to 2006
CAGR
2005 to 2006
CAGR
HPC Server Revenue($B) $5698 $7393 $9208 $10030 207 89
Adjusted Revenues(To much
enterprise)$5128 $6654 $8287 $9027 207 89
Node Units Shipped 411327 734510 1215735 1419221 511 167
Processor Elements Shipped 1002905 1657827 2681079 3351843 495 250
HPC As A Ratio Of All Servers 2003 2004 2005 2006
Revenue($B) 123 150 180 192
Adjusted Revenues(Apples-to-
apples)111 135 162 173
Units Shipped(Nodes) 78 116 172 190
Processors Shipped 116 164 226 261
Source IDC 2007
スケーラブルシステムズ株式会社
HPCマーケット(対全サーバマーケット)
0
5
10
15
20
25
30
2003 2004 2005 2006
Revenue($B)
Adjusted Revenues(Apples-to-apples)
Units Shipped(Nodes)
Processors Shipped
スケーラブルシステムズ株式会社
マーケットトレンド
Source IDC 2004
Cost of mgmt amp admin 10 CAGR
$0
$20
$40
$60
$80
$100
$120
$140
$160
$180
$200
1996 rsquo97 rsquo98 rsquo992000 rsquo01 rsquo02 rsquo03 rsquo04 rsquo05 rsquo06 rsquo07 rsquo08-
New server spending (USM$) 3 CAGR
Spending (USB$)
5
10
15
20
25
30
35
Installed Base (M Units)
bull ハードウェアの減価償却費は IT の TCO 全体の約25 にすぎない
bull ソフトウェアのコストはわずか10~15
bull 電気などの公共料金フロアスペース電話回線など設備面のコストの割合もきわめて小さい
bull プラットフォームのコストではなくTCOの大きな比率を占めるのは人件費となっている
スケーラブルシステムズ株式会社
運用管理コストの低減
bull 「もっと処理性能を」と「より安価に」を実現するためにワークステーションやサーバでの分散処理の導入
bull ユーザや企業に新たな価値をもたらしてはいるが管理責任とその負担の分散を招き結果的に運用管理コストを押し上げる
メインフレームスーパーコンピュータ
仮想化によるサーバコンソリデーション
クラスタによる仮想コンピュータ
スケーラブルシステムズ株式会社
次世代HPCインフラ
bull コアとスレッド
ndash より多くのスレッドを効率よく利用可能
ndash マルチスレッド向け最適化
bull 電力管理
ndash 省電力
ndash データセンター運用管理機能
bull 仮想化
ndash 柔軟性と優れた運用管理
ndash 仮想的なシステムパーティション
bull RAS
ndash ハードウエアベースの自己監視自己管理
ndash ファームウエアベースのエラー履歴管理
bull システム管理
ndash より低いTCOを実現するための一般標準化されたマネージメント機能
スケーラブルシステムズ株式会社
高速プロセッサ
64ビットアドレス
メモリ性能と容
量
IOバンド幅
インターコネクト
省電力
システムのlsquoバランスrsquo
マルチコアによってプロセッサ単体の処理性能の向上を図る
64ビットのアドレス空間と
拡張されたレジスタによるOSとアプリケーション双方の機能性能拡張
64ビット化とマルチコア化
にともなう高速大容量へのニーズに対応しまたその拡張性の高い実装技術の実現
CPU-メモリ間の高速な
データ転送やより高速なネットワーク大規模なストレージのサポート
大規模なクラスタシステムの構築及びアプリケーションのワークロードに対応した高速性能
エコシステムに対応するためにも電力消費量や発熱量を積極的に抑える技術の開発
スケーラブルシステムズ株式会社
HPCの二極分化
Going UP
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
Going DOWN
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
スケーラブルシステムズ株式会社
システムとユーザの尺度
bull ユーザの尺度での性能(Performance)は時間当たりにどれだけの仕事を処理出来るか(仕事量 時間)
bull Flopsでの評価は実際には意味がないまた問題の規模(small medium large) という評価も難しい
bull ldquoスケーラビリティrdquoは対象を明確に規定する必要がある
システムの尺度 ユーザの尺度
Flops hArr 計算終了までの時間
メモリサイズ(GB) hArr モデルのサイズと計算結果
プロセッサ数 hArr ワークロードでの試行
データ長 hArr 計算精度
システム構成(クラスタ) hArr 導入コストと運用コスト
スケーラビリティ hArr ベンチマーク
スケーラブルシステムズ株式会社
HPCシステムの動向国家プロジェクトと商用製品のギャップの拡大
Going UP
Going DOWN
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
Peta-Scaleコンピューティングに求められる基本技術と現在のHPCの主要マーケットでの要求はあまりにも差が大きいrarrHPCSシステムは各社とのlsquoCommodityrsquoのマイクロプロセッサではなく独自のプロセッサを開発中
ハードウエアはrsquoCommodityrsquo
なものを利用してSWの改善サポート利用技術のサポートが今後の主要マーケットでの成功の鍵となる
スケーラブルシステムズ株式会社
HPCシステムの動向国家プロジェクト
Going UP
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
Peta-Scaleコンピューティングに求められる基本技術と現在のHPCの主要マーケットでの要求はあまりにも差が大きいrarrHPCSシステムは各社とのlsquoCommodityrsquoのマイクロプロセッサではなく独自のプロセッサを開発中
スケーラブルシステムズ株式会社
TOP500性能予測
1993 1995 1997 1999 2001 2003 2005 2007 2009 2011 2013 2015
N=
50
SUM
1 Gflops
1 Tflops
100 Mflops
100 Gflops
100 Tflops
10 Gflops
10 Tflops
1 Pflops
10 Pflops
IBM ASCI White
Blue GeneEarth Simulator
Intel
TOP500の総計が1PFを超えています
TOP500に掲載されるには1TF
が最低条件になっています
シングルシステムの1PFの実現は2009年
システム(プロセッサ数) 13倍年プロセッサ性能向上 14倍年トータル性能 18倍年
2009年までに1ペタFLOPS
スケーラブルシステムズ株式会社
性能ギャップの拡大
bull ピーク性能の大幅な向上ndash 1990年台は性能の向上は102のオーダーでしたが2000年台になると103のオーダーで性能は向上しています
しかしhellipndash 多くの科学技術計算用途のアプリケーションのピーク性能に対する実効性能の比率は5-10となっています(1990年代のベクトル計算機は40-50の対ピーク性能を示していました)
bull 今必要なのはndash より高い実効性能を発揮することが可能な計算アルゴリズムと手法の開発とスケーラビリティの向上
ndash プログラミングモデルなども含めてスケーラブルな計算機環境の構築
01
1
10
100
1000
2000 2004
Tera
flo
ps
1996
Performance
Gap
Peak Performance
Real Performance
NERSC User Group Meeting June 24-25 2004
Osni Marques and Tony Drummond
Lawrence Berkeley National Laboratory
スケーラブルシステムズ株式会社
ペタスケールシステムの構築
bull ソフトウエア(アプリケーションOSプログラミングAPIなど)の課題の克服が課題
bull システムの複雑さと生産性
例Linpack Benchmark
bull オリジナルベンチマークプログラム ~100ライン
bull HPL ベンチマークプログラム ~10000ライン(x100より複雑)
lsquo複雑さrsquoの壁
現在のテラFLOPS級の問題
Source ORNL
スケーラブルシステムズ株式会社
HPCシステムの動向商用製品
Going DOWN
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
ハードウエアはrsquoCommodityrsquo
なものを利用してSWの改善サポート利用技術のサポートが今後の主要マーケットでの成功の鍵となる
スケーラブルシステムズ株式会社
標準コンポーネントの進化
bull プロセッサの性能向上ndash lsquoマルチコアrsquoによる省電力での性能向上が可能
ndash HPCアプリケーションは容易にlsquoマルチコアrsquoの利点を活用可能 (OpenMPやMPI)
bull ファイルシステムndash高性能なスケーラブルファイルシステム(オープンソース)
bull インターコネクトndash PCI-Express (メモリlarrrarrインターコネクト)
ndash高速の商用製品やオープンソースでの強力(OpenIBなど)
スケーラブルシステムズ株式会社
標準コンポーネントの利点
bull 特定のベンダーからのシステムを組み合わせるのではなく他社のシステムも含めてベストなシステムの選択が可能
ndashスケーラブルSMPベクトル計算機クラスタの幅広い選択肢
ndash 64ビットマルチコアマイクロプロセッサの性能向上を最大限に活用
bull 標準コンポーネントの技術革新の活用
ndash PCI-ExpressやFB-DIMMの利用技術
スケーラブルシステムズ株式会社
Breaking the 1-2K nodes Barrier
bull 音の障壁サウンドバリヤー(sound barrier)飛行機の速度が音速近くになると衝撃波の発生によって抵抗の増大境界層の剥離など設計運用上のさまざまな障害(壁)に出合って超音速飛行は不可能かと思われた時代があった(1947年ごろまで)ので音の障壁といわれていた
httpwwwwilk4commiscsoundbreakhtm
クラスタのノード数がある規模に近くなるとその構築や運用において負担の増大システムの安定稼動スケーラビリティなど設計運用上のさまざまな障害(壁)に出合ってクラスタ構築は不可能と思われた時代があった()
スケーラブルシステムズ株式会社
ビルゲイツ氏の基調講演HPC goes mainstream
スケーラブルシステムズ株式会社
「Fast」「Good」「Cheap」のパズル
Fast
+ Cheap
Inferior
高い性能を廉価なシステムで構築することも可能ですただそのようなシステムの場合システムの構築や利用は必ずしも容易ではありません
Good
+ Cheap
Slow比較的小規模なシステムであれば廉価で使い勝手の良いものを探すことは可能ですしかしそのようなシステムでは拡張性やより大規模なシステム構築が出来ません
Good
+ Fast
Expensive
付加価値の高い性能の高いシステムは一般には高価ですその付加価値がユーザにとってメリットが無ければコストパフォーマンスの悪いシステムになるだけです
スケーラブルシステムズ株式会社
まとめとして
bull 「テクノロジー」をどのようにとらえるかndash企業経営基盤のコア要素
ndashユーザの本質的な課題を解決する戦略的な武器
bull マーケットを牽引する「テクノロジ」に求められることndashテクノロジとHPCにおけるITインフラの関係を明確にすること
bull ユーザに何らかのメリットをもたらさない「テクノロジー」は意味を成さない
ndashテクノロジーを最適に組み合わせることで問題解決のためのソリューションの提供が可能
スケーラブルシステムズ株式会社
まとめとして
bull bdquoTs‟ for HPC - インテルテクノロジのHPCにおける価値
ndash インテルテクノロジはHPCにおいて重要な構成要素となっている
ndashそれらの構成要素を統合することでより高い価値の提供が可能となる
ndash二分化しつつあるHPCシステムにおいて「標準コ
ンポーネント」としてのプラットフォームの動向として今後もその動向には注目する必要がある
スケーラブルシステムズ株式会社
さらに詳しい情報はhellip
bull 弊社のコンサルテーションに関するご提案資料もダウンロード可能です(非公開WEBページ)別途弊社に内容等についてはお尋ねください
お問い合わせ先102-0083
東京都千代田区麹町3-5-2
BUREX麹町 8F
電話03-5875-4718
FAX03-3237-7612
E-mailbizsstccojp
httpwwwsstccojp wwwsstccojpbiz
スケーラブルシステムズ株式会社
スケーラブルシステムズ株式会社
ハイエンドコンピューティングに関するコンサルテーションとして幅広いサービスをご提供致します
このサービスを最大限に活用していただくことでコラボレーションによる「顧客志向」 のコン
サルテーションサービスをご提供できればと思っております
スケーラブルシステムズ株式会社
社名製品名などは一般に各社の商標または登録商標です無断での引用転載を禁じます
In general the name of the company and the product name etc are the trademarks or registered trademarks of each company
Copyright Scalable Systems Co Ltd 2005 Unauthorized use is strictly forbidden
2005年11月
スケーラブルシステムズ株式会社
大きな変革しかし容易ではない
マルチコアプロセッシング(または汎用もしくは専用プロセッサをソケットに複数搭載可能なこと)はEthernetの誕生以来ITインフラに対しての大きなインパクトをもたらします
デュアルプロセッサは386プロセッサの発表以来性能に関して最大の向上を実現しますしかしこのような性能向上にはソフトウエアの最適化がプロセッサの性能をフルに発揮するためには必要です
スケーラブルシステムズ株式会社
並列性(Parallelism)の利用
マルチタスク処理
MPIなどによる複数のノード間での並列処理
ユーザ及びコンパイラによるスレッドレベルでの並列処理(TLP)
コンパイラによる命列実行レベルでの並列処理(ILP)
マルチコア
マルチプロセッサ
マルチノード
マルチインストラクション
システム
スケーラブルシステムズ株式会社
ムーアの法則(GHz から MC へ)
マルチコアによる性能向上
動作周波数の向上による性能向上
性能
2005
bullマルチスレッドbullマルチタスクbull トレーニングbullツールbullhelliphellip
並列処理による性能向上についてはシステムサポートやプログラミングサポートなどの面での技術支援が重要です
スケーラブルシステムズ株式会社
Episode VI
Return of the Jedi
Ts for HPC - インテルテクノロジのHPCにおける価値の考察
スケーラブルシステムズ株式会社
将来予測の難しさ
bull ldquoI think there is a world market for maybe five
computersrdquobull Thomas Watson chairman of IBM 1943
bull ldquoThere is no reason for any individual to have a
computer in their homerdquobull Ken Olson president and founder of digital equipment
corporation 1977
bull ldquoThere are only about 100 potential customers
worldwide for a Cray-1rdquobull Seymour Cray 1977
bull ldquo640K [of memory] ought to be enough for
anybodyrdquobull Bill Gates chairman of Microsoft1981
スケーラブルシステムズ株式会社
「未来を予測する最良の方法はそれを創造してしまうことである」The best way to predict future is to invent it
Dr Alan Kay President of Viewpoints Research
Institute Inc
スケーラブルシステムズ株式会社
ITマネージメントの課題
bull プラットフォームの内部からの保護ndash ウイルスやワームなど悪意あるソフトウェアからの保護
bull 資産管理ndash 多くの IT 部門では特定できない資産が問題
bull オンラインおよびリモート管理診断機能 ndash アップグレード診断復旧のための作業の効率化
bull アプリケーション統合の困難さ
ndash アプリケーションの高度化と複雑化によって複数のアプリケーションを組み合わせるての動作に問題
bull 動的なリソース割り当て
ndash 組織内で未使用のCPUやメモリの活用
スケーラブルシステムズ株式会社
マーケットトレンド
All Servers Worldwide 2003 2004 2005 20062003 to 2006
CAGR
2005 to 2006
CAGR
Total Factory Revenue($B) $46149 $49146 $51268 $52251 42 19
Units Shipped(same as nodes) 5278222 6307484 7050099 7472649 123 60
Processor Dies Shipped 8662823 10134624 11712766 12779159 138 91
HPC Technical Servers Worldwide 2003 2004 2005 20062003 to 2006
CAGR
2005 to 2006
CAGR
HPC Server Revenue($B) $5698 $7393 $9208 $10030 207 89
Adjusted Revenues(To much
enterprise)$5128 $6654 $8287 $9027 207 89
Node Units Shipped 411327 734510 1215735 1419221 511 167
Processor Elements Shipped 1002905 1657827 2681079 3351843 495 250
HPC As A Ratio Of All Servers 2003 2004 2005 2006
Revenue($B) 123 150 180 192
Adjusted Revenues(Apples-to-
apples)111 135 162 173
Units Shipped(Nodes) 78 116 172 190
Processors Shipped 116 164 226 261
Source IDC 2007
スケーラブルシステムズ株式会社
HPCマーケット(対全サーバマーケット)
0
5
10
15
20
25
30
2003 2004 2005 2006
Revenue($B)
Adjusted Revenues(Apples-to-apples)
Units Shipped(Nodes)
Processors Shipped
スケーラブルシステムズ株式会社
マーケットトレンド
Source IDC 2004
Cost of mgmt amp admin 10 CAGR
$0
$20
$40
$60
$80
$100
$120
$140
$160
$180
$200
1996 rsquo97 rsquo98 rsquo992000 rsquo01 rsquo02 rsquo03 rsquo04 rsquo05 rsquo06 rsquo07 rsquo08-
New server spending (USM$) 3 CAGR
Spending (USB$)
5
10
15
20
25
30
35
Installed Base (M Units)
bull ハードウェアの減価償却費は IT の TCO 全体の約25 にすぎない
bull ソフトウェアのコストはわずか10~15
bull 電気などの公共料金フロアスペース電話回線など設備面のコストの割合もきわめて小さい
bull プラットフォームのコストではなくTCOの大きな比率を占めるのは人件費となっている
スケーラブルシステムズ株式会社
運用管理コストの低減
bull 「もっと処理性能を」と「より安価に」を実現するためにワークステーションやサーバでの分散処理の導入
bull ユーザや企業に新たな価値をもたらしてはいるが管理責任とその負担の分散を招き結果的に運用管理コストを押し上げる
メインフレームスーパーコンピュータ
仮想化によるサーバコンソリデーション
クラスタによる仮想コンピュータ
スケーラブルシステムズ株式会社
次世代HPCインフラ
bull コアとスレッド
ndash より多くのスレッドを効率よく利用可能
ndash マルチスレッド向け最適化
bull 電力管理
ndash 省電力
ndash データセンター運用管理機能
bull 仮想化
ndash 柔軟性と優れた運用管理
ndash 仮想的なシステムパーティション
bull RAS
ndash ハードウエアベースの自己監視自己管理
ndash ファームウエアベースのエラー履歴管理
bull システム管理
ndash より低いTCOを実現するための一般標準化されたマネージメント機能
スケーラブルシステムズ株式会社
高速プロセッサ
64ビットアドレス
メモリ性能と容
量
IOバンド幅
インターコネクト
省電力
システムのlsquoバランスrsquo
マルチコアによってプロセッサ単体の処理性能の向上を図る
64ビットのアドレス空間と
拡張されたレジスタによるOSとアプリケーション双方の機能性能拡張
64ビット化とマルチコア化
にともなう高速大容量へのニーズに対応しまたその拡張性の高い実装技術の実現
CPU-メモリ間の高速な
データ転送やより高速なネットワーク大規模なストレージのサポート
大規模なクラスタシステムの構築及びアプリケーションのワークロードに対応した高速性能
エコシステムに対応するためにも電力消費量や発熱量を積極的に抑える技術の開発
スケーラブルシステムズ株式会社
HPCの二極分化
Going UP
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
Going DOWN
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
スケーラブルシステムズ株式会社
システムとユーザの尺度
bull ユーザの尺度での性能(Performance)は時間当たりにどれだけの仕事を処理出来るか(仕事量 時間)
bull Flopsでの評価は実際には意味がないまた問題の規模(small medium large) という評価も難しい
bull ldquoスケーラビリティrdquoは対象を明確に規定する必要がある
システムの尺度 ユーザの尺度
Flops hArr 計算終了までの時間
メモリサイズ(GB) hArr モデルのサイズと計算結果
プロセッサ数 hArr ワークロードでの試行
データ長 hArr 計算精度
システム構成(クラスタ) hArr 導入コストと運用コスト
スケーラビリティ hArr ベンチマーク
スケーラブルシステムズ株式会社
HPCシステムの動向国家プロジェクトと商用製品のギャップの拡大
Going UP
Going DOWN
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
Peta-Scaleコンピューティングに求められる基本技術と現在のHPCの主要マーケットでの要求はあまりにも差が大きいrarrHPCSシステムは各社とのlsquoCommodityrsquoのマイクロプロセッサではなく独自のプロセッサを開発中
ハードウエアはrsquoCommodityrsquo
なものを利用してSWの改善サポート利用技術のサポートが今後の主要マーケットでの成功の鍵となる
スケーラブルシステムズ株式会社
HPCシステムの動向国家プロジェクト
Going UP
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
Peta-Scaleコンピューティングに求められる基本技術と現在のHPCの主要マーケットでの要求はあまりにも差が大きいrarrHPCSシステムは各社とのlsquoCommodityrsquoのマイクロプロセッサではなく独自のプロセッサを開発中
スケーラブルシステムズ株式会社
TOP500性能予測
1993 1995 1997 1999 2001 2003 2005 2007 2009 2011 2013 2015
N=
50
SUM
1 Gflops
1 Tflops
100 Mflops
100 Gflops
100 Tflops
10 Gflops
10 Tflops
1 Pflops
10 Pflops
IBM ASCI White
Blue GeneEarth Simulator
Intel
TOP500の総計が1PFを超えています
TOP500に掲載されるには1TF
が最低条件になっています
シングルシステムの1PFの実現は2009年
システム(プロセッサ数) 13倍年プロセッサ性能向上 14倍年トータル性能 18倍年
2009年までに1ペタFLOPS
スケーラブルシステムズ株式会社
性能ギャップの拡大
bull ピーク性能の大幅な向上ndash 1990年台は性能の向上は102のオーダーでしたが2000年台になると103のオーダーで性能は向上しています
しかしhellipndash 多くの科学技術計算用途のアプリケーションのピーク性能に対する実効性能の比率は5-10となっています(1990年代のベクトル計算機は40-50の対ピーク性能を示していました)
bull 今必要なのはndash より高い実効性能を発揮することが可能な計算アルゴリズムと手法の開発とスケーラビリティの向上
ndash プログラミングモデルなども含めてスケーラブルな計算機環境の構築
01
1
10
100
1000
2000 2004
Tera
flo
ps
1996
Performance
Gap
Peak Performance
Real Performance
NERSC User Group Meeting June 24-25 2004
Osni Marques and Tony Drummond
Lawrence Berkeley National Laboratory
スケーラブルシステムズ株式会社
ペタスケールシステムの構築
bull ソフトウエア(アプリケーションOSプログラミングAPIなど)の課題の克服が課題
bull システムの複雑さと生産性
例Linpack Benchmark
bull オリジナルベンチマークプログラム ~100ライン
bull HPL ベンチマークプログラム ~10000ライン(x100より複雑)
lsquo複雑さrsquoの壁
現在のテラFLOPS級の問題
Source ORNL
スケーラブルシステムズ株式会社
HPCシステムの動向商用製品
Going DOWN
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
ハードウエアはrsquoCommodityrsquo
なものを利用してSWの改善サポート利用技術のサポートが今後の主要マーケットでの成功の鍵となる
スケーラブルシステムズ株式会社
標準コンポーネントの進化
bull プロセッサの性能向上ndash lsquoマルチコアrsquoによる省電力での性能向上が可能
ndash HPCアプリケーションは容易にlsquoマルチコアrsquoの利点を活用可能 (OpenMPやMPI)
bull ファイルシステムndash高性能なスケーラブルファイルシステム(オープンソース)
bull インターコネクトndash PCI-Express (メモリlarrrarrインターコネクト)
ndash高速の商用製品やオープンソースでの強力(OpenIBなど)
スケーラブルシステムズ株式会社
標準コンポーネントの利点
bull 特定のベンダーからのシステムを組み合わせるのではなく他社のシステムも含めてベストなシステムの選択が可能
ndashスケーラブルSMPベクトル計算機クラスタの幅広い選択肢
ndash 64ビットマルチコアマイクロプロセッサの性能向上を最大限に活用
bull 標準コンポーネントの技術革新の活用
ndash PCI-ExpressやFB-DIMMの利用技術
スケーラブルシステムズ株式会社
Breaking the 1-2K nodes Barrier
bull 音の障壁サウンドバリヤー(sound barrier)飛行機の速度が音速近くになると衝撃波の発生によって抵抗の増大境界層の剥離など設計運用上のさまざまな障害(壁)に出合って超音速飛行は不可能かと思われた時代があった(1947年ごろまで)ので音の障壁といわれていた
httpwwwwilk4commiscsoundbreakhtm
クラスタのノード数がある規模に近くなるとその構築や運用において負担の増大システムの安定稼動スケーラビリティなど設計運用上のさまざまな障害(壁)に出合ってクラスタ構築は不可能と思われた時代があった()
スケーラブルシステムズ株式会社
ビルゲイツ氏の基調講演HPC goes mainstream
スケーラブルシステムズ株式会社
「Fast」「Good」「Cheap」のパズル
Fast
+ Cheap
Inferior
高い性能を廉価なシステムで構築することも可能ですただそのようなシステムの場合システムの構築や利用は必ずしも容易ではありません
Good
+ Cheap
Slow比較的小規模なシステムであれば廉価で使い勝手の良いものを探すことは可能ですしかしそのようなシステムでは拡張性やより大規模なシステム構築が出来ません
Good
+ Fast
Expensive
付加価値の高い性能の高いシステムは一般には高価ですその付加価値がユーザにとってメリットが無ければコストパフォーマンスの悪いシステムになるだけです
スケーラブルシステムズ株式会社
まとめとして
bull 「テクノロジー」をどのようにとらえるかndash企業経営基盤のコア要素
ndashユーザの本質的な課題を解決する戦略的な武器
bull マーケットを牽引する「テクノロジ」に求められることndashテクノロジとHPCにおけるITインフラの関係を明確にすること
bull ユーザに何らかのメリットをもたらさない「テクノロジー」は意味を成さない
ndashテクノロジーを最適に組み合わせることで問題解決のためのソリューションの提供が可能
スケーラブルシステムズ株式会社
まとめとして
bull bdquoTs‟ for HPC - インテルテクノロジのHPCにおける価値
ndash インテルテクノロジはHPCにおいて重要な構成要素となっている
ndashそれらの構成要素を統合することでより高い価値の提供が可能となる
ndash二分化しつつあるHPCシステムにおいて「標準コ
ンポーネント」としてのプラットフォームの動向として今後もその動向には注目する必要がある
スケーラブルシステムズ株式会社
さらに詳しい情報はhellip
bull 弊社のコンサルテーションに関するご提案資料もダウンロード可能です(非公開WEBページ)別途弊社に内容等についてはお尋ねください
お問い合わせ先102-0083
東京都千代田区麹町3-5-2
BUREX麹町 8F
電話03-5875-4718
FAX03-3237-7612
E-mailbizsstccojp
httpwwwsstccojp wwwsstccojpbiz
スケーラブルシステムズ株式会社
スケーラブルシステムズ株式会社
ハイエンドコンピューティングに関するコンサルテーションとして幅広いサービスをご提供致します
このサービスを最大限に活用していただくことでコラボレーションによる「顧客志向」 のコン
サルテーションサービスをご提供できればと思っております
スケーラブルシステムズ株式会社
社名製品名などは一般に各社の商標または登録商標です無断での引用転載を禁じます
In general the name of the company and the product name etc are the trademarks or registered trademarks of each company
Copyright Scalable Systems Co Ltd 2005 Unauthorized use is strictly forbidden
2005年11月
スケーラブルシステムズ株式会社
並列性(Parallelism)の利用
マルチタスク処理
MPIなどによる複数のノード間での並列処理
ユーザ及びコンパイラによるスレッドレベルでの並列処理(TLP)
コンパイラによる命列実行レベルでの並列処理(ILP)
マルチコア
マルチプロセッサ
マルチノード
マルチインストラクション
システム
スケーラブルシステムズ株式会社
ムーアの法則(GHz から MC へ)
マルチコアによる性能向上
動作周波数の向上による性能向上
性能
2005
bullマルチスレッドbullマルチタスクbull トレーニングbullツールbullhelliphellip
並列処理による性能向上についてはシステムサポートやプログラミングサポートなどの面での技術支援が重要です
スケーラブルシステムズ株式会社
Episode VI
Return of the Jedi
Ts for HPC - インテルテクノロジのHPCにおける価値の考察
スケーラブルシステムズ株式会社
将来予測の難しさ
bull ldquoI think there is a world market for maybe five
computersrdquobull Thomas Watson chairman of IBM 1943
bull ldquoThere is no reason for any individual to have a
computer in their homerdquobull Ken Olson president and founder of digital equipment
corporation 1977
bull ldquoThere are only about 100 potential customers
worldwide for a Cray-1rdquobull Seymour Cray 1977
bull ldquo640K [of memory] ought to be enough for
anybodyrdquobull Bill Gates chairman of Microsoft1981
スケーラブルシステムズ株式会社
「未来を予測する最良の方法はそれを創造してしまうことである」The best way to predict future is to invent it
Dr Alan Kay President of Viewpoints Research
Institute Inc
スケーラブルシステムズ株式会社
ITマネージメントの課題
bull プラットフォームの内部からの保護ndash ウイルスやワームなど悪意あるソフトウェアからの保護
bull 資産管理ndash 多くの IT 部門では特定できない資産が問題
bull オンラインおよびリモート管理診断機能 ndash アップグレード診断復旧のための作業の効率化
bull アプリケーション統合の困難さ
ndash アプリケーションの高度化と複雑化によって複数のアプリケーションを組み合わせるての動作に問題
bull 動的なリソース割り当て
ndash 組織内で未使用のCPUやメモリの活用
スケーラブルシステムズ株式会社
マーケットトレンド
All Servers Worldwide 2003 2004 2005 20062003 to 2006
CAGR
2005 to 2006
CAGR
Total Factory Revenue($B) $46149 $49146 $51268 $52251 42 19
Units Shipped(same as nodes) 5278222 6307484 7050099 7472649 123 60
Processor Dies Shipped 8662823 10134624 11712766 12779159 138 91
HPC Technical Servers Worldwide 2003 2004 2005 20062003 to 2006
CAGR
2005 to 2006
CAGR
HPC Server Revenue($B) $5698 $7393 $9208 $10030 207 89
Adjusted Revenues(To much
enterprise)$5128 $6654 $8287 $9027 207 89
Node Units Shipped 411327 734510 1215735 1419221 511 167
Processor Elements Shipped 1002905 1657827 2681079 3351843 495 250
HPC As A Ratio Of All Servers 2003 2004 2005 2006
Revenue($B) 123 150 180 192
Adjusted Revenues(Apples-to-
apples)111 135 162 173
Units Shipped(Nodes) 78 116 172 190
Processors Shipped 116 164 226 261
Source IDC 2007
スケーラブルシステムズ株式会社
HPCマーケット(対全サーバマーケット)
0
5
10
15
20
25
30
2003 2004 2005 2006
Revenue($B)
Adjusted Revenues(Apples-to-apples)
Units Shipped(Nodes)
Processors Shipped
スケーラブルシステムズ株式会社
マーケットトレンド
Source IDC 2004
Cost of mgmt amp admin 10 CAGR
$0
$20
$40
$60
$80
$100
$120
$140
$160
$180
$200
1996 rsquo97 rsquo98 rsquo992000 rsquo01 rsquo02 rsquo03 rsquo04 rsquo05 rsquo06 rsquo07 rsquo08-
New server spending (USM$) 3 CAGR
Spending (USB$)
5
10
15
20
25
30
35
Installed Base (M Units)
bull ハードウェアの減価償却費は IT の TCO 全体の約25 にすぎない
bull ソフトウェアのコストはわずか10~15
bull 電気などの公共料金フロアスペース電話回線など設備面のコストの割合もきわめて小さい
bull プラットフォームのコストではなくTCOの大きな比率を占めるのは人件費となっている
スケーラブルシステムズ株式会社
運用管理コストの低減
bull 「もっと処理性能を」と「より安価に」を実現するためにワークステーションやサーバでの分散処理の導入
bull ユーザや企業に新たな価値をもたらしてはいるが管理責任とその負担の分散を招き結果的に運用管理コストを押し上げる
メインフレームスーパーコンピュータ
仮想化によるサーバコンソリデーション
クラスタによる仮想コンピュータ
スケーラブルシステムズ株式会社
次世代HPCインフラ
bull コアとスレッド
ndash より多くのスレッドを効率よく利用可能
ndash マルチスレッド向け最適化
bull 電力管理
ndash 省電力
ndash データセンター運用管理機能
bull 仮想化
ndash 柔軟性と優れた運用管理
ndash 仮想的なシステムパーティション
bull RAS
ndash ハードウエアベースの自己監視自己管理
ndash ファームウエアベースのエラー履歴管理
bull システム管理
ndash より低いTCOを実現するための一般標準化されたマネージメント機能
スケーラブルシステムズ株式会社
高速プロセッサ
64ビットアドレス
メモリ性能と容
量
IOバンド幅
インターコネクト
省電力
システムのlsquoバランスrsquo
マルチコアによってプロセッサ単体の処理性能の向上を図る
64ビットのアドレス空間と
拡張されたレジスタによるOSとアプリケーション双方の機能性能拡張
64ビット化とマルチコア化
にともなう高速大容量へのニーズに対応しまたその拡張性の高い実装技術の実現
CPU-メモリ間の高速な
データ転送やより高速なネットワーク大規模なストレージのサポート
大規模なクラスタシステムの構築及びアプリケーションのワークロードに対応した高速性能
エコシステムに対応するためにも電力消費量や発熱量を積極的に抑える技術の開発
スケーラブルシステムズ株式会社
HPCの二極分化
Going UP
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
Going DOWN
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
スケーラブルシステムズ株式会社
システムとユーザの尺度
bull ユーザの尺度での性能(Performance)は時間当たりにどれだけの仕事を処理出来るか(仕事量 時間)
bull Flopsでの評価は実際には意味がないまた問題の規模(small medium large) という評価も難しい
bull ldquoスケーラビリティrdquoは対象を明確に規定する必要がある
システムの尺度 ユーザの尺度
Flops hArr 計算終了までの時間
メモリサイズ(GB) hArr モデルのサイズと計算結果
プロセッサ数 hArr ワークロードでの試行
データ長 hArr 計算精度
システム構成(クラスタ) hArr 導入コストと運用コスト
スケーラビリティ hArr ベンチマーク
スケーラブルシステムズ株式会社
HPCシステムの動向国家プロジェクトと商用製品のギャップの拡大
Going UP
Going DOWN
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
Peta-Scaleコンピューティングに求められる基本技術と現在のHPCの主要マーケットでの要求はあまりにも差が大きいrarrHPCSシステムは各社とのlsquoCommodityrsquoのマイクロプロセッサではなく独自のプロセッサを開発中
ハードウエアはrsquoCommodityrsquo
なものを利用してSWの改善サポート利用技術のサポートが今後の主要マーケットでの成功の鍵となる
スケーラブルシステムズ株式会社
HPCシステムの動向国家プロジェクト
Going UP
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
Peta-Scaleコンピューティングに求められる基本技術と現在のHPCの主要マーケットでの要求はあまりにも差が大きいrarrHPCSシステムは各社とのlsquoCommodityrsquoのマイクロプロセッサではなく独自のプロセッサを開発中
スケーラブルシステムズ株式会社
TOP500性能予測
1993 1995 1997 1999 2001 2003 2005 2007 2009 2011 2013 2015
N=
50
SUM
1 Gflops
1 Tflops
100 Mflops
100 Gflops
100 Tflops
10 Gflops
10 Tflops
1 Pflops
10 Pflops
IBM ASCI White
Blue GeneEarth Simulator
Intel
TOP500の総計が1PFを超えています
TOP500に掲載されるには1TF
が最低条件になっています
シングルシステムの1PFの実現は2009年
システム(プロセッサ数) 13倍年プロセッサ性能向上 14倍年トータル性能 18倍年
2009年までに1ペタFLOPS
スケーラブルシステムズ株式会社
性能ギャップの拡大
bull ピーク性能の大幅な向上ndash 1990年台は性能の向上は102のオーダーでしたが2000年台になると103のオーダーで性能は向上しています
しかしhellipndash 多くの科学技術計算用途のアプリケーションのピーク性能に対する実効性能の比率は5-10となっています(1990年代のベクトル計算機は40-50の対ピーク性能を示していました)
bull 今必要なのはndash より高い実効性能を発揮することが可能な計算アルゴリズムと手法の開発とスケーラビリティの向上
ndash プログラミングモデルなども含めてスケーラブルな計算機環境の構築
01
1
10
100
1000
2000 2004
Tera
flo
ps
1996
Performance
Gap
Peak Performance
Real Performance
NERSC User Group Meeting June 24-25 2004
Osni Marques and Tony Drummond
Lawrence Berkeley National Laboratory
スケーラブルシステムズ株式会社
ペタスケールシステムの構築
bull ソフトウエア(アプリケーションOSプログラミングAPIなど)の課題の克服が課題
bull システムの複雑さと生産性
例Linpack Benchmark
bull オリジナルベンチマークプログラム ~100ライン
bull HPL ベンチマークプログラム ~10000ライン(x100より複雑)
lsquo複雑さrsquoの壁
現在のテラFLOPS級の問題
Source ORNL
スケーラブルシステムズ株式会社
HPCシステムの動向商用製品
Going DOWN
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
ハードウエアはrsquoCommodityrsquo
なものを利用してSWの改善サポート利用技術のサポートが今後の主要マーケットでの成功の鍵となる
スケーラブルシステムズ株式会社
標準コンポーネントの進化
bull プロセッサの性能向上ndash lsquoマルチコアrsquoによる省電力での性能向上が可能
ndash HPCアプリケーションは容易にlsquoマルチコアrsquoの利点を活用可能 (OpenMPやMPI)
bull ファイルシステムndash高性能なスケーラブルファイルシステム(オープンソース)
bull インターコネクトndash PCI-Express (メモリlarrrarrインターコネクト)
ndash高速の商用製品やオープンソースでの強力(OpenIBなど)
スケーラブルシステムズ株式会社
標準コンポーネントの利点
bull 特定のベンダーからのシステムを組み合わせるのではなく他社のシステムも含めてベストなシステムの選択が可能
ndashスケーラブルSMPベクトル計算機クラスタの幅広い選択肢
ndash 64ビットマルチコアマイクロプロセッサの性能向上を最大限に活用
bull 標準コンポーネントの技術革新の活用
ndash PCI-ExpressやFB-DIMMの利用技術
スケーラブルシステムズ株式会社
Breaking the 1-2K nodes Barrier
bull 音の障壁サウンドバリヤー(sound barrier)飛行機の速度が音速近くになると衝撃波の発生によって抵抗の増大境界層の剥離など設計運用上のさまざまな障害(壁)に出合って超音速飛行は不可能かと思われた時代があった(1947年ごろまで)ので音の障壁といわれていた
httpwwwwilk4commiscsoundbreakhtm
クラスタのノード数がある規模に近くなるとその構築や運用において負担の増大システムの安定稼動スケーラビリティなど設計運用上のさまざまな障害(壁)に出合ってクラスタ構築は不可能と思われた時代があった()
スケーラブルシステムズ株式会社
ビルゲイツ氏の基調講演HPC goes mainstream
スケーラブルシステムズ株式会社
「Fast」「Good」「Cheap」のパズル
Fast
+ Cheap
Inferior
高い性能を廉価なシステムで構築することも可能ですただそのようなシステムの場合システムの構築や利用は必ずしも容易ではありません
Good
+ Cheap
Slow比較的小規模なシステムであれば廉価で使い勝手の良いものを探すことは可能ですしかしそのようなシステムでは拡張性やより大規模なシステム構築が出来ません
Good
+ Fast
Expensive
付加価値の高い性能の高いシステムは一般には高価ですその付加価値がユーザにとってメリットが無ければコストパフォーマンスの悪いシステムになるだけです
スケーラブルシステムズ株式会社
まとめとして
bull 「テクノロジー」をどのようにとらえるかndash企業経営基盤のコア要素
ndashユーザの本質的な課題を解決する戦略的な武器
bull マーケットを牽引する「テクノロジ」に求められることndashテクノロジとHPCにおけるITインフラの関係を明確にすること
bull ユーザに何らかのメリットをもたらさない「テクノロジー」は意味を成さない
ndashテクノロジーを最適に組み合わせることで問題解決のためのソリューションの提供が可能
スケーラブルシステムズ株式会社
まとめとして
bull bdquoTs‟ for HPC - インテルテクノロジのHPCにおける価値
ndash インテルテクノロジはHPCにおいて重要な構成要素となっている
ndashそれらの構成要素を統合することでより高い価値の提供が可能となる
ndash二分化しつつあるHPCシステムにおいて「標準コ
ンポーネント」としてのプラットフォームの動向として今後もその動向には注目する必要がある
スケーラブルシステムズ株式会社
さらに詳しい情報はhellip
bull 弊社のコンサルテーションに関するご提案資料もダウンロード可能です(非公開WEBページ)別途弊社に内容等についてはお尋ねください
お問い合わせ先102-0083
東京都千代田区麹町3-5-2
BUREX麹町 8F
電話03-5875-4718
FAX03-3237-7612
E-mailbizsstccojp
httpwwwsstccojp wwwsstccojpbiz
スケーラブルシステムズ株式会社
スケーラブルシステムズ株式会社
ハイエンドコンピューティングに関するコンサルテーションとして幅広いサービスをご提供致します
このサービスを最大限に活用していただくことでコラボレーションによる「顧客志向」 のコン
サルテーションサービスをご提供できればと思っております
スケーラブルシステムズ株式会社
社名製品名などは一般に各社の商標または登録商標です無断での引用転載を禁じます
In general the name of the company and the product name etc are the trademarks or registered trademarks of each company
Copyright Scalable Systems Co Ltd 2005 Unauthorized use is strictly forbidden
2005年11月
スケーラブルシステムズ株式会社
ムーアの法則(GHz から MC へ)
マルチコアによる性能向上
動作周波数の向上による性能向上
性能
2005
bullマルチスレッドbullマルチタスクbull トレーニングbullツールbullhelliphellip
並列処理による性能向上についてはシステムサポートやプログラミングサポートなどの面での技術支援が重要です
スケーラブルシステムズ株式会社
Episode VI
Return of the Jedi
Ts for HPC - インテルテクノロジのHPCにおける価値の考察
スケーラブルシステムズ株式会社
将来予測の難しさ
bull ldquoI think there is a world market for maybe five
computersrdquobull Thomas Watson chairman of IBM 1943
bull ldquoThere is no reason for any individual to have a
computer in their homerdquobull Ken Olson president and founder of digital equipment
corporation 1977
bull ldquoThere are only about 100 potential customers
worldwide for a Cray-1rdquobull Seymour Cray 1977
bull ldquo640K [of memory] ought to be enough for
anybodyrdquobull Bill Gates chairman of Microsoft1981
スケーラブルシステムズ株式会社
「未来を予測する最良の方法はそれを創造してしまうことである」The best way to predict future is to invent it
Dr Alan Kay President of Viewpoints Research
Institute Inc
スケーラブルシステムズ株式会社
ITマネージメントの課題
bull プラットフォームの内部からの保護ndash ウイルスやワームなど悪意あるソフトウェアからの保護
bull 資産管理ndash 多くの IT 部門では特定できない資産が問題
bull オンラインおよびリモート管理診断機能 ndash アップグレード診断復旧のための作業の効率化
bull アプリケーション統合の困難さ
ndash アプリケーションの高度化と複雑化によって複数のアプリケーションを組み合わせるての動作に問題
bull 動的なリソース割り当て
ndash 組織内で未使用のCPUやメモリの活用
スケーラブルシステムズ株式会社
マーケットトレンド
All Servers Worldwide 2003 2004 2005 20062003 to 2006
CAGR
2005 to 2006
CAGR
Total Factory Revenue($B) $46149 $49146 $51268 $52251 42 19
Units Shipped(same as nodes) 5278222 6307484 7050099 7472649 123 60
Processor Dies Shipped 8662823 10134624 11712766 12779159 138 91
HPC Technical Servers Worldwide 2003 2004 2005 20062003 to 2006
CAGR
2005 to 2006
CAGR
HPC Server Revenue($B) $5698 $7393 $9208 $10030 207 89
Adjusted Revenues(To much
enterprise)$5128 $6654 $8287 $9027 207 89
Node Units Shipped 411327 734510 1215735 1419221 511 167
Processor Elements Shipped 1002905 1657827 2681079 3351843 495 250
HPC As A Ratio Of All Servers 2003 2004 2005 2006
Revenue($B) 123 150 180 192
Adjusted Revenues(Apples-to-
apples)111 135 162 173
Units Shipped(Nodes) 78 116 172 190
Processors Shipped 116 164 226 261
Source IDC 2007
スケーラブルシステムズ株式会社
HPCマーケット(対全サーバマーケット)
0
5
10
15
20
25
30
2003 2004 2005 2006
Revenue($B)
Adjusted Revenues(Apples-to-apples)
Units Shipped(Nodes)
Processors Shipped
スケーラブルシステムズ株式会社
マーケットトレンド
Source IDC 2004
Cost of mgmt amp admin 10 CAGR
$0
$20
$40
$60
$80
$100
$120
$140
$160
$180
$200
1996 rsquo97 rsquo98 rsquo992000 rsquo01 rsquo02 rsquo03 rsquo04 rsquo05 rsquo06 rsquo07 rsquo08-
New server spending (USM$) 3 CAGR
Spending (USB$)
5
10
15
20
25
30
35
Installed Base (M Units)
bull ハードウェアの減価償却費は IT の TCO 全体の約25 にすぎない
bull ソフトウェアのコストはわずか10~15
bull 電気などの公共料金フロアスペース電話回線など設備面のコストの割合もきわめて小さい
bull プラットフォームのコストではなくTCOの大きな比率を占めるのは人件費となっている
スケーラブルシステムズ株式会社
運用管理コストの低減
bull 「もっと処理性能を」と「より安価に」を実現するためにワークステーションやサーバでの分散処理の導入
bull ユーザや企業に新たな価値をもたらしてはいるが管理責任とその負担の分散を招き結果的に運用管理コストを押し上げる
メインフレームスーパーコンピュータ
仮想化によるサーバコンソリデーション
クラスタによる仮想コンピュータ
スケーラブルシステムズ株式会社
次世代HPCインフラ
bull コアとスレッド
ndash より多くのスレッドを効率よく利用可能
ndash マルチスレッド向け最適化
bull 電力管理
ndash 省電力
ndash データセンター運用管理機能
bull 仮想化
ndash 柔軟性と優れた運用管理
ndash 仮想的なシステムパーティション
bull RAS
ndash ハードウエアベースの自己監視自己管理
ndash ファームウエアベースのエラー履歴管理
bull システム管理
ndash より低いTCOを実現するための一般標準化されたマネージメント機能
スケーラブルシステムズ株式会社
高速プロセッサ
64ビットアドレス
メモリ性能と容
量
IOバンド幅
インターコネクト
省電力
システムのlsquoバランスrsquo
マルチコアによってプロセッサ単体の処理性能の向上を図る
64ビットのアドレス空間と
拡張されたレジスタによるOSとアプリケーション双方の機能性能拡張
64ビット化とマルチコア化
にともなう高速大容量へのニーズに対応しまたその拡張性の高い実装技術の実現
CPU-メモリ間の高速な
データ転送やより高速なネットワーク大規模なストレージのサポート
大規模なクラスタシステムの構築及びアプリケーションのワークロードに対応した高速性能
エコシステムに対応するためにも電力消費量や発熱量を積極的に抑える技術の開発
スケーラブルシステムズ株式会社
HPCの二極分化
Going UP
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
Going DOWN
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
スケーラブルシステムズ株式会社
システムとユーザの尺度
bull ユーザの尺度での性能(Performance)は時間当たりにどれだけの仕事を処理出来るか(仕事量 時間)
bull Flopsでの評価は実際には意味がないまた問題の規模(small medium large) という評価も難しい
bull ldquoスケーラビリティrdquoは対象を明確に規定する必要がある
システムの尺度 ユーザの尺度
Flops hArr 計算終了までの時間
メモリサイズ(GB) hArr モデルのサイズと計算結果
プロセッサ数 hArr ワークロードでの試行
データ長 hArr 計算精度
システム構成(クラスタ) hArr 導入コストと運用コスト
スケーラビリティ hArr ベンチマーク
スケーラブルシステムズ株式会社
HPCシステムの動向国家プロジェクトと商用製品のギャップの拡大
Going UP
Going DOWN
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
Peta-Scaleコンピューティングに求められる基本技術と現在のHPCの主要マーケットでの要求はあまりにも差が大きいrarrHPCSシステムは各社とのlsquoCommodityrsquoのマイクロプロセッサではなく独自のプロセッサを開発中
ハードウエアはrsquoCommodityrsquo
なものを利用してSWの改善サポート利用技術のサポートが今後の主要マーケットでの成功の鍵となる
スケーラブルシステムズ株式会社
HPCシステムの動向国家プロジェクト
Going UP
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
Peta-Scaleコンピューティングに求められる基本技術と現在のHPCの主要マーケットでの要求はあまりにも差が大きいrarrHPCSシステムは各社とのlsquoCommodityrsquoのマイクロプロセッサではなく独自のプロセッサを開発中
スケーラブルシステムズ株式会社
TOP500性能予測
1993 1995 1997 1999 2001 2003 2005 2007 2009 2011 2013 2015
N=
50
SUM
1 Gflops
1 Tflops
100 Mflops
100 Gflops
100 Tflops
10 Gflops
10 Tflops
1 Pflops
10 Pflops
IBM ASCI White
Blue GeneEarth Simulator
Intel
TOP500の総計が1PFを超えています
TOP500に掲載されるには1TF
が最低条件になっています
シングルシステムの1PFの実現は2009年
システム(プロセッサ数) 13倍年プロセッサ性能向上 14倍年トータル性能 18倍年
2009年までに1ペタFLOPS
スケーラブルシステムズ株式会社
性能ギャップの拡大
bull ピーク性能の大幅な向上ndash 1990年台は性能の向上は102のオーダーでしたが2000年台になると103のオーダーで性能は向上しています
しかしhellipndash 多くの科学技術計算用途のアプリケーションのピーク性能に対する実効性能の比率は5-10となっています(1990年代のベクトル計算機は40-50の対ピーク性能を示していました)
bull 今必要なのはndash より高い実効性能を発揮することが可能な計算アルゴリズムと手法の開発とスケーラビリティの向上
ndash プログラミングモデルなども含めてスケーラブルな計算機環境の構築
01
1
10
100
1000
2000 2004
Tera
flo
ps
1996
Performance
Gap
Peak Performance
Real Performance
NERSC User Group Meeting June 24-25 2004
Osni Marques and Tony Drummond
Lawrence Berkeley National Laboratory
スケーラブルシステムズ株式会社
ペタスケールシステムの構築
bull ソフトウエア(アプリケーションOSプログラミングAPIなど)の課題の克服が課題
bull システムの複雑さと生産性
例Linpack Benchmark
bull オリジナルベンチマークプログラム ~100ライン
bull HPL ベンチマークプログラム ~10000ライン(x100より複雑)
lsquo複雑さrsquoの壁
現在のテラFLOPS級の問題
Source ORNL
スケーラブルシステムズ株式会社
HPCシステムの動向商用製品
Going DOWN
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
ハードウエアはrsquoCommodityrsquo
なものを利用してSWの改善サポート利用技術のサポートが今後の主要マーケットでの成功の鍵となる
スケーラブルシステムズ株式会社
標準コンポーネントの進化
bull プロセッサの性能向上ndash lsquoマルチコアrsquoによる省電力での性能向上が可能
ndash HPCアプリケーションは容易にlsquoマルチコアrsquoの利点を活用可能 (OpenMPやMPI)
bull ファイルシステムndash高性能なスケーラブルファイルシステム(オープンソース)
bull インターコネクトndash PCI-Express (メモリlarrrarrインターコネクト)
ndash高速の商用製品やオープンソースでの強力(OpenIBなど)
スケーラブルシステムズ株式会社
標準コンポーネントの利点
bull 特定のベンダーからのシステムを組み合わせるのではなく他社のシステムも含めてベストなシステムの選択が可能
ndashスケーラブルSMPベクトル計算機クラスタの幅広い選択肢
ndash 64ビットマルチコアマイクロプロセッサの性能向上を最大限に活用
bull 標準コンポーネントの技術革新の活用
ndash PCI-ExpressやFB-DIMMの利用技術
スケーラブルシステムズ株式会社
Breaking the 1-2K nodes Barrier
bull 音の障壁サウンドバリヤー(sound barrier)飛行機の速度が音速近くになると衝撃波の発生によって抵抗の増大境界層の剥離など設計運用上のさまざまな障害(壁)に出合って超音速飛行は不可能かと思われた時代があった(1947年ごろまで)ので音の障壁といわれていた
httpwwwwilk4commiscsoundbreakhtm
クラスタのノード数がある規模に近くなるとその構築や運用において負担の増大システムの安定稼動スケーラビリティなど設計運用上のさまざまな障害(壁)に出合ってクラスタ構築は不可能と思われた時代があった()
スケーラブルシステムズ株式会社
ビルゲイツ氏の基調講演HPC goes mainstream
スケーラブルシステムズ株式会社
「Fast」「Good」「Cheap」のパズル
Fast
+ Cheap
Inferior
高い性能を廉価なシステムで構築することも可能ですただそのようなシステムの場合システムの構築や利用は必ずしも容易ではありません
Good
+ Cheap
Slow比較的小規模なシステムであれば廉価で使い勝手の良いものを探すことは可能ですしかしそのようなシステムでは拡張性やより大規模なシステム構築が出来ません
Good
+ Fast
Expensive
付加価値の高い性能の高いシステムは一般には高価ですその付加価値がユーザにとってメリットが無ければコストパフォーマンスの悪いシステムになるだけです
スケーラブルシステムズ株式会社
まとめとして
bull 「テクノロジー」をどのようにとらえるかndash企業経営基盤のコア要素
ndashユーザの本質的な課題を解決する戦略的な武器
bull マーケットを牽引する「テクノロジ」に求められることndashテクノロジとHPCにおけるITインフラの関係を明確にすること
bull ユーザに何らかのメリットをもたらさない「テクノロジー」は意味を成さない
ndashテクノロジーを最適に組み合わせることで問題解決のためのソリューションの提供が可能
スケーラブルシステムズ株式会社
まとめとして
bull bdquoTs‟ for HPC - インテルテクノロジのHPCにおける価値
ndash インテルテクノロジはHPCにおいて重要な構成要素となっている
ndashそれらの構成要素を統合することでより高い価値の提供が可能となる
ndash二分化しつつあるHPCシステムにおいて「標準コ
ンポーネント」としてのプラットフォームの動向として今後もその動向には注目する必要がある
スケーラブルシステムズ株式会社
さらに詳しい情報はhellip
bull 弊社のコンサルテーションに関するご提案資料もダウンロード可能です(非公開WEBページ)別途弊社に内容等についてはお尋ねください
お問い合わせ先102-0083
東京都千代田区麹町3-5-2
BUREX麹町 8F
電話03-5875-4718
FAX03-3237-7612
E-mailbizsstccojp
httpwwwsstccojp wwwsstccojpbiz
スケーラブルシステムズ株式会社
スケーラブルシステムズ株式会社
ハイエンドコンピューティングに関するコンサルテーションとして幅広いサービスをご提供致します
このサービスを最大限に活用していただくことでコラボレーションによる「顧客志向」 のコン
サルテーションサービスをご提供できればと思っております
スケーラブルシステムズ株式会社
社名製品名などは一般に各社の商標または登録商標です無断での引用転載を禁じます
In general the name of the company and the product name etc are the trademarks or registered trademarks of each company
Copyright Scalable Systems Co Ltd 2005 Unauthorized use is strictly forbidden
2005年11月
スケーラブルシステムズ株式会社
Episode VI
Return of the Jedi
Ts for HPC - インテルテクノロジのHPCにおける価値の考察
スケーラブルシステムズ株式会社
将来予測の難しさ
bull ldquoI think there is a world market for maybe five
computersrdquobull Thomas Watson chairman of IBM 1943
bull ldquoThere is no reason for any individual to have a
computer in their homerdquobull Ken Olson president and founder of digital equipment
corporation 1977
bull ldquoThere are only about 100 potential customers
worldwide for a Cray-1rdquobull Seymour Cray 1977
bull ldquo640K [of memory] ought to be enough for
anybodyrdquobull Bill Gates chairman of Microsoft1981
スケーラブルシステムズ株式会社
「未来を予測する最良の方法はそれを創造してしまうことである」The best way to predict future is to invent it
Dr Alan Kay President of Viewpoints Research
Institute Inc
スケーラブルシステムズ株式会社
ITマネージメントの課題
bull プラットフォームの内部からの保護ndash ウイルスやワームなど悪意あるソフトウェアからの保護
bull 資産管理ndash 多くの IT 部門では特定できない資産が問題
bull オンラインおよびリモート管理診断機能 ndash アップグレード診断復旧のための作業の効率化
bull アプリケーション統合の困難さ
ndash アプリケーションの高度化と複雑化によって複数のアプリケーションを組み合わせるての動作に問題
bull 動的なリソース割り当て
ndash 組織内で未使用のCPUやメモリの活用
スケーラブルシステムズ株式会社
マーケットトレンド
All Servers Worldwide 2003 2004 2005 20062003 to 2006
CAGR
2005 to 2006
CAGR
Total Factory Revenue($B) $46149 $49146 $51268 $52251 42 19
Units Shipped(same as nodes) 5278222 6307484 7050099 7472649 123 60
Processor Dies Shipped 8662823 10134624 11712766 12779159 138 91
HPC Technical Servers Worldwide 2003 2004 2005 20062003 to 2006
CAGR
2005 to 2006
CAGR
HPC Server Revenue($B) $5698 $7393 $9208 $10030 207 89
Adjusted Revenues(To much
enterprise)$5128 $6654 $8287 $9027 207 89
Node Units Shipped 411327 734510 1215735 1419221 511 167
Processor Elements Shipped 1002905 1657827 2681079 3351843 495 250
HPC As A Ratio Of All Servers 2003 2004 2005 2006
Revenue($B) 123 150 180 192
Adjusted Revenues(Apples-to-
apples)111 135 162 173
Units Shipped(Nodes) 78 116 172 190
Processors Shipped 116 164 226 261
Source IDC 2007
スケーラブルシステムズ株式会社
HPCマーケット(対全サーバマーケット)
0
5
10
15
20
25
30
2003 2004 2005 2006
Revenue($B)
Adjusted Revenues(Apples-to-apples)
Units Shipped(Nodes)
Processors Shipped
スケーラブルシステムズ株式会社
マーケットトレンド
Source IDC 2004
Cost of mgmt amp admin 10 CAGR
$0
$20
$40
$60
$80
$100
$120
$140
$160
$180
$200
1996 rsquo97 rsquo98 rsquo992000 rsquo01 rsquo02 rsquo03 rsquo04 rsquo05 rsquo06 rsquo07 rsquo08-
New server spending (USM$) 3 CAGR
Spending (USB$)
5
10
15
20
25
30
35
Installed Base (M Units)
bull ハードウェアの減価償却費は IT の TCO 全体の約25 にすぎない
bull ソフトウェアのコストはわずか10~15
bull 電気などの公共料金フロアスペース電話回線など設備面のコストの割合もきわめて小さい
bull プラットフォームのコストではなくTCOの大きな比率を占めるのは人件費となっている
スケーラブルシステムズ株式会社
運用管理コストの低減
bull 「もっと処理性能を」と「より安価に」を実現するためにワークステーションやサーバでの分散処理の導入
bull ユーザや企業に新たな価値をもたらしてはいるが管理責任とその負担の分散を招き結果的に運用管理コストを押し上げる
メインフレームスーパーコンピュータ
仮想化によるサーバコンソリデーション
クラスタによる仮想コンピュータ
スケーラブルシステムズ株式会社
次世代HPCインフラ
bull コアとスレッド
ndash より多くのスレッドを効率よく利用可能
ndash マルチスレッド向け最適化
bull 電力管理
ndash 省電力
ndash データセンター運用管理機能
bull 仮想化
ndash 柔軟性と優れた運用管理
ndash 仮想的なシステムパーティション
bull RAS
ndash ハードウエアベースの自己監視自己管理
ndash ファームウエアベースのエラー履歴管理
bull システム管理
ndash より低いTCOを実現するための一般標準化されたマネージメント機能
スケーラブルシステムズ株式会社
高速プロセッサ
64ビットアドレス
メモリ性能と容
量
IOバンド幅
インターコネクト
省電力
システムのlsquoバランスrsquo
マルチコアによってプロセッサ単体の処理性能の向上を図る
64ビットのアドレス空間と
拡張されたレジスタによるOSとアプリケーション双方の機能性能拡張
64ビット化とマルチコア化
にともなう高速大容量へのニーズに対応しまたその拡張性の高い実装技術の実現
CPU-メモリ間の高速な
データ転送やより高速なネットワーク大規模なストレージのサポート
大規模なクラスタシステムの構築及びアプリケーションのワークロードに対応した高速性能
エコシステムに対応するためにも電力消費量や発熱量を積極的に抑える技術の開発
スケーラブルシステムズ株式会社
HPCの二極分化
Going UP
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
Going DOWN
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
スケーラブルシステムズ株式会社
システムとユーザの尺度
bull ユーザの尺度での性能(Performance)は時間当たりにどれだけの仕事を処理出来るか(仕事量 時間)
bull Flopsでの評価は実際には意味がないまた問題の規模(small medium large) という評価も難しい
bull ldquoスケーラビリティrdquoは対象を明確に規定する必要がある
システムの尺度 ユーザの尺度
Flops hArr 計算終了までの時間
メモリサイズ(GB) hArr モデルのサイズと計算結果
プロセッサ数 hArr ワークロードでの試行
データ長 hArr 計算精度
システム構成(クラスタ) hArr 導入コストと運用コスト
スケーラビリティ hArr ベンチマーク
スケーラブルシステムズ株式会社
HPCシステムの動向国家プロジェクトと商用製品のギャップの拡大
Going UP
Going DOWN
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
Peta-Scaleコンピューティングに求められる基本技術と現在のHPCの主要マーケットでの要求はあまりにも差が大きいrarrHPCSシステムは各社とのlsquoCommodityrsquoのマイクロプロセッサではなく独自のプロセッサを開発中
ハードウエアはrsquoCommodityrsquo
なものを利用してSWの改善サポート利用技術のサポートが今後の主要マーケットでの成功の鍵となる
スケーラブルシステムズ株式会社
HPCシステムの動向国家プロジェクト
Going UP
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
Peta-Scaleコンピューティングに求められる基本技術と現在のHPCの主要マーケットでの要求はあまりにも差が大きいrarrHPCSシステムは各社とのlsquoCommodityrsquoのマイクロプロセッサではなく独自のプロセッサを開発中
スケーラブルシステムズ株式会社
TOP500性能予測
1993 1995 1997 1999 2001 2003 2005 2007 2009 2011 2013 2015
N=
50
SUM
1 Gflops
1 Tflops
100 Mflops
100 Gflops
100 Tflops
10 Gflops
10 Tflops
1 Pflops
10 Pflops
IBM ASCI White
Blue GeneEarth Simulator
Intel
TOP500の総計が1PFを超えています
TOP500に掲載されるには1TF
が最低条件になっています
シングルシステムの1PFの実現は2009年
システム(プロセッサ数) 13倍年プロセッサ性能向上 14倍年トータル性能 18倍年
2009年までに1ペタFLOPS
スケーラブルシステムズ株式会社
性能ギャップの拡大
bull ピーク性能の大幅な向上ndash 1990年台は性能の向上は102のオーダーでしたが2000年台になると103のオーダーで性能は向上しています
しかしhellipndash 多くの科学技術計算用途のアプリケーションのピーク性能に対する実効性能の比率は5-10となっています(1990年代のベクトル計算機は40-50の対ピーク性能を示していました)
bull 今必要なのはndash より高い実効性能を発揮することが可能な計算アルゴリズムと手法の開発とスケーラビリティの向上
ndash プログラミングモデルなども含めてスケーラブルな計算機環境の構築
01
1
10
100
1000
2000 2004
Tera
flo
ps
1996
Performance
Gap
Peak Performance
Real Performance
NERSC User Group Meeting June 24-25 2004
Osni Marques and Tony Drummond
Lawrence Berkeley National Laboratory
スケーラブルシステムズ株式会社
ペタスケールシステムの構築
bull ソフトウエア(アプリケーションOSプログラミングAPIなど)の課題の克服が課題
bull システムの複雑さと生産性
例Linpack Benchmark
bull オリジナルベンチマークプログラム ~100ライン
bull HPL ベンチマークプログラム ~10000ライン(x100より複雑)
lsquo複雑さrsquoの壁
現在のテラFLOPS級の問題
Source ORNL
スケーラブルシステムズ株式会社
HPCシステムの動向商用製品
Going DOWN
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
ハードウエアはrsquoCommodityrsquo
なものを利用してSWの改善サポート利用技術のサポートが今後の主要マーケットでの成功の鍵となる
スケーラブルシステムズ株式会社
標準コンポーネントの進化
bull プロセッサの性能向上ndash lsquoマルチコアrsquoによる省電力での性能向上が可能
ndash HPCアプリケーションは容易にlsquoマルチコアrsquoの利点を活用可能 (OpenMPやMPI)
bull ファイルシステムndash高性能なスケーラブルファイルシステム(オープンソース)
bull インターコネクトndash PCI-Express (メモリlarrrarrインターコネクト)
ndash高速の商用製品やオープンソースでの強力(OpenIBなど)
スケーラブルシステムズ株式会社
標準コンポーネントの利点
bull 特定のベンダーからのシステムを組み合わせるのではなく他社のシステムも含めてベストなシステムの選択が可能
ndashスケーラブルSMPベクトル計算機クラスタの幅広い選択肢
ndash 64ビットマルチコアマイクロプロセッサの性能向上を最大限に活用
bull 標準コンポーネントの技術革新の活用
ndash PCI-ExpressやFB-DIMMの利用技術
スケーラブルシステムズ株式会社
Breaking the 1-2K nodes Barrier
bull 音の障壁サウンドバリヤー(sound barrier)飛行機の速度が音速近くになると衝撃波の発生によって抵抗の増大境界層の剥離など設計運用上のさまざまな障害(壁)に出合って超音速飛行は不可能かと思われた時代があった(1947年ごろまで)ので音の障壁といわれていた
httpwwwwilk4commiscsoundbreakhtm
クラスタのノード数がある規模に近くなるとその構築や運用において負担の増大システムの安定稼動スケーラビリティなど設計運用上のさまざまな障害(壁)に出合ってクラスタ構築は不可能と思われた時代があった()
スケーラブルシステムズ株式会社
ビルゲイツ氏の基調講演HPC goes mainstream
スケーラブルシステムズ株式会社
「Fast」「Good」「Cheap」のパズル
Fast
+ Cheap
Inferior
高い性能を廉価なシステムで構築することも可能ですただそのようなシステムの場合システムの構築や利用は必ずしも容易ではありません
Good
+ Cheap
Slow比較的小規模なシステムであれば廉価で使い勝手の良いものを探すことは可能ですしかしそのようなシステムでは拡張性やより大規模なシステム構築が出来ません
Good
+ Fast
Expensive
付加価値の高い性能の高いシステムは一般には高価ですその付加価値がユーザにとってメリットが無ければコストパフォーマンスの悪いシステムになるだけです
スケーラブルシステムズ株式会社
まとめとして
bull 「テクノロジー」をどのようにとらえるかndash企業経営基盤のコア要素
ndashユーザの本質的な課題を解決する戦略的な武器
bull マーケットを牽引する「テクノロジ」に求められることndashテクノロジとHPCにおけるITインフラの関係を明確にすること
bull ユーザに何らかのメリットをもたらさない「テクノロジー」は意味を成さない
ndashテクノロジーを最適に組み合わせることで問題解決のためのソリューションの提供が可能
スケーラブルシステムズ株式会社
まとめとして
bull bdquoTs‟ for HPC - インテルテクノロジのHPCにおける価値
ndash インテルテクノロジはHPCにおいて重要な構成要素となっている
ndashそれらの構成要素を統合することでより高い価値の提供が可能となる
ndash二分化しつつあるHPCシステムにおいて「標準コ
ンポーネント」としてのプラットフォームの動向として今後もその動向には注目する必要がある
スケーラブルシステムズ株式会社
さらに詳しい情報はhellip
bull 弊社のコンサルテーションに関するご提案資料もダウンロード可能です(非公開WEBページ)別途弊社に内容等についてはお尋ねください
お問い合わせ先102-0083
東京都千代田区麹町3-5-2
BUREX麹町 8F
電話03-5875-4718
FAX03-3237-7612
E-mailbizsstccojp
httpwwwsstccojp wwwsstccojpbiz
スケーラブルシステムズ株式会社
スケーラブルシステムズ株式会社
ハイエンドコンピューティングに関するコンサルテーションとして幅広いサービスをご提供致します
このサービスを最大限に活用していただくことでコラボレーションによる「顧客志向」 のコン
サルテーションサービスをご提供できればと思っております
スケーラブルシステムズ株式会社
社名製品名などは一般に各社の商標または登録商標です無断での引用転載を禁じます
In general the name of the company and the product name etc are the trademarks or registered trademarks of each company
Copyright Scalable Systems Co Ltd 2005 Unauthorized use is strictly forbidden
2005年11月
スケーラブルシステムズ株式会社
将来予測の難しさ
bull ldquoI think there is a world market for maybe five
computersrdquobull Thomas Watson chairman of IBM 1943
bull ldquoThere is no reason for any individual to have a
computer in their homerdquobull Ken Olson president and founder of digital equipment
corporation 1977
bull ldquoThere are only about 100 potential customers
worldwide for a Cray-1rdquobull Seymour Cray 1977
bull ldquo640K [of memory] ought to be enough for
anybodyrdquobull Bill Gates chairman of Microsoft1981
スケーラブルシステムズ株式会社
「未来を予測する最良の方法はそれを創造してしまうことである」The best way to predict future is to invent it
Dr Alan Kay President of Viewpoints Research
Institute Inc
スケーラブルシステムズ株式会社
ITマネージメントの課題
bull プラットフォームの内部からの保護ndash ウイルスやワームなど悪意あるソフトウェアからの保護
bull 資産管理ndash 多くの IT 部門では特定できない資産が問題
bull オンラインおよびリモート管理診断機能 ndash アップグレード診断復旧のための作業の効率化
bull アプリケーション統合の困難さ
ndash アプリケーションの高度化と複雑化によって複数のアプリケーションを組み合わせるての動作に問題
bull 動的なリソース割り当て
ndash 組織内で未使用のCPUやメモリの活用
スケーラブルシステムズ株式会社
マーケットトレンド
All Servers Worldwide 2003 2004 2005 20062003 to 2006
CAGR
2005 to 2006
CAGR
Total Factory Revenue($B) $46149 $49146 $51268 $52251 42 19
Units Shipped(same as nodes) 5278222 6307484 7050099 7472649 123 60
Processor Dies Shipped 8662823 10134624 11712766 12779159 138 91
HPC Technical Servers Worldwide 2003 2004 2005 20062003 to 2006
CAGR
2005 to 2006
CAGR
HPC Server Revenue($B) $5698 $7393 $9208 $10030 207 89
Adjusted Revenues(To much
enterprise)$5128 $6654 $8287 $9027 207 89
Node Units Shipped 411327 734510 1215735 1419221 511 167
Processor Elements Shipped 1002905 1657827 2681079 3351843 495 250
HPC As A Ratio Of All Servers 2003 2004 2005 2006
Revenue($B) 123 150 180 192
Adjusted Revenues(Apples-to-
apples)111 135 162 173
Units Shipped(Nodes) 78 116 172 190
Processors Shipped 116 164 226 261
Source IDC 2007
スケーラブルシステムズ株式会社
HPCマーケット(対全サーバマーケット)
0
5
10
15
20
25
30
2003 2004 2005 2006
Revenue($B)
Adjusted Revenues(Apples-to-apples)
Units Shipped(Nodes)
Processors Shipped
スケーラブルシステムズ株式会社
マーケットトレンド
Source IDC 2004
Cost of mgmt amp admin 10 CAGR
$0
$20
$40
$60
$80
$100
$120
$140
$160
$180
$200
1996 rsquo97 rsquo98 rsquo992000 rsquo01 rsquo02 rsquo03 rsquo04 rsquo05 rsquo06 rsquo07 rsquo08-
New server spending (USM$) 3 CAGR
Spending (USB$)
5
10
15
20
25
30
35
Installed Base (M Units)
bull ハードウェアの減価償却費は IT の TCO 全体の約25 にすぎない
bull ソフトウェアのコストはわずか10~15
bull 電気などの公共料金フロアスペース電話回線など設備面のコストの割合もきわめて小さい
bull プラットフォームのコストではなくTCOの大きな比率を占めるのは人件費となっている
スケーラブルシステムズ株式会社
運用管理コストの低減
bull 「もっと処理性能を」と「より安価に」を実現するためにワークステーションやサーバでの分散処理の導入
bull ユーザや企業に新たな価値をもたらしてはいるが管理責任とその負担の分散を招き結果的に運用管理コストを押し上げる
メインフレームスーパーコンピュータ
仮想化によるサーバコンソリデーション
クラスタによる仮想コンピュータ
スケーラブルシステムズ株式会社
次世代HPCインフラ
bull コアとスレッド
ndash より多くのスレッドを効率よく利用可能
ndash マルチスレッド向け最適化
bull 電力管理
ndash 省電力
ndash データセンター運用管理機能
bull 仮想化
ndash 柔軟性と優れた運用管理
ndash 仮想的なシステムパーティション
bull RAS
ndash ハードウエアベースの自己監視自己管理
ndash ファームウエアベースのエラー履歴管理
bull システム管理
ndash より低いTCOを実現するための一般標準化されたマネージメント機能
スケーラブルシステムズ株式会社
高速プロセッサ
64ビットアドレス
メモリ性能と容
量
IOバンド幅
インターコネクト
省電力
システムのlsquoバランスrsquo
マルチコアによってプロセッサ単体の処理性能の向上を図る
64ビットのアドレス空間と
拡張されたレジスタによるOSとアプリケーション双方の機能性能拡張
64ビット化とマルチコア化
にともなう高速大容量へのニーズに対応しまたその拡張性の高い実装技術の実現
CPU-メモリ間の高速な
データ転送やより高速なネットワーク大規模なストレージのサポート
大規模なクラスタシステムの構築及びアプリケーションのワークロードに対応した高速性能
エコシステムに対応するためにも電力消費量や発熱量を積極的に抑える技術の開発
スケーラブルシステムズ株式会社
HPCの二極分化
Going UP
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
Going DOWN
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
スケーラブルシステムズ株式会社
システムとユーザの尺度
bull ユーザの尺度での性能(Performance)は時間当たりにどれだけの仕事を処理出来るか(仕事量 時間)
bull Flopsでの評価は実際には意味がないまた問題の規模(small medium large) という評価も難しい
bull ldquoスケーラビリティrdquoは対象を明確に規定する必要がある
システムの尺度 ユーザの尺度
Flops hArr 計算終了までの時間
メモリサイズ(GB) hArr モデルのサイズと計算結果
プロセッサ数 hArr ワークロードでの試行
データ長 hArr 計算精度
システム構成(クラスタ) hArr 導入コストと運用コスト
スケーラビリティ hArr ベンチマーク
スケーラブルシステムズ株式会社
HPCシステムの動向国家プロジェクトと商用製品のギャップの拡大
Going UP
Going DOWN
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
Peta-Scaleコンピューティングに求められる基本技術と現在のHPCの主要マーケットでの要求はあまりにも差が大きいrarrHPCSシステムは各社とのlsquoCommodityrsquoのマイクロプロセッサではなく独自のプロセッサを開発中
ハードウエアはrsquoCommodityrsquo
なものを利用してSWの改善サポート利用技術のサポートが今後の主要マーケットでの成功の鍵となる
スケーラブルシステムズ株式会社
HPCシステムの動向国家プロジェクト
Going UP
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
Peta-Scaleコンピューティングに求められる基本技術と現在のHPCの主要マーケットでの要求はあまりにも差が大きいrarrHPCSシステムは各社とのlsquoCommodityrsquoのマイクロプロセッサではなく独自のプロセッサを開発中
スケーラブルシステムズ株式会社
TOP500性能予測
1993 1995 1997 1999 2001 2003 2005 2007 2009 2011 2013 2015
N=
50
SUM
1 Gflops
1 Tflops
100 Mflops
100 Gflops
100 Tflops
10 Gflops
10 Tflops
1 Pflops
10 Pflops
IBM ASCI White
Blue GeneEarth Simulator
Intel
TOP500の総計が1PFを超えています
TOP500に掲載されるには1TF
が最低条件になっています
シングルシステムの1PFの実現は2009年
システム(プロセッサ数) 13倍年プロセッサ性能向上 14倍年トータル性能 18倍年
2009年までに1ペタFLOPS
スケーラブルシステムズ株式会社
性能ギャップの拡大
bull ピーク性能の大幅な向上ndash 1990年台は性能の向上は102のオーダーでしたが2000年台になると103のオーダーで性能は向上しています
しかしhellipndash 多くの科学技術計算用途のアプリケーションのピーク性能に対する実効性能の比率は5-10となっています(1990年代のベクトル計算機は40-50の対ピーク性能を示していました)
bull 今必要なのはndash より高い実効性能を発揮することが可能な計算アルゴリズムと手法の開発とスケーラビリティの向上
ndash プログラミングモデルなども含めてスケーラブルな計算機環境の構築
01
1
10
100
1000
2000 2004
Tera
flo
ps
1996
Performance
Gap
Peak Performance
Real Performance
NERSC User Group Meeting June 24-25 2004
Osni Marques and Tony Drummond
Lawrence Berkeley National Laboratory
スケーラブルシステムズ株式会社
ペタスケールシステムの構築
bull ソフトウエア(アプリケーションOSプログラミングAPIなど)の課題の克服が課題
bull システムの複雑さと生産性
例Linpack Benchmark
bull オリジナルベンチマークプログラム ~100ライン
bull HPL ベンチマークプログラム ~10000ライン(x100より複雑)
lsquo複雑さrsquoの壁
現在のテラFLOPS級の問題
Source ORNL
スケーラブルシステムズ株式会社
HPCシステムの動向商用製品
Going DOWN
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
ハードウエアはrsquoCommodityrsquo
なものを利用してSWの改善サポート利用技術のサポートが今後の主要マーケットでの成功の鍵となる
スケーラブルシステムズ株式会社
標準コンポーネントの進化
bull プロセッサの性能向上ndash lsquoマルチコアrsquoによる省電力での性能向上が可能
ndash HPCアプリケーションは容易にlsquoマルチコアrsquoの利点を活用可能 (OpenMPやMPI)
bull ファイルシステムndash高性能なスケーラブルファイルシステム(オープンソース)
bull インターコネクトndash PCI-Express (メモリlarrrarrインターコネクト)
ndash高速の商用製品やオープンソースでの強力(OpenIBなど)
スケーラブルシステムズ株式会社
標準コンポーネントの利点
bull 特定のベンダーからのシステムを組み合わせるのではなく他社のシステムも含めてベストなシステムの選択が可能
ndashスケーラブルSMPベクトル計算機クラスタの幅広い選択肢
ndash 64ビットマルチコアマイクロプロセッサの性能向上を最大限に活用
bull 標準コンポーネントの技術革新の活用
ndash PCI-ExpressやFB-DIMMの利用技術
スケーラブルシステムズ株式会社
Breaking the 1-2K nodes Barrier
bull 音の障壁サウンドバリヤー(sound barrier)飛行機の速度が音速近くになると衝撃波の発生によって抵抗の増大境界層の剥離など設計運用上のさまざまな障害(壁)に出合って超音速飛行は不可能かと思われた時代があった(1947年ごろまで)ので音の障壁といわれていた
httpwwwwilk4commiscsoundbreakhtm
クラスタのノード数がある規模に近くなるとその構築や運用において負担の増大システムの安定稼動スケーラビリティなど設計運用上のさまざまな障害(壁)に出合ってクラスタ構築は不可能と思われた時代があった()
スケーラブルシステムズ株式会社
ビルゲイツ氏の基調講演HPC goes mainstream
スケーラブルシステムズ株式会社
「Fast」「Good」「Cheap」のパズル
Fast
+ Cheap
Inferior
高い性能を廉価なシステムで構築することも可能ですただそのようなシステムの場合システムの構築や利用は必ずしも容易ではありません
Good
+ Cheap
Slow比較的小規模なシステムであれば廉価で使い勝手の良いものを探すことは可能ですしかしそのようなシステムでは拡張性やより大規模なシステム構築が出来ません
Good
+ Fast
Expensive
付加価値の高い性能の高いシステムは一般には高価ですその付加価値がユーザにとってメリットが無ければコストパフォーマンスの悪いシステムになるだけです
スケーラブルシステムズ株式会社
まとめとして
bull 「テクノロジー」をどのようにとらえるかndash企業経営基盤のコア要素
ndashユーザの本質的な課題を解決する戦略的な武器
bull マーケットを牽引する「テクノロジ」に求められることndashテクノロジとHPCにおけるITインフラの関係を明確にすること
bull ユーザに何らかのメリットをもたらさない「テクノロジー」は意味を成さない
ndashテクノロジーを最適に組み合わせることで問題解決のためのソリューションの提供が可能
スケーラブルシステムズ株式会社
まとめとして
bull bdquoTs‟ for HPC - インテルテクノロジのHPCにおける価値
ndash インテルテクノロジはHPCにおいて重要な構成要素となっている
ndashそれらの構成要素を統合することでより高い価値の提供が可能となる
ndash二分化しつつあるHPCシステムにおいて「標準コ
ンポーネント」としてのプラットフォームの動向として今後もその動向には注目する必要がある
スケーラブルシステムズ株式会社
さらに詳しい情報はhellip
bull 弊社のコンサルテーションに関するご提案資料もダウンロード可能です(非公開WEBページ)別途弊社に内容等についてはお尋ねください
お問い合わせ先102-0083
東京都千代田区麹町3-5-2
BUREX麹町 8F
電話03-5875-4718
FAX03-3237-7612
E-mailbizsstccojp
httpwwwsstccojp wwwsstccojpbiz
スケーラブルシステムズ株式会社
スケーラブルシステムズ株式会社
ハイエンドコンピューティングに関するコンサルテーションとして幅広いサービスをご提供致します
このサービスを最大限に活用していただくことでコラボレーションによる「顧客志向」 のコン
サルテーションサービスをご提供できればと思っております
スケーラブルシステムズ株式会社
社名製品名などは一般に各社の商標または登録商標です無断での引用転載を禁じます
In general the name of the company and the product name etc are the trademarks or registered trademarks of each company
Copyright Scalable Systems Co Ltd 2005 Unauthorized use is strictly forbidden
2005年11月
スケーラブルシステムズ株式会社
「未来を予測する最良の方法はそれを創造してしまうことである」The best way to predict future is to invent it
Dr Alan Kay President of Viewpoints Research
Institute Inc
スケーラブルシステムズ株式会社
ITマネージメントの課題
bull プラットフォームの内部からの保護ndash ウイルスやワームなど悪意あるソフトウェアからの保護
bull 資産管理ndash 多くの IT 部門では特定できない資産が問題
bull オンラインおよびリモート管理診断機能 ndash アップグレード診断復旧のための作業の効率化
bull アプリケーション統合の困難さ
ndash アプリケーションの高度化と複雑化によって複数のアプリケーションを組み合わせるての動作に問題
bull 動的なリソース割り当て
ndash 組織内で未使用のCPUやメモリの活用
スケーラブルシステムズ株式会社
マーケットトレンド
All Servers Worldwide 2003 2004 2005 20062003 to 2006
CAGR
2005 to 2006
CAGR
Total Factory Revenue($B) $46149 $49146 $51268 $52251 42 19
Units Shipped(same as nodes) 5278222 6307484 7050099 7472649 123 60
Processor Dies Shipped 8662823 10134624 11712766 12779159 138 91
HPC Technical Servers Worldwide 2003 2004 2005 20062003 to 2006
CAGR
2005 to 2006
CAGR
HPC Server Revenue($B) $5698 $7393 $9208 $10030 207 89
Adjusted Revenues(To much
enterprise)$5128 $6654 $8287 $9027 207 89
Node Units Shipped 411327 734510 1215735 1419221 511 167
Processor Elements Shipped 1002905 1657827 2681079 3351843 495 250
HPC As A Ratio Of All Servers 2003 2004 2005 2006
Revenue($B) 123 150 180 192
Adjusted Revenues(Apples-to-
apples)111 135 162 173
Units Shipped(Nodes) 78 116 172 190
Processors Shipped 116 164 226 261
Source IDC 2007
スケーラブルシステムズ株式会社
HPCマーケット(対全サーバマーケット)
0
5
10
15
20
25
30
2003 2004 2005 2006
Revenue($B)
Adjusted Revenues(Apples-to-apples)
Units Shipped(Nodes)
Processors Shipped
スケーラブルシステムズ株式会社
マーケットトレンド
Source IDC 2004
Cost of mgmt amp admin 10 CAGR
$0
$20
$40
$60
$80
$100
$120
$140
$160
$180
$200
1996 rsquo97 rsquo98 rsquo992000 rsquo01 rsquo02 rsquo03 rsquo04 rsquo05 rsquo06 rsquo07 rsquo08-
New server spending (USM$) 3 CAGR
Spending (USB$)
5
10
15
20
25
30
35
Installed Base (M Units)
bull ハードウェアの減価償却費は IT の TCO 全体の約25 にすぎない
bull ソフトウェアのコストはわずか10~15
bull 電気などの公共料金フロアスペース電話回線など設備面のコストの割合もきわめて小さい
bull プラットフォームのコストではなくTCOの大きな比率を占めるのは人件費となっている
スケーラブルシステムズ株式会社
運用管理コストの低減
bull 「もっと処理性能を」と「より安価に」を実現するためにワークステーションやサーバでの分散処理の導入
bull ユーザや企業に新たな価値をもたらしてはいるが管理責任とその負担の分散を招き結果的に運用管理コストを押し上げる
メインフレームスーパーコンピュータ
仮想化によるサーバコンソリデーション
クラスタによる仮想コンピュータ
スケーラブルシステムズ株式会社
次世代HPCインフラ
bull コアとスレッド
ndash より多くのスレッドを効率よく利用可能
ndash マルチスレッド向け最適化
bull 電力管理
ndash 省電力
ndash データセンター運用管理機能
bull 仮想化
ndash 柔軟性と優れた運用管理
ndash 仮想的なシステムパーティション
bull RAS
ndash ハードウエアベースの自己監視自己管理
ndash ファームウエアベースのエラー履歴管理
bull システム管理
ndash より低いTCOを実現するための一般標準化されたマネージメント機能
スケーラブルシステムズ株式会社
高速プロセッサ
64ビットアドレス
メモリ性能と容
量
IOバンド幅
インターコネクト
省電力
システムのlsquoバランスrsquo
マルチコアによってプロセッサ単体の処理性能の向上を図る
64ビットのアドレス空間と
拡張されたレジスタによるOSとアプリケーション双方の機能性能拡張
64ビット化とマルチコア化
にともなう高速大容量へのニーズに対応しまたその拡張性の高い実装技術の実現
CPU-メモリ間の高速な
データ転送やより高速なネットワーク大規模なストレージのサポート
大規模なクラスタシステムの構築及びアプリケーションのワークロードに対応した高速性能
エコシステムに対応するためにも電力消費量や発熱量を積極的に抑える技術の開発
スケーラブルシステムズ株式会社
HPCの二極分化
Going UP
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
Going DOWN
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
スケーラブルシステムズ株式会社
システムとユーザの尺度
bull ユーザの尺度での性能(Performance)は時間当たりにどれだけの仕事を処理出来るか(仕事量 時間)
bull Flopsでの評価は実際には意味がないまた問題の規模(small medium large) という評価も難しい
bull ldquoスケーラビリティrdquoは対象を明確に規定する必要がある
システムの尺度 ユーザの尺度
Flops hArr 計算終了までの時間
メモリサイズ(GB) hArr モデルのサイズと計算結果
プロセッサ数 hArr ワークロードでの試行
データ長 hArr 計算精度
システム構成(クラスタ) hArr 導入コストと運用コスト
スケーラビリティ hArr ベンチマーク
スケーラブルシステムズ株式会社
HPCシステムの動向国家プロジェクトと商用製品のギャップの拡大
Going UP
Going DOWN
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
Peta-Scaleコンピューティングに求められる基本技術と現在のHPCの主要マーケットでの要求はあまりにも差が大きいrarrHPCSシステムは各社とのlsquoCommodityrsquoのマイクロプロセッサではなく独自のプロセッサを開発中
ハードウエアはrsquoCommodityrsquo
なものを利用してSWの改善サポート利用技術のサポートが今後の主要マーケットでの成功の鍵となる
スケーラブルシステムズ株式会社
HPCシステムの動向国家プロジェクト
Going UP
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
Peta-Scaleコンピューティングに求められる基本技術と現在のHPCの主要マーケットでの要求はあまりにも差が大きいrarrHPCSシステムは各社とのlsquoCommodityrsquoのマイクロプロセッサではなく独自のプロセッサを開発中
スケーラブルシステムズ株式会社
TOP500性能予測
1993 1995 1997 1999 2001 2003 2005 2007 2009 2011 2013 2015
N=
50
SUM
1 Gflops
1 Tflops
100 Mflops
100 Gflops
100 Tflops
10 Gflops
10 Tflops
1 Pflops
10 Pflops
IBM ASCI White
Blue GeneEarth Simulator
Intel
TOP500の総計が1PFを超えています
TOP500に掲載されるには1TF
が最低条件になっています
シングルシステムの1PFの実現は2009年
システム(プロセッサ数) 13倍年プロセッサ性能向上 14倍年トータル性能 18倍年
2009年までに1ペタFLOPS
スケーラブルシステムズ株式会社
性能ギャップの拡大
bull ピーク性能の大幅な向上ndash 1990年台は性能の向上は102のオーダーでしたが2000年台になると103のオーダーで性能は向上しています
しかしhellipndash 多くの科学技術計算用途のアプリケーションのピーク性能に対する実効性能の比率は5-10となっています(1990年代のベクトル計算機は40-50の対ピーク性能を示していました)
bull 今必要なのはndash より高い実効性能を発揮することが可能な計算アルゴリズムと手法の開発とスケーラビリティの向上
ndash プログラミングモデルなども含めてスケーラブルな計算機環境の構築
01
1
10
100
1000
2000 2004
Tera
flo
ps
1996
Performance
Gap
Peak Performance
Real Performance
NERSC User Group Meeting June 24-25 2004
Osni Marques and Tony Drummond
Lawrence Berkeley National Laboratory
スケーラブルシステムズ株式会社
ペタスケールシステムの構築
bull ソフトウエア(アプリケーションOSプログラミングAPIなど)の課題の克服が課題
bull システムの複雑さと生産性
例Linpack Benchmark
bull オリジナルベンチマークプログラム ~100ライン
bull HPL ベンチマークプログラム ~10000ライン(x100より複雑)
lsquo複雑さrsquoの壁
現在のテラFLOPS級の問題
Source ORNL
スケーラブルシステムズ株式会社
HPCシステムの動向商用製品
Going DOWN
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
ハードウエアはrsquoCommodityrsquo
なものを利用してSWの改善サポート利用技術のサポートが今後の主要マーケットでの成功の鍵となる
スケーラブルシステムズ株式会社
標準コンポーネントの進化
bull プロセッサの性能向上ndash lsquoマルチコアrsquoによる省電力での性能向上が可能
ndash HPCアプリケーションは容易にlsquoマルチコアrsquoの利点を活用可能 (OpenMPやMPI)
bull ファイルシステムndash高性能なスケーラブルファイルシステム(オープンソース)
bull インターコネクトndash PCI-Express (メモリlarrrarrインターコネクト)
ndash高速の商用製品やオープンソースでの強力(OpenIBなど)
スケーラブルシステムズ株式会社
標準コンポーネントの利点
bull 特定のベンダーからのシステムを組み合わせるのではなく他社のシステムも含めてベストなシステムの選択が可能
ndashスケーラブルSMPベクトル計算機クラスタの幅広い選択肢
ndash 64ビットマルチコアマイクロプロセッサの性能向上を最大限に活用
bull 標準コンポーネントの技術革新の活用
ndash PCI-ExpressやFB-DIMMの利用技術
スケーラブルシステムズ株式会社
Breaking the 1-2K nodes Barrier
bull 音の障壁サウンドバリヤー(sound barrier)飛行機の速度が音速近くになると衝撃波の発生によって抵抗の増大境界層の剥離など設計運用上のさまざまな障害(壁)に出合って超音速飛行は不可能かと思われた時代があった(1947年ごろまで)ので音の障壁といわれていた
httpwwwwilk4commiscsoundbreakhtm
クラスタのノード数がある規模に近くなるとその構築や運用において負担の増大システムの安定稼動スケーラビリティなど設計運用上のさまざまな障害(壁)に出合ってクラスタ構築は不可能と思われた時代があった()
スケーラブルシステムズ株式会社
ビルゲイツ氏の基調講演HPC goes mainstream
スケーラブルシステムズ株式会社
「Fast」「Good」「Cheap」のパズル
Fast
+ Cheap
Inferior
高い性能を廉価なシステムで構築することも可能ですただそのようなシステムの場合システムの構築や利用は必ずしも容易ではありません
Good
+ Cheap
Slow比較的小規模なシステムであれば廉価で使い勝手の良いものを探すことは可能ですしかしそのようなシステムでは拡張性やより大規模なシステム構築が出来ません
Good
+ Fast
Expensive
付加価値の高い性能の高いシステムは一般には高価ですその付加価値がユーザにとってメリットが無ければコストパフォーマンスの悪いシステムになるだけです
スケーラブルシステムズ株式会社
まとめとして
bull 「テクノロジー」をどのようにとらえるかndash企業経営基盤のコア要素
ndashユーザの本質的な課題を解決する戦略的な武器
bull マーケットを牽引する「テクノロジ」に求められることndashテクノロジとHPCにおけるITインフラの関係を明確にすること
bull ユーザに何らかのメリットをもたらさない「テクノロジー」は意味を成さない
ndashテクノロジーを最適に組み合わせることで問題解決のためのソリューションの提供が可能
スケーラブルシステムズ株式会社
まとめとして
bull bdquoTs‟ for HPC - インテルテクノロジのHPCにおける価値
ndash インテルテクノロジはHPCにおいて重要な構成要素となっている
ndashそれらの構成要素を統合することでより高い価値の提供が可能となる
ndash二分化しつつあるHPCシステムにおいて「標準コ
ンポーネント」としてのプラットフォームの動向として今後もその動向には注目する必要がある
スケーラブルシステムズ株式会社
さらに詳しい情報はhellip
bull 弊社のコンサルテーションに関するご提案資料もダウンロード可能です(非公開WEBページ)別途弊社に内容等についてはお尋ねください
お問い合わせ先102-0083
東京都千代田区麹町3-5-2
BUREX麹町 8F
電話03-5875-4718
FAX03-3237-7612
E-mailbizsstccojp
httpwwwsstccojp wwwsstccojpbiz
スケーラブルシステムズ株式会社
スケーラブルシステムズ株式会社
ハイエンドコンピューティングに関するコンサルテーションとして幅広いサービスをご提供致します
このサービスを最大限に活用していただくことでコラボレーションによる「顧客志向」 のコン
サルテーションサービスをご提供できればと思っております
スケーラブルシステムズ株式会社
社名製品名などは一般に各社の商標または登録商標です無断での引用転載を禁じます
In general the name of the company and the product name etc are the trademarks or registered trademarks of each company
Copyright Scalable Systems Co Ltd 2005 Unauthorized use is strictly forbidden
2005年11月
スケーラブルシステムズ株式会社
ITマネージメントの課題
bull プラットフォームの内部からの保護ndash ウイルスやワームなど悪意あるソフトウェアからの保護
bull 資産管理ndash 多くの IT 部門では特定できない資産が問題
bull オンラインおよびリモート管理診断機能 ndash アップグレード診断復旧のための作業の効率化
bull アプリケーション統合の困難さ
ndash アプリケーションの高度化と複雑化によって複数のアプリケーションを組み合わせるての動作に問題
bull 動的なリソース割り当て
ndash 組織内で未使用のCPUやメモリの活用
スケーラブルシステムズ株式会社
マーケットトレンド
All Servers Worldwide 2003 2004 2005 20062003 to 2006
CAGR
2005 to 2006
CAGR
Total Factory Revenue($B) $46149 $49146 $51268 $52251 42 19
Units Shipped(same as nodes) 5278222 6307484 7050099 7472649 123 60
Processor Dies Shipped 8662823 10134624 11712766 12779159 138 91
HPC Technical Servers Worldwide 2003 2004 2005 20062003 to 2006
CAGR
2005 to 2006
CAGR
HPC Server Revenue($B) $5698 $7393 $9208 $10030 207 89
Adjusted Revenues(To much
enterprise)$5128 $6654 $8287 $9027 207 89
Node Units Shipped 411327 734510 1215735 1419221 511 167
Processor Elements Shipped 1002905 1657827 2681079 3351843 495 250
HPC As A Ratio Of All Servers 2003 2004 2005 2006
Revenue($B) 123 150 180 192
Adjusted Revenues(Apples-to-
apples)111 135 162 173
Units Shipped(Nodes) 78 116 172 190
Processors Shipped 116 164 226 261
Source IDC 2007
スケーラブルシステムズ株式会社
HPCマーケット(対全サーバマーケット)
0
5
10
15
20
25
30
2003 2004 2005 2006
Revenue($B)
Adjusted Revenues(Apples-to-apples)
Units Shipped(Nodes)
Processors Shipped
スケーラブルシステムズ株式会社
マーケットトレンド
Source IDC 2004
Cost of mgmt amp admin 10 CAGR
$0
$20
$40
$60
$80
$100
$120
$140
$160
$180
$200
1996 rsquo97 rsquo98 rsquo992000 rsquo01 rsquo02 rsquo03 rsquo04 rsquo05 rsquo06 rsquo07 rsquo08-
New server spending (USM$) 3 CAGR
Spending (USB$)
5
10
15
20
25
30
35
Installed Base (M Units)
bull ハードウェアの減価償却費は IT の TCO 全体の約25 にすぎない
bull ソフトウェアのコストはわずか10~15
bull 電気などの公共料金フロアスペース電話回線など設備面のコストの割合もきわめて小さい
bull プラットフォームのコストではなくTCOの大きな比率を占めるのは人件費となっている
スケーラブルシステムズ株式会社
運用管理コストの低減
bull 「もっと処理性能を」と「より安価に」を実現するためにワークステーションやサーバでの分散処理の導入
bull ユーザや企業に新たな価値をもたらしてはいるが管理責任とその負担の分散を招き結果的に運用管理コストを押し上げる
メインフレームスーパーコンピュータ
仮想化によるサーバコンソリデーション
クラスタによる仮想コンピュータ
スケーラブルシステムズ株式会社
次世代HPCインフラ
bull コアとスレッド
ndash より多くのスレッドを効率よく利用可能
ndash マルチスレッド向け最適化
bull 電力管理
ndash 省電力
ndash データセンター運用管理機能
bull 仮想化
ndash 柔軟性と優れた運用管理
ndash 仮想的なシステムパーティション
bull RAS
ndash ハードウエアベースの自己監視自己管理
ndash ファームウエアベースのエラー履歴管理
bull システム管理
ndash より低いTCOを実現するための一般標準化されたマネージメント機能
スケーラブルシステムズ株式会社
高速プロセッサ
64ビットアドレス
メモリ性能と容
量
IOバンド幅
インターコネクト
省電力
システムのlsquoバランスrsquo
マルチコアによってプロセッサ単体の処理性能の向上を図る
64ビットのアドレス空間と
拡張されたレジスタによるOSとアプリケーション双方の機能性能拡張
64ビット化とマルチコア化
にともなう高速大容量へのニーズに対応しまたその拡張性の高い実装技術の実現
CPU-メモリ間の高速な
データ転送やより高速なネットワーク大規模なストレージのサポート
大規模なクラスタシステムの構築及びアプリケーションのワークロードに対応した高速性能
エコシステムに対応するためにも電力消費量や発熱量を積極的に抑える技術の開発
スケーラブルシステムズ株式会社
HPCの二極分化
Going UP
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
Going DOWN
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
スケーラブルシステムズ株式会社
システムとユーザの尺度
bull ユーザの尺度での性能(Performance)は時間当たりにどれだけの仕事を処理出来るか(仕事量 時間)
bull Flopsでの評価は実際には意味がないまた問題の規模(small medium large) という評価も難しい
bull ldquoスケーラビリティrdquoは対象を明確に規定する必要がある
システムの尺度 ユーザの尺度
Flops hArr 計算終了までの時間
メモリサイズ(GB) hArr モデルのサイズと計算結果
プロセッサ数 hArr ワークロードでの試行
データ長 hArr 計算精度
システム構成(クラスタ) hArr 導入コストと運用コスト
スケーラビリティ hArr ベンチマーク
スケーラブルシステムズ株式会社
HPCシステムの動向国家プロジェクトと商用製品のギャップの拡大
Going UP
Going DOWN
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
Peta-Scaleコンピューティングに求められる基本技術と現在のHPCの主要マーケットでの要求はあまりにも差が大きいrarrHPCSシステムは各社とのlsquoCommodityrsquoのマイクロプロセッサではなく独自のプロセッサを開発中
ハードウエアはrsquoCommodityrsquo
なものを利用してSWの改善サポート利用技術のサポートが今後の主要マーケットでの成功の鍵となる
スケーラブルシステムズ株式会社
HPCシステムの動向国家プロジェクト
Going UP
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
Peta-Scaleコンピューティングに求められる基本技術と現在のHPCの主要マーケットでの要求はあまりにも差が大きいrarrHPCSシステムは各社とのlsquoCommodityrsquoのマイクロプロセッサではなく独自のプロセッサを開発中
スケーラブルシステムズ株式会社
TOP500性能予測
1993 1995 1997 1999 2001 2003 2005 2007 2009 2011 2013 2015
N=
50
SUM
1 Gflops
1 Tflops
100 Mflops
100 Gflops
100 Tflops
10 Gflops
10 Tflops
1 Pflops
10 Pflops
IBM ASCI White
Blue GeneEarth Simulator
Intel
TOP500の総計が1PFを超えています
TOP500に掲載されるには1TF
が最低条件になっています
シングルシステムの1PFの実現は2009年
システム(プロセッサ数) 13倍年プロセッサ性能向上 14倍年トータル性能 18倍年
2009年までに1ペタFLOPS
スケーラブルシステムズ株式会社
性能ギャップの拡大
bull ピーク性能の大幅な向上ndash 1990年台は性能の向上は102のオーダーでしたが2000年台になると103のオーダーで性能は向上しています
しかしhellipndash 多くの科学技術計算用途のアプリケーションのピーク性能に対する実効性能の比率は5-10となっています(1990年代のベクトル計算機は40-50の対ピーク性能を示していました)
bull 今必要なのはndash より高い実効性能を発揮することが可能な計算アルゴリズムと手法の開発とスケーラビリティの向上
ndash プログラミングモデルなども含めてスケーラブルな計算機環境の構築
01
1
10
100
1000
2000 2004
Tera
flo
ps
1996
Performance
Gap
Peak Performance
Real Performance
NERSC User Group Meeting June 24-25 2004
Osni Marques and Tony Drummond
Lawrence Berkeley National Laboratory
スケーラブルシステムズ株式会社
ペタスケールシステムの構築
bull ソフトウエア(アプリケーションOSプログラミングAPIなど)の課題の克服が課題
bull システムの複雑さと生産性
例Linpack Benchmark
bull オリジナルベンチマークプログラム ~100ライン
bull HPL ベンチマークプログラム ~10000ライン(x100より複雑)
lsquo複雑さrsquoの壁
現在のテラFLOPS級の問題
Source ORNL
スケーラブルシステムズ株式会社
HPCシステムの動向商用製品
Going DOWN
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
ハードウエアはrsquoCommodityrsquo
なものを利用してSWの改善サポート利用技術のサポートが今後の主要マーケットでの成功の鍵となる
スケーラブルシステムズ株式会社
標準コンポーネントの進化
bull プロセッサの性能向上ndash lsquoマルチコアrsquoによる省電力での性能向上が可能
ndash HPCアプリケーションは容易にlsquoマルチコアrsquoの利点を活用可能 (OpenMPやMPI)
bull ファイルシステムndash高性能なスケーラブルファイルシステム(オープンソース)
bull インターコネクトndash PCI-Express (メモリlarrrarrインターコネクト)
ndash高速の商用製品やオープンソースでの強力(OpenIBなど)
スケーラブルシステムズ株式会社
標準コンポーネントの利点
bull 特定のベンダーからのシステムを組み合わせるのではなく他社のシステムも含めてベストなシステムの選択が可能
ndashスケーラブルSMPベクトル計算機クラスタの幅広い選択肢
ndash 64ビットマルチコアマイクロプロセッサの性能向上を最大限に活用
bull 標準コンポーネントの技術革新の活用
ndash PCI-ExpressやFB-DIMMの利用技術
スケーラブルシステムズ株式会社
Breaking the 1-2K nodes Barrier
bull 音の障壁サウンドバリヤー(sound barrier)飛行機の速度が音速近くになると衝撃波の発生によって抵抗の増大境界層の剥離など設計運用上のさまざまな障害(壁)に出合って超音速飛行は不可能かと思われた時代があった(1947年ごろまで)ので音の障壁といわれていた
httpwwwwilk4commiscsoundbreakhtm
クラスタのノード数がある規模に近くなるとその構築や運用において負担の増大システムの安定稼動スケーラビリティなど設計運用上のさまざまな障害(壁)に出合ってクラスタ構築は不可能と思われた時代があった()
スケーラブルシステムズ株式会社
ビルゲイツ氏の基調講演HPC goes mainstream
スケーラブルシステムズ株式会社
「Fast」「Good」「Cheap」のパズル
Fast
+ Cheap
Inferior
高い性能を廉価なシステムで構築することも可能ですただそのようなシステムの場合システムの構築や利用は必ずしも容易ではありません
Good
+ Cheap
Slow比較的小規模なシステムであれば廉価で使い勝手の良いものを探すことは可能ですしかしそのようなシステムでは拡張性やより大規模なシステム構築が出来ません
Good
+ Fast
Expensive
付加価値の高い性能の高いシステムは一般には高価ですその付加価値がユーザにとってメリットが無ければコストパフォーマンスの悪いシステムになるだけです
スケーラブルシステムズ株式会社
まとめとして
bull 「テクノロジー」をどのようにとらえるかndash企業経営基盤のコア要素
ndashユーザの本質的な課題を解決する戦略的な武器
bull マーケットを牽引する「テクノロジ」に求められることndashテクノロジとHPCにおけるITインフラの関係を明確にすること
bull ユーザに何らかのメリットをもたらさない「テクノロジー」は意味を成さない
ndashテクノロジーを最適に組み合わせることで問題解決のためのソリューションの提供が可能
スケーラブルシステムズ株式会社
まとめとして
bull bdquoTs‟ for HPC - インテルテクノロジのHPCにおける価値
ndash インテルテクノロジはHPCにおいて重要な構成要素となっている
ndashそれらの構成要素を統合することでより高い価値の提供が可能となる
ndash二分化しつつあるHPCシステムにおいて「標準コ
ンポーネント」としてのプラットフォームの動向として今後もその動向には注目する必要がある
スケーラブルシステムズ株式会社
さらに詳しい情報はhellip
bull 弊社のコンサルテーションに関するご提案資料もダウンロード可能です(非公開WEBページ)別途弊社に内容等についてはお尋ねください
お問い合わせ先102-0083
東京都千代田区麹町3-5-2
BUREX麹町 8F
電話03-5875-4718
FAX03-3237-7612
E-mailbizsstccojp
httpwwwsstccojp wwwsstccojpbiz
スケーラブルシステムズ株式会社
スケーラブルシステムズ株式会社
ハイエンドコンピューティングに関するコンサルテーションとして幅広いサービスをご提供致します
このサービスを最大限に活用していただくことでコラボレーションによる「顧客志向」 のコン
サルテーションサービスをご提供できればと思っております
スケーラブルシステムズ株式会社
社名製品名などは一般に各社の商標または登録商標です無断での引用転載を禁じます
In general the name of the company and the product name etc are the trademarks or registered trademarks of each company
Copyright Scalable Systems Co Ltd 2005 Unauthorized use is strictly forbidden
2005年11月
スケーラブルシステムズ株式会社
マーケットトレンド
All Servers Worldwide 2003 2004 2005 20062003 to 2006
CAGR
2005 to 2006
CAGR
Total Factory Revenue($B) $46149 $49146 $51268 $52251 42 19
Units Shipped(same as nodes) 5278222 6307484 7050099 7472649 123 60
Processor Dies Shipped 8662823 10134624 11712766 12779159 138 91
HPC Technical Servers Worldwide 2003 2004 2005 20062003 to 2006
CAGR
2005 to 2006
CAGR
HPC Server Revenue($B) $5698 $7393 $9208 $10030 207 89
Adjusted Revenues(To much
enterprise)$5128 $6654 $8287 $9027 207 89
Node Units Shipped 411327 734510 1215735 1419221 511 167
Processor Elements Shipped 1002905 1657827 2681079 3351843 495 250
HPC As A Ratio Of All Servers 2003 2004 2005 2006
Revenue($B) 123 150 180 192
Adjusted Revenues(Apples-to-
apples)111 135 162 173
Units Shipped(Nodes) 78 116 172 190
Processors Shipped 116 164 226 261
Source IDC 2007
スケーラブルシステムズ株式会社
HPCマーケット(対全サーバマーケット)
0
5
10
15
20
25
30
2003 2004 2005 2006
Revenue($B)
Adjusted Revenues(Apples-to-apples)
Units Shipped(Nodes)
Processors Shipped
スケーラブルシステムズ株式会社
マーケットトレンド
Source IDC 2004
Cost of mgmt amp admin 10 CAGR
$0
$20
$40
$60
$80
$100
$120
$140
$160
$180
$200
1996 rsquo97 rsquo98 rsquo992000 rsquo01 rsquo02 rsquo03 rsquo04 rsquo05 rsquo06 rsquo07 rsquo08-
New server spending (USM$) 3 CAGR
Spending (USB$)
5
10
15
20
25
30
35
Installed Base (M Units)
bull ハードウェアの減価償却費は IT の TCO 全体の約25 にすぎない
bull ソフトウェアのコストはわずか10~15
bull 電気などの公共料金フロアスペース電話回線など設備面のコストの割合もきわめて小さい
bull プラットフォームのコストではなくTCOの大きな比率を占めるのは人件費となっている
スケーラブルシステムズ株式会社
運用管理コストの低減
bull 「もっと処理性能を」と「より安価に」を実現するためにワークステーションやサーバでの分散処理の導入
bull ユーザや企業に新たな価値をもたらしてはいるが管理責任とその負担の分散を招き結果的に運用管理コストを押し上げる
メインフレームスーパーコンピュータ
仮想化によるサーバコンソリデーション
クラスタによる仮想コンピュータ
スケーラブルシステムズ株式会社
次世代HPCインフラ
bull コアとスレッド
ndash より多くのスレッドを効率よく利用可能
ndash マルチスレッド向け最適化
bull 電力管理
ndash 省電力
ndash データセンター運用管理機能
bull 仮想化
ndash 柔軟性と優れた運用管理
ndash 仮想的なシステムパーティション
bull RAS
ndash ハードウエアベースの自己監視自己管理
ndash ファームウエアベースのエラー履歴管理
bull システム管理
ndash より低いTCOを実現するための一般標準化されたマネージメント機能
スケーラブルシステムズ株式会社
高速プロセッサ
64ビットアドレス
メモリ性能と容
量
IOバンド幅
インターコネクト
省電力
システムのlsquoバランスrsquo
マルチコアによってプロセッサ単体の処理性能の向上を図る
64ビットのアドレス空間と
拡張されたレジスタによるOSとアプリケーション双方の機能性能拡張
64ビット化とマルチコア化
にともなう高速大容量へのニーズに対応しまたその拡張性の高い実装技術の実現
CPU-メモリ間の高速な
データ転送やより高速なネットワーク大規模なストレージのサポート
大規模なクラスタシステムの構築及びアプリケーションのワークロードに対応した高速性能
エコシステムに対応するためにも電力消費量や発熱量を積極的に抑える技術の開発
スケーラブルシステムズ株式会社
HPCの二極分化
Going UP
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
Going DOWN
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
スケーラブルシステムズ株式会社
システムとユーザの尺度
bull ユーザの尺度での性能(Performance)は時間当たりにどれだけの仕事を処理出来るか(仕事量 時間)
bull Flopsでの評価は実際には意味がないまた問題の規模(small medium large) という評価も難しい
bull ldquoスケーラビリティrdquoは対象を明確に規定する必要がある
システムの尺度 ユーザの尺度
Flops hArr 計算終了までの時間
メモリサイズ(GB) hArr モデルのサイズと計算結果
プロセッサ数 hArr ワークロードでの試行
データ長 hArr 計算精度
システム構成(クラスタ) hArr 導入コストと運用コスト
スケーラビリティ hArr ベンチマーク
スケーラブルシステムズ株式会社
HPCシステムの動向国家プロジェクトと商用製品のギャップの拡大
Going UP
Going DOWN
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
Peta-Scaleコンピューティングに求められる基本技術と現在のHPCの主要マーケットでの要求はあまりにも差が大きいrarrHPCSシステムは各社とのlsquoCommodityrsquoのマイクロプロセッサではなく独自のプロセッサを開発中
ハードウエアはrsquoCommodityrsquo
なものを利用してSWの改善サポート利用技術のサポートが今後の主要マーケットでの成功の鍵となる
スケーラブルシステムズ株式会社
HPCシステムの動向国家プロジェクト
Going UP
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
Peta-Scaleコンピューティングに求められる基本技術と現在のHPCの主要マーケットでの要求はあまりにも差が大きいrarrHPCSシステムは各社とのlsquoCommodityrsquoのマイクロプロセッサではなく独自のプロセッサを開発中
スケーラブルシステムズ株式会社
TOP500性能予測
1993 1995 1997 1999 2001 2003 2005 2007 2009 2011 2013 2015
N=
50
SUM
1 Gflops
1 Tflops
100 Mflops
100 Gflops
100 Tflops
10 Gflops
10 Tflops
1 Pflops
10 Pflops
IBM ASCI White
Blue GeneEarth Simulator
Intel
TOP500の総計が1PFを超えています
TOP500に掲載されるには1TF
が最低条件になっています
シングルシステムの1PFの実現は2009年
システム(プロセッサ数) 13倍年プロセッサ性能向上 14倍年トータル性能 18倍年
2009年までに1ペタFLOPS
スケーラブルシステムズ株式会社
性能ギャップの拡大
bull ピーク性能の大幅な向上ndash 1990年台は性能の向上は102のオーダーでしたが2000年台になると103のオーダーで性能は向上しています
しかしhellipndash 多くの科学技術計算用途のアプリケーションのピーク性能に対する実効性能の比率は5-10となっています(1990年代のベクトル計算機は40-50の対ピーク性能を示していました)
bull 今必要なのはndash より高い実効性能を発揮することが可能な計算アルゴリズムと手法の開発とスケーラビリティの向上
ndash プログラミングモデルなども含めてスケーラブルな計算機環境の構築
01
1
10
100
1000
2000 2004
Tera
flo
ps
1996
Performance
Gap
Peak Performance
Real Performance
NERSC User Group Meeting June 24-25 2004
Osni Marques and Tony Drummond
Lawrence Berkeley National Laboratory
スケーラブルシステムズ株式会社
ペタスケールシステムの構築
bull ソフトウエア(アプリケーションOSプログラミングAPIなど)の課題の克服が課題
bull システムの複雑さと生産性
例Linpack Benchmark
bull オリジナルベンチマークプログラム ~100ライン
bull HPL ベンチマークプログラム ~10000ライン(x100より複雑)
lsquo複雑さrsquoの壁
現在のテラFLOPS級の問題
Source ORNL
スケーラブルシステムズ株式会社
HPCシステムの動向商用製品
Going DOWN
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
ハードウエアはrsquoCommodityrsquo
なものを利用してSWの改善サポート利用技術のサポートが今後の主要マーケットでの成功の鍵となる
スケーラブルシステムズ株式会社
標準コンポーネントの進化
bull プロセッサの性能向上ndash lsquoマルチコアrsquoによる省電力での性能向上が可能
ndash HPCアプリケーションは容易にlsquoマルチコアrsquoの利点を活用可能 (OpenMPやMPI)
bull ファイルシステムndash高性能なスケーラブルファイルシステム(オープンソース)
bull インターコネクトndash PCI-Express (メモリlarrrarrインターコネクト)
ndash高速の商用製品やオープンソースでの強力(OpenIBなど)
スケーラブルシステムズ株式会社
標準コンポーネントの利点
bull 特定のベンダーからのシステムを組み合わせるのではなく他社のシステムも含めてベストなシステムの選択が可能
ndashスケーラブルSMPベクトル計算機クラスタの幅広い選択肢
ndash 64ビットマルチコアマイクロプロセッサの性能向上を最大限に活用
bull 標準コンポーネントの技術革新の活用
ndash PCI-ExpressやFB-DIMMの利用技術
スケーラブルシステムズ株式会社
Breaking the 1-2K nodes Barrier
bull 音の障壁サウンドバリヤー(sound barrier)飛行機の速度が音速近くになると衝撃波の発生によって抵抗の増大境界層の剥離など設計運用上のさまざまな障害(壁)に出合って超音速飛行は不可能かと思われた時代があった(1947年ごろまで)ので音の障壁といわれていた
httpwwwwilk4commiscsoundbreakhtm
クラスタのノード数がある規模に近くなるとその構築や運用において負担の増大システムの安定稼動スケーラビリティなど設計運用上のさまざまな障害(壁)に出合ってクラスタ構築は不可能と思われた時代があった()
スケーラブルシステムズ株式会社
ビルゲイツ氏の基調講演HPC goes mainstream
スケーラブルシステムズ株式会社
「Fast」「Good」「Cheap」のパズル
Fast
+ Cheap
Inferior
高い性能を廉価なシステムで構築することも可能ですただそのようなシステムの場合システムの構築や利用は必ずしも容易ではありません
Good
+ Cheap
Slow比較的小規模なシステムであれば廉価で使い勝手の良いものを探すことは可能ですしかしそのようなシステムでは拡張性やより大規模なシステム構築が出来ません
Good
+ Fast
Expensive
付加価値の高い性能の高いシステムは一般には高価ですその付加価値がユーザにとってメリットが無ければコストパフォーマンスの悪いシステムになるだけです
スケーラブルシステムズ株式会社
まとめとして
bull 「テクノロジー」をどのようにとらえるかndash企業経営基盤のコア要素
ndashユーザの本質的な課題を解決する戦略的な武器
bull マーケットを牽引する「テクノロジ」に求められることndashテクノロジとHPCにおけるITインフラの関係を明確にすること
bull ユーザに何らかのメリットをもたらさない「テクノロジー」は意味を成さない
ndashテクノロジーを最適に組み合わせることで問題解決のためのソリューションの提供が可能
スケーラブルシステムズ株式会社
まとめとして
bull bdquoTs‟ for HPC - インテルテクノロジのHPCにおける価値
ndash インテルテクノロジはHPCにおいて重要な構成要素となっている
ndashそれらの構成要素を統合することでより高い価値の提供が可能となる
ndash二分化しつつあるHPCシステムにおいて「標準コ
ンポーネント」としてのプラットフォームの動向として今後もその動向には注目する必要がある
スケーラブルシステムズ株式会社
さらに詳しい情報はhellip
bull 弊社のコンサルテーションに関するご提案資料もダウンロード可能です(非公開WEBページ)別途弊社に内容等についてはお尋ねください
お問い合わせ先102-0083
東京都千代田区麹町3-5-2
BUREX麹町 8F
電話03-5875-4718
FAX03-3237-7612
E-mailbizsstccojp
httpwwwsstccojp wwwsstccojpbiz
スケーラブルシステムズ株式会社
スケーラブルシステムズ株式会社
ハイエンドコンピューティングに関するコンサルテーションとして幅広いサービスをご提供致します
このサービスを最大限に活用していただくことでコラボレーションによる「顧客志向」 のコン
サルテーションサービスをご提供できればと思っております
スケーラブルシステムズ株式会社
社名製品名などは一般に各社の商標または登録商標です無断での引用転載を禁じます
In general the name of the company and the product name etc are the trademarks or registered trademarks of each company
Copyright Scalable Systems Co Ltd 2005 Unauthorized use is strictly forbidden
2005年11月
スケーラブルシステムズ株式会社
HPCマーケット(対全サーバマーケット)
0
5
10
15
20
25
30
2003 2004 2005 2006
Revenue($B)
Adjusted Revenues(Apples-to-apples)
Units Shipped(Nodes)
Processors Shipped
スケーラブルシステムズ株式会社
マーケットトレンド
Source IDC 2004
Cost of mgmt amp admin 10 CAGR
$0
$20
$40
$60
$80
$100
$120
$140
$160
$180
$200
1996 rsquo97 rsquo98 rsquo992000 rsquo01 rsquo02 rsquo03 rsquo04 rsquo05 rsquo06 rsquo07 rsquo08-
New server spending (USM$) 3 CAGR
Spending (USB$)
5
10
15
20
25
30
35
Installed Base (M Units)
bull ハードウェアの減価償却費は IT の TCO 全体の約25 にすぎない
bull ソフトウェアのコストはわずか10~15
bull 電気などの公共料金フロアスペース電話回線など設備面のコストの割合もきわめて小さい
bull プラットフォームのコストではなくTCOの大きな比率を占めるのは人件費となっている
スケーラブルシステムズ株式会社
運用管理コストの低減
bull 「もっと処理性能を」と「より安価に」を実現するためにワークステーションやサーバでの分散処理の導入
bull ユーザや企業に新たな価値をもたらしてはいるが管理責任とその負担の分散を招き結果的に運用管理コストを押し上げる
メインフレームスーパーコンピュータ
仮想化によるサーバコンソリデーション
クラスタによる仮想コンピュータ
スケーラブルシステムズ株式会社
次世代HPCインフラ
bull コアとスレッド
ndash より多くのスレッドを効率よく利用可能
ndash マルチスレッド向け最適化
bull 電力管理
ndash 省電力
ndash データセンター運用管理機能
bull 仮想化
ndash 柔軟性と優れた運用管理
ndash 仮想的なシステムパーティション
bull RAS
ndash ハードウエアベースの自己監視自己管理
ndash ファームウエアベースのエラー履歴管理
bull システム管理
ndash より低いTCOを実現するための一般標準化されたマネージメント機能
スケーラブルシステムズ株式会社
高速プロセッサ
64ビットアドレス
メモリ性能と容
量
IOバンド幅
インターコネクト
省電力
システムのlsquoバランスrsquo
マルチコアによってプロセッサ単体の処理性能の向上を図る
64ビットのアドレス空間と
拡張されたレジスタによるOSとアプリケーション双方の機能性能拡張
64ビット化とマルチコア化
にともなう高速大容量へのニーズに対応しまたその拡張性の高い実装技術の実現
CPU-メモリ間の高速な
データ転送やより高速なネットワーク大規模なストレージのサポート
大規模なクラスタシステムの構築及びアプリケーションのワークロードに対応した高速性能
エコシステムに対応するためにも電力消費量や発熱量を積極的に抑える技術の開発
スケーラブルシステムズ株式会社
HPCの二極分化
Going UP
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
Going DOWN
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
スケーラブルシステムズ株式会社
システムとユーザの尺度
bull ユーザの尺度での性能(Performance)は時間当たりにどれだけの仕事を処理出来るか(仕事量 時間)
bull Flopsでの評価は実際には意味がないまた問題の規模(small medium large) という評価も難しい
bull ldquoスケーラビリティrdquoは対象を明確に規定する必要がある
システムの尺度 ユーザの尺度
Flops hArr 計算終了までの時間
メモリサイズ(GB) hArr モデルのサイズと計算結果
プロセッサ数 hArr ワークロードでの試行
データ長 hArr 計算精度
システム構成(クラスタ) hArr 導入コストと運用コスト
スケーラビリティ hArr ベンチマーク
スケーラブルシステムズ株式会社
HPCシステムの動向国家プロジェクトと商用製品のギャップの拡大
Going UP
Going DOWN
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
Peta-Scaleコンピューティングに求められる基本技術と現在のHPCの主要マーケットでの要求はあまりにも差が大きいrarrHPCSシステムは各社とのlsquoCommodityrsquoのマイクロプロセッサではなく独自のプロセッサを開発中
ハードウエアはrsquoCommodityrsquo
なものを利用してSWの改善サポート利用技術のサポートが今後の主要マーケットでの成功の鍵となる
スケーラブルシステムズ株式会社
HPCシステムの動向国家プロジェクト
Going UP
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
Peta-Scaleコンピューティングに求められる基本技術と現在のHPCの主要マーケットでの要求はあまりにも差が大きいrarrHPCSシステムは各社とのlsquoCommodityrsquoのマイクロプロセッサではなく独自のプロセッサを開発中
スケーラブルシステムズ株式会社
TOP500性能予測
1993 1995 1997 1999 2001 2003 2005 2007 2009 2011 2013 2015
N=
50
SUM
1 Gflops
1 Tflops
100 Mflops
100 Gflops
100 Tflops
10 Gflops
10 Tflops
1 Pflops
10 Pflops
IBM ASCI White
Blue GeneEarth Simulator
Intel
TOP500の総計が1PFを超えています
TOP500に掲載されるには1TF
が最低条件になっています
シングルシステムの1PFの実現は2009年
システム(プロセッサ数) 13倍年プロセッサ性能向上 14倍年トータル性能 18倍年
2009年までに1ペタFLOPS
スケーラブルシステムズ株式会社
性能ギャップの拡大
bull ピーク性能の大幅な向上ndash 1990年台は性能の向上は102のオーダーでしたが2000年台になると103のオーダーで性能は向上しています
しかしhellipndash 多くの科学技術計算用途のアプリケーションのピーク性能に対する実効性能の比率は5-10となっています(1990年代のベクトル計算機は40-50の対ピーク性能を示していました)
bull 今必要なのはndash より高い実効性能を発揮することが可能な計算アルゴリズムと手法の開発とスケーラビリティの向上
ndash プログラミングモデルなども含めてスケーラブルな計算機環境の構築
01
1
10
100
1000
2000 2004
Tera
flo
ps
1996
Performance
Gap
Peak Performance
Real Performance
NERSC User Group Meeting June 24-25 2004
Osni Marques and Tony Drummond
Lawrence Berkeley National Laboratory
スケーラブルシステムズ株式会社
ペタスケールシステムの構築
bull ソフトウエア(アプリケーションOSプログラミングAPIなど)の課題の克服が課題
bull システムの複雑さと生産性
例Linpack Benchmark
bull オリジナルベンチマークプログラム ~100ライン
bull HPL ベンチマークプログラム ~10000ライン(x100より複雑)
lsquo複雑さrsquoの壁
現在のテラFLOPS級の問題
Source ORNL
スケーラブルシステムズ株式会社
HPCシステムの動向商用製品
Going DOWN
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
ハードウエアはrsquoCommodityrsquo
なものを利用してSWの改善サポート利用技術のサポートが今後の主要マーケットでの成功の鍵となる
スケーラブルシステムズ株式会社
標準コンポーネントの進化
bull プロセッサの性能向上ndash lsquoマルチコアrsquoによる省電力での性能向上が可能
ndash HPCアプリケーションは容易にlsquoマルチコアrsquoの利点を活用可能 (OpenMPやMPI)
bull ファイルシステムndash高性能なスケーラブルファイルシステム(オープンソース)
bull インターコネクトndash PCI-Express (メモリlarrrarrインターコネクト)
ndash高速の商用製品やオープンソースでの強力(OpenIBなど)
スケーラブルシステムズ株式会社
標準コンポーネントの利点
bull 特定のベンダーからのシステムを組み合わせるのではなく他社のシステムも含めてベストなシステムの選択が可能
ndashスケーラブルSMPベクトル計算機クラスタの幅広い選択肢
ndash 64ビットマルチコアマイクロプロセッサの性能向上を最大限に活用
bull 標準コンポーネントの技術革新の活用
ndash PCI-ExpressやFB-DIMMの利用技術
スケーラブルシステムズ株式会社
Breaking the 1-2K nodes Barrier
bull 音の障壁サウンドバリヤー(sound barrier)飛行機の速度が音速近くになると衝撃波の発生によって抵抗の増大境界層の剥離など設計運用上のさまざまな障害(壁)に出合って超音速飛行は不可能かと思われた時代があった(1947年ごろまで)ので音の障壁といわれていた
httpwwwwilk4commiscsoundbreakhtm
クラスタのノード数がある規模に近くなるとその構築や運用において負担の増大システムの安定稼動スケーラビリティなど設計運用上のさまざまな障害(壁)に出合ってクラスタ構築は不可能と思われた時代があった()
スケーラブルシステムズ株式会社
ビルゲイツ氏の基調講演HPC goes mainstream
スケーラブルシステムズ株式会社
「Fast」「Good」「Cheap」のパズル
Fast
+ Cheap
Inferior
高い性能を廉価なシステムで構築することも可能ですただそのようなシステムの場合システムの構築や利用は必ずしも容易ではありません
Good
+ Cheap
Slow比較的小規模なシステムであれば廉価で使い勝手の良いものを探すことは可能ですしかしそのようなシステムでは拡張性やより大規模なシステム構築が出来ません
Good
+ Fast
Expensive
付加価値の高い性能の高いシステムは一般には高価ですその付加価値がユーザにとってメリットが無ければコストパフォーマンスの悪いシステムになるだけです
スケーラブルシステムズ株式会社
まとめとして
bull 「テクノロジー」をどのようにとらえるかndash企業経営基盤のコア要素
ndashユーザの本質的な課題を解決する戦略的な武器
bull マーケットを牽引する「テクノロジ」に求められることndashテクノロジとHPCにおけるITインフラの関係を明確にすること
bull ユーザに何らかのメリットをもたらさない「テクノロジー」は意味を成さない
ndashテクノロジーを最適に組み合わせることで問題解決のためのソリューションの提供が可能
スケーラブルシステムズ株式会社
まとめとして
bull bdquoTs‟ for HPC - インテルテクノロジのHPCにおける価値
ndash インテルテクノロジはHPCにおいて重要な構成要素となっている
ndashそれらの構成要素を統合することでより高い価値の提供が可能となる
ndash二分化しつつあるHPCシステムにおいて「標準コ
ンポーネント」としてのプラットフォームの動向として今後もその動向には注目する必要がある
スケーラブルシステムズ株式会社
さらに詳しい情報はhellip
bull 弊社のコンサルテーションに関するご提案資料もダウンロード可能です(非公開WEBページ)別途弊社に内容等についてはお尋ねください
お問い合わせ先102-0083
東京都千代田区麹町3-5-2
BUREX麹町 8F
電話03-5875-4718
FAX03-3237-7612
E-mailbizsstccojp
httpwwwsstccojp wwwsstccojpbiz
スケーラブルシステムズ株式会社
スケーラブルシステムズ株式会社
ハイエンドコンピューティングに関するコンサルテーションとして幅広いサービスをご提供致します
このサービスを最大限に活用していただくことでコラボレーションによる「顧客志向」 のコン
サルテーションサービスをご提供できればと思っております
スケーラブルシステムズ株式会社
社名製品名などは一般に各社の商標または登録商標です無断での引用転載を禁じます
In general the name of the company and the product name etc are the trademarks or registered trademarks of each company
Copyright Scalable Systems Co Ltd 2005 Unauthorized use is strictly forbidden
2005年11月
スケーラブルシステムズ株式会社
マーケットトレンド
Source IDC 2004
Cost of mgmt amp admin 10 CAGR
$0
$20
$40
$60
$80
$100
$120
$140
$160
$180
$200
1996 rsquo97 rsquo98 rsquo992000 rsquo01 rsquo02 rsquo03 rsquo04 rsquo05 rsquo06 rsquo07 rsquo08-
New server spending (USM$) 3 CAGR
Spending (USB$)
5
10
15
20
25
30
35
Installed Base (M Units)
bull ハードウェアの減価償却費は IT の TCO 全体の約25 にすぎない
bull ソフトウェアのコストはわずか10~15
bull 電気などの公共料金フロアスペース電話回線など設備面のコストの割合もきわめて小さい
bull プラットフォームのコストではなくTCOの大きな比率を占めるのは人件費となっている
スケーラブルシステムズ株式会社
運用管理コストの低減
bull 「もっと処理性能を」と「より安価に」を実現するためにワークステーションやサーバでの分散処理の導入
bull ユーザや企業に新たな価値をもたらしてはいるが管理責任とその負担の分散を招き結果的に運用管理コストを押し上げる
メインフレームスーパーコンピュータ
仮想化によるサーバコンソリデーション
クラスタによる仮想コンピュータ
スケーラブルシステムズ株式会社
次世代HPCインフラ
bull コアとスレッド
ndash より多くのスレッドを効率よく利用可能
ndash マルチスレッド向け最適化
bull 電力管理
ndash 省電力
ndash データセンター運用管理機能
bull 仮想化
ndash 柔軟性と優れた運用管理
ndash 仮想的なシステムパーティション
bull RAS
ndash ハードウエアベースの自己監視自己管理
ndash ファームウエアベースのエラー履歴管理
bull システム管理
ndash より低いTCOを実現するための一般標準化されたマネージメント機能
スケーラブルシステムズ株式会社
高速プロセッサ
64ビットアドレス
メモリ性能と容
量
IOバンド幅
インターコネクト
省電力
システムのlsquoバランスrsquo
マルチコアによってプロセッサ単体の処理性能の向上を図る
64ビットのアドレス空間と
拡張されたレジスタによるOSとアプリケーション双方の機能性能拡張
64ビット化とマルチコア化
にともなう高速大容量へのニーズに対応しまたその拡張性の高い実装技術の実現
CPU-メモリ間の高速な
データ転送やより高速なネットワーク大規模なストレージのサポート
大規模なクラスタシステムの構築及びアプリケーションのワークロードに対応した高速性能
エコシステムに対応するためにも電力消費量や発熱量を積極的に抑える技術の開発
スケーラブルシステムズ株式会社
HPCの二極分化
Going UP
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
Going DOWN
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
スケーラブルシステムズ株式会社
システムとユーザの尺度
bull ユーザの尺度での性能(Performance)は時間当たりにどれだけの仕事を処理出来るか(仕事量 時間)
bull Flopsでの評価は実際には意味がないまた問題の規模(small medium large) という評価も難しい
bull ldquoスケーラビリティrdquoは対象を明確に規定する必要がある
システムの尺度 ユーザの尺度
Flops hArr 計算終了までの時間
メモリサイズ(GB) hArr モデルのサイズと計算結果
プロセッサ数 hArr ワークロードでの試行
データ長 hArr 計算精度
システム構成(クラスタ) hArr 導入コストと運用コスト
スケーラビリティ hArr ベンチマーク
スケーラブルシステムズ株式会社
HPCシステムの動向国家プロジェクトと商用製品のギャップの拡大
Going UP
Going DOWN
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
Peta-Scaleコンピューティングに求められる基本技術と現在のHPCの主要マーケットでの要求はあまりにも差が大きいrarrHPCSシステムは各社とのlsquoCommodityrsquoのマイクロプロセッサではなく独自のプロセッサを開発中
ハードウエアはrsquoCommodityrsquo
なものを利用してSWの改善サポート利用技術のサポートが今後の主要マーケットでの成功の鍵となる
スケーラブルシステムズ株式会社
HPCシステムの動向国家プロジェクト
Going UP
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
Peta-Scaleコンピューティングに求められる基本技術と現在のHPCの主要マーケットでの要求はあまりにも差が大きいrarrHPCSシステムは各社とのlsquoCommodityrsquoのマイクロプロセッサではなく独自のプロセッサを開発中
スケーラブルシステムズ株式会社
TOP500性能予測
1993 1995 1997 1999 2001 2003 2005 2007 2009 2011 2013 2015
N=
50
SUM
1 Gflops
1 Tflops
100 Mflops
100 Gflops
100 Tflops
10 Gflops
10 Tflops
1 Pflops
10 Pflops
IBM ASCI White
Blue GeneEarth Simulator
Intel
TOP500の総計が1PFを超えています
TOP500に掲載されるには1TF
が最低条件になっています
シングルシステムの1PFの実現は2009年
システム(プロセッサ数) 13倍年プロセッサ性能向上 14倍年トータル性能 18倍年
2009年までに1ペタFLOPS
スケーラブルシステムズ株式会社
性能ギャップの拡大
bull ピーク性能の大幅な向上ndash 1990年台は性能の向上は102のオーダーでしたが2000年台になると103のオーダーで性能は向上しています
しかしhellipndash 多くの科学技術計算用途のアプリケーションのピーク性能に対する実効性能の比率は5-10となっています(1990年代のベクトル計算機は40-50の対ピーク性能を示していました)
bull 今必要なのはndash より高い実効性能を発揮することが可能な計算アルゴリズムと手法の開発とスケーラビリティの向上
ndash プログラミングモデルなども含めてスケーラブルな計算機環境の構築
01
1
10
100
1000
2000 2004
Tera
flo
ps
1996
Performance
Gap
Peak Performance
Real Performance
NERSC User Group Meeting June 24-25 2004
Osni Marques and Tony Drummond
Lawrence Berkeley National Laboratory
スケーラブルシステムズ株式会社
ペタスケールシステムの構築
bull ソフトウエア(アプリケーションOSプログラミングAPIなど)の課題の克服が課題
bull システムの複雑さと生産性
例Linpack Benchmark
bull オリジナルベンチマークプログラム ~100ライン
bull HPL ベンチマークプログラム ~10000ライン(x100より複雑)
lsquo複雑さrsquoの壁
現在のテラFLOPS級の問題
Source ORNL
スケーラブルシステムズ株式会社
HPCシステムの動向商用製品
Going DOWN
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
ハードウエアはrsquoCommodityrsquo
なものを利用してSWの改善サポート利用技術のサポートが今後の主要マーケットでの成功の鍵となる
スケーラブルシステムズ株式会社
標準コンポーネントの進化
bull プロセッサの性能向上ndash lsquoマルチコアrsquoによる省電力での性能向上が可能
ndash HPCアプリケーションは容易にlsquoマルチコアrsquoの利点を活用可能 (OpenMPやMPI)
bull ファイルシステムndash高性能なスケーラブルファイルシステム(オープンソース)
bull インターコネクトndash PCI-Express (メモリlarrrarrインターコネクト)
ndash高速の商用製品やオープンソースでの強力(OpenIBなど)
スケーラブルシステムズ株式会社
標準コンポーネントの利点
bull 特定のベンダーからのシステムを組み合わせるのではなく他社のシステムも含めてベストなシステムの選択が可能
ndashスケーラブルSMPベクトル計算機クラスタの幅広い選択肢
ndash 64ビットマルチコアマイクロプロセッサの性能向上を最大限に活用
bull 標準コンポーネントの技術革新の活用
ndash PCI-ExpressやFB-DIMMの利用技術
スケーラブルシステムズ株式会社
Breaking the 1-2K nodes Barrier
bull 音の障壁サウンドバリヤー(sound barrier)飛行機の速度が音速近くになると衝撃波の発生によって抵抗の増大境界層の剥離など設計運用上のさまざまな障害(壁)に出合って超音速飛行は不可能かと思われた時代があった(1947年ごろまで)ので音の障壁といわれていた
httpwwwwilk4commiscsoundbreakhtm
クラスタのノード数がある規模に近くなるとその構築や運用において負担の増大システムの安定稼動スケーラビリティなど設計運用上のさまざまな障害(壁)に出合ってクラスタ構築は不可能と思われた時代があった()
スケーラブルシステムズ株式会社
ビルゲイツ氏の基調講演HPC goes mainstream
スケーラブルシステムズ株式会社
「Fast」「Good」「Cheap」のパズル
Fast
+ Cheap
Inferior
高い性能を廉価なシステムで構築することも可能ですただそのようなシステムの場合システムの構築や利用は必ずしも容易ではありません
Good
+ Cheap
Slow比較的小規模なシステムであれば廉価で使い勝手の良いものを探すことは可能ですしかしそのようなシステムでは拡張性やより大規模なシステム構築が出来ません
Good
+ Fast
Expensive
付加価値の高い性能の高いシステムは一般には高価ですその付加価値がユーザにとってメリットが無ければコストパフォーマンスの悪いシステムになるだけです
スケーラブルシステムズ株式会社
まとめとして
bull 「テクノロジー」をどのようにとらえるかndash企業経営基盤のコア要素
ndashユーザの本質的な課題を解決する戦略的な武器
bull マーケットを牽引する「テクノロジ」に求められることndashテクノロジとHPCにおけるITインフラの関係を明確にすること
bull ユーザに何らかのメリットをもたらさない「テクノロジー」は意味を成さない
ndashテクノロジーを最適に組み合わせることで問題解決のためのソリューションの提供が可能
スケーラブルシステムズ株式会社
まとめとして
bull bdquoTs‟ for HPC - インテルテクノロジのHPCにおける価値
ndash インテルテクノロジはHPCにおいて重要な構成要素となっている
ndashそれらの構成要素を統合することでより高い価値の提供が可能となる
ndash二分化しつつあるHPCシステムにおいて「標準コ
ンポーネント」としてのプラットフォームの動向として今後もその動向には注目する必要がある
スケーラブルシステムズ株式会社
さらに詳しい情報はhellip
bull 弊社のコンサルテーションに関するご提案資料もダウンロード可能です(非公開WEBページ)別途弊社に内容等についてはお尋ねください
お問い合わせ先102-0083
東京都千代田区麹町3-5-2
BUREX麹町 8F
電話03-5875-4718
FAX03-3237-7612
E-mailbizsstccojp
httpwwwsstccojp wwwsstccojpbiz
スケーラブルシステムズ株式会社
スケーラブルシステムズ株式会社
ハイエンドコンピューティングに関するコンサルテーションとして幅広いサービスをご提供致します
このサービスを最大限に活用していただくことでコラボレーションによる「顧客志向」 のコン
サルテーションサービスをご提供できればと思っております
スケーラブルシステムズ株式会社
社名製品名などは一般に各社の商標または登録商標です無断での引用転載を禁じます
In general the name of the company and the product name etc are the trademarks or registered trademarks of each company
Copyright Scalable Systems Co Ltd 2005 Unauthorized use is strictly forbidden
2005年11月
スケーラブルシステムズ株式会社
運用管理コストの低減
bull 「もっと処理性能を」と「より安価に」を実現するためにワークステーションやサーバでの分散処理の導入
bull ユーザや企業に新たな価値をもたらしてはいるが管理責任とその負担の分散を招き結果的に運用管理コストを押し上げる
メインフレームスーパーコンピュータ
仮想化によるサーバコンソリデーション
クラスタによる仮想コンピュータ
スケーラブルシステムズ株式会社
次世代HPCインフラ
bull コアとスレッド
ndash より多くのスレッドを効率よく利用可能
ndash マルチスレッド向け最適化
bull 電力管理
ndash 省電力
ndash データセンター運用管理機能
bull 仮想化
ndash 柔軟性と優れた運用管理
ndash 仮想的なシステムパーティション
bull RAS
ndash ハードウエアベースの自己監視自己管理
ndash ファームウエアベースのエラー履歴管理
bull システム管理
ndash より低いTCOを実現するための一般標準化されたマネージメント機能
スケーラブルシステムズ株式会社
高速プロセッサ
64ビットアドレス
メモリ性能と容
量
IOバンド幅
インターコネクト
省電力
システムのlsquoバランスrsquo
マルチコアによってプロセッサ単体の処理性能の向上を図る
64ビットのアドレス空間と
拡張されたレジスタによるOSとアプリケーション双方の機能性能拡張
64ビット化とマルチコア化
にともなう高速大容量へのニーズに対応しまたその拡張性の高い実装技術の実現
CPU-メモリ間の高速な
データ転送やより高速なネットワーク大規模なストレージのサポート
大規模なクラスタシステムの構築及びアプリケーションのワークロードに対応した高速性能
エコシステムに対応するためにも電力消費量や発熱量を積極的に抑える技術の開発
スケーラブルシステムズ株式会社
HPCの二極分化
Going UP
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
Going DOWN
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
スケーラブルシステムズ株式会社
システムとユーザの尺度
bull ユーザの尺度での性能(Performance)は時間当たりにどれだけの仕事を処理出来るか(仕事量 時間)
bull Flopsでの評価は実際には意味がないまた問題の規模(small medium large) という評価も難しい
bull ldquoスケーラビリティrdquoは対象を明確に規定する必要がある
システムの尺度 ユーザの尺度
Flops hArr 計算終了までの時間
メモリサイズ(GB) hArr モデルのサイズと計算結果
プロセッサ数 hArr ワークロードでの試行
データ長 hArr 計算精度
システム構成(クラスタ) hArr 導入コストと運用コスト
スケーラビリティ hArr ベンチマーク
スケーラブルシステムズ株式会社
HPCシステムの動向国家プロジェクトと商用製品のギャップの拡大
Going UP
Going DOWN
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
Peta-Scaleコンピューティングに求められる基本技術と現在のHPCの主要マーケットでの要求はあまりにも差が大きいrarrHPCSシステムは各社とのlsquoCommodityrsquoのマイクロプロセッサではなく独自のプロセッサを開発中
ハードウエアはrsquoCommodityrsquo
なものを利用してSWの改善サポート利用技術のサポートが今後の主要マーケットでの成功の鍵となる
スケーラブルシステムズ株式会社
HPCシステムの動向国家プロジェクト
Going UP
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
Peta-Scaleコンピューティングに求められる基本技術と現在のHPCの主要マーケットでの要求はあまりにも差が大きいrarrHPCSシステムは各社とのlsquoCommodityrsquoのマイクロプロセッサではなく独自のプロセッサを開発中
スケーラブルシステムズ株式会社
TOP500性能予測
1993 1995 1997 1999 2001 2003 2005 2007 2009 2011 2013 2015
N=
50
SUM
1 Gflops
1 Tflops
100 Mflops
100 Gflops
100 Tflops
10 Gflops
10 Tflops
1 Pflops
10 Pflops
IBM ASCI White
Blue GeneEarth Simulator
Intel
TOP500の総計が1PFを超えています
TOP500に掲載されるには1TF
が最低条件になっています
シングルシステムの1PFの実現は2009年
システム(プロセッサ数) 13倍年プロセッサ性能向上 14倍年トータル性能 18倍年
2009年までに1ペタFLOPS
スケーラブルシステムズ株式会社
性能ギャップの拡大
bull ピーク性能の大幅な向上ndash 1990年台は性能の向上は102のオーダーでしたが2000年台になると103のオーダーで性能は向上しています
しかしhellipndash 多くの科学技術計算用途のアプリケーションのピーク性能に対する実効性能の比率は5-10となっています(1990年代のベクトル計算機は40-50の対ピーク性能を示していました)
bull 今必要なのはndash より高い実効性能を発揮することが可能な計算アルゴリズムと手法の開発とスケーラビリティの向上
ndash プログラミングモデルなども含めてスケーラブルな計算機環境の構築
01
1
10
100
1000
2000 2004
Tera
flo
ps
1996
Performance
Gap
Peak Performance
Real Performance
NERSC User Group Meeting June 24-25 2004
Osni Marques and Tony Drummond
Lawrence Berkeley National Laboratory
スケーラブルシステムズ株式会社
ペタスケールシステムの構築
bull ソフトウエア(アプリケーションOSプログラミングAPIなど)の課題の克服が課題
bull システムの複雑さと生産性
例Linpack Benchmark
bull オリジナルベンチマークプログラム ~100ライン
bull HPL ベンチマークプログラム ~10000ライン(x100より複雑)
lsquo複雑さrsquoの壁
現在のテラFLOPS級の問題
Source ORNL
スケーラブルシステムズ株式会社
HPCシステムの動向商用製品
Going DOWN
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
ハードウエアはrsquoCommodityrsquo
なものを利用してSWの改善サポート利用技術のサポートが今後の主要マーケットでの成功の鍵となる
スケーラブルシステムズ株式会社
標準コンポーネントの進化
bull プロセッサの性能向上ndash lsquoマルチコアrsquoによる省電力での性能向上が可能
ndash HPCアプリケーションは容易にlsquoマルチコアrsquoの利点を活用可能 (OpenMPやMPI)
bull ファイルシステムndash高性能なスケーラブルファイルシステム(オープンソース)
bull インターコネクトndash PCI-Express (メモリlarrrarrインターコネクト)
ndash高速の商用製品やオープンソースでの強力(OpenIBなど)
スケーラブルシステムズ株式会社
標準コンポーネントの利点
bull 特定のベンダーからのシステムを組み合わせるのではなく他社のシステムも含めてベストなシステムの選択が可能
ndashスケーラブルSMPベクトル計算機クラスタの幅広い選択肢
ndash 64ビットマルチコアマイクロプロセッサの性能向上を最大限に活用
bull 標準コンポーネントの技術革新の活用
ndash PCI-ExpressやFB-DIMMの利用技術
スケーラブルシステムズ株式会社
Breaking the 1-2K nodes Barrier
bull 音の障壁サウンドバリヤー(sound barrier)飛行機の速度が音速近くになると衝撃波の発生によって抵抗の増大境界層の剥離など設計運用上のさまざまな障害(壁)に出合って超音速飛行は不可能かと思われた時代があった(1947年ごろまで)ので音の障壁といわれていた
httpwwwwilk4commiscsoundbreakhtm
クラスタのノード数がある規模に近くなるとその構築や運用において負担の増大システムの安定稼動スケーラビリティなど設計運用上のさまざまな障害(壁)に出合ってクラスタ構築は不可能と思われた時代があった()
スケーラブルシステムズ株式会社
ビルゲイツ氏の基調講演HPC goes mainstream
スケーラブルシステムズ株式会社
「Fast」「Good」「Cheap」のパズル
Fast
+ Cheap
Inferior
高い性能を廉価なシステムで構築することも可能ですただそのようなシステムの場合システムの構築や利用は必ずしも容易ではありません
Good
+ Cheap
Slow比較的小規模なシステムであれば廉価で使い勝手の良いものを探すことは可能ですしかしそのようなシステムでは拡張性やより大規模なシステム構築が出来ません
Good
+ Fast
Expensive
付加価値の高い性能の高いシステムは一般には高価ですその付加価値がユーザにとってメリットが無ければコストパフォーマンスの悪いシステムになるだけです
スケーラブルシステムズ株式会社
まとめとして
bull 「テクノロジー」をどのようにとらえるかndash企業経営基盤のコア要素
ndashユーザの本質的な課題を解決する戦略的な武器
bull マーケットを牽引する「テクノロジ」に求められることndashテクノロジとHPCにおけるITインフラの関係を明確にすること
bull ユーザに何らかのメリットをもたらさない「テクノロジー」は意味を成さない
ndashテクノロジーを最適に組み合わせることで問題解決のためのソリューションの提供が可能
スケーラブルシステムズ株式会社
まとめとして
bull bdquoTs‟ for HPC - インテルテクノロジのHPCにおける価値
ndash インテルテクノロジはHPCにおいて重要な構成要素となっている
ndashそれらの構成要素を統合することでより高い価値の提供が可能となる
ndash二分化しつつあるHPCシステムにおいて「標準コ
ンポーネント」としてのプラットフォームの動向として今後もその動向には注目する必要がある
スケーラブルシステムズ株式会社
さらに詳しい情報はhellip
bull 弊社のコンサルテーションに関するご提案資料もダウンロード可能です(非公開WEBページ)別途弊社に内容等についてはお尋ねください
お問い合わせ先102-0083
東京都千代田区麹町3-5-2
BUREX麹町 8F
電話03-5875-4718
FAX03-3237-7612
E-mailbizsstccojp
httpwwwsstccojp wwwsstccojpbiz
スケーラブルシステムズ株式会社
スケーラブルシステムズ株式会社
ハイエンドコンピューティングに関するコンサルテーションとして幅広いサービスをご提供致します
このサービスを最大限に活用していただくことでコラボレーションによる「顧客志向」 のコン
サルテーションサービスをご提供できればと思っております
スケーラブルシステムズ株式会社
社名製品名などは一般に各社の商標または登録商標です無断での引用転載を禁じます
In general the name of the company and the product name etc are the trademarks or registered trademarks of each company
Copyright Scalable Systems Co Ltd 2005 Unauthorized use is strictly forbidden
2005年11月
スケーラブルシステムズ株式会社
次世代HPCインフラ
bull コアとスレッド
ndash より多くのスレッドを効率よく利用可能
ndash マルチスレッド向け最適化
bull 電力管理
ndash 省電力
ndash データセンター運用管理機能
bull 仮想化
ndash 柔軟性と優れた運用管理
ndash 仮想的なシステムパーティション
bull RAS
ndash ハードウエアベースの自己監視自己管理
ndash ファームウエアベースのエラー履歴管理
bull システム管理
ndash より低いTCOを実現するための一般標準化されたマネージメント機能
スケーラブルシステムズ株式会社
高速プロセッサ
64ビットアドレス
メモリ性能と容
量
IOバンド幅
インターコネクト
省電力
システムのlsquoバランスrsquo
マルチコアによってプロセッサ単体の処理性能の向上を図る
64ビットのアドレス空間と
拡張されたレジスタによるOSとアプリケーション双方の機能性能拡張
64ビット化とマルチコア化
にともなう高速大容量へのニーズに対応しまたその拡張性の高い実装技術の実現
CPU-メモリ間の高速な
データ転送やより高速なネットワーク大規模なストレージのサポート
大規模なクラスタシステムの構築及びアプリケーションのワークロードに対応した高速性能
エコシステムに対応するためにも電力消費量や発熱量を積極的に抑える技術の開発
スケーラブルシステムズ株式会社
HPCの二極分化
Going UP
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
Going DOWN
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
スケーラブルシステムズ株式会社
システムとユーザの尺度
bull ユーザの尺度での性能(Performance)は時間当たりにどれだけの仕事を処理出来るか(仕事量 時間)
bull Flopsでの評価は実際には意味がないまた問題の規模(small medium large) という評価も難しい
bull ldquoスケーラビリティrdquoは対象を明確に規定する必要がある
システムの尺度 ユーザの尺度
Flops hArr 計算終了までの時間
メモリサイズ(GB) hArr モデルのサイズと計算結果
プロセッサ数 hArr ワークロードでの試行
データ長 hArr 計算精度
システム構成(クラスタ) hArr 導入コストと運用コスト
スケーラビリティ hArr ベンチマーク
スケーラブルシステムズ株式会社
HPCシステムの動向国家プロジェクトと商用製品のギャップの拡大
Going UP
Going DOWN
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
Peta-Scaleコンピューティングに求められる基本技術と現在のHPCの主要マーケットでの要求はあまりにも差が大きいrarrHPCSシステムは各社とのlsquoCommodityrsquoのマイクロプロセッサではなく独自のプロセッサを開発中
ハードウエアはrsquoCommodityrsquo
なものを利用してSWの改善サポート利用技術のサポートが今後の主要マーケットでの成功の鍵となる
スケーラブルシステムズ株式会社
HPCシステムの動向国家プロジェクト
Going UP
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
Peta-Scaleコンピューティングに求められる基本技術と現在のHPCの主要マーケットでの要求はあまりにも差が大きいrarrHPCSシステムは各社とのlsquoCommodityrsquoのマイクロプロセッサではなく独自のプロセッサを開発中
スケーラブルシステムズ株式会社
TOP500性能予測
1993 1995 1997 1999 2001 2003 2005 2007 2009 2011 2013 2015
N=
50
SUM
1 Gflops
1 Tflops
100 Mflops
100 Gflops
100 Tflops
10 Gflops
10 Tflops
1 Pflops
10 Pflops
IBM ASCI White
Blue GeneEarth Simulator
Intel
TOP500の総計が1PFを超えています
TOP500に掲載されるには1TF
が最低条件になっています
シングルシステムの1PFの実現は2009年
システム(プロセッサ数) 13倍年プロセッサ性能向上 14倍年トータル性能 18倍年
2009年までに1ペタFLOPS
スケーラブルシステムズ株式会社
性能ギャップの拡大
bull ピーク性能の大幅な向上ndash 1990年台は性能の向上は102のオーダーでしたが2000年台になると103のオーダーで性能は向上しています
しかしhellipndash 多くの科学技術計算用途のアプリケーションのピーク性能に対する実効性能の比率は5-10となっています(1990年代のベクトル計算機は40-50の対ピーク性能を示していました)
bull 今必要なのはndash より高い実効性能を発揮することが可能な計算アルゴリズムと手法の開発とスケーラビリティの向上
ndash プログラミングモデルなども含めてスケーラブルな計算機環境の構築
01
1
10
100
1000
2000 2004
Tera
flo
ps
1996
Performance
Gap
Peak Performance
Real Performance
NERSC User Group Meeting June 24-25 2004
Osni Marques and Tony Drummond
Lawrence Berkeley National Laboratory
スケーラブルシステムズ株式会社
ペタスケールシステムの構築
bull ソフトウエア(アプリケーションOSプログラミングAPIなど)の課題の克服が課題
bull システムの複雑さと生産性
例Linpack Benchmark
bull オリジナルベンチマークプログラム ~100ライン
bull HPL ベンチマークプログラム ~10000ライン(x100より複雑)
lsquo複雑さrsquoの壁
現在のテラFLOPS級の問題
Source ORNL
スケーラブルシステムズ株式会社
HPCシステムの動向商用製品
Going DOWN
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
ハードウエアはrsquoCommodityrsquo
なものを利用してSWの改善サポート利用技術のサポートが今後の主要マーケットでの成功の鍵となる
スケーラブルシステムズ株式会社
標準コンポーネントの進化
bull プロセッサの性能向上ndash lsquoマルチコアrsquoによる省電力での性能向上が可能
ndash HPCアプリケーションは容易にlsquoマルチコアrsquoの利点を活用可能 (OpenMPやMPI)
bull ファイルシステムndash高性能なスケーラブルファイルシステム(オープンソース)
bull インターコネクトndash PCI-Express (メモリlarrrarrインターコネクト)
ndash高速の商用製品やオープンソースでの強力(OpenIBなど)
スケーラブルシステムズ株式会社
標準コンポーネントの利点
bull 特定のベンダーからのシステムを組み合わせるのではなく他社のシステムも含めてベストなシステムの選択が可能
ndashスケーラブルSMPベクトル計算機クラスタの幅広い選択肢
ndash 64ビットマルチコアマイクロプロセッサの性能向上を最大限に活用
bull 標準コンポーネントの技術革新の活用
ndash PCI-ExpressやFB-DIMMの利用技術
スケーラブルシステムズ株式会社
Breaking the 1-2K nodes Barrier
bull 音の障壁サウンドバリヤー(sound barrier)飛行機の速度が音速近くになると衝撃波の発生によって抵抗の増大境界層の剥離など設計運用上のさまざまな障害(壁)に出合って超音速飛行は不可能かと思われた時代があった(1947年ごろまで)ので音の障壁といわれていた
httpwwwwilk4commiscsoundbreakhtm
クラスタのノード数がある規模に近くなるとその構築や運用において負担の増大システムの安定稼動スケーラビリティなど設計運用上のさまざまな障害(壁)に出合ってクラスタ構築は不可能と思われた時代があった()
スケーラブルシステムズ株式会社
ビルゲイツ氏の基調講演HPC goes mainstream
スケーラブルシステムズ株式会社
「Fast」「Good」「Cheap」のパズル
Fast
+ Cheap
Inferior
高い性能を廉価なシステムで構築することも可能ですただそのようなシステムの場合システムの構築や利用は必ずしも容易ではありません
Good
+ Cheap
Slow比較的小規模なシステムであれば廉価で使い勝手の良いものを探すことは可能ですしかしそのようなシステムでは拡張性やより大規模なシステム構築が出来ません
Good
+ Fast
Expensive
付加価値の高い性能の高いシステムは一般には高価ですその付加価値がユーザにとってメリットが無ければコストパフォーマンスの悪いシステムになるだけです
スケーラブルシステムズ株式会社
まとめとして
bull 「テクノロジー」をどのようにとらえるかndash企業経営基盤のコア要素
ndashユーザの本質的な課題を解決する戦略的な武器
bull マーケットを牽引する「テクノロジ」に求められることndashテクノロジとHPCにおけるITインフラの関係を明確にすること
bull ユーザに何らかのメリットをもたらさない「テクノロジー」は意味を成さない
ndashテクノロジーを最適に組み合わせることで問題解決のためのソリューションの提供が可能
スケーラブルシステムズ株式会社
まとめとして
bull bdquoTs‟ for HPC - インテルテクノロジのHPCにおける価値
ndash インテルテクノロジはHPCにおいて重要な構成要素となっている
ndashそれらの構成要素を統合することでより高い価値の提供が可能となる
ndash二分化しつつあるHPCシステムにおいて「標準コ
ンポーネント」としてのプラットフォームの動向として今後もその動向には注目する必要がある
スケーラブルシステムズ株式会社
さらに詳しい情報はhellip
bull 弊社のコンサルテーションに関するご提案資料もダウンロード可能です(非公開WEBページ)別途弊社に内容等についてはお尋ねください
お問い合わせ先102-0083
東京都千代田区麹町3-5-2
BUREX麹町 8F
電話03-5875-4718
FAX03-3237-7612
E-mailbizsstccojp
httpwwwsstccojp wwwsstccojpbiz
スケーラブルシステムズ株式会社
スケーラブルシステムズ株式会社
ハイエンドコンピューティングに関するコンサルテーションとして幅広いサービスをご提供致します
このサービスを最大限に活用していただくことでコラボレーションによる「顧客志向」 のコン
サルテーションサービスをご提供できればと思っております
スケーラブルシステムズ株式会社
社名製品名などは一般に各社の商標または登録商標です無断での引用転載を禁じます
In general the name of the company and the product name etc are the trademarks or registered trademarks of each company
Copyright Scalable Systems Co Ltd 2005 Unauthorized use is strictly forbidden
2005年11月
スケーラブルシステムズ株式会社
高速プロセッサ
64ビットアドレス
メモリ性能と容
量
IOバンド幅
インターコネクト
省電力
システムのlsquoバランスrsquo
マルチコアによってプロセッサ単体の処理性能の向上を図る
64ビットのアドレス空間と
拡張されたレジスタによるOSとアプリケーション双方の機能性能拡張
64ビット化とマルチコア化
にともなう高速大容量へのニーズに対応しまたその拡張性の高い実装技術の実現
CPU-メモリ間の高速な
データ転送やより高速なネットワーク大規模なストレージのサポート
大規模なクラスタシステムの構築及びアプリケーションのワークロードに対応した高速性能
エコシステムに対応するためにも電力消費量や発熱量を積極的に抑える技術の開発
スケーラブルシステムズ株式会社
HPCの二極分化
Going UP
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
Going DOWN
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
スケーラブルシステムズ株式会社
システムとユーザの尺度
bull ユーザの尺度での性能(Performance)は時間当たりにどれだけの仕事を処理出来るか(仕事量 時間)
bull Flopsでの評価は実際には意味がないまた問題の規模(small medium large) という評価も難しい
bull ldquoスケーラビリティrdquoは対象を明確に規定する必要がある
システムの尺度 ユーザの尺度
Flops hArr 計算終了までの時間
メモリサイズ(GB) hArr モデルのサイズと計算結果
プロセッサ数 hArr ワークロードでの試行
データ長 hArr 計算精度
システム構成(クラスタ) hArr 導入コストと運用コスト
スケーラビリティ hArr ベンチマーク
スケーラブルシステムズ株式会社
HPCシステムの動向国家プロジェクトと商用製品のギャップの拡大
Going UP
Going DOWN
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
Peta-Scaleコンピューティングに求められる基本技術と現在のHPCの主要マーケットでの要求はあまりにも差が大きいrarrHPCSシステムは各社とのlsquoCommodityrsquoのマイクロプロセッサではなく独自のプロセッサを開発中
ハードウエアはrsquoCommodityrsquo
なものを利用してSWの改善サポート利用技術のサポートが今後の主要マーケットでの成功の鍵となる
スケーラブルシステムズ株式会社
HPCシステムの動向国家プロジェクト
Going UP
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
Peta-Scaleコンピューティングに求められる基本技術と現在のHPCの主要マーケットでの要求はあまりにも差が大きいrarrHPCSシステムは各社とのlsquoCommodityrsquoのマイクロプロセッサではなく独自のプロセッサを開発中
スケーラブルシステムズ株式会社
TOP500性能予測
1993 1995 1997 1999 2001 2003 2005 2007 2009 2011 2013 2015
N=
50
SUM
1 Gflops
1 Tflops
100 Mflops
100 Gflops
100 Tflops
10 Gflops
10 Tflops
1 Pflops
10 Pflops
IBM ASCI White
Blue GeneEarth Simulator
Intel
TOP500の総計が1PFを超えています
TOP500に掲載されるには1TF
が最低条件になっています
シングルシステムの1PFの実現は2009年
システム(プロセッサ数) 13倍年プロセッサ性能向上 14倍年トータル性能 18倍年
2009年までに1ペタFLOPS
スケーラブルシステムズ株式会社
性能ギャップの拡大
bull ピーク性能の大幅な向上ndash 1990年台は性能の向上は102のオーダーでしたが2000年台になると103のオーダーで性能は向上しています
しかしhellipndash 多くの科学技術計算用途のアプリケーションのピーク性能に対する実効性能の比率は5-10となっています(1990年代のベクトル計算機は40-50の対ピーク性能を示していました)
bull 今必要なのはndash より高い実効性能を発揮することが可能な計算アルゴリズムと手法の開発とスケーラビリティの向上
ndash プログラミングモデルなども含めてスケーラブルな計算機環境の構築
01
1
10
100
1000
2000 2004
Tera
flo
ps
1996
Performance
Gap
Peak Performance
Real Performance
NERSC User Group Meeting June 24-25 2004
Osni Marques and Tony Drummond
Lawrence Berkeley National Laboratory
スケーラブルシステムズ株式会社
ペタスケールシステムの構築
bull ソフトウエア(アプリケーションOSプログラミングAPIなど)の課題の克服が課題
bull システムの複雑さと生産性
例Linpack Benchmark
bull オリジナルベンチマークプログラム ~100ライン
bull HPL ベンチマークプログラム ~10000ライン(x100より複雑)
lsquo複雑さrsquoの壁
現在のテラFLOPS級の問題
Source ORNL
スケーラブルシステムズ株式会社
HPCシステムの動向商用製品
Going DOWN
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
ハードウエアはrsquoCommodityrsquo
なものを利用してSWの改善サポート利用技術のサポートが今後の主要マーケットでの成功の鍵となる
スケーラブルシステムズ株式会社
標準コンポーネントの進化
bull プロセッサの性能向上ndash lsquoマルチコアrsquoによる省電力での性能向上が可能
ndash HPCアプリケーションは容易にlsquoマルチコアrsquoの利点を活用可能 (OpenMPやMPI)
bull ファイルシステムndash高性能なスケーラブルファイルシステム(オープンソース)
bull インターコネクトndash PCI-Express (メモリlarrrarrインターコネクト)
ndash高速の商用製品やオープンソースでの強力(OpenIBなど)
スケーラブルシステムズ株式会社
標準コンポーネントの利点
bull 特定のベンダーからのシステムを組み合わせるのではなく他社のシステムも含めてベストなシステムの選択が可能
ndashスケーラブルSMPベクトル計算機クラスタの幅広い選択肢
ndash 64ビットマルチコアマイクロプロセッサの性能向上を最大限に活用
bull 標準コンポーネントの技術革新の活用
ndash PCI-ExpressやFB-DIMMの利用技術
スケーラブルシステムズ株式会社
Breaking the 1-2K nodes Barrier
bull 音の障壁サウンドバリヤー(sound barrier)飛行機の速度が音速近くになると衝撃波の発生によって抵抗の増大境界層の剥離など設計運用上のさまざまな障害(壁)に出合って超音速飛行は不可能かと思われた時代があった(1947年ごろまで)ので音の障壁といわれていた
httpwwwwilk4commiscsoundbreakhtm
クラスタのノード数がある規模に近くなるとその構築や運用において負担の増大システムの安定稼動スケーラビリティなど設計運用上のさまざまな障害(壁)に出合ってクラスタ構築は不可能と思われた時代があった()
スケーラブルシステムズ株式会社
ビルゲイツ氏の基調講演HPC goes mainstream
スケーラブルシステムズ株式会社
「Fast」「Good」「Cheap」のパズル
Fast
+ Cheap
Inferior
高い性能を廉価なシステムで構築することも可能ですただそのようなシステムの場合システムの構築や利用は必ずしも容易ではありません
Good
+ Cheap
Slow比較的小規模なシステムであれば廉価で使い勝手の良いものを探すことは可能ですしかしそのようなシステムでは拡張性やより大規模なシステム構築が出来ません
Good
+ Fast
Expensive
付加価値の高い性能の高いシステムは一般には高価ですその付加価値がユーザにとってメリットが無ければコストパフォーマンスの悪いシステムになるだけです
スケーラブルシステムズ株式会社
まとめとして
bull 「テクノロジー」をどのようにとらえるかndash企業経営基盤のコア要素
ndashユーザの本質的な課題を解決する戦略的な武器
bull マーケットを牽引する「テクノロジ」に求められることndashテクノロジとHPCにおけるITインフラの関係を明確にすること
bull ユーザに何らかのメリットをもたらさない「テクノロジー」は意味を成さない
ndashテクノロジーを最適に組み合わせることで問題解決のためのソリューションの提供が可能
スケーラブルシステムズ株式会社
まとめとして
bull bdquoTs‟ for HPC - インテルテクノロジのHPCにおける価値
ndash インテルテクノロジはHPCにおいて重要な構成要素となっている
ndashそれらの構成要素を統合することでより高い価値の提供が可能となる
ndash二分化しつつあるHPCシステムにおいて「標準コ
ンポーネント」としてのプラットフォームの動向として今後もその動向には注目する必要がある
スケーラブルシステムズ株式会社
さらに詳しい情報はhellip
bull 弊社のコンサルテーションに関するご提案資料もダウンロード可能です(非公開WEBページ)別途弊社に内容等についてはお尋ねください
お問い合わせ先102-0083
東京都千代田区麹町3-5-2
BUREX麹町 8F
電話03-5875-4718
FAX03-3237-7612
E-mailbizsstccojp
httpwwwsstccojp wwwsstccojpbiz
スケーラブルシステムズ株式会社
スケーラブルシステムズ株式会社
ハイエンドコンピューティングに関するコンサルテーションとして幅広いサービスをご提供致します
このサービスを最大限に活用していただくことでコラボレーションによる「顧客志向」 のコン
サルテーションサービスをご提供できればと思っております
スケーラブルシステムズ株式会社
社名製品名などは一般に各社の商標または登録商標です無断での引用転載を禁じます
In general the name of the company and the product name etc are the trademarks or registered trademarks of each company
Copyright Scalable Systems Co Ltd 2005 Unauthorized use is strictly forbidden
2005年11月
スケーラブルシステムズ株式会社
HPCの二極分化
Going UP
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
Going DOWN
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
スケーラブルシステムズ株式会社
システムとユーザの尺度
bull ユーザの尺度での性能(Performance)は時間当たりにどれだけの仕事を処理出来るか(仕事量 時間)
bull Flopsでの評価は実際には意味がないまた問題の規模(small medium large) という評価も難しい
bull ldquoスケーラビリティrdquoは対象を明確に規定する必要がある
システムの尺度 ユーザの尺度
Flops hArr 計算終了までの時間
メモリサイズ(GB) hArr モデルのサイズと計算結果
プロセッサ数 hArr ワークロードでの試行
データ長 hArr 計算精度
システム構成(クラスタ) hArr 導入コストと運用コスト
スケーラビリティ hArr ベンチマーク
スケーラブルシステムズ株式会社
HPCシステムの動向国家プロジェクトと商用製品のギャップの拡大
Going UP
Going DOWN
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
Peta-Scaleコンピューティングに求められる基本技術と現在のHPCの主要マーケットでの要求はあまりにも差が大きいrarrHPCSシステムは各社とのlsquoCommodityrsquoのマイクロプロセッサではなく独自のプロセッサを開発中
ハードウエアはrsquoCommodityrsquo
なものを利用してSWの改善サポート利用技術のサポートが今後の主要マーケットでの成功の鍵となる
スケーラブルシステムズ株式会社
HPCシステムの動向国家プロジェクト
Going UP
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
Peta-Scaleコンピューティングに求められる基本技術と現在のHPCの主要マーケットでの要求はあまりにも差が大きいrarrHPCSシステムは各社とのlsquoCommodityrsquoのマイクロプロセッサではなく独自のプロセッサを開発中
スケーラブルシステムズ株式会社
TOP500性能予測
1993 1995 1997 1999 2001 2003 2005 2007 2009 2011 2013 2015
N=
50
SUM
1 Gflops
1 Tflops
100 Mflops
100 Gflops
100 Tflops
10 Gflops
10 Tflops
1 Pflops
10 Pflops
IBM ASCI White
Blue GeneEarth Simulator
Intel
TOP500の総計が1PFを超えています
TOP500に掲載されるには1TF
が最低条件になっています
シングルシステムの1PFの実現は2009年
システム(プロセッサ数) 13倍年プロセッサ性能向上 14倍年トータル性能 18倍年
2009年までに1ペタFLOPS
スケーラブルシステムズ株式会社
性能ギャップの拡大
bull ピーク性能の大幅な向上ndash 1990年台は性能の向上は102のオーダーでしたが2000年台になると103のオーダーで性能は向上しています
しかしhellipndash 多くの科学技術計算用途のアプリケーションのピーク性能に対する実効性能の比率は5-10となっています(1990年代のベクトル計算機は40-50の対ピーク性能を示していました)
bull 今必要なのはndash より高い実効性能を発揮することが可能な計算アルゴリズムと手法の開発とスケーラビリティの向上
ndash プログラミングモデルなども含めてスケーラブルな計算機環境の構築
01
1
10
100
1000
2000 2004
Tera
flo
ps
1996
Performance
Gap
Peak Performance
Real Performance
NERSC User Group Meeting June 24-25 2004
Osni Marques and Tony Drummond
Lawrence Berkeley National Laboratory
スケーラブルシステムズ株式会社
ペタスケールシステムの構築
bull ソフトウエア(アプリケーションOSプログラミングAPIなど)の課題の克服が課題
bull システムの複雑さと生産性
例Linpack Benchmark
bull オリジナルベンチマークプログラム ~100ライン
bull HPL ベンチマークプログラム ~10000ライン(x100より複雑)
lsquo複雑さrsquoの壁
現在のテラFLOPS級の問題
Source ORNL
スケーラブルシステムズ株式会社
HPCシステムの動向商用製品
Going DOWN
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
ハードウエアはrsquoCommodityrsquo
なものを利用してSWの改善サポート利用技術のサポートが今後の主要マーケットでの成功の鍵となる
スケーラブルシステムズ株式会社
標準コンポーネントの進化
bull プロセッサの性能向上ndash lsquoマルチコアrsquoによる省電力での性能向上が可能
ndash HPCアプリケーションは容易にlsquoマルチコアrsquoの利点を活用可能 (OpenMPやMPI)
bull ファイルシステムndash高性能なスケーラブルファイルシステム(オープンソース)
bull インターコネクトndash PCI-Express (メモリlarrrarrインターコネクト)
ndash高速の商用製品やオープンソースでの強力(OpenIBなど)
スケーラブルシステムズ株式会社
標準コンポーネントの利点
bull 特定のベンダーからのシステムを組み合わせるのではなく他社のシステムも含めてベストなシステムの選択が可能
ndashスケーラブルSMPベクトル計算機クラスタの幅広い選択肢
ndash 64ビットマルチコアマイクロプロセッサの性能向上を最大限に活用
bull 標準コンポーネントの技術革新の活用
ndash PCI-ExpressやFB-DIMMの利用技術
スケーラブルシステムズ株式会社
Breaking the 1-2K nodes Barrier
bull 音の障壁サウンドバリヤー(sound barrier)飛行機の速度が音速近くになると衝撃波の発生によって抵抗の増大境界層の剥離など設計運用上のさまざまな障害(壁)に出合って超音速飛行は不可能かと思われた時代があった(1947年ごろまで)ので音の障壁といわれていた
httpwwwwilk4commiscsoundbreakhtm
クラスタのノード数がある規模に近くなるとその構築や運用において負担の増大システムの安定稼動スケーラビリティなど設計運用上のさまざまな障害(壁)に出合ってクラスタ構築は不可能と思われた時代があった()
スケーラブルシステムズ株式会社
ビルゲイツ氏の基調講演HPC goes mainstream
スケーラブルシステムズ株式会社
「Fast」「Good」「Cheap」のパズル
Fast
+ Cheap
Inferior
高い性能を廉価なシステムで構築することも可能ですただそのようなシステムの場合システムの構築や利用は必ずしも容易ではありません
Good
+ Cheap
Slow比較的小規模なシステムであれば廉価で使い勝手の良いものを探すことは可能ですしかしそのようなシステムでは拡張性やより大規模なシステム構築が出来ません
Good
+ Fast
Expensive
付加価値の高い性能の高いシステムは一般には高価ですその付加価値がユーザにとってメリットが無ければコストパフォーマンスの悪いシステムになるだけです
スケーラブルシステムズ株式会社
まとめとして
bull 「テクノロジー」をどのようにとらえるかndash企業経営基盤のコア要素
ndashユーザの本質的な課題を解決する戦略的な武器
bull マーケットを牽引する「テクノロジ」に求められることndashテクノロジとHPCにおけるITインフラの関係を明確にすること
bull ユーザに何らかのメリットをもたらさない「テクノロジー」は意味を成さない
ndashテクノロジーを最適に組み合わせることで問題解決のためのソリューションの提供が可能
スケーラブルシステムズ株式会社
まとめとして
bull bdquoTs‟ for HPC - インテルテクノロジのHPCにおける価値
ndash インテルテクノロジはHPCにおいて重要な構成要素となっている
ndashそれらの構成要素を統合することでより高い価値の提供が可能となる
ndash二分化しつつあるHPCシステムにおいて「標準コ
ンポーネント」としてのプラットフォームの動向として今後もその動向には注目する必要がある
スケーラブルシステムズ株式会社
さらに詳しい情報はhellip
bull 弊社のコンサルテーションに関するご提案資料もダウンロード可能です(非公開WEBページ)別途弊社に内容等についてはお尋ねください
お問い合わせ先102-0083
東京都千代田区麹町3-5-2
BUREX麹町 8F
電話03-5875-4718
FAX03-3237-7612
E-mailbizsstccojp
httpwwwsstccojp wwwsstccojpbiz
スケーラブルシステムズ株式会社
スケーラブルシステムズ株式会社
ハイエンドコンピューティングに関するコンサルテーションとして幅広いサービスをご提供致します
このサービスを最大限に活用していただくことでコラボレーションによる「顧客志向」 のコン
サルテーションサービスをご提供できればと思っております
スケーラブルシステムズ株式会社
社名製品名などは一般に各社の商標または登録商標です無断での引用転載を禁じます
In general the name of the company and the product name etc are the trademarks or registered trademarks of each company
Copyright Scalable Systems Co Ltd 2005 Unauthorized use is strictly forbidden
2005年11月
スケーラブルシステムズ株式会社
システムとユーザの尺度
bull ユーザの尺度での性能(Performance)は時間当たりにどれだけの仕事を処理出来るか(仕事量 時間)
bull Flopsでの評価は実際には意味がないまた問題の規模(small medium large) という評価も難しい
bull ldquoスケーラビリティrdquoは対象を明確に規定する必要がある
システムの尺度 ユーザの尺度
Flops hArr 計算終了までの時間
メモリサイズ(GB) hArr モデルのサイズと計算結果
プロセッサ数 hArr ワークロードでの試行
データ長 hArr 計算精度
システム構成(クラスタ) hArr 導入コストと運用コスト
スケーラビリティ hArr ベンチマーク
スケーラブルシステムズ株式会社
HPCシステムの動向国家プロジェクトと商用製品のギャップの拡大
Going UP
Going DOWN
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
Peta-Scaleコンピューティングに求められる基本技術と現在のHPCの主要マーケットでの要求はあまりにも差が大きいrarrHPCSシステムは各社とのlsquoCommodityrsquoのマイクロプロセッサではなく独自のプロセッサを開発中
ハードウエアはrsquoCommodityrsquo
なものを利用してSWの改善サポート利用技術のサポートが今後の主要マーケットでの成功の鍵となる
スケーラブルシステムズ株式会社
HPCシステムの動向国家プロジェクト
Going UP
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
Peta-Scaleコンピューティングに求められる基本技術と現在のHPCの主要マーケットでの要求はあまりにも差が大きいrarrHPCSシステムは各社とのlsquoCommodityrsquoのマイクロプロセッサではなく独自のプロセッサを開発中
スケーラブルシステムズ株式会社
TOP500性能予測
1993 1995 1997 1999 2001 2003 2005 2007 2009 2011 2013 2015
N=
50
SUM
1 Gflops
1 Tflops
100 Mflops
100 Gflops
100 Tflops
10 Gflops
10 Tflops
1 Pflops
10 Pflops
IBM ASCI White
Blue GeneEarth Simulator
Intel
TOP500の総計が1PFを超えています
TOP500に掲載されるには1TF
が最低条件になっています
シングルシステムの1PFの実現は2009年
システム(プロセッサ数) 13倍年プロセッサ性能向上 14倍年トータル性能 18倍年
2009年までに1ペタFLOPS
スケーラブルシステムズ株式会社
性能ギャップの拡大
bull ピーク性能の大幅な向上ndash 1990年台は性能の向上は102のオーダーでしたが2000年台になると103のオーダーで性能は向上しています
しかしhellipndash 多くの科学技術計算用途のアプリケーションのピーク性能に対する実効性能の比率は5-10となっています(1990年代のベクトル計算機は40-50の対ピーク性能を示していました)
bull 今必要なのはndash より高い実効性能を発揮することが可能な計算アルゴリズムと手法の開発とスケーラビリティの向上
ndash プログラミングモデルなども含めてスケーラブルな計算機環境の構築
01
1
10
100
1000
2000 2004
Tera
flo
ps
1996
Performance
Gap
Peak Performance
Real Performance
NERSC User Group Meeting June 24-25 2004
Osni Marques and Tony Drummond
Lawrence Berkeley National Laboratory
スケーラブルシステムズ株式会社
ペタスケールシステムの構築
bull ソフトウエア(アプリケーションOSプログラミングAPIなど)の課題の克服が課題
bull システムの複雑さと生産性
例Linpack Benchmark
bull オリジナルベンチマークプログラム ~100ライン
bull HPL ベンチマークプログラム ~10000ライン(x100より複雑)
lsquo複雑さrsquoの壁
現在のテラFLOPS級の問題
Source ORNL
スケーラブルシステムズ株式会社
HPCシステムの動向商用製品
Going DOWN
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
ハードウエアはrsquoCommodityrsquo
なものを利用してSWの改善サポート利用技術のサポートが今後の主要マーケットでの成功の鍵となる
スケーラブルシステムズ株式会社
標準コンポーネントの進化
bull プロセッサの性能向上ndash lsquoマルチコアrsquoによる省電力での性能向上が可能
ndash HPCアプリケーションは容易にlsquoマルチコアrsquoの利点を活用可能 (OpenMPやMPI)
bull ファイルシステムndash高性能なスケーラブルファイルシステム(オープンソース)
bull インターコネクトndash PCI-Express (メモリlarrrarrインターコネクト)
ndash高速の商用製品やオープンソースでの強力(OpenIBなど)
スケーラブルシステムズ株式会社
標準コンポーネントの利点
bull 特定のベンダーからのシステムを組み合わせるのではなく他社のシステムも含めてベストなシステムの選択が可能
ndashスケーラブルSMPベクトル計算機クラスタの幅広い選択肢
ndash 64ビットマルチコアマイクロプロセッサの性能向上を最大限に活用
bull 標準コンポーネントの技術革新の活用
ndash PCI-ExpressやFB-DIMMの利用技術
スケーラブルシステムズ株式会社
Breaking the 1-2K nodes Barrier
bull 音の障壁サウンドバリヤー(sound barrier)飛行機の速度が音速近くになると衝撃波の発生によって抵抗の増大境界層の剥離など設計運用上のさまざまな障害(壁)に出合って超音速飛行は不可能かと思われた時代があった(1947年ごろまで)ので音の障壁といわれていた
httpwwwwilk4commiscsoundbreakhtm
クラスタのノード数がある規模に近くなるとその構築や運用において負担の増大システムの安定稼動スケーラビリティなど設計運用上のさまざまな障害(壁)に出合ってクラスタ構築は不可能と思われた時代があった()
スケーラブルシステムズ株式会社
ビルゲイツ氏の基調講演HPC goes mainstream
スケーラブルシステムズ株式会社
「Fast」「Good」「Cheap」のパズル
Fast
+ Cheap
Inferior
高い性能を廉価なシステムで構築することも可能ですただそのようなシステムの場合システムの構築や利用は必ずしも容易ではありません
Good
+ Cheap
Slow比較的小規模なシステムであれば廉価で使い勝手の良いものを探すことは可能ですしかしそのようなシステムでは拡張性やより大規模なシステム構築が出来ません
Good
+ Fast
Expensive
付加価値の高い性能の高いシステムは一般には高価ですその付加価値がユーザにとってメリットが無ければコストパフォーマンスの悪いシステムになるだけです
スケーラブルシステムズ株式会社
まとめとして
bull 「テクノロジー」をどのようにとらえるかndash企業経営基盤のコア要素
ndashユーザの本質的な課題を解決する戦略的な武器
bull マーケットを牽引する「テクノロジ」に求められることndashテクノロジとHPCにおけるITインフラの関係を明確にすること
bull ユーザに何らかのメリットをもたらさない「テクノロジー」は意味を成さない
ndashテクノロジーを最適に組み合わせることで問題解決のためのソリューションの提供が可能
スケーラブルシステムズ株式会社
まとめとして
bull bdquoTs‟ for HPC - インテルテクノロジのHPCにおける価値
ndash インテルテクノロジはHPCにおいて重要な構成要素となっている
ndashそれらの構成要素を統合することでより高い価値の提供が可能となる
ndash二分化しつつあるHPCシステムにおいて「標準コ
ンポーネント」としてのプラットフォームの動向として今後もその動向には注目する必要がある
スケーラブルシステムズ株式会社
さらに詳しい情報はhellip
bull 弊社のコンサルテーションに関するご提案資料もダウンロード可能です(非公開WEBページ)別途弊社に内容等についてはお尋ねください
お問い合わせ先102-0083
東京都千代田区麹町3-5-2
BUREX麹町 8F
電話03-5875-4718
FAX03-3237-7612
E-mailbizsstccojp
httpwwwsstccojp wwwsstccojpbiz
スケーラブルシステムズ株式会社
スケーラブルシステムズ株式会社
ハイエンドコンピューティングに関するコンサルテーションとして幅広いサービスをご提供致します
このサービスを最大限に活用していただくことでコラボレーションによる「顧客志向」 のコン
サルテーションサービスをご提供できればと思っております
スケーラブルシステムズ株式会社
社名製品名などは一般に各社の商標または登録商標です無断での引用転載を禁じます
In general the name of the company and the product name etc are the trademarks or registered trademarks of each company
Copyright Scalable Systems Co Ltd 2005 Unauthorized use is strictly forbidden
2005年11月
スケーラブルシステムズ株式会社
HPCシステムの動向国家プロジェクトと商用製品のギャップの拡大
Going UP
Going DOWN
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
Peta-Scaleコンピューティングに求められる基本技術と現在のHPCの主要マーケットでの要求はあまりにも差が大きいrarrHPCSシステムは各社とのlsquoCommodityrsquoのマイクロプロセッサではなく独自のプロセッサを開発中
ハードウエアはrsquoCommodityrsquo
なものを利用してSWの改善サポート利用技術のサポートが今後の主要マーケットでの成功の鍵となる
スケーラブルシステムズ株式会社
HPCシステムの動向国家プロジェクト
Going UP
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
Peta-Scaleコンピューティングに求められる基本技術と現在のHPCの主要マーケットでの要求はあまりにも差が大きいrarrHPCSシステムは各社とのlsquoCommodityrsquoのマイクロプロセッサではなく独自のプロセッサを開発中
スケーラブルシステムズ株式会社
TOP500性能予測
1993 1995 1997 1999 2001 2003 2005 2007 2009 2011 2013 2015
N=
50
SUM
1 Gflops
1 Tflops
100 Mflops
100 Gflops
100 Tflops
10 Gflops
10 Tflops
1 Pflops
10 Pflops
IBM ASCI White
Blue GeneEarth Simulator
Intel
TOP500の総計が1PFを超えています
TOP500に掲載されるには1TF
が最低条件になっています
シングルシステムの1PFの実現は2009年
システム(プロセッサ数) 13倍年プロセッサ性能向上 14倍年トータル性能 18倍年
2009年までに1ペタFLOPS
スケーラブルシステムズ株式会社
性能ギャップの拡大
bull ピーク性能の大幅な向上ndash 1990年台は性能の向上は102のオーダーでしたが2000年台になると103のオーダーで性能は向上しています
しかしhellipndash 多くの科学技術計算用途のアプリケーションのピーク性能に対する実効性能の比率は5-10となっています(1990年代のベクトル計算機は40-50の対ピーク性能を示していました)
bull 今必要なのはndash より高い実効性能を発揮することが可能な計算アルゴリズムと手法の開発とスケーラビリティの向上
ndash プログラミングモデルなども含めてスケーラブルな計算機環境の構築
01
1
10
100
1000
2000 2004
Tera
flo
ps
1996
Performance
Gap
Peak Performance
Real Performance
NERSC User Group Meeting June 24-25 2004
Osni Marques and Tony Drummond
Lawrence Berkeley National Laboratory
スケーラブルシステムズ株式会社
ペタスケールシステムの構築
bull ソフトウエア(アプリケーションOSプログラミングAPIなど)の課題の克服が課題
bull システムの複雑さと生産性
例Linpack Benchmark
bull オリジナルベンチマークプログラム ~100ライン
bull HPL ベンチマークプログラム ~10000ライン(x100より複雑)
lsquo複雑さrsquoの壁
現在のテラFLOPS級の問題
Source ORNL
スケーラブルシステムズ株式会社
HPCシステムの動向商用製品
Going DOWN
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
ハードウエアはrsquoCommodityrsquo
なものを利用してSWの改善サポート利用技術のサポートが今後の主要マーケットでの成功の鍵となる
スケーラブルシステムズ株式会社
標準コンポーネントの進化
bull プロセッサの性能向上ndash lsquoマルチコアrsquoによる省電力での性能向上が可能
ndash HPCアプリケーションは容易にlsquoマルチコアrsquoの利点を活用可能 (OpenMPやMPI)
bull ファイルシステムndash高性能なスケーラブルファイルシステム(オープンソース)
bull インターコネクトndash PCI-Express (メモリlarrrarrインターコネクト)
ndash高速の商用製品やオープンソースでの強力(OpenIBなど)
スケーラブルシステムズ株式会社
標準コンポーネントの利点
bull 特定のベンダーからのシステムを組み合わせるのではなく他社のシステムも含めてベストなシステムの選択が可能
ndashスケーラブルSMPベクトル計算機クラスタの幅広い選択肢
ndash 64ビットマルチコアマイクロプロセッサの性能向上を最大限に活用
bull 標準コンポーネントの技術革新の活用
ndash PCI-ExpressやFB-DIMMの利用技術
スケーラブルシステムズ株式会社
Breaking the 1-2K nodes Barrier
bull 音の障壁サウンドバリヤー(sound barrier)飛行機の速度が音速近くになると衝撃波の発生によって抵抗の増大境界層の剥離など設計運用上のさまざまな障害(壁)に出合って超音速飛行は不可能かと思われた時代があった(1947年ごろまで)ので音の障壁といわれていた
httpwwwwilk4commiscsoundbreakhtm
クラスタのノード数がある規模に近くなるとその構築や運用において負担の増大システムの安定稼動スケーラビリティなど設計運用上のさまざまな障害(壁)に出合ってクラスタ構築は不可能と思われた時代があった()
スケーラブルシステムズ株式会社
ビルゲイツ氏の基調講演HPC goes mainstream
スケーラブルシステムズ株式会社
「Fast」「Good」「Cheap」のパズル
Fast
+ Cheap
Inferior
高い性能を廉価なシステムで構築することも可能ですただそのようなシステムの場合システムの構築や利用は必ずしも容易ではありません
Good
+ Cheap
Slow比較的小規模なシステムであれば廉価で使い勝手の良いものを探すことは可能ですしかしそのようなシステムでは拡張性やより大規模なシステム構築が出来ません
Good
+ Fast
Expensive
付加価値の高い性能の高いシステムは一般には高価ですその付加価値がユーザにとってメリットが無ければコストパフォーマンスの悪いシステムになるだけです
スケーラブルシステムズ株式会社
まとめとして
bull 「テクノロジー」をどのようにとらえるかndash企業経営基盤のコア要素
ndashユーザの本質的な課題を解決する戦略的な武器
bull マーケットを牽引する「テクノロジ」に求められることndashテクノロジとHPCにおけるITインフラの関係を明確にすること
bull ユーザに何らかのメリットをもたらさない「テクノロジー」は意味を成さない
ndashテクノロジーを最適に組み合わせることで問題解決のためのソリューションの提供が可能
スケーラブルシステムズ株式会社
まとめとして
bull bdquoTs‟ for HPC - インテルテクノロジのHPCにおける価値
ndash インテルテクノロジはHPCにおいて重要な構成要素となっている
ndashそれらの構成要素を統合することでより高い価値の提供が可能となる
ndash二分化しつつあるHPCシステムにおいて「標準コ
ンポーネント」としてのプラットフォームの動向として今後もその動向には注目する必要がある
スケーラブルシステムズ株式会社
さらに詳しい情報はhellip
bull 弊社のコンサルテーションに関するご提案資料もダウンロード可能です(非公開WEBページ)別途弊社に内容等についてはお尋ねください
お問い合わせ先102-0083
東京都千代田区麹町3-5-2
BUREX麹町 8F
電話03-5875-4718
FAX03-3237-7612
E-mailbizsstccojp
httpwwwsstccojp wwwsstccojpbiz
スケーラブルシステムズ株式会社
スケーラブルシステムズ株式会社
ハイエンドコンピューティングに関するコンサルテーションとして幅広いサービスをご提供致します
このサービスを最大限に活用していただくことでコラボレーションによる「顧客志向」 のコン
サルテーションサービスをご提供できればと思っております
スケーラブルシステムズ株式会社
社名製品名などは一般に各社の商標または登録商標です無断での引用転載を禁じます
In general the name of the company and the product name etc are the trademarks or registered trademarks of each company
Copyright Scalable Systems Co Ltd 2005 Unauthorized use is strictly forbidden
2005年11月
スケーラブルシステムズ株式会社
HPCシステムの動向国家プロジェクト
Going UP
bdquoPeta-Scale‟
コンピューティングbull複雑なシステム構成bull新しいプログラミングAPIの提案bullアプリケーション開発
Peta-Scaleコンピューティングに求められる基本技術と現在のHPCの主要マーケットでの要求はあまりにも差が大きいrarrHPCSシステムは各社とのlsquoCommodityrsquoのマイクロプロセッサではなく独自のプロセッサを開発中
スケーラブルシステムズ株式会社
TOP500性能予測
1993 1995 1997 1999 2001 2003 2005 2007 2009 2011 2013 2015
N=
50
SUM
1 Gflops
1 Tflops
100 Mflops
100 Gflops
100 Tflops
10 Gflops
10 Tflops
1 Pflops
10 Pflops
IBM ASCI White
Blue GeneEarth Simulator
Intel
TOP500の総計が1PFを超えています
TOP500に掲載されるには1TF
が最低条件になっています
シングルシステムの1PFの実現は2009年
システム(プロセッサ数) 13倍年プロセッサ性能向上 14倍年トータル性能 18倍年
2009年までに1ペタFLOPS
スケーラブルシステムズ株式会社
性能ギャップの拡大
bull ピーク性能の大幅な向上ndash 1990年台は性能の向上は102のオーダーでしたが2000年台になると103のオーダーで性能は向上しています
しかしhellipndash 多くの科学技術計算用途のアプリケーションのピーク性能に対する実効性能の比率は5-10となっています(1990年代のベクトル計算機は40-50の対ピーク性能を示していました)
bull 今必要なのはndash より高い実効性能を発揮することが可能な計算アルゴリズムと手法の開発とスケーラビリティの向上
ndash プログラミングモデルなども含めてスケーラブルな計算機環境の構築
01
1
10
100
1000
2000 2004
Tera
flo
ps
1996
Performance
Gap
Peak Performance
Real Performance
NERSC User Group Meeting June 24-25 2004
Osni Marques and Tony Drummond
Lawrence Berkeley National Laboratory
スケーラブルシステムズ株式会社
ペタスケールシステムの構築
bull ソフトウエア(アプリケーションOSプログラミングAPIなど)の課題の克服が課題
bull システムの複雑さと生産性
例Linpack Benchmark
bull オリジナルベンチマークプログラム ~100ライン
bull HPL ベンチマークプログラム ~10000ライン(x100より複雑)
lsquo複雑さrsquoの壁
現在のテラFLOPS級の問題
Source ORNL
スケーラブルシステムズ株式会社
HPCシステムの動向商用製品
Going DOWN
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
ハードウエアはrsquoCommodityrsquo
なものを利用してSWの改善サポート利用技術のサポートが今後の主要マーケットでの成功の鍵となる
スケーラブルシステムズ株式会社
標準コンポーネントの進化
bull プロセッサの性能向上ndash lsquoマルチコアrsquoによる省電力での性能向上が可能
ndash HPCアプリケーションは容易にlsquoマルチコアrsquoの利点を活用可能 (OpenMPやMPI)
bull ファイルシステムndash高性能なスケーラブルファイルシステム(オープンソース)
bull インターコネクトndash PCI-Express (メモリlarrrarrインターコネクト)
ndash高速の商用製品やオープンソースでの強力(OpenIBなど)
スケーラブルシステムズ株式会社
標準コンポーネントの利点
bull 特定のベンダーからのシステムを組み合わせるのではなく他社のシステムも含めてベストなシステムの選択が可能
ndashスケーラブルSMPベクトル計算機クラスタの幅広い選択肢
ndash 64ビットマルチコアマイクロプロセッサの性能向上を最大限に活用
bull 標準コンポーネントの技術革新の活用
ndash PCI-ExpressやFB-DIMMの利用技術
スケーラブルシステムズ株式会社
Breaking the 1-2K nodes Barrier
bull 音の障壁サウンドバリヤー(sound barrier)飛行機の速度が音速近くになると衝撃波の発生によって抵抗の増大境界層の剥離など設計運用上のさまざまな障害(壁)に出合って超音速飛行は不可能かと思われた時代があった(1947年ごろまで)ので音の障壁といわれていた
httpwwwwilk4commiscsoundbreakhtm
クラスタのノード数がある規模に近くなるとその構築や運用において負担の増大システムの安定稼動スケーラビリティなど設計運用上のさまざまな障害(壁)に出合ってクラスタ構築は不可能と思われた時代があった()
スケーラブルシステムズ株式会社
ビルゲイツ氏の基調講演HPC goes mainstream
スケーラブルシステムズ株式会社
「Fast」「Good」「Cheap」のパズル
Fast
+ Cheap
Inferior
高い性能を廉価なシステムで構築することも可能ですただそのようなシステムの場合システムの構築や利用は必ずしも容易ではありません
Good
+ Cheap
Slow比較的小規模なシステムであれば廉価で使い勝手の良いものを探すことは可能ですしかしそのようなシステムでは拡張性やより大規模なシステム構築が出来ません
Good
+ Fast
Expensive
付加価値の高い性能の高いシステムは一般には高価ですその付加価値がユーザにとってメリットが無ければコストパフォーマンスの悪いシステムになるだけです
スケーラブルシステムズ株式会社
まとめとして
bull 「テクノロジー」をどのようにとらえるかndash企業経営基盤のコア要素
ndashユーザの本質的な課題を解決する戦略的な武器
bull マーケットを牽引する「テクノロジ」に求められることndashテクノロジとHPCにおけるITインフラの関係を明確にすること
bull ユーザに何らかのメリットをもたらさない「テクノロジー」は意味を成さない
ndashテクノロジーを最適に組み合わせることで問題解決のためのソリューションの提供が可能
スケーラブルシステムズ株式会社
まとめとして
bull bdquoTs‟ for HPC - インテルテクノロジのHPCにおける価値
ndash インテルテクノロジはHPCにおいて重要な構成要素となっている
ndashそれらの構成要素を統合することでより高い価値の提供が可能となる
ndash二分化しつつあるHPCシステムにおいて「標準コ
ンポーネント」としてのプラットフォームの動向として今後もその動向には注目する必要がある
スケーラブルシステムズ株式会社
さらに詳しい情報はhellip
bull 弊社のコンサルテーションに関するご提案資料もダウンロード可能です(非公開WEBページ)別途弊社に内容等についてはお尋ねください
お問い合わせ先102-0083
東京都千代田区麹町3-5-2
BUREX麹町 8F
電話03-5875-4718
FAX03-3237-7612
E-mailbizsstccojp
httpwwwsstccojp wwwsstccojpbiz
スケーラブルシステムズ株式会社
スケーラブルシステムズ株式会社
ハイエンドコンピューティングに関するコンサルテーションとして幅広いサービスをご提供致します
このサービスを最大限に活用していただくことでコラボレーションによる「顧客志向」 のコン
サルテーションサービスをご提供できればと思っております
スケーラブルシステムズ株式会社
社名製品名などは一般に各社の商標または登録商標です無断での引用転載を禁じます
In general the name of the company and the product name etc are the trademarks or registered trademarks of each company
Copyright Scalable Systems Co Ltd 2005 Unauthorized use is strictly forbidden
2005年11月
スケーラブルシステムズ株式会社
TOP500性能予測
1993 1995 1997 1999 2001 2003 2005 2007 2009 2011 2013 2015
N=
50
SUM
1 Gflops
1 Tflops
100 Mflops
100 Gflops
100 Tflops
10 Gflops
10 Tflops
1 Pflops
10 Pflops
IBM ASCI White
Blue GeneEarth Simulator
Intel
TOP500の総計が1PFを超えています
TOP500に掲載されるには1TF
が最低条件になっています
シングルシステムの1PFの実現は2009年
システム(プロセッサ数) 13倍年プロセッサ性能向上 14倍年トータル性能 18倍年
2009年までに1ペタFLOPS
スケーラブルシステムズ株式会社
性能ギャップの拡大
bull ピーク性能の大幅な向上ndash 1990年台は性能の向上は102のオーダーでしたが2000年台になると103のオーダーで性能は向上しています
しかしhellipndash 多くの科学技術計算用途のアプリケーションのピーク性能に対する実効性能の比率は5-10となっています(1990年代のベクトル計算機は40-50の対ピーク性能を示していました)
bull 今必要なのはndash より高い実効性能を発揮することが可能な計算アルゴリズムと手法の開発とスケーラビリティの向上
ndash プログラミングモデルなども含めてスケーラブルな計算機環境の構築
01
1
10
100
1000
2000 2004
Tera
flo
ps
1996
Performance
Gap
Peak Performance
Real Performance
NERSC User Group Meeting June 24-25 2004
Osni Marques and Tony Drummond
Lawrence Berkeley National Laboratory
スケーラブルシステムズ株式会社
ペタスケールシステムの構築
bull ソフトウエア(アプリケーションOSプログラミングAPIなど)の課題の克服が課題
bull システムの複雑さと生産性
例Linpack Benchmark
bull オリジナルベンチマークプログラム ~100ライン
bull HPL ベンチマークプログラム ~10000ライン(x100より複雑)
lsquo複雑さrsquoの壁
現在のテラFLOPS級の問題
Source ORNL
スケーラブルシステムズ株式会社
HPCシステムの動向商用製品
Going DOWN
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
ハードウエアはrsquoCommodityrsquo
なものを利用してSWの改善サポート利用技術のサポートが今後の主要マーケットでの成功の鍵となる
スケーラブルシステムズ株式会社
標準コンポーネントの進化
bull プロセッサの性能向上ndash lsquoマルチコアrsquoによる省電力での性能向上が可能
ndash HPCアプリケーションは容易にlsquoマルチコアrsquoの利点を活用可能 (OpenMPやMPI)
bull ファイルシステムndash高性能なスケーラブルファイルシステム(オープンソース)
bull インターコネクトndash PCI-Express (メモリlarrrarrインターコネクト)
ndash高速の商用製品やオープンソースでの強力(OpenIBなど)
スケーラブルシステムズ株式会社
標準コンポーネントの利点
bull 特定のベンダーからのシステムを組み合わせるのではなく他社のシステムも含めてベストなシステムの選択が可能
ndashスケーラブルSMPベクトル計算機クラスタの幅広い選択肢
ndash 64ビットマルチコアマイクロプロセッサの性能向上を最大限に活用
bull 標準コンポーネントの技術革新の活用
ndash PCI-ExpressやFB-DIMMの利用技術
スケーラブルシステムズ株式会社
Breaking the 1-2K nodes Barrier
bull 音の障壁サウンドバリヤー(sound barrier)飛行機の速度が音速近くになると衝撃波の発生によって抵抗の増大境界層の剥離など設計運用上のさまざまな障害(壁)に出合って超音速飛行は不可能かと思われた時代があった(1947年ごろまで)ので音の障壁といわれていた
httpwwwwilk4commiscsoundbreakhtm
クラスタのノード数がある規模に近くなるとその構築や運用において負担の増大システムの安定稼動スケーラビリティなど設計運用上のさまざまな障害(壁)に出合ってクラスタ構築は不可能と思われた時代があった()
スケーラブルシステムズ株式会社
ビルゲイツ氏の基調講演HPC goes mainstream
スケーラブルシステムズ株式会社
「Fast」「Good」「Cheap」のパズル
Fast
+ Cheap
Inferior
高い性能を廉価なシステムで構築することも可能ですただそのようなシステムの場合システムの構築や利用は必ずしも容易ではありません
Good
+ Cheap
Slow比較的小規模なシステムであれば廉価で使い勝手の良いものを探すことは可能ですしかしそのようなシステムでは拡張性やより大規模なシステム構築が出来ません
Good
+ Fast
Expensive
付加価値の高い性能の高いシステムは一般には高価ですその付加価値がユーザにとってメリットが無ければコストパフォーマンスの悪いシステムになるだけです
スケーラブルシステムズ株式会社
まとめとして
bull 「テクノロジー」をどのようにとらえるかndash企業経営基盤のコア要素
ndashユーザの本質的な課題を解決する戦略的な武器
bull マーケットを牽引する「テクノロジ」に求められることndashテクノロジとHPCにおけるITインフラの関係を明確にすること
bull ユーザに何らかのメリットをもたらさない「テクノロジー」は意味を成さない
ndashテクノロジーを最適に組み合わせることで問題解決のためのソリューションの提供が可能
スケーラブルシステムズ株式会社
まとめとして
bull bdquoTs‟ for HPC - インテルテクノロジのHPCにおける価値
ndash インテルテクノロジはHPCにおいて重要な構成要素となっている
ndashそれらの構成要素を統合することでより高い価値の提供が可能となる
ndash二分化しつつあるHPCシステムにおいて「標準コ
ンポーネント」としてのプラットフォームの動向として今後もその動向には注目する必要がある
スケーラブルシステムズ株式会社
さらに詳しい情報はhellip
bull 弊社のコンサルテーションに関するご提案資料もダウンロード可能です(非公開WEBページ)別途弊社に内容等についてはお尋ねください
お問い合わせ先102-0083
東京都千代田区麹町3-5-2
BUREX麹町 8F
電話03-5875-4718
FAX03-3237-7612
E-mailbizsstccojp
httpwwwsstccojp wwwsstccojpbiz
スケーラブルシステムズ株式会社
スケーラブルシステムズ株式会社
ハイエンドコンピューティングに関するコンサルテーションとして幅広いサービスをご提供致します
このサービスを最大限に活用していただくことでコラボレーションによる「顧客志向」 のコン
サルテーションサービスをご提供できればと思っております
スケーラブルシステムズ株式会社
社名製品名などは一般に各社の商標または登録商標です無断での引用転載を禁じます
In general the name of the company and the product name etc are the trademarks or registered trademarks of each company
Copyright Scalable Systems Co Ltd 2005 Unauthorized use is strictly forbidden
2005年11月
スケーラブルシステムズ株式会社
性能ギャップの拡大
bull ピーク性能の大幅な向上ndash 1990年台は性能の向上は102のオーダーでしたが2000年台になると103のオーダーで性能は向上しています
しかしhellipndash 多くの科学技術計算用途のアプリケーションのピーク性能に対する実効性能の比率は5-10となっています(1990年代のベクトル計算機は40-50の対ピーク性能を示していました)
bull 今必要なのはndash より高い実効性能を発揮することが可能な計算アルゴリズムと手法の開発とスケーラビリティの向上
ndash プログラミングモデルなども含めてスケーラブルな計算機環境の構築
01
1
10
100
1000
2000 2004
Tera
flo
ps
1996
Performance
Gap
Peak Performance
Real Performance
NERSC User Group Meeting June 24-25 2004
Osni Marques and Tony Drummond
Lawrence Berkeley National Laboratory
スケーラブルシステムズ株式会社
ペタスケールシステムの構築
bull ソフトウエア(アプリケーションOSプログラミングAPIなど)の課題の克服が課題
bull システムの複雑さと生産性
例Linpack Benchmark
bull オリジナルベンチマークプログラム ~100ライン
bull HPL ベンチマークプログラム ~10000ライン(x100より複雑)
lsquo複雑さrsquoの壁
現在のテラFLOPS級の問題
Source ORNL
スケーラブルシステムズ株式会社
HPCシステムの動向商用製品
Going DOWN
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
ハードウエアはrsquoCommodityrsquo
なものを利用してSWの改善サポート利用技術のサポートが今後の主要マーケットでの成功の鍵となる
スケーラブルシステムズ株式会社
標準コンポーネントの進化
bull プロセッサの性能向上ndash lsquoマルチコアrsquoによる省電力での性能向上が可能
ndash HPCアプリケーションは容易にlsquoマルチコアrsquoの利点を活用可能 (OpenMPやMPI)
bull ファイルシステムndash高性能なスケーラブルファイルシステム(オープンソース)
bull インターコネクトndash PCI-Express (メモリlarrrarrインターコネクト)
ndash高速の商用製品やオープンソースでの強力(OpenIBなど)
スケーラブルシステムズ株式会社
標準コンポーネントの利点
bull 特定のベンダーからのシステムを組み合わせるのではなく他社のシステムも含めてベストなシステムの選択が可能
ndashスケーラブルSMPベクトル計算機クラスタの幅広い選択肢
ndash 64ビットマルチコアマイクロプロセッサの性能向上を最大限に活用
bull 標準コンポーネントの技術革新の活用
ndash PCI-ExpressやFB-DIMMの利用技術
スケーラブルシステムズ株式会社
Breaking the 1-2K nodes Barrier
bull 音の障壁サウンドバリヤー(sound barrier)飛行機の速度が音速近くになると衝撃波の発生によって抵抗の増大境界層の剥離など設計運用上のさまざまな障害(壁)に出合って超音速飛行は不可能かと思われた時代があった(1947年ごろまで)ので音の障壁といわれていた
httpwwwwilk4commiscsoundbreakhtm
クラスタのノード数がある規模に近くなるとその構築や運用において負担の増大システムの安定稼動スケーラビリティなど設計運用上のさまざまな障害(壁)に出合ってクラスタ構築は不可能と思われた時代があった()
スケーラブルシステムズ株式会社
ビルゲイツ氏の基調講演HPC goes mainstream
スケーラブルシステムズ株式会社
「Fast」「Good」「Cheap」のパズル
Fast
+ Cheap
Inferior
高い性能を廉価なシステムで構築することも可能ですただそのようなシステムの場合システムの構築や利用は必ずしも容易ではありません
Good
+ Cheap
Slow比較的小規模なシステムであれば廉価で使い勝手の良いものを探すことは可能ですしかしそのようなシステムでは拡張性やより大規模なシステム構築が出来ません
Good
+ Fast
Expensive
付加価値の高い性能の高いシステムは一般には高価ですその付加価値がユーザにとってメリットが無ければコストパフォーマンスの悪いシステムになるだけです
スケーラブルシステムズ株式会社
まとめとして
bull 「テクノロジー」をどのようにとらえるかndash企業経営基盤のコア要素
ndashユーザの本質的な課題を解決する戦略的な武器
bull マーケットを牽引する「テクノロジ」に求められることndashテクノロジとHPCにおけるITインフラの関係を明確にすること
bull ユーザに何らかのメリットをもたらさない「テクノロジー」は意味を成さない
ndashテクノロジーを最適に組み合わせることで問題解決のためのソリューションの提供が可能
スケーラブルシステムズ株式会社
まとめとして
bull bdquoTs‟ for HPC - インテルテクノロジのHPCにおける価値
ndash インテルテクノロジはHPCにおいて重要な構成要素となっている
ndashそれらの構成要素を統合することでより高い価値の提供が可能となる
ndash二分化しつつあるHPCシステムにおいて「標準コ
ンポーネント」としてのプラットフォームの動向として今後もその動向には注目する必要がある
スケーラブルシステムズ株式会社
さらに詳しい情報はhellip
bull 弊社のコンサルテーションに関するご提案資料もダウンロード可能です(非公開WEBページ)別途弊社に内容等についてはお尋ねください
お問い合わせ先102-0083
東京都千代田区麹町3-5-2
BUREX麹町 8F
電話03-5875-4718
FAX03-3237-7612
E-mailbizsstccojp
httpwwwsstccojp wwwsstccojpbiz
スケーラブルシステムズ株式会社
スケーラブルシステムズ株式会社
ハイエンドコンピューティングに関するコンサルテーションとして幅広いサービスをご提供致します
このサービスを最大限に活用していただくことでコラボレーションによる「顧客志向」 のコン
サルテーションサービスをご提供できればと思っております
スケーラブルシステムズ株式会社
社名製品名などは一般に各社の商標または登録商標です無断での引用転載を禁じます
In general the name of the company and the product name etc are the trademarks or registered trademarks of each company
Copyright Scalable Systems Co Ltd 2005 Unauthorized use is strictly forbidden
2005年11月
スケーラブルシステムズ株式会社
ペタスケールシステムの構築
bull ソフトウエア(アプリケーションOSプログラミングAPIなど)の課題の克服が課題
bull システムの複雑さと生産性
例Linpack Benchmark
bull オリジナルベンチマークプログラム ~100ライン
bull HPL ベンチマークプログラム ~10000ライン(x100より複雑)
lsquo複雑さrsquoの壁
現在のテラFLOPS級の問題
Source ORNL
スケーラブルシステムズ株式会社
HPCシステムの動向商用製品
Going DOWN
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
ハードウエアはrsquoCommodityrsquo
なものを利用してSWの改善サポート利用技術のサポートが今後の主要マーケットでの成功の鍵となる
スケーラブルシステムズ株式会社
標準コンポーネントの進化
bull プロセッサの性能向上ndash lsquoマルチコアrsquoによる省電力での性能向上が可能
ndash HPCアプリケーションは容易にlsquoマルチコアrsquoの利点を活用可能 (OpenMPやMPI)
bull ファイルシステムndash高性能なスケーラブルファイルシステム(オープンソース)
bull インターコネクトndash PCI-Express (メモリlarrrarrインターコネクト)
ndash高速の商用製品やオープンソースでの強力(OpenIBなど)
スケーラブルシステムズ株式会社
標準コンポーネントの利点
bull 特定のベンダーからのシステムを組み合わせるのではなく他社のシステムも含めてベストなシステムの選択が可能
ndashスケーラブルSMPベクトル計算機クラスタの幅広い選択肢
ndash 64ビットマルチコアマイクロプロセッサの性能向上を最大限に活用
bull 標準コンポーネントの技術革新の活用
ndash PCI-ExpressやFB-DIMMの利用技術
スケーラブルシステムズ株式会社
Breaking the 1-2K nodes Barrier
bull 音の障壁サウンドバリヤー(sound barrier)飛行機の速度が音速近くになると衝撃波の発生によって抵抗の増大境界層の剥離など設計運用上のさまざまな障害(壁)に出合って超音速飛行は不可能かと思われた時代があった(1947年ごろまで)ので音の障壁といわれていた
httpwwwwilk4commiscsoundbreakhtm
クラスタのノード数がある規模に近くなるとその構築や運用において負担の増大システムの安定稼動スケーラビリティなど設計運用上のさまざまな障害(壁)に出合ってクラスタ構築は不可能と思われた時代があった()
スケーラブルシステムズ株式会社
ビルゲイツ氏の基調講演HPC goes mainstream
スケーラブルシステムズ株式会社
「Fast」「Good」「Cheap」のパズル
Fast
+ Cheap
Inferior
高い性能を廉価なシステムで構築することも可能ですただそのようなシステムの場合システムの構築や利用は必ずしも容易ではありません
Good
+ Cheap
Slow比較的小規模なシステムであれば廉価で使い勝手の良いものを探すことは可能ですしかしそのようなシステムでは拡張性やより大規模なシステム構築が出来ません
Good
+ Fast
Expensive
付加価値の高い性能の高いシステムは一般には高価ですその付加価値がユーザにとってメリットが無ければコストパフォーマンスの悪いシステムになるだけです
スケーラブルシステムズ株式会社
まとめとして
bull 「テクノロジー」をどのようにとらえるかndash企業経営基盤のコア要素
ndashユーザの本質的な課題を解決する戦略的な武器
bull マーケットを牽引する「テクノロジ」に求められることndashテクノロジとHPCにおけるITインフラの関係を明確にすること
bull ユーザに何らかのメリットをもたらさない「テクノロジー」は意味を成さない
ndashテクノロジーを最適に組み合わせることで問題解決のためのソリューションの提供が可能
スケーラブルシステムズ株式会社
まとめとして
bull bdquoTs‟ for HPC - インテルテクノロジのHPCにおける価値
ndash インテルテクノロジはHPCにおいて重要な構成要素となっている
ndashそれらの構成要素を統合することでより高い価値の提供が可能となる
ndash二分化しつつあるHPCシステムにおいて「標準コ
ンポーネント」としてのプラットフォームの動向として今後もその動向には注目する必要がある
スケーラブルシステムズ株式会社
さらに詳しい情報はhellip
bull 弊社のコンサルテーションに関するご提案資料もダウンロード可能です(非公開WEBページ)別途弊社に内容等についてはお尋ねください
お問い合わせ先102-0083
東京都千代田区麹町3-5-2
BUREX麹町 8F
電話03-5875-4718
FAX03-3237-7612
E-mailbizsstccojp
httpwwwsstccojp wwwsstccojpbiz
スケーラブルシステムズ株式会社
スケーラブルシステムズ株式会社
ハイエンドコンピューティングに関するコンサルテーションとして幅広いサービスをご提供致します
このサービスを最大限に活用していただくことでコラボレーションによる「顧客志向」 のコン
サルテーションサービスをご提供できればと思っております
スケーラブルシステムズ株式会社
社名製品名などは一般に各社の商標または登録商標です無断での引用転載を禁じます
In general the name of the company and the product name etc are the trademarks or registered trademarks of each company
Copyright Scalable Systems Co Ltd 2005 Unauthorized use is strictly forbidden
2005年11月
スケーラブルシステムズ株式会社
HPCシステムの動向商用製品
Going DOWN
bdquoCommodity‟
コンピューティングbull商用HWSW
bullオープンソースbullパーソナルクラスタbull商用アプリケーションbullマルチスレッド
ハードウエアはrsquoCommodityrsquo
なものを利用してSWの改善サポート利用技術のサポートが今後の主要マーケットでの成功の鍵となる
スケーラブルシステムズ株式会社
標準コンポーネントの進化
bull プロセッサの性能向上ndash lsquoマルチコアrsquoによる省電力での性能向上が可能
ndash HPCアプリケーションは容易にlsquoマルチコアrsquoの利点を活用可能 (OpenMPやMPI)
bull ファイルシステムndash高性能なスケーラブルファイルシステム(オープンソース)
bull インターコネクトndash PCI-Express (メモリlarrrarrインターコネクト)
ndash高速の商用製品やオープンソースでの強力(OpenIBなど)
スケーラブルシステムズ株式会社
標準コンポーネントの利点
bull 特定のベンダーからのシステムを組み合わせるのではなく他社のシステムも含めてベストなシステムの選択が可能
ndashスケーラブルSMPベクトル計算機クラスタの幅広い選択肢
ndash 64ビットマルチコアマイクロプロセッサの性能向上を最大限に活用
bull 標準コンポーネントの技術革新の活用
ndash PCI-ExpressやFB-DIMMの利用技術
スケーラブルシステムズ株式会社
Breaking the 1-2K nodes Barrier
bull 音の障壁サウンドバリヤー(sound barrier)飛行機の速度が音速近くになると衝撃波の発生によって抵抗の増大境界層の剥離など設計運用上のさまざまな障害(壁)に出合って超音速飛行は不可能かと思われた時代があった(1947年ごろまで)ので音の障壁といわれていた
httpwwwwilk4commiscsoundbreakhtm
クラスタのノード数がある規模に近くなるとその構築や運用において負担の増大システムの安定稼動スケーラビリティなど設計運用上のさまざまな障害(壁)に出合ってクラスタ構築は不可能と思われた時代があった()
スケーラブルシステムズ株式会社
ビルゲイツ氏の基調講演HPC goes mainstream
スケーラブルシステムズ株式会社
「Fast」「Good」「Cheap」のパズル
Fast
+ Cheap
Inferior
高い性能を廉価なシステムで構築することも可能ですただそのようなシステムの場合システムの構築や利用は必ずしも容易ではありません
Good
+ Cheap
Slow比較的小規模なシステムであれば廉価で使い勝手の良いものを探すことは可能ですしかしそのようなシステムでは拡張性やより大規模なシステム構築が出来ません
Good
+ Fast
Expensive
付加価値の高い性能の高いシステムは一般には高価ですその付加価値がユーザにとってメリットが無ければコストパフォーマンスの悪いシステムになるだけです
スケーラブルシステムズ株式会社
まとめとして
bull 「テクノロジー」をどのようにとらえるかndash企業経営基盤のコア要素
ndashユーザの本質的な課題を解決する戦略的な武器
bull マーケットを牽引する「テクノロジ」に求められることndashテクノロジとHPCにおけるITインフラの関係を明確にすること
bull ユーザに何らかのメリットをもたらさない「テクノロジー」は意味を成さない
ndashテクノロジーを最適に組み合わせることで問題解決のためのソリューションの提供が可能
スケーラブルシステムズ株式会社
まとめとして
bull bdquoTs‟ for HPC - インテルテクノロジのHPCにおける価値
ndash インテルテクノロジはHPCにおいて重要な構成要素となっている
ndashそれらの構成要素を統合することでより高い価値の提供が可能となる
ndash二分化しつつあるHPCシステムにおいて「標準コ
ンポーネント」としてのプラットフォームの動向として今後もその動向には注目する必要がある
スケーラブルシステムズ株式会社
さらに詳しい情報はhellip
bull 弊社のコンサルテーションに関するご提案資料もダウンロード可能です(非公開WEBページ)別途弊社に内容等についてはお尋ねください
お問い合わせ先102-0083
東京都千代田区麹町3-5-2
BUREX麹町 8F
電話03-5875-4718
FAX03-3237-7612
E-mailbizsstccojp
httpwwwsstccojp wwwsstccojpbiz
スケーラブルシステムズ株式会社
スケーラブルシステムズ株式会社
ハイエンドコンピューティングに関するコンサルテーションとして幅広いサービスをご提供致します
このサービスを最大限に活用していただくことでコラボレーションによる「顧客志向」 のコン
サルテーションサービスをご提供できればと思っております
スケーラブルシステムズ株式会社
社名製品名などは一般に各社の商標または登録商標です無断での引用転載を禁じます
In general the name of the company and the product name etc are the trademarks or registered trademarks of each company
Copyright Scalable Systems Co Ltd 2005 Unauthorized use is strictly forbidden
2005年11月
スケーラブルシステムズ株式会社
標準コンポーネントの進化
bull プロセッサの性能向上ndash lsquoマルチコアrsquoによる省電力での性能向上が可能
ndash HPCアプリケーションは容易にlsquoマルチコアrsquoの利点を活用可能 (OpenMPやMPI)
bull ファイルシステムndash高性能なスケーラブルファイルシステム(オープンソース)
bull インターコネクトndash PCI-Express (メモリlarrrarrインターコネクト)
ndash高速の商用製品やオープンソースでの強力(OpenIBなど)
スケーラブルシステムズ株式会社
標準コンポーネントの利点
bull 特定のベンダーからのシステムを組み合わせるのではなく他社のシステムも含めてベストなシステムの選択が可能
ndashスケーラブルSMPベクトル計算機クラスタの幅広い選択肢
ndash 64ビットマルチコアマイクロプロセッサの性能向上を最大限に活用
bull 標準コンポーネントの技術革新の活用
ndash PCI-ExpressやFB-DIMMの利用技術
スケーラブルシステムズ株式会社
Breaking the 1-2K nodes Barrier
bull 音の障壁サウンドバリヤー(sound barrier)飛行機の速度が音速近くになると衝撃波の発生によって抵抗の増大境界層の剥離など設計運用上のさまざまな障害(壁)に出合って超音速飛行は不可能かと思われた時代があった(1947年ごろまで)ので音の障壁といわれていた
httpwwwwilk4commiscsoundbreakhtm
クラスタのノード数がある規模に近くなるとその構築や運用において負担の増大システムの安定稼動スケーラビリティなど設計運用上のさまざまな障害(壁)に出合ってクラスタ構築は不可能と思われた時代があった()
スケーラブルシステムズ株式会社
ビルゲイツ氏の基調講演HPC goes mainstream
スケーラブルシステムズ株式会社
「Fast」「Good」「Cheap」のパズル
Fast
+ Cheap
Inferior
高い性能を廉価なシステムで構築することも可能ですただそのようなシステムの場合システムの構築や利用は必ずしも容易ではありません
Good
+ Cheap
Slow比較的小規模なシステムであれば廉価で使い勝手の良いものを探すことは可能ですしかしそのようなシステムでは拡張性やより大規模なシステム構築が出来ません
Good
+ Fast
Expensive
付加価値の高い性能の高いシステムは一般には高価ですその付加価値がユーザにとってメリットが無ければコストパフォーマンスの悪いシステムになるだけです
スケーラブルシステムズ株式会社
まとめとして
bull 「テクノロジー」をどのようにとらえるかndash企業経営基盤のコア要素
ndashユーザの本質的な課題を解決する戦略的な武器
bull マーケットを牽引する「テクノロジ」に求められることndashテクノロジとHPCにおけるITインフラの関係を明確にすること
bull ユーザに何らかのメリットをもたらさない「テクノロジー」は意味を成さない
ndashテクノロジーを最適に組み合わせることで問題解決のためのソリューションの提供が可能
スケーラブルシステムズ株式会社
まとめとして
bull bdquoTs‟ for HPC - インテルテクノロジのHPCにおける価値
ndash インテルテクノロジはHPCにおいて重要な構成要素となっている
ndashそれらの構成要素を統合することでより高い価値の提供が可能となる
ndash二分化しつつあるHPCシステムにおいて「標準コ
ンポーネント」としてのプラットフォームの動向として今後もその動向には注目する必要がある
スケーラブルシステムズ株式会社
さらに詳しい情報はhellip
bull 弊社のコンサルテーションに関するご提案資料もダウンロード可能です(非公開WEBページ)別途弊社に内容等についてはお尋ねください
お問い合わせ先102-0083
東京都千代田区麹町3-5-2
BUREX麹町 8F
電話03-5875-4718
FAX03-3237-7612
E-mailbizsstccojp
httpwwwsstccojp wwwsstccojpbiz
スケーラブルシステムズ株式会社
スケーラブルシステムズ株式会社
ハイエンドコンピューティングに関するコンサルテーションとして幅広いサービスをご提供致します
このサービスを最大限に活用していただくことでコラボレーションによる「顧客志向」 のコン
サルテーションサービスをご提供できればと思っております
スケーラブルシステムズ株式会社
社名製品名などは一般に各社の商標または登録商標です無断での引用転載を禁じます
In general the name of the company and the product name etc are the trademarks or registered trademarks of each company
Copyright Scalable Systems Co Ltd 2005 Unauthorized use is strictly forbidden
2005年11月
スケーラブルシステムズ株式会社
標準コンポーネントの利点
bull 特定のベンダーからのシステムを組み合わせるのではなく他社のシステムも含めてベストなシステムの選択が可能
ndashスケーラブルSMPベクトル計算機クラスタの幅広い選択肢
ndash 64ビットマルチコアマイクロプロセッサの性能向上を最大限に活用
bull 標準コンポーネントの技術革新の活用
ndash PCI-ExpressやFB-DIMMの利用技術
スケーラブルシステムズ株式会社
Breaking the 1-2K nodes Barrier
bull 音の障壁サウンドバリヤー(sound barrier)飛行機の速度が音速近くになると衝撃波の発生によって抵抗の増大境界層の剥離など設計運用上のさまざまな障害(壁)に出合って超音速飛行は不可能かと思われた時代があった(1947年ごろまで)ので音の障壁といわれていた
httpwwwwilk4commiscsoundbreakhtm
クラスタのノード数がある規模に近くなるとその構築や運用において負担の増大システムの安定稼動スケーラビリティなど設計運用上のさまざまな障害(壁)に出合ってクラスタ構築は不可能と思われた時代があった()
スケーラブルシステムズ株式会社
ビルゲイツ氏の基調講演HPC goes mainstream
スケーラブルシステムズ株式会社
「Fast」「Good」「Cheap」のパズル
Fast
+ Cheap
Inferior
高い性能を廉価なシステムで構築することも可能ですただそのようなシステムの場合システムの構築や利用は必ずしも容易ではありません
Good
+ Cheap
Slow比較的小規模なシステムであれば廉価で使い勝手の良いものを探すことは可能ですしかしそのようなシステムでは拡張性やより大規模なシステム構築が出来ません
Good
+ Fast
Expensive
付加価値の高い性能の高いシステムは一般には高価ですその付加価値がユーザにとってメリットが無ければコストパフォーマンスの悪いシステムになるだけです
スケーラブルシステムズ株式会社
まとめとして
bull 「テクノロジー」をどのようにとらえるかndash企業経営基盤のコア要素
ndashユーザの本質的な課題を解決する戦略的な武器
bull マーケットを牽引する「テクノロジ」に求められることndashテクノロジとHPCにおけるITインフラの関係を明確にすること
bull ユーザに何らかのメリットをもたらさない「テクノロジー」は意味を成さない
ndashテクノロジーを最適に組み合わせることで問題解決のためのソリューションの提供が可能
スケーラブルシステムズ株式会社
まとめとして
bull bdquoTs‟ for HPC - インテルテクノロジのHPCにおける価値
ndash インテルテクノロジはHPCにおいて重要な構成要素となっている
ndashそれらの構成要素を統合することでより高い価値の提供が可能となる
ndash二分化しつつあるHPCシステムにおいて「標準コ
ンポーネント」としてのプラットフォームの動向として今後もその動向には注目する必要がある
スケーラブルシステムズ株式会社
さらに詳しい情報はhellip
bull 弊社のコンサルテーションに関するご提案資料もダウンロード可能です(非公開WEBページ)別途弊社に内容等についてはお尋ねください
お問い合わせ先102-0083
東京都千代田区麹町3-5-2
BUREX麹町 8F
電話03-5875-4718
FAX03-3237-7612
E-mailbizsstccojp
httpwwwsstccojp wwwsstccojpbiz
スケーラブルシステムズ株式会社
スケーラブルシステムズ株式会社
ハイエンドコンピューティングに関するコンサルテーションとして幅広いサービスをご提供致します
このサービスを最大限に活用していただくことでコラボレーションによる「顧客志向」 のコン
サルテーションサービスをご提供できればと思っております
スケーラブルシステムズ株式会社
社名製品名などは一般に各社の商標または登録商標です無断での引用転載を禁じます
In general the name of the company and the product name etc are the trademarks or registered trademarks of each company
Copyright Scalable Systems Co Ltd 2005 Unauthorized use is strictly forbidden
2005年11月
スケーラブルシステムズ株式会社
Breaking the 1-2K nodes Barrier
bull 音の障壁サウンドバリヤー(sound barrier)飛行機の速度が音速近くになると衝撃波の発生によって抵抗の増大境界層の剥離など設計運用上のさまざまな障害(壁)に出合って超音速飛行は不可能かと思われた時代があった(1947年ごろまで)ので音の障壁といわれていた
httpwwwwilk4commiscsoundbreakhtm
クラスタのノード数がある規模に近くなるとその構築や運用において負担の増大システムの安定稼動スケーラビリティなど設計運用上のさまざまな障害(壁)に出合ってクラスタ構築は不可能と思われた時代があった()
スケーラブルシステムズ株式会社
ビルゲイツ氏の基調講演HPC goes mainstream
スケーラブルシステムズ株式会社
「Fast」「Good」「Cheap」のパズル
Fast
+ Cheap
Inferior
高い性能を廉価なシステムで構築することも可能ですただそのようなシステムの場合システムの構築や利用は必ずしも容易ではありません
Good
+ Cheap
Slow比較的小規模なシステムであれば廉価で使い勝手の良いものを探すことは可能ですしかしそのようなシステムでは拡張性やより大規模なシステム構築が出来ません
Good
+ Fast
Expensive
付加価値の高い性能の高いシステムは一般には高価ですその付加価値がユーザにとってメリットが無ければコストパフォーマンスの悪いシステムになるだけです
スケーラブルシステムズ株式会社
まとめとして
bull 「テクノロジー」をどのようにとらえるかndash企業経営基盤のコア要素
ndashユーザの本質的な課題を解決する戦略的な武器
bull マーケットを牽引する「テクノロジ」に求められることndashテクノロジとHPCにおけるITインフラの関係を明確にすること
bull ユーザに何らかのメリットをもたらさない「テクノロジー」は意味を成さない
ndashテクノロジーを最適に組み合わせることで問題解決のためのソリューションの提供が可能
スケーラブルシステムズ株式会社
まとめとして
bull bdquoTs‟ for HPC - インテルテクノロジのHPCにおける価値
ndash インテルテクノロジはHPCにおいて重要な構成要素となっている
ndashそれらの構成要素を統合することでより高い価値の提供が可能となる
ndash二分化しつつあるHPCシステムにおいて「標準コ
ンポーネント」としてのプラットフォームの動向として今後もその動向には注目する必要がある
スケーラブルシステムズ株式会社
さらに詳しい情報はhellip
bull 弊社のコンサルテーションに関するご提案資料もダウンロード可能です(非公開WEBページ)別途弊社に内容等についてはお尋ねください
お問い合わせ先102-0083
東京都千代田区麹町3-5-2
BUREX麹町 8F
電話03-5875-4718
FAX03-3237-7612
E-mailbizsstccojp
httpwwwsstccojp wwwsstccojpbiz
スケーラブルシステムズ株式会社
スケーラブルシステムズ株式会社
ハイエンドコンピューティングに関するコンサルテーションとして幅広いサービスをご提供致します
このサービスを最大限に活用していただくことでコラボレーションによる「顧客志向」 のコン
サルテーションサービスをご提供できればと思っております
スケーラブルシステムズ株式会社
社名製品名などは一般に各社の商標または登録商標です無断での引用転載を禁じます
In general the name of the company and the product name etc are the trademarks or registered trademarks of each company
Copyright Scalable Systems Co Ltd 2005 Unauthorized use is strictly forbidden
2005年11月
スケーラブルシステムズ株式会社
ビルゲイツ氏の基調講演HPC goes mainstream
スケーラブルシステムズ株式会社
「Fast」「Good」「Cheap」のパズル
Fast
+ Cheap
Inferior
高い性能を廉価なシステムで構築することも可能ですただそのようなシステムの場合システムの構築や利用は必ずしも容易ではありません
Good
+ Cheap
Slow比較的小規模なシステムであれば廉価で使い勝手の良いものを探すことは可能ですしかしそのようなシステムでは拡張性やより大規模なシステム構築が出来ません
Good
+ Fast
Expensive
付加価値の高い性能の高いシステムは一般には高価ですその付加価値がユーザにとってメリットが無ければコストパフォーマンスの悪いシステムになるだけです
スケーラブルシステムズ株式会社
まとめとして
bull 「テクノロジー」をどのようにとらえるかndash企業経営基盤のコア要素
ndashユーザの本質的な課題を解決する戦略的な武器
bull マーケットを牽引する「テクノロジ」に求められることndashテクノロジとHPCにおけるITインフラの関係を明確にすること
bull ユーザに何らかのメリットをもたらさない「テクノロジー」は意味を成さない
ndashテクノロジーを最適に組み合わせることで問題解決のためのソリューションの提供が可能
スケーラブルシステムズ株式会社
まとめとして
bull bdquoTs‟ for HPC - インテルテクノロジのHPCにおける価値
ndash インテルテクノロジはHPCにおいて重要な構成要素となっている
ndashそれらの構成要素を統合することでより高い価値の提供が可能となる
ndash二分化しつつあるHPCシステムにおいて「標準コ
ンポーネント」としてのプラットフォームの動向として今後もその動向には注目する必要がある
スケーラブルシステムズ株式会社
さらに詳しい情報はhellip
bull 弊社のコンサルテーションに関するご提案資料もダウンロード可能です(非公開WEBページ)別途弊社に内容等についてはお尋ねください
お問い合わせ先102-0083
東京都千代田区麹町3-5-2
BUREX麹町 8F
電話03-5875-4718
FAX03-3237-7612
E-mailbizsstccojp
httpwwwsstccojp wwwsstccojpbiz
スケーラブルシステムズ株式会社
スケーラブルシステムズ株式会社
ハイエンドコンピューティングに関するコンサルテーションとして幅広いサービスをご提供致します
このサービスを最大限に活用していただくことでコラボレーションによる「顧客志向」 のコン
サルテーションサービスをご提供できればと思っております
スケーラブルシステムズ株式会社
社名製品名などは一般に各社の商標または登録商標です無断での引用転載を禁じます
In general the name of the company and the product name etc are the trademarks or registered trademarks of each company
Copyright Scalable Systems Co Ltd 2005 Unauthorized use is strictly forbidden
2005年11月
スケーラブルシステムズ株式会社
「Fast」「Good」「Cheap」のパズル
Fast
+ Cheap
Inferior
高い性能を廉価なシステムで構築することも可能ですただそのようなシステムの場合システムの構築や利用は必ずしも容易ではありません
Good
+ Cheap
Slow比較的小規模なシステムであれば廉価で使い勝手の良いものを探すことは可能ですしかしそのようなシステムでは拡張性やより大規模なシステム構築が出来ません
Good
+ Fast
Expensive
付加価値の高い性能の高いシステムは一般には高価ですその付加価値がユーザにとってメリットが無ければコストパフォーマンスの悪いシステムになるだけです
スケーラブルシステムズ株式会社
まとめとして
bull 「テクノロジー」をどのようにとらえるかndash企業経営基盤のコア要素
ndashユーザの本質的な課題を解決する戦略的な武器
bull マーケットを牽引する「テクノロジ」に求められることndashテクノロジとHPCにおけるITインフラの関係を明確にすること
bull ユーザに何らかのメリットをもたらさない「テクノロジー」は意味を成さない
ndashテクノロジーを最適に組み合わせることで問題解決のためのソリューションの提供が可能
スケーラブルシステムズ株式会社
まとめとして
bull bdquoTs‟ for HPC - インテルテクノロジのHPCにおける価値
ndash インテルテクノロジはHPCにおいて重要な構成要素となっている
ndashそれらの構成要素を統合することでより高い価値の提供が可能となる
ndash二分化しつつあるHPCシステムにおいて「標準コ
ンポーネント」としてのプラットフォームの動向として今後もその動向には注目する必要がある
スケーラブルシステムズ株式会社
さらに詳しい情報はhellip
bull 弊社のコンサルテーションに関するご提案資料もダウンロード可能です(非公開WEBページ)別途弊社に内容等についてはお尋ねください
お問い合わせ先102-0083
東京都千代田区麹町3-5-2
BUREX麹町 8F
電話03-5875-4718
FAX03-3237-7612
E-mailbizsstccojp
httpwwwsstccojp wwwsstccojpbiz
スケーラブルシステムズ株式会社
スケーラブルシステムズ株式会社
ハイエンドコンピューティングに関するコンサルテーションとして幅広いサービスをご提供致します
このサービスを最大限に活用していただくことでコラボレーションによる「顧客志向」 のコン
サルテーションサービスをご提供できればと思っております
スケーラブルシステムズ株式会社
社名製品名などは一般に各社の商標または登録商標です無断での引用転載を禁じます
In general the name of the company and the product name etc are the trademarks or registered trademarks of each company
Copyright Scalable Systems Co Ltd 2005 Unauthorized use is strictly forbidden
2005年11月
スケーラブルシステムズ株式会社
まとめとして
bull 「テクノロジー」をどのようにとらえるかndash企業経営基盤のコア要素
ndashユーザの本質的な課題を解決する戦略的な武器
bull マーケットを牽引する「テクノロジ」に求められることndashテクノロジとHPCにおけるITインフラの関係を明確にすること
bull ユーザに何らかのメリットをもたらさない「テクノロジー」は意味を成さない
ndashテクノロジーを最適に組み合わせることで問題解決のためのソリューションの提供が可能
スケーラブルシステムズ株式会社
まとめとして
bull bdquoTs‟ for HPC - インテルテクノロジのHPCにおける価値
ndash インテルテクノロジはHPCにおいて重要な構成要素となっている
ndashそれらの構成要素を統合することでより高い価値の提供が可能となる
ndash二分化しつつあるHPCシステムにおいて「標準コ
ンポーネント」としてのプラットフォームの動向として今後もその動向には注目する必要がある
スケーラブルシステムズ株式会社
さらに詳しい情報はhellip
bull 弊社のコンサルテーションに関するご提案資料もダウンロード可能です(非公開WEBページ)別途弊社に内容等についてはお尋ねください
お問い合わせ先102-0083
東京都千代田区麹町3-5-2
BUREX麹町 8F
電話03-5875-4718
FAX03-3237-7612
E-mailbizsstccojp
httpwwwsstccojp wwwsstccojpbiz
スケーラブルシステムズ株式会社
スケーラブルシステムズ株式会社
ハイエンドコンピューティングに関するコンサルテーションとして幅広いサービスをご提供致します
このサービスを最大限に活用していただくことでコラボレーションによる「顧客志向」 のコン
サルテーションサービスをご提供できればと思っております
スケーラブルシステムズ株式会社
社名製品名などは一般に各社の商標または登録商標です無断での引用転載を禁じます
In general the name of the company and the product name etc are the trademarks or registered trademarks of each company
Copyright Scalable Systems Co Ltd 2005 Unauthorized use is strictly forbidden
2005年11月
スケーラブルシステムズ株式会社
まとめとして
bull bdquoTs‟ for HPC - インテルテクノロジのHPCにおける価値
ndash インテルテクノロジはHPCにおいて重要な構成要素となっている
ndashそれらの構成要素を統合することでより高い価値の提供が可能となる
ndash二分化しつつあるHPCシステムにおいて「標準コ
ンポーネント」としてのプラットフォームの動向として今後もその動向には注目する必要がある
スケーラブルシステムズ株式会社
さらに詳しい情報はhellip
bull 弊社のコンサルテーションに関するご提案資料もダウンロード可能です(非公開WEBページ)別途弊社に内容等についてはお尋ねください
お問い合わせ先102-0083
東京都千代田区麹町3-5-2
BUREX麹町 8F
電話03-5875-4718
FAX03-3237-7612
E-mailbizsstccojp
httpwwwsstccojp wwwsstccojpbiz
スケーラブルシステムズ株式会社
スケーラブルシステムズ株式会社
ハイエンドコンピューティングに関するコンサルテーションとして幅広いサービスをご提供致します
このサービスを最大限に活用していただくことでコラボレーションによる「顧客志向」 のコン
サルテーションサービスをご提供できればと思っております
スケーラブルシステムズ株式会社
社名製品名などは一般に各社の商標または登録商標です無断での引用転載を禁じます
In general the name of the company and the product name etc are the trademarks or registered trademarks of each company
Copyright Scalable Systems Co Ltd 2005 Unauthorized use is strictly forbidden
2005年11月
スケーラブルシステムズ株式会社
さらに詳しい情報はhellip
bull 弊社のコンサルテーションに関するご提案資料もダウンロード可能です(非公開WEBページ)別途弊社に内容等についてはお尋ねください
お問い合わせ先102-0083
東京都千代田区麹町3-5-2
BUREX麹町 8F
電話03-5875-4718
FAX03-3237-7612
E-mailbizsstccojp
httpwwwsstccojp wwwsstccojpbiz
スケーラブルシステムズ株式会社
スケーラブルシステムズ株式会社
ハイエンドコンピューティングに関するコンサルテーションとして幅広いサービスをご提供致します
このサービスを最大限に活用していただくことでコラボレーションによる「顧客志向」 のコン
サルテーションサービスをご提供できればと思っております
スケーラブルシステムズ株式会社
社名製品名などは一般に各社の商標または登録商標です無断での引用転載を禁じます
In general the name of the company and the product name etc are the trademarks or registered trademarks of each company
Copyright Scalable Systems Co Ltd 2005 Unauthorized use is strictly forbidden
2005年11月
スケーラブルシステムズ株式会社
スケーラブルシステムズ株式会社
ハイエンドコンピューティングに関するコンサルテーションとして幅広いサービスをご提供致します
このサービスを最大限に活用していただくことでコラボレーションによる「顧客志向」 のコン
サルテーションサービスをご提供できればと思っております
スケーラブルシステムズ株式会社
社名製品名などは一般に各社の商標または登録商標です無断での引用転載を禁じます
In general the name of the company and the product name etc are the trademarks or registered trademarks of each company
Copyright Scalable Systems Co Ltd 2005 Unauthorized use is strictly forbidden
2005年11月
スケーラブルシステムズ株式会社
社名製品名などは一般に各社の商標または登録商標です無断での引用転載を禁じます
In general the name of the company and the product name etc are the trademarks or registered trademarks of each company
Copyright Scalable Systems Co Ltd 2005 Unauthorized use is strictly forbidden
2005年11月