最近のスーパーコンピュータの 技術動向について -...

6
最近のスーパーコンピュータの 技術動向について 佐藤 三久 理化学研究所 計算科学研究機構 資料2 目次 Top500の動向 米国の動向 中国の動向 国内・欧州の動向 高性能計算向けプロセッサの開発動向 高性能メモリの開発動向 要素技術の動向・その他 理研AICSの最先端アーキテクチャ研究への取り 組み 1

Upload: others

Post on 21-Feb-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 最近のスーパーコンピュータの 技術動向について - …...最近のスーパーコンピュータの 技術動向について 佐藤三久 理化学研究所計算科学研究機構

最近のスーパーコンピュータの技術動向について

佐藤 三久

理化学研究所 計算科学研究機構

資料2

目次

Top500の動向米国の動向

中国の動向

国内・欧州の動向

高性能計算向けプロセッサの開発動向

高性能メモリの開発動向

要素技術の動向・その他

理研AICSの最先端アーキテクチャ研究への取り組み

1

Page 2: 最近のスーパーコンピュータの 技術動向について - …...最近のスーパーコンピュータの 技術動向について 佐藤三久 理化学研究所計算科学研究機構

Top500の動向 (1)

2

Top500: 全世界のスパコンの性能をLinpackと呼ばれるプログラムでランキングしたもの。例年6月と11月に更新される。http://www.top500.org

Top500から、近年のスパコンの進歩の停滞が指摘されている。

性能の伸びが、これまでの年率1.9%から1.2倍に。2014年11月(SC14)のリストでは、1位から9位までは変化がなかった。Top500に新規に入るシステムの数が激減(これまでの200~150システムから80程度に)2010年頃までは上位50~70システムの性能合計が全システムの性能合計の半分を占めるという状況であった。しかし、このところ上位10~30システムで半分を占めるという状況に。

参考:http://news.mynavi.jp/articles/2014/12/10/sc14_top500bof/http://www.cnet.com/news/top500-supercomputer-race-hits-a-slow-patch/

伸びがslow-down

top500の動向 (2)

システムの性能の伸びに比べ、プロセッサの性能は伸びていない。

性能は、プロセッサの個数の増加(大規模化)、アクセラレータ(メニ・コアを含む)による。

プロセッサ自体の性能は伸びが鈍っている。Intel メニーコア、NVIDA GPU等の最新プロセッサのデリバリの遅れ。ムーアーの法則のスローダウン

大規模化により、電力性能の重要性が顕著になっている

Top10システムでは2000GFlops/kW程度になっているのに対して、Top50システムでは1500GFlops/kW、Top500システム全体では1000GFlops/kWとTop10に比べて半分の効率でしかない。

米国、中国、日本で、2015年から2017年頃に、数10~数100PFlops級のスパコンの設置計画あり、現在のスローダウンは一時的なものであるという見方もある。

国別のシステム数では、米国がほぼ半分の46%を占め、中国が12%。日本、英国、フランス、ドイツの各国が5~6%。Top500は主にCPU性能のみで、ワークロードを反映していないという意見から、HPCGやgraph500での評価にも興味が集まっている。

3

Page 3: 最近のスーパーコンピュータの 技術動向について - …...最近のスーパーコンピュータの 技術動向について 佐藤三久 理化学研究所計算科学研究機構

米国の動向 ~エクサスケールに向けての計画~

Exascale Deliveryは、2023年末(SC14での発表)2011年より、3つのExascale Co-Design Center(LANL, ANL, SNL)に設置された。FastForward Phase2(2014年7月~):2020年~2023年の製品化時期を想定したノードアーキテクチャとメモリ技術への研究開発への企業へのファンデング、1億ドル規模。Phase1は、2012年から、2年。Design Forward: ネットワークを対象。2013年から。X-stack:プログラミングモデル

ランタイムなどのCSの研究開発。2012年から。

2015: Preliminary Conceptual Design for an ExascaleComputing Initiative (ECI)が進んでいる模様

4

Bill Harrod、http://wallaby.aics.riken.jp/isp2s2/program/

米国の動向 ~システム設置の計画~

Cori (LBNL, NERSC-8) 2016Xeon Phi (KNL)ベースのシステム。Crayが受注。ノード性能3~3.5TFとすると、全体性能は約30PF

Trinity (NNSA) 2016これもCayが受注。

CORAL (Collaboration of Oak Ridge, Argonne and Livermore)

5

運用開始 2016年半ば

CPU Architecture Knights Landing

Peak Performance 3TF/Node以上

Number of Node 9,300 Node以上

I/O Bandwidth 400 GB/sec以上

Storage 28 PB

Price 70 M$ (70億円)

Aurora(ANL)

Summit(ORNL)

導入年 2018 2017-2018システムピーク性能(PF) 180 150電力(MW) 13 10

電力あたり演算性能(GF/W)

13.8 15.0

CORALシステムの概要• 米国の購入コストおよびGF/Wの計算にはストレージシステムも含まれている。1ドル120円計算。

• 電力あたり演算性能はGF/Wはピーク性能/ピーク電力で計算している。ピーク性能に対する消費電力は公表されていない。

Coriシステムの概要Priceは全体予算。1ドル100円換算

米国スパコンの情報は以下の情報から• http://www.datacenterknowledge.com/archives/2015/04/15/doe-taps-intel-cray-to-build-worlds-fastest-supercomputer/• http://www.hpcwire.com/2015/04/09/argonnes-200-million-supercomputing-award/• http://www.hpcwire.com/2015/02/04/obamas-2016-budget-request-holds-clues-exascale/• https://asc.llnl.gov/CORAL/

Summit (ORNL, LLNL) 2017~2018IBMが受注。NVIDIAとMellanoxとともに、Power9とVolta (Maxwellの次の世代のGPU)によるノードをInfinibandネットワークで結合したシステム。Power9とGPUは、NVIDIAの専用リンクであるNV-Link(80~200GB/s)で結合。ノードの性能は、40TFの計算性能で、ノード数は3400。40TFの性能のためには、ノードあたりのGPUの個数が、6~8個と予想される。

Auroa (ANL) 2018Intelが受注。KNLの次の世代のメニーコアプロセッサKNH(Knights Hill) を、IntelのインターコネクトOmniPath2で結合したシステム。

システムのインテグレーションは、Cray

Page 4: 最近のスーパーコンピュータの 技術動向について - …...最近のスーパーコンピュータの 技術動向について 佐藤三久 理化学研究所計算科学研究機構

Tianhe-2: 現在、top500 1位のシステムノードは、Intel XeonにXeon Phi(KNC)を結合したもの。インターコネクトは独自開発され、改良されている(MPI通信性能: 5GB/s ⇒12 GB/s、低遅延化および複数RDMA engine搭載、バリア同期高速化等)利用状況:N-body, CFD, Large-scale SNP(single nucleotide polymorphism), NEMO5などの利用例が紹介されている。クラウド利用も。

中国の今後

国家三大主体計画(863計画、 973計画、科学技術支援計画)の統合863計画:ハイテク産業技術の開発を目的とした応用技術研究開発プログラム。1986年3月に実施が決定されたことから863計画と呼ばれる973計画:将来の発展に役立つ基礎研究の強化を目的としている。1997年3月に実施が決定されたことから、973計画と呼ばれる。

2015-2016 A transit periodWhether or not HPC will be a key is still open

ということで今後の計画は決まっていないもよう

中国の動向中国の今まで

2002-2005: High Performance Computer and Core Software2006-2010: High Productivity Computer and Service Environment2010-2016: High Productivity Computer and Application Service EnvironmentTianhe-2 and Sunway-NG (Shenwei processorを使う?)

6

米商務省12日までに中国が保持する世界最速級のスーパーコンピューター2基が核爆発関連の研究に活用されていたことが判明したとして、米半導体大手の「インテル」と「エヌビディア」の2社に対しスパコン運営に携わる中国の4つの技術センターへのチップなどの輸出を禁止したことを明らかにした。

http://www.cnn.co.jp/business/35063042.html

2015年4月12日の記事

国内・欧州の動向

3代目地球シミュレータhttps://www.jamstec.go.jp/es/jp/info/150601_es.html 2015年6月から運用開始NEC SX-ACE, 1.3PFLOPSとなり、メモリ容量は16倍の320TB東北大、阪大でもSX ACEが稼動

7

Post T2K (東京大情報基盤センター・筑波大計算科学研究センター)両大学が、単一システムを柏キャンパスに共同設置

Intel Xeon Phi (KNL)ベースのシステムの導入を計画、20PF~30PFプロセッサのデリバリが遅れ、導入は2016年にずれ込む見込み

Tsubame3 (東工大学術国際情報センタ)資料招請「クラウド型ビッグデータグリーンスーパーコンピュータ」 2015年2月

欧州ESSI2 : The European Exascale Software Initiative

MontBlanc – ARMベースの省電力スパコンDEEP – メニーコア用のインタコネクトテクノロジの開発

システムについては、目立った動きはなし。

Page 5: 最近のスーパーコンピュータの 技術動向について - …...最近のスーパーコンピュータの 技術動向について 佐藤三久 理化学研究所計算科学研究機構

HPC向けプロセッサの開発動向Intel

次のメニーコアプロセッサXeon Phi KNLAVX512とコアアーキテクチャを強化MC-DRAM(fast memory)とDDR4を持つ。Deliveryが遅れている。(当初、2015年初め)

次は、KNH, ANLのAurora向け

NVIDIA次のGPU Pascalを発表

HBMを搭載。CPUと高速に通信を行うNV-LinkDeliveryは、2016年後半(16nm FFテクノロジ利用)

次は、Volta, ORNLのSummit向け

ARMARMの64ビット版Aarch64を開発サーバー市場を狙う。

IBMPower8を発表。主にサーバー用。Powerアーキテクチャを公開するコンソーシアムOpenPowerを組織

AMDプロセッサはARMも発表GPUは、HBMを使ったものを発表

FujitsuFX100のプロセッサ SPARC64 XIfx(11fx) 8

http://vr-zone.com/articles/xeon-phi-

knights-series-continues-landing-2015/64112.html

Xeon Phi(KNL)のアーキテクチャ

NVIDIA GPUのロードマップhttp://www.hpcadvisorycouncil.com/events/2014/brazil-

workshop/preso/4_NVIDIA.pdf

高性能メモリについての動向

HMC (Hybrid Memory Cube)現在、Gen1が富士通のスパコンFX100に用いられており、実績がある。他にもネットワーク機器にもちいられている。

短距離のSerDesで接続。Gen2では、30 Gbps x 16 lane = 60GB/s x 2 (送信・受信)4 Linkまで規格がある。8 lane x 15Gbpsで、性能(電力)を1/4まで落とすことが可能。容量は、Gen2では8GB/chip。大容量にはならない。SerDesを用いるために定常的に電力を消費する。HMC Gen2 1つあたり、3~4W程度を消費する。電力制御が重要。

通常の基板上に配置できるために、インターポーザ不要、リペアが可能で、コストが比較的低い

HBMHBM2 256GB/s (2Gbps/link) 2016年あたりから。 HBMのチップ自体は利用可能になる見込みが高い。インターポーザについては、まだ、決定的なものはない。バンド幅は0.5~1 TB/sであるが、インターポーザが必要。シリコンは確実であるが、大面積チップは難しい。有機、ガラスが検討中。

リペア技術がないために、欠陥損が大きい。

チップあたりの容量は、4~8GB, インターポーザに乗せることができるのはぜいぜい4コ。最大16~32GBは、メインメモリとしては厳しい。GPUのメモリであれば、十分だが。

DDR42018年で、DDR4-3200。チャネルあたりのバンド幅は、34.1GB/s. 6チャンネル(たとえばKNL)でも200GB/s. 数TFのチップには低すぎる。

サーバーではむしろ、容量が問題。128GB/DIMMも現われている。

NVRAMFlushメモリはまだまだ改善されており、この進歩が止まらない限り、商用的にはまだまだ。但し、IntelがNVRAMを投入する噂があり。

9

Page 6: 最近のスーパーコンピュータの 技術動向について - …...最近のスーパーコンピュータの 技術動向について 佐藤三久 理化学研究所計算科学研究機構

要素技術の動向・その他

16FF, 10FFの動向 (FF: FinFET)16nmから、縦型構造のトランジスタFinFETになる。FFになると、リーク電流が小さくなる(が、dynamic電流は大きい?)工程の複雑化により、トランジスタあたりの単価が下がらなくなった。また、製造期間が長くなった。

TSMCでは、ようやく2016年にかけて16FFの製品が出る(NVIDIAのPascal)。2016年には、10FFのtape-outを受け付ける。Global Foundries, Samsungは、14nmFinFETを生産を開始。2015年4月

http://ggsoku.com/2015/04/globalfoundries-14-nanometer-finfet-sonn-launching/

ネットワーク

InfiniBandは、現在のところ、EDR (Enhanced Data Rate) 20Gbps/lane, つぎは、HDR (High Data Rate)Intelはチップ内蔵のインターコネクトOmni Pathを発表。OmniPath2 (2017年?)で、本格化(Auroaで使用予定)。同時に、Xeon Phi KNLのチップから直接ファイバーを出すKNL-Fを予定。

10

FPGA (書き換え可能回路)IntelがFPGA大手Alteraを買収

http://techon.nikkeibp.co.jp/article/MAG/20150610/422589/プロセッサとFPGAの統合。IoT, ネットワーク処理?ポストムーア向けか?

専用回路による高性能化、低電力化を目指すが、現時点ではコストが問題

Mellanoxが、FPGA搭載のネットワークアダプタを発表

http://www.mellanox.co.jp/news/press20141120_MLNX_FPGA_ConnectX-3_SC14.htmネットワークからのパケットを直接ストリーム処理。

専用マシン(主に分子動力学分野)

Anton2MD-GRAPE 5(?)@理研

理研AICSにおける最先端アーキテクチャ研究への取り組み

11

将来に向けた2つの方向: コア数を増大させる⇒超メニーコア、ノード(コア)の性能を上げる⇒演算加速機構

AICS・日立・筑波大共同研究「次世代演算加速機構の研究」筑波大HPCI-FSのフォローアップ計画書から:「半導体微細加工技術の限界が近づきつつある中で、演算加速機構は計算機システムの演算性能・対消費電力性能の向上のために有望な技術の一つである。本共同研究では、将来の高性能計算技術及び計算科学の推進に必要な次世代の演算加速機構について、基本アーキテクチャからシミュレータによる詳細設計、プログラミングモデルおよびプログラミング環境、既存および新規アプリケーションについての検討を行い、その有効性について検証する。」

筑波大&日立:アーキテクチャの改良、理研:ソフトウエア、プログラミングモデル、日立:アプリケーション

マスタプロセッサ

ホストプロセッサ データ

メモリ命令メモリ

通信バッファ

通信バッファ

通信バッファ

結果縮約ネットワーク

PE PE PE PE

PE PE PE PE

PE PE PE PE

PE PE PE PE

通信バッファ

加速プロセッサ間

ネットワーク

放送

メモリ

放送

メモリ

放送

メモリ

放送

メモリ

PACS-G プロセッサチップ

GM (グローバルメモリ)

LM LM LM LM

LM LM LM LM

LM LM LM LM

LM LM LM LM

AICS・ExaScaler/PEZY共同研究「超メニーコア・アプリケーションの評価」ExaScaler/PEXY Computing: スパコン向け超メニーコアおよび冷却技術を開発するベンチャー企業

Suiren (KEKに設置のプロトタイプ)で、Green500で2位(4.95GFLOPS/W(186TFLOPS時)@2014年11月超メニーコアプロセッサPEZY-SC (1024PE), フレオンによる冷却技術(ExaScaler社)

PEZY の超メニーコアのアプリケーションでの性能評価、チューニングをして

いくことで超メニーコア向けの知見を得る

KEKの他、理研情報基盤センター@和光にプロトタイプを設置。

この共同研究で理研AICSにも

プロトタイプを設置を計画

筑波大FSのプロトタイプPACS-G

超メニーコアプロセッサPEZY-SCの概略(Coolchips2014の発表から)

ExaScaler社の冷却技術(PCクラスタコンソーシアム、

PCクラスタワークショップin大阪2015から)