今日からはじめるメニーコアアクセラレータ · 2016. 6. 28. · faculty of...

１．１初めに１９９０年代のPCと言えば，CPUはi386（25 MHz）やi486DX2

（66 MHz），Pentium（166 MHz），PentiumII（300 MHz），メ

インメモリは 16 MB～256 MBが当たり前であり［１，２］，

１０００粒子程度のちょっとした�体シミュレーションを行

おうとすると，計算機センターに設置してあるスーパコン

ピュータを使わざるを得ず，長いジョブ待ち行列にうんざ

りしたものである．

その後，大学の１研究室レベルで保有可能なデスクトッ

プスーパコンピュータの時代が，１９９０年代後半～２０００年代

に到来する．重力やクーロン力といった相互作用力の計算

のみに特化した専用計算機（GRAPE/MDGRAPEシリー

ズ）により，１０４～１０５粒子のダイレクト・シミュレーショ

ンが現実的な時間で可能になった［３，４］．さらにその

後，２０１０年代にかけてGPUが一般的になり，PC１台分の大

きさの計算機で１TFLOPS＊１の計算速度を実現するのも

夢ではなくなった．

しかし，これらの専用計算機やGPUでは，それに特化し

たプログラミング言語（又は，API［Application Program-

ming Interface］）を用いてコードを作成する必要があ

る．すなわち，インテルやAMD製の CPUを搭載する PC

で動く並列コードは，そのままの形では，GPUなどで走ら

せることはできない＊２．

このように，ハードウェア環境ごとにプログラミングや

チューニングを行わなくてはならないのは，研究者にとっ

て本質的ではない．そこで，当研究室では，PC用の並列

コードを再コンパイルのみで超並列実行できる計算機，In-

tel� Xeon PhiTM コプロセッサ（以後，“アクセラレータ”

と呼ぶ）に注目した．

本章では，アクセラレータの特徴，および使い方につい

て簡単に紹介するとともに，非中性プラズマでのdiocotron

不安定性を例にとり，どの程度の規模のシミュレーション

が可能なのか解説をする．具体的な速度比較は次章で扱う

（図１）．

１．２アクセラレータの特徴，使い方アクセラレータは，PCIeバスに挿すボードとして提供さ

れ，サイズは一般的なGPUと同じである．６４ビット命令が

講座

１．メニーコアアクセラレータを研究室で使ってみよう

1. Let’s Use Many-Core Accerelator in Your Laboratory

八柳祐一１），田邊恵李１），堀越将司２）

YATSUYANAGI Yuichi１）, TANABE Eri１）and HORIKOSHI Masashi２）

１）静岡大学教育学部，２）インテル株式会社ソフトウェア＆ソリューション統括部

（原稿受付：２０１６年３月１８日）

大学の研究室レベルで保有可能でありながら，マッシブな（大規模シミュレーションが可能な）計算環境を提供してくれる Intel� Xeon PhiTM コプロセッサ（アクセラレータ）の紹介を行う．アクセラレータはGPU（Graphics Processing Unit）と同様に，PCIe バスに挿す形で提供される並列計算機である．本章では，アクセラレータの特徴，及び導入の仕方を解説するとともに，非中性プラズマシミュレーションを例として取り上げ，計算可能なシミュレーション規模を視覚的に示す．

Keywords:parallel computing, OpenMP, parallelize, vectorize, N-body simulation

＊１浮動小数点数の乗算などを１秒間に 1 T=1012 回計算する能力．

＊２近年，GPUと PC上でシームレスに動くようなAPI 環境も整備されつつあるが，性能を引き出すのが困難なため，あまり普及していない．

Faculty of Education, Shizuoka University, Shizuoka City, SHIZUOKA 422-8529, Japan

corresponding author’s e-mail: [email protected]

今日からはじめるメニーコアアクセラレータLet'sStart aNumericalSimulationTodayUsing theMany-CoreAccelerator

J. Plasma Fusion Res. Vol.92, No.6 (2016)４８２‐４８７

�2016 The Japan Society of PlasmaScience and Nuclear Fusion Research

４８２

実行可能なPentiumベースのCPUコアが６１個，コアあたり

４スレッド実行可能で，合計２４４並列の計算が可能である．

GPUなどの並列度を見慣れると，「２４４」並列というのは

少ない印象を受けるが，GPUのストリーミングプロセッサ

と異なり，アクセラレータのCPUコアは，PCに搭載され

るCPUコアと同様の能力を有する高機能なものである．各

コアでは５１２ビット長のベクトル演算が可能で，倍精度浮

動小数点数であれば８要素の同時計算が可能である．ま

た，理論上は１コアあたり２スレッド以上の並列度でピー

ク性能を達成することが可能である．

GPUとアクセラレータの最も大きな違いは，アクセラ

レータ内で独立したOSが稼働していることだろう．すな

わち，ホスト PCからは，LANで接続された計算サーバの

ように見える．一般的にGPUでは，初期化処理などをホス

トCPUで計算し，相互作用計算などの重たい計算部分のみ

をGPUにまかせる「オフロード」方式を採用する．このた

め，メモリバスに比べて低速な PCIe バス越しに大量の配

列データをやり取りせざるを得ず，いかにこの通信を減ら

すかがGPU上のプログラミングでの腕の見せ所となる．一

方，アクセラレータでは，重たい計算部分のみを「外注」す

るオフロード方式に加えて，アクセラレータに ssh などで

リモートログインし，アクセラレータ用にコンパイルされ

たプログラムをシェルから起動する，といった使い方がで

きる．すなわち，イメージとしては，計算サーバにsshでロ

グインし，そこでプログラムをコンパイルして走らせるイ

メージに近い．この場合，計算対象となるデータが PCIe

バス上を行き来するオーバヘッドがなくなるため，実行速

度面での恩恵が大きい．

アクセラレータを使い始めるための手順を簡単に示す

と，次のような流れになる．なお，当研究室で使用してい

るソフトウェア等の名称，およびバージョンは，以下のと

おりである．

OS：CentOS 6.6

コンパイラ：インテル Parallel Studio XE 2015 Com-

poser Edition for C++ Linux

MPSS（後述）：MPSS 3.4.2

以下では，この環境を前提に解説する．

１．アクセラレータを搭載したPCを購入する

アクセラレータには，メモリ容量とコア数によっ

て，５７コア＋６Gバイト，６０コア＋８Gバイト，６１コア

＋16 G バイトの３種類の製品が提供されている．アク

セラレータを動かすホストPCには，Xeonプロセッサ

が必須である＊３．

２．ホストコンピュータにOSをインストールする

アクセラレータを動作させるためのソフトウェア（デ

バイスドライバ等）は，Manycore Platform Software

Stack（MPSS）と呼ばれる．MPSS でサポートされる

OS（Linux，又はWindows）のバージョンには制限が

あるので，それに適合するOSをインストールする．

３．インテル製コンパイラをインストールする

アクセラレータ上で，Xeon プロセッサ用にコンパイル

されたバイナリがそのまま動く訳ではなく，アクセラ

レータ用にコンパイルし直す必要がある．gcc を用い

ることもできるが，現状ではパフォーマンスに問題が

あるので，インテル製コンパイラを使用するのが良い．

４．MPSSをインストールする

MPSS に添付されるREADMEファイルに従って作業

を進める．RPMパッケージの形式でドライバ群が提

供されるので，問題が発生することはほぼ無いと思っ

て良い．

５．MPSSの初期設定

MPSS のインストールが完了したら，

・初期化をして，アクセラレータ用のまっさらな

Linux 環境をホスト PC上に構築

・ユーザを追加

・ホスト PCとアクセラレータとのファイルの受渡し

のためのNFS（Network File System）を設定

などを，ホストPC側から micctrlコマンドを使用し

て行う．一般的なLinuxPCの管理を行った経験があれ

ば，１５分程度で作業は終了する＊４．なお，シェル上で

ホスト PC側からアクセラレータにリモートログイン

する際に，いちいちパスワードを入力するのは面倒な

ので，公開かぎ認証を用いてパスワード無しでログイ

ンできるようにしておくと便利である．

６．アクセラレータの起動

「アクセラレータの起動」とは，アクセラレータ用の

OSをアクセラレータ内で起動することを意味する．

ホストOSにサービスとしてMPSSが登録されている

ので，OS環境に応じて＊５，

# service mpss start

または，＊３ Core プロセッサでは動作が保証されていない．

＊４ NFSの設定の際にホスト PC側のファイアウォールの設定変更を忘れないように！

＊５ "#"は管理者権限（root）のプロンプト，"$"は一般ユーザのプロンプトを表す．

図１ PCに設置されたアクセラレータの様子．

Lecture Note 1. Let's Use Many-Core Accerelator in Your Laboratory Y. Yatsuyanagi et al.

４８３

# systemctl enable mpss

として，アクセラレータを起動する．概ね１分程度で

起動する．

７．プログラムの準備

OpenMP（どのように並列化するかをコンパイラに

指示する規約．次章参照）でコーディングされたソー

スファイル（今はC言語を仮定する）を準備し，イン

テル製のCコンパイラを

$ icc -mmic simulation.c -o simulation.x

と起動し，アクセラレータ用のバイナリを生成する．

コンパイル環境と実行環境が同一の場合，インテルコ

ンパイラは-xHOSTをオプションに指定することによ

り，当該システムのCPUのベクトル演算能力を最大限

発揮できるオプションを自動設定する．アクセラレー

タの場合は，-xHOSTの代わりに，-mmicを指定し，ア

クセラレータ用のバイナリを生成する．生成されたバ

イナリは，アクセラレータとNFSで接続されたディレ

クトリにコピーする．また，アクセラレータ内に存在

しない共有ライブラリもあるので，lddコマンドを使

用し，足りない共有ライブラリを調べ，それらのファ

イルもホスト PCからバイナリが置かれているディレ

クトリにコピーする．

８．実行

アクセラレータに ssh でリモートログインし，先ほど

コピーしたファイルを実行する．Linux のシェル上で

普通にプログラムを起動するのとまったく同じである．

$ ./simulation.x

以上が，アクセラレータの導入，およびシミュレーション

の実行過程の概要である．OpenMPでコーディングされた

コードを持っているのであれば，GPUよりも気軽に始めら

れる点を，改めて強調したい．

１．３シミュレーション例ここでは，非中性プラズマに対応した点渦系シミュレー

ションの紹介を行う．点渦系は，渦度方程式（６）を粒子の

集合体で離散化するモデルの一つであり，計算機シミュ

レーションでもよく使われる技法である．本節では，アク

セラレータを使用すると，どの程度のN体シミュレーショ

ンが可能になるのか，視覚的に示す．シミュレーション速

度に関する定量的な評価は，次章に掲載する．非中性プラ

ズマ実験に関する解説は［５］と重なる部分もあるが，読者

の便宜のため，特に点渦系との対応に関する部分のみ，こ

こで解説する．

１．３．１非中性プラズマと点渦シミュレーション

プラズマの電気的中性条件を破ったプラズマが非中性プ

ラズマであり，最も極端な例の一つが電子のみから構成さ

れた純電子プラズマである［６］．電子プラズマを閉じ込め

る装置としては，円筒真空容器の軸方向に磁場，軸方向両

端に負電位を印加するPenning-Malmbergトラップが使わ

れる．

軸方向に印加された磁場，および電子と導体壁との間の

誘導電場中に置かれた電子の運動方程式は，電子の質量を

��，負号をつけた素電荷を��とすると，

��

�� （１）

と書ける．高周波のサイクロトロン運動を落とすため，左

辺の時間微分を落とし�について整理すると，

��

��

��

（２）

を得る．ここで，円筒容器の軸方向を�軸にとり，磁場を

�方向の単位ベクトル��を用いて��とした．さらに，

電場を静電ポテンシャルを用いて��とすると，

��

（３）

が得られる．この式の形と２次元流に対する流れ関数の形

との類推から，

・サイクロトロン運動を無視した電子の流れは，非圧縮

（��）である

・静電ポテンシャル�と流れ関数�には，��なる

比例関係が成り立つ

ことがわかる．（３）式の rot をとると，渦度を��として，

��

��

��

�� （４）

となる．ここで，最後の式変形で，Poisson 方程式を使っ

た．�は電子の数密度である．この式から，

・渦度��は，電子の数密度�に比例する

ことが分かる．これにより，電子の輝度分布を測定するこ

とは，すなわち，渦度を測定することと同等となる．さら

に，電子の数密度は空間中での生成消滅がないので，連続

の式

��

�� （５）

を満たす．この式の両辺に��をかけると，

�� （６）

なる渦度方程式が得られ，電子の数密度�の時間発展方程

式は，２次元非圧縮非粘性のEuler 方程式と同等であるこ

とが示される．

Journal of Plasma and Fusion Research Vol.92, No.6 June 2016

４８４

以上より，サイクロトロン運動を無視した電子の運動を

数値的に追跡するためには，（６）式を解けば良いことがわ

かる．このために，点渦法を用いる．点渦法は，渦度を

Dirac のデルタ関数��で離散化する．��，��は，�番目

の点渦の位置ベクトルと循環（強度）である．

��

�� （７）

��の時間発展方程式は，以下のBiot-Savart積分によって与

えられる．これは，（７）式を（６）式に代入すると得られ

る．

��

��

��

��

��

��

�� （８）

なお，ここで半径�の円筒境界の効果を��

�

に置いた鏡像渦で取り入れた．（８）式の和は，全点渦に関

してとる．つまり，すべての点渦に対する��を求める

ためには点渦数の２乗に比例する時間計算量を必要とする

ため，１０００粒子を超えるシミュレーションとなると，速い

計算機を使いたくなってくる．我々は，このBiot-Savart

積分を高速に計算できる計算機として，Intel� Xeon PhiTM

コプロセッサ（アクセラレータ）を選択した．

１．３．２結果

ここでは，アクセラレータを使用して，どの程度の規模

の点渦シミュレーションが可能か，視覚的に提示する．具

体的な計算速度等は，次章で解説する．

非中性純電子プラズマで見られる有名な不安定性に，

diocotron 不安定性がある．Kelvin-Helmholtz 不安定性と

言った方が通りが良いかもしれない．磁場に垂直な断面内

で電子の初期分布がドーナツ形状＊６をしていると，シア流

（せん断流）により，ドーナツは幾つかの塊に分裂する．

ドーナツが分裂する塊の個数（線型不安定なモード）など

は線型安定性解析により細かく調べられており，シミュ

レーションが定性的／定量的に正しい計算を行っているか

チェックする対象として最適なので，ここでは diocotron

不安定性に関するシミュレーション結果を掲載する．

点渦シミュレーションのパラメータを表１に示す．ドー

ナツの外側半径と１点渦あたりの循環，点渦の数密度を一

定にして，ドーナツの内側半径をパラメータとした．時間

発展は，（８）式で追跡する．長さの単位は，壁半径��で規

格化している．特徴的時間スケールについて，24.7 という

値は，半径��の円内にドーナツと同じ数密度で点渦を

一様に配置した渦塊の自転周期から求めた．時間発展は，

この自転周期と同じ時間刻みで，��まで行う．すなわ

ち，全シミュレーション時間中に渦塊は８回程度自転運動

する．

時間発展結果を図２（内側半径＝��），図３（内側半

径＝��）に示す．図２では，��頃にドーナツが崩れ

始め，モード３が励起されたのち，��には熱平衡分布

を目指し，中央にピークを持つ一山分布へと遷移し始め

る．その後，少しずつ，軸対称な分布を目指して緩和を続

ける．一方，図３では，図２と同様に，��頃にドーナ

ツが崩れ始め，モード６が励起される．これを渦結晶配位

と呼ぶ．その後，すぐに熱平衡分布をめざすのではなく，

しばらく六つの渦塊が対称的な配位を保ったまま公転を続

ける．その後，��での右下の渦塊群のように，ある二

つの渦塊のすそ野同士の接触事故がおこると，渦塊同士の

融合が起こり，６→５→４→…と渦塊数が減少し続け，一

山分布の熱平衡解を目指す．しかし，��以降，一旦，

渦結晶配位に比べて軸対称性が高い配位に落ち着くと，緩

和速度が遅くなり，十分緩和が進む前にシミュレーション

は終了する．

線型不安定性解析では，壁半径，ドーナツの外側，及び

内側半径から線型不安定なモードを決定することができ

＊６３次元的にはちくわ状である．ちくわを包丁で切った断面がドーナツ形状になる．

ドーナツの外側半径��

ドーナツの内側半径�� ，��鏡像点渦を除いた実点渦数６１４１，３３８２

特徴的時間スケール�� 24.7

表１シミュレーション設定．

図２時間発展結果．ドーナツの内側半径＝0.3R0の場合．


４８５

る＊７．シミュレーション設定に対応した線型不安定なモー

ドを不安定な順に列挙した結果を，表２に示す．表２から，

図２での最も線形不安定なモードは３であり，この結果を

見る限り，定量的に正しい計算を行っている証拠の一つと

なる．しかし，図３での最も線形不安定なモードは５にな

るはずだが，シミュレーションではモード６が現れてい

る．このような現象は，初期の点渦配置で，周方向の点渦

数が，たまたま６の倍数になっていたりすると現れること

がある［７］．乱数を用いて特定のモードにエネルギーを注

入しないように注意をしないと，このような問題が発生す

ることを，教育的な例として指摘したい．

図２，３に掲載したシミュレーションの実行時間は，そ

れぞれ５１８分，１８３分である．本シミュレーションでは，境

界条件を鏡像渦により表現しているため，Biot-Savart 積分

で加算を行う粒子数は，それぞれ２倍の１２２８２粒子，６７６４粒

子である．長年，専用計算機MDGRAPEシリーズで点渦シ

ミュレーションを行ってきた経験からすると，N体シミュ

レーション研究に十分耐えるだけの速度が実現されている

と感じる．

さらに，物理的に正しい結果を得ていることの確認のた

め，上記時間発展結果に対して，�関数の時間発展を追跡

した結果を図４に示す．有限個の正方格子で点渦の配位空

間を区切り，�番目のセルに含まれる点渦数を��で表すと，

�関数の値は次式で与えられる．

��

�� （９）

�関数の一般的性質として，その値は時間と共に広義単調

減少し，熱平衡に達した段階で��となる．また，準

安定状態などに系がトラップされても，��となる

ため，系が現在どのような状態にあるのか，系の緩和に関

する貴重な情報源となる．図２のシミュレーションに対応

する�関数の時間発展は，��前まで，ほぼ一定値を

保っているが，その後単調減少する．これは��以降の

軸対称性が高い分布において，熱平衡状態へ向けた緩和が

進んでいることを表している．一方，図３のシミュレー

ションに対応する�関数の時間発展は，��程度で値が

減少するが，すぐに一定値を保つようになる．これは，準

安定な渦結晶配位に留まっていることを表す．その後，値

が減少に転じているのは，渦結晶配位が崩れ，熱平衡状態

への緩和が進んでいることを表す［８］．

１．４まとめ本章では，アクセラレータの特徴，および使い方につい

て簡単に解説を行うと共に，どの程度の�体シミュレー

ションが可能であるか，視覚的に示すことを目的として，

非中性プラズマ実験に対応した点渦シミュレーションの結

＊７ Davidson の教科書［６］に掲載されている線型不安定性解析では，電子分布の内側にも導体壁がある，すなわち，２重連結領域内に電子群を閉

じ込めるような設定を許容しているが，今回のシミュレーションでは内側には導体壁が存在しないので，上記三つのパラメータのみに依存す

る，と書いている．

内側半径� 線型不安定なモード

�� 3，2

�� 5，4，6，3，2

表２線型不安定なモード．

図３時間発展結果．ドーナツの内側半径＝0.4R0の場合．

図４ H関数の時間発展．

Journal of Plasma and Fusion Research Vol.92, No.6 June 2016

４８６

��

��

��

��

��

��

果を例示した．これから，境界を表現する鏡像粒子込みで

数万粒子程度の点渦シミュレーションであれば，アクセラ

レータにより十分実行可能であることがわかる．地方国立

大学の１研究室レベルで保有可能なマッシブな計算環境と

してGPU以外の選択肢が増えたことは良いことだろう．

参考文献［１］SE編集部：僕らのパソコン３０年史（翔泳社，東京，

２０１０）．

［２］坪山博貴：CPUの謎（ソーテック，２００５）．［３］伊藤智義：スーパーコンピューターを２０万円で創る

（集英社（新書），２００７）．［４］杉本大一郎（編）：専用計算機によるシミュレーション

（朝倉書店，１９９４）．［５］際本泰士：プラズマ・核融合学会誌 77, 338 (2001) .［６］R.C. Davidson, Physics of Nonneutral Plasmas (Addison-

Wesley, Redwood city, CA, 1990).［７］Y. Yatsuyanagi et al., Phys. Plasmas 10, 3188 (2003).［８］Y. Yatsuyanagi et al., J. Phys. Soc. Jpn. 84, 014402 (2015).

やつやなぎゆういち

八柳祐一

静岡大学教育学部准教授．主な研

究分野：GPUや Xeon Phi などの

小さくても速いコンピュータを駆

使したシミュレーション研究．特

に，長距離相関に支配されたN体系の自己組織化に興味があ

ります．２０１１年７月号小特集の時のように我が子との写真を

掲載したかったのですが，このアイデアは子どもたちにより

ゴミ箱へダンクシュート…．やむなく，ガ○プラと．

ほりこしまさし

堀越将司

インテル株式会社，シニアアプリケーショ

ンエンジニア．大阪大学大学院工学研究科

博士課程修了後，２００６年から現職．これま

でHPCの分野でスーパーコンピューター

向けに ISVや製造業，大学，研究所のアプリケーションの

並列化，最適化およびベンチマークに従事してきた．

たなべえり

田邊恵李

兵庫県立大学シミュレーション学研究科前

期博士課程基盤研究室所属１年．学部の卒

論では，Xeon Phi を用いて非中性プラズマ

の緩和過程に関するシミュレーションを点

渦モデルにて行った．今年，遂に母が結婚した歳に自分が達

し，就職活動と同レベルの焦りとプレッシャーを感じている．


４８７

今日からはじめるメニーコアアクセラレータ · 2016. 6. 28. · faculty of...

Documents