gpuを用いた大規模シミュレーションと可視化csed.sakura.ne.jp/wp-content/uploads/2014/09/onodera.pdf ·...

GPUを用いた大規模シミュレーションと可視化

小野寺直幸、青木尊之、下川辺隆史、杉原健太東京工業大学学術国際情報センター

計算科学技術部門セッション「シミュレーション可視化技術の最前線」

発表内容• 研究背景と研究目的 • 大規模計算に適した計算手法と可視化

• スーパーコンピュータ TSUBAME を用いた計算コードの性能測定 • 計算結果 • 東京都心部気流計算 • 車体周りのラージエディ・シミュレーション • 卓球競技におけるピンポン球の飛翔計算 • 気液二相流計算

• まとめ

複雑物体周りの Large-eddy simulation 2009年～ GTX285(2GBMem) 160x160x256, 4 GPU

研究概要・Large-eddy simulationによる乱流解析・Graphics-processing unit(GPU)を用いた大規模並列計算

http://www.top500.org/lists/2014/06/

GPUとCPUの比較NVIDIA Tesla K20X

演算性能 1.31 TFlops (倍精度)

3.95 TFlops (単精度)

メモリバンド幅 250 GB/sec

メモリ量 6 GB (GDDR5)

CUDA コア数 2688 個

Intel Xeon E5-2697 v2

演算性能 0.52 TFlops (倍精度)

メモリバンド幅 59.7 GB/sec

メモリ量 128 GB (DDR3)

コア数 2 個 (24コア)

CUDAコア CPUコア

差分法による非圧縮流れの解析• 非圧縮性 Navier-Stokes 方程式 • 速度・圧力の時間発展方程式を計算

xixi−1 xi+1

yj+1

yj−1

yjpi,jui− 1

2 ,j

vi,j− 12

スタッガード格子配置

u�i = uni +

��

�uni un

j

�xj+

1Re

�2uni

�x2j

� ��ij

�xj

��t

�2pn+1

�x2i

=�u�i�xi

un+1i = u�i �

�pn+1

�xi�t

メモリのRead/Writeが頻発し計算効率が悪化

• ボルツマン方程式 • 有限個の方向を持つ速度分布関数の時間発展方程式を計算

格子ボルツマン法による流体解析

D2Q9モデル D3Q19モデル

fi(x + ci�t, t + �t) = fi(x, t)� 1�

(fi(x, t)� feqi (x, t))

方程式がシンプルで計算効率が良い

東京工業大学　青木先生の講義資料より抜粋

Rooflineモデルを用いた理論性能

FDM≒1

NVIDIA M2050

Improved Roofline Modelでの理論性能

LBM≒2

差分法と格子ボルツマン法の演算密度の比較• 差分法による非圧縮性流れの解析(FDM)

• 格子ボルツマン法による流体解析(LBM)

u�i = uni +

��

�uni un

j

�xj+

1Re

�2uni

�x2j

� ��ij

�xj

��t

�2pn+1

�x2i

=�u�i�xi

un+1i = u�i �

�pn+1

�xi�t

fi(x + ci�t, t + �t) = fi(x, t)� 1�

(fi(x, t)� feqi (x, t))

一般的に、格子ボルツマン法は差分法と比較して演算密度が高いため、高い演算性能を得ることが可能

行列の反復計算を含む問題での計算速度の悪化

0

1

2

3

4

5

6

7

8

0 50 100 150 200 250 300 350Ti

me

(s/s

tep)

Number of GPUs

N=1283 / GPU

6億7千万格子 (320GPUs)

⇒1億格子

⇒2億格子 (96GPUs)

⇒4億格子 (192GPUs)

１ステップあたりの計算時間気液界面の撹拌計算

気液界面（VOF = 0.5）

問題サイズが大きくなるに従って、Poisson方程式の反復解法の収束性が悪化し、計算速度が低下

乱流の計算手法の分類

モデル特徴計算負荷解析精度・解像度

DNS すべての変動を計算大高い

・非常に多くの格子点数が必要

LES 格子解像度以下の成分をモデル化中

中～高い・格子解像度を増やすことでDNSに近づく

RANS 変動成分をモデル化小

低い・幅広い現象が計算可能である反面、精度が低い・モデルの影響が大きい

ラージエディ・シミュレーション• フィルター化されたNavier-Stokes方程式物理量を格子で解像できる成分(GS)と格子解像度以下の成分(SGS)に分割し、SGS成分をモデル化

• 渦粘性モデルによるSGS応力 SGSのエネルギー散逸を分子粘性と同様にモデル化

Sij =12

✓@uj

@xi+

@ui

@xj

◆

= �2⌫SGSSij

⌧ij = uiuj � uiuj

u = u + u0

@ui

@t

+@uiuj

@xj= � @p

@xi+

1Re

@

2ui

@x

2j

� @⌧ij

@xj

SGSGS

エネルギー散逸

コルモゴロフの相似則

ラージエディ・シミュレーションの乱流モデル Smagorinsky モデル、Dynamic Smagorinsky モデル

• Smagorinsky モデル幅広く使われる代表的なSGSモデル。モデル係数の値を一定値とするため、経験が必要

⌫SGS = C42|S|

• Dynamic Smagorinsky モデル物理量に二種類のフィルターをかけることで、動的にモデル係数が決定可能

C =< LijLij >

< MijMij >

Lij = duiuj � ˆui ˆuj

Mij = 242 d|S|Sij � 2 ˆ42| ˆS| ˆSij

⌫SGS = C42|S| ○ 壁などの物体に対しても適用可能 △ 計算が煩雑 △ 全計算領域での平均化が必要　→複雑物体周りの流れに適用できない　→大規模計算に不向き

: 計算領域全体での平均操作

○ 計算がシンプル △ モデル係数が一定(定数値)なため、　壁面近傍などで精度が低下 △ モデル係数の決定に経験則が必要

：定数

ラージエディ・シミュレーションの乱流モデル Coherent-structure Smagorinsky モデル

• Coherent-structure Smagorinsky モデル速度勾配テンソルの第二不変量を局所的に求めることで、渦粘性係数を決定

○ 渦粘性係数を局所的に決定可能　→複雑物体周りの流れに適用可能　→局所的なメモリアクセスのため大規模計算に適している

⌫SGS = C42|S|

C = C1|FCS |3/2 FCS =Q

E

速度勾配テンソルの第二不変量(Q)とエネルギー散逸(ε)

• Boltzmann 方程式

格子ボルツマン法によるラージエディ・シミュレーション

streaming(並進移動) collision (衝突・減衰)

fi(x + ci�t, t + �t) = fi(x, t)� 1�

(fi(x, t)� feqi (x, t)) + Fi

forcing term (外力)

� =3��c2�t

+12

(粘性 = 分子粘性＋渦粘性)�� = �0 + �SGS

(LBMの緩和時間)

• サブグリッドスケールモデルの適用渦粘性モデルでは、SGSの効果を分子粘性と同様に表現

平行平板間乱流の速度勾配テンソルの第二不変量

格子ボルツマン法での物体境界面の表現手法• Interpolated bounce-back法壁面上で鏡面反射条件を与え、逆方向に跳ね返す境界条件

P.H.Kao, R.J.Yang, An investigation into curved and moving boundary treatments in the lattice Boltzmann method, (2008)Pierre Lallemand, Li-Shi Luo, Lattice Boltzmann method for moving boundaries, (2003)

壁面上での運動量交換

bounce-back rule (鏡面反射条件)

fluid wall

fluid wall

（

Postprocessing• Paraview (http://www.paraview.org) • Povray (http://www.povray.org) 共に Open-source multi-platform

TSUBAME 2.0 の概要

GPU×3Compute Node

CPU×2

Rack (30nodes)

System (58racks)

TSUBAME 2.0 Peak performance 2.4 PFlops GPU : NVIDIA Tesla M2050 x 4224 　　　　(1408Node 3GPU/Node) Network： QDR InfiniBand x 2 (80Gbps)

TSUBAME 2.5 の概要

GPU×3Compute Node

CPU×2

Rack (30nodes)

System (58racks)

TSUBAME 2.5 Peak performance 17 PFlops(SP) GPU : NVIDIA Tesla K20X (6GB) 　　　　(1408Node 3GPU/Node) Network： QDR InfiniBand x 2 (80Gbps)

GPUによる並列計算• MPIライブラリを用いて、各計算領域の端部分を隣接ランクと交換

cudaMemcpy GPU⇒CPU PCI Express

cudaMemcpy CPU⇒GPU PCI Express

MPI通信 CPU⇒CPU

QDR Infiniband

CPU

GPU

MPIによる領域分割

GPU

CPU

大規模並列計算での通信のオーバーヘッド• GPUによる並列計算での計算プロセスの流れ

ノード内の計算速度が速いGPUでは、通信時間の割合が大きくなる MPIによるデータ転送の時間がオーバーヘッド

MPI send & recvD2H H2DKernel function

１．GPUによる計算 2．CPUによるMPI通信

オーバーラップ計算による通信の隠蔽• GPUのカーネル計算とCPUを用いたMPIの通信をオーバーラップ

stream[0] MPI

send & recvD2H H2DKernel function[0]

Kernel function[1]

stream[1]

MPI CPUCPU

GPU

GPU

MPIの通信時間の隠蔽が可能となり、良いスケーリングが期待

Strong scalability on TSUBAME 2.0• 全計算量域の格子点数を固定：192x512x512, 192x2048x2048, 192x4096x4096

・オーバーラップ手法の導入により、30%の速度向上・良い強スケーリングが得られたことより、より高速な解析が可能

Weak scalability on TSUBAME 2.0 and 2.5• プロセスあたりの格子点数を固定：196×256×256 / GPU

0

250

500

750

1000

1250

0 1000 2000 3000 4000Number of GPUs�

Perf

orm

ance

[TFl

ops] � TSUBAME 2.5 (overlap)

� TSUBAME 2.0 (overlap)�

(N = 192 x 256 x 256)

TSUBAME 2.5 1142 TFlops (3968 GPUs) 288 GFlops / GPU

TSUBAME 2.0 149 TFlops (1000 GPUs) 149 GFlops / GPU�

x 1.93 ・TSUBAMEのアップデートにより、GPUあたり 1.93倍の高速化・3968 GPUを用いた計算で、1.14 PFlops(単精度)の非常に高い実効性能を達成

新宿駅

東京駅

品川駅

渋谷駅

東京都心部の大規模気流計算計算条件

計算領域サイズ 10km × 10km × 500m

格子解像度 1 m立方格子

格子点数 528 億格子 10,080×10,240×512

GPUあたりの格子点とデータサイズ

160×160×512 52 MB/変数 (単精度)

GPU数 4032 台

境界条件上空100mで10m/sの北風

東京都心部の大規模気流計算計算データサイズ

計算条件



格子点数 528 億格子 10,080×10,240×512


160×160×512 52 MB/変数 (単精度)

GPU数 4032 台


新宿駅

東京駅

品川駅

渋谷駅

データサイズが4032並列では 211GB/変数と非常に大きいため、各計算ノード内のローカルSSDを使用した並列 I/O 処理が必要

東京都心部の大規模気流計算建物データ

計算条件



格子点数 528 億格子 10,080×10,240×512


160×160×512 52 MB/変数 (単精度)

GPU数 4032 台


新宿駅

東京駅

品川駅

渋谷駅

読み込んだ建物データ　(株)パスコ TDM3D 簡易版

東京都心部1m解像度10ｋｍ四方気流計算 10,080x10,240x512(4,032 GPUs)

東京都心部1m解像度10ｋｍ四方気流計算 10,080x10,240x512(4,032 GPUs)

東京都庁前

東京都庁前の速度分布　高さ200m

960 m

640 m

風向き(北風)

東京都庁前の速度分布　高さ100m

960 m

640 m

風向き(北風)

東京都庁前の速度分布　垂直断面風向き(北風)

風向き (北風)

垂直断面図

• STLデータと距離を用いた物体表現 STLデータ(三角形の頂点と法線ベクトルからなるデータ)から、物体表面の距離関数を作成

車体周りの流体計算物体表面データ形式

車体周りの流体計算計算条件

格子点数 3,072×1,536×768

格子解像度 4.2 mm

計算領域 13m × 6.5m × 3.25m

GPU数 288 台

計算時間約20時間(20万ステップ)

60km/h

ピンポン球の飛翔計算計算条件

格子点数　1,152×576×576

格子解像度 0.4 mm

速度 20 m/s

回転の種類　(i) 無回転

(ii) 横軸回転

(i) non-rotation

40mm20 m/s(ii) Z-axis rotation

xyz

ピンポン球周りのラージエディ・シミュレーション(物体座標固定)(i) non-rotation

(ii) z-axis rotation

ピンポン球周りのラージエディ・シミュレーション(物体移動)

> no spin


> top spin


> side spin

Two-phase flow simulation• 差分法による非圧縮性二相流解析

r · u = 0@u@t

+ (u ·r)u = �1⇢rp + ⌫r2u +

1⇢F

@�

@t+ (u ·r) � = 0

@�

@⌧= sgn(�) (1� |r�|)

@

@t+r · (u ) = 0

⇢ = ⇢g + (⇢l � ⇢g) H(�)⌫ = ⌫g + (⌫l � ⌫g) H(�)

φ < 0

Positive area

Negative area

φ = 0

φ > 0

Interface

Liquid

Gas

符号付き距離関数を用いた気液界面捕獲

Dam break simulation

45

72 cm

36 cm

15 cm

1.8 cm

P.K.Stanby, A.Chegini and T.C.D.Barnes (1998)⇢g

⇢l

⌫g

⌫l

�st

1.18[kg/m^3]

997 [kg/m^3]

15.4 e-06[m^2/s]

0.89 e-06[m^2/s]

0.72 [N/m]

2 cellsInterface thickness

乾いた床へのダム崩壊では水面の先端が床を這うように安定に浸水するが、濡れた床の場合には水柱の先端が激しく乱れ、砕波する

576x96x288

⇢g

⇢l

⌫g

⌫l

�st

1.18[kg/m^3]

997 [kg/m^3]

15.4 e-06[m^2/s]

0.89 e-06[m^2/s]

0.72 [N/m]


Dam break simulation

Bubble rising unsteady simulation

24 cm

6 cm

1cm

22 cm

⇢g

⇢l

⌫g

⌫l

�st

1.18[kg/m^3]

997 [kg/m^3]

15.4 e-06[m^2/s]

0.89 e-06[m^2/s]

0.72 [N/m]


・Symmetric wall boundary !Substitute air value and vertical velocity 0.5 m/s

まとめと今後の計画• GPUを用いた流体解析コードを開発し、TSUBAME 2.5において3968台のGPUを用いた計算で、1.19 PFlopsと非常に高い演算性能を達成した。

• 格子ボルツマン法を用いた東京都心部1m解像度10km四方の気流計算において、10,080 x 10,240 x 512の大規模計算を実施し、高層ビル群により気流が乱される様子や幹線道路に沿って流れる「風の道」等の現象を再現した。

• 気液二相流計算を実施し、細かな気泡が巻き込まれる様子を再現した。 • 今後の計画として、気液二相流計算において百億格子点以上の大規模計算を実施する。

gpuを用いた大規模シミュレーションと可視化csed.sakura.ne.jp/wp-content/uploads/2014/09/onodera.pdf ·...

Documents