slides: timegraph: gpu scheduling for real-time multi-tasking...

加藤真平計算機アーキテクチャ

計算機アーキテクチャ第11回マルチプロセッサ

本資料は授業用です。無断で転載することを禁じます。

名古屋大学

大学院情報科学研究科

准教授加藤真平

デスクトップ

ジョブレベル並列性

スーパーコンピュータ

並列処理プログラム

プログラムの並列化

for (i = 0; i < N; i++) {

x[i] = a[i] + b[i];

プログラムの並列化

x[0] = a[0] + b[0];

・・・

x[1] = a[1] + b[1]; x[2] = a[2] + b[2]; x[N-1] = a[N-1] + b[N-1];

逐次処理

計算ブロック

時間

シングルコアの世界・コアの周波数を上げる

for (i = 0; i < N; i++) {

for (j = 0; j < M; j++) {

繰り返し処理も逐次的にひたすら高速処理する

並列処理

計算ブロック

時間

シングルコアの世界・コアの周波数を上げる

計算ブロック

時間

コア数

マルチコアの世界・コアを数個並べる・コアの周波数は上げない・プログラムを並列化する

計算ブロック

時間

コア数

メニーコアの世界・コアを数百から数千個並べる・コアの周波数は下げる・プログラムを並列化する

津波シミュレーション（ロスアラモス国立研究所＆ワシントン大学）

交通流

核融合プラズマ

津波

気象

共有記憶型マルチプロセッサ（SMP）

Processor Processor Processor・・・

Cache Cache Cache

InterconnectMain Memory I/O

クラスタ型マルチプロセッサ

・・・

Processor

Memory

Processor

Memory

Processor

Memory

Processor

Memory

Interconnect

マルチコア（チップマルチプロセッサ）

Processor・・・ Cache

Interconnect

Main Memory I/O

Processor

マルチスレッディング

Processor

・・・

Interconnect

Main Memory I/O

Thread Thread

マルチスレッディング方式

スレッドA スレッドB スレッドC スレッドD

命令発行スロット

時間

マルチスレッディング方式

粗粒度マルチスレッディング

命令発行スロット

時間

細粒度マルチスレッディング

同時マルチスレッディング

SISD, MIMD, SIMD

• SISD = Single Instruction stream, Single Data stream

• MIMD = Multiple Instruction stream, Multiple Data stream

• SIMD = Single Instruction stream, Multiple Data stream

– データレベル並列性（forループなど）

主流はマルチコア

MemoryL3 Cache

高々10個程度のCPUコアが、1つの共有メモリに、均一的にアクセスする。

1つのOSカーネルで済む開発環境が整っている並列化の性能が出やすい

ソフトウェア的視点

メニーコアの時代へ

L2 Cache

L1 L1 L1 L1 L1 L1 L1L1

Memory

Memory Memory

Graphics Processing Unit (GPU)

2008 2010 20123000コア

500コア250コア

Tesla FermiKepler

Maxwell

C言語

C++Java

5000コア

Graphics Processing Unit (GPU)

Host MemoryL3 Cache

I/Oバス

Host CPU

GPUによる並列処理

Grid = (2, 2)

Block = (3, 3)

Thread

Node = (2, 2)

Cluster = (3, 3)

CUDAプログラミング

void multiply(double *a, double *b, double *c, int n)

double product = 0.0;

int row = blockIdx.y * blockDim.y + threadIdx.y;

int col = blockIdx.x * blockDim.x + threadIdx.x;

int i, idx;

for (i = 0; i < n; i++)

product += a[row * n + i] * b[i * n + col];

c[row * n + col] = product;

ほとんどC言語と変わらないが複数のジョブが並列実行していることを意識してプログラミングする必要がある。

CUDAプログラミング

性能トレンド

単精度浮動小数点性能電力性能

8800 GTX9800 GTX

GTX 285GTX 480

GTX 580

GTX 680

GTX Titan

GTX Titan Black

X7350X7460 X7560

E7-8870E7-8890

2006 2008 2010 2012 2014

RELEASE YEAR

Single Precision Performance

NVIDIA GTX

Intel Xeon

8800 GTX 9800 GTX

GTX 285

GTX 480GTX 580

GTX 680

GTX Titan

GTX Titan Black

X7350X7460 X7560

E7-8870E7-8890

2006 2008 2010 2012 2014

RELEASE YEAR

Performance per Watt

NVIDIA GTX

Intel Xeon

CMD_HtoD CMD_HtoD CMD_LAUNCH CMD_DtoH

CodeInput

Host Memory

CodeInput

Device Memory

CodeInput

Host Memory

CodeInput

Device Memory

CodeInput

Host Memory

Device Memory

CodeInput

Host Memory

Device Memory

General Purpose Computing on

GPUs (GPGPU)

CodeOutput

Output

GPGPUの実行

CodeUpload

MemAlloc

DataUpload

DataDownload

EndCPU

GPUParallel

Execution

Memory

Device

Memory

Copy Copy Copy

100000

1000000

100 1K 10K 100K 1M

The number of agents

GPU (simple)

GPU (data optimized)

GPU (fully optimized)

GTX 560 Ti (192 cores)

交通流シミュレーションの例

期末試験

• 7月24日４限

–資料の持ち込みなし

• 出題範囲

–本講義で習った全範囲

–教科書（上下巻）

• 出題形式

–必須問題3問

–選択問題2問

レポート

• 「なぜ計算機アーキテクチャが大事なのか」を自分なりに4000～5000字でまとめて提出

–締切：７月23日23時59分

–書式自由（Word、LaTex等）

– shinpei@ertl.jp宛にメールで添付して提出

–件名は「計算機アーキテクチャ講義レポート」としてください

–本文に氏名と学籍番号を記載してください

計算機アーキテクチャの応用（研究紹介）

slides: timegraph: gpu scheduling for real-time multi-tasking...

Documents

lecture slides jackson networksonline week2 slides

1. introdução ( 6 slides) 7. o mistério da redenção (15...

node.js conference - cooperative multi-tasking...

e.shiatsu.ac.jpe.shiatsu.ac.jp/research/pdf/en2013-2017.pdf ·...

tire suas dúvidas de português Índice de aulas slides...

(ts) nsa quantum tasking techniques for the r&t analyst

second écran, social tv, multi-tasking : créez des...

aulas previstas: 01. origem e finalidade (12 slides) 02....

the structure of the pulsar magnetosphere via particle...

one tasking - intelligence-airbusds.com...one tasking vous...

windows multi-tasking: start fast and ﬁnish ﬁrst. ·...

1.parusia (8 slides) 2.ressurreição (10 slides) 3.morte...

01.estrutura (6 slides) 10. nono e décimo mandamento...

1 three-dimensional porous coordination polymer...

contests with multi-tasking

Índice de aulas slides aula 1 slides aula 2 slides aula 3...

troca automática de slides troca automática de slides

digimagazine voor de verspanende en additive manufacturing...

aulas previstas: 1. maternidade divina (8 slides) 2....

il sistema operativo : windows xp che cosa è? quali sono?...