東京大学大学院理学系研究科情報科学専攻大山恵弘

スケーラブルでないモジュールを含む

並列プログラムにおける高性能の達成

Achieving High Performance in Parallel Programs Containing Unscalable Modules

東京大学大学院理学系研究科情報科学専攻

大山恵弘

満足のいく性能モデル

• プロセッサ増加　⇒　実行時間減少 or 実行時間そのまま

はたして現実は？

すべてのプログラムで成立してほしい

Motivating Example

• 各スレッドが独立に fib(10) と共有カウンタの増加を交互に繰り返し実行するプログラム– C + Pthreads, Sun Enterprise 10000– 仕事量の総和はプロセッサ数に非依存

0 10 20 30 40 50 60

number of processors

sec) fib

fib + counter(spin)

fib + counter(mute x )

実行のほんの一部が逐次化↓

満足のいく性能モデルが破綻

実行を逐次化するモジュール（ボトルネックモジュール）

• Thread-unsafe ライブラリ– MPICH 、 GTK+

• 共有資源の操作– I/O 、 GUI 、大域変数、共有バッファ– 並列ループの誘導変数

• 暗黙に排他処理するライブラリ– 多くの malloc の実装

広範囲に存在！

現状

並列プログラム

逐次モジュールがほとんどないプログラム

多くの並列プログラムで不満足な性能モデル！

Fib行列積

暗号破り web サーバ

自然言語処理

並列分野の既存研究の多く

本研究の目的

• 満足のいく性能モデルを、すべての並列プログラムで実現する言語– 共有メモリ計算機が対象

We don’t like U

ボトルネックの最大性能ギリギリ

Q: 満足のいく性能モデルを得ることに意味あるの？

A: ある！

このへんで実行したら悲劇（最高性能の半分）

Ｕ字の底のプロセッサ数で実行すればいいのでは？

• 最適なプロセッサ数は予測困難– 動的な挙動の予測はときに困難– 最適な数は入力やプログラムの場面に依存

色々なプロセッサ数で何回も同じ計算をするのは処理系実装者やベンチマーク屋だけ！

我々の怒り

そんな苦労をプログラマに負わせておいていいのか？

こんな高飛車で、万人に並列処理が普及するか？

多くの並列プログラマが唯々諾々と従っている啓示

「並列化の恩恵受けたければ、ボトルネックを皆無にすべし」

「最高性能を出すプロセッサ数はプログラマが自分で見つけるべし」

並列処理を大きくdiscourage ！

我々が取り組んだ問題

• ボトルネック存在下でも高性能を出すには

– 排他処理– スレッドスケジューリング– 言語設計

はどうあるべきか？

３つの本質的な部分問題

• ボトルネック部分の実行コストの削減– ボトルネック担当プロセッサの動的導入で達成

• ボトルネック部分の実行回数の削減– 複数の呼び出しの「融合」で達成

• ボトルネック部分での過大なメモリ消費の抑制– プロセッサ数の動的制御で達成

３つのポイントがもたらすものti

３つのポイントがもたらすもの

limitメモ

リ消費量

Part 0

我々の言語

我々の言語 Amdahl

• C++

+ 軽量スレッド

+ 排他メソッド

単純なプログラミングモデルを提供

スレッド

• API:athread_create(f, arg, thr_id);

• Lazy Task Creation [Mohr et al. 91] にもとづくスレッド管理– 低コストで多数のスレッドを生成可

• 「並列単位 1 つ　⇔　スレッド 1 つ」のプログラミング

– ランタイムが自動的に動的負荷分散• Task stealing

排他機構

• 排他メソッド– ≒ synchronized methods in Java– １つのオブジェクト上で排他的に実行されるメ

ソッドclass Counter { int value; … sync inc(int n) { value += n; } }

Part 1

ボトルネック部分の実行におけるメモリ通信コストの最小化

情報処理学会論文誌に掲載その拡張版を国際学会 PDSIA ’99 で発

ＣＰＵ１ＣＰＵ２ＣＰＵ３

既存の逐次化モジュールの実装法

• ロックを付加し呼び出しを逐次化

既存の方法の問題（ 1 ）

• ロック操作で大きなメモリアクセス遅延– 同じアドレスへのアクセスの衝突

→アクセスコストの飛躍的増加

ＣＰＵ１ＣＰＵ２

ＣＰＵ３

ＣＰＵ１ＣＰＵ２ＣＰＵ３

既存の方法の問題（ 2 ）

• 更新された情報の読出でキャッシュミス– 異なるプロセッサが交代で実行するため

Amdahl のランタイム技術

• アクセス衝突 →　呼び出しデータ（タスク）のリスト作成

• 複数の呼び出しを１プロセッサが連続実行

ＣＰＵ１

ＣＰＵ２ＣＰＵ３

f(5) f(3) f(7)

ボ a, b

担当するぞ！

Amdahl のランタイム技術

ＣＰＵ１

ＣＰＵ２ＣＰＵ３f(5) f(3) f(7)

ボ a, b

• アクセス衝突 →　呼び出しデータ（タスク）のリスト作成

• 複数の呼び出しを１プロセッサが連続実行

この方法がもたらす利益

• ロック操作の大幅減少– 例：１回ロック操作して、３０個メソッド実行– 全部消えはしない

• 連続実行中：オブジェクトの読出と更新　　　　　　　　　　　　⇔ キャッシュの読出と更新

• ボトルネックに常にプロセッサ

Amdahl のコンパイル時最適化

• メモリ読出コストをさらに削減– Prefetch 命令の挿入– 手続き間 register promotion

f(5) f(3) f(7)

これの実行中この情報を prefetch

ＣＰＵ１ボ a, b

連続実行中は a,b をレジスタに

置く

実験

• アプリケーション– N body, RNA

• 比較したもの– C + Solaris threads + task queue

• Spin locks, mutex locks

– Amdahl• Spin locks, mutex locks, 我々の提案する方法

• Sun Enterprise 10000 （ 64 CPU ）

0 10 20 30 40 50 60number of processors

C + Solaris threads(spin)C + Solaris threads(mutex)Amdahl (spin)

Amdahl (mute x )

Amdahl (detach)

N body, 木作成フェーズ

C + Solaris threads(spin)C + Solaris threads(mute x )Amdahl (spin)

Amdahl (mutex)

Amdahl (detach)

N body, 全フェーズ合計

C + Solaris threads(spin)C + Solaris threads(mute x )Amdahl (spin)

Amdahl (mutex)

Amdahl (detach)

非衝突時の性能Cで書いたマイクロベンチマーク

no lockroundrobinspinticketMCSSolar is m ut e xblockAmda h l

•Amdahl の方法の実行時間：•単純な blocking lock の 0.92 倍•単純な spin lock の 1.32 倍

Part 2

複数の排他的な操作を融合する機構

情報処理学会論文誌に掲載

既存の枠組みの問題

• プログラムの動的挙動に適応する効率化支援機構が少ない– 我々の観測：　アクセス衝突時に生じる効率化の

機会を　　　　　　有効利用できていない

windowＣＰＵ１

repaint repaint repaint

重複して呼び出し

Amdahl のアプローチ

• 排他メソッドの複数の呼び出しの融合

– 動的に逐次化された２つの呼び出しを融合

– プログラマが融合規則を記述

プログラム例（１ / ２）

class Window { … sync repaint() { … } fusion repaint() & repaint() { repaint(); }}

融合規則

repaint を「まびき」

プログラム例（２ / ２）class Buffer { int len; double elements[...]; ... sync void put(double v) { elements[len++] = v; } sync double get() { return elements[--len]; }

fusion put(v) & get() { return v; }}

融合規則

put と get を「バイパス処理」

融合処理の実装

windowＣＰＵ１

repaint repaintrepaint

タスクリストの操作で実現

専念！ ♪

この融合の研究の広い見方

• 並列言語ならではの効率化の機会を指摘した– 逐次言語 :

– 並列言語 : 文面に現れない制御フロー•既存研究の盲点

x = y-2;x += 3;

x = y+1;

val +=1; val +=

val +=3;

実験

• ImageViewer– repaint & repaint → repaint

• FileWriter– write & write → strcat + write

• RNA– inc & inc → inc

ImageViewer

0 2 4 6 8 10 12

no fusion fusion

FileWriter

0 10 20 30 40 50 60

no fusion fusion

0 10 20 30 40 50 60

no fusion fusion

Part 3

プロセッサ数の動的調節によるメモリ消費量の制御

単純な実装における問題

• ボトルネックにおける大きなメモリ消費量

ＣＰＵ２

ＣＰＵ３f()

ＣＰＵｎＣＰＵ１

f() f()…..

生産者消費者アプリケーション一般が共有

メモリ消費量拡大による悪影響

• Cache miss, page fault の増加– Working set の増加による

• 他ジョブで使えるメモリが減少– １つの邪悪なプログラムが、その計算機上

の全プログラムを凍らせうる

Motivating Example

タス

ク数

ボトルネックに付加されるタスク数：数百のオーダ

我々の目標

• １つのオブジェクト（モジュール）に付加されるタスク数の最大値を小さく抑える– 例：各オブジェクトに最大６４個

– 「メモリ消費量の制限⇔タスク数の制限」と問題を限定

目標達成のための単純な方法

• タスク数＝閾値→タスクを入れようとするＣＰＵはスピンして待つ

ボＣＰＵ３f()

ＣＰＵ１

f()…..

f()デッドロック発生！（詳細は論文を参照）

我々はより緩い目標をめざす

• Soft limit をほとんどの場合に越えない

タス

ク数

時間

soft limit

我々のアプローチの概要

• プロセッサ数の動的調節でタスク数を制御

– タスク数が soft limit を越えそう　　→プロセッサ減らす　　　タスク生成ペースを遅らせる

– タスク数が soft limit を越える気配なし　　→減らしたプロセッサを復活させる

Amdahl の実装

ボf()

ＣＰＵ１f()…..

２８２８生存可能プロセッサ数カウンタ

定期的に更新

５０５０現プロセッサ数カウンタ

ＣＰＵ２

ＣＰＵ３

ＣＰＵ５０脱退！

プロセッサの脱退

ＣＰＵ１５ＣＰＵ３７thread

thread

プロセッサの増加

４８４８生存可能プロセッサ数カウンタ

３１３１現プロセッサ数カウンタ

ＣＰＵ１

ＣＰＵ２

ＣＰＵ３１

定期的にチェック

ＣＰＵ３２

ＣＰＵ３３

生存可能プロセッサ数の決定法

• 次のカウンタ更新時のタスク数を予測– 過去の履歴からタスクが入るペース、出るペースを予測

• その数が soft limit を越えないよう、入るペースを調節– 仮定：入るペース∝プロセッサ数

soft limit = 64

プロセッサ数を 20/60 ＝ 1/3 に

......

実験結果

• ほとんどの時間で soft limit 以下• タスク数小 → プロセッサ数増 •最大タスク数＜２ ×soft limit

実行時間 ( ６０プロセッサ上）

Fib&Memwrite RNA N body

numprocessors fixed numprocessors varied

（ Part 4 ）

クリティカルパスの実行時計算

国際学会 HIPS 2000 で発表（ LNCS vol. 1800 ）

クリティカルパスの実行時計算

• プログラムにコードを挿入• クリティカルパスを求めつつプログラムを実

行• Cilk [Blumofe et al. 95],

Paradyn [Hollingsworth 98]

• クリティカルパスの利益– 性能モデルの調査と検証を

助ける– チューニングすべき場所の

発見に役立つ

我々がやったこと

• 既存の方法を改良– メモリ通信コストを考慮– 第一級通信データ構造の導入

• 改良した方法を並列言語 Schematic に実装– 実験で有効性を確認

東京大学大学院理学系研究科情報科学専攻大山恵弘

Documents

金政祐司大阪大学大学院人間科学研究科...

東北大学大学院工学研究科...

西安科技大学2018—2019学年本科教学质量报告 ·...

forest science - 東京大学forest science 東京大学...

沖縄科学技術大学院大学 (oist) 概要

2020年度大阪大学大学院人間科学研究科...

ホーム —...

peizhao liu -...

星薬科大学トップページ...星薬科大学トップページ...

神戸大学大学院科学技術イノベーション研究科...神戸大学大学院科学技術イノベーション研究科について...

弘前大学大学院地域共創科学研究科...農学...

vwhpprghov - 首页 | 中山大学大气科学学院

東北大学流体科学研究所東北大学...

東京理科大学nlds.ms.kagu.tus.ac.jp/.../pdfs/mathematical_...

obigrid 北陸先端科学技術大学院大学...

[1]:...

新潟大学大学院...

中学3年生×大学ゼミ大学での統計科学 -...

東京大学大学院総合文化研究科...

熊本学園大学大学院...2020年度学生募集要項...

東京大学 大学院 理学系研究科 情報科学専攻 大山恵弘

東京大学大学院理学系研究科情報科学専攻大山恵弘