スーパーコンの概要

20
ススススススススス スススススス ススススス () 2007 ス スス ス ス 325 ススススススススススススス スススス スススス

Upload: lilah-buckner

Post on 02-Jan-2016

32 views

Category:

Documents


6 download

DESCRIPTION

スーパーコンの概要. 日本物理学会(首都大学) 2007 年3月25日. 大阪大学核物理研究センター 計算機室  外川浩章. スーパーコンの概要. Phase I (2007.1~). 8 nodes (CMC) = 2.0 TF 6 nodes (ILE) = 1.5 TF 計 5 TF 6 nodes (RCNP) = 1.5TF. ×. 32GF. 64, 128, 256GB. Note 64GB×4nodes, 128GB×8nodes, 256GB×8nodes. 128 TB (CMC suita) - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: スーパーコンの概要

スーパーコンの概要

日本物理学会(首都大学)2007 年3月25日

大阪大学核物理研究センター計算機室  外川浩章

Page 2: スーパーコンの概要

スーパーコンの概要• Phase I (2007.1~)

Note 64GB×4nodes, 128GB×8nodes, 256GB×8nodes

32GF

64, 128, 256GB

8 nodes (CMC) = 2.0 TF

6 nodes (ILE)     = 1.5 TF 計 5 TF

6 nodes (RCNP) = 1.5TF

×

128 TB (CMC suita) 64 TB (ILE) 64 TB (RCNP)

Page 3: スーパーコンの概要

スーパーコンの概要• Phase II (2008.7~)

10 nodes (CMC) = 16 TF×100GF

1024GB

100GF

768 TB (CMC suita)

In addition to phase I

Page 4: スーパーコンの概要

スーパーコンの構成• Phase I (200 7 . 1 ~)

32GF

128GB

× 832GF

64GB

35GF

256GB

× 4

× 2

RCNP and ILE CMC

Page 5: スーパーコンの概要

スーパーコンの構成• Phase II (2008.7~)

32GF

128GB

× 832GF

64GB

35GF

256GB

× 4

× 2

RCNP and ILE CMC

100GF

1024GB

100GF ×10

Page 6: スーパーコンの概要

スーパーコンの概要• 占有ノードという固定した考え方はなくす

– が、占有ノードは残せる• メモリの速度と容量が異なるノードの混在

– Phase2ではCPU速度が異なるノードも混在

• システム全体としてのスループットを追及する• CMCユーザーのジョブがRCNPやILEでも流れる

• フェアシェアによる適切な資源割当て• 利用負担金は変更なし。レンタル期間を通じての平均化。

Page 7: スーパーコンの概要

スーパーコンの運用• Phase I (2007.1~)

35GF

256GB

CMC

× 8(共有2/8)

RCNP( ILE)

32GF

128GB

32GF

64GB

32GF

128GB

RCNP( ILE)占有

32GF

128GB

32GF

64GB

32GF

128GB

CMC占有

Page 8: スーパーコンの概要

スーパーコンの運用(案)• Phase II (2008.7~)

35GF

256GB

CMC

100GF

1024GB

100GF

× 8(共有2/8)

× 10(共有 2.5/10)

RCNP( ILE)

32GF

128GB

32GF

64GB

32GF

128GB

RCNP( ILE)占有

32GF

128GB

32GF

64GB

32GF

128GB

CMC占有

Page 9: スーパーコンの概要

スーパーコンの運用• Phase I (2007.1~)

CMC nodes (2 nodes for RCNP) ILE nodes

32GF64GB

RCNP nodes

32GF128GB

32GF128GB

32GF64GB

32GF128GB

32GF128GB

35GF256GB

32GF64GB

32GF128GB

32GF128GB

32GF64GB

32GF128GB

32GF128GB

35GF256GB

35GF256GB

35GF256GB

35GF256GB

35GF256GB

35GF256GB

35GF256GB

RCNP site CMC site ILE site

Page 10: スーパーコンの概要

fss

ネットワーク構成

Jumbo

FC-SW

96TB 64TB 200TB

FC-SW

NAS NAS st1,2st1,2

mihoSX8SX8SX8SX8SX8SX8SX8SX8SX8

SX8SX8SX8

FC-SW

FW

SERVER

その他SX8SX8SX8

fss

DMZ-SC

Super SINET

Gfirm

Page 11: スーパーコンの概要

ディスクの運用fs at SUPER /sc/rcnp/home /sc/rcnp/work /sc/rcnp/short /sc/rcnp/data /sc/rcnp/

data5

fs at IBM /home.super /work.super /short.super /data.super /data5.super

Usage home directory

permanent file

temporary file

permanent file

permanent file

Size 4 TB 52 TB 42 TB 16 TB 16 TB

Quota 100 GB/user none none none none

Comment snapshot 3センター共用

Page 12: スーパーコンの概要

ディスクの運用

HomeWorkShort

DataXMirror

NAS ST STS

SX-8, etc miho, etcOther

SuperSINETSite

FC

nfsFC FC

FC FC

nfs rsyncnfs

Page 13: スーパーコンの概要

キューの運用基本的には新しいジョブ管理システム( JM )に任せる

投入ジョブクラスは「 sx-rcnp 」の1つだけ

CMCノードへの投入は別

CPU数、メモリ量、経過時間を指定してジョブを投入

後はJMが「実行予定表」にジョブを貼り付けて「予約」する。

一度予約されると、その実行開始が遅れる事はない

システム障害等の不測の事態が発生した場合は除く。

あるジョブを、他の予約を破棄して優先的に実行する機能もある。

リソースの要求のされ方により、予約表には隙間ができてしまうことがある。後から投入されたジョブがこの隙間に入る場合、そのジョブでそこを埋める。(バックフィル機能)

この事で既に予約されているジョブが遅れる事はない事に注意。

使用実績を反映してジョブの優先度を決定する。(フェアシェア機能)

Page 14: スーパーコンの概要

キューの運用RCNP

sx-rcnp@rcnp

R4D@rcnp

CMC

SXF@cmc

SXL@cmc

DBG@cmc

LSP@cmc

qsub して1分待つ。

Page 15: スーパーコンの概要

予約状況の表示CMCノード http://www.hpc.cmc.osaka-u.ac.jp/j/service/sx_jobjyoho.html

RCNPノード https://www.hpc.cmc.osaka-u.ac.jp/manual/cis-rcnp.html

Page 16: スーパーコンの概要

CPU の割当て

128 GB

会話型

batch batch batch batch batch batch batch batch

DEBUG

sx811

sx810

sx803

128 GB

batch batch batch batch batch batch batch batch

64 GB

batch batch batch batch batch batch

会話型

Page 17: スーパーコンの概要

login.hpc.cmc.osaka-u.ac.jp

ログインサーバーとフロントエンド

login.hpc.cmc.osaka-u.ac.jp login.rcnp.osaka-u.ac.jp

fronta frontb frontc frontd

sx-8会話型

sx803会話型

sx810会話型

miho

Page 18: スーパーコンの概要

ファイル転送サーバー

ftp.hpc.cmc.osaka-u.ac.jp ftp1.rcnp.osaka-u.ac.jpftp2.rcnp.osaka-u.ac.jp

home work short data data5homeIBM

Page 19: スーパーコンの概要

パスワードの変更についてCMCの方針で、NIS系のコマンドは使用禁止にする。unixのコマンドでパスワードを変更する事はできない。wwwインターフェイスが用意される。(4月2日~)

Page 20: スーパーコンの概要

大規模デバッグジョブの募集について

CMCのDDR2の4ノードを数時間予約してデバッグをしてもらう運用開始直後でユーザーも使い方に悩んでいる小規模なデバッグでは問題を発見、修正できない場合がある

数人で行なってもらうユーザー当たりの同時実行数は1とする

経過時間は30分。(大きくして欲しいという声はある)管理者と常に連絡が取れる状態で行なってもらう