スーパーコンの概要
DESCRIPTION
スーパーコンの概要. 日本物理学会(首都大学) 2007 年3月25日. 大阪大学核物理研究センター 計算機室 外川浩章. スーパーコンの概要. Phase I (2007.1~). 8 nodes (CMC) = 2.0 TF 6 nodes (ILE) = 1.5 TF 計 5 TF 6 nodes (RCNP) = 1.5TF. ×. 32GF. 64, 128, 256GB. Note 64GB×4nodes, 128GB×8nodes, 256GB×8nodes. 128 TB (CMC suita) - PowerPoint PPT PresentationTRANSCRIPT
スーパーコンの概要
日本物理学会(首都大学)2007 年3月25日
大阪大学核物理研究センター計算機室 外川浩章
スーパーコンの概要• Phase I (2007.1~)
Note 64GB×4nodes, 128GB×8nodes, 256GB×8nodes
32GF
64, 128, 256GB
8 nodes (CMC) = 2.0 TF
6 nodes (ILE) = 1.5 TF 計 5 TF
6 nodes (RCNP) = 1.5TF
×
128 TB (CMC suita) 64 TB (ILE) 64 TB (RCNP)
スーパーコンの概要• Phase II (2008.7~)
10 nodes (CMC) = 16 TF×100GF
1024GB
100GF
768 TB (CMC suita)
In addition to phase I
スーパーコンの構成• Phase I (200 7 . 1 ~)
32GF
128GB
× 832GF
64GB
35GF
256GB
× 4
× 2
RCNP and ILE CMC
スーパーコンの構成• Phase II (2008.7~)
32GF
128GB
× 832GF
64GB
35GF
256GB
× 4
× 2
RCNP and ILE CMC
100GF
1024GB
100GF ×10
スーパーコンの概要• 占有ノードという固定した考え方はなくす
– が、占有ノードは残せる• メモリの速度と容量が異なるノードの混在
– Phase2ではCPU速度が異なるノードも混在
• システム全体としてのスループットを追及する• CMCユーザーのジョブがRCNPやILEでも流れる
• フェアシェアによる適切な資源割当て• 利用負担金は変更なし。レンタル期間を通じての平均化。
スーパーコンの運用• Phase I (2007.1~)
35GF
256GB
CMC
× 8(共有2/8)
RCNP( ILE)
32GF
128GB
32GF
64GB
32GF
128GB
RCNP( ILE)占有
32GF
128GB
32GF
64GB
32GF
128GB
CMC占有
スーパーコンの運用(案)• Phase II (2008.7~)
35GF
256GB
CMC
100GF
1024GB
100GF
× 8(共有2/8)
× 10(共有 2.5/10)
RCNP( ILE)
32GF
128GB
32GF
64GB
32GF
128GB
RCNP( ILE)占有
32GF
128GB
32GF
64GB
32GF
128GB
CMC占有
スーパーコンの運用• Phase I (2007.1~)
CMC nodes (2 nodes for RCNP) ILE nodes
32GF64GB
RCNP nodes
32GF128GB
32GF128GB
32GF64GB
32GF128GB
32GF128GB
35GF256GB
32GF64GB
32GF128GB
32GF128GB
32GF64GB
32GF128GB
32GF128GB
35GF256GB
35GF256GB
35GF256GB
35GF256GB
35GF256GB
35GF256GB
35GF256GB
RCNP site CMC site ILE site
fss
ネットワーク構成
Jumbo
FC-SW
96TB 64TB 200TB
FC-SW
NAS NAS st1,2st1,2
mihoSX8SX8SX8SX8SX8SX8SX8SX8SX8
SX8SX8SX8
FC-SW
FW
SERVER
その他SX8SX8SX8
fss
DMZ-SC
Super SINET
Gfirm
ディスクの運用fs at SUPER /sc/rcnp/home /sc/rcnp/work /sc/rcnp/short /sc/rcnp/data /sc/rcnp/
data5
fs at IBM /home.super /work.super /short.super /data.super /data5.super
Usage home directory
permanent file
temporary file
permanent file
permanent file
Size 4 TB 52 TB 42 TB 16 TB 16 TB
Quota 100 GB/user none none none none
Comment snapshot 3センター共用
ディスクの運用
HomeWorkShort
DataXMirror
NAS ST STS
SX-8, etc miho, etcOther
SuperSINETSite
FC
nfsFC FC
FC FC
nfs rsyncnfs
キューの運用基本的には新しいジョブ管理システム( JM )に任せる
投入ジョブクラスは「 sx-rcnp 」の1つだけ
CMCノードへの投入は別
CPU数、メモリ量、経過時間を指定してジョブを投入
後はJMが「実行予定表」にジョブを貼り付けて「予約」する。
一度予約されると、その実行開始が遅れる事はない
システム障害等の不測の事態が発生した場合は除く。
あるジョブを、他の予約を破棄して優先的に実行する機能もある。
リソースの要求のされ方により、予約表には隙間ができてしまうことがある。後から投入されたジョブがこの隙間に入る場合、そのジョブでそこを埋める。(バックフィル機能)
この事で既に予約されているジョブが遅れる事はない事に注意。
使用実績を反映してジョブの優先度を決定する。(フェアシェア機能)
キューの運用RCNP
sx-rcnp@rcnp
R4D@rcnp
CMC
SXF@cmc
SXL@cmc
DBG@cmc
LSP@cmc
qsub して1分待つ。
予約状況の表示CMCノード http://www.hpc.cmc.osaka-u.ac.jp/j/service/sx_jobjyoho.html
RCNPノード https://www.hpc.cmc.osaka-u.ac.jp/manual/cis-rcnp.html
CPU の割当て
128 GB
会話型
batch batch batch batch batch batch batch batch
DEBUG
sx811
sx810
sx803
128 GB
batch batch batch batch batch batch batch batch
64 GB
batch batch batch batch batch batch
会話型
login.hpc.cmc.osaka-u.ac.jp
ログインサーバーとフロントエンド
login.hpc.cmc.osaka-u.ac.jp login.rcnp.osaka-u.ac.jp
fronta frontb frontc frontd
sx-8会話型
sx803会話型
sx810会話型
miho
ファイル転送サーバー
ftp.hpc.cmc.osaka-u.ac.jp ftp1.rcnp.osaka-u.ac.jpftp2.rcnp.osaka-u.ac.jp
home work short data data5homeIBM
パスワードの変更についてCMCの方針で、NIS系のコマンドは使用禁止にする。unixのコマンドでパスワードを変更する事はできない。wwwインターフェイスが用意される。(4月2日~)
大規模デバッグジョブの募集について
CMCのDDR2の4ノードを数時間予約してデバッグをしてもらう運用開始直後でユーザーも使い方に悩んでいる小規模なデバッグでは問題を発見、修正できない場合がある
数人で行なってもらうユーザー当たりの同時実行数は1とする
経過時間は30分。(大きくして欲しいという声はある)管理者と常に連絡が取れる状態で行なってもらう