大規模連携実証実験報告 - center for grid research and...

10
大規模連携実証実験報告 大学・研究機関6機関をつないだ現実の運用を考えた実証評価 Manabu Higashida [email protected] 2008/06/06 動き出したサイエンスグリッドNAREGI ―研究リソース共有の世界を広げるミドルウェアを公開― 平成2059日付けプレスリリースより抜粋 NAREGIミドルウェアで100TFLOPS級のグ リッド環境を構築できるか!?

Upload: buithuy

Post on 18-Apr-2018

227 views

Category:

Documents


8 download

TRANSCRIPT

Page 1: 大規模連携実証実験報告 - Center for Grid Research and ...¤§規模連携実証実験報告 大学・研究機関6機関をつないだ現実の運用を考えた実証評価

大規模連携実証実験報告大学・研究機関6機関をつないだ現実の運用を考えた実証評価

Manabu [email protected]

2008/06/06

動き出したサイエンスグリッドNAREGI

―研究リソース共有の世界を広げるミドルウェアを公開―平成20年5月9日付けプレスリリースより抜粋

NAREGIミドルウェアで100TFLOPS級のグ

リッド環境を構築できるか!?

Page 2: 大規模連携実証実験報告 - Center for Grid Research and ...¤§規模連携実証実験報告 大学・研究機関6機関をつないだ現実の運用を考えた実証評価

内部利用 portal /…/cdas

RENKEI-OsakaRENKEI-Osaka

GridVM Engines

GridVM SchGridVM Sch GridVM SchGridVM Sch

GridVM Engines

GridVM SchGridVM Sch

SS連携

GridVM Engines

png1054png1054

User cert

Host cert

GridVM GridVM 

sng0001(sx)

sng0001(sx)

RENKEI-NaregiRENKEI-Naregi

(Linux)(Linux)

GridVM Schdpc.kyushu

GridVM Schdpc.kyushu

VO1VO1GSIC-VOSGSIC-VOS

GridVM SchGridVM Sch

(Solaris)(Solaris)

GridVM SchGridVM Sch

GridVM pbg2043GridVM pbg2043

GridVM png1051GridVM png1051

GridVM pfg1005GridVM pfg1005

GridVM Schdpca064

GridVM Schdpca064

GridVM Schdpca128

GridVM Schdpca128

GridVM Schdpcb064

GridVM Schdpcb064

GridVM Schdpcb128

GridVM Schdpcb128

GridVM Schdpcc128

GridVM Schdpcc128

GridVM Schdpcd048

GridVM Schdpcd048

GridVM Schdpcd049

GridVM Schdpcd049

GridVM Schdpcd057

GridVM Schdpcd057

GridVM Schsr11k

GridVM Schsr11k

松岡研内

vo1利用

GridVM S&EGridVM S&EGridVM SchGridVM Sch

遊休遊休 (Linux)(Linux)

NAREGI CAOsaka Univ. Grid CA

SSSS

PortalPortal

IS‐CDASIS‐CDAS

IS‐NASIS‐NAS

大阪大学 東京工業大学 NII 分子科学研究所

九州大学

名古屋大学

UMSUMS

VOMSVOMS

UMS/VOMSUMS/VOMS UMS/VOMSUMS/VOMS UMS/VOMSUMS/VOMS

CDAS/GVM‐SCDAS/GVM‐S

PortalPortal

SSSS SSSS

PortalPortal

SSSS

CA/RACA/RA

IS‐CDASIS‐CDAS

PortalPortal

IS‐CDASIS‐CDAS

CA/RACA/RA

IS‐CDASIS‐CDAS

RARA

IS-NASIS-NASIS-NASIS-NAS

IS‐CDASIS‐CDAS

rcsrcs

“NAREGI 100T Project” Phase‐2: 3/27時点のノード構成

Fact Sheet 1: 管理ノード構成

Phase‐1/

Phase‐2

SINET3

接続グリッド認

証局ポータル SS

IS

NAS CDAS

大阪大学

2007年8月

10Gbps ○ ○ ○ ○ ○

東京工業大学 4Gbps - ○ ○ ○ ○

九州大学 - - - - - -

NII/NAREGI 1Gbps ○ ○ ◎※1 ○ ○

分子科学研究所 2008年1月 1Gbps - ○ ○ - ○

名古屋大学 2008年3月 1Gbps - △※2 △※2 △※2 ○

2ヶ所 4ヶ所 4ヶ所 3ヶ所 5ヶ所

※1 NII/NAREGIにSS/RCS (NAREGIv1の予約サービス機能) を設置

※2 名古屋大学の管理ノードは、学内サービス向けの設定のまま、IS‐CDAS以下を連携用に追加設定

Page 3: 大規模連携実証実験報告 - Center for Grid Research and ...¤§規模連携実証実験報告 大学・研究機関6機関をつないだ現実の運用を考えた実証評価

Fact Sheet 2: 計算ノード構成アーキテクチャ OS スケジューラ ノード数 TFLOPS

大阪大学

gridvms1.hpc.cmc SX‐8R SUPER‐UX NEC NQS‐II 1 0.3

gridvms2.hpc.cmc x86 Linux NEC NQS‐II 8 0.4

gridvms3.hpc.cmc x86 Linux NEC NQS‐II 450 16.8

東京工業大学 tggn‐vms2.grp.gsic x86+ClearSpeed Linux Sun GridEngine 120 18.9

九州大学 dpc.kyushu.grid x86 Linux PBS Pro 0.1

NII/NAREGI

pbg2043 SX‐8 SUPER‐UX NEC NQS‐II 2 0.2

pfg1005, png1051, png1053, png3000

x86 Linux PBS Pro 14 0.1

分子科学研究所

dpca064.grid, dpca128.grid, dpcb064.grid, dpcb128.grid, dpcc128.grid, dpcd048.grid, dpcd049.grid, dpcd057.grid

x86 Linux PBS Pro 278 3.4

sr11k.grid POWER5 AIX LoadLeveler 32 3.5

名古屋大学naregi4.cc x86 Linux PBS Pro 6 0.2

ngrd1.cc SPARC Solaris Parallelnavi 2 0.3

44.1

各拠点の実情に合わせた

多様な計算機資源の提供を受けた連携

Page 4: 大規模連携実証実験報告 - Center for Grid Research and ...¤§規模連携実証実験報告 大学・研究機関6機関をつないだ現実の運用を考えた実証評価

阪大CMCの大規模計算機システム構成

5.3 TFLOPS

3.0 TB

16.4 TFLOPS

10.0 TB

NEC SX‐8R

6.1 TFLOPS

2.0 TB

Total: 46.1 TFLOPS, 16.0 TB

遊休時利用PCクラスタ

NEC Express‐5800 56Xd

遊休時利用PCクラスタ

NEC Express‐5800 56Xd

18.3 TFLOPS

1.0 TB

10Gbps10Gbps

Not Yet Not Yet InstalledInstalled

11‐‐nodenode

88‐‐nodesnodes

450450‐‐nodesnodes

5.3 TFLOPS3.0 TB

16.4 TFLOPS10.0  TB

遊休時利用PCクラスタ

NEC Express‐5800 56Xd

遊休時利用PCクラスタ

NEC Express‐5800 56Xd

18.3 TFLOPS1.0 TB

NEC SX‐8R

6.1 TFLOPS2.0 TB

10Gbps10Gbps

useruser

Kerberos KDCKerberos KDC

NAREGI M/Wの各コンポーネントと阪大CMCの構成との位置関係

LocalAuthentication

Local Scheduler:NEC NQS‐IIw/JobManipulatorw/GridScheduleMaster

Grid PortalGrid Portal SSSS

MyProxy+MyProxy+MyProxyMyProxy

UMSUMS

CA/RACA/RA VOMSVOMS

Grid LDAP (CMC Proprietary)

Grid LDAP (CMC Proprietary)

IS‐CDASIS‐CDASIS‐NASIS‐NAS

GridVM Serverfor SX

GridVM Serverfor SX

GridVM Serverfor PC‐Cluster

GridVM Serverfor PC‐Cluster

GridVM Serverfor PC‐Cluster

GridVM Serverfor PC‐Cluster

NAREGI Grid Middleware β2

loginlogin

frontendfrontend

Page 5: 大規模連携実証実験報告 - Center for Grid Research and ...¤§規模連携実証実験報告 大学・研究機関6機関をつないだ現実の運用を考えた実証評価

100TFLOPS集まらなかったのは・・・

6‐months6‐months

6‐months6‐months

Page 6: 大規模連携実証実験報告 - Center for Grid Research and ...¤§規模連携実証実験報告 大学・研究機関6機関をつないだ現実の運用を考えた実証評価

今回の連携に参加し

たクラスタ群: 

3/26 16:14:28 時点で

•17クラスタ

• 887ノード

上記のうち、阪大

CMCの遊休時利用型

クラスタ (449ノード) 

の予約マップ

Webサービスのメッ

セージ (SOAP 

Envelope) を解析す

るためのオプション

Webサービスのメッ

セージ交換による状

態推移をすべて記録

How SS Works:モニタツールによる監視

Wed Mar 26 21:54:00

Wed Mar 26 21:54:00

Wed Mar 27 09:00:00

Wed Mar 27 09:00:00

Out of Service

Out of Service

このテストジョブがわだかまっていて・・・

このテストジョブがわだかまっていて・・・

本当に動かしたいジョブが実行できない

本当に動かしたいジョブが実行できない

東工大TSUBAME 120ノードの予約マップ

How SS Works:モニタツールによる監視

Page 7: 大規模連携実証実験報告 - Center for Grid Research and ...¤§規模連携実証実験報告 大学・研究機関6機関をつないだ現実の運用を考えた実証評価

ISによる利用統計情報

資料協力: 大阪大学レーザーエネルギー学研究センター (平成19年度CSI委託事業報告交流会発表予定資料より抜粋)

資料協力: 九州大学青柳研究室

Page 8: 大規模連携実証実験報告 - Center for Grid Research and ...¤§規模連携実証実験報告 大学・研究機関6機関をつないだ現実の運用を考えた実証評価

6拠点6拠点

“RENKEI‐Osaka”“RENKEI‐Osaka”

“RENKEI‐Osaka”“RENKEI‐Osaka”

九州大学九州大学 大阪大学大阪大学 名古屋大学名古屋大学 分子科学研究所分子科学研究所 東京工業大学東京工業大学 NII/NAREGINII/NAREGI

NII/NAREGI

認証局

NII/NAREGI

認証局

阪大CMC

認証局

阪大CMC

認証局

PKIドメイン

PKIドメイン

RORO

VO: Virtual OrganizationRO: Real OrganizationPKI: Public Key Infrastructure

“RENKEI‐Osaka”

“RENKEI‐Osaka”

“vo1”“vo1”

VOドメイン

VOドメイン

グリッド認証局と仮想組織

“Registration Agency”構想に向けて

Page 9: 大規模連携実証実験報告 - Center for Grid Research and ...¤§規模連携実証実験報告 大学・研究機関6機関をつないだ現実の運用を考えた実証評価

CSI‐GRID

SXSX

東大SR8K

SW

関大計算機

PGLab

ルータ

分子研計算機

Catalyst6506

情報研計算機

Catalyst6506

.201LXLX

CISCO2520

計算機北大

SXSX

Catalyst3750

計算機

東北大LXLX

Catalyst4006

計算機

京大LXLX

計算機

名大

Catalyst4506

SXSX

FoundryRX‐4

クラスタ×3阪大

LXLX

計算機

同志社(高野研)

LXLX

計算機

九大

計算機

九工大

CSIグリッド網 (各大学との接続)

SW

SW

計算機

????東工大

LXLX

同志社(知的SD)

計算機

SW

SINET3 L3‐VPN: “CSI‐GRID”

1GB

128KiB 遅延

7,630trans. 1ミリ秒 12ミリ秒 200ミリ秒

10Mbps 800秒 0.1秒 807秒 892秒 2,326秒

100Mbps 80秒 0.01秒 88秒 172秒 1,606秒

1,000Mbps 8秒 0.001秒 16秒 100秒 1,534秒

10,000Mbps 0.8秒 0.0001秒 8秒 92秒 1,527秒

1GB

16MiB 遅延

60trans. 1ミリ秒 12ミリ秒 200ミリ秒

10Mbps 800秒 13秒 800秒 801秒 812秒

100Mbps 80秒 1.3秒 80秒 81秒 91秒

1,000Mbps 8秒 0.13秒 8秒 8.7秒 20秒

10,000Mbps 0.8秒 0.013秒 0.9秒 1.5秒 13秒

Latency: 1‐byte MPI_Send+MPI_Recv

2‐processes

Intel MPI 3.0

Case‐1 0.94us

Case‐2 10.26us

Case‐3 63.32us

GridMPI 2.0rc1 (YAMPI 1.0)

Case‐1 2.95us

Case‐2 12.28us

Case‐3 68.24us

転送バッファサイズによる遅延の影響の比較

Page 10: 大規模連携実証実験報告 - Center for Grid Research and ...¤§規模連携実証実験報告 大学・研究機関6機関をつないだ現実の運用を考えた実証評価

Collaboration Tools

「夢のグリッド」の実現に向けて