mplsj2013 100 gを使い切るnaoj sdn

30
100Gを使い切るNAOJ SDN 大江 将史 <[email protected]> 天文データセンター 国立天文台 MPLSJP 1

Upload: masafumi-oe

Post on 03-Jul-2015

395 views

Category:

Documents


4 download

TRANSCRIPT

Page 1: Mplsj2013 100 gを使い切るnaoj sdn

100Gを使い切るNAOJ SDN

大江将史 <[email protected]>

天文データセンター

国立天文台MPLSJP 1

Page 2: Mplsj2013 100 gを使い切るnaoj sdn

自己紹介

•大江将史 (おおえ まさふみ)

http://fumi.org/

•所属:自然科学研究機構国立天文台

天文データセンター 助教

•なにしてるのか?

•専門は、ネットワークセキュリティ、衛星通信、無線通信など

•天文と情報ネットワークの融合に関する研究等

•国立天文台のネットワーク運用や設計等

「星を見るのにデータセンタ?ネットワーク?」

その疑問はごもっともです.

MPLSJP 2

おおえまさふみ 検索

Page 3: Mplsj2013 100 gを使い切るnaoj sdn

Mt. Mauna kea, Hawaii

Subaru Telescope

MPLSJP 3

Page 4: Mplsj2013 100 gを使い切るnaoj sdn

天文学とデジタル化の事例

MPLSJP 5

高感度CCD -100℃に冷却合計約8億7000万画素

天体のデジタルデータ

巨大なデジタルカメラ

すばる望遠鏡のあたらしい目HSC: Hyper-Suprime-Cam すばる望遠鏡

複数のデータセンターにてアーカイブコンピュータで解析データ公開

Page 5: Mplsj2013 100 gを使い切るnaoj sdn

MPLSJP 6

天体望遠鏡からの観測データ

コンピュータでの・観測データの計算機解析・数値シミュレーション観測装置や計算機を支えるシステムネットワークを活用

コンピュータ&ネットワークによる成果

コンピュータとネットワークなしには天文学は成り立たない

各拠点をネットワーク接続JGN-X/SINET-4/ 10ギガ:水沢・大手町DC・三鷹1ギガ:岡山・ハワイ(2014.4-)他もすべて接続されています.

Page 6: Mplsj2013 100 gを使い切るnaoj sdn

今日のテーマ

•天文学におけるデジタル・データ

•様々な観測機器からデータが生まれる

•ネットワークの果たす役割

•ネットワークに関する研究開発事例

MPLSJP 7

Page 7: Mplsj2013 100 gを使い切るnaoj sdn

さまざま種類のトラフィック水沢~大手町~三鷹

MPLSJP 8

Page 8: Mplsj2013 100 gを使い切るnaoj sdn

1)スーパーコンピュータ:アテルイ

•特徴

•水沢観測所(岩手県奥州市)に設置500TFlops級のCray社のスーパーコンピューターシステム•2014年度に 1PFlops級へアップグレード

9MPLSJP

Page 9: Mplsj2013 100 gを使い切るnaoj sdn

1)スーパーコンピュータ:アテルイ

•計算ジョブ(最長8時間)の間隔でデータが出力•ジョブ完了水沢から三鷹へデータ送信•ジョブ継続再度ジョブ投入8時間単位で,ネットワークに負荷がかかる可能性

MPLSJP 10

HPC計算ノード群(水沢)

ストレージノード群(三鷹)

専用計算ノード群(三鷹)

IPネットワーク

汎用計算サーバ群(三鷹)

Page 10: Mplsj2013 100 gを使い切るnaoj sdn

2)VERA: VLBI Exploration of Radio Astrometry

MPLSJP 11

ISHIGAKIJIMA(石垣島), OKINAWA

IRIKI(入来), KAGOSHIMA

MIZUSAWA(水沢), IWATE

OGASAWARA(小笠原), TOKYO

VERA is a VLBI array to explore the 3-D structure of the Milky Way Galaxy

MITAKA(三鷹), TOKYO

Correlation center

望遠鏡(山口・茨城・他)

Page 11: Mplsj2013 100 gを使い切るnaoj sdn

2)e-VLBI : ネットワークで結ぶVLBI

MPLSJP 12

Earth

ATOMIC CLOCK

ATOMIC CLOCK

ATOMIC CLOCK

Connect to the correlator

Correlator

ImageHigh speed Network(2Gbps~ per Station)

Correlation in real-time

観測中は,まさに「DDoS」

観測日&時間スケジューリング月平均400時間、年平均4000時間

Page 12: Mplsj2013 100 gを使い切るnaoj sdn

そのほか

•クラウドシステム•プライベートクラウドサービスを4拠点で運用•「実機より速い」が合言葉

•三鷹地区・大手町地区・水沢地区・岡山地区に分散したクラウドシステム•iSCSIネットワーク・VMノード

•コンテンツ配信•デジタル4次元シアター(4D2U)のコンテンツ提供•スパコンや観測成果に基づく科学コンテンツの配信

•アウトリーチ:観測所と学校を結んで最先端の科学にふれる•HDビデオ双方向中継(1から多地点)•天文現象の中継(皆既日食・彗星など)

MPLSJP 13

Page 13: Mplsj2013 100 gを使い切るnaoj sdn

さまざまなプロパティを持つトラフィックが広域網を流れる•スパコン•水沢の計算ノードからの結果出力を,三鷹の恒久ストレージへ効率よく伝送•ノンリアルタイム・利用者の利用傾向に基づく帯域の占有予測

•伝送中は高効率化により帯域を占有・ロスは許容されない.

•VLBI•水沢から三鷹へ観測データをバーストトラフィックで伝送•スケジュールされた観測時間に連動した帯域確保

•パケットロスには寛容・通信としてのプライオリティは低い扱い

•クラウド・コンテンツ配信•帯域は,クラウドのマイグレーション,ストレージトラフィック,コンテンツ配信などに強く依存•帯域の変動幅が大きい•パケットロスに非寛容.

0

20

40

60

80

100

120

140

0:00 4:00 8:00 12:0016:0020:00 0:00

各システムの帯域利用

率イメージ

Cloud and etc. HPC VLBI

帯域利用率[%]

時刻

MPLSJP 14

Page 14: Mplsj2013 100 gを使い切るnaoj sdn

トラフィックを制御する今の解決策:必要は発明のナントカ

MPLSJP 15

Page 15: Mplsj2013 100 gを使い切るnaoj sdn

ULTRA計画(2012~)を開始

•天文学を支えるハイパフォーマンスなネットワークへの要求•天文学専用スパコンシステム•VLBI観測システム•クラウド・映像中継等々

•汎用化機器の高性能化•専用機の開発コスト効率の悪化

地理的に分散する(天文学)情報システムとIPネットワークを効率よく連携させる仕組みが自然科学の発展には必要不可欠

+計算機の運用ノウハウ習得・高コストパフォーマンスの実現と応用

MPLSJP 16

Page 16: Mplsj2013 100 gを使い切るnaoj sdn

ミドルボックス:データ伝送の効率化

MPLSJP 17

Page 17: Mplsj2013 100 gを使い切るnaoj sdn

None-RealtimeAcceleration Engine

ULTRA200 構成

18

Forwarding Engine

超高速キャッシュ

Application

標準のIP Forwarding 処理

ストレージトラフィック

トラフィックアプリケーションにフロールールに応じて制御

accelerated trafficストレージトラフィック

エラー・遅延補償 (現状,ストレージしか考慮されていません)

40GbE(10GbE x 4) 10GbE

ULTRAルータ

コントローラ

広域網(JGN-X)の利用状況に応じて Forwarding Engine を制御

CentOS 6.x

MPLSJP

Page 18: Mplsj2013 100 gを使い切るnaoj sdn

網の高度化ではなく..エンドの高度化で..

•天文台(一部)は,エンドの高度化でアプローチ•PCサーバで十分な性能を叩き出せるという目算•40GbESSDフルダンプ箱開発

•100GbE L3ルーターの開発

•コストパフォーマンスの追及•「挑戦はするけど冒険はしない.」

•水沢・大手町・三鷹地区に,ミドルボックスを設置し,広域網{へ,から}のトラフィックを広域網からもらえるウェザー情報に基づき制御するアプローチをとる.

MPLSJP 19

Page 19: Mplsj2013 100 gを使い切るnaoj sdn

コストの観点から見る開発・構築ゾーンコスト

性能

カスタムASIC

(PC +) FPGA(PC +) FPGA on NIC

この領域がULTRA計画の開発ゾーン20MPLSJP

PC+NIC 40Gbps FPGA

フルカスタムチップ

20GbpsNIC + FPGA

PC + NIC

Page 20: Mplsj2013 100 gを使い切るnaoj sdn

カスタムLSI/カスタムASIC/FGPAなどハードを生かした高価(開発コスト)なシステムの有利な領域

安価なPCで踏み込める領域

コストの観点から見る開発・構築ゾーン

21

低遅延性能

広帯域

MPLSJP

Page 21: Mplsj2013 100 gを使い切るnaoj sdn

カスタムLSI/カスタムASIC/FGPAなどハードを生かした高価(開発コスト)なシステムの有利な領域

安価なPCで踏み込める領域

コストの観点から見る開発・構築ゾーン

22

低遅延性能

広帯域

2011 PCルータ20Gbps

MPLSJP

・gnodal(>150nsec)

• Cisco(>60/200nsec)

・ARISTA(>500nsec)

2012 第1世代 ULTRA40 大沢(割り込みモデル)IPフォワーディング 45Gbps100Gbpsコンテンツ送信性能

Intel DPDK

Page 22: Mplsj2013 100 gを使い切るnaoj sdn

カスタムLSI/カスタムASIC/FGPAなどハードを生かした高価(開発コスト)なシステムの有利な領域

安価なPCで踏み込める領域

PC性能向上の方向性?

コストの観点から見る開発・構築ゾーン

23

低遅延性能

広帯域

2012 ULTRA40 大沢 45Gbps / 12msecULTRA40 野川 4GByte/sec SSD Storage

2011 PCルータ20Gbps ?msec

MPLSJP

・gnodal(<150nsec)

• Cisco(<60/200nsec)

・ARISTA(<500nsec)

2012年 ULTRA40 「野川」&「大沢」多機能IPルーター4GB/sec 読み書き可能な高速ストレージ100Gbps コンテンツ送信性能45Gbps IPフォワーディング性能18x 10Gbase-R or 2x 40Gbase-R I/F 搭載

Page 23: Mplsj2013 100 gを使い切るnaoj sdn

カスタムLSI/カスタムASIC/FGPAなどハードを生かした高価(開発コスト)なシステムの有利な領域

安価なPCで踏み込める領域

コストの観点から見る開発・構築ゾーン

24

低遅延性能

広帯域

2011 PCルータ20Gbps ?msec

MPLSJP

・gnodal(<150nsec)

• Cisco(<60/200nsec)

・ARISTA(<500nsec)

2013年での挑戦すべき方向性非常識ですが風穴をあけてみたい

2012 ULTRA40 大沢 45Gbps / 12msecULTRA40 野川 4GByte/sec SSD Storage

Page 24: Mplsj2013 100 gを使い切るnaoj sdn

PCサーバの性能「連雀」:高機能PCサーバ・ルータ基盤

MPLSJP 25

国立天文台が天文データ処理用のPCサーバ / ルータープラットフォームとして開発

Linux OSを基に低遅延・広帯域処理能力を目標に設計・開発

PCI-E 2.0 2x 10GbE-SFP+ x 10 (最大12port)

Interop2013 オープンルーターコンペティション(ORC)富士通賞受賞

Intel SandyBridge-E overclock

Page 25: Mplsj2013 100 gを使い切るnaoj sdn

「連雀」の性能:低遅延&広帯域の両立

MPLSJP 26

遅延

時間

7μsec~ 18usecを安定して達成

[μsec]フルメッシュIPフォワーディング性能を計測器で長時間検証

広帯域&低遅延を両立

Page 26: Mplsj2013 100 gを使い切るnaoj sdn

「連雀」NIC オフロードの効果:200Gbpsのトラフィック処理をおこなっていても15%のCPUリソース消費に抑えられている

MPLSJP 27

Page 27: Mplsj2013 100 gを使い切るnaoj sdn

「連雀+」: L3 120Gbps(=240Gbps)40GbE対応 / 広帯域・低遅延の追及

MPLSJP 28

PCI-E 3.0 2x 40GbE-QSFP+ x 5

Full 40GbE / PCI-E 3.0 対応版

Intel SandyBridge-E overclock

Page 28: Mplsj2013 100 gを使い切るnaoj sdn

FGPAなど高価なハードウェアならでわの領域

安価なPCで踏み込める領域

PCサーバの性能向上

29

低遅延性能

広帯域

2011 PCルータ20Gbps ?msec

MPLSJP

2013 ULTRA200 連雀200Gbps / <17μsec

2012 ULTRA40 大沢 45Gbps / 12msecULTRA40 野川 4GByte/sec SSD Storage

2013 ULTRA200 連雀+240Gbps / <10μsec

Page 29: Mplsj2013 100 gを使い切るnaoj sdn

PCサーバの性能向上は今後も続く,手段を問わず研究開発を継続

2011年 ?? Intel Core + PCI-E2.0 1x10GbE NIC

•なんとか10Gbpsを絞り出せるレベル

2012年「大沢」「野川」(第1世代)Intel Nehalem + PCI-E2.0 2x10GbE NIC + Offload

•コンテンツ送信力は,100Gbps

2013年「連雀」(第2世代)Intel SandyBridge-E + PCI-E2.0 2x10GbE NIC + Offload「連雀+」

•その処理力は,200Gbpsへ向上

2014年(第3世代)Intel Haswell + PCI-E3.0 NIC Full 40GbE NIC + Offload

•その処理力は,400Gbpsへ?

MPLSJP 30

• 機器は<50万円程度

• 10Gbpsどころか,誰もが100Gbps~200Gbpsを扱える時代

割り込みモデルorポーリングモデル

Page 30: Mplsj2013 100 gを使い切るnaoj sdn

ありがとうございました

MPLSJP 31

おしらせ

*国立天文台三鷹キャンパスでは,毎月2回公開天体望遠鏡を使った観望会を開催中!

詳しくは国立天文台ホームページをご覧ください.

口径30m次世代超大型望遠鏡(TMT) 始動http://tmt.mtk.nao.ac.jp/1000円から参加できる

TMT 第二期寄付金募集中!

TMT 完成予想図

(c) 2010 Thirty M

eter Telescop

e