Transcript
Page 1: Interop 2013 ORC ULTRA200 Project

ULTRA200~PC世界最速を目指す~

大江@国立天文台

ORC2013ULTRA200 1

今年も東陽テクニカ様・IXIA様のご協力に深く感謝いたします.

Page 2: Interop 2013 ORC ULTRA200 Project

天体望遠鏡とデジタル化の今

高感度CCD -100℃に冷却合計約8億7000万画素

観測した天体のデジタルデータ

巨大なデジタルカメラ

すばる望遠鏡のあたしい目HSC: Hyper-Suprime-Cam

すばる望遠鏡

ORC2013ULTRA200 2

天文台でなんでネットワークなんよ?

Page 3: Interop 2013 ORC ULTRA200 Project

観測データを各所へ伝送・アーカイブ

•マウナケア山頂(米国ハワイ)のすばる望遠鏡からの観測データは,各所でアーカイブされ,後に公開されます.

•貴重な観測結果を各所に伝送(地理的に分散)し,アーカイブ• 望遠鏡を利用する研究者が天体・観測方法を定め観測する

•アーカイブされた観測データを世界中の研究者が異なる視点で再活用• アーカイブを利用した天文観測という分野

ネットの活用が天文学を支えています.

すばる望遠鏡

マウナケア山頂4200m

Hilo オフィス(Base facility)

三鷹本部

米国ハワイ島

観測結果をIPで送信

観測結果をIPで送信

1次アーカイブ2次アーカイブ

インターネットなどで公開

研究者(観測者)

世界中の研究者

日本国東京 全世界約6400km

ORC2013ULTRA200 3

Page 4: Interop 2013 ORC ULTRA200 Project

ULTRA計画の背景

4

• 天文学を支えるハイパフォーマンスなネットワークシステムへの要求– 天文学専用スパコンシステム(岩手・

東京)• 500Tflops 演算ノード (岩手)

• ストレージノード(東京)

– VLBI観測システム(東京・岩手・沖縄・等)• 観測ノード(各所)

• 解析ノード(東京)

今,演算・ストレージ・IPネットワークを効率よく連携させる仕組みが自然科学の発展には必要不可欠必要

計算ノード

ストレージ

ORC2013ULTRA200

Page 5: Interop 2013 ORC ULTRA200 Project

コストの観点から見る開発ゾーン

コスト

性能

カスタムASIC

(PC +) FPGA

(PC +) FPGA on NIC

この領域がULTRA計画の開発ゾーン5ORC2013ULTRA200

PC+NIC 40Gbps FPGA

フルカスタムチップ

20Gbps

NIC + FPGA

PC + NIC

Page 6: Interop 2013 ORC ULTRA200 Project

ORC2012「大沢」

•大沢の成果

正確な計測器により,ネハレムアーキテクチャにて,高性能なNICをソフトウェアチューニングを実施することで,1サーバで

• 100Gbpsのコンテンツ送信性能

• 40Gbps程度のL3フォワーディング性能

を有することをを客観的に示した.

ORC2013ULTRA200 6

100Gbps達成

Page 7: Interop 2013 ORC ULTRA200 Project

ORC2012燃え尽きました・・どうしたら高性能になる?

•PCの性能を搾りきる限界をORC2012で体験

•燃え尽きました

•壁にぶち当たる

•FPGAのアシスト構成

•開発コストが厳しい• Arista 7124FX FPGA BOX

• Xilinx Kintex 7

•PCをさらに絞り出す

• Intel DPDK ポーリングベースの信号処理• 開発キット処理遅延が大きい

• ORCにはそぐわない点

ORC2013ULTRA200 7

Page 8: Interop 2013 ORC ULTRA200 Project

FGPAなど高価なハードウェアならでわの領域

安価なPCで踏み込める領域

ORC2012の検証

8

低遅延性能

広帯域

ORC2013ULTRA200

Page 9: Interop 2013 ORC ULTRA200 Project

FGPAなど高価なハードウェアならでわの領域

安価なPCで踏み込める領域

ORC2012の検証

9

低遅延性能

広帯域

2012 ULTRA40 大沢45Gbps / 12msec2011 PCルータ

20Gbps ?msec

ORC2013ULTRA200

Page 10: Interop 2013 ORC ULTRA200 Project

FGPAなど高価なハードウェアならでわの領域

安価なPCで踏み込める領域

PC + NIC(Offload NIC)の性能向上方向性?

ORC2012の検証

10

低遅延性能

広帯域

2012 ULTRA40 大沢45Gbps / 12msec

2011 PCルータ20Gbps ?msec

ORC2013ULTRA200

Page 11: Interop 2013 ORC ULTRA200 Project

FGPAなど高価なハードウェアならでわの領域

安価なPCで踏み込める領域

PC + NIC(Offload NIC)の性能向上方向性?

ORC2012の検証

11

低遅延性能

広帯域

2012 ULTRA40 大沢45Gbps / 12msec

2011 PCルータ20Gbps ?msec

ORC2013 ULTRA200での挑戦すべき方向性

非常識ですが風穴をあけてみたい

ORC2013ULTRA200

Page 12: Interop 2013 ORC ULTRA200 Project

遅延:アプリケーションを悩ますボトルネック

•広帯域化におけるPCルータやサーバの課題• 10/40Gbpsを生かしきる広帯域かつ低遅延の両立が必要不可欠

•ORC2012では,帯域が大きかったが遅延は12msecと悪かった

•どうみても「一発屋」

技術目標:低遅延を達成することがシステムパフォーマンスを高める

•ターゲット• 10μsecオーダーを目標に設計

• Intel DPDK / FPGA / FPGA on NIC などなど

• 1μSec以下の領域• FPGA,ASICやカスタムチップ

ORC2013ULTRA200 12

Page 13: Interop 2013 ORC ULTRA200 Project

今できる.遅延を削り込むアプローチ

•NIC側のオフロードエンジンの有効利用

• PCI-E3.0端境期のSandy-Bridge世代をオーバクロックして,NICへアプリケーションをオフロードしなおしました.

•システムの安定化

•低遅延と広帯域の両立への挑戦

ORC2013ULTRA200 13

Page 14: Interop 2013 ORC ULTRA200 Project

無駄にプロジェクトの場つなぎとしてやってきた低遅延・広帯域L3ルータ「連雀」(Renzyaku)

•低遅延にこだわりつつも,無駄に漢を感じさせるスペック

•無駄に一夜限りの速度にこだわる「SandyBridgeE オーバクロック」

•無駄にポート数を稼いだ10GbE実装「12 x 10GbE SFP+ 」

•無駄にメモリーが搭載「96GB」

•無駄に稼働に2回路必要な大容量電源を搭載「2400W」

•机上設計のみで開発したので,出たとこ勝負でもってきました.

ORC2013ULTRA200 14

Page 15: Interop 2013 ORC ULTRA200 Project

ORC2013 連雀の構成

ORC2013ULTRA200 15

2x10GbE NIC x 6

冷却効率アップのためファンを全交換

Sandybridge-E をオーバクロック

基本性能の向上冷却能力向上(エアーフロー,空冷クーリングユニットを全交換)NICの認識安定性の改良(udev最適化とBIOSのパラメータ調整)

安定性を重視したメモリーおよび,CPUのオーバークロックHyperThreading なし

Page 16: Interop 2013 ORC ULTRA200 Project

ORC2013 連雀の構成

•Linux Kernel (CentOS 6.4)

• Kernel TCP/IPスタック機能相当をNICへオフロード

• Receiver Side Scalingにより,各CPUへの割り込みを分散• IRQのバランス機能をカット

• RX待ち時間を0,バッファリングも最小

• CPU がC1Eステートに入るのを禁止

• CPU SPEED制御をカット

•UserLand

• SELinux / Iptableなし

ORC2013ULTRA200 16

Page 17: Interop 2013 ORC ULTRA200 Project

100Gbps 環境で検証 Splient / IXIA 計測器で計測

ORC2013ULTRA200 17

Page 18: Interop 2013 ORC ULTRA200 Project

連雀の性能評価:低遅延を達成

ORC2013ULTRA200 18

遅延

時間

7μsec~ 18usecを安定して達成

PCI-E 若番Slotが極めて安定

[μsec]

Page 19: Interop 2013 ORC ULTRA200 Project

低遅延かつ100Gbpsを達成フルメッシュパターンでトラフィック計測

•送信側

ORC2013ULTRA200 19

•受信側

ロスなし

Page 20: Interop 2013 ORC ULTRA200 Project

オーバークロックが与える低遅延化

•CPUベースクロックをクロックアップすることにより,メモリー速度がアップ

•低遅延化に貢献することが分かる

• CPU倍率を上げても低遅延化には効果がない.

ORC2013ULTRA200 20

CPUベースクロックBCLK 101

CPUベースクロックBCLK 104

Page 21: Interop 2013 ORC ULTRA200 Project

ORC2012 からORC2013への進化

ORC2012 大沢 ORC2013 連雀

アーキテクチャ Nehalem Sandy-bridge-E 3.1GHz

overclock

帯域(L3フォワーディング)

42Gbps 110Gbps越え

遅延 12msec 7.9μsec

ORC2013ULTRA200 21

場つなぎ世代として開発されたんですが,連雀の功績は大きい

PCの創意工夫を重ねれば,新しい世界に突入できることを実証

Page 22: Interop 2013 ORC ULTRA200 Project

ULTRA-Xに向けて,さらなる検証

•ORCは,正確な計測器で客観的にデータがとれる貴重な機会

•今後の開発目標を立てる上で,

•オーバークロックによる低遅延化への効果を検証

•さらに広帯域を稼ぐにはどうしたらよいか?

ORC2013ULTRA200 22

Page 23: Interop 2013 ORC ULTRA200 Project

オーバクロックによる遅延の検証

ORC2013ULTRA200 23

カラ割して,液体金属に交換,オーバクロック化

Corei7-4770K3.5GHz 8.6μs

3.7GHz 5.9μs

4GHz 7.6μs

4.5GHz 15μs

もはやルータ開発じゃない

オレオスペック@秋葉原へゴー

Page 24: Interop 2013 ORC ULTRA200 Project

ORC2013でのULTRA200の結論

•オーバークロック・カーネル・ユーザーランドチューニングと性能の相関関係を明確化•クロックアップにより低遅延性能アップ

• メモリーオーバクロック

• CPU倍率オーバクロックは性能に影響しない

•伸びしろはあるとみました.•高性能なHaswell マイクロアーキテクチャM/B (2013.7~)

• NICベンダーからのPCI-E3.0カード Full 40GbE (2013.9~)

まだ絞り出す余裕がでてくると考えています.

•帯域面については,次世代のNICが今年度登場• PCI-E3.0 40Gbps フルスペック NIC

•今後もPC/FPGA技術に注力して,ULTRA400へバージョンアップ•来年は,L3で倍, 200Gbps伝送かつ低遅延を達成したい.

ORC2013ULTRA200 24


Top Related