interop 2013 orc ultra200 project
DESCRIPTION
ULTRA project is R&D project for developing very powerful IP traffic engineering system for astronomy data. In Interop Tokyo 2013 ORC, ULTRA project announced the 2nd generation IP router system, "Renjyaku". It has over 100Gbps IP forwarding capability with 7.9usec low latency forwarding architecture. This system is based on Intel SandyBridge-E micro architecture and offloaded TCP/IP stack on Linux kernel to 10GbE NIC.TRANSCRIPT
ULTRA200~PC世界最速を目指す~
大江@国立天文台
ORC2013ULTRA200 1
今年も東陽テクニカ様・IXIA様のご協力に深く感謝いたします.
天体望遠鏡とデジタル化の今
高感度CCD -100℃に冷却合計約8億7000万画素
観測した天体のデジタルデータ
巨大なデジタルカメラ
すばる望遠鏡のあたしい目HSC: Hyper-Suprime-Cam
すばる望遠鏡
ORC2013ULTRA200 2
天文台でなんでネットワークなんよ?
観測データを各所へ伝送・アーカイブ
•マウナケア山頂(米国ハワイ)のすばる望遠鏡からの観測データは,各所でアーカイブされ,後に公開されます.
•貴重な観測結果を各所に伝送(地理的に分散)し,アーカイブ• 望遠鏡を利用する研究者が天体・観測方法を定め観測する
•アーカイブされた観測データを世界中の研究者が異なる視点で再活用• アーカイブを利用した天文観測という分野
ネットの活用が天文学を支えています.
すばる望遠鏡
マウナケア山頂4200m
Hilo オフィス(Base facility)
三鷹本部
米国ハワイ島
観測結果をIPで送信
観測結果をIPで送信
1次アーカイブ2次アーカイブ
インターネットなどで公開
研究者(観測者)
世界中の研究者
日本国東京 全世界約6400km
ORC2013ULTRA200 3
ULTRA計画の背景
4
• 天文学を支えるハイパフォーマンスなネットワークシステムへの要求– 天文学専用スパコンシステム(岩手・
東京)• 500Tflops 演算ノード (岩手)
• ストレージノード(東京)
– VLBI観測システム(東京・岩手・沖縄・等)• 観測ノード(各所)
• 解析ノード(東京)
今,演算・ストレージ・IPネットワークを効率よく連携させる仕組みが自然科学の発展には必要不可欠必要
計算ノード
ストレージ
ORC2013ULTRA200
コストの観点から見る開発ゾーン
コスト
性能
カスタムASIC
(PC +) FPGA
(PC +) FPGA on NIC
この領域がULTRA計画の開発ゾーン5ORC2013ULTRA200
PC+NIC 40Gbps FPGA
フルカスタムチップ
20Gbps
NIC + FPGA
PC + NIC
ORC2012「大沢」
•大沢の成果
正確な計測器により,ネハレムアーキテクチャにて,高性能なNICをソフトウェアチューニングを実施することで,1サーバで
• 100Gbpsのコンテンツ送信性能
• 40Gbps程度のL3フォワーディング性能
を有することをを客観的に示した.
ORC2013ULTRA200 6
100Gbps達成
ORC2012燃え尽きました・・どうしたら高性能になる?
•PCの性能を搾りきる限界をORC2012で体験
•燃え尽きました
•壁にぶち当たる
•FPGAのアシスト構成
•開発コストが厳しい• Arista 7124FX FPGA BOX
• Xilinx Kintex 7
•PCをさらに絞り出す
• Intel DPDK ポーリングベースの信号処理• 開発キット処理遅延が大きい
• ORCにはそぐわない点
ORC2013ULTRA200 7
FGPAなど高価なハードウェアならでわの領域
安価なPCで踏み込める領域
ORC2012の検証
8
低遅延性能
広帯域
ORC2013ULTRA200
FGPAなど高価なハードウェアならでわの領域
安価なPCで踏み込める領域
ORC2012の検証
9
低遅延性能
広帯域
2012 ULTRA40 大沢45Gbps / 12msec2011 PCルータ
20Gbps ?msec
ORC2013ULTRA200
FGPAなど高価なハードウェアならでわの領域
安価なPCで踏み込める領域
PC + NIC(Offload NIC)の性能向上方向性?
ORC2012の検証
10
低遅延性能
広帯域
2012 ULTRA40 大沢45Gbps / 12msec
2011 PCルータ20Gbps ?msec
ORC2013ULTRA200
FGPAなど高価なハードウェアならでわの領域
安価なPCで踏み込める領域
PC + NIC(Offload NIC)の性能向上方向性?
ORC2012の検証
11
低遅延性能
広帯域
2012 ULTRA40 大沢45Gbps / 12msec
2011 PCルータ20Gbps ?msec
ORC2013 ULTRA200での挑戦すべき方向性
非常識ですが風穴をあけてみたい
ORC2013ULTRA200
遅延:アプリケーションを悩ますボトルネック
•広帯域化におけるPCルータやサーバの課題• 10/40Gbpsを生かしきる広帯域かつ低遅延の両立が必要不可欠
•ORC2012では,帯域が大きかったが遅延は12msecと悪かった
•どうみても「一発屋」
技術目標:低遅延を達成することがシステムパフォーマンスを高める
•ターゲット• 10μsecオーダーを目標に設計
• Intel DPDK / FPGA / FPGA on NIC などなど
• 1μSec以下の領域• FPGA,ASICやカスタムチップ
ORC2013ULTRA200 12
今できる.遅延を削り込むアプローチ
•NIC側のオフロードエンジンの有効利用
• PCI-E3.0端境期のSandy-Bridge世代をオーバクロックして,NICへアプリケーションをオフロードしなおしました.
•システムの安定化
•低遅延と広帯域の両立への挑戦
ORC2013ULTRA200 13
無駄にプロジェクトの場つなぎとしてやってきた低遅延・広帯域L3ルータ「連雀」(Renzyaku)
•低遅延にこだわりつつも,無駄に漢を感じさせるスペック
•無駄に一夜限りの速度にこだわる「SandyBridgeE オーバクロック」
•無駄にポート数を稼いだ10GbE実装「12 x 10GbE SFP+ 」
•無駄にメモリーが搭載「96GB」
•無駄に稼働に2回路必要な大容量電源を搭載「2400W」
•机上設計のみで開発したので,出たとこ勝負でもってきました.
ORC2013ULTRA200 14
ORC2013 連雀の構成
ORC2013ULTRA200 15
2x10GbE NIC x 6
冷却効率アップのためファンを全交換
Sandybridge-E をオーバクロック
基本性能の向上冷却能力向上(エアーフロー,空冷クーリングユニットを全交換)NICの認識安定性の改良(udev最適化とBIOSのパラメータ調整)
安定性を重視したメモリーおよび,CPUのオーバークロックHyperThreading なし
ORC2013 連雀の構成
•Linux Kernel (CentOS 6.4)
• Kernel TCP/IPスタック機能相当をNICへオフロード
• Receiver Side Scalingにより,各CPUへの割り込みを分散• IRQのバランス機能をカット
• RX待ち時間を0,バッファリングも最小
• CPU がC1Eステートに入るのを禁止
• CPU SPEED制御をカット
•UserLand
• SELinux / Iptableなし
ORC2013ULTRA200 16
100Gbps 環境で検証 Splient / IXIA 計測器で計測
ORC2013ULTRA200 17
連雀の性能評価:低遅延を達成
ORC2013ULTRA200 18
遅延
時間
7μsec~ 18usecを安定して達成
PCI-E 若番Slotが極めて安定
[μsec]
低遅延かつ100Gbpsを達成フルメッシュパターンでトラフィック計測
•送信側
ORC2013ULTRA200 19
•受信側
ロスなし
オーバークロックが与える低遅延化
•CPUベースクロックをクロックアップすることにより,メモリー速度がアップ
•低遅延化に貢献することが分かる
• CPU倍率を上げても低遅延化には効果がない.
ORC2013ULTRA200 20
CPUベースクロックBCLK 101
CPUベースクロックBCLK 104
ORC2012 からORC2013への進化
ORC2012 大沢 ORC2013 連雀
アーキテクチャ Nehalem Sandy-bridge-E 3.1GHz
overclock
帯域(L3フォワーディング)
42Gbps 110Gbps越え
遅延 12msec 7.9μsec
ORC2013ULTRA200 21
場つなぎ世代として開発されたんですが,連雀の功績は大きい
PCの創意工夫を重ねれば,新しい世界に突入できることを実証
ULTRA-Xに向けて,さらなる検証
•ORCは,正確な計測器で客観的にデータがとれる貴重な機会
•今後の開発目標を立てる上で,
•オーバークロックによる低遅延化への効果を検証
•さらに広帯域を稼ぐにはどうしたらよいか?
ORC2013ULTRA200 22
オーバクロックによる遅延の検証
ORC2013ULTRA200 23
カラ割して,液体金属に交換,オーバクロック化
Corei7-4770K3.5GHz 8.6μs
3.7GHz 5.9μs
4GHz 7.6μs
4.5GHz 15μs
もはやルータ開発じゃない
オレオスペック@秋葉原へゴー
ORC2013でのULTRA200の結論
•オーバークロック・カーネル・ユーザーランドチューニングと性能の相関関係を明確化•クロックアップにより低遅延性能アップ
• メモリーオーバクロック
• CPU倍率オーバクロックは性能に影響しない
•伸びしろはあるとみました.•高性能なHaswell マイクロアーキテクチャM/B (2013.7~)
• NICベンダーからのPCI-E3.0カード Full 40GbE (2013.9~)
まだ絞り出す余裕がでてくると考えています.
•帯域面については,次世代のNICが今年度登場• PCI-E3.0 40Gbps フルスペック NIC
•今後もPC/FPGA技術に注力して,ULTRA400へバージョンアップ•来年は,L3で倍, 200Gbps伝送かつ低遅延を達成したい.
ORC2013ULTRA200 24