moving computation to the data (1)

Moving Computation to the Data@kazunori_279

自己紹介

@kazunori_279● クラウドやビッグデータ関連の仕事

○ appengine ja night管理人

● HDL歴は数か月○ DE0で勉強中。やっと4bit CPUが動いた

○ FPGAエクストリームコンピューティング（勉強会）始めま

した

Disclaimer

● 専門外なので見当違いなこと書いてるかも● 個人の研究であり、私の雇用主とは関係ありま

せん● 引用した図には引用元のリンクが張ってありま

す

アジェンダ

● なぜFPGAが気になるか● Moving Computation to the Data● 最近の業界動向● 金融分野はさらに先に進んでいた● そしてMemcached＋FPGAが熱い● なぜMemcachedはFPGA実装で速くなる？

FPGAエクストリームコンピューティング

http://connpass.com/event/3666/

なぜFPGAが気になるかというと...

ノイマンがボトルネックだから

頭の回転は速いがどう考えても

ここがネックだろ...

ノイマン型CPU

皆さん順番にディスク→メモリ→キャッシュ→レジスタってコピーしてきてくださいねどんな大きいデータも 64bitずつ計算してるしOSさんも忙しいからあと何1000クロックか待っててね

http://www.tumblr.com/tagged/von%20neumann

アプリ屋だってワイヤードロジックで並列処理したい！

CPUやOSを介さず1024並列でワイヤスピードで処理してます（キリッ...とか言ってみたい

FPGAのコモディティ化による破壊的イノベーション

● いまやリコンフィギャラブルコンピューティングが1万円で○ CPUもOSもTCPもとばしてFPGAでア

プリ処理を書ける

○ アプリ開発者がアプリごとに専用ハード

設計できる時代に○ しかも自宅で○ これってMakerムーブメントだ○ 昔の8bitマイコンみたい

http://www.terasic.com.tw/cgi-bin/page/archive.pl?No=364

FPGAは電力性能比がケタ違いに高い

● 大規模データセンターでは電力性能比がネック○ データセンターに供給可能な電力量には限り

がある○ 例えば、１か所につき数MW程度○ データセンターが提供できる処理能力は

サーバーの電力性能比によって大きく左右される

しかしアプリ処理のフルFPGA実装はハードルが高い...

CPUとFPGAの適材適所がキモ

ややこしいロジックはCPUで● ストリーミングの前処理● 認証、OLTP、トランザクション● セッション管理、例外処理、UI/CLI/API

大量・並列処理はFPGAで● CPUやOSを経ないストリーミング、RDMA● ログ集計、パース、ウィンドウ処理● ソート、ジョイン、マージ、パターンマッチング● メディア配信・画像処理・数値演算・暗号化

→ARM+FPGA混載コアがおもしろい● Xilinx Zynq● Altera SoC● 既存アプリの一部分のみアクセラレーションできる

http://www.eetimes.com/document.asp?doc_id=1262996

ARM+FPGAが

データセンターにやってくる

http://itpro.nikkeibp.co.jp/article/NEWS/20131105/516063/

CPUとFPGAはどう連携するか？↓

Moving Computation to the Data

Alteraいわく：（計算機にデータを持っていくのではなくて）

データのある場所に計算を持っていく

http://www.flaggmgmt.com/hpc/PPT/2013%20HPC%20Session%207-Nick%20Finamore%209.16.13.pdf

データのある場所で計算する

データのあるストレージやネットワークに計算させようそんな事例が増えている：Violin Memory, IBM Netezza, HFT...


従来型のアーキテクチャ：「ビッグデータ」の時代なのに、あいかわらず細切れにしてCPUで逐次処理って...


新しいアーキテクチャ：低コスト・大容量化したFPGAで、アプリ処理できるインテリ

ジェントなI/Oを実装

Edge-Heavy Dataに似てる

http://www.gictf.jp/doc/20120709GICTF.pdf

http://www.gictf.jp/doc/20120709GICTF.pdf

Moving Computation to the Dataっぽい最近の業界動向

IBM Netezza: ストレージ層のFPGAで大規模データのフィルタリング

http://thinkit.co.jp/article/1161/1?page=0,0

XilinxによるZynqデモ：OpenCVの動画処理をARM+FPGAで100倍高速化

CPUではカクカクな処理がFPGA連携時はヌルヌルに（1:30あたり）

http://www.youtube.com/watch?v=xPQSao98Ke4

HPの次世代サーバMoonshotSRC Computerと連携しFPGA搭載

http://www.computerworld.com/s/article/9238245/HP_to_customize_Moonshot_offerings_offer_ARM_and_Xeon_chips



IBM POWER8のCAPI：外部FPGA/ASICと高速キャッシュ同期

https://twitter.com/Daniel_Bowers/status/372101503936253952/photo/1

Seagateのkey/value Ethernet drive

HDD/SSDがそのままKey Value Storeに...!● CPU/OS/TCPのオーバーヘッドなし

http://www.seagate.com/tech-insights/kinetic-vision-how-seagate-new-developer-tools-meets-the-needs-of-cloud-storage-platforms-master-ti/

金融分野のHFTやHPCはさらに先に進んでいた

FPGAスイッチArista 7124FXによるHigh Frequency Trading

High Frequency TradingのFPGA化● 数msの遅れが数千万、数億規模の

損失を生む

● FPGA搭載NICでトレーディング○ TCPや取引アルゴリズムのFPGA実装○ CPU/OSを介さず低遅延を保証

● FPGA搭載アプリケーションスイッチArista 7124FX○ 株価がサーバーに届く前にスイッチが株の

売り買い

http://d.hatena.ne.jp/kazunori_279/20130107/1357521548


http://www.aristanetworks.com/jp/products/7100series/7124fx/7124fx-datasheet

http://www.aristanetworks.com/jp/products/7100series/7124fx/7124fx-datasheet

http://www.hftreview.com/pg/blog/arista/read/56155/accelerating-transactions-through-fpgaenabled-switching

https://twitter.com/starrcap/status/301337430160715776/photo/1

取引アルゴリズムはx86でオーダー執行はFPGAで

http://www.hftreview.com/pg/blog/mike/read/125000/how-to-reduce-latency-by-running-trading-algorithms-in-a-switch

株価のパケットが届き終わる前にオーダーのパケットを送り始める（怖

執行条件に合致しなければ最後にチェックサムずらしてパケットを破棄。市場

データ到着から25 nsで発注完了。投機市場だけに投機実行ってことか



JP Morgan+Maxelerによる債権リスク評価専用FPGAクラスタ

● 40台で処理時間を8時間から4分に短縮



JP Morgan+Maxelerによる債権リスク評価専用FPGAクラスタ

“FPGAを使うことで数100段といった非常に深い演算パイプラインと、とても細かい粒度での並列化によるストリーム・コンピューティングを実現できるからだ。これにより、CPUに比べ数100倍のスループットを得られるケースもある。”

そしてMemcached＋FPGA

が熱い

ConveyのMemcachedアプライアンス

● 2013年9月発表

http://www.hpcuserforum.com/presentations/tuscon2013/ConveyWallach.pdf

http://www.enterprisetech.com/2013/09/24/convey-revs-memcached-hybrid-x86-fpga-appliance/

ConveyのMemcachedアプライアンスx86とFPGAのハイブリッド


ConveyのMemcachedアプライアンス

x86サーバーの7倍のスループット、遅延は1/5

http://www.enterprisetech.com/2013/09/24/convey-revs-memcached-hybrid-x86-fpga-appliance/

ConveyのFPGAマシン

他にもいろいろ速い

● ゲノム解析● グラフ● 文字列の編集距離● 文字列の近似検索



なぜMemcachedはFPGA実装で速くなるか？

Memcached＋FPGAの論文が増えた

● An FPGA memcached appliance○ HP Labs, Univ. of Massachusetts Lowell○ FPGA '13○ 内容：FPGAでMemcachedを実装してみた

● Achieving 10Gbps Line-rate Key-value Stores with FPGAs○ Xilinx, ETH Zurich○ HotCloud '13○ 内容：実効レート10GbpsのMemcached（白目

http://dl.acm.org/citation.cfm?id=2435264.2435306

http://dl.acm.org/citation.cfm?id=2435264.2435306

https://www.usenix.org/conference/hotcloud13/achieving-10gbps-line-rate-key-value-stores-fpgas




Memcached＋FPGAの論文が増えた

● Thin Servers with Smart Pipes: Designing SoC Accelerators for Memcached○ HP Labs, Facebook, ARM, Univ. of Michigan○ ISCA 2013○ 内容：FPGAとCPUによるハイブリッド実装の提案

HPとFacebookとARM！

http://web.eecs.umich.edu/~twenisch/papers/isca13.pdf




x86上のMemcachedのボトルネックを探る

● 100台のMemcachedクライアントと5種類の負荷を再現○ 固定サイズ（128B）○ マイクロブログ（平均1KB）○ Wiki（平均2.8KB）○ サムネイル（平均25KB）○ FriendFeed（MULTI-GET）

● テスト対象サーバー○ Xeonベースのハイエンドサーバー

■ 2.25GHz x 6コアXeon／12GBメモリ／10GbE NIC○ Atomベースの低消費電力サーバー

■ 1.6GHz x 2コアAtom／4GBメモリ／10GbE NIC

ボトルネックその１：命令キャッシュ

● 命令キャッシュのボトルネック

○ SPEC CPU 2006 integerベンチマークとの比較では、Memcachedでは最

大15倍も低い。これはLinuxカーネルとネットワークスタックのコード量の大

きさによるものである

● ITLBのボトルネック

○ AtomではITLBの不足によりミス率がXeonに比べてきわめて高い


ボトルネックその２：分岐予測の失敗

● 分岐予測の失敗によるボトルネック

○ マイクロブログにおける実行時間の大きい上位50個の関数のうち、予測失

敗率が10%以上のもののリスト。TCPスタック、デバイスレイヤ、NICドライ

バなど。プロトコルの複雑さ、同期時の競合発生などの理由により分岐が

不規則であり予測が困難


● ボトルネックの原因は「OSカーネル、ネットワーク・スタック、

NICドライバのコードの長さ」○ 命令ストリームのボトルネックが発生

○ 仮にスループットがリニアにスケールしたとしても、1GbE帯域を使い切るに

は6コア、10GbEでは64コアのXeonが必要

Memcachedのボトルネック

http://news.techgenie.com/technology/tips-to-configuring-telnet-server-in-linux/

http://used.dospara.co.jp/sale/detail.php?serialno=83280000061861

CPU+FPGAによるボトルネック解消：TSSP: Thin Server, Smart Pipe● 複雑な処理はソフトウェア（Thin Server）で● 簡単・大容量処理はハードウェア（Smart Pipes）で


TSSPによるMemcachedの実装

● MemcachedのGETをSoC上でハードウェア実装する○ MemcachedのGET/SET比は最大30:1、GETは全体の97%を占める。

ハードウェアで実装の困難な複雑な機能はソフトウェアでカバーする

○ GETにはUDPを使い、SETにはTCPを使う。Memcachedはそもそもベスト

エフォートな使い方なのでUDPで問題ない

● ハッシュテーブル検索とKVSを分け、前者はハードで効率

的に実行○ デコードされたリクエスト中のキー情報はハッシュテーブル検索ハードに渡

される

ハッシュテーブル実装● KVを保存するメモリ領域の管理はソフトウェアで

● ハッシュテーブル管理はハードで


性能評価

● MemcachedのFPGA実装（冒頭の論文）を用い、GETのみハードで実装

○ Altera DE4 (Stratix IV 530 FPGA), 4GB DDR2 x 2, GbE x 4● この既存実装での評価結果を元に、Zynq上でTSSPを実装した場合の電力性

能比を推量。Xeonの6倍、Atomの16倍を見込んでいる


まとめ

まとめ

● ARM+FPGAのコモディティ化のインパクト○ しかしFPGA開発のコストは高い○ CPUとFPGAの適材適所が焦点に

● Moving Computation to the Data○ データのある場所で計算する、というパラダイム○ Thin Server, Smart Pipes

● FPGAがデータセンタにやってくる○ Memcached/MapReduceアプライアンス○ データベース/KVS○ … and more!

Questions?

moving computation to the data (1)

Documents