apache big data north america 2016, spark summit 2016 会 · pdf fileintelやnetflix,ebay...

3
NTT技術ジャーナル 2016.10 68 グローバルスタンダード最前線 オープンソースソフトウェア (OSS)のビッグデータ処理基盤に 関する会議として,2016年 5 月 9 〜 12日 に カ ナ ダ の バ ン ク ー バ で Apache Big Data North America 2016が,2016年 6 月 6 〜 8 日 に 米 国 のサンフランシスコでSpark Summit 2016が,それぞれ開催されました. ここでは各々の会議の概要と主なト ピックを報告します. Apache Big Data North America Apache Big Data North America は,Apache Software Foundation が 主催する,オープンソースソフトウェ ア(OSS)のビッグデータ処理基盤 に関する最大規模の会議です.今や, Apache Hadoop (1) を皮切りに,Apache Spark (2) ,Apache Kafka (3) ,Apache Cassandra (4) など,多種多様なビッグ データを処理 ・ 格納する基盤に関する 発表が行われます.また当会議は,そ の他の有償イベントと比較すると,ソ フトウェアベンダ色が薄い一方で, OSS開発者の参加率が高く,OSSコ ミュニティの色が強く出た会議となっ ていることが特徴です.その表れとし て,セッションの合間のコーヒーブレ イクの時間には,各種ソフトウェアに 関する情報交換や,コラボレーション の打診などがみられます. Apache Big Data North America 2016会議概要 Apache Big Data North America 2016 (5) は,2016年 5 月 9 〜12日 に カ ナダのバンクーバで開催されました. OSSを積極的に利用 ・ 開発している 企業からの参加者が多く,海外からは IntelやNetflix,eBay, 日 本 か ら は NTTグループのほか,ヤフーやリク ルートなどが参加していました. Apache Big Data North America 2016ユーザ企業事例 今年の発表タイトルの関連キーワー ドについて多い順に並べると, Spark,Hadoop,Kafka,Cassandra となり,これらの発表だけでも55セッ ションありました. NetflixのBrian氏は,「How Netflix Leverages Big Data」というタイトルの Keynoteにて,Apache Software Foun- dationのOSSがNetflixで ど の よ う に 利用されているかについて述べまし た.Netflix は世界中に8100万人以上 の会員を有するビデオ配信サービス で, 1 日当り 1 億2500万時間以上も のビデオを配信している会社です.驚 くべきことに,Netflix の配信トラ フィック量は,北米のインターネット トラフィックの 3 分の 1 を占めると のことです.Netflixは,ビッグデー タを用いた,サービスの創出 ・ 改善を 得意とする会社です. 1 日に 3 ペタ バイト以上のデータを処理し,優良な コンテンツの制作 ・ 配信 ・ 提供を行う ことに努めています.この大量のデー タから,端末に表示される画面をどの ようなデザインにすると視聴率が上が るのか,どのようなコンテンツをユー ザに推薦すると視聴率が上がるのか, などといったサービスの改善を行う際 に 活 用 さ れ て い る の が,Apache Software Foundationの下で開発され ているH a d o o p , S p a r k , Kafka, Cassandraといったビッグデータ処理 のためのOSSです. Spark Summit Spark Summitは2013年から開催さ れ,2015年度から米国の東 ・ 西海岸 とEUで年 3 回行われるSparkの開発 者とユーザが一堂に会する会議です. この会議では開発コミュニティによる 最新機能の紹介や,ユーザ企業による Sparkの適用事例 ・ 運用に関するノウ ハウの共有が行われます. Sparkはカルフォルニア大学バーク レ ー 校 のAMPLabで 生 ま れ, 現 在 Databricks社を中心に開発されている Apache Big Data North America 2016, Spark Summit 2016 会議報告 やまむろ たけし /小 NTTソフトウェアイノベーションセンタ

Upload: buicong

Post on 05-Feb-2018

216 views

Category:

Documents


2 download

TRANSCRIPT

Page 1: Apache Big Data North America 2016, Spark Summit 2016 会  · PDF fileIntelやNetflix,eBay ... ているHadoop,Spark, Kafka ... ング言語(Scala

NTT技術ジャーナル 2016.1068

グローバルスタンダード最前線

オ ー プ ン ソ ー ス ソ フ ト ウ ェ ア(OSS)のビッグデータ処理基盤に関する会議として,2016年 5 月 9 〜 12日 に カ ナ ダ の バ ン ク ー バ でApache Big Data North America 2016が,2016年 6 月 6 〜 8 日に米国のサンフランシスコでSpark Summit 2016が,それぞれ開催されました.ここでは各々の会議の概要と主なトピックを報告します.

Apache Big Data North America

Apache Big Data North America は,Apache Software Foundation が主催する,オープンソースソフトウェア(OSS)のビッグデータ処理基盤に関する最大規模の会議です.今や,Apache Hadoop(1)を皮切りに,Apache Spark(2),Apache Kafka(3),Apache Cassandra(4)など,多種多様なビッグデータを処理 ・ 格納する基盤に関する発表が行われます.また当会議は,その他の有償イベントと比較すると,ソフトウェアベンダ色が薄い一方で,OSS開発者の参加率が高く,OSSコミュニティの色が強く出た会議となっていることが特徴です.その表れとして,セッションの合間のコーヒーブレイクの時間には,各種ソフトウェアに関する情報交換や,コラボレーション

の打診などがみられます.

Apache Big Data North America 2016会議概要

Apache Big Data North America 2016(5)は,2016年 5 月 9 〜12日 に カナダのバンクーバで開催されました.OSSを積極的に利用 ・ 開発している企業からの参加者が多く,海外からは IntelやNetflix,eBay, 日 本 か ら はNTTグループのほか,ヤフーやリクルートなどが参加していました.

Apache Big Data North America 2016ユーザ企業事例

今年の発表タイトルの関連キーワード に つ い て 多 い 順 に 並 べ る と,Spark,Hadoop,Kafka,Cassandraとなり,これらの発表だけでも55セッションありました.

NetflixのBrian氏は,「How Netflix Leverages Big Data」というタイトルのKeynoteにて,Apache Software Foun­dationのOSSがNetflixでどのように利用されているかについて述べました.Netflix は世界中に8100万人以上の会員を有するビデオ配信サービスで, 1 日当り 1 億2500万時間以上ものビデオを配信している会社です.驚くべきことに,Netflix の配信トラフィック量は,北米のインターネット

トラフィックの 3 分の 1 を占めるとのことです.Netflixは,ビッグデータを用いた,サービスの創出 ・ 改善を得意とする会社です. 1 日に 3 ペタバイト以上のデータを処理し,優良なコンテンツの制作 ・ 配信 ・ 提供を行うことに努めています.この大量のデータから,端末に表示される画面をどのようなデザインにすると視聴率が上がるのか,どのようなコンテンツをユーザに推薦すると視聴率が上がるのか,などといったサービスの改善を行う際に 活 用 さ れ て い る の が,Apache Software Foundationの下で開発されているHadoop,Spark, Kafka,Cassandraといったビッグデータ処理のためのOSSです.

Spark Summit

Spark Summitは2013年から開催され,2015年度から米国の東 ・ 西海岸とEUで年 3 回行われるSparkの開発者とユーザが一堂に会する会議です.この会議では開発コミュニティによる最新機能の紹介や,ユーザ企業によるSparkの適用事例 ・ 運用に関するノウハウの共有が行われます.

Sparkはカルフォルニア大学バークレ ー 校 のAMPLabで 生 ま れ, 現 在Databricks社を中心に開発されている

Apache Big Data North America 2016,Spark Summit 2016 会議報告

山やまむろ

室  健たけし

/小お ざ わ

沢 健つ よ し

史NTTソフトウェアイノベーションセンタ

Page 2: Apache Big Data North America 2016, Spark Summit 2016 会  · PDF fileIntelやNetflix,eBay ... ているHadoop,Spark, Kafka ... ング言語(Scala

NTT技術ジャーナル 2016.10 69

OSSの分散処理フレームワークです.分散処理に必要な基盤となる機構に加えて,分析処理で用いられるSQLによるクエリ問合せ,機械学習,ストリーミング処理,グラフ処理のためのライブラリが含まれています.2015年に実施されたSparkに関するアンケート調査(6)による報告ではSparkコミュニティは年々拡大の傾向にあり,今世界で注目を集めているOSSプロダクトの 1 つです.コミュニティによる開発も非常に活発で,2016年の 7 月末にバージョン2.0の正式リリースがされました.

Spark Summit 2016会議概要

Spark Summit 2016(7)は,2016年 6月 6 〜 8 日にサンフランシスコで開催されました.今回は 7 回目の開催で,Sparkの開発 ・ 適用に注力しているIBMを代表としてMicrosoft,Intel,EMCなど数多くの企業から支援を受け,720以上の企業から2500人以上の参加があったと報告されています.

Spark Summit 2016 開発コミュニティ動向

今 回 のSpark Summitで は 翌 月 リリース予定だったバージョン2.0に関する紹介が主で,その特徴として挙げ

ら れ て い た の は 連 続 性(con­tinuousness) と 構 造 化(structura­lization)でした.これはセンサなどのログデータのように連続性を持つ動的なデータに対して,構造化しながら効率的に処理することを意図しています.

Sparkにはバージョン1.0系のころから静的な構造化データを操作するためのDataFrame/Datasetと呼ばれるAPIが用意されていましたが,バージョン2.0系ではこのAPIを用いて動的なデータも扱えるようになります.これはStructured Streamingという名で,現在コミュニティで集中して開発されている機能の 1 つです.

その他の開発者によるセッションでは,特にユーザの興味の高いメモリ管理やクエリ最適化に関する話題が注目を浴びていました.Sparkはまだまだ発展途上で未成熟な部分も多いですが,コミュニティの規模は拡大しており,その活動は活発であるため,今後の進展に期待ができると思います.

Spark Summit 2016 ユーザ企業事例

Sparkにはさまざまな分析処理に必要なライブラリが含まれているため,ユーザ企業による事例も多様ですが,特に利用事例の多い傾向にあるのは

Spark Streamingです.この機能はバージョン0.7から実装されています.Spark Streamingは動的なデータを扱う と い う 点 で は 現 在 開 発 中 のStructured Streamingと同様であること,また機能に制限が多いことが以前から指摘されているため,長期的にはより高機能なStructured Streamingに置き換わることが予想されます.

今回のSpark SummitではMicrosoftが日々生成される検索サービスBingのユーザログ分析の事例や,宿泊施設 ・ 民宿の貸し出しサービスで名高いAirbnbの行動分析の事例が発表されていました.これらの事例で共通している点は,分散メッセージ処理基盤 Kafkaと組み合わせて用いられていることです.

Kafkaは生成されたデータを蓄積して,Sparkに配信するために用いられています.Sparkと同様のプログラミング言語(Scala)で開発されているこ と か ら 相 性 が 良 く,Spark Streamingを用いる際の構成として事実上の標準になりつつあります.2016年 1 月にIBMが買収完了を発表した米国の気象情報会社であるWeather Companyの事例では,日々数ペタバイトのデータが生成され,データの処理にSparkが用いられているとのことです.

Page 3: Apache Big Data North America 2016, Spark Summit 2016 会  · PDF fileIntelやNetflix,eBay ... ているHadoop,Spark, Kafka ... ング言語(Scala

NTT技術ジャーナル 2016.1070

グローバルスタンダード最前線

このように近年徐々に規模の大きな事例も増えつつあり,より適用範囲が拡大していくことが予想されます.

NTTソフトウェアイノベーション センタの関連する取り組み

NTTソフトウェアイノベーションセンタでは,今回報告した 2 つの会議に共通するテーマであるビッグデータ処理基盤に関する研究開発を行っています.最後に同会議に関連して私たちの取り組みの 1 つを紹介したいと思います.

筆 者 は,Apache Big Data North America 2016で,開発に参加しているHadoopの計算機資源割当ての管理を行う機能に関する発表を行いました(8).

現地ではこの発表に関連して,さまざまな開発者と議論を行うことができました.例えば,GPGPU や FPGAのようなアクセラレータなど,多種多様なデバイスを Hadoop の中でどのように活かしていくべきか,FPGA の研究を行っているトロント大学の開発者と議論することができました.

既存の Hadoop では,CPU コアとメモリを単位として計算機資源の割当てを行っています.しかしながら, アクセラレータが計算機資源として導入されたときに,どのように計算機資源

の分割や割当てを行うべきかについては,自明ではありません.アクセラレータの場合,①科学技術計算のように,計算そのものがボトルネックとなる処理と,②大量のデータから特定のパターンのデータを抽出する処理のように,利用帯域がボトルネックとなる処理があり,それぞれ求められる計算機資源の分割方針が異なるためです.①に対しては,アクセラレータに搭載されている論理ユニット数を区切る方法で,②に対しては,アクセラレータが利用しているバス幅を区切る方法で,資源を分割する必要があります.利用用途によっては,両方の計算機資源分割をうまく組み合わせた方法を検討するべきであることが,議論によって明確となりました.現在のHadoop の挙動との互換性等を考えると,変更点が多く一筋縄ではいかないのですが,深層学習を主としたアクセラレータによる計算の需要が高まりつつあるため, Hadoop 側でも対応していく必要があると考えています.

■参考文献(1) http://hadoop.apache.org/(2) http://spark.apache.org/(3) http://kafka.apache.org/(4) http://cassandra.apache.org/(5) http://events.linuxfoundation.org/events/

apache­big­data­north­america(6) https://databricks.com/blog/2015/09/24/

spark­survey­2015­results­are­now­available.html

(7) https://spark­summit.org/2016/(8) https://apachebigdata2016.sched.org/

event/6M0N/yarn­a­resource­manager­for­analytic­platform­tsuyoshi­ozawa­ntt