hadoop / spark conference japan 2016 参加報告
Post on 23-Feb-2017
405 Views
Preview:
TRANSCRIPT
HADOOP / SPARK CONFERENCE JAPAN 2016参加報告
基調講演
ご挨拶、Hadoopを取り巻く環境2016Hadoopの現在と未来Yahoo!Japanのデータプラットフォームの 全体像と未来
基調講演
ご挨拶、Hadoopを取り巻く環境2016Hadoopの現在と未来Yahoo!Japanのデータプラットフォームの 全体像と未来
今回のHCJ
Hadoop10周年Hadoop Conference Japan 6回目、7年目1347人が参加、そのうち63%が初参加Spark Conference初開催
多様化するHADOOP
多数のディストリビューション・周辺ミドルウェア
今はHadoopにとって過渡期かつてはLinuxも同じ状況だった徐々に収束していくはず
基調講演
ご挨拶、Hadoopを取り巻く環境2016Hadoopの現在と未来Yahoo!Japanのデータプラットフォームの 全体像と未来
HADOOPの過去
Hadoopとは?複数のサーバを束ねてひとつの処理システムとして透過的に扱うシステム
従来はHDFS+MapReduceHadoopを皮切りに他にも様々な分散処理系が登場
e.x. Spark, Hive, Storm ...昔はHadoop≒MapReduce
HADOOPの現在
YARNリソース管理のミドルウェアMapReduceもYARN上で動作する一処理系でしかなくなる
得意な処理系が得意なタスクをやる
今はHadoop≒YARN
HADOOPの未来
現在の分散処理ミドルウェアは
従来のハードウェアを想定
CPU, メモリ, HDD新しいハードウェアの登場
CPU => GPU, FPGAGoogle TensorFlow, Microsoft Project Catapult
メモリ => NVMHDD => SSD
Apache KuduYARNも様々な計算リソースに対応する データセンターOSとして進化を遂げていく
基調講演
ご挨拶、Hadoopを取り巻く環境2016Hadoopの現在と未来Yahoo!Japanのデータプラットフォームの 全体像と未来
YAHOO!JAPANのデータプラットフォームの全体像と未来
現在の構成
Hadoopクラスタ: 6000ノード・120PBPercona, Oracle, Teradata, Cassandra, ...
これからの構成
Presto, Spark, LLAP, ...Our Issues = データ需要の指数関数的増大
データ量は4倍/年3000台のHadoopクラスタを8ヶ月で使い切る
Hortonworksと技術提携し、使う側から作る側へ
聴講した発表
さくらインターネットが構築した、Apache Sparkによる原価計算システムの 仕組みとその背景
SparkによるGISデータを題材とした時系列データ処理Hive On Sparkを活用した高速データ分析次世代アーキテクチャから見たHadoop/Sparkの位置づけ
聴講した発表
さくらインターネットが構築した、Apache Sparkによる原価計算システムの 仕組みとその背景
SparkによるGISデータを題材とした時系列データ処理Hive On Sparkを活用した高速データ分析次世代アーキテクチャから見たHadoop/Sparkの位置づけ
さくらインターネットについて
主なサービスは「ハウジング」と「ホスティング」
データセンターは東京・大阪・北海道石狩の3ヶ所事業のポイント
垂直統合型経営
土地から建物(データセンター)からサーバまで持つ経営
規模の追求
エネルギー効率、面積効率、回線効率などの追求いわゆる規模の経済
背景
「持つ経営」の成長=資産が増える原価計算が重要
投下した資本は回収できているか?サービスの提供にどのくらいのコストがかかるか?
以前はExcelで人手で集計時間がかかる
入力ミスの発生
目標
原価計算の精緻化と迅速化
データの整備と社員の意識向上分散処理基盤の知見を積む
やり方
ノーチラステクノロジーズと協力
Asakusa FrameworkとSpark土地・建物などの資産をノードとしてツリー構造で表す
最終的にバッチができる
聴講した発表
さくらインターネットが構築した、Apache Sparkによる原価計算システムの 仕組みとその背景
SparkによるGISデータを題材とした時系列データ処理Hive On Sparkを活用した高速データ分析次世代アーキテクチャから見たHadoop/Sparkの位置づけ
IHIにおけるデータ収集・データ解析
データ収集
製品のセンサデータe.x. 圧力・温度・流量, ...メンテナンス・設計へのフィードバック
GISデータe.x. 経度・緯度・速度新サービス開発
IHIには独自のメトリクス収集・監視システムが存在
分析にはPythonやRを使用実用的な処理時間・柔軟性などからHadoopやSparkに注目
目標
港湾の混雑予測にGISデータを活用する
問題設定
GISデータ
動的な情報
データ受信時刻、座標、速度静的な情報
移動体id、目的地、到着予想時刻
移動体の座標や速度から
ある時点での港湾内の移動体の数を予測
課題
GISデータなどの多変量時系列データは データの並び順が重要
Sparkのいくつかの処理(shuffleなど)は データの並び順を保証しない
解決策
移動体ごとの時系列データをレコードとしてひとまとめにする
長所
各移動体のレコードはランダムにならないので時系列データを元の並び順で扱える
短所
移動体ごとのレコードの長さが異なるためスケーラビリティが出づらい?
移動体ごとのレコード長比較、レコード長の偏りの有無におけるスケーラビリティを調査
聴講した発表
さくらインターネットが構築した、Apache Sparkによる原価計算システムの 仕組みとその背景
SparkによるGISデータを題材とした時系列データ処理Hive On Sparkを活用した高速データ分析次世代アーキテクチャから見たHadoop/Sparkの位置づけ
課題
Hiveが遅いクエリのデバッグ
データ量の増加による実行時間の増大
SQL ON HADOOP
HiveHive on MapReduce <= 以前はこれHive on SparkHive on Tez
SparkSparkSQLDataframe
ImpalaApache DrillPresto
HIVE ON SPARK導入の理由
クエリの書き換え不要
学習コストの低さ
HiveクエリとSpark運用知識があれば
聴講した発表
さくらインターネットが構築した、Apache Sparkによる原価計算システムの 仕組みとその背景
SparkによるGISデータを題材とした時系列データ処理Hive On Sparkを活用した高速データ分析次世代アーキテクチャから見たHadoop/Sparkの位置づけ
日本市場にHADOOPは合わない
Hadoopは100ノード以上の大規模クラスタが対象
障害対策
頻繁な同期
チェックポイントの設定
中間データを複製・ディスクに書き込み
日本のユーザ層は数ノード~数十ノードが多数
数ノードで障害は顕在化しない障害対策のせいでノード数の割には遅い
これからのアーキテクチャ
ムーアの法則の終了
メニーコア化メモリーバスの強化ストレージIOの低減
サーバクラスタの凝集化
RSA(Intel), TheMachine(HP), Firebox(AMPLab)日本市場にはこちらの方が合う?
Asakusa Frameworkの方向性もこちら
個人的感想
さらに進化するHadoop新しいハードウェアへの対応
さらに浸透するHadoopWeb系企業のみならず 某小売り店や某メーカーにおける導入事例など
その一方Hadoopでカバーできないケースも
HadoopはLinuxの夢を見るか?
参考URLなど
ご挨拶、Hadoopを取り巻く環境2016濱野さん (日本Hadoopユーザー会、NTTデータ)
Hadoopの現在と未来鯵坂さん、小沢さん (Hadoopコミッタ)
Yahoo!Japanのデータプラットフォームの 全体像と未来
遠藤さん (Yahoo!Japan)
発表資料
発表資料
参考記事
参考URLなど
さくらインターネットが構築した、Apache Sparkによる原価計算システムの 仕組みとその背景
須藤さん (さくらインターネット)
SparkによるGISデータを題材とした時系列データ処理鈴木さん (IHI), 土橋さん (NTTデータ)
参考記事
発表資料
参考URLなど
Hive On Sparkを活用した高速データ分析加嵜さん (DMM.comラボ)
次世代アーキテクチャから見たHadoop/Sparkの位置づけ
神林さん (ノーチラステクノロジーズ)
発表資料
参考記事
top related