apache atlasの現状とデータガバナンス事例 #hadoopreading

29
Apache Atlasの現状と データガバナンス事例 Hadoop Summit 2016 San Joseの報告会 http://www.yahoo.co.jp/ ヤフー株式会社 曾臻 2016年08月18日

Upload: yahoo

Post on 16-Apr-2017

947 views

Category:

Technology


2 download

TRANSCRIPT

Page 1: Apache Atlasの現状とデータガバナンス事例 #hadoopreading

Apache Atlasの現状とデータガバナンス事例

Hadoop Summit 2016 San Joseの報告会

http://www.yahoo.co.jp/

ヤフー株式会社 曾臻

2016年08月18日

Page 2: Apache Atlasの現状とデータガバナンス事例 #hadoopreading

自己紹介

曾 臻(そ しん)

ヤフー株式会社

D&S データプラットフォーム本部

開発3部所属

Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 2

Page 3: Apache Atlasの現状とデータガバナンス事例 #hadoopreading

アジェンダ

3Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

• イベント概要

• 全体的な所感

• Apache Atlasの現状

• eBayのデータガバナンス事情

Page 4: Apache Atlasの現状とデータガバナンス事例 #hadoopreading

4Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

• イベント概要

• 全体的な所感

• Apache Atlasの現状

• eBayのデータガバナンス事情

Page 5: Apache Atlasの現状とデータガバナンス事例 #hadoopreading

イベント概要

サンノゼ 2016年6月28日〜30日

Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 5

Page 6: Apache Atlasの現状とデータガバナンス事例 #hadoopreading

6Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

• イベント概要

• 全体的な所感

• Apache Atlasの現状

• eBayのデータガバナンス事情

Page 7: Apache Atlasの現状とデータガバナンス事例 #hadoopreading

全体的な所感(1)

• Hadoop技術は成熟期に入っている

• プロダクトの選択肢は増えている

• 例:SQL-On-Hadoop:Hive/HAWQ/Drill/Presto

• Hadoopクラスター構築と管理のハードルは下がった、より簡単になっている

• Ambariのクラスター管理機能は更に進化。SQL文実行もできるようになる

• Cloudbreakを使えば、あらゆるクラウドのHadoop向けの自動プロビジョニングが簡単にできる

Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 7

Page 8: Apache Atlasの現状とデータガバナンス事例 #hadoopreading

全体的な所感(2)

• ビジネス関連のセッションが増えている

• Hadoopをどう使えば利益になるか、関心度が上がっている。

• データガバナンスの重要度が上がっている

• データサイズと種類が増えているので、管理が難しくなる

• 同大会に参加した他のエンジニアと話が出来て良かった

• アメリカンフードは一日で十分。和食と中華が良いw Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 8

Page 9: Apache Atlasの現状とデータガバナンス事例 #hadoopreading

9Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

• イベント概要

• 全体的な所感

• Apache Atlasの現状

• eBayのデータガバナンス事情

Page 10: Apache Atlasの現状とデータガバナンス事例 #hadoopreading

Apache Atlasとは?

• 一言:データガバナンスのための基盤です

• Atlas helps customers discover information about data objects, their meaning, location, characteristics, and usage.

• Designed to exchange metadata with other tools and processes within and outside of the Hadoop stack, thereby enabling platform-agnostic governance controls that effectively address compliance requirements

Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 10ソース:https://jp.hortonworks.com/apache/atlas/

Page 11: Apache Atlasの現状とデータガバナンス事例 #hadoopreading

Apache Atlasアーキテクチャ

Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 11

4つのキーポイント:• Data Lineage• Agile Data Modeling• REST API• Exchange

ソース: http://www.slideshare.net/HadoopSummit/top-three-big-data-governance-issues-and-how-apache-atlas-resolves-it-for-the-enterprise

Page 12: Apache Atlasの現状とデータガバナンス事例 #hadoopreading

データガバナンスの目的

Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 12

• 組織はデータガバナンスによって、データの情報を把握したい。例えば:

• 我々の情報について何を知っている?

• このデータはどこから来ている?誰が使える?

• このデータは会社のポリシーとルールに従っているか?

Page 13: Apache Atlasの現状とデータガバナンス事例 #hadoopreading

Apache Atlasロードマップ

Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 13

ソース:https://jp.hortonworks.com/apache/atlas/

• 去年年末、Atlas 0.6について検証した• HiveからTable/Column情報をイン

ポート出来た• Lineage情報は表示可能• インポートした情報を検索できる• UI、REST APIを使ってAtlasにため

たメタデータのR/W操作可能• 今回のリリース

• Dynamic Access Policies• Rangerインテグレーション

• Cross component lineage• Enterprise Readiness• Business Catalog• UIは大幅に進化した

Page 14: Apache Atlasの現状とデータガバナンス事例 #hadoopreading

Dynamic access policies概要

Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

• 基本のタグポリシー:個人情報、Sales情報

ルールはTagと紐づく(Tagは再利用可能)。直接リソースに紐付いても可能。

• 地理情報ベースのポリシー(IPベース)

例:リモート利用者ならアクセス出来ない。社内ならアクセス可能。

• 時間ベースのポリシー

例:リースで借りてきたデータ。大学・研究機関から借りてきたデータをアクセス。

– 月曜日から金曜日までアクセス可能とか。

• 禁止ルール

データの組み合わせにより情報漏えい対策

Page 15: Apache Atlasの現状とデータガバナンス事例 #hadoopreading

Cross Component Lineage概要

Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

ソース:https://jp.hortonworks.com/apache/atlas/

Page 16: Apache Atlasの現状とデータガバナンス事例 #hadoopreading

Cross Component Lineage概要

Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

ソース:https://www.linkedin.com/pulse/data-pipeline-hadoop-part-2-birender-saini

Page 17: Apache Atlasの現状とデータガバナンス事例 #hadoopreading

Role & Activities

Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

• Data Steward: Atlasの主な利用者。データキューレーション、データカタログ担当。Scientist をサポート

• Data Scientist: 分析。

• ビジネスカタログの主な利用者。利益源。

• 現在は50%~80%の時間でデータを探している。

• 今後は25%以下に抑えたい。節約した時間を分析に回す

• Administrator: ロール管理

• Data Engineer: データ入れだし操作

Page 18: Apache Atlasの現状とデータガバナンス事例 #hadoopreading

感想

Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

• Atlas + Rangerでカラムレベルのアクセス制御が出来た。

• ダイナミック・リアルタイム

• スキーマ情報は自動的に取得

• Lineageは表示できる

• ルールによって、データベース/テーブルを隠すこともできる。例:PIIタグを特定のカラムにつける。PIIアクセス禁止のアカウント

は該当カラム表示できない。

• データスチュアートがカタログ情報を入力、データサイエンティストが使う

Page 19: Apache Atlasの現状とデータガバナンス事例 #hadoopreading

Extend Governance in Hadoop with Atlas Ecosystem

Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

• Waterline DataのAtlasインテグレーション事例

• データ内容を分析して、タグを提案してくれる。(%は関連度を示している)

• http://www.waterlinedata.com/

• Lineageについて、Atlasと連携:Import/Export

• Attivio事例

• 構造化・非構造化両方対応

• Lineage表示を強化

Page 20: Apache Atlasの現状とデータガバナンス事例 #hadoopreading

20Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

• イベント概要

• 全体的な所感

• Apache Atlasの現状

• eBayのデータガバナンス事情

Page 21: Apache Atlasの現状とデータガバナンス事例 #hadoopreading

eBay社内のデータプラットフォーム

Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

• 色々なシステムにより構成されている

ソース: http://www.slideshare.net/HadoopSummit/extreme-analytics-ebay

Page 22: Apache Atlasの現状とデータガバナンス事例 #hadoopreading

eBayのコラボレーションの進化

Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

ソース: http://www.slideshare.net/HadoopSummit/extreme-analytics-ebay

W:WikiF:良いね!SNS要素in:プロフェッショナル関係で繋がる

Page 23: Apache Atlasの現状とデータガバナンス事例 #hadoopreading

eBayのデータ運用の課題(1)

Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

• 直接なDBアクセスたくさん有り、MicroStrategyレポートたくさん有り(5,000+)、 Tableauチャートもたくさん有り(10,000+)

• 同じ指標に対してのレポートでも複数バージョンある。正しいMetricsとレポートを見つかるのは難しい。上司であっても判断は難しい。そのツールは前任の前任から引き続いたかも。

• データサイエンティストはなんでも自分でやらないといけない。

• データサイエンティストが来たら、データはどこにあるか、どうやって使うか、全部自分で探さないといけない。

• なぜそのファイルはそこにあるから知らない

• 整合性・一貫性が無い。あるテーマに対してそれぞれの紹介WIKIがあるかも

Page 24: Apache Atlasの現状とデータガバナンス事例 #hadoopreading

eBayのデータ運用の課題(2)

Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

• このレポートはどうやって計算しているか、データはどこから来ているから分からない。誰かは「使え」と言っているから使っている。

• レポートのロジックの追跡は難しい

• レポートの信頼度は分からない。昨日のデータを使っているかも

• etc.

Page 25: Apache Atlasの現状とデータガバナンス事例 #hadoopreading

eBayのデータ運用の課題

Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

• データサイエンティストはなんでも自分でやらないといけない。

Page 26: Apache Atlasの現状とデータガバナンス事例 #hadoopreading

対策

Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

• Self-service Strategy

ソース: http://www.slideshare.net/HadoopSummit/extreme-analytics-ebay

Page 27: Apache Atlasの現状とデータガバナンス事例 #hadoopreading

対策

Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

ソース: http://www.slideshare.net/HadoopSummit/extreme-analytics-ebay

Alation:ツール。https://alation.com/customers/

Page 28: Apache Atlasの現状とデータガバナンス事例 #hadoopreading

データガバナンス

Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止

ソース: http://www.slideshare.net/HadoopSummit/extreme-analytics-ebay

データアセットCertification

– 誰が、いつ、このViewが正しいかを判断したかを記録

ビジネス用語集

– 略語が多すぎるから、必須

管理

– クオリティチェック、リリースノート、データロード記録等

– これは現在利用可能?

Page 29: Apache Atlasの現状とデータガバナンス事例 #hadoopreading

EOP

Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 29