apache atlasの現状とデータガバナンス事例 #hadoopreading
TRANSCRIPT
Apache Atlasの現状とデータガバナンス事例
Hadoop Summit 2016 San Joseの報告会
http://www.yahoo.co.jp/
ヤフー株式会社 曾臻
2016年08月18日
自己紹介
曾 臻(そ しん)
ヤフー株式会社
D&S データプラットフォーム本部
開発3部所属
Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 2
アジェンダ
3Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
• イベント概要
• 全体的な所感
• Apache Atlasの現状
• eBayのデータガバナンス事情
4Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
• イベント概要
• 全体的な所感
• Apache Atlasの現状
• eBayのデータガバナンス事情
イベント概要
サンノゼ 2016年6月28日〜30日
Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 5
6Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
• イベント概要
• 全体的な所感
• Apache Atlasの現状
• eBayのデータガバナンス事情
全体的な所感(1)
• Hadoop技術は成熟期に入っている
• プロダクトの選択肢は増えている
• 例:SQL-On-Hadoop:Hive/HAWQ/Drill/Presto
• Hadoopクラスター構築と管理のハードルは下がった、より簡単になっている
• Ambariのクラスター管理機能は更に進化。SQL文実行もできるようになる
• Cloudbreakを使えば、あらゆるクラウドのHadoop向けの自動プロビジョニングが簡単にできる
Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 7
全体的な所感(2)
• ビジネス関連のセッションが増えている
• Hadoopをどう使えば利益になるか、関心度が上がっている。
• データガバナンスの重要度が上がっている
• データサイズと種類が増えているので、管理が難しくなる
• 同大会に参加した他のエンジニアと話が出来て良かった
• アメリカンフードは一日で十分。和食と中華が良いw Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 8
9Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
• イベント概要
• 全体的な所感
• Apache Atlasの現状
• eBayのデータガバナンス事情
Apache Atlasとは?
• 一言:データガバナンスのための基盤です
• Atlas helps customers discover information about data objects, their meaning, location, characteristics, and usage.
• Designed to exchange metadata with other tools and processes within and outside of the Hadoop stack, thereby enabling platform-agnostic governance controls that effectively address compliance requirements
Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 10ソース:https://jp.hortonworks.com/apache/atlas/
Apache Atlasアーキテクチャ
Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 11
4つのキーポイント:• Data Lineage• Agile Data Modeling• REST API• Exchange
ソース: http://www.slideshare.net/HadoopSummit/top-three-big-data-governance-issues-and-how-apache-atlas-resolves-it-for-the-enterprise
データガバナンスの目的
Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 12
• 組織はデータガバナンスによって、データの情報を把握したい。例えば:
• 我々の情報について何を知っている?
• このデータはどこから来ている?誰が使える?
• このデータは会社のポリシーとルールに従っているか?
Apache Atlasロードマップ
Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 13
ソース:https://jp.hortonworks.com/apache/atlas/
• 去年年末、Atlas 0.6について検証した• HiveからTable/Column情報をイン
ポート出来た• Lineage情報は表示可能• インポートした情報を検索できる• UI、REST APIを使ってAtlasにため
たメタデータのR/W操作可能• 今回のリリース
• Dynamic Access Policies• Rangerインテグレーション
• Cross component lineage• Enterprise Readiness• Business Catalog• UIは大幅に進化した
Dynamic access policies概要
Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
• 基本のタグポリシー:個人情報、Sales情報
ルールはTagと紐づく(Tagは再利用可能)。直接リソースに紐付いても可能。
• 地理情報ベースのポリシー(IPベース)
例:リモート利用者ならアクセス出来ない。社内ならアクセス可能。
• 時間ベースのポリシー
例:リースで借りてきたデータ。大学・研究機関から借りてきたデータをアクセス。
– 月曜日から金曜日までアクセス可能とか。
• 禁止ルール
データの組み合わせにより情報漏えい対策
Cross Component Lineage概要
Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
ソース:https://jp.hortonworks.com/apache/atlas/
Cross Component Lineage概要
Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
ソース:https://www.linkedin.com/pulse/data-pipeline-hadoop-part-2-birender-saini
Role & Activities
Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
• Data Steward: Atlasの主な利用者。データキューレーション、データカタログ担当。Scientist をサポート
• Data Scientist: 分析。
• ビジネスカタログの主な利用者。利益源。
• 現在は50%~80%の時間でデータを探している。
• 今後は25%以下に抑えたい。節約した時間を分析に回す
• Administrator: ロール管理
• Data Engineer: データ入れだし操作
感想
Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
• Atlas + Rangerでカラムレベルのアクセス制御が出来た。
• ダイナミック・リアルタイム
• スキーマ情報は自動的に取得
• Lineageは表示できる
• ルールによって、データベース/テーブルを隠すこともできる。例:PIIタグを特定のカラムにつける。PIIアクセス禁止のアカウント
は該当カラム表示できない。
• データスチュアートがカタログ情報を入力、データサイエンティストが使う
Extend Governance in Hadoop with Atlas Ecosystem
Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
• Waterline DataのAtlasインテグレーション事例
• データ内容を分析して、タグを提案してくれる。(%は関連度を示している)
• http://www.waterlinedata.com/
• Lineageについて、Atlasと連携:Import/Export
• Attivio事例
• 構造化・非構造化両方対応
• Lineage表示を強化
20Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
• イベント概要
• 全体的な所感
• Apache Atlasの現状
• eBayのデータガバナンス事情
eBay社内のデータプラットフォーム
Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
• 色々なシステムにより構成されている
ソース: http://www.slideshare.net/HadoopSummit/extreme-analytics-ebay
eBayのコラボレーションの進化
Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
ソース: http://www.slideshare.net/HadoopSummit/extreme-analytics-ebay
W:WikiF:良いね!SNS要素in:プロフェッショナル関係で繋がる
eBayのデータ運用の課題(1)
Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
• 直接なDBアクセスたくさん有り、MicroStrategyレポートたくさん有り(5,000+)、 Tableauチャートもたくさん有り(10,000+)
• 同じ指標に対してのレポートでも複数バージョンある。正しいMetricsとレポートを見つかるのは難しい。上司であっても判断は難しい。そのツールは前任の前任から引き続いたかも。
• データサイエンティストはなんでも自分でやらないといけない。
• データサイエンティストが来たら、データはどこにあるか、どうやって使うか、全部自分で探さないといけない。
• なぜそのファイルはそこにあるから知らない
• 整合性・一貫性が無い。あるテーマに対してそれぞれの紹介WIKIがあるかも
eBayのデータ運用の課題(2)
Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
• このレポートはどうやって計算しているか、データはどこから来ているから分からない。誰かは「使え」と言っているから使っている。
• レポートのロジックの追跡は難しい
• レポートの信頼度は分からない。昨日のデータを使っているかも
• etc.
eBayのデータ運用の課題
Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
• データサイエンティストはなんでも自分でやらないといけない。
対策
Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
• Self-service Strategy
ソース: http://www.slideshare.net/HadoopSummit/extreme-analytics-ebay
対策
Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
ソース: http://www.slideshare.net/HadoopSummit/extreme-analytics-ebay
Alation:ツール。https://alation.com/customers/
データガバナンス
Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止
ソース: http://www.slideshare.net/HadoopSummit/extreme-analytics-ebay
データアセットCertification
– 誰が、いつ、このViewが正しいかを判断したかを記録
ビジネス用語集
– 略語が多すぎるから、必須
管理
– クオリティチェック、リリースノート、データロード記録等
– これは現在利用可能?
EOP
Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 29