itインフラ・マネージド事業領域におけるデータサイエンスの取り組み

23
~30代からはじめる本当は泥臭いデータサイエンスの話~ ITインフラ・マネージド事業領域における データサイエンスの取り組み July Tech Festa 2016/07/24 NHNテコラス株式会社 データホテル事業本部 サービス戦略企画室

Upload: datahotel

Post on 10-Jan-2017

157 views

Category:

Technology


2 download

TRANSCRIPT

Page 1: ITインフラ・マネージド事業領域におけるデータサイエンスの取り組み

~30代からはじめる本当は泥臭いデータサイエンスの話~

ITインフラ・マネージド事業領域におけるデータサイエンスの取り組み

July Tech Festa 2016/07/24

NHNテコラス株式会社データホテル事業本部サービス戦略企画室

Page 2: ITインフラ・マネージド事業領域におけるデータサイエンスの取り組み

Page 2

自己紹介

所属 :NHN テコラス株式会社データホテル事業本部サービス戦略企画室 サービス企画チーム

名前 : @datahotel

嫌いな飲み物:バリウム (理由があります)

業務経験 :現在は企画部門でのサービス企画・開発が業務。去年まで別の部署で基盤系SEとして勤務。

キーワード :“手厳しいお客様” “やっかいなシステム”“誰もやりたがらない” “汚れ役”

twitter :https://twitter.com/datahotelFacebook :https://www.facebook.com/datahotel.jp

Page 3: ITインフラ・マネージド事業領域におけるデータサイエンスの取り組み

Page 3

NHNテコラスのITインフラ・マネージド事業について

会社の沿革

・ITインフラ・マネージド・EC支援・セキュリティ事業・広告支援事業

以上の4事業を展開中

https://nhn-techorus.com/

Page 4: ITインフラ・マネージド事業領域におけるデータサイエンスの取り組み

Page 4

本日のお話

• 社内でデータサイエンスに取り組むことになった経緯

• 解析基盤について

• IoT・人工知能

• 今後について

Page 5: ITインフラ・マネージド事業領域におけるデータサイエンスの取り組み

Page 5

社内で取り組むことになったきっかけ

弊社データサイエンティストの発表資料https://prezi.com/rshvuo0dmmax/sparkhadoop/?utm_campaign=share&utm_medium=copy

当社内にデータサイエンスチームが発足したためです。

Page 6: ITインフラ・マネージド事業領域におけるデータサイエンスの取り組み

Page 6

まず着手したこと

1. データ蓄積・処理基盤を作る– 自社クラウドベース

2. アセスメントの実施– 既に社内ではOSSの全文検索サーバや自社開発CRMでのスタッフ活動状況の可視化、機器資産や

アラート情報の可視化まで実施している状況

– 故障予知についてはRAIDコントローラやサーバベンダ提供機能により監視を実施している

3. 具体的な現場課題・ビジネス課題の確認– 運用エンジニアの生産性・品質向上、スキル均一化、満足度向上(アドバイス・サポート領域)

– 時間の節約、計画的運営の保証(予防・予知・予測)

4. 人員の確保・プロジェクト進行方法の検討

出典:アジャイルデータサイエンス――スケーラブルに構築するビッグデータアプリケーション O'Reilly Japan, Inc.出典:戦略的データサイエンス入門――ビジネスに活かすコンセプトとテクニック O'Reilly Japan, Inc.

Page 7: ITインフラ・マネージド事業領域におけるデータサイエンスの取り組み

Page 7

体制

新卒4年目の若手エンジニアを中心にフラットな体制で進行

データ研究室

モデル研究・検証・開発・評価・

展開

新卒4年目若手エンジニア

各種研究・開発

GRC関連担当・各種調整・雑用

技術基盤管理推進グループ

基盤・データ提供

SE部門(GPUサーバ)

HPC領域支援

データホテル事業本部

Page 8: ITインフラ・マネージド事業領域におけるデータサイエンスの取り組み

Page 8

本日のお話

• 社内でデータサイエンスに取り組むことになった経緯

• 解析基盤について

• IoT・人工知能

• 今後について

Page 9: ITインフラ・マネージド事業領域におけるデータサイエンスの取り組み

Page 9

社内データ解析基盤の全体像

Page 10: ITインフラ・マネージド事業領域におけるデータサイエンスの取り組み

Page 10

社内データ解析基盤の全体像

データサイエンティストチームが主に利用

若手エンジニアがIoTのために各種検証中

発表者(私)が試行錯誤中

Page 11: ITインフラ・マネージド事業領域におけるデータサイエンスの取り組み

Page 11

クラウドのお話

Page 12: ITインフラ・マネージド事業領域におけるデータサイエンスの取り組み

Page 12

クラウドのお話(宣伝)

Page 13: ITインフラ・マネージド事業領域におけるデータサイエンスの取り組み

Page 13

解析基盤の用途

• ログ分析基盤として

• 外部メディアの分析基盤として

– SNS、News、Blog、Wiki 、脆弱性・技術情報の収集・・・

• 機械学習モデル開発基盤として

– 他社様AIサービスを利用・評価するための比較対象として

– クラウドと同様、AIを支える技術の内部を学ぶ

• 協業時のご支援プラットフォームとして

– PoC

– プロトタイプ開発

Page 14: ITインフラ・マネージド事業領域におけるデータサイエンスの取り組み

Page 14

本日のお話

• 社内でデータサイエンスに取り組むことになった経緯

• 解析基盤について

• IoT・人工知能

• 今後について

Page 15: ITインフラ・マネージド事業領域におけるデータサイエンスの取り組み

Page 15

IoTについて

①本日お話した内容に関連する構成要素

②本日お話しできませんでしたが、社内で活発に取り組んでいる要素

※データホテルテックブログをご参照ください

Page 16: ITインフラ・マネージド事業領域におけるデータサイエンスの取り組み

Page 16

IoT関連システム運用後の課題にも注目

悪用されないための技術 効率的な運用・保守のための技術(大量デバイス・故障管理)

Page 17: ITインフラ・マネージド事業領域におけるデータサイエンスの取り組み

Page 17

人工知能について

• 当社ビジネスで有用そうなタスク– トリアージ的業務支援(緊急度、深刻度、感情分類)

– アドバイス・サポート領域

• レコメンド・サジェスト・キュレーション

– Slack/LINEなどに代表されるボットを通じた対人交流

すでにgithubなどでは海外の学生さんが参考実装のようなものを公開していたりする。またアドバイス・サポートであればIBM社のワトソンとの連携のほうが早い?

https://github.com/eyaylali/sent

Page 18: ITインフラ・マネージド事業領域におけるデータサイエンスの取り組み

Page 18

本日のお話

• 社内でデータサイエンスに取り組むことになった経緯

• 解析基盤について

• IoT・人工知能

• 今後について

Page 19: ITインフラ・マネージド事業領域におけるデータサイエンスの取り組み

Page 19

課題と今後の予定(一部)

• ビジュアライゼーション、デモの充実化

• 取り組み開始時に解析した社内データ– ビッグでない・教師付きデータがない

• 性能、信頼性検証環境の整備

• HPC(GPU)

– 複数人での効率的な利用(mesosがまだ使えていない)

– 用途の拡大 (CUDA/OpenCL/HIP)

• エンタープライズ・GRCニーズのための機能実装

– 監査、ID管理、認証強化、信頼性など

• その他

– 位置情報、自社OpenStreetMap/屋内電子マップ

– 経営効果・採算性の検証

– 故障予知系タスクの課題定義と検証• 航空機や交通インフラとは異なる領域での重要度の高い課題

– 体制・マネジメント

Page 20: ITインフラ・マネージド事業領域におけるデータサイエンスの取り組み

Page 20

泥臭いところ(発表者認識)

推進、価値、効

果、変化、変更、

提供

キュレート、レコメン

ド、理解、推論、学習

構造、リンク、メタデータ、タグ、

探索、インタラクション、共有

整理、集計、ビジュアライズ、疑問

収集、表示、独立したレコードの結合

データで価値をだすために取り組む順序

出所:オライリー アジャイルデータサイエンスより

ここに到達するために

データや課題ごとに面倒な作業が発生する

Page 21: ITインフラ・マネージド事業領域におけるデータサイエンスの取り組み

Page 21

まとめ

1. NHNテコラスはデータサイエンス専門部署を設置し、お客様に新たな価値を提供できる体制になりました。

2. 当社ITインフラ・マネージド事業では、クラウドベンダーフリーな解析環境でデータサイエンスに取り組んでいます。

3. IoTや機械学習・人工知能などの分野についても自社内での取り組みを通じベンダーフリーな立場としてお客様へ最適なご提案ができるよう今後も研究を続けて参ります。

Page 22: ITインフラ・マネージド事業領域におけるデータサイエンスの取り組み

Page 22

スタッフ募集

https://nhn-techorus.com/recruit/

クラウドベンダーフリーな当社環境で一緒にデータサイエンスしませんか?

Page 23: ITインフラ・マネージド事業領域におけるデータサイエンスの取り組み

Page 23

ありがとうございました