「リクルートデータセット」 ~公開までの道のりとこれから~

20
「リクルートデータセット」 ~ 公開までの道のりとこれから ~ A-1: 特別セッション1 産学間のデータセット共有の意義、 課題と将来の展望

Upload: recruit-technologies

Post on 12-Feb-2017

1.812 views

Category:

Technology


0 download

TRANSCRIPT

Page 1: 「リクルートデータセット」 ~公開までの道のりとこれから~

「リクルートデータセット」~ 公開までの道のりとこれから ~

A-1: 特別セッション1産学間のデータセット共有の意義、課題と将来の展望

Page 2: 「リクルートデータセット」 ~公開までの道のりとこれから~

自己紹介

櫻井 一貴 Kazutaka Sakurai

株式会社リクルートテクノロジーズ経営企画部 経営企画グループ兼 アドバンスドテクノロジーラボ

情報処理学会DBS研究会 幹事

Page 3: 「リクルートデータセット」 ~公開までの道のりとこれから~

アジェンダ

1 リクルートとリクルートテクノロジーズ

2 公開したデータセットの概要

3 公開する目的

4 データ公開に向けて感じた悩み

5 今後にむけて

Page 4: 「リクルートデータセット」 ~公開までの道のりとこれから~

1-1 リクルートについて

Page 5: 「リクルートデータセット」 ~公開までの道のりとこれから~

1-1 リクルートについて

目指す世界観 果たすべき役割

Page 6: 「リクルートデータセット」 ~公開までの道のりとこれから~

1-2 リクルートテクノロジーズについて

Solutions (IT & Internet marketing)

SEO

Marketing SupportDevelopment

Infrastructure

UXD Impact Analysis

Smart Device

Big Data Solution

PC & N/W Support R&D

事業横断でデータを取り扱うことができるポジション

Page 7: 「リクルートデータセット」 ~公開までの道のりとこれから~

2 公開したデータセットの概要

Page 8: 「リクルートデータセット」 ~公開までの道のりとこれから~

2 公開したデータセットの概要(事業向け説明資料より)

RLS

RTC NII B大学RMP

RSC

RCA

・・・

RAD A大学

C大学

D大学

・・・

NII:国立情報学研究所www.nii.ac.jp/National Institute of Informatics

情報学という新しい研究分野での「未来価値創成」を目指す国内唯一の学術総合研究所。ネットワーク、ソフトウェア、コンテンツなどの情報関連分野の新しい理論・方法論から応用展開までの研究開発を総合的に推進する

情報提供に関する包括的契約

RTC⇔NII契約内容の確認

データ提供

学術研究を目的としたデータ利用(@各研究室)

情報利用に関する包括的契約

契約とりまとめ、データ加工など

Page 9: 「リクルートデータセット」 ~公開までの道のりとこれから~

2 公開したデータセットの概要(利用状況、2014/9~)

申請総数:12

実際に利用: 7

利用準備中: 2

不明 : 3

(国公立大学:3、私立大学8、その他1)

Page 10: 「リクルートデータセット」 ~公開までの道のりとこれから~

2 公開したデータセットの概要(実際の活用状況、抜粋)

活用状況

ご意見・感想

・論文「感情極性値を用いたレビューの有用性自動評価」・学部ラボワーク生によるデータ分析実習・口コミデータを使った時系列分析、計量テキスト分析・自作自演の印象を与える口コミにどのような特徴があるかの分析

・たくさんの種類のデータがあって、さまざまな角度から分析できる・データの形式がそろっていない部分があり、扱いにくい・肯定的なレビューの数の方が圧倒的に多く、学習時などその偏りを

どう克服するかが大変だった・売上データなどもわかると分析の幅が広がるためありがたい

Page 11: 「リクルートデータセット」 ~公開までの道のりとこれから~

3 公開する目的

① CSRの観点

② 新しい技術やアイディアの獲得

③ プレゼンス向上・人材獲得

:研究レベル向上のために民間企業として資することのできる余地?

:最先端の研究結果をビジネスに接続できないか?

:分析しがいのあるデータを保有する企業であることを訴求

Page 12: 「リクルートデータセット」 ~公開までの道のりとこれから~

4 データ公開に向けて感じた悩み

① リスクテイク( パーミッション済みとはいえ”最悪のシナリオ”をどう捉えるか)

② 機能組織ならではの悩み(「データにアクセスできる」↔「データを取り扱う権限を持つ」)

③ ROI?(公開準備タスクもろもろ ↔ [CSR/技術獲得/プレゼンス])

Page 13: 「リクルートデータセット」 ~公開までの道のりとこれから~

4 データ公開に向けて感じた悩み

① リスクテイク( パーミッション済みとはいえ”最悪のシナリオ”をどう捉えるか)

② 横断機能組織ならではの悩み

③ ROI?(公開準備タスクもろもろ ↔ [CSR/技術獲得/プレゼンス])

「公開をするとどんなリスクがあるのか、万一発生したら問題ないのか」※クライアント、カスタマーのデータを活用するため、事業は慎重にならざるをえない

↓・想定範囲(学術利用)外に流出する可能性が極めて低いことを説明・想定される「最もよくないシナリオ」を列挙、事業に共有をした

(例) USBメモリの置き忘れ等でデータが流出したら?(例) 利用者がデータを商用利用したら?

Page 14: 「リクルートデータセット」 ~公開までの道のりとこれから~

4 データ公開に向けて感じた悩み

③ ROI?(公開準備タスクもろもろ ↔ [CSR/技術獲得/プレゼンス])

1)協力(賛同)を得られるサービスを探す >工数割いてまで…リスク…

2)公開対象データの選定 >個人情報含まず、パーミッション済み…

3)データの取得 >自社内securityレベルも高まり、意外と手間

4)データ整形 >マスキング、カラム除外、暗号化…

5)受け渡し

↑ここまで辿り着くのに実は数ヶ月以上も・・・

Page 15: 「リクルートデータセット」 ~公開までの道のりとこれから~

5 今後にむけて

① 自社コントロールで活用(ハッカソン他)

② 活用状況の可視化(公開時の事例&公開後の状況)

③ 公開までのタスクの簡素化、効果の可視化

Page 16: 「リクルートデータセット」 ~公開までの道のりとこれから~

① 自社コントロールで活用(ハッカソン他)

Page 17: 「リクルートデータセット」 ~公開までの道のりとこれから~

② 活用状況の可視化(公開時の事例&公開後の状況)

(公開時)→例えばこんな使い方、など自社内でも実際に活用をして

提示することで、利用申請しようとする動機形成に?

(公開後)→どれだけ世の役に立っているか、がタイムリーに可視化

されることが事業にとってもモチベーション

Page 18: 「リクルートデータセット」 ~公開までの道のりとこれから~

③ 公開までのタスクの簡素化、効果の可視化

(タスク簡素化)→手間・ステップをシンプルにできればより多くのデータ

公開をスピーディに展開できる。ROIも向上する

(効果の可視化)→「どれだけ世の役に立っているか」に加え、具体的な

ビジネス面での成果が生まれる&可視化されると、事業のメリットに繋がる

Page 19: 「リクルートデータセット」 ~公開までの道のりとこれから~

今後に向けて

今後も可能な限りデータ公開を進めていきたいが、「いかに高いROIを担保できるか」がポイント

Page 20: 「リクルートデータセット」 ~公開までの道のりとこれから~

ご清聴ありがとうございました