「リクルートデータセット」 ~公開までの道のりとこれから~
TRANSCRIPT
「リクルートデータセット」~ 公開までの道のりとこれから ~
A-1: 特別セッション1産学間のデータセット共有の意義、課題と将来の展望
自己紹介
櫻井 一貴 Kazutaka Sakurai
株式会社リクルートテクノロジーズ経営企画部 経営企画グループ兼 アドバンスドテクノロジーラボ
情報処理学会DBS研究会 幹事
アジェンダ
1 リクルートとリクルートテクノロジーズ
2 公開したデータセットの概要
3 公開する目的
4 データ公開に向けて感じた悩み
5 今後にむけて
1-1 リクルートについて
1-1 リクルートについて
目指す世界観 果たすべき役割
1-2 リクルートテクノロジーズについて
Solutions (IT & Internet marketing)
SEO
Marketing SupportDevelopment
Infrastructure
UXD Impact Analysis
Smart Device
Big Data Solution
PC & N/W Support R&D
事業横断でデータを取り扱うことができるポジション
2 公開したデータセットの概要
2 公開したデータセットの概要(事業向け説明資料より)
RLS
RTC NII B大学RMP
RSC
RCA
・・・
RAD A大学
C大学
D大学
・・・
NII:国立情報学研究所www.nii.ac.jp/National Institute of Informatics
情報学という新しい研究分野での「未来価値創成」を目指す国内唯一の学術総合研究所。ネットワーク、ソフトウェア、コンテンツなどの情報関連分野の新しい理論・方法論から応用展開までの研究開発を総合的に推進する
情報提供に関する包括的契約
RTC⇔NII契約内容の確認
データ提供
学術研究を目的としたデータ利用(@各研究室)
情報利用に関する包括的契約
契約とりまとめ、データ加工など
2 公開したデータセットの概要(利用状況、2014/9~)
申請総数:12
実際に利用: 7
利用準備中: 2
不明 : 3
(国公立大学:3、私立大学8、その他1)
2 公開したデータセットの概要(実際の活用状況、抜粋)
活用状況
ご意見・感想
・論文「感情極性値を用いたレビューの有用性自動評価」・学部ラボワーク生によるデータ分析実習・口コミデータを使った時系列分析、計量テキスト分析・自作自演の印象を与える口コミにどのような特徴があるかの分析
・たくさんの種類のデータがあって、さまざまな角度から分析できる・データの形式がそろっていない部分があり、扱いにくい・肯定的なレビューの数の方が圧倒的に多く、学習時などその偏りを
どう克服するかが大変だった・売上データなどもわかると分析の幅が広がるためありがたい
3 公開する目的
① CSRの観点
② 新しい技術やアイディアの獲得
③ プレゼンス向上・人材獲得
:研究レベル向上のために民間企業として資することのできる余地?
:最先端の研究結果をビジネスに接続できないか?
:分析しがいのあるデータを保有する企業であることを訴求
4 データ公開に向けて感じた悩み
① リスクテイク( パーミッション済みとはいえ”最悪のシナリオ”をどう捉えるか)
② 機能組織ならではの悩み(「データにアクセスできる」↔「データを取り扱う権限を持つ」)
③ ROI?(公開準備タスクもろもろ ↔ [CSR/技術獲得/プレゼンス])
4 データ公開に向けて感じた悩み
① リスクテイク( パーミッション済みとはいえ”最悪のシナリオ”をどう捉えるか)
② 横断機能組織ならではの悩み
③ ROI?(公開準備タスクもろもろ ↔ [CSR/技術獲得/プレゼンス])
「公開をするとどんなリスクがあるのか、万一発生したら問題ないのか」※クライアント、カスタマーのデータを活用するため、事業は慎重にならざるをえない
↓・想定範囲(学術利用)外に流出する可能性が極めて低いことを説明・想定される「最もよくないシナリオ」を列挙、事業に共有をした
(例) USBメモリの置き忘れ等でデータが流出したら?(例) 利用者がデータを商用利用したら?
4 データ公開に向けて感じた悩み
③ ROI?(公開準備タスクもろもろ ↔ [CSR/技術獲得/プレゼンス])
1)協力(賛同)を得られるサービスを探す >工数割いてまで…リスク…
2)公開対象データの選定 >個人情報含まず、パーミッション済み…
3)データの取得 >自社内securityレベルも高まり、意外と手間
4)データ整形 >マスキング、カラム除外、暗号化…
5)受け渡し
↑ここまで辿り着くのに実は数ヶ月以上も・・・
5 今後にむけて
① 自社コントロールで活用(ハッカソン他)
② 活用状況の可視化(公開時の事例&公開後の状況)
③ 公開までのタスクの簡素化、効果の可視化
① 自社コントロールで活用(ハッカソン他)
② 活用状況の可視化(公開時の事例&公開後の状況)
(公開時)→例えばこんな使い方、など自社内でも実際に活用をして
提示することで、利用申請しようとする動機形成に?
(公開後)→どれだけ世の役に立っているか、がタイムリーに可視化
されることが事業にとってもモチベーション
③ 公開までのタスクの簡素化、効果の可視化
(タスク簡素化)→手間・ステップをシンプルにできればより多くのデータ
公開をスピーディに展開できる。ROIも向上する
(効果の可視化)→「どれだけ世の役に立っているか」に加え、具体的な
ビジネス面での成果が生まれる&可視化されると、事業のメリットに繋がる
今後に向けて
今後も可能な限りデータ公開を進めていきたいが、「いかに高いROIを担保できるか」がポイント
ご清聴ありがとうございました