基調講演:「多様化する情報を支える技術」/西川徹

33
多様化する情報を支える技術 西川 徹 株式会社Preferred Infrastructure 代表取締役 [email protected]

Upload: preferred-infrastructure-preferred-networks

Post on 27-May-2015

3.801 views

Category:

Documents


0 download

DESCRIPTION

PFIオープンセミナー2012「多様化する情報を支える技術」 2012年9月21日(金)実施 ≪概要≫ビッグデータ分析の対象は、人が生み出すデータから、機械が自動的に生み出すデータへとシフトしつつある。そうなると、データが生まれるスループットは桁違いに大きくなり、また、データの種類は多様性を極めるようになる。データ処理アーキテクチャも、データ処理手法も、大きく進化する必要がある。増え行くデータの量・多様性に対して、技術者としてどう取り組むべきか、実例を交えながら概説する。

TRANSCRIPT

Page 1: 基調講演:「多様化する情報を支える技術」/西川徹

多様化する情報を支える技術

西川 徹

株式会社Preferred Infrastructure

代表取締役

[email protected]

Page 2: 基調講演:「多様化する情報を支える技術」/西川徹

セミナー内容のツイート大歓迎!

ハッシュタグ

#pfiopen2012

2

Page 3: 基調講演:「多様化する情報を支える技術」/西川徹

自己紹介&会社紹介

3

Page 4: 基調講演:「多様化する情報を支える技術」/西川徹

自己紹介

2006年 Preferred Infrastructure(PFI)を創業 - 大学の友人、ICPCの仲間と6名で起業

- 最初は検索エンジンの開発を進める

現在、代表取締役として

会社の経営に関わる

4

Page 5: 基調講演:「多様化する情報を支える技術」/西川徹

朝9時の社内風景

5

Page 6: 基調講演:「多様化する情報を支える技術」/西川徹

PFIのビジョン:PFIはどのような会社か?

テクノロジーとサービス・プロダクトとの間のギャップを埋め テクノロジーが持つポテンシャルを最大限に引き出すこと

研究ベースの技術が想定しているものと実世界には大きな壁が存在する

アカデミックの第一線で研究しているリサーチャーと、アカデミックな研究を理解し、実装・実用化できるエンジニアを集合させる

世の中に必要とされている技術の中でも、特に難しい課題を選び抜き、それに対する

解を提供していくこと

6

Basic Technologies

Academic Researches

Products

Services

Page 7: 基調講演:「多様化する情報を支える技術」/西川徹

ビジョンを達成するために

ベンチャーキャピタルに頼らない ⁃ 研究は多くのチャレンジがあって、よい研究ができる。製品開

発も同じ。多くのベンチャーキャピタルは、そのチャレンジを

表面的にしか許容しない。

製品に繋がるビジネスにこだわる ‒ フルスクラッチでの受託開発は行わない。

技術の多様性・人の多様性を重要視する ⁃ 1人では全分野を把握することは難しい。チーム・組織として

の生産性を重要視する。もちろん、個々の能力がとても優れて

いる上で。

7

Page 8: 基調講演:「多様化する情報を支える技術」/西川徹

PFIの技術領域・ビジネス(概要)

1.製品開発・販売

Sedue/Bazil/Jubatusというプロダクトを提供

2.研究開発

自然言語処理 情報検索 データマイニング 機械学習 分散システム データ構造、データ圧縮 Big Dataへの取り組み

8

Page 9: 基調講演:「多様化する情報を支える技術」/西川徹

“人”が生み出すデータと

“機械”が生み出すデータ

9

Page 10: 基調講演:「多様化する情報を支える技術」/西川徹

大規模な「データ」に立ち向かうための、 様々な技術が発展しつつある

10

• 複雑なWeb

• 構造化されていない情報

• 人が書いたコンテンツ

• 大量の情報

中田敦氏 「“ビッグデータ”が話題になった理由」

Page 11: 基調講演:「多様化する情報を支える技術」/西川徹

11

桑名栄二氏 「BigData処理技術とサイバーセキュリティ」

Page 12: 基調講演:「多様化する情報を支える技術」/西川徹

データ活用の2つの潮流

12

Page 13: 基調講演:「多様化する情報を支える技術」/西川徹

「人」が生み出すデータを

活用する技術

13

Page 14: 基調講演:「多様化する情報を支える技術」/西川徹
Page 15: 基調講演:「多様化する情報を支える技術」/西川徹
Page 16: 基調講演:「多様化する情報を支える技術」/西川徹

情報検索技術と大規模データ

大規模データに対し,自由にアクセスできる格納手段・インデックス手法が必要

分散システムが必須だが、それをできるだけ管理に利用可能にする

データの大規模化だけでなく、多様化にも対応していく 「グローバル化する情報処理」

Page 17: 基調講演:「多様化する情報を支える技術」/西川徹

データの整理を、機械で支援する仕組みが必要 「先進ビッグデータ応用を支える機械学習に求められる新技術」

「ためる」「取り出す」だけでは不十分

ウェブ検索やECサイトは、多大なコストをかけてデータを整理している

‒ データを「整理」することは、自明ではない。

‒ データ整理のコストが高いために、ほとんどの企業内検索エンジン

は十分に活用されていない。

17

Page 18: 基調講演:「多様化する情報を支える技術」/西川徹

「整理」が面倒だから情報共有がうまくいかず、 情報検索がうまく機能しない

アップロードの手間は、無視できない

社内での情報共有の場合は、どこに、どのようなメタ情報をつけアップロードするかを考えて、アップロードす

る必要がある

それを考えるのはめんどくさい、、、 →形だけの情報共有になってしまう

18

情報アップロードを加速するために、 技術で支援する

Page 19: 基調講演:「多様化する情報を支える技術」/西川徹

19

文書をアップロードしたい!

Page 20: 基調講演:「多様化する情報を支える技術」/西川徹

20

アップロードしたいファイルを、 ブラウザにドラッグ&ドロップ

Page 21: 基調講演:「多様化する情報を支える技術」/西川徹

21

どこのフォルダ・サーバーに配置すべきか、ツールが自動的に判断

Page 22: 基調講演:「多様化する情報を支える技術」/西川徹

22

文書に付与されるべきタグを 自動的に判断して付与する

Page 23: 基調講演:「多様化する情報を支える技術」/西川徹

「機械」が生み出すデータを活用する技術

23

Page 24: 基調講演:「多様化する情報を支える技術」/西川徹

データの大規模化と共に解析の高度化が重要に

Complex Event Processing(センサデータ等のリアルタイム処理)

大規模データウェアハウス・Hadoop(分散処理)では、集計・ルール

処理・単純な統計処理が主要な利用方法

より高度な解析(分類・予測・マイニング)へシフト

差別化要素として機械学習・統計の高度な解析の導入が重要

- 機械学習の利用は当たり前になってきた

Page 25: 基調講演:「多様化する情報を支える技術」/西川徹

一方、デバイスの性能向上により 集まるデータは爆発的に増加する

25

【次世台シーケンサー】 ゲノムデータなど

【生体情報モニター】 心拍数、血圧、体温など

【モバイル】 音声データ、位置情報、

メールのテキスト情報など

【監視カメラ】 動画、静止画などの画像データ

丸山宏氏 「ITアーキテクチャはどこへ向かうのか」

Page 26: 基調講演:「多様化する情報を支える技術」/西川徹

2つの課題を解決するには?

データをすべて集めることは不可能

高度な分析を、省スペース・少ない計算量で 実現する必要がある

26

Page 27: 基調講演:「多様化する情報を支える技術」/西川徹

分析処理のオンライン化・ストリーム化

27

Page 28: 基調講演:「多様化する情報を支える技術」/西川徹

28

大規模・リアルタイムな機械学習を実現する

Page 29: 基調講演:「多様化する情報を支える技術」/西川徹

データの整理を、機械で支援する仕組みが必要 「先進ビッグデータ応用を支える機械学習に求められる新技術」

理想的なアーキテクチャ

29

Page 30: 基調講演:「多様化する情報を支える技術」/西川徹

まとめとこれからの展望

30

Page 31: 基調講演:「多様化する情報を支える技術」/西川徹

まとめ

ウェブの技術は、大規模データを活用するための技術を大きく進展させた ‒ その対象の大部分は、人が作り出したデータ

近年のビッグデータブームで、機械が生み出すデータに

も注目が集まっている ‒ データをとる仕組みは前からあったが、それを大量に集めると

ウェブで起きたような Something Great ができるかもという

期待感

31

Page 32: 基調講演:「多様化する情報を支える技術」/西川徹

まとめ

人が生み出すデータと機械が生み出すデータは、データの性質も生成されるスループットも異なる ‒ 必要な技術は異なり、課題も当然異なる

人が生み出すデータは、格納することは容易になった

しかし、どうやって整理するかは大きな課題 ‒ だから、エンタープライズ検索もうまくいかない

機械が生み出すデータは、Edge-Heavyになりつつある ‒ 貯めずにリアルタイムに処理をする、データを生のまま交換し

ない、ということがキーとなる

32

Page 33: 基調講演:「多様化する情報を支える技術」/西川徹

Copyright © 2006-2012

Preferred Infrastructure All Right Reserved.