基調講演：「多様化する情報を支える技術」／西川徹

多様化する情報を支える技術

西川徹

株式会社Preferred Infrastructure

代表取締役

[email protected]

セミナー内容のツイート大歓迎！

ハッシュタグ

#pfiopen2012

2

自己紹介＆会社紹介

3

自己紹介

2006年 Preferred Infrastructure（PFI）を創業 - 大学の友人、ICPCの仲間と６名で起業

- 最初は検索エンジンの開発を進める

現在、代表取締役として

会社の経営に関わる

4

朝９時の社内風景

5

PFIのビジョン：PFIはどのような会社か？

テクノロジーとサービス・プロダクトとの間のギャップを埋めテクノロジーが持つポテンシャルを最大限に引き出すこと

研究ベースの技術が想定しているものと実世界には大きな壁が存在する

アカデミックの第一線で研究しているリサーチャーと、アカデミックな研究を理解し、実装・実用化できるエンジニアを集合させる

世の中に必要とされている技術の中でも、特に難しい課題を選び抜き、それに対する

解を提供していくこと

6

Basic Technologies

Academic Researches

Products

Services

ビジョンを達成するために

ベンチャーキャピタルに頼らない ⁃ 研究は多くのチャレンジがあって、よい研究ができる。製品開

発も同じ。多くのベンチャーキャピタルは、そのチャレンジを

表面的にしか許容しない。

製品に繋がるビジネスにこだわる ‒ フルスクラッチでの受託開発は行わない。

技術の多様性・人の多様性を重要視する ⁃ １人では全分野を把握することは難しい。チーム・組織として

の生産性を重要視する。もちろん、個々の能力がとても優れて

いる上で。

7

PFIの技術領域・ビジネス（概要）

1.製品開発・販売

Sedue／Bazil／Jubatusというプロダクトを提供

2.研究開発

自然言語処理情報検索データマイニング機械学習分散システムデータ構造、データ圧縮 Big Dataへの取り組み

8

“人”が生み出すデータと

“機械”が生み出すデータ

9

大規模な「データ」に立ち向かうための、様々な技術が発展しつつある

10

• 複雑なWeb

• 構造化されていない情報

• 人が書いたコンテンツ

• 大量の情報

中田敦氏「“ビッグデータ”が話題になった理由」

11

桑名栄二氏「BigData処理技術とサイバーセキュリティ」

データ活用の２つの潮流

12

「人」が生み出すデータを

活用する技術

13

情報検索技術と大規模データ

大規模データに対し,自由にアクセスできる格納手段・インデックス手法が必要

分散システムが必須だが、それをできるだけ管理に利用可能にする

データの大規模化だけでなく、多様化にも対応していく「グローバル化する情報処理」

データの整理を、機械で支援する仕組みが必要「先進ビッグデータ応用を支える機械学習に求められる新技術」

「ためる」「取り出す」だけでは不十分

ウェブ検索やECサイトは、多大なコストをかけてデータを整理している

‒ データを「整理」することは、自明ではない。

‒ データ整理のコストが高いために、ほとんどの企業内検索エンジン

は十分に活用されていない。

17

「整理」が面倒だから情報共有がうまくいかず、情報検索がうまく機能しない

アップロードの手間は、無視できない

社内での情報共有の場合は、どこに、どのようなメタ情報をつけアップロードするかを考えて、アップロードす

る必要がある

それを考えるのはめんどくさい、、、 →形だけの情報共有になってしまう

18

情報アップロードを加速するために、技術で支援する

19

文書をアップロードしたい！

20

アップロードしたいファイルを、ブラウザにドラッグ＆ドロップ

21

どこのフォルダ・サーバーに配置すべきか、ツールが自動的に判断

22

文書に付与されるべきタグを自動的に判断して付与する

「機械」が生み出すデータを活用する技術

23

データの大規模化と共に解析の高度化が重要に

Complex Event Processing(センサデータ等のリアルタイム処理)

大規模データウェアハウス・Hadoop(分散処理)では、集計・ルール

処理・単純な統計処理が主要な利用方法

より高度な解析（分類・予測・マイニング）へシフト

差別化要素として機械学習・統計の高度な解析の導入が重要

- 機械学習の利用は当たり前になってきた

一方、デバイスの性能向上により集まるデータは爆発的に増加する

25

【次世台シーケンサー】ゲノムデータなど

【生体情報モニター】心拍数、血圧、体温など

【モバイル】音声データ、位置情報、

メールのテキスト情報など

【監視カメラ】動画、静止画などの画像データ

丸山宏氏「ITアーキテクチャはどこへ向かうのか」

２つの課題を解決するには？

データをすべて集めることは不可能

高度な分析を、省スペース・少ない計算量で実現する必要がある

26

分析処理のオンライン化・ストリーム化

27

28

大規模・リアルタイムな機械学習を実現する

データの整理を、機械で支援する仕組みが必要「先進ビッグデータ応用を支える機械学習に求められる新技術」

理想的なアーキテクチャ

29

まとめとこれからの展望

30

まとめ

ウェブの技術は、大規模データを活用するための技術を大きく進展させた ‒ その対象の大部分は、人が作り出したデータ

近年のビッグデータブームで、機械が生み出すデータに

も注目が集まっている ‒ データをとる仕組みは前からあったが、それを大量に集めると

ウェブで起きたような Something Great ができるかもという

期待感

31

まとめ

人が生み出すデータと機械が生み出すデータは、データの性質も生成されるスループットも異なる ‒ 必要な技術は異なり、課題も当然異なる

人が生み出すデータは、格納することは容易になった

しかし、どうやって整理するかは大きな課題 ‒ だから、エンタープライズ検索もうまくいかない

機械が生み出すデータは、Edge-Heavyになりつつある ‒ 貯めずにリアルタイムに処理をする、データを生のまま交換し

ない、ということがキーとなる

32

基調講演：「多様化する情報を支える技術」／西川徹

Documents