基調講演:「多様化する情報を支える技術」/西川徹
DESCRIPTION
PFIオープンセミナー2012「多様化する情報を支える技術」 2012年9月21日(金)実施 ≪概要≫ビッグデータ分析の対象は、人が生み出すデータから、機械が自動的に生み出すデータへとシフトしつつある。そうなると、データが生まれるスループットは桁違いに大きくなり、また、データの種類は多様性を極めるようになる。データ処理アーキテクチャも、データ処理手法も、大きく進化する必要がある。増え行くデータの量・多様性に対して、技術者としてどう取り組むべきか、実例を交えながら概説する。TRANSCRIPT
セミナー内容のツイート大歓迎!
ハッシュタグ
#pfiopen2012
2
自己紹介&会社紹介
3
自己紹介
2006年 Preferred Infrastructure(PFI)を創業 - 大学の友人、ICPCの仲間と6名で起業
- 最初は検索エンジンの開発を進める
現在、代表取締役として
会社の経営に関わる
4
朝9時の社内風景
5
PFIのビジョン:PFIはどのような会社か?
テクノロジーとサービス・プロダクトとの間のギャップを埋め テクノロジーが持つポテンシャルを最大限に引き出すこと
研究ベースの技術が想定しているものと実世界には大きな壁が存在する
アカデミックの第一線で研究しているリサーチャーと、アカデミックな研究を理解し、実装・実用化できるエンジニアを集合させる
世の中に必要とされている技術の中でも、特に難しい課題を選び抜き、それに対する
解を提供していくこと
6
Basic Technologies
Academic Researches
Products
Services
ビジョンを達成するために
ベンチャーキャピタルに頼らない ⁃ 研究は多くのチャレンジがあって、よい研究ができる。製品開
発も同じ。多くのベンチャーキャピタルは、そのチャレンジを
表面的にしか許容しない。
製品に繋がるビジネスにこだわる ‒ フルスクラッチでの受託開発は行わない。
技術の多様性・人の多様性を重要視する ⁃ 1人では全分野を把握することは難しい。チーム・組織として
の生産性を重要視する。もちろん、個々の能力がとても優れて
いる上で。
7
PFIの技術領域・ビジネス(概要)
1.製品開発・販売
Sedue/Bazil/Jubatusというプロダクトを提供
2.研究開発
自然言語処理 情報検索 データマイニング 機械学習 分散システム データ構造、データ圧縮 Big Dataへの取り組み
8
“人”が生み出すデータと
“機械”が生み出すデータ
9
大規模な「データ」に立ち向かうための、 様々な技術が発展しつつある
10
• 複雑なWeb
• 構造化されていない情報
• 人が書いたコンテンツ
• 大量の情報
中田敦氏 「“ビッグデータ”が話題になった理由」
11
桑名栄二氏 「BigData処理技術とサイバーセキュリティ」
データ活用の2つの潮流
12
「人」が生み出すデータを
活用する技術
13
情報検索技術と大規模データ
大規模データに対し,自由にアクセスできる格納手段・インデックス手法が必要
分散システムが必須だが、それをできるだけ管理に利用可能にする
データの大規模化だけでなく、多様化にも対応していく 「グローバル化する情報処理」
データの整理を、機械で支援する仕組みが必要 「先進ビッグデータ応用を支える機械学習に求められる新技術」
「ためる」「取り出す」だけでは不十分
ウェブ検索やECサイトは、多大なコストをかけてデータを整理している
‒ データを「整理」することは、自明ではない。
‒ データ整理のコストが高いために、ほとんどの企業内検索エンジン
は十分に活用されていない。
17
「整理」が面倒だから情報共有がうまくいかず、 情報検索がうまく機能しない
アップロードの手間は、無視できない
社内での情報共有の場合は、どこに、どのようなメタ情報をつけアップロードするかを考えて、アップロードす
る必要がある
それを考えるのはめんどくさい、、、 →形だけの情報共有になってしまう
18
情報アップロードを加速するために、 技術で支援する
19
文書をアップロードしたい!
20
アップロードしたいファイルを、 ブラウザにドラッグ&ドロップ
21
どこのフォルダ・サーバーに配置すべきか、ツールが自動的に判断
22
文書に付与されるべきタグを 自動的に判断して付与する
「機械」が生み出すデータを活用する技術
23
データの大規模化と共に解析の高度化が重要に
Complex Event Processing(センサデータ等のリアルタイム処理)
大規模データウェアハウス・Hadoop(分散処理)では、集計・ルール
処理・単純な統計処理が主要な利用方法
より高度な解析(分類・予測・マイニング)へシフト
差別化要素として機械学習・統計の高度な解析の導入が重要
- 機械学習の利用は当たり前になってきた
一方、デバイスの性能向上により 集まるデータは爆発的に増加する
25
【次世台シーケンサー】 ゲノムデータなど
【生体情報モニター】 心拍数、血圧、体温など
【モバイル】 音声データ、位置情報、
メールのテキスト情報など
【監視カメラ】 動画、静止画などの画像データ
丸山宏氏 「ITアーキテクチャはどこへ向かうのか」
2つの課題を解決するには?
データをすべて集めることは不可能
高度な分析を、省スペース・少ない計算量で 実現する必要がある
26
分析処理のオンライン化・ストリーム化
27
28
大規模・リアルタイムな機械学習を実現する
データの整理を、機械で支援する仕組みが必要 「先進ビッグデータ応用を支える機械学習に求められる新技術」
理想的なアーキテクチャ
29
まとめとこれからの展望
30
まとめ
ウェブの技術は、大規模データを活用するための技術を大きく進展させた ‒ その対象の大部分は、人が作り出したデータ
近年のビッグデータブームで、機械が生み出すデータに
も注目が集まっている ‒ データをとる仕組みは前からあったが、それを大量に集めると
ウェブで起きたような Something Great ができるかもという
期待感
31
まとめ
人が生み出すデータと機械が生み出すデータは、データの性質も生成されるスループットも異なる ‒ 必要な技術は異なり、課題も当然異なる
人が生み出すデータは、格納することは容易になった
しかし、どうやって整理するかは大きな課題 ‒ だから、エンタープライズ検索もうまくいかない
機械が生み出すデータは、Edge-Heavyになりつつある ‒ 貯めずにリアルタイムに処理をする、データを生のまま交換し
ない、ということがキーとなる
32