Download - 知能情報・高度情報処理 マルチメディア・コンテンツの 高次処理の研究
知能情報・高度情報処理
マルチメディア・コンテンツの高次処理の研究
田中 克己神戸大学自然科学研究科
情報メディア科学専攻[email protected]
http://www.db.cs.kobe-u.ac.jp
1999年10月13日(京大会館)で開催の拡大推進委員会にて報告
本プロジェクトのねらい マルチメディアデータベースの新しいソフトウエ
ア・プラットフォームの確立
データ中心的なプラットフォーム マルチメディアコンテンツの特性を重視 従来の DB が扱っていない側面を重視
新分野の開拓の可能性 連続メディアの科学,放送とデータベース,演出の科学
「高次処理」=マルチメディアデータベースとしての高度機能(連続メディア・半構造メディア処理機能など)
本プロジェクトのターゲット コンテンツの流通基盤としてのデータベース技術
アクセス管理(版権,課金, CM 飛ばし防止など) ユーザ管理(ユーザプロファイル,インタラクション)
デジタル放送環境のためのデータベース リアルタイムインデキシング デジタルビデオ(蓄積型)のデータベース インターネット情報資源の活用
サイバースペースを支えるデータベース 情報検索支援のための空間メディア(デジタルミュジアム,
都市空間 DB など)
関連プロジェクト DVL プロジェクト
「デジタル放送+インターネット」をターゲット 分散オブジェクト技術によるミドルウエア データ放送フォーマット(ビーコン)や EC 用メ
ディエータなど IBL プロジェクト
リアルタイムインデキシング,ビデオダイジェスト,番組インデックスのデータモデル,など
データベース
出力部品化蓄積
検索・管理
DB 構造設計スキーマ
検索言語 SQL, OQL,…質問処理,アクセス管理
関係,オブジェクト
マルチメディア・コンテンツの特性
3 次元データ 静止画像 音楽動画像 身体動作
連続性(どこでも情報単位になり得る!) 半構造性(不確定な情報単位・非定型的な構
造) 多様性・多重性(メディア,解釈の多様性)
メディアの連続性
情報単位があらかじめ決定し難く,かつ,どの部分も検索単位になり得る. 密な索引を付与することが困難. 事実上無限の詳細度レベルがある.
情報単位があらかじめ決定し難く,かつ,どの部分も検索単位になり得る. 密な索引を付与することが困難. 事実上無限の詳細度レベルがある.
240.133 ABC
従来の文字数値データ
ビデオ映像(1次元),地図(2次元),コンピュータグラフィックス(3次元)など
メディアの連続性(continuous)
メディアの連続性(continuous)
連続メディアの情報単位の不確定性
“There are no basic units of meaning in film”
- James Monaco (1981)How to Read a Film : The Art, Technology, Language,
History and Theory of Film and Media
メディアの半構造性 従来の DB
構造的に厳密に定義
関係データベース形式
Web DB 構造全体を厳密に定義するこ
とが難しい. 情報単位や分類構造が不確定
メディアの半構造性(semi-structured)
メディアの半構造性(semi-structured)
月度 営業所 品名 売上 原価
メディアの多様性・多重性 マルチストリーム性 メディアの多様性
制裁 期限 を 目的 に 控えた 日米 自動車 問題 を めぐる
映像,音声,テロップ
SMIL文書
身体動作データ
多地点ビデオ
連続メディアと半構造メディアのためのデータベース
出力部品化蓄積
検索・管理
?情報単位は?スキーマ?関連付け?リアルタイム性
?情報ブラウジング??索引生成?質問形成,ビュー?アクセス管理
?検索結果視覚化?加工・再構造化
本プロジェクトのアプローチと新規性
出力
部品化蓄積
検索・管理
情報組織化と概覧・複数メディアの解析結果 の統合・マルチメディアスキミング ( 要約,圧縮)・番組化・複数メディア情報の重畳 表示と詳細度制御・情報単位の推定と自動 分類索引付けと検索
疎で軽い索引モデルと代数的検索モデル質問形成支援 (空間内でのユーザ振舞)
配信・提示・放送メディア・空間メディアによる提示・フィルタリングと合成 時系列データの新鮮度判定 デジタル放送の social filtering 視聴者のインタラクション リアルタイム編集 同期化・ダイジェスト化・番組化管理・詳細度制御・自律的な版権・課金管理・データ放送の有効時間管理・版管理・アクセス管理 依存関係のあるデータの アクセス権管理や巡行履歴に 基づくリンク活性化
マルチメディア・コンテンツの統合とメディア変換
マルチメディア・スキミング 単なる要約技術との差異
文章→要約文章 ビデオ→要約ビデオ
Webからガイドマップ,略地図と行き先案内 Web の TV 番組化 多地点ビデオのスキミング
対象データのイメージとデータモデル
連続メディアと半構造メディアの統合とこれに基づく索引モデルや検索モデル 1次元:ビデオ+半構造情報( XML 索引) 2次元:地図+半構造情報( XML 索引) 3次元: 3D 空間+半構造情報( XML 索引)
情報組織化,結果提示 (マルチメディア・スキミング等)にまで広げたプラットフォーム
組織化と概覧 映像
複数メディアの統合による組織化 スキミング
空間 2次元画像による断片的表現+アバタによる walkthrough 多メディア情報の重畳表示 空間に依存した詳細度制御 空間情報の抽象化 (ランドマーク計算)
半構造(Web ) 情報単位 (部分グラフ)の推定と分類
索引付けと検索 疎で軽い索引モデル( Light and Sparse Index
Model) 空間内での人間やアバタの振る舞いに基づく
質問形成
管理 管理
詳細度制御 自律的な版権・課金管理 (放送型)ハイパーメディア情報の有効時間管
理・版管理 アクセス管理
依存関係のあるデータのアクセス権管理 巡行履歴に基づくリンク活性化
配信におけるフィルタリングと合成 映像の social filtering 同期化,ダイジェスト化,番組化 視聴者のインタラクション 放送データのフィルタリング・合成
(時系列データからの新鮮度計算含む) リアルタイムオーサリングとリアルタイム編集・配送
映像の組織化 情報単位(トピック)の抽出・分類・関連付けと要約(スキミング)
複数メディアの活用 音声メディア
ディクテーション,重要語抽出,記事分類 文字メディア
テロップ切出し,認識,重要語抽出,記事分類 映像メディア
シーンカット検出,記事切出し,スポーツニュースの分類
ニュース映像の情報検索
Loop Point
Cut Point
A1A2
A3
ディジタルビデオ
記事クラスタ
この単語は?
この人は誰?
スポーツ・野球?
PKO って何?
画像指示
音声入力
PKOTV WS
ニュース記事の切り出し スポーツ映像の分類
音声認識による記事分類
分類表索引
自動車
キャスター音声
制裁大蔵日米
問題
ニュース記事
10 分類
分類結果 政治政治
分類確率
時間ディクテーション
経済 政治
(a)ニュース映像
(b)文字領域の 切り出し
(c)認識
(d)形態素
(e)キーワード
(f) 分類
北朝鮮浬不届コメ援
*北朝鮮、15-浬、10- 不、10-届、
北朝鮮、コメ、援助、要請
国際、経済
テロップ文字認識による記事分類
映像の組織化
疎で軽い索引モデルカット区間の類似性に基づく意味構造の発見代表カットの抽出とスキミング
映像データ
現在のショットにつけられた内容記述
意味的構造
類似度閾値
キーワード
Video interval
ショットの再生方法 通常 早送
り( )
代表ショット
( )
Unchanged
Gradually changing
Multiplexing
a a+1 b
a a+1 a+2 b
a
a+1
a+2
a+3
b-1
b
Subsequence 1:
Subsequence 2:
( 多重度 = 2)
互いに類似
a+2
4 1 0 0 1 0 0 0 05 0 1 0.19245 0 0.57735 0 0 0.2357026 0 0.19245 1 0 0 0.3849 0 0.2721667 1 0 0 1 0 0 0 08 0 0.57735 0 0 1 0.288675 0 0.2041249 0 0 0.3849 0 0.288675 1 0 0.47140510 0 0 0 0 0 0 1 011 0 0.235702 0.272166 0 0.204124 0.471405 0 1
Shot No. 4 5 6 7 8 9 10 11
UnchangedMultiplexing
内容記述間のコサイン相関による意味的構造の発見メカニズム
映像の組織化と概覧
検索文 サイボーグ が 敵 と 戦っている シーン
すべてのキーワードを含む極小部分グラフに対応する映像部分の検索
記述インタフェース
検索インタフェース
サイボーグ
009
敵 と 戦う
ビデオ時間
敵 に囲まれる
周りの 敵 に乱射
敵 を撃つ
敵 を投げ飛ばす
00:00:49:12
00:00:51:19
00:00:53:10
00:00:56:09
00:00:57:10
00:00:54:24
キーワード
カット一覧
検索結果の映像
映像の索引付けと検索
疎で軽い索引モデル グラフ理論的アプローチ 時刻印付きオーサリンググラフ
検索モデル 疎で軽い索引モデルと検索の情
報単位の不確定性を前提 検索モデルの理論的基盤の確立
を目指すグルー操作
与えられた区間群を含む最小区間を求める演算.
フィルター操作 グルー操作の結果,得られた区
間をさらにフィルタリング(区間長,ノイズ長,区間の前後関係など)
映像の検索
キーワード xを持つ区間集合 Xとキーワード yを持つ区間集合 Yのグルー演算式
静止画とアバタ画像を用いた擬似三次元空間の構築アバタ画像操作に基づくウォークスルーXML に基づく柔軟性の高いシーン記述言語
空間メディアの組織化と概覧
拡張現実ハイパーメディア Name-at
ビデオデータ(遠隔制御可能な定点観測カメラ)
空間データ基盤 空間記述データ(名前, URL等)
距離による空間記述データの詳細度制御と重畳表示
Zoom-Out& LoD
Zoom-In & LoD
LoD : Levels of Detail オブジェクトまでの距離による情報量の御
[ 基本機能 ]
カメラの遠隔操作・ 注釈; 文字の配置・ 拡張現実空間への情報のエントリと削除・ クリック可能な拡張現実空間・ 情報の詳細度の自動調整 ・ (LoD)
プライバシを考慮する機構・ ・ WWW ブラウザとの連携
空間メディアの組織化と概覧
鉄製木製 鉄製
アメリカ
日本
机アメリカ
A社
B社
領域呈示 + ランドマーク
ランドマーク選択
ランドマーク呈示
ゾーン呈示
空間メディアの組織化と概覧 領域内のランドマーク計算
tf/idf 法の拡張(特徴的な属性情報+大きな面積占有率) 距離・方向・視野による詳細度制御
階層的な空間記述 (XML等) サンプル選択からの質問形成と結果の空間配置
視野に依存した差別化呈示
空間メディアへのビデオ映像の統合 ビデオデータ検索のための仮想空間ブラウジング 仮想時空間における時間ウォークスルー LoD の時間軸拡張
空間メディアの組織化と概覧
空間メディアを用いた検索
何かに“注目”しているシーンは重要と考える スキミング再生
“ 注目”した時間から人の好みを求める 仮想空間の動的生成
ガイドペット アバタの時空間行動分析とその応用 注目時間による空間の動的生成(個人化) 時空間行動ログによるスキミング再生
空間メディアを用いた検索
ウオークスルーとサンプル選択による質問形成 検索結果の空間配置
Query
場
映像
パラメータ
映像データベース
SQLの生成とシーン検索
検索データと場との連続性を重視した提示(3次元モーフィング、パラメータ利用)
検索シーン
現実世界のシーン
利用者
マルチモーダルインタフェース
意図理解
周囲環境
場の状況
動コンテンツの姿勢位置、速度、色、形状等実時間での動コンテンツデータ蓄積
現実世界
融合
空間メディアを用いた検索
不確定な意味的情報単位の抽出• Web文書やネットニュースのグラフ構造からの「意味的
な情報単位」にあたる部分グラフの発見と検索• Web文書グラフ中の文脈構造の抽出
Web文書群の自動分類• ユーザの視点や目的に応じた自動分類と段階的修正• Kohonen の自己組織化マップと既存の検索エンジンを利
用
半構造メディア(Web 情報)の組織化
半構造メディア( Web 情報)の組織化
トピックA
トピックC
トピックB
「組織化」
Web グラフ中の意味的単位の検索検索={ Web,組織化 }
{multimedia, content} での検索結果の自動分類
「Web」
自律的な版権 課金管理機構・ カプセル化コンテンツ方式とサービスレンジ課金方式
配送時間制御機能を持つWWWサーバー 配送時間と QoS
詳細度向上 詳細度低下
サービスレンジ課金
マルチメディア・コンテンツの管理:
詳細度制御
20 秒
狭帯域クライアント(ダイヤルアップ接続 等)
広帯域クライアント(LAN接続 等)
動的な品質調整
配送時間指定ブラウザ画面
オリジナルページ
VRML データ
Permission Denied
付加情報付加情報VRML データVRML データ
etc…etc…LOS制御LOS制御課金管理課金管理版権管理版権管理
ユーザ認証ユーザ認証
データ
メソッ
ドユーザ認証ユーザ認証
課金管理課金管理
unauthorized
authorized
カプセル化
永続化
版権管理 課金管理・
詳細度レベル制御機能付加情報
サービス レンジ
ObjectStoreDB
サービスの利用 変更・
VRML データとユーザ認証等のメソッドを一体化
コンテンツが ,そのユーザの課金コスト内で多様なサービスを提供
カプセル化コンテンツが,ユーザ認証により版権を管理
版権・課金処理のプログラムロジックとデータをカプセル化して流通させる方式と.詳細度と behaviorを課金額に応じて選択できるサービスレンジ課金方式(課金範囲内で詳細度や振る舞いを変更可能)
マルチメディア・コンテンツの管理
サーバ側:バージョンを2分木で管理クライアント側:バージョンをリストで管理
(起動していないため受信できない )
6 月の予定6/1 …
6/15 …
[6/1,6/30]
C10
[6/1,6/10]
6 月の予定6/1 …
6/15 …
C11
[6/1,6/30]
6 月の予定6/1 …
6/15 …
C10
[6/1,6/30]
6 月の予定6/1 …
6/15 中止
C20
[7/1,7/31]
7 月の予定7/1 …7/2 …
C30
[6/1,6/10]
6 月の予定6/1 …
6/15 …
C11
内容の更新
有効時間の変更
[7/1,7/31]
7 月の予定7/1 …7/2 …
C30
マルチメディア・コンテンツの管理:
一貫性制御
依存関係を有するデータのアクセス権管理
AND-ORグラフと排他関係による依存関係のモデル化
ユーザのアクセス権に応じた動的なビュー生成
アクセス権の与え方の一貫性判定.逆向き閉包を用いた効率の良い計算法
一部のデータのアクセス権から残りのデータのアクセス権を補完
or
or
アクセス権に応じたビューの動的生成
(3D-CADデータの例)
a
b c d
e f
ユーザ1:{ a, b, c, d} → ×ユーザ2:{ a, b, d, e} →○ユーザ3:{ d, e} →○
各ユーザのアクセス権の一貫性の判定
マルチメディア・コンテンツの管理:
アクセス制御
News on Demand + Social Filtering
利 用 者 が 興 味 を 持 つニュースは高品質で再生できるよう,フィルタリングによって興味の高いニュースは事前転送
それ以外はストリーミングによる配送
コミュニティによるフィルタリング
フィルタリングユーザ
プロファイル
ニュース
フィードバック
コミュニティC3
コミュニティC1
コミュニティC2
従来の自分中心のフィルタリング
ユーザ
放送型配信環境におけるフィルタリングと合成
放送型配信環境におけるフィルタリングと合成
テレビ映像
映像 DB電子スコアブック生成
プレゼン用テキスト生成
プロファイル
シナリオ選択
入力
プレゼンテーション
イベント生成イベント生成イベント生成
映像とテキストを SMIL で同期化させたオンデマンドマルチメディアプレゼンテーション
野球でのダイジェスト生成機構
対話型テレビ番組作成システム 対話型テレビ番組をソフトウェアエージェントとして放送波
で配信する機構 AgentCast エージェントによりスタジオを半自動化する AgentStudio シナリオ記述言語で記述されたシナリオにしたがって Agent
Cast と AgentStudio に対して要求を出し,映像・音声とエージェントをタイミング良く配信する機構を実現
InternetInternet
AgentCastAgentCast
ScenarioManager
ScenarioManager
ScenarioScenario
AgentStudioAgentStudio
放送型配信環境におけるフィルタリングと合成
プッシュ型情報提供システムのための仮想チャネル・ Pointcast データのフィルタリング・合成により,ユーザ独自のチャネル定義が可能・複数チャンネルの配分比率が可能な,「アナログチャネル」を実現・ XML を用いて実装 , TVML を用いた自動番組化(種々の番組メタファー)
放送型配信環境におけるフィルタリングと合成
real channelfiltered channelvirtual TV channel
articles of real channel
filter & synthesizer
control panel
TVML による自動番組化
放送型配信環境におけるフィルタリングと合成
索引付きライブ映像の放送型配信とフィルタリング・編集・映像データのリアルタイムな索引付け機構の実現(音声認識,該当区間の推定)・複数のライブ映像と索引などのメタデータを一体化してマルチキャストで配送・索引の重要度に応じて放映中の番組に挿入
進行スケルトン
音声認識による索引付け
検索モデル 疎で軽い索引モデルと検索の情
報単位の不確定性を前提 検索モデルの理論的基盤の確立
を目指すグルー操作
与えられた区間群を含む最小区間を求める演算.
フィルター操作 グルー操作の結果,得られた区
間をさらにフィルタリング(区間長,ノイズ長,区間の前後関係など)
連続メディアの代数的検索モデル
キーワード xを持つ区間集合 Xとキーワード yを持つ区間集合 Yのグルー演算式
犬 犬人人
グルー操作は,ペアワイズなグルー操作式に還元可能
フィルタ操作 Fw (区間長によるフィルタ)Fwは以下の式を満たすため処理の効率化可能.
連続メディアの代数的検索モデル
フィルタの分配化可能な必要十分条件任意の区間 i に対し, F(i)= iであるならば, i のすべての部
分区間 i’ において F(i’)= i’ であること。
F(XY)=F(F(XX)F(YY))最適化フィルタの利点
•演算処理の効率化•フィルタの順序が自由•フィルタの合成が可能
F2(F1(I))=F1(F2(I))
2つの最適化フィルタ F1,F2 をF3(I)=F1(I)F2(I)、 F3(I)=F1(I)F2
(I)のように合成したとき
F3 も最適化フィルタ
連続メディアの代数的検索モデル
3つの最適化可能フィルタ•タイムウィンドウフィルタ•最長ノイズフィルタ•順序関係フィルタ
FS(kakb)
FE(kakb)
順序関係フィルタと最長ノイズフィルタを組み合わせると2つのキーワードの時間関係を11種類に分けられる
FS(kakbkc)(I)=FS(kbkc)(FS(kakb)(I))3つのキーワード間の順序関係
ka
kb
ka
kb
連続メディアの代数的検索モデル
グルー演算を2次元に拡張可能
XY=XXYY
XY=XXXXYYYY
1次元 区間集合 X,Y
2次元 領域集合 X,Y
F(XY)=F(F(XX)F(YY))
F(XY)=F(F(XXXX)F(YYYY))
連続メディアの代数的検索モデル
連続メディアの代数的検索モデル 空間グルー
1a
2a
3a
4a
cey
csy
cexcsx X
Y
オブジェクト= {a1,a2,a3,a4}
空間グルー a1 a2 a3 a4
= r[csx,csy,cex,cey]
領域 ra1 a2 a3 a4
連続メディアの代数的検索モデル 空間グルー演算 オブジェクト a1
属性: office
cey(a1)
csy(b1)
cex(b1)csx(a1) X
Y
a1 b1 = r[csx(a1),csy(b1),cex(b1),cey(a1)]
a1 b1
office と restaurant が存在する領域
オブジェクト b1
属性: restaurant
連続メディアの代数的検索モデル ペアワイズグルー演算
X
Yoffice : A={a1,a2,…,am}
restaurant : B={b1,b2,b3…,bn}
A B = { r | ∃a∈A.∃b∈B. r = a b }
a1 b1
b2
b3b4
a2
a4
a3
・・・
A B =
連続メディアの代数的検索モデル パワーセットグルー演算
X
Y
A B = { r | ∃A’⊆A.∃B’⊆B. A’≠φ. B’≠φ r = ( A’ B’) }∪
a1 b1 b2 a1 b1 b2 b3
office : A={a1,a2,…,am}
restaurant : B={b1,b2,…,bn}
a1 b1
b2
b3b4
a2
a4
a3
a1 a3 b1 b3 b4
a1 b1 b3 b4
a1 b3 b4
連続メディアの代数的検索モデル パワーセットグルー演算の効率化
A={a1,…,am} B={b1,…,bn}A:属性情報 α を持つオブジェクト a の集合B:属性情報 β を持つオブジェクト b の集合
A Bパワーセットグルー演算グルーの組み合わせ: 2 ×2 m n 計算量: O(2 2 )m n
A B = (A A A A) (B B B B) 計算量: O(m n )44
連続メディアの代数的検索モデル フィルタリングによる演算の効率化
F (A B) = F ( F (A A A A) F (B B B B))
F (A B) = F((A A A A) (B B B B))
計算の初期段階で不適切な解をあらかじめ除去この式変換が成立すれば演算の効率化が可能
連続メディアの代数的検索モデル 空間ノイズフィルタ
office
restaurant
apartment
?検索中のオブジェクトが占める面積
空間グルーの面積ノイズ = 1 -
空間ノイズフィルタ
ノイズを閾値とするフィルタ
連続メディアの代数的検索モデル 空間ノイズフィルタの場合,補償が必要
A B = (A A A A) (B B B B)
FN(A B) =FN ( FN (A A A A) FN (B B B B))
∪ FN ( FN (A A B B) FN (A A B B))
連続メディアの代数的検索モデル フィルタの満たす必要十分条件
フィルタ関数がこの条件を満たすとき演算の効率化が可能
F ( I J ) = Zである領域集合 Z が存在し,任意の z ∈ Z が z = i j ( ただし i I ∈ , j J∈ ) であるとき,全ての領域 i
, j に おいて, F(i) = I かつ F( j) = J である.
本プロジェクトのデータベース的側面
The Network Is the Multimedia Database ! 検索 (retrieval) から探査 (exploration) データモデルから検索モデル 検索単位の不確定性,索引の断片性
連続メディア,半構造データ 情報組織化( information organization )
≧ data miningコンテンツの内容と構造両者に基づく組織化複数メディアにまたがる組織化
データベースプロジェクトとしてのポイント
スキーマ主導パラダイムからの脱却 情報の構造化,組織化
データモデルから検索モデル 新しい情報提示技術
インデキシング
検索モデル
アクセス権・版権・課金管理
構造化・組織化 提示・配送
Asilomar レポート (98/9)
Bernstein, Brodie, Ceri, DeWitt, Franklin, Garcia-Molna, Gray, Held, Hellerstein, Jagadish, Lesk, Maier, Naughton Pirahesh, Stonebraker, Ullman
今後 10年の DB 研究のあり方: delta-X から forward looking
Web がすべてを変えた. DB コミュニティの貢献少ない. Web の変貌(動的コンテンツ, XML ) Web 情報の発見と解析技術が重要
Asilomar レポート:重要テーマ
Plug & Play DBMS (self-tuning, information discovery)
何百万の DBS の連邦化 伝統的 DBS アーキテクチャの見直し データとプログラムの同等の扱い 構造データと半構造データの統合 ゴール
Make it easy for everyone to store, organize, access and analyze the majority of human information online
開拓分野 連続メディア工学,時空間データ工学,コン
テンツ工学 演出の科学,プレゼンテーションの科学,ド
ラマツルギー 放送環境のデータベース, DB家電