vldb2002 report-200210231500
TRANSCRIPT
2002-11-05 ACM SIGMOD 日本支部第 24 回大会
第 1 部概要基調講演
10 Years Awardパネル一般講演(1)
2002-11-05 ACM SIGMOD 日本支部第 24 回大会
VLDB2002 第 28 回大規模データベースに関する国際会議
VLDB Endowment ( http://www.vldb.org)主催 2002-08-20 ~ 23, 香港・ Kowloon Shangri-la
Hotel ホームページ
http://www.cs.ust.hk/vldb2002/ 会議プログラムや全予稿がダウンロード可能
参加者数 320 名 アメリカ 98, 欧州 67, アジア 127 など
2002-11-05 ACM SIGMOD 日本支部第 24 回大会
Kowloon Shangri-la Hotel
2002-11-05 ACM SIGMOD 日本支部第 24 回大会
会議の概要 基調講演:2、パネル:3 セッション:21、 Industrial セッション:8 チュートリアル:7、デモンストレーション:17 併設ワークショップ
第 1 回 XML ツール・技術の効率と有用性に関する VLDB ワークショップ( EEXTT2002 ) 第 3 回 E- サービスのための技術に関する VLDB ワークショップ( TES’02 ) 第 2 回協調インターネットコンピューティングに関する国際ワークショップ( CIC 2002 ) 第 1 回 Web ベースの学習に関する国際会議( ICWL
2002 )
2002-11-05 ACM SIGMOD 日本支部第 24 回大会
採択論文数
2002-11-05 ACM SIGMOD 日本支部第 24 回大会
地域別採択率
2002-11-05 ACM SIGMOD 日本支部第 24 回大会
地域別投稿数の推移
2002-11-05 ACM SIGMOD 日本支部第 24 回大会
基調講演 Data Routing Rather than Databases: The Meaning
of the Next Wave of the Web Revolution to Data Management A. Bosworth, BEA Systems, USA
2002-11-05 ACM SIGMOD 日本支部第 24 回大会
基調講演 Foundation Matters
C. J. Date, Independent Consultant, USA
2002-11-05 ACM SIGMOD 日本支部第 24 回大会
Database Manifesto The object-oriented database manifesto (Malcom
Atkinson et. Al., 1989) “Essentially ignores the relational model”
Third-Generation Database System Manifesto (M. Stonebraker., ed., 1990) “Agrees that the relational model must not be discarded
… but fails to face up to the hopelessness of continuing to build on SQL.”
“The Third Manifesto” (C.J.Date, 2000) http://www.thirdmanifesto.com/
2002-11-05 ACM SIGMOD 日本支部第 24 回大会
Back to the future SQL ≠ 関係モデル
関係モデルがすべての基本 オブジェクト指向の特徴も(拡張することなく)関係モデルで説明できる
2002-11-05 ACM SIGMOD 日本支部第 24 回大会
10-year Best Paper Award 10 年前の VLDB 採択論文のうち、後の研究
にもっとも影響を与えたもの Querying in Highly Mobile Distributed Environ
ments T. Imielinski and B. R. Badrinath
Performance Evaluation of an Adaptive and Robust Load Control Method for the Avoidance of Data Contention Thrashing A. Moenkeberg and G. Weikum
2002-11-05 ACM SIGMOD 日本支部第 24 回大会
[Imielinski and Badrinath 92] 移動体端末からのデータベース問合せ
常に完全な位置情報を管理しようとするとネットワークトラフィックが増大→完全な位置情報は持たない 位置情報の更新
Inter-zone (移動頻度小)と intra-zone (移動頻度大) Inter-zone での移動のみ更新 移動体の正確な位置は管理しない
位置情報に関連する問合せ処理 質問によって、どの程度正確な位置情報を取得するかが変わる
2002-11-05 ACM SIGMOD 日本支部第 24 回大会
[Imielinski and Nath 2002] 移動体インターネット技術は夢物語から現実へ 現在の技術
3G (GPRS) ネットワーク GPS データを蓄積できる携帯端末
現在の技術を使ってどんなデータ管理ができるか?→ Dataspace [Imielinski etc. 2000] 移動体端末による “ digitally enabled physical space”
2002-11-05 ACM SIGMOD 日本支部第 24 回大会
Dataspace 現実世界から得られる
センシングデータを移動体技術を使って統合
基盤技術 ネットワーク層でのイン
デクシング shared multicast tree
サービスの質に関する尺度 observability awareness
2002-11-05 ACM SIGMOD 日本支部第 24 回大会
[Moenkeberg and Weikum 92] 並行実行できるトランザクションの最大数( DMP)
大きすぎると thrashing が発生し性能低下 (data contention) 小さすぎると実行待ちが多く発生し性能低下 敏感なパラメータ、チューンアップが難しい
本論文の提案 DMP を自動的かつ動的にチューンする手法 トランザクションの性質(長さなど)に関する知識を必要としない トランザクションの長さを予測することにより更なる性能向上
2002-11-05 ACM SIGMOD 日本支部第 24 回大会
[Moenkeberg and Weikum 92]
Conflict ratio = (全トランザクションの持つロック総数 / 現在アクティブなトランザクションの持つロック総数) Conflict ratio > 1.3 のとき data contention thrashing トランザクションの長さを予測することで conflict ratio を補正
2002-11-05 ACM SIGMOD 日本支部第 24 回大会
後の研究に与えた影響 自動チューニングの進歩
データベースのパラメータが整理され、性能向上に大きく影響するものだけがチューンできるようになった パラメータのデフォルト値の質の向上、自動調整
自動チューニングの研究分野の確立 Disk storage level, index selection などで成果
2002-11-05 ACM SIGMOD 日本支部第 24 回大会
一般講演の傾向 採択論文… 69 件 XML…16 件
VLDB2000 は 2 件、 VLDB2001 は 9 件 専門セッションは 2 、あちこちのセッションに分散 Industrial Paper は 2 件+ α
データマイニング… 11 件+ α ( 3 セッション) ストリームデータ処理… 8 件+ α Web データ処理… 7 件+ α
2002-11-05 ACM SIGMOD 日本支部第 24 回大会
XML 関連講演の傾向 XML データに関する質問最適化・高速化… 9
件 XPath ・ XQuery に関する処理の最適化… 8 件 VLDB2001 は 0 件(質問処理は 4 件)
XML データに対するインデックス… 3 件 セキュリティ… 2 件( VLDB2001 は 0 件) 参考: W3C の動向
XQuery の first working draft 発表… 2001 年 6 月 XML Encryption の first working draft 発表… 2001 年
6 月
2002-11-05 ACM SIGMOD 日本支部第 24 回大会
XML 質問処理Optimizing View Queries in ROLEX to Support
Navigable Result TreesP. Bohannon et. al. (Lucent Technologies)
2002-11-05 ACM SIGMOD 日本支部第 24 回大会
従来の XML ミドルウェアシステム
問合せの結果をいったんファイルに保存し、アプリケーション側でパースしなければならない→コスト高
2002-11-05 ACM SIGMOD 日本支部第 24 回大会
ROLEX システム
2002-11-05 ACM SIGMOD 日本支部第 24 回大会
本論文の提案 ROLEX システムの概要 ROLEX における質問実行機構、および質問最適化機能
2002-11-05 ACM SIGMOD 日本支部第 24 回大会
Schema Tree Query
2002-11-05 ACM SIGMOD 日本支部第 24 回大会
AND-OR DAG: ROLEX の質問最適化機能
2002-11-05 ACM SIGMOD 日本支部第 24 回大会
XML インデックスRE-Tree: An Efficient Index Structure for Regul
ar ExpressionsC.-Y. Chan, M. Garofalakis, and R. Rastogi (Bell La
bs, Lucent Technologies)
2002-11-05 ACM SIGMOD 日本支部第 24 回大会
XML における正則表現の重要性 正則表現(のサブセット・拡張)になって
いる規格が多い ( DTD, XPath, … ) これまでの正則表現の使われ方
シンボル列が与えられた正則表現に含まれるか? XML 文書の妥当性検証 XPath による XML 文書検索応用
2002-11-05 ACM SIGMOD 日本支部第 24 回大会
動機 応用例
XML フィルタリング プロファイルを XPath で記述し、該当する文書・要素の
みフィルタリング 処理したい文書が与えられると、それにマッチするプロ
ファイルを検索し、処理を行いたい XML の分類
文書スキーマの明示されていない文書に対し、既知の文書スキーマデータベースからスキーマを検索
シンボル列が与えられると、あらかじめ蓄積されている正則表現集合から与えられた列を含むものを取得したい(正則表現データベース?)
2002-11-05 ACM SIGMOD 日本支部第 24 回大会
本論文の提案 RE-tree
与えられた入力文字列を含む正則表現集合を高速に検索するためのインデックス構造 R-tree などと類似したデータ構造
RE-tree 処理のための概念・アルゴリズム 正則表現の大小関係とその決定アルゴリズム 木のノードの分割など いくつかは NP困難→サンプルを用いた近似解法
2002-11-05 ACM SIGMOD 日本支部第 24 回大会
RE-tree
Dynamic, height-balanced hierarchical index structure 葉: ( 正則表現の ID, 対応する非決定性有限オートマトン ) 内部ノード : ( 境界オートマトン M, ptr)
M: 子のノードの FA を包含する状態数 α 以下の FA ptr: 次のレベルのノードへのポインタ
2002-11-05 ACM SIGMOD 日本支部第 24 回大会
RE-tree に対する操作 新しい RE を挿入するのに最適なノードを選択
(ChooseBestFA) ノード N 中の FA Mi から |L(Mi) L(M)| - |L(Mi)| ∪
が最小となるものを見つける 最適なノード分割の計算 (SplitFA)
M={M1, M2, …, Mk} の disjoint な部分集合 M1, M2 で |M1| >= m, |M2| >= m, |L(M1)| + |L(M2)| が最小
最適な汎化オートマトンの計算 (GeneralizeFA) FA 集合 M に対し、 |M| <= α, L(M) L(M), |L(M)| ⊆
が最小となる M を求める
2002-11-05 ACM SIGMOD 日本支部第 24 回大会
正則表現に起因する問題 L(M) は無限集合→ |L(M)| が計算できない
同等の新たな尺度が必要準備
Counting |Ln(M)| M によって受理される長さ n の文字列数 DFA で O(n|M| min{|Σ|, |M|}), NFA で O(n^2 |M|^2 min
{|Σ|, |M|}) で計算可能 Sampling
Ln(M) のランダムサンプルを効率的に作成するアルゴリズム
2002-11-05 ACM SIGMOD 日本支部第 24 回大会
正則言語の大きさ |L(M)| L(Mi) が L(Mj) より大きい
Exists N s.t. for all k >= NΣ 1<=l<=k |Ll(Mi)| > Σ 1<=l<=k |Ll(Mj)|
N をどうやって定めるか? Max-Count Measure Minimum Description Length (MDL) Based Measu
re
2002-11-05 ACM SIGMOD 日本支部第 24 回大会
汎化オートマトンの計算例
2002-11-05 ACM SIGMOD 日本支部第 24 回大会
実験 同種の研究がないので通常のファイルによる実装と比較 ランダムで RE と質問を生成 ファイルによる実装より数倍高速
2002-11-05 ACM SIGMOD 日本支部第 24 回大会
第 2 部一般講演(2)
2002-11-05 ACM SIGMOD 日本支部第 24 回大会
XML 質問処理最適化(1)Efficient Algorithms for Processing XPath Queri
esG. Gottlob, C. Koch, and R. Pichler (Tech. Univ. Wie
n) XPath プロセッサ (Apache Xalan, XT, MSXML (I
E6)) の性能評価 問合せによっては指数時間かかってしまう
効率的な XPath 評価アルゴリズムの提案
2002-11-05 ACM SIGMOD 日本支部第 24 回大会
XPath プロセッサの性能評価 対象 XML 文書
<a><b/>…<b/></a> XPath
//a/b/parent::a/b/parent::a/b 結果
Xalan, XT では問合せのサイズに対して指数時間かかる
2002-11-05 ACM SIGMOD 日本支部第 24 回大会
XPath プロセッサの性能評価 対象 XML 文書
<a><b/>…<b/></a> XPath 問合せ
//a/b[count(parent::a/b)>1] //a/b[count(parent::a/b[cou
nt(parent::a/b)>1])>1] 結果
Xalan, XT, IE6(MSXML)のいずれでも、問合せのサイズに対して指数時間
2002-11-05 ACM SIGMOD 日本支部第 24 回大会
提案手法 XPath を(データサイズ、問合せサイズに
対して)多項式時間で評価する主記憶アルゴリズムの提案
XPath のサブセット( Core XPath )を線形時間で評価するアルゴリズムの提案 Core XPath に対しても Xalan, XT は指数時間、
MSXML はデータサイズの 4乗かかることがある
2002-11-05 ACM SIGMOD 日本支部第 24 回大会
XML 質問処理最適化(2)A Transducer-Based XML Query Processor
B. Ludascher, P. Mukhopadhyay, and Y.Papakonstantinou (Univ. California San Diego)
XML ストリームに対する XQuery 適用の高速化手法
2002-11-05 ACM SIGMOD 日本支部第 24 回大会
XML とストリーミング 現在のところ、 XML の最も重要な用途のひとつはデータ交換
さまざまなシステム間のデータ交換 Web サービス (SOAP, etc.)
もともと XML は物理的にはバイト列(テキストストリーム) XML をストリームデータとして処理できれば、処理の効率化が期待できる
2002-11-05 ACM SIGMOD 日本支部第 24 回大会
XML の代表的 API SAX (Simple API for XML)
イベントベース Start tag, end tag などが現れるたびにイベントを発生
ストリームデータに適する 複雑な処理はしにくい
DOM (Document Object Model) 主記憶上に XML に対応する木を作成 木の巡航により複雑な操作が可能 文書をすべて読み込んでからしか使えない→ストリームデータには適さない
2002-11-05 ACM SIGMOD 日本支部第 24 回大会
XPath, XQuery XML に対応する木をデータモデルとする XPath … 木の根からのパス集合を表現する式 意味論は木の根からの巡航により定義
XQuery … XPath による木の節集合の定義とそれらに対する集合論的・手続き的操作
いずれも、元々の意味論をそのまま実装したのではストリームデータ処理には向かない
2002-11-05 ACM SIGMOD 日本支部第 24 回大会
本論文の提案 XML ストリームに対して XQuery を高速に
適用する手法の提案 XSM (XML Stream Machine)
ストリームデータに対する状態機械 XQuery を XSM ネットワークにコンパイルした
後、最適化、プログラムコードに変換従来の XSLT プロセッサに比べて数倍 (Java)
ないし数十倍( C )の高速化
2002-11-05 ACM SIGMOD 日本支部第 24 回大会
XSM (XML Stream Machine) 4 つ組 (Q, q0, B, T)
Q: 状態集合、 q0: 初期状態、 B: バッファ集合、 T: 遷移集合 … 内部的には状態機械 作業用バッファ(記憶)、 XSM同士の通信用バッファ(入力、出力)
2002-11-05 ACM SIGMOD 日本支部第 24 回大会
XQuery から XSM への変換
2002-11-05 ACM SIGMOD 日本支部第 24 回大会
XSM ネットワークの合成
2002-11-05 ACM SIGMOD 日本支部第 24 回大会
XSM の最適化 Lockstep optimization
不要な遷移枝・条件判定を削除 Schema-based optimization
XML 文書スキーマに基づき、起こりえない遷移枝・条件判定を削除
2002-11-05 ACM SIGMOD 日本支部第 24 回大会
実験結果 Xeon 2.2GHz, 1GB RAM DBLP データベース (80MB) に対して適用
2002-11-05 ACM SIGMOD 日本支部第 24 回大会
XML 問合せに関するまとめ XPath, XQuery 中心になるだろう
W3C のさまざまな仕様でも XPath が参照されている 言語仕様→実装→最適化、高速化
ただし XPath, XQuery の意味論は小規模テキスト文書・データ
ベースを想定(明記はしていないが) 大規模データベースやストリームデータでの効率的処理に
は課題が多い 更新処理? XML 文書スキーマとデータベース技術の融合? (文書スキーマと同様)独自仕様が現れる可能性もあるか
も