vldb2002 report-200210231500

54
2002-11-05 ACM SIGMOD 日日日日日 24 日日日 VLDB2002 VLDB2002 国国国国国国 国国国国国国 日日日日 日日日日日日 [email protected]

Upload: takeo-kunishima

Post on 15-Feb-2017

17 views

Category:

Engineering


0 download

TRANSCRIPT

Page 1: Vldb2002 report-200210231500

2002-11-05 ACM SIGMOD 日本支部第 24 回大会

VLDB2002VLDB2002国際会議報告国際会議報告国島丈生

岡山県立大学[email protected]

Page 2: Vldb2002 report-200210231500

2002-11-05 ACM SIGMOD 日本支部第 24 回大会

第 1 部概要基調講演

10 Years Awardパネル一般講演(1)

Page 3: Vldb2002 report-200210231500

2002-11-05 ACM SIGMOD 日本支部第 24 回大会

VLDB2002 第 28 回大規模データベースに関する国際会議

VLDB Endowment ( http://www.vldb.org)主催 2002-08-20 ~ 23, 香港・ Kowloon Shangri-la

Hotel ホームページ

http://www.cs.ust.hk/vldb2002/ 会議プログラムや全予稿がダウンロード可能

参加者数 320 名 アメリカ 98, 欧州 67, アジア 127 など

Page 4: Vldb2002 report-200210231500

2002-11-05 ACM SIGMOD 日本支部第 24 回大会

Kowloon Shangri-la Hotel

Page 5: Vldb2002 report-200210231500

2002-11-05 ACM SIGMOD 日本支部第 24 回大会

会議の概要 基調講演:2、パネル:3 セッション:21、 Industrial セッション:8 チュートリアル:7、デモンストレーション:17 併設ワークショップ

第 1 回 XML ツール・技術の効率と有用性に関する VLDB ワークショップ( EEXTT2002 ) 第 3 回 E- サービスのための技術に関する VLDB ワークショップ( TES’02 ) 第 2 回協調インターネットコンピューティングに関する国際ワークショップ( CIC 2002 ) 第 1 回 Web ベースの学習に関する国際会議( ICWL

2002 )

Page 6: Vldb2002 report-200210231500

2002-11-05 ACM SIGMOD 日本支部第 24 回大会

採択論文数

Page 7: Vldb2002 report-200210231500

2002-11-05 ACM SIGMOD 日本支部第 24 回大会

地域別採択率

Page 8: Vldb2002 report-200210231500

2002-11-05 ACM SIGMOD 日本支部第 24 回大会

地域別投稿数の推移

Page 9: Vldb2002 report-200210231500

2002-11-05 ACM SIGMOD 日本支部第 24 回大会

基調講演 Data Routing Rather than Databases: The Meaning

of the Next Wave of the Web Revolution to Data Management A. Bosworth, BEA Systems, USA

Page 10: Vldb2002 report-200210231500

2002-11-05 ACM SIGMOD 日本支部第 24 回大会

基調講演 Foundation Matters

C. J. Date, Independent Consultant, USA

Page 11: Vldb2002 report-200210231500

2002-11-05 ACM SIGMOD 日本支部第 24 回大会

Database Manifesto The object-oriented database manifesto (Malcom

Atkinson et. Al., 1989) “Essentially ignores the relational model”

Third-Generation Database System Manifesto (M. Stonebraker., ed., 1990) “Agrees that the relational model must not be discarded

… but fails to face up to the hopelessness of continuing to build on SQL.”

“The Third Manifesto” (C.J.Date, 2000) http://www.thirdmanifesto.com/

Page 12: Vldb2002 report-200210231500

2002-11-05 ACM SIGMOD 日本支部第 24 回大会

Back to the future SQL ≠ 関係モデル

関係モデルがすべての基本 オブジェクト指向の特徴も(拡張することなく)関係モデルで説明できる

Page 13: Vldb2002 report-200210231500

2002-11-05 ACM SIGMOD 日本支部第 24 回大会

10-year Best Paper Award 10 年前の VLDB 採択論文のうち、後の研究

にもっとも影響を与えたもの Querying in Highly Mobile Distributed Environ

ments T. Imielinski and B. R. Badrinath

Performance Evaluation of an Adaptive and Robust Load Control Method for the Avoidance of Data Contention Thrashing A. Moenkeberg and G. Weikum

Page 14: Vldb2002 report-200210231500

2002-11-05 ACM SIGMOD 日本支部第 24 回大会

[Imielinski and Badrinath 92] 移動体端末からのデータベース問合せ

常に完全な位置情報を管理しようとするとネットワークトラフィックが増大→完全な位置情報は持たない 位置情報の更新

Inter-zone (移動頻度小)と intra-zone (移動頻度大) Inter-zone での移動のみ更新 移動体の正確な位置は管理しない

位置情報に関連する問合せ処理 質問によって、どの程度正確な位置情報を取得するかが変わる

Page 15: Vldb2002 report-200210231500

2002-11-05 ACM SIGMOD 日本支部第 24 回大会

[Imielinski and Nath 2002] 移動体インターネット技術は夢物語から現実へ 現在の技術

3G (GPRS) ネットワーク GPS データを蓄積できる携帯端末

現在の技術を使ってどんなデータ管理ができるか?→ Dataspace [Imielinski etc. 2000] 移動体端末による “ digitally enabled physical space”

Page 16: Vldb2002 report-200210231500

2002-11-05 ACM SIGMOD 日本支部第 24 回大会

Dataspace 現実世界から得られる

センシングデータを移動体技術を使って統合

基盤技術 ネットワーク層でのイン

デクシング shared multicast tree

サービスの質に関する尺度 observability awareness

Page 17: Vldb2002 report-200210231500

2002-11-05 ACM SIGMOD 日本支部第 24 回大会

[Moenkeberg and Weikum 92] 並行実行できるトランザクションの最大数( DMP)

大きすぎると thrashing が発生し性能低下 (data contention) 小さすぎると実行待ちが多く発生し性能低下 敏感なパラメータ、チューンアップが難しい

本論文の提案 DMP を自動的かつ動的にチューンする手法 トランザクションの性質(長さなど)に関する知識を必要としない トランザクションの長さを予測することにより更なる性能向上

Page 18: Vldb2002 report-200210231500

2002-11-05 ACM SIGMOD 日本支部第 24 回大会

[Moenkeberg and Weikum 92]

Conflict ratio = (全トランザクションの持つロック総数 / 現在アクティブなトランザクションの持つロック総数) Conflict ratio > 1.3 のとき data contention thrashing トランザクションの長さを予測することで conflict ratio を補正

Page 19: Vldb2002 report-200210231500

2002-11-05 ACM SIGMOD 日本支部第 24 回大会

後の研究に与えた影響 自動チューニングの進歩

データベースのパラメータが整理され、性能向上に大きく影響するものだけがチューンできるようになった パラメータのデフォルト値の質の向上、自動調整

自動チューニングの研究分野の確立 Disk storage level, index selection などで成果

Page 20: Vldb2002 report-200210231500

2002-11-05 ACM SIGMOD 日本支部第 24 回大会

一般講演の傾向 採択論文… 69 件 XML…16 件

VLDB2000 は 2 件、 VLDB2001 は 9 件 専門セッションは 2 、あちこちのセッションに分散 Industrial Paper は 2 件+ α

データマイニング… 11 件+ α ( 3 セッション) ストリームデータ処理… 8 件+ α Web データ処理… 7 件+ α

Page 21: Vldb2002 report-200210231500

2002-11-05 ACM SIGMOD 日本支部第 24 回大会

XML 関連講演の傾向 XML データに関する質問最適化・高速化… 9

件 XPath ・ XQuery に関する処理の最適化… 8 件 VLDB2001 は 0 件(質問処理は 4 件)

XML データに対するインデックス… 3 件 セキュリティ… 2 件( VLDB2001 は 0 件) 参考: W3C の動向

XQuery の first working draft 発表… 2001 年 6 月 XML Encryption の first working draft 発表… 2001 年

6 月

Page 22: Vldb2002 report-200210231500

2002-11-05 ACM SIGMOD 日本支部第 24 回大会

XML 質問処理Optimizing View Queries in ROLEX to Support

Navigable Result TreesP. Bohannon et. al. (Lucent Technologies)

Page 23: Vldb2002 report-200210231500

2002-11-05 ACM SIGMOD 日本支部第 24 回大会

従来の XML ミドルウェアシステム

問合せの結果をいったんファイルに保存し、アプリケーション側でパースしなければならない→コスト高

Page 24: Vldb2002 report-200210231500

2002-11-05 ACM SIGMOD 日本支部第 24 回大会

ROLEX システム

Page 25: Vldb2002 report-200210231500

2002-11-05 ACM SIGMOD 日本支部第 24 回大会

本論文の提案 ROLEX システムの概要 ROLEX における質問実行機構、および質問最適化機能

Page 26: Vldb2002 report-200210231500

2002-11-05 ACM SIGMOD 日本支部第 24 回大会

Schema Tree Query

Page 27: Vldb2002 report-200210231500

2002-11-05 ACM SIGMOD 日本支部第 24 回大会

AND-OR DAG: ROLEX の質問最適化機能

Page 28: Vldb2002 report-200210231500

2002-11-05 ACM SIGMOD 日本支部第 24 回大会

XML インデックスRE-Tree: An Efficient Index Structure for Regul

ar ExpressionsC.-Y. Chan, M. Garofalakis, and R. Rastogi (Bell La

bs, Lucent Technologies)

Page 29: Vldb2002 report-200210231500

2002-11-05 ACM SIGMOD 日本支部第 24 回大会

XML における正則表現の重要性 正則表現(のサブセット・拡張)になって

いる規格が多い ( DTD, XPath, … ) これまでの正則表現の使われ方

シンボル列が与えられた正則表現に含まれるか? XML 文書の妥当性検証 XPath による XML 文書検索応用

Page 30: Vldb2002 report-200210231500

2002-11-05 ACM SIGMOD 日本支部第 24 回大会

動機 応用例

XML フィルタリング プロファイルを XPath で記述し、該当する文書・要素の

みフィルタリング 処理したい文書が与えられると、それにマッチするプロ

ファイルを検索し、処理を行いたい XML の分類

文書スキーマの明示されていない文書に対し、既知の文書スキーマデータベースからスキーマを検索

シンボル列が与えられると、あらかじめ蓄積されている正則表現集合から与えられた列を含むものを取得したい(正則表現データベース?)

Page 31: Vldb2002 report-200210231500

2002-11-05 ACM SIGMOD 日本支部第 24 回大会

本論文の提案 RE-tree

与えられた入力文字列を含む正則表現集合を高速に検索するためのインデックス構造 R-tree などと類似したデータ構造

RE-tree 処理のための概念・アルゴリズム 正則表現の大小関係とその決定アルゴリズム 木のノードの分割など いくつかは NP困難→サンプルを用いた近似解法

Page 32: Vldb2002 report-200210231500

2002-11-05 ACM SIGMOD 日本支部第 24 回大会

RE-tree

Dynamic, height-balanced hierarchical index structure 葉: ( 正則表現の ID, 対応する非決定性有限オートマトン ) 内部ノード : ( 境界オートマトン M, ptr)

M: 子のノードの FA を包含する状態数 α 以下の FA ptr: 次のレベルのノードへのポインタ

Page 33: Vldb2002 report-200210231500

2002-11-05 ACM SIGMOD 日本支部第 24 回大会

RE-tree に対する操作 新しい RE を挿入するのに最適なノードを選択

(ChooseBestFA) ノード N 中の FA Mi から |L(Mi) L(M)| - |L(Mi)| ∪

が最小となるものを見つける 最適なノード分割の計算 (SplitFA)

M={M1, M2, …, Mk} の disjoint な部分集合 M1, M2 で |M1| >= m, |M2| >= m, |L(M1)| + |L(M2)| が最小

最適な汎化オートマトンの計算 (GeneralizeFA) FA 集合 M に対し、 |M| <= α, L(M) L(M), |L(M)| ⊆

が最小となる M を求める

Page 34: Vldb2002 report-200210231500

2002-11-05 ACM SIGMOD 日本支部第 24 回大会

正則表現に起因する問題 L(M) は無限集合→ |L(M)| が計算できない

同等の新たな尺度が必要準備

Counting |Ln(M)| M によって受理される長さ n の文字列数 DFA で O(n|M| min{|Σ|, |M|}), NFA で O(n^2 |M|^2 min

{|Σ|, |M|}) で計算可能 Sampling

Ln(M) のランダムサンプルを効率的に作成するアルゴリズム

Page 35: Vldb2002 report-200210231500

2002-11-05 ACM SIGMOD 日本支部第 24 回大会

正則言語の大きさ |L(M)| L(Mi) が L(Mj) より大きい

Exists N s.t. for all k >= NΣ 1<=l<=k |Ll(Mi)| > Σ 1<=l<=k |Ll(Mj)|

N をどうやって定めるか? Max-Count Measure Minimum Description Length (MDL) Based Measu

re

Page 36: Vldb2002 report-200210231500

2002-11-05 ACM SIGMOD 日本支部第 24 回大会

汎化オートマトンの計算例

Page 37: Vldb2002 report-200210231500

2002-11-05 ACM SIGMOD 日本支部第 24 回大会

実験 同種の研究がないので通常のファイルによる実装と比較 ランダムで RE と質問を生成 ファイルによる実装より数倍高速

Page 38: Vldb2002 report-200210231500

2002-11-05 ACM SIGMOD 日本支部第 24 回大会

VLDB2002VLDB2002国際会議報告国際会議報告国島丈生

岡山県立大学[email protected]

Page 39: Vldb2002 report-200210231500

2002-11-05 ACM SIGMOD 日本支部第 24 回大会

第 2 部一般講演(2)

Page 40: Vldb2002 report-200210231500

2002-11-05 ACM SIGMOD 日本支部第 24 回大会

XML 質問処理最適化(1)Efficient Algorithms for Processing XPath Queri

esG. Gottlob, C. Koch, and R. Pichler (Tech. Univ. Wie

n) XPath プロセッサ (Apache Xalan, XT, MSXML (I

E6)) の性能評価 問合せによっては指数時間かかってしまう

効率的な XPath 評価アルゴリズムの提案

Page 41: Vldb2002 report-200210231500

2002-11-05 ACM SIGMOD 日本支部第 24 回大会

XPath プロセッサの性能評価 対象 XML 文書

<a><b/>…<b/></a> XPath

//a/b/parent::a/b/parent::a/b 結果

Xalan, XT では問合せのサイズに対して指数時間かかる

Page 42: Vldb2002 report-200210231500

2002-11-05 ACM SIGMOD 日本支部第 24 回大会

XPath プロセッサの性能評価 対象 XML 文書

<a><b/>…<b/></a> XPath 問合せ

//a/b[count(parent::a/b)>1] //a/b[count(parent::a/b[cou

nt(parent::a/b)>1])>1] 結果

Xalan, XT, IE6(MSXML)のいずれでも、問合せのサイズに対して指数時間

Page 43: Vldb2002 report-200210231500

2002-11-05 ACM SIGMOD 日本支部第 24 回大会

提案手法 XPath を(データサイズ、問合せサイズに

対して)多項式時間で評価する主記憶アルゴリズムの提案

XPath のサブセット( Core XPath )を線形時間で評価するアルゴリズムの提案 Core XPath に対しても Xalan, XT は指数時間、

MSXML はデータサイズの 4乗かかることがある

Page 44: Vldb2002 report-200210231500

2002-11-05 ACM SIGMOD 日本支部第 24 回大会

XML 質問処理最適化(2)A Transducer-Based XML Query Processor

B. Ludascher, P. Mukhopadhyay, and Y.Papakonstantinou (Univ. California San Diego)

XML ストリームに対する XQuery 適用の高速化手法

Page 45: Vldb2002 report-200210231500

2002-11-05 ACM SIGMOD 日本支部第 24 回大会

XML とストリーミング 現在のところ、 XML の最も重要な用途のひとつはデータ交換

さまざまなシステム間のデータ交換 Web サービス (SOAP, etc.)

もともと XML は物理的にはバイト列(テキストストリーム) XML をストリームデータとして処理できれば、処理の効率化が期待できる

Page 46: Vldb2002 report-200210231500

2002-11-05 ACM SIGMOD 日本支部第 24 回大会

XML の代表的 API SAX (Simple API for XML)

イベントベース Start tag, end tag などが現れるたびにイベントを発生

ストリームデータに適する 複雑な処理はしにくい

DOM (Document Object Model) 主記憶上に XML に対応する木を作成 木の巡航により複雑な操作が可能 文書をすべて読み込んでからしか使えない→ストリームデータには適さない

Page 47: Vldb2002 report-200210231500

2002-11-05 ACM SIGMOD 日本支部第 24 回大会

XPath, XQuery XML に対応する木をデータモデルとする XPath … 木の根からのパス集合を表現する式 意味論は木の根からの巡航により定義

XQuery … XPath による木の節集合の定義とそれらに対する集合論的・手続き的操作

いずれも、元々の意味論をそのまま実装したのではストリームデータ処理には向かない

Page 48: Vldb2002 report-200210231500

2002-11-05 ACM SIGMOD 日本支部第 24 回大会

本論文の提案 XML ストリームに対して XQuery を高速に

適用する手法の提案 XSM (XML Stream Machine)

ストリームデータに対する状態機械 XQuery を XSM ネットワークにコンパイルした

後、最適化、プログラムコードに変換従来の XSLT プロセッサに比べて数倍 (Java)

ないし数十倍( C )の高速化

Page 49: Vldb2002 report-200210231500

2002-11-05 ACM SIGMOD 日本支部第 24 回大会

XSM (XML Stream Machine) 4 つ組 (Q, q0, B, T)

Q: 状態集合、 q0: 初期状態、 B: バッファ集合、 T: 遷移集合 … 内部的には状態機械 作業用バッファ(記憶)、 XSM同士の通信用バッファ(入力、出力)

Page 50: Vldb2002 report-200210231500

2002-11-05 ACM SIGMOD 日本支部第 24 回大会

XQuery から XSM への変換

Page 51: Vldb2002 report-200210231500

2002-11-05 ACM SIGMOD 日本支部第 24 回大会

XSM ネットワークの合成

Page 52: Vldb2002 report-200210231500

2002-11-05 ACM SIGMOD 日本支部第 24 回大会

XSM の最適化 Lockstep optimization

不要な遷移枝・条件判定を削除 Schema-based optimization

XML 文書スキーマに基づき、起こりえない遷移枝・条件判定を削除

Page 53: Vldb2002 report-200210231500

2002-11-05 ACM SIGMOD 日本支部第 24 回大会

実験結果 Xeon 2.2GHz, 1GB RAM DBLP データベース (80MB) に対して適用

Page 54: Vldb2002 report-200210231500

2002-11-05 ACM SIGMOD 日本支部第 24 回大会

XML 問合せに関するまとめ XPath, XQuery 中心になるだろう

W3C のさまざまな仕様でも XPath が参照されている 言語仕様→実装→最適化、高速化

ただし XPath, XQuery の意味論は小規模テキスト文書・データ

ベースを想定(明記はしていないが) 大規模データベースやストリームデータでの効率的処理に

は課題が多い 更新処理? XML 文書スキーマとデータベース技術の融合? (文書スキーマと同様)独自仕様が現れる可能性もあるか