半構造化文書に対する木構造と文字列を組合せたラッパーの自動生成法

半構造化文書に対する木構造と文字列を組合せたラッパーの自動生成法

山田泰寛 * 池田大輔 ** 廣川佐千男**

* 九州大学大学院システム情報科学府

** 九州大学情報基盤センター

発表手順

コンテンツ抽出プログラム：ラッパー PLR ラッパー PLR ラッパーの自動生成法実験まとめと今後の課題

背景

異なるサイト間の情報を比較

たくさんのリンクを巡る情報を記録・記憶手間と時間がかかる

背景

サイトごとにテンプレートが異なる

自動的に統合

容易に比較が可能

（１）発見・収集　（２）抽出・整列　（３）統合

ラッパー

1 サイト上の Web ページで同種の内容を含み、大量に存在するものから、同種の内容を抽出するプログラム同一のテンプレートを持つ

ラッパー生成問題

与えられた１サイト上の Web ページの集合から、同種の内容を抽出するためのルールを作成する問題

入力：同種の内容を含む Web ページの集合

出力：ルールの集合

ラッパー生成のポイント

コンテンツ部分の特定ページ中に広告や無関係な情報が含まれる GUI や訓練例による半自動的な手法

ルールの表現方法文字列ベース

LR ラッパー（ Kushmerick ら , 1997 ）木構造ベース

Tree ラッパー ( 村上ら , 2001)

LR ラッパー

..... 廣川佐千男 .....<a href=“mailto:[email protected]”>Address: hirokawa.xxx.jp</a>..... 山田泰寛 .....<a href=“mailto:[email protected]”>Address: [email protected]</a>.....

名前左区切文字列 : 5“>右区切文字列 : </f

項目を囲んでいる左・右区切文字列で特定

同じ項目を囲む区切文字列は同一

LR ラッパーの問題点

..... 廣川佐千男 .....<a href=“mailto:[email protected]”>Address: [email protected]</a>..... 山田泰寛 .....<a href=“mailto:[email protected]”>Address: [email protected]</a>.....

メールアドレス左区切文字列 : “>右区切文字列 : </a

左区切文字列が特定できない

Tree ラッパー

木構造のパスを用いて表現body

font fonta a

廣川佐千男山田泰寛Address: [email protected]

Address: [email protected]

名前<body>--TEXTメールアドレス< body>-<a>-TEXT

Tree ラッパー問題点

body

font fonta a

Address: [email protected] Address: [email protected]

不必要な文字列まで抽出する統合の際にノイズとなる

PLR ラッパー

PLR(Path-Left-Right) ラッパー木構造によるパスの特定左・右区切文字列

body

a a

Address: [email protected] Address: [email protected]

メールアドレスパス　 < body>-<a>-TEXT左区切文字列　 Address: 右区切文字列　 NULL

発表手順


ラッパー生成アルゴリズム

入力： 1 サイト上の複数の半構造化文書

(1) コンテンツ部分特定

(3) 不要なルールの削除

出力：ルールルール

(2) ルール抽出

高頻度部分（赤）と低頻度部分（黒）に分ける

境界を決め、ルールを抽出

出現頻度の低いルールを捨てる

コンテンツ部分特定

文字列高頻度部分（赤）

低頻度部分（黒）

構造記述部分

コンテンツ部分

対応

対応

高頻度部分：頻度の高い部分文字列の現れる部分部分文字列の長さ n と頻度の上位 a (%) の決定

頻度の高い部分文字列が構造部分に現れるように


長さ n が小さいとき頻度の高い部分文字列は構造記述・コンテ

ンツ部分の両方に現れる

文書１

文書２

文書３


長さ n が大きいときコンテンツ部分の頻度が下がる頻度の高い部分文字列は構造記述部分のみに現れる

文書１

文書２

文書３

位置による頻度

(a) 長さ 2

(b) 長さ 5


長さ n が大きすぎるとき構造記述部分の頻度が下がる再び、頻度の高い部分文字列は構造記述・コンテ

ンツ部分の両方に現れる

文書１

文書２

文書３


n: 小　　 a: 小n: 小　　 a: 大n: 大　　 a: 小n: 大　　 a: 大

分割がうまく行なわれないときは、境界の数が大きい

n: 大きすぎる

（山田他、 Discovery Science 2001)交代数

初期状態 (n,a) は (2,1)

長さ n と割合 a の決定

%

長さ

a

a+1

1

2

2 3 4 n n+1

(n, a) の交代数と (n+1, a) 、 (n, a+1) の交代数を比較

極小の交代数をとる時、長さ n と頻度の上位 a は十分大きいと判断

出力例

例１例２






(2) ルール抽出




ルールの生成

パスの特定入力文書を木構造に展開低頻度部分（黒）を含む

ノードのパスを特定

ルールの生成

区切文字列の抽出前ステップで特定されたパスで特定されるノード左区切文字列は、高頻度部分と低頻度部分の境界から前

に出現する文字列で共通する最長の文字列右区切文字列は、低頻度部分と高頻度部分の境界から後

に出現する文字列で共通する最長の文字列共通する文字列が無い場合は“ NULL”

アドレスは [email protected] です。

アドレスは [email protected] です。

アドレスは [email protected] です。左区切文字列“アドレスは”右区切文字列“です。”






(2) ルール抽出




不要なルールの削除

有用な項目の判断項目の出現に注目ある文書には現れ、ある文書には現れない項目

半数以上の文書から抽出できるルールを採用






(2) ルール抽出




発表手順


実験

産経新聞 ( 日本語 , 50 ファイル ) 本文 , 日付 , 見出し , ジャンル

Altavista （英語 , 50 ファイル）検索結果の件数左区切文字列“ We_found_” 右区切文字列“ _results”

ジャンル

<html><head><title>TEXT

Sankei- NULL

Sankei-international

We_found_187,302_results

失敗例 (1)

左・右区切文字列特定の問題点産経新聞の日付

項目部分が区切文字列の一部に含まれる項目部分の一部が高頻度部分に含まれるこ

とが原因

日付 <html><body bgcolor>TEXT

2002.01.1 NULL

2002.01.12

日にちの１の位のみ低頻度部分

失敗例 (2)

同一ノードに複数の項目例　日付とセキュリティホールの種類左・右区切文字列特定の問題点

[_2003,09,18_]_openssh_ にセキュリティホールいづれの項目も、左区切文字列“ [_”右区切文字列“ _ にセキュリティホール”

２つの項目が同時の項目として抽出される

Tree ラッパーの問題点

<blockquote>段落 1段落 2段落 3</blockquote>

産経新聞の本文部分

Tree ラッパーの問題点　同じ項目にタグが挟まれている場合に、細かく分かれてしまう

段落ごとにタグがはさまれている

本文全体ではなく、段落ごとに抽出

ただし、全体として抜き出すほうがいいのか、細かく抜き出すほうがいいのか判断が難しい

まとめ

PLR ラッパーの自動生成法 Tree ラッパー + LR ラッパー項目部分を含むノードのパス前後に共通する左・右区切文字列

実験不要な文字列の削除に成功

今後の課題

境界特定の精度の向上不要部分と項目部分問題点：項目部分が区切文字列に含まれる

複数の項目の分離共通部分特定に改善の必要あり

項目の抽出に成功した後異なるサイト間の同種の項目の統合

半構造化文書に対する木構造と文字列 を組合せたラッパーの自動生成法

Documents

半構造化文書に対する木構造と文字列を組合せたラッパーの自動生成法