ppt mori
TRANSCRIPT
Webサイトに存在する施設属性
情報の統合に関する研究
複雑系工学講座 調和系工学研究室
修士2年 森 康真
平成18年度 修士論文
A Study on Integration of Facility Information on Websites
背景• WWWの規模の広がり
– 飲食店や宿泊施設に関する情報が増加• 飲食店紹介サイトや宿泊施設予約サイトに大量に存在
• 複数のサイトにHTML文書の形式で重複・分散
施設属性情報を抽出し統合
・ 情報収集を行うユーザーの利便性向上・ 大量のデータを必要とするデータベースの初期構築コスト低減
HTML:レイアウト情報を含み半構造的.属性名,属性値の抽出が困難
属性名,属性値はサイト毎に表現が異なる.統合のためには表現の統一が必要.
・属性名:施設名,電話番号,住所・・・・属性値:全日空ホテル,011-221-4411 ,札幌市中央区・・・
関連研究
<店舗情報><店名> </店名><住所> </住所><電話> </電話>
</店舗情報>
属性名を予め定めたXMLスキーマ
シリーズ型HTML文書を対象とした,事例に基づく情報抽出法[梅原ら 2002]
SURYA新規オープン!住所北海道札幌市西区・・・電話011-613-7070メニュー
テキストブロック
<店舗情報><店名> </店名><住所> </住所><電話> </電話>
</店舗情報>
<td width="1%"><small><strong>住所</strong></small></td><td width="98%"bgcolor="#F9F9E4" colspan="3"><small>北海道札幌市中央区北5条西4丁目</small></td></tr><!--/住所--><trvalign="top" bgcolor="FFFFFF"><td width="1%" nowrapbgcolor="#FEE890"><small><strong>電話</strong>
食べ飲み処 あかり家住所北海道札幌市中央区・・・電話011-209-3444 FAX011-209-3445メニュー
共通のスタイルシートによる同種のレイアウトと構造を持つ文書 【例】ぐるナビ,楽天トラベル
HTML文書 HTMLソース
事例
抽出対象
<td width="1%"><small><strong>住所</strong></small></td><td width="98%"bgcolor="#F9F9E4" colspan="3"><small>北海道札幌市西区琴似1条2丁目5-2</small></td></tr><!--/住所--><trvalign="top" bgcolor="FFFFFF"><td width="1%" nowrapbgcolor="#FEE890"><small><strong>電話</strong>
<td width="1%"><small><strong>住所</strong></small></td><td width="98%"bgcolor="#F9F9E4" colspan="3"><small>北海道札幌市西区琴似1条2丁目5-2</small></td></tr><!--/住所--><trvalign="top" bgcolor="FFFFFF"><td width="1%" nowrapbgcolor="#FEE890"><small><strong>電話</strong>
HTML文書 HTMLソーステキストブロック間の類似度を算出.類似度の和が最大になるようにアラインメントにより対応を取る.
SURYA新規オープン!住所北海道札幌市西区電話011-613-7070メニュー
食べ飲み処 あかり家住所北海道札幌市中央区電話011-209-3444FAX011-209-3445メニュー
同じ名詞が出現=高い類似度
同じ名詞を持たないが同一の属性名を表す文字列→データ型として扱う1つの事例のレイアウト構造,出現名詞に特化した抽出→複数の事例を用いる
精度向上の余地
目的
• Webサイトに存在する施設情報の属性名・属
性値を統合する手法の開発– 属性名に対応する属性値の1つのサイトからの
抽出精度の向上
– 属性値の統合ルールの構築
郵便番号
電話番号
郵便番号
電話番号
同じ属性名を表しているが同じ名詞が出現しない
ある属性名を表している文字列を型として定義する
データ型
【例】郵便番号型<POST> ::= '〒' <num> <num> <num> '-' <num> <num> <num> <num>
テキストブロック間の類似度の算出
ji
ji
ji
ji
ji
ji
ji
jiji DVDV
DVDV
DVDVDVDV
SVSV
SVSV
SVSVSVSV
TTSim,max
,min
,max
,min),(
SV :テキストブロック内の名詞出現数から構成した項ベクトルDV :データ型の出現回数を元に構成した項ベクトル
:調整係数
2つのテキストブロック ji TT , 間の類似度
複数事例の利用
事例 1
事例 1により
抽出された属性値
事例 2
事例 2により
抽出された属性値
抽出対象HTML文書
事例 3
事例 3により
抽出された属性値
<city>札幌</city>札幌 : 2回出現市町村 : 1回出現
<city>札幌</city> <city>札幌</city> <city>市町村</city>
市町村札幌
電話番号011-123-4567
テキストブロックの内容
・・
・・
◎複数事例利用のメリット→特定の事例のレイアウト構造に依存しない属性値抽出が可能
多数決による決定
事例 4
事例 4により
抽出された属性値
<city></city>
市町村の情報を持たない事例
実験設定• データ型と複数事例の導入の効果を検証• 実験対象データ
– 以下のサイト内のシリーズ型HTML文書から事例と100個の抽出対象を用意• ぐるなび ( http://www.gnavi.co.jp/ )
• パラメータ設定–
• 実験条件– 事例数の変更
• ランダムに以下の個数を選択• 1個• 3個• 5個• 7個• 9個
– データ型の利用• 用いない場合• 用いる場合
– 10回試行
4.1
<店舗情報><店名></店名><住所></住所><電話番号></電話番号><営業時間></営業時間><定休日></定休日><駐車場></駐車場><席数></席数><平均予算></平均予算><ホームページ></ホームページ><メールアドレス></メールアドレス>
</店舗情報>
抽出先となるXMLスキーマ
• 評価指標– 適合率
– 再現率
– F-measure
システムの正解数システムの抽出数
システムの正解数全正解数
2×適合率×再現率
適合率+再現率
・ 事例数を増やすこと・ データ型を利用することによってF-measureが向上
F-measureの低い属性名
・店名→型として定義されていない
実験結果
先行研究による結果に相当
ぐるなび 結果
0.750
0.800
0.850
0.900
0.950
1.000
しない する しない する しない する しない する しない する
1 1 3 3 5 5 7 7 9 9
データ型利用/事例数
値
適合率
再現率
F-measure
属性値統合ルール
• サイト毎に属性値の表現は異なる– 例:属性名「郵便番号」に対する属性値
• サイトA:”〒”+3桁の数字+”-”+4桁の数字• サイトB: 3桁の数字+”-”+4桁の数字• サイトC: 7桁の数字
• 同じ施設の属性名に対する属性値が異なる場合– 多数決で最も多い属性値を選択
• サイトA:〒063-0036• サイトB:〒063-0037• サイトC:〒063-0036
1種類の表現に統一するルールを規定例: ”〒”+3桁の数字+”-”+4桁の数字に統一
〒063-0036を選択
宿泊施設予約サイトの施設情報統合• 札幌市内(定山渓含む)の
宿泊施設情報を対象
http://www.bestrsv.com/ベストリザーブ
http://www.jalan.net/じゃらんnet
http://travel.yahoo.co.jp/Yahoo! トラベル
http://travel.rakuten.co.jp/楽天トラベル
URLサイト名
• XMLスキーマ– 個々の宿泊施設の特徴が把握
できる属性名を定める• 観光情報学会による宿泊施設
自己点検評価項目を元に策定
複数サイトに重複して存在している同一の施設であることの判定
→電話番号,宿泊施設名,住所のいずれかが一致したものを同一施設と見なす
<ホテル情報><基本情報></基本情報><施設></施設><サービス></サービス><食></食><交通至便></交通至便><眺望></眺望><癒し></癒し><その他></その他>
</ホテル情報>
自己点検評価項目に基づく6種類の
大項目
大項目内に複数の小項目を持つ(64項目)【例】「基本情報」内に“施設名” “住所” など「施設」内に“総客室数” “会議場”の有無など
「サービス」内に“外国語接客”“スリッパ”の有無など
実験結果
42.529.428.446.2
値が抽出できた属性数の平均
4335361738636838
値が抽出できた総属性数
102123136148
件数
ベストリザーブ
じゃらんnetYahoo! トラベル
楽天トラベル
サイト名
統合により最大の情報を持つ楽天トラベルと比較して・ 宿泊施設件数 10件・ 属性値数 967項目
を多く取得することができた
値が取得できた
総属性数
値が取得できた属性数の平均
件数
780549.4158統合後
統合
まとめ
• 1つのサイトから属性名に対応する属性値の抽出
精度の向上
– データ型と複数事例の導入
• 先行研究と比較して抽出精度が向上
• 属性情報の統合
– 属性名:任意の属性名を事前に定める
– 属性値:表現の揺らぎを統一するルールを構築
– 4種類の宿泊施設予約サイトの施設属性情報を統合