ppt mori

12

Click here to load reader

Upload: harmonylab

Post on 15-Jun-2015

216 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: Ppt mori

Webサイトに存在する施設属性

情報の統合に関する研究

複雑系工学講座 調和系工学研究室

修士2年 森 康真

平成18年度 修士論文

A Study on Integration of Facility Information on Websites

Page 2: Ppt mori

背景• WWWの規模の広がり

– 飲食店や宿泊施設に関する情報が増加• 飲食店紹介サイトや宿泊施設予約サイトに大量に存在

• 複数のサイトにHTML文書の形式で重複・分散

施設属性情報を抽出し統合

・ 情報収集を行うユーザーの利便性向上・ 大量のデータを必要とするデータベースの初期構築コスト低減

HTML:レイアウト情報を含み半構造的.属性名,属性値の抽出が困難

属性名,属性値はサイト毎に表現が異なる.統合のためには表現の統一が必要.

・属性名:施設名,電話番号,住所・・・・属性値:全日空ホテル,011-221-4411 ,札幌市中央区・・・

Page 3: Ppt mori

関連研究

<店舗情報><店名> </店名><住所> </住所><電話> </電話>

</店舗情報>

属性名を予め定めたXMLスキーマ

シリーズ型HTML文書を対象とした,事例に基づく情報抽出法[梅原ら 2002]

SURYA新規オープン!住所北海道札幌市西区・・・電話011-613-7070メニュー

テキストブロック

<店舗情報><店名> </店名><住所> </住所><電話> </電話>

</店舗情報>

<td width="1%"><small><strong>住所</strong></small></td><td width="98%"bgcolor="#F9F9E4" colspan="3"><small>北海道札幌市中央区北5条西4丁目</small></td></tr><!--/住所--><trvalign="top" bgcolor="FFFFFF"><td width="1%" nowrapbgcolor="#FEE890"><small><strong>電話</strong>

食べ飲み処 あかり家住所北海道札幌市中央区・・・電話011-209-3444 FAX011-209-3445メニュー

共通のスタイルシートによる同種のレイアウトと構造を持つ文書 【例】ぐるナビ,楽天トラベル

HTML文書 HTMLソース

事例

抽出対象

<td width="1%"><small><strong>住所</strong></small></td><td width="98%"bgcolor="#F9F9E4" colspan="3"><small>北海道札幌市西区琴似1条2丁目5-2</small></td></tr><!--/住所--><trvalign="top" bgcolor="FFFFFF"><td width="1%" nowrapbgcolor="#FEE890"><small><strong>電話</strong>

<td width="1%"><small><strong>住所</strong></small></td><td width="98%"bgcolor="#F9F9E4" colspan="3"><small>北海道札幌市西区琴似1条2丁目5-2</small></td></tr><!--/住所--><trvalign="top" bgcolor="FFFFFF"><td width="1%" nowrapbgcolor="#FEE890"><small><strong>電話</strong>

HTML文書 HTMLソーステキストブロック間の類似度を算出.類似度の和が最大になるようにアラインメントにより対応を取る.

SURYA新規オープン!住所北海道札幌市西区電話011-613-7070メニュー

食べ飲み処 あかり家住所北海道札幌市中央区電話011-209-3444FAX011-209-3445メニュー

同じ名詞が出現=高い類似度

同じ名詞を持たないが同一の属性名を表す文字列→データ型として扱う1つの事例のレイアウト構造,出現名詞に特化した抽出→複数の事例を用いる

精度向上の余地

Page 4: Ppt mori

目的

• Webサイトに存在する施設情報の属性名・属

性値を統合する手法の開発– 属性名に対応する属性値の1つのサイトからの

抽出精度の向上

– 属性値の統合ルールの構築

Page 5: Ppt mori

[email protected]

[email protected]

郵便番号

電話番号

E-mail

郵便番号

電話番号

E-mail

同じ属性名を表しているが同じ名詞が出現しない

ある属性名を表している文字列を型として定義する

データ型

【例】郵便番号型<POST> ::= '〒' <num> <num> <num> '-' <num> <num> <num> <num>

テキストブロック間の類似度の算出

ji

ji

ji

ji

ji

ji

ji

jiji DVDV

DVDV

DVDVDVDV

SVSV

SVSV

SVSVSVSV

TTSim,max

,min

,max

,min),(

SV :テキストブロック内の名詞出現数から構成した項ベクトルDV :データ型の出現回数を元に構成した項ベクトル

:調整係数

2つのテキストブロック ji TT , 間の類似度

Page 6: Ppt mori

複数事例の利用

事例 1

事例 1により

抽出された属性値

事例 2

事例 2により

抽出された属性値

抽出対象HTML文書

事例 3

事例 3により

抽出された属性値

<city>札幌</city>札幌 : 2回出現市町村 : 1回出現

<city>札幌</city> <city>札幌</city> <city>市町村</city>

市町村札幌

電話番号011-123-4567

テキストブロックの内容

・・

・・

◎複数事例利用のメリット→特定の事例のレイアウト構造に依存しない属性値抽出が可能

多数決による決定

事例 4

事例 4により

抽出された属性値

<city></city>

市町村の情報を持たない事例

Page 7: Ppt mori

実験設定• データ型と複数事例の導入の効果を検証• 実験対象データ

– 以下のサイト内のシリーズ型HTML文書から事例と100個の抽出対象を用意• ぐるなび ( http://www.gnavi.co.jp/ )

• パラメータ設定–

• 実験条件– 事例数の変更

• ランダムに以下の個数を選択• 1個• 3個• 5個• 7個• 9個

– データ型の利用• 用いない場合• 用いる場合

– 10回試行

4.1

<店舗情報><店名></店名><住所></住所><電話番号></電話番号><営業時間></営業時間><定休日></定休日><駐車場></駐車場><席数></席数><平均予算></平均予算><ホームページ></ホームページ><メールアドレス></メールアドレス>

</店舗情報>

抽出先となるXMLスキーマ

• 評価指標– 適合率

– 再現率

– F-measure

システムの正解数システムの抽出数

システムの正解数全正解数

2×適合率×再現率

適合率+再現率

Page 8: Ppt mori

・ 事例数を増やすこと・ データ型を利用することによってF-measureが向上

F-measureの低い属性名

・店名→型として定義されていない

実験結果

先行研究による結果に相当

ぐるなび 結果

0.750

0.800

0.850

0.900

0.950

1.000

しない する しない する しない する しない する しない する

1 1 3 3 5 5 7 7 9 9

データ型利用/事例数

適合率

再現率

F-measure

Page 9: Ppt mori

属性値統合ルール

• サイト毎に属性値の表現は異なる– 例:属性名「郵便番号」に対する属性値

• サイトA:”〒”+3桁の数字+”-”+4桁の数字• サイトB: 3桁の数字+”-”+4桁の数字• サイトC: 7桁の数字

• 同じ施設の属性名に対する属性値が異なる場合– 多数決で最も多い属性値を選択

• サイトA:〒063-0036• サイトB:〒063-0037• サイトC:〒063-0036

1種類の表現に統一するルールを規定例: ”〒”+3桁の数字+”-”+4桁の数字に統一

〒063-0036を選択

Page 10: Ppt mori

宿泊施設予約サイトの施設情報統合• 札幌市内(定山渓含む)の

宿泊施設情報を対象

http://www.bestrsv.com/ベストリザーブ

http://www.jalan.net/じゃらんnet

http://travel.yahoo.co.jp/Yahoo! トラベル

http://travel.rakuten.co.jp/楽天トラベル

URLサイト名

• XMLスキーマ– 個々の宿泊施設の特徴が把握

できる属性名を定める• 観光情報学会による宿泊施設

自己点検評価項目を元に策定

複数サイトに重複して存在している同一の施設であることの判定

→電話番号,宿泊施設名,住所のいずれかが一致したものを同一施設と見なす

<ホテル情報><基本情報></基本情報><施設></施設><サービス></サービス><食></食><交通至便></交通至便><眺望></眺望><癒し></癒し><その他></その他>

</ホテル情報>

自己点検評価項目に基づく6種類の

大項目

大項目内に複数の小項目を持つ(64項目)【例】「基本情報」内に“施設名” “住所” など「施設」内に“総客室数” “会議場”の有無など

「サービス」内に“外国語接客”“スリッパ”の有無など

Page 11: Ppt mori

実験結果

42.529.428.446.2

値が抽出できた属性数の平均

4335361738636838

値が抽出できた総属性数

102123136148

件数

ベストリザーブ

じゃらんnetYahoo! トラベル

楽天トラベル

サイト名

統合により最大の情報を持つ楽天トラベルと比較して・ 宿泊施設件数 10件・ 属性値数 967項目

を多く取得することができた

値が取得できた

総属性数

値が取得できた属性数の平均

件数

780549.4158統合後

統合

Page 12: Ppt mori

まとめ

• 1つのサイトから属性名に対応する属性値の抽出

精度の向上

– データ型と複数事例の導入

• 先行研究と比較して抽出精度が向上

• 属性情報の統合

– 属性名:任意の属性名を事前に定める

– 属性値:表現の揺らぎを統一するルールを構築

– 4種類の宿泊施設予約サイトの施設属性情報を統合