参照共起分析の web ディレクトリへの適用

24
参参参参参参参 Web 参参参参参参参参参参 NTT 参参参参参参参参 ○ 参参参参 参参 参 参参参参 [email protected]

Upload: moana

Post on 19-Jan-2016

51 views

Category:

Documents


1 download

DESCRIPTION

参照共起分析の Web ディレクトリへの適用. NTT 未来ねっと研究所 ○原田昌紀 風間一洋 佐藤進也 [email protected]. 研究の背景. サーチエンジン =ロボット+全文検索エンジン ○  Web ページ単位で詳細な   検索ができる。 ○ 網羅性が高い。 × 質の低い Web ページが   検索される(スパムもある)。. Web ディレクトリ =人手で収集、評価、分類 ○  Web サイト単位で階層的に   分類されている。 ○ 完成度の高い Web サイト   のみが登録されている。 × 網羅性が低い。. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: 参照共起分析の Web ディレクトリへの適用

参照共起分析のWeb ディレクトリへの適用

NTT 未来ねっと研究所○ 原田昌紀 風間一洋 佐藤進也[email protected]

Page 2: 参照共起分析の Web ディレクトリへの適用

研究の背景

ロボットが収集したデータを利用して、Web ディレクトリの構築を自動化できないか?

サーチエンジン=ロボット+全文検索エン

ジン

○   Webページ単位で詳細な  検索ができる。○  網羅性が高い。× 質の低いWebページが  検索される(スパムもある)。

Web ディレクトリ=人手で収集、評価、分類

○   Webサイト単位で階層的に  分類されている。○  完成度の高いWebサイト  のみが登録されている。× 網羅性が低い。維持と構築に要する

人的コストが問題。

Page 3: 参照共起分析の Web ディレクトリへの適用

発表の概要研究の目的とアプローチ関連研究Web ディレクトリ拡大手順の提案関連 Web サイト発見アルゴリズム(2種類)評価実験まとめ

Page 4: 参照共起分析の Web ディレクトリへの適用

本研究の目的とアプローチ目的: Web ディレクトリの自動拡大の実現アプローチ 各カテゴリに分類された Web サイト群を元に、

ロボットで収集したデータから、それらに関連する Web サイトを発見し、登録 Web サイト数を増大させる。

ハイパーリンクによる参照関係の解析を応用与えられた Web サイト群に関連し、

重要度の高い Web サイトを発見することが狙い。

Page 5: 参照共起分析の Web ディレクトリへの適用

関連研究: テキストの自動分類

テキストの自動分類 テキストをあらかじめ決められたカテゴリに分類

する。

ハイパーテキストの自動分類 ノードをあらかじめ決められたカテゴリに分類す

る。 近傍のノードの分類結果によって補正する。

問題点 多数のカテゴリへの高精度の分類は困難。 Web 上のテキストは多様であり、特に難し

い。テキストの自動分類による Web ディレクトリ構築は困難。

→ テキストの内容を用いない方法を検討する。

Page 6: 参照共起分析の Web ディレクトリへの適用

関連研究 : 特定トピックのオーソリティ発見

HITS [Kleinberg1998] トピックを表すキーワード

の検索結果の近傍からオーソリティとハブを抽出。

オーソリティ…多数のハブから参照される、重要な Webページ。

ハブ…多数のオーソリティを参照する、リンク集的なWeb ページ。

カテゴリ名によるオーソリティ発見…詳細な分類には不向き。

ハブ オーソリティ

・・・・・・

例:ゲーム全般 / ゲーム /  ゲーム販売店 / ショッピング / 趣味とおもちゃ /ゲーム /  ゲーム開発企業 / ビジネス / エンターテインメント / ゲーム /

Page 7: 参照共起分析の Web ディレクトリへの適用

関連研究 : 関連 Web ページ発見手法

:リンク 6リンク 7リンク 8リンク 9 :

シード Web ページ

L 以内

L 以内

関連 Web ページ

関連 Web ページ

関連 Web ページ

Page 8: 参照共起分析の Web ディレクトリへの適用

Web ディレクトリ拡大手順

1.  大域 Web グラフを作成する。

2.  各カテゴリで関連 Web サイトを発見する。

3.  重複した Web サイトを除去する。

Page 9: 参照共起分析の Web ディレクトリへの適用

1.大域 Web グラフの作成ロボットで大量の Web ページを収集し、それらの参照関係から Web グラフを作成する。

WWW サーバ間のハイパーリンクのみ辺とする。

Web サイトを点とした Web グラフを作成。 Web ディレクトリにおける検索の単位。 実装では同じサーバで同じパスを持つファイル群

を Web サイトとみなした。http://www.ntt.co.jp/product/http://www.ntt.co.jp/product/index-j.htmlhttp://www.ntt.co.jp/product/product.html

http://www.ntt.co.jp/product/ *

Page 10: 参照共起分析の Web ディレクトリへの適用

2.関連 Web サイト発見アルゴリズムの適用

各カテゴリに登録されている Web サイト群に、それらと関連するオーソリティを加える。

http://www.asahibeer.co.jp/http://www.gekkeikan.co.jp/http://www.kirin.co.jp/http://www.moritakk.com/http://www.ozeki.co.jp/http://www.sapporobeer.co.jp/http://www.suntory.co.jp/

http://www.asahibeer.co.jp/http://www.gekkeikan.co.jp/http://www.kirin.co.jp/http://www.moritakk.com/http://www.ozeki.co.jp/http://www.sapporobeer.co.jp/http://www.suntory.co.jp/http://www.budweiser.co.jp/http://www.takara.co.jp/http://www.heineken.co.jp/http://www.kirin-seagram.co.jp/http://j-entertain.co.jp/guiness/http://www.kizakura.co.jp/http://www.hakutsuru.co.jp/

:

関連 Web サイト発見アルゴリズムを適用

例:ビジネス / 食品 / 飲料 / 酒類

関連度22.119.514.412.511.88.88.2 :

Page 11: 参照共起分析の Web ディレクトリへの適用

3.重複 Web サイトの削除重複して発見された Web サイトは関連度が最大のカテゴリのみに残す。

http://www.cocacola.co.jp/http://www.morinagamilk.co.jp/http://www.nestle.co.jp/http://www.ucc.co.jp/http://www.yakult.co.jp/

http://www.ajinomoto.co.jp/http://www.nipponham.co.jp/http://www.sangaria.co.jp/http://www.dydo.co.jp/http://www.ucc.co.jp/http://www.cclemon.com/

http://www.hanamaruki.co.jp/http://www.heiwa-food.co.jp/http://www.soysauce.or.jp/http://www.kagome.co.jp/http://www.marukome.co.jp/

http://www.ajinomoto.co.jp/http://www.nipponham.co.jp/http://www.higeta.co.jp/http://www.takeya-miso.co.jp/http://nitanda.com/http://www.aohata.co.jp/

ビジネス / 食品 / 飲料 ビジネス / 食品 / 食材・調味料

関連度9.98.98.48.17.75.8 :

関連度11.19.28.37.75.95.7 :

Page 12: 参照共起分析の Web ディレクトリへの適用

関連 Web サイト発見アルゴリズム

関連 Web ページ発見アルゴリズムを拡張。 複数のシードに関連する Web サイトを発見する。 ステップ3で比較可能な関連度を出力する。

(1) Companion+ シードセットの近傍に HITS を適用し、オーソリティを

発見。

(2) MultiCocitation 多くのシードと参照共起関係にある Web サイトを発見。

Page 13: 参照共起分析の Web ディレクトリへの適用

(1) Companion+

Companion+[ 豊田 2000] を複数シードに拡張。 シードセット全体の近傍からオーソリティを発

見する。 (近傍 : 参照元 Web サイト + 参照共起関係にある Web サイト)

関連度=(オーソリティスコア) 2

× 近傍 Web サイト数シードセット

Page 14: 参照共起分析の Web ディレクトリへの適用

(2) MultiCocitationCocitation[Dean1998] を複数シードに拡張。 多くの異なるシードと参照共起関係にある Web サイト

を発見。

関連度=参照共起関係にあるシードの数 +

0.1×Σ シードと参照共起する回数

シードセット

シード

関連 Web サイト ( 関連度: 1.3)関連 Web サイト ( 関連度: 2.2)

Page 15: 参照共起分析の Web ディレクトリへの適用

評価実験: 対象データWeb ディレクトリ Open Directory Project の日本語カテゴリ

http://dmoz.org/World/Japanese/ 登録 Web サイト数 6,143URL カテゴリ数 702

大域 Web グラフ サーチエンジン ODIN の検索対象Web ページ

Web ディレクトリの登録サイトを起点として収集。

総Web ページ数 約 1130万 URL辺となるハイパーリンク 約 1350万本辺の起点 約 80万個,辺の終点 約 110万個

Page 16: 参照共起分析の Web ディレクトリへの適用

実験1: 精度の評価関連 Web サイトが正しいカテゴリに配置されるか? 各カテゴリから、評価用 Web サイトを一つずつ取

り出す。 それらを除いた Web ディレクトリに拡大手順を施

す。 評価用 Web サイトが発見されたときの精度を評価。     元々のカテゴリで発見された評価用 Webサイト精度=        評価用 Web サイトのうち発見されたもの

注意:元々Web ディレクトリに登録されていた Web サイトのみを評価。

Page 17: 参照共起分析の Web ディレクトリへの適用

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

5 10 15 20 25 30 N

精度

MultiCocitation

Companion+

実験1:精度の評価結果

MultiCocitation は実用的な精度を達成。Companion+ ではトピックドリフトが発生。 被参照数の大きいシードにのみ関連する Web サイト

が発見されやすい。

各カテゴリで最大 N 件の関連Webサイトを発見した場合の精度

Page 18: 参照共起分析の Web ディレクトリへの適用

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

1 5~ 6 10~ 11 15~ 16 20~ 21 25~

シードセットサイズ

(N=20)

精度

Companion+ MultiCocitation

実験1:シードセットサイズと発見精度

登録 Web サイト数が大きいカテゴリでは精度が低下 シード数が大きいカテゴリは、他のカテゴリの関連

Webサイトを奪うことがある。→関連度の定義に改善の余地がある。

Page 19: 参照共起分析の Web ディレクトリへの適用

実験2 -1 : 適合度の評価被験者:ネットワーク分野の研究者8名。カテゴリ:被験者がよく知っている分野を2つ。関連 Web サイトのトピックとの適合性を判断。

適合する +2点どちらかといえば適合する +1点 評価不能(アクセスできないなど)  0点どちらかといえば適合しない -1点 適合しない -2点

カテゴリの適合度=関連 Web サイト全体の平均点注意:分類精度の評価とは異なる。

Page 20: 参照共起分析の Web ディレクトリへの適用

実験2 -1 : 適合度の評価

00.20.40.60.81

1.21.41.61.82

A B C D E F G H I J K L M N O P カテゴリ

適合

Companion+ MultiCocitation

Companion+ 平均0.99MultiCocitation 平均 1.44 カテゴリによって適合度の高低がある。

× アート / 映画 /洋画 ○ ニュース / 新

聞○ / 音楽 / ビートルズ

Page 21: 参照共起分析の Web ディレクトリへの適用

実験2 -1 : 適合度の評価

0

0.5

1

1.5

2

2.5

0 5000 10000 15000Web近傍 グラフのサイズ

Web

関連

サイ

トの

適合

適合度の低いカテゴリがある理由 リンク集における分類と、 Web ディレクトリの分類の不一致。例:アート / 映画 / 洋画…邦画の Web サイトが発見される。

近傍 Web グラフが小さいカテゴリでは、少数の関連 Web サイトしか得られない。

シードセット中に被参照数の大きい Web サイトが一つは必要。

Page 22: 参照共起分析の Web ディレクトリへの適用

実験2 - 2: 重要度の評価登録する価値がある Web サイトが発見されるか? 知名度、信頼性、情報量、オリジナリティ、デザインで判断。

登録すべき +2点どちらかといえば登録すべき +1点 評価不能(アクセスできないなど)  0点どちらかといえば登録すべきでない -1点 登録すべきではない -2点

各カテゴリで重要度(平均点)を比較 シードセットの Web サイト。 発見された関連 Web サイトのうち、「適合する」あるいは「どちらかといえば適合する」Web サイト

Page 23: 参照共起分析の Web ディレクトリへの適用

シードセット 平均 1.00Companion+ 平均 0.96MultiCocitation 平均 0.74

シードセット 平均 1.00Companion+ 平均 0.96MultiCocitation 平均 0.74

実験2 - 2:重要度の評価結果

-1.5

-1

-0.5

0

0.5

1

1.5

2

-1 0 1 2

シードセットの重要度

Web

関連

サイ

トの

重要

Companion+ の評価 被参照数の大きい Web サ

イトを発見しやすい。→トピックに適合していれ ば、重要な Web サイト。

MultiCocitation の評価 網羅的なリンク集の影響

で、重要度の低い Web サイトを発見しやすい。

シードセットの重要度と正の相関がある。

Page 24: 参照共起分析の Web ディレクトリへの適用

まとめと今後の課題関連 Web ページ発見アルゴリズムを拡張し、Web ディレクトリの自動拡大を実現した。 多数のカテゴリを持つ Web ディレクトリでも、高い精

度で関連 Web サイトを発見できた。 シードセットの重要度が高いときには、トピックに適合

し、重要度の高い Web サイトを発見できた。

今後の課題 適合度と重要度を両立するアルゴリズムの検討。 カテゴリ間の関係 (階層構造 )の利用。

http://odin.ingrid.org/  にてデモシステムを公開予定。