参照共起分析の web ディレクトリへの適用

参照共起分析のWeb ディレクトリへの適用

NTT 未来ねっと研究所○ 原田昌紀　風間一洋　佐藤進也[email protected]

研究の背景

ロボットが収集したデータを利用して、Web ディレクトリの構築を自動化できないか？

サーチエンジン＝ロボット＋全文検索エン

ジン

○ 　 Webページ単位で詳細な　　検索ができる。○ 　網羅性が高い。×　質の低いWebページが　　検索される（スパムもある）。

Web ディレクトリ＝人手で収集、評価、分類

○ 　 Webサイト単位で階層的に　　分類されている。○ 　完成度の高いWebサイト　　のみが登録されている。×　網羅性が低い。維持と構築に要する

人的コストが問題。

発表の概要研究の目的とアプローチ関連研究Web ディレクトリ拡大手順の提案関連 Web サイト発見アルゴリズム（２種類）評価実験まとめ

本研究の目的とアプローチ目的： Web ディレクトリの自動拡大の実現アプローチ各カテゴリに分類された Web サイト群を元に、

ロボットで収集したデータから、それらに関連する Web サイトを発見し、登録 Web サイト数を増大させる。

ハイパーリンクによる参照関係の解析を応用与えられた Web サイト群に関連し、

重要度の高い Web サイトを発見することが狙い。

関連研究：　テキストの自動分類

テキストの自動分類テキストをあらかじめ決められたカテゴリに分類

する。

ハイパーテキストの自動分類ノードをあらかじめ決められたカテゴリに分類す

る。近傍のノードの分類結果によって補正する。

問題点多数のカテゴリへの高精度の分類は困難。 Web 上のテキストは多様であり、特に難し

い。テキストの自動分類による Web ディレクトリ構築は困難。

→ テキストの内容を用いない方法を検討する。

関連研究 : 特定トピックのオーソリティ発見

HITS　[Kleinberg1998] トピックを表すキーワード

の検索結果の近傍からオーソリティとハブを抽出。

オーソリティ…多数のハブから参照される、重要な Webページ。

ハブ…多数のオーソリティを参照する、リンク集的なWeb ページ。

カテゴリ名によるオーソリティ発見…詳細な分類には不向き。

ハブオーソリティ

･･････

例：ゲーム全般 / ゲーム /　　ゲーム販売店 / ショッピング / 趣味とおもちゃ /ゲーム /　　ゲーム開発企業 / ビジネス / エンターテインメント / ゲーム /

関連研究 : 関連 Web ページ発見手法

:リンク 6リンク 7リンク 8リンク 9 :

シード Web ページ

L 以内

L 以内

関連 Web ページ



Web ディレクトリ拡大手順

1. 　大域 Web グラフを作成する。

2. 　各カテゴリで関連 Web サイトを発見する。

3. 　重複した Web サイトを除去する。

１．大域 Web グラフの作成ロボットで大量の Web ページを収集し、それらの参照関係から Web グラフを作成する。

WWW サーバ間のハイパーリンクのみ辺とする。

Web サイトを点とした Web グラフを作成。 Web ディレクトリにおける検索の単位。実装では同じサーバで同じパスを持つファイル群

を Web サイトとみなした。http://www.ntt.co.jp/product/http://www.ntt.co.jp/product/index-j.htmlhttp://www.ntt.co.jp/product/product.html

http://www.ntt.co.jp/product/ ＊

２．関連 Web サイト発見アルゴリズムの適用

各カテゴリに登録されている Web サイト群に、それらと関連するオーソリティを加える。

http://www.asahibeer.co.jp/http://www.gekkeikan.co.jp/http://www.kirin.co.jp/http://www.moritakk.com/http://www.ozeki.co.jp/http://www.sapporobeer.co.jp/http://www.suntory.co.jp/

http://www.asahibeer.co.jp/http://www.gekkeikan.co.jp/http://www.kirin.co.jp/http://www.moritakk.com/http://www.ozeki.co.jp/http://www.sapporobeer.co.jp/http://www.suntory.co.jp/http://www.budweiser.co.jp/http://www.takara.co.jp/http://www.heineken.co.jp/http://www.kirin-seagram.co.jp/http://j-entertain.co.jp/guiness/http://www.kizakura.co.jp/http://www.hakutsuru.co.jp/

:

関連 Web サイト発見アルゴリズムを適用

例：ビジネス / 食品 / 飲料 / 酒類

関連度22.119.514.412.511.88.88.2　：

３．重複 Web サイトの削除重複して発見された Web サイトは関連度が最大のカテゴリのみに残す。

http://www.cocacola.co.jp/http://www.morinagamilk.co.jp/http://www.nestle.co.jp/http://www.ucc.co.jp/http://www.yakult.co.jp/

http://www.ajinomoto.co.jp/http://www.nipponham.co.jp/http://www.sangaria.co.jp/http://www.dydo.co.jp/http://www.ucc.co.jp/http://www.cclemon.com/

：

http://www.hanamaruki.co.jp/http://www.heiwa-food.co.jp/http://www.soysauce.or.jp/http://www.kagome.co.jp/http://www.marukome.co.jp/

http://www.ajinomoto.co.jp/http://www.nipponham.co.jp/http://www.higeta.co.jp/http://www.takeya-miso.co.jp/http://nitanda.com/http://www.aohata.co.jp/

：

ビジネス / 食品 / 飲料ビジネス / 食品 / 食材・調味料

関連度9.98.98.48.17.75.8 ：

関連度11.19.28.37.75.95.7　：

関連 Web サイト発見アルゴリズム

関連 Web ページ発見アルゴリズムを拡張。複数のシードに関連する Web サイトを発見する。ステップ３で比較可能な関連度を出力する。

(1)　Companion+ シードセットの近傍に HITS を適用し、オーソリティを

発見。

(2)　MultiCocitation 多くのシードと参照共起関係にある Web サイトを発見。

(1)　Companion+

Companion+[ 豊田 2000] を複数シードに拡張。シードセット全体の近傍からオーソリティを発

見する。　（近傍 : 参照元 Web サイト + 参照共起関係にある Web サイト）

関連度＝（オーソリティスコア） 2

× 近傍 Web サイト数シードセット

(2)　MultiCocitationCocitation[Dean1998] を複数シードに拡張。多くの異なるシードと参照共起関係にある Web サイト

を発見。

関連度＝参照共起関係にあるシードの数 +

0.1×Σ シードと参照共起する回数

シードセット

シード

関連 Web サイト ( 関連度： 1.3)関連 Web サイト ( 関連度： 2.2)

評価実験：　対象データWeb ディレクトリ Open　Directory　Project の日本語カテゴリ

http://dmoz.org/World/Japanese/ 登録 Web サイト数 6,143URL カテゴリ数 702

大域 Web グラフサーチエンジン ODIN の検索対象Web ページ

Web ディレクトリの登録サイトを起点として収集。

総Web ページ数約 1130万 URL辺となるハイパーリンク約 1350万本辺の起点　約 80万個，辺の終点　約 110万個

実験１：　精度の評価関連 Web サイトが正しいカテゴリに配置されるか？各カテゴリから、評価用 Web サイトを一つずつ取

り出す。それらを除いた Web ディレクトリに拡大手順を施

す。評価用 Web サイトが発見されたときの精度を評価。　　　　　元々のカテゴリで発見された評価用 Webサイト精度＝　　　　　　　　評価用 Web サイトのうち発見されたもの

注意：元々Web ディレクトリに登録されていた Web サイトのみを評価。

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

5 10 15 20 25 30 N

精度

MultiCocitation

Companion+

実験１：精度の評価結果

MultiCocitation は実用的な精度を達成。Companion+ ではトピックドリフトが発生。被参照数の大きいシードにのみ関連する Web サイト

が発見されやすい。

各カテゴリで最大 N 件の関連Webサイトを発見した場合の精度

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

1 5～ 6 10～ 11 15～ 16 20～ 21 25～

シードセットサイズ

(N=20)

精度

Companion+ MultiCocitation

実験１：シードセットサイズと発見精度

登録 Web サイト数が大きいカテゴリでは精度が低下シード数が大きいカテゴリは、他のカテゴリの関連

Webサイトを奪うことがある。→関連度の定義に改善の余地がある。

実験２ -1 ：　適合度の評価被験者：ネットワーク分野の研究者８名。カテゴリ：被験者がよく知っている分野を２つ。関連 Web サイトのトピックとの適合性を判断。

適合する＋２点どちらかといえば適合する＋１点評価不能（アクセスできないなど）　　０点どちらかといえば適合しない－１点適合しない－２点

カテゴリの適合度＝関連 Web サイト全体の平均点注意：分類精度の評価とは異なる。

実験２ -1 ：　適合度の評価

00.20.40.60.81

1.21.41.61.82

A B C D E F G H I J K L M N O P カテゴリ

適合

度

Companion+ MultiCocitation

Companion+ 平均0.99MultiCocitation 平均 1.44 カテゴリによって適合度の高低がある。

× アート / 映画 /洋画 ○ ニュース / 新

聞○ / 音楽 / ビートルズ

実験２ -1 ：　適合度の評価

0

0.5

1

1.5

2

2.5

0 5000 10000 15000Web近傍グラフのサイズ

Web

関連

サイ

トの

適合

度

適合度の低いカテゴリがある理由リンク集における分類と、 Web ディレクトリの分類の不一致。例：アート / 映画 / 洋画…邦画の Web サイトが発見される。

近傍 Web グラフが小さいカテゴリでは、少数の関連 Web サイトしか得られない。

シードセット中に被参照数の大きい Web サイトが一つは必要。

実験２ - ２：　重要度の評価登録する価値がある Web サイトが発見されるか？知名度、信頼性、情報量、オリジナリティ、デザインで判断。

登録すべき＋２点どちらかといえば登録すべき＋１点評価不能（アクセスできないなど）　０点どちらかといえば登録すべきでない－１点登録すべきではない－２点

各カテゴリで重要度（平均点）を比較シードセットの Web サイト。発見された関連 Web サイトのうち、「適合する」あるいは「どちらかといえば適合する」Web サイト

シードセット平均 1.00Companion+ 平均 0.96MultiCocitation 平均 0.74

シードセット平均 1.00Companion+ 平均 0.96MultiCocitation 平均 0.74

実験２ - ２：重要度の評価結果

-1.5

-1

-0.5

0

0.5

1

1.5

2

-1 0 1 2

シードセットの重要度

Web

関連

サイ

トの

重要

度

Companion+ の評価被参照数の大きい Web サ

イトを発見しやすい。→トピックに適合していれ　ば、重要な Web サイト。

MultiCocitation の評価網羅的なリンク集の影響

で、重要度の低い Web サイトを発見しやすい。

シードセットの重要度と正の相関がある。

まとめと今後の課題関連 Web ページ発見アルゴリズムを拡張し、Web ディレクトリの自動拡大を実現した。多数のカテゴリを持つ Web ディレクトリでも、高い精

度で関連 Web サイトを発見できた。シードセットの重要度が高いときには、トピックに適合

し、重要度の高い Web サイトを発見できた。

今後の課題適合度と重要度を両立するアルゴリズムの検討。カテゴリ間の関係 (階層構造 )の利用。

http://odin.ingrid.org/ 　にてデモシステムを公開予定。

参照共起分析の web ディレクトリへの適用

Documents