information discovery based on social bookmarks -...

ソーシャルブックマークに基づく情報発見

百田信

平成20年2月

九州大学大学院システム情報科学府

情報理学専攻　修士課程

0

目次

第 1章はじめに 2

第 2章 Folksonomyとソーシャルブックマーク 4

2.1 Folksonomy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

2.1.1 Folksonomyの利点 . . . . . . . . . . . . . . . . . . . . . . . . . . 5

2.1.2 Folksonomyの欠点 . . . . . . . . . . . . . . . . . . . . . . . . . . 7

2.1.3 Folksonomyの構造 . . . . . . . . . . . . . . . . . . . . . . . . . . 9

2.2 ソーシャルブックマーク . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

2.3 ソーシャルブックマークのデータ構造 . . . . . . . . . . . . . . . . . . . 11

第 3章情報発見 12

3.1 情報発見のための情報フィルタリング . . . . . . . . . . . . . . . . . . . 12

3.2 情報発見の必要性 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

第 4章データ分析 16

4.1 データ収集 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

4.2 ベクトル空間モデル . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

4.3 頻度解析 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

第 5章関連研究 26

第 6章ソーシャルブックマークからの情報発見 28

6.1 手法 1: 類似利用者手法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

6.2 手法 2: αブックマーカー手法 . . . . . . . . . . . . . . . . . . . . . . . . 29

6.2.1 タグの階層化 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

6.2.2 αブックマーカーの算出 . . . . . . . . . . . . . . . . . . . . . . . 30

1

第 7章実装 32

7.1 close 2 u . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

7.2 Tag Hierarchy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

7.3 α bookmarker . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

第 8章評価 39

8.1 実験 1: 類似利用者手法の評価 . . . . . . . . . . . . . . . . . . . . . . . . 39

8.2 実験 2: α ブックマーカー手法の評価 . . . . . . . . . . . . . . . . . . . . 40

第 9章おわりに 46

参考文献 54

2

第1章

はじめに

近年, blogやwiki, SNS, ソーシャルブックマークなどの様々なソーシャルサービスによっ

てWebの質が変化し, これまで情報資源に対して傍観者であった利用者が作成者へと変

貌を遂げた. これによりWebにおける情報資源は日々激増することになった. また, 情報

資源はテキストのみならず画像や音声, 動画など多岐にわたっており情報が溢れ返ってい

る. このような情報爆発時代では, 日々増え続ける情報資源の中から利用者が必要とする

情報を探すのは困難であり利用者は探すことに明け暮れていることになるため、利用者

が求めている情報を素早く探すことが重要となっている。マルチメディア化する情報資

源を効率的に検索するために情報資源を体系化する様々な試みがされている. その中に

近年注目されている Folksonomyと呼ばれる体系化手法がある.

Folksonomyは利用者がタグと呼ばれるキーワードを情報資源に付与することによって

利用者のリアルタイムな要望を反映するという特徴を持つ. また, 特定の情報資源に対し

て複数のタグを付与することも可能であり, これらから利用者が予想しえない未知の情報

資源を発見することに長けている. Folksonomyにはそうした利点がありながら, 現在は

Folksonomyに基づいたサービスのほとんどがタグによる検索機能を提供しているだけで

ある。また、Folksonomyには, タグの同義語や多義語によるあいまいさの問題があるた

め従来の手法では検索精度が非常に悪い. Folksonomyの特徴を活かした情報提供手法に

ついては考える余地が大きい。

本論文ではそのような特徴を持つFolksonomyに基づくソーシャルブックマークのデー

タを用い, 情報発見を支援する二つの手法を提案する. 一つは, 自分の興味に近い利用者

やページを発見する手法である. この手法では, 利用者のブックマークをプロファイルと

3

みなし, 類似利用者および興味の近いページを発見する. もう一つは, 今後流行する可能

性の高い情報をいち早く発見する手法である. この手法は, 人気の高いページを早期に見

つける αブックマーカーを発見し, その αブックマーカーの見つけたページを推薦する

手法である. 本手法は早さだけではなく, 分野の階層関係, 自分と αブックマーカーとの

興味分野の近さも考慮している.

上記の提案手法の有効性を実証するために、本論文では実際のデータとして「はてな

ブックマーク」[1] のデータを用いて検証した。上記の手法をWeb上のCGIシステムと

して実装した.

本論文の全体の構成は以下の通りである. まず第 2章で Folksonomyとソーシャルブッ

クマークについての説明とモデル化を行い, 第 3章で情報発見の必要性について考察す

る. 次に第 4章で実際のはてなブックマークのデータについての解析を行う. 第 5章では

これまで Folksonomyに対して行われてきた関連研究についての説明を行う. 続いて第 6

章にてソーシャルブックマークからの情報発見を支援する手法について説明し, 第 7章で

提案手法の実装方法についての詳細を述べる. 第 8章で提案手法の評価および考察を行

い最後に第 9章にてまとめと今後の課題について述べる.

4

第2章

Folksonomyとソーシャルブックマーク

Webにおける情報資源を体系化するために, 近年Folksonomyと呼ばれる方法が盛んに利

用されている. Folksonomyは Semantic Web実現への重要な鍵となる技術として注目さ

れている. 本章では folksonomyとそれに基づくソーシャルブックマークについてそれぞ

れの特徴およびモデル化について述べる.

2.1 Folksonomy

Folksonomyは, 利用者が情報資源に対してタグと呼ばれる自由なキーワードを付与し,

その情報資源を共有・分類・管理する webベースのシステムである. タグは情報検索や

情報へのナビゲーション, 情報発見のために利用され, 例えば, 利用傾向の発見など利用

者に直接的な利益を与える. Folksonomyは collaborative taggingや social tagging, social

classificationなどとも呼ばれる [2].

Folksonomyという用語は, 人々を表す”folk”と, 分類を表す”taxonomy”からなる合成

語であり, 利用者によって生成される概念構造を表している. この Folksonomy という

用語は, AIfIAのメーリングリストでThomas Vander Walによって最初に使われた [19].

Folksonomyの扱う情報資源の種類によって著名なサービスが存在する. 例えば, 写真を

共有する flickr1やフォト蔵2, ブックマークを共有する del.icio.us3やはてなブックマーク4,

1http://www.flickr.com/2http://photozou.jp/3http://del.icio.us/4http://b.hatena.ne.jp/

5

論文を共有するCiteULike 5やConnotea 6, 動画を共有するYouTube 7やニコニコ動画8が

ある.

Folksonomyは従来のTaxonomyに変わる新しい分類手法と言われており, すでに多く

の議論がなされている [13] [14] [15] [16] [17] . 従来の Taxonomyは, 一般的に厳格なツ

リー型階層構造を持つ分類法であり, 例えば, 動植物の分類に用いられるリンネ階層分類

[25] や図書館における蔵書の分類に用いられるデューイ十進分類 [26] などが挙げられる.

以下では, 従来のTaxonomyと比較したときのFolksonomyの利点と欠点について述べる.

2.1.1 Folksonomyの利点

• 包括性

従来のTaxonomyでは個々のエンティティは厳密に一つの分類語に属さなければな

らない. ここでエンティティとは分類対象となる情報資源のことを指す. それに対

し Folksonomyでは, 利用者が選んだ自由な用語を分類語としてタグ付けする. 利

用者は思いつくままに 1つのエンティティに複数のタグを付与することができる.

個々のエンティティはそれら複数のタグに属するため包括的であり多面的である.

また, あらゆる利用者がそれぞれの要望を直接的に表現した自由なタグを付与する

ため, 文化的・社会的・政治的バイアスを除いたすべての利用者の要望を反映する.

• 低コスト

Taxonomyでは専門家によって分類スキームの決定がなされ個々のエンティティは

分類される. Taxonomyにおける分類者はエンティティの分類時に「未来予測」と

「利用者の思考」の 2つの事項についてを考慮しなければならない. まず, 「未来予

測」とは, 分類者が安定した分類構造をつくるために, 前もって永続的な分類語を

選択しなければならないことを指す. 分類者は次に, 「利用者の思考」についての

考慮する必要がある. 分類時に分類法が複雑であったり一般的でない難解な語彙に

よる分類語を割り当てた場合にその分類はその分類に理解のある一部の利用者にし

5http://www.citeulike.org/6http://www.connotea.org/7http://www.youtube.com/8http://www.nicovideo.jp/

6

か使えない状況に陥ってしまう. そのために分類語を選ぶときには, より一般的な

語彙を選択しなければならない. しかし, 一般に利用者は多面的な考え方を持ち, ま

た, 利用者毎に背景が異なるため, 一つの共通した分類語を選ぶのは困難である. ま

たエンティティがどの分類語に属するのかを決定する際も同様の問題が発生する.

つまり, Taxonomyのようなトップダウン型分類を行うためには多くの訓練や高い

技能が必要となる. 一方, Folksonomyでは利用者が自由なキーワードで分類する.

このとき複雑な操作はなく階層構造や他の利用者のことを考慮する必要もない. 利

用者は思いつくままに自分なりの分類をすればよいので従来の Taxonomy に比べ

非常にコストが低い.

• 新鮮さと柔軟性

Folksonomyでは, 上述したように利用者はタグ付与のための特別な技能や知識, 思

考を必要としない. 他の利用者の使いやすさを考慮する必要はなく, 利用者は自身

のコレクションに対する識別子としてタグを付与したらよい. そのため即座に自由

なタグ付けが可能である. このタグ付与の容易性によって新奇的エンティティの分

類やエンティティ自体の質の変化に対して検討や熟考する必要がないため素早く柔

軟な対応が可能である. また利用者によるタグ付けの結果はすぐにシステムに反映

される. これによって, Folksonomy における分類情報の鮮度は保たれる.

• Serendipity

Serendipityとは, 予期せぬ有用なものを発見する能力を指す. Folksonomyでは, す

べてのエンティティは利用者の手によってタグ付けされる. また, エンティティと

タグを他の利用者と共有し, それらは一切の制限を受けない. 1 つのタグを共有す

るときに, 様々な利用者からの様々な観点からタグ付けされているタグは, 1つの表

現であっても多面的である. そのタグ付けられたエンティティもまた様々な観点に

よるものになる. このことによって Folksonomy では利用者の意識の外にある思い

がけない情報発見が可能となる.

7

2.1.2 Folksonomyの欠点

• 言語的あいまいさ

分類語を選ぶ上で問題となるのは言語のあいまいさである. 言語自体が抱えるあい

まいさは図2.1のように同義語 (synonyms),多義語 (polysemy),同音異義語 (homon-

omy)が挙げられる. 分類語を割り当てるときに特に問題になるのは, 同義語と多義

語の 2つである. Taxonomyでは専門家による選別によって分類語が考えられ, それ

らは統制語彙 (controlled vocabulary)と呼ばれる [24]. Taxonomyでは統制語彙に

よって分類を制御することで言語が持つあいまいさを回避している. しかし, Folk-

sonomyでは利用者のタグ付け方法に関する制限が一切ない. そのため, Folksonomy

は言語が持つあいまいさの影響を直接的に受ける.

まず, 同じ意味を指すが表記の異なる同義語タグが問題となる. 例えば, ”cat”と”

cats”のような単数形と複数形や”TV”と”television”のような頭文字形, ”携帯

電話”と”ケータイ”のような口語形, ”電話”と”telephone”のような母国語と

外国語の関係にあたる表記が挙げられる. これらは表現は異なるがまったく同じ意

味を指す. 同義語による問題として情報漏れと冗長性が挙げられる. Folksonomyに

おいて, より問題となるのは情報漏れである. 例えば, ある同じ概念領域に属するエ

ンティティA, B, Cが存在し, 同義語関係にあるタグ α, β があるとき, αはA, Bに

βは B, Cにタグ付けされているとする. このとき αのみを想定している利用者は

エンティティCの情報を発見することができず, また, βのみを想定している利用者

はエンティティA の情報が抜け落ちてしまう.

同じ表記で複数の意味を指す多義語タグも問題となる. 例えば”office”は, 事務所

という意味とMicrosoft社のビジネス用ソフトウェアのパッケージ製品の意味を指

す. また, 同義語と同様に頭文字形は多義語を表すことがしばしばある. 例えば, ”

ATM”はネットワーク技術における多重化方式であるAsynchronous Transfer Mode

を指すが, 一方で金融機関などが顧客自身の操作によって取引を可能とする機械で

ある Automated Teller Machineを指す. 多義語によって異なる領域の概念が混ざ

り合ってしまう. つまり, ある特定のタグを選んだときに利用者が望まない不必要

8

な概念まで拾ってしまう可能性が出てくる. これは, メタノイズと呼ばれる.

言語それ自体があいまい性を持つ場合もある. 例えば, ”研究”という語を分類語

にすることを考える. 生物学者と経済学者ではそれぞれに”研究”を行っているが

研究の対象は異なる. つまり, ”研究”に属するエンティティが利用者によって異

なってしまう.

図 2.1: Folksonomyにおける言語的問題

• 認識の境界

利用者によって対象に対する認識の度合いは, 利用者のバックグラウンドやその対

象への習熟度によって異なってくる. つまり, 利用者のエンティティに対する意識レ

ベルの違いによって選ばれるタグが変化する. 例えば, Javascriptに関するあるWeb

ページに対して利用者Aは”programming”を付け, 利用者Bは”javascript”を付

けるという状況が考えられる. 利用者の意識レベルの相違によってエンティティに

対する明確さや詳しさの表現が変わってしまう.

• 非階層構造

Folksonomyでは, 上述したような利用者ごとの意識レベルの相違が存在する. エン

ティティに対する明確さや詳しさは意味的な階層をなす. また, 階層構造は優れた情

報ナビゲーション構造と言われている. しかし, それにも関わらず Folksonomyは,

タグ間に親子関係や兄弟関係がないフラットな構造となっている. そのため, 情報

が多い場合には下位階層へ辿り情報を絞ることや逆に情報が少ない場合には上位階

層へ辿り情報を広げていくことができない.

9

• 検索精度の低さ

Folksonomyは, 上述したような言語的あいまさによる問題を抱える. 同義語タグで

は, 情報漏れを起こす可能性があり, 多義語タグでは不要な情報を拾いあげてしま

う可能性がある. また, タグ間に上下関係のない非階層構造によって特定の情報を

求めるためのナビゲーション性能が低く, 検索精度が低いという問題がある.

以上のことから Folksonomyは, 正確な情報を検索することに向かないが, 利用者独自

の自由なタグによって思いがけない情報を発見でき, また利用者のリアルタイムな要望を

反映しているため新鮮な情報を発見することに向いていることが分かる.

2.1.3 Folksonomyの構造

Folksonomyのモデル化についてはすでにさまざまな論文で述べられている [6] [9] [10]

[12] [20] . 本研究では, Folksonomyを構成する 4つの要素を挙げる.

• 利用者 (実際にタグ付けする利用者)

• 情報資源 (タグ付けの対象となる情報資源. 分類対象)

• タグそのもの

• タグ付けされた時間

図 2.2 のようにこれらの要素はそれぞれ独立した集合を形成しており, 集合中の各要素

はエッジによって結びついている. 利用者空間は, Folksonomyにおけるすべての利用者

からなる. 利用者空間における各ノードは一人の利用者である. タグ空間は, Folksonomy

におけるすべてのタグからなる. タグは要素に紐付けられた単語である. タグとして用

いられる単語は”music”などの自然言語における単語だけでなく”lol”(laugh out loudly)

や”toread”(to read)などの新語も用いられる. 情報資源空間は, Folksonomy における

すべての情報資源からなり, 通常それらの情報資源には一意な URIが付与されている.

Folksonomyインスタンスには通常, 利用者・タグ間とタグ・情報資源間の 2つのエッジ

10

からなる. これらのインスタンスは, どの利用者がどのタグをどの情報資源にいつ付与し

たかという日付情報も関連付けられている.

実際のFolksonomyサービスでは, タグの付与は絶対ではなく任意であるので利用者と

情報資源がタグを介さず直接結びつく場合もありうる.

図 2.2: Folksonomyの構造

2.2 ソーシャルブックマーク

ここでは Folksonomyに基づいたシステムであるソーシャルブックマークについて述

べる.

ブックマークとは, 将来訪れる可能性のあるWebサイトのURLをブラウザに保存する

機能である. それに対し, ソーシャルブックマークは, 一つのWebサイト上で複数利用者

のブックマーク情報を共有するサービスである. 利用者はどんなURLでもブックマーク

として保存でき, 100文字程度の短いコメントや自由なタグ付けが可能である. それぞれ

の利用者はタグによってブックマークを分類し管理, 検索できる. タグによって複数利用

者のブックマーク情報が関連付けられる.

ソーシャルブックマークでは,利用者が膨大なページが散在するWeb上から有用なペー

ジを探し出し, それについてタグによって分類しそれらを共有する. ソーシャルブック

11

マークは利用者によるブックマークという行為が他の利用者へ伝搬し社会的な働きをす

るように設計されている. 例えば, あるページがどれだけの利用者によってブックマーク

されているかを知ることができる. この被ブックマーク数はしばしばそのページの人気の

度合い測るために用いられている. Google によるランキングアルゴリズムPageRank[22]

はWebページのリンク構造からページの評価を行っている. これはコンテンツ作成者に

よるコンテンツ評価と捉えることができる. 一方で, 被ブックマーク数はコンテンツ消費

者によるコンテンツ評価と捉えることができる. ソーシャルブックマークサービスでは多

数の利用者によって最近ブックマークされた URLの一覧を提供されている. さらに, 利

用者の更新情報を RSS(RDF Site Summary)によって購読できる. これらの機能により

有用なブックマークは多くの利用者に注目を浴び広く認識され共有されていく.

ソーシャルブックマークを利用する他の利点にはブックマークを参照する環境を制御

しないことがある. Webシステムにブックマークを登録するのでどんな端末でもそのブッ

クマークにアクセスできる. 例えば, 自宅, 職場, 学校, 実家など複数の端末を使用してい

る場合でも, 同じブックマークを利用できる.

2.3 ソーシャルブックマークのデータ構造

Folksonomyにおける利用者集合を USERS, 情報資源集合をRESOURCES, タグ集

合を TAGSと表すとき, Folksonomy情報は以下のような 4つ組みで表現できる.

Folksonomy(u, r, t, d)

ここで, u ∈ USERS, r ∈ RESOURCES, t ∈ TAGS, dは日付を表す.

本研究ではFolksonomyの一つソーシャルブックマークについて扱う. ソーシャルブッ

クマークにおける情報資源はブックマークであるので,ブックマークURL集合をLINKS

とするとソーシャルブックマーク情報は以下のように表現できる.

Bookmark(u, l, t, d)

ここで, l ∈ LINKSである.

12

第3章

情報発見

本章では, 情報発見について述べる. まず, 情報発見のための方法としての情報フィルタ

リングを説明し, 情報発見の必要性について考察する.

3.1 情報発見のための情報フィルタリング

Webにおいて日々激増する文書群の中から自分が必要とする情報を取捨選択するため

の技術をWeb情報フィルタリング技術と呼ぶ. 情報フィルタリングには, アダルト情報

やスパムメールのような有害情報や不必要な情報を排除する側面と, 興味のある商品情報

やニュースなど利用者が好む情報を優先して提示する側面がある.

情報発見のためのWebフィルタリング技術として検索エンジン, アグリゲーター, ソー

シャルサービスが挙げられる. Google1に代表されるWeb検索エンジンは文書間のリン

ク構造を解析することで文書の評価を行っている. また, 文書内に出現する単語をもと

にマッチングを行っている. アグリゲーターは, Web上に散在する情報を収集するもの

で, あるトピックに特化したまとめサイトや RSSリーダーがある. RSSリーダーで著名

なサービスとしてLivedoor Reader2 や goo RSSリーダー3が挙げられる. ソーシャルサー

ビスは, 利用者による情報共有サービスであり具体例としてソーシャルニュースサイトの

digg 4 やソーシャルブックマークサイトの del.icio.us5やはてなブックマークがある. 利用

者による収集を投票とみなし重みを付け, また, 利用者自身による文書の分類を行う比較

1http://www.google.com/2http://reader.livedoor.com/3http://reader.goo.ne.jp/4http://www.digg.com/5http://del.icio.us/

13

的新しい技術である.

情報検索は, 大量のデータ群の中から目的に合致したデータを取り出す技術である [21].

情報発見のために情報検索は広く利用されている. Webにおいて情報検索を実現するた

めに, まず定期的にクローラを用いてWeb 上のデータを収集する必要がある. それから

メタデータを生成し検索アルゴリズムによって出力データを決定する. コンテンツの評

価とリンク構造の解析によって, 利用者に高い検索精度の検索サービスを提供できる.

Web検索では, ある程度の情報の新鮮さを保つために一定周期ごとにクローリングが

必要がある. Web全体に対してのクローリングは非常にコストが高いため, ほぼすべての

Web検索サービスで数日単位の頻度の収集を行っているものの, Webサイトの更新に即

座に対応することが困難である. さらに, 利用者が検索をする際に利用者は検索対象につ

いてある程度の理解を持っていなければならないという問題もある. つまり, 検索語で表

現できないほど利用者にとって対象が不明確な場合, 利用者は情報検索することができな

い. また, 大量の検索結果の中から本当に自分の必要としている情報が存在するのかどう

かの判断が必要となる.

情報発見のためのアグリゲーターとしてRSSアグリゲーターに着目する. RSS アグリ

ゲーターはWeb上に公開されているRSSフィードやAtomフィードを購読するツールで

ある. RSSとはコンテンツに付与するメタデータを構造化して記述する XML記述形式

で, Webサイトの各ページのタイトル, アドレス, 見出し, 要約, 更新時刻などを記述する

ことができる. Webサイト作成者は RSSを公開し, 利用者はWebサイトの RSSを購読

することでそのサイトにおける更新情報を取得できる. 近年ではニュースサイトや blog,

wikiなどの多くのサービスがRSSを配信している. これまでのWebにおける情報収集法

では, 利用者が検索エンジンにキーワードを選んでシステムへ入力し, その結果を閲覧し

てから情報の取捨選択をするような能動的なスタイルが多かったが, RSSの出現により

受動的情報収集も確立されてきている. RSSによる情報発見は鮮度の高い情報に関して

は有効である. しかし, どのWebサイトを登録するかという判断は利用者自身がしなく

てはならない. つまり, 購読するに値するサイトを利用者自らが探し出し購読しなければ

ならない. また, RSSではある特定のWebサイトの更新情報をすべて購読することにな

るため, その中には利用者にとって興味のない情報が含まれている可能性が高く, 不必要

14

な情報を多く受け取る可能性がある.

ソーシャルサービスは, 第 2章で述べた Folksonomyの特徴を持つ. ソーシャルサービ

スが扱う情報資源にはタグと呼ばれる自由なキーワードが付与でき, タグによって情報資

源を分類し管理する. このとき, タグは情報資源の内容を端的にまとめたものやその情報

資源に対する利用者の捉え方を表す. 利用者と情報資源はタグによって関連付けられる.

ソーシャルサービスが抱える情報資源やその分類 (タグ)は完全に末端利用者に依存して

いるのが特徴である. ソーシャルサービスでは, 利用者による情報資源の選別が行われ,

それらがクチコミ効果の様に他利用者に伝搬していく. つまり, ソーシャルサービスは利

用者によるコンテンツフィルタリングと捉えることができる. ソーシャルサービスで取

得できる情報は人の手によって選別された結果であり, そこに利用者毎の興味や面白いと

いう感情などの何かしらの意図が含まれている. それゆえに検索エンジンやRSSアグリ

ゲーターで取得できる情報とは質の異なる情報を取得できる. また, Folksonomyに基づ

くソーシャルサービスは, 第 2章で述べた Folksonomyの利点にあるような鮮度の高い情

報や思いがけない情報の発見に向いている. しかし, Folksonomyには第 2章で述べたよ

うなタグ付けの問題がある. さらに, 既存のソーシャルサービスでは, Folksonomyの特徴

を活かした機能はほとんど提供されていない.

3.2 情報発見の必要性

利用者は, 何かを調べるとき, その対象に詳しくない場合が往々にしてある. そのよう

な場合, 利用者が探している情報が何なのかを正確に知っているわけではないので徐々に

目的情報に関連する情報を発見していくという過程が必要となる. このプロセスは情報

検索のように何か対象を絞っていく行為とは異なり, 情報を広げていく行為である. 情報

発見と情報検索は異なる情報収集過程ではあるが, 実際には情報発見と情報検索を繰り返

しながら求めている情報へ行き着くことになる. 情報検索についてはすでに多くの研究

がなされているものの, 情報を効率よく発見するための情報発見についてはあまり研究が

なされていない. そのため, 目的の情報への辿り方や求めているものに関連する情報を提

示する情報発見システムが求められている.

そこで, 本研究では Folksonomyの長所である Serendipityに着目した. Folksonomyに

15

基づくソーシャルブックマークでは,多面的であり,互いに異なる背景を持つ利用者によっ

て情報資源のフィルタリングが行われている. そのソーシャルブックマークのデータを

用いることで情報発見を効果的に支援ができると考えた.

16

第4章

データ分析

本章では, 実際のソーシャルブックマークにおけるタグ, 利用者, URLの分布を調べるこ

とによって, 利用者の振る舞いやタグ付けの特徴を考察する.

4.1 データ収集

今回は実験対象のデータとしてはてなブックマークを選んだ. はてなブックマークは

現在日本最大規模のソーシャルブックマークサービスであり, 利用者数は 2006年 10月付

で約 60,000人1, 登録URL数は 2007年 1月で約 7,000,000ページ2 以上が存在している.

本研究では, 2007年 5月から 2007年 6月の間, 以下の方法で収集した.

1. Tag cloudから人気タグの抽出

http://b.hatena.ne.jp/tは Tag Cloudページになっており, そこから使用頻度

の高い人気タグが取得できる. (図 4.1 左) このページより人気タグを取得しデータ

ベースへ格納した.

2. タグ tiが付与されたURL集合 link(ti)の取得

1. で取得したそれぞれの人気タグが付与された URLを収集する. http://b.

hatena.ne.jp/t/ ti ?sort=countは, タグ tiが付与されたURLを被ブックマーク

数の多い順に表示しているURL一覧ページである. (図 4.1 中央) そのページを収

集し, ブックマークURLとそのURLのタイトルを抽出しデータベースへ格納した.

1http://d.hatena.ne.jp/naoya/20061020/11613147702http://b.hatena.ne.jp/entry/7000001

17

3. URL liに関するブックマークBookmark(u, li, t, d)における u, t, dの取得

2. で収集したURLについてブックマークしている利用者,その利用者がそのURLに

対して付与したタグ名, その利用者がブックマークした日付情報を取得する. http:

//b.hatena.ne.jp/entry/liよりあるブックマークURL liをブックマークしてい

る利用者とそのタグ, 日付情報のリストが得られる. (図 4.1 右) ここで, 1.で収集し

た人気タグだけでなく他の使用頻度の低いタグも収集可能となる.

tag cloudtag page url page図 4.1: はてなブックマークの各ページ

これらの結果として得られたデータの詳細を表 4.1に示す.

4.2 ベクトル空間モデル

収集したデータの分析にベクトル空間モデルを用いる. ここで, ベクトル空間モデルを

説明する.

18

表 4.1: 収集したデータ

項目サイズ

USER 42,753

LINK 350,279

TAG 108,753

Bookmark 6,648,994

検索対象となる文書をD1, D2, . . . , Dnとし,文書集合全体を通してm個の索引語w1, w2, . . . , wm

があるとする. このとき文書Djは次のようなベクトルで表現できる. これを文書ベクト

ルと呼ぶ.

Dj =

d1j

d2j

...

dmj

(4.1)

ここで, dijは索引語wiの文書Djにおける重みである.

また, 文書集合全体は次のような行列で表現することができる.

D =

d11 d12 . . . d1n

d21 d22 . . . d2n

......

. . ....

dm1 dm2 . . . dmn

(4.2)

行列Dを索引語文書行列 (term-document matrix)と呼ぶ. 索引語文書行列の各列は文書

に関する情報を表している文書ベクトルである. 同様に各行は索引語に関する情報を表

しているベクトルであり, これを索引語ベクトルと呼ぶ. ある文書がどのような意味を持

つかは, その文書にどのような単語が含まれているかで説明ができ, また, ある単語がど

のような意味であるかはその単語がどのような文書で用いられているかで説明できる.

本研究では, 文書と索引語をタグ・利用者・URLのいずれかから選ぶことでソーシャ

ルブックマークを行列表現する.

19

4.3 頻度解析

ソーシャルブックマークデータの各要素に対して単語頻度TF値, 文書頻度DF 値を用

いて頻度分析を行った. ある文書 d ∈ D, ある索引語wについてのTF値, DF値は以下の

ように定義される.

tf(term frequency)

tf(w, d) =文書 d内での索引語wの出現数

df(document frequency)

df(w,D) =文書集合Dにおける索引語wを含む文書数

TF(w,D)

TF (w,D) =∑

di∈D tf(w, di)

以後,特に文書集合Dを明示する必要がない場合はTF (w,D), DF (w,D)をTF (w), DF (w)

と記述する. 本研究ではソーシャルブックマークデータの各要素であるタグ, URL, 利用

者についてそれぞれTF値, URLを文書, 利用者を索引語とみなしたときのDF値, 利用

者を文書, URLを索引語としたときのDF値を調査した.

まずそれぞれについての上位 20位を表 4.2, 4.4, 4.3に示す. タグの上位 20位 (表 4.2)

に注目してみると, ”Javascript”, ”AJAX”, ”css”, ”Programing”, ”perl”など情

報技術者向けの専門的な用語が多いことが分かる. また, ”web”, ”blog”, ”web2.0”,

”flash ”などWebに関する用語も多い. これらのことからはてなブックマーク利用者は

Webに関して興味の大きいWebサービス開発技術者が多いことが予想できる.

次に, 利用者の上位 20位 (表 4.3) に着目してみる. これは利用者の保持しているブッ

クマーク数を示しているが 1位の citoraの保有しているブックマーク数は 13655と普通

のブックマークでは考えられないブックマーク数である. この値の意味するところはソー

シャルブックマークは通常のブックマークに比べて規模適応性に優れているということ

である. 通常のブックマークでは到底管理しえないほどのブックマークをソーシャルブッ

クマークではタグ付けや検索によって効率よく管理できる. そのため利用者はブックマー

クすることに対して躊躇することがなく, ブックマーク数は増加していくと考えられる.

20

最後にURLの上位 20位 (表 4.4) を見てみる. これは特定のURL に対して何人の利用

者がブックマークしたかということを表す. 見方を変えるとこの頻度はどれだけの利用

者がそのURLに投票したかを表し, これにより人気の度合いが測れ, 日付情報を軸にす

るとブックマークURLの注目のされ方も観察できる. 各URLを見てみるとタグの場合

と同様に技術的なブックマークが多いことが分かる.

図 4.2, 4.3, 4.4 にデータ全体に対してのFR図（頻度-順位図）を示す. X軸は頻度に基

づいた順位, Y軸は頻度を表す. いずれも対数尺度で表示している. 図 4.2のタグの頻度

に関しては, ほぼベキ乗則 (power law)に従っている. ベキ乗則は 2つのスカラー値 x, y

が以下の式で表すことができる関係である.

y = cxα

ここで, cと α定数である. x > 0, y > 0, c > 0のとき, 一般性を失わずに上述した式は

以下のように変形できる.

log y = α log x + log c

この式から分かるようにベキ乗則にある 2値 x, yは対数尺度空間において直線で表す

ことのできる関係にある. これは頻繁にタグ付けに用いられるタグは少数で, また, あま

り使われないタグが非常に多いことを示している.

一方, 利用者とURLに関するFR図はベキ乗則に近くはあるがグラフが湾曲している.

これらは平均値付近の値が通常のベキ乗則よりも多いことを示している. この原因とし

て「知識の共有」と「他利用者の真似」が考えられる. ソーシャルブックマークでは自分

のブックマークを公開すると同時に他の利用者のブックマークも共有される. ソーシャル

ブックマークサービスの基本的な機能に, 人気のあるページを表示する機能がある. この

機能によって数日間で人気の出てきたページなどを調べることが可能である. この提示

されたページに対しての共有が生じるため平均値付近の値が増加し湾曲したと考えられ

る. また, はてなブックマークでは「お気に入りユーザー」機能を提供している. この機

能は特定の利用者が保持するブックマークをまとめて閲覧できる機能である. 例えば, 利

用者を指定することで有名な技術者や経営者のブックマークをまとめて閲覧できる. こ

の「お気に入りユーザー」により他の利用者の真似をできる. このため「お気に入りユー

21

ザー」の影響力が強ければ強いほどその利用者のブックマークは他の利用者に共有され

ていく. このため, 平均値付近の値が増加していると考えられる.

22

表 4.4: URL上位 20位

順位 |user(url)| url

1 361 はてな SNS

http://yagi.xrea.jp/h/

2 359 はてなセリフ

http://serif.hatelabo.jp/

3 345 はてブおせっかい

http://ryogrid.myhome.cx/osekkai/

4 345 kuler

http://kuler.adobe.com/

5 343 naoyaのはてなダイアリー - さくらインターネット移行記#1

http://d.hatena.ne.jp/naoya/20070116/1168935694

6 343 IT戦記 - Prototype.js を使った JavaScript OOP 講座 #01

http://d.hatena.ne.jp/amachang/20060316/1142508449

7 342 LIKE検索より数十倍高速な,お手軽日本語全文検索について. blog.

たたみラボ

http://www.tatamilab.jp/rnd/archives/000390.html

8 340 naoyaのはてなダイアリー - Perl の話をまとめた

http://d.hatena.ne.jp/naoya/20060521/1148179798

9 338 機能変更, お知らせなど - はてな技術発表会日記 - 3月 22日の技術

勉強会 - ActionScript3 / Flex / Apollo 勉強会

http://hatena.g.hatena.ne.jp/hatenatech/20070324/

1174713674

10 332 OSS Message Pedia

http://ossmpedia.org/index.ja.html

11 331 Google Web Toolkit - Build AJAX apps in the Java language

http://code.google.com/webtoolkit/

23

12 326 角丸画像を瞬時に生成するGoogleの隠れAPI！ — p o p * p o p

http://www.popxpop.com/archives/2006/12/google\ 4.html

13 326 lightbox.js - Web2.0ライクな画像サムネイル生成 ― OpenStratus

Archive

http://openstratus.com/article/52/lightboxjs-web20/

14 324 404 Blog Not Found:Digest　- 今日にでも使うべき JavaScriptの 7

つのテクニック

http://blog.livedoor.jp/dankogai/archives/50816979.html

15 324 Open Source Web Design - Download and upload free web designs.

http://www.oswd.org/

16 324 The Goog Life: how Google keeps employees by treating them like

kids 日本語訳

http://www.yamdas.org/column/technique/googlifej.html

17 319 川 o・-・）＜ 2nd life - Ruby で debug する 7つの方法

http://d.hatena.ne.jp/secondlife/20061010/1160453355

18 319 Prototype JavaScript Framework: Class-style OO, Ajax, and more

http://prototype.conio.net/

19 319 jQuery 開発者向けメモ

http://www.mikage.to/jquery/

20 316 Image * After - currently 15585 free textures and images available

http://imageafter.com/

24

図 4.2: タグの FR図

図 4.3: URLの FR図図 4.4: 利用者の FR図

25

表 4.2: タグ上位 20位

順位 TF tag名

1 136468 web

2 112034 JavaScript

3 106945 ネタ

4 88206 design

5 87284 google

6 86386 AJAX

7 84562 blog

8 81902 2ch

9 81646 css

10 62542 web2.0

11 59221 tips

12 56526 YouTube

13 54575 tool

14 51282 business

15 48344 Programming

16 46867 flash

17 46483 book

18 41550 perl

19 38927 社会

20 38172 あとで読む

表 4.3: 利用者上位 20位

順位 |link(user)| 利用者 ID

1 13655 citora

2 10832 acqua alta

3 10328 Wacky

4 9921 j708

5 9392 sirouto2

6 7709 zonia

7 7443 ak9

8 7216 pongpongland

9 6924 jazzanova

10 6448 ka2u

11 6332 kanose

12 6064 denken

13 5839 udy

14 5812 s1090018

15 5796 hiro y

16 5737 hejihogu

17 5555 Nean

18 5528 hatayasan

19 5522 yamifuu

20 5379 memoclip

26

第5章

関連研究

Folksonomyやそれに基づくソーシャルブックマークは比較的新しい研究対象ではあるも

のの, すでに Folksonomyについていくつかの議論や分析が行われている. 今までに行わ

れた研究は主に, Folksonomyを情報体系化のための新しい分類法として着目している.

多くの研究者によってFolksonomyと既存のTaxonomyを比較することによるFolkson-

omyの特徴についての言及がすでになされている [13] [14] [15] [16] [17]. どれも第 2章で

述べたような Folksonomyの利点と欠点を述べている.

Kroskiは, 分類として優れているのは従来の Taxonomyで行われるトップダウン型階

層構造であると主張しつつも, Web上の情報資源のように日々増え続け情報の変化も激し

い場合には, 欠点を多少抱える Folksonomyを使わざるを得ないと結論付けている [14] .

また, Noruziはシソーラスを用いることによるFolksonomyの改善について議論している.

また, Folksonomyにおける統制語彙や推薦ベースのシステムが必要性を主張している.

Golderらは, 実際にソーシャルブックマークサービスdel.icio.us1のデータを用いて分析

と考察を行っている [11]. 彼らは時間的な特性に着目し, 利用者の行動パターンやブック

マークURLの注目のされ方, タグの使用頻度に関する規則性などを報告している. また,

利用されるタグの特徴を考察し, タグを機能毎に 7種類に分類した. HalpinらはGolder

らのデータ量に関して不備があると主張し del.icio.us における大量なデータを収集し

Folksonomyの特徴を調査している [12]. また, 共起ネットワークを用いて特定のタグ間

の関係性を求めている.

Folksonomyに関する研究として長所を活かすアプローチと短所を補うアプローチが

1http://del.icio.us/

27

ある. Folksonomyの短所として, タグ表記の自由さゆえの検索精度の低さが挙げられ

る. Folksonomyの短所を改善するアプローチは多くとられている. Hothoらは, 既存の

Folksonomyに基づくシステムにおける検索機能が貧弱なことに着目し, Web上のページと

リンク構造に対する解析によるPageRank [22]をFolksonomyに適用した [9]. 従来のWeb

での 2部グラフ構造から 3部グラフ構造にモデル化したFolksonomyについてPageRank

を適用している. 更に特定のトピックを検索する新たなランキングアルゴリズムFolkRank

を提案し評価を行っている [10]. Hothoらの研究グループ内のRobertらは,そのFolkRank

によるタグの推薦を試みており協調フィルタリングとの比較評価も行った [10]. Yanbeら

は被ブックマーク数とPageRankの相関を調査し, PageRankと被ブックマーク数を融合

し検索性能の向上を図っている [8].

Folksonomyが抱える言語的あいまいさの問題に関しては, タグのクラスタリングを行

うことで解決しようと試みる研究が多くなされている [4] [5] [6] [20]. Begelmanらは, 言

語的問題によって人気でないページが発見されないままではFolksonomyの特徴を活かし

きれていないと主張し, タグをグラフ化し, それらをクラスタリングすることによって改

善を図っている [4]. 丹羽らはタグのクラスタリングを行うことによって, 協調フィルタ

リングが持つ規模適応性の問題を解決した推薦手法を提案している. またFolksonomyの

構造を考察し 3部グラフを利用した共起関係をもちいてクラスタリングを行っている. Li

らは, 情報資源の増加に伴うTag Cloudの閲覧性の低下について着目し, 大量の情報でも

効率的に閲覧できるインターフェイスの提案を行っている [20]. その際に, 決定木による

タグのクラスタリングを行っている.

Folksonomyが新しい分野であるにも関わらず多くの研究がなされていることからFolk-

sonomyの可能性と Folksonomyに対する期待が分かる. 上述した多くの研究のほとんど

がFolksonomyの欠点について着目されており, 長所である serendipityを活かす研究はほ

とんど行われていない. 本研究では, 長所である情報の新鮮さや意外性を活かすアプロー

チで情報発見の支援を行う. 類似利用者の発見から興味の近い情報の発見を支援し, また,

有用な情報をいち早く発見する利用者の情報を得ることで鮮度の高い有用な情報につい

ての発見を支援する.

28

第6章

ソーシャルブックマークからの情報発見

Folksonomyの利点は, 利用者の自由なタグ付けによる多面的な情報発見や柔軟性, 新鮮

さ, Serendipityなどが挙げられる. しかし, 既存のサービスや研究ではその利点を活かし

たアプローチはあまりなされていない. 本章では, Folksonomyが持つ利点を活かした情

報発見手法を提案する.

Folksonomyサービスでは, タグを介した利用者のネットワークがあり, 利用者を介し

て情報が広がっていく. 本研究では, ソーシャルブックマークより情報発見する指標とし

て利用者に着目した. そこで 2つの仮説を立てた.

仮説 1

ある利用者Aに類似した利用者Bが持つ情報は利用者Aの興味に近い情報である.

仮説 2

あるトピックに関する情報を他の利用者よりも早く発見できる利用者がいるとき,

その利用者が注目しているそのトピックに関する情報は将来的に流行する可能性の

高い有用な情報である.

これら二つの仮説から情報発見を支援するための 2つの手法を提案する.

6.1 手法1: 類似利用者手法

利用者は自分の興味に沿った情報を探している. 例えば, 男性利用者に対して化粧品や

女性用下着の情報を提供しても, ほとんどの男性利用者はその情報を必要としない可能性

29

が高い. ソーシャルブックマークでは, 個人のブックマークコレクションを共有するので

似たようなコレクションを持っている利用者はお互いに似ていると考え, 利用者Aの類

似利用者が分かったときに, その類似利用者が興味を示しているページは利用者 Aに対

しても興味が持てる内容である可能性が高いと考えた.

そこで,ある任意の利用者ua ∈ USERSについてのブックマークデータBookmark(ua, l, t, d)

を利用者 uaのプロファイルとみなし, 利用者間の類似度を計算する. 任意の利用者 uaに

対する類似利用者が保持するブックマークURLで, uaがまだブックマークしていないも

のを後述する cosrank で順位付けて提示する. 利用者 uが所有するブックマークURL集

合を link(u) = l1, l2,…, lnとすると利用者ua, ub間のコサイン類似度は以下のようになる.

cos(ua, ub) =|link(ua) ∩ link(ub)||link(ua)||link(ub)|

uaと他の利用者 ub ∈ USERS間のコサイン類似度 cos(ua, ub) においてその類似度の

値で並べ替えたときの上位Nの利用者集合を sim(ua) とする. このとき提示候補URL la

は以下のようになる.

la ∈∪

u∈sim(ua)

link(u) and la ∈ link(ua)

laに対して以下の方法でランキングを行う.

cosrank(la) =∑

u∈sim(ua)

cos(ua, u)

cosrank(la)の値の上位 kのブックマークURLを提示URLとする.

6.2 手法2: αブックマーカー手法

本研究では, 利用者の中でも人気のある情報をいち早く入手できる利用者を αブック

マーカーと呼ぶ. 人気は,あるブックマークURL liをブックマークした利用者数 |user(li)|

で判断する. αブックマーカーが持つ最新情報は将来的に人気が出る可能性が高い. ここ

では, あるトピックに関してのαブックマーカーを探す手法を提案する. 利用者によって

自由なキーワードで付与されるタグは, タグを付与される情報の特徴を示し, さらにタグ

付けした利用者の興味を端的に示している. そのため, タグはある種のトピックを表すと

仮定した.

30

まず, タグの階層化を行い Folksonomyが持つ言語的あいまいさの問題解消を試みる.

次に, 任意のトピックについての αブックマーカーを算出する. 算出した αブックマー

カーを用いてあるトピックについての良いページ (URL)を提示するアルゴリズムを提案

する.

6.2.1 タグの階層化

タグの意味的なつながりに基づく階層化によってFolksonomyの言語的あいまいさの問

題を解決する. 言語間の階層構造を構築するためにクラスタリングや概念グラフを用い

た研究がなされている [4] [5] [6] [20] [23].

本研究では索引語文書行列より上位下位関係を求め単語間の階層構造を求める. 単語

u, vの上下関係を u, vの出現する文書集合DF (u), DF (v)を用いた以下の Intersection

rateの式で定義する.

u is upper term of v

⇐⇒ DF (u) > DF (v) and|DF (u) ∩ DF (v)|

|DF (v)|> a

aは 0 ≤ a ≤ 1の定数である. 本手法では a = 0.5に設定した. また, 単語をタグ ti, 文書

をタグ付けされたブックマーク URL link(ti)とし, 階層構造を構築する. これはつまり,

タグの共起によりタグ間の関係を, 共起頻度の割合によって上下関係を求めている. 例え

ば, uを”DB”, vを”Mysql”としuが vの上位タグである時,下位のタグ”MySQL”は上

位のタグ”DB”よりも詳細なトピックを表している. 逆に上位タグ”DB”は”MySQL”

よりも一般的であることになる. (図 6.1)

6.2.2 αブックマーカーの算出

本節では, 特定のトピックに対する αブックマーカーの算出について述べる.

任意のタグ tin ∈ TAGS を選んだとき, tin 以下のタグ下位集合を under(tin)とする.

under(tin)は, タグ tinよりも詳細なタグの集合となっている. そのトピックの各ノード

ti ∈ under(tin)が付与されたブックマークURL集合 rellink(tin)は以下のように表せる.

rellink(tin) =∪

ti∈under(tin)

link(ti)

31

図 6.1: Intersection rateによる単語間の階層関係

すべての li ∈ rellink(tin)に関するBookmark(u, li, t, d)において早期にブックマークし

た利用者を探すためブックマーク情報Bookmark(u, li, t, d)を dで昇順に並べ替える. こ

のとき, 上位α % の利用者 ui対して重みw(ui, li)を付与する. 利用者 uiのα 度 alpha(ui)

を以下のように定義する.

alpha(ui) =∑

li∈rellink(tin)

{w(ui, li) − rank(ui, li)}

ここで, rank(ui, li) は, 時間軸で評価した利用者 ui の URL li に対するブックマー

ク順位を表す. ブックマーク URL li に対して最も早くブックマークした利用者を ua

とすると rank(ua, li) は 1となる. また, w(ui, li)を Bookmark(u, li, t, d) における |u|

とする. alpha(ui) の大きい利用者上位 x人を under(tin)における α ブックマーカー

alphaBookmaker(tin) ⊆ USERSとみなす. αブックマーカーaui ∈ alphaBookmaker(tin)

がBookmark(aui, l, tin, d)をdで降順に並べ替えた上位Nの提示候補URL集合を reclink

とする. rli ∈ rellinkに対して以下の方法で順序づけを行う.

alpharank(rli) =∑

u∈alphaBookmarker(rli)

alpha(u)

ここで, alphaBookmarker(l)は URL lをブックマークとして保持している αブック

マーカー集合を表す. alpharank(la)の値の上位 kのブックマーク URLを提示 URLと

する.

32

第7章

実装

第 2章で述べたようにFolksonomyによる情報発見にはタグの言語的あいまい性という障

害がある. この問題を解決し, Folksonomyの強みである新しい情報の発見と思いがけな

い情報の発見を支援する情報発見システムを構築した. 本章では, 第 6章で述べた情報発

見を支援する 2つの手法についての実装の詳細を述べる. 本研究における実装の外観を

図 7.1 に示す.

図 7.1: 実装の外観

実装は, ソーシャルブックマークデータの収集, HTMLデータの加工, そして, データを

用いた提案手法の実装システムの製造という流れになる. まずWebクローリングによっ

てデータ収集を行う. 本研究では, 実際のソーシャルブックマークデータとして「はてな

ブックマーク」のデータを用いた [1]. 第 3章で述べた方法でデータを収集し, それらの

33

HTMLテキストから, 利用者, タグ, URL, 日付といったブックマーク情報をスクレイピ

ングし, データベースに格納した. データベースのテーブル設計を図 7.2に示す.

bookmarkurl_id user_id tag_id date

urlurl_id url title useruser_id user tagtag_id tag

図 7.2: テーブル設計

次に提案手法の実装として 3つのWebベースのシステムをつくった. なお, システム

のソフトウェア構成は表 7.1のようになっている. 以下では, 試作したシステムである

close2u 1, Tag Hierarchy 2, α bookmarker 3 についての詳細を述べる.

OS FreeBSD 6.0

プログラミング言語 Ruby 1.8.2

DB MySQL 5.0.33

Server Apache 2.2.6

表 7.1: システム構成

7.1 close 2 u

close 2 uは手法 1の類似利用者手法に関するシステムである. はてなブックマークでは

利用者は一意の IDを持つ. その利用者 IDを入力として, その利用者 IDと他の利用者と

の類似度をコサイン類似度を用いて算出する. 入力した利用者 IDと類似度の高い利用者

が持つブックマークは興味が近いと仮定しているので類似度の高い利用者 IDを 30名分,

1http://joe.cc.kyushu-u.ac.jp/∼momota/hatena/proto/close.cgi2http://joe.cc.kyushu-u.ac.jp/∼momota/hatena/hie/graph.cgi3http://joe.cc.kyushu-u.ac.jp/∼momota/hatena/alpha/abmer.cgi

34

それらの類似利用者から第 6章で述べたランキング手法で重みを付けて上位 100個のブッ

クマークURLを提示する. 試作システムのキャプチャー画像は図 7.3のようになってい

る. テキストフォームに利用者 IDを入力すると左側に類似利用者, 右側にブックマーク

を提示する. このシステムでは利用者の保持するブックマーク情報を個人のプロファイ

ルとみなして利用者の興味に近いブックマークURLの提示を試みている.

図 7.3: close 2 u

35

7.2 Tag Hierarchy

Tag Hierarchyはタグの階層化を可視化するシステムである. 入力は任意のタグ名であり

入力タグ tinとその他のタグとの上下関係を Intersection Rateを用いて算出する. 画像生

成ツールとしてGraphviz4 を用いている. また,はてなブックマークから tinに関する注目

エントリーのRSSがhttp://b.hatena.ne.jp/t/tin?mode=rss&sort=hot&threshold=5

より取得できるため, 入力タグ tinを含む下位のタグ集合に関してRSSを取得し重複を除

いて提示している. システムの画面を図 7.4に示す. テキストフォームにタグ名を入力す

るとそのタグに関する上位集合と下位集合が表示される. 3段組みの表の左が上位集合,

中央が入力タグ, 右が下位集合となっており, その下に生成した画像を表示している. さ

らに, その下に求めた関連タグについての検索結果をまとめて表示している.

このシステムではFolksonomyが抱える言語的問題の解消を試みている. 入力に対する

結果に満足しなかった場合, 利用者はキーワードを改めて入力するが, このとき最初に入

力したキーワードに近い適当なキーワードを考えることは, 特に求めている対象について

詳しくない場合に困難である. 本システムでは入力タグに関連する語を図示することで,

検索語選択の支援を行っている. また, 入力キーワードに関連するタグ集合についてまと

めて検索することで利用者が一つ一つのキーワードで検索する手間を省いている.

7.3 α bookmarker

α bookmarkerは, 手法 2の αブックマーカー手法に関するシステムである. タグを入

力するとTag Hierarchy同様に入力タグに関連する下位集合を求める. 本システムでは入

力タグに関する下位集合をトピックとみなしている. このトピックに関係するブックマー

クURL集合中から手法 2のように αブックマーカーを算出する. 5秒程度のストレスの

ない実用的な速度で応答するために提示する αブックマーカーの数を 15名に限定して

いる. 続いて, αブックマーカーが持つブックマークでトピックに関連するブックマーク

URLを取得し表示する. RSSは http://b.hatena.ne.jp/USER ID/rss?tag=TAGにアク

セスすることではてなブックマークから取得できる. システムのキャプチャー画面を図

4http://www.graphviz.org/

36

7.5に示す. テキストフォームにタグ名を入力するとそのタグに関するα ブックマーカー

と入力タグに関連するトピックで算出されたα ブックマーカーが注目をしているものを

表示する. クエリログから最近入力されたタグと最近入力頻度の高いタグを求め表示し,

また, 入力タグの下位タグを関連語として表示している. それぞれのリンクは本システム

への入力となっている.

37

図 7.4: Tag Hierarchy

38

図 7.5: α Bookmarker

39

第8章

評価

第 6章で述べた提案手法について, 実際に存在するソーシャルブックマークに適用して評

価実験を行った. 実験 1では, 手法 1の類似利用者手法についての評価を行い, 実験 2で

は手法 2の αブックマーカー手法についての評価を行った.

8.1 実験1: 類似利用者手法の評価

類似利用者手法 (手法 1) を評価するために, 収集したデータの中で 2006年 12 月 31日

以前のものだけを使用し, 手法 1によるシステムを構築した. 2007年 1 月 1日以降にデー

タが存在する利用者の中から無作為に 1000人の利用者 RandomUSERS ⊆ USERSを

選び, その各利用者 rui ∈ RandomUSERS に対して手法 1に基づいて k個のURLを提

示した. 情報提示した URL数 kを k = {10, 20, . . . , 100}のように変化させ, その中で一

つでも 2007年 1月 1日以降のデータ内でその利用者によってブックマークされているも

のがあれば手法 1による推薦成功とした. 利用者によるブックマークは, 検索のような言

語的なコンテンツのマッチングではなく, 利用者の興味のマッチングを意味する. つまり,

実際に利用者によってブックマークされたという事実は, その利用者にとっての有用な情

報が発見できたということを示す.

本研究では, 100回RandomUSERSを選び直して実験を行った. それらの結果の平均

値をとったものを図 8.1に示す. x軸は, システムが提示したURL数 kを表し, y軸は, 成

功人数を |RandomUSERS|で割った値を示している. 比較のため, RandomUSERSに

対して無作為に選んだブックマークURLを推薦した結果も示している. これも 100回試

行を繰り返した平均値を表示している. 類似利用者手法の成功率は平均で 3% から 15%

40

程度ということが分かる. 無作為な推薦に比べ本手法の成功率は約 2倍であり, 本手法が

有効であることが分かる. また, 情報提示数 kと成功率に正の相関が見られる. これは情

報推薦数が増加するにつれ, 解集合の中に占める推薦集合の割合が増加するためと考えら

れる. 無作為な推薦に比べ, 本手法のほうが傾きが急なことから, 解集合の中での推薦集

合が占める割合がより大きく増加していることを示している. つまり, 本手法では, より

効果的な情報提示ができていることを表している.

0

2

4

6

8

10

12

14

16

10 20 30 40 50 60 70 80 90 100

succ

ess

rate

(%

)

# of reccomend URLs

success rate

cosrankrandom selection

図 8.1: cosrankと random recommendationの比較

8.2 実験2: α ブックマーカー手法の評価

収集したデータに対し, Intersection rate を計算しタグの階層化を行った. ここで,

|TAGS|を N , |LINKS|をM とすると, すべてのタグ ti ∈ TAGS に対する Intersec-

tion rateを計算するとき,計算量はO(MN2)であり計算量が非常に大きい. そのため, TF

値が 50以下のタグを除いて計算を行った. これによりN は 108753から 6467になった.

図 9.3 にタグ”db”の下位となるタグ集合をGraphviz によって出力したものの一部を示

す. ”db”の下位集合には”mysql”,“ sql”,“ RDB”などすべてデータベースに関連

するタグが現われている. また, その中で”mysql”に注目してみる.“mysql”の下位集

41

合をみると”LAMP”や”phpmyadmin”などMySQLに関するより詳細なタグとなって

いる. 多少定性的な評価ではあるが, 図 5に関して階層化は適切に行えている. またその

他のタグについても同様に適切に行えていることを確認した. その他の図に関する評価

と考察は付録に掲載している.

αブックマーカー手法におけるパラメータを α = 10%, N = 200, x = 100に設定した.

実験 1同様に 2006年 12月 31日までのデータをもちいて手法 2に基づいた情報提示を行っ

た. 入力タグ tinをTF値の大きいものから選んだ. 選んだタグは, ”web”, ”JavaScript”,

”ネタ”, ”design”, ”google”, ”AJAX”, ”blog”, ”2ch”, ”css”, ”web2.0”, ”tips”, ”

YouTube”, ”tool”, ”business”, ”programming”, ”flash”, ”book”, ”perl”, ”社会”,

”あとで読む”の 20語である. それらについて本手法を適用した. ここで, タグを入力す

る利用者はそのタグに興味がある, または, タグについての情報を求めていると考えられ

る. そこで, それぞれの tinについて, データ全体の中で t ∈ under(tin)をタグ付けしてい

る利用者の中から無作為に 1000人の利用者RandomUSERS(tin) ⊆ USERSを選んだ.

上位 20語を選んだのは, タグのTF値が大きいとき, |RandomUSERS(tin)| も大きくな

り, より良いサンプリングができるためである. それぞれの rui ∈ RandomUSERS(tin)

について提示URL数 kを実験 1 同様に k = {10, 20, . . . , 100}と変化させ情報提示をした.

その中で一つでもその利用者によってブックマークされているものがあれば成功とみな

した. αブックマーカー手法の評価では, 利用者によって 2007 年 1月 1日以前にもブック

マークされていれば成功とする. これは, 提示された情報が, すでにブックマークしてあ

る場合もその利用者に対して興味分野のマッチングができているとみなせるためである.

類似利用者法と同様にRandomUSERS(tin)を 100回選び直し実験を行った. それらの

平均値をとったものを図 8.3に示す. どの入力タグ tinについての推薦結果も, 成功率の幅

はあるものの似た振舞いが観られる.

また, タグ階層化のみによる情報推薦手法との比較を行った. タグ階層化のみによる

手法では, まず入力タグ tinについての階層化を行う. その結果算出された入力語に関連

するタグ集合を topic(tin) ⊆ TAGSとするとき, ti ∈ topic(tin)によってタグ付けられた

ブックマークURL集合を求め, 共起数で重みを付け順序づけたものの上位 kの情報提示

を行った. ここで, αブックマーカー手法と同様に, 入力タグとして上述した TF値の大

42

きい 20語を用いて同様の評価を行った. αブックマーカー手法とタグ階層化のみによる

手法の比較結果を図 8.4 に示す. すべての情報提示数 kにおいて αブックマーカー手法

が優れていることが分かる. また, ともに情報提示数 kの変化の振舞いが似ている. kを

増加していくと 50% 付近に収束することが予想される.

また, αブックマーク手法, 階層化のみによる手法, 類似利用者法, 無作為に情報提示し

たものの平均成功率を比較した結果を図 8.5 に示す. 類似利用者法に比べ, αブックマー

カー手法は 3から 4倍の成功率を示している. つまり, トピックを限定したときの情報発

見についてはα ブックマーカー手法の方が優れていることが分かった. また, トピックを

限定した場合にはタグの階層化のみによる手法でも高い推薦成功率を得られることが分

かる. 類似利用者手法の成功率が低くなった原因は, 類似利用者手法において利用者のプ

ロファイルを使うことができるためと考えられる. つまり, 利用者のプロファイルによっ

て利用者がすでに保持しているブックマークを情報提示時にアルゴリズムによって排除

できるために成功率が低くなったと考えられる. 本実験による αブックマーク手法の高

い推薦成功率から, 効果的な情報発見の支援ができていると判断できる.

43

図 8.2: タグ”db”の下位集合

44

10

15

20

25

30

35

40

45

50

55

20 40 60 80 100 120 140

succ

ess

rate

( %

)

# of recommend url

success

webjavascript

netadesigngoogle

ajaxblog2chcss

web2.0tips

youtubetool

businessprogramming

flashbookperl

societytoread

図 8.3: αブックマーカー手法の結果

10

15

20

25

30

35

40

45

10 20 30 40 50 60 70 80 90 100

succ

ess

rate

(%

)

# of reccomend URLs

success rate

ave. of alpharanktag clustering

図 8.4: αブックマーカー手法とタグ階層化による手法との比較

45

0

5

10

15

20

25

30

35

40

45

10 20 30 40 50 60 70 80 90 100

succ

ess

rate

(%

)

# of reccomend URLs

success rate

ave. of alpharanktag clustering

cosrankrandom selection

図 8.5: 提案手法の比較結果

46

第9章

おわりに

本研究ではFolksonomyの一つソーシャルブックマークに着目した. Folksonomyでは, 利

用者が情報資源に対してタグと呼ばれる自由なキーワードを付与し, その情報資源を共有

する. Folksonomyではタグ付けに関する制限が一切ない. そのため, タグの言語的あいま

いさによる表記のゆれの問題やタグ間に上下関係がない非階層構造による検索精度の低

さが問題となる. これらの問題については多くの研究者による研究対象となっているが,

Folksonomyの強みである多面的情報発見性や情報の鮮度, 柔軟性, Serendipityを活かす

研究はあまりなされていない. 本研究では Folksonomy の長所である Serendipityに着目

し, ソーシャルブックマークを用いることで情報発見の支援を効果的に行えると考え, 本

研究では利用者を情報発見の軸として支援するための 2つの手法を提案した.

1つは, 任意の利用者の興味の近い利用者を発見し, その類似利用者が持つ情報を推薦

する類似利用者手法である. この手法では, 利用者が持つブックマーク情報を個人のプロ

ファイルとみなした. そのプロファイルをもとにコサイン類似度により類似利用者を求

め, その類似利用者が保持するページに重みを付けて利用者に興味の近いページを提示し

た. もう一つは, これから人気の出る可能性の高い新着情報をいち早く推薦するαブック

マーカー手法である. この手法は, 任意のトピックに関する人気の高いページを早期に見

つける αブックマーカーを発見し, その αブックマーカーが注目しているページを推薦

する手法である. 人気の度合いとして, ブックマークをした利用者数を考えた. この手法

では, タグの上下関係を Intersection rateによって求め, タグの言語的あいまいさの問題

の解消も試みた.

上記の手法を 3つのWebベースの試作システムとして実装した. その際, ソーシャル

47

ブックマークデータとして「はてなブックマーク」のデータを利用した. また, データを

用いて提案手法の評価を行った. その結果, トピックを限定した際には類似利用者手法よ

りも αブックマーカー手法の方が優れていることが分かった. また, αブックマーカー手

法によって効果的な情報発見の支援が行えていることが分かった.

本研究における今後の課題は 2つある. まず, 類似利用者手法の改良がある. 本研究で

提案した類似利用者手法では, 利用者の持つブックマークURL情報のみを利用している.

Folksonomyにおけるタグは情報資源に対する利用者の端的な表現である. そのため, 例

えば, 似た意味のタグをよく使う利用者同士は類似しているなど, 利用者が持つタグ情報

を使うことでより利用者の興味に合ったブックマーク情報推薦ができると考えている. 次

に, 評価法の見直しである. 本研究では, αブックマーカー手法によって本当に利用者に

対して目新しいものが提示できたかどうかの評価を行っていない. Folksonomyの強みで

ある Serendipityを活かすことができたかどうかを評価するために, 評価手法を再検討す

る必要がある. 例えば, 利用者が持つブックマークURLをベクトル空間にマッピングし,

任意の利用者が保持するURL の重心を求める. 推薦されたブックマークURLがその重

心からどれだけ離れているかで, その利用者にとっての目新しさを表現できる. つまり,

Serendipity の度合いを数値化し評価できる. また, 提案手法に対する比較対象手法の再

検討も必要である. 本研究の手法が他の手法と比べてどれほどの成功率なのかを評価す

る必要がある. 例えば, PageRankや協調フィルタリング, 関連研究における提案手法な

どと比較する必要がある.

48

謝辞

本研究の機会を与えてくださったのみならず貴重なご助言をいただきました伊東先生に

心より感謝いたします. 下司義寛君, 島松千春さんには, 共に議論をし, 様々な助言を頂

きましたことを心より感謝いたします. また, 技術的なことに限らず様々なアドバイスを

くれた伊東研究室, 廣川研究室の皆様に感謝いたします.

皆様のご協力により, ここに修士論文が完成したことを心より感謝いたします.

49

付録

ここでは, タグ階層化についての 5つの例を挙げ, その特徴について考察する.

図 9.1 に”english”, 図 9.2 に”firefox”, 図 9.5 に”mac”, 図 9.4 に”search”, 図 9.3

に”food”タグ以下の集合を示している. 定性的評価ではあるがどれを見ても, 関連の強

いタグ集合が算出できている.

これらの集合には, 同義語が多く含まれている. 例えば, 図 9.5を見てみると”MAC”

以下の”osx”以下の集合の大半が”MacOSX”, ”Max OSX”, ”OS X”などといった区

切り文字の位置の違いによる同義語で形成されている. また, 図 9.3 における”グルメ”,

”料理”, ”食事”, ”レシピ”などの類義語も算出できている. つまり, 本研究におけるタ

グの階層化手法を用いることである程度の同義語による情報漏れの危険性を吸収できる.

これらの集合で日本語タグよりも英語タグの方が上位タグになる場合が多い. 例えば,

図 9.1 における”english”と”英語”や図 9.2 における”extension”と”拡張”, 図 9.4 に

おける”search”と”検索”が挙げられる. これは, はてなブックマークにおいてブック

マークを登録する際の書式ルールによって起こると考えられる. 利用者は, はてなブック

マークにブックマークを登録する際にテキストフォームに任意のタグを入力しタグ付け

を行う. タグは”[]”で囲まれた文字列で入力し半角スペース区切りで複数のタグを列挙

していく. このとき, 例えば”a”と入力したらその利用者が持つタグ集合の中から”a”

で始まるタグを表示し容易にタグ付けができるタグ入力補完機能も提供されている. 日

本語で始まるタグを付与する際に, 利用者は日本語英語入力の切り替えを行うステップが

加わるため日本語タグは敬遠される. そのため日本語タグの頻度が英語タグに比べ少な

くなり同義語中でも下位タグになりやすくなる.

他のタグについても同様に, タグの階層化に関する試作システムTag Hierarchy 1 より

確認した.

1http://joe.cc.kyushu-u.ac.jp/∼momota/hatena/hie/graph.cgi

50

図 9.1: タグ”english”の下位集合

図 9.2: タグ”firefox”の下位集合

51

図 9.3: タグ”food”の下位集合

52

図 9.4: タグ”search”の下位集合

53

図 9.5: タグ”mac”の下位集合

54

参考文献

[1] はてなブックマーク, http://b.hatena.ne.jp/.

[2] Folksonomy: From Wikipedia, the free encyclopedia., http://en.wikipedia.org/

wiki/Folksonomy, (accessed 2007.12.23)

[3] Power law: From Wikipedia, the free encyclopedia., http://en.wikipedia.org/

wiki/Power law (accessed 2007.1.30)

[4] Grigory Begelman, G. Keller, P. and Smadja, F., Automated Tag Clustering: Im-

proving search and exploration in the tag space., Collaborative Web Tagging Work-

shop, 15th International World Wide Web Conference, Edinburgh, Scotland, 2006.

[5] 丹羽智史, 土肥拓生, 本位田真一, Folksonomyマイニングに基づくWebページ推薦

システム, 情報処理学会論文誌, Vol. 47, No. 5. (15 May 2006), pp. 1382-1392., 2006.

[6] 丹羽智史, 土肥拓生, 本位田真一, Folksonomyの 3部グラフ構造を利用したタグク

ラスタリング, 合同エージェントワークショップ＆シンポジウム 2006 (JAWS2006),

SIG-SWO-A602-07, 2006.

[7] Bao, Shenghua and Xue, Guirong and Wu, Xiaoyuan and Yu, Yong and Fei, Ben and

Su, Zhong Optimizing web search using social annotations, WWW ’07: Proceedings

of the 16th international conference on World Wide Web, 2007.

[8] Yusuke Yanbe, Adam Jatowt, Satoshi Nakamura and Katsumi Tanaka, Towards

Improving Web Search by Utilizing Social Bookmarks, Proceedings of the 7th Inter-

national Conference on Web Engineering(ICWE 2007), Como, Italy, July 2007.

55

[9] Hotho, A. and Jaschke, R. and Schmitz, C. and Stumme, G., Information Retrieval in

Folksonomies: Search and Ranking, http://www.kde.cs.uni-kassel.de/stumme/

papers/2006/hotho2006information.pdf, Proceedings of ESWC 2006, pp. 411-

426, 2006.

[10] Jaschke Robert, Marinho Leandro, Hotho Andreas, Schmidt-Thieme Lars, Stumme

Gerd, Tag Recommendations in Folksonomies, PKDD 2007, pp. 506-514, 2007.

[11] Scott Golder, Bernardo A. Huberman (HP Labs), The Structure of Collaborative

Tagging Systems, Journal of Information Science, 32(2). pp. 198-208, 2006.

[12] Harry Halpin, Valentin Robu, Hana Shepherd, The Complex Dynamics of Collab-

orative Tagging, International World Wide Web Conference archive Proceedings of

the 16th international conference on World Wide Web, 2007.

[13] Clay Shirky, Ontology is Overrated: Categories, Links, and Tags, http://shirky.

com/writings/ontology\ overrated.html, 2005.

[14] Ellyssa Kroski, The Hive Mind: Folksonomies and User-

Based Tagging, http://infotangle.blogsome.com/2005/12/07/

the-hive-mind-folksonomies-and-user-based-tagging/, 2005.

[15] Adam Mathes, Folksonomies - Cooperative Classification and Communication

through Shared Metadata, Computer Mediated Communication, LIS590CMC (Doc-

toral Seminar), 2004.

[16] Emanuele Quintarelli, Folksonomies: power to the people, ISKO Italy-UniMIB meet-

ing. http://www.iskoi.org/doc/folksonomies.htm, 2005

[17] Alireza Noruzi, Folksonomies: why do we need controlled vocabulary?, Webology,

Volume 4, Number 2, http://www.webology.ir/2007/v4n2/editional12.html,

June, 2007.

56

[18] Wu Harris, Zubair Mohammad, Maly Kurt, Harvesting Social Knowledge from Folk-

sonomies, HYPERTEXT 06, Proceedings of the seventeenth conference on Hypertext

and hypermedia, 2006.

[19] Gene Smith, Atomiq: Folksonomy - social classification., http://atomiq.org/

archives/2004/08/folksonomy social classification.html, August, 2004.

[20] Rui Li, Shenghua Bao, Ben Fei, Zhong Su, Yong Yu, Towards Effective Browsing of

Large Scale Social Annotations, International World Wide Web Conference archive

Proceedings of the 16th international conference on World Wide Web, 2007.

[21] 北研二, 津田和彦, 獅々堀正幹, 情報検索アルゴリズム, ISBN-13: 978-4320120365,

2002.

[22] Larry page, Sergey Brin, R. Motwani, T. Winograd, The PageRank Citation Rank-

ing: Bringing Order to the Web, Technical report, Stanford Digital Library Tech-

nologies Project, 1998.

[23] Yoshihiro Shimoji, Sachio Hirokawa, Dynamic Thesaurus Construction from

English-Japanese Dictionary, International Workshop on Ontology Alignment and

Visualization, 2008.

[24] Controlled vocabulary: From Wikipedia, the free encyclopedia., http://en.

wikipedia.org/wiki/Controlled vocabulary (accessed 2007.1.30)

[25] Linnaean taxonomy: From Wikipedia, the free encyclopedia., http://en.

wikipedia.org/wiki/Linnaean taxonomy (accessed 2007.1.30)

[26] Dewey Decimal Classification: From Wikipedia, the free encyclopedia., http://en.

wikipedia.org/wiki/Dewey Decimal Classification (accessed 2007.1.30)

information discovery based on social bookmarks -...

Documents