訪問数とユーザ評価に基づく穴場スポット抽出手法の評価 ...deim forum 2016...

DEIM Forum 2016 P5-2

訪問数とユーザ評価に基づく穴場スポット抽出手法の評価

北山大輔†

† 工学院大学情報学部コンピュータ科学科〒 163–8677 東京都新宿区西新宿 1-24-2E-mail: †[email protected]

あらまし東京オリンピックなどに向けて観光情報が重要となってきている．初訪問時はガイドブック情報などのメ

ジャーな情報に基づいた観光を行うことで十分な満足感が得られると考えられる．しかし観光産業を考えると，いか

に再訪者を増やせるかが重要となる．我々はこのような問題に対し，再訪時の魅力を発掘することを目的として，一

般的に知られていないが，評価が高いスポットを穴場スポットと定義し，このような穴場スポットを自動的に発見す

る研究に取り組んでいる．本稿では，プロトタイプシステムを構築し，従来手法として人気に基づくスポット抽出と

比較した提案手法の効果を評価する．

キーワード地理情報検索，穴場スポット，ユーザ評価

1. はじめに

2016年の伊勢志摩サミットや 2020年の東京オリンピックと

いった国際的なイベントに向けて，観光情報の重要さが日々増

している．一般的に観光情報を得るには，ガイドブックやWeb

ページを参考に観光情報を得ることが多い．多くのガイドブッ

クは初訪問の旅行者を対象とした情報を載せることが多く，メ

ジャーで多くの人が気に入ると考えられる情報が掲載されてい

る．またWebページではメジャーな情報からマイナーな情報ま

で集めることが可能であるが，Web検索エンジンでは，ランキ

ングによってメジャーな情報が上位にきやすく，観光情報を集

約したサイトでは，やはり独自のランキングによってメジャー

な情報が見つかりやすい構造になっており，初訪問の旅行者に

とって有用な情報が得られやすいといえる．

しかしながらイベント等を目的とした旅行者は，1回しか訪

れない可能性が高く，リピータの獲得が観光に関しての課題と

なってきている．リピータを獲得するには，再訪の動機付けと

なる情報の提供が必要であると考えられる．そこで，我々は再

訪時に有用になると考えられる，地域の穴場スポットの抽出手

法の開発に取り組んでいる [1]．このような再訪の動機の誘発

は，どのタイミングで発生するか予測できないたいため，ユー

ザが情報を得たいと感じた時にリアルタイムに動くシステムで

ある必要があると考えている．我々はこれまで，写真共有サイ

ト Flickrのデータを用いた穴場スポット抽出手法に取り組んで

おり，本稿ではそのモデルの整理および，プロトタイプシステ

ム AnabaMiner の実装，その有効性評価に取り組んだ．

本稿では，2節で関連研究について述べ，本研究の位置づけ

を明らかにする．3節で穴場スポットのモデルを説明し，4節

でそのモデルに基づくアプリケーション：AnabaMinerを説明

する．5節で評価実験について議論する．

2. 関連研究

Web 上の位置情報付きデータを利用した観光情報システム

に関する研究は多数存在する．まずスポット抽出に着目した

研究を紹介する．Crandallら [2]は，大量の写真とそれに付随

した位置情報やタグに基づいてクラスタリングし，人気のス

ポットやランドマークを抽出する手法を提案している．また，

Crandall らは同一撮影者のデータから撮影ルートの軌跡が得

られることも示している．白井ら [3]や Hirotaら [4]の研究で

は，位置情報付き写真を用いて多量の写真が撮影された複数の

地点を可視化，また，撮影方向を利用しランドマークの形状の

抽出手法を提案している．王ら [5]の研究では，ジオタグ付き

写真をクラスタリングし，各クラスタが風景を表していると考

え，そのアイコンをマップ上に表示する手法を提案している．

奥ら [6]の研究では，観光スポット領域内のツイートを基に，観

光スポットの特徴を抽出する手法を提案している．

次にスポットの評価を行う研究を紹介する．熊野ら [7]の研

究では，観光スポットには，時期により人々が集まる人数が異

なることに注目し，撮影スポットの旬のシーズンを抽出する研

究を行った．旬のシーズンを抽出する際に，バースト性に着目

した指標を提案している．この指標は，その地域において注目

するシーズンが短いまたは，シーズン期間内に撮影者数が多け

れば，大きくなるように定義されており，この値によりシーズ

ンを特定する．徳永ら [8]は，ブログ記事の地名表現の共起関

係を用いることで，スポットの地理的広がりと知名度の局所性

を分析する手法を提案している．この手法により，局所的によ

く知られているスポットを発見することが可能となる．Zhuang

ら [9]は，地理情報付きの写真を用いて，そのスポットの無名

度の評価及び景観価値の評価を行う手法を提案している．撮影

者のそのスポットに対する熟知度合いを出すことで，スポット

の無名度を算出している．また，景観としての評価を行うため

の評価式を提案している．

最後に観光ルートの推薦に関する研究を紹介する．奥山ら [10]

の研究では，写真に付与された位置情報を連続して考慮するこ

とにより，移動軌跡と考える．この移動軌跡を，連結させるこ

とにより，新しい観光ルートをユーザに推薦する手法を提案し

ている．Arase ら [11] は写真の地理情報，時間情報を用いて，

過去の旅行経路のマイニングを行っている．利用者が旅行の目

的や期間，旅行のテーマを入力することで，旅行計画を自動生

成することを可能とした．

本研究ではこれらのうち，スポットの評価に着目している．

Zhuangら [9]，徳永ら [8]と同様に，再訪時に推薦可能な穴場

スポットの抽出を目的としているが，本研究では，訪問人数と

ユーザ評価に着目し，簡便な手法で穴場度合いを検出すること

に主眼を置いている点が異なる．特に，Zhuangらの手法は本

研究で着目している訪問数とユーザ評価に非常に類似している．

本研究で提案しているモデルは汎用性が高く，撮影行動のみな

らず地理的スポットに対しての評価が得られればどのようなも

のにでも適応できる点で異なる．また，本稿で提案する簡便な

手法の有効性について評価する点が貢献であると考えている．

提案モデルはスポット抽出自体には依存しないため従来手法で

抽出されたスポットに対しても適応可能であり，評価した穴場

スポットに関しても，従来のルート推薦の評価値として用いる

ことが可能であると考えている．

Web 上の資源を簡易的に用いることでマイニングする研究

としては，Ohshimaら [12]がWeb検索エンジンのメタデータ

を用いて概念的な同位，上位，下位関係にあたる語句を簡易的

に抽出する手法に取り組んでいる．これはWeb検索結果とし

て返されるメタデータのみを用いて知識のマイニングをする方

法であり，非常に高速に動作するものである．本研究では，地

理的な情報を検索可能である写真共有サイトや飲食店検索サイ

ト，チェックイン情報共有サイトなどの検索結果に含まれるメ

タデータ情報のみで穴場スポットを判定することを目的として

いる点で類似している．

3. 穴場スポット

　本研究では，穴場である度合いを表現するために穴場スポッ

ト度を定義する．穴場とは，「一般の人にあまり知られていない、

いいところ（注1）」「人のあまり知らない，いいところ（注2）」と

いうように定義されることが多い．そのため我々は，知名度と

評価値によって穴場スポット度（GUS: Good Unknown Spot）

を算出可能であると考えた．あるスポット si に対する穴場ス

ポット度を以下の式で定義する．

GUS(si) =Evaluation(si)

Recognition(si)(1)

知名度 Recognition(si) とは，そのスポットが一般によく知ら

れている度合いであり，例えばスポットに対する訪問数やその

スポットに対する言及数が相当する．それに対して，評価値

Evaluation(si) とはそのスポットが評価される度合いであり，

そのスポットの閲覧数やお気に入り登録数，N段階評価の評価

値が相当する．すなわち，知名度の割に評価を集めることが可

能なスポットが穴場スポットである．そのためそのスポットが

なんらかの影響で有名になり知名度が高くなるとそのスポット

は穴場スポットではなくなる．図 1は穴場スポット度の概念図

である．足跡の数が知名度を表しており，星の数が評価値を表

（注1）：デジタル大辞泉の穴場の項目より

（注2）：大辞林の穴場の項目より

認知度度

評価値スポットD

認知度度

評価値スポットC

認知度度

評価値スポットA

認知度度

評価値スポットB

>

>

>

>

図 1 穴場スポット度の概念

している．スポット A が最も穴場スポット度が高くなり，ス

ポット Dが最も穴場スポットが低くなる様子を表している．

知名度や評価値は，適応するサービスにおいて適応可能なも

のを選択する必要がある．また，スポット自体の定義も適応す

るサービスによって変化する．例えば，レストラン検索におけ

る穴場店舗の評価を行う場合であれば，スポット自体は店舗を

単位とすることが可能であり，知名度は店舗への訪問数，評価

値はレストラン評価サイトの評価値を用いることが考えられる．

一方，観光における穴場スポットの評価を行う場合であれば，

観光スポットは領域を持つ場合があり，特定の施設をスポット

とするのは困難となる．そのような場合，まず Twitter等のマ

イクロブログや Flickr等の写真共有サイトのジオタグ付きデー

タを用いて，地理的な分布から対象となるスポットを特定する

ことが必要となる．このような場合，知名度はそのスポットの

領域に対する訪問数を利用することが可能であり，評価はその

ジオタグ付きデータにつく評価値（Twitterであればお気に入

り数やリツイート数，Flickrであればお気に入り数や被閲覧数）

を用いることができる．

このような，知名度や評価値は基本的に各地理情報検索エン

ジンのメタデータに含まれるものであり，数回の検索を行うだ

けで抽出可能であると考えられる．例えば，知名度の尺度に使

うことが考えられる訪問数は，Foursquareや Swarmのような

チェックイン共有サイトのメタデータとして取得可能であり，

写真共有サイトでの撮影者数も写真検索結果のメタデータから

抽出可能である．評価値に関しては，飲食店検索サイトの結果

に含まれる評価値や写真共有サイトの写真の閲覧数，お気に入

り数などを用いることが可能である．このように提案モデルは，

簡便に取得できリアルタイムに動作可能になると考えられる．

4. AnabaMiner：写真共有サイトを用いた穴場スポットの動的抽出

4. 1 概要

我々は，写真共有サイトを用いた穴場スポットの動的抽出ア

プリケーション：AnabaMinerを実装した．写真共有サイトの

データとして，このアプリケーションでは flickrを用いる．写

真データは特定のスポットかどうかに関わらず，位置情報のみ

を持つため，スポット抽出を行う必要がある．スポット抽出を

図 2 AnabaMiner のインタフェース

行った以降に関しては，そのスポットに関係する写真データを

用いて，スポットの知名度と評価値を求め，穴場スポット度を

算出することが可能となる．図 2は作成したアプリケーション

のユーザインタフェースである．写真検索のために「夜景」と

いうキーワードを入力して実行した結果である．赤いピンは穴

場スポット度の高いスポットであり，青いピンは被閲覧数の高

い写真があるスポットである．アプリケーションの処理の流れ

を説明する．まず，画面に表示された地図領域内に存在し，か

つ入力キーワードをタグとして持つ写真を N件取得する．本稿

ではリアルタイムに動作させることを考え，N = 1500で構築

した．次に，それらの写真データの位置情報をもとにクラスタ

リングを行い，クラスタをスポットとして抽出する．クラスタ

リングは 4. 2節にて詳細に説明する．各スポットにおいて穴場

スポット度を算出し，上位M件を表示する．本稿では 5.節に

て行う評価実験のためにM = 3で構築した．知名度および評

価値の定義は 4. 3節で説明する．

4. 2 クラスタリング

クラスタリングアルゴリズムに関しては種々のアルゴリズム

を適応可能であるが，本稿では地理情報のクラスタリングでよ

く用いられる DBSCANアルゴリズムを用いる．表示領域に応

じてスポットの粒度が異なると考えられるため，データの分布

に基づいてパラメータを決定する．例えば，花火大会のスポッ

トを抽出する場合，東京都全域で抽出したいスポットは大会の

開催場所であるのに対し，ある花火大会の領域で抽出したいス

ポットは観覧場所というように，領域の広さに応じて粒度は異

なる．

DBSCAN [13] [14] は，クラスタの密度を基準にクラスタリ

ングを行うため，高密度なクラスタのみを抽出することが可能

となる．DBSCANは，クラスタ間の距離の閾値 Epsとクラス

タのデータ数の閾値MinP との 2 つの閾値をもつ．ある点 x

から，距離 Eps内にある点集合を近傍 NEps(x)と定義し，以

下の接続関係を満たすとき，同じクラスタに分類する．

（ 1） y ∈ NEps(x)（ 2） |NEps(x)| >= MinPだたし，NEps(x) = {y ∈ X|D(x, y)

表 1 実験結果：全体

設問 4 設問 5 設問 6

赤いピン 85 78 57

どちらかといえば赤いピン 92 135 64

どちらでもない 544 629 604

どちらかといえば青いピン 151 95 141

青いピン 128 63 134

赤と青の比率 0.39 0.57 0.31

表 2 実験結果：日常的に訪れる場所


赤いピン 6 12 8


どちらでもない 103 114 109


青いピン 18 12 21

赤と青の比率 0.31 0.54 0.30

ンケートに回答した．アプリケーションでは赤いピンが穴場ス

ポット度に基づく結果，青いピンが被閲覧合計による結果であ

るが，被験者には知らされない．被験者は任意の地点，任意の

キーワードで実行することが可能である．

上記の条件で，利用したのち以下のアンケートに回答した．

（ 1）検索した領域を入力してください．だいたいの名称で

結構です．

（ 2）検索した領域には訪問経験がありますか？

（ 3）検索したキーワードを入力してください．

（ 4）行ってみたいと感じられるスポットが多く表示された

のはどちらでしたか？

（ 5）スポットを閲覧することで新たな発見があったのはど

ちらでしたか？

（ 6）有名なスポットが多く含まれたのはどちらでしたか？

（ 7）利用いただいたご意見，ご感想を自由にご記入くださ

い．機能の改善に役立てたいと思います．

設問 2は，日常的に訪れる場所である，旅行等で訪れたことが

ある，訪れたことはないの中から選択する．設問 4，設問 5，設

問 6は，赤いピン，どちらかといえば赤いピン，どちらでもな

い，どちらかといえば青いピン，青いピンの中から選択する．

5. 2 結果と考察

実験の結果を表 1と表 2，表 3，表 4にまとめる．表 1は全

データを集約したものであり，表 2，表 3および表 4は設問 2

の回答別に集約したものである．表中の「赤と青の比率」は，

「赤いピン」「どちらかといえば赤いピン」の選択数と「青いピ

ン」「どちらかといえば青いピン」の選択数の比であり，赤い

ピン側が多いほど 1.0に近く，青いピン側に近いほど 0に近い

値となる．

表 1の設問 5の赤と青の比率より，提案手法では新たな発見

があるスポットを抽出に有効であることがわかる．また，設問

6の有名なスポット抽出として被閲覧合計が有用に働いている

ことから，比較手法が人気のあるスポットの抽出になっている

ことが確認できる．被閲覧合計が人気スポットを抽出している

表 3 実験結果：旅行等で訪れた


赤いピン 50 46 31


どちらでもない 211 244 231


青いピン 61 26 66

赤と青の比率 0.42 0.62 0.32

表 4 実験結果：訪れたことはない


赤いピン 29 20 18


どちらでもない 229 270 263


青いピン 49 25 47

赤と青の比率 0.36 0.52 0.29

ため，設問 4に関しては被閲覧合計の方が選ばれやすくなって

いるものと考えられる．どちらでもないの選択数が非常に多い

が，設問 7の回答では「ピンが表示されない」や「赤と青で同

じ場所にピンがたった」というものが多数あり，Flickr上の写

真数が少ない地域での使用や，検索に該当しにくいキーワード

を用いた検索が行われたためであると考えられる．

表 2，表 3および表 4を比較すると，旅行で訪れたことがあ

る地域での使用に関して設問 4，設問 5の赤と青の比率が上昇

していることがわかる．このことから，提案手法により抽出さ

れたスポットは，一度旅行に訪れた場所でも「行ってみたいと

感じる」「新しい発見のある」スポットを推薦できていると考

えられ，再訪スポットの抽出に関して有効であるといえる．

6. まとめ

本研究では，訪問数とユーザ評価に基づく穴場スポット抽出

手法を提案し，写真共有サイトを用いて穴場スポット抽出アプ

リケーション：AnabaMinerを実装した．その中で，認知度で

ある訪問数を定義し，ユーザ評価である評価値を定義した．こ

のアプリケーションを用いて，クラウドソーシングサイトを通

じ 1000件の実行結果を得て，人気スポット抽出結果との比較

実験を行った．その結果，提案手法がユーザの利用状況に関わ

らず「新しい発見のある」スポットの抽出に有効であることを

確認し，旅行で訪れたことがある場所に関しては「行ってみた

い，かつ新しい発見のある」スポットの抽出に有効であること

を確認した．このことから，穴場スポット抽出の目的である再

訪時に訪れたいスポットの推薦に効果的であると考えられる．

今後の課題としては，飲食店や観光施設などの固定的なス

ポットに対する穴場スポット度の適応とその評価を行うことと，

ユーザの目的に応じて，自動的に「穴場スポット」や「人気ス

ポット」の抽出を切り替える，また抽出スポットのドメインを

切り替える手法を構築する予定である．また，実際の旅行時に

使用する実証実験を行う必要があると考えている．

謝辞

本研究の一部は，平成 27年度科研費若手研究 (B)(課題番号：

15K16091)によるものです．ここに記して謝意を表すものとし

ます．

文献[1] 西脇達也, 北山大輔: 写真共有サイトを用いた穴場スポットの抽

出, 第 7 回データ工学と情報マネジメントに関するフォーラム(DEIM 2015) 論文集, pp. P4–5 (2015).

[2] Crandall, D. J., Backstrom, L., Huttenlocher, D. and Klein-

berg, J.: Mapping the World’s Photos, Proceedings of the

18th International Conference on World Wide Web, WWW

’09, New York, NY, USA, ACM, pp. 761–770 (2009).

[3] 白井元浩, 廣田雅春, 石川博, 横山昌平: ジオタグ付き写真を用いた関心領域と撮影スポットの発見, 電子情報通信学会論文誌 D,Vol. J97-D, No. 4, pp. 835–844 (2014).

[4] Hirota, M., Shirai, M., Ishikawa, H. and Yokoyama, S.:

Detecting Relations of Hotspots Using Geo-tagged Pho-

tographs in Social Media Sites, Proceedings of Work-

shop on Managing and Mining Enriched Geo-Spatial Data,

GeoRich’14, New York, NY, USA, ACM, pp. 7:1–7:6 (2007).

[5] 王佳な, 野田雅文, 高橋友和, 出口大輔, 井手一郎, 村瀬洋: Web上の大量の写真に対する画像分類による観光マップの作成, 情報処理学会論文誌, Vol. 52, No. 12, pp. 3588–3592 (2011).

[6] Oku, K. and Hattori, F.: Mapping Geotagged Tweets to

Tourist Spots Considering Activity Region of Spot, Tourism

Informatics (Matsuo, T., Hashimoto, K. and Iwamoto,

H.(eds.)), Intelligent Systems Reference Library, Vol. 90,

Springer Berlin Heidelberg, pp. 15–30 (2015).

[7] 熊野雅仁, 岩渕聡, 小関基徳, 小野景子, 木村昌弘: 集合知に基づいたポピュラー撮影スポットに関する旬シーズンの可視化, 芸術科学会論文誌, Vol. 13, No. 4, pp. 218–228 (2013).

[8] 徳永陽子, 数原良彦, 佐藤吉秀, 戸田浩之, 鷲崎誠司: 知名度の地理的広がりを考慮した実世界スポットの地域局所性推定, 情報処理学会論文誌, Vol. 55, No. 9, pp. 2203–2215 (2014).

[9] Zhuang, C., Ma, Q., Liang, X. and Yoshikawa, M.: Discov-

ering Obscure Sightseeing Spots by Analysis of Geo-tagged

Social Images, Proceedings of the 2015 IEEE/ACM Inter-

national Conference on Advances in Social Networks Anal-

ysis and Mining 2015 , ASONAM ’15, New York, NY, USA,

ACM, pp. 590–595 (2015).

[10] 奥山幸也, 柳井啓司: 写真撮影の位置軌跡を利用した旅行支援システム, 第 3回データ工学と情報マネジメントに関するフォーラム (DEIM 2011) 論文集, pp. F7–6 (2011).

[11] Arase, Y., Xie, X., Hara, T. and Nishio, S.: Mining Peo-

ple’s Trips from Large Scale Geo-tagged Photos, Proceedings

of the 18th ACM International Conference on Multimedia,

MM ’10, New York, NY, USA, ACM, pp. 133–142 (2010).

[12] Ohshima, H. and Tanaka, K.: High-speed Detection of

Ontological Knowledge and Bi-directional Lexico-Syntactic

Patterns from the Web, Journal of Software, Vol. 5, No. 2

(2010).

[13] 神島敏弘: データマイニング分野のクラスタリング手法 (2) :大規模データへの挑戦と次元の呪いの克服, 人工知能学会誌,Vol. 18, No. 2, pp. 170–176 (2003).

[14] Sander, J., Ester, M., Kriegel, H.-P. and Xu, X.: Density-

Based Clustering in Spatial Databases: The Algorithm

GDBSCAN and Its Applications, Data Min. Knowl. Dis-

cov., Vol. 2, No. 2, pp. 169–194 (1998).

訪問数とユーザ評価に基づく穴場スポット抽出手法の評価 ...deim forum 2016...

Documents