45分で理解する webクローリング入門斉藤之雄

オフィスサイトウ斉藤之雄

www.fxfrog.com

Twitter @yukio_saitoh

不許複製 2012/07/02

WEBクローリング入門

４５分で理解する

1

インデックス

• Web基本技術（リソース識別子、プロトコル）

• リソース識別子の種類：URI, URL, URN

• Webサーバと通信（実習：コマンドプロンプト使用）

• HTMLドキュメントと Cookie

• 検索エンジンの一般構造と利用動向

• 検索エンジンの対象（パブリック、プライベート）

• 自動巡回、スパイダー（クローラ）、スクレーピングの制御

• クローラ情報の格納（リンク、ドキュメント）

• プライベート検索エンジンの高精度化アプローチ（重み付け）

• ※SEO 一般解釈と誤解釈

• まとめ

• 参考文献一覧

※SEO / Search Engine Optimization 検索エンジン最適化

2

WEB基本技術

（リソース識別子、プロトコル）

• World Wide Web はリソース、リソース識別子（転送）、プロトコルで構成される

リソース：コンテンツなどの情報資源例：HTMLドキュメント、JPEG画像、WMV動画、XML構成ファイル等リソース識別子：特定のリソースにアクセスする構文で指示する次のスライドで解説するプロトコル：Webユーザーエージェント（Webブラウザ) と Webサーバが通信するための基本的仕様例： HTTP (Hyper Text Transfer Protocol), FTP (File Transfer Protocol) 等

リソース識別子 cf.) RFC.1630, 2396 3

リソース識別子の種類：URI, URL, URN

• リソース識別子の種類：URI, URL, URN URI (Uniform Resource Identifier)：アイデンティティを持つものへ参照先アンカーとして定義。URI には、２つの識別子 URL, URN が含まれ、7ビット ASCII エンコード文字列としている URL (Uniform Resource Locator)：参照先を定義例：http://www.fxfrog.com/ http://www.fxfrog.com/index.php （コロンの前はプロトコル名、ダブルスラッシュ・ブロックはホストおよびドメイン名で定義され最初のスラッシュは絶対パス名、リソースは index.php である） URN (Uniform Resource Name)：参照先に対する一意の名前例：FX FROG | オフィスサイトウ公式ブログ

メモ：HTTPサーバのことを Webサーバとも言う 4

WEBサーバと通信

（実習：コマンドプロンプト使用）

• HTTP は要求応答型の通信手順なのでコマンドプロンプトからWEBサーバと通信を行う（Proxy / Cache サーバを使用しなければならない環境を除く）

> telnet www.yahoo.co.jp 80 ・・・ www.yahoo.co.jp へ TCP#80 で接続要求

GET http://www.yahoo.co.jp/ HTTP/1.1 ・・・ HTTP/1.1 でGET メソッド使用

Host: www.yahoo.co.jp ・・・ユーザーエージェントからの通信要求終わり 5

HTMLドキュメントと COOKIE

• 実習で入手した HTML ドキュメントは多数の URI が記述されていることに気付く

• Webブラウザから参照すれば再訪かどうかのチェックがWebサーバ側で行われ、再訪導線を提示することがある。しかし、HTML ドキュメントそのものには再訪を示す情報は見えないようになっている

• Webサーバが瞬時にアクセスログを集計し、アクセス元 IP アドレス単位で再訪かどうかを識別していた場合、 NAT（※）等で複数端末が１つの IP アドレスを共有している環境では新規来訪と再訪の区別が出来ないだけでなく、何らかの属性情報を持つ端末からのアクセスであることを識別できない

• 商用 Webサーバで広範囲に Webブラウザへ対して Cookie （クッキー）を使用することで、膨大なアクセスログを瞬時に分析しなくても信頼のできる独自識別子に置き換えて新規来訪、再訪の区別を容易にし、さらにはユーザ識別することでページリクエストの質向上に役立てている

• 本書ではクッキー取得とクッキー代理返答を伴わないクローリングの基礎までに留めたい

※ NAT Network Address Translation / ネットワークアドレス変換 6

検索エンジンの一般構造と利用動向

• 検索エンジンは一般化し且つ商用利用も実用化しており、自動クローリングによってリソース（コンテンツなどの情報資源）を自動ダウンロードし、内部に蓄積され、検索アルゴリズムによって索引付けが行われる

• 自動クローリングする際に、情報検索および機械学習によってクローラ制御が行われ、索引付けにはスコアリング（または重み付け）手法が一般的である

• 検索エンジンとして身近なデータベースでも、ドキュメント集合の索引化

（インデックス化）、カテゴリ化、分類化、階層化といった構造化データを持たせることで、検索文字列に対する柔軟な逆引き索引を実現している

• 検索エンジン利用者は検索フォームへ、検索したい文言文字列や相関しそうな文言を入力することで、その結果を得ている。しかし前述した自動クローリングによっては、まだ収集される以前や陳腐化したものであったり、不正確な記述によるリソースがもたらす混乱を受けることが有り得る

メモ：検索エンジンには検索コマンドが提供されている。これは検索対象をフィルタリングして高精度な検索結果を試みる手法である 7

検索エンジンの対象

（パブリック、プライベート）

• 検索エンジンは Yahoo!, Google, Bing!, Baidu といったインターネットパブリック用と Namazu, Fast (Search Server by Microsoft) 等のプライベート用がある

• パブリック用ではインターネットからの来訪流入を期待するために、検索エンジンのクローラが解釈しやすい記述を行うのが一般的であり、これを広く SEO 基礎として採用している組織が多い

• プライベート用ではイントラネットに分散する各種リソース（個人、部内、社内、関係先）の管理が煩雑となりやすいため、社内文章検索エンジンとして導入する企業は珍しいものではなくなった。そのため、検索対象は何でどこまでの範囲（対象とスコープ）とするか留意する

→ 機密文章（パスワードリストや個人情報、経営情報）は対象外など

• 対外顧客向け FAQ やコーポレイトサイトでも、検索フォームを設置し来訪者へ対する誘導を強化付けつつ、その検索文言を分析することでどんな

コンテンツを必要とされているのか、どこで離脱するかといったWeb施策

に役立てることも常識となりつつある

メモ：CRMツールだけに依存するのではなく、Webであればサイト内検索文言とコンテンツマッチ精度の向上、直帰ページをなくすことも、顧客満足度が向上する一因である

8

自動巡回、スパイダー（クローラ）、

スクレーピングの制御

• 検索エンジンの設計方法は多様化しているが、もっとも多数の利用者を対象とした標準的なWebアクセス結果や特定のドキュメントに特化したクローラが好ましい

• 検索エンジンの性能については、世の中に存在する Webページのすべてを対象とした被覆率（Coverage), 最新率（Recency）を重要指標として示す海外文献（※）があったが、複数の既存検索エンジンに対して同時に問い合わせた結果を統合的にWeb, 画像, 動画, ニュース検索結果を応答するために合理的なクローラ制御が行われている

• 一般的な作法としてWebサイトの絶対パス上に robots.txt でクローラ条件を明示的に示された以外の取得は行わないようになっている。またHTMLドキュメント内METAタグでもキャッシュしないように記述も行えるが、残念ながら下品なクローラはそれらの要請を無視してリソース取得する

• Webクローリングを行う際は研究目的であっても許可されていないリソース取得は行わないことが求められる

※Searching the World Wide Web / Steve Lawrence, C. Lee Giles著 - 10 February 1998

http://www.sciencemag.org/content/280/5360/98.abstract 9

クローラ情報の格納

（リンク、ドキュメント）

• クローラは何らかのアルゴリズムに基いて動作するエージェントプログラムであると考え、本スライド P.7 で触れた「機械学習」による予測を伴う無駄な情報収集するのを極小化するため、「強化学習」として得られる報酬の期待値を長期間に最大とする学習ポリシを保有するものが多い。 → 対象とするリソースが多ければ多いほど学習効果は高くなり、情報精度も高くなる。対象がドキュメントであればその傾向は高い（SEO 施策を意識したサイトリニューアルを図る際は特に留意したい）そのため、アンカーリンクとバックリンクに伴う URN が関連性を有するか、利用者の自然言語による逆引き検索文言をシソーラスもまたポリシに取り込み、抽出項目を決定し学習ポリシのもと収集する

• クローラからの情報をデータベースへ格納する際に、構造化データ、ドキュメント以外非構造化データに分類したうえで登録する。最近はデータベースではなくストレージテーブルへ直接書き込む手法も見出されており、膨大なデータから高速に逆引き検索要求が高まっているといえる

10

プライベート検索エンジンの高精度化

アプローチ（重み付け）

• プライベート検索エンジンについては、本スライド P.8 で軽く紹介したが

実際の運用では、タイトルを本文より高い重み（優先度）を持たせたい

要望があるだろう。それに対応するのが重み付け登録である

• 一般的な検索エンジンの初期アプローチでは、本文内で使用される文言の頻出度（出現数）を全体平均的と比較して表示順位とすることがある。

２回目以降の検索では実際にクリックされた回数をも表示順位要因とする

ことがあるが、重み付けによってプライベートサイトでは【新商品に関する情報リソース】,【総務手続き文書】を常に最上位表示できる

• 検索で見つけやすい効果的な表示をプライベートで実現する方法であるが、パブリックサイトでは SEO や SEM (※) 努力が求められる

※SEM Search Engine Marketing / 検索サイトへ有償マーケティングにより自社サイトへの導線を行うマーケティング手法またはその行為

11

※SEO 一般解釈と誤解釈

以下内容は SEO 都市伝説？

• バックリンク（外部からのアンカーリンク）が多いほど検索サイトから最上位表示へ好結果をもたらす

• コンテンツが多いほど検索サイトへ多数登録され、インデックスが多数生成される

• ページランクが高いソーシャルメディアにページを設けたり、いわゆる公式サイトへ多数メディア露出することで検索サイトに有利である

• HTML-Lint 等の文法チェックで好成績でなければならない

• クローラを多数呼び寄せるために、Webサイトの広帯域環境が必要である

• HTML のみならず XML でも記述したサイトマップ設置が必須である

• IIS より Apache はメジャークローラとの通信には最適である

• 独自クローラで集めたコンテンツからアフィリエイトサイトを作り、さらにSEO強化を図ることでマネタイズモデルが実現する

他にも SEO 都市伝説はあります。ページランクを絶対指標とする

コストだけ発生する危険なバックリンク業者も存在します 12

まとめ

• Web クローラは何故存在するのか

• 検索エンジンの一般構造

• パブリック（インターネット）、プライベート検索サイトの違い

今回言及しなかった内容に、クローラ頻度・速度（帯域課題）、Cookie あるいは基本認証を伴うクローリング技術とその利用例がある。これらは 45分で理解するには困難が伴うため割愛した

13

参考文献一覧

：コメント入り

• 確立モデルによる Webデータ解析法

Pierre Baldi/Paolo Frasconi/Padhraic Smyth (著),

水田正弘/南弘征/小宮由里子 (翻訳)著 ¥6,000

：ゼミ生、大学院生、実務者向けの教科書、良書である

• Java ネットワークプログラミング基礎からわかる完全入門

永嶋浩著 ¥2,580

：クローラの作成方法は掲載されていないが一部参考にした

メモ：上記いずれも公立産業技術大学院大学図書館蔵書 14

45分で理解する webクローリング入門 斉藤之雄

Education

45分で理解する webクローリング入門斉藤之雄