11 月 24 日 インターネット検索の応用

24
11 月 24 月 月月月月月月月月月月月月 月月月月月月月月月月月月月月月 goo Google 月月月月月月月月月月月月月月月 月月月月 月月月月月 月月月月月月月月月月月 月月月月月月月月 Namazu

Upload: ellard

Post on 08-Jan-2016

45 views

Category:

Documents


2 download

DESCRIPTION

11 月 24 日 インターネット検索の応用. ロボット型検索エンジンの使い方 goo Google ロボット型検索エンジンの仕組み スパイダ インデクサ ランキングアルゴリズム 全文検索エンジン  Namazu. ロボット型検索エンジンの使い方. 目的のページの作成者はどんな単語を使うかを想像する 検索エンジンの表示順位を想像する 見つからなかったら同義語で検索する AND OR NOT 検索をする コアラ  AND 動物 コアラ  OR koala コアラ – ネット -ADSL. 一度検索して見つからなかったら. 同義語で検索する - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: 11 月 24 日 インターネット検索の応用

11 月 24 日インターネット検索の応用

ロボット型検索エンジンの使い方 goo Google

ロボット型検索エンジンの仕組み スパイダ インデクサ ランキングアルゴリズム

全文検索エンジン  Namazu

Page 2: 11 月 24 日 インターネット検索の応用

ロボット型検索エンジンの使い方 目的のページの作成者はどんな単語を

使うかを想像する 検索エンジンの表示順位を想像する 見つからなかったら同義語で検索する AND OR NOT 検索をする

コアラ  AND 動物 コアラ  OR koala コアラ –ネット -ADSL

Page 3: 11 月 24 日 インターネット検索の応用

一度検索して見つからなかったら

同義語で検索する シソーラス検索

http://www.gengokk.co.jp/thesaurus/ 用語辞典

http://e-words.jp/  IT 用語辞典 検索されたページを読んで使えそうな専門用

語を見つけ,その専門用語で検索する

Page 4: 11 月 24 日 インターネット検索の応用

goo で検索してみようhttp://www.goo.ne.jp

画像,カテゴリー,タウンページ,ケータイ 検索オプションを使う

いろいろな検索オプションを使う http://search.goo.ne.jp/advanced.jsp

教えて! goo みんなの疑問、みんなで解決!

ブログの検索 キャッシュページを見てみる

Web サーバーが一時的に利用できない場合や頻繁に書き換えを行っている Web ページを見るときに便利

Page 5: 11 月 24 日 インターネット検索の応用

Google で検索してみようhttp://www.google.co.jp

I’m Feeling Lucky を使う 会社のホームページを見る

検索オプションを使う いろいろな検索オプションを使う

関連ページを検索する 検索結果の関連ページリンク

キャッシュページを見てみる Web サーバーが一時的に利用できない場合や頻繁に書

き換えを行っている Web ページを見るときに便利 分野を絞って検索する その他

荷物検索,会社情報検索,株価検索,辞書検索,路線検索

Page 6: 11 月 24 日 インターネット検索の応用

ロボット型検索エンジンの仕組み

1. スパイダ(ロボット)と呼ばれる自動プログラムを使って Web サイトのページをダウンロードする

2. インデクサと呼ばれる自動プログラムでページの可視部分を抽出し,キーワード,タイトル,リンク,などの重要な情報を用いてページ解析する.

3. データベースに Web サイトの解析結果を追加し,ユーザが検索可能な状態にする.ランキングアルゴリズムにより,検索結果の順位が決定される

Page 7: 11 月 24 日 インターネット検索の応用

スパイダ ウェブ上のリンクをたどって情報を収集する

こと ウェブ(蜘蛛の巣)のリンク(糸)をたどっ

て目的の情報(獲物)を捕らえる → スパイダ(蜘蛛)

Page 8: 11 月 24 日 インターネット検索の応用

インデクサ 検索したいコンテンツをあらかじめ検

索しやすい形のファイルに変換するプログラム

各コンテンツを形態素解析技術を用いて単語を分解し,それらの単語をインデックスファイルに記録する

Page 9: 11 月 24 日 インターネット検索の応用

形態素解析 (インデクサ)

形態素 = 意味を担う最小の言語要素 形態素解析

単語の出現形から原形を求める処理(英語など) solving → solve + ing (進行形) easier → easy + er (比較級) problems → problem + s (複数)

単語分割と語の活用(日本語など) 日本的 → 日本 + 的 言語モデル → 言語 + モデル 使い込む → 使う + 込む

Page 10: 11 月 24 日 インターネット検索の応用

形態素解析の手法 (インデクサ)

最長一致法 分割数最小法

例:畜産物価格安定法 畜産物|価格|安定|法

Page 11: 11 月 24 日 インターネット検索の応用

最長一致法 (インデクサ)

文字列の先頭から解析を始め,後続する可能性がある単語が複数あるときは,最長の単語を選択して先に進む

○   (8)  畜産物|価格|安定|法 ×   (4)  畜産   価   安

Page 12: 11 月 24 日 インターネット検索の応用

分割数最小法 (インデクサ)

入力文字列を構成する単語の総数が最小になる解釈を優先する方法

例:言語学入門講座 ○   (3)  言語学|入門|講座 ×   (4)  言語|学|入門|講座 ×   (4)  言語学|入|門|講座

Page 13: 11 月 24 日 インターネット検索の応用

ランキングアルゴリズムGoogle の中身(ちょっとだけ)

Google の検索結果の順位付け 如何にすれば自分の作ったページを高順位に表

示させられるか. Google は何を基準に検索結果を順位付けしてい

るのか PageRank とその他のランキングアルゴリズ

Page 14: 11 月 24 日 インターネット検索の応用

キーワード(検索語)の埋め込み方( Google に好かれるには)

キーワード : w が入力された時,検索結果の上位に表示されるためには キーワード w を 

Webページのタイトル内に使う イメージファイル名, ALT属性, title属性に使う 大きな字で表示する トップページからのリンクで使用する 別のサイトや内部サイトへのリンクテキストで使用する メジャーなサイトへのリンクで使用する などなど

Page 15: 11 月 24 日 インターネット検索の応用

キーワード(検索語)の埋め込み方( Google に好かれるには) 続き

last modified (最終更新日)ヘッダを使う HTML の構文誤りのない Web ページを作る 1 つのファイルのサイズを大きくしない( 20k

バイト以下) HTML ファイル中のテキストの比率を高くする などなど

Page 16: 11 月 24 日 インターネット検索の応用

PageRank 学術論文の重要度

他の研究論文から何度引用されているかによって評価できる

Web ページの重要度 他の Web ページからのハイパーリンクの数で評

価できる

Page 17: 11 月 24 日 インターネット検索の応用

PageRank の式

85.0)10(:

1:)1(

PageRank1:)1(

PageRank:)(

))(

)(

)1(

)1(()1()(

通常 制動係数ンクの数から外に向けられるリページ

のページのページ

dd

TTC

TTPR

AAPR

TnC

TnPR

TC

TPRddAPR

Web ページ A の PageRank は Web ページ A にリンクしている各ページの PageRank を,それぞれのページからの外向きリンク数で割った値の総和

Page 18: 11 月 24 日 インターネット検索の応用

PageRank の図 1

A

B

ページ Bの方がページ Aよりも重要なページ

ハイパーリンク

ハイパーリンク

Page 19: 11 月 24 日 インターネット検索の応用

PageRank の図 2  

AB

ページ Bの方がページ Aよりも重要なページ

ハイパーリンク

ハイパーリンク

たくさんの外部リンクを持つページ

Page 20: 11 月 24 日 インターネット検索の応用

個人で手軽に使える検索システムNamazu

URL: http://www.namazu.org 自分の管理している Web サイト内の検

索 例: http://ir.cs.yamanashi.ac.jp/~ysuz

uki

Page 21: 11 月 24 日 インターネット検索の応用

最後にインターネット検索での注意

Web に書いてあることを鵜呑みにしない 検索結果をいくつか読んでみる できれば他のメディアでも確認する

いろいろな検索サイトで検索を試してみる 検索サイトの「使い方」のページをよく読む

検索方法が頻繁に改良されているので,たまには読み直す

Page 22: 11 月 24 日 インターネット検索の応用

授業資料http://ir.cs.yamanashi.ac.jp/~ysuzuki/man-machine.html

参考にした文献 インターネット 最強の検索術 関裕司著 リブロス刊 検索の鉄人 / 関裕司

http://www.shikencho.com/ GOOGLE HACKS オライリー・ジャパン SPIDERING HACKS オライリー・ジャパン

Page 23: 11 月 24 日 インターネット検索の応用

レポート ロボット型の検索エンジン( Google,goo など)を

使って検索してください. 検索して調べたいことを明確に書く 利用したキーワード,検索オプションを書く 目的のページの URL とその表示順位を書く

授業の前と後でインターネット検索についての考え方に変化はありましたか.あればどのように変化したか書いてください.なければ検索の方法について書いてください.

授業の感想を書いてください(悪く書いても減点はしません)

Page 24: 11 月 24 日 インターネット検索の応用

レポート(提出期限,提出方法)

提出期限  12 月 01 日 17:00 提出方法

Email [email protected] 宛て Subject は人間とコンピュータ レポート

レポート用紙 A3 号館 5 階 K514 号室の前のレポート入れ