google のページランク

23
1 Google ののののののの • のののののののののの ののののののののののの のののの ののののの ののののの (、) のののののののののの 0 1 1 1 1 0 0 0 0 1 0 0 0 0 1 0 G C S W G C S W ののののののの W, S, C, G ののの ののののののののののの ののののの のののの のの ののののの のののの のの j i j i 1 ij a W のの S のの C のの G ののの WEB のののののののののの

Upload: gordon

Post on 06-Jan-2016

22 views

Category:

Documents


2 download

DESCRIPTION

S 学部. C 学科. W 大学. G 研究室. WEB ページのリンクの関係. Google のページランク. 基本的な仕組は数学的 グラフの行列による表現 隣接行列(推移行列、遷移行列) 固有値と固有ベクトル. 行列の上と左の W, S, C, G は注釈 であり行列に含まれない. S 学部. C 学科. W 大学. G 研究室. WEB ページのリンクの関係. 隣接行列を転置する. 隣接行列       を 転置 する リンクを「出す」側から「受ける」側へ. 1. 1. 1. 1/3. 1/3. S 学部. C 学科. 1/3. W 大学. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Google のページランク

1

Google のページランク• 基本的な仕組は数学的

グラフの行列による表現 隣接行列(推移行列、遷移行列)固有値と固有ベクトル

0111

1000

0100

0010

G

C

S

WGCSW

行列の上と左の W, S, C, G は注釈であり行列に含まれない

に辺がないから頂点頂点0に辺があるから頂点頂点ji

ji1ija

W 大学

S 学部 C 学科

G 研究室

WEB ページのリンクの関係

Page 2: Google のページランク

2

隣接行列を転置する• 隣接行列       を転置する

リンクを「出す」側から「受ける」側へ)( ijaA

0100

1010

1001

1000

tAW 大学

S 学部 C 学科

G 研究室

WEB ページのリンクの関係

Page 3: Google のページランク

3

隣接行列から推移確率行列へ• 列 (column) の総和が1または0になるように調整

ページの評価値をリンク先に渡す

01003

10103

10013

1000

M

W 大学

S 学部 C 学科

G 研究室

WEB ページのリンクの関係

11

1/31/3

1/3

Page 4: Google のページランク

4

推移確率行列の固有値と固有ベクトル

• 固有値 λ と固有ベクトルr

• 行列 M を掛ける(乗算)ということは、グラフの辺に沿って(確率的に)推移するということである

• 固有ベクトルの各要素は M を掛けても定数倍しか変化しない。(安定している)固有ベクトルの各要素がランクになる(ただし要素の和が1となるように正規化する)

rrM

Page 5: Google のページランク

5

固有ベクトルの具体例• GNU   Octave を使って計算する。固有値 λ =1が最大

の固有値であり、固有ベクトルは下の左のようになる。

62554.0

62554.0

41703.0

20851.0

33333.0

33333.0

22222.0

11111.0

• これを正規化したページランクは上の右である。

1/9 W 大学

S 学部 C 学科

G 研究室

11

1/31/3

1/3

1/3

1/3

2/9

ページランクを記入した図

Page 6: Google のページランク

6

Google における工夫• サイズの大きな

疎 (sparse) 行列の固有ベクトルの計算

• ユーザがランダムにページを渡り歩くと仮定

41

41

41

41

41

41

41

41

41

41

41

41

41

41

41

41

14NN

W 大学

S 学部 C 学科

G 研究室

Page 7: Google のページランク

7

Google におけるページランク• 次の行列の固有ベクトルを求めて、要素の和が

1になるように正規化する。

31409.0

32540.0

23401.0

12649.0

W 大学

S 学部 C 学科

G 研究室

0375.08875.00375.00375.0

320833.00375.08875.00375.0

320833.00375.00375.08875.0

320833.00375.00375.00375.0

4115.085.0

4NM

Page 8: Google のページランク

8

より深く調べるために• 本資料の例題は簡単にするために4つのサイトに閉

じていた。現実の PageRank は早稲田大学( 8/10 )、理工学部( 6/10 )、 CS 学科( 5/10 )、後藤研( 4/10 )。

• 次の資料が参考になるhttp://www.kusastro.kyoto-u.ac.jp/~baba/wais/pagerank.html本資料は上記を参考にした。ただし Octave のスクリプトは若干改良した。

• Google の創始者による論文も入手できる。Lawrence Page, Sergey Brin, Rajeev Motwani, Terry Winograd, 'The PageRank Citation Ranking: Bringing Order to the Web', 1998,http://www-db.stanford.edu/~backrub/pageranksub.ps Taher H. Haveliwala, 'Efficient Computation of PageRank', Stanford Technical Report, 1999,http://dbpubs.stanford.edu:8090/pub/1999-31

Page 9: Google のページランク

9

特集:情報数学の演習問題• 200 6年度の定期試験問題の解答を解説します。

200 7年度の諸君の勉強の参考にして下さい。• 次の事実に注意してください。

2004 年度の金曜日(前半)の担当は上田和紀教授、2005 年度から担当を交代して後藤滋樹です。

• 本日の授業では3題を解説します。残り2題は来週以降の授業の範囲です。順次解説する予定。

Page 10: Google のページランク

10

問1.集合 X = { 1, 2, 3, 4, 5 }, 集合 Y={ 3, 5, 7 } とするとき、次の (1-1) ~ (1-6) の集合を外延的に表現せよ。

• ヒント: 記号の意味を覚えておく必要がある

)(2)61(

)51(

)41(

)31(

)21(

)11(

Y

YX

YX

YX

YX

YX

Y

Page 11: Google のページランク

11

問1.解答

• ヒント: 各集合の要素の数を考えてみる

7,5,3,7,5,7,3,5,3,7,5,3,

)(2)61(

4,2,1)51(

7,1,5,1,3,1,5,0,4,0,3,0,2,0,1,0)41(

7,5,5,5,3,5

,7,4,5,4,3,4,7,3,5,3,3,3

,7,2,5,2,3,2,7,1,5,1,3,1

)31(

5,3)21(

}7,5,4,3,2,1)11(

B

BA

BA

BA

YX

YX

B

Page 12: Google のページランク

12

問2.自然数の集合 N は無限集合である。(2—1) N 2= N×N に属する要素(元)を3つ以上具体的に記述せよ。(2—2) N 2 が可算無限集合 (enumerable set, countable set) であることを示すには、次の関数 f (x,y) を使えば良い。f (x,y)={(x+y)2+3x+y}÷2具体的に、この関数をどのように使うのか説明せよ。• ヒント:  N 2 という表記法を誤解しないように

Page 13: Google のページランク

13

(2—1) 解答 (次は解答の一例である。正解は、これに限らない。)

<0,0>, <0,1>, <1,0>.

(2—2) 解答関数 f(x,y) は N から N2 への全単射である。よって N と N2 とは対等で同じ濃度を持つ。集合 N が可算無限集合であるから、集合 N2

も可算無限集合である。

Page 14: Google のページランク

14

問3.次の (3—1) ~ (3—4) で定義する各々の二項関係は、( a )反対称律、( r )反射律、( s )対称律、( t )推移律のどれを満たすか? (3—1) ~ (3—4) の各々について、満たす性質すべてを記号( a, r, s, t )で答えよ。

(3—1) A は 2 次元平面上のすべての直線の集合で、関係 R は「直線 x と直線 y が平行である」と定義される。

Page 15: Google のページランク

15

(3—2) A は自然数の集合で、関係 R は「自然数 x は自然数 y よりも小さい、または x

と y は等しい」と定義される。

(3—3) A は 2 次元平面上のすべての点の集合で、関係 R は「点 x は点 y よりも原点より遠くない」と定義される。

(3—4) 有限集合 A={0, 1, 2, 3, 4} の上で R は

   R={<0,0>,<1,1,>,<2,2>,<3,3>,<4,4>} というグラフで定義される。

Page 16: Google のページランク

16

問 3 .解答

  (3—1) r, s, t

(3—2) a, r, t

(3—3) r, t

(3—4) a, r, s, t

Page 17: Google のページランク

17

補足(3—4) 有限集合 A={0, 1, 2, 3, 4} の上で R は

  R={<0,0>,<1,1,>,<2,2>,<3,3>,<4,4>} というグラフで定義される。

R が推移律を満たすかどうかを検討するxRy ∧ yRz が成立つ <x,z> は必ず x=z となる。つまり xRz を満たす。

注意1) xRy は x=y と書ける。

注意2) xRy ∧ yRz が成立たない <x,y>,<y,z> については、 x と z の間に何の関係がなくても良い

Page 18: Google のページランク

18

レポートの提出方法 (200 7年度 後藤担当)

• レポート用紙を下記の URL からプリントするhttp://www.goto.info.waseda.ac.jp/~goto/infomath.html

1班 ( 奇数班 ), と2班 ( 偶数班 ) で用紙が異なる• 提出場所は、 60 号館 2 階の

CS 学科事務所の中のレポート BOX

• 締切厳守のこと提出期間は、 200 7年6月11日 ( 月 ) ~15日 ( 金 )の間

Page 19: Google のページランク

19

CS連絡事務室開室時間

• 月曜日から金曜日の 9 : 00 ~ 17 :15

• 12 : 30 ~ 13 : 30 は昼休みのため閉室

• 土曜は休日

Page 20: Google のページランク

20

問1 集合と非順序対• 集合 A={u, v, w}, 集合 B={1, 2, 3} とする

とき、次のように内包的に定義される集合 C を考える。

すなわち、 C の要素は集合 {{a},{a,b}} である。

• この集合 C の要素をすべて示せ。ただし集合として同じものを重複して掲げないこと。また集合 C の要素の数を答えよ。

}{ ,|}},{},{{ BbAabaa

Page 21: Google のページランク

21

(2—1) 有限集合 B={t, f} を考える。 B3 という集合を直積と考えて、 B3 の要素を列挙せよ。

(2—2) 3 を自然数の集合 {0, 1, 2} と考えると、 B3 は集合 3 から集合 B への関数の全体となる。このように考えた場合には、 B3 の各要素は個々の関数となる。 B3

の各要素を関数のグラフとして表現せよ。

  

ヒント: 要素を列挙するため、解答が相当の分量になるのではないか、と懸念するかもしれない。実際には要素の数は多くない。

問2 関数とグラフ

Page 22: Google のページランク

22

問3 集合の濃度(可算集合)• 自然数の集合 N={0,1,2,…} の直積 N2=N×N

から N への関数 f(x,y)={(x+y)2+3x+y}÷2 を

考える。

(3-1) f(0,0), f(0,1), f(1,0) ,f(0,2), f(1,1), f(2,0)

の値を具体的に計算せよ。

(3-2) f(x,y) が全単射であることを、全単射

の定義に照らして丁寧に説明せよ。

Page 23: Google のページランク

23

問4 二項関係集合 A は、2次元平面上の点の集合である。

(4—1)A の上の関係 R が次のように定義されているとき、この関係 R が反射率を満たすか否かを解答せよ。

(4—2) 関係 R が推移律を満たすか否かを解答せよ。(4—3) A の上の関係 D が次のように定義されてい

るとき、この関係 D が同値関係であるか否かを解答せよ。

2222,, vuyxvuRyx

2222,, vuyxvuDyx