スライド 1 - 北海道大学machino/game2019mixed... · 2019-04-12 · 3, 2. 1, 1: 野球. 0,...

ゲーム理論戦略形ゲーム

（２）北海道大学

経済学研究院/公共政策大学院

町野和夫

2019年4月12日

前回の修正：

支配される戦略がある場合、支配される戦略を順次削除していくことでナッシュ均衡を求められることもある。

囚人のジレンマの例では、まず囚人Aの協力という戦略は裏切という戦略に支配されるので、削除する。残った戦略の組合せでは、囚人Bの協力という戦略が裏切りという戦略に支配されるので削除する。最後に残る戦略の組合せ（戦略プロファイル）は、（裏切，裏切）で、これはナッシュ均衡であり支配戦略均衡である。

（囚人のジレンマでは各プレーヤに支配戦略があるが、そうでない場合は支配戦略均衡ではなく単なるナッシュ均衡。） 2019/4/12 2

プレーヤ１の戦略「下」は「上」に支配される。

プレーヤ２の戦略「左」は「中」に支配される。

プレーヤ１の戦略「中」は「上」に支配される。

プレーヤ２の戦略「右」は「中」に支配される。

最後に残った戦略の組合せ（上，中）がナッシュ均衡。

2019/4/12

プレーヤ2 プレーヤ1 左中右

上 2, 3 1, 5 4, 2中 3, 1 0, 3 1, 4下 1, 4 0, 2 3, 3

3

2019/4/12

ナッシュ均衡

（補足説明）支配される戦略の逐次削除の結果

前頁の例

4

（囚人のジレンマでは支配戦略均衡でもある）

練習問題１の例

一般的にはナッシュ均衡まで絞りきれないが、ナッシュ均衡が存在すれば含まれる。支配戦略均衡は全てのプレーヤに支配戦略があるナッシュ均衡。（いずれも純粋戦略を前提とした話）

ナッシュ均衡まで絞りきれない

（全ての戦略プロファイル）

I. ゲーム理論の基礎ⅰ) ゲーム理論とは何か ii)非協力ゲームの基礎（戦略ゲーム，ナッシュ均衡，ダイナミックなゲームなど） iii) 繰り返しゲーム

II. ゲーム理論の応用ⅰ）情報不完備ゲームと情報の経済学（逆選択，モラル・ハザードなど） ii）交渉ゲーム iii）協力ゲーム*

III. 新しい分野進化ゲーム，ゲーム実験など

2019/4/12 55

I. ゲーム理論の基礎ii)非協力ゲームの基礎

1. 戦略形ゲーム前回の練習問題の解説（講義のみ、中間試験前にも再度解説）

(5) 混合戦略(6) 混合戦略のナッシュ均衡(7) ゼロサムゲーム

2019/4/1266

a.囚人のジレンマ：支配戦略均衡

b.協調ゲーム：複数均衡

c.男女の争い：複数均衡（好みの差）

d.チキン・ゲーム,鷹-鳩ゲーム,電話ゲーム：複数均衡（利害対立）

e.ゼロ・サム・ゲーム：（純粋戦略の）均衡無しの場合も

戦略が連続の例：クールノー=ナッシュ均衡（産業組織論の有名な例）

2019/4/12 7

プレーヤの行動を完全に記述する選択肢のリストがあるとき，リストのそれぞれの行動を純（粋）戦略と呼ぶ。

戦略形ゲームで，あるプレーヤiがｋ個の純粋戦略を持っているとき，そのプレーヤの混合戦略σiとはそのｋ個の純粋戦略に対する確率分布(p1,..., pk)である。 (Σjpj = 1)

2019/4/12 8

• 一つのpj以外が全て0であれば，σiは純粋戦略である。

• 戦略が厳密に混合されている：純粋戦略ではないこと。

• 戦略が完全に混合されている：全ての純粋戦略が使われていること。（pj > 0 ∀j)

2019/4/12 9

花子太郎映画 [q] 野球 [1 - q]

映画 [p] 3 , 2 1, 1野球[1 - p] 0, 0 2, 3

2019/4/12

太郎の期待利得：p {3q + (1 - q)} + (1 - p){0∙q + 2(1 - q)}

花子の期待利得：q {2p + 0∙(1 - p)} + (1 - q){p + 3(1 - p)}

10

定義：お互いに，相手が戦略を変えない限り，自分も戦略を変えるインセンティブが無いような戦略の組合せσ*= (σi

*, σ-i*) . すなわち，以下の条件を満た

すσ*.πi(σi

*, σ-i*) ≥ πi(σi, σ-i

*) ∀ σi ∀i

注：純粋戦略も混合戦略の一形態2019/4/12 11

もしn人ゲームのそれぞれのプレーヤが有限個の純粋戦略を持っていたら，少なくとも一つの混合戦略ナッシュ均衡が存在する。

*証明は上級の教科書参照。均衡の求め方は次頁以降。

2019/4/12 12

混合戦略σがナッシュ均衡であるのは以下の条件がどのプレーヤi = 1, …, nについても，満たされるときのみ。

a. 純粋戦略s, s’ ∈ Siがσiで使われ（=確率が０でなく），他のプレーヤの戦略が不変なら，sとs’の利得は等しい。

b. sがσiで使われs’が使われない場合，他のプレーヤの戦略が不変なら，sの利得はs’の利得より大きい。

2019/4/12 13

花子太郎映画野球

映画 3, 2 1, 1野球 0, 0 2, 3

2019/4/12

太郎が映画に行く確率をp, 花子が映画に行く確率をq とすると，太郎が映画にときの期待利得は， 3q + (1 - q) ，太郎が野球に行くときの期待利得は， 0 + 2(1 - q) .花子の戦略ごとの期待利得も同様に求められる。

14

基本定理のa. より，

3q + (1 - q) = 0∙q + 2(1 - q) 2p + 0∙(1 - p) = p + 3(1 - p)整理すると

4q = 1 → q = 1/4, 4p = 3 → p = 3/4ナッシュ均衡：（プレーヤAの戦略,プレーヤーBの戦略）

＝((3/4, 1/4), (1/4, 3/4))

2019/4/12 15

基本定理のb. より

3q + (1 - q) > 0∙q + 2(1 - q)のとき（ q > ¼ ）, p = 12p + 0 x (1 - p) > p + 3(1 - p)のとき（ p > ¾ ）, q = 1

p = 1 > ¾, q = 1 > ¼なので，p = 1 とq = 1 は均衡，即ち，

((p, 1 - p), (q, 1 - q)) = ((1, 0), (1, 0))はナッシュ均衡。

2019/4/12 16

同様に q < ¼のとき, p = 0,p < ¾のとき, q = 0.

p = 0 < ¾, q = 0 < ¼なので，p = 0 とq = 0 は均衡，即ち

((p, 1-p), (q, 1-q)) = ((0, 1), (0, 1))もナッシュ均衡。

2019/4/12 17

図による解法（解説）Step 1: 太郎が映画に行くときの期待利得, 3q + (1 - q) ,と野球に行く時の期待利得, 2 – q, を比較する。

Step 2: q > ¼ なら，映画に行くときの期待利得の方が大きいので，必ず映画に行く。即ち映画に行く確率p = 1.

q < ¼ なら，野球に行くときの期待利得の方が大きいので，必ず野球に行く。即ち野球に行く確率1 - p = 1. （映画に行く確率p = 0）.

2019/4/12 18

Step 3: q = ¼ であれば，映画に行くときの期待利得と野球に行く時の期待利得は等しい。即ちどちらをどの比率で使っても期待利得は同じ。

例：等しい期待利得をaとすると，

0.1a + 0.9a = 0.5a + 0.5a = ・・・

= pa + (1 – p)a = aただし，pは確率で 0 ≤ p ≤ 1.

2019/4/12 19

STEP 4

2019/4/12

q

p1

10 ¼

q < ¼ ⇒ p = 0q > ¼ ⇒ p = 1

q = ¼ ⇒ 0 ≤ p ≤ 1

太郎の最適反応

20

STEP 5:

2019/4/12

q

p1

10

¾ p < ¾ ⇒ q = 0p > ¾ ⇒ q = 1

p = ¾ ⇒ 0 ≤ q ≤ 1

花子の最適反応

21

STEP 6:

2019/4/12

q

p1

10

¾

¼

q < ¼ ⇒ p = 0p < ¾ ⇒ q = 0

q > ¼ ⇒ p = 1p > ¾ ⇒ q = 1

q = ¼ ⇒ 0 ≤ p ≤ 1p = ¾ ⇒ 0 ≤ q ≤ 1

太郎の最適反応

花子の最適反応

ナッシュ均衡

22

習トランプ [q]かける [1- q]待つ

[p]かける 0, 0 2, 3[1- p]待つ 3, 2 1, 1

2019/4/12

トランプがかける場合の期待利得：0∙q + 2(1 – q) = 2 – 2q

トランプが待つ場合の期待利得：3q + (1 – q) = 1 + 2q

23

トランプの両戦略の期待利得が等しいのは，2 – 2q = 1 + 2q, 即ち， q = ¼ のとき。

q > ¼ なら待つときの期待利得が大きく，

q < ¼ なら掛けるときの期待利得が大きい。

対称なゲームなので，習も同様で，

p > ¼ なら待つときの期待利得が大きく，p< ¼ なら掛けるときの期待利得が大きい。

2019/4/12 24

2019/4/12

q

p

1

10

¼

¼ ((p*, 1-p*), (q*, 1-q*))

= ((1, 0), (0, 1)), ((0, 1), (1, 0)), ((¼, ¾) , (¼, ¾))

習の最適反応

トランプの最適反応

右図から明らかなように，このゲームには二つの純粋戦略ナッシュ均衡と一つの混合戦略ナッシュ均衡が存在する。

25

ドライバーBドライバーA 避ける避けない

避ける 2, 2 1, 4避けない 4, 1 0, 0

2019/4/12 26

次のようなA, B二人のゲーム（マッチング・ペニー）を考える。二人で同時にコインを投げ，両方とも同じ面が出ればBがAに10円払い，それぞれ違う面が出ればAがBに10円払う。このゲームのナッシュ均衡を求めなさい。

2019/4/12 27

プレーヤ2 プレーヤ1

石紙はさみ

石 0, 0 -1, 1 1, -1紙 1, -1 0, 0 -1, 1

はさみ -1, 1 1, -1 0, 0

2019/4/12 28

B店Ａ店

価格維持値下げ

価格維持 5, 5 3, 7値下げ 7, 3 5, 5

2019/4/12

定和ゲームでは，一方の利得が分かればもう一人の利得も分かるので一方の利得のみで表すこともある。次頁の表。

29

A B 価格維持値下げ

価格維持 5 3値下げ 7 5

2019/4/12

上の表はＡの利得だけ。ここでＡは最大化プレーヤ，Ｂは最小化プレーヤ（Ａの利得最小化はＢの利得最大化）。ナッシュ均衡点（値下げ，値下げ）では，相手が均衡戦略をとる限り，Ａ店は自分の利得を最大にし，Ｂ店は相手の利得を最小にしている。（鞍点） 30

2019/4/12

Ａが「価格維持」のときの利得の保証水準は3，「値下げ」のときの利得の保証水準は5。保証水準を最大にする戦略（マックスミニ戦略）は「値下げ」。最小化プレーヤＢにとっての保証水

準はＡ店の利得の最大値（それ以上は取られない）。保証水準を最小にするミニマックス戦略は「値下げ」。

31

ゼロ・サムゲーム（あるいは定和ゲーム）において，混合戦略によるマックスミニ利得とミニマックス利得は等しい。

2019/4/12 32

BA

[q] X [1- q] Y

[p] X 2, 8 9, 1[1- p] Y 7, 3 1, 9

2019/4/12

ミニマックス定理より，定和ゲームあるいはゼロサムゲームではマクシミン戦略（ミニマックス戦略）がナッシュ均衡戦略になる。理由は次頁以降。

33

プレーヤBが戦略Xを取るときのプレーヤAの期待利得は2p + 7(1 – p), Bが戦略Yを取る時は9p + (1 – p).プレーヤBはプレーヤAの期待利得を最小化するように戦略を選択すると仮定。即ち，プレーヤBは，次々頁の左図のオレンジの線になるように戦略を決める。

従って，プレーヤAは, オレンジの部分で最も期待利得UAの高い点である二直線が交わる点に対応するpを選ぶ。

2019/4/12 34

二直線の交点：

2p + 7(1 – p) = 9p + (1 – p). -5p + 7 = 8p +1 ⇒ p* = 6/13

同様にプレーヤBの最適反応 q*も求められる。

8q + (1 – q) = 3q + 9(1 – q). 7q + 1 = - 6q + 9. ⇒ q* = 8/13

（相手が自分のミニマムを選ぶ中でのマキシマムを選ぶのでマクシミン戦略）

2019/4/12 35

2019/4/12

UB = 7q + 1

UB = - 6q + 7

UB

q8/13

UA = 8p + 1

UA = - 5p + 7

p6/13

UA

36

プレーヤ二人の定和ゲームでは，マクシミン解はナッシュ均衡である。逆にプレーヤ二人の定和ゲームで混合戦略ナッシュ均衡があれば，それぞれのプレーヤのナッシュ均衡戦略はマクシミン戦略（とミニマックス戦略）である。

2019/4/12 37

前の例のゲーム（下に再掲）での混合戦略ナッシュ均衡を計算し、定和ゲームでは、それぞれのプレーヤのナッシュ均衡戦略はマクシミン戦略であることを確認しなさい。

2019/4/12 38

BA

[q] X [1- q] Y

[p] X 2, 8 9, 1[1- p] Y 7, 3 1, 9

スライド 1 - 北海道大学machino/game2019mixed... · 2019-04-12 · 3, 2. 1, 1: 野球. 0,...

Documents