第5章：混合戦略（mixed strategy）とその周辺1 2018年4月20日...

1

2018 年 4 月 20 日

第 5 章：混合戦略（Mixed Strategy）とその周辺

5.1. 混合戦略（Mixed Strategy）とは？

純粋戦略（Pure Strategy）を確率的に選択

プレーヤー iの混合戦略集合 ( )iS

純粋戦略集合 iS 上の「くじ」全体の集合

2

例：Matching Pennies（PK、テロ）

L R L 1 -1 -1 1 R -1 1 1 -1

プレーヤー１の混合戦略：確率 1 [0,1]p で L 確率 11 [0,1]p で R プレーヤー２の混合戦略：確率 2 [0,1]p で L 確率 21 [0,1]p で R よって確率 1 2p p で（L,L）確率 1 2(1 )p p で（L,R）

確率 1 2(1 )p p で（R,L）確率 1 2(1 )(1 )p p で（R,R）よってプレーヤー１の期待利得は 1 2 1 2 1 2 1 2 1 2(1 ) (1 ) (1 )(1 ) (2 1)(2 1)p p p p p p p p p p プレーヤー２の期待利得は 1 2 1 2 1 2 1 2 1 2(1 ) (1 ) (1 )(1 ) (2 1)(2 1)p p p p p p p p p p

3

純粋戦略集合が有限集合である場合標準形ゲーム( , , )N S u におけるプレーヤー i N の混合戦略 ( )i iS は : [0,1]i iS （ ( ) 1

i i

i is S

s

を仮定）

プレーヤー iは純粋戦略 i is S を確率 ( )i is で選択する ( )iS は iS 上のくじ全体の集合混合戦略は「純粋戦略上のくじ」のこと＊純粋戦略集合が連続空間（区間 [ , ]i i iS s s ）である場合標準形ゲーム( , , )N S u におけるプレーヤー i N の混合戦略は累積分布 : [0,1]i iF S プレーヤー i が is 以上 is 以下の戦略を選択する確率は ( )i iF s

4

プレーヤーが混合戦略にしたがって選択すること、およびプレーヤーが、相手プレーヤーがどの純粋戦略プロファイルを選択するかを、

確率的に予想すること（確率的な信念）を考慮すると

第３章（劣位戦略、劣位戦略逐次消去、最適反応、合理化戦略）、および

第４章（ナッシュ均衡）を再検討する必要がでてくる！

5

5.2. 劣位戦略（再考）標準形ゲーム ( , , )N S u において、プレーヤー i N の純粋（！）戦略 i is S は、以下の

条件をみたす時、（強い意味で）劣位戦略（Strictly Dominated Strategy）である：

There exists a mixed (!!) strategy for player i , ( )i iS , such that

( , ) ( , )i i i i i iu s s u s for all i is S .

あるいは、（弱い意味で）劣位戦略（Weakly Dominated Strategy）である：

There exists a mixed strategy for player i , ( )i iS , such that ( , ) ( , )i i i i i iu s s u s for all i is S , and

( , ) ( , )i i i i i iu s s u s for some i is S . 劣位戦略では純粋戦略についてであることに変わりない混合戦略に対して劣位である可能性を考慮

6

数値例：

d e a 10 30 0 0 b 0 10 10 10 c 4 10 4 0

純粋戦略の範囲内ではどの戦略も非劣位である。しかし混合戦略を考慮すると、プレーヤー１にとってｃは劣位戦略になっていることがわかる（混合戦略（1 2で a, 1 2で b）と比較するとｃは劣位であるから）

7

5.3. 劣位戦略逐次消去（再考）標準形ゲーム ( , , )N S u において、各プレーヤー i N について、純粋戦略の部分集合

0i iS S , 1

i iS S , 2i iS S , ... を以下のように定義する。

0

i iS S 1

i is S if and only if there exists no mixed strategy 0( )i iS such that ( , ) ( , )ii i i i iu s u s s for all 0

i is S For every {2,...}h ,

hi is S if and only if there exists no mixed strategy 1( )h

i is S such that ( , ) ( , )ii i i i iu s u s s for all 1h

i is S

A strategy for player i N , i is S , is said to be iteratively undominated if *

0

hi i i

hs S S

.

＊（弱い意味での）劣位戦略逐次消去の定義も同様に修正

8

＊社会あるいは相手の行動は、得てして予測が難しい

ならば、社会や相手の行動をランダムととらえ、「確率的に」予想しよう

👆 ゲーム理論が社会をとらえる仕方の

大事な特徴の一つ

9

数値例：

d e f a 10 30 0 0 4 10 b 0 10 10 10 4 0 c 4 10 4 0 3 100

純粋戦略の範囲内では、どの戦略も非劣位、iteratively undominated 混合戦略を考慮すると、プレーヤー１にとってｃは劣位戦略混合戦略（1 2で a, 1 2で b）と比較するとｃは劣位戦略ｃを消去すると、プレーヤー２にとってｆは劣位戦略混合戦略（1 2で d, 1 2で e）と比較すると f は劣位 ∴ プレーヤー１にとって iteratively undominated strategies は a, b プレーヤー２にとって iteratively undominated strategy は d, e ＊弱い意味での劣位消去なら、a と d のみ残る（Think why）

10

5.4. 信念、最適反応、合理化戦略（再考）プレーヤー i の他のプレーヤーについての信念（Belief, 予想）： ( )i iS

プレーヤー i は「他のプレーヤーは各純粋戦略プロファイル i is S を確率 ( )i is で選択する」と予想

期待利得は ( , ) ( ) ( , )

i i

i i i i i i i is S

u s s u s s

以下大事！特殊ケース： i i ,

\{ }( ) ( ) ( )i i i i j j

j N is s s

プレーヤー i は「他のプレーヤー j i は混合戦略 j にしたがって「独立に」

選択する」と予想期待利得は

\{ }( , ) ( , ) { ( )} ( , )

i i

i i i i i i j j i i is S j N i

u s u s s u s s

11

最適反応戦略：標準形ゲーム ( , , )N S u において、プレーヤー i の混合戦略 ( )i iS が、信念

( )i iS に対して最適反応である、とは ( , ) ( , )i i i i i iu u s for all i is S .

＊最適反応に混合戦略も含める。すると

最適反応全体の集合（ ( )i iBR ）は凸性みたす：期待効用の仮定より、純粋戦略 is 、 is がともに信念 i について最適反応なら、「 is 、 is についての任意のくじ」も最適反応になる

12

最適反応戦略対応（Best Response Correspondence）：

( ): ( ) 2 iSi iBR S

( ) ( )i i iBR S ：信念 i に対する最適反応戦略全体の集合

（( )2 iS は ( )iS の部分集合全体の集合のこと！）

期待効用の仮定より:

( )i iBR は凸集合（Convex） ( )i iBR は閉集合（Closed, Compact）

iBR のグラフは以下の意味で閉（Closed graph）： For every i and every infinite converging sequence 1( , )m m

i i m

satisfying lim mi im

and ( )m mi i iBR , the following inclusion is

satisfied: lim ( )m

i i imBR

13

例：Matching Pennies（ゼロサム、PK、テロ）

L R L 1 -1 -1 1 R -1 1 1 -1

プレーヤー１の最適反応は凸、閉、グラフ閉！ 1 2( ) { }BR R if 2

10 ( ) 2L

1 2 1( ) ( )BR S if 21( ) 2L

1 2( ) { }BR L if 21 ( ) 12 L

14

プレーヤー１の最適反応対応のグラフ：凸、閉、closed graph を確認せよ

1

1

0.5

が凸かつ閉

Closed Graph

Closed Graph

15

信念を ( )iS から \{ }

( )jj N iS

に制限すると…

最適反応戦略プロファイル対応（Best Response Profile Correspondence）：

( ): ( ) 2 iSii N i N

BR S

( ) ( )ii NBR S

1 1 2 2( ) ( ( ), ( ), ......, ( ))n nBR BR BR BR

( )BR は凸集合 ( )BR は閉集合

BRのグラフは閉（closed graph）： For every ( )ii N

S

and every infinite converging sequence 1( , )m mm

satisfying lim m

m

and ( )m mBR , the following inclusion is satisfied:

lim ( )m

mBR

16

合理化戦略：標準形ゲーム ( , , )N S u において、各プレーヤー i N について、純粋戦略の部分集合 0ˆ

i iS S , 1î iS S , 2ˆ

i iS S , ... を以下のように定義する。

0î iS S

1î is S if and only if there exists a belief 0ˆ( )i iS such that

is is a best response to i , i.e., ( , ) ( , )i i i i i iu s u s for all 0ˆ

i is S . For every {2,...}h ,

ˆ hi is S if and only if there exists a belief 1ˆ( )h

i iS such that

is is a best response to i , i.e., ( , ) ( , )i i i i i iu s u s for all 1ˆ h

i is S .

A pure strategy for player i N , i is S , is said to be rationalizable if *

0

ˆ ˆ hi i i

hs S S

.

信念を、純粋戦略プロファイルから「 iS 上のくじ」に拡張して再定義（条件が緩くなる、つまり、合理化戦略の範囲が広がる、ことに注意）

17

5.5. ナッシュ均衡標準形ゲーム( , , )N S u において、混合戦略プロファイル ( )ii N

S

は、以下の条

件をみたす時、（混合戦略）ナッシュ均衡であると呼ぶ：

For every i N , ( , ) ( , )i i i i i iu u for all ( )i iS .

混合戦略プロファイルがナッシュ均衡であるとは： ( )BR （つまり、お互いに、相手に対する最適反応になっている）

18

ナッシュ均衡の求め方：Matching Pennies（PK、テロ）

L R L 1 -1 -1 1 R -1 1 1 -1

純粋戦略ナッシュ均衡は存在しない！ならばナッシュ均衡は混合戦略プロファイルである。つまり L と R が無差別になるように信念、つまり相手プレーヤーの戦略を求めればよい！いいかえると

ナッシュ均衡における「私」の混合戦略は「相手」の立場に立って考えて、「相手」が L と R とで無差別になるように決定されている

ナッシュ均衡における「相手」の混合戦略は

「私」の立場に立って考えて、「私」が L と R とで無差別になるように決定されている

19

L R

L 1 -1 -1 1 R -1 1 1 -1

プレーヤー２の混合戦略：確率 2 [0,1]p で L 確率 21 [0,1]p で R プレーヤー１が L を選択：プレーヤー１の期待利得は 2 2 2(1 ) 2 1p p p プレーヤー１が R を選択：プレーヤー１の期待利得は 2 2 2(1 ) 1 2p p p

プレーヤー１の L と R は無差別： 2 22 1 1 2p p ∴ 21

2p

プレーヤー１の最適反応の条件から「プレーヤー２の混合戦略」が導かれる！プレーヤー１の混合戦略：確率 1 [0,1]p で L 確率 11 [0,1]p で R プレーヤー２が L を選択：プレーヤー２の期待利得は 1 1 1(1 ) 2 1p p p プレーヤー２が R を選択：プレーヤー２の期待利得は 1 1 1(1 ) 1 2p p p

プレーヤー２の L と R は無差別： 1 12 1 1 2p p ∴ 11

2p

プレーヤー２の最適反応の条件から「プレーヤー１の混合戦略」が導かれる！

20

5.6. 混合戦略ナッシュ均衡の例

5.6.1. Hawk-Dove Game

Dove Hawk Dove（和平） 3 3 1 4 Hawk（好戦） 4 1 0 0

純粋戦略ナッシュ均衡： (Hawk, Dove), (Dove, Hawk)

混合戦略ナッシュ均衡： 1 1 1 1(( , ),( , ))2 2 2 2

もとめてみよ！プレーヤー１が D と H で無差別になるためにはプレーヤー２の混合戦略は 1 1( , )2 2 でないといけない

プレーヤー２が D と H で無差別になるためにはプレーヤー１の混合戦略は 1 1( , )2 2 でないといけない

21

5.6.2. Stag-Hunt Game（鹿狩りゲーム）

Hare Stag Hare（うさぎ） 1 1 1 0 Stag（しか） 0 1 1.5 1.5

純粋戦略ナッシュ均衡：（Hare, Hare）、（Stag, Stag）混合戦略ナッシュ均衡： 1 2 1 2(( , ),( , ))3 3 3 3

もとめてみよ

22

5.6.3. Bank Run（銀行取付、金融危機）

預金全額引き出す引き出さない預金全額引き出す 10 10 15 5

引き出さない 5 15 16 16 銀行はプレーヤー１と２から各々15 万ずつ（計 30 万）預金してもらってる銀行は 30 万のうち 10 万をある企業に貸し付けている（金庫には 20 万）満期になると、利子 1 万付きで全額引き出せる途中で引き出すと利子付かないプレーヤーが途中で引き出すと、金庫には満額ないので、取り付け騒ぎになる。二つのナッシュ均衡：（全額引き出す、全額引き出す）：取り付け（引き出さない、引き出さない）：安定した金融システム混合戦略ナッシュ均衡：もとめよ

23

5.6.4. Battle of Sexes

男性ラブコメホラー

女性ラブコメ 2 1 0 0 ホラー 0 0 1 2

純粋戦略ナッシュ均衡：（ラブコメ、ラブコメ）（ホラー、ホラー）混合戦略ナッシュ均衡もとめよ

24

5.6.5. ALL-Pay 企業 1 と企業２が各々賄賂 1 [0,1]s （億）円、 2 [0,1]s （億）円を、ある政治家に支払う。

政治家は賄賂の金額の高い方の企業に都合のいい政策（企業１にとっては政策１案、企業２

にとっては政策 2 案）を選択する。賄賂の額が同じなら等確率で選択する。各企業は、都合のいい政策の場合にはそうでない政策よりも、１（億）円分利得が高いとす

る。各企業 {1,2}i の利得は、よって、都合のいい政策の場合には1 is 、そうでない場合に

は is である。このケースは、戦略集合が連続の閉区間[0,1]である。よって、混合戦略は累積分布関数

: [0,1] [0,1]i iF で表現される。（１）標準形ゲームであらわせ。（２）純粋戦略ナッシュ均衡が存在しないことを証明せよ（３）混合戦略ナッシュ均衡をもとめよ。（ここで宿題２）

25

5.7. ナッシュ均衡の解釈再考

＊実際の個別プレーヤー i N が混合戦略 i にしたがって確率的に純粋戦略を選択する人間には無理？マシーンによるゲーム：Tambe によるテロ対策（ゲームアート２－１）＊（特に重要な解釈）当該プレーヤー i N 以外のプレーヤーが「個別プレーヤー i N が混合戦略 i にしたがって確率的に純粋戦略を選択する」という信念（予想）をもっている＊個別プレーヤー i N の背景にある「母集団」の中で、各純粋戦略 is をプレイする人の割合

が ( )i is である＊当該プレーヤー i N 以外のプレーヤーが「個別プレーヤー i N の背景にある「母集団」

の中で、各純粋戦略 is をプレイする人の割合が ( )i is である」という信念をもっている PK 戦（Matching Pennies）: Keeper, Kicker ともに、その母集団において L、R をとる割合は半々であるプロ選手は実際に個別に半々の確率の混合戦略をプレイしているらしいアマはそうでないらしい癖を読む、読まれる

第5章：混合戦略（mixed strategy）とその周辺1 2018年4月20日...

Documents