第5章:混合戦略(mixed strategy)とその周辺1 2018年4月20日...
TRANSCRIPT
1
2018 年 4 月 20 日
第 5 章:混合戦略(Mixed Strategy)とその周辺
5.1. 混合戦略(Mixed Strategy)とは?
純粋戦略(Pure Strategy)を確率的に選択
プレーヤー iの混合戦略集合 ( )iS
純粋戦略集合 iS 上の「くじ」全体の集合
2
例:Matching Pennies(PK、テロ)
L R L 1 -1 -1 1 R -1 1 1 -1
プレーヤー1の混合戦略: 確率 1 [0,1]p で L 確率 11 [0,1]p で R プレーヤー2の混合戦略: 確率 2 [0,1]p で L 確率 21 [0,1]p で R よって 確率 1 2p p で (L,L) 確率 1 2(1 )p p で (L,R)
確率 1 2(1 )p p で (R,L) 確率 1 2(1 )(1 )p p で (R,R) よって プレーヤー1の期待利得は 1 2 1 2 1 2 1 2 1 2(1 ) (1 ) (1 )(1 ) (2 1)(2 1)p p p p p p p p p p プレーヤー2の期待利得は 1 2 1 2 1 2 1 2 1 2(1 ) (1 ) (1 )(1 ) (2 1)(2 1)p p p p p p p p p p
3
純粋戦略集合が有限集合である場合 標準形ゲーム( , , )N S u におけるプレーヤー i N の混合戦略 ( )i iS は : [0,1]i iS ( ( ) 1
i i
i is S
s
を仮定)
プレーヤー iは純粋戦略 i is S を確率 ( )i is で選択する ( )iS は iS 上のくじ全体の集合 混合戦略は「純粋戦略上のくじ」のこと *純粋戦略集合が連続空間(区間 [ , ]i i iS s s )である場合 標準形ゲーム( , , )N S u におけるプレーヤー i N の混合戦略は 累積分布 : [0,1]i iF S プレーヤー i が is 以上 is 以下の戦略を選択する確率は ( )i iF s
4
プレーヤーが混合戦略にしたがって選択すること、および プレーヤーが、相手プレーヤーがどの純粋戦略プロファイルを選択するかを、
確率的に予想すること(確率的な信念) を考慮すると
第3章(劣位戦略、劣位戦略逐次消去、最適反応、合理化戦略)、および
第4章(ナッシュ均衡) を再検討する必要がでてくる!
5
5.2. 劣位戦略(再考) 標準形ゲーム ( , , )N S u において、プレーヤー i N の純粋(!)戦略 i is S は、以下の
条件をみたす時、(強い意味で)劣位戦略(Strictly Dominated Strategy)である:
There exists a mixed (!!) strategy for player i , ( )i iS , such that
( , ) ( , )i i i i i iu s s u s for all i is S .
あるいは、(弱い意味で)劣位戦略(Weakly Dominated Strategy)である:
There exists a mixed strategy for player i , ( )i iS , such that ( , ) ( , )i i i i i iu s s u s for all i is S , and
( , ) ( , )i i i i i iu s s u s for some i is S . 劣位戦略では 純粋戦略についてであることに変わりない 混合戦略に対して劣位である可能性を考慮
6
数値例:
d e a 10 30 0 0 b 0 10 10 10 c 4 10 4 0
純粋戦略の範囲内ではどの戦略も非劣位である。しかし 混合戦略を考慮すると、プレーヤー1にとってcは劣位戦略になっていることがわかる (混合戦略(1 2で a, 1 2で b)と比較するとcは劣位であるから)
7
5.3. 劣位戦略逐次消去(再考) 標準形ゲーム ( , , )N S u において、各プレーヤー i N について、純粋戦略の部分集合
0i iS S , 1
i iS S , 2i iS S , ... を以下のように定義する。
0
i iS S 1
i is S if and only if there exists no mixed strategy 0( )i iS such that ( , ) ( , )ii i i i iu s u s s for all 0
i is S For every {2,...}h ,
hi is S if and only if there exists no mixed strategy 1( )h
i is S such that ( , ) ( , )ii i i i iu s u s s for all 1h
i is S
A strategy for player i N , i is S , is said to be iteratively undominated if *
0
hi i i
hs S S
.
*(弱い意味での)劣位戦略逐次消去の定義も同様に修正
8
* 社会あるいは相手の行動は、得てして予測が難しい
ならば、社会や相手の行動をランダムととらえ、「確率的に」予想しよう
👆 ゲーム理論が社会をとらえる仕方の
大事な特徴の一つ
9
数値例:
d e f a 10 30 0 0 4 10 b 0 10 10 10 4 0 c 4 10 4 0 3 100
純粋戦略の範囲内では、どの戦略も非劣位、iteratively undominated 混合戦略を考慮すると、プレーヤー1にとってcは劣位戦略 混合戦略(1 2で a, 1 2で b)と比較するとcは劣位 戦略cを消去すると、プレーヤー2にとってfは劣位戦略 混合戦略(1 2で d, 1 2で e)と比較すると f は劣位 ∴ プレーヤー1にとって iteratively undominated strategies は a, b プレーヤー2にとって iteratively undominated strategy は d, e *弱い意味での劣位消去なら、a と d のみ残る(Think why)
10
5.4. 信念、最適反応、合理化戦略(再考) プレーヤー i の他のプレーヤーについての信念(Belief, 予想): ( )i iS
プレーヤー i は「他のプレーヤーは各純粋戦略プロファイル i is S を 確率 ( )i is で選択する」と予想
期待利得は ( , ) ( ) ( , )
i i
i i i i i i i is S
u s s u s s
以下大事! 特殊ケース: i i ,
\{ }( ) ( ) ( )i i i i j j
j N is s s
プレーヤー i は「他のプレーヤー j i は混合戦略 j にしたがって「独立に」
選択する」と予想 期待利得は
\{ }( , ) ( , ) { ( )} ( , )
i i
i i i i i i j j i i is S j N i
u s u s s u s s
11
最適反応戦略: 標準形ゲーム ( , , )N S u において、プレーヤー i の混合戦略 ( )i iS が、信念
( )i iS に対して最適反応である、とは ( , ) ( , )i i i i i iu u s for all i is S .
* 最適反応に混合戦略も含める。すると
最適反応全体の集合( ( )i iBR )は凸性みたす: 期待効用の仮定より、純粋戦略 is 、 is がともに信念 i について 最適反応なら、「 is 、 is についての任意のくじ」も最適反応になる
12
最適反応戦略対応(Best Response Correspondence):
( ): ( ) 2 iSi iBR S
( ) ( )i i iBR S :信念 i に対する最適反応戦略全体の集合
(( )2 iS は ( )iS の部分集合全体の集合のこと!)
期待効用の仮定より:
( )i iBR は 凸集合(Convex) ( )i iBR は 閉集合(Closed, Compact)
iBR のグラフは 以下の意味で閉(Closed graph): For every i and every infinite converging sequence 1( , )m m
i i m
satisfying lim mi im
and ( )m mi i iBR , the following inclusion is
satisfied: lim ( )m
i i imBR
13
例:Matching Pennies(ゼロサム、PK、テロ)
L R L 1 -1 -1 1 R -1 1 1 -1
プレーヤー1の最適反応は 凸、閉、グラフ閉! 1 2( ) { }BR R if 2
10 ( ) 2L
1 2 1( ) ( )BR S if 21( ) 2L
1 2( ) { }BR L if 21 ( ) 12 L
14
プレーヤー1の最適反応対応のグラフ:凸、閉、closed graph を確認せよ
1
1
0.5
が 凸かつ閉
Closed Graph
Closed Graph
15
信念を ( )iS から \{ }
( )jj N iS
に制限すると…
最適反応戦略プロファイル対応(Best Response Profile Correspondence):
( ): ( ) 2 iSii N i N
BR S
( ) ( )ii NBR S
1 1 2 2( ) ( ( ), ( ), ......, ( ))n nBR BR BR BR
( )BR は 凸集合 ( )BR は 閉集合
BRのグラフは 閉(closed graph): For every ( )ii N
S
and every infinite converging sequence 1( , )m mm
satisfying lim m
m
and ( )m mBR , the following inclusion is satisfied:
lim ( )m
mBR
16
合理化戦略: 標準形ゲーム ( , , )N S u において、各プレーヤー i N について、純粋戦略の部分集合 0ˆ
i iS S , 1ˆi iS S , 2ˆ
i iS S , ... を以下のように定義する。
0ˆi iS S
1ˆi is S if and only if there exists a belief 0ˆ( )i iS such that
is is a best response to i , i.e., ( , ) ( , )i i i i i iu s u s for all 0ˆ
i is S . For every {2,...}h ,
ˆ hi is S if and only if there exists a belief 1ˆ( )h
i iS such that
is is a best response to i , i.e., ( , ) ( , )i i i i i iu s u s for all 1ˆ h
i is S .
A pure strategy for player i N , i is S , is said to be rationalizable if *
0
ˆ ˆ hi i i
hs S S
.
信念を、純粋戦略プロファイルから「 iS 上のくじ」に拡張して再定義 (条件が緩くなる、つまり、合理化戦略の範囲が広がる、ことに注意)
17
5.5. ナッシュ均衡 標準形ゲーム( , , )N S u において、混合戦略プロファイル ( )ii N
S
は、以下の条
件をみたす時、(混合戦略)ナッシュ均衡であると呼ぶ:
For every i N , ( , ) ( , )i i i i i iu u for all ( )i iS .
混合戦略プロファイル がナッシュ均衡であるとは: ( )BR (つまり、お互いに、相手に対する最適反応になっている)
18
ナッシュ均衡の求め方:Matching Pennies(PK、テロ)
L R L 1 -1 -1 1 R -1 1 1 -1
純粋戦略ナッシュ均衡は存在しない! ならばナッシュ均衡は混合戦略プロファイルである。つまり L と R が無差別になるように信念、つまり相手プレーヤーの戦略を求めればよい! いいかえると
ナッシュ均衡における「私」の混合戦略は 「相手」の立場に立って考えて、「相手」が L と R とで無差別になるように決定されている
ナッシュ均衡における「相手」の混合戦略は
「私」の立場に立って考えて、「私」が L と R とで無差別になるように決定されている
19
L R
L 1 -1 -1 1 R -1 1 1 -1
プレーヤー2の混合戦略: 確率 2 [0,1]p で L 確率 21 [0,1]p で R プレーヤー1が L を選択: プレーヤー1の期待利得は 2 2 2(1 ) 2 1p p p プレーヤー1が R を選択: プレーヤー1の期待利得は 2 2 2(1 ) 1 2p p p
プレーヤー1の L と R は無差別: 2 22 1 1 2p p ∴ 21
2p
プレーヤー1の最適反応の条件から「プレーヤー2の混合戦略」が導かれる! プレーヤー1の混合戦略: 確率 1 [0,1]p で L 確率 11 [0,1]p で R プレーヤー2が L を選択: プレーヤー2の期待利得は 1 1 1(1 ) 2 1p p p プレーヤー2が R を選択: プレーヤー2の期待利得は 1 1 1(1 ) 1 2p p p
プレーヤー2の L と R は無差別: 1 12 1 1 2p p ∴ 11
2p
プレーヤー2の最適反応の条件から「プレーヤー1の混合戦略」が導かれる!
20
5.6. 混合戦略ナッシュ均衡の例
5.6.1. Hawk-Dove Game
Dove Hawk Dove(和平) 3 3 1 4 Hawk(好戦) 4 1 0 0
純粋戦略ナッシュ均衡: (Hawk, Dove), (Dove, Hawk)
混合戦略ナッシュ均衡: 1 1 1 1(( , ),( , ))2 2 2 2
もとめてみよ! プレーヤー1が D と H で無差別になるためにはプレーヤー2の混合戦略は 1 1( , )2 2 でないといけない
プレーヤー2が D と H で無差別になるためにはプレーヤー1の混合戦略は 1 1( , )2 2 でないといけない
21
5.6.2. Stag-Hunt Game(鹿狩りゲーム)
Hare Stag Hare(うさぎ) 1 1 1 0 Stag(しか) 0 1 1.5 1.5
純粋戦略ナッシュ均衡: (Hare, Hare)、(Stag, Stag) 混合戦略ナッシュ均衡: 1 2 1 2(( , ),( , ))3 3 3 3
もとめてみよ
22
5.6.3. Bank Run(銀行取付、金融危機)
預金全額引き出す 引き出さない 預金全額引き出す 10 10 15 5
引き出さない 5 15 16 16 銀行はプレーヤー1と2から各々15 万ずつ(計 30 万)預金してもらってる 銀行は 30 万のうち 10 万をある企業に貸し付けている(金庫には 20 万) 満期になると、利子 1 万付きで全額引き出せる 途中で引き出すと利子付かない プレーヤーが途中で引き出すと、金庫には満額ないので、取り付け騒ぎになる。 二つのナッシュ均衡: (全額引き出す、全額引き出す): 取り付け (引き出さない、引き出さない): 安定した金融システム 混合戦略ナッシュ均衡: もとめよ
23
5.6.4. Battle of Sexes
男性 ラブコメ ホラー
女性 ラブコメ 2 1 0 0 ホラー 0 0 1 2
純粋戦略ナッシュ均衡: (ラブコメ、ラブコメ) (ホラー、ホラー) 混合戦略ナッシュ均衡 もとめよ
24
5.6.5. ALL-Pay 企業 1 と企業2が各々賄賂 1 [0,1]s (億)円、 2 [0,1]s (億)円を、ある政治家に支払う。
政治家は賄賂の金額の高い方の企業に都合のいい政策(企業1にとっては政策1案、企業2
にとっては政策 2 案)を選択する。賄賂の額が同じなら等確率で選択する。 各企業は、都合のいい政策の場合にはそうでない政策よりも、1(億)円分利得が高いとす
る。各企業 {1,2}i の利得は、よって、都合のいい政策の場合には1 is 、そうでない場合に
は is である。 このケースは、戦略集合が連続の閉区間[0,1]である。よって、混合戦略は累積分布関数
: [0,1] [0,1]i iF で表現される。 (1)標準形ゲームであらわせ。 (2)純粋戦略ナッシュ均衡が存在しないことを証明せよ (3)混合戦略ナッシュ均衡をもとめよ。 (ここで宿題2)
25
5.7. ナッシュ均衡の解釈再考
*実際の個別プレーヤー i N が混合戦略 i にしたがって確率的に純粋戦略を選択する 人間には無理? マシーンによるゲーム:Tambe によるテロ対策(ゲームアート2-1) *(特に重要な解釈)当該プレーヤー i N 以外のプレーヤーが「個別プレーヤー i N が混合戦略 i にしたがって確率的に純粋戦略を選択する」という信念(予想)をもっている *個別プレーヤー i N の背景にある「母集団」の中で、各純粋戦略 is をプレイする人の割合
が ( )i is である *当該プレーヤー i N 以外のプレーヤーが「個別プレーヤー i N の背景にある「母集団」
の中で、各純粋戦略 is をプレイする人の割合が ( )i is である」という信念をもっている PK 戦(Matching Pennies): Keeper, Kicker ともに、その母集団において L、R をとる割合は半々である プロ選手は実際に個別に半々の確率の混合戦略をプレイしているらしい アマはそうでないらしい 癖を読む、読まれる