Download - Estimating Player's Belief in Bayesian Game by Feedback Control

ベイジアンナッシュ均衡を構成する信念の推定

○金川　雅和奈良先端科学技術大学院大学小木曽公尚電気通信大学杉本　謙二奈良先端科学技術大学院大学

第一回　SICE制御部門マルチシンポジウム電気通信大学　2014/3/6

もくじ

•はじめに

•ベイジアンゲーム

•信念の推定法

•数値例

•おわりに

1. 合理的なプレイヤ 2. 行動 3. 効用値

4 4

5 1

1 5

2 2

a

a

a

a

標準型ゲーム（囚人のジレンマ）

プレイヤ２

プレイヤ１

�3

標準型ゲーム

プレイヤの効用値が確定的に決まる

[1] J. Nash 1951

均衡解析：ナッシュ均衡[1]

　プレイヤが自身の行動を変更することで　　　　より高い効用値を得ることができない行動の組

背景

：二人(a, a)：二種類

2 2

1 5

5 1

0 0

2 0

1 1

5 2

0 1

0 2

2 5

1 1

1 0

0 0

2 1

1 2

1 1

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

ベイジアンゲーム

プレイヤ２

プレイヤ１ ✓

✓

✓ ✓

1. 合理的なプレイヤ 2. 行動 3. 効用値の候補 4. タイプ 5. 信念（タイプ上の確率分布）

�4

背景

ベイジアンゲーム[2] プレイヤの効用値が確率的に決まる

[2] J.C. Harsanyi 1967

均衡解析：ベイジアンナッシュ均衡（BN均衡）

　プレイヤが自身の戦略を変更することで　　　　より高い期待効用を得ることができない戦略の組

ベイジアンナッシュ均衡を計算するためには信念が必要

：二人

(✓, ✓)：二種類

(a, a)：二種類

�5

信念を正確に把握することは困難

✓ 繰り返しゲームを行いプレイヤの行動から信念を推定

例：モバイル端末の周波数割当[3]，アドホックネットワークの侵入検知[4]

[4] Y. Liu et al 2006[3] K. Akkarajitsakul et al. 2011

ベイジアンゲームの問題点

電力需要家の選好を推定への応用

信念の推定の課題

✓ 指定したBN均衡に対応する信念の推定は議論されていない

✓ 対応する信念を解析的に求めることは困難

�6

目的

指定したBN均衡に対応する信念の推定 "

""アプローチ ✓ 信念の推定問題を追従制御問題に帰着させて解く • 信念とBN均衡を状態変数とするモデル（制御対象） • 指定したBN均衡（目標値）に到達する制御系を構築

目的

ベイジアンゲームの構成要素：

1.　プレイヤ

2.　行動

3.　効用値

4.　タイプ

5.　信念

確率分布の集合

�7

ui : A⇥ ⇥ ! R

i 2 Nai 2 Ai

✓i 2 ⇥i

µi 2 ⇧(⇥i)

(N , A, u, ⇥, µ)N := {1, 2}Ai := {a, a}

⇥i := {✓, ✓}8i 2 N

9>>>>=

>>>>;

対象とするベイジアンゲーム：定式化

A := A1 ⇥A2

⇥ := ⇥1 ⇥⇥2

　混合戦略　　　　　　　　　　：行動上の確率分布

✓確率分布　　　に従い行動　　　　　を選択

si(✓i) 2 ⇧(Ai)

si(✓i) ai 2 Ai

a

a

a

a


�8[1] J.Nash, (1951)

対象とするベイジアンゲーム：タイプ

⇥i =�✓, ✓

⇥ := ⇥1 ⇥⇥2

8i 2 N

タイプの組　　　　毎に標準型ゲームが存在✓ 2 ⇥

標準型ゲーム

2 2

1 5

5 1

4 4

a

a

a

a

2 0

1 1

5 2

0 1

a

a

a

a

　 0 2

2 5

1 1

1 0

a

a

a

a

　 0 0

2 1

1 2

1 1

a

a

a

a

　2

21

55

10

0

a

a

a

a

　

2 0

1 1

5 2

0 1

a

a

a

a

　

0 2

2 5

1 1

1 0

a

a

a

a

　

0 0

2 1

1 2

1 1

a

a

a

a

　

2 2

1 5

5 1

0 0

a

a

a

a

　

�9

対象とするベイジアンゲーム：タイプ

(✓, ✓)

�✓, ✓

�

�✓, ✓

�

�✓, ✓

�

⇥i =�✓, ✓

⇥ := ⇥1 ⇥⇥2

8i 2 N



2 0

1 1

5 2

0 1

a

a

a

a

　

0 2

2 5

1 1

1 0

a

a

a

a

　

0 0

2 1

1 2

1 1

a

a

a

a

　

2 2

1 5

5 1

0 0

a

a

a

a

　

�10

対象とするベイジアンゲーム：信念

(✓, ✓)

�✓, ✓

�

�✓, ✓

�

�✓, ✓

�

µ1 (✓)

µ1

�✓�

µ2 (✓) µ2

�✓�

µ1

�✓�

µ2 (✓) µ2

�✓�

µ1 (✓)µ2

�✓�

µ1 (✓)

タイプの組　　　　は信念に従い確定✓ 2 ⇥

⇥i =�✓, ✓

⇥ := ⇥1 ⇥⇥2

8i 2 N



�11

ベイジアンナッシュ均衡

期待効用

EUi(si, s�i) :=X

✓2⇥

µi(✓i)µ�i(✓�i)

(X

a2Asi(ai|✓i)s�i(a�i|✓�i)ui(a, ✓)

)

混合戦略信念


"

➡　混合戦略の組　はベイジアンナッシュ均衡

8i 2 Ns̄i 2 argmax

siEUi(si, s̄�i)

s̄

given µ

　混合戦略　　　　　　　　　　：行動上の確率分布

✓確率分布　　　に従い行動　　　　　を選択

si(✓i) 2 ⇧(Ai)

si(✓i) ai 2 Ai0

12

1

1 1

0 0

a1 a2

a1

a2

1 0

1 1

1 1

0 1

a1 a2

a1

a2

2 0

1 1

2 2

2 0

a1 a2

a1

a2

1 1

2 1

0 0

0 1

a1 a2

a1

a2

s2(✓)s2(✓)

s1(✓)

s1(✓)

8>>>>>>>>>>>><

>>>>>>>>>>>>:

µ1

8>>>>>>>>>>>><>>>>>>>>>>>>:µ2

8>><

>>:

8>><

>>:

8>><>>:8>><>>:

2 "2

1 "5

5 "1

0 "0

2 0

1 1

5 2

0 1

0 "2

2

5

1 "1

1 "0

0

0

2

1

1

2

1

1

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

✓　プレイヤが自身の戦略を変更することで　　　　より高い期待効用を得ることができない混合戦略の組

�12

均衡対　　　　：あるBN均衡と対応する信念の組(µ, s)

ベイジアンナッシュ均衡の特徴

EUi(si, s�i) :=X

✓2⇥

µi(✓i)µ�i(✓�i)

(X

a2Asi(ai|✓i)s�i(a�i|✓�i)ui(a, ✓)

)✓　ベイジアンナッシュ均衡は信念　に依存µ

✓　信念　を所与として，ベイジアンナッシュ均衡を計算µ


"

➡　混合戦略の組　はベイジアンナッシュ均衡

8i 2 Ns̄i 2 argmax

siEUi(si, s̄�i)

s̄

given µ

信念の推定問題：BN均衡　に対応する信念　を推定

均衡対

�13

µ̄s̄

推定法のアプローチ

追従制御問題に帰着 1. 均衡遷移モデル（自律系）

s+ = f(s, µ, µ+)

µ+ = diag(A1, A2)µ s+

µ+

f(s, µ, µ+)diag(A1, A2)

s+ = f(s, µ, µ+)

µ+ = diag(A1, A2) +g(s̄� s)

2. 追従制御系

s+

µ+

f(s, µ, µ+)diag(A1, A2)+

-‐

+

+

g(s̄� s)

s̄ z�1

✓　BN均衡　　を所与として，信念　　を計算µ̄s̄

✓　　　　　は均衡対　　　　　　仮定：ひとつの均衡対が既知(µ̄, s̄)

定理：ベイジアンゲームに対して　　　　

ならば，遷移モデル　で求まる　　　　　は均衡対である

仮定：　　　　が均衡対である

�14

均衡遷移モデルの実現

(µ, s)

ci(✓i) =µ+i (✓i)

µi(✓i)8✓i 2 ⇥i

(µ+, s+)f

⇥1 �1

⇤Ui(✓i, ✓)

⇥0 1

⇤T= 0 (8✓i 2 ⇥i 8i 2 N )

fi(si(✓), µ, µ+) =

1 00 1

�si(✓)

8i 2 N

fi(si(✓), µ, µ+) =

2

4c�i(✓)

c�i(✓)0

1� c�i(✓)

c�i(✓)1

3

5 si(✓)9>>>>=

>>>>;

Ui(✓i, ✓�i) =

1 01 1

�効用値行列

コントローラ(PI制御器)

�15

追従制御系の設計：信念の推定

I制御器g(s̄� s) := KP (s̄� s) +KI

X(s̄� s)

P制御器

⌘ :=

0 0 1 00 0 �1 0

�KP := ↵ I2 ⌦ ⌘

KI := � I2 ⌦ ⌘

制御系の安定性は今後の課題

s+ = f(s, µ, µ+)

µ+ = diag(A1, A2) +g(s̄� s)

追従制御系

s+

µ+

f(s, µ, µ+)diag(A1, A2)+

-‐

+

+

g(s̄� s)

s̄ z�1

�16

数値例

A1, A2が列確率行列

ベイジアンゲームの数値例s̄1 =

⇥0.5 0.5 0.8 0.2

⇤

s̄2 =⇥0.5 0.5 0.2 0.8

⇤

目標値

si(✓) si(✓)

⇢⇢

s̄

対応する信念　（答え）µ̄

µ̄1 =⇥0.6154 0.3846

⇤

µ̄2 =⇥0.2857 0.7143

⇤

0 1

2 1

1 1

0 0

a1 a2

a1

a2

1 0

1 1

1 1

0 1

a1 a2

a1

a2

2 0

1 1

2 2

2 0

a1 a2

a1

a2

1 1

2 1

0 0

0 1

a1 a2

a1

a2

s2(✓)s2(✓)

s1(✓)

s1(✓)

8>>>>>>>>>>>><

>>>>>>>>>>>>:

µ1

8>>>>>>>>>>>><>>>>>>>>>>>>: µ2

8>><

>>:

8>><

>>:

8>><>>:8>><>>:

↵ = 0.3, � = 0.08

�17

シミュレーション結果

推定結果が答えと一致µ̄1 =

⇥0.6154 0.3846

⇤

µ̄2 =⇥0.2857 0.7143

⇤

s̄目標値

A1 =

0.6 0.30.4 0.7

�, A2 =

0.4 0.30.6 0.7

�↵ = 0.3, � = 0.08

推定結果 µ̄1

推定結果 µ̄2

�18

まとめ • 指定したBN均衡に対応する信念の推定法の提案 • BN均衡の遷移モデルの導出 • 数値例を用いて信念の推定が可能であることを確認

""今後の課題 • 安定性解析 • 仮定と遷移モデルのパラメタライゼーション • 繰り返しゲームへと遷移モデルの拡張

おわりに

BN均衡の十分条件

BN均衡の定義

"➡　混合戦略の組　はベイジアンナッシュ均衡

8i 2 Ns̄i 2 argmax

siEUi(si, s̄�i)

s̄

�19

均衡遷移モデルの導出

帰納法を用いて，BN均衡の十分条件を満たすモデル　を導出f

BN均衡なら全ての　　　　でKarush-Kuhn-Tucker(KKT)条件を満たすi 2 N

KKT条件からBN均衡になる十分条件を導出

(µ, s)がBN均衡の十分条件を満たす均衡対前提：

がBN均衡の十分条件を満たす(µ+, s+)命題：

帰納法

EUi(si, s�i)argmax

si

s.t gi(si) 0 hi(si) = 0確率分布が満たす条件

8i 2 N

期待効用を目的関数とする線形計画問題の最適解

given µ, s�i

�20

仮定と均衡遷移モデルのパラメタライゼーション

本発表の仮定とモデル⇥1 �1

⇤Ui(✓i, ✓)

⇥0 1

⇤T= 0 (8✓i 2 ⇥i 8i 2 N )仮定

fi(si(✓), µ, µ+) =

1 00 1

�si(✓)

8i 2 N

fi(si(✓), µ, µ+) =

2

4c�i(✓)

c�i(✓)0

1� c�i(✓)

c�i(✓)1

3

5 si(✓)モデル

他の仮定とモデル(8✓i 2 ⇥i 8i 2 N )仮定

⇥1 �1

⇤Ui(✓i, ✓)

⇥1 0

⇤T= 0

モデル fi(si(✓), µ, µ+) =

1 00 1

�si(✓)

8i 2 N

fi(si(✓), µ, µ+) =

2

41 1� c�i(✓)

c�i(✓)

0 c�i(✓)

c�i(✓)

3

5 si(✓)

fi(si(✓), µ, µ+) =

8<

:�

2

4c�i(✓)

c�i(✓)0

1� c�i(✓)

c�i(✓)1

3

5+ (1� �)

2

41 1� c�i(✓)

c�i(✓)

0 c�i(✓)

c�i(✓)

3

5

9=

; si(✓)

モデル fi(si(✓), µ, µ+) =

1 00 1

�si(✓)

8i 2 N

パラメタライゼーションした仮定とモデル

(8✓i 2 ⇥i 8i 2 N )仮定⇥1 �1

⇤Ui(✓i, ✓)

⇥� 1� �

⇤T= 0 � 2 [0, 1]

Download - Estimating Player's Belief in Bayesian Game by Feedback Control

Top Related