ベイジアンナッシュ均衡を構成する信念の推定
○金川 雅和 奈良先端科学技術大学院大学 小木曽 公尚 電気通信大学 杉本 謙二 奈良先端科学技術大学院大学
第一回 SICE制御部門マルチシンポジウム 電気通信大学 2014/3/6
もくじ
•はじめに
•ベイジアンゲーム
•信念の推定法
•数値例
•おわりに
1. 合理的なプレイヤ 2. 行動 3. 効用値
4 4
5 1
1 5
2 2
a
a
a
a
標準型ゲーム (囚人のジレンマ)
プレイヤ2
プレイヤ1
�3
標準型ゲーム
プレイヤの効用値が確定的に決まる
[1] J. Nash 1951
均衡解析:ナッシュ均衡[1]
プレイヤが自身の行動を変更することで より高い効用値を得ることができない行動の組
背景
:二人(a, a):二種類
2 2
1 5
5 1
0 0
2 0
1 1
5 2
0 1
0 2
2 5
1 1
1 0
0 0
2 1
1 2
1 1
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
ベイジアンゲーム
プレイヤ2
プレイヤ1 ✓
✓
✓ ✓
1. 合理的なプレイヤ 2. 行動 3. 効用値の候補 4. タイプ 5. 信念(タイプ上の確率分布)
�4
背景
ベイジアンゲーム[2] プレイヤの効用値が確率的に決まる
[2] J.C. Harsanyi 1967
均衡解析:ベイジアンナッシュ均衡(BN均衡)
プレイヤが自身の戦略を変更することで より高い期待効用を得ることができない戦略の組
ベイジアンナッシュ均衡を計算するためには信念が必要
:二人
(✓, ✓):二種類
(a, a):二種類
�5
信念を正確に把握することは困難
✓ 繰り返しゲームを行いプレイヤの行動から信念を推定
例:モバイル端末の周波数割当[3],アドホックネットワークの侵入検知[4]
[4] Y. Liu et al 2006[3] K. Akkarajitsakul et al. 2011
ベイジアンゲームの問題点
電力需要家の選好を推定への応用
信念の推定の課題
✓ 指定したBN均衡に対応する信念の推定は議論されていない
✓ 対応する信念を解析的に求めることは困難
�6
目的
指定したBN均衡に対応する信念の推定 "
""アプローチ ✓ 信念の推定問題を追従制御問題に帰着させて解く • 信念とBN均衡を状態変数とするモデル(制御対象) • 指定したBN均衡(目標値)に到達する制御系を構築
目的
ベイジアンゲームの構成要素:
1. プレイヤ
2. 行動
3. 効用値
4. タイプ
5. 信念
確率分布の集合
�7
ui : A⇥ ⇥ ! R
i 2 Nai 2 Ai
✓i 2 ⇥i
µi 2 ⇧(⇥i)
(N , A, u, ⇥, µ)N := {1, 2}Ai := {a, a}
⇥i := {✓, ✓}8i 2 N
9>>>>=
>>>>;
対象とするベイジアンゲーム:定式化
A := A1 ⇥A2
⇥ := ⇥1 ⇥⇥2
混合戦略 :行動上の確率分布
✓確率分布 に従い行動 を選択
si(✓i) 2 ⇧(Ai)
si(✓i) ai 2 Ai
a
a
a
a
ベイジアンゲーム
�8[1] J.Nash, (1951)
対象とするベイジアンゲーム:タイプ
⇥i =�✓, ✓
⇥ := ⇥1 ⇥⇥2
8i 2 N
タイプの組 毎に標準型ゲームが存在✓ 2 ⇥
標準型ゲーム
2 2
1 5
5 1
4 4
a
a
a
a
2 0
1 1
5 2
0 1
a
a
a
a
0 2
2 5
1 1
1 0
a
a
a
a
0 0
2 1
1 2
1 1
a
a
a
a
2
21
55
10
0
a
a
a
a
2 0
1 1
5 2
0 1
a
a
a
a
0 2
2 5
1 1
1 0
a
a
a
a
0 0
2 1
1 2
1 1
a
a
a
a
2 2
1 5
5 1
0 0
a
a
a
a
�9
対象とするベイジアンゲーム:タイプ
(✓, ✓)
�✓, ✓
�
�✓, ✓
�
�✓, ✓
�
⇥i =�✓, ✓
⇥ := ⇥1 ⇥⇥2
8i 2 N
ベイジアンゲーム
タイプの組 毎に標準型ゲームが存在✓ 2 ⇥
2 0
1 1
5 2
0 1
a
a
a
a
0 2
2 5
1 1
1 0
a
a
a
a
0 0
2 1
1 2
1 1
a
a
a
a
2 2
1 5
5 1
0 0
a
a
a
a
�10
対象とするベイジアンゲーム:信念
(✓, ✓)
�✓, ✓
�
�✓, ✓
�
�✓, ✓
�
µ1 (✓)
µ1
�✓�
µ2 (✓) µ2
�✓�
µ1
�✓�
µ2 (✓) µ2
�✓�
µ1 (✓)µ2
�✓�
µ1 (✓)
タイプの組 は信念に従い確定✓ 2 ⇥
⇥i =�✓, ✓
⇥ := ⇥1 ⇥⇥2
8i 2 N
ベイジアンゲーム
タイプの組 毎に標準型ゲームが存在✓ 2 ⇥
�11
ベイジアンナッシュ均衡
期待効用
EUi(si, s�i) :=X
✓2⇥
µi(✓i)µ�i(✓�i)
(X
a2Asi(ai|✓i)s�i(a�i|✓�i)ui(a, ✓)
)
混合戦略信念
ベイジアンナッシュ均衡
"
➡ 混合戦略の組 はベイジアンナッシュ均衡
8i 2 Ns̄i 2 argmax
siEUi(si, s̄�i)
s̄
given µ
混合戦略 :行動上の確率分布
✓確率分布 に従い行動 を選択
si(✓i) 2 ⇧(Ai)
si(✓i) ai 2 Ai0
12
1
1 1
0 0
a1 a2
a1
a2
1 0
1 1
1 1
0 1
a1 a2
a1
a2
2 0
1 1
2 2
2 0
a1 a2
a1
a2
1 1
2 1
0 0
0 1
a1 a2
a1
a2
s2(✓)s2(✓)
s1(✓)
s1(✓)
8>>>>>>>>>>>><
>>>>>>>>>>>>:
µ1
8>>>>>>>>>>>><>>>>>>>>>>>>:µ2
8>><
>>:
8>><
>>:
8>><>>:8>><>>:
2 "2
1 "5
5 "1
0 "0
2 0
1 1
5 2
0 1
0 "2
2
5
1 "1
1 "0
0
0
2
1
1
2
1
1
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
✓ プレイヤが自身の戦略を変更することで より高い期待効用を得ることができない混合戦略の組
�12
均衡対 :あるBN均衡と対応する信念の組(µ, s)
ベイジアンナッシュ均衡の特徴
EUi(si, s�i) :=X
✓2⇥
µi(✓i)µ�i(✓�i)
(X
a2Asi(ai|✓i)s�i(a�i|✓�i)ui(a, ✓)
)✓ ベイジアンナッシュ均衡は信念 に依存µ
✓ 信念 を所与として,ベイジアンナッシュ均衡を計算µ
ベイジアンナッシュ均衡
"
➡ 混合戦略の組 はベイジアンナッシュ均衡
8i 2 Ns̄i 2 argmax
siEUi(si, s̄�i)
s̄
given µ
信念の推定問題:BN均衡 に対応する信念 を推定
均衡対
�13
µ̄s̄
推定法のアプローチ
追従制御問題に帰着 1. 均衡遷移モデル(自律系)
s+ = f(s, µ, µ+)
µ+ = diag(A1, A2)µ s+
µ+
f(s, µ, µ+)diag(A1, A2)
s+ = f(s, µ, µ+)
µ+ = diag(A1, A2) +g(s̄� s)
2. 追従制御系
s+
µ+
f(s, µ, µ+)diag(A1, A2)+
-‐
+
+
g(s̄� s)
s̄ z�1
✓ BN均衡 を所与として,信念 を計算µ̄s̄
✓ は均衡対 仮定:ひとつの均衡対が既知(µ̄, s̄)
定理:ベイジアンゲームに対して
ならば,遷移モデル で求まる は均衡対である
仮定: が均衡対である
�14
均衡遷移モデルの実現
(µ, s)
ci(✓i) =µ+i (✓i)
µi(✓i)8✓i 2 ⇥i
(µ+, s+)f
⇥1 �1
⇤Ui(✓i, ✓)
⇥0 1
⇤T= 0 (8✓i 2 ⇥i 8i 2 N )
fi(si(✓), µ, µ+) =
1 00 1
�si(✓)
8i 2 N
fi(si(✓), µ, µ+) =
2
4c�i(✓)
c�i(✓)0
1� c�i(✓)
c�i(✓)1
3
5 si(✓)9>>>>=
>>>>;
Ui(✓i, ✓�i) =
1 01 1
�効用値行列
コントローラ(PI制御器)
�15
追従制御系の設計:信念の推定
I制御器g(s̄� s) := KP (s̄� s) +KI
X(s̄� s)
P制御器
⌘ :=
0 0 1 00 0 �1 0
�KP := ↵ I2 ⌦ ⌘
KI := � I2 ⌦ ⌘
制御系の安定性は今後の課題
s+ = f(s, µ, µ+)
µ+ = diag(A1, A2) +g(s̄� s)
追従制御系
s+
µ+
f(s, µ, µ+)diag(A1, A2)+
-‐
+
+
g(s̄� s)
s̄ z�1
�16
数値例
A1, A2が列確率行列
ベイジアンゲームの数値例s̄1 =
⇥0.5 0.5 0.8 0.2
⇤
s̄2 =⇥0.5 0.5 0.2 0.8
⇤
目標値
si(✓) si(✓)
⇢⇢
s̄
対応する信念 (答え)µ̄
µ̄1 =⇥0.6154 0.3846
⇤
µ̄2 =⇥0.2857 0.7143
⇤
0 1
2 1
1 1
0 0
a1 a2
a1
a2
1 0
1 1
1 1
0 1
a1 a2
a1
a2
2 0
1 1
2 2
2 0
a1 a2
a1
a2
1 1
2 1
0 0
0 1
a1 a2
a1
a2
s2(✓)s2(✓)
s1(✓)
s1(✓)
8>>>>>>>>>>>><
>>>>>>>>>>>>:
µ1
8>>>>>>>>>>>><>>>>>>>>>>>>: µ2
8>><
>>:
8>><
>>:
8>><>>:8>><>>:
↵ = 0.3, � = 0.08
�17
シミュレーション結果
推定結果が答えと一致µ̄1 =
⇥0.6154 0.3846
⇤
µ̄2 =⇥0.2857 0.7143
⇤
s̄目標値
A1 =
0.6 0.30.4 0.7
�, A2 =
0.4 0.30.6 0.7
�↵ = 0.3, � = 0.08
推定結果 µ̄1
推定結果 µ̄2
�18
まとめ • 指定したBN均衡に対応する信念の推定法の提案 • BN均衡の遷移モデルの導出 • 数値例を用いて信念の推定が可能であることを確認
""今後の課題 • 安定性解析 • 仮定と遷移モデルのパラメタライゼーション • 繰り返しゲームへと遷移モデルの拡張
おわりに
BN均衡の十分条件
BN均衡の定義
"➡ 混合戦略の組 はベイジアンナッシュ均衡
8i 2 Ns̄i 2 argmax
siEUi(si, s̄�i)
s̄
�19
均衡遷移モデルの導出
帰納法を用いて,BN均衡の十分条件を満たすモデル を導出f
BN均衡なら全ての でKarush-Kuhn-Tucker(KKT)条件を満たすi 2 N
KKT条件からBN均衡になる十分条件を導出
(µ, s)がBN均衡の十分条件を満たす均衡対前提:
がBN均衡の十分条件を満たす(µ+, s+)命題:
帰納法
EUi(si, s�i)argmax
si
s.t gi(si) 0 hi(si) = 0確率分布が満たす条件
8i 2 N
期待効用を目的関数とする線形計画問題の最適解
given µ, s�i
�20
仮定と均衡遷移モデルのパラメタライゼーション
本発表の仮定とモデル⇥1 �1
⇤Ui(✓i, ✓)
⇥0 1
⇤T= 0 (8✓i 2 ⇥i 8i 2 N )仮定
fi(si(✓), µ, µ+) =
1 00 1
�si(✓)
8i 2 N
fi(si(✓), µ, µ+) =
2
4c�i(✓)
c�i(✓)0
1� c�i(✓)
c�i(✓)1
3
5 si(✓)モデル
他の仮定とモデル(8✓i 2 ⇥i 8i 2 N )仮定
⇥1 �1
⇤Ui(✓i, ✓)
⇥1 0
⇤T= 0
モデル fi(si(✓), µ, µ+) =
1 00 1
�si(✓)
8i 2 N
fi(si(✓), µ, µ+) =
2
41 1� c�i(✓)
c�i(✓)
0 c�i(✓)
c�i(✓)
3
5 si(✓)
fi(si(✓), µ, µ+) =
8<
:�
2
4c�i(✓)
c�i(✓)0
1� c�i(✓)
c�i(✓)1
3
5+ (1� �)
2
41 1� c�i(✓)
c�i(✓)
0 c�i(✓)
c�i(✓)
3
5
9=
; si(✓)
モデル fi(si(✓), µ, µ+) =
1 00 1
�si(✓)
8i 2 N
パラメタライゼーションした仮定とモデル
(8✓i 2 ⇥i 8i 2 N )仮定⇥1 �1
⇤Ui(✓i, ✓)
⇥� 1� �
⇤T= 0 � 2 [0, 1]