第二节纳什均衡

精品课程《运筹学》

第二节纳什均衡第二节纳什均衡

§2.1 纳什均衡的概念

§2.2 纳什均衡的求解

§2.3 混合策略和混合纳什均衡


第二节纳什均衡纳什均衡是对策论中一个重要的概念。尤其

在非合作对策分析中具有十分关键的作用。通过对经典对策模型的分析知道 : 对于对策中的每一个局中人，真正成功的措施应该是针对其他局中人所采取的每次行动，相应地采取有利于自己的策略。于是，每一个局中人应采取的策略必定是他对其他局中人策略的预测的最佳反应。 Nash 均衡正是体现这一基本原则。


第二节纳什均衡 §2.1 纳什均衡的概念用表示一个对策，若一个对策中有个局中

人，每个局中人可选策略的集合分别用表示；表示局中人的第个策略，

其中可取有限个值、也可取无限个值；对策方的得益用表示；是各对策方策略的多元函数，个局中人的对策常写成

=

G n

nSSS ,, 21 ijS i jji ih ih

n G

G nn hhhSSS ,,;,, 2121


第二节纳什均衡定义 8.2.1 在对策 = 中，

如果有由各个对策方的各选取一个策略组成的某个策略组合中，任一对策方的策略为，都是对其余策略方策略的组合

的最佳策略，即

对任意都成立则称为一个纯策略纳什均衡。


**2

*1 ,, nSSS

i*iS

**1

**1 ,, nii SSSS

),,,,( **1

**1

*1 niiii SSSSSh ),,,,( **

1*

1*1 niijii SSSSSh

ijS iS **2

*1 ,, nSSS


第二节纳什均衡例 8.2.1 “ 囚徒的困境” 警察抓住了两个罪犯，但

是警察局缺乏足够的证据指证他们所犯的罪行。如果罪犯中至少有一人供认犯罪，就能确认罪名成立。为了得到所需的口供，警察将这两名罪犯分别关押以防止他们串供或结成攻守同盟，并分别跟他们讲清了他们的处境和面临的选择：如果他们两人都拒不认罪，则他们会被以较轻的妨碍公务罪各判 1 年徒刑；如果两人中有一人坦白认罪，则坦白者立即释放而另一人将重判 8 年徒刑；如果两人都坦白认罪，则他们将被各判 5 年监禁。


第二节纳什均衡局中人为两个囚徒，两个人都有两种策略（坦

白、不坦白），两人的策略集共有四个元素。我们用 -1 、 -5 、 -8 分别表示被判刑的

得益，用 0 表示被释放的得益，则可由下面的得益矩阵将此对策予以表示：表 8.2.1

囚

徒1囚

徒2

策略

坦白不坦白

策略坦白（ -5， -5）（ 0， -8）

不坦白（ -8， 0）（ -1， -1）


第二节纳什均衡对囚徒 l 来说，囚徒 2 有坦白和不坦白两种

选择，假设囚徒 2 选择的不坦白，则对囚徒 l来说，不坦白得益为一 l ，坦白得益为 O ，应该选择坦白；假设囚徒 2 选择的是坦白，则囚徒 1 不坦白得益为一 8 ，坦白得益为一 5 ，他更应该选择坦白。囚徒 2 唯一的选择也是坦白。

例 8.2.2 设某村庄有 3 个农户，该村有一片大家都可自由牧羊的公共草地。由于这片草地的面积有限，草的数量只能让数量有限的羊吃饱，如果在此草地上放牧的羊的实际数量超


第二节纳什均衡过这个限度，每只羊都无法吃饱，从而羊的产

出就会减少，甚至只能勉强存活或要饿死。假设这些农户只有夏天才到公共草地放羊，而每年春天决定养羊的数量，各农户在决定自己养羊的数量时是不知道其他农户的养羊数量的，各农户养羊数的决策是同时作出的。假设下面信息知道的：每只羊的产出（价格）是羊只总数的减函数，， , 为第个农户饲养羊的数量，每只羊的饲养成本为 8 元。

Qp 120 321 qqqQ iq i


第二节纳什均衡

第一个农户是这样决策的：自己养羊的得益为 = - 8

= -8

为方便起见，设羊数量是可分的。不管其他农户数量如何，第一人总希望自己收益最大。

由此得出：每个农户都得出与此相同的结论：

1P pq 1 1q )(120 3211 qqqq 1q

01

1 qP

321

221

1 56 qqq 321

121

2 56 qqq 221

121

3 56 qqq


第二节纳什均衡三条曲线的交点 ( ) 就是纳什均衡。联立解之：

（只）此为三农户同时独立决定数量时所获得的稳

定结果。任何单方面的擅自改变会使自己受损。各自得益为 784 ，三农户总收益为 2352 。

从总体利益的角度来考察公共草地上羊的最佳数量。设羊的总数为，则总得益为：

= =112 -

*3

*2

*1 ,, qqq

28*3

*2

*1 qqq

P QQQ 8)120(

Q

2Q



由，解之得 =56 （只），总收益 =3136 。这说明纳什均衡常是低效的。§2.2 纳什均衡的求解 1.箭头法：纳什均衡是最优的，任何单方面的改变都将使改变者自己受损。这是箭头法的基础。箭头法对每个策略组合判断，看各博弈方能否通过改变自己的策略而改善其得益，如能，则从所考察的策略组合引一箭头到改变后的策略组合。对每个可能的策略组合进行判断

0dQdP *Q

P


第二节纳什均衡求得最优解。如在囚徒的困境博弈中有，可从任一策略组

合开始考察。先看策略组合 ( 不坦白，不坦白 ) ，在该策略组合时，囚徒 l 和囚徒 2 都会发觉，如果自己单独改变策略就能增加自己的得益( 从一 1 到 O) ，因此囚徒 1 原来的 ( 不坦白，不坦白 )变为 ( 坦白，不坦白 ) ，囚徒 2 也有同样的结论。



（图 8.2.1 ）2.严格下策反复消去法不管其他人策略如何变化，自己某一策略带

（ -5， -5）（ 0， -8）

（ -8， 0）（ -1， -1）不坦白

坦白囚徒2

坦白不坦白

囚徒 1



来的收益总被其他某些策略带来的收益要小，称这某一策略为相对于其他某些策略的严格下策策略。决策者是不可能选择任何严格下策的。如果发现某策略是相对于其他某些策略的严格下策，就可以将它从对策方的策略空间中去掉，这样就只需要在剩下的较小的策略空间中进行分析了。

例 8.2.3 这是一个抽象对策问题：


第二节纳什均衡参与人 2

参左中右与上人下

1 图 8.2.2

参参与人 2

与左中人上 1

下图 8.2.3

（ 1 ，0 ）

（ 1 ，2 ）

（ 0 ，1 ）

（ 0 ，3 ）

（ 0 ，1 ）

（ 2 ，0 ）

（ 1 ，0 ）

（ 1 ，2 ）

（ 0 ， 3 ）

（ 0 ，1 ）


第二节纳什均衡参与人 2

左中1 上图 8.2.4

对参与人 2 ，左又成为严格劣战略，仅剩的( 上，中 ) 就是此博弈的结果。通过上面的讨论可以看出，严格下策反复消去法与纳什均衡之间有密切的关系。下面的两个定理就是表明这种关系的。

（ 1 ，0 ）

（ 1 ，2 ）


第二节纳什均衡定理 8.2.1 在个博弈方的博弈在对策 =

中，如果严格下策反复消去法排除了以外的所有策略组合，则一定

是 G 的唯一的纳什均衡。定理 8.2.2 在个博弈方的博弈 =

中，如果是 G 的一个纳什均衡，则严格下策反复消去法一定不会将它消去。

3. 反应函数法（适应于变量为产量等这样连续变化的情况）

G

nn hhhSSS ,,;,, 2121 **2

*1 ,, nSSS

**2

*1 ,, nSSS


**2

*1 ,, nSSS



例 8.2.4 （古诺的两寡头模型）设市场有 1 、 2两家厂商，他们生产相同的产品。设厂商 1 的产量为，厂商 2 的产量为，则市场总产量为。为市场的出清价格 ( 可以将产品全部卖出去的价格 ) ， =100- 。再假设两厂商的生产无固定成本，两厂家边际生产成本相等，，两厂家同时决定各自产量，使利润最大。

设第个厂商的利润为 =

1q 2q

21 qqQ pp Q

221 cc

iP )( iii cpq ))(98( 21 qqqi


第二节纳什均衡反应函数的概念：对厂商 1 来说，给定厂商

2 的任意产量，厂商 1 的最佳反应为

即厂商 1 的最佳产量为厂商 2 的产量的连续函数，称此函数为厂商 1 对厂商 2 的产量的反应函数记为。同理，厂商 2 对厂商 1 的产量的反应函数记为。

用反应函数表示两厂商之间的产量关系为

2q

)98( 221

1 qq

121 : qqR

212 : qqR


与

在双方反应函数对应直线交点上，才是双方都满意的最佳反应组合，此时，。

)98()( 221

21 qqR )98()( 121

12 qqR

(0,49)

)98,0(

)( 21 qR

)( 12 qR

)0,49( )0,98(

1q

图 8.2.5


9831*

2*1 qq



将上面模型略作修改，即为斯塔克博格模型。两个厂商中，一方较强，一方较弱。强的一方领先行动，而较弱的一方则跟在较强的一方之后行动。设厂商 1 是领头厂商先行选择，厂商2追随其后，其他条件不变。

厂商 1 的产量为已经确定，厂商 2 为使利润最大，应选择，厂商 1 知道厂商2 的决策思路 =

求其最大得：

)98( 121

2 qq 1q

)))98((98( 121

111 qqqP 1123 )98( qq

49*1 q 492

1*2 q


第二节纳什均衡与古诺模型相比，此时总产量 > ，此时价格更低，利润更少。这说明垄断的效果不如自由竞争。

当然并非所有的对策都有纳什均衡，如石头、剪子、布就没有均衡。

§2.3 混合策略和混合纳什均衡定义 8.2.2 在对策 = 中，局中人

的策略集为，则他以概率分布随机在其个可选策略中选择的“策略”

称为一个混合策略，其中

9843* Q 983

2


ikii SSS ,,1

ikii ppp ,1 k


第二节纳什均衡 O≤ ≤1 对 =1 ，…，都成立，且 =1 。由定义可以看出，纯策略也可看作混合策略。

定义 8.2.3 如果一个策略 = 中，参与者的策略集为，如果由各个对策方的策略组成策略集合

式中都是对其余对策方策略组合的最佳策略，即

ijp j k

k

jijp

1


i ikii SSS ,,1

*G **2

*1 ,, nSSS

i

i

m

iiii

mii xmixExS

1

* 1,,2,1,0

),,,,,,(),,,,,,( **1

*2

*1

***1

*2

*1 niji

inii

i

SSSSSSSSSS


第二节纳什均衡对任意都成立，则称为

的一个混合策略纳什均衡。

ijS iS *G **2

*1 ,, nSSS

G

第二节 纳什均衡

Documents

第二节纳什均衡