版权声明:本文为原创文章,未经博主允许不得用于商业用途。
基础知识
- 零和博弈:在两名玩家的博弈中,满足$\forall a_1\in A_1,\forall a_2\in A_2,u_1(a_1,a_2)+u_2(a_1,a_2)=0 $即为零和博弈,即两名玩家的总收益为0。
- 对于零和博弈可以只使用一个玩家的收益函数简化表示,即G = { { 1 , 2 } , { A 1 , A 2 } , { u } } G=\{\{1,2\},\{A_1,A_2\},\{u\}\}G={{1,2},{A1,A2},{u}}
纯策略博弈
- 在零和博弈中,两名玩家都不希望结果太坏,因此玩家i决策依据如下原则:max a i ∈ A i min a j ∈ A j u i ( a i , a j ) \max\limits_{a_i\in A_i}\min\limits_{a_j\in A_j}u_i(a_i,a_j)ai∈Aimaxaj∈Ajminui(ai,aj),即都在最坏策略下做出最好选择。
- 由于总体收益为0,即max a 2 u 2 = max a 2 − u 1 = − min a 2 u 1 \max\limits_{a_2}u_2=\max\limits_{a_2}-u_1=-\min\limits_{a_2}u_1a2maxu2=a2max−u1=−a2minu1因此上述公式可以化为:
- Player1:a 1 = a r g max a 1 ∈ A 1 min a 2 ∈ A 2 u ( a 1 , a 2 ) a_1=arg\max\limits_{a_1\in A_1}\min\limits_{a_2\in A_2}u(a_1,a_2)a1=arga1∈A1maxa2∈A2minu(a1,a2)
- Player2:a 2 = a r g min a 2 ∈ A 2 max a 1 ∈ A 1 u ( a 1 , a 2 ) a_2=arg\min\limits_{a_2\in A_2}\max\limits_{a_1\in A_1}u(a_1,a_2)a2=arga2∈A2mina1∈A1maxu(a1,a2)
- 由于总体收益为0,即max a 2 u 2 = max a 2 − u 1 = − min a 2 u 1 \max\limits_{a_2}u_2=\max\limits_{a_2}-u_1=-\min\limits_{a_2}u_1a2maxu2=a2max−u1=−a2minu1因此上述公式可以化为:
- 最小化最大化定理:M i n M a x ≥ M a x M i n MinMax\geq MaxMinMinMax≥MaxMin
- 可以用反证法,如果存在p = M i n M a x < q = M a x M i n p=MinMax<q=MaxMinp=MinMax<q=MaxMin,设p pp为第i 1 i_1i1行第j 1 j_1j1列,q qq为第i 2 i_2i2行第j 2 j_2j2列,则p为第i 1 i_1i1行最大值,q为第j 2 j_2j2列最小值,因此u ( i 1 , j 2 ) ≥ q , u ( i 1 , j 2 ) ≤ p ⇒ p ≥ q u(i_1,j_2)\geq q,u(i_1,j_2)\leq p\Rightarrow p\geq qu(i1,j2)≥q,u(i1,j2)≤p⇒p≥q,矛盾。
- 因此纳什均衡存在的充要条件即M i n M a x = M a x M i n MinMax=MaxMinMinMax=MaxMin
例题:

- 对于Player1,a r g M i n = { ( U , L ) , ( U , M ) , ( M , M ) , ( D , M ) . ( D , R ) } argMin=\{(U,L),(U,M),(M,M),(D,M).(D,R)\}argMin={(U,L),(U,M),(M,M),(D,M).(D,R)},其中收益最大值点为(M,M),因此选择策略M。
- 对于Player2,a r g M a x = { ( L , D ) , ( M , M ) , ( R , U ) } argMax=\{(L,D),(M,M),(R,U)\}argMax={(L,D),(M,M),(R,U)},当Player1收益最低点为(M,M),因此选择策略M。
综上纳什均衡点为(M,M)
混合策略零和博弈
在混合策略中,收益函数可以表示为U ( p , q ) = p M q T . p = ( p 1 , . . . , p m ) ∈ Δ 1 , q = ( q 1 , . . . , q n ) ∈ Δ 2 U(p,q)=pMq^T.p=(p_1,...,p_m)\in \Delta_1,q=(q_1,...,q_n)\in \Delta_2U(p,q)=pMqT.p=(p1,...,pm)∈Δ1,q=(q1,...,qn)∈Δ2,M为纯策略收益矩阵。
因此同样可以表示两玩家的策略:
- Player1:p = a r g max p ∈ Δ 1 min q ∈ Δ 2 u ( p , q ) p=arg\max\limits_{p\in \Delta_1}\min\limits_{q\in \Delta_2}u(p,q)p=argp∈Δ1maxq∈Δ2minu(p,q)
- Player2:q = a r g min q ∈ Δ 2 max p ∈ Δ 1 u ( p , q ) q=arg\min\limits_{q\in \Delta_2}\max\limits_{p\in \Delta_1}u(p,q)q=argq∈Δ2minp∈Δ1maxu(p,q)
极大极小定理同样适用。
版权声明:本文为lengjiayi原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。