IT博客汇
  • 首页
  • 精华
  • 技术
  • 设计
  • 资讯
  • 扯淡
  • 权利声明
  • 登录 注册

    如何理解,在子博弈精炼纳什均衡里,对「在每一个子博弈上给出纳什均衡」?

    长泽雅美发表于 2015-12-24 10:16:00
    love 0
    我的理解是,SPNE要求players的策略必须蕴含所有的子博弈上的策略,不能因为某个子博弈是counterfactual的,就将它忽略掉。而对于某个subgame,player将在之前其他players选择的行动看做是参数,而不是信号。

    举个Harris, Reny, and Robinson(1995)(The Existence of Subgame-Perfect Equilibrium in Continuous Games with Almost Perfect Information: A Case for Public Randomization on JSTOR)的例子:

    四个players,分别是,Aragaki, Bob, Catherine,和David。Aragaki的行动空间是A_1 = [-1,1], 而Bob, Catherine,和David的行动空间均为A_2 = A_3 = A_4 = \{0,1\}。

    整个博弈分两个阶段,在第一个阶段,Aragaki和 Bob同时选择,分别记做a_1和a_2。在第二阶段,Catherine和David均观测到a_1和a_2,并同时做出选择,即a_3和a_4。注意,和Aragaki和 Bob的情况不同,Catherine和David的行动空间和策略空间并不相同:

    S_i = A_i^{A_1 \times A_2} \text{ for } i = 3, 4

    他们的效用函数均记做: u_i : \times_{i=1}^4 A_i \to \mathbb{R} \text{ for } i = 1,2, 3, 4

    这个博弈无穷多个子博弈,除了自身外,每个子博弈对应一个(a_1, a_2)。我们可以理解为,在这个子博弈上,只有两个players,即Catherine和David,他们不会问这样的问题,为什么观测到的Aragaki和 Bob的行动是(a_1, a_2)而不是(a_1^\prime, a_2^\prime)。在这个子博弈上,Catherine和David的策略空间是A_3和A_4, 效用函数:u_i ( a_1, a_2, \cdot, \cdot): A_3 \times A_4 \to \mathbb{R} \text{ for } i =  3, 4

    -----------------------------------------------------------------------------

    关于player将在之前其他players选择的行动看做是参数,而不是信号, 见恋爱中有哪些博弈? - 长泽雅美的回答。 如果Bob将Aragaki的第一步行动看做signgal,则只有一个NE。但如果用backward induction,则对应四种结果(SPNE不止4种)。

    -----------------------------------------------------------------------------

    接着第一部分的四人博弈,只是为了说明SPNE的存在并不是显然的。

    u_i = (2a_i - 1)a_1 \text{ for } i = 3, 4,即Catherine和David自身的行动决定他们的支付是正还是负,而支付的绝对值由Aragaki的行动a_1决定。

    u_2 = (1 - 2|a_2 - a_3|)(a_2+1),即Bob的支付是正还是负由是否他的行动和Catherine是否相同来决定,而支付的绝对值由自己的行动决定。

    u_1 =10 (1 - |a_3 - a_4|) + (2|a_2 - a_3|-1)|a_1| -a_1^2,即Aragaki最希冀的是Catherine和David的行动相同。其次是Bob和Catherine的行动不同。

    Claim:如果存在SPNE,那么Aragaki和Bob的均衡策略都不是纯策略。

    首先,只要a_1 \neq 0, 必然a_3 = a_4。但是这样对于Bob他的最优策略必然是a_2 = a_3.然而Aragaki可以提高自己的效用水平,通过选择-|a_1|。

    另外只有当Catherine和David的策略f_3, f_4满足f_3(0) = f_4(0) 时, Aragaki才会选择a_1 = 0。但这样一来上面的情况还是会出现。所以Aragaki的均衡策略不会是纯策略。

    对于Bob,选择纯策略a_2,则Aragaki的最优策略是\frac{1}{2}-a_2。
    但这么一来,对于Bob来说,1-a_2可以带来更高的效用。

    另一方面,如果Bob选择混合策略,那么他应该让0和1的概率均为0.5,否则Aragaki的最优策略将是纯策略,a_1 = 0或者不存在。另一方面如果Bob不选择等可能的混合策略,则Aragaki会针对的选择纯策略。

    所以这个博弈不存在SPNE,尽管效用函数连续,players有限,而且唯一的无穷行动空间也是紧致的。

    来源:知乎 www.zhihu.com
    作者:长泽雅美

    【知乎日报】千万用户的选择,做朋友圈里的新鲜事分享大牛。 点击下载

    此问题还有 3 个回答,查看全部。
    延伸阅读:
    期望效用和期望值的效用两者的具体概念和差别是什么?
    微观经济学里的序数排列和基数排列都是什么?


沪ICP备19023445号-2号
友情链接