章有限重复博弈.ppt

资源ID：2806722 资源大小：470.54KB 全文页数：52页
资源格式： PPT 下载积分：8元

快捷下载

会员登录下载

微信登录下载

三方登录下载：

微信扫一扫登录

下载资源需要8元

邮箱/手机：
温馨提示：	用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）
支付方式：
验证码：	换一换

加入VIP免费专享

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

友情提示

1、下载资料失败解决办法

2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。

3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。

4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

5、试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓。

网站客服

侵权投诉

章有限重复博弈.ppt

第11章有限重复博弈,在每一个重复博弈中，有一个实施许多遍的组件博弈有时候称作阶段博弈。,博弈中的盈利是每个阶段的盈利之和,修改版囚徒困境,我们对标准的囚徒困境添入一个策略；除了c与n之外，每个局中人有第三个策略，设为p，表示“部分认罪”。考虑如下阶段博弈：,1,无限重复囚徒困境,假设在每一个阶段两个局中人参与囚徒困境。但是，没有固定的重复次数。他们每一次参与阶段博弈，存在概率使相同的局中人再次参与阶段博弈。反过来，存在着概率1 使当前的相互作用成为最后一次相互作用。,这个博弈叫做无限重复囚徒困境；此术语归因于博弈没有固定终点这一事实。无限重复囚徒困境的盈利计算如下。假设在第t阶段，局中人i得到盈利it。在实际中实施到第t阶段的可能性是 t。从而第t阶段的期望盈利是 tit。总期望盈利是这些阶段博弈期望盈利之和；即,等于定义重复博弈由阶段博弈G和它的重复次数（设为T）确定。阶段博弈G是策略型博弈：其中Si是局中人i的策略集，i是他的盈利函数它依赖于（s1, s2, , sN）。,经济应用,短期国库券拍卖。专利药品市场的竞争。 NASDAQ市场制作。国际石油市场或OPEC。,有限重复博弈,T次重复囚徒困境的唯一子博弈完美均衡是，在每一突发事件中局中人认罪。假如修改版囚徒困境进行T次。考虑如下策略对：从（n, n）开始，除了最后一次以外，在所有阶段继续取（n, n）在最后阶段，采取（p,p）。沿着所提供的这个程序，没有一个局中人会偏离它（并在首T个阶段中的任何一个阶段中采取非n的其他策略）。倘若发生了偏离，从随后的阶段起并一直下去都采取（c, c）。所述的策略是子博弈完美均衡。,命题考虑有限重复博弈（G,T），其中G = Si, i; i = 1, 2, , N。假如阶段博弈G恰好只有一个纳什均衡，设为（s1*, s2*, , sN*）。那么重复博弈有唯一的子博弈完美均衡。在这个均衡中，不管局中人i或其他任何局中人，在任何一个以前的阶段中采取了什么样的行动，局中人i在T个阶段的每一个中都取si*。,案例分析：短期无息国库券拍卖,对某些有价证券，存在单价拍卖。其间所有购买者支付同样价钱。对某些其它的有价证券，存在多重价格拍卖，其间不同的购买者支付不同的价格。现在我们要研究的问题如下：如果财政部希望极大化它的筹资数量，它应该采用两种拍卖形式中的哪一种？,简化假设。,第一，我们将假设在这次拍卖中有两家金融机构，或者局中人。第二，财政部在一次又一次的拍卖中所出售的量保持不变；令这个量等于100。第三，我们将假设每个购买者可以报两种价格和两个购买量；称为高（h）及低（l）和数量50及75。第四，购买者只关心利润；每种有价证券的利润，如果价格为h，则表示为h，同样地如果价格是l 则利润表示为l。假定两种利润水平都是正的（当然，l h）。,如果每个购买者都想以高价购买，那么在这个价格上的总需求至少是100并且所有国库券都以这个价格出售。同样，如果两个购买者都希望以低价购入，那么市场价格就低。但是，如果购买者之一想以h购买而另一个想以l购买，那么价格结局依赖于拍卖形式。在单价拍卖中，市场价格将为低，而在多重价格拍卖中，一个购买者将支付h而另一个支付l。在任何一种情况，高投标者得到他要求的所有数量，剩下的数量则分配给低投标者。最终，如果价格投标相同，那么数量以需求比例进行分配。例如，如果一个购买者想要75单元而另一个想得到50单元，那么前者得到现成的100单元中的60单元。,单价拍卖的策略型如下：,购买者1 50, h 75, h 50, l 75, l 购买者2 50, h 50h , 50h 40h, 60h 50l, 50l 50l, 50l 75, h 60h , 40h 50h, 50h 75l, 25l 75l, 25l 50, l 50l, 50l 25l, 75l 50l, 50l 40l, 60l 75, l 50l, 50l 25l, 75l 60l, 40l 50l, 50l,多重价格拍卖的策略型,购买者2 50, h 75, h 50, l 75, l 购买者1 50, h 50h, 50h 40h, 60h 50h, 50l 50h, 50l 75, h 60h, 40h 50h, 50h 75h, 25l 75h, 25l 50, l 50l, 50h 25l, 75h 50l, 50l 40l, 60l 75, l 50l, 50h 25l, 75h 60l, 40l 50 l, 50l,考察缩小了的单价拍卖：,购买者2 75, h 75, l 75, h 50h , 50h 75l , 25l 75, l 25l , 75l 50l , 50l 缩小了的多重价格拍卖：购买者2 75, h 75, l 75, h 50h , 50h 75h , 25l 75, l 25l , 75h 50l , 50l,购买者1,购买者1,情况I：竞争的情况,假设，即使以低价格购买一半数量是无利可图的；即，假如50h 25l。那么在缩小了的单价拍卖中h是优策略。因此阶段博弈中唯一的纳什均衡是（h, h）。财政部特别喜欢，因为在每一个阶段中的（h, h）也就成为唯一的子博弈完美。（为什么？）如财政部所作的那样，重复拍卖，使得在市场上竞争的剧烈程度不起作用并且不允许参与者为保持低价格而作确实有效的交易。现在考虑缩小的多重价格拍卖。如果对于低价格的最优反应也是出低价，即，如果50l 75h，那么这次就可能有第二个纳什均衡了。在那种场合，（l, l）也是纳什均衡；即，购买者企图无保留地进行串通，使价格保持低位。因而一个子博弈完美均衡是双方购买者一直都出价l。,情况II：共谋串通情况,在多重价格拍卖中，l是优策略（从而，购买者由于报低价而“亏待”财政部）。在单价拍卖中，阶段博弈存在唯一的混合策略纳什均衡. 唯一的阶段博弈均衡策略也是唯一的子博弈完美均衡策略。因此，在多重价格拍卖中，（l, l）被重复地实施，而在单价拍卖中，l和h的对等混合（纳什均衡）重复地实施。因为在后者均衡中，财政部发现至少在某些时候为高价格，显然财政部觉得这样更可取。总的来说，单价拍卖总是受到财政部的青睐。在竞争场合，它一直确保高价格，而在共谋串通情况，有些时候保证高价格。,第12章无限重复博弈,折扣,局中人i的总折扣盈利为有关折扣总和的一个事实是非常有用的：事实1：当每个阶段的阶段博弈盈利都等于1时，总和1 + + 2+ + t + 等于因此，当阶段博弈盈利为常数，比方，那么总和等于,触发策略和好行为,囚徒困境阶段博弈周而复始地进行，没有明确的最后阶段。考虑如下策略对，每个局中人对应一个策略：由采用（n, n）开始。如果在任何阶段没有一个局中人认罪，那么继续采用（n, n）。但是，如果在某个阶段两个局中人中只要有一个认罪，那么从此以后每个阶段一直采用（c, c）。像这样的策略称为严厉的触发策略：对可取行动（n, n）的偏离，开启了“惩罚阶段”（c, c）。触发在下述意义下是严厉的，惩罚阶段一旦开始，决不撤消。,对于严厉触发策略，实际上只有两类子博弈（1）在首t个阶段重复采用（n, n）之后的子博弈，和（2）其它的子博弈。对于类型（2），策略明确说明从此以后都采用（c, c）。在这个子博弈里面，它的确是纳什均衡。没有一个局中人能在任何阶段通过取n来对付c从而增加自己的盈利；而且，他不会改变今后预期的行动方式。,对于类型（1）的子博弈，让我们检查一下局中人在任何阶段是否有认罪的动机而其他的局中人在那个阶段取的是n。做这样的事将给认罪的局中人带来眼前的盈利7，但在以后的每一个阶段结果盈利为0。（为什么？）继续采用这个策略将为这个局中人产生当前阶段的盈利5和未来每一个时期中一连串的盈利5。因而，继续采用这个策略的总盈利为显然，只要，即，只要大于 2/7 ，继续采用所提出的严厉触发策略较好一些。,在无限重复博弈中“好”是可以持续的，因为在每一个阶段有可能做出有条件的好人承诺如果今天你“好”，那么明天我也“好”。（伴随的威胁是，如果今天你“恶”，那么此后我一直“恶”。）承诺保证了盈利5的持续不断；凶恶地威胁表明了从此以后盈利降为零。如果一个局中人单方面决定今天当一回恶人，那么在他们中间，构成了将来损失5 /（1- ）的盈利。如果很在乎未来，即，如果大的话，这种“大棒胡萝卜”是十足的威慑。,严厉的触发策略由两个部分组成：第一，存在严厉的惩罚，永远地（c, c）下去。第二，存在可取的“好人”行为，永远地（n, n）。对可取行为的任何背离会触发惩罚。如果足够地大，那么严厉惩罚是十足的威慑以及“好人”行为是可以如愿以偿的。严厉惩罚的威慑也可以有助于实现其他行为。伴随不同的（和不太苛刻的）惩罚，“好人”行为也许是可实现的。,其它的惩罚,考虑下述内容：由取（n, n）开始，如果没有一个局中人认罪则继续采用（n, n）；然而，如果任一个局中人在某个阶段认罪，那么在下面T个阶段采用（c, c）。此后，返回到（n, n），不过，记住以后每一次背离（n, n）也将遇到T阶段的（c, c）。像这样的策略称为宽容触发。对可取行为（n, n）的偏离触发了惩罚阶段（c, c）的开启，但是所有这些在T阶段惩罚之后得到宽容。宽容触发是充分威慑吗？当一个局中人被认为取n时他却取了c，他得到了盈利7，然后跟着T个阶段得0，接下来一旦行动回到（n, n）得到5的无限序列。这样从这个“异常”行为得到的总盈利是,但是，继续采用提出的不认罪行为产生了5的无限序列，即，终身盈利为如果或者等价地那么触发是确实有效的。当折扣因子接近于1，公式的左边近似地为5(T + 1）。因此，当未来重要时即，当接近于1时即使一个周期的惩罚即，即使T = 1惩罚也是充分的。,定义一个行为循环是行动的重复周期；T1个阶段采用（n, n），然后T2个阶段实施（c, c），接着T3个阶段的（n, c），然后T4个阶段的（c, n）。在这些T1 + T2 + T3 +T4个阶段结束时，又开始了循环，然后再开始。如此等等。无名氏定理均衡行为考虑任何个人理性行为循环。每当折扣因子接近于1，那么这个循环可实现为子博弈完美均衡的行为。均衡策略构成均衡的一个策略是严厉触发；从可取的行为循环开始，如果两个局中人不做其它事则继续采用它。如果两者之中任何一个局中人偏离去做其它某些事情，那么此后一直采取（c, c）。,所有可能的行为都是均衡行为在任何均衡中，每一个局中人在循环上的盈利必定至少为零。该陈述是正确的，因为每一个局中人可以使自己的盈利高于在每一阶段完全地都认罪。无名氏定理的结果指出了对于均衡来说，正盈利不仅是必要的，而且也是充分的；每一个具有正盈利的行为循环都是关于高值的均衡。考虑所有的盈利你也许认为，只考虑循环，我们排斥了一定类型的行为。虽然是的确如此，然而这种限制并不造成损失，因为我们并没有排斥任何可能的盈利。说明一下，从盈利到行为循环的一个考虑方法是利用它的每一阶段平均盈利，。当我们察看不同的行为循环时我们得到不同的每阶段平均盈利。假如我们察看的行为不是循环。这种型式当然也有它的每阶段平均盈利。得到的结论是，不管这个每阶段平均盈利等于多少，总存在一个行为循环恰好具有与它相同的每阶段平均盈利。,未来必须是重要的结论只对高值有效，因为那正好是做出具有威慑价值的承诺和威胁所必需的值。如我们前面所见，高的意味着未来的盈利是重要的。转而，该事实意味着未来的承诺或威胁可以影响当前行为。无限多个均衡结论的含义是在无限重复囚徒困境中存在无限多个子博弈完美均衡。从预测的观点来看这很令人失望。所有我们可以推断的是，将要发生的威胁和奖励是如此有影响以至于局中人可能愿意去做几乎任何事情。可观察行动迄今为止，分析的一个缺陷在于它要求偏离是完全可观察的从而可以立即给予惩罚。在许多场合这个假设是不切合实际的，因为其他局中人关于对手在过去已经作了什么可能没有精确的信息。,具不完美察觉的重复博弈,定义。临界触发策略定义为一个数，比如m。局中人由取（n, n）开始，并且如果两个局中人在每一阶段的盈利保持在m之上，则继续这样做。两者之中任一个盈利第一次掉到m 以下时，局中人持续T阶段取（c, c）；然后重新开始此策略。触发越严厉，即，T越高，这个策略越有可能成为均衡。触发越严厉或者越迅速（m越高），策略越无利可图。,第13章应用于公共问题的动态博弈,公共问题：模型,阶段t的博弈环境是在该阶段的资源储存（resource stock）的大小yt；yt 0。资源可以为任何局中人所享用，让我们继续假设有两个局中人。局中人i在t阶段消耗的资源或提取记为cit。又，自然地仅考虑cit 0。消耗给局中人I带来盈利或效用。 yt的精确值限制了可以提供消耗的总量；即，在每一个阶段t，必须是如下情况于是，没有提取的资源量为。这是可以用来产生未来增长的投资；称它为xt。由前面的公式，得到xt 0。通过生产函数投资产生了下一个周期的库存yt+1 。,我们考虑可再生资源（renewable resource），即资源满足yt+1 x t 。假如局中人i通过消耗数量ci得到的效用为log ci；假设投入xt引起阶段（t + 1）的储存具有大小有趣的问题是：资源储存yt如何随时间而演化，和是否存在一个可以持续下去的最终数量？社会最优的可持续资源库存是多少？策略地相互作用会导致资源的过度提取吗？,可持续发展和社会最优效果,我们从社会最优效果开始：如果人们希望在一个“两人社会”中，使他们尽可能地开心，每一个人应该怎样提取资源？,模式,事实上，我们可以再往前猜想一步；在无限阶段模型中每一个阶段的消耗比例将是恒等的，因为在每一种情况中剩下恰好相同数目的阶段。这个恒等的消耗量函数，称为c(y)，将由当T趋于无限时最优消耗量的极限给出。因为转而我们可以断言,可达到预期目的的发展和博弈均衡,与社会最优问题一样，我们现在可以发现一个模式：,在无限阶段模型，均衡消耗函数，记作c*(y)，将由当T趋于无限时均衡消耗量的极限给出。因为我们可以断定,社会最优与均衡结局的比较,总的教训是单方面提取导致过度提取；均衡解的消耗量高于社会最优解的消耗量。,第14章具不完全信息的博弈,囚徒困境,假设局中人1具有囚徒困境博弈中通常的优先选择：无论局中人2认罪与否，它总是愿意认罪。但（局中人1）不知道局中人2的优先选择；他可以或者是一个“强硬的”局中人，或者是一个“宽容的”局中人。“强硬的”局中人具有囚徒困境的优先选择，而“宽容的”局中人宁可不认罪（对付认罪的对方），因而博弈可以表示成两个盈利矩阵，每个矩阵对应于一种类型的局中人2（表1a与1b）；局中人1不知道哪一个是相应的矩阵，而局中人2知道。,表1 1 2 c n 1 2 c n c 0, 0 7, -2 c 0, -2 7, 0 n -2, 7 5, 5 n -2, 5 5, 7 (a) 强硬的 (b) 宽容的表2 1 2 c n 1 2 c n c 0, 0 7, -2 c -2, -2 5, 0 n -2, 7 5, 5 n 0, 5 7, 7 (a) 强硬的 (b) 宽容的,性别争端,回忆性别争端博弈。丈夫（H）和妻子（W）必须决定是去看足球（F）还是去剧院（O）。他们宁可在一起而不愿意分开，但是丈夫喜欢两人一同去看F而他的妻子则喜欢一同去O。现在假设丈夫对他的妻子的优先选择没有把握。他不知道他的妻子是否乐意与他在一起（充满深情）或者是否她喜欢自己一个人去任何一处（离开）。换句话说，他无法肯定她的优先选择是由表3a所给出的通常优先选择，还是由表3b所给出的选择。,表3 H W F O H W F O F 3, 1 0, 0 F 3,0 0, 1 O 0,0 1,3 O 0,3 1,0 (a) 充满深情 (b) 离开,贝叶斯-纳什均衡,三个假设：假设1：妻子知道自己的优先选择：即，她知道“正确的”博弈是由表20.4a给出还是由表20.4b给出。假设2：丈夫不知道他的妻子真正的优先选择；他对她的真实优先选择由表20.4a给出这一事实附加了概率（于是由表20.4b给出的事实具有概率1 ）。假设3：妻子知道她的丈夫关于她的优先选择的估计；即，她知道值。,在约翰海萨尼（John Harsanyi）于1967和1968年所写的三篇论文中，他提出了适合于不完全信息博弈的纳什均衡的推广。海萨尼的建议分为两个部分。首先，把不完全信息博弈转为不完美信息博弈。其次，使用（这个不完美信息形式的）纳什均衡作为解。在不完全信息博弈中，赋予纳什均衡一个专用名称；叫做“贝叶斯-纳什（Bayes-Nash）均衡”。,定义。,博弈的贝叶斯-纳什均衡是三个部分（ , 1, 2），其中每个局中人（和每一种类型的局中人）采取最优反应，如下：（1）如果丈夫以概率选取F，那么概率i最大化类型i妻子的盈利。这对于i = 1和2都成立。（2）如果丈夫相信，以概率他相遇类型1妻子，并且她将以概率1采取F（而以概率1 相遇将以概率2选取F的类型2妻子），那么概率将使丈夫的期望盈利达到最大。,命题1.,每当时，存在两个纯策略贝叶斯-纳什均衡。在第一个中，丈夫选取F而妻子“们”选取（F, O），第二个中，丈夫选取O和妻子“们”选取（O, F）。倘若，只有一个纯策略贝叶斯-纳什均衡，那就是第一个。最后，如果，则不存在纯策略贝叶斯-纳什均衡。,混合策略贝叶斯-纳什均衡,命题2. 无论值为多少，总是存在一个混合策略贝叶斯-纳什均衡；,一般准则,不完全信息博弈通过假想“自然”首先行动并“选择”了一对（j, i）而被简化为不完美信息博弈。局中人2意识到自己属于I ；于是这个局中人选择一个策略，在考虑到她所认为的局中人1类型的分布下最大化她的期望盈利。对称地，局中人1意识到自己属j,并且作为类型j选择一个策略，在给定他所认为的局中人2类型的分布下最大化他的期望盈利。如果我们可以求出每个局中人中每种类型的策略，这些策略就是互相之间的最优反应，那么我们得到了贝叶斯-纳什均衡。,

注意事项

本文（章有限重复博弈.ppt）为本站会员（本田雅阁）主动上传，三一文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知三一文库（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。