怎样理解帕累托最优与纳什均衡和纳什均衡及其关系

点击联系发帖人 时间：2016-12-19 21:16

帕累托最优的三个条件

怎样理解帕累托最优和纳什均衡及其关系？ - 知乎1438被浏览44198分享邀请回答该回答已被折叠 2添加评论分享收藏感谢收起&img src=&/v2-0a08c813ef9bbeb033c8f1f03f7c0103_b.jpg& data-rawwidth=&640& data-rawheight=&360& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&/v2-0a08c813ef9bbeb033c8f1f03f7c0103_r.jpg&&&p&喜欢玩德州扑克的人应该都听说过“GTO”这个词。GTO，即 GameTheory Optimal，翻译成中文应该叫做“游戏理论最优化”。直接翻译过来有点拗口，通俗一点的解释可以是：在游戏中，你可以采取一种最优策略，使得自己的损失最小，同时游戏中的对手也必须采取相对应的策略，否则只会扩大你的受益。&/p&&p&讲到GTO，就不得不提到博弈论中非常著名的一个理论：纳什均衡（Nash Equilibrium）。该理论是由著名的经济学家，博弈论创始人，诺贝尔奖获得者约翰·纳什提出的，也就是电影《美丽心灵》的男主角原型。该理论是说：在非合作类博弈中，存在一种策略组合，使得每个参与人的策略是对其他参与人策略的最优反应。如果参与者当前选择的策略形成了“纳什均衡”，那么对于任何一位参与者来说，单方更改自己的策略不会带来任何好处。&/p&&p&约翰·纳什证明了在每个参与者都只有有限种策略选择，并允许混合策略的前提下，纳什均衡一定存在。上边的解释还是有点拗口，这里通过几个例子，更直观的理解一下这个理论。&/p&&h2&&strong&囚犯的困境&/strong&&/h2&&p&假设有两个小偷A和B联手闯入民宅盗窃被抓，警方将两人置于不同的房间进行审讯，并给出如下政策：如果一个犯罪嫌疑人坦白并交出了赃物，两人都会被判有罪。如果另一个犯罪嫌疑人也坦白，则两人各被判刑8年；如果另一个犯罪嫌人抵赖，再加刑2年，而坦白者有功，会被立即释放。如果两人都抵赖，偷窃罪证据不足，但会因私入民宅而各判入狱1年。即：&/p&&img src=&/v2-454dffcfb5f50fbcea902_b.png& data-rawwidth=&794& data-rawheight=&102& class=&origin_image zh-lightbox-thumb& width=&794& data-original=&/v2-454dffcfb5f50fbcea902_r.png&&&p&表中的数字表示A，B各自的判刑结果。博弈论分析中一般都用这样的表来表示。&br&&/p&&p&此时有人会觉得双方都抵赖就好了，但问题是双方被隔离，都会怀疑对方会出卖自己以求自保。两个人都会这么想：假如对方坦白，此时如果我抵赖得坐10年监狱，如果我坦白才坐8年监狱；假如对方抵赖，此时如果我也抵赖会被判1年，如果我坦白可以被释放。综合以上考虑，不管对方坦白与否，对我而言都是坦白划算。此时最后的“纳什均衡”只能是两个人都坦白，共同被判8年刑期。&/p&&h2&&strong&智猪博弈&/strong&&/h2&&p&猪圈里有两头猪，一头大猪，一头小猪。猪圈的一边有个踏板，每踩一下踏板，在远离踏板的猪圈的另一边的投食口就会落下少量的食物。如果一只猪去踩踏板，另一只猪就有机会抢先吃到另一边落下的食物。但当小猪踩踏板时，大猪会在小猪跑到食槽之前刚好吃光所有的食物；大猪踩动了踏板，则有机会在小猪吃完落下的食物之前跑到食槽，争吃到另一半食物。&/p&&p&那么，两只猪各会采取什么策略？当然是小猪等在食槽边，而大猪不知疲倦地奔忙于踏板和食槽之间。因为，小猪踩踏板将一无所获，不踩踏板反而能吃上食物。对小猪而言，无论大猪是否踩动踏板，不踩踏板总是好的选择。反观大猪，已明知小猪不会去踩动踏板，自己亲自去踩踏板还有点吃的，总比不踩强，所以只好去踩踏板。&/p&&h2&&strong&范式博弈&/strong&&/h2&&p&GOO公司和SAM公司存在利益关系，二者的收益会随着博弈的变化而不断更替。如下图：&/p&&img src=&/v2-da0e5f050198ddf4d85c74a_b.png& data-rawwidth=&467& data-rawheight=&177& class=&origin_image zh-lightbox-thumb& width=&467& data-original=&/v2-da0e5f050198ddf4d85c74a_r.png&&&p&双方各有两个可选策略“合作”与“背叛”，格中的四组数据表示四个博弈结局的各自收益，每组数据的第一个数字表示GOO公司的收益，后一个数字表示SAM公司的收益。&/p&&p&现在我们站在GOO公司的角度来思考整个博弈策略。假如SAM选择合作，那么我方合作的收益是3，而我方背叛的收益是5，我方应该选择背叛；假如SAM选择背叛，那么我方合作的收益是 -3，而我方背叛的收益是-1，我方还是应该选择背叛。&br&&/p&&p&同理，SAM公司也会做出相同的选择。最后我们发现，本次博弈的双方都采取了背叛策略，各自的收益都为-1，这是一个比较糟糕的结局，尽管对任何一方来说都不是最糟糕的那种。&/p&&p&但博弈的次数往往不止一次，当二家公司经历了多次背叛策略的博弈之后，发现公式上还有一个（3，3）收益的双赢局面，这个结果显然要好很多，因此二家公司在之后的博弈过程中必然会尝试互建信任，从而驱使双方都选择合作策略。&/p&&p&但假使双方都知道博弈次数是有限的，也许下一次博弈就是最后一次，那么为了避免对方在最后一轮博弈中选择背叛而使我方遭受-3的损失，于是双方都会采取了背叛策略，最后的博弈结果又回到了（-1，-1）。&/p&&p&由此可见，随着次数的变化，博弈的性质也会发生变化，纳什均衡点会发生变化。&/p&&h2&&strong&饿狮博弈&/strong&&/h2&&p&假设有A、B、C、D、E、F六只狮子（强弱从左到右依次排序）和一只绵羊。假设A吃掉绵羊后就会打盹，这时比A稍弱的B就会趁机吃掉A，接着B也会打盹，然后比B稍弱的C就会吃掉B，以此类推。问：狮子A敢不敢吃绵羊？&/p&&p&该题须采用逆向分析法，从最弱的F开始分析，依次前推。假设E睡着了，F肯定会吃掉E，因为在F的后面已没有其它狮子了，不用担心自己被吃掉。继续前推，既然E知道自己睡着会被F吃掉，那么E必然不敢吃睡着了的D。既然E不敢吃掉D，那么D则可以放心去吃睡着的C。依次前推，得出C不吃，B吃，A不吃。所以答案是狮子A不敢吃掉绵羊。&/p&&img src=&/v2-f83dbeb65251dfe6fa563f5d84b12577_b.png& data-rawwidth=&481& data-rawheight=&100& class=&origin_image zh-lightbox-thumb& width=&481& data-original=&/v2-f83dbeb65251dfe6fa563f5d84b12577_r.png&&&p&但是，如果我们在狮子F的后面增加了一只狮子G，总数变成7只，用逆向分析法按照上题步骤再推一次，如下图。这次的答案变成了狮子A敢吃掉绵羊。&br&&/p&&img src=&/v2-eb9b0fba187_b.png& data-rawwidth=&552& data-rawheight=&99& class=&origin_image zh-lightbox-thumb& width=&552& data-original=&/v2-eb9b0fba187_r.png&&&p&对比两次博弈我们发现，狮子A敢不敢吃绵羊取决于狮子总数的奇偶性：当总数为奇数时，A敢吃；总数为偶数时，A则不敢吃。因此，总数为奇数和总数为偶数的狮群博弈结果形成了两个稳定的纳什均衡点。&/p&&h2&&strong&硬币正反博弈&/strong&&/h2&&p&加入你和一个美女一起玩个数学游戏。美女提议：让我们各自亮出硬币的一面，如果我们都是正面，那么我给你3元；如果我们都是反面，我给你1元；剩下的情况你给我2元。那么你该不该和这位美女玩这个游戏呢？&/p&&p&这里需要讲一下纳什均衡的分类：&/p&&p&（1）纯战略纳什均衡，也就是说玩家都能够采取固定的策略（比如一直出正面或者一直出反面），使得每人都赚得最多或亏得最少。&/p&&p&（2）混合战略纳什均衡，是对每个纯战略分配一个机率而形成的战略。混合战略允许玩家随机选择一个纯战略。混合战略纳什均衡中要用概率计算，达到某一概率时，可以实现支付最优。因为概率是连续的，所以即使战略集合是有限的，也会有无限多个混合战略。&/p&&br&&p&在这个游戏中，应该采用混合策略纳什均衡。&br&&/p&&p&假设我们出正面的概率是x，出反面的概率是1-x，美女出正面的概率是y，出反面的概率是1-y。为了使利益最大化，应该在对手出正面或反面的时候我们的收益都相等，即：&/p&&p&3x + (-2)(1-x) = (-2) * x + 1*(1-x )&/p&&p&解方程得x=3/8；同样，美女的收益：&/p&&p&-3y + 2(1-y) = 2y+ (-1) * (1-y)，&/p&&p&解方程同样得y等于3/8。于是，我们就可以算美女每次的期望收益是：&/p&&p&(1-y) * (2x-(1-x)) + y(-3x+2(1-x)) = 1/8元&/p&&p&即双方都采取最优策略的情况下，美女平均每次赢1/8元。所以当然不能和她玩这个游戏。其实只要美女采取了（3/8, 5/8）这个方案，不论你采用什么方案，都是不能改变局面的。但是当你也采用最佳策略时，至少可以保证自己输得最少。否则，你会赔掉更多。&/p&&p&参考：&a href=&/?target=http%3A///item/%25E7%25BA%25B3%25E4%25BB%%259D%%25A1%25A1& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&纳什均衡_百度百科&i class=&icon-external&&&/i&&/a&&/p&&p&=============================================================&br&&/p&&p&作者主页：&a href=&/people/xianhu& class=&internal&&笑虎（Python爱好者，关注爬虫、数据分析、数据挖掘、数据可视化等）&/a&&/p&&p&作者专栏主页：&a href=&/pythoner& class=&internal&&撸代码，学知识 - 知乎专栏&/a&&/p&&p&作者GitHub主页：&a href=&/?target=https%3A///xianhu& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&撸代码，学知识 - GitHub&i class=&icon-external&&&/i&&/a&&/p&&p&欢迎大家拍砖、提意见。相互交流，共同进步！&/p&&p&==============================================================&/p&
喜欢玩德州扑克的人应该都听说过“GTO”这个词。GTO，即 GameTheory Optimal，翻译成中文应该叫做“游戏理论最优化”。直接翻译过来有点拗口，通俗一点的解释可以是：在游戏中，你可以采取一种最优策略，使得自己的损失最小，同时游戏中的对手也必须采取相…
&p&转自古哥古点 &/p&&p&&b&纳什和帕累托&/b&&/p&&p&意大利的维弗雷多·帕累托和美国的约翰·纳什是数量经济学领域两位顶尖专家。约翰·纳什获得1994年诺贝尔经济学奖，帕累托成名的年代还没有诺贝尔经济学奖，但是他是经济学界公认的无冕之王。两位大师生活中还有许多精彩的故事，比如纳什的精神症状一度癫狂，却在不离不弃的爱人帮助下走出阴霾，被人赞誉为美丽心灵；而帕累托在自己数学研究当中得出的人类财富分配规律和阶级划分理论被错误发挥，进而演化出意大利的法西斯主义，被人诟病为法西斯的代言人。这些故事我们留待以后再讲，今天要说的是他们各自提出的两个重要经济学概念和背后的故事。&/p&&p&&b&囚徒困境&/b&&/p&&p&首先从博弈论中最经典的模型“囚徒困境”说起。有两个抢劫犯合伙抢了银行被警察抓获。他们被关进完全分开的两个牢房。检察官各自独立的告诉他们：如果两人都不坦白，他们会因携带枪支被判刑一年；如果其中一人招供而另一人不招供，坦白者作为证人将不会被起诉，另一人将会被重判10年徒刑；如果两人都招供，则两人都会以抢劫罪名各判5年徒刑。那么在这种情况下，两个人最后的选择会是什么呢？结果揭晓之前，先卖个关子，下面介绍“帕累托最优”和“纳什均衡”。&/p&&p&&b&帕累托最优&/b&&/p&&p&提起帕累托最优，先要解释一下什么叫做帕累托改进。假设现在为固定的一群人分配一些定量的资源，分配方案肯定有许多种。如果对某一种方案而言，存在着一种调整策略，使得原方案经过调整后，能让至少一个人受益的同时不让任何人受到损失，那么这种调整策略就称为帕累托改进。简单说，帕累托改进就是在没有人变得不好的前提下让有些人更好。如果对于某种分配方案，再也找不到任何的帕累托改进的余地，我们就说这个方案达到了帕累托最优。这意味着，帕累托最优的局面是所有人都满意的整体有利的方案。在这种情形下，如果某些人还想增加自己的利益，就只能损害别人的利益。所以很明显的是，帕累托最优是一种整体上的评价。 &/p&&p&&b&纳什均衡&/b&&/p&&p&纳什均衡是非合作博弈论中的一个基础概念。所谓非合作博弈，是指一组博弈者在给定各自策略空间时，以期望效用最大化为目的进行策略选择，最终基于全部博弈者的策略实现一组结果的过程。非合作博弈按照静态/动态和信息是否完全两个维度可以分为四类，分别是：完全信息静态博弈、完全信息动态博弈、不完全信息静态博弈和不完全信息动态博弈。简单地说，博弈论是一门把经济活动（或者其他活动）看作一个众多玩家参与的博弈游戏，对在规则约束下的游戏过程进行量化研究的学科。与传统经济学不同，博弈论研究的变量是一个个参与的玩家个体，而非整体的一些经济指标。经济过程是众多参与者为了实现各自利益最大化而独立决策并相互竞合产生的结果。而非合作博弈是指排除玩家结盟的情形，每个玩家都是独立的。一般而言，每个玩家的决策都会影响到别人，所以当你改变策略时，别的玩家就会相应变换自己的对策，整个游戏局面就会不断地发生变化。而纳什均衡却指出了游戏过程中可能出现的一种特殊状态。在这个局面下，如果其他玩家的策略不变，每一个玩家都没有动机改变自己现在的策略。这个时候所有的玩家就进入了一种平衡态，称为纳什均衡。也就是说，在纳什均衡下，每个人都满意自己当前的策略。&/p&&p&&b&“帕累托最优”和“纳什均衡”的不同&/b&&/p&&p&请注意，刚才说的帕累托最优是所有人都满意的一种分配方案，现在讲的纳什均衡也是所有玩家都接受的一种博弈局面。那么帕累托最优和纳什均衡是不是一回事呢？答案是：不是一回事。帕累托最优是从静态全局的角度来看待问题，是问题的最优解；而纳什均衡是从动态局部的角度来看待问题，是问题求解过程中的临时解。如果还不够形象直观，我们就回到前面的囚徒困局来说明二者的区别。先陈述分析的结果：两名罪犯一定同时认罪招供。至于原因，我们来看推理过程。甲会这样推理：“假如乙不招供，我只要招供，立即可以获得自由，而不招供却要坐牢1年，显然招供比不招供好；假如乙招供了，我若不招供，要坐牢10年，我招供了只坐5年牢，显然还是招供的好。可见，无论乙招供与否，我的最佳选择都是招供。”同理，乙也会如此推理。因此，最后的结局一定是两人都招供，从而各被判刑5年。这个结果说明他们的决策达成了纳什均衡，因为谁都不愿意冒风险改变自己的决策。然而我们又都明白，他们两个人的最佳选择应该是同时不招供，这样两人仅仅会判1年，这与判刑5年相比，二人都得到利益而无人受损，故此才实现帕累托最优。那么他们为什么不选择帕累托最优方案呢，原因很简单，就是他们进行的是一种非合作博弈。由于无法串供，他们不能约定共同的立场，也就没有办法合作获取更好地方案。在非合作情况下，纳什均衡阻挡了帕累托最优。其实阻挡帕累托最优的可不仅仅是缺少合作这一个要素，这个话题的延伸将引出经济学中最根本的问题。&/p&&p&亚当私密认为在充分竞争的市场里，每个人只要按照个体利益最大化的目标进行交易，并且都遵守自由自愿规则，最后得到的整体结果一定是一种最优配置。这就是关于市场调节是一只无形的手的最早描述，不严格也没有数学论证。可是他提出这个观点以后，立刻就引来不少批评者，比如马克思、凯恩斯等。他们的主张刚好相反，认为需要一种中央权力来调动一部分资源完成经济的配置和扩张，才能实现最好的配置结果。他们的反驳同样也缺少量化分析。随着数学模型的应用，福利经济学第一定理和第二定理对他们的争论有了准确的描述：当以下三个前提条件成立时，市场竞争产生的均衡一定是帕累托最优的。这三个条件包括：（1）一个完全竞争的市场，（2）不存在外部性，（3）不存在信息不对称。这就说明亚当斯密和凯恩斯的理论都存在问题。
&/p&&p&这条定理的确从数学上证明了亚当斯密自由市场理论的正确性，但关键的是这三个前提条件在真实市场环境中全都不能成立。市场中大大小小的垄断随处皆是，公共权益和自然环境构成了随时可以侵占的外部利益，信息的封闭和不对称更是显而易见的缺陷。既然前提条件无法成立，玩家怎么可能通过自由博弈实现隐藏在后面的帕累托最优呢？实际出现的运行平稳局面都只是纳什均衡。至于如何打破纳什均衡从而获得帕累托最优的结果，导致了重大的方法论分歧。自由贸易者主张：三个前提条件不成立，那就改善。通过法制、社群等手段来强化所要求的前提条件使其得到满足，继而仍是鼓励参与者自由贸易，通过合作博弈的方式打破非合作博弈下的纳什均衡；而凯恩斯主义者则认为既然我们的目标是全局的帕累托最优，那我们的中央政权就直接按照构想的最优方案分配资源就可以了，干嘛还要通过每个参与者自由博弈的缓慢过程来逼近这个目标。
&/p&&p&然而事实是两种方法均有不足：自由贸易者并不能真正彻底的改善前提条件不成立的问题，因为真实世界的人性确实很复杂，纳什均衡的阻力仍然存在；而凯恩斯主义者又过高的评价了公权力的能力。怎么可能指望中央政权真的是一个完全通晓经济真理，同时又毫无私心的上帝呢？他只不过是一个新进场的更可怕的博弈玩家。
&/p&&p&再把格局放大一点，中美博弈也是这个道理。中国在改革开放初期，凭借飞速增长的对外贸易来做大经济盘子，又通过高强度的投资模式来尝试直接塑造帕累托最优分配。由于那个时候起点很低，经济的局面也不复杂，所以任何的方案即使做不到是帕累托最优，但起码也是帕累托改进。时至今日，既得利益者已经广泛存在，经济运行的复杂性也难以由中央全面掌控，帕累托改进方式已经很难找到施展空间。所以中央提出经济调结构的背后理念就是回归亚当斯密的方法，同时也是简政放权和深化改革的动力。而作为世界领袖的美国最近在大选中呈现出的民粹思潮，是美国国家焦虑的集中体现。最为自由贸易曾经的旗手，他们突然意识到，之前自己鼓励的自由贸易规则实际上对自己的亚洲盟国没有形成整合。所有的国家在背靠背的情况下，进行非合作的博弈，所达成的纳什均衡正在快速倾向于增强中国的实力。因此所谓的亚太再平衡本质上不过是美国要和自己的亚太伙伴达成合作，重新塑造一种有利于美国的纳什均衡。中国和美国毫无疑问是世界的两强，两国如不真正的打破非合作博弈下的纳什均衡，那么全球级别的帕累托最优就永远无法实现。然而价值观的巨大分歧和战略互信的不足，依然制约着二者的融合。我期望这一点早点到来，不然我们就始终是禁锢在困境中的那两个囚徒。&/p&
转自古哥古点纳什和帕累托意大利的维弗雷多·帕累托和美国的约翰·纳什是数量经济学领域两位顶尖专家。约翰·纳什获得1994年诺贝尔经济学奖，帕累托成名的年代还没有诺贝尔经济学奖，但是他是经济学界公认的无冕之王。两位大师生活中还有许多精彩的故事，…
已有帐号？
无法登录？
社交帐号登录
1403 人关注
285 条内容
141 人关注
10675 人关注
403 条内容
413 人关注
259 条内容
3750 人关注
304 条内容帕累托最优&vs&纳什均衡
纳什均衡，Nash equilibrium
,又称为非合作博弈均衡，是博弈论的一个重要术语，以约翰·纳什命名。
纳什均衡定义：
假设有n个局中人参与博弈，给定其他人策略的条件下，每个局中人选择自己的最优策略（个人最优策略可能依赖于也可能不依赖于他人的战略），从而使自己效用最大化。所有局中人策略构成一个策略组合（Strategy
Profile）。纳什均衡指的是这样一种战略组合，这种策略组合由所有参与人最优策略组成。即在给定别人策略的情况下，没有人有足够理由打破这种均衡。
　　帕累托最优处处满足吗？
　　张五常先生称：“在现实经济中，帕累托最优是处处满足的。”可是，现实生活中，很多交易虽然实现了均衡，但决非帕累托最优。譬如那些非自愿交易。黄世仁强迫杨白劳在卖掉其女儿以抵债的契约书上摁手印，这种交易，虽然实现了均衡，但绝对不是帕累托最优。
　　张五常先生1998年就任美国西部经济学会会长时，发表了题为《交易费用的范式》的演讲。在这篇演讲中，五常先生称，在存在交易费用的情况下，帕累托最优是应该被重新理解的。在现实经济中，帕累托最优是处处满足的。如果认为帕累托最优条件没有被满足，则是因为我们忽略了某些特定的约束条件。自助餐就给我们提供了一个有意思的例子。用餐者的最后一口的边际效用为零，而食物提供者的边际成本却大于零，这是和帕累托最优条件相违背的。但从交易费用的角度来看，自助餐的形式节省了等候和伺候顾客的费用，而且这种费用的节省一定是大于限制顾客消费的“浪费”，因此，帕累托最优仍然是满足的。毫无疑问，如果我们生来就是高尚的人，则交易费用就会减少，而且我们也会更加富有。人们的看似非最优的行为，却是人们在约束条件下的理性选择；人们总是在约束条件下达到最优，如果不承认这一点，就没有经济科学。
　　对“人们的看似非最优的行为，却是人们在约束条件下的理性选择；人们总是在约束条件下达到最优，如果不承认这一点，就没有经济科学”这句话，我有保留地同意。现代经济学的基本假设之一就是“在约束条件下的最大化（或者极大化）”。但问题在于，考虑了约束条件之后，经济学中的均衡状态不仅仅有帕累托最优，还有纳什均衡和其他的均衡。张五常先生所说的情况是什么均衡呢？先来比较帕累托最优与纳什均衡。
　　帕累托最优与纳什均衡是不同的。譬如，“囚徒困境”是博弈论（或称对策论、赛局理论）中经常使用的一个理论分析模型。该模型说的是，甲和乙合伙抢了银行，被抓获。他们被关进分隔的牢房。检察官分别告诉他们：如果两人都不坦白，他们会因非法携带枪支的罪名各判刑1年；如果其中一人招供而另一人不招供，坦白者作为证人将不会被起诉，另一人将会被重判10年徒刑；如果两人都招供，则两人都会以抢劫罪名各判5年徒刑。结果，两个人都招供了。在博弈论中，这种结果是一种纳什均衡，即给定别人策略的情况下，没有任何单个局中人有积极性选择其他策略，从而没有任何人有积极性打破这种均衡。在上述囚徒困境模型中，如果甲相信乙招供，那么他的最佳策略是招供，而如果乙相信甲招供，那么他的最佳策略仍是招供。这就是一个纳什均衡，它是“自确定”的。
　　但是，这个纳什均衡不是帕累托最优。在经济学上，帕累托最优指的是：在给定现有资源条件下，不存在任何其他配置结果使某些人情况更好，而又不使任何其他人处境更坏。显然，在上述囚徒困境模型当中，甲乙两个人都从理性的角度出发，追求自身效用的最大，结果是双方不合作，都认罪了。也就是说，实现了纳什均衡。但是，如果甲与乙合作，产生的结果要比双方不合作好得多。也就是说，如果双方合作，就存在帕累托改进（帕累托改进是指一种变化，在没有使任何人境况变坏的前提下，使得至少一个人变得更好。帕累托改进是达到帕累托最优的路径和方法）。那么，为什么两人不敢合作呢？甲会这样推理：“假如乙不招供，我只要一招供，立即可以获得自由，而不招供却要坐牢1年，显然招供比不招供好；假如乙招供了，我若不招供，则要坐牢10年，招供了只坐5年牢，显然还是招供的好。可见，无论乙招供与不招供，我的最佳选择都是招供。”同理，乙也会如此推理。于是，谁也不敢选择合作。所以，在囚徒困境这个模型当中，从个人的理性出发，推导不出帕累托最优。
　　由此可见，纳什均衡只是一种平衡，而不是一种帕累托最优，不是一种完美的结局。
　　这里列举一个现实生活中的案例（英国学者L．
Walmsley在1932年出版的一本书中所提到的发生在英国约克郡海岸边的一个小渔村的故事）进行分析。Walmsley说到，在每次大风暴后，总是有些漂流木材（drift
wood）留在海岸上。因此，每次大风暴之后，村民们便竞相奔到海岸去捡木材。许多年来，村民们遵守一种“先到者得”的习俗，即最先到达海岸者可以任意捡漂流木材，然后把捡到的木材堆积在海岸边的高处，并在木材堆上压放两块石头，以表示这是他自己的所有物。他可以把这堆漂流木材留在海岸边两天。在这两天之内，别的村民会尊重他的这种事实上的产权。如果过了两天，他的这种事实上的产权就不再存在。据说，在这个小渔村中，没有人知道这种“先到者得”规则是什么时候形成的，以及如何形成的。但每个村民都遵守这种习俗，并且遵守得那么自然，那么有序。很显然，这种结果是纳什均衡，但是，这种自发的秩序安排并不是一种帕累托最优的选择。因为，它诱使村民竞相早起奔去海边捡木头。而这种竞相赶到海边捡漂流木，会使村民有一种不必要的“努力竞争支付”。从福利经济学角度来分析，这种“努力竞争支付”是一种“额外净损失”（deadweight
　　分析到这里，再看张五常先生的观点。我认为，自助餐没有实现帕累托最优，只能实现纳什均衡（有些情况下，连纳什均衡也实现不了），五常先生将二者的概念搞混了。自助餐一般固定价格（譬如68元），限定时间（譬如规定顾客从进店到离店不得超过
4小时），顾客可以自由选择店家所提供的食品。有的店家可能不允许顾客剩余食品。我曾去过几次自助餐厅，发现很多顾客胡吃海喝，尽量拉长时间，尽量多吃。有些人甚至喝醉，吐了一地。且不论这些出格的行为是否令人生厌，至少有一点不可否认，绝大多数吃自助餐的人，进食量比平常大很多，多数人吃撑了，不利于消化，对身体健康有害。这显然不是什么帕累托最优，存在帕累托改进的可能。
　　现实生活中，很多交易虽然实现了均衡，但不是帕累托最优。譬如那些非自愿交易所实现的均衡，显然不可能是帕累托最优，甚至难以归入纳什均衡。
以上转贴自豆瓣
大致是这样的，鹰和鸽互相争食，鹰和鹰之间相争会两败俱伤，鹰和鸽争的胜利者是鹰，而鸽鸽相争没有结果。
赢一场+5个食物；输一场-5个食物；拖延一场-1个食物。
鹰VS鹰——两败俱伤各-10个食物
鹰VS鸽——鹰胜利，+5个食物
鸽VS鸽——拖延时间，各-1个食物
开始时各方都不知道对手是鹰还是鸽，每局与每局不相关，可以自由变换鹰鸽。
双方各有10个食物，多少回合后会有什么结果呢？
Game start！
已投稿到：
以上网友发言只代表其个人观点，不代表新浪网的观点或立场。}

常信村百科网