鹤啸九天 自律更自由,平凡不平庸 Less is More

博弈论- Game Theory

2022-06-28
阅读量

Notes(温馨提示):

  1. ★ 首次阅读建议浏览:导航指南
  2. 右上角工具条搜索文章,右下角二维码关注微信公众号(鹤啸九天),底栏分享、赞赏、评论
  3. ★ 转载请注明文章来源,知识点积累起来不容易,水滴石穿,绳锯木断,谢谢理解
  4. ★ 如有疑问,邮件讨论,欢迎贡献优质资料


博弈论

资料

【2020-8-27】博弈论速成指南,融入深度学习的经典想法和新思路

  • 五元素标准有助于理解 AI 环境中的游戏动态,即对称 vs 非对称完美信息 vs 非完美信息合作 vs 非合作同时 vs 序列零和 vs 非零和
  • 对称博弈统治 AI 世界,其中大多数基于 20 世纪最著名的数学理论之一:纳什均衡
  • 博弈论中正在影响机器学习的新想法:平均场博弈、随机博弈、演化博弈

斯坦福博弈论

  • 【2022-9-23】斯坦福 Game Theory 博弈论中文笔记, 斯坦福 Game Theory 为斯坦福博弈论课程,课程分两部分,Game Theory I: An Introduction 博弈论介绍,一共八周课程20个小时,斯坦福博弈论1课程信息;Game Theory II: Advanced Applications 博弈论高级应用,一共五次课程15个小时,斯坦福博弈论2课程信息,coursera中的最新课程为2016年8月10号录制
  • Coursera 博弈论1
  • 斯坦福-博弈论2 视频

博弈论定义

博弈论是指两个或两个以上的个人(团体)在平等的对局中的决策、行动,以达到共赢局面的理论依据。

  • 1928年,冯·诺依曼证明了博弈论的基本原理。
  • 自20世纪以来,博弈论得到西⽅商界、经济学界、军事领域、社会学界的⼴泛应⽤。它可以帮助不同利益的决策者建⽴起能够⾃我规范、⾃动运作的合作关系。
  • 小到家庭失和、邻里矛盾,大到公司合作、国家外交……这些问题大都可以通过博弈论的策略找到最优解。

  • 【2022-6-28】博弈论课程导论
    • 博弈(game):一种存在策略互动的游戏
    • 博弈论(game theory):研究存在策略互动时最佳策略的理论
    • 决策问题:
      • 所有可能的行动
      • 所有可能的结果
      • 个人最结果的偏好
    • 博弈论的缺陷
      • 要求参与人超级理性:具备完备、封闭的心智模式(mental model),或 博弈规则的共同知识(common knowledge)
      • 结果不稳定(non-robust),存在多重均衡,给经验检验带来困难
    • 博弈论分类
      • 能否达成有约束力的协议:合作博弈、非合作博弈(non-cooperative game)——1950年nash
      • 合作博弈:强调公正,帕累托最优、集体利益最大化
      • 非合作博弈:强调个人理性、个人利益最大化
        • 静态:参与人独立、同时的选择一劳永逸的行动
        • 完全信息:所有参与人都了解博弈环境、行动、结果,及大家对结果的偏好
        • 两个维度组合成4种类型
        • ① 完全信息静态博弈:优势策略均衡、纳什均衡等
        • ② 完全信息动态博弈:子博弈完美纳什均衡
        • ③ 不完全信息静态博弈:海萨尼转换和贝叶斯均衡
        • ④ 不完全信息动态博弈:完美贝叶斯均衡

博弈论总是以参与者绝对理性为前提,它可能看起来很贴近生活,有很多细节和可能性,但问题里的骨架却是封闭的,这是一门十分严谨的科学。

【2018-10-27】博弈与逻辑:如何用众所周知的信息取胜?

多阶信息

案例:锤子剪刀布

案例: Rock,paper,scissors!

  • Rex和Hulk两人猜拳,规定连续两局不能出的一样,且双方都十分理智的情况下(一般也是如此),第一把是剪刀平局,最后会如何?

猜拳问题:

  • 第一把我和Hulk都出了剪刀,这是我知道的第一条信息,好像没有什么用;
  • 然后呢?根据规则,我知道下次只能出锤子或者布,这是其二;
  • 同样,我知道Hulk下一把也只能出锤子或者布,这是第三条。
  • 由于我和Hulk都只能出锤子或者布,出哪一个更好呢?答案是绝对的,布赢锤子,出布!终于理顺了,但这还不是最终答案。

同样地,Hulk也想到了这一点。按理来说,下一把我和Hulk都应该出布。聪明的我俩在出完剪刀之后就立即推理出了这一点。

现在,我知道Hulk得到了这个结论,Hulk也知道我得到了相同的结论。

  • 横向推理:更进一步,我也知道Hulk知道我得到了这一结论。之后,我们就像两台运行着一模一样程序的超级电脑,陷入了一种“知道”的循环,那就是我知道Hulk知道我知道…Hulk知道下一把我俩都应该出布,这是横向推理
  • 竖向推理:我可以推出第三把我们都应该出石头(Hulk也会这样推理,他也知道我知道),第四把出剪刀,第五把出布,第六把石头…

好了!既然这样,游戏的整个走势在第一把出完剪刀之后就已经完全确定了,不仅因为我俩各自推出了结论,还因为我们知道对方也知道了这个结论。

所以谁也不能获胜,第一把是平局的话游戏就没有进行的必要了,聪明的我俩压根不会进行第二轮划拳。这个决定,仅凭前三条信息是得不出来的,也就是说,我知道这些还不够,我还得知道“他知道”。

在这个小问题里,前三条信息我们看作是一阶信息(我直接知道的事),而“我知道Hulk知道xxx”,是一个二阶信息。以此类推,“我知道他知道我知道xxx”是三阶信息,但是游戏一共只有两人参加,所以大于二阶的信息和二阶是等效的。

当然,你也可以试着分析不同情况下,囚徒困境里的信息阶数

共识

如果你已经完全理解了多阶信息的意思,那我们就可以开始最后一个问题的推理了(难)。

蓝眼人问题

蓝眼人问题:

  • 有一个岛上住着1000个岛民。其中900个是红眼,100个是蓝眼。
  • 岛上的人无法知道自己眼睛的颜色,也不准谈论眼睛的颜色。
  • 出于宗教原因,岛民一旦知道自己眼睛的颜色,就会在第二天自杀。
  • 一天,岛上来了一个蓝眼睛游客,由于不知道岛上的规矩,他在一次全岛民的聚会中说:“很高兴看到这里有和我一样是蓝眼睛的人。“

假设岛民足够聪明, 具有完全理性,游客的话会产生什么后果?

有了前面的基础,我们直接跳到逻辑里去。

  • 假如我是其中一个蓝眼人1号,通过互相观察,我可以知道2号是蓝眼,2号也可以知道3号是,3号知道4号…这些是一阶信息;接着我也知道2号知道3号是蓝眼,这是二阶;一直往后,我能知道2号知道3号知道…知道100号是蓝眼,这是99阶信息。
  • 怎么少了一阶?因为“100号知道我是蓝眼“是我无法确定的事,毕竟我不知道自己眼睛的颜色。但是我能肯定其他99个人都能看到至少98个蓝眼人,只是他们暂时不知道自己也是蓝眼人。

这时推理就开始了。

  • 假如岛上只有1个蓝眼人(与事实不符),游客说完话之后他也就知道了自己眼睛的颜色,那么他会在之后一天自杀,自杀由一阶信息导致。
  • 如果有2个(与事实不符),一天后他们会观察对方是否自杀,如果对方自杀,那么他是唯一的蓝眼人,理由同上;如果不是,说明对方还看到了一个我没看到的蓝眼人,那这个蓝眼人只可能是我自己!于是“我知道了他知道我是蓝眼人“这个二阶信息,两人可以做出同样的推理,于是第二天两人一起自杀。
  • 如果有99个蓝眼人(与我看到的相符),99天后还是无事发生,这时我获得了一个一百阶信息,那就是“2号知道3号知道…知道100号知道我(1号)是蓝眼人“!其他99人可以做出同样的推理,这时100个蓝眼人都确定了自己眼睛的颜色,于是在第100天一起自杀,这也就是问题的答案。

到这里,我们终于做完了所有的思考题,兴奋之余,我们把不同阶数的信息做一个分类。

  • 如果有 n 个人,每个人都知道的 n 阶信息被叫做 Common knowledge(袁岚峰博士译作强共识),少于 n 阶的信息被叫做 Mutual knowledge,译作弱共识
  • 在蓝眼人问题里,游客说话之前,“岛上有蓝眼人“在100个蓝眼人圈子里还是一个弱共识,只有99阶,即大家都知道,但不确定别人知不知道自己;游客说话之后第99天,这句话变成了强共识,这时大家都知道所有人的眼睛颜色。所以游客带来的信息是一个99天后才能获得的,高达100阶的信息。

这个故事也告诉我们,只要善于挖掘信息背后的信息,就可以准确推算出自己去世的时……好像不太对?

博弈困境

《博弈论与生活》中,7个困扰生活的困境——囚徒困境、公地悲剧、搭便车、懦夫博弈、志愿者困境、两性战争、猎鹿问题。

  • 双方都想攻克对方的容忍底线的被称为“懦夫博弈”;
  • 一方想要侵占共同持有的资源的是“搭便车”困境;
  • 每个人都希望别人为团队多做一些,属于“志愿者困境”……

所以,我们生活中遇到的将近80%的问题都可以用博弈论模型来分析解决。

纳什均衡

纳什均衡(或者纳什平衡),Nash equilibrium ,又称为非合作博弈均衡,是博弈论的一个重要策略组合,以约翰·纳什命名。

约翰·纳什,生于1928年6月13日。著名经济学家、博弈论创始人、《美丽心灵》男主角原型。前麻省理工学院助教,后任普林斯顿大学数学系教授,主要研究博弈论、微分几何学和偏微分方程。由于他与另外两位数学家(经济学家,约翰·C·海萨尼和莱因哈德·泽尔腾)在非合作博弈的均衡分析理论方面做出了开创性的贡献,对博弈论和经济学产生了重大影响,而获得1994年诺贝尔经济学奖。

纳什均衡(Nash equilibrium)由美国数学家纳什提出,在多人博弈的时候,如果其他人不改变策略,不论怎么改变也不能增加收益,所有人都是这样,也就达到了纳什均衡。换句话说,纳什均衡实现了整体利益的最大化。想要达到纳什均衡,找到整体最优的方案,最重要的一点就是共享信息

纳什是谁

纳什的人生非常曲折,一度学术成果不被认可,甚至换上严重的精神分裂症,在爱的力量下在很多年后奇迹般地恢复,并最终获得诺内尔经济学奖。影片《美丽心灵》(A Beautiful Mind)是一部改编自同名传记而获得奥斯卡金像奖的电影,影片以约翰·纳什与他的妻子艾莉西亚(曾离婚,但2001年复婚)以及普林斯顿的朋友、同事的真实感人故事为题材,艺术地重现了这个爱心呵护天才的传奇故事。

  • 美丽心灵电影
  • 【美丽心灵】改编自西尔维娅·娜萨写作的同名传记 《A Beautiful Mind: Genius, Schizophrenia and Recovery in the Life of a Nobel Laureate》

囚徒困境

案例

  • 警察抓了两个嫌疑犯,在他们没有事先串口供的情况下,分开审问。
  • 如果两个罪犯都沉默,各判1年;互相揭发,各判8年;
  • 如果一个揭发一个沉默,那么揭发的那个释放,沉默的那个判10年。
  • AB怎么选择才对自己最有利?
决策 A沉默 A揭发B
A沉默 AB各一年 A释放、B判10年
A揭发B A判10年、B释放 A、B各8年
  • 对于A来说,B如果沉默,A应该选择揭发B(A会被释放),B如果揭发A,A还是应该揭发B(A会被判8年而不是10年),所以A应该揭发B。
  • 对于B来说也是一样。

由于A,B事先没有沟通预谋,在不知道对方怎么选择的情况下,显然最优方案就是互相揭发,于是警方成功判了两个犯人8年。这就是囚徒困境的正常形式。

到这里事情好像就结束了,然而,如果审问并不是分开进行,而是二人一起,结果又会如何呢?

开始时A,B两人互不吭声,马上,在明确了对方暂未交待的情况下,A有两种选择:

  1. 揭发B,如果沉默B会被判10年,所以B也会揭发A,结果两人都判8年;
  2. 保持沉默,这时B如果揭发A,会形成1里的结果,所以B应该选择更好的方案,也就是同样保持沉默。这样一来,两人各判1年。

稍作思考,A选择了沉默,B当然也做出同样的分析。最后两人只被各判1年,整体的纳什均衡达成。

由此可见,纳什均衡的达成需要足够的信息,如果信息不足,人往往就会做出损人利己的次优选择,而错过利于大局的最优方案。

内卷与博弈

“内卷”,是一个典型“囚徒的困境”

牛津大学教授项飙给过一个很全面的解读:

  • 整体环境的恶化是不断加速且不可挽回的;而个体没有能力与环境抗衡,最终只有顺应环境变化,加入到内卷的行列中。

假设一个部门所有人目标都是完成手头工作和KPI,等待工资到手。有一天部门领导灵机一动,开始制定鼓励员工每天加班半小时制度,新员工A急于表现,率先表示自己可以加班1小时,于是员工BCD……纷纷被迫开启下班后“摸鱼”一小时模式。

在“囚徒困境”模型下,当一个制度建立,制度覆盖下的人群大多数会被迫选择迎合制度,而当这一制度并非最优解时,那么,所有人的迎合都会变成无效迎合。最后的结果就是,所有人累死累活,起早贪黑,整体效益并不会有可观的增量。

什么是内卷

随着互联网的“流量泡沫”涌入整个社会,人类开始进入疯狂“内卷化”时代,教育、工作、生活、甚至是婚恋,无一幸免。

有人将“内卷”的表现归纳概括为以下七点:

  • 无意义的精益求精;
  • 将简单问题复杂化;
  • 低水平的模仿和复制为了免责;
  • 被动的应付工作;
  • 与预期的目标严重偏离的工作;
  • 在同一个问题上无休止的挖掘研究;
  • 限制创造力的内部竞争是制度性的内卷。

2021年,“内卷化”带来无休止叠加的负担,却没有带来相应的回报与获得,这不仅让人深思:我们究竟为何而“卷”?

小米创始人雷军曾说过:永远不要试图用战术上的勤奋,掩饰战略上的懒惰。

这世上,真正能成事的人,并不是投入最多时间“内卷”的人,而是那些能找到最佳解决问题途径的人。

天道未必酬勤,但天道一定关照能找到最优解的聪明人。

如何解决内卷

陷入“囚徒的困境”的“内卷”之后,无论是个人还是团体,职场还是生活,都是一种无声息的虚度与浪费。

兰·费雪教授在《博弈论与生活》通过一整章的内容解释了“囚徒困境”,即:人们常常从利益出发,选择放弃最佳合作策略,从而陷入远利益受损的局。

解决这一困境的三种方式:改变态度,诉诸善意的权威人士,能够自行运作的策略。

  • (1)改变态度:如果我们都认为在合作中作弊是不道德的,就能避免许多社会困境。
  • (2)诉诸善意的权威人士:所谓“善意的权威人士”大多只是一个迷思。一旦有了权力,就几乎无可避免地会谋求私利。所以,我们需要让外部的权威人士来促成合作并守护公平。
  • (3)能够自行运作的策略:开发出能够自行运作的策略,如此一来,只要合作一开始,就不会有作弊的机会。

以博弈论为理论支撑的5个建立“合作关系”的方法。

  • 沟通 —— 协商 —— 联盟 —— 承诺 —— 理智与情绪
    1. 沟通
    • 卡耐基说过,一个人的成功,15%取决于知识和技能,85%取决于沟通。博弈论研究者认为。只要双方愿意且能够沟通,理性通常也能让他们达成协议。
    • 沟通顺畅至少会减少一半的时间成本。
    • 经常会看到一些八卦新闻:早已没有感情的夫妻双方,因为一些小利益双方不肯妥协,耗了一年又一年,离婚官司反复上了热搜,却久久不能得到妥善解决。
    • 阻碍他们离婚速度的,不是离婚冷静期,而是双方对于沟通的逃避。这种逃避导致双方不仅要付给律师大笔金钱,还必须承受长达几年的情绪上的压力。 2. 协商
    • 协商的两大利器,就是威胁和承诺,两者间的选择要看当时情境而定,而且对方必须相信才会有效。
    • 兰·费雪教授在书中举了这样一个小例子,当孩子开始调皮捣蛋的时候,如果爸妈只是大吼:“再不住手,我就把你宰了!”
    • 小孩可能不会对此感到威胁,因为他很明确的知道爸妈会打他屁股,但不会真的宰了他。这是一个不会成真的威胁,所以,大多数孩子理都不会理。
    • 如果爸妈把话术换成:“再皮不准吃冰淇淋了”或者是“听话,我给你买冰淇淋吃”。大概会有很明显的效果。 3. 联盟
    • 从博弈论的角度来看,夫妻,同事,或者是商家和消费者,只要便于协调双方策略,都是联盟关系。
    • 兰·费雪教授认为,人们常常从自身利益出发,选择放弃最佳合作策略,从而陷入长远利益受损的局面。
    • 所以,想要一个合作双赢的局面,必须要要将合作双方看做一个必须信任的联盟关系。
    • 在这一基础上,各方协商出策略,彼此信任,信守承诺,这些行动可以让所有人跳出社会困境,最终实现双赢局面。 4. 承诺
    • 有没有什么方式,可以让人在缺乏信任的情况下,仍然对组织保持忠诚?答案只有一个——承诺。
    • 兰·费雪教授提出了这样一个观点:在各方无法或不愿沟通的情形下,最可靠的方式就是建立起能够自行运作的协议。
    • 这个协议必须是一个纳什均衡,各方只要独自逃跑就会承受损失,因此不得不合作。
    • 2003年,华为面临前所未有的低谷期,任正非甚至计划以75亿美元的价格把华为卖给摩托罗拉,但却因为种种困难,没有最终实现。
    • 然而,也是在这最严重的低谷期,任正非摸索出一套“一种不用上市就能获得融资的方法”,开始走华为自己的“野路子”。
    • 其中,最重要的一个方式就是——通过承诺激发团队的创造活力。任正非将管理模式从上下“命令——服从”式,调整为“全员参与”式。这一政策的调整,为华为带来巨大的集体能量。 5. 理智与情绪
    • 理想状态下,只要各方能以真正理性的态度,从协商中追求自身的利益,就能为所有人找到独特的最佳方案。
    • 但人是独立复杂的个体,没有人可以做到完全的理性,所以,在合作中,情绪必须要列入我们日常计划、行动的考量之中。
    • 把快乐和其他情绪上的奖励或惩罚列入计算,看起来在某些情境中,纳什均衡就真的能将我们锁定于某些解决方案,达成合作。

博弈论要诀

十大效能最大化的博弈论要诀

兰·费雪教授在多年的博弈论研究中,总结出10个解决问题的策略。这些策略旨在调整合作和冲突之间微妙的平衡,值得每个人投入心力,了解其原理及如何应用。

  1. 赢就守,输就变
    • 不论先前选择合作策略或自私自利的不合作策略,只要结果出炉时你是赢家,就不要改变策略。
    • 但如果输了(常常是因为其他人和你同时选择不合作),就马上采取另一种策略。
  2. 带入新的参与者
    • 如果本来是两方对峙的局面,就让它变成三方制衡的情形。这对于合作时促成平衡的效果很有效。就算明明知道新加入的会是个不合群的家伙,也仍然可能改善整体情形。
    • 另外,新的参与者也可以指“受信任的第三方”,负责管理担保物或是执行违约条款。
  3. 建立互惠形式
    • 最重要的一种合作动机,就是知道未来还可能再次碰头,所以要试着通过直接、间接或社交网络的方式,建立起这样的情境。
  4. 限制未来选项,让自己一旦背叛合作,就会受损失
    • 这是最有效的让别人知道自己的确有合作意愿的方式之一。
    • 例如定下特殊条件,只要自己(或他人)违反合作承诺,名声就会大大受损;或采用破釜沉舟的方法,规定合作之后就不能再回头。
  5. 付出信任
    • 这是另一个让别人觉得你的承诺可信的做法。
    • 只要你真心付出信任,就能得到回报,想合作也就容易许多。
  6. 定下特殊条件,双方如果想单方面背叛,就会承受损失
    • 当然,这就是一个纳什均衡。如果问题的合作解决方案恰巧是纳什均衡,那么问题就解决了。
  7. 使用补偿给付,来建立并维持合作的联盟
    • 补偿给付可以是金钱,或是社交上或情感上的奖励,或干脆就是贿赂。不论是哪一种补偿方式,重点在于联盟成员如果叛逃或加入其他联盟,就会承受损失。
  8. 注意七大困境,考量各参与者的利益与成本,让困境不复存在
    • 当然,这说来轻松,做起来困难,否则早就世界大同了。但无论如何,这是正确的努力方向,而且值得一试。
  9. 分摊各种货品、责任、工作、惩罚等,让人人都觉得结果公平
    • “觉得公平”是很强烈的动机,因此务必保证过程透明,让结果看起来公平,人人满意。
  10. 将团体化整为零
    • 所有证据都显示,小团体内部的成员比较容易合作,但偏偏小团体与小团体之间就不是这么一回事。小团体的领导人如果能善用上面的九点要诀,就有助于团体间的合作。
    • 人类一切的关于劳动与关系所作出的努力,都是为了获取幸福感。而幸福感的获得来自问题的真实解决。

所以,无论你是决策者还是执行者,走出“内卷化”才能真正拥有更优的未来。


支付宝打赏 微信打赏

~ 海内存知已,天涯若比邻 ~

Share

Related Posts

标题:异常检测-anomaly-detection

摘要:异常检测方法总结

标题:中国社会发展回顾

摘要:近40年,中国人是如何借势改变个人命运的?一共7次机会,首富许家印抓住了4次,看你抓住了几次。

Comments

--disqus--

    Content
    My Moment ( 微信公众号 )
    欢迎关注鹤啸九天