鹤啸九天 自律更自由,平凡不平庸 Less is More

博弈论- Game Theory

2022-06-28
阅读量104

Notes(温馨提示):

  1. ★ 首次阅读建议浏览:导航指南, 或划到本页末尾, 或直接点击跳转, 查看全站导航图
  2. 右上角工具条搜索文章,右下角二维码关注微信公众号(鹤啸九天),底栏分享、赞赏、评论
  3. ★ 转载请注明文章来源,知识点积累起来不容易,水滴石穿,绳锯木断,谢谢理解
  4. ★ 如有疑问,邮件讨论,欢迎贡献优质资料


博弈论

资料

斯坦福博弈论

  • 【2022-9-23】斯坦福 Game Theory 博弈论中文笔记, 斯坦福 Game Theory 为斯坦福博弈论课程,课程分两部分
    • Game Theory I: An Introduction 博弈论介绍,一共八周课程20个小时,斯坦福博弈论1课程信息;
    • Game Theory II: Advanced Applications 博弈论高级应用,一共五次课程15个小时,斯坦福博弈论2课程信息,coursera中的最新课程为2016年8月10号录制
  • Coursera 博弈论1
  • 斯坦福-博弈论2 视频

博弈论定义

博弈论两个以上的个人(团体)在平等的对局中的决策、行动,以达到共赢局面的理论依据。

  • 1928年,冯·诺依曼证明了博弈论的基本原理。
  • 自20世纪以来,博弈论得到西⽅商界、经济学界、军事领域、社会学界的⼴泛应⽤。它可以帮助不同利益的决策者建⽴起能够⾃我规范、⾃动运作的合作关系。
  • 小到家庭失和、邻里矛盾,大到公司合作、国家外交……这些问题大都可以通过博弈论的策略找到最优解。

  • 【2022-6-28】博弈论课程导论
    • 博弈(game):一种存在策略互动的游戏
    • 博弈论(game theory):研究存在策略互动时最佳策略的理论
    • 决策问题:
      • 所有可能的行动
      • 所有可能的结果
      • 个人最结果的偏好
    • 博弈论的缺陷
      • 要求参与人超级理性:具备完备、封闭的心智模式(mental model),或 博弈规则的共同知识(common knowledge)
      • 结果不稳定(non-robust),存在多重均衡,给经验检验带来困难
    • 博弈论分类
      • 能否达成有约束力的协议:合作博弈非合作博弈(non-cooperative game)——1950年nash
      • 合作博弈:强调公正,帕累托最优、集体利益最大化
      • 非合作博弈:强调个人理性、个人利益最大化
        • 静态:参与人独立、同时的选择一劳永逸的行动
        • 完全信息:所有参与人都了解博弈环境、行动、结果,及大家对结果的偏好
        • 两个维度组合成4种类型
        • 完全信息静态博弈:优势策略均衡、纳什均衡等
        • 完全信息动态博弈:子博弈完美纳什均衡
        • 不完全信息静态博弈:海萨尼转换和贝叶斯均衡
        • 不完全信息动态博弈:完美贝叶斯均衡

博弈论总是以参与者绝对理性为前提,它可能看起来很贴近生活,有很多细节和可能性,但问题里的骨架却是封闭的,这是一门十分严谨的科学。

【2018-10-27】博弈与逻辑:如何用众所周知的信息取胜?

博弈论概念

【2020-8-27】博弈论速成指南,融入深度学习的经典想法和新思路

五元素标准有助于理解 AI 环境中的游戏动态,即: 对称 vs 非对称完美信息 vs 非完美信息合作 vs 非合作同时 vs 序列零和 vs 非零和

  • 对称 vs 非对称
  • 完美信息 vs 非完美信息
  • 合作 vs 非合作
  • 同时 vs 序列
  • 零和 vs 非零和

其中, 对称博弈统治 AI 世界,其中大多数基于 20 世纪最著名的数学理论之一:纳什均衡

  • 博弈论中正在影响机器学习的新想法:平均场博弈、随机博弈、演化博弈

完美/完全信息博弈

(不)完美信息和(不)完全信息

  • 完美信息博弈中,每次只有1个玩家行动。每个玩家对当前博弈状态、已做出的所有移动历史以及所有潜在的未来发展都有全面的了解。
  • 如果不满足这些条件,则博弈被认为具有不完美信息

不完全信息博弈中,至少有1个玩家不知道另一个玩家的收益;否则,它是完全信息博弈

例如

  • 围棋既是完美信息博弈也是完全信息博弈。玩家对整个博弈结构有全面的了解,包括所有可能的走法,并且他们可以轮流看到对手所做的每一步(完美信息)。此外,如果结果被认为是二元的,如胜或负,那么玩家的收益对双方来说都是已知的(完全信息)。

标准型和扩展型

博弈论中,标准博弈(又称为正规型博弈或静态博弈)和拓展博弈(又称为动态博弈)是分析不同类型决策情况的两种基本形式。

  • 标准博弈:强调一次性决策的情境下,每个玩家在做出选择时, 只知道自己的可用策略和收益,而不知道其他玩家的选择。所有玩家的决策同时进行,无法观察到对方的选择,常见的表示方法是通过赢利矩阵来展示各种策略组合下的结果。
  • 拓展博弈:博弈有多个阶段,玩家在博弈中的某个时刻做决策时,可以观察到之前发生的动作和事件。这种博弈通常通过决策树来表示,强调的是决策的序列和信息的演化,玩家需要根据先前的行动和可能的未来反应来制定策略。

囚徒困境是说明博弈论中各种概念的一个经典例子。在困境的一个修改版中(如图所示):

  • 如果一个玩家坦白(C),而另一个玩家撒谎(L),坦白者将入狱1年,而撒谎者将入狱8年。
  • 如果两个玩家都选择坦白,他们都将入狱7年。
  • 如果两个玩家都选择撒谎,他们都将只入狱2年。

标准博弈版本的囚徒困境中,两名囚犯同时做出是否坦白的决定,而且在做决定时不知道对方的选择。这种情况下的博弈通常使用标准式表示,展示所有可能的策略和结果。

相对的,在拓展博弈版本中,囚犯们的决策是顺序进行的,第二个做决定的囚犯可以知道第一个囚犯的选择。这种情况下的博弈通过决策树表示,更加强调了信息的动态变化和决策的顺序

这两种形式的博弈各有其表达方式,其中标准式可以转换为扩展式来表示信息集和决策路径,反之亦然。通过这些表示,可以更深入地分析和理解各种策略及其可能的结果。

除了标准型和扩展型博弈之外,还有在复杂的马尔可夫博弈扩展型博弈中,元博弈(meta-game)作为一种高级抽象,经常被用于分析这些博弈。

元博弈助于探索这些博弈内的策略学习,其焦点不是孤立的行动,而是由博弈动态产生的更广泛的策略。在高级的正规形式背景下,策略集由当前玩家所采用的策略组成。元策略是混合策略,它们在元博弈中为策略集分配概率。

传递性博弈与非传递性博弈

为了简化讨论,将重点限制在两人零和对称博弈上。

  • 传递性博弈:在这种博弈中,策略或结果遵循传递性关系。正式地,对于所有的策略πi, πj, πk ∈ Π,如果u(πi, πj) > 0 且 u(πj, πk) > 0,则必然有u(πi, πk) > 0。这种传递性属性简化了战略环境,允许对策略进行序数排名。
  • 非传递性博弈:与传递性博弈相反,存在策略 πi, πj, πk ∈ Π,使得u(πi, πj) > 0 和 u(πj, πk) > 0,但u(πi, πk) ≤ 0。这在策略之间引入了循环关系,从而使博弈复杂化。这种复杂性通常导致混合策略均衡,即玩家在多个策略之间随机选择以最大化其预期收益。非传递性博弈的一个典型例子是“石头-剪刀-布”,其中没有单一策略能够一致地胜过其他所有策略。

现实世界环境中,博弈的复杂性超出了理论模型的范围。有文献认为,现实世界博弈有两个显著特征:

  • 首先,参与实践通常会导致性能提升;
  • 其次,存在大量性质上不同的策略,每种策略都有其独特的优势和劣势。

在这样的博弈中,策略形成了一个类似于陀螺的几何拓扑结构,其中垂直轴代表策略的性能,径向轴代表最长循环的长度。

阶段博弈与重复博弈

  • 阶段博弈(或一次性博弈):只进行1次的博弈,即玩家之间的一次性交互。囚徒困境是一个著名的阶段博弈例子。
  • 重复博弈:基于阶段博弈并多次进行的博弈。基于阶段博弈G的重复博弈定义为在T个周期内玩G,其中T可以是有限或无限的。重复博弈中的策略是历史依赖的,即可以依赖于过去所有回合的完整序列。

注意: 阶段博弈或重复博弈既可以以正常形式表示,也可以以扩展形式表示。

团队博弈

两人零和博弈框架可自扩展到基于团队的零和博弈

Von Stengel和Koller分析了涉及单个团队与对手竞争的零和正常形式博弈。在这种团队博弈中,考虑一个由T = {1, 2, …, n-1}表示的团队,玩家n是对手(D)。在这种零和正常形式团队博弈中,对于任意玩家i, j ∈ T,效用函数满足ui(π) = uj(π) = uT(π)和uD(π) = -(n-1)uT(π)。 零和单团队单对手正常形式博弈也可以扩展到扩展式博弈的领域。对于任意玩家i, j ∈ T和所有终端节点z ∈ Z,效用函数满足ui(z) = uj(z) = uT(z)和uD(z) = -(n-1)uT(z)。 在队友无法协调其策略的场景中,团队最大最小均衡(TME)成为最合适的解概念。我们用IT表示由Si∈T Ii定义的信息集,AT表示在IT内信息集中可访问的行动集合。 在队友无法协调策略的情况下,TME提供了一种解决方案,它确保了团队在面对对手时能够采取最优的应对策略,即使团队内部成员之间缺乏直接的沟通或协调。这种均衡概念在理解和分析多玩家团队竞争环境中非常有用。

多阶信息

案例:锤子剪刀布

案例: Rock,paper,scissors!

  • Rex和Hulk两人猜拳,规定连续两局不能出的一样,且双方都十分理智的情况下(一般也是如此),第一把是剪刀平局,最后会如何?

猜拳问题:

  • 第一把我和Hulk都出了剪刀,这是我知道的第一条信息,好像没有什么用;
  • 然后呢?根据规则,我知道下次只能出锤子或者布,这是其二;
  • 同样,我知道Hulk下一把也只能出锤子或者布,这是第三条。
  • 由于我和Hulk都只能出锤子或者布,出哪一个更好呢?答案是绝对的,布赢锤子,出布!终于理顺了,但这还不是最终答案。

同样地,Hulk也想到了这一点。按理来说,下一把我和Hulk都应该出布。聪明的我俩在出完剪刀之后就立即推理出了这一点。

现在,我知道Hulk得到了这个结论,Hulk也知道我得到了相同的结论。

  • 横向推理:更进一步,我也知道Hulk知道我得到了这一结论。之后,我们就像两台运行着一模一样程序的超级电脑,陷入了一种“知道”的循环,那就是我知道Hulk知道我知道…Hulk知道下一把我俩都应该出布,这是横向推理
  • 竖向推理:我可以推出第三把我们都应该出石头(Hulk也会这样推理,他也知道我知道),第四把出剪刀,第五把出布,第六把石头…

好了!既然这样,游戏的整个走势在第一把出完剪刀之后就已经完全确定了,不仅因为我俩各自推出了结论,还因为我们知道对方也知道了这个结论。

所以谁也不能获胜,第一把是平局的话游戏就没有进行的必要了,聪明的我俩压根不会进行第二轮划拳。这个决定,仅凭前三条信息是得不出来的,也就是说,我知道这些还不够,我还得知道“他知道”。

在这个小问题里,前三条信息我们看作是一阶信息(我直接知道的事),而“我知道Hulk知道xxx”,是一个二阶信息。以此类推,“我知道他知道我知道xxx”是三阶信息,但是游戏一共只有两人参加,所以大于二阶的信息和二阶是等效的。

当然,你也可以试着分析不同情况下,囚徒困境里的信息阶数

共识

如果你已经完全理解了多阶信息的意思,那我们就可以开始最后一个问题的推理了(难)。

蓝眼人问题

蓝眼人问题:

  • 有一个岛上住着1000个岛民。其中900个是红眼,100个是蓝眼。
  • 岛上的人无法知道自己眼睛的颜色,也不准谈论眼睛的颜色。
  • 出于宗教原因,岛民一旦知道自己眼睛的颜色,就会在第二天自杀。
  • 一天,岛上来了一个蓝眼睛游客,由于不知道岛上的规矩,他在一次全岛民的聚会中说:“很高兴看到这里有和我一样是蓝眼睛的人。“

假设岛民足够聪明, 具有完全理性,游客的话会产生什么后果?

有了前面的基础,我们直接跳到逻辑里去。

  • 假如我是其中一个蓝眼人1号,通过互相观察,我可以知道2号是蓝眼,2号也可以知道3号是,3号知道4号…这些是一阶信息;接着我也知道2号知道3号是蓝眼,这是二阶;一直往后,我能知道2号知道3号知道…知道100号是蓝眼,这是99阶信息。
  • 怎么少了一阶?因为“100号知道我是蓝眼“是我无法确定的事,毕竟我不知道自己眼睛的颜色。但是我能肯定其他99个人都能看到至少98个蓝眼人,只是他们暂时不知道自己也是蓝眼人。

这时推理就开始了。

  • 假如岛上只有1个蓝眼人(与事实不符),游客说完话之后他也就知道了自己眼睛的颜色,那么他会在之后一天自杀,自杀由一阶信息导致。
  • 如果有2个(与事实不符),一天后他们会观察对方是否自杀,如果对方自杀,那么他是唯一的蓝眼人,理由同上;如果不是,说明对方还看到了一个我没看到的蓝眼人,那这个蓝眼人只可能是我自己!于是“我知道了他知道我是蓝眼人“这个二阶信息,两人可以做出同样的推理,于是第二天两人一起自杀。
  • 如果有99个蓝眼人(与我看到的相符),99天后还是无事发生,这时我获得了一个一百阶信息,那就是“2号知道3号知道…知道100号知道我(1号)是蓝眼人“!其他99人可以做出同样的推理,这时100个蓝眼人都确定了自己眼睛的颜色,于是在第100天一起自杀,这也就是问题的答案。

到这里,我们终于做完了所有的思考题,兴奋之余,我们把不同阶数的信息做一个分类。

  • 如果有 n 个人,每个人都知道的 n 阶信息被叫做 Common knowledge(袁岚峰博士译作强共识),少于 n 阶的信息被叫做 Mutual knowledge,译作弱共识
  • 在蓝眼人问题里,游客说话之前,“岛上有蓝眼人“在100个蓝眼人圈子里还是一个弱共识,只有99阶,即大家都知道,但不确定别人知不知道自己;游客说话之后第99天,这句话变成了强共识,这时大家都知道所有人的眼睛颜色。所以游客带来的信息是一个99天后才能获得的,高达100阶的信息。

这个故事也告诉我们,只要善于挖掘信息背后的信息,就可以准确推算出自己去世的时……好像不太对?

博弈困境

《博弈论与生活》中,7个困扰生活的困境 —— 囚徒困境公地悲剧搭便车懦夫博弈志愿者困境两性战争猎鹿问题

  • 双方都想攻克对方的容忍底线的被称为“懦夫博弈”;
  • 一方想要侵占共同持有的资源的是“搭便车”困境;
  • 每个人都希望别人为团队多做一些,属于“志愿者困境”…

所以,生活中遇到的将近80%的问题都可以用博弈论模型来分析解决。

纳什均衡

纳什均衡(或者纳什平衡),Nash equilibrium ,又称为非合作博弈均衡,是博弈论的一个重要策略组合,以约翰·纳什命名。

约翰·纳什,生于1928年6月13日。著名经济学家、博弈论创始人、《美丽心灵》男主角原型。前麻省理工学院助教,后任普林斯顿大学数学系教授,主要研究博弈论、微分几何学和偏微分方程。由于他与另外两位数学家(经济学家,约翰·C·海萨尼和莱因哈德·泽尔腾)在非合作博弈的均衡分析理论方面做出了开创性的贡献,对博弈论和经济学产生了重大影响,而获得1994年诺贝尔经济学奖。

纳什均衡(Nash equilibrium)由美国数学家纳什提出,在多人博弈的时候,如果其他人不改变策略,不论怎么改变也不能增加收益,所有人都是这样,也就达到了纳什均衡。换句话说,纳什均衡实现了整体利益的最大化。想要达到纳什均衡,找到整体最优的方案,最重要的一点就是共享信息

纳什是谁

纳什的人生非常曲折,一度学术成果不被认可,甚至换上严重的精神分裂症,在爱的力量下在很多年后奇迹般地恢复,并最终获得诺内尔经济学奖。影片《美丽心灵》(A Beautiful Mind)是一部改编自同名传记而获得奥斯卡金像奖的电影,影片以约翰·纳什与他的妻子艾莉西亚(曾离婚,但2001年复婚)以及普林斯顿的朋友、同事的真实感人故事为题材,艺术地重现了这个爱心呵护天才的传奇故事。

  • 美丽心灵电影
  • 【美丽心灵】改编自西尔维娅·娜萨写作的同名传记 《A Beautiful Mind: Genius, Schizophrenia and Recovery in the Life of a Nobel Laureate》

囚徒困境

案例

  • 警察抓了两个嫌疑犯,在他们没有事先串口供的情况下,分开审问。
  • 如果两个罪犯都沉默,各判1年;互相揭发,各判8年;
  • 如果一个揭发一个沉默,那么揭发的那个释放,沉默的那个判10年。
  • AB怎么选择才对自己最有利?
决策 A沉默 A揭发B
A沉默 AB各一年 A释放、B判10年
A揭发B A判10年、B释放 A、B各8年
  • 对于A来说,B如果沉默,A应该选择揭发B(A会被释放),B如果揭发A,A还是应该揭发B(A会被判8年而不是10年),所以A应该揭发B。
  • 对于B来说也是一样。

由于A,B事先没有沟通预谋,在不知道对方怎么选择的情况下,显然最优方案就是互相揭发,于是警方成功判了两个犯人8年。这就是囚徒困境的正常形式。

到这里事情好像就结束了,然而,如果审问并不是分开进行,而是二人一起,结果又会如何呢?

开始时A,B两人互不吭声,马上,在明确了对方暂未交待的情况下,A有两种选择:

  1. 揭发B,如果沉默B会被判10年,所以B也会揭发A,结果两人都判8年;
  2. 保持沉默,这时B如果揭发A,会形成1里的结果,所以B应该选择更好的方案,也就是同样保持沉默。这样一来,两人各判1年。

稍作思考,A选择了沉默,B当然也做出同样的分析。最后两人只被各判1年,整体的纳什均衡达成。

由此可见,纳什均衡的达成需要足够的信息,如果信息不足,人往往就会做出损人利己的次优选择,而错过利于大局的最优方案。

自博弈评估指标

多种自博弈评估指标,包括 NASHCONV、Elo、Glicko、WHR和TrueSkill。

其中,NASHCONV 用于衡量与纳什均衡的距离,而其他四个指标则用于评估相对技能水平,并在表I中进行了比较。

尽管存在许多其他评估指标,但这里强调的指标是该领域中最广泛使用的。

Comparison of Relative Skill Evaluation Metrics.

  Elo Glicko WHR TrueSkill  
Uncertainty Modeling  
Ratings At Any Time  
Multiplayer In One Team  
Bayesian Foundation  

对比

  • 1)NASHCONV:Nash收敛性(NASHCONV)
    • NASHCONV作为一种度量标准,用于测量特定策略与纳什均衡之间的偏差。较低的NASHCONV值意味着该策略更接近纳什均衡,暗示没有任何玩家可以通过单方面偏离该策略而获得利益。
  • 2) Elo
    • Elo系统基于一个假设运作,即每位玩家在每场博弈中的表现是一个正态分布的随机变量,其均值代表该玩家的当前等级分。在玩家A与玩家B之间的比赛中,RA 和 RB 分别代表玩家A和玩家B的当前等级分,EA 和 EB 分别表示玩家A和玩家B的预期得分(或获胜概率)
  • 3)Glicko
    • Glicko 系统通过引入玩家评分中的不确定性或可靠性度量(称为评分偏差)来改进 Elo 系统。其主要动机是考虑玩家表现的差异性和技能随时间可能发生的变化。Glicko-2 系统是原始 Glicko 系统的扩展,它进一步细化了这些概念,并引入了评分波动性 σ,表示玩家评分预期波动的程度。
  • 4)WHR
    • 全历史评分(WHR)系统是一个贝叶斯评分系统,旨在根据玩家的整个博弈历史来估计其技能。它特别适用于处理玩家技能的时间动态。Ri(t) 表示玩家 i 在时间 t 的 Elo 评分。
  • 5)TrueSkill
    • TrueSkill 是一个基于概率图模型的评分系统,它使用贝叶斯推断来处理多玩家多团队场景。TrueSkill 2 是 TrueSkill 的扩展版本,它考虑了更多因素,如玩家的经验、团队归属以及博弈特定因素(如击杀数)。

内卷与博弈

“内卷”,是一个典型“囚徒困境

牛津大学教授项飙给过很全面的解读:

  • 整体环境的恶化是不断加速且不可挽回的;而个体没有能力与环境抗衡,最终只有顺应环境变化,加入到内卷行列中。

假设一个部门所有人目标都是完成手头工作和KPI,等待工资到手。有一天部门领导灵机一动,开始制定鼓励员工每天加班半小时制度,新员工A急于表现,率先表示自己可以加班1小时,于是员工BCD……纷纷被迫开启下班后“摸鱼”一小时模式。

在“囚徒困境”模型下,当一个制度建立,制度覆盖下的人群大多数会被迫选择迎合制度,而当这一制度并非最优解时,那么,所有人的迎合都会变成无效迎合。

最后的结果就是,所有人累死累活,起早贪黑,整体效益并不会有可观的增量。

什么是内卷

随着互联网的“流量泡沫”涌入整个社会,人类开始进入疯狂“内卷化”时代,教育、工作、生活、甚至是婚恋,无一幸免。

有人将“内卷”的表现归纳概括为以下七点:

  • 无意义的精益求精;
  • 将简单问题复杂化;
  • 低水平的模仿和复制为了免责;
  • 被动的应付工作;
  • 与预期的目标严重偏离的工作;
  • 在同一个问题上无休止的挖掘研究;
  • 限制创造力的内部竞争是制度性的内卷。

2021年,“内卷化”带来无休止叠加的负担,却没有带来相应的回报与获得,这不仅让人深思:我们究竟为何而“卷”?

小米创始人雷军曾说过:永远不要试图用战术上的勤奋,掩饰战略上的懒惰。

这世上,真正能成事的人,并不是投入最多时间“内卷”的人,而是那些能找到最佳解决问题途径的人。

天道未必酬勤,但天道一定关照能找到最优解的聪明人。

如何解决内卷

陷入“囚徒的困境”的“内卷”之后,无论是个人还是团体,职场还是生活,都是一种无声息的虚度与浪费。

兰·费雪教授在《博弈论与生活》通过一整章的内容解释了“囚徒困境”,即:人们常常从利益出发,选择放弃最佳合作策略,从而陷入远利益受损的局。

解决这一困境的三种方式:改变态度,诉诸善意的权威人士,能够自行运作的策略。

  • (1)改变态度:如果我们都认为在合作中作弊是不道德的,就能避免许多社会困境。
  • (2)诉诸善意的权威人士:所谓“善意的权威人士”大多只是一个迷思。一旦有了权力,就几乎无可避免地会谋求私利。所以,我们需要让外部的权威人士来促成合作并守护公平。
  • (3)能够自行运作的策略:开发出能够自行运作的策略,如此一来,只要合作一开始,就不会有作弊的机会。

以博弈论为理论支撑的5个建立“合作关系”的方法。

  • 沟通 —— 协商 —— 联盟 —— 承诺 —— 理智与情绪
    1. 沟通
    • 卡耐基说过,一个人的成功,15%取决于知识和技能,85%取决于沟通。博弈论研究者认为。只要双方愿意且能够沟通,理性通常也能让他们达成协议。
    • 沟通顺畅至少会减少一半的时间成本。
    • 经常会看到一些八卦新闻:早已没有感情的夫妻双方,因为一些小利益双方不肯妥协,耗了一年又一年,离婚官司反复上了热搜,却久久不能得到妥善解决。
    • 阻碍他们离婚速度的,不是离婚冷静期,而是双方对于沟通的逃避。这种逃避导致双方不仅要付给律师大笔金钱,还必须承受长达几年的情绪上的压力。 2. 协商
    • 协商的两大利器,就是威胁和承诺,两者间的选择要看当时情境而定,而且对方必须相信才会有效。
    • 兰·费雪教授在书中举了这样一个小例子,当孩子开始调皮捣蛋的时候,如果爸妈只是大吼:“再不住手,我就把你宰了!”
    • 小孩可能不会对此感到威胁,因为他很明确的知道爸妈会打他屁股,但不会真的宰了他。这是一个不会成真的威胁,所以,大多数孩子理都不会理。
    • 如果爸妈把话术换成:“再皮不准吃冰淇淋了”或者是“听话,我给你买冰淇淋吃”。大概会有很明显的效果。 3. 联盟
    • 从博弈论的角度来看,夫妻,同事,或者是商家和消费者,只要便于协调双方策略,都是联盟关系。
    • 兰·费雪教授认为,人们常常从自身利益出发,选择放弃最佳合作策略,从而陷入长远利益受损的局面。
    • 所以,想要一个合作双赢的局面,必须要要将合作双方看做一个必须信任的联盟关系。
    • 在这一基础上,各方协商出策略,彼此信任,信守承诺,这些行动可以让所有人跳出社会困境,最终实现双赢局面。 4. 承诺
    • 有没有什么方式,可以让人在缺乏信任的情况下,仍然对组织保持忠诚?答案只有一个——承诺。
    • 兰·费雪教授提出了这样一个观点:在各方无法或不愿沟通的情形下,最可靠的方式就是建立起能够自行运作的协议。
    • 这个协议必须是一个纳什均衡,各方只要独自逃跑就会承受损失,因此不得不合作。
    • 2003年,华为面临前所未有的低谷期,任正非甚至计划以75亿美元的价格把华为卖给摩托罗拉,但却因为种种困难,没有最终实现。
    • 然而,也是在这最严重的低谷期,任正非摸索出一套“一种不用上市就能获得融资的方法”,开始走华为自己的“野路子”。
    • 其中,最重要的一个方式就是——通过承诺激发团队的创造活力。任正非将管理模式从上下“命令——服从”式,调整为“全员参与”式。这一政策的调整,为华为带来巨大的集体能量。 5. 理智与情绪
    • 理想状态下,只要各方能以真正理性的态度,从协商中追求自身的利益,就能为所有人找到独特的最佳方案。
    • 但人是独立复杂的个体,没有人可以做到完全的理性,所以,在合作中,情绪必须要列入我们日常计划、行动的考量之中。
    • 把快乐和其他情绪上的奖励或惩罚列入计算,看起来在某些情境中,纳什均衡就真的能将我们锁定于某些解决方案,达成合作。

博弈论要诀

十大效能最大化的博弈论要诀

兰·费雪教授在多年的博弈论研究中,总结出10个解决问题的策略。这些策略旨在调整合作和冲突之间微妙的平衡,值得每个人投入心力,了解其原理及如何应用。

  1. 赢就守,输就变
    • 不论先前选择合作策略或自私自利的不合作策略,只要结果出炉时你是赢家,就不要改变策略。
    • 但如果输了(常常是因为其他人和你同时选择不合作),就马上采取另一种策略。
  2. 带入新的参与者
    • 如果本来是两方对峙的局面,就让它变成三方制衡的情形。这对于合作时促成平衡的效果很有效。就算明明知道新加入的会是个不合群的家伙,也仍然可能改善整体情形。
    • 另外,新的参与者也可以指“受信任的第三方”,负责管理担保物或是执行违约条款。
  3. 建立互惠形式
    • 最重要的一种合作动机,就是知道未来还可能再次碰头,所以要试着通过直接、间接或社交网络的方式,建立起这样的情境。
  4. 限制未来选项,让自己一旦背叛合作,就会受损失
    • 这是最有效的让别人知道自己的确有合作意愿的方式之一。
    • 例如定下特殊条件,只要自己(或他人)违反合作承诺,名声就会大大受损;或采用破釜沉舟的方法,规定合作之后就不能再回头。
  5. 付出信任
    • 这是另一个让别人觉得你的承诺可信的做法。
    • 只要你真心付出信任,就能得到回报,想合作也就容易许多。
  6. 定下特殊条件,双方如果想单方面背叛,就会承受损失
    • 当然,这就是一个纳什均衡。如果问题的合作解决方案恰巧是纳什均衡,那么问题就解决了。
  7. 使用补偿给付,来建立并维持合作的联盟
    • 补偿给付可以是金钱,或是社交上或情感上的奖励,或干脆就是贿赂。不论是哪一种补偿方式,重点在于联盟成员如果叛逃或加入其他联盟,就会承受损失。
  8. 注意七大困境,考量各参与者的利益与成本,让困境不复存在
    • 当然,这说来轻松,做起来困难,否则早就世界大同了。但无论如何,这是正确的努力方向,而且值得一试。
  9. 分摊各种货品、责任、工作、惩罚等,让人人都觉得结果公平
    • “觉得公平”是很强烈的动机,因此务必保证过程透明,让结果看起来公平,人人满意。
  10. 将团体化整为零
    • 所有证据都显示,小团体内部的成员比较容易合作,但偏偏小团体与小团体之间就不是这么一回事。小团体的领导人如果能善用上面的九点要诀,就有助于团体间的合作。
    • 人类一切的关于劳动与关系所作出的努力,都是为了获取幸福感。而幸福感的获得来自问题的真实解决。

所以,无论你是决策者还是执行者,走出“内卷化”才能真正拥有更优的未来。

结束


支付宝打赏 微信打赏

~ 海内存知已,天涯若比邻 ~

Share

Similar Posts

Related Posts

标题:异常检测-anomaly-detection

摘要:异常检测方法总结

标题:中国社会发展回顾

摘要:近40年,中国人是如何借势改变个人命运的?一共7次机会,首富许家印抓住了4次,看你抓住了几次。

站内可视化导航

文章可视化导读:鼠标划过图形块时,如果出现蓝色光环, 点击即可跳转到对应主题
模型层
模态层
文本生成
图像生成
语音生成
视频生成
扩散模型
NLP任务
对话系统
LLM大模型专题导航
LLM训练流程
分布式训练
GPU
DeepSpeed
RAG
FineTune
RLHF
PEFT
数据准备
模型评估
PyTorch
数据标注
MoE
LLM应用方案
Transformer
GPT-1
BERT
Scaline Law
复杂推理
Function Call
Plugin 插件
小模型
Agent
智能体
LangChain
AutoGen
CoT
Prompt Engineering 
提示工程
APE 
提示词自动化
Prompt Attack 
提示词攻击
多模态
Prompt Learning 
提示学习
Transformers 库
Embedding
分词
预训练语言模型
ChatGPT
NLP模型
ChatGLM
Baichuan
ChatGPT
大语言模型
垂类模型
专题优化
幻觉
PE
推理性能
Prompt优化
Agent框架
模型训练
智能客服
对话管理
文本生成
文本分类
文本匹配
NER
阅读理解
GPT-2
NLP基础知识
聚类
深度学习
机器学习
深度学习
神经网络
神经网络调参
AutoML
强化学习
因果科学
多任务学习
用户模拟器
图神经网络
AGI
脑机接口
AIGC行业
行业知识
AI行业报告
具身智能
ML笔记
应用层
人工智障
大模型时代对话系统
LLM 开发模式
对比学习
计算机视觉
视频理解
推荐系统
文档问答
开放域问答
LLM问题
推理优化
服务部署实验
自动标注
ChatGPT应用
评估方法
目标检测
大模型评测
ChatGPT复现
AI生成
LLM原理
音乐生成
推理加速
LLM端侧部署
OpenAI
AI公司
AIGC 机会
用户画像
大脑原理
回归分析
芯片
在线教育
汽车原理
自动驾驶
异常检测
聚类算法
贝叶斯
元宇宙
新技术
机器人
搜索
可解释性
NAS
元学习
情感计算
知识追踪
互联网金融
房产行业
量化交易
股票
物联网
移动设备
语音生成
模型部署
最优化
排序学习
微积分
知识图谱
博弈论
联邦学习
密码学
流形学习
Python
特征工程
区块链
信息论
概率统计
量子计算
Pandas
Scikit-learn
文本挖掘
神经网络可视化
不均衡问题
精简笔记
文本分类
ML军规
线性代数与矩阵
Go
ML本质
LBS
傅里叶变换
Git
Jupyter
Linux
Shell
Latex
Jekyll
教育
分形几何
SQL
可视化
数据挖掘
vpn
计算机网络
计算机语言
操作系统
图形学
计算机知识脑图
基础算法
算法比赛
Web前端
架构设计
Docker
小程序
测试
面试指南
数学历史
makefile
Linux C
C/C++
设计模式
Tensorflow
Pytorch
Pytorch手册
计算机基础
数学知识
【2025-02-22】
wqw547243068@163.com
图像处理
OCR
智能硬件
传感器
GPT-3
Transformer改进
AIGC
内容检测
端到端对话
LLM发展方向
具身智能
DeepSeek
Encoder模块
(NLU场景)
Decoder模块
(NLG场景)
GPT-3.5
GPT-4
2018年6月

2018年10月
Google
2019年2月
2020年5月
Albert
2019年10月

OpenAI
Agent应用
端侧LLM
训练框架
ME
模型编辑
NL2SQL
推荐系统
LLM推荐系统
机器人
具身智能
模型蒸馏
语音识别
T5
Geimini

Comments

--disqus--