鹤啸九天 自律更自由,平凡不平庸 Less is More

博弈论- Game Theory

2022-06-28
阅读量

Notes(温馨提示):

  1. ★ 首次阅读建议浏览:导航指南, 或划到本页末尾, 或直接点击跳转, 查看全站导航图
  2. 右上角工具条搜索文章,右下角二维码关注微信公众号(鹤啸九天),底栏分享、赞赏、评论
  3. ★ 转载请注明文章来源,知识点积累起来不容易,水滴石穿,绳锯木断,谢谢理解
  4. ★ 如有疑问,邮件讨论,欢迎贡献优质资料


博弈论

资料

斯坦福博弈论

  • 【2022-9-23】斯坦福 Game Theory 博弈论中文笔记, 斯坦福 Game Theory 为斯坦福博弈论课程,课程分两部分
    • Game Theory I: An Introduction 博弈论介绍,一共八周课程20个小时,斯坦福博弈论1课程信息;
    • Game Theory II: Advanced Applications 博弈论高级应用,一共五次课程15个小时,斯坦福博弈论2课程信息,coursera中的最新课程为2016年8月10号录制
  • Coursera 博弈论1
  • 斯坦福-博弈论2 视频

博弈论定义

博弈论两个以上的个人(团体)在平等的对局中的决策、行动,以达到共赢局面的理论依据。

  • 1928年,冯·诺依曼证明了博弈论的基本原理。
  • 自20世纪以来,博弈论得到西⽅商界、经济学界、军事领域、社会学界的⼴泛应⽤。它可以帮助不同利益的决策者建⽴起能够⾃我规范、⾃动运作的合作关系。
  • 小到家庭失和、邻里矛盾,大到公司合作、国家外交……这些问题大都可以通过博弈论的策略找到最优解。

  • 【2022-6-28】博弈论课程导论
    • 博弈(game):一种存在策略互动的游戏
    • 博弈论(game theory):研究存在策略互动时最佳策略的理论
    • 决策问题:
      • 所有可能的行动
      • 所有可能的结果
      • 个人最结果的偏好
    • 博弈论的缺陷
      • 要求参与人超级理性:具备完备、封闭的心智模式(mental model),或 博弈规则的共同知识(common knowledge)
      • 结果不稳定(non-robust),存在多重均衡,给经验检验带来困难
    • 博弈论分类
      • 能否达成有约束力的协议:合作博弈非合作博弈(non-cooperative game)——1950年nash
      • 合作博弈:强调公正,帕累托最优、集体利益最大化
      • 非合作博弈:强调个人理性、个人利益最大化
        • 静态:参与人独立、同时的选择一劳永逸的行动
        • 完全信息:所有参与人都了解博弈环境、行动、结果,及大家对结果的偏好
        • 两个维度组合成4种类型
        • 完全信息静态博弈:优势策略均衡、纳什均衡等
        • 完全信息动态博弈:子博弈完美纳什均衡
        • 不完全信息静态博弈:海萨尼转换和贝叶斯均衡
        • 不完全信息动态博弈:完美贝叶斯均衡

博弈论总是以参与者绝对理性为前提,它可能看起来很贴近生活,有很多细节和可能性,但问题里的骨架却是封闭的,这是一门十分严谨的科学。

【2018-10-27】博弈与逻辑:如何用众所周知的信息取胜?

博弈论概念

【2020-8-27】博弈论速成指南,融入深度学习的经典想法和新思路

五元素标准有助于理解 AI 环境中的游戏动态,即: 对称 vs 非对称完美信息 vs 非完美信息合作 vs 非合作同时 vs 序列零和 vs 非零和

  • 对称 vs 非对称
  • 完美信息 vs 非完美信息
  • 合作 vs 非合作
  • 同时 vs 序列
  • 零和 vs 非零和

其中, 对称博弈统治 AI 世界,其中大多数基于 20 世纪最著名的数学理论之一:纳什均衡

  • 博弈论中正在影响机器学习的新想法:平均场博弈、随机博弈、演化博弈

完美/完全信息博弈

(不)完美信息和(不)完全信息

  • 完美信息博弈中,每次只有1个玩家行动。每个玩家对当前博弈状态、已做出的所有移动历史以及所有潜在的未来发展都有全面的了解。
  • 如果不满足这些条件,则博弈被认为具有不完美信息

不完全信息博弈中,至少有1个玩家不知道另一个玩家的收益;否则,它是完全信息博弈

例如

  • 围棋既是完美信息博弈也是完全信息博弈。玩家对整个博弈结构有全面的了解,包括所有可能的走法,并且他们可以轮流看到对手所做的每一步(完美信息)。此外,如果结果被认为是二元的,如胜或负,那么玩家的收益对双方来说都是已知的(完全信息)。

标准型和扩展型

博弈论中,标准博弈(又称为正规型博弈或静态博弈)和拓展博弈(又称为动态博弈)是分析不同类型决策情况的两种基本形式。

  • 标准博弈:强调一次性决策的情境下,每个玩家在做出选择时, 只知道自己的可用策略和收益,而不知道其他玩家的选择。所有玩家的决策同时进行,无法观察到对方的选择,常见的表示方法是通过赢利矩阵来展示各种策略组合下的结果。
  • 拓展博弈:博弈有多个阶段,玩家在博弈中的某个时刻做决策时,可以观察到之前发生的动作和事件。这种博弈通常通过决策树来表示,强调的是决策的序列和信息的演化,玩家需要根据先前的行动和可能的未来反应来制定策略。

囚徒困境是说明博弈论中各种概念的一个经典例子。在困境的一个修改版中(如图所示):

  • 如果一个玩家坦白(C),而另一个玩家撒谎(L),坦白者将入狱1年,而撒谎者将入狱8年。
  • 如果两个玩家都选择坦白,他们都将入狱7年。
  • 如果两个玩家都选择撒谎,他们都将只入狱2年。

标准博弈版本的囚徒困境中,两名囚犯同时做出是否坦白的决定,而且在做决定时不知道对方的选择。这种情况下的博弈通常使用标准式表示,展示所有可能的策略和结果。

相对的,在拓展博弈版本中,囚犯们的决策是顺序进行的,第二个做决定的囚犯可以知道第一个囚犯的选择。这种情况下的博弈通过决策树表示,更加强调了信息的动态变化和决策的顺序

这两种形式的博弈各有其表达方式,其中标准式可以转换为扩展式来表示信息集和决策路径,反之亦然。通过这些表示,可以更深入地分析和理解各种策略及其可能的结果。

除了标准型和扩展型博弈之外,还有在复杂的马尔可夫博弈扩展型博弈中,元博弈(meta-game)作为一种高级抽象,经常被用于分析这些博弈。

元博弈助于探索这些博弈内的策略学习,其焦点不是孤立的行动,而是由博弈动态产生的更广泛的策略。在高级的正规形式背景下,策略集由当前玩家所采用的策略组成。元策略是混合策略,它们在元博弈中为策略集分配概率。

传递性博弈与非传递性博弈

为了简化讨论,将重点限制在两人零和对称博弈上。

  • 传递性博弈:在这种博弈中,策略或结果遵循传递性关系。正式地,对于所有的策略πi, πj, πk ∈ Π,如果u(πi, πj) > 0 且 u(πj, πk) > 0,则必然有u(πi, πk) > 0。这种传递性属性简化了战略环境,允许对策略进行序数排名。
  • 非传递性博弈:与传递性博弈相反,存在策略 πi, πj, πk ∈ Π,使得u(πi, πj) > 0 和 u(πj, πk) > 0,但u(πi, πk) ≤ 0。这在策略之间引入了循环关系,从而使博弈复杂化。这种复杂性通常导致混合策略均衡,即玩家在多个策略之间随机选择以最大化其预期收益。非传递性博弈的一个典型例子是“石头-剪刀-布”,其中没有单一策略能够一致地胜过其他所有策略。

现实世界环境中,博弈的复杂性超出了理论模型的范围。有文献认为,现实世界博弈有两个显著特征:

  • 首先,参与实践通常会导致性能提升;
  • 其次,存在大量性质上不同的策略,每种策略都有其独特的优势和劣势。

在这样的博弈中,策略形成了一个类似于陀螺的几何拓扑结构,其中垂直轴代表策略的性能,径向轴代表最长循环的长度。

阶段博弈与重复博弈

  • 阶段博弈(或一次性博弈):只进行1次的博弈,即玩家之间的一次性交互。囚徒困境是一个著名的阶段博弈例子。
  • 重复博弈:基于阶段博弈并多次进行的博弈。基于阶段博弈G的重复博弈定义为在T个周期内玩G,其中T可以是有限或无限的。重复博弈中的策略是历史依赖的,即可以依赖于过去所有回合的完整序列。

注意: 阶段博弈或重复博弈既可以以正常形式表示,也可以以扩展形式表示。

团队博弈

两人零和博弈框架可自扩展到基于团队的零和博弈

Von Stengel和Koller分析了涉及单个团队与对手竞争的零和正常形式博弈。在这种团队博弈中,考虑一个由T = {1, 2, …, n-1}表示的团队,玩家n是对手(D)。在这种零和正常形式团队博弈中,对于任意玩家i, j ∈ T,效用函数满足ui(π) = uj(π) = uT(π)和uD(π) = -(n-1)uT(π)。 零和单团队单对手正常形式博弈也可以扩展到扩展式博弈的领域。对于任意玩家i, j ∈ T和所有终端节点z ∈ Z,效用函数满足ui(z) = uj(z) = uT(z)和uD(z) = -(n-1)uT(z)。 在队友无法协调其策略的场景中,团队最大最小均衡(TME)成为最合适的解概念。我们用IT表示由Si∈T Ii定义的信息集,AT表示在IT内信息集中可访问的行动集合。 在队友无法协调策略的情况下,TME提供了一种解决方案,它确保了团队在面对对手时能够采取最优的应对策略,即使团队内部成员之间缺乏直接的沟通或协调。这种均衡概念在理解和分析多玩家团队竞争环境中非常有用。

多阶信息

案例:锤子剪刀布

案例: Rock,paper,scissors!

  • Rex和Hulk两人猜拳,规定连续两局不能出的一样,且双方都十分理智的情况下(一般也是如此),第一把是剪刀平局,最后会如何?

猜拳问题:

  • 第一把我和Hulk都出了剪刀,这是我知道的第一条信息,好像没有什么用;
  • 然后呢?根据规则,我知道下次只能出锤子或者布,这是其二;
  • 同样,我知道Hulk下一把也只能出锤子或者布,这是第三条。
  • 由于我和Hulk都只能出锤子或者布,出哪一个更好呢?答案是绝对的,布赢锤子,出布!终于理顺了,但这还不是最终答案。

同样地,Hulk也想到了这一点。按理来说,下一把我和Hulk都应该出布。聪明的我俩在出完剪刀之后就立即推理出了这一点。

现在,我知道Hulk得到了这个结论,Hulk也知道我得到了相同的结论。

  • 横向推理:更进一步,我也知道Hulk知道我得到了这一结论。之后,我们就像两台运行着一模一样程序的超级电脑,陷入了一种“知道”的循环,那就是我知道Hulk知道我知道…Hulk知道下一把我俩都应该出布,这是横向推理
  • 竖向推理:我可以推出第三把我们都应该出石头(Hulk也会这样推理,他也知道我知道),第四把出剪刀,第五把出布,第六把石头…

好了!既然这样,游戏的整个走势在第一把出完剪刀之后就已经完全确定了,不仅因为我俩各自推出了结论,还因为我们知道对方也知道了这个结论。

所以谁也不能获胜,第一把是平局的话游戏就没有进行的必要了,聪明的我俩压根不会进行第二轮划拳。这个决定,仅凭前三条信息是得不出来的,也就是说,我知道这些还不够,我还得知道“他知道”。

在这个小问题里,前三条信息我们看作是一阶信息(我直接知道的事),而“我知道Hulk知道xxx”,是一个二阶信息。以此类推,“我知道他知道我知道xxx”是三阶信息,但是游戏一共只有两人参加,所以大于二阶的信息和二阶是等效的。

当然,你也可以试着分析不同情况下,囚徒困境里的信息阶数

共识

如果你已经完全理解了多阶信息的意思,那我们就可以开始最后一个问题的推理了(难)。

蓝眼人问题

蓝眼人问题:

  • 有一个岛上住着1000个岛民。其中900个是红眼,100个是蓝眼。
  • 岛上的人无法知道自己眼睛的颜色,也不准谈论眼睛的颜色。
  • 出于宗教原因,岛民一旦知道自己眼睛的颜色,就会在第二天自杀。
  • 一天,岛上来了一个蓝眼睛游客,由于不知道岛上的规矩,他在一次全岛民的聚会中说:“很高兴看到这里有和我一样是蓝眼睛的人。“

假设岛民足够聪明, 具有完全理性,游客的话会产生什么后果?

有了前面的基础,我们直接跳到逻辑里去。

  • 假如我是其中一个蓝眼人1号,通过互相观察,我可以知道2号是蓝眼,2号也可以知道3号是,3号知道4号…这些是一阶信息;接着我也知道2号知道3号是蓝眼,这是二阶;一直往后,我能知道2号知道3号知道…知道100号是蓝眼,这是99阶信息。
  • 怎么少了一阶?因为“100号知道我是蓝眼“是我无法确定的事,毕竟我不知道自己眼睛的颜色。但是我能肯定其他99个人都能看到至少98个蓝眼人,只是他们暂时不知道自己也是蓝眼人。

这时推理就开始了。

  • 假如岛上只有1个蓝眼人(与事实不符),游客说完话之后他也就知道了自己眼睛的颜色,那么他会在之后一天自杀,自杀由一阶信息导致。
  • 如果有2个(与事实不符),一天后他们会观察对方是否自杀,如果对方自杀,那么他是唯一的蓝眼人,理由同上;如果不是,说明对方还看到了一个我没看到的蓝眼人,那这个蓝眼人只可能是我自己!于是“我知道了他知道我是蓝眼人“这个二阶信息,两人可以做出同样的推理,于是第二天两人一起自杀。
  • 如果有99个蓝眼人(与我看到的相符),99天后还是无事发生,这时我获得了一个一百阶信息,那就是“2号知道3号知道…知道100号知道我(1号)是蓝眼人“!其他99人可以做出同样的推理,这时100个蓝眼人都确定了自己眼睛的颜色,于是在第100天一起自杀,这也就是问题的答案。

到这里,我们终于做完了所有的思考题,兴奋之余,我们把不同阶数的信息做一个分类。

  • 如果有 n 个人,每个人都知道的 n 阶信息被叫做 Common knowledge(袁岚峰博士译作强共识),少于 n 阶的信息被叫做 Mutual knowledge,译作弱共识
  • 在蓝眼人问题里,游客说话之前,“岛上有蓝眼人“在100个蓝眼人圈子里还是一个弱共识,只有99阶,即大家都知道,但不确定别人知不知道自己;游客说话之后第99天,这句话变成了强共识,这时大家都知道所有人的眼睛颜色。所以游客带来的信息是一个99天后才能获得的,高达100阶的信息。

这个故事也告诉我们,只要善于挖掘信息背后的信息,就可以准确推算出自己去世的时……好像不太对?

博弈困境

《博弈论与生活》中,7个困扰生活的困境 —— 囚徒困境公地悲剧搭便车懦夫博弈志愿者困境两性战争猎鹿问题

  • 双方都想攻克对方的容忍底线的被称为“懦夫博弈”;
  • 一方想要侵占共同持有的资源的是“搭便车”困境;
  • 每个人都希望别人为团队多做一些,属于“志愿者困境”…

所以,生活中遇到的将近80%的问题都可以用博弈论模型来分析解决。

纳什均衡

纳什均衡(或者纳什平衡),Nash equilibrium ,又称为非合作博弈均衡,是博弈论的一个重要策略组合,以约翰·纳什命名。

约翰·纳什,生于1928年6月13日。著名经济学家、博弈论创始人、《美丽心灵》男主角原型。前麻省理工学院助教,后任普林斯顿大学数学系教授,主要研究博弈论、微分几何学和偏微分方程。由于他与另外两位数学家(经济学家,约翰·C·海萨尼和莱因哈德·泽尔腾)在非合作博弈的均衡分析理论方面做出了开创性的贡献,对博弈论和经济学产生了重大影响,而获得1994年诺贝尔经济学奖。

纳什均衡(Nash equilibrium)由美国数学家纳什提出,在多人博弈的时候,如果其他人不改变策略,不论怎么改变也不能增加收益,所有人都是这样,也就达到了纳什均衡。换句话说,纳什均衡实现了整体利益的最大化。想要达到纳什均衡,找到整体最优的方案,最重要的一点就是共享信息

纳什是谁

纳什的人生非常曲折,一度学术成果不被认可,甚至换上严重的精神分裂症,在爱的力量下在很多年后奇迹般地恢复,并最终获得诺内尔经济学奖。影片《美丽心灵》(A Beautiful Mind)是一部改编自同名传记而获得奥斯卡金像奖的电影,影片以约翰·纳什与他的妻子艾莉西亚(曾离婚,但2001年复婚)以及普林斯顿的朋友、同事的真实感人故事为题材,艺术地重现了这个爱心呵护天才的传奇故事。

  • 美丽心灵电影
  • 【美丽心灵】改编自西尔维娅·娜萨写作的同名传记 《A Beautiful Mind: Genius, Schizophrenia and Recovery in the Life of a Nobel Laureate》

囚徒困境

案例

  • 警察抓了两个嫌疑犯,在他们没有事先串口供的情况下,分开审问。
  • 如果两个罪犯都沉默,各判1年;互相揭发,各判8年;
  • 如果一个揭发一个沉默,那么揭发的那个释放,沉默的那个判10年。
  • AB怎么选择才对自己最有利?
决策 A沉默 A揭发B
A沉默 AB各一年 A释放、B判10年
A揭发B A判10年、B释放 A、B各8年
  • 对于A来说,B如果沉默,A应该选择揭发B(A会被释放),B如果揭发A,A还是应该揭发B(A会被判8年而不是10年),所以A应该揭发B。
  • 对于B来说也是一样。

由于A,B事先没有沟通预谋,在不知道对方怎么选择的情况下,显然最优方案就是互相揭发,于是警方成功判了两个犯人8年。这就是囚徒困境的正常形式。

到这里事情好像就结束了,然而,如果审问并不是分开进行,而是二人一起,结果又会如何呢?

开始时A,B两人互不吭声,马上,在明确了对方暂未交待的情况下,A有两种选择:

  1. 揭发B,如果沉默B会被判10年,所以B也会揭发A,结果两人都判8年;
  2. 保持沉默,这时B如果揭发A,会形成1里的结果,所以B应该选择更好的方案,也就是同样保持沉默。这样一来,两人各判1年。

稍作思考,A选择了沉默,B当然也做出同样的分析。最后两人只被各判1年,整体的纳什均衡达成。

由此可见,纳什均衡的达成需要足够的信息,如果信息不足,人往往就会做出损人利己的次优选择,而错过利于大局的最优方案。

自博弈评估指标

多种自博弈评估指标,包括 NASHCONV、Elo、Glicko、WHR和TrueSkill。

其中,NASHCONV 用于衡量与纳什均衡的距离,而其他四个指标则用于评估相对技能水平,并在表I中进行了比较。

尽管存在许多其他评估指标,但这里强调的指标是该领域中最广泛使用的。

Comparison of Relative Skill Evaluation Metrics.

  Elo Glicko WHR TrueSkill  
Uncertainty Modeling  
Ratings At Any Time  
Multiplayer In One Team  
Bayesian Foundation  

对比

  • 1)NASHCONV:Nash收敛性(NASHCONV)
    • NASHCONV作为一种度量标准,用于测量特定策略与纳什均衡之间的偏差。较低的NASHCONV值意味着该策略更接近纳什均衡,暗示没有任何玩家可以通过单方面偏离该策略而获得利益。
  • 2) Elo
    • Elo系统基于一个假设运作,即每位玩家在每场博弈中的表现是一个正态分布的随机变量,其均值代表该玩家的当前等级分。在玩家A与玩家B之间的比赛中,RA 和 RB 分别代表玩家A和玩家B的当前等级分,EA 和 EB 分别表示玩家A和玩家B的预期得分(或获胜概率)
  • 3)Glicko
    • Glicko 系统通过引入玩家评分中的不确定性或可靠性度量(称为评分偏差)来改进 Elo 系统。其主要动机是考虑玩家表现的差异性和技能随时间可能发生的变化。Glicko-2 系统是原始 Glicko 系统的扩展,它进一步细化了这些概念,并引入了评分波动性 σ,表示玩家评分预期波动的程度。
  • 4)WHR
    • 全历史评分(WHR)系统是一个贝叶斯评分系统,旨在根据玩家的整个博弈历史来估计其技能。它特别适用于处理玩家技能的时间动态。Ri(t) 表示玩家 i 在时间 t 的 Elo 评分。
  • 5)TrueSkill
    • TrueSkill 是一个基于概率图模型的评分系统,它使用贝叶斯推断来处理多玩家多团队场景。TrueSkill 2 是 TrueSkill 的扩展版本,它考虑了更多因素,如玩家的经验、团队归属以及博弈特定因素(如击杀数)。

内卷与博弈

“内卷”,是一个典型“囚徒困境

牛津大学教授项飙给过很全面的解读:

  • 整体环境的恶化是不断加速且不可挽回的;而个体没有能力与环境抗衡,最终只有顺应环境变化,加入到内卷行列中。

假设一个部门所有人目标都是完成手头工作和KPI,等待工资到手。有一天部门领导灵机一动,开始制定鼓励员工每天加班半小时制度,新员工A急于表现,率先表示自己可以加班1小时,于是员工BCD……纷纷被迫开启下班后“摸鱼”一小时模式。

在“囚徒困境”模型下,当一个制度建立,制度覆盖下的人群大多数会被迫选择迎合制度,而当这一制度并非最优解时,那么,所有人的迎合都会变成无效迎合。

最后的结果就是,所有人累死累活,起早贪黑,整体效益并不会有可观的增量。

什么是内卷

随着互联网的“流量泡沫”涌入整个社会,人类开始进入疯狂“内卷化”时代,教育、工作、生活、甚至是婚恋,无一幸免。

有人将“内卷”的表现归纳概括为以下七点:

  • 无意义的精益求精;
  • 将简单问题复杂化;
  • 低水平的模仿和复制为了免责;
  • 被动的应付工作;
  • 与预期的目标严重偏离的工作;
  • 在同一个问题上无休止的挖掘研究;
  • 限制创造力的内部竞争是制度性的内卷。

2021年,“内卷化”带来无休止叠加的负担,却没有带来相应的回报与获得,这不仅让人深思:我们究竟为何而“卷”?

小米创始人雷军曾说过:永远不要试图用战术上的勤奋,掩饰战略上的懒惰。

这世上,真正能成事的人,并不是投入最多时间“内卷”的人,而是那些能找到最佳解决问题途径的人。

天道未必酬勤,但天道一定关照能找到最优解的聪明人。

如何解决内卷

陷入“囚徒的困境”的“内卷”之后,无论是个人还是团体,职场还是生活,都是一种无声息的虚度与浪费。

兰·费雪教授在《博弈论与生活》通过一整章的内容解释了“囚徒困境”,即:人们常常从利益出发,选择放弃最佳合作策略,从而陷入远利益受损的局。

解决这一困境的三种方式:改变态度,诉诸善意的权威人士,能够自行运作的策略。

  • (1)改变态度:如果我们都认为在合作中作弊是不道德的,就能避免许多社会困境。
  • (2)诉诸善意的权威人士:所谓“善意的权威人士”大多只是一个迷思。一旦有了权力,就几乎无可避免地会谋求私利。所以,我们需要让外部的权威人士来促成合作并守护公平。
  • (3)能够自行运作的策略:开发出能够自行运作的策略,如此一来,只要合作一开始,就不会有作弊的机会。

以博弈论为理论支撑的5个建立“合作关系”的方法。

  • 沟通 —— 协商 —— 联盟 —— 承诺 —— 理智与情绪
    1. 沟通
    • 卡耐基说过,一个人的成功,15%取决于知识和技能,85%取决于沟通。博弈论研究者认为。只要双方愿意且能够沟通,理性通常也能让他们达成协议。
    • 沟通顺畅至少会减少一半的时间成本。
    • 经常会看到一些八卦新闻:早已没有感情的夫妻双方,因为一些小利益双方不肯妥协,耗了一年又一年,离婚官司反复上了热搜,却久久不能得到妥善解决。
    • 阻碍他们离婚速度的,不是离婚冷静期,而是双方对于沟通的逃避。这种逃避导致双方不仅要付给律师大笔金钱,还必须承受长达几年的情绪上的压力。 2. 协商
    • 协商的两大利器,就是威胁和承诺,两者间的选择要看当时情境而定,而且对方必须相信才会有效。
    • 兰·费雪教授在书中举了这样一个小例子,当孩子开始调皮捣蛋的时候,如果爸妈只是大吼:“再不住手,我就把你宰了!”
    • 小孩可能不会对此感到威胁,因为他很明确的知道爸妈会打他屁股,但不会真的宰了他。这是一个不会成真的威胁,所以,大多数孩子理都不会理。
    • 如果爸妈把话术换成:“再皮不准吃冰淇淋了”或者是“听话,我给你买冰淇淋吃”。大概会有很明显的效果。 3. 联盟
    • 从博弈论的角度来看,夫妻,同事,或者是商家和消费者,只要便于协调双方策略,都是联盟关系。
    • 兰·费雪教授认为,人们常常从自身利益出发,选择放弃最佳合作策略,从而陷入长远利益受损的局面。
    • 所以,想要一个合作双赢的局面,必须要要将合作双方看做一个必须信任的联盟关系。
    • 在这一基础上,各方协商出策略,彼此信任,信守承诺,这些行动可以让所有人跳出社会困境,最终实现双赢局面。 4. 承诺
    • 有没有什么方式,可以让人在缺乏信任的情况下,仍然对组织保持忠诚?答案只有一个——承诺。
    • 兰·费雪教授提出了这样一个观点:在各方无法或不愿沟通的情形下,最可靠的方式就是建立起能够自行运作的协议。
    • 这个协议必须是一个纳什均衡,各方只要独自逃跑就会承受损失,因此不得不合作。
    • 2003年,华为面临前所未有的低谷期,任正非甚至计划以75亿美元的价格把华为卖给摩托罗拉,但却因为种种困难,没有最终实现。
    • 然而,也是在这最严重的低谷期,任正非摸索出一套“一种不用上市就能获得融资的方法”,开始走华为自己的“野路子”。
    • 其中,最重要的一个方式就是——通过承诺激发团队的创造活力。任正非将管理模式从上下“命令——服从”式,调整为“全员参与”式。这一政策的调整,为华为带来巨大的集体能量。 5. 理智与情绪
    • 理想状态下,只要各方能以真正理性的态度,从协商中追求自身的利益,就能为所有人找到独特的最佳方案。
    • 但人是独立复杂的个体,没有人可以做到完全的理性,所以,在合作中,情绪必须要列入我们日常计划、行动的考量之中。
    • 把快乐和其他情绪上的奖励或惩罚列入计算,看起来在某些情境中,纳什均衡就真的能将我们锁定于某些解决方案,达成合作。

博弈论要诀

十大效能最大化的博弈论要诀

兰·费雪教授在多年的博弈论研究中,总结出10个解决问题的策略。这些策略旨在调整合作和冲突之间微妙的平衡,值得每个人投入心力,了解其原理及如何应用。

  1. 赢就守,输就变
    • 不论先前选择合作策略或自私自利的不合作策略,只要结果出炉时你是赢家,就不要改变策略。
    • 但如果输了(常常是因为其他人和你同时选择不合作),就马上采取另一种策略。
  2. 带入新的参与者
    • 如果本来是两方对峙的局面,就让它变成三方制衡的情形。这对于合作时促成平衡的效果很有效。就算明明知道新加入的会是个不合群的家伙,也仍然可能改善整体情形。
    • 另外,新的参与者也可以指“受信任的第三方”,负责管理担保物或是执行违约条款。
  3. 建立互惠形式
    • 最重要的一种合作动机,就是知道未来还可能再次碰头,所以要试着通过直接、间接或社交网络的方式,建立起这样的情境。
  4. 限制未来选项,让自己一旦背叛合作,就会受损失
    • 这是最有效的让别人知道自己的确有合作意愿的方式之一。
    • 例如定下特殊条件,只要自己(或他人)违反合作承诺,名声就会大大受损;或采用破釜沉舟的方法,规定合作之后就不能再回头。
  5. 付出信任
    • 这是另一个让别人觉得你的承诺可信的做法。
    • 只要你真心付出信任,就能得到回报,想合作也就容易许多。
  6. 定下特殊条件,双方如果想单方面背叛,就会承受损失
    • 当然,这就是一个纳什均衡。如果问题的合作解决方案恰巧是纳什均衡,那么问题就解决了。
  7. 使用补偿给付,来建立并维持合作的联盟
    • 补偿给付可以是金钱,或是社交上或情感上的奖励,或干脆就是贿赂。不论是哪一种补偿方式,重点在于联盟成员如果叛逃或加入其他联盟,就会承受损失。
  8. 注意七大困境,考量各参与者的利益与成本,让困境不复存在
    • 当然,这说来轻松,做起来困难,否则早就世界大同了。但无论如何,这是正确的努力方向,而且值得一试。
  9. 分摊各种货品、责任、工作、惩罚等,让人人都觉得结果公平
    • “觉得公平”是很强烈的动机,因此务必保证过程透明,让结果看起来公平,人人满意。
  10. 将团体化整为零
    • 所有证据都显示,小团体内部的成员比较容易合作,但偏偏小团体与小团体之间就不是这么一回事。小团体的领导人如果能善用上面的九点要诀,就有助于团体间的合作。
    • 人类一切的关于劳动与关系所作出的努力,都是为了获取幸福感。而幸福感的获得来自问题的真实解决。

所以,无论你是决策者还是执行者,走出“内卷化”才能真正拥有更优的未来。

结束


支付宝打赏 微信打赏

~ 海内存知已,天涯若比邻 ~

Share

Similar Posts

Related Posts

标题:异常检测-anomaly-detection

摘要:异常检测方法总结

标题:中国社会发展回顾

摘要:近40年,中国人是如何借势改变个人命运的?一共7次机会,首富许家印抓住了4次,看你抓住了几次。

站内可视化导航

文章可视化导读:鼠标划过图形块时,如果出现蓝色光环, 点击即可跳转到对应主题

Comments

--disqus--

    My Moment ( 微信公众号 )
    欢迎关注鹤啸九天