博弈论
资料
- 【2021-5-26】这次终于把“内卷”讲明白了!
- 【2022-9-23】复旦大学博弈论讲义
- 【2024-9-14】OpenAI o1 强化学习背后的自博弈(Self-play)方法介绍
斯坦福博弈论
- 【2022-9-23】斯坦福 Game Theory 博弈论中文笔记, 斯坦福 Game Theory 为斯坦福博弈论课程,课程分两部分
- Game Theory I: An Introduction 博弈论介绍,一共八周课程20个小时,斯坦福博弈论1课程信息;
- Game Theory II: Advanced Applications 博弈论高级应用,一共五次课程15个小时,斯坦福博弈论2课程信息,coursera中的最新课程为2016年8月10号录制
- Coursera 博弈论1
- 斯坦福-博弈论2 视频
博弈论定义
博弈论
指两个以上的个人(团体)在平等的对局中的决策、行动,以达到共赢局面的理论依据。
- 1928年,
冯·诺依曼
证明了博弈论
的基本原理。 - 自20世纪以来,
博弈论
得到西⽅商界、经济学界、军事领域、社会学界的⼴泛应⽤。它可以帮助不同利益的决策者建⽴起能够⾃我规范、⾃动运作的合作关系。 -
小到家庭失和、邻里矛盾,大到公司合作、国家外交……这些问题大都可以通过博弈论的策略找到最优解。
- 【2022-6-28】博弈论课程,导论
博弈
(game):一种存在策略互动的游戏博弈论
(game theory):研究存在策略互动时最佳策略的理论- 决策问题:
- 所有可能的行动
- 所有可能的结果
- 个人最结果的偏好
- 博弈论的缺陷
- 要求参与人超级理性:具备完备、封闭的心智模式(mental model),或 博弈规则的共同知识(common knowledge)
- 结果不稳定(non-robust),存在多重均衡,给经验检验带来困难
- 博弈论分类
- 能否达成有约束力的协议:
合作博弈
、非合作博弈
(non-cooperative game)——1950年nash 合作博弈
:强调公正,帕累托
最优、集体利益最大化非合作博弈
:强调个人理性、个人利益最大化- 静态:参与人独立、同时的选择一劳永逸的行动
- 完全信息:所有参与人都了解博弈环境、行动、结果,及大家对结果的偏好
- 两个维度组合成4种类型
- ① 完全信息静态博弈:优势策略均衡、纳什均衡等
- ② 完全信息动态博弈:子博弈完美纳什均衡
- ③ 不完全信息静态博弈:海萨尼转换和贝叶斯均衡
- ④ 不完全信息动态博弈:完美贝叶斯均衡
- 能否达成有约束力的协议:
博弈论
总是以参与者绝对理性为前提,它可能看起来很贴近生活,有很多细节和可能性,但问题里的骨架却是封闭的,这是一门十分严谨的科学。
【2018-10-27】博弈与逻辑:如何用众所周知的信息取胜?
博弈论概念
【2020-8-27】博弈论速成指南,融入深度学习的经典想法和新思路
五元素标准有助于理解 AI 环境中的游戏动态,即: 对称
vs 非对称
、完美信息
vs 非完美信息
、合作
vs 非合作
、同时
vs 序列
和零和
vs 非零和
。
对称
vs非对称
完美信息
vs非完美信息
合作
vs非合作
同时
vs序列
零和
vs非零和
其中, 对称博弈
统治 AI 世界,其中大多数基于 20 世纪最著名的数学理论之一:纳什均衡
- 博弈论中正在影响机器学习的新想法:平均场博弈、随机博弈、演化博弈
完美/完全信息博弈
(不)完美信息和(不)完全信息
完美信息博弈
中,每次只有1个玩家行动。每个玩家对当前博弈状态、已做出的所有移动历史以及所有潜在的未来发展都有全面的了解。- 如果不满足这些条件,则博弈被认为具有
不完美信息
。
在不完全信息博弈
中,至少有1个玩家不知道另一个玩家的收益;否则,它是完全信息博弈
。
例如
围棋
既是完美信息博弈
也是完全信息博弈
。玩家对整个博弈结构有全面的了解,包括所有可能的走法,并且他们可以轮流看到对手所做的每一步(完美信息)。此外,如果结果被认为是二元的,如胜或负,那么玩家的收益对双方来说都是已知的(完全信息)。
标准型和扩展型
博弈论中,标准博弈
(又称为正规型博弈或静态博弈)和拓展博弈
(又称为动态博弈)是分析不同类型决策情况的两种基本形式。
标准博弈
:强调一次性决策的情境下,每个玩家在做出选择时, 只知道自己的可用策略和收益,而不知道其他玩家的选择。所有玩家的决策同时进行,无法观察到对方的选择,常见的表示方法是通过赢利矩阵来展示各种策略组合下的结果。拓展博弈
:博弈有多个阶段,玩家在博弈中的某个时刻做决策时,可以观察到之前发生的动作和事件。这种博弈通常通过决策树来表示,强调的是决策的序列和信息的演化,玩家需要根据先前的行动和可能的未来反应来制定策略。
囚徒困境
是说明博弈论中各种概念的一个经典例子。在困境的一个修改版中(如图所示):
- 如果一个玩家坦白(C),而另一个玩家撒谎(L),坦白者将入狱1年,而撒谎者将入狱8年。
- 如果两个玩家都选择坦白,他们都将入狱7年。
- 如果两个玩家都选择撒谎,他们都将只入狱2年。
在标准博弈
版本的囚徒困境中,两名囚犯同时做出是否坦白的决定,而且在做决定时不知道对方的选择。这种情况下的博弈通常使用标准式表示,展示所有可能的策略和结果。
相对的,在拓展博弈
版本中,囚犯们的决策是顺序进行的,第二个做决定的囚犯可以知道第一个囚犯的选择。这种情况下的博弈通过决策树表示,更加强调了信息的动态变化和决策的顺序
这两种形式的博弈各有其表达方式,其中标准式可以转换为扩展式来表示信息集和决策路径,反之亦然。通过这些表示,可以更深入地分析和理解各种策略及其可能的结果。
除了标准型和扩展型博弈之外,还有在复杂的马尔可夫博弈
或扩展型博弈
中,元博弈
(meta-game)作为一种高级抽象,经常被用于分析这些博弈。
元博弈助于探索这些博弈内的策略学习,其焦点不是孤立的行动,而是由博弈动态产生的更广泛的策略。在高级的正规形式背景下,策略集由当前玩家所采用的策略组成。元策略是混合策略,它们在元博弈中为策略集分配概率。
传递性博弈与非传递性博弈
为了简化讨论,将重点限制在两人零和对称博弈
上。
传递性博弈
:在这种博弈中,策略或结果遵循传递性关系。正式地,对于所有的策略πi, πj, πk ∈ Π,如果u(πi, πj) > 0 且 u(πj, πk) > 0,则必然有u(πi, πk) > 0。这种传递性属性简化了战略环境,允许对策略进行序数排名。非传递性博弈
:与传递性博弈相反,存在策略 πi, πj, πk ∈ Π,使得u(πi, πj) > 0 和 u(πj, πk) > 0,但u(πi, πk) ≤ 0。这在策略之间引入了循环关系,从而使博弈复杂化。这种复杂性通常导致混合策略均衡,即玩家在多个策略之间随机选择以最大化其预期收益。非传递性博弈的一个典型例子是“石头-剪刀-布”,其中没有单一策略能够一致地胜过其他所有策略。
现实世界环境中,博弈的复杂性超出了理论模型的范围。有文献认为,现实世界博弈有两个显著特征:
- 首先,参与实践通常会导致性能提升;
- 其次,存在大量性质上不同的策略,每种策略都有其独特的优势和劣势。
在这样的博弈中,策略形成了一个类似于陀螺的几何拓扑结构,其中垂直轴代表策略的性能,径向轴代表最长循环的长度。
阶段博弈与重复博弈
阶段博弈
(或一次性博弈):只进行1次的博弈,即玩家之间的一次性交互。囚徒困境
是一个著名的阶段博弈例子。重复博弈
:基于阶段博弈并多次进行的博弈。基于阶段博弈G的重复博弈定义为在T个周期内玩G,其中T可以是有限或无限的。重复博弈中的策略是历史依赖的,即可以依赖于过去所有回合的完整序列。
注意: 阶段博弈或重复博弈既可以以正常形式表示,也可以以扩展形式表示。
团队博弈
两人零和博弈
框架可自扩展到基于团队的零和博弈
。
Von Stengel和Koller分析了涉及单个团队与对手竞争的零和正常形式博弈。在这种团队博弈中,考虑一个由T = {1, 2, …, n-1}表示的团队,玩家n是对手(D)。在这种零和正常形式团队博弈中,对于任意玩家i, j ∈ T,效用函数满足ui(π) = uj(π) = uT(π)和uD(π) = -(n-1)uT(π)。 零和单团队单对手正常形式博弈也可以扩展到扩展式博弈的领域。对于任意玩家i, j ∈ T和所有终端节点z ∈ Z,效用函数满足ui(z) = uj(z) = uT(z)和uD(z) = -(n-1)uT(z)。 在队友无法协调其策略的场景中,团队最大最小均衡(TME)成为最合适的解概念。我们用IT表示由Si∈T Ii定义的信息集,AT表示在IT内信息集中可访问的行动集合。 在队友无法协调策略的情况下,TME提供了一种解决方案,它确保了团队在面对对手时能够采取最优的应对策略,即使团队内部成员之间缺乏直接的沟通或协调。这种均衡概念在理解和分析多玩家团队竞争环境中非常有用。
多阶信息
案例:锤子剪刀布
案例: Rock,paper,scissors!
- Rex和Hulk两人猜拳,规定连续两局不能出的一样,且双方都十分理智的情况下(一般也是如此),第一把是剪刀平局,最后会如何?
猜拳问题:
- 第一把我和Hulk都出了剪刀,这是我知道的第一条信息,好像没有什么用;
- 然后呢?根据规则,我知道下次只能出锤子或者布,这是其二;
- 同样,我知道Hulk下一把也只能出锤子或者布,这是第三条。
- 由于我和Hulk都只能出锤子或者布,出哪一个更好呢?答案是绝对的,布赢锤子,出布!终于理顺了,但这还不是最终答案。
同样地,Hulk也想到了这一点。按理来说,下一把我和Hulk都应该出布。聪明的我俩在出完剪刀之后就立即推理出了这一点。
现在,我知道Hulk得到了这个结论,Hulk也知道我得到了相同的结论。
- 横向推理:更进一步,我也知道Hulk知道我得到了这一结论。之后,我们就像两台运行着一模一样程序的超级电脑,陷入了一种“知道”的循环,那就是我知道Hulk知道我知道…Hulk知道下一把我俩都应该出布,这是横向推理。
- 竖向推理:我可以推出第三把我们都应该出石头(Hulk也会这样推理,他也知道我知道),第四把出剪刀,第五把出布,第六把石头…
好了!既然这样,游戏的整个走势在第一把出完剪刀之后就已经完全确定了,不仅因为我俩各自推出了结论,还因为我们知道对方也知道了这个结论。
所以谁也不能获胜,第一把是平局的话游戏就没有进行的必要了,聪明的我俩压根不会进行第二轮划拳。这个决定,仅凭前三条信息是得不出来的,也就是说,我知道这些还不够,我还得知道“他知道”。
在这个小问题里,前三条信息我们看作是一阶信息(我直接知道的事),而“我知道Hulk知道xxx”,是一个二阶信息。以此类推,“我知道他知道我知道xxx”是三阶信息,但是游戏一共只有两人参加,所以大于二阶的信息和二阶是等效的。
当然,你也可以试着分析不同情况下,囚徒困境里的信息阶数。
共识
如果你已经完全理解了多阶信息的意思,那我们就可以开始最后一个问题的推理了(难)。
蓝眼人问题
蓝眼人问题:
- 有一个岛上住着1000个岛民。其中900个是红眼,100个是蓝眼。
- 岛上的人无法知道自己眼睛的颜色,也不准谈论眼睛的颜色。
- 出于宗教原因,岛民一旦知道自己眼睛的颜色,就会在第二天自杀。
- 一天,岛上来了一个蓝眼睛游客,由于不知道岛上的规矩,他在一次全岛民的聚会中说:“很高兴看到这里有和我一样是蓝眼睛的人。“
假设岛民足够聪明, 具有完全理性,游客的话会产生什么后果?
有了前面的基础,我们直接跳到逻辑里去。
- 假如我是其中一个蓝眼人1号,通过互相观察,我可以知道2号是蓝眼,2号也可以知道3号是,3号知道4号…这些是一阶信息;接着我也知道2号知道3号是蓝眼,这是二阶;一直往后,我能知道2号知道3号知道…知道100号是蓝眼,这是99阶信息。
- 怎么少了一阶?因为“100号知道我是蓝眼“是我无法确定的事,毕竟我不知道自己眼睛的颜色。但是我能肯定其他99个人都能看到至少98个蓝眼人,只是他们暂时不知道自己也是蓝眼人。
这时推理就开始了。
- 假如岛上只有1个蓝眼人(与事实不符),游客说完话之后他也就知道了自己眼睛的颜色,那么他会在之后一天自杀,自杀由一阶信息导致。
- 如果有2个(与事实不符),一天后他们会观察对方是否自杀,如果对方自杀,那么他是唯一的蓝眼人,理由同上;如果不是,说明对方还看到了一个我没看到的蓝眼人,那这个蓝眼人只可能是我自己!于是“我知道了他知道我是蓝眼人“这个二阶信息,两人可以做出同样的推理,于是第二天两人一起自杀。
- 如果有99个蓝眼人(与我看到的相符),99天后还是无事发生,这时我获得了一个一百阶信息,那就是“2号知道3号知道…知道100号知道我(1号)是蓝眼人“!其他99人可以做出同样的推理,这时100个蓝眼人都确定了自己眼睛的颜色,于是在第100天一起自杀,这也就是问题的答案。
到这里,我们终于做完了所有的思考题,兴奋之余,我们把不同阶数的信息做一个分类。
- 如果有 n 个人,每个人都知道的 n 阶信息被叫做 Common knowledge(袁岚峰博士译作
强共识
),少于 n 阶的信息被叫做 Mutual knowledge,译作弱共识
。 - 在蓝眼人问题里,游客说话之前,“岛上有蓝眼人“在100个蓝眼人圈子里还是一个
弱共识
,只有99阶,即大家都知道,但不确定别人知不知道自己;游客说话之后第99天,这句话变成了强共识
,这时大家都知道所有人的眼睛颜色。所以游客带来的信息是一个99天后才能获得的,高达100阶的信息。
这个故事也告诉我们,只要善于挖掘信息背后的信息,就可以准确推算出自己去世的时……好像不太对?
博弈困境
《博弈论与生活》中,7个困扰生活的困境 —— 囚徒困境
、公地悲剧
、搭便车
、懦夫博弈
、志愿者困境
、两性战争
、猎鹿问题
。
- 双方都想攻克对方的容忍底线的被称为“懦夫博弈”;
- 一方想要侵占共同持有的资源的是“搭便车”困境;
- 每个人都希望别人为团队多做一些,属于“志愿者困境”…
所以,生活中遇到的将近80%的问题都可以用博弈论模型来分析解决。
纳什均衡
纳什均衡
(或者纳什平衡),Nash equilibrium
,又称为非合作博弈均衡,是博弈论的一个重要策略组合,以约翰·纳什命名。
约翰·纳什,生于1928年6月13日。著名经济学家、博弈论创始人、《美丽心灵》男主角原型。前麻省理工学院助教,后任普林斯顿大学数学系教授,主要研究博弈论、微分几何学和偏微分方程。由于他与另外两位数学家(经济学家,约翰·C·海萨尼和莱因哈德·泽尔腾)在非合作博弈的均衡分析理论方面做出了开创性的贡献,对博弈论和经济学产生了重大影响,而获得1994年诺贝尔经济学奖。
纳什均衡
(Nash equilibrium)由美国数学家纳什
提出,在多人博弈的时候,如果其他人不改变策略,不论怎么改变也不能增加收益,所有人都是这样,也就达到了纳什均衡
。换句话说,纳什均衡实现了整体利益的最大化。想要达到纳什均衡,找到整体最优的方案,最重要的一点就是共享信息
纳什是谁
纳什的人生非常曲折,一度学术成果不被认可,甚至换上严重的精神分裂症,在爱的力量下在很多年后奇迹般地恢复,并最终获得诺内尔经济学奖。影片《美丽心灵》(A Beautiful Mind)是一部改编自同名传记而获得奥斯卡金像奖的电影,影片以约翰·纳什与他的妻子艾莉西亚(曾离婚,但2001年复婚)以及普林斯顿的朋友、同事的真实感人故事为题材,艺术地重现了这个爱心呵护天才的传奇故事。
- 美丽心灵电影
- 【美丽心灵】改编自西尔维娅·娜萨写作的同名传记 《A Beautiful Mind: Genius, Schizophrenia and Recovery in the Life of a Nobel Laureate》
囚徒困境
案例
- 警察抓了两个嫌疑犯,在他们没有事先串口供的情况下,分开审问。
- 如果两个罪犯都沉默,各判1年;互相揭发,各判8年;
- 如果一个揭发一个沉默,那么揭发的那个释放,沉默的那个判10年。
- AB怎么选择才对自己最有利?
决策 | A沉默 | A揭发B |
---|---|---|
A沉默 | AB各一年 | A释放、B判10年 |
A揭发B | A判10年、B释放 | A、B各8年 |
- 对于A来说,B如果沉默,A应该选择揭发B(A会被释放),B如果揭发A,A还是应该揭发B(A会被判8年而不是10年),所以A应该揭发B。
- 对于B来说也是一样。
由于A,B事先没有沟通预谋,在不知道对方怎么选择的情况下,显然最优方案就是互相揭发,于是警方成功判了两个犯人8年。这就是囚徒困境的正常形式。
到这里事情好像就结束了,然而,如果审问并不是分开进行,而是二人一起,结果又会如何呢?
开始时A,B两人互不吭声,马上,在明确了对方暂未交待的情况下,A有两种选择:
- 揭发B,如果沉默B会被判10年,所以B也会揭发A,结果两人都判8年;
- 保持沉默,这时B如果揭发A,会形成1里的结果,所以B应该选择更好的方案,也就是同样保持沉默。这样一来,两人各判1年。
稍作思考,A选择了沉默,B当然也做出同样的分析。最后两人只被各判1年,整体的纳什均衡达成。
由此可见,纳什均衡的达成需要足够的信息,如果信息不足,人往往就会做出损人利己的次优选择,而错过利于大局的最优方案。
自博弈评估指标
多种自博弈评估指标,包括 NASHCONV、Elo、Glicko、WHR和TrueSkill。
其中,NASHCONV 用于衡量与纳什均衡
的距离,而其他四个指标则用于评估相对技能水平,并在表I中进行了比较。
尽管存在许多其他评估指标,但这里强调的指标是该领域中最广泛使用的。
Comparison of Relative Skill Evaluation Metrics.
Elo | Glicko | WHR | TrueSkill | ||
Uncertainty Modeling | ❌ | ✅ | ✅ | ✅ | |
Ratings At Any Time | ❌ | ❌ | ✅ | ❌ | |
Multiplayer In One Team | ❌ | ❌ | ❌ | ✅ | |
Bayesian Foundation | ❌ | ❌ | ✅ | ✅ |
对比
- 1)
NASHCONV
:Nash收敛性(NASHCONV)- NASHCONV作为一种度量标准,用于测量特定策略与纳什均衡之间的偏差。较低的NASHCONV值意味着该策略更接近纳什均衡,暗示没有任何玩家可以通过单方面偏离该策略而获得利益。
- 2)
Elo
- Elo系统基于一个假设运作,即每位玩家在每场博弈中的表现是一个正态分布的随机变量,其均值代表该玩家的当前等级分。在玩家A与玩家B之间的比赛中,RA 和 RB 分别代表玩家A和玩家B的当前等级分,EA 和 EB 分别表示玩家A和玩家B的预期得分(或获胜概率)
- 3)
Glicko
- Glicko 系统通过引入玩家评分中的不确定性或可靠性度量(称为评分偏差)来改进 Elo 系统。其主要动机是考虑玩家表现的差异性和技能随时间可能发生的变化。Glicko-2 系统是原始 Glicko 系统的扩展,它进一步细化了这些概念,并引入了评分波动性 σ,表示玩家评分预期波动的程度。
- 4)
WHR
- 全历史评分(WHR)系统是一个贝叶斯评分系统,旨在根据玩家的整个博弈历史来估计其技能。它特别适用于处理玩家技能的时间动态。Ri(t) 表示玩家 i 在时间 t 的 Elo 评分。
- 5)
TrueSkill
- TrueSkill 是一个基于概率图模型的评分系统,它使用贝叶斯推断来处理多玩家多团队场景。TrueSkill 2 是 TrueSkill 的扩展版本,它考虑了更多因素,如玩家的经验、团队归属以及博弈特定因素(如击杀数)。
内卷与博弈
“内卷”,是一个典型“囚徒困境
”
牛津大学教授项飙
给过很全面的解读:
- 整体环境的恶化是不断加速且不可挽回的;而个体没有能力与环境抗衡,最终只有顺应环境变化,加入到内卷行列中。
假设一个部门所有人目标都是完成手头工作和KPI,等待工资到手。有一天部门领导灵机一动,开始制定鼓励员工每天加班半小时制度,新员工A急于表现,率先表示自己可以加班1小时,于是员工BCD……纷纷被迫开启下班后“摸鱼”一小时模式。
在“囚徒困境”模型下,当一个制度建立,制度覆盖下的人群大多数会被迫选择迎合制度,而当这一制度并非最优解时,那么,所有人的迎合都会变成无效迎合。
最后的结果就是,所有人累死累活,起早贪黑,整体效益并不会有可观的增量。
什么是内卷
随着互联网的“流量泡沫”涌入整个社会,人类开始进入疯狂“内卷化”时代,教育、工作、生活、甚至是婚恋,无一幸免。
有人将“内卷”的表现归纳概括为以下七点:
- 无意义的精益求精;
- 将简单问题复杂化;
- 低水平的模仿和复制为了免责;
- 被动的应付工作;
- 与预期的目标严重偏离的工作;
- 在同一个问题上无休止的挖掘研究;
- 限制创造力的内部竞争是制度性的内卷。
2021年,“内卷化”带来无休止叠加的负担,却没有带来相应的回报与获得,这不仅让人深思:我们究竟为何而“卷”?
小米创始人雷军曾说过:永远不要试图用战术上的勤奋,掩饰战略上的懒惰。
这世上,真正能成事的人,并不是投入最多时间“内卷”的人,而是那些能找到最佳解决问题途径的人。
天道未必酬勤,但天道一定关照能找到最优解的聪明人。
如何解决内卷
陷入“囚徒的困境”的“内卷”之后,无论是个人还是团体,职场还是生活,都是一种无声息的虚度与浪费。
兰·费雪教授在《博弈论与生活》通过一整章的内容解释了“囚徒困境”,即:人们常常从利益出发,选择放弃最佳合作策略,从而陷入远利益受损的局。
解决这一困境的三种方式:改变态度,诉诸善意的权威人士,能够自行运作的策略。
- (1)改变态度:如果我们都认为在合作中作弊是不道德的,就能避免许多社会困境。
- (2)诉诸善意的权威人士:所谓“善意的权威人士”大多只是一个迷思。一旦有了权力,就几乎无可避免地会谋求私利。所以,我们需要让外部的权威人士来促成合作并守护公平。
- (3)能够自行运作的策略:开发出能够自行运作的策略,如此一来,只要合作一开始,就不会有作弊的机会。
以博弈论为理论支撑的5个建立“合作关系”的方法。
- 沟通 —— 协商 —— 联盟 —— 承诺 —— 理智与情绪
- 沟通
- 卡耐基说过,一个人的成功,15%取决于知识和技能,85%取决于沟通。博弈论研究者认为。只要双方愿意且能够沟通,理性通常也能让他们达成协议。
- 沟通顺畅至少会减少一半的时间成本。
- 经常会看到一些八卦新闻:早已没有感情的夫妻双方,因为一些小利益双方不肯妥协,耗了一年又一年,离婚官司反复上了热搜,却久久不能得到妥善解决。
- 阻碍他们离婚速度的,不是离婚冷静期,而是双方对于沟通的逃避。这种逃避导致双方不仅要付给律师大笔金钱,还必须承受长达几年的情绪上的压力。 2. 协商
- 协商的两大利器,就是威胁和承诺,两者间的选择要看当时情境而定,而且对方必须相信才会有效。
- 兰·费雪教授在书中举了这样一个小例子,当孩子开始调皮捣蛋的时候,如果爸妈只是大吼:“再不住手,我就把你宰了!”
- 小孩可能不会对此感到威胁,因为他很明确的知道爸妈会打他屁股,但不会真的宰了他。这是一个不会成真的威胁,所以,大多数孩子理都不会理。
- 如果爸妈把话术换成:“再皮不准吃冰淇淋了”或者是“听话,我给你买冰淇淋吃”。大概会有很明显的效果。 3. 联盟
- 从博弈论的角度来看,夫妻,同事,或者是商家和消费者,只要便于协调双方策略,都是联盟关系。
- 兰·费雪教授认为,人们常常从自身利益出发,选择放弃最佳合作策略,从而陷入长远利益受损的局面。
- 所以,想要一个合作双赢的局面,必须要要将合作双方看做一个必须信任的联盟关系。
- 在这一基础上,各方协商出策略,彼此信任,信守承诺,这些行动可以让所有人跳出社会困境,最终实现双赢局面。 4. 承诺
- 有没有什么方式,可以让人在缺乏信任的情况下,仍然对组织保持忠诚?答案只有一个——承诺。
- 兰·费雪教授提出了这样一个观点:在各方无法或不愿沟通的情形下,最可靠的方式就是建立起能够自行运作的协议。
- 这个协议必须是一个纳什均衡,各方只要独自逃跑就会承受损失,因此不得不合作。
- 2003年,华为面临前所未有的低谷期,任正非甚至计划以75亿美元的价格把华为卖给摩托罗拉,但却因为种种困难,没有最终实现。
- 然而,也是在这最严重的低谷期,任正非摸索出一套“一种不用上市就能获得融资的方法”,开始走华为自己的“野路子”。
- 其中,最重要的一个方式就是——通过承诺激发团队的创造活力。任正非将管理模式从上下“命令——服从”式,调整为“全员参与”式。这一政策的调整,为华为带来巨大的集体能量。 5. 理智与情绪
- 理想状态下,只要各方能以真正理性的态度,从协商中追求自身的利益,就能为所有人找到独特的最佳方案。
- 但人是独立复杂的个体,没有人可以做到完全的理性,所以,在合作中,情绪必须要列入我们日常计划、行动的考量之中。
- 把快乐和其他情绪上的奖励或惩罚列入计算,看起来在某些情境中,纳什均衡就真的能将我们锁定于某些解决方案,达成合作。
博弈论要诀
十大效能最大化的博弈论要诀
兰·费雪教授在多年的博弈论研究中,总结出10个解决问题的策略。这些策略旨在调整合作和冲突之间微妙的平衡,值得每个人投入心力,了解其原理及如何应用。
- 赢就守,输就变
- 不论先前选择合作策略或自私自利的不合作策略,只要结果出炉时你是赢家,就不要改变策略。
- 但如果输了(常常是因为其他人和你同时选择不合作),就马上采取另一种策略。
- 带入新的参与者
- 如果本来是两方对峙的局面,就让它变成三方制衡的情形。这对于合作时促成平衡的效果很有效。就算明明知道新加入的会是个不合群的家伙,也仍然可能改善整体情形。
- 另外,新的参与者也可以指“受信任的第三方”,负责管理担保物或是执行违约条款。
- 建立互惠形式
- 最重要的一种合作动机,就是知道未来还可能再次碰头,所以要试着通过直接、间接或社交网络的方式,建立起这样的情境。
- 限制未来选项,让自己一旦背叛合作,就会受损失
- 这是最有效的让别人知道自己的确有合作意愿的方式之一。
- 例如定下特殊条件,只要自己(或他人)违反合作承诺,名声就会大大受损;或采用破釜沉舟的方法,规定合作之后就不能再回头。
- 付出信任
- 这是另一个让别人觉得你的承诺可信的做法。
- 只要你真心付出信任,就能得到回报,想合作也就容易许多。
- 定下特殊条件,双方如果想单方面背叛,就会承受损失
- 当然,这就是一个纳什均衡。如果问题的合作解决方案恰巧是纳什均衡,那么问题就解决了。
- 使用补偿给付,来建立并维持合作的联盟
- 补偿给付可以是金钱,或是社交上或情感上的奖励,或干脆就是贿赂。不论是哪一种补偿方式,重点在于联盟成员如果叛逃或加入其他联盟,就会承受损失。
- 注意七大困境,考量各参与者的利益与成本,让困境不复存在
- 当然,这说来轻松,做起来困难,否则早就世界大同了。但无论如何,这是正确的努力方向,而且值得一试。
- 分摊各种货品、责任、工作、惩罚等,让人人都觉得结果公平
- “觉得公平”是很强烈的动机,因此务必保证过程透明,让结果看起来公平,人人满意。
- 将团体化整为零
- 所有证据都显示,小团体内部的成员比较容易合作,但偏偏小团体与小团体之间就不是这么一回事。小团体的领导人如果能善用上面的九点要诀,就有助于团体间的合作。
- 人类一切的关于劳动与关系所作出的努力,都是为了获取幸福感。而幸福感的获得来自问题的真实解决。
所以,无论你是决策者还是执行者,走出“内卷化”才能真正拥有更优的未来。