RichZhu 發表於 2020-9-19 01:35

GTO(所谓的“博弈论最优”)通俗版

GTO这个词汇大概是过去两年中文扑克界使用频率最高的技术词汇了。奇怪的是,随着这个词汇的逐步大众化,越来越多的人却在问同一个问题:到底什么是GTO?好像谁都听说过,但问起来又没有什么人给个实在的答案。上个月,一位业内知名的牌手在微博上这样问道:“有谁很认真的研究过GTO理论?求你们的解答…”。我是被旁人提示去看的这个微博里面的回复,看过后就想写一个GTO的通俗版。前几天,我那篇关于AK的帖子又被翻出来,争论的还很激烈,回复之余我又想起了GTO,因为八竿子打不着的地方,回帖的人也要小心地解释一下,自己说的最佳“不是GTO那个最佳”。可以说,GTO这个词汇不但本身被用得越来越乱,还殃及到其它技术词汇的正常使用,到了必须要“说道说道”的地步。下面我就尽量使用人类听得懂的语言解释这个神话般的GTO。(一)什么是GTOGTO是英文Game Theory Optimal的缩写。那么Game Theory Optimal翻译成中文是什么呢?随便查一下网络上的英汉字典不难知道:“Game Theory”是“游戏理论/博弈论/对策论”的意思,而“Optimal”是“最佳的/最优的/最理想的”意思。所以“Game Theory Optimal”很自然地会被翻译成:博弈论最优,至少这是百度翻译给出的,此外还有“最优游戏策略”等等类似的翻译。问题是,到目前为止,所有这些翻译给我们普通人带来的正常理解,跟GTO理论本身的含义,是不同的,这是GTO给大多数人带来困惑的首要原因。这样,我们只能回头来,先不用管它中文怎么称呼,看看GTO到底是什么意思。在博弈论中,有一个非常著名的纳什均衡理论,(Nash Equilibrium) 大意是说:在非合作类博弈中,存在一种策略组合,使得每个参与人的策略是对其他参与人策略的最优反应。如果参与者当前选择的策略形成了“纳什均衡”,那么对于任何一位参与者来说,单方更改自己的策略不会带来任何好处。如果上面的表述还显得饶舌,没关系。在游戏理论讨论中,英文常常还有一个非常平民化的词组来替代Nash Equilibrum,叫unexploitable strategies。跟GTO不同,这个词组直译没有问题,就是:不被(对手)压榨的策略,或者说最佳防守策略。GTO算是纳什均衡的另一个别名,不过它只是近些年在扑克理论界得到使用,跳出这个圈子,基本上没人知道。即便是扑克圈子,有些人也根本不用,还有些人用这个词汇,只是因为字母少,写起来方便。总之,这个词汇本身并没有任何新的含义或学术价值。(著名数学家、博弈论创始人约翰纳什因其发现/证明纳什均衡而获得诺贝尔经济奖,他也是奥斯卡最佳影片《美丽心灵》的原型。他和夫人半年前遇车祸过世。笔者在此对纳什先生表示深深的敬意)

RichZhu 發表於 2020-9-19 01:44

(二)为什么GTO如此流行经常会听到GTO狂热爱好者给你讲述GTO的两大优点:1)使用了GTO,不管对手多么厉害,他都奈何不了你,你绝对不会吃亏。这个直觉上好像很容易理解,根据定义,对手单方面更改自己的策略不会带来任何好处,那你自然不会吃亏了。2)当你使用GTO,而对手偏离GTO,他不但占不了你的便宜,还可能吃亏。这两点结合在一起就厉害了。如果仅仅是第一点,充其量不过是金钟罩、铁布衫之类的,没多大意思。谁学功夫只是为了不被人打死?但这第二点就不同了,对手不但伤不了你,还可能因为想伤害你而自残。你都不用出招应变,对手就会一点点内力全失,无疾而终。金钟罩、铁布衫直接升级为葵花宝典。不得不承认的是,跟欧美牌手相比,国人牌手多了一些浪漫和疯狂,少了一些理性与思考,所以会更经常地看到一些大白天做扑克梦的牌手,他们最大的愿望就是找到一条成为绝顶高手的捷径。这样,就没有什么比葵花宝典更有吸引力的了。所以过去两三年凭空冒出一堆所谓的学院派或者代表当今最先进打法的大神,开口闭口GTO。要是碰巧招生做培训,招生简章第二段才提到GTO,那肯定是秘书大意出错了。

Howard 發表於 2020-9-19 02:13

这篇谁敢跟我抢沙发跟谁急。必须先占座学习

同花顺 發表於 2020-9-19 02:17

葵花宝典太难了,先弄个铁布衫就行。

我是Jsli 發表於 2020-9-19 02:41

必须说道说道

RichZhu 發表於 2020-9-19 02:54

Howard 发表于这篇谁敢跟我抢沙发跟谁急。必须先占座学习这帖子你占沙发,我先跟你急!

RichZhu 發表於 2020-9-19 03:17

同花顺 发表于葵花宝典太难了,先弄个铁布衫就行。要不改练僻邪剑谱?

RichZhu 發表於 2020-9-19 03:25

我是Jsli 发表于必须说道说道还不确定能说道到哪儿呢?俺胆小。

我是Jsli 發表於 2020-9-19 03:53

维基百科-納什均衡點納什平衡(英语:Nash equilibrium),又稱為非合作賽局平衡,是在非合作賽局(Non-cooperative game)狀況下的一個概念解,在博弈论中有重要地位,以约翰·納什命名。如果某情況下無一參與者可以通过獨自行動而增加收益,則此策略組合被稱為納什均衡點。例子其經典的例子就是囚徒困境。囚徒困境是一个非零和博弈。大意是:一个案子的两个嫌疑犯被分开审讯,警官分别告诉两个囚犯,如果你招供,而对方不招供,则你将被立即释放,而对方将被判刑十年;如果两人均招供,将均被判刑两年。如果两人均不招供,将最有利,只被判刑半年。于是,两人同时陷入招供还是不招供的两难处境。但两人无法沟通,于是从各自的利益角度出发,都依据各自的理性而选择了招供,这种情况就称为纳什均衡点。这时,个体的理性利益选择是与整体的理性利益选择不一致的。基于经济学中“理性经济人”的前提假设,两个囚犯符合自己利益的选择是坦白招供,原本对双方都有利的策略不招供从而均被判刑半年就不会出现。事實上,这样两人都选择坦白的策略以及因此被判两年的结局被稱作是“纳什均衡”(也叫非合作均衡),換言之,在此情況下,無一參與者可以「獨自行動」(即單方面改變決定)而增加收穫。学术争议和批评第一,纳什的关于非合作博弈论的平衡不动点解(equilibrium/fixpoint)学术证明是非构造性的(non-constructive),就是说纳什用角谷静夫不动点定理(英语:Kakutani fixed point theorem)证明了平衡不动点解是存在的,但却不能指出以什么构造算法如何去达到这个平衡不动点解。这种非构造性的发现对现实生活里的博弈的作用是有限的,即使知道平衡不动点解存在,在很多情况下卻找不到,因此仍不能解决问题。第二,纳什的非合作博弈论模型仅仅是突破了博弈论中的一个局限。一个更大的局限是,博弈论面对的往往是由几十亿节点的庞大对象构成的社会、经济等复杂行为,但冯·诺伊曼和纳什的研究是针对两三个节点的小规模博弈论(有人称之为tiny-scale toy case)。这个假设的不完善处,可能比假设大家都是合作的更严重。因为在经济学里,一个庞大社会里的人极不可能全部都是合作的,非合作的情况通常在庞大对象的情形中更普遍,而在两三个节点的小规模经济中倒反而影响较小。既然改了合作前提为非合作前提,却仍然停留在两三个节点的小规模博弈论中,这是一个不可忽视的缺陷。MIT的一位计算机科学博士生的博士论文——获得2008年度美国计算机协会学位论文奖——认为经济学家的推测是错误的,找到纳什均衡点是几乎不可能的事。 目前担任MIT电机工程和计算机科学系助理教授的Constantinos Daskalakis与 UC伯克利的Christos Papadimitriou、英国利物浦大学的Paul Goldberg合作,证明对某些博弈来说,穷全世界所有计算机之力,在整个宇宙寿命的时间内也计算不出纳什均衡点。Daskalakis相信,计算机找不到,人类也不可能找到。纳什均衡属于NP问题,Daskalakis证明它属于NP问题的一个子集,不是通常认为的NP-完全问题,而是PPAD-完全问题。这项研究成果被一些计算机科学家认为是十年来博弈论领域的最大进展。不過在同一篇論文裡,Daskalakis也指出,在參與者匿名的情況下,則僅需多項式時間即可逼近纳什均衡。相關鏈接《Non-Cooperative Games》,约翰 · 纳什 , The Annals of Mathematics 1951Alfredo ougaowen最后编辑于6月前

我是Jsli 發表於 2020-9-19 04:02

我是Jsli 发表于维基百科-納什均衡點納什平衡(英语:Nash equilibrium),又稱為非合作賽局平衡,是在非合作賽局(Non-co ...别说我歪楼呵我是对这句话不理解,谷歌一下原意纳什均衡理论,(Nash Equilibrium) 大意是说:在非合作类博弈中,存在一种策略组合,使得每个参与人的策略是对其他参与人策略的最优反应。如果参与者当前选择的策略形成了“纳什均衡”,那么对于任何一位参与者来说,单方更改自己的策略不会带来任何好处。
頁: [1]
查看完整版本: GTO(所谓的“博弈论最优”)通俗版