GTO长什么样（一）：硬币游戏★☆綜合討論大廳☆★*海燕策略研究論壇*

Howard 發表於 2021-8-28 23:14

GTO长什么样（一）：硬币游戏

GTO长什么样（一）：硬币游戏Howard扑士杂志2016年5月号，转载请注明出处GTO全称是GameTheory Optimization，或者GameTheory Optimal，中文可称为博弈论最优解。GTO是扑克届最近流行的热词，据说掌握了GTO就可以秒杀一切扑克高手。到底对打扑克有多大作用，我不敢说。本系列文章（希望还有热情保持写下去）只准备构造几个最简单的数学模型，来看看一个GTO是长什么样子，是怎么计算出来的。这些模型，可能跟扑克有关，也可能跟扑克完全无关。第一个模型，是个很简单的摆硬币的游戏。玩家甲和玩家乙各有一枚硬币。游戏是双方各投掷硬币，然后同时打开。输赢规则是这样：1.两枚硬币正反面相同，则甲赢5元。2.甲为反，乙为正，乙赢10元。3.甲为正，乙为反，乙赢1元。这游戏的EV很好算：甲正乙正、甲反乙反、甲正乙反、甲反乙正四种情况的概率都是1/4。每玩4次，乙平均就会赢1块钱：10+1-5-5 = 1所以乙每次的EV是0.25元。随机投掷硬币对乙有利。如果我们把规则改一下，甲和乙的硬币不是随机投掷的，而是事先按自己的意愿摆好，藏在一张纸下，双方都摆好后再拿出来对比，情况会有什么变化？如果甲的心理猜测能力比乙强，他能有效的提高自己的EV，比随机投掷硬币的每次-0.25要好一点。但即使甲自认为心理猜测能力很差，也可以通过数学和逻辑来提高自己的EV。换句话说，甲可以精确计算出自己摆硬币的正反比例，使得自己的摆法是最优化（Optimal）的。在这里，Optimal的含义是，只要甲按照该比例来混合硬币的正反，那么他的EV就是固定的。无论乙摆全正、全反、还是以任何比例混合正反，都不会影响甲的EV。当然，这也就是甲的GTO策略。甲该怎么计算他的GTO策略呢？关键在于此：既然乙无论全摆正还是全摆反都不会影响到甲的EV，那么我们就按照乙全正和全反两种极端情况来寻找一种EV相等的策略，这就是正确答案。我们不需要去担心乙摆一部分正一部分反的情况。为什么？假设甲已经找到了一种策略，按照这种策略摆硬币，无论乙全正还是全反，甲都能获得固定收益，比如每手8分钱吧。二人玩了100次，乙摆出正面60次，摆出反面40次。我们人为把这个游戏分为两部分。一部分乙摆出60次正面，这部分乙的策略是“全正”。甲的收益是8分×60次= 4.8元。另一部分乙摆出40次反面，这部分乙的策略是“全反”。甲的收益是8分×40次=3.2元。甲的总收益是4.8+3.2= 8元。这跟按照每次8分，100次，8分×100 =8元完全等价。因此，我们只要计算对了极端情况，就不用再管混合的。知道了这些，就简单了，寻找GTO变成了初中代数问题。先来看乙摆全正的情况下，甲的EV。假设在甲的GTO策略中，正面的比例是h，反面的比例是1-h。甲出正面时，二人都正，甲赢5元；甲出反面时，甲反乙正，甲输10元。甲的平均EV是：5h -10(1-h) = 15h - 10再来看乙摆全反的情况下，甲的EV。甲出正面时，甲正乙反，甲输1元；甲出反面时，二人都反，甲赢5元。甲的平均EV是：-h +5(1-h) = 5 - 6h令二者相等，15h- 10 = 5 - 6h，得到h= 15/21 = 5/7貌似我们已经得出结论：甲每7次中摆出5次正面，2次反面，就是他的GTO策略。来验证一下，这7次里面如果乙全部摆出正面，甲有5次赢5元，2次输10元，总共7次下来赢5*5-2*10= 5元，每次的EV是5/7 =0.71元。如果乙全部摆*出反面，甲有5次输1元，有2次赢5元，总共-5*1+ 2*5 = 5元，每次的EV仍然是5/7 =0.71元。事实上，无论乙用什么比例混合正反面，甲拿到的EV总是每次0.71元。这比随机投掷时甲每次输0.25元要强的太多了。这是一个很简单计算GTO模型，在其他情况下，可能计算起来很复杂，但思路都是一样的，就是寻找对方的极端情况，计算EV，再令两端极端情况EV相等，这就会得出GTO解。接下来的几篇，我计划把模型逐渐扩展到扑克领域，直到最后模仿简单的二人德州。这个过程会比较费劲，说实在的我也不知道自己的知识储备能不能应付得来。不过，本系列的意图也不是探讨太理论的东西，而是两点：1.GTO最优解怎么推导出来；2推导出来后的解大约是什么样子。只要这两点能做到，还望读者原谅文章的疏漏和含混。

西红柿哥哥 發表於 2021-8-28 23:26

不懂gto能成为顶尖高手嘛？

Howard 發表於 2021-8-28 23:57

西红柿哥哥发表于不懂gto能成为顶尖高手嘛？我认为完全可以。首先要说明的一点就是，GTO是一种科学的总结，是根据零和游戏的特点，根据一系列的逻辑推理，总结出的客观规律。这话是什么意思呢？这也就是说，GTO不是一种“打法”。客观规律的意思是，你懂与不懂，它永远在那里。打法的意思是，你知道了，懂了，才会去用它；不懂或者没听说过，就不会用。举个例子，牛顿发现了万有引力定律。跳高基本在比谁挑战万有引力最牛逼的一个事儿。牛顿跳高，能比不懂万有引力的索托马约尔牛逼吗？万无可能。不但索老，朱建华也可以轻松跳过牛顿2倍的高度。他们不懂万有引力还跳那么高，不等于研究引力定律就没有用。首先，也是最重要的，也是跟我的原因吻合的，是研究客观规律本身就是一个令人愉悦的过程。其次，研究引力已经造成了无数的副产品，卫星上天，飞机，登月，这都不说了最后，对于一个技术精益求精的跳高者，也许一点点对引力的研究可以帮助他找到自身发力姿势的一个小毛病，因此提高1cm。不懂引力定律的人，引力定律照样对他起着作用，不会因为他不懂就多一分或者少一分；不懂GTO的人，也在受GTO（以及背后逻辑）的限制，不会因为他不懂就可以”脱离GTO“GTO不是“打法”，意思是GTO不是“背越式”。背越式是一种技术，不懂且没听过背越式的运动员，会有很大劣势。不懂背越式，在目前已经很难成为世界级选手了

伟大的墙 發表於 2021-8-29 00:15

雷哥一出手，你的GTO立马没电

kinder 發表於 2021-8-29 00:27

Howard 发表于我认为完全可以。首先要说明的一点就是，GTO是一种科学的总结，是根据零和游戏的特点，根据一系列的逻 ...好有说服力的解释。

ceaxyz 發表於 2021-8-29 00:36

这个例子感觉比MOP的简单点哈哈。。

BTCD 發表於 2021-8-29 01:04

人模狗样哈哈

PlutoFu 發表於 2021-8-29 01:24

好文~坐等后续~

yyy6 發表於 2021-8-29 01:36

Howard 发表于我认为完全可以。首先要说明的一点就是，GTO是一种科学的总结，是根据零和游戏的特点，根据一系列的逻 ...先说观点，我认为完全不可以，至少非常不可能。感觉例子举得不太恰当。跳高等等是有每个人运动能力的区别的，但益智类游戏并不存在，或者可以假定每个人的运动能力都相等。那回到跳高，如果运动能力相当的情况下，一个人懂得去找一个引力小一点的地方跳，成绩明显就会提高。又或者老霍主页的例子，看似非常简单的GTO解决思路，但是如果不通过这个方法去解决，让甲和乙哪怕玩10万次，经验也并不一定能帮助甲找到5/7这个精确答案。扑克里面，实际上有相当多的地方GTO已经是有明确答案了，即使是那些没有完全解决的地方，这个思考的思路也能让我们的模糊答案远远超过我们的经验。因为我们的经验往往是来自于很多不同的（大概率是低水平的）对局和对手，这些经验在顶尖高手的对局中往往变成了弱点。有看过国外付费视频的人应该知道，现在所有的顶尖高手的几乎所有视频都在讲GTO，没有其他的东西，大家都在用软件/逻辑/数学推导找各个牌面下的解。但这只是针对番茄哥关于成为“顶尖”高手的问题，如果大家要说不系统学GTO也能战胜哪怕德扑圈最高的级别我并无异议。这好比100米短跑你说有些人不经过专业训练也能跑过小学生一样。但即使博尔特，他如果没有专门的科学训练，而且是长期保持这样的科学训练，他应该也不能在世界级比赛夺冠。个人的体会，即使我们不是去对抗顶尖高手，从GTO的角度去思考长期帮助也会非常大，就好像我们最开始可能一直不了解范围的概念，大家可以说不了解的时候也在不知不觉的使用，但是了解这些概念和他很多延伸的东西的时候，思路就会变得专注快速有效，而且对了解更深的概念也会帮助很大。

bomb 發表於 2021-8-29 01:52

yyy6 发表于先说观点，我认为完全不可以，至少非常不可能。感觉例子举得不太恰当。跳高等等是有每个人运动能力的区 ...Phil Ivey懂GTO吗？

頁: [1]

*海燕策略研究論壇*'s Archiver

GTO长什么样（一）：硬币游戏

海燕策略研究論壇's Archiver