找回密碼
 立即注册
『海燕策略研究論壇』溫馨提醒您 距离 2026 美 加 墨 世 界 杯 还有
000
:
00
:
00
:
00
吉祥坊吉祥坊KGameKGame
查看: 132|回復: 9

从石头剪刀布说起 -- GTO的概念和应用(1)

[複製鏈接]
發表於 2021-3-30 05:09 | 顯示全部樓層 |閱讀模式

註冊論壇會員,發現更多精彩

您需要 登錄 才可以下載或查看,沒有賬號?立即注册

×
近来火爆扑克圈的人工智能Libratus与人类顶尖牌手的比赛最后以人工智能压倒性胜利(14bb/100hand)而告终,其核心是用算法逼近博弈论最优策略即GTO (Game theoryoptimal,是一个有点尴尬的扑克界专用术语)。而它的开发者表示,理论上真正的GTO策略还能取得对现版本大概15bb到35bb的优势,而同时注意,参赛的四位顶尖牌手无一不是熟知GTO理论并在过去几年付出大量研究的,由此可见GTO本身的强大和可盈利性,也说明了在这个竞技游戏上我们还有很大的学习和进步空间。但GTO可能是当今扑克界最被人误用的词汇,笔者希望竭尽所能,跟大家分享自己对GTO的一些粗浅理解和常见的实战应用。这篇先从概念说起:1,石头剪刀布,输的人喝酒,我们和对手都很会观察并实时调整,比如我们稍微多出剪刀,对方就多扔一点石头少出布,我们又会变为多出布少出剪刀,长此反复,一言难尽。如果双方都还没喝醉,会调整为彼此每次都1/3概率出剪刀,1/3概率出石头,1/3概率出布。此时游戏达到纳什均衡,即没有任何参与者能单方面调整策略提高期望值(下文略写为EV)。注意纳什均衡指的是一个所有参与者的策略组合,本例中即双方都采用同样的等概率随机混合拳。 但我们通常说的GTO只是采用这个策略组合中某一参与方的策略,并不假定游戏本身达到纳什均衡。2,对方自持酒量太好,决定让我们一拳,比如永远不出布,此时的纳什均衡是?如果我们不领情,可以仍然使用上例的GTO策略即完美混合拳,此时对方不管怎么混合他的石头或者剪刀,双方喝酒概率都仍然一样,对方的确无法单方面提高甚至EV,但这是GTO吗?不是。因为我们可以单方面提高EV。既然对方不出布,我们显然此时不需要再出剪刀。我们只需要考虑混合石头和布,假设我们出石头概率为X,布的概率为1-X,既然我们要让对方无法提高EV,只需要让他在两种极端情况(一直出石头和一直出剪刀)的EV相等即可。(将对方喝酒设为收益1,我们喝酒设为收益-1)即:Es(一直出石头)=1-X = Ej(一直出剪刀)= X- (1-X)X = 2/3;即此时我们应该2/3的时候出石头,1/3出布。EV为1/3.同样可以解得对方需要 2/3的时候出石头, 1/3出剪刀。对方EV为-1/3.此时双方都无法再单独调整策略提高EV,游戏进入纳什均衡,此策略组合即我们双方的GTO策略相加。这个例子虽然简单,但却涉及到几个重要且常见的GTO误区。误区1:只要令对方无法提高EV的策略就是GTO策略。上面可见,很多时候会同时存在多个这样的策略使得对方的决定无法提高他的EV,但GTO是令我们EV最高的那个策略。这个误区本系列会在后面应用场景中反复纠正,比如一些极化的场景中下注不够大,比如在范围过弱的时候跟注所谓的最低防守频率,这都是常见的“伪”GTO带来的EV流失。误区2:GTO只是防守策略,保证不被对方剥削,却也无法盈利。 此误区或者不解在国内外的各种论坛上屡见不鲜,从第一个石头剪刀布的例子也难免会形成这样的印象:虽然对方无法针对我们,但我们也完全无法降低对方EV。 但扑克是更接近于第二个看似不公平的石头剪头布的游戏,光位置优势就能造成EV的很大差别,但这个是大家轮流来,相当于这局我先让你一拳,下局你再让我一拳,总体却是公平的。如果我们完美执行GTO,对方的让拳局我们可以保证取得1/3的EV,而对方在我们的让拳局偏离GTO,很可能他的1/3EV就流失甚至变成负的。举个常见的例子,河牌我们过牌,对方这里本来应该全下他的价值牌及混合适当比例的诈唬,但对方只是用价值牌下注了半个底池,而我们在易地而处的时候用了正确的下注,两手牌加在一起就是巨大的EV差别(下篇将具体计算分析)。“误区”3:GTO和最大化剥削策略(简称为MES)格格不入,相去甚远。 我打引号是因为这可能不应该称为误区,但我们可以换一种方式思考。MES是当我们发现对方相对比较持续的在某个地方偏离GTO的时候,我们采用相应的方式去针对。此例中,对方也许不是存心让拳,而是不自觉的严重偏离了GTO而导致从不出布,这在实际的游戏中并不少见,但我们可能对对方怎样混合他的石头和剪刀一无所知。那此时的MES 策略就等于加上这个先决条件(对方不会出布)的GTO策略。即我们可以把MES当成一种改变了一定规则的特殊游戏下的GTO策略,这样的思考方式可以把如何最大化EV很好的统一在一个框架下,也符合现在各种流行的GTO软件的设计思路。在我们比较清楚GTO策略是什么的时候,一方面很利于我们观察到对方的偏离,另一方面,观察到偏离后我们可以用同样的思路迅速找到MES去针对对方。误区4:GTO可以使我们在所有扑克游戏中立于不败之地,这不是能从上面的例子说明的误区,但却可以从定义里面看出。纳什均衡只保证任何一方不能单独行动增加他的EV,当我们在一个零和单挑游戏里面,这的确保证了我们EV只可能增加即处于不败之地。但如果游戏是多人的时候,可能出现对方的行动导致对方和我们的EV同时降低而使得其他参与方获益。一个常见的例子,6人单桌比赛到了3人的泡沫期,我们是筹码领先者,根据GTO我们可以利用ICM压制去推一个很宽的范围,但碰上一个激进的玩家可能会跟注一个比他的相应GTO策略宽得多的范围,此时他毫无疑问EV是降低的,但我们的EV也可能会降低,而第三方的EV却大幅增加。这个例子也可以看出纳什均衡一般是指在非合作博弈的状态下,GTO的应用现多局限于单挑游戏或者单挑底池。接下来笔者会结合理论和PIOSOLVER软件讨论几个不同的范围分布下相应的双方GTO策略以及大致如何针对对方的偏离。有的情况有确实的解和广泛的应用,有的情况解比较模糊但思考的过程很有帮助。也将会涉及到一些朋友关心的超池下注和关于阻断牌在决策中的作用。大概的目录如下:(2) 完全极化范围的下注和跟注(3) 几乎极化范围的下注尺寸和对应策略(4) 超池的应用总结和误区(5) 双方范围几乎对称时的攻防和下注尺寸(6) 常见的一些非对称范围的攻防要点(7) 阻断牌的应用总结和误区
海燕策略論壇,迴歸福利不斷
發表於 2021-3-30 05:33 | 顯示全部樓層
这个系列至少值100个小时的培训,智游城不愧是最好的中文扑克论坛,竟然有高人免费贴出来了。好顶赞!!
海燕策略論壇,迴歸福利不斷
發表於 2021-3-30 05:41 | 顯示全部樓層
确实牛逼

                               
登錄/註冊後可看大圖

海燕策略論壇,迴歸福利不斷
發表於 2021-3-30 06:07 | 顯示全部樓層
牛牛牛牛 解释了我好多困惑
海燕策略論壇,迴歸福利不斷
發表於 2021-3-30 06:27 | 顯示全部樓層
一般人网上打牌只有靠软件了。不过数学再好也不如软件。打牌本来就是靠计算。GTO 不过是算的更深入。
海燕策略論壇,迴歸福利不斷
發表於 2021-3-30 06:37 | 顯示全部樓層
企今为止Y6这个是智游城学术最浓的贴子断断续续看了2-3天仍然看不懂这就对了如果很多牌手跟我一样看的顺溜这牌没法打了
海燕策略論壇,迴歸福利不斷
發表於 2021-3-30 06:46 | 顯示全部樓層
我是Jsli 发表于 2017-4-10 06:35企今为止Y6这个是智游城学术最浓的贴子第一个问题对手是谁?AI思路是不是可以有2个方向1.保持一个套路.比如保持一个平衡状态双方谁脱离这个状态谁挨削剪刀石头布各1/3双方都1/3的话达到一个平衡谁也削不了谁很明显对手也是机器人双方拼的是背后的团队扑克online外挂软件的普及也就是扑克这个game将要消失的开始
海燕策略論壇,迴歸福利不斷
發表於 2021-3-30 07:19 | 顯示全部樓層
我是Jsli 发表于 2017-4-10 06:44第一个问题对手是谁?2.针对性比如剪刀石头布一个傻子次次出布这里我们完全不需要努力保持一个平衡状态我们次次出剪刀就是了这个就是针对性扑克AI发展的第2个思路对手主要是针对人而不是机器就是通过对方的行为习惯与亮的牌能建立一套有针对性的打法这个也就是现场扑克的读人这个也与现实中扑克牌手具有多样性的特点相符
海燕策略論壇,迴歸福利不斷
發表於 2021-3-30 07:21 | 顯示全部樓層
与扑克类似的比如股票散户买了股票埋在地里可以看成现场扑克股票短线或者股票(指数)期货可以看成online扑克这个就是零和游戏了看谁家的软件牛逼(Y6的本行)这些牛逼的软件跟你买股票然后留给儿子孙子不搭嘎
海燕策略論壇,迴歸福利不斷
發表於 2021-3-30 07:38 | 顯示全部樓層
楼主接着写啊 最近我也在困惑MDF最小防守频率的问题,2+2上更是好多人都在撕逼这个。
海燕策略論壇,迴歸福利不斷
您需要登錄後才可以回帖 登錄 | 立即注册

本版積分規則

關閉

福利推荐上一條 /3 下一條

📢 重要聲明

服務條款

本討論區是以即時上載留言的方式運作,論壇對所有留言的真實性、完整性及立場等,不負任何法律責任。 而一切留言之言論只代表留言者個人意見,並非本網站之立場,用戶不應信賴內容,並應自行判斷内容之真實性。 於有關情形下,用戶應尋求專業意見(如涉及醫療、法律或投資/博彩等問題)。 由於本討論區受到「即時上載留言」運作方式所規限,故不能完全監察所有留言,若讀者發現有留言出現問題,請聯絡我們。 論壇有權刪除任何留言及拒絕任何人士上載留言,同時亦有不刪除留言的權利。 切勿撰寫粗言穢語、誹謗、渲染色情暴力或人身攻擊的言論,敬請自律。嚴禁直接以名稱公開批評任何機構或人士,或指名道姓地公開批評任何人仕、機構、公司。 嚴禁干擾或破壞本服務或與本服務相連線之伺服器和網路,破壞正常的對話流程、造成螢幕快速移動,或使本服務其他使用者無法打字,或對其他使用者參加即時交流的能力產生負面影響。 本網站保留一切法律權利。

廣告合作

你於本服務或經由本服務與廣告商進行通訊或商業往來,或參與促銷活動,包含相關商品或服務之付款及交付,以及前開交易其他任何相關條款、條件、保證或陳述,完全為你與前開廣告商之間之行為。 前開任何交易或前開廣告商出現於本服務所生之任何性質的損失或損害,你同意論壇不予負責。

📄 請點擊查看免責權聲明及重要事項

文章及附件由海燕策略研究論壇會員製作,以共享創意署名-非商業性-禁止衍生3.0通用版授權條款釋出。
授權條款所屬的司法管轄領域(通用版),上文連接是一份普通人可以理解的法律文本(許可協議全文)的概要。
© 海燕策略研究論壇 All Rights Reserved.

Archiver|手機版|小黑屋|*海燕策略研究論壇*

GMT+8, 2026-2-11 12:29 , Processed in 0.075270 second(s), 19 queries .

*海燕策略研究論壇*

© 2006-2026 All Rights Reserved.