【学习笔记】pluribus是如何玩牌的
hi,相信关注扑克的朋友最近一定关注到一条新闻,卡内基梅隆大学研发的德扑AI pluribus战胜了人类顶尖的职业玩家,他们的研究人员在科学杂志公开发表了论文,并公开了1W手牌该AI的游戏数据,我一直关注这个,今天找了很久,发现有玩家将手牌格式转换成了pt4可用的格式,于是打算学习一下AI是怎么玩的。由于格式的转化问题,国外玩家转化过来的记录显示pluribus的1W手牌最终战绩是水下的,但是这并不重要。pluribus的机制应该是和pokersnowie一样,通过自我复制不停的对比得到最优化的结果。这个帖子是针对这1W手牌来进行学习的,看看有哪些可以借鉴的地方。由于可以公开看到6名玩家的底牌,所以除了AI,也会学习这些人类玩家是如何玩的,所以学习时间会更长一些,我将花1天的时间,期间会在这个帖子里更新一些pluribus玩的一些有讨论价值的牌。 由于只有1W手牌的数据样本,所以各项基本数据并没有偏离太多,我们先从它的翻前范围开始。这是pluribus EP RFI的range:比我想象中的范围要相对松一些,它游戏了ATo 以及K6-K9s 所有的AX同色等更多的同色牌型。我个人采用的是PDNV的范围,大致是这样的
没有买monkeysolver 6max的范围,不知道AI的这个范围相较于GTO的范围放宽了多少。 EP的一些牌谱:1)KJS call 3bet VS BB
F、T的行动没问题,river这个1.5X的超池下注让我有些惊讶。这里到底是价值下注还是咋呼?如果这里是for value,正常情况下没理由overbet,尽管对手手里没有什么同花的组合,可以value到的是一些带黑桃的77-qq中等口袋对子,超池下注对手手中不带黑桃的可能很难去防守,pluribus这里如果是价值下注,那它同样需要放进一些咋呼牌型到这个牌面,但是这里的组合并不多。如果是bluff的话,它完全把有足够好的摊牌价值并在没有blocker的情况下转成了咋呼。在我的理解中,这里可能会做一个1/3-1/2的薄价值下注。2)AKo call 3bet VS BB
T 上在IP用带同花的gutter+high card继续跟住对手的barrel,曾经在highstakesdb上看见很多高额玩家也这么玩,但是中低级别这里turn上是很标准的fold。3)low pair call 3bet VS btn
讲道理,在这个Hotspot上,oop Turn上的overbet确实很漂亮。4)ATs call 3bet VS SB
flop c/r 还是很可以的,IP的top range有ak 66 77整体上要比oop多一些,而且这里是一个Hotspot,对手只能用KX+以上以及少数的89s带后门花的牌来跟住防守。但是这里展示的牌力有些极限 转一下HM格式吧另外筹码量还是要说明一下的 5) SRPs AQo vs BB
flop在很干燥的牌面打满pot,turn上用阻挡了后门花的tptk 过牌,河牌的跟住有些勉强吧。可能很多人类玩家在turn会继续下注。正常的理解下,像74qr这种干燥的牌面,aggressioner通过会下一个小注,可以融合更多的范围进来。但是我今年高频的用solver之后,发现这里其实是可以做高频率的大尺寸下注的,这类Hotspot在SRPs中对手能抵抗的牌实在很少,可以更高频率的剥削对手。 rahj 发表于 2019-7-19 22:24转一下HM格式吧另外筹码量还是要说明一下的不太会格式转化哦。这里每局都是100BB的标准局,媒体的宣传里并没有强调筹码的深度,AI即便能碾压人类玩家,目前也是在100BB的标准局里,深筹码的复杂运算暂时应该还不行 花了1个多小时的时间大致浏览了EP的游戏情况,pluribus在EP的4bet里放进了很多bluff,除了几手牌,大多是正常游戏的情况。 有意思啊,谢谢费工夫把牌例抠出来,那篇paper我也看了,从paper本身没看出什么特别的地方,看下牌例看看 KJ v KK那手牌pro打的是什么鬼。turn和rv有花吗,我色盲看不出来啊 pongba 发表于 2019-7-20 09:23有意思啊,谢谢费工夫把牌例抠出来,那篇paper我也看了,从paper本身没看出什么特别的地方,看下牌例看看 ...请教一个问题:我也看了那篇论文,其中只介绍了大致的思路,没有给出具体的实现过程。如果要参照那篇论文,写出一个类似的程序出来,难度会有多大?
頁:
[1]