Modern Poker Theory
现代扑克理论
第三章 现代扑克软件
计算机程序和应用(app)已经统治现代社会。你可能发现应用无所不能,游戏、社交媒体、联谊、健康、瑜伽、冥想、烹饪、学习新语言、播放音乐和视频,甚至约会!无论你需要什么,你都很可能可以找到一款满足你需要的应用,如果你找不到,你可以肯定某人正在世界上的某个地方开发这种应用。
我们生活的世界已经改变,我们认识的扑克也是如此。随着科技的进步,牌手用来分析和研究游戏的工具也变得越来越先进。在本章我们将分析一些牌手用来改进策略的最重要程序和应用。
胜率计算器
扑克胜率计算器(Equity Calculator)在扑克圈长期存在,而且它们无疑是任何正统牌手武器库中的最基本武器。理解底牌对抗底牌、底牌对抗范围和范围对抗范围的胜率互动是成为一名成功牌手的第一步。
胜率计算器自2008年首次发布PokerStove以来已经取得了很大的发展。在当时,胜率计算器非常粗糙,而且提供的功能非常有限。而现在,像Power Equilab这样的胜率计算器提供各种各样的功能,包括胜率图表、热点图、范围分析等等。
优点
l 输入范围和计算胜率的过程非常直观,容易使用。
l 多人底池胜率计算
l 能够创建自定义的可玩性配置(playability profiles)
l 快速胜率计算
缺点
l 计算受限于胜率和简单的数学
l 不提供EV或任何策略建议
l 有限的翻后范围分析
范围分析工具
具有一种范围分析工具(比如Flopzilla)的牌手能够输入底牌范围,确定范围在任何可能翻牌面如何互动。范围分析工具把底牌范围划分成顶对、暗三条、同花听牌、后门顺子听牌等各种类型。
优点
l 根据底牌组合显示胜率
l 可用于分析底牌排除效应
l 根据转牌圈和河牌圈的牌型翻后过滤
l 快速计算
l 容易使用
缺点
l 不提供EV或任何类型的策略建议
l 无法用于建立复杂的决策树
l 对于单挑分析最有用
l 有限的翻前实用性
EV决策树
具有一种诸如Card RunnersEV的EV决策树工具你可以创建代表牌手行动和决策树,并计算每个决策点的EV。
优点
l 展示不同行动的EQ和EV。
l 对于SNG和MTT决赛桌很有用的ICM计算
l 创建复杂树的能力和脚本功能(利用一种编程语言自动完成一系列任务)
l 多人底池计算
l 有用的翻前及翻后范围分析
l 能够把赏金和抽水融入到计算中
l 说明底牌排除效应和聚集效应
缺点
l 需要很大程度的输入,包括牌手在每个决策点的范围、底池大小、下注尺度、加注尺度和筹码深度
l 树的创建和策略分析可能非常费时
l 计算EV需要知道对手的完整策略或需要使用一些假定
l 陡峭的学习典型
翻前纳什计算器
在现代GTO Solver软件出现之前,像Holdem Resouces Calculator这样的纳什计算器是MTT牌手和SNG牌手的工具选择。它们非常擅长计算翻前全压/弃牌策略,特别是牌手没有跟注范围的浅筹码场合。
但是,它们不支持翻后玩法,如果你试图为深到无全压下注尺度的筹码量计算范围,你将被迫应用行动抽象(action abstraction)。你可以要么完全排除牌手的跟注非全压加注选择,要么允许跟注,但假定翻牌发出后不会发生更多下注,让两个牌手一直check下去。两种抽象将产生不正确的翻前策略。排除跟注选择通过迫使防守的牌手采用更紧的范围伤害了他们,因此计算器建议用比最优范围更宽的率先加注范围,这个范围倾向于具有良好阻断牌,同时忽略翻后可玩性。翻后一直check有利于翻前跟注的牌手,因为他们的所有边缘牌都将实现100%底池权益,这导致了比最优范围更宽的跟注范围。两种选择限制了纳什计算器在深筹码扑克的应用,使得它们只适合全压/弃牌场景。
优点
l 特别擅长计算不可剥削全压
l 快速计算
l 翻前MES策略计算
l 展示翻前策略和EV
l 支持锦标赛的赏金计算
l 决赛桌计算
缺点
l 不支持翻后玩法
l 不考虑底牌排除效应或聚集效应
GTO Solver和人工智能(AI)
1997年,世界上最好的国际象棋棋手卡斯帕罗夫被IBM的超级电脑深蓝打败。他的失败被当作人工智能将在某一天赶超人类智慧的信号。
自深蓝的获胜后,AI已经朝人类最终失败的方向迈出了巨大的步伐。2015年,由Deep Mind开发的AI阿尔法狗(AlphaGo)成为首个在19×19棋盘打人类职业围棋手的电脑围棋程序。2017年5月,阿尔法狗击败当时世界排名第一的棋手柯洁。围棋是一种具有10170种变化的游戏。同年晚些时候,Deep Mind发布了AlphaZero,一个震惊世界的国际象棋和将棋AI,达到超人的游戏水平,打败了世界冠军程序Stockfish和Elmo。国际象棋具有1047种变化,而将棋具有1071种变化。然而,打败最好的人类牌手并不意味着解决游戏。一种AI可以好到足够打败最好的人类选手,但另一种AI可以开发出更好的策略,打败之前的AI。这个循环可以永远持续。解决一个游戏牵涉到计算出一种在公平游戏中不可能输的GTO解决方案。
目前为止,每一种在人类之间竞争的完美信息游戏(比如国际象棋或跳棋)都已解决。像扑克这样的非完美信息游戏中,牌手不能看到其他牌手的牌。解决这类游戏呈现出一种额外级别的难度。
具有5 x 1020种可能行动的跳棋已经在2007年被Jonathan Schaeffer教授完全解决。单挑限注德州扑克(HULHE)是德州扑克的最小变种,它具有3.19 x 1014个决策点。虽然这个数字小于跳棋,但HULHE的非完美信息特征使得它对于计算机而言是一种更难游戏和解决的挑战性游戏。
首个被全面解决的扑克游戏是HULHE,由Alberta Cepheus扑克项目在2 015年解决。他们的CFR+算法由一个由200个计算机节点组成计算机集群执行,每个计算机节点配置了24个2.1G赫兹的AMD芯片,32G内存和1TB的本地磁盘。
关于Cepheus的更多信息可以在poker.srv.ualberta.ca网址找到。
2017年1月30日,卡耐基梅伦大学开发的人工智能Libratus在12万手牌的挑战中打败了多名顶级单挑无限德州扑克高手。
单挑无限德州扑克存在10160种情况,超过了宇宙中所有原子的数量(1080)。这种AI需要一组由600个节点组成的超级电脑,每个节点具有28核处理能力,完成任务和打败人类牌手总共需要处理2.7拍字节(1拍字节 = 250字节)的数据。
关于Libratus的更多信息可以在这里找到:
cmu.edu/news/stories/archives/2017/January/AI-beats-poker-pros.html
虽然扑克机器人每天都在变聪明,但由于当前的算力,它们能做的事情仍然有一些限制,特别是对于无限德州扑克和PLO的多人底池局面。虽然HULHE已经完全解决,而且Libratus已经好到足够打败单挑无限德州扑克的人类牌手,但包括锦标赛、6人桌和满员桌扑克在内的其他扑克变体远非完全解决。
即使超过两名牌手的德州扑克游戏的完整解决方案尚未找到,但复杂的游戏可以拆解成小的、容易解决的部分。利用现代Solver软件、超级电脑、有限的下注尺度和策略抽象的正确应用,无限德州扑克的近似GTO玩法可以被计算出来。
商业人工智能软件
基于人工智能的无限德州扑克软件(例如Poker Snowie)是通过和自身对抗数十亿手牌研究这种游戏的工具。它们最初采用完全随机的策略,在每手牌结束后,成功的玩法被加强,不成功的玩法被减少,导致它们的策略随着时间推进不断改善。
优点
l 快速且容易使用
l 极少需要用户输入
l 没有很大的硬件要求
l 提供导入来自网络扑克的历史牌局以及根据AI策略评估它们的能力。
l 提供翻前和底牌范围建议
l 用户可以挑战人工智能,得到统计数据和错误评估
缺点
l 不真正求解GTO策略,AI输出的只是软件认为在和自身对抗时较好的策略
l 有限的或固定的下注尺度
l 人工智能无法解释为何它那样做,且结果无法验证
l 无法计算对抗弱手的剥削性策略,程序只提供其核心策略
l 策略随着时间而变化,这使得难以通过它学习
l 无法保证不可剥削
GTO Solver软件
Solver软件是翻前和翻后玩法的纳什均衡计算器。市场上可买到的Solver软件有好几种,它们提供各种不同的功能集。写作本书的时候,大多数商业Solver软件能够用特定的范围和下注尺度计算任何单挑场合的纳什均衡策略,而且有很高的准确度(低可剥削性)。
一些Solver软件可以计算多人底池局面的翻前及翻后纳什均衡,一些Solver甚至能解决更复杂的游戏,比如底池限注奥马哈。
声称一种策略是GTO策略或非常接近GTO策略必须以某种方式证实。如之前的陈述,无限德州扑克的完整解决方案尚未发现,如果某人声称具有某个扑克场合在给定抽象内的GTO解决方案,必定有一种科学和数学的方式来验证这种主张,否则任何人都可以说已经解决了这种游戏并且在采用真正的GTO玩法。
纳什距离(Nash Distance)
E-Nash均衡或Epsilon均衡是接近纳什均衡的策略组合,它近似满足纳什均衡的条件。纳什均衡策略最大化对抗它们克星(最糟糕情况下的对手)的效用,这意味着它在零和游戏中不可能输。纳什均衡在复杂游戏中通常无法实现。相反,术语E-Nash均衡被用来表示只在最糟糕情况下输给对手价值的策略。
E有时也指纳什距离(Nash Distance),因为它可用来验证任何策略与纳什均衡策略多接近,即使不知道真正的均衡看起来是什么样子。
计算纳什距离
一旦你有一个自认为是GTO的策略对(strategy pair),计算纳什距离的过程非常简单。首先,你计算两个牌手的EV,然后你计算牌手1对抗牌手2的MES策略,看看EV提高了多少,并把牌手1的EV增益叫做E1,然后你为牌手2做同样的事情。计算牌手2对抗牌手1的MES策略,看看EV提高了多少,并把这个EV增益叫做E2。E1和E2之间的最大数字就是纳什距离。如果这个数字是0,那么你是恰好纳什均衡的,你的策略对是真正GTO的。如果这个数字很大,那么你离GTO很远,如果你接近GTO,这个数字将比较小。
大多数现代GTO Solver软件报告它们解决方案的纳什距离。例如,PioSolver以底池百分比的形式报告纳什距离,而且它可用来设置一个Solver完成计算所需要的精度。通常而言,任何GTO解决方案运行的时间越长,得到的E(纳什距离)就越小。遗憾的是,一旦E变得非常小,大多数GTO Solver将反复迭代,因为它们不可能得出完美的GTO玩法。一旦E变得非常小,指望任何对手能够在那种程度上剥削你是不切实际的,因为这首先需要你对每一个底牌组合在每一节点采用和Solver完全一致的玩法,然后允许对手知道你在每个简单决策点的确切策略并计算对抗你的E-GTO策略的MES策略。除此之外,对手也需要完美执行他们的MES策略,从而能够从你那儿榨取尽可能多的EV。因此,可以安全地假定任何剥削你到E是不可能的,你不应该为此担心。实际上,当E很小时,对于一名人类牌手来说E-GTO与完美GTO没有任何差异。
就个人而言,我喜欢把我的翻牌圈GTO解决方案运行到0.35%底池大小的精度。随着范围变宽,筹码底池比增加,策略树复杂度上升,要达到一个较小的纳什距离更困难,完成计算花费的时间也越久。至于PioSolver的翻前仿真计算,翻前范围的收敛比翻后范围收敛快很多。大多数仿真的剥削性(exploitability)来自河牌圈玩法,因此阀值(threshold)可以小一点,而且剥削性可以用bb/100来衡量。我喜欢的PioSolver翻前仿真阀值是3.5bb/100。
这些阀值是完全武断的,但牌手们似乎一致认同它们足够好,因为策略在纳什距离较小时没有太多改变。
在其他Solver软件中(比如MonkerSolver),大多数剥削性来自因为翻后抽象导致的次优(suboptimal)翻后玩法。这对于翻前范围的影响是不明确的,因此翻前范围的可剥削性有多高这个问题是不可能回答的。我设置了几个其准,并比较来自Monker、Pio和我个人团队正在开发的私有GTO Solver的翻前和翻后仿真,发现使用高抽象设置时策略非常接近。在PioSolver成为主流之前,我也设置了许多基准,测试使用其他工具的结果,发现结果与之前的知识和理论相符。
总之,即使德州扑克这种游戏尚未完全解决,我相信来自GTO Solver软件的策略是非常精确的,可以用来提高我们对这种游戏的理解,帮助我们在牌桌上做出更好的决策。
PioSolver
PioSolver是目前市场上最受欢迎的Solver软件。它用主观设定的初始范围、筹码量和下注尺度求解单挑无限德州扑克的均衡策略到一个用户期望的精确度。
优点
l 展示胜率、EV、EQR和完整策略
l 非常精确的结果
l 可以计算MES策略和MinES策略
l 汇总频率分析和汇报功能
l 求解限注德州扑克和无限德州扑克
l 与其他扑克工具高度兼容
l 高级脚本功能
l ICM计算器
l 翻前解决者(只限单挑局面)
l 优秀的用户支持
缺点
l 用户界面可能最初有点费解,但一旦你弄明白了,操作变得很简单。
l 完成GTO计算可能要花大量时间,这取决于树的大小、筹码深度及游戏中的范围。
l 陡峭的学习曲线。高效地利用它需要一定程度的扑克知识。
l 高硬件需求。解决方案的复杂性受限于电脑的性能,因此运行多个下注尺度的深筹码仿真可能需要系统升级,特别是使用翻前解决者的时候。
l 只解决单挑局面
l 保存完整仿真需要大量的数据存储,因为为了节省硬盘空间,Pio的文件可以不保存河牌圈策略,河牌圈策略将在浏览仿真时进行再计算。
l 正确地设置仿真可能比较困难,特别是对于新用户。但是,一旦仿真已经开始,浏览解决方案是简单而直观的。
MonkerSolver
MonerSolver是市场上最全面的Solver软件。利用一些减少游戏规模的抽象技术,它可以从任何回合(street)开始解决任何数量牌手的德州扑克和奥马哈局面。
优点
l 解决复杂的多人底池NLHE及PLO局面。但是,解决更大、更复杂游戏的能力是要付出代价的。为减少游戏规模而使用抽象导致了不太准确的解决方案。
l 最终确定后的仿真容易浏览
l ICM计算
l 可以为抽水的影响而调整仿真
l 手动导出多种形式的范围到其他工具的能力
缺点
l 图形用户界面似乎有点粗糙,用户很容易感到吃力,特别是对于电脑操作不熟练的人。
l 非常陡峭的学习曲线
l 需要高性能硬件。用来运行Monker仿真的电脑越强大,可以使用的抽象设置就越好,从而得出的解决方案也越精确。这迫使用户为求解高精度解决方案而打造超级电脑或租借大型服务器。
l 树生成过程可能比较冗长,需要花费大量时间
l 取决于树的大小,翻前树可能要花费数周时间完成。
l 有限的范围分析工具
l 缺乏生成聚合报告(汇总多个翻牌面的数据)的功能。
GTO扑克训练Web应用
像GTO Poker这样的GTO训练应用为各种不同扑克变体提供各种各样的预计算GTO策略,包括6人桌和单挑常规局、MTT比赛、单挑SNG比赛和多种筹码深度的3人桌Jackpot SNG比赛。它们让希望了解GTO玩法但未必有兴趣自己计算的用户更容易了解高级GTO策略。
优点
l 不需要安装或没有复杂的电脑要求
l 提供由使用最高级私有或商用GTO Solver的专家们开发的高精度GTO策略
l 容易使用,具有流畅直观的用户界面
l 实时建议,不需要等待计算完成。
l 随时间增长的海量解决方案库
l 需要最低程度的用户输入
l 根据抽水调整的常规局解决方案
l 高级翻后分析
缺点
l 固定的下注尺度
l 无法计算对抗弱手的剥削性策略(程序只提供GTO核心策略)
l 限于预计算的GTO解决方案,因此用户无法做自定义计算
现代扑克理论和GTO扑克为您提供一份特别的礼物。请访问gtopoker.io,然后扫描本书中的二维码,免费一个月使用GTO Poker。
在我的D&B Poker培训视频系列中,我讨论了所有这些工具并教你如何使用它们。网址是:
dandbpoker.com/book/modern-poker-theory
扑克反水-德州扑克反水-博狗扑克反水-蜗牛扑克反水-扑克之星反水-联众扑克反水-天龙扑克反水