为什么 Solver 结果和 GTO Wizard 不一样?
Author
Thinking PokerDate Published
你已经对某些场合有了自己的求解方案,并将它与 GTO Wizard 进行了比较,发现策略并不相同。那么,这是怎么回事呢?难道不应该得到完全相同的结果吗?
这是我们在 GTO Wizard Discord 上收到的最常见问题之一。
本文将探讨初始参数或求解器算法的微小变化如何极大地改变策略输出。
同类比较
在比较解决方案之前,请确保你在“比较同类项”。
问问自己这5个问题:
- 你使用的是相同的翻牌前范围吗?
- 你使用的是相同的下注尺度吗?
- 你使用的是相同的抽水结构吗?
- 你使用的是相同的 SPR 吗?
- 你的求解精度足够高吗?
重要的是要意识到,对初始参数的微小更改可能会导致蝴蝶效应,从而改变解决方案的输出。 求解器是混沌理论的体现。本文的第一部分将探讨不同的起始参数如何极大地改变策略。
如果你使用完全相同的参数会怎么样?你可能会惊讶地发现,不同的求解器算法会在策略相似的场合产生不同的策略。然而,这并不意味着一种策略优于另一种策略。事实上,看起来截然不同的策略可以而且通常会非常接近相同的 EV 和可利用性水平。
起始参数如何改变策略
例1 – 大小盲对决,有跛入/无跛入的情况
不同的翻牌前范围会导致不同的翻牌后策略。如果你的翻牌前范围是为不同的翻牌前下注尺度设计的,那么你很可能没有使用相同的范围。
这里有一个例子。让我们比较一个小盲注开池范围,有跛入和无跛入。左边是 通用解决方案;右边是 简单解决方案:
小盲率先加注 (RFI) 比较 – 500NL 现金游戏 100BB 深筹码
跛入策略(绿色)略微极化了率先加注 (RFI)。与左侧的开池策略相比,右侧的策略在 9-T 区域包含更多比例的中等牌,而低/高牌略少。
例如,通用解决方案在这个 QT8 翻牌圈check 55% 的时间,而简单解决方案(不跛入并且有更多中等牌)只check 46%。
通用(带翻牌前跛入):
简单(无翻牌前跛入):
例2:小盲 vs 按钮位 3bet,不同的翻牌前 3bet 尺度
此示例将比较 AKKr 上 500NL 复杂 和 通用 解决方案之间小盲翻牌圈 c-bet 策略。
复杂解决方案 使用较小的 (10BB) 3bet 尺度和更线性范围。较小的 3bet 会导致按钮位更宽松地跟注。此外,复杂解决方案有许多小的下注尺度可用,这与此类翻牌圈相关。这些因素共同意味着在复杂解决方案中,小盲 c-bet 的频率更高(72% c-bet 频率):
通用解决方案 使用较大的 (12BB) 3bet 尺度和略微更极化且顶端牌重的范围。较大的尺度会导致按钮位更紧地跟注。此外,通用解决方案中最小的下注尺度是 33% 底池,这会导致更多的 check。总之,这些因素导致小盲更频繁地 check(48% c-bet 频率):
例3:按钮位 vs 大盲 SRP总体报告:包含/不包含小额下注尺寸
此示例比较了通用和基本解决方案之间总翻牌圈 c-bet 频率。
通用解决方案 使用最小 33% 的翻牌圈 c-bet 尺度,这会降低下注频率。大盲注使用更大、更极化的 3bet 尺度,导致翻牌前跟注范围略强。在所有 1755 个策略上不同的翻牌圈中,按钮位 c-bet 的频率约为 53%。
基本解决方案 使用最小 27% 的翻牌圈 c-bet,这会导致更频繁的下注。大盲注在翻牌前也使用更小、更线性的 3bet 尺度,导致跟注范围略弱。在所有 1755 个策略上不同的翻牌圈中,按钮位 c-bet 的频率更高,总计约为 64%。
注意 – 更频繁地下注并不等于更好的解决方案。
在我们继续之前,我觉得我应该解决一个众所周知的认知偏差。扑克玩家习惯于认为更频繁地下注会自动意味着更高的期望值,或者解决方案在某种程度上更好。事实并非如此。
例如,如果你只给求解器一个像 AK6r 这样的翻牌圈的小下注(按钮位 vs 大盲注 SRP),它会以高频率下注。如果你然后除了小下注之外再添加一个超池下注,它会将其所有价值转移到超池下注线,并更频繁地 check。换句话说,尽管新的超池下注策略具有更高的期望值,它会更多地 check。
重现 GTO Wizard 解决方案
现在你已经精通求解器的混沌理论,是时候尝试重现 GTO Wizard 模拟了。
在这个例子中,我们来看看 枪口位 vs 大盲注 SRP 在 JT5 翻牌面。我使用的是 500NL 通用 2.5x 解决方案(枪口位 open 2.5BB)。按照以下步骤使用你自己的求解器重现解决方案。
设置游戏树
- 直接从上面链接提供的范围选项卡复制范围。
- 设置筹码量和底池:分别为 5.5BB 和 97.5BB
- 使用类似于解决方案的下注树,包括转牌及河牌的超池下注。
- 设置抽水 – 5%,上限为 0.6BB。
- 将精度设置为底池的 0.3%。
如果你使用 Piosolver,你可以简单地将这些参数复制并粘贴到你的树构建器中。这不是 GTO Wizard 树的精确复制品。例如,我省略了在这个翻牌面上不会用到的率先下注。
如果你需要一个更小的树,请尝试省略未使用或策略相似的尺度。根据经验,河牌圈的复杂性对翻牌圈的影响小于转牌圈的复杂性。换句话说,更远的节点对你当前决策的影响较小。
比较不同求解器的结果
在这个实验中,我们将比较 GTO Wizard 解决方案与 GTO+ 和 Piosolver 在给定上述确切参数下的输出。
GTO Wizard 解决方案如下所示:
GTO+ 解决方案如下所示:
Piosolver (CFR算法) 解决方案如下所示:
比较结果:
这是怎么回事?为什么三个不同的求解器会给出三个不同的结果!?
我特意选择了这个翻牌面,因为在这个场合中,许多不同的策略都具有相似的期望值。这三种策略都是可行的。 这三种策略最多可以被利用 0.017BB(起始底池 5.5BB 的 0.3%)。
没有一个正确的策略,通常有多个。
让我们用一个类比来理解这个概念。想象一个半圆。圆上的每个点代表一个不同的策略。彼此相邻的两个点可能代表具有相同期望的完全不同的策略。每个点的高度代表解决方案的“好”(即可利用性)程度。当你放大时,越来越难以区分哪些策略更好。
如果你想强制所有三种算法产生相同的策略,你可以尝试求解到超高精度;这远远超出了大型解决方案库(如 GTO Wizard)的标准实践或可行性。然而,不能保证你会得到相同的输出,因为可能存在多个具有相同期望的均衡。
简而言之,GTO 解决方案在实践中并不总是一个明确定义的策略。可能有许多正确的玩法。
这个概念几乎存在于所有策略游戏中。例如,这是一个国际象棋局面,求解到了超高精度(47 层)。求解器计算出所有三个走法,d6、e6 和 Nf6,都具有相同的 0.0 期望值。当然,这三个走法都有不同的思路和策略。但它们都是可行的,即使在最高级别也是如此:
那么,应该从中学到什么呢?
有些场合有许多等效的策略。你正在使用的确切解决方案并不那么重要,只要输入参数正确地模拟了你正在研究的情况即可。
与其专注于某个节点的确切策略,不如关注以下三件事:
- 你执行和贯彻所选策略的效果如何。
- 理解底层的 GTO 原理。
- 理解驱动 GTO 策略的潜在剥削动态。
结论
第一次了解 GTO 求解器输出的混沌性质时,感到有些沮丧是很正常的。感觉就像在一个已经很困难的努力中又增加了一层复杂性。但你的目标不应该是记住解决方案;相反,你的目标是理解这些策略背后的基本推理。
死记硬背不仅不可能,而且效率极低。如果你专注于基本原理,你就能更好地了解如何在各种场合构建你的范围。此外,学习原理是进行剥削性调整所必需的。
GTO Wizard 为不同的抽水结构、下注尺度和筹码深度提供了数十种解决方案。好好利用这一点。比较类似的解决方案,找出策略变化的原因! 问问自己解决方案有何不同,以及这些变化如何相互作用以创建不同的策略。努力理解为什么而不是什么。比较和对比解决方案最终会让你对 GTO 有更深入的理解。
GTO Wizard 扑克玩家的首选应用程序
研究任何可以想象的场合
通过与 GTO 对战进行练习
一键分析你的牌局
作者
Tombos21
Tom 是一位长期扑克理论爱好者、GTO Wizard 教练和 YouTuber,以及“每日 GTO 剂量”的作者。
**欢迎各位有抱负的牌手!博弈论最优(Game Theory Optimal,GTO)是扑克世界中经常被提到的一个术语。但 GTO 究竟是什么意思?为什么 GTO 很重要?是什么让它“最优”的?**
“博弈论最优 (GTO)”这个术语在过去十年中在扑克圈获得了极大的关注。**GTO 指的是一种不会被对手剥削的固定策略。**它通常被认为是扑克的圣杯。 那么,究竟什么是 GTO 策略?是什么让它“不会被对手剥削”?它的目标是什么?