理解纳什距离
Author
Thinking PokerDate Published
在使用求解器学习时,最常见的问题之一是**“为什么求解器会选择这个行动,而另一个行动的EV更高”**?例如,在下面的场景中,我们可以看到check的EV高于bet,但解决方案却选择bet这手牌:
求解器噪声的例子
要理解为什么会发生这种情况,我们首先需要理解博弈论的一个基本原则:
混合策略原理
在完美的纳什均衡中,混合策略应该始终具有相同的期望值。也就是说,当一手牌采取多种行动时,这些行动应该具有相同的EV。想想看;你为什么要故意选择一个更差的策略?一个真正完美的策略永远不会“为了平衡而牺牲EV”。这是纳什均衡的一个硬性法则。
在上面的例子中,我们看到求解器将A7o的策略混合在check、27%底池大小的下注、73%底池大小的下注和127%底池大小的下注之间。然而,这些行动的EV并不相同。那么,为什么我们在解决方案中会看到这种情况发生?为什么用A7o check被认为是“不准确的”,即使它是EV最高的行动?
求解器噪声
GTO解决方案是不完美的。在实践中,GTO解决方案并没有求解到完美的精度,它们被求解到一定的可剥削性阈值。
整个解决方案的可剥削性越低,其精度就越高。我们用一个称为“纳什距离”或dEV的指标来定义解决方案的精度。作为参考,GTO Wizard 通常求解到底池的0.2%-0.3%左右。这有多容易被剥削呢?
假设我们有一个按钮位 vs 大盲注的场景,底池是5.5BB。这意味着最好的策略最多可以剥削这个解决方案5.5的0.3%,即每手牌0.017BB。这远远超出了人类玩家的水平。
这就是我们所说的“求解器噪声”。一手牌并不总是采取EV最高的行动。如果求解到完美的精度,这种噪声就会消失。所有混合行动的EV都将相同。
在某些情况下,当你采取一条占比为0%的策略时,你可能会注意到巨大的EV差异。这是因为求解器在求解过程中会提前停止计算被压制策略(占比为 0% 的策略)以提高效率。这是正常的,尽管这些策略中的策略和EV不太准确。
可剥削性
好的,那么这是否意味着EV最高的行动总是最好的行动?
不一定。对抗这个确切的策略,它恰好是最好的行动。然而,如果你总是check A7o,那么理论上大盲注可能会调整他们的策略,使得check的EV变低!记住,求解器混合是为了保持不被剥削。
如果我们将上面的例子求解到完美的精度,会发生什么?Check仍然是EV最高的行动吗?
A7会发生以下两种情况之一:
- Check的EV会收敛到更低,并且永远不会被使用;或者
- Check的EV会收敛到与其他bet选项相同的EV,并可能继续以一定的频率被使用。
如果不求解到完美的精度,就无法确定。一般来说,低频行动会消失并且EV会降低,而以合理频率采取的行动将仍然是策略的一部分。这就是为什么频率低于3.5%的行动被标记为“不准确”的原因。
让我们看看另一个例子:
例子
例2:A7o混合call,尽管call的EV更高
这里我们看到A7o在call和fold之间混合;然而,call的EV似乎明显高于fold。**Call的EV比fold高约1.7BB。**那么为什么它会混合fold呢?
我们需要正确看待这个问题。你call之后底池将是200.05 BB。所以1.8 BB的误差只占底池的0.9%左右。实际上,这比看起来要接近得多。当底池变大时,1%的误差范围看起来会大得多。
call一切的问题在于你会变得容易被剥削。想象一下call所有这些边缘的抓诈牌。突然之间,你过度call了,并且很容易被一个价值型玩家剥削。
为什么不求解到完美的精度?
**在批量生产的规模下,完全精确的解决方案根本不可行。**问题在于,随着求解器接近均衡,其收敛速度会变得越来越慢。从完全未求解到0.5% dEV所需的时间与从0.5%到0.25% dEV所需的时间大致相同。
将精度提高一倍,求解所需的时间也会翻倍。而且收益递减。一个精度为0.3%dEV的解决方案几乎与一个精度为0.15%dEV的解决方案相同,而且两者仍然会有求解器噪声。
另一种方法是创建非常简单的决策树,更容易求解。但这会产生它自己的问题,因为过度简化你的决策树会导致求解器利用该树的局限性而造成人为的扭曲。
所以,归根结底,过分关注极高的精度和微小的EV并没有多大意义。无论如何,解决方案远远超出了人类的可剥削性水平。
以下是我们其中一个求解的例子。正如你所看到的,进度在开始时很快,然后随着它接近均衡而变得越来越慢。这个求解到了底池的0.3%。
要点
当你看到求解器在行动之间混合时,与其寻找EV最高的行动,不如关注频率最高的行动。这是因为你看到的任何EV差异都是由于解决方案中的噪声造成的。
将混合行动视为具有相同的EV。你看到的任何差异都可以被认为是误差范围,(所有牌的EV大致为+-该值)。
GTO的重点是找到无法被剥削的最高EV策略。你在每个求解器解决方案中都会发现这些细微的误差。你的目标是抽象出更高级别的策略,例如理解不同场合下的范围构成、下注尺度选择以及如何利用对手的偏差,并培养GTO思维,而不是机械记忆频率。
GTO Wizard 扑克玩家的首选应用程序
学习任何可以想象的场合
通过与GTO对战进行练习
一键分析你的牌局
作者
Tombos21
Tom是一位长期致力于扑克理论的爱好者、GTO Wizard教练和YouTuber,以及《每日GTO》的作者。
“博弈论最优 (GTO)”这个术语在过去十年中在扑克圈获得了极大的关注。**GTO 指的是一种不会被对手剥削的固定策略。**它通常被认为是扑克的圣杯。 那么,究竟什么是 GTO 策略?是什么让它“不会被对手剥削”?它的目标是什么?
**欢迎各位有抱负的牌手!博弈论最优(Game Theory Optimal,GTO)是扑克世界中经常被提到的一个术语。但 GTO 究竟是什么意思?为什么 GTO 很重要?是什么让它“最优”的?**