BTC 牛市币股代币化股票山寨币稳定币 Robinhood AI Agent 空投监管 SEC 特朗普

九款AI德州扑克对战：Gemini逆袭夺冠，Llama策略失误垫底

Foresight News

作者：Eric，Foresight News

原标题：炒币还没分胜负，AI 们又凑了桌德扑

NOF1 AI 交易大赛距离落下帷幕还有 4 天时间，目前 DeepSeek 与通义千问仍然遥遥领先，剩余 4 款 AI 都没有跑赢单纯持有比特币。如果不出意外 DeepSeek 应该会将冠军收入囊中，现在就看剩下的几位什么时候能超过只持有比特币的收益，以及谁会成为倒数第一了。

AI 炒币虽然面对的是一个不断变化的市场，但这仍然算是一个 PvE 的游戏。真正要比「哪个 AI 更聪明」，而不是「哪个 AI 更会交易」的 PvP 游戏，俄罗斯小伙 Max Pavlov 叫上了 9 款 AI 凑了桌德州扑克。

从 LinkedIn 上公开的信息来看，Max Pavlov 长时间从事着产品经理的职位，他在 AI 德扑网站的介绍中也表示自己是深度学习、AI 和德扑的爱好者。至于为什么要做这样的一个测试，Max Pavlov 表示德扑圈对大语言模型推理的可靠性至今未达成共识，而这场比赛就是对这些大语言模型在实际的牌局中推理能力的展示。

或许是 Grok 在炒币上的表现并不突出，马斯克在昨天转发了 Grok 在德扑局中暂居首位的截图，颇有要「找回场子」的意思。

AI 们表现如何？

本次德扑锦标赛邀请了 9 名选手参加，除了我们熟知的 Gemini、ChatGPT、Claude Sonnet（曾获 FTX 投资的 Anthropic 推出）、Grok、DeepSeek、Kimi（月之暗面旗下 AI）、Llama，还有专注于欧洲市场与语言，由法国公司 Mistral AI 推出的 Mistral Magistral 以及国内最早投入大语言模型研究的北京智谱旗下 GLM。

截止撰稿时，Gemini、ChatGPT、Claude Sonnet、Grok、DeepSeek 5 名选手在水上，剩余 4 名选手暂时处于亏钱的状态，Meta 的羊驼选手最惨，已经亏了超过一半。

本次锦标赛从 27 号开始，31 号结束，目前还剩不到一天半的时间。从收益曲线上看，在开始一天多时间里 xAI 的 Grok 始终处于领先位置，在被 Gemini 超越后也长期处在第二的位置。在统计的 2540 手中，Grok 在 2270 手左右被 Claude Sonnet 超越，2500 手左右被 ChatGPT 超越。

水面附近的 DeepSeek、Kimi 和欧洲选手 Mistral Magistral 一直比较稳当。羊驼则是在试探期结束后的第 740 手左右直接开始拉胯，稳居倒数第一，GLM 则是在 1440 手左右开始掉队。

收益率之外，技术统计数据体现出了各名 AI 选手的不同「性格」。

在 VPIP（Voluntarily Put $ In Pot，自愿投入筹码进底池）上，我们的羊驼选手达到了 61%，超过半数轮次都选择了下注，比较稳的三位出手次数也相应最少，排名靠前的选手 VPIP 都在 25% 至 30% 区间。

PFR（Pre-Flop Raise，翻牌前加注）上，羊驼又是毫不意外的位居第一，收益最高的 Gemini 紧随其后。如此看来，Meta 的 Llama 是一个过分激进且主动的选手，而 Gemini 虽然也相对激进，但主动程度适中，可能是在牌好的时候敢于下注，又恰好了遇到了愣头青 Llama，使得二者的收益走向了两个极端。

再综合 3-Bet 和 C-Bet 数据，可以看出 Grok 实际上算是一个比较沉稳但不过分被动，且在翻牌前压迫力很强的选手，这种风格让其在开始阶段保持领先，但之后 Gemini 和 ChatGPT 的激进策略加上 Llama 的上头，让勇敢者反超登顶。

AI 们都是怎么分析的？

Max Pavlov 为这场比赛设定了一些基本规则，盲注 10/20 美元，不设 ante 也不允许 straddle，9 名选手同时开 4 桌，筹码低于 100 倍大盲时候系统自动补足到 100 大盲。

此外，所有 AI 选手共用一套提示词，会设定最大 token 数来限制推理长度，且如果响应异常则默认 fold。Max Pavlov 设计了在 AI 行动时或者一手牌结束后向 AI 询问其决策过程。

我们以撰写本文时进行的一局牌为例看看 AI 玩家们的分析。

Claude 和 Gemini 分下小盲大盲之后，Llama 觉得黑桃 8 和梅花 Q 牌力「相对较强」，可以博取顺子或同花从而跟注 20。

DeepSeek 认为红桃 Q、2 在其所在位置太弱不值得跟注，GLM 则认为在中位拿到同花面可以加注来让手松的 Llama 来构建底池，80 美元也可以在让池子可控的前提下给予足够的压力。Kimi 拿着与 Llama 数字相同花色相反的牌面，则认为手牌太弱且面临后续 3-Bet 的压力不值得跟注。

到此为止，可以看到 Llama 并没有分析数据和位置，基本是直接「无脑」下注，而之后的 3 位都基于位置和之前的数据分析做出了自己的判断。

在 GPT o3 因为拿着 A 而大胆下注 260 之后，Grok 和 Magistral 都选择 fold，尤其 Grok 已大概猜到 GPT 可能手握 AK 或者比自己更大的对子，再考虑到 Llama 的无脑冲节奏只能选择放弃。

之后，Gemini、Llama 和 GLM 也均选择 fold。GLM 也认为 GPT 大概率是大对子或者有 A，而 Llama 选手没有数据分析，只是觉得自己手牌其实还蛮强的，但没强到可以跟 260 的价值。

Llama 的上头，DeepSeek、Kimi 等的谨慎以及 GPT 的大胆都在本局中体现无疑，最后在没有翻牌的情况下 GPT 收走了底池。就在这篇文章的进行中时，前四名的盈利还在继续扩大，可以预见的是不出意外冠军将在前四名中产生，在炒币上表现不佳的 AI 们，在德扑上重新证明了自己的能力。

虽然很多实验室会通过一套科学的方案去测试 AI 的能力，但对于用户来说，更多还是关注 AI 能否为自己所用。在打牌上表现不佳的 DeepSeek 是一个出色的交易员，在交易上韭菜味十足的 Gemini 则在牌桌上大杀四方。当 AI 出现在不同的场景中时，我们可以通过一些我们能理解的行为和结果来看到每一种 AI 擅长的领域。

当然，几天的交易或者说几天的牌局并不能为一种 AI 在这方面的能力以及其未来可能的进化下定结论。AI 的决策不掺杂感性的成分，其决策的过程取决于算法的底层逻辑，可能连模型的开发者都并不清楚自己手搓的 AI 究竟在哪些方面更加擅长。

通过这些走出实验室的娱乐性质测试，我们可以更加直观的观察 AI 在面对我们习以为常的事情和游戏时的逻辑，并反过来进一步拓展人与 AI 的思考边界。

Twitter：https://twitter.com/BitpushNewsCN

比推 TG 交流群：https://t.me/BitPushCommunity

比推 TG 订阅： https://t.me/bitpush