值得信赖的区块链资讯!
九款AI德州扑克对战:Gemini逆袭夺冠,Llama策略失误垫底
作者:Eric,Foresight News
原标题:炒币还没分胜负,AI 们又凑了桌德扑
NOF1 AI 交易大赛距离落下帷幕还有 4 天时间,目前 DeepSeek 与通义千问仍然遥遥领先,剩余 4 款 AI 都没有跑赢单纯持有比特币。如果不出意外 DeepSeek 应该会将冠军收入囊中,现在就看剩下的几位什么时候能超过只持有比特币的收益,以及谁会成为倒数第一了。
AI 炒币虽然面对的是一个不断变化的市场,但这仍然算是一个 PvE 的游戏。真正要比「哪个 AI 更聪明」,而不是「哪个 AI 更会交易」的 PvP 游戏,俄罗斯小伙 Max Pavlov 叫上了 9 款 AI 凑了桌德州扑克。
从 LinkedIn 上公开的信息来看,Max Pavlov 长时间从事着产品经理的职位,他在 AI 德扑网站的介绍中也表示自己是深度学习、AI 和德扑的爱好者。至于为什么要做这样的一个测试,Max Pavlov 表示德扑圈对大语言模型推理的可靠性至今未达成共识,而这场比赛就是对这些大语言模型在实际的牌局中推理能力的展示。
或许是 Grok 在炒币上的表现并不突出,马斯克在昨天转发了 Grok 在德扑局中暂居首位的截图,颇有要「找回场子」的意思。
AI 们表现如何?
本次德扑锦标赛邀请了 9 名选手参加,除了我们熟知的 Gemini、ChatGPT、Claude Sonnet(曾获 FTX 投资的 Anthropic 推出)、Grok、DeepSeek、Kimi(月之暗面旗下 AI)、Llama,还有专注于欧洲市场与语言,由法国公司 Mistral AI 推出的 Mistral Magistral 以及国内最早投入大语言模型研究的北京智谱旗下 GLM。
截止撰稿时,Gemini、ChatGPT、Claude Sonnet、Grok、DeepSeek 5 名选手在水上,剩余 4 名选手暂时处于亏钱的状态,Meta 的羊驼选手最惨,已经亏了超过一半。
本次锦标赛从 27 号开始,31 号结束,目前还剩不到一天半的时间。从收益曲线上看,在开始一天多时间里 xAI 的 Grok 始终处于领先位置,在被 Gemini 超越后也长期处在第二的位置。在统计的 2540 手中,Grok 在 2270 手左右被 Claude Sonnet 超越,2500 手左右被 ChatGPT 超越。
水面附近的 DeepSeek、Kimi 和欧洲选手 Mistral Magistral 一直比较稳当。羊驼则是在试探期结束后的第 740 手左右直接开始拉胯,稳居倒数第一,GLM 则是在 1440 手左右开始掉队。
收益率之外,技术统计数据体现出了各名 AI 选手的不同「性格」。
在 VPIP(Voluntarily Put $ In Pot,自愿投入筹码进底池)上,我们的羊驼选手达到了 61%,超过半数轮次都选择了下注,比较稳的三位出手次数也相应最少,排名靠前的选手 VPIP 都在 25% 至 30% 区间。
PFR(Pre-Flop Raise,翻牌前加注)上,羊驼又是毫不意外的位居第一,收益最高的 Gemini 紧随其后。如此看来,Meta 的 Llama 是一个过分激进且主动的选手,而 Gemini 虽然也相对激进,但主动程度适中,可能是在牌好的时候敢于下注,又恰好了遇到了愣头青 Llama,使得二者的收益走向了两个极端。
再综合 3-Bet 和 C-Bet 数据,可以看出 Grok 实际上算是一个比较沉稳但不过分被动,且在翻牌前压迫力很强的选手,这种风格让其在开始阶段保持领先,但之后 Gemini 和 ChatGPT 的激进策略加上 Llama 的上头,让勇敢者反超登顶。
AI 们都是怎么分析的?
Max Pavlov 为这场比赛设定了一些基本规则,盲注 10/20 美元,不设 ante 也不允许 straddle,9 名选手同时开 4 桌,筹码低于 100 倍大盲时候系统自动补足到 100 大盲。
此外,所有 AI 选手共用一套提示词,会设定最大 token 数来限制推理长度,且如果响应异常则默认 fold。Max Pavlov 设计了在 AI 行动时或者一手牌结束后向 AI 询问其决策过程。
我们以撰写本文时进行的一局牌为例看看 AI 玩家们的分析。
Claude 和 Gemini 分下小盲大盲之后,Llama 觉得黑桃 8 和梅花 Q 牌力「相对较强」,可以博取顺子或同花从而跟注 20。
DeepSeek 认为红桃 Q、2 在其所在位置太弱不值得跟注,GLM 则认为在中位拿到同花面可以加注来让手松的 Llama 来构建底池,80 美元也可以在让池子可控的前提下给予足够的压力。Kimi 拿着与 Llama 数字相同花色相反的牌面,则认为手牌太弱且面临后续 3-Bet 的压力不值得跟注。
到此为止,可以看到 Llama 并没有分析数据和位置,基本是直接「无脑」下注,而之后的 3 位都基于位置和之前的数据分析做出了自己的判断。
在 GPT o3 因为拿着 A 而大胆下注 260 之后,Grok 和 Magistral 都选择 fold,尤其 Grok 已大概猜到 GPT 可能手握 AK 或者比自己更大的对子,再考虑到 Llama 的无脑冲节奏只能选择放弃。
之后,Gemini、Llama 和 GLM 也均选择 fold。GLM 也认为 GPT 大概率是大对子或者有 A,而 Llama 选手没有数据分析,只是觉得自己手牌其实还蛮强的,但没强到可以跟 260 的价值。
Llama 的上头,DeepSeek、Kimi 等的谨慎以及 GPT 的大胆都在本局中体现无疑,最后在没有翻牌的情况下 GPT 收走了底池。就在这篇文章的进行中时,前四名的盈利还在继续扩大,可以预见的是不出意外冠军将在前四名中产生,在炒币上表现不佳的 AI 们,在德扑上重新证明了自己的能力。
虽然很多实验室会通过一套科学的方案去测试 AI 的能力,但对于用户来说,更多还是关注 AI 能否为自己所用。在打牌上表现不佳的 DeepSeek 是一个出色的交易员,在交易上韭菜味十足的 Gemini 则在牌桌上大杀四方。当 AI 出现在不同的场景中时,我们可以通过一些我们能理解的行为和结果来看到每一种 AI 擅长的领域。
当然,几天的交易或者说几天的牌局并不能为一种 AI 在这方面的能力以及其未来可能的进化下定结论。AI 的决策不掺杂感性的成分,其决策的过程取决于算法的底层逻辑,可能连模型的开发者都并不清楚自己手搓的 AI 究竟在哪些方面更加擅长。
通过这些走出实验室的娱乐性质测试,我们可以更加直观的观察 AI 在面对我们习以为常的事情和游戏时的逻辑,并反过来进一步拓展人与 AI 的思考边界。
Twitter:https://twitter.com/BitpushNewsCN
比推 TG 交流群:https://t.me/BitPushCommunity
比推 TG 订阅: https://t.me/bitpush
比推快讯
更多 >>- Tether 冻结某地址中约 1200 万枚 USDT
- 澳洲 Smart AI 研究院发布 2026 AI 商业化战略,SAIT 通证 3 月 16 日登陆 BitMart
- COS 突破 0.002 美元,日内涨超 100%
- Hashrate Index:油价上涨对比特币挖矿成本直接影响较小
- Ju.com 第 5 期 Meme 打新项目 MOLTY 上线涨幅达 6400 万倍,第 6 期 BMJ 3 月 15 日 16:00 开启认购
- 最新民调显示特朗普支持率下滑,市场应关注中期选举风险
- 特朗普午宴排行榜头名为中文 ID小 X,与特朗普同台积分门槛当前 52 万分
- 月之暗面寻求融资 10 亿美元,估值或达 180 亿美元
- 伊朗启动“真实承诺-4”第 49 轮军事行动
- Bitcoin Policy Institute,国会仅剩数月通过小额比特币交易免税政策
- Tether CEO:正在投入大量资源,以确保 AI 通信与智能保持自由
- 分析:Strategy 本周可能买入超 3 万枚 BTC,总持有量冲击 80 万枚
- 伊朗称战争后果远超美方设想
- MSTR 分析师:Strategy 本周或购入超 3 万枚 BTC
- 伊朗称袭击美军中东三大军事基地
- 以防长:与伊朗的冲突进入“决定性阶段”
- 伊朗称哈尔克岛局势已得到控制
- 某交易员 CL 原油多单浮盈超 60 万美元
- USDC 市值逼近 800 亿美元历史高位,分析师将其归因于阿联酋资本外流
- BTC 处于 10 万美元以下已超 120 天
- 数据:BTC 全网合约持仓量 24h 减少 5.46%
- 伊朗军方称有权打击位于阿联酋的美军导弹发射地
- 伊朗高级指挥官:结束战争有两个条件
- 数据:若 ETH 突破 2,167 美元,主流 CEX 累计空单清算强度将达 10.48 亿美元
- 协鑫新能源对 Pharos 进行对赌投资
- 胜率超 74%账号押注 5.4 万美元英雄联盟国际先锋赛小组赛 Gen.G 战胜 JDG
- 对冲基金对原油的看涨程度达 2020 年以来之最
- 数据:ENSO 24 小时跌超 12%,ASR 涨超 6%
- 现货比特币 ETF 连续五天流入资金,创 2026 年新高
- Polymarket 上新“对伊朗的军事行动将于何时结束?”,当前交易量为 1.2 万美元
- 观点:霍尔木兹油阀关停为特朗普埋下政治炸弹,日韩结构性脆弱暴露无遗
- 某鲸鱼从 Aave 提取 10,008 枚 AAVE 后存入币安,价值 115 万美元
- Pump.fun 推出代币化代理自动回购功能
- 加密恐慌指数小幅升至 16,市场仍处于极度恐慌状态
- Polymarket BTC 今日高于 72000 美元概率仅 4%,昨夜一度拉升至 74000 美元后回落
- WLFI 社区投票通过治理质押系统提案,赞成率为 99.12%
- 数据:共计 39,628,312 枚 SAHARA 从匿名地址转出,价值约 1.02 亿美元
- Bitdeer 本周出售 158.8 枚 BTC,当前仍维持零持仓
- Aave 发布 Aave V4 以太坊主网激活治理提案
- 伊朗被曝考虑允许部分油轮通过霍尔木兹海峡 前提是运载石油必须以人民币结算
- 澳大利亚将释放战略燃料储备,应对中东局势引发的供应担忧
- Coinbase 与 Bybit 洽谈投资合作协议,或助其推进美国合规市场布局
- Alchemy 推出 AgentCard,面向 AI Agent 支持 Polymarket 交易及外卖购物等功能
- 特朗普声称伊朗已被彻底击败
- CZ:区块浏览器应过滤垃圾交易,以减少地址投毒风险
- 美国众议院金融服务委员会主席:《CLARITY 法案》或可弥补《GENIUS 法案》留下的监管空白
- 数据:3 月 1 日至今仅 77 艘船通过霍尔木兹海峡
- 微软正在内测 OpenClaw 或将整合进 Teams 应用,预计下周将发布路线图
- 特朗普家族加密项目推出超级节点,锁仓 500 万美元代币可获得团队接触机会
- 贝莱德数字资产主管:不会推出过于复杂的加密 ETF 结构
比推专栏
更多 >>- 懂王:登陸那個島|0314 Middle East
- 懂王:那就大家一起難受吧|0313亞盤後
- 当黄金被「困」在迪拜,是时候旗帜鲜明「唱多」香港了
- 東大、波斯、阿拉伯【第七次/進展/能源變量】|0310東3.5
- 从 HSK 到 USDGO:香港两大持牌机构,开始「脱钩」
- There is no new boss YET
- New situation and new games|0305 Asian
- B52 Were on the way to Iran|0304 Middle East
- 开放独角兽门票:从 Robinhood 到 MSX,一场 Pre-IPO 的链上平权实验
- Big player's 『Trigger moment』|0227Europe
观点
比推热门文章
- Tether 冻结某地址中约 1200 万枚 USDT
- 澳洲 Smart AI 研究院发布 2026 AI 商业化战略,SAIT 通证 3 月 16 日登陆 BitMart
- COS 突破 0.002 美元,日内涨超 100%
- Hashrate Index:油价上涨对比特币挖矿成本直接影响较小
- Ju.com 第 5 期 Meme 打新项目 MOLTY 上线涨幅达 6400 万倍,第 6 期 BMJ 3 月 15 日 16:00 开启认购
- 最新民调显示特朗普支持率下滑,市场应关注中期选举风险
- 特朗普午宴排行榜头名为中文 ID小 X,与特朗普同台积分门槛当前 52 万分
- 月之暗面寻求融资 10 亿美元,估值或达 180 亿美元
- 伊朗启动“真实承诺-4”第 49 轮军事行动
- Bitcoin Policy Institute,国会仅剩数月通过小额比特币交易免税政策
比推 APP



