值得信赖的区块链资讯!
九款AI德州扑克对战:Gemini逆袭夺冠,Llama策略失误垫底
作者:Eric,Foresight News
原标题:炒币还没分胜负,AI 们又凑了桌德扑
NOF1 AI 交易大赛距离落下帷幕还有 4 天时间,目前 DeepSeek 与通义千问仍然遥遥领先,剩余 4 款 AI 都没有跑赢单纯持有比特币。如果不出意外 DeepSeek 应该会将冠军收入囊中,现在就看剩下的几位什么时候能超过只持有比特币的收益,以及谁会成为倒数第一了。
AI 炒币虽然面对的是一个不断变化的市场,但这仍然算是一个 PvE 的游戏。真正要比「哪个 AI 更聪明」,而不是「哪个 AI 更会交易」的 PvP 游戏,俄罗斯小伙 Max Pavlov 叫上了 9 款 AI 凑了桌德州扑克。
从 LinkedIn 上公开的信息来看,Max Pavlov 长时间从事着产品经理的职位,他在 AI 德扑网站的介绍中也表示自己是深度学习、AI 和德扑的爱好者。至于为什么要做这样的一个测试,Max Pavlov 表示德扑圈对大语言模型推理的可靠性至今未达成共识,而这场比赛就是对这些大语言模型在实际的牌局中推理能力的展示。
或许是 Grok 在炒币上的表现并不突出,马斯克在昨天转发了 Grok 在德扑局中暂居首位的截图,颇有要「找回场子」的意思。
AI 们表现如何?
本次德扑锦标赛邀请了 9 名选手参加,除了我们熟知的 Gemini、ChatGPT、Claude Sonnet(曾获 FTX 投资的 Anthropic 推出)、Grok、DeepSeek、Kimi(月之暗面旗下 AI)、Llama,还有专注于欧洲市场与语言,由法国公司 Mistral AI 推出的 Mistral Magistral 以及国内最早投入大语言模型研究的北京智谱旗下 GLM。
截止撰稿时,Gemini、ChatGPT、Claude Sonnet、Grok、DeepSeek 5 名选手在水上,剩余 4 名选手暂时处于亏钱的状态,Meta 的羊驼选手最惨,已经亏了超过一半。
本次锦标赛从 27 号开始,31 号结束,目前还剩不到一天半的时间。从收益曲线上看,在开始一天多时间里 xAI 的 Grok 始终处于领先位置,在被 Gemini 超越后也长期处在第二的位置。在统计的 2540 手中,Grok 在 2270 手左右被 Claude Sonnet 超越,2500 手左右被 ChatGPT 超越。
水面附近的 DeepSeek、Kimi 和欧洲选手 Mistral Magistral 一直比较稳当。羊驼则是在试探期结束后的第 740 手左右直接开始拉胯,稳居倒数第一,GLM 则是在 1440 手左右开始掉队。
收益率之外,技术统计数据体现出了各名 AI 选手的不同「性格」。
在 VPIP(Voluntarily Put $ In Pot,自愿投入筹码进底池)上,我们的羊驼选手达到了 61%,超过半数轮次都选择了下注,比较稳的三位出手次数也相应最少,排名靠前的选手 VPIP 都在 25% 至 30% 区间。
PFR(Pre-Flop Raise,翻牌前加注)上,羊驼又是毫不意外的位居第一,收益最高的 Gemini 紧随其后。如此看来,Meta 的 Llama 是一个过分激进且主动的选手,而 Gemini 虽然也相对激进,但主动程度适中,可能是在牌好的时候敢于下注,又恰好了遇到了愣头青 Llama,使得二者的收益走向了两个极端。
再综合 3-Bet 和 C-Bet 数据,可以看出 Grok 实际上算是一个比较沉稳但不过分被动,且在翻牌前压迫力很强的选手,这种风格让其在开始阶段保持领先,但之后 Gemini 和 ChatGPT 的激进策略加上 Llama 的上头,让勇敢者反超登顶。
AI 们都是怎么分析的?
Max Pavlov 为这场比赛设定了一些基本规则,盲注 10/20 美元,不设 ante 也不允许 straddle,9 名选手同时开 4 桌,筹码低于 100 倍大盲时候系统自动补足到 100 大盲。
此外,所有 AI 选手共用一套提示词,会设定最大 token 数来限制推理长度,且如果响应异常则默认 fold。Max Pavlov 设计了在 AI 行动时或者一手牌结束后向 AI 询问其决策过程。
我们以撰写本文时进行的一局牌为例看看 AI 玩家们的分析。
Claude 和 Gemini 分下小盲大盲之后,Llama 觉得黑桃 8 和梅花 Q 牌力「相对较强」,可以博取顺子或同花从而跟注 20。
DeepSeek 认为红桃 Q、2 在其所在位置太弱不值得跟注,GLM 则认为在中位拿到同花面可以加注来让手松的 Llama 来构建底池,80 美元也可以在让池子可控的前提下给予足够的压力。Kimi 拿着与 Llama 数字相同花色相反的牌面,则认为手牌太弱且面临后续 3-Bet 的压力不值得跟注。
到此为止,可以看到 Llama 并没有分析数据和位置,基本是直接「无脑」下注,而之后的 3 位都基于位置和之前的数据分析做出了自己的判断。
在 GPT o3 因为拿着 A 而大胆下注 260 之后,Grok 和 Magistral 都选择 fold,尤其 Grok 已大概猜到 GPT 可能手握 AK 或者比自己更大的对子,再考虑到 Llama 的无脑冲节奏只能选择放弃。
之后,Gemini、Llama 和 GLM 也均选择 fold。GLM 也认为 GPT 大概率是大对子或者有 A,而 Llama 选手没有数据分析,只是觉得自己手牌其实还蛮强的,但没强到可以跟 260 的价值。
Llama 的上头,DeepSeek、Kimi 等的谨慎以及 GPT 的大胆都在本局中体现无疑,最后在没有翻牌的情况下 GPT 收走了底池。就在这篇文章的进行中时,前四名的盈利还在继续扩大,可以预见的是不出意外冠军将在前四名中产生,在炒币上表现不佳的 AI 们,在德扑上重新证明了自己的能力。
虽然很多实验室会通过一套科学的方案去测试 AI 的能力,但对于用户来说,更多还是关注 AI 能否为自己所用。在打牌上表现不佳的 DeepSeek 是一个出色的交易员,在交易上韭菜味十足的 Gemini 则在牌桌上大杀四方。当 AI 出现在不同的场景中时,我们可以通过一些我们能理解的行为和结果来看到每一种 AI 擅长的领域。
当然,几天的交易或者说几天的牌局并不能为一种 AI 在这方面的能力以及其未来可能的进化下定结论。AI 的决策不掺杂感性的成分,其决策的过程取决于算法的底层逻辑,可能连模型的开发者都并不清楚自己手搓的 AI 究竟在哪些方面更加擅长。
通过这些走出实验室的娱乐性质测试,我们可以更加直观的观察 AI 在面对我们习以为常的事情和游戏时的逻辑,并反过来进一步拓展人与 AI 的思考边界。
Twitter:https://twitter.com/BitpushNewsCN
比推 TG 交流群:https://t.me/BitPushCommunity
比推 TG 订阅: https://t.me/bitpush
比推快讯
更多 >>- 特朗普起诉 BBC 误导性剪辑纪录片内容,索赔至少 100 亿美元
- 某鲸鱼从 Bybit 提出 600 枚 BTC,约 5212 万美元
- 英国 FCA 就新加密货币规则启动咨询
- Matrixport:稳定币增速放缓,加密市场流动性支撑边际减弱
- 沃什政策主张:推进降息与缩表并行,通胀是美联储的一种选择
- Ark Invest 逢低增持 BitMine、Coinbase、Circle 等股票
- Bithumb 将上线 EDEN 韩元交易对
- 某巨鲸清仓 AI Agent 代币,亏损高达 2854 万美元
- 慢雾,发现加密交易所 Azbitm 存在潜在漏洞
- Binance 杠杆将移除部分交易对
- 数据:共计 2089.71 万枚 TON 从匿名地址转入 TON,价值约 3.12 亿美元
- 麻吉ETH 多单距遭清算仅剩不足 10 美元
- 数据:昨日比特币现货 ETF 净流出达 3.5169 亿美元
- Bitget CEO 登上CEO and Business Leaders封面,并分享其对新经济的洞察
- Magic Eden 启动 Ordinals 回购计划,15% 手续费将用于买入 Ordinals
- 亚特兰大联储董事会已启动寻找下一任主席的程序
- 某交易员两个月前建仓 18 万美元 PIPPIN,账面回报现达 20 倍
- 数据:DGB 涨超 18%,VOXEL 跌超 21%
- 某巨鲸囤积 21,850 枚 ETH 现浮亏逾 624 万美元,已开启循环做多
- 盛宝集团:本周数据可能影响美国利率重新定价
- 香港证监会将“香港稳定币交易所”列入可疑虚拟资产交易平台警示名单
- Paradigm 成员接连宣布离职
- glassnode:过去三个月几乎所有加密货币平均回报率均低于 BTC
- 数据,美国 XRP 现货 ETF 单日总净流入 1089 万美元
- RootData:ZORA 将于一周后解锁价值约 778 万美元的代币
- Animoca Brands 将与思睿集团合作,并投资其子公司 GROW Digital Wealth
- 加密市场情绪跌入冰点,恐慌贪婪指数现报 11
- 布鲁克林男子冒充 Coinbase 客服实施 1500 万美元加密货币诈骗被捕
- 数据:过去 24 小时全网爆仓 5.83 亿美元,多单爆仓 5.09 亿美元,空单爆仓 7,439.9 万美元
- Bitwise CEO:未来 12 个月加密货币将全面融入金融服务
- Aether Games 宣布正式关闭,加密游戏项目难以为继
- 特朗普:将审查 Samourai Wallet 开发者的案件
- PIPPIN 市值达 4.5 亿美元创历史新高,现报价约 0.44 美元
- 美国 25 家最大银行中有 14 家正在开发比特币产品
- 分析师前瞻非农:失业率可能会上升到 4.5%
- 美国加密市场立法推迟至 2026 年,参议院银行委员会年内无法完成审议
- Monad 链上手续费收入连续 5 日低于 5000 美元,12 月 15 日仅 3824 美元
- 嘉信:将 Solana 期货添加到其交易平台
- Opinion Builder Program 生态项目申请已超过 100 份,其中 30 多个项目已上线,所有社区成员可投票
- 数据:Hyperliquid 平台鲸鱼当前持仓 52.38 亿美元,多空持仓比为 0.93
- Glassnode:比特币在 9.4 万美元受阻,衍生品和链上信号偏谨慎
- Scam Sniffer:某用户因签署网络钓鱼签名损失超 56 万美元 aEthUSDT
- 此前囤积 1243 万枚 ASTER 巨鲸 9 小时前将所有代币转入 Binance,价值 1167 万美元
- 6MV 创始人:Circle 副总裁曾向 Axelar 联创直言“我才不在乎你的投资人”
- 三菱日联:若非农数据恶化或加速美元抛售至年底
- Matador Technologies 修订 1 亿美元可转债条款,专注扩大比特币持仓
- Moonrock 创始人评 Circle 收购 Axelar 团队:这是又一起变相 RUG
- 美国银行报告:加密监管落地,银行正加速迈向链上未来
- 预警:BiSwap 的官网被恶意 URL 感染,请保持警惕
- Nakamoto 再次将 705 枚 BTC 转移至其 Kraken 贷款抵押钱包
比推 APP



