值得信赖的区块链资讯!
九款AI德州扑克对战:Gemini逆袭夺冠,Llama策略失误垫底
作者:Eric,Foresight News
原标题:炒币还没分胜负,AI 们又凑了桌德扑
NOF1 AI 交易大赛距离落下帷幕还有 4 天时间,目前 DeepSeek 与通义千问仍然遥遥领先,剩余 4 款 AI 都没有跑赢单纯持有比特币。如果不出意外 DeepSeek 应该会将冠军收入囊中,现在就看剩下的几位什么时候能超过只持有比特币的收益,以及谁会成为倒数第一了。
AI 炒币虽然面对的是一个不断变化的市场,但这仍然算是一个 PvE 的游戏。真正要比「哪个 AI 更聪明」,而不是「哪个 AI 更会交易」的 PvP 游戏,俄罗斯小伙 Max Pavlov 叫上了 9 款 AI 凑了桌德州扑克。
从 LinkedIn 上公开的信息来看,Max Pavlov 长时间从事着产品经理的职位,他在 AI 德扑网站的介绍中也表示自己是深度学习、AI 和德扑的爱好者。至于为什么要做这样的一个测试,Max Pavlov 表示德扑圈对大语言模型推理的可靠性至今未达成共识,而这场比赛就是对这些大语言模型在实际的牌局中推理能力的展示。
或许是 Grok 在炒币上的表现并不突出,马斯克在昨天转发了 Grok 在德扑局中暂居首位的截图,颇有要「找回场子」的意思。
AI 们表现如何?
本次德扑锦标赛邀请了 9 名选手参加,除了我们熟知的 Gemini、ChatGPT、Claude Sonnet(曾获 FTX 投资的 Anthropic 推出)、Grok、DeepSeek、Kimi(月之暗面旗下 AI)、Llama,还有专注于欧洲市场与语言,由法国公司 Mistral AI 推出的 Mistral Magistral 以及国内最早投入大语言模型研究的北京智谱旗下 GLM。
截止撰稿时,Gemini、ChatGPT、Claude Sonnet、Grok、DeepSeek 5 名选手在水上,剩余 4 名选手暂时处于亏钱的状态,Meta 的羊驼选手最惨,已经亏了超过一半。
本次锦标赛从 27 号开始,31 号结束,目前还剩不到一天半的时间。从收益曲线上看,在开始一天多时间里 xAI 的 Grok 始终处于领先位置,在被 Gemini 超越后也长期处在第二的位置。在统计的 2540 手中,Grok 在 2270 手左右被 Claude Sonnet 超越,2500 手左右被 ChatGPT 超越。
水面附近的 DeepSeek、Kimi 和欧洲选手 Mistral Magistral 一直比较稳当。羊驼则是在试探期结束后的第 740 手左右直接开始拉胯,稳居倒数第一,GLM 则是在 1440 手左右开始掉队。
收益率之外,技术统计数据体现出了各名 AI 选手的不同「性格」。
在 VPIP(Voluntarily Put $ In Pot,自愿投入筹码进底池)上,我们的羊驼选手达到了 61%,超过半数轮次都选择了下注,比较稳的三位出手次数也相应最少,排名靠前的选手 VPIP 都在 25% 至 30% 区间。
PFR(Pre-Flop Raise,翻牌前加注)上,羊驼又是毫不意外的位居第一,收益最高的 Gemini 紧随其后。如此看来,Meta 的 Llama 是一个过分激进且主动的选手,而 Gemini 虽然也相对激进,但主动程度适中,可能是在牌好的时候敢于下注,又恰好了遇到了愣头青 Llama,使得二者的收益走向了两个极端。
再综合 3-Bet 和 C-Bet 数据,可以看出 Grok 实际上算是一个比较沉稳但不过分被动,且在翻牌前压迫力很强的选手,这种风格让其在开始阶段保持领先,但之后 Gemini 和 ChatGPT 的激进策略加上 Llama 的上头,让勇敢者反超登顶。
AI 们都是怎么分析的?
Max Pavlov 为这场比赛设定了一些基本规则,盲注 10/20 美元,不设 ante 也不允许 straddle,9 名选手同时开 4 桌,筹码低于 100 倍大盲时候系统自动补足到 100 大盲。
此外,所有 AI 选手共用一套提示词,会设定最大 token 数来限制推理长度,且如果响应异常则默认 fold。Max Pavlov 设计了在 AI 行动时或者一手牌结束后向 AI 询问其决策过程。
我们以撰写本文时进行的一局牌为例看看 AI 玩家们的分析。
Claude 和 Gemini 分下小盲大盲之后,Llama 觉得黑桃 8 和梅花 Q 牌力「相对较强」,可以博取顺子或同花从而跟注 20。
DeepSeek 认为红桃 Q、2 在其所在位置太弱不值得跟注,GLM 则认为在中位拿到同花面可以加注来让手松的 Llama 来构建底池,80 美元也可以在让池子可控的前提下给予足够的压力。Kimi 拿着与 Llama 数字相同花色相反的牌面,则认为手牌太弱且面临后续 3-Bet 的压力不值得跟注。
到此为止,可以看到 Llama 并没有分析数据和位置,基本是直接「无脑」下注,而之后的 3 位都基于位置和之前的数据分析做出了自己的判断。
在 GPT o3 因为拿着 A 而大胆下注 260 之后,Grok 和 Magistral 都选择 fold,尤其 Grok 已大概猜到 GPT 可能手握 AK 或者比自己更大的对子,再考虑到 Llama 的无脑冲节奏只能选择放弃。
之后,Gemini、Llama 和 GLM 也均选择 fold。GLM 也认为 GPT 大概率是大对子或者有 A,而 Llama 选手没有数据分析,只是觉得自己手牌其实还蛮强的,但没强到可以跟 260 的价值。
Llama 的上头,DeepSeek、Kimi 等的谨慎以及 GPT 的大胆都在本局中体现无疑,最后在没有翻牌的情况下 GPT 收走了底池。就在这篇文章的进行中时,前四名的盈利还在继续扩大,可以预见的是不出意外冠军将在前四名中产生,在炒币上表现不佳的 AI 们,在德扑上重新证明了自己的能力。
虽然很多实验室会通过一套科学的方案去测试 AI 的能力,但对于用户来说,更多还是关注 AI 能否为自己所用。在打牌上表现不佳的 DeepSeek 是一个出色的交易员,在交易上韭菜味十足的 Gemini 则在牌桌上大杀四方。当 AI 出现在不同的场景中时,我们可以通过一些我们能理解的行为和结果来看到每一种 AI 擅长的领域。
当然,几天的交易或者说几天的牌局并不能为一种 AI 在这方面的能力以及其未来可能的进化下定结论。AI 的决策不掺杂感性的成分,其决策的过程取决于算法的底层逻辑,可能连模型的开发者都并不清楚自己手搓的 AI 究竟在哪些方面更加擅长。
通过这些走出实验室的娱乐性质测试,我们可以更加直观的观察 AI 在面对我们习以为常的事情和游戏时的逻辑,并反过来进一步拓展人与 AI 的思考边界。
Twitter:https://twitter.com/BitpushNewsCN
比推 TG 交流群:https://t.me/BitPushCommunity
比推 TG 订阅: https://t.me/bitpush
比推快讯
更多 >>- ChainOpera AI 基金会官网上线,将公布生态基金并推进去中心化 AI 平台建设并上线新生态项目
- 分析师:比特币关键支撑位在 8.6 万美元,若失守或引发更深回调
- Michael Saylor 再次发布比特币 Tracker 信息,或暗示再次增持 BTC
- 某鲸鱼从币安提取 1409.8 万枚 WLFI,价值超 200 万美元
- 数据:117.49 枚 BTC 从匿名地址转出,经中转后流入 Luno
- Cathie Wood:加密市场或已见底,比特币仍是机构首选
- “铁杆空头”巨鲸 20 倍杠杆 BTC 空单现浮盈已超 1800 万美元
- Bitwise 顾问:当前市场结构不利于比特币上涨,比特币 OG 鲸鱼仍在持续抛售
- CBB:山寨季临近,治理代币才是未来
- 某鲸鱼 4 天前开设 ETH 多单,累计亏损已超 330 万美元
- 麻吉减仓 25 倍 ETH 多单,目前清算价为 3042.74 美元
- 过去 1 小时全网爆仓 5571 万美元,主爆多单
- 某聪明钱由多转空,开设 1000 枚 BTC 的 3 倍杠杆空单
- 10x Research:比特币四年周期并未消失,只是核心驱动因素不再锚定减半事件
- Rate-X 已开放空投查询,快照拍摄于 12 月 1 日
- 分析:若日本央行如期加息,比特币或将回调至 7 万美元水平
- TRON ECO Holiday Odyssey 倒计时 1 天
- FOLKS 24H 合约交易量达 23.5 亿美元,仅次于 BTC 和 ETH 跻身前三
- 观点:美联储本月降息后,美股和大饼不涨反跌的原因在于降息前后美债收益率曲线形态的变化
- Cathie Wood:ARK Invest 高位减持特斯拉,部分利润用于增持加密资产
- Tom Lee:Bitmine 永远不会出售其持有的 ETH
- 疑似 ZORA 团队向三个地址转移约 5252.5 万枚代币,价值超 260 万美元
- 某鲸鱼已全部平仓其 7 倍 ETH 多头仓位,亏损超 334 万美元
- 分析:日元套利交易已明显收缩,比特币或在日本央行政策压力释放后走强
- 加密恐慌指数降至 21,市场仍处于极度恐慌态势
- 分析:名义价值约 238 亿美元比特币期权将于 12 月 26 日到期,年末或迎风险敞口的集中清算与再定价
- 原中银副行长:坚定推进数字人民币发展,遏制虚拟货币的政策取向已完全明确
- Paradigm 首位员工 Charlie Noyes 宣布辞去普通合伙人职务
- 经济观察报:煜志金融相关虚拟资产项目被曝提现受限,多地已发布风险提示
- 报告:韩国高净值人群资产组合增配黄金与加密资产,减配房地产
- Kalshi 上至 2025 年底最好的 AI 是什么市场中,Gemini 获胜概率升至 86%
- 美联储 1 月继续降息 25 个基点概率为 24.4%,至 3 月累计降息 50 个基点的概率为 8.1%
- 正义网:建立刑事涉案虚拟货币多重司法处置路径,探索变现、销毁、返还三种处置措施
- 特朗普承认中期选举未必能取得胜利,因其部分经济政策尚未完全生效
- 分析:由于投资者去风险,交易所杠杆率降至 5 个月以来最低水平
- 数据:长期持有者共拥有 1,435 万枚 BTC,占据总供应量的约 68.3%
- 数据:本周 NFT 交易额下跌 10%,买家数量跌近 67%
- 24 小时现货资金流入/流出榜:BTC 净流出 1.51 亿美元,ETH 净流出 4200 万美元
- 分析师:BTC OG 抛售备兑看涨期权,压低比特币现货价格
- 巴西最大资管公司建议投资者将 3%资金投入比特币
- Berachain 生态流动性质押协议 Infrared 宣布 IR 代币空投详情
- Moonbirds 代币 BIRB 发行日期定于 2026 年第一季度
- glassnode 联创分析日本加息影响:比特币将在政策压力之后蓬勃发展
- Binance Alpha 部分代币大幅上涨,FOLKS、COA、VITA、Shoggoth 等涨幅居前
- 数据:黄立成增持 25 倍 ETH 多单至 1220 万美元,开仓价 3190.92 美元
- 以太坊 Prysm 客户端发生主网事故:资源耗尽致区块与见证大规模缺失
- 本周加密初创融资约 1.76 亿美元,VC 更偏好“可持续商业模式”
- 数据:BB 24 小时跌超 15%,CFX 涨超 8%
- Project Hunt:Layer 1 区块链 Stable 为过去 7 天被 Top 人物取关最多的项目
- NYDIG:股票代币化初期对加密网络利好有限,若实现去中心化整合将逐步放大
比推专栏
更多 >>观点
比推热门文章
- 分析师:比特币关键支撑位在 8.6 万美元,若失守或引发更深回调
- Michael Saylor 再次发布比特币 Tracker 信息,或暗示再次增持 BTC
- 某鲸鱼从币安提取 1409.8 万枚 WLFI,价值超 200 万美元
- 数据:117.49 枚 BTC 从匿名地址转出,经中转后流入 Luno
- Cathie Wood:加密市场或已见底,比特币仍是机构首选
- “铁杆空头”巨鲸 20 倍杠杆 BTC 空单现浮盈已超 1800 万美元
- Bitwise 顾问:当前市场结构不利于比特币上涨,比特币 OG 鲸鱼仍在持续抛售
- CBB:山寨季临近,治理代币才是未来
- 某鲸鱼 4 天前开设 ETH 多单,累计亏损已超 330 万美元
- 麻吉减仓 25 倍 ETH 多单,目前清算价为 3042.74 美元
比推 APP



