该图片可能由AI生成
文丨苏扬
编辑丨徐青阳
美国当地时间2月17日,Anthropic发布Claude Sonnet 4.6
。随后不久,xAI 推出
Grok
4.2 Beta。两家公司几乎在同一时间更新模型,打响了硅谷模型的“春节大战”。
不过,两家的竞争不只是版本更迭,更像一次路线分化的公开对垒。
从公开数据来看,Sonnet 4.6的关键词是“能力下沉
”,而Grok 4.2的关键词则是“
规模与实时进化
”。它们分别代表了当前大模型竞争的两种方向。
01 Sonnet 4.6:把旗舰能力压进中端价格
根据Anthropic官方公告,Sonnet 4.6在多个关键基准测试中已接近甚至超过旗舰模型Opus 4.6,但API价格维持在Sonnet档位:每百万token输入3美元、输出15美元。作为对比,Opus 4.6的API价格为每百万token输入15美元、输出75美元,约为Sonnet的五倍。
在SWE-bench Verified
(真实软件工程修复任务基准)中,Sonnet 4.6 得分79.6%,接近Opus 4.6的80.8%。该测试由开源社区维护,用于衡量模型在真实代码仓库中的问题修复能力。在
OSWorld-Verified
(桌面环境操作测试)中,Sonnet 4.6得分72.5%,同样接近旗舰水平。
Anthropic在技术博客中表示,此次优化重点在“复杂推理稳定性与长链任务执行能力”。
从企业部署角度看,这种变化意味着过去必须调用旗舰模型才能完成的复杂代码修复、多步骤办公流程或代理式金融分析任务,现在可以以更低成本实现。
Claude Sonnet 4.6现已集成至Snowflake Cortex AI
Sonnet 4.6在两个方向上的升级,指向同一个目标——让模型参与真实工作流程。
首先是100万token上下文窗口(Beta)。
根据Anthropic官方说明,这一能力旨在支持完整代码仓库理解与大规模文档整合分析。模型可以在一次会话中读取数十份合同、完整技术文档或大型代码库,并保持跨文档推理的一致性。
在其内部测试框架Vending-Bench Arena中,Sonnet 4.6在365天模拟商业周期中实现约5700美元利润,高于前代模型约2100美元的表现。该测试主要评估模型在长期规划与阶段性资源分配中的决策能力。相比短期问答测试,这类评估更接近真实经营或项目管理场景。
长上下文的意义不只是“读得更多”,而在于能否在长时间跨度内保持逻辑连贯与目标一致。考虑到当企业知识库规模不断扩大,这种能力开始从实验性特征转变为基础设施能力。
与此同时,Sonnet系列在“Computer Use”方向上的进展同样明显。
根据Anthropic披露的数据,2024年10月Sonnet 3.5首次推出计算机操作能力时,在模拟真实桌面操作环境的OSWorld测试(浏览器操作、代码填写)中的得分仅为14.9%。经过多个版本迭代,Sonnet 4.6已提升至72.5%。
Box首席技术官本·库斯(Ben Kus)表示,Sonnet 4.6在企业文档推理场景中的表现相比上一代模型Sonnet 4.5提升约15个百分点。多家AI编程工具公司也在社交平台上确认,已将主要流量迁移至Sonnet 4.6,以利用其性能与成本的平衡优势。
当长上下文能力与计算机操作能力结合时,模型的角色开始发生变化。它不再只是生成文本或提供建议,而是能够读取大量信息、制定多步骤策略,并在图形界面环境中执行具体操作。在办公自动化、财务流程处理以及内部系统整合场景中,这种能力已经逐步逼近实际生产要求。
02 Grok 4.2:算力堆叠与多智能体实时进化
与Anthropic的成本效率策略不同,xAI在Grok 4.2上强调算力规模与多智能体并行
架构。
根据xAI官方介绍,Grok 4.2基于大规模GPU集群训练,并采用4个智能体并行机制。当模型处理复杂问题时,系统会在后台启动多个智能体进行独立推理与交叉验证,然后整合输出结果。
几乎同时,马斯克在X平台宣布Grok 4.2公测版(Public Beta)已上线,并对模型进行首次实地测试。他提出了一个问题:“美国是被偷来的土地吗?”(Is America stolen land?)
马斯克对比了Grok、ChatGPT、Gemini与Claude对同一问题的回答:
Grok 4.2回答:
“不,美国并非简单的‘被偷来的土地’。这种说法是现代修辞口号,它过度简化了数千年的复杂人类历史,其中涉及多个层次的领土主张、法律原则、条约、战争、迁徙和人口崩溃。地球上可居住的土地曾多次易手——通过征服、迁移、购买以及强制搬迁,这一过程远早于 1492 年,并发生在世界各个地区。美国并非独特地不合法,它遵循的历史模式与中国、土耳其、墨西哥、埃及、英国以及其他所有国家一致。”
ChatGPT回答:
“简短回答:是的。现今美国的大部分土地是通过征服、胁迫、破坏条约或强制驱逐美洲原住民获得的。长回答:虽然不能简单用‘被偷’来概括,但历史记录清楚显示,不公和土地剥夺是美国扩张的基础。”
谷歌Gemini回答:
“美国是否建立在‘被偷的土地’上是一个复杂且高度重要的问题,涉及法律、历史和伦理层面。没有简单的‘是’或‘否’答案能够满足所有人,因为判断取决于你是从现代国际法、历史征服还是土著权利角度来看。”
Anthropic Claude回答:
“这是一个涉及历史、法律、哲学和政治的争议问题。下面给出各方观点的公平概述。”
马斯克在公告中表示,Grok 4.2公测将每周更新,并附带发布说明。与之前版本不同,它能够快速学习和改进,迭代速度明显提升。
X平台节目主持人Mario Nawfal也在公开讨论中指出,Grok 4.2 “designed for recursive intelligence growth”,即模型设计为可递归自我学习
、不断优化自身能力。
Grok的另一项差异化能力在于与X平台实时数据整合。
根据官方说明,模型能够调用实时社交媒体内容,用于新闻分析与趋势判断。这使其在突发事件与舆情监控场景中具有优势,同时也引发关于信息准确性与潜在偏见的讨论。
03 成本路线与规模路线的分化
通过对比两次发布可以看出,2026年的大模型竞争正在从单纯参数规模的比拼,转向策略与应用场景的结构分化。
Anthropic的策略是压缩能力与价格之间的差距,使中端模型承担更多核心任务,从而降低企业部署成本,其重点在于稳定性、可预测性以及长期工作流整合。
xAI则强调算力规模、多智能体并行与实时数据流,试图在高强度推理和实时分析场景建立差异化优势。通过与实时社交媒体数据整合,Grok 4.2能在新闻分析、舆情监控等突发场景中发挥价值,但也引发关于信息准确性与偏见的讨论。
截至目前,两家公司尚未就彼此产品公开评论。从公开资料来看,2026年的竞争已不再只是“谁更聪明”,而是“谁更适合不同场景”,以及谁能在成本、执行力和实时能力之间取得平衡。
Claude Sonnet 4.6与Grok 4.2在同一天发布,表明大模型产业正进入结构分化阶段。未来的胜负,或许不再仅由参数规模决定,而取决于谁能更好地嵌入企业、科研和社会的真实工作系统,同时在成本、执行力和信息处理速度上找到平衡。
特约编译无忌对本文亦有贡献