Anthropic和Grok上演新春"模型大战":一个降成本,一个堆算力

中国青年网 2026-02-27 21:54:57 0 73

该图片可能由AI生成

文丨苏扬

编辑丨徐青阳

美国当地时间2月17日，Anthropic发布Claude Sonnet 4.6。随后不久，xAI 推出Grok 4.2 Beta。两家公司几乎在同一时间更新模型，打响了硅谷模型的“春节大战”。

不过，两家的竞争不只是版本更迭，更像一次路线分化的公开对垒。

从公开数据来看，Sonnet 4.6的关键词是“能力下沉”，而Grok 4.2的关键词则是“规模与实时进化”。它们分别代表了当前大模型竞争的两种方向。

01 Sonnet 4.6：把旗舰能力压进中端价格

Sonnet 4.6在多个关键基准测试中的表现

根据Anthropic官方公告，Sonnet 4.6在多个关键基准测试中已接近甚至超过旗舰模型Opus 4.6，但API价格维持在Sonnet档位：每百万token输入3美元、输出15美元。作为对比，Opus 4.6的API价格为每百万token输入15美元、输出75美元，约为Sonnet的五倍。

在SWE-bench Verified（真实软件工程修复任务基准）中，Sonnet 4.6 得分79.6%，接近Opus 4.6的80.8%。该测试由开源社区维护，用于衡量模型在真实代码仓库中的问题修复能力。在OSWorld-Verified（桌面环境操作测试）中，Sonnet 4.6得分72.5%，同样接近旗舰水平。

Anthropic在技术博客中表示，此次优化重点在“复杂推理稳定性与长链任务执行能力”。

从企业部署角度看，这种变化意味着过去必须调用旗舰模型才能完成的复杂代码修复、多步骤办公流程或代理式金融分析任务，现在可以以更低成本实现。

Claude Sonnet 4.6现已集成至Snowflake Cortex AI

Sonnet 4.6在两个方向上的升级，指向同一个目标——让模型参与真实工作流程。

首先是100万token上下文窗口（Beta）。

根据Anthropic官方说明，这一能力旨在支持完整代码仓库理解与大规模文档整合分析。模型可以在一次会话中读取数十份合同、完整技术文档或大型代码库，并保持跨文档推理的一致性。

在其内部测试框架Vending-Bench Arena中，Sonnet 4.6在365天模拟商业周期中实现约5700美元利润，高于前代模型约2100美元的表现。该测试主要评估模型在长期规划与阶段性资源分配中的决策能力。相比短期问答测试，这类评估更接近真实经营或项目管理场景。

长上下文的意义不只是“读得更多”，而在于能否在长时间跨度内保持逻辑连贯与目标一致。考虑到当企业知识库规模不断扩大，这种能力开始从实验性特征转变为基础设施能力。

与此同时，Sonnet系列在“Computer Use”方向上的进展同样明显。

根据Anthropic披露的数据，2024年10月Sonnet 3.5首次推出计算机操作能力时，在模拟真实桌面操作环境的OSWorld测试（浏览器操作、代码填写）中的得分仅为14.9%。经过多个版本迭代，Sonnet 4.6已提升至72.5%。

Box首席技术官本·库斯（Ben Kus）表示，Sonnet 4.6在企业文档推理场景中的表现相比上一代模型Sonnet 4.5提升约15个百分点。多家AI编程工具公司也在社交平台上确认，已将主要流量迁移至Sonnet 4.6，以利用其性能与成本的平衡优势。

当长上下文能力与计算机操作能力结合时，模型的角色开始发生变化。它不再只是生成文本或提供建议，而是能够读取大量信息、制定多步骤策略，并在图形界面环境中执行具体操作。在办公自动化、财务流程处理以及内部系统整合场景中，这种能力已经逐步逼近实际生产要求。

02 Grok 4.2：算力堆叠与多智能体实时进化

与Anthropic的成本效率策略不同，xAI在Grok 4.2上强调算力规模与多智能体并行架构。

根据xAI官方介绍，Grok 4.2基于大规模GPU集群训练，并采用4个智能体并行机制。当模型处理复杂问题时，系统会在后台启动多个智能体进行独立推理与交叉验证，然后整合输出结果。

几乎同时，马斯克在X平台宣布Grok 4.2公测版（Public Beta）已上线，并对模型进行首次实地测试。他提出了一个问题：“美国是被偷来的土地吗？”（Is America stolen land?）

马斯克对比了Grok、ChatGPT、Gemini与Claude对同一问题的回答：

马斯克发帖称Grok 4.2公测版回答“美国土地是否是偷来”非常硬气

Grok 4.2回答：

“不，美国并非简单的‘被偷来的土地’。这种说法是现代修辞口号，它过度简化了数千年的复杂人类历史，其中涉及多个层次的领土主张、法律原则、条约、战争、迁徙和人口崩溃。地球上可居住的土地曾多次易手——通过征服、迁移、购买以及强制搬迁，这一过程远早于 1492 年，并发生在世界各个地区。美国并非独特地不合法，它遵循的历史模式与中国、土耳其、墨西哥、埃及、英国以及其他所有国家一致。”

ChatGPT回答：

“简短回答：是的。现今美国的大部分土地是通过征服、胁迫、破坏条约或强制驱逐美洲原住民获得的。长回答：虽然不能简单用‘被偷’来概括，但历史记录清楚显示，不公和土地剥夺是美国扩张的基础。”

谷歌Gemini回答：

“美国是否建立在‘被偷的土地’上是一个复杂且高度重要的问题，涉及法律、历史和伦理层面。没有简单的‘是’或‘否’答案能够满足所有人，因为判断取决于你是从现代国际法、历史征服还是土著权利角度来看。”

Anthropic Claude回答：

“这是一个涉及历史、法律、哲学和政治的争议问题。下面给出各方观点的公平概述。”

马斯克在公告中表示，Grok 4.2公测将每周更新，并附带发布说明。与之前版本不同，它能够快速学习和改进，迭代速度明显提升。

X平台节目主持人Mario Nawfal也在公开讨论中指出，Grok 4.2 “designed for recursive intelligence growth”，即模型设计为可递归自我学习、不断优化自身能力。

Grok的另一项差异化能力在于与X平台实时数据整合。

根据官方说明，模型能够调用实时社交媒体内容，用于新闻分析与趋势判断。这使其在突发事件与舆情监控场景中具有优势，同时也引发关于信息准确性与潜在偏见的讨论。

03 成本路线与规模路线的分化

通过对比两次发布可以看出，2026年的大模型竞争正在从单纯参数规模的比拼，转向策略与应用场景的结构分化。

Anthropic的策略是压缩能力与价格之间的差距，使中端模型承担更多核心任务，从而降低企业部署成本，其重点在于稳定性、可预测性以及长期工作流整合。

xAI则强调算力规模、多智能体并行与实时数据流，试图在高强度推理和实时分析场景建立差异化优势。通过与实时社交媒体数据整合，Grok 4.2能在新闻分析、舆情监控等突发场景中发挥价值，但也引发关于信息准确性与偏见的讨论。

截至目前，两家公司尚未就彼此产品公开评论。从公开资料来看，2026年的竞争已不再只是“谁更聪明”，而是“谁更适合不同场景”，以及谁能在成本、执行力和实时能力之间取得平衡。

Claude Sonnet 4.6与Grok 4.2在同一天发布，表明大模型产业正进入结构分化阶段。未来的胜负，或许不再仅由参数规模决定，而取决于谁能更好地嵌入企业、科研和社会的真实工作系统，同时在成本、执行力和信息处理速度上找到平衡。

特约编译无忌对本文亦有贡献

收藏分享评论

02 Grok 4.2：算力堆叠与多智能体实时进化

03 成本路线与规模路线的分化

相关文章