当前位置:首页 > 聚焦财报 > 正文内容

OpenAI与Anthropic对战,Claude Opus 4.6与GPT-5.3-Codex同日发布

聚亿千财2026-02-08聚焦财报3712
电子发烧友网报道 北京时间2月6日凌晨,Anthro pic与Open AI分别推出了新版本基础大模型——Claude Opus 4.6和GPT-5.3-Codex。

 

Claude Opus 4.6:重大升级,表现卓越

Claude Opus 4.6是Anthropic对其旗舰 人工智能模型的一次关键升级。此版本规划更谨慎,能维持更长时间自主工作流程,在企业关键基准测试中超越了包括GPT-5.2在内的众多竞争对手。

新模型首次拥有100万token的上下文窗口,极大提升了AI处理和推理信息的能力。同时,Anthropic在Claude Code中引入类似Kimi K2.5的“智能体团队”研究预览功能,允许多个AI智能体同时处理编码项目不同方面并自主协调。

Opus 4.6可将增强功能应用于多种日常工作任务,如运行财务分析、进行研究以及使用和创建文档、电子表格和演示文稿。在Cowork环境中,它能自主执行多任务,代表人类运用各项技能。

在多项评估中,Opus 4.6成绩斐然。在智能体编码评估工具 Terminal-Bench 2.0中取得最高分,在复杂多学科推理测试“人类最后的考试”中领先其他前沿模型。在GDPval-AA测试中,其表现比GPT-5.2高出约144个Elo分数,比前代Claude Opus 4.5高出190分。此外,在衡量模型在线查找难寻信息能力的BrowseComp测试中,它也优于其他模型。

Opus 4.6现已在claude.ai、API及所有主流云平台上线,定价不变,每百万token为5美元/25美元。针对大模型常见的“上下文腐烂”问题,Opus 4.6性能显著优于前代。在MRCR v2的8针1M变体测试中,Opus 4.6得分76%,而Sonnet 4.5仅18.5%,这表明其在保持性能的同时,可利用的上下文信息量大幅提升。

为证明其强大智能体能力,Anthropic研究员用16个智能体从零构建基于Rust的 C语言编译器。最终AI输出10万行代码,可编译 Linux内核,耗资2万美元,历经2000多次Claude Code会话、两周时间完成。该编译器能在x86、 ARMRISC-V上构建可启动的Linux 6.9,通过GCC 99%的压力测试,可编译FFmpeg、Redis等软件,还能编译并运行Doom游戏。代码可在相关GitHub链接查看。虽无人类编写代码,但研究人员在测试设计、构建CI管道等方面发挥了重要作用,这似乎预示着未来AI工作流程中人类角色的转变。

GPT-5.3-Codex:编程强模,潜力无限

OpenAI推出的GPT-5.3-Codex号称世界上最强大的智能体编程模型。

在编程基准测试中,GPT-5.3-Codex在SWE-Bench Pro和Terminal-Bench 2.0中取得SOTA成绩,在OSWorld和GDPval等智能体能力和真实世界任务测评中,较GPT-5.2-Codex有所提升。不过,OpenAI参加的基准测试数量较少,且与Claude Opus 4.6重叠不多,得分仅供参考。在Terminal-Bench 2.0上,GPT-5.3-Codex得分比Claude Opus 4.6高11.9%。

为展示编程能力,OpenAI展示了一款由GPT-5.3-Codex打造的赛车游戏,游戏有多辆赛车比拼、8张地图,还能用空格键使用道具,虽画风简陋但完成度高,体验链接已给出。

此外,GPT-5.3-Codex是OpenAI首个在自我创建中发挥关键作用的模型,其早期版本助力团队加速模型开发。它结合了GPT-5.2-Codex的编程能力和GPT-5.2的推理能力与专业知识储备,速度提升25%。这意味着它不仅可用于编程,还能胜任软件工程中的调试、部署等工作,甚至可用于制作PPT、Excel、Word等,从OpenAI分享案例看效果良好。