来源:DeepTech深科技
Claude 4.5 来了。
当地时间 2025 年 9 月 29 日,Anthropic 突然发布了 Claude Sonnet 4.5,并且毫不谦虚地宣称这是”世界上最好的编码模型”,强调其在构建复杂 AI Agent。
Anthropic 声称,Claude Sonnet 4.5 的核心突破在于,它能够创建“生产就绪级别”(production-ready)的应用程序,而不再仅仅是停留在原型开发阶段的模型,这标志着 AI 在软件开发全流程中的可靠性实现了质的飞跃。Anthropic 联合创始人兼首席科学官 Jared Kaplan 在采访中表示,用户在使用后会明显感觉到新模型更加智能,互动体验更像是在与一位能干的同事协作,共同解决问题。首席产品官 Mike Krieger 补充说,尽管 Sonnet 4.5 的模型规模小于此前的旗舰模型 Opus 4.1,但在几乎所有性能维度上都更为出色,能够为“真实的、实际的工作”提供有效支持。
从纸面数据来看,Claude Sonnet 4.5 的表现确实亮眼。 在 SWE-bench Verified 这个衡量真实软件工程能力的基准测试中,新模型拿到了 77.2% 的分数。如果采用并行测试时计算(parallel test-time compute)——也就是同时运行多个尝试,然后筛选出最佳结果——这个数字还能攀升至 82%。 要知道,仅仅四个月前,Claude Sonnet 4 在同一测试中的得分还是 72.7。相比之下,OpenAI 的 GPT-5 Codex 在这项测试中得分 74.5%,Google 的 Gemini 2.5 Pro 则是 67.2%。

在另一项 OSWorld 基准测试中,Sonnet 4.5 同样表现出色。该测试旨在评估 AI 模型在真实计算机桌面环境中的操作能力,如导航网站、填写电子表格、管理文件等。 Sonnet 4.5 在此项测试中获得了 61.4% 的得分,较四个月前 Sonnet 4 创下的 42.2% 的领先成绩,实现了大幅度的提升。此外,在衡量命令行界面操作能力的 Terminal-Bench 测试中,Sonnet 4.5 也以 50% 的得分领先于 GPT-5 的 43.8%。
相比于基准测试分数,Sonnet 4.5 还有一个更值得关注的特性是其在执行长时间、多步骤任务时表现出的稳定性。 据 Anthropic 透露,在内部和部分早期客户的测试中,观察到 Sonnet 4.5 能够连续工作超过 30 小时来完成一个复杂的项目。 据悉,在早期客户试用中,Sonnet 4.5 成功构建了一款类似 Slack 或 Teams 的聊天应用,不仅编写了约 1.1 万行代码,还独立完成了数据库服务搭建、域名购买乃至安全审计等一系列复杂操作。
知名科技博主 Simon Willison 在获得早期试用后进行了一系列测试,他让模型克隆自己的大模型项目代码库,安装依赖,运行测试,然后在此基础上实验性地添加了一个新特性:将对话历史从线性结构改造为树状结构。整个过程涉及数据库迁移、编写工具函数、创建测试套件,最终 Sonnet 4.5 通过了所有的 22 个测试。Willison 认为这款新模型在编码能力上已超越了他此前偏爱的 GPT-5-Codex,并强调,Sonnet 4.5 这种在沙盒环境中直接与真实开发工具交互的执行力,正是其最核心的优势所在。
为了更好地发挥模型的能力,Anthropic 此次随模型一同推出了一系列重要的开发者工具更新。其中,最核心的是 Claude Agent SDK(软件开发工具包)的正式发布。据介绍,这个 SDK 打包了 Anthropic 内部用于构建其产品(如 Claude Code)的底层框架,解决了 AI 智能体在开发过程中常见的几个难题,例如长期记忆管理、用户授权与 AI 自主性的平衡,以及多个子智能体之间的协调等。将这套基础设施开放给所有开发者,有助于降低构建复杂 AI 应用的门槛。

同时,面向开发者的命令行工具 Claude Code 也升级至 2.0 版本,并加入了一个备受期待的新功能:“检查点”(Checkpoints)。该功能允许用户在 AI 执行任务的过程中随时保存状态,在出现问题时可以方便地回滚到上一个正常的节点,这对于执行大规模代码库重构或复杂的自动化流程来说非常实用。此外,新的终端界面和原生的 VS Code 代码编辑器插件,也旨在改善开发者的日常使用体验。
在性能大幅提升的同时,Anthropic 也一如既往地强调了其在 AI 安全和对齐(alignment)方面的努力。官方声称,Sonnet 4.5 是其迄今为止“最对齐的前沿模型”,在减少如谄媚(sycophancy)、欺骗、权力寻求等不良行为方面取得了显著进步。同时,模型在抵御提示注入(prompt injection)等恶意攻击方面的能力也得到了增强。

虽然,就在模型发布后不久,著名的 AI 提示工程师 Pliny the Liberator 就声称在几分钟内就破解了其安全护栏,成功生成了敏感内容。

毕竟,无论安全机制多么先进,只要模型本质上是一个统计预测系统,就总会存在被操纵的可能性。Anthropic 当然知道这一点,他们在 system card 中详细描述了各种安全措施,包括用于检测危险输入和输出的分类器,特别是与化学、生物、放射和核武器相关的内容。但这些分类器有时也会误判正常内容,导致误报率居高不下。Anthropic 表示他们已经将误报率降低了十倍,但这仍然意味着用户偶尔会遇到对话被意外中断的情况。
在定价策略上,Sonnet 4.5 延续了前代 Sonnet 的定价,即每百万输入 Token 3 美元,每百万输出 Token 15 美元。这个价格远低于性能更强的“旗舰”模型 Claude Opus(15/75 美元),不过又比 OpenAI 的 GPT-5 系列(1.25/10 美元)要高。
从最初的“模型即服务”(Model-as-a-Service),到如今推出 Agent SDK 和一系列开发工具的“平台即服务”(Platform-as-a-Service),Anthropic 的战略意图已然非常明确。他们不再满足于只提供最强大的引擎,更要附上最顺手的方向盘和最完备的底盘,以此构建一个围绕 Claude、覆盖从个人用户到企业开发者的完整生态系统。
Gemini 3 可能也将在不久后发布,“世界最佳编码模型”或许又将易主,但在当前阶段,单纯的模型性能跑分固然重要,但如何将这些能力转化为稳定、易用、可信赖的生产力工具,并借此留住开发者,才是决定未来格局的关键。而在这一方面,Anthropic 的确做得相当完善。
参考资料:
1.https://www.anthropic.com/news/claude-sonnet-4-5
2.https://simonwillison.net/2025/Sep/29/claude-sonnet-4-5/
3.https://x.com/elder_plinius/status/1972749864141561917
运营/排版:何晨龙
01 / 瑞士初创突破芯片冷却瓶颈,微流体技术实现GPU温度降低65%,英特尔CEO陈立武已加入董事会
02 / “ AI科学家”登顶Nature:MIT团队开发多模态AI平台,全程无人干预90天即发现高效电催化剂
03 / 联发科,用天玑9500定义了个人算力的未来方向
04 / 华理团队联合打造晶圆级光刻胶沉积技术,精准控制薄膜厚度至纳米级,成功通过下一代光刻验证
05 / Hinton与LeCun“同台支持”:英国AI初创打造材料界搜索引擎,称能将材料发现提速十倍
]article_adlist–>
<!-- 非定向300*250按钮 17/09 wenjing begin -->
<!-- 非定向300*250按钮 end -->
</div>