Anthropic发布Claude 4.5 Sonnet，可连续编程超30小时，主攻复杂AI智能体构建

来源：DeepTech深科技

Claude 4.5 来了。

当地时间 2025 年 9 月 29 日，Anthropic 突然发布了 Claude Sonnet 4.5，并且毫不谦虚地宣称这是”世界上最好的编码模型”，强调其在构建复杂 AI Agent。

Anthropic 声称，Claude Sonnet 4.5 的核心突破在于，它能够创建“生产就绪级别”（production-ready）的应用程序，而不再仅仅是停留在原型开发阶段的模型，这标志着 AI 在软件开发全流程中的可靠性实现了质的飞跃。Anthropic 联合创始人兼首席科学官 Jared Kaplan 在采访中表示，用户在使用后会明显感觉到新模型更加智能，互动体验更像是在与一位能干的同事协作，共同解决问题。首席产品官 Mike Krieger 补充说，尽管 Sonnet 4.5 的模型规模小于此前的旗舰模型 Opus 4.1，但在几乎所有性能维度上都更为出色，能够为“真实的、实际的工作”提供有效支持。

从纸面数据来看，Claude Sonnet 4.5 的表现确实亮眼。在 SWE-bench Verified 这个衡量真实软件工程能力的基准测试中，新模型拿到了 77.2% 的分数。如果采用并行测试时计算（parallel test-time compute）——也就是同时运行多个尝试，然后筛选出最佳结果——这个数字还能攀升至 82%。要知道，仅仅四个月前，Claude Sonnet 4 在同一测试中的得分还是 72.7。相比之下，OpenAI 的 GPT-5 Codex 在这项测试中得分 74.5%，Google 的 Gemini 2.5 Pro 则是 67.2%。

图丨基准测试结果（来源：Anthropic）

在另一项 OSWorld 基准测试中，Sonnet 4.5 同样表现出色。该测试旨在评估 AI 模型在真实计算机桌面环境中的操作能力，如导航网站、填写电子表格、管理文件等。 Sonnet 4.5 在此项测试中获得了 61.4% 的得分，较四个月前 Sonnet 4 创下的 42.2% 的领先成绩，实现了大幅度的提升。此外，在衡量命令行界面操作能力的 Terminal-Bench 测试中，Sonnet 4.5 也以 50% 的得分领先于 GPT-5 的 43.8%。

相比于基准测试分数，Sonnet 4.5 还有一个更值得关注的特性是其在执行长时间、多步骤任务时表现出的稳定性。据 Anthropic 透露，在内部和部分早期客户的测试中，观察到 Sonnet 4.5 能够连续工作超过 30 小时来完成一个复杂的项目。据悉，在早期客户试用中，Sonnet 4.5 成功构建了一款类似 Slack 或 Teams 的聊天应用，不仅编写了约 1.1 万行代码，还独立完成了数据库服务搭建、域名购买乃至安全审计等一系列复杂操作。

知名科技博主 Simon Willison 在获得早期试用后进行了一系列测试，他让模型克隆自己的大模型项目代码库，安装依赖，运行测试，然后在此基础上实验性地添加了一个新特性：将对话历史从线性结构改造为树状结构。整个过程涉及数据库迁移、编写工具函数、创建测试套件，最终 Sonnet 4.5 通过了所有的 22 个测试。Willison 认为这款新模型在编码能力上已超越了他此前偏爱的 GPT-5-Codex，并强调，Sonnet 4.5 这种在沙盒环境中直接与真实开发工具交互的执行力，正是其最核心的优势所在。

为了更好地发挥模型的能力，Anthropic 此次随模型一同推出了一系列重要的开发者工具更新。其中，最核心的是 Claude Agent SDK（软件开发工具包）的正式发布。据介绍，这个 SDK 打包了 Anthropic 内部用于构建其产品（如 Claude Code）的底层框架，解决了 AI 智能体在开发过程中常见的几个难题，例如长期记忆管理、用户授权与 AI 自主性的平衡，以及多个子智能体之间的协调等。将这套基础设施开放给所有开发者，有助于降低构建复杂 AI 应用的门槛。

图丨Agent 通常在一个特定的反馈循环中运行（来源：Anthropic）

同时，面向开发者的命令行工具 Claude Code 也升级至 2.0 版本，并加入了一个备受期待的新功能：“检查点”（Checkpoints）。该功能允许用户在 AI 执行任务的过程中随时保存状态，在出现问题时可以方便地回滚到上一个正常的节点，这对于执行大规模代码库重构或复杂的自动化流程来说非常实用。此外，新的终端界面和原生的 VS Code 代码编辑器插件，也旨在改善开发者的日常使用体验。

在性能大幅提升的同时，Anthropic 也一如既往地强调了其在 AI 安全和对齐（alignment）方面的努力。官方声称，Sonnet 4.5 是其迄今为止“最对齐的前沿模型”，在减少如谄媚（sycophancy）、欺骗、权力寻求等不良行为方面取得了显著进步。同时，模型在抵御提示注入（prompt injection）等恶意攻击方面的能力也得到了增强。

图丨来自自动行为审计器的总体不对齐行为得分（来源：Anthropic）

虽然，就在模型发布后不久，著名的 AI 提示工程师 Pliny the Liberator 就声称在几分钟内就破解了其安全护栏，成功生成了敏感内容。

图丨相关推文（来源：X）

毕竟，无论安全机制多么先进，只要模型本质上是一个统计预测系统，就总会存在被操纵的可能性。Anthropic 当然知道这一点，他们在 system card 中详细描述了各种安全措施，包括用于检测危险输入和输出的分类器，特别是与化学、生物、放射和核武器相关的内容。但这些分类器有时也会误判正常内容，导致误报率居高不下。Anthropic 表示他们已经将误报率降低了十倍，但这仍然意味着用户偶尔会遇到对话被意外中断的情况。

在定价策略上，Sonnet 4.5 延续了前代 Sonnet 的定价，即每百万输入 Token 3 美元，每百万输出 Token 15 美元。这个价格远低于性能更强的“旗舰”模型 Claude Opus（15/75 美元），不过又比 OpenAI 的 GPT-5 系列（1.25/10 美元）要高。

从最初的“模型即服务”（Model-as-a-Service），到如今推出 Agent SDK 和一系列开发工具的“平台即服务”（Platform-as-a-Service），Anthropic 的战略意图已然非常明确。他们不再满足于只提供最强大的引擎，更要附上最顺手的方向盘和最完备的底盘，以此构建一个围绕 Claude、覆盖从个人用户到企业开发者的完整生态系统。

Gemini 3 可能也将在不久后发布，“世界最佳编码模型”或许又将易主，但在当前阶段，单纯的模型性能跑分固然重要，但如何将这些能力转化为稳定、易用、可信赖的生产力工具，并借此留住开发者，才是决定未来格局的关键。而在这一方面，Anthropic 的确做得相当完善。

参考资料：

1.https://www.anthropic.com/news/claude-sonnet-4-5

2.https://simonwillison.net/2025/Sep/29/claude-sonnet-4-5/

3.https://x.com/elder_plinius/status/1972749864141561917

运营/排版：何晨龙

01 / 瑞士初创突破芯片冷却瓶颈，微流体技术实现GPU温度降低65%，英特尔CEO陈立武已加入董事会

02 / “ AI科学家”登顶Nature：MIT团队开发多模态AI平台，全程无人干预90天即发现高效电催化剂

03 / 联发科，用天玑9500定义了个人算力的未来方向

04 / 华理团队联合打造晶圆级光刻胶沉积技术，精准控制薄膜厚度至纳米级，成功通过下一代光刻验证

05 / Hinton与LeCun“同台支持”：英国AI初创打造材料界搜索引擎，称能将材料发现提速十倍

]article_adlist–>

            <!-- 非定向300*250按钮    17/09  wenjing  begin -->

            <!-- 非定向300*250按钮  end -->
        </div>

Source link

Anthropic发布Claude 4.5 Sonnet，可连续编程超30小时，主攻复杂AI智能体构建

相关推荐

近期文章