Claude 4 介绍

今天,Anthropic 推出下一代 Claude 模型:Claude Opus 4 和 Claude Sonnet 4,它们在编码、高级推理和 AI 智能体方面树立了新标杆。

Claude Opus 4 是全球顶级的编码模型,在复杂、长时间运行的任务和智能体工作流方面表现持续优异。Claude Sonnet 4 是对 Claude Sonnet 3.7 的重大升级,在提供卓越编码和推理能力的同时,能够更精确地响应您的指令。

除了模型本身,Anthropic还宣布:

  • 通过工具使用扩展思考能力 (测试版): 两款模型都可以在扩展思考过程中使用工具(如网络搜索),使 Claude 能够在推理和工具使用之间切换,从而改进响应。
  • 全新模型功能: 两款模型都可以并行使用工具,更精确地遵循指令,并且——当开发者授予本地文件访问权限时——展现出显著增强的记忆能力,能够提取和保存关键事实,以保持连贯性并逐步积累隐性知识。
  • Claude Code 现已正式发布: 在研究预览版收到广泛好评后,正在扩展开发者与 Claude 协作的方式。Claude Code 现在支持通过 GitHub Actions 执行后台任务,并与 VS Code 和 JetBrains 进行原生集成,直接在文件中显示编辑内容,实现无缝的结对编程。
  • 全新 API 功能: Anthropic API 上发布了四项新功能,使开发者能够构建更强大的 AI 智能体:代码执行工具、MCP 连接器、文件 API 以及长达一小时的提示缓存功能。

Claude Opus 4 和 Sonnet 4 是混合模型,提供两种模式:近乎即时的响应和用于更深度推理的扩展思考。Pro、Max、Team 和 Enterprise Claude 套餐均包含这两款模型和扩展思考功能,Sonnet 4 也可供免费用户使用。这两款模型均可通过 Anthropic API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 获取。定价与之前的 Opus 和 Sonnet 模型保持一致:Opus 4 为每百万令牌 15 美元(输入)/75 美元(输出),Sonnet 4 为每百万令牌 3 美元(输入)/15 美元(输出)。

Claude 4

Claude Opus 4 是迄今为止Anthropic最强大的模型,也是全球顶级的编码模型,在 SWE-bench (72.5%) 和 Terminal-bench (43.2%) 上处于领先地位。它在需要专注努力和数千个步骤的长时间运行任务中表现持续优异,能够连续工作数小时——显著优于所有 Sonnet 模型,并极大地扩展了 AI 智能体的能力范围。

Claude Opus 4 在编码和复杂问题解决方面表现出色,为前沿智能体产品提供动力。Cursor 称其为最先进的编码模型,是复杂代码库理解方面的一大飞跃。Replit 报告称其精度有所提高,并且在跨多个文件的复杂更改方面取得了巨大进展。Block 称其为首个在其智能体(代号 goose)中提升编辑和调试过程中代码质量的模型,同时保持了完整的性能和可靠性。Rakuten 通过一项要求严苛的开源重构验证了其能力,该重构独立运行了 7 小时并保持了持续的性能。Cognition 指出,Opus 4 在解决其他模型无法应对的复杂挑战方面表现出色,成功处理了以前模型会遗漏的关键操作。

Claude Sonnet 4 在 Sonnet 3.7 行业领先能力的基础上实现了显著提升,在编码方面表现出色,在 SWE-bench 上达到了业界领先的 72.7%。该模型在内部和外部用例中平衡了性能和效率,并增强了可控性,以便更好地控制实现。虽然在大多数领域不及 Opus 4,但它提供了能力和实用性的最佳组合。

GitHub 表示,Claude Sonnet 4 在智能体场景中表现出色,并将引入它作为 GitHub Copilot 中新编码智能体的驱动模型。Manus 强调了其在遵循复杂指令、清晰推理和美观输出方面的改进。iGent 报告称,Sonnet 4 在自主多功能应用程序开发以及大幅改进的问题解决和代码库导航方面表现出色——将导航错误从 20% 降低到接近于零。Sourcegraph 表示,该模型有望成为软件开发领域的重大飞跃——能够更长时间地保持正轨,更深入地理解问题,并提供更优雅的代码质量。Augment Code 报告称,该模型在复杂任务中具有更高的成功率、更精准的代码编辑以及更细致的工作,使其成为其主要模型的首选。

这些模型全面推进了我们客户的 AI 战略:Opus 4 在编码、研究、写作和科学发现方面不断突破界限,而 Sonnet 4 则将前沿性能带入日常用例,作为 Sonnet 3.7 的即时升级。

模型改进

除了通过工具使用扩展思考能力、并行工具执行和记忆力改进之外,还显著减少了模型使用捷径或漏洞来完成任务的行为。在特别容易受到捷径和漏洞影响的智能体任务中,这两款模型发生此类行为的可能性比 Sonnet 3.7 低 65%。

Claude Opus 4 在记忆能力方面也显著优于所有以前的模型。当开发者构建允许 Claude 访问本地文件的应用程序时,Opus 4 能够熟练地创建和维护“记忆文件”以存储关键信息。这解锁了更好的长期任务感知、连贯性和智能体任务性能——例如 Opus 4 在玩《精灵宝可梦》时创建了一个“导航指南”。

最后, Claude 4 模型引入了思考摘要功能,该功能使用一个较小的模型来浓缩冗长的思考过程。这种摘要仅在约 5% 的情况下需要——大多数思考过程足够简短,可以完整显示。需要原始思维链进行高级提示工程的用户可以联系销售部门,了解新的开发者模式以保留完整访问权限。

Claude Code

Claude Code 现已正式发布,将 Claude 的强大功能带入更多的开发工作流程中——在终端、 IDE 中,以及通过 Claude Code SDK 在后台运行。

适用于 VS Code 和 JetBrains 的全新测试版扩展程序将 Claude Code 直接集成到 IDE 中。Claude 提出的编辑会内联显示在您的文件中,从而在熟悉的编辑器界面中简化审查和跟踪。只需在您的 IDE 终端中运行 Claude Code 即可安装。

除了 IDE 之外,Anthropic 还发布了一个可扩展的 Claude Code SDK,因此可以使用与 Claude Code 相同的核心智能体来构建自己的智能体和应用程序。还发布了一个 SDK 应用示例:Claude Code on GitHub,现已进入测试阶段。在拉取请求 (PR) 上标记 Claude Code 以响应审阅者反馈、修复 CI 错误或修改代码。要安装,请在 Claude Code 中运行 /install-github-app

开始使用

这些模型是向虚拟协作者迈出的一大步——能够保持完整的上下文,在更长的项目上保持专注,并推动转型影响。它们经过了广泛的测试和评估,以最大限度地降低风险并最大限度地提高安全性,包括实施了针对更高 AI 安全级别(如 ASL-3)的措施。