AI编程新王Claude 4，深夜震撼登基！连续编码7小时，开发者惊掉下巴

转眼之间清军折损过半，这股明军战力之高远出乎他们意料，个个勇武且毫不畏惧，怪不得敢找上门来。

新智元报道

编辑：Aeneas 好困

【新智元导读】Anthropic，今晚扔出了真正的核武器——全球最强编程模型Claude 4！能连续编码7小时不断的Opus 4，再一次让大模型能力实现了重大飞跃。网友实测后惊呼：不可能，从未见过一个AI做到这样的事！

今晚的聚光灯，属于Anthropic。

就在刚刚，全网翘首盼望的Claude 4，重磅登场！

CEO Dario Amodei亲自上阵，携Claude Opus 4和 Claude Sonnet 4亮相，再次将编码、高级推理和AI智能体，推向全新的标准。

其中，Claude Opus 4是全球顶尖的编码模型，擅长复杂、长时间运行的任务，在AI智能体工作流方面性能极为出色。

而Claude Sonnet 4，则是对Sonnet 3.7 的重大升级，编码和推理能力都更出色，还能更精准地响应指令。

同时，Claude把这段时间积攒的一系列产品，通通一口气发布了——

Claude Opus 4和Sonnet 4混合模型的两种模式：几乎即时的响应和用于更深度推理的扩展思考。

扩展思考与工具使用（测试版）：两款模型均可在扩展思考过程中使用工具（例如网络搜索），使Claude能在推理与工具使用间灵活切换，从而优化响应质量。

新的模型能力：两款模型均可并行使用工具，更精确地遵循指令，并且（当开发者授予其访问本地文件的权限时）展现出显著增强的记忆能力，能提取、保存关键信息，以保持连续性，并随时间积累隐性知识。

Claude Code：可通过GitHub Actions支持后台任务，并与VS Code和JetBrains进行了原生集成，可直接在文件中显示编辑内容，实现无缝结对编程。

新的API能力：Anthropic API新增四项新功能，让开发者能够构建更强大的AI智能体——代码执行工具、MCP连接器、文件API，以及长达一小时的提示词缓存能力。

所以，什么人能用上这次的新模型？

目前，订阅了Pro、Max、Team和Enterprise版的Claude用户，可以立即体验到这两款模型及扩展思考功能。其中，Sonnet 4还将向免费用户开放。

开发者则可通过Anthropic API、Amazon Bedrock和Google Cloud的Vertex AI调用。

而Claude 4的定价，也与此前保持一致：

Opus 4每百万Token为15美元（输入）/75美元（输出）

Sonnet 4每百万Token为3美元（输入）/15美元（输出）

Claude 4：AI编程新王登基

Claude Opus 4号称是Anthropic迄今为止最强大的模型，也是全球最顶尖的编码模型。

在SWE-bench和Terminal-bench测试中，分别以72.5%和43.2%的得分全面领先，碾压OpenAI刚刚发布的编程智能体Codex-1和最强推理模型o3。

即使在需要高度专注并执行数千步骤的长时间运行任务中，它都能展现出持续稳定的性能，连续工作数小时。

可以说，Opus 4的推出极大扩展了AI智能体的能力边界。众多前沿的AI智能体产品，都将获得强大支持。

· Cursor：Opus 4的编码能力已达业界顶尖水平，在理解复杂代码库方面，还取得了飞跃性进展。

· Replit：在处理跨多个文件的复杂变更时，Opus 4的精度大大提升，表现出显著进步。

· Block：在「goose」智能体中，Opus 4是首款能在编辑和调试过程中提升代码质量，同时还能保持完整性能和可靠性的模型。

· Rakuten：Opus 4通过了一项要求严苛的开源代码重构任务，这项任务独立运行长达7小时，期间它始终保持了稳定的性能。

· Cognition：Opus 4擅长解决其他模型难以应对的复杂挑战，能够成功处理先前模型未能完成的关键操作。

而在Sonnet 3.7已经算业界领先的能力基础上，Claude Sonnet 4又再度实现了显著提升。

它在编码上极其出色，在SWE-bench测试中，直接取得72.7%的顶尖成绩！

而且，Sonnet 4在内部及外部应用场景中，均实现了性能与效率的良好平衡，可操控性也大大增加了。

尽管在多数领域，Sonnet 4的表现并不及Opus 4，但它在能力与实用性之间却达到了最佳平衡。

Anthropic：引爆推理革命

这就意味着，2025年的推理模型大战，Anthropic正式下场！

2025年，AI行业的一个明显趋势，就是转向推理模型。这类AI在做出反应之前会系统地解决问题，模拟类人的思维过程，而非简单地根据训练数据进行模式匹配。

去年12月，OpenAI抛出o系列，正式拉开大战序幕；谷歌的Gemini 2.5 Pro，也紧随其后推出实验性的“深度思考”功能；然后，就是DeepSeek-R1凭卓越性能和超高性价比，强势占领市场份额。

显然，现在人们使用AI的方式已经发生了根本性变革。

Poe的《2025年春季AI模型使用趋势报告》显示，推理模型的使用量在短短四个月内增长了五倍，占所有AI交互的比例从2%增长到10%。用户也越来越多地将AI视为解决复杂问题的思维伙伴，而非简单的问答系统。

随着新模型带来的用户兴趣的提升，推理类信息的比例在2025年初大幅上升

而这次，Anthropic再次给推理大战贡献了颠覆性的形式——将工具使用直接融入推理过程。

比起以前先收集信息再进行分析的系统，这种同步研究与推理的方法，显然更贴近人类认知。

Claude Opus 4和Claude Sonnet 4这种在推理过程中暂停、查找数据并融入新发现的能力，就创造了更自然、更有效的体验。

模型改进：不偷懒，记性好

此外，Anthropic还显著减少了模型在完成任务时试图走捷径或利用漏洞的行为。

在某类AI智能体任务上，模型特别容易走捷径，但这次的两款新模型发生此类行为的概率，比Sonnet 3.7要低65%。

在记忆能力上，Claude Opus 4也显著优于所有先前的模型。

当开发者构建的应用授予Claude本地文件访问权限时，Opus 4便能熟练地创建和维护用于存储关键信息的「记忆文件」，从而提高自己在AI智能体任务中的长期任务感知能力、连贯性和整体性能。

一个突出表现就是，Opus 4在玩《宝可梦》时，能创建并使用「导航指南」！

而团队为Claude 4模型引入的思考摘要功能，会利用一个较小的模型来精简冗长的思考过程。

不过需要注意，这项功能仅在约5%的情况下才需要启用——因为大多数思考过程本身就足够简短，能够完整呈现了。

网友实测：简直疯狂

手快的网友们，已经开始实测了。

比如用Claude 4制作一个CRM仪表板，只需30秒，速度直接让人瞳孔地震。

连续7小时编程，意味着AI大模型能力发展史上的一次分水岭。

仅用一个提示，仅仅一次，Claude 4 Opus就能完成一个可运行的浏览器智能体，包括API和前端。

大佬惊呼：不可能，我从未见过这样的事！

另一位获得提前内测资格的用户，体感是：Claude 4写作和编辑能力一流，编码能力和Gemini 2.5一样好。

比如，它一次性就构建了一个俄罗斯方块游戏。

沃顿商学院教授Ethan Mollick则用Claude 4 Opus制作了一段令人印象极深的视频，提示词为「用p5.js创建小说《皮拉内西》的三维世界」。

Claude Code

Claude Code，也正式发布了。

由此，Claude的强大功能就融入更多开发工作流程中——无论是在终端、用户所偏好的IDE中，还是通过Claude Code SDK在后台运行。

针对VS Code和JetBrains的全新测试版扩展程序，可将Claude Code直接集成到我们的IDE中。

甚至，Claude还会以内联方式，直接在文件中显示出编辑建议，这样就能在我们熟悉的编辑器界面中简化审查和跟踪流程。在IDE终端中运行Claude Code，即可安装。

并且，团队还发布了一款可扩展的Claude Code SDK，因此开发者可以使用与Claude Code相同的核心AI智能体来构建自己的AI智能体和应用程序。

下面就是一个SDK功能的示例：Claude Code on GitHub，目前仍处于测试阶段。

可以看到，在PR（拉取请求）中标记Claude Code，它就能响应审查者反馈、修复CI错误或修改代码。

在Claude Code内运行/install-github-app，就可直接安装了。

总的来说，Claude 4是向虚拟协作者迈出的一大步——能够保持完整的上下文理解，在较长项目中持续专注，从而推动变革性的影响。

此外，两款模型也都经过了广泛的测试和评估，最大限度地降低了风险并提高安全性，包括实施了更高级别的AI安全措施（如ASL-3）。

参考资料：

https://www.anthropic.com/news/claude-4

AI编程新王Claude 4，深夜震撼登基！连续编码7小时，开发者惊掉下巴

蝙蝠饭团

相关推荐

姆巴佩告别莫德里奇：你赢得了一切荣誉和全世界的尊重与敬仰,姆巴佩经典

B站又盈利了，UP主们不靠广告也赚钱了

四大举措联动家居行业，红星美凯龙618生活焕新季启动,红星美凯龙新零售

读者评论

方片2

格斗

武夷散仙

四维思维

热门标签

AI编程新王Claude 4，深夜震撼登基！连续编码7小时，开发者惊掉下巴

蝙蝠饭团

相关推荐

姆巴佩告别莫德里奇：你赢得了一切荣誉和全世界的尊重与敬仰,姆巴佩经典

​B站又盈利了，UP主们不靠广告也赚钱了

四大举措联动家居行业，红星美凯龙618生活焕新季启动,红星美凯龙新零售

读者评论

方片2

格斗

武夷散仙

四维思维

订阅我们的科技前沿快讯

热门标签

B站又盈利了，UP主们不靠广告也赚钱了