Claude 3.7称王：编码模型新霸主

#大语言模型LLM #ChatGPT等OpenAI技术 #IDE编程开发指南 #NoCode无代码工具

2025-02-25 2K banq

Anthropic 推出 Claude 3.7 Sonnet，结合直接回答和“扩展思考”模式，推理能力强，还出了编程工具 Claude Code。模型在数学、编程上表现超棒，能省时间，目标是 2027 年收入超 OpenAI 三倍，今年就能赚钱。

Anthropic 在最新版本里用了一种跟 OpenAI 不一样的方法，推出了 Claude 3.7 Sonnet 这个模型。这是他们第一个把直接回答问题和更厉害的思考能力结合在一起的推理模型。Claude 3.7 Sonnet 是基于 Claude 3.5 Sonnet 升级来的，但多了一个很重要的功能，叫“扩展思考”模式。这个模式能让模型通过回答问题的时候自己推理。

Anthropic 说，推理应该是高级模型必须会的东西。跟 OpenAI 的推理模型一样，Claude 3.7 Sonnet 也能生成推理用的令牌。这次更新让 Anthropic 比 OpenAI 领先了一步，因为 OpenAI 最近才公布了类似的 GPT-5 统一架构计划。

除了模型升级，Anthropic 还推出了 Claude Code，这是一个专门给编程用的命令行工具。这个工具能让开发人员直接在终端里把复杂的编程任务交给它。

增强的编程和调试能力
Anthropic 的初步测试显示，Sonnet 3.7 在实际编程任务里表现特别厉害，在规划代码改动和复杂更新上明显比别的模型强。

7 个 AI 模型（Sonnet 3.7 、OpenAI、DeepSeek、Grok）的性能对比，在推理、编码、数学这 8 个类别里比。特に在数学解题和多语言问答上，这个模型拿到了超过 90% 的最高分，跟 OpenAI 或 DeepSeek-R1 的 o 模型差不多。
Sonnet 3.7 能从头开始建复杂的网页应用和仪表板，别的模型很难做到。
官方博客里说，在测试中，Sonnet 3.7 总能写出能直接用的代码，设计也很好，出错明显少了很多。

Sonnet 3.7 不仅在编码方面有显著的提升，而且 Claude Code 解决了编码时使用 LLM 的大部分主要痛点（了解代码库上下文、快速进行更改、专注于关键片段而不是编写整个文件……等等）。

Claude Code：基于代理的编程新方法 Claude Code 是 Anthropic 第一个基于代理的编程工具，现在是给少数人研究试用的阶段。它能搜代码、读代码、改文件、写测试、跑测试，还能把代码提交推到 GitHub 上，也能用命令行工具。

初步测试表明，Claude 能一次搞定通常要手动忙 45 分钟以上的任务，省了好多开发时间和力气。

Anthropic 计划通过加强工具调用的可靠性、支持跑很久的命令、改进应用渲染来不断升级这个工具。他们想更明白开发人员怎么用 Claude 编程，好指导以后模型的改进。

提高安全性和响应处理能力
公司说，Claude 3.7 Sonnet 能更好分清哪些请求有问题哪些没问题，比以前的版本少拒绝了 45% 不该拒绝的请求。Anthropic 做了很多测试，还跟外面的专家合作，确保模型安全又靠谱。

这公司从一开始就很重视安全和负责任地用人工智能，但因为 Claude对提示很小心，有时候会限制得让人觉得奇怪或者有疑问。

据称距离人工智能突破还有两年时间：Anthropic 觉得 Claude 3.7 Sonnet 和 Claude Code 是走向真能帮人类干活的人工智能的重要一步。他们预测，到 2027 年，Claude 会找到“解决难题的突破性办法”。现在，他们说 Claude 能按专家级人类水平干活，省下“工作时间”。

公司还强调了 Claude 在基于代理任务上的潜力，最近通过 Claude Computer Use 展示了这点，它能让人工智能控制软件和操作系统。

Anthropic 好像主要在搞中端 Sonnet 系列。虽然 Sonnet 和小的 Haiku 最近升到了 3.5 版，但最大的型号 Opus 还是 3 版。

网友：
1、它甚至可以制作交互式“3D游戏”
https://claude.site/artifacts/3e10c118-bdf8-40a3-b057-3c716d7f06a1

2、它在编程方面表现得非常出色，在其他方面也表现不错。

3、在人工智能模型出现之前，软件版本控制就已经很混乱了，但是 Claude 的版本控制确实非常随意

4、哇，Claude 3.7 的推理能力超牛，在Darryl Strawberry测试里大秀了一把——自己写代码就把问题解决了。干得真漂亮！
Darryl Strawberry测试就是计算 "Darryl Strawberry" 中有多少个字母 "R"，我们可以手动数一数，或者编写一个简单的程序来实现，让Claude 3.7编程来自动写代码。

5、坚实的进步，我使用了三个我通常使用 html/css/jagvascript 运行的绘图基准，它击败了其中两个，其中两个是我见过的最好的。在我看来，anthropic 取得了非常坚实的进步，它是开发人员编码模型的新王者。

Claude 3.7称王：编码模型新霸主

什么是Context上下文？

抽象两种方法：上下文与类型

Content与Context一字之差暗藏逆天极道

语境崩塌：你的注意力正被劫持

Context逻辑之道