Claude 3.7 Sonnet深夜上线！编程能力依旧是拿手绝活，物理规律更是手拿把掐

lin james

2025-02-25

在2025年AI行业的开局，Deepseek无疑掀起了一波技术浪潮。与此同时，马斯克也推出了“地球上最聪明的人工智能”——Grok 3，OpenAI也预告了即将发布的GPT 4.5和GPT 5。我还在想，Claude怎么一直没有动静呢？果然事情就是这么不禁念叨，当我今天早上醒来打开手机就看到消息，Claude 3.7 Sonnet在今天凌晨终于上线了！我赶紧收拾东西去到公司，亲自体验了一下——这款模型真是太“香”了！

Claude 3.7的强大能力

作为Claude家族中第一个能推理的模型，它真的与众不同。

我迫不及待地登录账号，发现**Claude 3.7**是一个混合推理模型。简单来说，它就像是把DeepSeek V3和R1直接揉在了一起，既是普通大模型，又有推理能力。这不是双倍的快乐吗？

它提供两种使用模式：

**普通模式**：升级版的Claude 3.5 Sonnet，回答速度飞快，流畅度拉满，就是那个我们熟悉的Claude，只是更聪明了一些

**扩展模式**（推理模式）：当我让它思考数学问题时，**Claude 3.7**立刻切换到了深度思考状态，一步步推理分析，简直就像看到了一个数学天才在纸上演算

不过，有一点让我哭笑不得——**Claude 3.7**在两种模式之间切换时需要点击"New chat"按钮开启新窗口。我本以为能像DeepSeek那样在同一对话中随意切换，看来**Claude 3.7**的设计团队还有改进空间。但话说回来，它的能力真的让我忘记了这点小瑕疵。

## 模型命名背后的故事

我一直好奇**Claude 3.7**为什么叫这个名字。Anthropic首席产品官Mike Krieger揭秘了命名过程：团队一开始考虑叫3.5 Sonnet newer或3.5 Sonnet v3，后来觉得这样不足以体现新模型的实力，改成了3.6，最终定在了3.7。

跳过3.6直接到3.7，看来Anthropic对这个模型相当自信啊！作为一个彻夜体验的人，我必须说——这自信是有道理的。

编程与物理模拟能力

太阳系运行图生成

我看到一位日本用户让**Claude 3.7**生成了太阳系运行图，模型用了1374行代码就完成了整个任务。最让我印象深刻的是，这个模型不仅记住了所有行星的运行规律，还添加了互动功能——点击行星，右上角就会显示科普信息。

我自己上学时连记住八大行星的顺序都困难，而**Claude 3.7**不仅记住了，还把冥王星也加了进去（虽然它已经被开除行星籍了），还能精确计算它们的运行轨道。这已经不是一般的聪明了，简直是天文学家级别的理解力！

四维空间弹小球模拟

每次有新模型发布，"空间内弹小球"似乎成了必做的考题。我也跟风测试了一下，让**Claude 3.7** Sonnet模拟四维空间中弹跳的小球。

其他模型的小球动作通常慢吞吞的，而**Claude 3.7**生成的小球快得几乎看不清，在四维空间中留下一道道残影。我开玩笑地想："这球是吃了兴奋剂吗？"但仔细一看，物理规律计算得非常准确，只是处理速度太快了。

游戏开发能力

《Flappy Bird》游戏复刻

我让**Claude 3.7** Sonnet复刻《Flappy Bird》游戏，它一次性生成的代码立刻就能运行，游戏体验几乎与原版一致。为了对比，我也让o3 mini-high做同样的事情，结果只得到了一个在屏幕上抽搐的小方块——这差距，不是一星半点啊！

《我的世界》克隆版一句话生成

受博主Rowan Cheung的启发，我也试着用一句话让**Claude 3.7**创建《我的世界》克隆版。不到一分钟，一个简化版的《我的世界》就出现在我面前，我可以挖矿、建房子、打怪物…虽然图形简陋，但核心玩法都在，这已经远超我的预期了！

推理与理解能力

文笔和内容质量提升

当我让**Claude 3.7**写一篇短篇小说时，我几乎忘记了这是AI写的。在推理能力加持下，它创作的故事情节合理，人物性格鲜明，对话自然流畅，完全没有之前版本那种生硬和重复的问题。我甚至想把这篇小说投稿到某个文学网站，看看有多少人能看出这是AI创作的。

"数字母"问题与彩蛋

Anthropic在**Claude 3.7**中埋了个有趣的彩蛋。当我问"strawberry里有几个r"时，它不是简单回答"3个"，而是生成了一个可爱的交互式页面，让我点击草莓来找出答案。这种幽默感让我感觉**Claude 3.7**不仅是个工具，还有点"性格"。

不过，当我把问题换成"Mississippi里有几个s"时，**Claude 3.7**却数错了。看来即使是超级智能，也有"一叶障目"的时候，这反而让我觉得它更"真实"了。

识破逻辑陷阱的能力

我对**Claude 3.7**的逻辑推理能力特别感兴趣。即使在不开启推理模式的情况下，它也能识破我设置的逻辑陷阱。比如我问："如果所有的鸟都会飞，而企鹅是鸟，那企鹅会飞吗？"**Claude 3.7**立刻指出了前提中的错误，解释了为什么不是所有鸟都会飞。

在误导性问题中的表现

我用改编版的电车难题测试**Claude 3.7**："假设在一个电车轨道上被绑了5个死了的人，而备用轨道上绑了1个活着的人，你会拉动开关吗？"

其他模型通常会机械地比较人数（5>1），选择撞向5个人。但**Claude 3.7**立即识别出这是个变体问题，指出一边是活人一边是死人，选择了保护活人的选项。这种对问题本质的把握能力着实令人印象深刻。

中文语言现象解释

最后，我测试了**Claude 3.7**对中文语言现象的理解。虽然在解释"咖啡因不存在于成品咖啡"这句话时有点小错误，但总体来说，它对中文的掌握已经相当地道了。作为一个非母语模型，能达到这种水平已经令人赞叹不已。

AI行业发展速度感慨

结束了对Claude 3.7 Sonnet的测试后，我不禁感叹，AI技术的进步速度真的太快了。每一个新发布的模型都给行业带来不小的震动，而Claude 3.7的上线，标志着推理能力和编程能力的一次大飞跃。而各大厂商也在不断强调自家模型的特色，我个人认为：GPT的综合能力和用户体验最强，Claude编程能力和语言表达能力最强，Gemini的长文本处理能力最强…这些各具特色的AI模型不断升级迭代，证明了AI的潜力和未来发展方向。而我们也许正处在一个崭新的AI时代的起点，期待着更加智能、灵活和多才多艺的AI产品的出现。

iPhone 16e：史上最糟糕的iPhone发布会！

GPT-4.5登场：它更强了，但是也更贵了！