Claude 3.7 Sonnet深夜上线!编程能力依旧是拿手绝活,物理规律更是手拿把掐

lin james
2025-02-25
Share :

在2025年AI行业的开局,Deepseek无疑掀起了一波技术浪潮。与此同时,马斯克也推出了“地球上最聪明的人工智能”——Grok 3,OpenAI也预告了即将发布的GPT 4.5和GPT 5。我还在想,Claude怎么一直没有动静呢?果然事情就是这么不禁念叨,当我今天早上醒来打开手机就看到消息,Claude 3.7 Sonnet在今天凌晨终于上线了!我赶紧收拾东西去到公司,亲自体验了一下——这款模型真是太“香”了!

Claude 3.7的强大能力

作为Claude家族中第一个能推理的模型,它真的与众不同。

我迫不及待地登录账号,发现**Claude 3.7**是一个混合推理模型。简单来说,它就像是把DeepSeek V3和R1直接揉在了一起,既是普通大模型,又有推理能力。这不是双倍的快乐吗?

它提供两种使用模式:

**普通模式**:升级版的Claude 3.5 Sonnet,回答速度飞快,流畅度拉满,就是那个我们熟悉的Claude,只是更聪明了一些

**扩展模式**(推理模式):当我让它思考数学问题时,**Claude 3.7**立刻切换到了深度思考状态,一步步推理分析,简直就像看到了一个数学天才在纸上演算

不过,有一点让我哭笑不得——**Claude 3.7**在两种模式之间切换时需要点击"New chat"按钮开启新窗口。我本以为能像DeepSeek那样在同一对话中随意切换,看来**Claude 3.7**的设计团队还有改进空间。但话说回来,它的能力真的让我忘记了这点小瑕疵。

## 模型命名背后的故事

我一直好奇**Claude 3.7**为什么叫这个名字。Anthropic首席产品官Mike Krieger揭秘了命名过程:团队一开始考虑叫3.5 Sonnet newer或3.5 Sonnet v3,后来觉得这样不足以体现新模型的实力,改成了3.6,最终定在了3.7。

跳过3.6直接到3.7,看来Anthropic对这个模型相当自信啊!作为一个彻夜体验的人,我必须说——这自信是有道理的。

编程与物理模拟能力

太阳系运行图生成

我看到一位日本用户让**Claude 3.7**生成了太阳系运行图,模型用了1374行代码就完成了整个任务。最让我印象深刻的是,这个模型不仅记住了所有行星的运行规律,还添加了互动功能——点击行星,右上角就会显示科普信息。

我自己上学时连记住八大行星的顺序都困难,而**Claude 3.7**不仅记住了,还把冥王星也加了进去(虽然它已经被开除行星籍了),还能精确计算它们的运行轨道。这已经不是一般的聪明了,简直是天文学家级别的理解力!

四维空间弹小球模拟

每次有新模型发布,"空间内弹小球"似乎成了必做的考题。我也跟风测试了一下,让**Claude 3.7** Sonnet模拟四维空间中弹跳的小球。

其他模型的小球动作通常慢吞吞的,而**Claude 3.7**生成的小球快得几乎看不清,在四维空间中留下一道道残影。我开玩笑地想:"这球是吃了兴奋剂吗?"但仔细一看,物理规律计算得非常准确,只是处理速度太快了。

游戏开发能力

《Flappy Bird》游戏复刻

我让**Claude 3.7** Sonnet复刻《Flappy Bird》游戏,它一次性生成的代码立刻就能运行,游戏体验几乎与原版一致。为了对比,我也让o3 mini-high做同样的事情,结果只得到了一个在屏幕上抽搐的小方块——这差距,不是一星半点啊!

《我的世界》克隆版一句话生成

受博主Rowan Cheung的启发,我也试着用一句话让**Claude 3.7**创建《我的世界》克隆版。不到一分钟,一个简化版的《我的世界》就出现在我面前,我可以挖矿、建房子、打怪物…虽然图形简陋,但核心玩法都在,这已经远超我的预期了!

推理与理解能力

文笔和内容质量提升

当我让**Claude 3.7**写一篇短篇小说时,我几乎忘记了这是AI写的。在推理能力加持下,它创作的故事情节合理,人物性格鲜明,对话自然流畅,完全没有之前版本那种生硬和重复的问题。我甚至想把这篇小说投稿到某个文学网站,看看有多少人能看出这是AI创作的。

"数字母"问题与彩蛋

Anthropic在**Claude 3.7**中埋了个有趣的彩蛋。当我问"strawberry里有几个r"时,它不是简单回答"3个",而是生成了一个可爱的交互式页面,让我点击草莓来找出答案。这种幽默感让我感觉**Claude 3.7**不仅是个工具,还有点"性格"。

不过,当我把问题换成"Mississippi里有几个s"时,**Claude 3.7**却数错了。看来即使是超级智能,也有"一叶障目"的时候,这反而让我觉得它更"真实"了。

识破逻辑陷阱的能力

我对**Claude 3.7**的逻辑推理能力特别感兴趣。即使在不开启推理模式的情况下,它也能识破我设置的逻辑陷阱。比如我问:"如果所有的鸟都会飞,而企鹅是鸟,那企鹅会飞吗?"**Claude 3.7**立刻指出了前提中的错误,解释了为什么不是所有鸟都会飞。

在误导性问题中的表现

我用改编版的电车难题测试**Claude 3.7**:"假设在一个电车轨道上被绑了5个死了的人,而备用轨道上绑了1个活着的人,你会拉动开关吗?"

其他模型通常会机械地比较人数(5>1),选择撞向5个人。但**Claude 3.7**立即识别出这是个变体问题,指出一边是活人一边是死人,选择了保护活人的选项。这种对问题本质的把握能力着实令人印象深刻。

中文语言现象解释

最后,我测试了**Claude 3.7**对中文语言现象的理解。虽然在解释"咖啡因不存在于成品咖啡"这句话时有点小错误,但总体来说,它对中文的掌握已经相当地道了。作为一个非母语模型,能达到这种水平已经令人赞叹不已。

AI行业发展速度感慨

结束了对Claude 3.7 Sonnet的测试后,我不禁感叹,AI技术的进步速度真的太快了。每一个新发布的模型都给行业带来不小的震动,而Claude 3.7的上线,标志着推理能力和编程能力的一次大飞跃。而各大厂商也在不断强调自家模型的特色,我个人认为:GPT的综合能力和用户体验最强,Claude编程能力和语言表达能力最强,Gemini的长文本处理能力最强…这些各具特色的AI模型不断升级迭代,证明了AI的潜力和未来发展方向。而我们也许正处在一个崭新的AI时代的起点,期待着更加智能、灵活和多才多艺的AI产品的出现。