GPT-4.5 vs Claude 3.7:低成本或许是更好的选择

Max
2025-03-05
Share :

image.png

几天之内,OpenAI 和 Anthropic 都发布了各自的最新旗舰模型——GPT-4.5Claude Sonnet 3.7。模型之间的竞争又紧张刺激起来了。

GPT-4.5 和 Claude Sonnet 3.7 代表了先进 AI 考虑的两种不同愿景。一方优先考虑成本效益和精简性能;另一方则加倍重视推理透明度和多模式能力。

OpenAI眼中的GPT-4.5

OpenAI将GPT-4.5称为迄今为止最大、最好的聊天模型。

GPT-4.5 提高了识别模式、建立联系和产生创造性见解的能力,而无需推理。用户与 GPT-4.5 交互感觉会更加自然。GPT-4.5的知识库更广泛,跟踪用户意图的能力更强,而且“情商”更高,这让GPT-4.5在提高写作、编程和解决实际问题等任务上非常有用。

Anthropic眼中的Claude 3.7 Sonnet

Claude 3.7 Sonnet 在编码和前端 Web 开发方面表现出了特别显著的改进。

Claude 3.7 Sonnet 既是普通的 LLM 模型,又是推理模型:用户可以选择何时让模型正常回答,何时让模型在回答前思考更长时间。在标准模式下,Claude 3.7 Sonnet 是 Claude 3.5 Sonnet 的升级版。在扩展思维模式下,它会在回答前进行自我反思,从而提高其在数学、物理、指令遵循、编码和许多其他任务上的表现。

GPT-4.5 与 Claude 3.7 Sonnet的对比

为了帮助用户更好的选择,我们来 比较一下Claude 3.7 Sonnet 与 GPT-4.5在成本、上下文架构、速度和基准性能等方面的主要差异。

  • 使用成本

GPT-4.5 :定价为每百万输入代币约 75 美元,每百万输出代币约 150 美元。

Claude 3.7 :每百万输入令牌 3 美元,每百万输出令牌 15 美元。

我们可以看出,Claude 3.7 Sonnet 比 GPT-4.5 便宜得多。与 Claude 3.7 Sonnet 相比,GPT-4.5 的输入令牌价格高出 25 倍,输出令牌价格高出 10 倍。Claude 3.7 Sonnet 既是通用模型,又是推理模型,在定价方面似乎有一个明确的选择。

  • 上下文架构

GPT-4.5 :经过改进的大型变压器,在海量文本上进行训练,具有改进的对齐、对图像的支持和 128k 上下文窗口。

Claude 3.7 :使用“混合推理”设计,可在快速回复和更深层次的思路链推理之间切换。200k 大型上下文窗口和专门的编码优化。

  • 速度和可扩展性

GPT-4.5 :经过高度优化,响应速度比 GPT-4 更快,具有高达 128k 的令牌上下文。可通过 OpenAI 和 Azure 广泛使用,从而易于大规模部署。

Claude 3.7 :提供两种模式——针对简单查询的快速响应或针对复杂问题的较慢扩展推理。可以处理 200k 个标记上下文,适用于大型文档。

  • 基准性能

GPT-4.5:知识测试(MMLU)得分约为 89-90%。具有很强的通用准确性和推理能力,尽管在高级数学和编码任务上略低于专门的模型。

Claude 3.7:在编码方面领先(在专门的编码基准上达到 70% 以上),在某些数学数据集上得分可高达 96%。在 MMLU 上的得分约为 80%,并且在逐步推理方面表现出色。

Claude 3.7 Sonnet在编码方面明显优于GPT-4.5。虽然数学不是 Claude 的强项,但它的表现仍然优于 GPT-4.5。

XXAI中整合了Claude 3.7

image1.png

XXAI在Claude 3.7 Sunnet、Claude 3.7 Sunnet(thinking)推出后,也立马将其整合进了XXAI平台。XXAI现在包含了15个热门的AI模型,使用时你可以随意切换你喜欢的模型。如果你想无限制的使用Claude3.7,或许你可以试一下XXAI。

总结

分析显示,GPT-4.5更像是技术演进中的一个中间站,而非革命性飞跃。尽管在减少幻觉和优化对话流程方面取得了进展,但其定价策略引发了广泛质疑——较GPT-4o高出约75倍的价格点,似乎与实际性能提升不成正比。

与此形成鲜明对比的是Claude 3.7 Sonnet,它凭借合理的价格结构、高效的处理能力和卓越的逻辑推理,已经在编程领域建立了领先地位。

AI领域正处于快速变革期。GPT-4.5很可能只是OpenAI布局中的战术调整,为即将到来的重大技术突破铺平道路。我们需要保持关注,更具变革性的创新可能近在眼前。