GPT-4.5 vs Claude 3.7：低成本或许是更好的选择

Max

2025-03-05

几天之内，OpenAI 和 Anthropic 都发布了各自的最新旗舰模型——GPT-4.5和 Claude Sonnet 3.7。模型之间的竞争又紧张刺激起来了。

GPT-4.5 和 Claude Sonnet 3.7 代表了先进 AI 考虑的两种不同愿景。一方优先考虑成本效益和精简性能；另一方则加倍重视推理透明度和多模式能力。

OpenAI眼中的GPT-4.5

OpenAI将GPT-4.5称为迄今为止最大、最好的聊天模型。

GPT-4.5 提高了识别模式、建立联系和产生创造性见解的能力，而无需推理。用户与 GPT-4.5 交互感觉会更加自然。GPT-4.5的知识库更广泛，跟踪用户意图的能力更强，而且“情商”更高，这让GPT-4.5在提高写作、编程和解决实际问题等任务上非常有用。

Anthropic眼中的Claude 3.7 Sonnet

Claude 3.7 Sonnet 在编码和前端 Web 开发方面表现出了特别显著的改进。

Claude 3.7 Sonnet 既是普通的 LLM 模型，又是推理模型：用户可以选择何时让模型正常回答，何时让模型在回答前思考更长时间。在标准模式下，Claude 3.7 Sonnet 是 Claude 3.5 Sonnet 的升级版。在扩展思维模式下，它会在回答前进行自我反思，从而提高其在数学、物理、指令遵循、编码和许多其他任务上的表现。

GPT-4.5 与 Claude 3.7 Sonnet的对比

为了帮助用户更好的选择，我们来比较一下Claude 3.7 Sonnet 与 GPT-4.5在成本、上下文架构、速度和基准性能等方面的主要差异。

使用成本

GPT-4.5 ：定价为每百万输入代币约 75 美元，每百万输出代币约 150 美元。

Claude 3.7 ：每百万输入令牌 3 美元，每百万输出令牌 15 美元。

我们可以看出，Claude 3.7 Sonnet 比 GPT-4.5 便宜得多。与 Claude 3.7 Sonnet 相比，GPT-4.5 的输入令牌价格高出 25 倍，输出令牌价格高出 10 倍。Claude 3.7 Sonnet 既是通用模型，又是推理模型，在定价方面似乎有一个明确的选择。

上下文架构

GPT-4.5 ：经过改进的大型变压器，在海量文本上进行训练，具有改进的对齐、对图像的支持和 128k 上下文窗口。

Claude 3.7 ：使用“混合推理”设计，可在快速回复和更深层次的思路链推理之间切换。200k 大型上下文窗口和专门的编码优化。

速度和可扩展性

GPT-4.5 ：经过高度优化，响应速度比 GPT-4 更快，具有高达 128k 的令牌上下文。可通过 OpenAI 和 Azure 广泛使用，从而易于大规模部署。

Claude 3.7 ：提供两种模式——针对简单查询的快速响应或针对复杂问题的较慢扩展推理。可以处理 200k 个标记上下文，适用于大型文档。

基准性能

GPT-4.5：知识测试（MMLU）得分约为 89-90％。具有很强的通用准确性和推理能力，尽管在高级数学和编码任务上略低于专门的模型。

Claude 3.7：在编码方面领先（在专门的编码基准上达到 70% 以上），在某些数学数据集上得分可高达 96%。在 MMLU 上的得分约为 80%，并且在逐步推理方面表现出色。

Claude 3.7 Sonnet在编码方面明显优于GPT-4.5。虽然数学不是 Claude 的强项，但它的表现仍然优于 GPT-4.5。

XXAI中整合了Claude 3.7

XXAI在Claude 3.7 Sunnet、Claude 3.7 Sunnet（thinking）推出后，也立马将其整合进了XXAI平台。XXAI现在包含了15个热门的AI模型，使用时你可以随意切换你喜欢的模型。如果你想无限制的使用Claude3.7，或许你可以试一下XXAI。

总结

分析显示，GPT-4.5更像是技术演进中的一个中间站，而非革命性飞跃。尽管在减少幻觉和优化对话流程方面取得了进展，但其定价策略引发了广泛质疑——较GPT-4o高出约75倍的价格点，似乎与实际性能提升不成正比。

与此形成鲜明对比的是Claude 3.7 Sonnet，它凭借合理的价格结构、高效的处理能力和卓越的逻辑推理，已经在编程领域建立了领先地位。

AI领域正处于快速变革期。GPT-4.5很可能只是OpenAI布局中的战术调整，为即将到来的重大技术突破铺平道路。我们需要保持关注，更具变革性的创新可能近在眼前。

GPT-4.5登场：它更强了，但是也更贵了！

女友说：这么美的春天却只能上班，我决定用Claude+即梦送她一个春天