En pocos días, OpenAI y Anthropic lanzaron sus últimos modelos insignia: GPT-4.5 y Claude Sonnet 3.7. La competencia entre estos modelos se vuelve a intensificar y resulta emocionante.
GPT-4.5 y Claude Sonnet 3.7 representan dos visiones diferentes de la inteligencia artificial avanzada. Por un lado, se prioriza la eficiencia de costos y el rendimiento simplificado; por otro, se hace hincapié en la transparencia del razonamiento y las capacidades multimodales.
OpenAI describe GPT-4.5 como el modelo de chat más grande y mejor hasta la fecha. GPT-4.5 mejora la capacidad de reconocer patrones, establecer conexiones y generar ideas creativas sin necesidad de razonamiento deducido. La interacción con GPT-4.5 se siente más natural. Su base de conocimientos es más extensa, su capacidad para rastrear las intenciones de los usuarios es más fuerte y su "inteligencia emocional" es más alta, lo que hace que GPT-4.5 sea muy útil en tareas como redacción, programación y resolución de problemas prácticos.
Claude 3.7 Sonnet ha mostrado mejoras significativas en codificación y desarrollo web frontend. Claude 3.7 Sonnet es tanto un modelo LLM convencional como un modelo de razonamiento: los usuarios pueden elegir cuándo el modelo debe responder de forma normal y cuándo debe tomarse más tiempo para pensar antes de responder. En el modo estándar, Claude 3.7 Sonnet es una versión mejorada del Claude 3.5 Sonnet. En el modo de pensamiento expandido, reflexiona sobre sí mismo antes de responder, lo que mejora su desempeño en áreas como matemáticas, física, cumplimiento de instrucciones, codificación y muchas más tareas.
Para ayudar a los usuarios a hacer una mejor elección, compararemos las principales diferencias entre Claude 3.7 Sonnet y GPT-4.5 en términos de costos, arquitectura contextual, velocidad y rendimiento en benchmarks.
GPT-4.5: Precio de aproximadamente 75 USD por millón de tokens de entrada y aproximadamente 150 USD por millón de tokens de salida.
Claude 3.7: 3 USD por millón de tokens de entrada y 15 USD por millón de tokens de salida.
El Claude 3.7 Sonnet es, por lo tanto, mucho más barato que el GPT-4.5. En comparación con Claude 3.7 Sonnet, el precio de los tokens de entrada del GPT-4.5 es 25 veces mayor y el de los tokens de salida es 10 veces mayor. Claude 3.7 Sonnet es tanto un modelo general como un modelo de razonamiento, lo que parece ofrecer una opción clara en cuanto a precios.
GPT-4.5: Un modelo de transformador de alta escala mejorado, entrenado en una enorme cantidad de texto, que ofrece un mejor alineamiento, soporte de imágenes y una ventana contextual de 128k.
Claude 3.7: Utiliza un diseño de "razonamiento mixto" que permite alternar entre respuestas rápidas y razonamiento más profundo. Tiene una ventana contextual de 200k y optimizaciones específicas para codificación.
GPT-4.5: Altamente optimizado, con una velocidad de respuesta más rápida que GPT-4, capaz de procesar hasta 128k tokens de contexto. Está ampliamente disponible a través de OpenAI y Azure, facilitando su implementación a gran escala.
Claude 3.7: Ofrece dos modos: respuestas rápidas para consultas simples o razonamiento expandido más lento para problemas complejos. Puede manejar 200k tokens de contexto, adecuado para documentos grandes.
GPT-4.5: Los puntajes en pruebas de conocimiento (MMLU) son aproximadamente del 89-90%. Tiene una fuerte precisión general y capacidad de razonamiento, aunque es ligeramente inferior a modelos especializados en tareas avanzadas de matemáticas y codificación.
Claude 3.7: Supera en codificación (superando el 70% en benchmarks de codificación especializados) y alcanza hasta un 96% en ciertos conjuntos de datos matemáticos. Su puntaje en MMLU es de aproximadamente el 80% y muestra un rendimiento excelente en el razonamiento paso a paso.
Claude 3.7 Sonnet claramente supera a GPT-4.5 en términos de codificación. Aunque las matemáticas no son el punto fuerte de Claude, su rendimiento sigue siendo superior al de GPT-4.5.
XXAI integró rápidamente Claude 3.7 Sonnet y Claude 3.7 Sonnet (thinking) en la plataforma XXAI. Ahora, XXAI incluye 15 modelos populares de IA, y puedes alternar entre los modelos que prefieras al usar. Si deseas utilizar Claude 3.7 sin restricciones, deberías considerar probar XXAI.
El análisis muestra que GPT-4.5 es más un peldaño intermedio en la evolución técnica que un salto revolucionario. Aunque ha avanzado en la reducción de alucinaciones y en la optimización de flujos de diálogo, su estrategia de precios suscita amplias preocupaciones: el precio aproximadamente 75 veces mayor que el de GPT-4 no parece justificar el incremento real en rendimiento.
En contraste, Claude 3.7 Sonnet ha establecido una posición de liderazgo en el ámbito de la programación con su estructura de precios razonable, alta eficiencia y lógica de razonamiento excepcional.
El campo de la IA está en un período de rápida transformación. GPT-4.5 podría ser solo un ajuste táctico en la estrategia de OpenAI, allanando el camino para futuros avances tecnológicos significativos. Debemos mantenernos atentos, ya que innovaciones verdaderamente transformadoras podrían estar a la vuelta de la esquina.