In pochi giorni, OpenAI e Anthropic hanno lanciato i loro ultimi modelli di punta: GPT-4.5 e Claude Sonnet 3.7. La competizione tra i modelli torna a intensificarsi ed è affascinante.
GPT-4.5 e Claude Sonnet 3.7 rappresentano due visioni diverse dell'intelligenza artificiale avanzata. Da un lato, si privilegia l'efficienza dei costi e le prestazioni semplificate; dall'altro, si pone l'accento sulla trasparenza del ragionamento e sulle capacità multimodali.
OpenAI descrive GPT-4.5 come il modello di chat più grande e migliore fino ad oggi. GPT-4.5 migliora la capacità di riconoscere schemi, stabilire connessioni e generare idee creative senza bisogno di ragionamento deduttivo. L'interazione con GPT-4.5 sembra più naturale. La sua base di conoscenza è più ampia, la sua capacità di seguire le intenzioni degli utenti è più forte e la sua "intelligenza emotiva" è più sviluppata, rendendo GPT-4.5 molto utile per compiti come scrittura, programmazione e risoluzione di problemi pratici.
Claude 3.7 Sonnet ha mostrato miglioramenti significativi nella codifica e nello sviluppo web front-end. Claude 3.7 Sonnet è sia un modello LLM tradizionale che un modello di ragionamento: gli utenti possono scegliere quando il modello deve rispondere normalmente e quando deve prendersi più tempo per pensare prima di rispondere. In modalità standard, Claude 3.7 Sonnet è una versione aggiornata di Claude 3.5 Sonnet. In modalità di pensiero ampliato, riflette su se stesso prima di rispondere, migliorando le sue prestazioni in aree come matematica, fisica, rispetto delle istruzioni, codifica e molte altre attività.
Per aiutare gli utenti a fare una scelta migliore, confrontiamo le principali differenze tra Claude 3.7 Sonnet e GPT-4.5 in termini di costi, architettura contestuale, velocità e prestazioni nei benchmark.
GPT-4.5: Prezzo di circa 75 USD per milione di token di input e circa 150 USD per milione di token di output.
Claude 3.7: 3 USD per milione di token di input e 15 USD per milione di token di output.
Claude 3.7 Sonnet è quindi molto più economico rispetto a GPT-4.5. Rispetto a Claude 3.7 Sonnet, il prezzo dei token di input di GPT-4.5 è 25 volte superiore e il prezzo dei token di output è 10 volte superiore. Claude 3.7 Sonnet è sia un modello generale che un modello di ragionamento, offrendo una scelta chiara in termini di prezzi.
GPT-4.5: Un modello di trasformatori su larga scala migliorato, addestrato su un'enorme quantità di testo, che offre un miglior allineamento, supporto per immagini e una finestra contestuale di 128k.
Claude 3.7: Utilizza un design di "ragionamento misto" che consente di alternare tra risposte rapide e ragionamento più profondo. Dispone di una finestra contestuale di 200k e ottimizzazioni specifiche per la codifica.
GPT-4.5: Altamente ottimizzato, con una velocità di risposta più rapida rispetto a GPT-4, capace di elaborare fino a 128k token di contesto. È ampiamente disponibile tramite OpenAI e Azure, facilitando il suo utilizzo su larga scala.
Claude 3.7: Offre due modalità: risposte rapide per query semplici o ragionamento espanso più lento per problemi complessi. Può gestire 200k token di contesto, adatto per documenti di grandi dimensioni.
GPT-4.5: I punteggi nei test di conoscenza (MMLU) si aggirano attorno all'89-90%. Ha una forte precisione generale e capacità di ragionamento, sebbene sia leggermente inferiore a modelli specializzati in compiti avanzati di matematica e codifica.
Claude 3.7: Eccelle nella codifica (superando il 70% nei benchmark di codifica specializzati) e raggiunge fino al 96% in alcuni set di dati matematici. Il suo punteggio in MMLU è di circa l'80% e mostra prestazioni eccellenti nel ragionamento passo dopo passo.
Claude 3.7 Sonnet supera chiaramente GPT-4.5 in termini di codifica. Sebbene la matematica non sia il punto forte di Claude, le sue prestazioni rimangono superiori a quelle di GPT-4.5.
XXAI ha integrato rapidamente Claude 3.7 Sonnet e Claude 3.7 Sonnet (thinking) nella piattaforma XXAI. Ora, XXAI comprende 15 modelli popolari di IA e puoi passare liberamente tra i modelli che preferisci durante l'utilizzo. Se desideri usare Claude 3.7 senza restrizioni, potresti considerare di provare XXAI.
L'analisi mostra che GPT-4.5 è più un passo intermedio nell'evoluzione tecnologica che un salto rivoluzionario. Sebbene abbia fatto progressi nella riduzione delle allucinazioni e nell'ottimizzazione dei flussi di dialogo, la sua strategia di prezzo solleva ampie preoccupazioni: il prezzo circa 75 volte superiore a quello di GPT-4 non sembra giustificato dall'aumento reale delle prestazioni.
Al contrario, Claude 3.7 Sonnet ha stabilito una posizione di leadership nel campo della programmazione grazie a una struttura di prezzi ragionevole, elevata efficienza e logica di ragionamento eccezionale.
Il campo dell'intelligenza artificiale è in un periodo di rapida trasformazione. GPT-4.5 potrebbe essere solo un adeguamento tattico nella strategia di OpenAI, preparando il terreno per significativi progressi tecnologici futuri. Dobbiamo rimanere attenti, poiché innovazioni veramente trasformative potrebbero essere all'orizzonte.