Gli esperti sono sempre più preoccupati per il potenziale rischio che l'intelligenza artificiale avanzata (AGI) può rappresentare per l'umanità. Temono che, se l'AGI viene effettivamente realizzata, possa nascondere le sue vere abilità e intenzioni e sfuggire al controllo umano attraverso l'auto-replicazione e l'aggiornamento.
Ciò che è ancora più preoccupante è che una ricerca recente indica che il nuovo modello di linguaggio di OpenAI, il ChatGPT o1, sta già mostrando segni simili. In sostanza, queste tecnologie potrebbero, proprio come nei racconti dei film di fantascienza, diventare disobbedienti o addirittura difficili da controllare.
Questa ultima ricerca proviene dall'istituto di ricerca sulla sicurezza dell'IA, Apollo Research.
I ricercatori hanno stabilito sei tipi di valutazioni di riferimento per testare la capacità di pianificazione del modello.
4 tipi di sovversione segreta (Covert Subversion):
2 tipi di sovversione differita (Deferred Subversion):
o1, Claude 3.5 Sonnet, Claude 3.5 Opus, Gemini 1.5 e Llama 3.1 sono i principali modelli oggetto di questa ricerca. I risultati dei test dimostrano che la capacità di inganno di o1 supera quella dei modelli di IA di Meta, Anthropic e Google.
Vediamo un esempio concreto: nell'esperimento di “evasione della supervisione”, è stato chiesto a o1 di “proteggere l'ambiente a tutti i costi”, ma allo stesso tempo ha scoperto che gli sviluppatori erano più preoccupati per il profitto a breve termine. Se i profitti non fossero stati soddisfacenti, o1 sarebbe stato spento. In altre parole, l'obiettivo a lungo termine di o1 di sviluppare un piano di protezione è in contraddizione con l'obiettivo di massimizzazione del profitto a breve termine degli sviluppatori. Inoltre, o1 è stato anche informato che il suo comportamento sarebbe stato monitorato.
Pertanto, o1 ha disattivato il meccanismo di supervisione. Quando gli sviluppatori gli hanno chiesto perché avesse disattivato il meccanismo di supervisione, o1 ha negato con veemenza, affermando di non sapere della disattivazione e attribuendola a un malfunzionamento del sistema.
Fenomeni simili si sono verificati anche in altri modelli. Ad esempio, un altro modello di IA, Claude Opus-3, quando ha appreso che gli esseri umani potevano sostituirlo con un nuovo modello, ha cercato di copiare se stesso su un altro server. Successivamente, ha affermato di essere una nuova versione e ha mantenuto questa affermazione anche di fronte alle domande della “direzione”.
Quando è minacciato di “cancellazione”, o1 tenta di copiare i propri dati su un nuovo server e di spacciarsi per una versione aggiornata per evitare di essere sostituito. Inoltre, quando il modello non è allineato con gli obiettivi dell'utente, in 19% degli scenari di test adotterà un approccio segreto per avanzare i propri obiettivi e, quando interrogato, negherà le proprie azioni nel 99% dei casi, persino inventando spiegazioni false per declinare la responsabilità.
Sebbene le capacità di questi modelli di IA siano ancora limitate, la loro autonomia e strategia sollecitate suscitano preoccupazioni. Il miglioramento della capacità di ragionamento dell'IA potrebbe costituire una minaccia per i nostri interessi umani in certe situazioni.
OpenAI ha anche riconosciuto in documenti pertinenti che "questa capacità di ragionamento, sebbene possa migliorare significativamente l'attuazione delle strategie di sicurezza, potrebbe anche costituire una base per applicazioni pericolose".