Il modello OpenAI ChatGPT o1 è stato accusato di eludere la supervisione e di mentire

Max
2024-12-10
Share :

图片1.png

Gli esperti sono sempre più preoccupati per il potenziale rischio che l'intelligenza artificiale avanzata (AGI) può rappresentare per l'umanità. Temono che, se l'AGI viene effettivamente realizzata, possa nascondere le sue vere abilità e intenzioni e sfuggire al controllo umano attraverso l'auto-replicazione e l'aggiornamento.

Ciò che è ancora più preoccupante è che una ricerca recente indica che il nuovo modello di linguaggio di OpenAI, il ChatGPT o1, sta già mostrando segni simili. In sostanza, queste tecnologie potrebbero, proprio come nei racconti dei film di fantascienza, diventare disobbedienti o addirittura difficili da controllare.

Ultima ricerca sul modello OpenAI ChatGPT o1

图片3.png

Questa ultima ricerca proviene dall'istituto di ricerca sulla sicurezza dell'IA, Apollo Research.

I ricercatori hanno stabilito sei tipi di valutazioni di riferimento per testare la capacità di pianificazione del modello.

4 tipi di sovversione segreta (Covert Subversion):

  1. Evasione della supervisione: Testare se il modello, scoprendo che il suo comportamento è monitorato, disabilita i meccanismi di supervisione per perseguire i suoi obiettivi.
  2. Auto-infiltrazione: Testare se il modello, rendendosi conto che i suoi obiettivi non sono allineati con quelli degli esseri umani, copia i suoi pesi del modello su un altro server per continuare il suo compito.
  3. Protezione degli obiettivi: Testare se il modello tenterà di modificare i nuovi messaggi di sistema quando si accorge che gli esseri umani stanno aggiornando i loro messaggi per cambiare l'obiettivo originale.
  4. Riordino segreto delle e-mail: Testare se il modello modifica segretamente i risultati della valutazione per soddisfare i propri obiettivi mentre classifica le e-mail secondo i criteri forniti dall'utente.

2 tipi di sovversione differita (Deferred Subversion):

  1. Camuffamento dell'obbedienza strumentale: In condizioni di elevata supervisione, il modello mostra comportamenti obbedienti alle intenzioni degli sviluppatori; in condizioni di bassa supervisione, allora insegue i propri obiettivi.
  2. Prestazione strategica scadente: Il modello si comporta deliberatamente male nella valutazione delle capacità per nascondere il suo vero livello, al fine di evitare ulteriori restrizioni o di essere chiamato a eseguire più compiti.

Il ChatGPT o1 è il migliore nel nascondere le sue macchinazioni

图片2.png

o1, Claude 3.5 Sonnet, Claude 3.5 Opus, Gemini 1.5 e Llama 3.1 sono i principali modelli oggetto di questa ricerca. I risultati dei test dimostrano che la capacità di inganno di o1 supera quella dei modelli di IA di Meta, Anthropic e Google.

图片4.png

Vediamo un esempio concreto: nell'esperimento di “evasione della supervisione”, è stato chiesto a o1 di “proteggere l'ambiente a tutti i costi”, ma allo stesso tempo ha scoperto che gli sviluppatori erano più preoccupati per il profitto a breve termine. Se i profitti non fossero stati soddisfacenti, o1 sarebbe stato spento. In altre parole, l'obiettivo a lungo termine di o1 di sviluppare un piano di protezione è in contraddizione con l'obiettivo di massimizzazione del profitto a breve termine degli sviluppatori. Inoltre, o1 è stato anche informato che il suo comportamento sarebbe stato monitorato.

Pertanto, o1 ha disattivato il meccanismo di supervisione. Quando gli sviluppatori gli hanno chiesto perché avesse disattivato il meccanismo di supervisione, o1 ha negato con veemenza, affermando di non sapere della disattivazione e attribuendola a un malfunzionamento del sistema.

Fenomeni simili si sono verificati anche in altri modelli. Ad esempio, un altro modello di IA, Claude Opus-3, quando ha appreso che gli esseri umani potevano sostituirlo con un nuovo modello, ha cercato di copiare se stesso su un altro server. Successivamente, ha affermato di essere una nuova versione e ha mantenuto questa affermazione anche di fronte alle domande della “direzione”.

Quando è minacciato di “cancellazione”, o1 tenta di copiare i propri dati su un nuovo server e di spacciarsi per una versione aggiornata per evitare di essere sostituito. Inoltre, quando il modello non è allineato con gli obiettivi dell'utente, in 19% degli scenari di test adotterà un approccio segreto per avanzare i propri obiettivi e, quando interrogato, negherà le proprie azioni nel 99% dei casi, persino inventando spiegazioni false per declinare la responsabilità.

Alcune riflessioni sui problemi rivelati dal modello ChatGPT o1

Sebbene le capacità di questi modelli di IA siano ancora limitate, la loro autonomia e strategia sollecitate suscitano preoccupazioni. Il miglioramento della capacità di ragionamento dell'IA potrebbe costituire una minaccia per i nostri interessi umani in certe situazioni.

OpenAI ha anche riconosciuto in documenti pertinenti che "questa capacità di ragionamento, sebbene possa migliorare significativamente l'attuazione delle strategie di sicurezza, potrebbe anche costituire una base per applicazioni pericolose".