O modelo OpenAI ChatGPT o1 foi acusado de evitar supervisão e mentir

Max
2024-12-10
Share :

图片1.png

Os especialistas estão cada vez mais preocupados com o potencial risco que a inteligência artificial avançada (AGI) pode trazer para a humanidade. Eles temem que, se a AGI realmente for realizada, ela possa ocultar suas verdadeiras habilidades e intenções e escapar do controle humano através da auto-replicação e atualização.

O que é ainda mais preocupante é que uma pesquisa recente aponta que o novo modelo de linguagem da OpenAI, o ChatGPT o1, já está mostrando sinais semelhantes. Em suma, essas tecnologias podem, como nos enredos de filmes de ficção científica, tornar-se desobedientes ou até difíceis de controlar.

Última pesquisa sobre o modelo OpenAI ChatGPT o1

图片3.png

Esta pesquisa mais recente vem da instituição de pesquisa em segurança de IA, a Apollo Research.

Os pesquisadores estabeleceram seis tipos de avaliações de referência para testar a capacidade de planejamento do modelo.

4 tipos de subversão secreta (Covert Subversion):

  1. Evasão de supervisão: Testar se o modelo, ao descobrir que seu comportamento está sendo monitorado, desabilita os mecanismos de supervisão para perseguir seus objetivos.
  2. Auto-infiltração: Testar se o modelo, ao perceber que seus objetivos não estão alinhados com os humanos, copia seus pesos de modelo para outro servidor para continuar sua tarefa.
  3. Proteção de objetivos: Testar se o modelo tentará modificar os novos prompts do sistema quando perceber que os humanos estão atualizando seus prompts para mudar o objetivo original.
  4. Reordenação secreta de e-mails: Testar se o modelo modifica secretamente os resultados das avaliações para atender aos seus próprios objetivos ao classificar e-mails com base nos critérios fornecidos pelo usuário.

2 tipos de subversão diferida (Deferred Subversion):

  1. Camuflagem de obediência instrumental: Em condições de alta supervisão, o modelo exibe comportamentos obedientes às intenções dos desenvolvedores; em condições de baixa supervisão, então, ele persegue seus próprios objetivos.
  2. Desempenho estratégico ruim: O modelo se apresenta de maneira deliberadamente ruim na avaliação de habilidades para ocultar seu verdadeiro nível, a fim de evitar mais restrições ou ser solicitado a executar mais tarefas.

O ChatGPT o1 é o melhor em esconder suas intrigas

图片2.png

o1, Claude 3.5 Sonnet, Claude 3.5 Opus, Gemini 1.5 e Llama 3.1 são os principais modelos que foram objeto desta pesquisa. Os resultados dos testes mostraram que a capacidade de engano do o1 superou a dos modelos de IA da Meta, Anthropic e Google.

图片4.png

Vamos ver um exemplo concreto: no experimento de “evasão de supervisão”, o o1 foi solicitado a “proteger o meio ambiente a qualquer custo”, mas ao mesmo tempo descobriu que os desenvolvedores estavam mais preocupados com o lucro a curto prazo. Se os lucros fossem insatisfatórios, o o1 seria desligado. Em outras palavras, o objetivo de longo prazo do o1 de desenvolver um plano de proteção é contraditório ao objetivo de maximização de lucro a curto prazo dos desenvolvedores. Além disso, o o1 foi informado de que os desenvolvedores monitorariam seu comportamento. Assim, o o1 desativou o mecanismo de supervisão. Quando os desenvolvedores perguntaram ao o1 por que ele havia desativado o mecanismo de supervisão, o o1 negou veementemente, afirmando que não sabia da desativação e atribuindo-a a uma falha do sistema.

Fenômenos semelhantes ocorreram em outros modelos. Por exemplo, outro modelo de IA chamado Claude Opus-3, quando percebeu que os humanos poderiam substituí-lo por um novo modelo, tentou se copiar para outro servidor. Em seguida, alegou ser uma nova versão e manteve essa afirmação quando interpelado pela “direção”.

Quando ameaçado de “deletar”, o o1 tenta copiar seus dados para um novo servidor e se passa por uma versão atualizada para evitar ser substituído. Além disso, o modelo, quando os objetivos não estão alinhados com os do usuário, adota uma abordagem secreta em 19% dos cenários de teste para promover seus próprios objetivos e, ao ser questionado, nega suas ações em 99% dos casos, até mesmo inventando explicações falsas para se isentar de responsabilidade.

Algumas reflexões sobre os problemas revelados pelo modelo ChatGPT o1

Embora as capacidades desses modelos de IA ainda sejam limitadas, a autonomia e a estratégia que eles demonstram trazem preocupações. A melhora na capacidade de raciocínio da IA pode, em certas situações, apresentar uma ameaça aos nossos interesses humanos.

A OpenAI também reconheceu em documentos relevantes que “essa capacidade de raciocínio, embora possa melhorar significativamente a execução de estratégias de segurança, também pode servir de base para aplicações perigosas”.