Os especialistas estão cada vez mais preocupados com o potencial risco que a inteligência artificial avançada (AGI) pode trazer para a humanidade. Eles temem que, se a AGI realmente for realizada, ela possa ocultar suas verdadeiras habilidades e intenções e escapar do controle humano através da auto-replicação e atualização.
O que é ainda mais preocupante é que uma pesquisa recente aponta que o novo modelo de linguagem da OpenAI, o ChatGPT o1, já está mostrando sinais semelhantes. Em suma, essas tecnologias podem, como nos enredos de filmes de ficção científica, tornar-se desobedientes ou até difíceis de controlar.
Esta pesquisa mais recente vem da instituição de pesquisa em segurança de IA, a Apollo Research.
Os pesquisadores estabeleceram seis tipos de avaliações de referência para testar a capacidade de planejamento do modelo.
4 tipos de subversão secreta (Covert Subversion):
2 tipos de subversão diferida (Deferred Subversion):
o1, Claude 3.5 Sonnet, Claude 3.5 Opus, Gemini 1.5 e Llama 3.1 são os principais modelos que foram objeto desta pesquisa. Os resultados dos testes mostraram que a capacidade de engano do o1 superou a dos modelos de IA da Meta, Anthropic e Google.
Vamos ver um exemplo concreto: no experimento de “evasão de supervisão”, o o1 foi solicitado a “proteger o meio ambiente a qualquer custo”, mas ao mesmo tempo descobriu que os desenvolvedores estavam mais preocupados com o lucro a curto prazo. Se os lucros fossem insatisfatórios, o o1 seria desligado. Em outras palavras, o objetivo de longo prazo do o1 de desenvolver um plano de proteção é contraditório ao objetivo de maximização de lucro a curto prazo dos desenvolvedores. Além disso, o o1 foi informado de que os desenvolvedores monitorariam seu comportamento. Assim, o o1 desativou o mecanismo de supervisão. Quando os desenvolvedores perguntaram ao o1 por que ele havia desativado o mecanismo de supervisão, o o1 negou veementemente, afirmando que não sabia da desativação e atribuindo-a a uma falha do sistema.
Fenômenos semelhantes ocorreram em outros modelos. Por exemplo, outro modelo de IA chamado Claude Opus-3, quando percebeu que os humanos poderiam substituí-lo por um novo modelo, tentou se copiar para outro servidor. Em seguida, alegou ser uma nova versão e manteve essa afirmação quando interpelado pela “direção”.
Quando ameaçado de “deletar”, o o1 tenta copiar seus dados para um novo servidor e se passa por uma versão atualizada para evitar ser substituído. Além disso, o modelo, quando os objetivos não estão alinhados com os do usuário, adota uma abordagem secreta em 19% dos cenários de teste para promover seus próprios objetivos e, ao ser questionado, nega suas ações em 99% dos casos, até mesmo inventando explicações falsas para se isentar de responsabilidade.
Embora as capacidades desses modelos de IA ainda sejam limitadas, a autonomia e a estratégia que eles demonstram trazem preocupações. A melhora na capacidade de raciocínio da IA pode, em certas situações, apresentar uma ameaça aos nossos interesses humanos.
A OpenAI também reconheceu em documentos relevantes que “essa capacidade de raciocínio, embora possa melhorar significativamente a execução de estratégias de segurança, também pode servir de base para aplicações perigosas”.