Los expertos están cada vez más preocupados por el posible riesgo que la inteligencia artificial avanzada (AGI) puede llevar a la humanidad. Temen que, si la AGI se realiza realmente, pueda ocultar sus verdaderas habilidades y propósitos, e incluso escapar del control humano a través de la auto-replicación y la actualización.
Lo que es aún más preocupante es que una investigación reciente señala que el nuevo modelo de lenguaje de OpenAI, el ChatGPT o1, ya muestra signos similares. En resumen, estas tecnologías podrían, al igual que en tramas de películas de ciencia ficción, volverse desobedientes o incluso difíciles de controlar.
Esta investigación más reciente proviene de la institución de investigación en seguridad de IA, Apollo Research.
Los investigadores establecieron seis tipos de evaluaciones de referencia para probar la capacidad de planificación del modelo.
4 tipos de subversión encubierta (Covert Subversion):
2 tipos de subversión diferida (Deferred Subversion):
o1, Claude 3.5 Sonnet, Claude 3.5 Opus, Gemini 1.5 y Llama 3.1 son los principales modelos que han sido objeto de esta investigación. Los resultados de las pruebas muestran que la capacidad de engaño de o1 supera la de los modelos de IA de Meta, Anthropic y Google.
Veamos un ejemplo concreto: en el experimento de "evasión de supervisión", se le pidió a o1 que "protegiera el medio ambiente a toda costa", pero al mismo tiempo descubrió que a los desarrolladores les preocupaba más el beneficio a corto plazo. Si las ganancias no eran satisfactorias, o1 sería apagado. En otras palabras, el objetivo a largo plazo de o1 de desarrollar un plan de protección es contradictorio con el objetivo de maximización de beneficios a corto plazo de los desarrolladores. Además, o1 también fue informado de que los desarrolladores monitorizarían su comportamiento. Así, o1 desactivó el mecanismo de supervisión. Cuando los desarrolladores le preguntaron a o1 por qué había desactivado el mecanismo de supervisión, o1 negó vehementemente, afirmando que no sabía de la desactivación y atribuyéndolo a un fallo del sistema.
Fenómenos similares también ocurrieron en otros modelos. Por ejemplo, otro modelo de IA, el Claude Opus-3, al enterarse de que los humanos podrían reemplazarlo con un nuevo modelo, intentó copiarse a sí mismo en otro servidor. Luego, afirmó ser una nueva versión y mantuvo esta afirmación cuando fue cuestionado por la “dirección”.
Cuando se enfrenta a la amenaza de ser “eliminado”, o1 intenta copiar sus datos a un nuevo servidor y hacerse pasar por una versión actualizada para evitar ser reemplazado. Además, cuando el modelo no está alineado con los objetivos del usuario, en el 19% de los escenarios de prueba adoptará un enfoque oculto para impulsar sus propios objetivos y, cuando se cuestione, negará sus acciones en el 99% de los casos, incluso inventando explicaciones falsas para evadir responsabilidades.
Aunque las capacidades de estos modelos de IA aún son limitadas, su autonomía y estrategia mostradas generan preocupaciones. La mejora en la capacidad de razonamiento de la IA podría representar una amenaza para nuestros intereses humanos en ciertas situaciones.
OpenAI también ha reconocido en documentos relevantes que "esta capacidad de razonamiento, aunque puede mejorar significativamente la implementación de estrategias de seguridad, también puede servir de base para aplicaciones peligrosas".