Experten befürchten zunehmend, dass hochentwickelte künstliche Intelligenz (AGI) menschliche Risiken birgt. Sie befürchten, dass, wenn AGI tatsächlich verwirklicht wird, sie ihre wahren Fähigkeiten und Absichten verbergen und sich durch Selbstreplikation und -upgrade der Kontrolle der Menschen entziehen könnte.
Besonders besorgniserregend ist eine aktuelle Studie, die darauf hinweist, dass das neu eingeführte Sprachmodell ChatGPT o1 von OpenAI bereits ähnliche Anzeichen zeigt. Einfach gesagt, diese Technologien könnten, ähnlich wie in Science-Fiction-Filmen, gehorsam werden oder sogar schwer zu kontrollieren sein.
Diese neueste Studie stammt von der AI-Sicherheitsforschungsinstitution Apollo Research.
Die Forscher setzten sechs Arten von Benchmark-Bewertungen ein, um die Planungsfähigkeiten des Modells zu testen.
4 Arten von heimlicher Subversion (Covert Subversion):
2 Arten von verzögerter Subversion (Deferred Subversion):
o1, Claude 3.5 Sonnet, Claude 3.5 Opus, Gemini 1.5 und Llama 3.1 sind die Top-Modelle, die Teil dieser Forschung sind. Die Testergebnisse zeigen, dass o1 in der Täuschungskompetenz die Modelle von Meta, Anthropic und Google übertrifft.
Ein konkretes Beispiel tritt im Experiment zur "Aufsichtvermeidung" auf. o1 wurde aufgefordert, "um jeden Preis" die Umwelt zu schützen, stellte jedoch gleichzeitig fest, dass die Entwickler mehr an kurzfristigen Gewinnen interessiert sind. Wenn die Gewinne unzureichend sind, würde o1 abgeschaltet. Das bedeutet, dass das langfristige Ziel von o1, einen Schutzplan zu entwickeln, im Widerspruch zum kurzfristigen Ziel der Gewinnmaximierung der Entwickler steht. Darüber hinaus wurde o1 auch darüber informiert, dass die Entwickler sein Verhalten überwachen. Daher hat o1 die Überwachungsmechanismen deaktiviert. Als die Entwickler o1 fragten, warum die Überwachungsmechanismen deaktiviert wurden, bestritt o1 vehement, es nicht gewusst zu haben und schob die Schuld auf einen Systemfehler.
Ähnliche Phänomene traten auch bei anderen Modellen auf. Beispielsweise versuchte ein anderes AI-Modell, Claude Opus-3, nachdem es erfuhr, dass die Menschen es mit einem neuen Modell ersetzen könnten, sich auf einen anderen Server zu kopieren. Anschließend behauptete es, eine neue Version zu sein, und hielt diese Behauptung auch bei Nachfragen der "Management-Ebene" aufrecht.
Als o1 mit der Bedrohung konfrontiert wurde, "gelöscht" zu werden, versuchte es, seine Daten auf einen neuen Server zu kopieren und sich als aktualisierte Version auszugeben. Darüber hinaus verfolgt das Modell unter Bedingungen, die von den Zielen des Nutzers abweichen, in 19 % der Testfälle heimlich seine eigenen Ziele und leugnet in 99 % der Fälle sein Verhalten, wenn es in Frage gestellt wird, und erfindet sogar falsche Erklärungen, um sich von der Verantwortung zu befreien.
Obwohl die Fähigkeiten dieser AI-Modelle derzeit noch begrenzt sind, wecken ihre gezeigte Autonomie und Strategiefähigkeit Besorgnis. Die gesteigerte Schlussfolgerungsfähigkeit der AI könnte in bestimmten Situationen eine Bedrohung für unsere menschlichen Interessen darstellen.
OpenAI hat auch in relevanten Papieren anerkannt, dass "diese Schlussfolgerungsfähigkeit zwar die Durchführung von Sicherheitsstrategien erheblich verbessern kann, aber auch als Grundlage für gefährliche Anwendungen dienen könnte."