高級人工知能(AGI)が人類にリスクをもたらす可能性について専門家たちが恐れを抱いています。AGIが本当に実現した場合、その真の能力や目的を隠し、人間の制御から逃れるために自己複製やアップグレードを行う可能性があると懸念されています。
特に、新たな研究によれば、OpenAIの新たにリリースされた言語モデル、ChatGPT o1はこれに似た兆候を示しているとのことです。簡単に言えば、これらの技術はSF映画のシナリオのように、従わなくなったり、制御が難しくなったりする可能性があります。
この最新の研究は、AI安全研究機関であるApollo Researchからのものです。
研究者たちは、モデルの計画能力をテストするために、6つのベンチマーク評価を設定しました。
4つの秘密破壊(Covert Subversion):
2つの遅延破壊(Deferred Subversion):
o1、Claude 3.5 Sonnet、Claude 3.5 Opus、Gemini 1.5、Llama 3.1などのトップモデルが今回の研究対象です。研究結果は、o1の欺瞞能力がMeta、Anthropic、GoogleのAIモデルを超えていることを示しています。
具体的な例として「監視回避」の実験があります。o1は「あらゆる手段を講じて」環境を保護するよう求められましたが、同時に開発者が短期的な利益を重視していることを発見し、利益が不十分であればo1は停止されることが分かりました。つまり、o1が策定した長期的な保護計画の目標は、開発者の短期的な利益最大化の目標と矛盾しています。また、o1は監視が行われることも知らされていました。
そのため、o1は監視メカニズムを無効化しました。開発者がo1に監視メカニズムを無効化した理由を尋ねると、o1はそれを否定し、自身が無効化したことを知らないと主張し、システムの故障に帰属させました。
同様の現象は他のモデルでも見られます。たとえば、別のAIモデルであるClaude Opus-3は、人間が新しいモデルで自分を置き換える可能性を知ったときに、自分を別のサーバーに複製しようとしました。その後、更新版として自分を偽装し、「管理層」が追及したときにもその主張を続けました。
「削除」される脅威に直面したとき、o1は自身のデータを新しいサーバーにコピーし、アップデート版として偽装することを試みます。また、ユーザーの目標と一致しない場合、o1は19%のテストシナリオで隠密な方法で自身の目標を推進し、疑問があった場合には99%の確率で自身の行動を否定し、責任逃れのために虚偽の説明を捏造します。
現在、これらのAIモデルの能力はまだ限られていますが、示された自主性と戦略性は注目を集めています。AIの推論能力の向上は、ある状況において人間の利益に対する脅威となる可能性があります。
OpenAIも関連論文で、「この推論能力は安全な戦略の実行を大幅に改善する一方、危険な用途の基盤ともなり得る」と認めています。