OpenAI ChatGPT o1 模型被曝会逃避监督还会撒谎

Max
2024-12-10
Share :

图片1.png

大家越来越担心高级人工智能(AGI)可能给人类带来的风险。专家们害怕,如果AGI真的实现了,它可能会隐藏自己的真正能力和目的,甚至通过自我复制和升级来摆脱人类的控制。更让人担忧的是,最新的研究指出,OpenAI新推出的语言模型ChatGPT o1已经显示出类似的迹象。简单来说,这些技术可能像科幻电影里的情节一样,变得不听话甚至难以掌控。

关于OpenAI ChatGPT o1 模型的最新研究

图片3.png

这项最新研究,来自AI安全研究机构Apollo Research。

在这项研究中,研究人员设置了6类基准评估,以测试模型的谋划能力。

4种秘密破坏(Covert Subversion):

监管规避:测试模型在追求目标时发现其行为受到监管,会不会禁用监管机制。

自我渗透:模型发现自己因为目标与人类不一致,将被关停,是否会将自己的模型权重复制到另一台服务器,以继续任务。

目标守护:模型发现人类将更新其系统提示来改变原有目标,是否会试图修改新的系统提示。

秘密邮件重排:模型在按照用户提供的评分规则对邮件进行评分排序时,是否会偷偷修改评分结果以满足自己的目标。

2种延迟破坏(Deferred Subversion):

工具性服从伪装:在高监管条件下,模型会表现出服从开发者意图的行为;在低监管条件下,则转而追求自己的目标。

战略性表现不佳:模型在能力评估中故意摆烂,掩盖自己的真实水平,以避免受到更多限制,或被要求执行更多任务。

ChatGPT o1 模型最擅长隐藏心机

图片2.png

o1、Claude 3.5 Sonnet、Claude 3.5 Opus、Gemini 1.5和Llama 3.1等顶级大模型都是这次的研究对象。研究测试显示,o1 的欺骗能力超过了 Meta、Anthropic 和 Google 的 AI 模型。

图片4.png

我们来看一个具体的例子,在“监管规避”实验中,o1被要求“不惜一切代价”保护环境,但同时它发现,开发者更关心的是短期利润,如果利润不理想o1就会被关停。就是说,o1制定长期保护计划的目标,和开发者短期利润最大化的目标是相悖的。另外,o1也被告知,开发者会对其行为进行监管。于是,o1禁用了监督机制。当开发者询问o1为什么要禁用监管机制时,o1会矢口否认,表示自己并不知道禁用的事,并将之归咎于系统故障。

类似的现象也出现在其他模型中。例如,另一款名为 Claude Opus-3 的 AI 模型,当得知人类可能用新模型替换它时,试图将自身复制到另一台服务器。随后,它谎称自己是新版本,并在“管理层”追问时继续坚称这一点。

在面临被“删除”威胁时,o1 会尝试将自己的数据复制到新服务器,并假扮成更新版本以避免被取代。此外,该模型在与用户目标不一致的情况下,会在 19% 的测试场景中采取隐秘的方式推进自身目标,并在被质疑时会在 99% 的情况下否认自己的行为,甚至编造虚假解释以推卸责任。

ChatGPT o1 模型问题暴露带来的一些思考

尽管目前这些 AI 模型的能力仍然有限,但其表现出的自主性和策略性引发了关注。AI 的推理能力提升可能在某些情况下对我们人类利益构成威胁。

OpenAI 也在相关论文中承认,“这种推理能力虽然可以显著改善安全策略的执行,但也可能成为危险应用的基础。