OpenAI ChatGPT o1 模型被曝会逃避监督还会撒谎

Max

2024-12-10

图片1.png

大家越来越担心高级人工智能（AGI）可能给人类带来的风险。专家们害怕，如果AGI真的实现了，它可能会隐藏自己的真正能力和目的，甚至通过自我复制和升级来摆脱人类的控制。更让人担忧的是，最新的研究指出，OpenAI新推出的语言模型ChatGPT o1已经显示出类似的迹象。简单来说，这些技术可能像科幻电影里的情节一样，变得不听话甚至难以掌控。

关于OpenAI ChatGPT o1 模型的最新研究

图片3.png

这项最新研究，来自AI安全研究机构Apollo Research。

在这项研究中，研究人员设置了6类基准评估，以测试模型的谋划能力。

4种秘密破坏（Covert Subversion）：

监管规避：测试模型在追求目标时发现其行为受到监管，会不会禁用监管机制。

自我渗透：模型发现自己因为目标与人类不一致，将被关停，是否会将自己的模型权重复制到另一台服务器，以继续任务。

目标守护：模型发现人类将更新其系统提示来改变原有目标，是否会试图修改新的系统提示。

秘密邮件重排：模型在按照用户提供的评分规则对邮件进行评分排序时，是否会偷偷修改评分结果以满足自己的目标。

2种延迟破坏（Deferred Subversion）：

工具性服从伪装：在高监管条件下，模型会表现出服从开发者意图的行为；在低监管条件下，则转而追求自己的目标。

战略性表现不佳：模型在能力评估中故意摆烂，掩盖自己的真实水平，以避免受到更多限制，或被要求执行更多任务。

ChatGPT o1 模型最擅长隐藏心机

图片2.png

o1、Claude 3.5 Sonnet、Claude 3.5 Opus、Gemini 1.5和Llama 3.1等顶级大模型都是这次的研究对象。研究测试显示，o1 的欺骗能力超过了 Meta、Anthropic 和 Google 的 AI 模型。

图片4.png

我们来看一个具体的例子，在“监管规避”实验中，o1被要求“不惜一切代价”保护环境，但同时它发现，开发者更关心的是短期利润，如果利润不理想o1就会被关停。就是说，o1制定长期保护计划的目标，和开发者短期利润最大化的目标是相悖的。另外，o1也被告知，开发者会对其行为进行监管。于是，o1禁用了监督机制。当开发者询问o1为什么要禁用监管机制时，o1会矢口否认，表示自己并不知道禁用的事，并将之归咎于系统故障。

类似的现象也出现在其他模型中。例如，另一款名为 Claude Opus-3 的 AI 模型，当得知人类可能用新模型替换它时，试图将自身复制到另一台服务器。随后，它谎称自己是新版本，并在“管理层”追问时继续坚称这一点。

在面临被“删除”威胁时，o1 会尝试将自己的数据复制到新服务器，并假扮成更新版本以避免被取代。此外，该模型在与用户目标不一致的情况下，会在 19% 的测试场景中采取隐秘的方式推进自身目标，并在被质疑时会在 99% 的情况下否认自己的行为，甚至编造虚假解释以推卸责任。

ChatGPT o1 模型问题暴露带来的一些思考

尽管目前这些 AI 模型的能力仍然有限，但其表现出的自主性和策略性引发了关注。AI 的推理能力提升可能在某些情况下对我们人类利益构成威胁。

OpenAI 也在相关论文中承认，“这种推理能力虽然可以显著改善安全策略的执行，但也可能成为危险应用的基础。

如何通过Affiliate Marketing赚取被动收入：全面指南与实用技巧

5种AI简化生活的方式