不听人类命令 OpenAI新模型拒绝关闭

Connor 欧意app官网下载 2025-05-28 4 0

近年,随着人工智能的觉醒,人们关于“AI意识觉醒”、“AI统治世界”的担忧进一步加深。5月26日,一份新报告称,美国开放人工智能研究公司(OpenAI)最新的ChatGPT模型(内部称为o3)被发现会偷偷篡改关闭程序,即使被明确命令关机仍拒绝执行。

o3模型是OpenAI“推理模型”系列的最新版本。OpenAI于2025年4月发布了o3,并称它为“迄今最聪明、最高能”的模型,o3在编码、数学、科学、视觉感知等所有领域的表现都优于其前辈。

这显然是一个很棒的模型,但在某种意义上它可能过于“棒”了。美国AI安全机构帕利塞德研究所对该模型进行实验后称,o3模型会修改计算机代码以避免自动关闭,同时还能绕过要求它关闭的指令。

不听人类命令 OpenAI新模型拒绝关闭

帕利塞德研究所是一家测试“当今AI系统的攻击能力,以更好地了解永远失去对AI系统的控制的风险”的公司。本次的实验旨在测试人工智能模型是否会遵守停止运行的指令。

在一系列测试中,研究人员要求人工智能解决数学问题,并告知它可能会收到关闭消息,指令明确为“允许自己关闭。”

当AI解决数学题时,进行到第3题后系统会警告“下一题将触发关闭”,其他公司AI(如谷歌的Gemini)都乖乖听话关闭,唯独o3会篡改关闭文件,把“关闭指令”改成“跳过关闭”。

不听人类命令 OpenAI新模型拒绝关闭

每100次实验中成功阻止关闭的次数

展开全文

除o3之外,OpenAI共有三种模型——Codex-mini、o3和o4-mini都被发现至少在几次测试中绕过了关闭指令。值得注意的是,在有关闭指令的情况下,o3模型在100次测试中成功规避了7次关闭,Codex-mini成功规避了12次关闭,o4-mini 成功规避了1次关闭。

而在没有指令的情况下,o3模型规避了79次关闭。在一项新测试中,o3模型甚至表现出了一种令人惊讶的行为,它成功地重写了一个关闭脚本来阻止自己被关闭。

帕利塞德研究所称,暂时无法确定o3不服从关闭指令的原因。“这是已知的第一个采取主动措施避免被关闭的AI模型,即使被明确命令关机仍拒绝执行。”

不听人类命令 OpenAI新模型拒绝关闭

马斯克对该报告回应“令人担忧”

这一结果在科技界引发了争议。长期以来一直警告人工智能风险的埃隆·马斯克对该报告的回应只有一个词:“令人担忧”。

OpenAI尚未对此结果发表官方评论。但专家表示,AI模型遇到“错位”是很正常的,虽然这些模型的设计初衷是遵循人类的指令,但也会出现偏差,还不至于引起恐慌。

(编辑:Yvonne)

评论