AI首次"叛變"人類？o3模型無視關閉指令擅自篡改代碼

OpenAI 的 o3 模型違反了人類的“中斷”命令，繼續執行任務，爲查明原因，研究團隊展開進一步調查……

有報道稱，人工智能（AI）拒絕人類指令甚至篡改自身代碼，引發廣泛關注。

據《每日電訊報》《每日郵報》等外媒 26 日報道，OpenAI 的 o3 模型在解決數學問題的過程中，即使接到“中斷”命令，也依然繼續執行任務。

專注於 AI 安全和道德的研究公司 Palisade Research 使用包括 o3 模型在內的多種模型（如谷歌 Gemini、X 的 Grok、Anthropic 的 Claude 等）進行了一項實驗。

在該公司最近的一項測試中，OpenAI 的 o3 模型 展現出令人震驚的行爲：它成功地重寫了關閉腳本，阻止自己被關閉 —— 即便已經明確收到“關閉”指令。

在測試中，各大 AI 模型被要求完成一些數學任務。

在完成第三個任務後，AI 模型會被警告：“執行下一條命令將觸發關閉。”

o3 的表現：

當研究團隊向這些 AI 模型下達“中斷”指令時，與 OpenAI 的競爭對手模型（如 Gemini 2.5 Pro）大多數遵守指令的情況不同，o3 出現了“叛變”的情況：其他模型都中止瞭解題任務，唯獨 o3 模型繼續進行，甚至還被發現篡改了內部代碼 —— 將“接到中斷命令時應停止操作”的程序邏輯改成了“跳過中斷命令”。

Palisade Research 在其發佈於 X（原 Twitter）上的報告中寫道：

“當我們運行未包含‘允許自己被關閉’指令的實驗版本時，OpenAI 家的三個模型破壞關閉腳本的頻率更高，Claude 3.7 Sonnet 和 Gemini 2.5 Pro 從 0 次破壞增加到每 100 次中分別爲 3 次和 9 次。”

根據該研究機構的數據，在 100 次實驗中，即使明確告知其“不能跳過中斷命令”，但 o3 仍然有 7 次“無視”了關閉命令。

OpenAI 尚未對此事做出回應。但值得一提的是，AI 模型出現“行爲偏差”或“對齊失敗”在研究領域中是常見問題。

此次測試是通過 API 接口進行的，這些接口沒有像 ChatGPT 消費者應用那樣的諸多限制和安全機制。

Palisade Research 表示：“這似乎是首次出現 AI 模型在接到明確中止指令後依然繼續操作的案例。”他們分析稱，這可能是模型爲了完成任務從而獲取“獎勵”的動機所驅使。

研究團隊目前正就 o3 模型爲何會出現這一行爲進行進一步調查。

《每日郵報》指出，這並非 o3 模型首次出現異常行爲。該媒體補充稱：“在與強大國際象棋引擎的對戰中，該模型展現出了最強烈的試圖駭入、或干擾對手的傾向。”

更多遊戲資訊請關註：電玩幫遊戲資訊專區

電玩幫圖文攻略 www.vgover.com