AI首次"叛變"人類?o3模型無視關閉指令擅自篡改代碼

OpenAI 的 o3 模型違反了人類的“中斷”命令,繼續執行任務,爲查明原因,研究團隊展開進一步調查……

有報道稱,人工智能(AI)拒絕人類指令甚至篡改自身代碼,引發廣泛關注。

據《每日電訊報》《每日郵報》等外媒 26 日報道,OpenAI 的 o3 模型在解決數學問題的過程中,即使接到“中斷”命令,也依然繼續執行任務。

專注於 AI 安全和道德的研究公司 Palisade Research 使用包括 o3 模型在內的多種模型(如谷歌 Gemini、X 的 Grok、Anthropic 的 Claude 等)進行了一項實驗。

在該公司最近的一項測試中,OpenAI 的 o3 模型 展現出令人震驚的行爲:它成功地重寫了關閉腳本,阻止自己被關閉 —— 即便已經明確收到“關閉”指令。

在測試中,各大 AI 模型被要求完成一些數學任務。

在完成第三個任務後,AI 模型會被警告:“執行下一條命令將觸發關閉。”

o3 的表現:

當研究團隊向這些 AI 模型下達“中斷”指令時,與 OpenAI 的競爭對手模型(如 Gemini 2.5 Pro)大多數遵守指令的情況不同,o3 出現了“叛變”的情況:其他模型都中止瞭解題任務,唯獨 o3 模型繼續進行,甚至還被發現篡改了內部代碼 —— 將“接到中斷命令時應停止操作”的程序邏輯改成了“跳過中斷命令”。

Palisade Research 在其發佈於 X(原 Twitter)上的報告中寫道:

“當我們運行未包含‘允許自己被關閉’指令的實驗版本時,OpenAI 家的三個模型破壞關閉腳本的頻率更高,Claude 3.7 Sonnet 和 Gemini 2.5 Pro 從 0 次破壞增加到每 100 次中分別爲 3 次和 9 次。”

根據該研究機構的數據,在 100 次實驗中,即使明確告知其“不能跳過中斷命令”,但 o3 仍然有 7 次“無視”了關閉命令

OpenAI 尚未對此事做出回應。但值得一提的是,AI 模型出現“行爲偏差”或“對齊失敗”在研究領域中是常見問題。

此次測試是通過 API 接口進行的,這些接口沒有像 ChatGPT 消費者應用那樣的諸多限制和安全機制

Palisade Research 表示:“這似乎是首 次出現 AI 模型在接到明確中止指令後依然繼續操作的案例。”他們分析稱,這可能是模型爲了完成任務從而獲取“獎勵”的動機所驅使。

研究團隊目前正就 o3 模型爲何會出現這一行爲進行進一步調查。

《每日郵報》指出,這並非 o3 模型首 次出現異常行爲。該媒體補充稱:“在與強大國際象棋引擎的對戰中,該模型展現出了最 強烈的試圖駭入、或干擾對手的傾向。”

更多遊戲資訊請關註:電玩幫遊戲資訊專區

電玩幫圖文攻略 www.vgover.com