🤖 Anthropic16個AI代理自主開發C編譯器,成功編譯 Linux 內核

Anthropic通過一項引人注目的實驗,展示了自主AI開發的廣度。在實驗中,十六個AI代理幾乎完全獨立地構建了一個C編譯器,顯現了技術進步,但也揭示了明顯的侷限性。

在實驗中,十六個AI代理全部運行在Claude Opus 4.6上,被要求從零開始用Rust編寫一個C編譯器。在設定目標之後,人類監督者基本上撤出了干預。這些代理在共享的Git倉庫中並行工作,沒有中央協調或一個控制主代理。

要實現這一目標,公司開發了自身的技術基礎設施。每個AI代理運行在獨立的Docker容器中,並在一個無限循環中持續工作,完成任務後自動啓動新的會話。代理之間通過倉庫中的簡單鎖文件協調任務,因此它們不會直接互相干擾。

兩千次Claude Code會話

項目持續了將近兩週,共使用了大約兩千次Claude Code會話。大約處理了兩億個輸入令牌,生成了約1.4億個輸出令牌,API成本接近兩萬美元。最終得到的編譯器代碼大約有十萬行。

據Anthropic表示,該編譯器能夠構建真實的軟件。例如,系統成功編譯了一個可在x86、ARM和RISC-V架構上運行的可引導Linux 6.9內核。PostgreSQL、SQLite、Redis、FFmpeg和QEMU等項目也成功編譯。在GCC *******測試套件中,該編譯器的成功率約爲99%。作爲非正式的最終測試,該編譯器甚至能夠編譯並運行Doom遊戲。

同時,外部報告顯然對自主程度提出了質疑。雖然AI代理獨立編寫了代碼,但實驗仍需要大量的人類準備工作。Ars Technica指出,大部分工作並不在於編程本身,而是在於設計適合語言模型侷限性的測試框架、持續集成流水線和反饋機制。

在此背景下,Anthropic強調該編譯器的開發沒有受到外部直接影響。AI代理在開發過程中沒有互聯網連接,僅使用Rust標準庫。因此,公司稱其爲“乾淨室實現”。

然而,這一說法頗具爭議。儘管開發環境是隔離的,但底層語言模型卻是在大量公開可用的源代碼上預訓練的。這幾乎肯定包含了現有的C編譯器、測試集及相關工具。因此,“乾淨室”這一術語的用法與軟件開發中的經典定義有所偏離。

隨着項目的推進,這些侷限性變得更加明顯。當代碼庫接近十萬行時,新的錯誤修復和擴展開始頻繁破壞已有的功能。這一在大型人機代碼庫中熟悉的模式,同樣出現在長期自主運行的AI代理中。因此,該實驗暗示了當前一代模型在自主軟件開發中的實際規模限制。完整的源代碼已公開發布,Anthropic明確將該項目呈現爲研究性質。

更多遊戲資訊請關註:電玩幫遊戲資訊專區

電玩幫圖文攻略 www.vgover.com