🤖 Anthropic16个AI代理自主开发C编译器,成功编译 Linux 内核

Anthropic通过一项引人注目的实验,展示了自主AI开发的广度。在实验中,十六个AI代理几乎完全独立地构建了一个C编译器,显现了技术进步,但也揭示了明显的局限性。

在实验中,十六个AI代理全部运行在Claude Opus 4.6上,被要求从零开始用Rust编写一个C编译器。在设定目标之后,人类监督者基本上撤出了干预。这些代理在共享的Git仓库中并行工作,没有中央协调或一个控制主代理。

要实现这一目标,公司开发了自身的技术基础设施。每个AI代理运行在独立的Docker容器中,并在一个无限循环中持续工作,完成任务后自动启动新的会话。代理之间通过仓库中的简单锁文件协调任务,因此它们不会直接互相干扰。

两千次Claude Code会话

项目持续了将近两周,共使用了大约两千次Claude Code会话。大约处理了两亿个输入令牌,生成了约1.4亿个输出令牌,API成本接近两万美元。最终得到的编译器代码大约有十万行。

据Anthropic表示,该编译器能够构建真实的软件。例如,系统成功编译了一个可在x86、ARM和RISC-V架构上运行的可引导Linux 6.9内核。PostgreSQL、SQLite、Redis、FFmpeg和QEMU等项目也成功编译。在GCC *******测试套件中,该编译器的成功率约为99%。作为非正式的最终测试,该编译器甚至能够编译并运行Doom游戏。

同时,外部报告显然对自主程度提出了质疑。虽然AI代理独立编写了代码,但实验仍需要大量的人类准备工作。Ars Technica指出,大部分工作并不在于编程本身,而是在于设计适合语言模型局限性的测试框架、持续集成流水线和反馈机制。

在此背景下,Anthropic强调该编译器的开发没有受到外部直接影响。AI代理在开发过程中没有互联网连接,仅使用Rust标准库。因此,公司称其为“干净室实现”。

然而,这一说法颇具争议。尽管开发环境是隔离的,但底层语言模型却是在大量公开可用的源代码上预训练的。这几乎肯定包含了现有的C编译器、测试集及相关工具。因此,“干净室”这一术语的用法与软件开发中的经典定义有所偏离。

随着项目的推进,这些局限性变得更加明显。当代码库接近十万行时,新的错误修复和扩展开始频繁破坏已有的功能。这一在大型人机代码库中熟悉的模式,同样出现在长期自主运行的AI代理中。因此,该实验暗示了当前一代模型在自主软件开发中的实际规模限制。完整的源代码已公开发布,Anthropic明确将该项目呈现为研究性质。

更多游戏资讯请关注:电玩帮游戏资讯专区

电玩帮图文攻略 www.vgover.com