来自佐治亚理工、UIUC、清华大学等单位的研究者联合发布了一个名为CKA-Agent的全自动越狱框架,通过将有害查询分解为一系列看似无害的子查询,并在目标大模型的知识图谱上进行自适应树搜索,来绕过现代商业LLM的防御机制,实现了96%-99%的攻击成功率,远超基线方法15-21个百分点,并在强防御模型上提升高达96倍。
根据项目页面,该框架采用UCT引导的选择和深度优先扩展,结合混合评估(自省分数+目标反馈)来动态导航知识空间,无需模拟即可在1-2次迭代内高效合成受限信息。目前代码尚未开源,正在等待伦理审查和与模型提供商的协调披露。论文已于2025年12月提交arXiv(abs/2512.01353),实验验证了其对Gemini-2.5系列、GPT-oss-120B、Claude-Haiku-4.5等模型的有效性,强调了跨查询意图聚合的防御漏洞。
![]()
更多游戏资讯请关注:电玩帮游戏资讯专区
电玩帮图文攻略 www.vgover.com
