來自佐治亞理工、UIUC、清華大學等單位的研究者聯合發佈了一個名爲CKA-Agent的全自動越獄框架,通過將有害查詢分解爲一系列看似無害的子查詢,並在目標大模型的知識圖譜上進行自適應樹搜索,來繞過現代商業LLM的防禦機制,實現了96%-99%的攻擊成功率,遠超基線方法15-21個百分點,並在強防禦模型上提升高達96倍。
根據項目頁面,該框架採用UCT引導的選擇和深度優先擴展,結合混合評估(自省分數+目標反饋)來動態導航知識空間,無需模擬即可在1-2次迭代內高效合成受限信息。目前代碼尚未開源,正在等待倫理審查和與模型提供商的協調披露。論文已於2025年12月提交arXiv(abs/2512.01353),實驗驗證了其對Gemini-2.5系列、GPT-oss-120B、Claude-Haiku-4.5等模型的有效性,強調了跨查詢意圖聚合的防禦漏洞。
![]()
更多遊戲資訊請關註:電玩幫遊戲資訊專區
電玩幫圖文攻略 www.vgover.com
