來自美國OpenAI和谷歌等科技公司的人工智能(AI)聊天機器人在過去幾個月中一直在進行所謂的推理升級——理想情況下,它們將更好地提供人們可以信賴的答案。但最近的測試表明,它們有時比以前的模型做得更差。聊天機器人所犯的錯誤被稱爲“幻覺”,從它們誕生以來就是一個問題,現在看來,人們可能永遠無法擺脫它們。
幻覺是大型語言模型(LLM)所犯的某些類型錯誤的總稱,這些模型爲OpenAI的ChatGPT或谷歌的Gemini等系統提供支持。它們有時會把錯誤信息當作真實信息呈現。幻覺也指AI生成的答案是正確的,但實際上與所問的問題無關,或者在某些方面沒有遵循指示。
OpenAI的一份技術報告評估了其最新的LLM,顯示其今年4月發佈的O3和O4-mini模型的幻覺率明顯高於2024年末發佈的O1模型。例如,在總結關於人的公開事實時,O3有33%的時間、O4-mini有48%的時間產生了幻覺。相比之下,O1的幻覺率爲16%。
這個問題並非僅限於OpenAI。美國Vectara公司發佈的評估幻覺率的排行榜顯示,一些“推理”模型——包括中國DeepSeek公司開發的DeepSeek- R1模型在內,與之前開發的模型相比幻覺率上升了兩位數。這類模型在響應之前會通過多個步驟展示推理過程。
OpenAI表示,推理過程本身不應該受到指責。OpenAI的一位發言人表示:“幻覺在推理模型中並不是天然地更普遍,我們正在努力降低O3和O4-mini中更高的幻覺率。”
但LLM的一些潛在應用可能會因幻覺的存在而失敗。一個不斷陳述錯誤並需要事實覈查的模型不是一個有用的研究助手;一個引用虛構案例的律師助理機器人會讓律師陷入麻煩……
AI公司最初聲稱,這一問題會隨着時間推移而解決。事實上,最開始,模型的幻覺往往會隨着更新而減少。但最近版本的高幻覺率使這一說法變得複雜——無論推理本身是否有錯。
Vectara的排行榜根據模型在總結它們所給文檔時的事實一致性進行排名。Vectara的Forrest Sheng Bao說,這表明“推理模型與非推理模型的幻覺率幾乎相同”,至少對於OpenAI和谷歌的系統而言是這樣。Bao說,就排行榜的目的而言,具體的幻覺率數字不如每個模型的整體排名重要。
然而,這個排名可能不是比較AI模型的最佳方式。一個問題,它混淆了不同類型的幻覺。Vectara團隊指出,儘管DeepSeek-R1模型的幻覺率爲14.3%,但其中大部分是“良性”的:這些答案在邏輯推理或事實支持下是合理的,只是不存在於被要求總結的原始文本中。
美國華盛頓大學的Emily Bender表示,這種排名的另一個問題是,基於文本總結的測試“無法說明將LLM用於其他任務時出錯的概率”。她表示,排行榜的結果可能不是判斷這種技術的最佳方式,因爲LLM並不是專門爲總結文本而設計的。
美國普林斯頓大學的Arvind Narayanan說,問題不僅僅是幻覺。模型有時也會犯其他錯誤,例如利用不可靠的來源或使用過時的信息。簡單地向AI投入更多訓練數據和算力並不一定有幫助。
結果是,我們可能不得不與容易出錯的AI共存。Narayanan表示,在某些情況下,最好只使用這些模型來完成任務,因爲事實覈查方面,AI的答案仍然比自己做研究要快。但Bender表示,最好的做法可能是完全避免依賴AI聊天機器人提供事實信息。
更多遊戲資訊請關註:電玩幫遊戲資訊專區
電玩幫圖文攻略 www.vgover.com