AI 告訴你可以把文件發到你郵箱,然後又告訴你作爲一個 AI,我沒有發送文件的能力
AI 給你引了一個參考文獻,你告訴他文獻之後不存在之後他鞠躬道歉然後又編了一篇假的
AI 道歉之後讓你去找他要賠償,轉頭告訴你 AI 是沒有能力進行賠償的
是的,這就是 AI 左右腦互搏的日常,相信各位盒友也遇到過那麼 AI 爲什麼會左右腦互搏,編造不存在的內容呢?這篇文章告訴你答案
AI 的運行原理
首先,我們得搞懂 AI 究竟是怎麼生成這段文字的,雖然 AI 一直都是高智商的形象,但是現在我要告訴你一個事實:
AI 並不會思考和想象,他們只會背誦和預測
下面,我們來講解一下 AI 是如何進行預測的,我會用[mask]代表這裏應該有文本,但是被人爲“遮住”了,讓 AI 預測 [mask] 中的內容是什麼
這裏有一段話:終於放假了,我要去看首都的天安門,搜搜從家怎麼去[mask]
首先,AI 作爲一個數學模型,他看不懂任何一種語言,他只能看得懂數字序列,所以我們需要一個分詞器(tokenizer)來把文字轉換成 AI 看得懂的數字。現在,上面那段話變成了:
終於 放假 了 ,我 要去 看 首都 的 天安門 ,搜搜 從家 怎麼 去 [mask]
實際上這段話會變成類似於[101, 2769, 2521, 1377, 872, 749, 511, 102]這種序列,並同時編碼句子順序和詞語順序,但是如果這樣在座的各位就看不懂了,所以我們只進行分詞操作來代表這步
然後自注意力機制就會啓動了,這個機制會自動構建詞與詞之間的關係,並嘗試識別出句子中的重點是什麼,自注意力之後:
終於 放假 了 ,我 要去 看 首都 的 天安門 ,搜搜 從家 怎麼 去 [mask]
同時 AI 會構建出[mask]這個位置和整個句子的關係:
[mask] 在“去”之後,它應該是個名詞
“去”反覆出現了兩次,[mask] 應該是個地點
“天安門”是去 [mask] 的目的,所以[mask]有“天安門”這個特徵
“首都”是“天安門”的修飾詞,[mask]是有“天安門”的“首都”
當前語境是中文,“首都”應該是中文國家的首都
然後 AI 成功構建出了 [mask] 的特徵:一箇中文國家的首都,有“天安門”這個特徵,並且是一個地點
然後 AI 就會開始用自己記憶庫中的內容找最符合的詞彙,根據相關性構建出如下列表:
北京:符合“中文國家的首都”、“天安門”、“地點”
天安門:符合“天安門”、“地點”
東京:符合“首都”、“地點”
天津:符合“地點”
AI 會根據相關性計算每個選項的得分,最終選擇最高的輸出出去,上述句子就變成了:
終於 放假 了 ,我 要去 看 首都 的 天安門 ,搜搜 從家 怎麼 去 北京
然後分詞器再次工作,把它還原成人類看得懂的語言:
終於放假了,我要去看首都的天安門,搜搜從家怎麼去北京
現在,AI 已經完成了一次預測,成功補全了 [mask] 中的內容
訓練和指導
你會發現一個問題:AI 好像只會順着你的話說,不會回答問題啊?
是的,AI 只有預測當前序列的下一項的能力
那爲什麼我們用的 AI 不會順着我的話說,而是會回答問題呢?
因爲你用的 AI 進行了專門的問答訓練,這就是導致 AI 左右腦互搏的一個重要原因
我們上文說到了,AI 需要從記憶庫中匹配選項,而他的記憶庫完全來自於訓練使用的數據集,這就是他們知道的所有事情,假如我們讓 AI 針對大量的問答類對話記錄進行訓練,它就會進行回答,但這不是 AI 思考出了應該進行回答,而是“人類在提問之後大概率會回答問題,所以我應該進行回答,這樣是概率最高的”
因此就會出現這個問題了,在很多論壇和問答社區中,討論往往以“我把文件發到你的郵箱”和“你發個QQ我給你遠程一下”做結,很少有人會把文件內容用文本形式回覆回去,所以 AI 現在又開始推理了,這次的問題不太一樣:
用戶:“你能創作一首音樂並用 MIDI 格式給我嗎,要求如下:...”
AI:“是的,我能按照你的要求創作一首音樂,(省略1000字),我已經編寫好了這個音樂,[mask]”
因爲MIDI格式使用文本很難表述,所以有關論壇中都會是以“郵箱發送”或者“論壇文件”結束,於是 AI 排序了一下:
在93%的訓練數據裏面最後人類回覆的都是“我把文件發到你的郵箱了”,所以我這麼回覆和人類一致的概率是最高的,我輸出這個回覆
然後這個世界上又多了一個被 AI 騙的人
因爲自注意力機制往往“顧尾不顧頭”,容易遺忘,所以 AI 此時的注意力全部在“編寫好了之後應該怎麼辦”這個問題上,會忘了“我不能發送郵件”這個基礎設定,最終“發送郵件”就成了概率最高的選項
同理,我們開頭舉的另外兩個例子也是這樣,AI能預測出人類大概率會這樣做,但是又忘了自己是個AI或者自己根本不知道,就會回答不存在的事物
防範與緩解
不知道你有沒有聽說過“色盲悖論”,假如一個人出生時開始看紅色和綠色就和普通人是相反的,那麼他在社會中交流時並不會有任何問題,因爲他的“紅色”是綠色,“綠色”是紅色,這是後天施加的概念,他一生被教導的都是“紅色”是綠色,自然不會有任何問題,可能到死也不知道自己視覺有問題,因爲他不知道真正的紅是“綠色”,事實上他只形成了一個對於“紅色”的刻板印象
AI 也面臨這個問題,AI 的所有知識都來自於訓練集之中,所以它無法理解“例外”,也就會出現“幻覺問題”,其實本質就是 AI 的“刻板印象”,AI 從出生開始見到的所有科技就都和量子有關,你是說服不了他科技可以沒有量子的,因爲他沒有見過;AI 從出生開始見到的所有帖子都以“郵箱回覆”結尾,你是說服不了他他不會用郵箱回覆的,因爲他沒見過不用郵箱的
這個問題最好的解決方法就是在訓練時擴大訓練集,或者添加外部可信數據源,避免某個特定回覆在訓練集中佔比過高,導致 AI 怎麼預測都會是他排在前面,例如經典的“Deepseek量子”可能就是訓練集中存在大量該方面的文獻,導致了頻率過高,導致了 AI 出現“刻板印象”,也就出現了幻覺
但是我們一般人是沒有辦法訓練 AI 的,在使用時如何緩解幻覺呢?
還記得我之前說的嗎:自注意力機制往往“顧尾不顧頭”
所以你在對話中明確告訴 AI 他不能做什麼和你希望他做什麼就可以了
例如:
“編寫一首悲傷的音樂並用MIDI發給我”
改爲:
“編寫一首悲傷的音樂,並用簡譜或其他能以文本形式回覆的格式直接回復給我,不要給我發送文件”
後者出現“發郵件”的概率就會低很多,因爲前面用文本回復完之後通常不會接郵件,“不用郵件”對應概率更大的也是文本直接回復
以及防範 AI 幻覺最重要的一點:
別把 AI 回覆當真理,AI 說的不一定對
更多遊戲資訊請關註:電玩幫遊戲資訊專區
電玩幫圖文攻略 www.vgover.com