美國連憲法也是AI寫的？原因竟然是這樣

如果你將漂亮國憲法的一部分輸入到GPTZero（檢測文本是否爲AI輸出的工具），它會認爲這段文本“完全是由AI書寫的”。在過去的六個月裏，類似的截圖在社交媒體上多次瘋傳，這引起了人們的困惑，甚至引發了一些關於漂亮國開國元勳是否是機器人的笑話。事實證明，將《聖經》的一部分輸入到這些工具中，這些工具也會認爲這是由AI生成的。

爲了解釋這些工具爲何會犯如此明顯的錯誤（以及其他情況下經常出現假陽性的現象），我們首先需要理解它們是如何工作的。

理解AI檢測的概念

不同的AI寫作檢測器使用略有不同的檢測方法，但基本原理相同：有一個AI模型，它被訓練來在大量的文本（包括數百萬的人類寫作實例）中進行學習，並建立一套推斷規則，用來判斷一段寫作是更可能由人類還是AI創作的。

例如，GPTZero的核心是一個神經網絡，它在“大量、多樣的人類寫作和AI生成的文本上進行訓練，重點是英語散文”。然後，系統使用像“困惑度”和“突發性”這樣的屬性來評估文本，進行分類。

在機器學習中，“困惑度”是一種度量標準，用來衡量一段文本與AI模型在訓練過程中學習到的內容有多大的偏差。正如AI公司Hugging Face的瑪格麗特·米切爾博士所言，“困惑度是‘這種語言基於我所見到的有多驚奇’的函數”。

所以，衡量困惑度的思路是，當AI模型像ChatGPT這樣的工具進行寫作時，它們會自然地選擇它們最熟悉的內容，這些內容來自於它們的訓練數據。輸出內容越接近訓練數據，困惑度就越低。人類是更混亂的作者——或者至少，這是理論上的說法。但人類也可以使用較低的困惑度進行寫作，特別是在模仿法律或某些類型的學術寫作的正式風格時。此外，我們使用的許多短語實際上是非常常見的。

例如，當我們在猜測"我想要一杯 _____."這個句子的下一個詞時，大多數人會在空白處填上"水"、"咖啡"或者"茶"。一個在大量英文文本上訓練的語言模型也會做出相同的預測，因爲這些短語在英語寫作中非常常見。由於預測的確定性較高，所以這三個結果的困惑度都會很低。

"如果一段文本的語言符合模型的訓練預期，它的困惑度會很低，因此AI檢測器更可能將該文本分類爲AI生成的。這導致了一個有趣的現象，那就是漂亮國憲法。從本質上講，憲法的語言在這些模型中根深蒂固，以至於它們將其誤分類爲AI生成的。

GPTZero的創造者Edward Tian在接受採訪時說，“漂亮國憲法是多次輸入到許多大型語言模型訓練數據中的文本。因此，許多這些大型語言模型被訓練以生成與憲法以及其他常用訓練文本類似的文本。GPTZero被設計爲預測可能由大型語言模型生成的文本，因此出現了這種迷惑的現象。”

然而，問題在於人類作家也可能創作出困惑度較低的內容（例如，如果他們主要使用常見的短語，如“我想要一杯咖啡”），這大大降低了AI寫作檢測器的可靠性。

GPTZero測量文本的另一項屬性是“突發性”，它指的是在文本中某些詞或短語快速連續或“突發”出現的現象。從本質上講，突發性評估了文本在句子長度和結構上的變異性。

人類作家通常會展現出動態的寫作風格，創作出句子長度和結構各異的文本。例如，我們可能會寫一個長且複雜的句子，然後再寫一個短而簡單的句子，或者我們可能在一個句子中使用一連串的形容詞，而在下一個句子中不使用。這種變化是人類創造力和自發性的自然表現。

另一方面，由AI生成的文本更傾向於保持一致和規律，至少目前是這樣。語言模型仍處在初級階段，生成的句子長度和結構更爲規則。這種缺乏變異性可能導致低突發性得分，表明文本可能是AI生成的。

然而，突發性並不是一個可靠的指標來檢測AI生成的內容。就像困惑度一樣，也存在例外。人類作家可能以一種高度結構化，一致的風格寫作，導致突發性得分低。相反，AI模型可能被訓練來模仿更人性化的句子長度和結構的變異性，從而提高其突發性得分。事實上，隨着AI語言模型的改進，研究表明，它們的寫作看起來越來越像人類的寫作。

最後，沒有一個萬能的公式可以始終區分人類寫的文本和機器寫的文本。AI寫作檢測器可以提供一個較爲可靠的猜測，但誤差範圍過大，無法完全依賴它們得出精確的結果。

2023年，馬里蘭大學的研究人員進行的一項研究從實證上證明，AI生成文本的檢測器在實際場景中並不可靠，它們的性能僅比隨機分類器稍好。他們不僅返回誤報，還存在許多漏報情況。例如，它們可能將人類創作的內容誤標爲機器生成的內容，或者將機器生成的內容誤標爲人類創作的內容。更糟糕的是，這些檢測器可能會被有意欺詐的行爲者所利用，例如通過修改AI生成的文本以使其看起來更像是人類創作的。

因此，儘管AI寫作檢測器在理論上是一個有用的工具，但在實際應用中，我們可能需要更復雜的解決方案。可能需要結合多種不同的技術，包括但不限於人工智能，並且需要人類的參與和監督，以確保更準確、更公正的內容分類。

總的來說，區分AI生成的文本和人類生成的文本是一個複雜且尚未解決的問題。我們需要更精細、更復雜的工具和方法，以及持續的研究和開發，以提高我們的能力並減少誤報。