OpenAI最近未經預先公告就在其在線文檔網站上公開了關於其網絡爬蟲GPTBot的詳細信息。GPTBot是OpenAI用於爬取網頁以訓練其背後的AI模型(如GPT-4)的網絡爬蟲名稱。近日,有幾家網站宣佈他們計劃禁止GPTBot訪問他們的內容。
在這份新文檔中,OpenAI表示,被GPTBot爬取的網頁“可能會被用於改善未來的模型”。同時,允許GPTBot訪問網站“將有助於提高AI模型的準確性、性能和安全性”。
OpenAI表示已經設置了過濾機制,確保不會爬取隱藏在付費牆後的內容、含有個人信息的頁面,或任何違反OpenAI政策的內容。
但要注意,那些希望阻止OpenAI的爬蟲的網站,對於現有的ChatGPT或GPT-4的數據來說已經晚了。因爲OpenAI在幾年前已經收集了數據,該數據的最後更新日期是2021年9月,這也是OpenAI語言模型的當前“知識”更新止日期。
不過,新的指引可能並不會影響基於網絡瀏覽的ChatGPT版本或ChatGPT插件訪問現有的網站,從而向用戶提供最新的信息。文檔中並沒有明確提到這一點,我們已經聯繫了OpenAI以便進一步澄清。
解決方案是robots.txt文件。
根據OpenAI的說明,GPTBot的用戶代理被標識爲“GPTBot”,其完整標識爲“Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)”。
OpenAI也提供瞭如何通過標準的robots.txt文件阻止GPTBot爬取某個網站的指導。robots.txt是一個放在網站根目錄的文本文件,用來告訴網絡爬蟲哪些頁面不應該被爬取。
要禁止GPTBot,只需在robots.txt文件中添加以下代碼:
User-agent: GPTBot
Disallow: /
OpenAI還提供瞭如何部分允許或禁止GPTBot訪問的指導:
User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/
此外,OpenAI還列出了GPTBot可能使用的特定IP地址範圍,這些地址也可以被防火牆屏蔽。
儘管有了這些選項,僅僅阻止GPTBot並不能保證一個網站的數據完全不會被用於訓練其他的AI模型。除了可能無視robots.txt文件的爬蟲外,還有其他與OpenAI無關的大型數據集,如The Pile。這些數據集常用於訓練開源或源代碼可獲取的大型語言模型,如Meta的Llama 2。
因爲ChatGPT在未經許可的情況下爬取了受版權保護的數據,並將這些數據集中於其商業產品中,它遭到了批評。因此,OpenAI也因此被指責抄襲,甚至面臨起訴。
所以,看到一些網站決定禁止GPTBot是可以理解的。例如,VentureBeat報道稱,The Verge, Substack的Casey Newton和Clarkesworld的Neil Clarke都表示,他們將很快禁止GPTBot。
然而,對於大型網站,決定是否阻止大型語言模型的爬蟲並不是一個簡單的選擇。可能會有利於某些網站,但也可能對其他網站造成傷害。例如,讓未來的AI模型無法訪問某個網站的內容可能會降低該網站或品牌的文化影響力。從長遠看,這可能會損害那些希望在未來的AI驅動的用戶界面中佔據一席之地的品牌。
總體上說,AI的發展還處於初級階段。無論技術如何發展,或無論哪些網站決定退出AI模型的訓練,OpenAI至少爲此提供了一個選擇。
更多遊戲資訊請關註:電玩幫遊戲資訊專區
電玩幫圖文攻略 www.vgover.com
