文 | 智東西 ZeR0
編輯 | 漠影
智東西2月1日報道,今日,美國AI初創(chuàng)公司OpenAI宣布推出一個AI文本分類器,用于輔助辨別文本是由人類還是AI(人工智能)編寫的。
這款A(yù)I工具可免費試用。用戶將待檢測文本復(fù)制到文本框中,點擊Submit,系統(tǒng)就會評估該文本由AI系統(tǒng)生成的可能性,給出評估結(jié)果。
評估結(jié)果分成5類:非常不可能、不太可能、不清楚、可能、非??赡苁茿I生成。
目前試用這款A(yù)I文本分類器有一些限制,要求至少1000個字符,大約150-250個單詞。
該工具在檢測大于1000個字符的英文文本時效果更好,在檢測其他語言時的表現(xiàn)要差得多,而且無法辨別計算機代碼是由人類還是AI寫的。
AI文本分類器直通門:https://platform.openai.com/ai-text-classifier
01.針對AI濫用風險,打造“克星”工具
AI文本分類器意在解決ChatGPT爆紅之后引發(fā)的爭議。
OpenAI在去年11月推出的ChatGPT聊天機器人,不僅能準確回答專業(yè)問題,還能撰寫詩詞歌賦、廣告文案、散文小說、電影劇本、編程代碼等各類文本,大受使用者的稱贊追捧。
但隨著使用者越來越多,ChatGPT的問題也很快暴露出來。一方面是它本身的局限性,例如素材來源可能涉及抄襲、侵權(quán),或者有時會寫出看似正確實則錯誤的文本;另一方面是濫用風險,例如有些人會用AI工具作弊、散播虛假信息等。
為了緩解這些問題,OpenAI打造了一個全新的AI文本分類器。
這是一個GPT語言模型,對從各種來源收集的同一主題的人類編寫文本和AI編寫文本的數(shù)據(jù)集進行了微調(diào),使用了來自5個不同組織的34個模型生成的文本,以檢測該文本由AI生成的可能性。
人類編寫文本的數(shù)據(jù)集來自三個來源:一個新的維基百科數(shù)據(jù)集、2019年收集的WebText數(shù)據(jù)集、一組作為訓(xùn)練InstructGPT的一部分收集的人類演示。
OpenAI將每個文本分成了“提示(prompt)”和“回復(fù)(response)”,根據(jù)這些提示,從OpenAI和其他組織訓(xùn)練的各種不同的語言模型中生成了回復(fù)。對于Web應(yīng)用程序,OpenAI調(diào)整了置信度閾值,以保持低誤報率;換句話說,只有當分類器非常有信心時,它才會將文本標記為可能是AI編寫的。
OpenAI也貼心地為試用者備好了引用這款A(yù)I文本分類器的BibTex格式。
02.1秒給出分類結(jié)果,但偶爾錯把人類當AI
我們分別用幾段ChatGPT生成文本、幾段外媒新聞報道內(nèi)容,測了測AI文本分類器的表現(xiàn)。
首先,讓ChatGPT就中美前沿人工智能研究的不同之處分析了一通。
▲ChatGPT針對“中美前沿AI研究有哪些不同”問題的回答
接著將這些文字復(fù)制粘貼到分類器的文本框中。
▲AI文本分類器秒出判斷
結(jié)果,AI文本分類器1秒判斷出這非??赡苁茿I生成的(likely AI-generated)。
換幾段由人類寫的分析生成式AI風險的內(nèi)容:
▲AI分類器很快給出評估結(jié)果
AI文本分類器這次花得時間略長,2秒給出結(jié)果:非常不可能是AI生成的(very unlikely AI-generated)。評估結(jié)果依然準確。
不過,再提升點難度,分類器就不太靈了。
知名AI研究人員Sebastian Raschka用莎士比亞《麥克白》第一頁的內(nèi)容做測試,發(fā)現(xiàn)AI文本分類器誤判為“很可能是AI生成的(likely AI-generated)”。
看來在AI文本分類器眼中,莎士比亞已經(jīng)走在了時代的前面。
Sebastian Raschka還從自己在2015年出版的Python ML書摘錄了好幾段,AI文本分類器的識別也不是很準,Randy Olson的前言部分被識別成“不清楚是否由AI生成”,他自己寫的前言部分被識別成“可能是AI生成的”,第一章部分被識別成“很可能是AI生成的”。
看到一系列令人啼笑皆非的測試結(jié)果后,他評價說:“在ChatGPT讓你的作業(yè)變得更簡單之后,它現(xiàn)在比以前更難了?,F(xiàn)在,你必須多次修改自己的措辭,直到它們看起來不再是AI生成的,然后才能提交?!?/p>
03.識別正確率僅26%,AI文本分類器還有很多局限性
OpenAI在與訓(xùn)練集分布相同的驗證集和挑戰(zhàn)集上評估了其AI文本分類器和之前發(fā)布的分類器,挑戰(zhàn)集由人類編寫的補全(completions)和來自在人類補全上訓(xùn)練的強語言模型的補全組成。
結(jié)果顯示,與OpenAI之前發(fā)布的分類器相比,全新AI文本分類器的可靠性要高得多,在驗證集上的AUC得分為0.97,在挑戰(zhàn)集上為0.66(OpenAI之前發(fā)布的分類器在驗證集上為0.95,在挑戰(zhàn)集上為0.43)。分類器可靠性通常隨著輸入文本長度的增加而提高。
OpenAI還發(fā)現(xiàn),隨著生成文本模型大小的增加,分類器的性能會下降。
換句話說,隨著語言模型規(guī)模變大,它的輸出對AI文本分類器來說更像人類編寫的文本。
OpenAI在博客中坦言其分類器“不完全可靠”,比如在低于1000個字符的短文本上非常不可靠,即使是較長的文本有時也會被錯誤標記,有時人類書寫的文本也會被錯判成AI編寫的文本。
在對英語文本“挑戰(zhàn)集”的評估中,該分類器正確地將26%的AI創(chuàng)作文本識別為“可能是AI編寫的”,而在9%的時間內(nèi)錯誤地將人類創(chuàng)作文本標記為AI編寫。
OpenAI建議只對英文文本使用該AI文本分類器,因為它在其他語言中的表現(xiàn)要差得多,而且在代碼上不可靠。此外,它也很難識別有標準正確答案的文本,例如你很難判斷“1+1=2”是人類還是AI寫的。AI文本分類器很可能在兒童編寫的文本和非英語文本上出錯,因為它主要是在成人編寫的英語內(nèi)容上進行訓(xùn)練。
AI書寫的文本可以通過編輯來逃開分類器的檢測。OpenAI分類器可根據(jù)成功的攻擊進行更新和重新訓(xùn)練,但還不清楚從長期來看檢測是否具有優(yōu)勢。
OpenAI也提醒道,基于神經(jīng)網(wǎng)絡(luò)的分類器在訓(xùn)練數(shù)據(jù)之外的校準很差。對于與訓(xùn)練集中的文本有很大不同的輸入,分類器有時可能對錯誤的預(yù)測非常有信心。
04.結(jié)語:著重解決ChatGPT在教育領(lǐng)域構(gòu)成的風險
由于上述局限性,OpenAI建議在確定內(nèi)容來源的調(diào)查中只使用分類器作為眾多因素中的一個,并對AI產(chǎn)生的虛假信息行為的風險、對大型語言模型在教育領(lǐng)域構(gòu)成的風險進行研究。
OpenAI正與美國教育工作者合作,討論ChatGPT的能力和局限性,并為教育工作者開發(fā)了一個關(guān)于使用ChatGPT的初步資源,其中概述了一些用途以及相關(guān)的限制和考慮因素。
資源鏈接:
https://platform.openai.com/docs/chatgpt-education
通過將AI文本分類器公開,OpenAI希望從使用者那里獲得更多有價值的反饋,以進一步改進OpenAI在檢測AI生成文本方面的工作。