文丨揚(yáng)帆出海 周可
估值30億美元的Perplexity正在面臨一場關(guān)于抄襲指控的風(fēng)波。
不同于ChatGPT和Claude,AI聊天搜索引擎Perplexity并未訓(xùn)練自身基礎(chǔ)模型,而是使用開放或商業(yè)可用的模型來獲取相關(guān)信息,并轉(zhuǎn)化為答案。
誕生于2022年的Perplexity在如今的AI搜索領(lǐng)域也是炙手可熱的明星產(chǎn)品,不過,在剛剛過去的6月份,《福布斯》指責(zé)Perplexity涉嫌抄襲其新聞文章, Perplexity還被其他媒體指責(zé)非法抓取網(wǎng)站信息。
Perplexity并非AI界的無名小卒,其背后支持資本涉及英偉達(dá)和貝索斯等知名企業(yè)和個人,這場抄襲指控的風(fēng)波在一定程度上給整個AI行業(yè)敲響了警鐘,關(guān)于信息抓取的合法化等問題,其安全邊界到底在哪里?
在Perplexity面臨抄襲指控的同時,有關(guān)Deepfake(深偽技術(shù))成本暴增的信息引發(fā)廣泛關(guān)注。
比抄襲指控更嚴(yán)重的是,Deepfake未來三年帶來的損失或?qū)⒃黾拥?00億美元,而這其中,就涉及由于AI技術(shù)的飛速發(fā)展,所帶來的視頻、音頻和文檔信息造假等問題。
一方面是AI技術(shù)正在滲透進(jìn)各行各業(yè),從B端企業(yè)到C端用戶,AI技術(shù)的普及正在以前所未有的速度在各領(lǐng)域延伸,另一方面,則是來自對AI技術(shù)支持下,AI工具的安全性,合法合規(guī)性的保證,以及在抄襲,造假等危及行業(yè)發(fā)展的情況出現(xiàn)時,反AI工具賽道正在迎來一場規(guī)?;l(fā)展的市場需求。
AI產(chǎn)品工具的安全合規(guī)性該如何保證,抄襲,造假風(fēng)波壓力之下,反AI工具市場會成為一個新方向嗎?
抄襲風(fēng)波再起,反AI抓取工具成熱門
早在今年4月,Perplexity相關(guān)人員就表達(dá)了對自身產(chǎn)品合規(guī)性的觀點(diǎn),彼時,Perplexity正在以30億美元的估值尋求一輪新的融資,公司方面表示,它尊重出版商不抓取內(nèi)容的要求,并且在合理使用版權(quán)法的范圍內(nèi)運(yùn)營。
一方面是指控不道德的抓取為“抄襲”,另一方則表示在“合理”范圍內(nèi)運(yùn)行。作為AI搜索工具,無論Chatgpt還是Perplexity都必須采用大批量的網(wǎng)絡(luò)信息抓取以訓(xùn)練其數(shù)據(jù)并豐富其內(nèi)容;但另一方面,面對媒體信息采集的“獨(dú)家”性,以及出版商等對內(nèi)容的保護(hù)需求,Perplexity之類的AI工具如何平衡“抄襲”和“合理合規(guī)”之間的關(guān)系?
這個問題的爭議存在于兩個方面:即機(jī)器人排除協(xié)議和版權(quán)法的合理利用。
對于信息產(chǎn)出網(wǎng)站來說,網(wǎng)站有權(quán)利使用機(jī)器人排除協(xié)議來明確標(biāo)明其不希望被網(wǎng)絡(luò)爬蟲抓取或訪問的內(nèi)容。
從版權(quán)法的角度來說,其建立法律框架,在特定要求之下,未經(jīng)許可或付費(fèi)使用的內(nèi)容,不允許被隨便抓取。
但是,如何明確這二者的界限,是一個答案相對模糊的問題。
簡單來說,Perplexity在抓取一些網(wǎng)站過程中,如遇到明確標(biāo)明“以其他方式禁止 robots.txt”的文件,從遵從協(xié)議的角度,Perplexity會規(guī)避這些信息。
但另一個問題在于,如果用戶手動向AI搜索工具提供URL,Perplexity 則會相應(yīng)的幫助用戶去進(jìn)行信息抓取,在此過程中,Perplexity充當(dāng)?shù)牟⒉皇且粋€爬蟲工具,而是幫助用戶在檢索他們的要求。
更明確一點(diǎn)來說,AI工具抓取了部分網(wǎng)站不允許抓取的內(nèi)容,那么爭議點(diǎn)在于,這個內(nèi)容的抓取,是AI工具所主導(dǎo)的,還是用戶所主導(dǎo)的。
在這種模糊的界限下,媒體方面針對不道德抓取信息指控Perplexity抄襲的問題,也就有了更多可解釋的空間。
作為一個AI搜索引擎的頭部應(yīng)用,Perplexity面臨的指控在一定程度上代表了現(xiàn)在,乃至未來AI應(yīng)用在數(shù)據(jù)訓(xùn)練和為用戶提供服務(wù)過程中,勢必會面臨的合法合規(guī)困境。
有研究數(shù)據(jù)顯示,網(wǎng)絡(luò)上排名前1000的網(wǎng)站中,約有26%的網(wǎng)站已經(jīng)屏蔽 OpenAI的機(jī)器人,另有數(shù)據(jù)證實(shí),超600家新聞出版商已屏蔽OpenAI。
爭議空間之下,反AI浪潮帶來的市場空間開始被發(fā)掘。
比如,云服務(wù)提供商Cloudflare推出了一款新的免費(fèi)工具,以防止機(jī)器人抓取其平臺上托管的網(wǎng)站數(shù)據(jù)來訓(xùn)練人工智能模型。
包括谷歌、OpenAI和蘋果在內(nèi)的一些人工智能供應(yīng)商,允許網(wǎng)站所有者通過修改其網(wǎng)站的robots.txt(告訴機(jī)器人可以訪問網(wǎng)站上哪些頁面的文本文件)來阻止他們用于數(shù)據(jù)抓取和模型訓(xùn)練的機(jī)器人。
Cloudflare方面表示:“當(dāng)不良行為者試圖大規(guī)模抓取網(wǎng)站時,他們通常會使用我們能夠識別指紋的工具和框架?!薄案鶕?jù)這些信號,我們的模型能夠適當(dāng)?shù)貙碜砸?guī)避人工智能機(jī)器人的流量標(biāo)記為機(jī)器人。”
Cloudflare還表示,已經(jīng)為主機(jī)建立了一個表格來報告可疑的AI機(jī)器人和爬蟲,并表示隨著時間的推移,它將繼續(xù)手動將AI機(jī)器人列入黑名單。
抄襲的指控,本質(zhì)上來說是一場對信息的爭奪,以及對信息帶來商業(yè)化價值的利益之戰(zhàn),在此過程中,反AI工具的存在某種程度上來說是兩個對立群體之間的剛需。
市場空間也基于此被廣泛開拓。
AI造假帶來400億美元損失,華人研究團(tuán)隊爭奪視頻檢測市場
在這場反AI戰(zhàn)役中,媒體向Perplexity提出抄襲指控,是AI產(chǎn)品之間的資源爭奪。
但在另一方向,AI造假帶來的問題則關(guān)系到C端用戶,其輻射面積更廣,可能存在的隱患更多,從反AI產(chǎn)品開發(fā)方向來看,其市場規(guī)模和需求似乎更大。
Deepfake是目前增長最快的對抗性人工智能形式,數(shù)據(jù)顯示,與深度造假相關(guān)的損失預(yù)計將從2023年的123億美元增加到2027年的400億美元。
德勤預(yù)計,在深度造假領(lǐng)域,銀行和金融服務(wù)行業(yè)會成為重災(zāi)區(qū)。
另有數(shù)據(jù)顯示,預(yù)計到2024年,世界范圍內(nèi)產(chǎn)生的深度造假事件或?qū)⑦_(dá)到14到15萬起。
如此龐大的數(shù)字令人瞠目。
而更恐怖的問題在于,Deepfake視頻的主要受害者一部分是行業(yè)高管群體,另一部分則是女孩,包括部分女性名人。
比如企業(yè)高管群體,視頻和語音的深度偽造可以騙取他們大量的資金。
女孩受害者面臨的問題則在于個人形象和名譽(yù)的受損,獨(dú)立研究員Genevieve Oh收集的數(shù)據(jù)顯示,2023 年上傳到互聯(lián)網(wǎng)的露骨深度偽造視頻比任何其他年份都要多,Deepfake視頻中絕大多數(shù)會以未經(jīng)同意的女性為主角生成色情視頻,甚至部分女性公眾人物也在受害者之列。
事實(shí)上,Deepfake不局限于視頻和音頻文檔等,其技術(shù)已經(jīng)發(fā)展到可以創(chuàng)建虛假ID,躲過加密貨幣網(wǎng)站的檢驗,從而進(jìn)行詐騙等活動。
相比之下,Perplexity的抄襲風(fēng)波還僅僅存在于規(guī)則層面的擦邊,而Deepfake帶來的造假產(chǎn)業(yè)鏈,則是實(shí)打?qū)嵉耐{著人們的資金和信息安全。
早在去年,彭博社就報道稱:“暗網(wǎng)上已經(jīng)存在一個完整的產(chǎn)業(yè)鏈,以20美元到數(shù)千美元的價格出售詐騙軟件。”
專注于數(shù)字貨幣的新聞網(wǎng)站Coindesk曾發(fā)布報道稱,2022年加密貨幣用戶因“詐騙、詐騙和黑客攻擊”損失了近40億美元,2023年,這一數(shù)字約為約20億美元。
一方面可以看出,Deepfake帶來的欺詐問題的重災(zāi)區(qū)仍涉及金融相關(guān)的領(lǐng)域,另一方面,從2022年到2023年數(shù)字貨幣受詐騙影響帶來的損失數(shù)據(jù)波動也可以推測,隨著部分反AI技術(shù)和產(chǎn)品的出現(xiàn),這些產(chǎn)品對于規(guī)避深度造假帶來的止損效果明顯。
Ivanti 發(fā)布的《2024 年網(wǎng)絡(luò)安全狀況報告》調(diào)查數(shù)據(jù)顯示,74%的受訪企業(yè)已經(jīng)看到人工智能威脅的證據(jù),89%的受訪者認(rèn)為人工智能驅(qū)動的威脅才剛剛開始。
在面對技術(shù)造假帶來的威脅,反AI的風(fēng)還是吹到了視頻甄別領(lǐng)域。
當(dāng)Sora,Pika等還在競爭誰生成的視頻更逼真的時候,對于AI生成視頻進(jìn)行鑒別的賽道已經(jīng)打開市場。
哥倫比亞大學(xué)楊俊鋒(Junfeng Yang)教授團(tuán)隊開發(fā)的名為 DIVID(DIffusion-generated VIdeo Detector)的文生視頻檢測工具,就是針對Sora、Gen-2 和 Pika 等模型生成的視頻進(jìn)行檢測,目前其工具對AI視頻監(jiān)測的準(zhǔn)確率已經(jīng)達(dá)到 93.7%。
此前,該團(tuán)隊已于今年早些時候發(fā)布了AI生成文本的檢測工具Raidar,這款工具在檢測文本是否為AI生成的過程中,不需要訪問LLM大模型。
當(dāng)然,從商業(yè)價值來說,對AI生成視頻進(jìn)行檢測,是市場包括普通用戶更需要的產(chǎn)品。
DIVID的誕生恰恰契合了我們前面關(guān)注的Deepfake的商業(yè)價值市場,據(jù)了解,DIVID的研究人員表示,他們的技術(shù)有潛力作為插件集成到Zoom中,以實(shí)時檢測深度偽造電話。
對應(yīng)此前Deepfake針對的行業(yè)高管偽造視頻的情況,DIVID的產(chǎn)品在利用技術(shù)保護(hù)用戶,特別是B端市場用戶安全方面是一個非常具有參考意義的實(shí)踐。
當(dāng)然,這也印證了這個市場未來的空間之大,需要更多的參與者融入進(jìn)去。
結(jié)語
AI技術(shù)的進(jìn)步過快,一方面推動了社會多個行業(yè)的發(fā)展,但與此同時,利用AI去擦邊,或者實(shí)施違法行為,一直都是存在且在發(fā)展中的市場,盡管這個市場并未完全暴露在陽光下,但其背后帶來的商業(yè)價值越大,對社會的危害也就越高。
“用AI打敗AI”或許會成為AI技術(shù)發(fā)展中一個始終存在的命題。當(dāng)然,從商業(yè)化和道德倫理的角度,正面的反AI產(chǎn)品必然是這個社會所需要的,“用AI規(guī)范AI”的時代已經(jīng)到來。