文|三易生活
“AI大模型即將遇到數(shù)據(jù)荒”這件事,從2023年開始就成為了AI開發(fā)者對(duì)未來最大的擔(dān)憂,甚至有研究團(tuán)隊(duì)已經(jīng)給出了高質(zhì)量語料數(shù)據(jù)將會(huì)在2026年耗盡的預(yù)測。由此也使得手握大量數(shù)據(jù)的互聯(lián)網(wǎng)內(nèi)容平臺(tái)、新聞機(jī)構(gòu)、出版商突然發(fā)現(xiàn),在AI時(shí)代“賣鏟子”這活不僅英偉達(dá)能干,自己好像也能做。
而AI廠商則很快發(fā)現(xiàn),自己頭上的大山除了英偉達(dá),還要多出個(gè)數(shù)據(jù)供應(yīng)商。盡管谷歌、OpenAI等實(shí)力雄厚的大廠可以選擇“銀彈攻勢”,一邊找英偉達(dá)買算力卡,一邊與Reddit等網(wǎng)絡(luò)社區(qū)及新聞媒體達(dá)成合作,但資金豐沛的大廠畢竟是少數(shù),絕大多數(shù)初創(chuàng)企業(yè)、哪怕是AI獨(dú)角獸都缺錢。
AI大模型需要持續(xù)投喂數(shù)據(jù)來進(jìn)行迭代,可AI廠商缺錢又已經(jīng)是普遍現(xiàn)象,如此一來就有廠商選擇了用技術(shù)手段來“強(qiáng)取”數(shù)據(jù)。日前有消息顯示,AI獨(dú)角獸Anthropic無視知名維修網(wǎng)站iFixit的條款,使用爬蟲ClaudeBot在24小時(shí)內(nèi)瘋狂訪問近百萬次。
以至于iFixit CEO Kyle Wiens直接在社交平臺(tái)向Anthropic隔空喊話,“你真的有必要在24小時(shí)內(nèi)訪問我們的服務(wù)器100萬次嗎?你不僅在不付費(fèi)的情況下獲取我們的內(nèi)容,還占用了我們的devops資源,一點(diǎn)都不酷!”此外Kyle Wiens還進(jìn)一步表示,“如果你想要跟我們談?wù)剝?nèi)容許可和商業(yè)用途的話,我們就在這呢。”
作為全球知名的消費(fèi)電子產(chǎn)品維修網(wǎng)站,iFixit的市場競爭力就來源于網(wǎng)站上提供的幾乎任何類型、任何型號(hào)電子設(shè)備對(duì)應(yīng)的免費(fèi)維修手冊(cè)、解決方案,以及iFixit用戶社區(qū)。這些電子產(chǎn)品的維修知識(shí)無疑就是iFixit的立身之本,因此iFixit方面也在其robots.txt文件中添加了一行特定于Anthropic爬蟲的禁用指令。
隨后Anthropic方面回應(yīng)稱,他們尊重robots.txt協(xié)議,并在iFixit實(shí)施禁令后遵守了相關(guān)規(guī)則。其實(shí)不僅僅是iFixit,全球規(guī)模最大的外包服務(wù)撮合平臺(tái)Freelancer同樣也是Anthropic的受害者,該公司CEO Matt Barrie也表示,ClaudeBot是最激進(jìn)的爬蟲,F(xiàn)reelancer在四小時(shí)內(nèi)收到了來自Anthropic爬蟲的350萬次訪問,遠(yuǎn)超其他AI爬蟲的訪問量。
對(duì)于iFixit、Freelancer這種專注于細(xì)分賽道的“隱形冠軍”,24小時(shí)內(nèi)數(shù)百萬次訪問請(qǐng)求已經(jīng)算得上是一次小規(guī)模的分布式拒絕服務(wù)攻擊(DDoS)了。對(duì)此,Anthropic方面表示正在調(diào)查此事件,以確保其爬蟲活動(dòng)對(duì)同一域名的訪問頻率最小化,從而減少干擾。
那么問題就來了,Anthropic其實(shí)不缺錢,畢竟作為OpenAI的第一勁敵,僅亞馬遜一家就對(duì)其投資了40億美元。Anthropic方面甚至在本月初聯(lián)合風(fēng)險(xiǎn)投資公司Menlo Ventures共同推出了一只1億美元的基金Anthology Fund,為早期的AI初創(chuàng)公司提供支持。
沒錯(cuò),身為AI獨(dú)角獸的Anthropic已然開始“提攜后輩”,玩起了大公司標(biāo)配的戰(zhàn)略投資。對(duì)此,似乎就只能用Anthropic的經(jīng)營策略是“該省省,該花花”,能不花的錢就一定不花來解釋了。
正因如此,Anthropic的做法才讓iFixit、Freelancer的CEO“破防”。作為一家在業(yè)界頗有聲望的AI獨(dú)角獸,Anthropic的做法毫無疑問是開了個(gè)壞頭。要知道反爬蟲策略本身是不可能完全杜絕爬蟲的,因?yàn)樾畔⒅灰獙?duì)外提供,就必然有被抓取的可能。在這一基礎(chǔ)上的robots.txt,其實(shí)就是一個(gè)針對(duì)網(wǎng)絡(luò)爬蟲的君子協(xié)議,也正是谷歌、雅虎等大廠的帶頭遵守,才有了過去二十年間互聯(lián)網(wǎng)世界的秩序。
現(xiàn)在明明Anthropic是有向內(nèi)容平臺(tái)購買數(shù)據(jù)的預(yù)算,卻偏偏選擇用技術(shù)手段來“零元購”,豈不是就意味著其他囊中羞澀的AI初創(chuàng)企業(yè)也會(huì)有樣學(xué)樣。可偏偏當(dāng)下是AI創(chuàng)業(yè)的熱潮,做AI的廠商不知凡幾,如果大家都效仿Anthropic這一玩法,高頻次、大流量的訪問必然會(huì)讓網(wǎng)站“壓力山大”,已經(jīng)與DDoS網(wǎng)絡(luò)攻擊行為無異了。
面對(duì)DDoS這種目前最簡單、也是最粗暴的網(wǎng)絡(luò)安全破壞活動(dòng),幾乎只有兩個(gè)有效途徑可以解決,即用更大的帶寬資源來容納超預(yù)期的網(wǎng)絡(luò)請(qǐng)求,或是使用流量清洗來過濾掉無用流量。很遺憾的是,這兩種策略都不便宜,中小網(wǎng)站通常是買不起的。
AI廠商對(duì)于數(shù)據(jù)的需求永無止境,可偏偏不愿意付錢,而一般的網(wǎng)站有數(shù)據(jù)、卻缺乏保護(hù)這一資產(chǎn)的手段。如果這次Anthropic僅僅是“有則改之”,連一個(gè)道歉都沒有的話,后續(xù)內(nèi)容平臺(tái)賣數(shù)據(jù)的生意恐怕就要難做了,互聯(lián)網(wǎng)世界可能會(huì)開始進(jìn)入周禮崩潰后的春秋戰(zhàn)國時(shí)代。
在AI廠商的爬蟲高頻次訪問下,中小網(wǎng)站別說賣數(shù)據(jù),可能就連正常的運(yùn)營都會(huì)受到影響。如果想要讓自己的網(wǎng)站免受爬蟲打擾,“自污”策略或許很快就會(huì)普及。而所謂“自污”其實(shí)很簡單,畢竟AI廠商的爬蟲希望獲得數(shù)據(jù)來訓(xùn)練AI,可假如數(shù)據(jù)本身不可用呢?
關(guān)心AI大模型的朋友對(duì)于“AI投毒”這個(gè)詞想必不會(huì)陌生。就在不久前,《Nature》封面刊登了來自牛津大學(xué)、劍橋大學(xué)等機(jī)構(gòu)的研究論文,內(nèi)容就是AI訓(xùn)練AI會(huì)出現(xiàn)不可逆轉(zhuǎn)的缺陷,進(jìn)而使得模型性能下降。這篇文章盡管在業(yè)界充滿了爭議,但其中給AI投喂低質(zhì)量數(shù)據(jù)會(huì)導(dǎo)致模型劣化卻收到了共鳴。
如今,數(shù)據(jù)投毒攻擊(Data Poisoning Attack)已經(jīng)是一個(gè)AI研究領(lǐng)域不可回避的問題,只需要訓(xùn)練集有不到1%的數(shù)據(jù)被污染,大模型輸出內(nèi)容的準(zhǔn)確率就會(huì)大幅下降。用謊言去驗(yàn)證謊言得到的一定是謊言,如果數(shù)據(jù)集中的參數(shù)本身就有問題,得到的回答自然就是錯(cuò)漏百出。
想要得到高質(zhì)量數(shù)據(jù)需要凝聚人類的智慧,但想要?dú)缢删秃唵味嗔?。如果AI廠商不保持克制,一旦內(nèi)容平臺(tái)的運(yùn)營者達(dá)成共識(shí),用污染自家數(shù)據(jù)的方式來解決這個(gè)問題,遭遇數(shù)據(jù)荒的時(shí)間恐怕就會(huì)近在眼前。