文|三易生活
就在一眾AI大模型廠商還在為盈利發(fā)愁時,英偉達靠賣算力已成功登頂全球市值第一公司的寶座,再次證明了當(dāng)淘金熱洶涌時候、只有賣鐵鏟的最賺錢。但訓(xùn)練大模型不僅要算力、還要有數(shù)據(jù),以至于Reddit、X等內(nèi)容平臺紛紛做起了數(shù)據(jù)買賣這個生意。只不過,如今這個生意也越來越不好做了。
近日根據(jù)路透社報道,內(nèi)容授權(quán)初創(chuàng)公司TollBit近日向出版商發(fā)出警告稱,多家人工智能公司正在規(guī)避他們用于阻止抓取內(nèi)容的通用網(wǎng)絡(luò)標(biāo)準(zhǔn),并將抓取的內(nèi)容用于訓(xùn)練生成式AI系統(tǒng)。幾乎在同一時間,知名科技雜志《Wired》也發(fā)文稱,AI搜索公司Perplexity存在繞過機器人排除協(xié)議(Robots Exclusion Protocol),以獲取受限網(wǎng)絡(luò)內(nèi)容的行為。
再算上此前OpenAI使用YouTube上的視頻內(nèi)容訓(xùn)練打模型,谷歌也曾被曝出修改用戶協(xié)議、以免費獲取旗下平臺用戶數(shù)據(jù)的消息。似乎上至一線巨頭、下至初創(chuàng)企業(yè),AI行業(yè)儼然集體化身為了“數(shù)據(jù)小偷”。
一直以來,數(shù)據(jù)無疑是訓(xùn)練AI大模型的基礎(chǔ),而高質(zhì)量數(shù)據(jù)更是決定了大模型的性能上限,這也正是AI廠商如同饕餮般吞噬數(shù)據(jù)的真相。為此他們可謂是滿世界買數(shù)據(jù),但現(xiàn)實卻是可供交易的數(shù)據(jù)已經(jīng)滿足不了大模型的胃口了。
當(dāng)正常買賣數(shù)據(jù)這條路不好走了之后,“偷數(shù)據(jù)”似乎就變成了AI廠商心照不宣的操作。比如這次被部分AI廠商無視的Robots Exclusion Protocol(以下簡稱Robots協(xié)議),其實是一個存放于網(wǎng)站根目錄下的ASCII編碼文本文件,它是控制網(wǎng)站被搜索內(nèi)容的一種策略,也就是/Robots.txt。
Robots協(xié)議的唯一作用,就是告訴user-agent(網(wǎng)絡(luò)爬蟲)網(wǎng)站中的哪些內(nèi)容允許被爬取、哪些內(nèi)容又不能抓取。以2008年9月宣布屏蔽百度搜索引擎的淘寶為例,當(dāng)時這家電商網(wǎng)站的Robots協(xié)議非常簡單,直接就禁止了“Baiduspider”、即百度蜘蛛訪問網(wǎng)站的任何部分。依靠這樣的Robots協(xié)議,淘寶避免了流量外溢到百度,進而催生了其站內(nèi)的競價排名體系。
為什么這樣簡簡單單的代碼就能攔住了百度的爬蟲呢?這是因為百度簽署了《互聯(lián)網(wǎng)搜索引擎服務(wù)自律公約》,承諾遵守Robots協(xié)議,并愿意限制搜索引擎抓取應(yīng)有行業(yè)公認合理的正當(dāng)理由、不利用這一協(xié)議進行不正當(dāng)競爭行為。這也是后來百度起訴360違反Robots協(xié)議時,會大義凜然指責(zé)360搜索在明確承認Robots協(xié)議約束力后、又規(guī)避了這個協(xié)議的底氣。
盡管Robots協(xié)議并不俱備法律層面的強制力,甚至都不是行業(yè)自律公約,實質(zhì)上僅僅只是一個君子協(xié)定,可是在過去三十年里,Robots協(xié)議在事實層面成為了網(wǎng)站和搜索引擎共同遵守的一個有關(guān)數(shù)據(jù)抓取的規(guī)則。一個缺乏強制力的君子協(xié)定能存在、并得到不同文化背景互聯(lián)網(wǎng)公司的認可,自然是有它的道理。
Robots協(xié)議的成功之處,就在于做到了搜索引擎和網(wǎng)站的雙贏。其中搜索引擎抓取了網(wǎng)站的網(wǎng)頁、讓自己的索引庫更加充實,進而滿足用戶對于信息的需求,而網(wǎng)站方則從搜索引擎處得到了流量作為回饋,進而通過流量變現(xiàn)賺到真金白銀。
以AI搜索獨角獸Perplexity為代表的一眾AI廠商打破乃至無視Robots協(xié)議的趨勢,如果要用一個詞來形容,“禮樂崩壞”似乎是最合適的。
周朝用“禮樂”實現(xiàn)了人人各安其位各樂其業(yè),長幼有序尊卑井然,上下和睦貴賤相安的秩序,而互聯(lián)網(wǎng)的奠基人則用開放、平等、協(xié)作、快速、分享塑造了互聯(lián)網(wǎng)世界的行為準(zhǔn)則?;ヂ?lián)網(wǎng)精神雖然并不要求每一個參與者都具備這種精神,但是Tim Berners-Lee、Marc Andreessen等早期互聯(lián)網(wǎng)的締造者,卻在頂層設(shè)計中用“無形的大手”促使每一個參與者需要遵循互聯(lián)網(wǎng)精神。
一個很簡單的例子,就是如果大家曾經(jīng)不相信互聯(lián)網(wǎng)精神,那么Copy to China根本就不會發(fā)生。所以問題就來了,為什么互聯(lián)網(wǎng)世界如今會“禮樂崩壞”呢?韓非子有言,“事異則備變。上古競于道德,中世逐于智謀,當(dāng)今爭于氣力”。早期的互聯(lián)網(wǎng)世界“競于道德”,是因為彼時的互聯(lián)網(wǎng)還是蠻荒之地,大片的處女地等待著參與者來開拓,一旦找對了賽道就能扶搖直上。
可到了移動互聯(lián)網(wǎng)時代,隨著互聯(lián)網(wǎng)世界的拓荒時代結(jié)束,每一條賽道幾乎都站滿了巨頭,創(chuàng)業(yè)者就得靠智謀才能成功,否則即使成為風(fēng)口上的豬,風(fēng)停了也得摔下來。
而當(dāng)下隨著流量紅利的枯竭,互聯(lián)網(wǎng)進入存量競爭時期后,就得刺刀見紅了。這時候?qū)τ贏I廠商來說,獲取更多的數(shù)據(jù)以訓(xùn)練更強的模型、再用更強的模型拉到更多的投資才是王道,遵守Robots協(xié)議反而會讓自己在市場競爭中落后。
當(dāng)然,AI廠商并非就想離經(jīng)叛道,而是他們拿不出讓數(shù)據(jù)擁有著滿意的籌碼。此前網(wǎng)站站長愿意向Googlebot敞開大門,還不是因為谷歌搜索能回饋流量,可AI廠商并不像搜索引擎那樣能用流量來作為報酬,反倒是AI廠商訓(xùn)練的大模型可能會代替網(wǎng)站。所以指望網(wǎng)站像接納搜索引擎一樣接納AI廠商,無異于難如登天。
所以當(dāng)數(shù)據(jù)擁有者不想給、可AI廠商偏偏又很想要的情況下,“禮樂崩壞”也就來了。