正在閱讀:

為了給大模型找語料,有人開始進(jìn)行“互聯(lián)網(wǎng)考古”

掃一掃下載界面新聞APP

為了給大模型找語料,有人開始進(jìn)行“互聯(lián)網(wǎng)考古”

圍繞構(gòu)建更強(qiáng)大的AI大模型,科技巨頭、AI獨(dú)角獸更是展開了一輪又一輪的廝殺。

文|三易生活

過去一年,AI大模型無疑是科技行業(yè)中最亮眼的主角,從FAAMG到BAT、再到一眾初創(chuàng)企業(yè),無數(shù)優(yōu)秀的大腦、海量的資源都投入到了這個(gè)有望解放人類生產(chǎn)力的賽道中。

圍繞構(gòu)建更強(qiáng)大的AI大模型,科技巨頭、AI獨(dú)角獸更是展開了一輪又一輪的廝殺,對(duì)于算法、數(shù)據(jù)、算力的爭(zhēng)奪如今也已達(dá)到了白熱化狀態(tài),其中特別是數(shù)據(jù)資源更是成為了重中之重,畢竟沒有它來作為燃料,不光無法訓(xùn)練更強(qiáng)的大模型、現(xiàn)有的大模型也可能會(huì)“熄火”。

為了收集更多的數(shù)據(jù)、或者說是語料來澆灌大模型,“買買買”就成為了一眾AI廠商的解決方案,例如谷歌每年花6000萬美元從Reddit手中買數(shù)據(jù),OpenAI更是付費(fèi)購買了施普林格出版集團(tuán)旗下出版物的內(nèi)容。眼見財(cái)大氣粗的AI廠商揮舞鈔票,越來越多的人也開始意識(shí)到了語料的價(jià)值。

日前照片分享社區(qū)EyeEm突然變更了服務(wù)條款,宣布將默認(rèn)使用平臺(tái)上的照片來訓(xùn)練AI大模型。

據(jù)悉,EyeEm方面通過郵件通知用戶,該公司在其條款和條件中添加了一項(xiàng)新的條款,授予其"復(fù)制、分發(fā)、公開展示、轉(zhuǎn)換、改編、制作衍生作品、向公眾傳播和/或推廣"用戶內(nèi)容的權(quán)利,包括用于培訓(xùn)、開發(fā)和改進(jìn)軟件、算法和機(jī)器學(xué)習(xí)模型,用戶有30天的時(shí)間可選擇退出,否則就默認(rèn)為同意這一用途,未來用戶想要從EyeEm及其合作伙伴平臺(tái)上刪除內(nèi)容可能需要長(zhǎng)達(dá)180天。

一石激起千層浪,EyeEm此舉幾乎是將覬覦用戶照片的想法擺在了臺(tái)面上。要知道,在當(dāng)下這個(gè)用戶普遍重視個(gè)人隱私的時(shí)代,用突然更改用戶協(xié)議的方式來表示自己準(zhǔn)備將收集的用戶數(shù)據(jù)作為AI訓(xùn)練的語料,就等于是直接與用戶交惡。

那么問題就來了,為什么EyeEm會(huì)搞出這種幾乎屬于自絕于用戶的操作呢?當(dāng)然是因?yàn)樯聿挥梢选?/p>

成立于2010年的EyeEm,曾被視為全球知名圖片社交平臺(tái)Instagram在歐洲市場(chǎng)的競(jìng)爭(zhēng)對(duì)手,前者在最鼎盛時(shí)期曾擁有超過2000萬名活躍的優(yōu)秀視覺創(chuàng)作者。并且與Instagram不同的是,EyeEm非常受攝影師的青睞,因?yàn)槠渫瞥隽藰O具商業(yè)價(jià)值的Mission功能,可以讓品牌向EyeEm社區(qū)眾包照片,幫助平臺(tái)上的攝影師賺到錢。

然而遺憾的是,EyeEm這樣一個(gè)將商業(yè)化與社區(qū)建設(shè)恰如其分融合到一起的廠商,最終還是被Instagram碾壓了。在Instagram被Meta收購后,前者借助Meta的社交網(wǎng)絡(luò)成功席卷全球,但與之相對(duì)應(yīng)的是,2018年之后EyeEm就開始走下坡路,到了2021年,這家公司被瑞士社交網(wǎng)站Talenthouse以4000萬美元的價(jià)格收購。只可惜在Talenthouse手中的EyeEm也沒能起死回生,因?yàn)槠胀ㄓ脩舨⒉恍枰獌蓚€(gè)圖片分享社區(qū)。

到了2022年年中,EyeEm已經(jīng)無法按時(shí)向攝影師支付報(bào)酬。隨后在2023年4月,EyeEm正式申請(qǐng)破產(chǎn)保護(hù)。同年10月,這家僅剩3名員工的公司,被西班牙在線平面設(shè)計(jì)資源網(wǎng)站Freepik收購。

顯而易見,在申請(qǐng)破產(chǎn)保護(hù)之后,EyeEm就已經(jīng)只是一個(gè)空殼了,用戶規(guī)模也萎縮至15萬人。對(duì)于一個(gè)非技術(shù)導(dǎo)向、或者說產(chǎn)品導(dǎo)向的互聯(lián)網(wǎng)公司來說,從2000萬用戶衰退到15萬,也就意味著EyeEm已經(jīng)無法說服用戶繼續(xù)使用他們的產(chǎn)品了。

Freepik之所以收購EyeEm,就是為了后者所擁有的1.6億張圖像資源。Freepik已然成為一個(gè)數(shù)據(jù)掮客,為了向AI大模型廠商出售語料資源,而買下了已經(jīng)失去經(jīng)營(yíng)價(jià)值的EyeEm。從某種意義上來說,F(xiàn)reepik也算是獨(dú)具慧眼,發(fā)現(xiàn)了EyeEm這樣一家注定玩完的互聯(lián)網(wǎng)公司的剩余價(jià)值。

要知道自從進(jìn)入新世紀(jì)以來,嘗試在互聯(lián)網(wǎng)行業(yè)進(jìn)行創(chuàng)業(yè)的團(tuán)隊(duì)不知幾凡,但畢竟Meta、X、Reddit這樣的成功者只是少數(shù),更多的初創(chuàng)公司最終都成為了“炮灰”。只不過在這一眾失敗者里,有不少是曾經(jīng)煊赫一時(shí)的存在,但他們最終因?yàn)榉N種原因陷入了沉寂。而在AI大模型爆發(fā)以前,類似EyeEm這樣的失敗者其實(shí)是毫無價(jià)值的,因?yàn)樗鼈兊纳虡I(yè)模式失敗了,競(jìng)爭(zhēng)對(duì)手脫穎而出。

然而當(dāng)下最火熱的AI大模型需要海量的數(shù)據(jù)來澆灌,在同等條件下,預(yù)訓(xùn)練時(shí)投喂的數(shù)據(jù)越多,AI大模型的性能就越強(qiáng),這已經(jīng)是業(yè)界的共識(shí)。只是優(yōu)質(zhì)數(shù)據(jù)總歸是稀缺資源,根據(jù)人工智能研究機(jī)構(gòu)epoch的預(yù)測(cè),語言數(shù)據(jù)可能在2030至2040年耗盡,其中能訓(xùn)練出更優(yōu)性能的高質(zhì)量語言數(shù)據(jù)甚至可能在2026年就被耗盡。在這種情況下,EyeEm這類沉淀了數(shù)據(jù)資源的失敗者,突然就變得有了價(jià)值。

因此有了Freepik的珠玉在前,未來可能會(huì)有越來越多公司去嘗試從互聯(lián)網(wǎng)創(chuàng)業(yè)的失敗者身上挖掘可能存在的數(shù)據(jù)資源,進(jìn)而讓互聯(lián)網(wǎng)考古不再是部分網(wǎng)民的興趣,更有可能真正變成一門生意。

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請(qǐng)聯(lián)系原著作權(quán)人。

評(píng)論

暫無評(píng)論哦,快來評(píng)價(jià)一下吧!

下載界面新聞

微信公眾號(hào)

微博

為了給大模型找語料,有人開始進(jìn)行“互聯(lián)網(wǎng)考古”

圍繞構(gòu)建更強(qiáng)大的AI大模型,科技巨頭、AI獨(dú)角獸更是展開了一輪又一輪的廝殺。

文|三易生活

過去一年,AI大模型無疑是科技行業(yè)中最亮眼的主角,從FAAMG到BAT、再到一眾初創(chuàng)企業(yè),無數(shù)優(yōu)秀的大腦、海量的資源都投入到了這個(gè)有望解放人類生產(chǎn)力的賽道中。

圍繞構(gòu)建更強(qiáng)大的AI大模型,科技巨頭、AI獨(dú)角獸更是展開了一輪又一輪的廝殺,對(duì)于算法、數(shù)據(jù)、算力的爭(zhēng)奪如今也已達(dá)到了白熱化狀態(tài),其中特別是數(shù)據(jù)資源更是成為了重中之重,畢竟沒有它來作為燃料,不光無法訓(xùn)練更強(qiáng)的大模型、現(xiàn)有的大模型也可能會(huì)“熄火”。

為了收集更多的數(shù)據(jù)、或者說是語料來澆灌大模型,“買買買”就成為了一眾AI廠商的解決方案,例如谷歌每年花6000萬美元從Reddit手中買數(shù)據(jù),OpenAI更是付費(fèi)購買了施普林格出版集團(tuán)旗下出版物的內(nèi)容。眼見財(cái)大氣粗的AI廠商揮舞鈔票,越來越多的人也開始意識(shí)到了語料的價(jià)值。

日前照片分享社區(qū)EyeEm突然變更了服務(wù)條款,宣布將默認(rèn)使用平臺(tái)上的照片來訓(xùn)練AI大模型。

據(jù)悉,EyeEm方面通過郵件通知用戶,該公司在其條款和條件中添加了一項(xiàng)新的條款,授予其"復(fù)制、分發(fā)、公開展示、轉(zhuǎn)換、改編、制作衍生作品、向公眾傳播和/或推廣"用戶內(nèi)容的權(quán)利,包括用于培訓(xùn)、開發(fā)和改進(jìn)軟件、算法和機(jī)器學(xué)習(xí)模型,用戶有30天的時(shí)間可選擇退出,否則就默認(rèn)為同意這一用途,未來用戶想要從EyeEm及其合作伙伴平臺(tái)上刪除內(nèi)容可能需要長(zhǎng)達(dá)180天。

一石激起千層浪,EyeEm此舉幾乎是將覬覦用戶照片的想法擺在了臺(tái)面上。要知道,在當(dāng)下這個(gè)用戶普遍重視個(gè)人隱私的時(shí)代,用突然更改用戶協(xié)議的方式來表示自己準(zhǔn)備將收集的用戶數(shù)據(jù)作為AI訓(xùn)練的語料,就等于是直接與用戶交惡。

那么問題就來了,為什么EyeEm會(huì)搞出這種幾乎屬于自絕于用戶的操作呢?當(dāng)然是因?yàn)樯聿挥梢选?/p>

成立于2010年的EyeEm,曾被視為全球知名圖片社交平臺(tái)Instagram在歐洲市場(chǎng)的競(jìng)爭(zhēng)對(duì)手,前者在最鼎盛時(shí)期曾擁有超過2000萬名活躍的優(yōu)秀視覺創(chuàng)作者。并且與Instagram不同的是,EyeEm非常受攝影師的青睞,因?yàn)槠渫瞥隽藰O具商業(yè)價(jià)值的Mission功能,可以讓品牌向EyeEm社區(qū)眾包照片,幫助平臺(tái)上的攝影師賺到錢。

然而遺憾的是,EyeEm這樣一個(gè)將商業(yè)化與社區(qū)建設(shè)恰如其分融合到一起的廠商,最終還是被Instagram碾壓了。在Instagram被Meta收購后,前者借助Meta的社交網(wǎng)絡(luò)成功席卷全球,但與之相對(duì)應(yīng)的是,2018年之后EyeEm就開始走下坡路,到了2021年,這家公司被瑞士社交網(wǎng)站Talenthouse以4000萬美元的價(jià)格收購。只可惜在Talenthouse手中的EyeEm也沒能起死回生,因?yàn)槠胀ㄓ脩舨⒉恍枰獌蓚€(gè)圖片分享社區(qū)。

到了2022年年中,EyeEm已經(jīng)無法按時(shí)向攝影師支付報(bào)酬。隨后在2023年4月,EyeEm正式申請(qǐng)破產(chǎn)保護(hù)。同年10月,這家僅剩3名員工的公司,被西班牙在線平面設(shè)計(jì)資源網(wǎng)站Freepik收購。

顯而易見,在申請(qǐng)破產(chǎn)保護(hù)之后,EyeEm就已經(jīng)只是一個(gè)空殼了,用戶規(guī)模也萎縮至15萬人。對(duì)于一個(gè)非技術(shù)導(dǎo)向、或者說產(chǎn)品導(dǎo)向的互聯(lián)網(wǎng)公司來說,從2000萬用戶衰退到15萬,也就意味著EyeEm已經(jīng)無法說服用戶繼續(xù)使用他們的產(chǎn)品了。

Freepik之所以收購EyeEm,就是為了后者所擁有的1.6億張圖像資源。Freepik已然成為一個(gè)數(shù)據(jù)掮客,為了向AI大模型廠商出售語料資源,而買下了已經(jīng)失去經(jīng)營(yíng)價(jià)值的EyeEm。從某種意義上來說,F(xiàn)reepik也算是獨(dú)具慧眼,發(fā)現(xiàn)了EyeEm這樣一家注定玩完的互聯(lián)網(wǎng)公司的剩余價(jià)值。

要知道自從進(jìn)入新世紀(jì)以來,嘗試在互聯(lián)網(wǎng)行業(yè)進(jìn)行創(chuàng)業(yè)的團(tuán)隊(duì)不知幾凡,但畢竟Meta、X、Reddit這樣的成功者只是少數(shù),更多的初創(chuàng)公司最終都成為了“炮灰”。只不過在這一眾失敗者里,有不少是曾經(jīng)煊赫一時(shí)的存在,但他們最終因?yàn)榉N種原因陷入了沉寂。而在AI大模型爆發(fā)以前,類似EyeEm這樣的失敗者其實(shí)是毫無價(jià)值的,因?yàn)樗鼈兊纳虡I(yè)模式失敗了,競(jìng)爭(zhēng)對(duì)手脫穎而出。

然而當(dāng)下最火熱的AI大模型需要海量的數(shù)據(jù)來澆灌,在同等條件下,預(yù)訓(xùn)練時(shí)投喂的數(shù)據(jù)越多,AI大模型的性能就越強(qiáng),這已經(jīng)是業(yè)界的共識(shí)。只是優(yōu)質(zhì)數(shù)據(jù)總歸是稀缺資源,根據(jù)人工智能研究機(jī)構(gòu)epoch的預(yù)測(cè),語言數(shù)據(jù)可能在2030至2040年耗盡,其中能訓(xùn)練出更優(yōu)性能的高質(zhì)量語言數(shù)據(jù)甚至可能在2026年就被耗盡。在這種情況下,EyeEm這類沉淀了數(shù)據(jù)資源的失敗者,突然就變得有了價(jià)值。

因此有了Freepik的珠玉在前,未來可能會(huì)有越來越多公司去嘗試從互聯(lián)網(wǎng)創(chuàng)業(yè)的失敗者身上挖掘可能存在的數(shù)據(jù)資源,進(jìn)而讓互聯(lián)網(wǎng)考古不再是部分網(wǎng)民的興趣,更有可能真正變成一門生意。

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請(qǐng)聯(lián)系原著作權(quán)人。