文 | 娛樂(lè)資本論 付夢(mèng)珍
“貧困山村里,沒(méi)上過(guò)大學(xué)的女人們?cè)谖桂B(yǎng)AI?!?/p>
“富士康工人流向AI標(biāo)注廠?!?/p>
“跟AI打工,貧困縣也能月薪7000?!?/p>
在“有多少智能,就有多少人工”的AI時(shí)代,有一批人通過(guò)采集現(xiàn)實(shí)世界的圖像、視頻、文字等信息,清洗標(biāo)注后將數(shù)據(jù)轉(zhuǎn)化為代碼輸送給機(jī)器,從事這份工作的人叫做數(shù)據(jù)標(biāo)注員。
打開(kāi)關(guān)于AI數(shù)據(jù)標(biāo)注行業(yè)的新聞,我們隨處可見(jiàn)上述標(biāo)題。低門(mén)檻、勞動(dòng)密集、高度程式化、標(biāo)準(zhǔn)操作流水線(xiàn),成為了數(shù)據(jù)標(biāo)注工人身上最大的標(biāo)簽特征。而在國(guó)際上,因?yàn)橛写罅康姆侵蘅夏醽喨嗽谧鱿嚓P(guān)工作,他們又有一個(gè)灰色昵稱(chēng),“肯尼亞人”。
而這,也與數(shù)據(jù)公司的甲方——百度、阿里等,致力于要用技術(shù)改變世界的大公司們形成了鮮明的對(duì)比。大洋彼岸,數(shù)據(jù)標(biāo)注服務(wù)公司Scale AI市值73億美元,彰顯了數(shù)據(jù)公司的資本潛力,也讓我們看到了數(shù)據(jù)公司走向百億美金估值的可能性。
隨著AIGC時(shí)代的到來(lái),數(shù)據(jù)標(biāo)注員的工作有何改變?上述新聞標(biāo)簽是否是他們的行業(yè)常態(tài)?數(shù)據(jù)標(biāo)注行業(yè)現(xiàn)在存在哪些問(wèn)題?未來(lái)又有哪些發(fā)展前景?更重要的是,他們展現(xiàn)了AI行業(yè)背后的什么樣的困難?
帶著這些問(wèn)題,娛樂(lè)資本論走進(jìn)了四家數(shù)據(jù)標(biāo)注公司,發(fā)現(xiàn)了如下的行業(yè)現(xiàn)狀:
VOL.1.標(biāo)注行業(yè)對(duì)員工的素質(zhì)要求越來(lái)越高,本科生占比高
VOL.2.兼職的標(biāo)注人員中寶媽較穩(wěn)定,更受歡迎
VOL.3.垂類(lèi)行業(yè)的數(shù)據(jù)標(biāo)注訂單增多,對(duì)垂類(lèi)標(biāo)注人才的需求量增多
VOL.4.底層數(shù)據(jù)標(biāo)注員的工資與最低工資標(biāo)準(zhǔn)類(lèi)似
VOL.5.AI只帶來(lái)了短期的訂單增加,小型數(shù)據(jù)標(biāo)注公司很卷
VOL.6.多數(shù)數(shù)據(jù)標(biāo)注公司沒(méi)有構(gòu)建自己的數(shù)據(jù)壁壘
VOL.7.數(shù)據(jù)公司的發(fā)展趨勢(shì):①、利用AI技術(shù)降本增效 ②、專(zhuān)注于某一垂類(lèi)的數(shù)據(jù) ③、往產(chǎn)業(yè)鏈上游走,做數(shù)據(jù)采集、合成等
本科生越來(lái)越多,寶媽更受喜愛(ài)
“我們不是富士康的流水線(xiàn)模式?!?/p>
當(dāng)被問(wèn)及公司的員工現(xiàn)狀時(shí),幾家數(shù)據(jù)公司都給出了類(lèi)似的回答。
龍貓數(shù)據(jù)成立于2014年,累計(jì)服務(wù)了60余家主機(jī)廠和自動(dòng)駕駛公司,為客戶(hù)提供整體的數(shù)據(jù)解決方案。
今年AIGC爆火后,龍貓接到了很多圖文標(biāo)注、視頻標(biāo)注需求的訂單,會(huì)有很多多模態(tài)應(yīng)用場(chǎng)景,比如車(chē)內(nèi)座艙的文娛軟件等。龍貓副總裁胡邱飛向娛樂(lè)資本論指出“這要求標(biāo)注人員能理解大模型的應(yīng)用,而大模型會(huì)考察幾乎所有領(lǐng)域的通識(shí)類(lèi)知識(shí)。此外,標(biāo)注內(nèi)容要和客戶(hù)的模型價(jià)值盡量貼近。所以這也要求我們找的標(biāo)注人員絕大多數(shù)學(xué)歷在本科以上?!?/p>
龍貓公司一角
針對(duì)垂直領(lǐng)域,龍貓則會(huì)配備專(zhuān)業(yè)領(lǐng)域人員,比如為數(shù)學(xué)相關(guān)大模型招聘會(huì)高等數(shù)學(xué)的人,“如果不是這專(zhuān)業(yè)的人,你根本看不出細(xì)節(jié)上的區(qū)別?!?/p>
成都的匯眾天智總經(jīng)理駱靖元也在AIGC浪潮后提高了對(duì)員工的素質(zhì)要求,“三四年前對(duì)員工的素質(zhì)要求還不高,但是現(xiàn)在甲方對(duì)質(zhì)量和效率的要求提高了。公司之前90%是大專(zhuān),現(xiàn)在本科占到了一半,甚至有研究生?!?/p>
2018年,做軟件的丁一峻,在朋友的引薦下接到了阿里數(shù)據(jù)標(biāo)注的訂單,2019年創(chuàng)立了飛火大數(shù)據(jù)公司。之后,出于成本考慮丁一峻回到家鄉(xiāng)創(chuàng)業(yè)做數(shù)據(jù)標(biāo)注公司,“那時(shí)的數(shù)據(jù)標(biāo)注行業(yè)確實(shí)能提供大量就業(yè),洛陽(yáng)數(shù)據(jù)局2019年的時(shí)候也牽頭想做數(shù)據(jù)處理公司,招人好招,但交付難?!?/p>
2019年做百度某數(shù)據(jù)標(biāo)注業(yè)務(wù)項(xiàng)目截圖
“數(shù)據(jù)標(biāo)注本質(zhì)是高級(jí)搬磚。”丁一峻向娛樂(lè)資本論指出,“有標(biāo)注需求的多是大公司,現(xiàn)在很多標(biāo)注公司會(huì)外放做不過(guò)來(lái)的訂單,這就讓市面上很多沒(méi)跟甲方深度捆綁的公司,接的訂單都特零碎。這種訂單一是邊緣化業(yè)務(wù),比如小語(yǔ)種。二是時(shí)間周期短的業(yè)務(wù),很考驗(yàn)外部公司的交付能力?!?/p>
這兩類(lèi)訂單,也倒逼著丁一峻要提高對(duì)員工素質(zhì)的要求。這期間,丁一峻嘗試過(guò)和學(xué)校監(jiān)獄合作,相繼作罷,“學(xué)校要考慮領(lǐng)導(dǎo)、輔導(dǎo)員各種利益分配,監(jiān)獄對(duì)網(wǎng)絡(luò)要求高,不如找全職?!?/p>
飛火大數(shù)據(jù)公司一角
綜合原因下,大部分的數(shù)據(jù)公司更傾向于招聘兼職人員。沈陽(yáng)正午數(shù)據(jù)公司人事小蘇接受河豚君采訪的前一天,剛在Boss直聘上發(fā)了招聘兼職的通知,“行業(yè)本身利潤(rùn)有限,全職成本太高了,根本就不能實(shí)現(xiàn)?!?/p>
“我們招人基本要求大專(zhuān)以上,發(fā)了以后有上百人聯(lián)系我,但是很多人沒(méi)經(jīng)驗(yàn)?!毙√K招聘時(shí),會(huì)和兼職強(qiáng)調(diào)對(duì)數(shù)據(jù)保密性的要求,“不知道是不是受網(wǎng)絡(luò)的影響,很多人戒備心很重,聽(tīng)到要保密就不做了。但我們公司有良心,必須強(qiáng)調(diào)保密。”
杭州景聯(lián)文是一家從事數(shù)據(jù)采集標(biāo)注、數(shù)據(jù)融合挖掘的公司,現(xiàn)有1000多位全職標(biāo)注人員,其CEO劉云濤向河豚君透露,“標(biāo)注項(xiàng)目難度越來(lái)越高,要求標(biāo)注員的學(xué)歷和專(zhuān)業(yè)知識(shí)水平越來(lái)越高,比如語(yǔ)言標(biāo)注團(tuán)隊(duì),要求會(huì)各種小語(yǔ)種。醫(yī)療標(biāo)注,需要醫(yī)學(xué)院畢業(yè)的學(xué)生?!?/p>
龍貓則是全職兼職兩手抓。胡邱飛透露,“我們現(xiàn)在線(xiàn)上注冊(cè)用戶(hù)400多萬(wàn),活躍全職的1萬(wàn)人左右。”線(xiàn)上之外,龍貓?jiān)谖髂系貐^(qū)做了線(xiàn)下標(biāo)注基地,“那邊高校多,學(xué)生素質(zhì)也更高,員工500人左右?!?/p>
龍貓的全職運(yùn)營(yíng)會(huì)了解兼職的情況,“我們更喜歡用沒(méi)有全職工作的群體,比如寶媽?zhuān)齻儠r(shí)間充沛,更好管理,也更穩(wěn)定?!?/p>
整體來(lái)說(shuō),如今數(shù)據(jù)行業(yè)的標(biāo)注人員發(fā)展如同美團(tuán)般發(fā)展成了全職、服務(wù)站、眾包等階梯式的人力模式。胡邱飛透露,“我們線(xiàn)上眾包是強(qiáng)管控,最終交付結(jié)果都是計(jì)件的?!?/p>
小蘇介紹,目前公司兼職的員工大概兩三千,常駐人員1000左右,流失率一半。丁一峻透露,“基礎(chǔ)的標(biāo)注員往往都是屬于地方上的最低工資標(biāo)準(zhǔn),三線(xiàn)城市兩三千左右,質(zhì)檢員和項(xiàng)目經(jīng)理,能到七千左右?!?/p>
層層外包下,標(biāo)注公司活少錢(qián)少風(fēng)險(xiǎn)高
“太卷了。”
這幾乎是數(shù)據(jù)公司們共同的心聲。
“我們現(xiàn)在就像河南的食品代加工廠一樣,品牌是別人的,工作相當(dāng)于幫別人養(yǎng)孩子?!倍∫痪墓靖叻鍟r(shí)有兩三百人,現(xiàn)在公司只有40多位員工,“老客戶(hù)的需求還在,能維持正常運(yùn)營(yíng),但這種單子很雞肋,一個(gè)月幾百幾千跟辦公室采購(gòu)差不多,利潤(rùn)太低,項(xiàng)目體量也不穩(wěn)定。數(shù)據(jù)行業(yè)缺乏像蘋(píng)果、特斯拉一樣需求穩(wěn)定的工廠。不然我也不想裁人,有活還需要找外包?!?/p>
駱靖元指出,AIGC爆火后自己招人和以前相比省去了科普人工智能的環(huán)節(jié),但在接活上更卷了,“大公司有定期篩選的機(jī)制,比如說(shuō)這批我需要10家公司。那我就從100個(gè)里面篩選,其中哪兩三個(gè)不合適,我再動(dòng)態(tài)替換。這使得一些公司不斷報(bào)低價(jià),惡性循環(huán)?!?/p>
為了接到訂單,丁一峻一直在努力降本增效,“為了提高效率,我們開(kāi)發(fā)了AI工具,之前2D拉框要8分一個(gè),現(xiàn)在降到了5、6分,操作更便捷。質(zhì)量上,如果客戶(hù)不想要目標(biāo)物低于某像素值的,工具直接調(diào)數(shù)值,標(biāo)注員就不用標(biāo)了?!?/p>
但是這種工具標(biāo)注公司基本只能自用,“同行有能力買(mǎi)的,自己有開(kāi)發(fā)的實(shí)力。沒(méi)開(kāi)發(fā)實(shí)力的,出不起這個(gè)錢(qián)?!闭f(shuō)著,丁一峻給我發(fā)來(lái)了網(wǎng)上開(kāi)源的標(biāo)注工具,“每家平臺(tái)都差不多,都是基于labelme的底層邏輯。早幾年能打個(gè)信息差,賣(mài)平臺(tái)賺點(diǎn)錢(qián),現(xiàn)在不行了,大家都知道套路,直接上源碼加個(gè)UI就成產(chǎn)品了?!?/p>
某標(biāo)注工具圖
“今年2月GPT剛火的時(shí)候訂單多了一些,那時(shí)大公司的目的更多是為了割韭菜炒股價(jià)。后來(lái)這些AI大公司發(fā)現(xiàn)變現(xiàn)難,七八月份就很少在數(shù)據(jù)標(biāo)注上投入了?!北6ǖ臄?shù)據(jù)標(biāo)注老板周三體說(shuō),標(biāo)注公司遇到的困難,仿佛也印證了AI潮冷去的某種現(xiàn)實(shí),“AI公司的客戶(hù)很多還是G端,根本不在乎AI能力,更在意能不能喝酒、能不能墊資”。
為了接活,周三體努力降低成本,“2D拉框最早是1毛5一個(gè),現(xiàn)在降到了8、9分一個(gè)框?!?/p>
景聯(lián)文在努力將非標(biāo)準(zhǔn)化產(chǎn)品標(biāo)準(zhǔn)化,現(xiàn)在將2D拉框標(biāo)注項(xiàng)目的成本降低了50%。
打開(kāi)天眼查搜索數(shù)據(jù)標(biāo)注公司,我們也能發(fā)現(xiàn)大部分的公司經(jīng)營(yíng)所在地都在河北、山東、河南等人口大省,這與當(dāng)?shù)貏趧?dòng)力密集且廉價(jià)息息相關(guān)?!按髲S會(huì)把業(yè)務(wù)承包給有資歷和實(shí)力的公司,這種公司再外包,到我們價(jià)格很低了,還需要墊款,壓力很大。”周三體說(shuō)時(shí)嘆了口氣。
回憶起2017年創(chuàng)業(yè)的日子,駱靖元說(shuō)那時(shí)借著自動(dòng)駕駛行情數(shù)據(jù)行業(yè)很火,訂單像雨后春筍一樣地涌現(xiàn),“像百度做了語(yǔ)音采集,高德、訊飛會(huì)再做一遍。算法都沒(méi)變,標(biāo)注都是新瓶裝舊酒,同樣一批人臉識(shí)別的圖片,A公司做完B公司做,之后C公司再做,我們始終是在給別人做嫁衣?!钡@樣的日子也好景不長(zhǎng),如今訂單量變少,“人員迅速增加后又會(huì)有斷檔期,大部分公司死在了斷檔期里?!?/p>
被問(wèn)及是否覺(jué)得公司的運(yùn)營(yíng)模式是新時(shí)代的數(shù)據(jù)工廠時(shí),丁一峻認(rèn)為,“AI的產(chǎn)品線(xiàn)不像工廠那么完善,缺乏法律和社會(huì)面的支持,比如版權(quán)、數(shù)據(jù)安全。”
丁一峻曾承接過(guò)一家證券公司的標(biāo)注工作,“剛好有一家標(biāo)注員是這家證券公司的用戶(hù),他提出了抗議,后來(lái)私下花錢(qián)和解了。誰(shuí)采集數(shù)據(jù),出了問(wèn)題誰(shuí)負(fù)責(zé),所以一般我們也不會(huì)過(guò)問(wèn)數(shù)據(jù)來(lái)源情況?!?/p>
技術(shù)壁壘低、政策法規(guī)不健全、訂單量少且不穩(wěn)定,數(shù)據(jù)行業(yè)面臨著多種困境,這也逼著其從業(yè)者尋找新的轉(zhuǎn)型發(fā)展之路。
被AI代替?還是用AI起飛?
為了降本增效,龍貓研究了AI加持下的數(shù)據(jù)標(biāo)注管理系統(tǒng),“自動(dòng)駕駛上節(jié)省了40%,AIGC在探索引入GPT等大語(yǔ)言模型校準(zhǔn)標(biāo)注結(jié)果。作為機(jī)器和人的交叉驗(yàn)證,保證輸出的一個(gè)質(zhì)量。因?yàn)槿藭?huì)有波動(dòng),機(jī)器更加穩(wěn)定,偏差小。”
此外,龍貓?jiān)趪L試通過(guò)AI技術(shù)省去標(biāo)注環(huán)節(jié),直接進(jìn)入到審核和質(zhì)檢環(huán)節(jié)。
高質(zhì)量語(yǔ)料,尤其是私域數(shù)據(jù),是做好數(shù)據(jù)標(biāo)注的關(guān)鍵,AI在仿寫(xiě)改寫(xiě)上的潛力,讓人看到了其在合成語(yǔ)料上的潛力?!案鶕?jù)最新的生成式AI管理辦法,用戶(hù)擁有自己5張照片的版權(quán),但5張照片合成后生成的數(shù)據(jù)版權(quán)屬于合成方?!焙耧w據(jù)此出發(fā),在探索數(shù)據(jù)擬合向業(yè)務(wù),目的在于擁有數(shù)據(jù)的所有權(quán),標(biāo)注后多次復(fù)售數(shù)據(jù)包。
AI創(chuàng)業(yè)者周曉明指出,“AIGC賦能合成數(shù)據(jù),能夠解決真實(shí)數(shù)據(jù)獲取難、獲取成本高、多樣性不足、缺乏隱私保護(hù)等痛點(diǎn)問(wèn)題,替代真實(shí)是大勢(shì)所趨?!?/p>
對(duì)此,丁一峻則未敢嘗試,“AIGC合成數(shù)據(jù)需要看政策,現(xiàn)在是灰色地帶,好不好獲取,就看膽子大不大了。誰(shuí)也不知道未來(lái)會(huì)不會(huì)出爆款,有比擬真實(shí)數(shù)據(jù)的內(nèi)容出現(xiàn)?!?/p>
此外,龍貓也在探索獲取高質(zhì)量數(shù)據(jù)的新方式,打造公司壁壘,胡邱飛說(shuō),“國(guó)外出現(xiàn)的一種趨勢(shì)是用戶(hù)主動(dòng)售賣(mài)自己的數(shù)據(jù),讓數(shù)據(jù)公司得以繞開(kāi)原始數(shù)據(jù)的廠商壟斷的局面。我們也在想,怎么讓那些有時(shí)間、素質(zhì)又高的人做數(shù)據(jù)輸出和標(biāo)注,比如說(shuō)通過(guò)做題的方式,讓他們小程序上答題賺錢(qián)?!?/p>
“數(shù)據(jù)標(biāo)注是自我淘汰的行業(yè),AI可以通過(guò)模型優(yōu)化做部分標(biāo)注工作。發(fā)展到最后,這個(gè)行業(yè)可能只會(huì)剩下質(zhì)檢員這些崗位。”丁一峻為了應(yīng)對(duì)變化,將公司從洛陽(yáng)搬到了工業(yè)配套更完善的蘇州,做數(shù)據(jù)采集車(chē)業(yè)務(wù),“我們要給甲方提供硬件采購(gòu)和數(shù)據(jù)服務(wù)的整套方案,這樣甲方對(duì)我們的依賴(lài)度才能更深。”
景聯(lián)文則選擇了深耕垂類(lèi)賽道,專(zhuān)注于教育和醫(yī)療領(lǐng)域,劉云濤透露,“教育方面,我們手上有3億道從小學(xué)到職業(yè)教育的題,格式統(tǒng)一,解析維度包括專(zhuān)題分類(lèi)、分析過(guò)程、考點(diǎn)解析、解答過(guò)程、教師點(diǎn)評(píng)等?,F(xiàn)在大模型號(hào)稱(chēng)百模大戰(zhàn),至少有60家都要買(mǎi)我們的題庫(kù)?!?/p>
醫(yī)療方面,景聯(lián)文積累了400TB的醫(yī)學(xué)資料數(shù)據(jù)庫(kù)和三甲醫(yī)院的專(zhuān)家的病理數(shù)據(jù)。“我們兩年前開(kāi)始拓展標(biāo)注場(chǎng)景,選了醫(yī)療賽道,不管經(jīng)濟(jì)多不景氣,醫(yī)療始終有存在的意義和價(jià)值?!?/p>
值得一提的是,龍貓AIGC業(yè)務(wù)線(xiàn)負(fù)責(zé)人李亞向娛樂(lè)資本論透露,龍貓正在打造自己的垂類(lèi)大模型,“大模型一是做輔助標(biāo)注,讀懂題目后給答案讓人選。第二是做全自動(dòng)標(biāo)注,AI直接出結(jié)果。這種情況我們會(huì)做雙盲的實(shí)驗(yàn),比如一個(gè)答案用三個(gè)標(biāo)準(zhǔn)做一遍,里面我們會(huì)拆一個(gè)一個(gè)人或者兩個(gè)人用這種形式做,這樣不需要再做抽檢和質(zhì)檢,有些項(xiàng)目我們已經(jīng)用GPT交付了,準(zhǔn)確率方面達(dá)到了80%多,與人工接近。”
對(duì)市場(chǎng)規(guī)范化的呼吁,成為了不少數(shù)據(jù)標(biāo)注從業(yè)者的心聲,劉云濤指出,“未來(lái),怎么讓數(shù)據(jù)流通合規(guī)化、安全化是很大的問(wèn)題。現(xiàn)在很多城市在建立大數(shù)據(jù)交易中心,是積極的信號(hào)。”
艾瑞數(shù)據(jù)的人工智能數(shù)據(jù)報(bào)告指出,三年后,中國(guó)人工智能的數(shù)據(jù)治理市場(chǎng)規(guī)模預(yù)計(jì)將突破百億。
但更現(xiàn)實(shí)的問(wèn)題是,吐槽中文語(yǔ)料庫(kù)差的新聞屢見(jiàn)報(bào)端,大量的中小型數(shù)據(jù)標(biāo)注公司正在卷生卷死,大批數(shù)據(jù)標(biāo)注公司的業(yè)務(wù)產(chǎn)品,在批量化、利潤(rùn)率、風(fēng)險(xiǎn)性方面甚至不及富士康產(chǎn)品,映照到市場(chǎng)上的,則是逐漸遇冷的大模型市場(chǎng)以及越來(lái)越像“高科技施工隊(duì)”的中國(guó)AI商業(yè)環(huán)境。
當(dāng)我們?cè)噲D尋找解決之道時(shí),駱靖元回憶其工作多年感受時(shí)的話(huà)也許是最好的答案,“對(duì)我們同事來(lái)說(shuō),當(dāng)看到應(yīng)用落地的時(shí)候,還是比較欣慰的事情。雖然工資低,但終歸是做了點(diǎn)有用的事情?!?/p>
“數(shù)據(jù)是AI走向智能的基礎(chǔ),少開(kāi)點(diǎn)發(fā)布會(huì)炒股價(jià),多投點(diǎn)錢(qián)在標(biāo)注上才是正事?!辈稍L接近尾聲時(shí),周三體發(fā)來(lái)了這句話(huà)。