文 | 娛樂資本論 付夢珍
“貧困山村里,沒上過大學的女人們在喂養(yǎng)AI?!?/p>
“富士康工人流向AI標注廠。”
“跟AI打工,貧困縣也能月薪7000?!?/p>
在“有多少智能,就有多少人工”的AI時代,有一批人通過采集現(xiàn)實世界的圖像、視頻、文字等信息,清洗標注后將數(shù)據(jù)轉化為代碼輸送給機器,從事這份工作的人叫做數(shù)據(jù)標注員。
打開關于AI數(shù)據(jù)標注行業(yè)的新聞,我們隨處可見上述標題。低門檻、勞動密集、高度程式化、標準操作流水線,成為了數(shù)據(jù)標注工人身上最大的標簽特征。而在國際上,因為有大量的非洲肯尼亞人在做相關工作,他們又有一個灰色昵稱,“肯尼亞人”。
而這,也與數(shù)據(jù)公司的甲方——百度、阿里等,致力于要用技術改變世界的大公司們形成了鮮明的對比。大洋彼岸,數(shù)據(jù)標注服務公司Scale AI市值73億美元,彰顯了數(shù)據(jù)公司的資本潛力,也讓我們看到了數(shù)據(jù)公司走向百億美金估值的可能性。
隨著AIGC時代的到來,數(shù)據(jù)標注員的工作有何改變?上述新聞標簽是否是他們的行業(yè)常態(tài)?數(shù)據(jù)標注行業(yè)現(xiàn)在存在哪些問題?未來又有哪些發(fā)展前景?更重要的是,他們展現(xiàn)了AI行業(yè)背后的什么樣的困難?
帶著這些問題,娛樂資本論走進了四家數(shù)據(jù)標注公司,發(fā)現(xiàn)了如下的行業(yè)現(xiàn)狀:
VOL.1.標注行業(yè)對員工的素質要求越來越高,本科生占比高
VOL.2.兼職的標注人員中寶媽較穩(wěn)定,更受歡迎
VOL.3.垂類行業(yè)的數(shù)據(jù)標注訂單增多,對垂類標注人才的需求量增多
VOL.4.底層數(shù)據(jù)標注員的工資與最低工資標準類似
VOL.5.AI只帶來了短期的訂單增加,小型數(shù)據(jù)標注公司很卷
VOL.6.多數(shù)數(shù)據(jù)標注公司沒有構建自己的數(shù)據(jù)壁壘
VOL.7.數(shù)據(jù)公司的發(fā)展趨勢:①、利用AI技術降本增效 ②、專注于某一垂類的數(shù)據(jù) ③、往產業(yè)鏈上游走,做數(shù)據(jù)采集、合成等
本科生越來越多,寶媽更受喜愛
“我們不是富士康的流水線模式。”
當被問及公司的員工現(xiàn)狀時,幾家數(shù)據(jù)公司都給出了類似的回答。
龍貓數(shù)據(jù)成立于2014年,累計服務了60余家主機廠和自動駕駛公司,為客戶提供整體的數(shù)據(jù)解決方案。
今年AIGC爆火后,龍貓接到了很多圖文標注、視頻標注需求的訂單,會有很多多模態(tài)應用場景,比如車內座艙的文娛軟件等。龍貓副總裁胡邱飛向娛樂資本論指出“這要求標注人員能理解大模型的應用,而大模型會考察幾乎所有領域的通識類知識。此外,標注內容要和客戶的模型價值盡量貼近。所以這也要求我們找的標注人員絕大多數(shù)學歷在本科以上?!?/p>
龍貓公司一角
針對垂直領域,龍貓則會配備專業(yè)領域人員,比如為數(shù)學相關大模型招聘會高等數(shù)學的人,“如果不是這專業(yè)的人,你根本看不出細節(jié)上的區(qū)別。”
成都的匯眾天智總經理駱靖元也在AIGC浪潮后提高了對員工的素質要求,“三四年前對員工的素質要求還不高,但是現(xiàn)在甲方對質量和效率的要求提高了。公司之前90%是大專,現(xiàn)在本科占到了一半,甚至有研究生。”
2018年,做軟件的丁一峻,在朋友的引薦下接到了阿里數(shù)據(jù)標注的訂單,2019年創(chuàng)立了飛火大數(shù)據(jù)公司。之后,出于成本考慮丁一峻回到家鄉(xiāng)創(chuàng)業(yè)做數(shù)據(jù)標注公司,“那時的數(shù)據(jù)標注行業(yè)確實能提供大量就業(yè),洛陽數(shù)據(jù)局2019年的時候也牽頭想做數(shù)據(jù)處理公司,招人好招,但交付難?!?/p>
2019年做百度某數(shù)據(jù)標注業(yè)務項目截圖
“數(shù)據(jù)標注本質是高級搬磚。”丁一峻向娛樂資本論指出,“有標注需求的多是大公司,現(xiàn)在很多標注公司會外放做不過來的訂單,這就讓市面上很多沒跟甲方深度捆綁的公司,接的訂單都特零碎。這種訂單一是邊緣化業(yè)務,比如小語種。二是時間周期短的業(yè)務,很考驗外部公司的交付能力。”
這兩類訂單,也倒逼著丁一峻要提高對員工素質的要求。這期間,丁一峻嘗試過和學校監(jiān)獄合作,相繼作罷,“學校要考慮領導、輔導員各種利益分配,監(jiān)獄對網絡要求高,不如找全職。”
飛火大數(shù)據(jù)公司一角
綜合原因下,大部分的數(shù)據(jù)公司更傾向于招聘兼職人員。沈陽正午數(shù)據(jù)公司人事小蘇接受河豚君采訪的前一天,剛在Boss直聘上發(fā)了招聘兼職的通知,“行業(yè)本身利潤有限,全職成本太高了,根本就不能實現(xiàn)?!?/p>
“我們招人基本要求大專以上,發(fā)了以后有上百人聯(lián)系我,但是很多人沒經驗。”小蘇招聘時,會和兼職強調對數(shù)據(jù)保密性的要求,“不知道是不是受網絡的影響,很多人戒備心很重,聽到要保密就不做了。但我們公司有良心,必須強調保密?!?/p>
杭州景聯(lián)文是一家從事數(shù)據(jù)采集標注、數(shù)據(jù)融合挖掘的公司,現(xiàn)有1000多位全職標注人員,其CEO劉云濤向河豚君透露,“標注項目難度越來越高,要求標注員的學歷和專業(yè)知識水平越來越高,比如語言標注團隊,要求會各種小語種。醫(yī)療標注,需要醫(yī)學院畢業(yè)的學生。”
龍貓則是全職兼職兩手抓。胡邱飛透露,“我們現(xiàn)在線上注冊用戶400多萬,活躍全職的1萬人左右?!本€上之外,龍貓在西南地區(qū)做了線下標注基地,“那邊高校多,學生素質也更高,員工500人左右?!?/p>
龍貓的全職運營會了解兼職的情況,“我們更喜歡用沒有全職工作的群體,比如寶媽,她們時間充沛,更好管理,也更穩(wěn)定?!?/p>
整體來說,如今數(shù)據(jù)行業(yè)的標注人員發(fā)展如同美團般發(fā)展成了全職、服務站、眾包等階梯式的人力模式。胡邱飛透露,“我們線上眾包是強管控,最終交付結果都是計件的?!?/p>
小蘇介紹,目前公司兼職的員工大概兩三千,常駐人員1000左右,流失率一半。丁一峻透露,“基礎的標注員往往都是屬于地方上的最低工資標準,三線城市兩三千左右,質檢員和項目經理,能到七千左右?!?/p>
層層外包下,標注公司活少錢少風險高
“太卷了?!?/p>
這幾乎是數(shù)據(jù)公司們共同的心聲。
“我們現(xiàn)在就像河南的食品代加工廠一樣,品牌是別人的,工作相當于幫別人養(yǎng)孩子?!倍∫痪墓靖叻鍟r有兩三百人,現(xiàn)在公司只有40多位員工,“老客戶的需求還在,能維持正常運營,但這種單子很雞肋,一個月幾百幾千跟辦公室采購差不多,利潤太低,項目體量也不穩(wěn)定。數(shù)據(jù)行業(yè)缺乏像蘋果、特斯拉一樣需求穩(wěn)定的工廠。不然我也不想裁人,有活還需要找外包?!?/p>
駱靖元指出,AIGC爆火后自己招人和以前相比省去了科普人工智能的環(huán)節(jié),但在接活上更卷了,“大公司有定期篩選的機制,比如說這批我需要10家公司。那我就從100個里面篩選,其中哪兩三個不合適,我再動態(tài)替換。這使得一些公司不斷報低價,惡性循環(huán)?!?/p>
為了接到訂單,丁一峻一直在努力降本增效,“為了提高效率,我們開發(fā)了AI工具,之前2D拉框要8分一個,現(xiàn)在降到了5、6分,操作更便捷。質量上,如果客戶不想要目標物低于某像素值的,工具直接調數(shù)值,標注員就不用標了?!?/p>
但是這種工具標注公司基本只能自用,“同行有能力買的,自己有開發(fā)的實力。沒開發(fā)實力的,出不起這個錢?!闭f著,丁一峻給我發(fā)來了網上開源的標注工具,“每家平臺都差不多,都是基于labelme的底層邏輯。早幾年能打個信息差,賣平臺賺點錢,現(xiàn)在不行了,大家都知道套路,直接上源碼加個UI就成產品了?!?/p>
某標注工具圖
“今年2月GPT剛火的時候訂單多了一些,那時大公司的目的更多是為了割韭菜炒股價。后來這些AI大公司發(fā)現(xiàn)變現(xiàn)難,七八月份就很少在數(shù)據(jù)標注上投入了?!北6ǖ臄?shù)據(jù)標注老板周三體說,標注公司遇到的困難,仿佛也印證了AI潮冷去的某種現(xiàn)實,“AI公司的客戶很多還是G端,根本不在乎AI能力,更在意能不能喝酒、能不能墊資”。
為了接活,周三體努力降低成本,“2D拉框最早是1毛5一個,現(xiàn)在降到了8、9分一個框?!?/p>
景聯(lián)文在努力將非標準化產品標準化,現(xiàn)在將2D拉框標注項目的成本降低了50%。
打開天眼查搜索數(shù)據(jù)標注公司,我們也能發(fā)現(xiàn)大部分的公司經營所在地都在河北、山東、河南等人口大省,這與當?shù)貏趧恿γ芗伊畠r息息相關。“大廠會把業(yè)務承包給有資歷和實力的公司,這種公司再外包,到我們價格很低了,還需要墊款,壓力很大?!敝苋w說時嘆了口氣。
回憶起2017年創(chuàng)業(yè)的日子,駱靖元說那時借著自動駕駛行情數(shù)據(jù)行業(yè)很火,訂單像雨后春筍一樣地涌現(xiàn),“像百度做了語音采集,高德、訊飛會再做一遍。算法都沒變,標注都是新瓶裝舊酒,同樣一批人臉識別的圖片,A公司做完B公司做,之后C公司再做,我們始終是在給別人做嫁衣?!钡@樣的日子也好景不長,如今訂單量變少,“人員迅速增加后又會有斷檔期,大部分公司死在了斷檔期里?!?/p>
被問及是否覺得公司的運營模式是新時代的數(shù)據(jù)工廠時,丁一峻認為,“AI的產品線不像工廠那么完善,缺乏法律和社會面的支持,比如版權、數(shù)據(jù)安全?!?/p>
丁一峻曾承接過一家證券公司的標注工作,“剛好有一家標注員是這家證券公司的用戶,他提出了抗議,后來私下花錢和解了。誰采集數(shù)據(jù),出了問題誰負責,所以一般我們也不會過問數(shù)據(jù)來源情況?!?/p>
技術壁壘低、政策法規(guī)不健全、訂單量少且不穩(wěn)定,數(shù)據(jù)行業(yè)面臨著多種困境,這也逼著其從業(yè)者尋找新的轉型發(fā)展之路。
被AI代替?還是用AI起飛?
為了降本增效,龍貓研究了AI加持下的數(shù)據(jù)標注管理系統(tǒng),“自動駕駛上節(jié)省了40%,AIGC在探索引入GPT等大語言模型校準標注結果。作為機器和人的交叉驗證,保證輸出的一個質量。因為人會有波動,機器更加穩(wěn)定,偏差小?!?/p>
此外,龍貓在嘗試通過AI技術省去標注環(huán)節(jié),直接進入到審核和質檢環(huán)節(jié)。
高質量語料,尤其是私域數(shù)據(jù),是做好數(shù)據(jù)標注的關鍵,AI在仿寫改寫上的潛力,讓人看到了其在合成語料上的潛力?!案鶕?jù)最新的生成式AI管理辦法,用戶擁有自己5張照片的版權,但5張照片合成后生成的數(shù)據(jù)版權屬于合成方?!焙耧w據(jù)此出發(fā),在探索數(shù)據(jù)擬合向業(yè)務,目的在于擁有數(shù)據(jù)的所有權,標注后多次復售數(shù)據(jù)包。
AI創(chuàng)業(yè)者周曉明指出,“AIGC賦能合成數(shù)據(jù),能夠解決真實數(shù)據(jù)獲取難、獲取成本高、多樣性不足、缺乏隱私保護等痛點問題,替代真實是大勢所趨?!?/p>
對此,丁一峻則未敢嘗試,“AIGC合成數(shù)據(jù)需要看政策,現(xiàn)在是灰色地帶,好不好獲取,就看膽子大不大了。誰也不知道未來會不會出爆款,有比擬真實數(shù)據(jù)的內容出現(xiàn)?!?/p>
此外,龍貓也在探索獲取高質量數(shù)據(jù)的新方式,打造公司壁壘,胡邱飛說,“國外出現(xiàn)的一種趨勢是用戶主動售賣自己的數(shù)據(jù),讓數(shù)據(jù)公司得以繞開原始數(shù)據(jù)的廠商壟斷的局面。我們也在想,怎么讓那些有時間、素質又高的人做數(shù)據(jù)輸出和標注,比如說通過做題的方式,讓他們小程序上答題賺錢。”
“數(shù)據(jù)標注是自我淘汰的行業(yè),AI可以通過模型優(yōu)化做部分標注工作。發(fā)展到最后,這個行業(yè)可能只會剩下質檢員這些崗位?!倍∫痪榱藨獙ψ兓瑢⒐緩穆尻柊岬搅斯I(yè)配套更完善的蘇州,做數(shù)據(jù)采集車業(yè)務,“我們要給甲方提供硬件采購和數(shù)據(jù)服務的整套方案,這樣甲方對我們的依賴度才能更深?!?/p>
景聯(lián)文則選擇了深耕垂類賽道,專注于教育和醫(yī)療領域,劉云濤透露,“教育方面,我們手上有3億道從小學到職業(yè)教育的題,格式統(tǒng)一,解析維度包括專題分類、分析過程、考點解析、解答過程、教師點評等?,F(xiàn)在大模型號稱百模大戰(zhàn),至少有60家都要買我們的題庫。”
醫(yī)療方面,景聯(lián)文積累了400TB的醫(yī)學資料數(shù)據(jù)庫和三甲醫(yī)院的專家的病理數(shù)據(jù)?!拔覀儍赡昵伴_始拓展標注場景,選了醫(yī)療賽道,不管經濟多不景氣,醫(yī)療始終有存在的意義和價值。”
值得一提的是,龍貓AIGC業(yè)務線負責人李亞向娛樂資本論透露,龍貓正在打造自己的垂類大模型,“大模型一是做輔助標注,讀懂題目后給答案讓人選。第二是做全自動標注,AI直接出結果。這種情況我們會做雙盲的實驗,比如一個答案用三個標準做一遍,里面我們會拆一個一個人或者兩個人用這種形式做,這樣不需要再做抽檢和質檢,有些項目我們已經用GPT交付了,準確率方面達到了80%多,與人工接近?!?/p>
對市場規(guī)范化的呼吁,成為了不少數(shù)據(jù)標注從業(yè)者的心聲,劉云濤指出,“未來,怎么讓數(shù)據(jù)流通合規(guī)化、安全化是很大的問題?,F(xiàn)在很多城市在建立大數(shù)據(jù)交易中心,是積極的信號?!?/p>
艾瑞數(shù)據(jù)的人工智能數(shù)據(jù)報告指出,三年后,中國人工智能的數(shù)據(jù)治理市場規(guī)模預計將突破百億。
但更現(xiàn)實的問題是,吐槽中文語料庫差的新聞屢見報端,大量的中小型數(shù)據(jù)標注公司正在卷生卷死,大批數(shù)據(jù)標注公司的業(yè)務產品,在批量化、利潤率、風險性方面甚至不及富士康產品,映照到市場上的,則是逐漸遇冷的大模型市場以及越來越像“高科技施工隊”的中國AI商業(yè)環(huán)境。
當我們試圖尋找解決之道時,駱靖元回憶其工作多年感受時的話也許是最好的答案,“對我們同事來說,當看到應用落地的時候,還是比較欣慰的事情。雖然工資低,但終歸是做了點有用的事情?!?/p>
“數(shù)據(jù)是AI走向智能的基礎,少開點發(fā)布會炒股價,多投點錢在標注上才是正事。”采訪接近尾聲時,周三體發(fā)來了這句話。