文|互聯(lián)網(wǎng)那些事
大模型搬上臺(tái)面之后,數(shù)據(jù)標(biāo)注領(lǐng)域也開(kāi)始變得熱鬧。
這種熱鬧,更像是第三方服務(wù)公司單方面的“狂歡”。因?yàn)?017年的人工標(biāo)注師風(fēng)口已經(jīng)過(guò)去了,例如做文本標(biāo)注的人員,現(xiàn)在越來(lái)越少,部分標(biāo)注團(tuán)隊(duì)圖像標(biāo)注的流動(dòng)率高達(dá)30%也已經(jīng)是常態(tài),有時(shí)候就連語(yǔ)音、視頻標(biāo)注都是常年對(duì)半開(kāi)。
因?yàn)樵诋?dāng)下的數(shù)據(jù)服務(wù)市場(chǎng)中,數(shù)據(jù)方少,數(shù)據(jù)標(biāo)注的需求小,供大于求的情況嚴(yán)重。
直白一點(diǎn)來(lái)說(shuō)就是,新入行的公司是很難找到可做項(xiàng)目的,哪怕是有小項(xiàng)目可接,利潤(rùn)空間也不會(huì)太高,這也就導(dǎo)致在工資低的同時(shí)項(xiàng)目趕,于是可能導(dǎo)致短時(shí)間內(nèi)工作量又非常的高。
最夸張的是什么?因?yàn)殚T(mén)檻足夠低以及數(shù)據(jù)標(biāo)注與AI之間的聯(lián)系,想要進(jìn)入數(shù)據(jù)標(biāo)注市場(chǎng)的人絡(luò)繹不絕。
但在微調(diào)前的數(shù)據(jù)標(biāo)注,其實(shí)就是一個(gè)數(shù)據(jù)流水線,枯燥,重復(fù),機(jī)械。
網(wǎng)友也曾將數(shù)據(jù)標(biāo)注比做舊社會(huì)拉黃包車(chē)的苦力,甚至可能還會(huì)和外賣(mài)騎士、快遞小哥差著好幾個(gè)段位,收入更是難望其項(xiàng)背。
于是,網(wǎng)上各大平臺(tái)只要提起數(shù)據(jù)標(biāo)注,一定是批評(píng)貶低占8成,夸這個(gè)行業(yè)的人只占2成。而大多夸贊的是因?yàn)槲兆×孙L(fēng)口,但如果你在評(píng)論區(qū)建議別人去干標(biāo)注,那你一定會(huì)被罵的狗血淋頭。
數(shù)據(jù)來(lái)源:職友集
不過(guò)更有趣的是,隨著自動(dòng)化標(biāo)注成為可能,不光個(gè)人標(biāo)注師罵,就連標(biāo)注師團(tuán)隊(duì)也在罵。
原因在于,互聯(lián)網(wǎng)大廠不僅將數(shù)據(jù)標(biāo)注納入自己的業(yè)務(wù)范圍,為了將性?xún)r(jià)比作為噱頭,也在不斷地比拼成本。
一、數(shù)據(jù)標(biāo)注現(xiàn)狀:低需求,高供應(yīng)
某種角度上來(lái)說(shuō),數(shù)據(jù)標(biāo)注行業(yè)實(shí)際上就是一個(gè)資源行業(yè),類(lèi)似于包工程,誰(shuí)家能包下合適的工程就賺錢(qián)了。
但前提是得能結(jié)了款,另外賺多賺少全看人力成本了。
所以先是對(duì)于大多數(shù),很難接到大單數(shù)據(jù)標(biāo)注訂單的第三方數(shù)據(jù)服務(wù)公司而言,如果再把數(shù)據(jù)標(biāo)注任務(wù)轉(zhuǎn)手交到數(shù)據(jù)標(biāo)注師的手中,那么到手薪資低已經(jīng)成為普遍的現(xiàn)象。
往深一點(diǎn)來(lái)說(shuō),市場(chǎng)環(huán)境差的很大部分原因,其實(shí)是因?yàn)榈谌綌?shù)據(jù)服務(wù)公司的“免費(fèi)外包行為”。
利潤(rùn)層層遞減,導(dǎo)致底層人員賺不到錢(qián),瘋狂的在互聯(lián)網(wǎng)上吐槽這個(gè)行業(yè)。
還有更慘的,運(yùn)氣不好的時(shí)候還會(huì)遇到數(shù)據(jù)標(biāo)注公司白嫖數(shù)據(jù)跑路的。在你沒(méi)有太多標(biāo)注經(jīng)驗(yàn)的時(shí)候,承諾不需要你交任何的費(fèi)用,就能獲得數(shù)據(jù)標(biāo)注任務(wù)。
基于沒(méi)有成本負(fù)擔(dān),也就放松了警惕,哪怕是第一次數(shù)據(jù)標(biāo)注不合格,你也會(huì)因?yàn)楦冻隽说谝淮蔚呐ΓM(jìn)而二進(jìn)二出,甚至三進(jìn)三出。
結(jié)果發(fā)現(xiàn),不是用甲方不滿(mǎn)意為借口拒絕給你打錢(qián),就是直接消失。
但無(wú)論是以上何種結(jié)果,歸根到底都是因?yàn)榇罅繑?shù)據(jù)標(biāo)準(zhǔn)員,沒(méi)有積累良好的數(shù)據(jù)標(biāo)注渠道,進(jìn)而被不靠譜的數(shù)據(jù)標(biāo)注公司所欺騙。
如果換做是自己帶團(tuán)隊(duì)做數(shù)據(jù)標(biāo)注,遇到數(shù)據(jù)標(biāo)注公司跑路的情況,結(jié)果只會(huì)更慘不忍睹。
不過(guò)對(duì)比實(shí)體行業(yè)的投資以及競(jìng)爭(zhēng)力度,數(shù)據(jù)標(biāo)注遠(yuǎn)遠(yuǎn)優(yōu)于實(shí)體行業(yè),利潤(rùn)的確是低,但仍然是有利潤(rùn)可言的。
據(jù)統(tǒng)計(jì),2021我國(guó)人工智能數(shù)據(jù)標(biāo)注市場(chǎng)中,計(jì)算機(jī)視覺(jué)類(lèi)、智能語(yǔ)音類(lèi)和NLP類(lèi)需求占比分別為45.3%、40.5%和14.2%。
但如果想要提高數(shù)據(jù)標(biāo)注任務(wù)的穩(wěn)定性,那必然需要尋求更好的出路。例如免費(fèi)外包這條路跑不通,那么就采取收費(fèi)的形式。
另一方面,提高對(duì)標(biāo)注師的學(xué)歷要求。不過(guò),人才的進(jìn)入也取決于企業(yè)是否存在利潤(rùn)空間。
歸根到底,個(gè)人人工標(biāo)注師或是人工標(biāo)注團(tuán)隊(duì),想要在人工標(biāo)注數(shù)據(jù)服務(wù)領(lǐng)域獲取利潤(rùn),其實(shí)是很難的。
因?yàn)閺拈L(zhǎng)遠(yuǎn)的維度來(lái)看,只要智能化未達(dá)標(biāo),那么數(shù)據(jù)標(biāo)注就一定是一個(gè)長(zhǎng)期的過(guò)程。在算法逐漸復(fù)雜化以及人工標(biāo)注成本之下,自動(dòng)化標(biāo)注自然會(huì)成為行業(yè)追求。
更何況,是在算力環(huán)節(jié)廠商以及大模型廠商同樣想要瓜分的領(lǐng)域。
二、人工數(shù)據(jù)標(biāo)注,被市場(chǎng)踢出局?
站在各大廠商的角度,有了技術(shù)紅利之后進(jìn)入數(shù)據(jù)標(biāo)注領(lǐng)域,他們還能釋放一部分成本優(yōu)勢(shì)給客戶(hù),降低單位數(shù)據(jù)標(biāo)注任務(wù)的價(jià)格。
總的來(lái)說(shuō),行業(yè)從勞動(dòng)密集型向技術(shù)密集型轉(zhuǎn)變是一個(gè)必然的過(guò)程。
一方面,不同于傳統(tǒng)深度學(xué)習(xí)算法,大模型場(chǎng)景下數(shù)據(jù)處理流程中,在數(shù)據(jù)需求量最大的預(yù)訓(xùn)練環(huán)節(jié),使用的多是無(wú)標(biāo)注或弱監(jiān)督標(biāo)注數(shù)據(jù)。
更多的人工標(biāo)注需求出現(xiàn)在預(yù)訓(xùn)練環(huán)節(jié)之后的微調(diào)(SFT)以及基于人類(lèi)反饋的強(qiáng)化學(xué)習(xí)(RLHF)階段。
微調(diào)和對(duì)齊時(shí),人工標(biāo)注的質(zhì)量會(huì)極大影響模型在生成內(nèi)容時(shí)的智能水平,這對(duì)人工標(biāo)注的數(shù)據(jù)質(zhì)量提出了更高的要求。
簡(jiǎn)單來(lái)說(shuō)就是,在微調(diào)階段的標(biāo)注師,是需要體系內(nèi)的業(yè)務(wù)專(zhuān)家們?nèi)?biāo)注金融相關(guān)的數(shù)據(jù)。
比如早期單純只標(biāo)注“語(yǔ)音轉(zhuǎn)寫(xiě)文本”的相對(duì)簡(jiǎn)單的作業(yè)要求,現(xiàn)在已經(jīng)增加了很多其他維度,比如對(duì)于聲音邊界的精細(xì)度的要求,以前要求的可能是粗顆粒度,但現(xiàn)在動(dòng)輒要求精確到毫秒級(jí)。
比如出于對(duì)安全考量,車(chē)企對(duì)數(shù)據(jù)標(biāo)注的準(zhǔn)確度要求通常在99%以上,這實(shí)際上也大幅提高了對(duì)數(shù)據(jù)服務(wù)商的要求門(mén)檻。
再比如對(duì)于在語(yǔ)音中出現(xiàn)的各類(lèi)不同的其他聲音的標(biāo)注,以前可能只需要標(biāo)注出來(lái)某些噪音,現(xiàn)在的要求則可能是還要對(duì)噪音進(jìn)行更多維度的分類(lèi)。
更進(jìn)一步來(lái)說(shuō),隨著語(yǔ)音數(shù)據(jù)量的日漸增多且復(fù)雜,對(duì)人工標(biāo)注也存在高強(qiáng)度。
另外,在醫(yī)療領(lǐng)域從事傳統(tǒng)和常規(guī)的工作,固然也是很多人夢(mèng)寐以求的,但同領(lǐng)域的數(shù)據(jù)標(biāo)注,也同樣潛力巨大。
據(jù)媒體報(bào)道,截至今年3月,百度山西人工智能數(shù)據(jù)產(chǎn)業(yè)基地中,就擁有超過(guò)3000位標(biāo)注師,主要涉及自動(dòng)駕駛、人臉識(shí)別等內(nèi)容標(biāo)注,其中86%的員工為90后;字節(jié)跳動(dòng)在北京、天津、濟(jì)南、武漢各地,也招募了4萬(wàn)名數(shù)據(jù)標(biāo)注師;騰訊更是直接把平臺(tái)放到了線上,讓標(biāo)注師變成了一種“全民兼職”,稱(chēng)為“眾包”。
可以預(yù)見(jiàn)的是,在未來(lái)更多更廣闊的垂直領(lǐng)域里,有專(zhuān)業(yè)經(jīng)驗(yàn)、并且熟悉數(shù)據(jù)標(biāo)注工作的人群,都將是亟需的人才。
不過(guò),也僅限于真正擁有專(zhuān)業(yè)經(jīng)驗(yàn)的技術(shù)人才,以及自動(dòng)標(biāo)注之后的審核崗位,但需求有限。
三、自動(dòng)化標(biāo)注進(jìn)入淘汰賽?
在大廠入局之下,不只是數(shù)據(jù)標(biāo)注團(tuán)隊(duì),那些單純依靠人工標(biāo)注的企業(yè)也很難存活。原因在于,今年數(shù)據(jù)標(biāo)注市場(chǎng)或許會(huì)加速向技術(shù)型玩家集中,市場(chǎng)正開(kāi)啟淘汰賽。
最簡(jiǎn)單的理解是,由于看中了大模型訓(xùn)練的算力市場(chǎng),不少模型提供商提供了AI訓(xùn)練全家桶,數(shù)據(jù)標(biāo)注被納入了大廠的服務(wù)范圍,這可能正加劇行業(yè)的競(jìng)爭(zhēng)。
不過(guò)從另一方面考慮,即便大廠內(nèi)部建的數(shù)據(jù)標(biāo)注平臺(tái),因?yàn)楹茈y應(yīng)對(duì)市場(chǎng)多樣化的數(shù)據(jù)標(biāo)注任務(wù)需求,而存在局限。
但最初被劃為算力環(huán)節(jié)的企業(yè),也一樣會(huì)對(duì)自動(dòng)化標(biāo)注虎視眈眈。例如,原本處于數(shù)據(jù)服務(wù)下游的算法研發(fā)平臺(tái)及科技企業(yè),自身也在嘗試把大模型技術(shù)用到了自身的數(shù)據(jù)標(biāo)注場(chǎng)景。
今年4月,??低曉谝患径鹊呢?cái)報(bào)電話(huà)會(huì)上向投資者答疑時(shí)也提到,他們也在將自研AI技術(shù)用到自動(dòng)化標(biāo)注場(chǎng)景。
原因在于,此前被行業(yè)里劃為應(yīng)用開(kāi)發(fā)或算法研發(fā)環(huán)節(jié)的??怠⑸虦绕髽I(yè),現(xiàn)在他們也需要一些智能化工具和應(yīng)用來(lái)提升數(shù)據(jù)標(biāo)注效率。
而商湯科技就是最好的例子。目前,商湯科技在自動(dòng)駕駛場(chǎng)景基于視覺(jué)大模型技術(shù),降低了人工數(shù)據(jù)標(biāo)注的數(shù)量,大幅提升了數(shù)據(jù)標(biāo)注效率。
隨著機(jī)器學(xué)習(xí)模型的發(fā)展,自動(dòng)化數(shù)據(jù)標(biāo)注的準(zhǔn)確性提高,可以使用模型來(lái)輔助人工標(biāo)注,比如模型預(yù)處理數(shù)據(jù)再發(fā)送給標(biāo)注師,或人類(lèi)作為審核員,審核并糾正模型給出的標(biāo)注結(jié)果等等。
與純手動(dòng)標(biāo)記相比,AI輔助標(biāo)注加快數(shù)據(jù)標(biāo)注的速度。目前,scale Al等數(shù)據(jù)標(biāo)注公司都在努力減少數(shù)據(jù)標(biāo)注過(guò)程中的人工參與比例。
但自動(dòng)標(biāo)注是否能夠完全代替人工,目前尚未能夠確定。
市場(chǎng)的發(fā)展總是處于不確定中,未來(lái)可能會(huì)誕生新的標(biāo)注場(chǎng)景或需求,或許會(huì)繼續(xù)基于人工標(biāo)注,才能獲得更為準(zhǔn)確的數(shù)據(jù)集,來(lái)給到智能機(jī)器良好的自測(cè)需求,這些我們都不得而知。
但是能夠預(yù)測(cè)的是,如果人工標(biāo)注和“自動(dòng)化+人工”的標(biāo)注方式在未來(lái) 5-10 年內(nèi)仍然會(huì)存在,那么在擁有一定數(shù)據(jù)標(biāo)注渠道以及標(biāo)注專(zhuān)業(yè)人員的數(shù)據(jù)服務(wù)公司,仍然有機(jī)會(huì)在這個(gè)市場(chǎng)中分得一杯羹。
不過(guò),要是想在未來(lái)也能夠脫穎而出,規(guī)模化所帶來(lái)的效率提升,一定是關(guān)鍵因素。
但如果數(shù)據(jù)項(xiàng)目訂單被擠壓,規(guī)?;簿屯扔凇笆┕り?duì)生意”。那些以“數(shù)據(jù)標(biāo)注業(yè)務(wù)”為核心的數(shù)據(jù)服務(wù)公司,最大的風(fēng)險(xiǎn)也就變成了人工成本。
參考:
藍(lán)鯨財(cái)經(jīng):數(shù)據(jù)標(biāo)注,從藍(lán)領(lǐng)到白領(lǐng)
華經(jīng)產(chǎn)業(yè)研究院:2022年中國(guó)數(shù)據(jù)標(biāo)注行業(yè)市場(chǎng)規(guī)模、市場(chǎng)結(jié)構(gòu)及重點(diǎn)企業(yè)分析
語(yǔ)音之家:Scale AI:大模型還需要數(shù)據(jù)標(biāo)注嗎?
機(jī)器人庫(kù):數(shù)據(jù)標(biāo)注師:站在了人工智能風(fēng)口,卻為5K月薪掙扎?