正在閱讀:

數(shù)據(jù)標(biāo)注,從藍(lán)領(lǐng)到白領(lǐng)

掃一掃下載界面新聞APP

數(shù)據(jù)標(biāo)注,從藍(lán)領(lǐng)到白領(lǐng)

“剩”者為王。

文|數(shù)智前線 徐鑫

編輯|任曉漁

AI應(yīng)用落地?zé)岢闭苿?dòng)數(shù)據(jù)標(biāo)注市場(chǎng)進(jìn)入新一輪洗牌期。

大模型和自動(dòng)駕駛領(lǐng)域的AI需求攪動(dòng)了數(shù)據(jù)服務(wù)市場(chǎng),數(shù)據(jù)標(biāo)注服務(wù)商整數(shù)智能CEO林群書告訴數(shù)智前線,今年以來他們接到了非常多基于大模型訓(xùn)練場(chǎng)景的訂單,市場(chǎng)需求量呈現(xiàn)出了一條比較陡峭的增長曲線。

新的應(yīng)用場(chǎng)景對(duì)服務(wù)商的能力提出了新要求。一方面,不同于傳統(tǒng)深度學(xué)習(xí)算法,大模型場(chǎng)景下數(shù)據(jù)處理流程中,在數(shù)據(jù)需求量最大的預(yù)訓(xùn)練環(huán)節(jié),使用的多是無標(biāo)注或弱監(jiān)督標(biāo)注數(shù)據(jù)。更多的人工標(biāo)注需求出現(xiàn)在預(yù)訓(xùn)練環(huán)節(jié)之后的微調(diào)(SFT)以及基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)階段。微調(diào)和對(duì)齊時(shí),人工標(biāo)注的質(zhì)量會(huì)極大影響模型在生成內(nèi)容時(shí)的智能水平,這對(duì)人工標(biāo)注的數(shù)據(jù)質(zhì)量提出了更高的要求。

另一方面,AI技術(shù)的進(jìn)步正推動(dòng)行業(yè)從人力密集型向自動(dòng)化標(biāo)注轉(zhuǎn)變。

新一代數(shù)據(jù)標(biāo)注服務(wù)商已經(jīng)基于機(jī)器學(xué)習(xí)算法,探索構(gòu)建更智能的數(shù)據(jù)工程平臺(tái),提升數(shù)據(jù)標(biāo)注的自動(dòng)化水平。而原本處于數(shù)據(jù)服務(wù)下游的算法研發(fā)平臺(tái)及科技企業(yè)自身也在嘗試把大模型技術(shù)用到了自身的數(shù)據(jù)標(biāo)注場(chǎng)景,例如商湯科技在自動(dòng)駕駛場(chǎng)景基于視覺大模型技術(shù),降低了人工數(shù)據(jù)標(biāo)注的數(shù)量,大幅提升了數(shù)據(jù)標(biāo)注效率。

大廠也加速進(jìn)入這一市場(chǎng)。由于看中了大模型訓(xùn)練的算力市場(chǎng),不少模型提供商提供了AI訓(xùn)練全家桶,數(shù)據(jù)標(biāo)注被納入了大廠的服務(wù)范圍,這可能正加劇行業(yè)的競爭。

數(shù)據(jù)標(biāo)注自動(dòng)化水平提升,拉高了服務(wù)標(biāo)準(zhǔn),同時(shí)還在釋放行業(yè)的降價(jià)空間。一位資深人士稱,今年數(shù)據(jù)標(biāo)注市場(chǎng)或許會(huì)加速向技術(shù)型玩家集中,單純依靠人工標(biāo)注的企業(yè)生存更為艱難,市場(chǎng)正開啟淘汰賽。

01 AI落地潮催熟數(shù)據(jù)標(biāo)注市場(chǎng)

數(shù)據(jù)被認(rèn)為是人工智能智能化水平提升的燃料。過去兩年里大模型和自動(dòng)駕駛等領(lǐng)域里的AI落地?zé)岢闭诖邿釘?shù)據(jù)標(biāo)注市場(chǎng)。

據(jù)信通院數(shù)據(jù),OpenAI 2020 年推出 GPT-3 以來,超大預(yù)訓(xùn)練模型參數(shù)數(shù)量、訓(xùn)練數(shù)據(jù)規(guī)模按照 300 倍/年的趨勢(shì)增長。大模型熱潮使得國內(nèi)的數(shù)據(jù)標(biāo)注公司也受到了不小關(guān)注。今年以來,國內(nèi)的老牌數(shù)據(jù)標(biāo)注企業(yè)海天瑞聲備受矚目,該公司高管在接受采訪時(shí)稱收到了大量問詢。

今年2月,海天瑞聲還專門發(fā)布了公告,稱公司尚未與OpenAI開展合作,收入結(jié)構(gòu)中有大約90%的貢獻(xiàn)來自于智能語音和計(jì)算機(jī)視覺業(yè)務(wù)領(lǐng)域,自然語言業(yè)務(wù)對(duì)公司整體貢獻(xiàn)大約在10%左右。

雖然與大語言模型直接相關(guān)的訓(xùn)練需求,在這家老牌數(shù)據(jù)標(biāo)注服務(wù)商的業(yè)務(wù)占比不大,但市場(chǎng)對(duì)數(shù)據(jù)標(biāo)注廠商的熱情依然迅猛。海天瑞聲今年股價(jià)實(shí)現(xiàn)了大幅上漲,波動(dòng)范圍從31.28 元最高到過192.69元,雖然目前股價(jià)已回落到百元以內(nèi)區(qū)間,但仍較年初水平翻倍。

除了老牌數(shù)據(jù)標(biāo)注商的股價(jià)飆漲,新興的數(shù)據(jù)標(biāo)注創(chuàng)業(yè)公司也明顯感知到了這股趨勢(shì)。 整數(shù)智能CEO林群書告訴數(shù)智前線,今年他們能看到兩個(gè)領(lǐng)域的數(shù)據(jù)標(biāo)注需求非常明顯,一個(gè)是自動(dòng)駕駛場(chǎng)景,另外一個(gè)就是大模型,這也是他們重點(diǎn)布局的兩大領(lǐng)域。

業(yè)界觀察,大模型的訓(xùn)練方式與此前的深度學(xué)習(xí)算法的開發(fā)范式并不一樣:大模型的預(yù)訓(xùn)練環(huán)節(jié)需要的數(shù)據(jù)量比較大,但這一環(huán)節(jié)通常會(huì)采用弱監(jiān)督或無監(jiān)督數(shù)據(jù),對(duì)數(shù)據(jù)標(biāo)注的需求增加并不明顯。而在預(yù)訓(xùn)練環(huán)節(jié)之后的微調(diào)和基于人類反饋的強(qiáng)化學(xué)習(xí)階段,則需要高質(zhì)量的人工標(biāo)注數(shù)據(jù)。比如,此前工行的技術(shù)專家在華為云論壇上分享訓(xùn)練自己的大模型應(yīng)用時(shí)提到,在微調(diào)階段需要體系內(nèi)的業(yè)務(wù)專家們?nèi)?biāo)注金融相關(guān)的數(shù)據(jù),這已不是普通數(shù)據(jù)標(biāo)注員能完成的作業(yè)。

林群書介紹,目前他所在的整數(shù)智能已經(jīng)針對(duì)大模型不同階段的數(shù)據(jù)需求向企業(yè)提供不同的數(shù)據(jù)服務(wù)。比如針對(duì)需要做模型訓(xùn)練但自身沒有專業(yè)獲取數(shù)據(jù)來源的團(tuán)隊(duì),提供從數(shù)據(jù)標(biāo)注工具到定制數(shù)據(jù)集的整套服務(wù)。

自動(dòng)駕駛也是近年來另一個(gè)對(duì)數(shù)據(jù)標(biāo)注服務(wù)有大量需求的場(chǎng)景。根據(jù)德勤今年3月份的一份報(bào)告顯示,2022年自動(dòng)駕駛領(lǐng)域在人工智能基礎(chǔ)數(shù)據(jù)服務(wù)的整個(gè)下游應(yīng)用占比約為38%,到2027年這個(gè)比例將增長到52%。

這一場(chǎng)景的數(shù)據(jù)需求暴增與自動(dòng)駕駛場(chǎng)景特性有關(guān)。車企對(duì)數(shù)據(jù)標(biāo)注的要求相比其他行業(yè)更高。林群書告訴數(shù)智前線,目前國內(nèi)車企也在對(duì)標(biāo)特斯拉的數(shù)據(jù)閉環(huán)方案,能服務(wù)這個(gè)場(chǎng)景的數(shù)據(jù)服務(wù)商需要有專門的自動(dòng)化標(biāo)注平臺(tái)與專業(yè)的標(biāo)注工具,例如4D標(biāo)注工具,同時(shí)需要一整套完整的解決方案。

另外,出于對(duì)安全考量,車企對(duì)數(shù)據(jù)標(biāo)注的準(zhǔn)確度要求通常在99%以上,這實(shí)際上也大幅提高了對(duì)數(shù)據(jù)服務(wù)商的要求門檻。

整體而言,數(shù)據(jù)標(biāo)注市場(chǎng)需求在大量釋放的同時(shí),門檻也進(jìn)一步拉高。

02 從“靠人工實(shí)現(xiàn)智能”到智能化工程平臺(tái)

過去十年,深度學(xué)習(xí)和人工智能技術(shù),基于標(biāo)注好的數(shù)據(jù),智能水平有了巨大的突破。

張宏江院士今年年初在一場(chǎng)有關(guān)大模型的演講中提及,伴隨算法的進(jìn)步實(shí)際上數(shù)據(jù)層面發(fā)生的變化也非常明顯,從最開始人工的標(biāo)注,到開放的數(shù)據(jù)集分享,現(xiàn)在發(fā)展到數(shù)據(jù)自動(dòng)標(biāo)注和深層研究。這也是國內(nèi)數(shù)據(jù)標(biāo)注領(lǐng)域里正在發(fā)生的現(xiàn)實(shí)。

行業(yè)內(nèi)最經(jīng)典的人工數(shù)據(jù)標(biāo)注工作,當(dāng)屬 ImageNet數(shù)據(jù)集。2007年開始,人工智能學(xué)者李飛飛在美國普林斯頓大學(xué)任教期間,啟動(dòng)了 ImageNet的標(biāo)注工作。通過亞馬遜 Mechanical Turk 在線眾包,李飛飛團(tuán)隊(duì)利用了67 個(gè)國家的 49000 人次,花費(fèi)兩年半的時(shí)間,最終標(biāo)注了1500 萬張圖片。這個(gè)龐大數(shù)據(jù)集為后來深度學(xué)習(xí)算法的良好表現(xiàn)打下了基礎(chǔ),無怪乎有人稱李飛飛為深度學(xué)習(xí)之母。

而數(shù)據(jù)標(biāo)注作業(yè)能從純手工標(biāo)注逐漸往自動(dòng)化標(biāo)注及更智能的數(shù)據(jù)工程平臺(tái)過渡,實(shí)際上與這個(gè)細(xì)分行業(yè)的特性有關(guān)。

一位業(yè)界人士告訴數(shù)智前線,數(shù)據(jù)標(biāo)注工作本質(zhì)是要把日常生活中這些非結(jié)構(gòu)化數(shù)據(jù)翻譯成機(jī)器能理解的結(jié)構(gòu)化數(shù)據(jù)。而無論是結(jié)構(gòu)化還是非結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)的模態(tài)是有限的,包含圖像、音頻、視頻、文本、點(diǎn)云等有限種類。另外,在實(shí)現(xiàn)人工智能的數(shù)據(jù)工程任務(wù)時(shí),不同模態(tài)數(shù)據(jù)要完成的是有限個(gè)子任務(wù)。以圖像領(lǐng)域?yàn)槔?,要識(shí)別圖像信息,共包含了目標(biāo)檢測(cè)、語義分割、目標(biāo)跟蹤等十個(gè)以內(nèi)的子任務(wù)。

專業(yè)的數(shù)據(jù)服務(wù)商可以針對(duì)所有模態(tài)數(shù)據(jù)的子任務(wù),做出針對(duì)性的數(shù)據(jù)標(biāo)注工具,并從中提煉出標(biāo)準(zhǔn)化流程,更高效完成數(shù)據(jù)的采集和標(biāo)注,從而服務(wù)和滿足人工智能應(yīng)用和不同場(chǎng)景的需求。

過去十余年,國內(nèi)數(shù)據(jù)標(biāo)注最初是純?nèi)斯ね瓿桑S著人工智能算法發(fā)展帶來的數(shù)據(jù)標(biāo)注任務(wù)增加,一些軟件公司開始開發(fā)眾包的數(shù)據(jù)標(biāo)注平臺(tái),從而更高效組織和管理人工標(biāo)注任務(wù)的分發(fā),控制流程,推動(dòng)人工數(shù)據(jù)標(biāo)注及質(zhì)檢工作的流程標(biāo)準(zhǔn)。

數(shù)據(jù)標(biāo)注作業(yè)朝向自動(dòng)化邁開步伐,時(shí)間節(jié)點(diǎn)在2017年~2018年。當(dāng)時(shí)行業(yè)里發(fā)現(xiàn),隨著自動(dòng)駕駛這樣需要處理海量數(shù)據(jù)的場(chǎng)景出現(xiàn),一個(gè)場(chǎng)景要標(biāo)注的數(shù)據(jù)體量可能達(dá)到幾千萬張圖片規(guī)模。在這樣體量的需求前,人工完成數(shù)據(jù)標(biāo)注任務(wù),一致性管理和進(jìn)度追蹤變得極為困難。

一方面人工要完成千萬張圖片級(jí)別的數(shù)據(jù)標(biāo)注,通常需要幾百人團(tuán)隊(duì)花費(fèi)大半年以上的周期。同時(shí),眾包平臺(tái)的人工標(biāo)注作業(yè)可能會(huì)因?yàn)橐恢滦怨芾黼y,而出現(xiàn)準(zhǔn)確率不達(dá)標(biāo)等情況,需要返工,這可能進(jìn)一步拉長作業(yè)周期。

業(yè)界開始探討用人工智能來減少標(biāo)注工作量。比如訓(xùn)練一個(gè)人工智能算法,對(duì)標(biāo)注任務(wù)進(jìn)行預(yù)標(biāo)注,再由人工去做精加工。預(yù)標(biāo)注過程能大幅減少人工標(biāo)注數(shù)量,同時(shí)由于篩選標(biāo)準(zhǔn)統(tǒng)一,結(jié)果的一致性更高,數(shù)據(jù)標(biāo)注的質(zhì)量也能提升。

目前,國內(nèi)已經(jīng)有不少企業(yè)把大模型技術(shù)應(yīng)用到了數(shù)據(jù)標(biāo)注場(chǎng)景。商湯科技聯(lián)合創(chuàng)始人、大裝置事業(yè)群副總裁陳宇恒此前接受數(shù)智前線采訪時(shí)提到,在自動(dòng)駕駛場(chǎng)景里,商湯正通過大模型去對(duì)自動(dòng)駕駛的路測(cè)回流數(shù)據(jù)做挖掘、自動(dòng)標(biāo)注、泛化與重建,大幅提升了自動(dòng)駕駛算法迭代所需的高質(zhì)量數(shù)據(jù)規(guī)?;尚?。

商湯絕影產(chǎn)品總監(jiān)Larry方面還透露,目前商湯絕影智能駕駛主要模型訓(xùn)練所依賴的標(biāo)注已經(jīng)大部分采用大模型自動(dòng)標(biāo)注技術(shù),全自動(dòng)標(biāo)注和半自動(dòng)標(biāo)注(采用人工抽樣質(zhì)檢)基本已經(jīng)代替了人工標(biāo)注,成本和時(shí)間周期均大幅下降。

今年4月,??低曉谝患径鹊呢?cái)報(bào)電話會(huì)上向投資者答疑時(shí)也提到,他們也在將自研AI技術(shù)用到自動(dòng)化標(biāo)注場(chǎng)景,“用同樣的人力投入, 數(shù)據(jù)標(biāo)注的數(shù)量可以提升 10 倍”。數(shù)智前線獲悉,網(wǎng)易旗下的伏羲有靈眾包平臺(tái)已經(jīng)在控制成本、縮短任務(wù)周期、保證質(zhì)量等方面融入了一系列的前沿算法,將人工標(biāo)注數(shù)據(jù)反哺 AI算法,實(shí)現(xiàn)人機(jī)協(xié)作任務(wù)處理。

一些新興的數(shù)據(jù)標(biāo)注服務(wù)商們?cè)噲D再往前一步,建設(shè)更通用的數(shù)據(jù)工程平臺(tái),在一些跨行業(yè)或跨場(chǎng)景的算法自動(dòng)化標(biāo)注減少工程師需要額外調(diào)試的時(shí)間。老牌廠商海天瑞聲就計(jì)劃啟動(dòng)領(lǐng)域里的垂直大模型研發(fā),把大模型的泛化能力應(yīng)用到數(shù)據(jù)標(biāo)注領(lǐng)域。

整數(shù)智能則開發(fā)了智能數(shù)據(jù)工程平臺(tái)(ABAVA Platform),希望適用所有的模態(tài)數(shù)據(jù)及更普遍的行業(yè)場(chǎng)景,他們還將MLOps模塊集成在數(shù)據(jù)工程平臺(tái)上,使得平臺(tái)可以以插件的形式使用內(nèi)外部的算法模型,用于提升數(shù)據(jù)標(biāo)注以及智能審核的效率。林群書介紹,“通過把一套Machine Learning Ops的系統(tǒng)集成到了整個(gè)數(shù)據(jù)工程平臺(tái),每次完成的數(shù)據(jù)都可以用來迭代自動(dòng)標(biāo)注算法,使得自動(dòng)標(biāo)注算法不斷學(xué)習(xí)垂直場(chǎng)景數(shù)據(jù),變得更加聰明。數(shù)據(jù)標(biāo)注也能形成數(shù)據(jù)應(yīng)用的閉環(huán)和飛輪?!?/p>

在數(shù)據(jù)標(biāo)注的智能化演進(jìn)路徑里,也有觀察人士評(píng)價(jià),人工標(biāo)注師們的努力正推動(dòng)算法進(jìn)步,最終使得自身被算法汰換。

03 淘汰賽開啟

對(duì)投資人工智能的企業(yè)而言,數(shù)據(jù)標(biāo)注是項(xiàng)長期成本,只要企業(yè)還期望提升算法的智能程度,每年對(duì)數(shù)據(jù)標(biāo)注的需求和投入就穩(wěn)定存在。

也有應(yīng)用開發(fā)方在訓(xùn)練算法時(shí)會(huì)干脆不靠外部標(biāo)注商,自己投入力量來標(biāo)注數(shù)據(jù)。例如不少互聯(lián)網(wǎng)平臺(tái)就建設(shè)了數(shù)據(jù)標(biāo)注眾包平臺(tái),這些企業(yè)有大量的人工智能算法及AI應(yīng)用開發(fā)需求,自建團(tuán)隊(duì)對(duì)這些企業(yè)而言能更方便滿足業(yè)務(wù)的數(shù)據(jù)需求。

但這個(gè)行當(dāng)?shù)倪M(jìn)入門檻相對(duì)不高。據(jù)了解,前些年在一些人力資源充足地區(qū)如山東、山西、河南、貴州等地,出現(xiàn)了不少數(shù)據(jù)標(biāo)注基地,大量廉價(jià)的勞動(dòng)力資源是這些標(biāo)注基地生存發(fā)展的重要原因。

大模型時(shí)代到來后,數(shù)據(jù)需求方對(duì)人工標(biāo)注的數(shù)據(jù)要求在提升。例如,業(yè)界發(fā)現(xiàn)微調(diào)環(huán)節(jié)的反饋和數(shù)據(jù)質(zhì)量正大大影響模型的智能度,在一些前沿的研究論文里就已經(jīng)在指出,擴(kuò)大數(shù)據(jù)量而不同時(shí)擴(kuò)大提示多樣性時(shí),收益會(huì)大大減少,而在優(yōu)化數(shù)據(jù)質(zhì)量時(shí),收益會(huì)大大增加。為了提升模型表現(xiàn),數(shù)智前線了解到,今年4月國內(nèi)某頭部大模型提供商就專門組建了更專業(yè)的標(biāo)注團(tuán)隊(duì),標(biāo)注員要求本科以上學(xué)歷。

算法類企業(yè)自身離數(shù)據(jù)和人工智能算法近,他們也在用大模型來提升自身的數(shù)據(jù)處理能力,比如??低?、商湯科技,此前被行業(yè)里劃為應(yīng)用開發(fā)或算法研發(fā)環(huán)節(jié),現(xiàn)在他們也有一些智能化工具和應(yīng)用來提升數(shù)據(jù)標(biāo)注效率。

大廠內(nèi)部的數(shù)據(jù)標(biāo)注平臺(tái)的服務(wù)方式也在發(fā)生變化。由于看中了大模型帶來的算力市場(chǎng),大廠正在提供一站式服務(wù),其中包含了AI訓(xùn)練的工具鏈、數(shù)據(jù)標(biāo)注的工具等。數(shù)據(jù)標(biāo)注被納入AI訓(xùn)練全家桶,統(tǒng)一對(duì)外服務(wù)。一些分析人士認(rèn)為,這種模式下,大廠的數(shù)據(jù)標(biāo)注服務(wù)可能變得比以前更有吸引力,可能會(huì)擠占第三方標(biāo)注服務(wù)商的生意。

不過也有業(yè)內(nèi)人士認(rèn)為,大廠內(nèi)部建的數(shù)據(jù)標(biāo)注平臺(tái)有一些局限。這些基于內(nèi)部數(shù)據(jù)需求和業(yè)務(wù)場(chǎng)景出發(fā)來建的平臺(tái),通常很難應(yīng)對(duì)市場(chǎng)多樣化的數(shù)據(jù)標(biāo)注任務(wù)需求。另外該資深人士也認(rèn)為,一些企業(yè)還有私有化部署的需求,從合規(guī)角度需要把訓(xùn)練任務(wù)放在本地,專業(yè)的數(shù)據(jù)標(biāo)注服務(wù)商更擅長滿足這部分需求。

林群書也提及,醫(yī)療行業(yè)就更傾向用私有化部署去保護(hù)數(shù)據(jù)安全。醫(yī)療行業(yè)里的客戶會(huì)從標(biāo)注環(huán)節(jié)開始,整套系統(tǒng)和標(biāo)注平臺(tái)做私有化部署,整個(gè)平臺(tái)放內(nèi)網(wǎng),然后這些機(jī)構(gòu)會(huì)自己安排一些醫(yī)生上來做數(shù)據(jù)標(biāo)注。

同時(shí),新興的AI場(chǎng)景也對(duì)數(shù)據(jù)標(biāo)注服務(wù)商提出了更高要求。例如自動(dòng)駕駛領(lǐng)域,如果一家數(shù)據(jù)標(biāo)注服務(wù)商沒有4D標(biāo)注工具和能力,現(xiàn)在可能沒有辦法跟主機(jī)廠合作。

總之,市場(chǎng)開始變得更卷。更多類的參與主體,行業(yè)里的智能化、自動(dòng)化趨勢(shì)使得從前單純疊人力、沒有技術(shù)含量的數(shù)據(jù)標(biāo)注范式逐漸在喪失生存空間。

林群書透露,由于智能化工具減少了人工標(biāo)注的工作量,同樣的數(shù)據(jù)標(biāo)注任務(wù)他們可以用更少的成本達(dá)到更高質(zhì)量的標(biāo)注。由于有了技術(shù)紅利,他們還能釋放一部分成本優(yōu)勢(shì)給客戶,降低單位數(shù)據(jù)標(biāo)注任務(wù)的價(jià)格。

這是一個(gè)持續(xù)有需求的市場(chǎng)。2019年艾瑞咨詢的報(bào)告中評(píng)估,市場(chǎng)在2025年將達(dá)到百億規(guī)模,但實(shí)際上,業(yè)界人士評(píng)估目前國內(nèi)市場(chǎng)整體規(guī)??赡茉诮衲昃鸵呀?jīng)達(dá)到了百億水準(zhǔn)。市場(chǎng)需求正在加速釋放,行業(yè)正在從勞動(dòng)密集型向技術(shù)密集型轉(zhuǎn)變。

一位業(yè)界人士稱,一場(chǎng)淘汰賽已經(jīng)開啟,行業(yè)內(nèi)競爭加劇,今年剩者為王更為明顯。

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請(qǐng)聯(lián)系原著作權(quán)人。

評(píng)論

暫無評(píng)論哦,快來評(píng)價(jià)一下吧!

下載界面新聞

微信公眾號(hào)

微博

數(shù)據(jù)標(biāo)注,從藍(lán)領(lǐng)到白領(lǐng)

“剩”者為王。

文|數(shù)智前線 徐鑫

編輯|任曉漁

AI應(yīng)用落地?zé)岢闭苿?dòng)數(shù)據(jù)標(biāo)注市場(chǎng)進(jìn)入新一輪洗牌期。

大模型和自動(dòng)駕駛領(lǐng)域的AI需求攪動(dòng)了數(shù)據(jù)服務(wù)市場(chǎng),數(shù)據(jù)標(biāo)注服務(wù)商整數(shù)智能CEO林群書告訴數(shù)智前線,今年以來他們接到了非常多基于大模型訓(xùn)練場(chǎng)景的訂單,市場(chǎng)需求量呈現(xiàn)出了一條比較陡峭的增長曲線。

新的應(yīng)用場(chǎng)景對(duì)服務(wù)商的能力提出了新要求。一方面,不同于傳統(tǒng)深度學(xué)習(xí)算法,大模型場(chǎng)景下數(shù)據(jù)處理流程中,在數(shù)據(jù)需求量最大的預(yù)訓(xùn)練環(huán)節(jié),使用的多是無標(biāo)注或弱監(jiān)督標(biāo)注數(shù)據(jù)。更多的人工標(biāo)注需求出現(xiàn)在預(yù)訓(xùn)練環(huán)節(jié)之后的微調(diào)(SFT)以及基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)階段。微調(diào)和對(duì)齊時(shí),人工標(biāo)注的質(zhì)量會(huì)極大影響模型在生成內(nèi)容時(shí)的智能水平,這對(duì)人工標(biāo)注的數(shù)據(jù)質(zhì)量提出了更高的要求。

另一方面,AI技術(shù)的進(jìn)步正推動(dòng)行業(yè)從人力密集型向自動(dòng)化標(biāo)注轉(zhuǎn)變。

新一代數(shù)據(jù)標(biāo)注服務(wù)商已經(jīng)基于機(jī)器學(xué)習(xí)算法,探索構(gòu)建更智能的數(shù)據(jù)工程平臺(tái),提升數(shù)據(jù)標(biāo)注的自動(dòng)化水平。而原本處于數(shù)據(jù)服務(wù)下游的算法研發(fā)平臺(tái)及科技企業(yè)自身也在嘗試把大模型技術(shù)用到了自身的數(shù)據(jù)標(biāo)注場(chǎng)景,例如商湯科技在自動(dòng)駕駛場(chǎng)景基于視覺大模型技術(shù),降低了人工數(shù)據(jù)標(biāo)注的數(shù)量,大幅提升了數(shù)據(jù)標(biāo)注效率。

大廠也加速進(jìn)入這一市場(chǎng)。由于看中了大模型訓(xùn)練的算力市場(chǎng),不少模型提供商提供了AI訓(xùn)練全家桶,數(shù)據(jù)標(biāo)注被納入了大廠的服務(wù)范圍,這可能正加劇行業(yè)的競爭。

數(shù)據(jù)標(biāo)注自動(dòng)化水平提升,拉高了服務(wù)標(biāo)準(zhǔn),同時(shí)還在釋放行業(yè)的降價(jià)空間。一位資深人士稱,今年數(shù)據(jù)標(biāo)注市場(chǎng)或許會(huì)加速向技術(shù)型玩家集中,單純依靠人工標(biāo)注的企業(yè)生存更為艱難,市場(chǎng)正開啟淘汰賽。

01 AI落地潮催熟數(shù)據(jù)標(biāo)注市場(chǎng)

數(shù)據(jù)被認(rèn)為是人工智能智能化水平提升的燃料。過去兩年里大模型和自動(dòng)駕駛等領(lǐng)域里的AI落地?zé)岢闭诖邿釘?shù)據(jù)標(biāo)注市場(chǎng)。

據(jù)信通院數(shù)據(jù),OpenAI 2020 年推出 GPT-3 以來,超大預(yù)訓(xùn)練模型參數(shù)數(shù)量、訓(xùn)練數(shù)據(jù)規(guī)模按照 300 倍/年的趨勢(shì)增長。大模型熱潮使得國內(nèi)的數(shù)據(jù)標(biāo)注公司也受到了不小關(guān)注。今年以來,國內(nèi)的老牌數(shù)據(jù)標(biāo)注企業(yè)海天瑞聲備受矚目,該公司高管在接受采訪時(shí)稱收到了大量問詢。

今年2月,海天瑞聲還專門發(fā)布了公告,稱公司尚未與OpenAI開展合作,收入結(jié)構(gòu)中有大約90%的貢獻(xiàn)來自于智能語音和計(jì)算機(jī)視覺業(yè)務(wù)領(lǐng)域,自然語言業(yè)務(wù)對(duì)公司整體貢獻(xiàn)大約在10%左右。

雖然與大語言模型直接相關(guān)的訓(xùn)練需求,在這家老牌數(shù)據(jù)標(biāo)注服務(wù)商的業(yè)務(wù)占比不大,但市場(chǎng)對(duì)數(shù)據(jù)標(biāo)注廠商的熱情依然迅猛。海天瑞聲今年股價(jià)實(shí)現(xiàn)了大幅上漲,波動(dòng)范圍從31.28 元最高到過192.69元,雖然目前股價(jià)已回落到百元以內(nèi)區(qū)間,但仍較年初水平翻倍。

除了老牌數(shù)據(jù)標(biāo)注商的股價(jià)飆漲,新興的數(shù)據(jù)標(biāo)注創(chuàng)業(yè)公司也明顯感知到了這股趨勢(shì)。 整數(shù)智能CEO林群書告訴數(shù)智前線,今年他們能看到兩個(gè)領(lǐng)域的數(shù)據(jù)標(biāo)注需求非常明顯,一個(gè)是自動(dòng)駕駛場(chǎng)景,另外一個(gè)就是大模型,這也是他們重點(diǎn)布局的兩大領(lǐng)域。

業(yè)界觀察,大模型的訓(xùn)練方式與此前的深度學(xué)習(xí)算法的開發(fā)范式并不一樣:大模型的預(yù)訓(xùn)練環(huán)節(jié)需要的數(shù)據(jù)量比較大,但這一環(huán)節(jié)通常會(huì)采用弱監(jiān)督或無監(jiān)督數(shù)據(jù),對(duì)數(shù)據(jù)標(biāo)注的需求增加并不明顯。而在預(yù)訓(xùn)練環(huán)節(jié)之后的微調(diào)和基于人類反饋的強(qiáng)化學(xué)習(xí)階段,則需要高質(zhì)量的人工標(biāo)注數(shù)據(jù)。比如,此前工行的技術(shù)專家在華為云論壇上分享訓(xùn)練自己的大模型應(yīng)用時(shí)提到,在微調(diào)階段需要體系內(nèi)的業(yè)務(wù)專家們?nèi)?biāo)注金融相關(guān)的數(shù)據(jù),這已不是普通數(shù)據(jù)標(biāo)注員能完成的作業(yè)。

林群書介紹,目前他所在的整數(shù)智能已經(jīng)針對(duì)大模型不同階段的數(shù)據(jù)需求向企業(yè)提供不同的數(shù)據(jù)服務(wù)。比如針對(duì)需要做模型訓(xùn)練但自身沒有專業(yè)獲取數(shù)據(jù)來源的團(tuán)隊(duì),提供從數(shù)據(jù)標(biāo)注工具到定制數(shù)據(jù)集的整套服務(wù)。

自動(dòng)駕駛也是近年來另一個(gè)對(duì)數(shù)據(jù)標(biāo)注服務(wù)有大量需求的場(chǎng)景。根據(jù)德勤今年3月份的一份報(bào)告顯示,2022年自動(dòng)駕駛領(lǐng)域在人工智能基礎(chǔ)數(shù)據(jù)服務(wù)的整個(gè)下游應(yīng)用占比約為38%,到2027年這個(gè)比例將增長到52%。

這一場(chǎng)景的數(shù)據(jù)需求暴增與自動(dòng)駕駛場(chǎng)景特性有關(guān)。車企對(duì)數(shù)據(jù)標(biāo)注的要求相比其他行業(yè)更高。林群書告訴數(shù)智前線,目前國內(nèi)車企也在對(duì)標(biāo)特斯拉的數(shù)據(jù)閉環(huán)方案,能服務(wù)這個(gè)場(chǎng)景的數(shù)據(jù)服務(wù)商需要有專門的自動(dòng)化標(biāo)注平臺(tái)與專業(yè)的標(biāo)注工具,例如4D標(biāo)注工具,同時(shí)需要一整套完整的解決方案。

另外,出于對(duì)安全考量,車企對(duì)數(shù)據(jù)標(biāo)注的準(zhǔn)確度要求通常在99%以上,這實(shí)際上也大幅提高了對(duì)數(shù)據(jù)服務(wù)商的要求門檻。

整體而言,數(shù)據(jù)標(biāo)注市場(chǎng)需求在大量釋放的同時(shí),門檻也進(jìn)一步拉高。

02 從“靠人工實(shí)現(xiàn)智能”到智能化工程平臺(tái)

過去十年,深度學(xué)習(xí)和人工智能技術(shù),基于標(biāo)注好的數(shù)據(jù),智能水平有了巨大的突破。

張宏江院士今年年初在一場(chǎng)有關(guān)大模型的演講中提及,伴隨算法的進(jìn)步實(shí)際上數(shù)據(jù)層面發(fā)生的變化也非常明顯,從最開始人工的標(biāo)注,到開放的數(shù)據(jù)集分享,現(xiàn)在發(fā)展到數(shù)據(jù)自動(dòng)標(biāo)注和深層研究。這也是國內(nèi)數(shù)據(jù)標(biāo)注領(lǐng)域里正在發(fā)生的現(xiàn)實(shí)。

行業(yè)內(nèi)最經(jīng)典的人工數(shù)據(jù)標(biāo)注工作,當(dāng)屬 ImageNet數(shù)據(jù)集。2007年開始,人工智能學(xué)者李飛飛在美國普林斯頓大學(xué)任教期間,啟動(dòng)了 ImageNet的標(biāo)注工作。通過亞馬遜 Mechanical Turk 在線眾包,李飛飛團(tuán)隊(duì)利用了67 個(gè)國家的 49000 人次,花費(fèi)兩年半的時(shí)間,最終標(biāo)注了1500 萬張圖片。這個(gè)龐大數(shù)據(jù)集為后來深度學(xué)習(xí)算法的良好表現(xiàn)打下了基礎(chǔ),無怪乎有人稱李飛飛為深度學(xué)習(xí)之母。

而數(shù)據(jù)標(biāo)注作業(yè)能從純手工標(biāo)注逐漸往自動(dòng)化標(biāo)注及更智能的數(shù)據(jù)工程平臺(tái)過渡,實(shí)際上與這個(gè)細(xì)分行業(yè)的特性有關(guān)。

一位業(yè)界人士告訴數(shù)智前線,數(shù)據(jù)標(biāo)注工作本質(zhì)是要把日常生活中這些非結(jié)構(gòu)化數(shù)據(jù)翻譯成機(jī)器能理解的結(jié)構(gòu)化數(shù)據(jù)。而無論是結(jié)構(gòu)化還是非結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)的模態(tài)是有限的,包含圖像、音頻、視頻、文本、點(diǎn)云等有限種類。另外,在實(shí)現(xiàn)人工智能的數(shù)據(jù)工程任務(wù)時(shí),不同模態(tài)數(shù)據(jù)要完成的是有限個(gè)子任務(wù)。以圖像領(lǐng)域?yàn)槔?,要識(shí)別圖像信息,共包含了目標(biāo)檢測(cè)、語義分割、目標(biāo)跟蹤等十個(gè)以內(nèi)的子任務(wù)。

專業(yè)的數(shù)據(jù)服務(wù)商可以針對(duì)所有模態(tài)數(shù)據(jù)的子任務(wù),做出針對(duì)性的數(shù)據(jù)標(biāo)注工具,并從中提煉出標(biāo)準(zhǔn)化流程,更高效完成數(shù)據(jù)的采集和標(biāo)注,從而服務(wù)和滿足人工智能應(yīng)用和不同場(chǎng)景的需求。

過去十余年,國內(nèi)數(shù)據(jù)標(biāo)注最初是純?nèi)斯ね瓿桑S著人工智能算法發(fā)展帶來的數(shù)據(jù)標(biāo)注任務(wù)增加,一些軟件公司開始開發(fā)眾包的數(shù)據(jù)標(biāo)注平臺(tái),從而更高效組織和管理人工標(biāo)注任務(wù)的分發(fā),控制流程,推動(dòng)人工數(shù)據(jù)標(biāo)注及質(zhì)檢工作的流程標(biāo)準(zhǔn)。

數(shù)據(jù)標(biāo)注作業(yè)朝向自動(dòng)化邁開步伐,時(shí)間節(jié)點(diǎn)在2017年~2018年。當(dāng)時(shí)行業(yè)里發(fā)現(xiàn),隨著自動(dòng)駕駛這樣需要處理海量數(shù)據(jù)的場(chǎng)景出現(xiàn),一個(gè)場(chǎng)景要標(biāo)注的數(shù)據(jù)體量可能達(dá)到幾千萬張圖片規(guī)模。在這樣體量的需求前,人工完成數(shù)據(jù)標(biāo)注任務(wù),一致性管理和進(jìn)度追蹤變得極為困難。

一方面人工要完成千萬張圖片級(jí)別的數(shù)據(jù)標(biāo)注,通常需要幾百人團(tuán)隊(duì)花費(fèi)大半年以上的周期。同時(shí),眾包平臺(tái)的人工標(biāo)注作業(yè)可能會(huì)因?yàn)橐恢滦怨芾黼y,而出現(xiàn)準(zhǔn)確率不達(dá)標(biāo)等情況,需要返工,這可能進(jìn)一步拉長作業(yè)周期。

業(yè)界開始探討用人工智能來減少標(biāo)注工作量。比如訓(xùn)練一個(gè)人工智能算法,對(duì)標(biāo)注任務(wù)進(jìn)行預(yù)標(biāo)注,再由人工去做精加工。預(yù)標(biāo)注過程能大幅減少人工標(biāo)注數(shù)量,同時(shí)由于篩選標(biāo)準(zhǔn)統(tǒng)一,結(jié)果的一致性更高,數(shù)據(jù)標(biāo)注的質(zhì)量也能提升。

目前,國內(nèi)已經(jīng)有不少企業(yè)把大模型技術(shù)應(yīng)用到了數(shù)據(jù)標(biāo)注場(chǎng)景。商湯科技聯(lián)合創(chuàng)始人、大裝置事業(yè)群副總裁陳宇恒此前接受數(shù)智前線采訪時(shí)提到,在自動(dòng)駕駛場(chǎng)景里,商湯正通過大模型去對(duì)自動(dòng)駕駛的路測(cè)回流數(shù)據(jù)做挖掘、自動(dòng)標(biāo)注、泛化與重建,大幅提升了自動(dòng)駕駛算法迭代所需的高質(zhì)量數(shù)據(jù)規(guī)?;尚?。

商湯絕影產(chǎn)品總監(jiān)Larry方面還透露,目前商湯絕影智能駕駛主要模型訓(xùn)練所依賴的標(biāo)注已經(jīng)大部分采用大模型自動(dòng)標(biāo)注技術(shù),全自動(dòng)標(biāo)注和半自動(dòng)標(biāo)注(采用人工抽樣質(zhì)檢)基本已經(jīng)代替了人工標(biāo)注,成本和時(shí)間周期均大幅下降。

今年4月,海康威視在一季度的財(cái)報(bào)電話會(huì)上向投資者答疑時(shí)也提到,他們也在將自研AI技術(shù)用到自動(dòng)化標(biāo)注場(chǎng)景,“用同樣的人力投入, 數(shù)據(jù)標(biāo)注的數(shù)量可以提升 10 倍”。數(shù)智前線獲悉,網(wǎng)易旗下的伏羲有靈眾包平臺(tái)已經(jīng)在控制成本、縮短任務(wù)周期、保證質(zhì)量等方面融入了一系列的前沿算法,將人工標(biāo)注數(shù)據(jù)反哺 AI算法,實(shí)現(xiàn)人機(jī)協(xié)作任務(wù)處理。

一些新興的數(shù)據(jù)標(biāo)注服務(wù)商們?cè)噲D再往前一步,建設(shè)更通用的數(shù)據(jù)工程平臺(tái),在一些跨行業(yè)或跨場(chǎng)景的算法自動(dòng)化標(biāo)注減少工程師需要額外調(diào)試的時(shí)間。老牌廠商海天瑞聲就計(jì)劃啟動(dòng)領(lǐng)域里的垂直大模型研發(fā),把大模型的泛化能力應(yīng)用到數(shù)據(jù)標(biāo)注領(lǐng)域。

整數(shù)智能則開發(fā)了智能數(shù)據(jù)工程平臺(tái)(ABAVA Platform),希望適用所有的模態(tài)數(shù)據(jù)及更普遍的行業(yè)場(chǎng)景,他們還將MLOps模塊集成在數(shù)據(jù)工程平臺(tái)上,使得平臺(tái)可以以插件的形式使用內(nèi)外部的算法模型,用于提升數(shù)據(jù)標(biāo)注以及智能審核的效率。林群書介紹,“通過把一套Machine Learning Ops的系統(tǒng)集成到了整個(gè)數(shù)據(jù)工程平臺(tái),每次完成的數(shù)據(jù)都可以用來迭代自動(dòng)標(biāo)注算法,使得自動(dòng)標(biāo)注算法不斷學(xué)習(xí)垂直場(chǎng)景數(shù)據(jù),變得更加聰明。數(shù)據(jù)標(biāo)注也能形成數(shù)據(jù)應(yīng)用的閉環(huán)和飛輪?!?/p>

在數(shù)據(jù)標(biāo)注的智能化演進(jìn)路徑里,也有觀察人士評(píng)價(jià),人工標(biāo)注師們的努力正推動(dòng)算法進(jìn)步,最終使得自身被算法汰換。

03 淘汰賽開啟

對(duì)投資人工智能的企業(yè)而言,數(shù)據(jù)標(biāo)注是項(xiàng)長期成本,只要企業(yè)還期望提升算法的智能程度,每年對(duì)數(shù)據(jù)標(biāo)注的需求和投入就穩(wěn)定存在。

也有應(yīng)用開發(fā)方在訓(xùn)練算法時(shí)會(huì)干脆不靠外部標(biāo)注商,自己投入力量來標(biāo)注數(shù)據(jù)。例如不少互聯(lián)網(wǎng)平臺(tái)就建設(shè)了數(shù)據(jù)標(biāo)注眾包平臺(tái),這些企業(yè)有大量的人工智能算法及AI應(yīng)用開發(fā)需求,自建團(tuán)隊(duì)對(duì)這些企業(yè)而言能更方便滿足業(yè)務(wù)的數(shù)據(jù)需求。

但這個(gè)行當(dāng)?shù)倪M(jìn)入門檻相對(duì)不高。據(jù)了解,前些年在一些人力資源充足地區(qū)如山東、山西、河南、貴州等地,出現(xiàn)了不少數(shù)據(jù)標(biāo)注基地,大量廉價(jià)的勞動(dòng)力資源是這些標(biāo)注基地生存發(fā)展的重要原因。

大模型時(shí)代到來后,數(shù)據(jù)需求方對(duì)人工標(biāo)注的數(shù)據(jù)要求在提升。例如,業(yè)界發(fā)現(xiàn)微調(diào)環(huán)節(jié)的反饋和數(shù)據(jù)質(zhì)量正大大影響模型的智能度,在一些前沿的研究論文里就已經(jīng)在指出,擴(kuò)大數(shù)據(jù)量而不同時(shí)擴(kuò)大提示多樣性時(shí),收益會(huì)大大減少,而在優(yōu)化數(shù)據(jù)質(zhì)量時(shí),收益會(huì)大大增加。為了提升模型表現(xiàn),數(shù)智前線了解到,今年4月國內(nèi)某頭部大模型提供商就專門組建了更專業(yè)的標(biāo)注團(tuán)隊(duì),標(biāo)注員要求本科以上學(xué)歷。

算法類企業(yè)自身離數(shù)據(jù)和人工智能算法近,他們也在用大模型來提升自身的數(shù)據(jù)處理能力,比如??低暋⑸虦萍?,此前被行業(yè)里劃為應(yīng)用開發(fā)或算法研發(fā)環(huán)節(jié),現(xiàn)在他們也有一些智能化工具和應(yīng)用來提升數(shù)據(jù)標(biāo)注效率。

大廠內(nèi)部的數(shù)據(jù)標(biāo)注平臺(tái)的服務(wù)方式也在發(fā)生變化。由于看中了大模型帶來的算力市場(chǎng),大廠正在提供一站式服務(wù),其中包含了AI訓(xùn)練的工具鏈、數(shù)據(jù)標(biāo)注的工具等。數(shù)據(jù)標(biāo)注被納入AI訓(xùn)練全家桶,統(tǒng)一對(duì)外服務(wù)。一些分析人士認(rèn)為,這種模式下,大廠的數(shù)據(jù)標(biāo)注服務(wù)可能變得比以前更有吸引力,可能會(huì)擠占第三方標(biāo)注服務(wù)商的生意。

不過也有業(yè)內(nèi)人士認(rèn)為,大廠內(nèi)部建的數(shù)據(jù)標(biāo)注平臺(tái)有一些局限。這些基于內(nèi)部數(shù)據(jù)需求和業(yè)務(wù)場(chǎng)景出發(fā)來建的平臺(tái),通常很難應(yīng)對(duì)市場(chǎng)多樣化的數(shù)據(jù)標(biāo)注任務(wù)需求。另外該資深人士也認(rèn)為,一些企業(yè)還有私有化部署的需求,從合規(guī)角度需要把訓(xùn)練任務(wù)放在本地,專業(yè)的數(shù)據(jù)標(biāo)注服務(wù)商更擅長滿足這部分需求。

林群書也提及,醫(yī)療行業(yè)就更傾向用私有化部署去保護(hù)數(shù)據(jù)安全。醫(yī)療行業(yè)里的客戶會(huì)從標(biāo)注環(huán)節(jié)開始,整套系統(tǒng)和標(biāo)注平臺(tái)做私有化部署,整個(gè)平臺(tái)放內(nèi)網(wǎng),然后這些機(jī)構(gòu)會(huì)自己安排一些醫(yī)生上來做數(shù)據(jù)標(biāo)注。

同時(shí),新興的AI場(chǎng)景也對(duì)數(shù)據(jù)標(biāo)注服務(wù)商提出了更高要求。例如自動(dòng)駕駛領(lǐng)域,如果一家數(shù)據(jù)標(biāo)注服務(wù)商沒有4D標(biāo)注工具和能力,現(xiàn)在可能沒有辦法跟主機(jī)廠合作。

總之,市場(chǎng)開始變得更卷。更多類的參與主體,行業(yè)里的智能化、自動(dòng)化趨勢(shì)使得從前單純疊人力、沒有技術(shù)含量的數(shù)據(jù)標(biāo)注范式逐漸在喪失生存空間。

林群書透露,由于智能化工具減少了人工標(biāo)注的工作量,同樣的數(shù)據(jù)標(biāo)注任務(wù)他們可以用更少的成本達(dá)到更高質(zhì)量的標(biāo)注。由于有了技術(shù)紅利,他們還能釋放一部分成本優(yōu)勢(shì)給客戶,降低單位數(shù)據(jù)標(biāo)注任務(wù)的價(jià)格。

這是一個(gè)持續(xù)有需求的市場(chǎng)。2019年艾瑞咨詢的報(bào)告中評(píng)估,市場(chǎng)在2025年將達(dá)到百億規(guī)模,但實(shí)際上,業(yè)界人士評(píng)估目前國內(nèi)市場(chǎng)整體規(guī)模可能在今年就已經(jīng)達(dá)到了百億水準(zhǔn)。市場(chǎng)需求正在加速釋放,行業(yè)正在從勞動(dòng)密集型向技術(shù)密集型轉(zhuǎn)變。

一位業(yè)界人士稱,一場(chǎng)淘汰賽已經(jīng)開啟,行業(yè)內(nèi)競爭加劇,今年剩者為王更為明顯。

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請(qǐng)聯(lián)系原著作權(quán)人。