正在閱讀:

AI大模型折疊:數(shù)據(jù)標(biāo)注“民工”月入不過(guò)5000,單價(jià)從5毛降到4分

掃一掃下載界面新聞APP

AI大模型折疊:數(shù)據(jù)標(biāo)注“民工”月入不過(guò)5000,單價(jià)從5毛降到4分

隨時(shí)可能被替代的流水線“螺絲釘”。

文|Tech星球  王琳

鄭雯至今記得幾個(gè)月的下午,那天,她一個(gè)小時(shí)就賺了2毛錢。她畢業(yè)于湖南的一所??茖W(xué)校,是一名大模型數(shù)據(jù)標(biāo)注師,每天的工作并不復(fù)雜——給自己領(lǐng)取的原始數(shù)據(jù)(如圖像、視頻、文本等)添加標(biāo)簽。

但大模型對(duì)于數(shù)據(jù)的質(zhì)量要求很高,那天當(dāng)時(shí)一張圖片被要求反復(fù)修改了8次才通過(guò),整個(gè)修改過(guò)程花費(fèi)了一個(gè)1小時(shí)。也就是說(shuō),她這一個(gè)小時(shí)只賺了2毛錢,而正常情況下可以賺到12塊,可以拉600個(gè)框?!板X并不好賺”,她反復(fù)強(qiáng)調(diào)。

這幾乎是所有數(shù)據(jù)標(biāo)注從業(yè)者的共識(shí)。數(shù)據(jù)標(biāo)注的一端承載著從業(yè)者們不足5000元的月薪,他們?nèi)缥浵佇郾銟?gòu)建起大模型的基石。而另一端則是互聯(lián)網(wǎng)大廠們的AI夢(mèng)想,他們希望借此超越Chat GPT 4。

數(shù)據(jù)標(biāo)注采用最原始的計(jì)件制算工資,并不存在職場(chǎng)上的勾心斗角。唯一的苦惱這份過(guò)于枯燥的工作,讓他們中的大部分很難堅(jiān)持完3個(gè)月。并且,幾乎所有人都告訴Tech星球,你最好別去。

可他們不知道的是,要不了多久,他們中的大部分可能會(huì)失去這份枯燥的工作。因?yàn)?,那些?jiǎn)單的數(shù)據(jù)標(biāo)注將會(huì)被AI取代。

從5毛到4分,價(jià)格暴跌

林雙在2017年賺到了一筆“快錢”:15天6000多元。對(duì)于??飘厴I(yè)的林雙來(lái)說(shuō),這個(gè)收入著實(shí)可觀。那是人們對(duì)AI期望爆棚的時(shí)候,幾乎沒(méi)有人懷疑過(guò)它的未來(lái),所有的投資機(jī)構(gòu)都堅(jiān)信這里可以誕生十億、百億甚至千億規(guī)模的企業(yè)。

幾乎所有AI技術(shù)的背后都是算法、算力、算據(jù)的競(jìng)爭(zhēng),龐大的數(shù)據(jù)是技術(shù)優(yōu)劣的底層。背景光鮮的程序員們坐在“北上廣”的辦公室里,通過(guò)代碼迭代算法描繪AI藍(lán)圖,而大專生、寶媽等在三四線城市的格子間處理龐大數(shù)據(jù)包中的圖片、文字、語(yǔ)音等。

ChatGPT也不例外。一位百度文心一言項(xiàng)目組的員工稱,大模型本身并沒(méi)有什么新技術(shù),也沒(méi)有太高的技術(shù)壁壘,關(guān)鍵的問(wèn)題是算力壁壘形成的參數(shù)壁壘。

大模型時(shí)代的數(shù)據(jù)標(biāo)注員和以前的也并沒(méi)有特別大區(qū)別,為數(shù)不多的差距可能是更加舒適的辦公環(huán)境和對(duì)標(biāo)注質(zhì)量的更高要求。一位數(shù)據(jù)標(biāo)注的從業(yè)者向Tech星球介紹,一般剛剛?cè)胄袝r(shí),他們會(huì)組建一個(gè)10人左右的團(tuán)隊(duì),這其中有一個(gè)人承擔(dān)質(zhì)檢工作,如果不合格,就要員工打回去重做。而數(shù)據(jù)的質(zhì)量則決定著大模型的優(yōu)劣。

數(shù)據(jù)民工們也并不關(guān)心,AI技術(shù)又有什么新的分支,他們更在意的是單價(jià),因?yàn)檫@里是計(jì)件算工資。

“那會(huì)兒?jiǎn)蝺r(jià)高的時(shí)候,拉一個(gè)2D框就有1毛多,我最高的時(shí)候干了10多個(gè)小時(shí),一天就賺了600多元”,林雙回憶道。不過(guò),這不是最高的,一位標(biāo)注人員稱,早期2D拉框的價(jià)格最高能達(dá)到5毛錢。

拉框是數(shù)據(jù)標(biāo)注中常見(jiàn)的一種操作,標(biāo)注員根據(jù)要求對(duì)圖片中的物體,如車輛、紅路燈、障礙物等畫框標(biāo)注。拉框分為2D和3D,后者的價(jià)格會(huì)更貴一些。

但這種熱度并沒(méi)有持續(xù)多少,伴隨著越來(lái)越多人涌入以及AI行業(yè)整體發(fā)展的不夠順利,標(biāo)注一個(gè)圖片的單價(jià)越來(lái)越低,林雙稱現(xiàn)在最低的只有4分錢。

“如果是拉框,行業(yè)的平均單價(jià)是在0.15元左右,但還是要看項(xiàng)目,如果自己可以接到單,接到一手單的最低要求應(yīng)該是100個(gè)入職員工,那規(guī)模挺大,3D的框有可能達(dá)到3毛錢一個(gè),不過(guò)很少可以有達(dá)到5毛的?!?/p>

當(dāng)然,如果你本身具備醫(yī)療、金融方面的專業(yè)知識(shí),那么單價(jià)則會(huì)更高。比如,很多醫(yī)療大模型會(huì)要求標(biāo)注員有是臨床專業(yè),且有相關(guān)從業(yè)經(jīng)驗(yàn)。

大部分從業(yè)者每個(gè)月的收入都不過(guò)5000元,其中也不乏少數(shù)的幸運(yùn)兒。楊碩本來(lái)在四川經(jīng)營(yíng)一家服裝店,但疫情影響了他的生意,他在今年轉(zhuǎn)型做大模型數(shù)據(jù)標(biāo)注,現(xiàn)在,他每個(gè)月有8000元收入,“我是和公司簽了合同,交了9500元的加盟費(fèi),合同里寫著每個(gè)月最低收益是7000元?!?/p>

究竟誰(shuí)賺到了錢

阿里、騰訊、字節(jié)這樣的互聯(lián)網(wǎng)大廠,以及上汽、領(lǐng)克等車企是數(shù)據(jù)標(biāo)注業(yè)務(wù)分發(fā)的源頭,想要以最好的價(jià)格直接從源頭獲取訂單,數(shù)據(jù)標(biāo)注公司們需要具備一定的規(guī)模。

一位數(shù)據(jù)標(biāo)注公司員工對(duì)Tech星球稱,他們直接從大廠拿到訂單,但是大廠要求他們得有500人,因此他們會(huì)選擇通過(guò)加盟或者子公司的方式來(lái)達(dá)到人員要求。

二者的區(qū)別是加盟適用于初入行的人組建工作室,如果要成立子公司,一般一個(gè)區(qū)域就只有一家。小白工作室需要收加盟費(fèi),2.5萬(wàn)或者3萬(wàn)。子公司是一個(gè)區(qū)域的獨(dú)家代理商,需要繳納5萬(wàn)費(fèi)用。而他們可以三年以內(nèi)保證訂單的充足,并負(fù)責(zé)3年內(nèi)的技術(shù)培訓(xùn),這些工作室或者子公司們組成一個(gè)大的工會(huì),幾百到幾千不等。

上述數(shù)據(jù)標(biāo)注公司員工稱,大模型的火熱再次將數(shù)據(jù)標(biāo)注行業(yè)推上熱潮,現(xiàn)在幾乎每天都有人去他們公司拜訪。

但事實(shí)上,經(jīng)營(yíng)一個(gè)數(shù)據(jù)標(biāo)注公司并不容易。數(shù)據(jù)標(biāo)注公司告訴你的是,這個(gè)行業(yè)前1到2個(gè)月比較難做,因?yàn)閱T工需要爬坡期,前期只需要5-8個(gè)人就夠了,40多歲的阿姨都沒(méi)有問(wèn)題的。

穩(wěn)定是數(shù)據(jù)標(biāo)注公司或者工作室最重要的因素。但是Tech星球接觸的大部分標(biāo)注員工往往都因?yàn)榭菰餆o(wú)趣在3個(gè)月內(nèi)“光速”離職,新員工并不是馬上可以到崗實(shí)操,人員流動(dòng)性大的結(jié)果就是數(shù)據(jù)標(biāo)注的質(zhì)量和周期不夠穩(wěn)定。缺錢的寶媽是數(shù)據(jù)標(biāo)注工作室最喜歡招納的人群。

“找兼職肯定不行的,會(huì)有空檔期,房租和電腦投入了,會(huì)虧錢,最好的方式是全員坐班”,開(kāi)過(guò)數(shù)據(jù)標(biāo)注工作室的人魏銘向Tech星球介紹。

大部分?jǐn)?shù)據(jù)標(biāo)注公司的回款周期是3個(gè)月起步,最多半年,但他們需要以月付的方式給員工工資,這需要一定程度的資金儲(chǔ)備,“一個(gè)人3500,100個(gè)人,3個(gè)月就是105萬(wàn)?!?/p>

張建曾經(jīng)加入過(guò)一個(gè)又200多號(hào)員工的工會(huì)。第一年,他們趕上行業(yè)的爆發(fā)期,2D拉框的單價(jià)高達(dá)5毛,那一年他所在的工會(huì)賺了400多萬(wàn)。

但是第二年,行情急轉(zhuǎn)直下。標(biāo)注的單價(jià)變低,員工的流動(dòng)性更快,空檔期增加,再加上兩個(gè)大項(xiàng)目都沒(méi)有結(jié)算,一整年過(guò)去,他們虧了300多萬(wàn)?!袄习宥颊f(shuō)短時(shí)間內(nèi)堅(jiān)決不碰數(shù)據(jù)標(biāo)注”,張建表示,“他們現(xiàn)在正在和上游打官司?!?/p>

這是利潤(rùn)微薄的生意。海天瑞聲是目前數(shù)據(jù)標(biāo)注行業(yè)內(nèi)首家主板上市公司,去年這家公司有2.63億元營(yíng)收,利潤(rùn)只有2945萬(wàn)元,凈利潤(rùn)率剛剛超過(guò)10%。但今年上半年,由于客戶數(shù)量減少,這家公司便陷入了虧損。

隨時(shí)可能被替代的“螺絲釘”

依靠著肯尼亞工人螞蟻搬家式的積累,最終OpenAI的語(yǔ)言對(duì)話大模型能力脫穎而出。這些被稱為數(shù)據(jù)民工的普通人支撐起了山姆·奧特曼(OpenAI創(chuàng)始人)的AI夢(mèng),但如果不出意外,他們手中的大部分工作,很快就會(huì)被自己參與創(chuàng)造的新產(chǎn)品所取代。

在國(guó)外,Open AI 前員工于2021年成立的Anthropic今年已經(jīng)融資51.5億美元,是其過(guò)去兩年融資總額的7倍還多。這家公司提供了一種新的方法,可在較少人工參與的情況下,便訓(xùn)練出模型。

今年,AI初創(chuàng)公司refuel推出了一個(gè)名為Autolabel的開(kāi)源工具,可以使用市面上主流的大模型來(lái)對(duì)數(shù)據(jù)集進(jìn)行標(biāo)注。該公司的測(cè)試結(jié)果稱,Autolabel的標(biāo)注效率相比人工標(biāo)注提高了100倍,成本僅為人工成本的1/7。

在國(guó)內(nèi),一家名為視智未來(lái)的公司也在打造標(biāo)注大模型。他們?cè)诮邮懿稍L時(shí)表示,有些項(xiàng)目已經(jīng)用GPT交付了,準(zhǔn)確率方面達(dá)到了80%多,與人工接近。

不過(guò),海天瑞聲認(rèn)為,AI一定不會(huì)實(shí)現(xiàn)完全的自動(dòng)化標(biāo)注,因?yàn)闄C(jī)器如果想要持續(xù)演進(jìn),使其更接近于人類的判斷和理解,就一定需要人類作為引導(dǎo)。

幾乎所有從事過(guò)數(shù)據(jù)標(biāo)注的人員,都向Tech星球透露著同一個(gè)觀點(diǎn):數(shù)據(jù)標(biāo)注是一個(gè)沒(méi)有門檻的工作,只需要你熟練使用電腦即可。

但事實(shí)上,如果簡(jiǎn)單的標(biāo)注可以用AI來(lái)完成,那么人工參與的將是難度更高的數(shù)據(jù)篩選和標(biāo)準(zhǔn)工作,這也意味著行業(yè)的門檻將會(huì)不斷提高,尤其是ChatGPT、文心一言類的大語(yǔ)言模型。

作為對(duì)照,早在ChatGPT走紅前,OpenAI就組建十幾位博士生來(lái)“打標(biāo)”。而百度在海口的數(shù)據(jù)標(biāo)注基地?fù)碛袛?shù)百名專職大模型數(shù)據(jù)標(biāo)注師,標(biāo)注師的本科率達(dá)到100%。

這類大語(yǔ)言模型的特點(diǎn)是,標(biāo)注員需要具備一定的知識(shí)儲(chǔ)備和邏輯分析能力。根據(jù)《財(cái)經(jīng)十一人》報(bào)道,標(biāo)注師們需要判斷問(wèn)題類型,隨后給5個(gè)回答分別打分并排序,分?jǐn)?shù)區(qū)間為0-5分,如果打分低于3分,還要標(biāo)注出具體原因,例如“答非所問(wèn)(0分)”、“嚴(yán)重跑題(1分)”、“存在邏輯問(wèn)題,存在事實(shí)性錯(cuò)誤,比例較小給2分”等。

數(shù)據(jù)標(biāo)注的另一個(gè)熱門領(lǐng)域是自動(dòng)駕駛。據(jù)德勤的報(bào)告顯示,2022年自動(dòng)駕駛領(lǐng)域的標(biāo)注需求占整個(gè)AI下游應(yīng)用的38%,預(yù)計(jì)到2027年,比例將上漲到52%。相較于大語(yǔ)言模型,對(duì)于自動(dòng)駕駛領(lǐng)域的模型而言,那些簡(jiǎn)單的拉框操作依然有著較為寬松的學(xué)歷要求。

標(biāo)注員們是人類從移動(dòng)互聯(lián)網(wǎng)時(shí)代到人工智能時(shí)代的基石,Tech星球接觸到的大部分從業(yè)者大多不清楚AI將帶給他們那些改變,也不知道他們?yōu)榱薃I的發(fā)展做出的貢獻(xiàn),他們只是互聯(lián)網(wǎng)時(shí)代的新一代螺絲釘,而且隨時(shí)可能被替代。

(備注:文中人物皆為化名。)

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請(qǐng)聯(lián)系原著作權(quán)人。

評(píng)論

暫無(wú)評(píng)論哦,快來(lái)評(píng)價(jià)一下吧!

下載界面新聞

微信公眾號(hào)

微博

AI大模型折疊:數(shù)據(jù)標(biāo)注“民工”月入不過(guò)5000,單價(jià)從5毛降到4分

隨時(shí)可能被替代的流水線“螺絲釘”。

文|Tech星球  王琳

鄭雯至今記得幾個(gè)月的下午,那天,她一個(gè)小時(shí)就賺了2毛錢。她畢業(yè)于湖南的一所??茖W(xué)校,是一名大模型數(shù)據(jù)標(biāo)注師,每天的工作并不復(fù)雜——給自己領(lǐng)取的原始數(shù)據(jù)(如圖像、視頻、文本等)添加標(biāo)簽。

但大模型對(duì)于數(shù)據(jù)的質(zhì)量要求很高,那天當(dāng)時(shí)一張圖片被要求反復(fù)修改了8次才通過(guò),整個(gè)修改過(guò)程花費(fèi)了一個(gè)1小時(shí)。也就是說(shuō),她這一個(gè)小時(shí)只賺了2毛錢,而正常情況下可以賺到12塊,可以拉600個(gè)框?!板X并不好賺”,她反復(fù)強(qiáng)調(diào)。

這幾乎是所有數(shù)據(jù)標(biāo)注從業(yè)者的共識(shí)。數(shù)據(jù)標(biāo)注的一端承載著從業(yè)者們不足5000元的月薪,他們?nèi)缥浵佇郾銟?gòu)建起大模型的基石。而另一端則是互聯(lián)網(wǎng)大廠們的AI夢(mèng)想,他們希望借此超越Chat GPT 4。

數(shù)據(jù)標(biāo)注采用最原始的計(jì)件制算工資,并不存在職場(chǎng)上的勾心斗角。唯一的苦惱這份過(guò)于枯燥的工作,讓他們中的大部分很難堅(jiān)持完3個(gè)月。并且,幾乎所有人都告訴Tech星球,你最好別去。

可他們不知道的是,要不了多久,他們中的大部分可能會(huì)失去這份枯燥的工作。因?yàn)?,那些?jiǎn)單的數(shù)據(jù)標(biāo)注將會(huì)被AI取代。

從5毛到4分,價(jià)格暴跌

林雙在2017年賺到了一筆“快錢”:15天6000多元。對(duì)于??飘厴I(yè)的林雙來(lái)說(shuō),這個(gè)收入著實(shí)可觀。那是人們對(duì)AI期望爆棚的時(shí)候,幾乎沒(méi)有人懷疑過(guò)它的未來(lái),所有的投資機(jī)構(gòu)都堅(jiān)信這里可以誕生十億、百億甚至千億規(guī)模的企業(yè)。

幾乎所有AI技術(shù)的背后都是算法、算力、算據(jù)的競(jìng)爭(zhēng),龐大的數(shù)據(jù)是技術(shù)優(yōu)劣的底層。背景光鮮的程序員們坐在“北上廣”的辦公室里,通過(guò)代碼迭代算法描繪AI藍(lán)圖,而大專生、寶媽等在三四線城市的格子間處理龐大數(shù)據(jù)包中的圖片、文字、語(yǔ)音等。

ChatGPT也不例外。一位百度文心一言項(xiàng)目組的員工稱,大模型本身并沒(méi)有什么新技術(shù),也沒(méi)有太高的技術(shù)壁壘,關(guān)鍵的問(wèn)題是算力壁壘形成的參數(shù)壁壘。

大模型時(shí)代的數(shù)據(jù)標(biāo)注員和以前的也并沒(méi)有特別大區(qū)別,為數(shù)不多的差距可能是更加舒適的辦公環(huán)境和對(duì)標(biāo)注質(zhì)量的更高要求。一位數(shù)據(jù)標(biāo)注的從業(yè)者向Tech星球介紹,一般剛剛?cè)胄袝r(shí),他們會(huì)組建一個(gè)10人左右的團(tuán)隊(duì),這其中有一個(gè)人承擔(dān)質(zhì)檢工作,如果不合格,就要員工打回去重做。而數(shù)據(jù)的質(zhì)量則決定著大模型的優(yōu)劣。

數(shù)據(jù)民工們也并不關(guān)心,AI技術(shù)又有什么新的分支,他們更在意的是單價(jià),因?yàn)檫@里是計(jì)件算工資。

“那會(huì)兒?jiǎn)蝺r(jià)高的時(shí)候,拉一個(gè)2D框就有1毛多,我最高的時(shí)候干了10多個(gè)小時(shí),一天就賺了600多元”,林雙回憶道。不過(guò),這不是最高的,一位標(biāo)注人員稱,早期2D拉框的價(jià)格最高能達(dá)到5毛錢。

拉框是數(shù)據(jù)標(biāo)注中常見(jiàn)的一種操作,標(biāo)注員根據(jù)要求對(duì)圖片中的物體,如車輛、紅路燈、障礙物等畫框標(biāo)注。拉框分為2D和3D,后者的價(jià)格會(huì)更貴一些。

但這種熱度并沒(méi)有持續(xù)多少,伴隨著越來(lái)越多人涌入以及AI行業(yè)整體發(fā)展的不夠順利,標(biāo)注一個(gè)圖片的單價(jià)越來(lái)越低,林雙稱現(xiàn)在最低的只有4分錢。

“如果是拉框,行業(yè)的平均單價(jià)是在0.15元左右,但還是要看項(xiàng)目,如果自己可以接到單,接到一手單的最低要求應(yīng)該是100個(gè)入職員工,那規(guī)模挺大,3D的框有可能達(dá)到3毛錢一個(gè),不過(guò)很少可以有達(dá)到5毛的。”

當(dāng)然,如果你本身具備醫(yī)療、金融方面的專業(yè)知識(shí),那么單價(jià)則會(huì)更高。比如,很多醫(yī)療大模型會(huì)要求標(biāo)注員有是臨床專業(yè),且有相關(guān)從業(yè)經(jīng)驗(yàn)。

大部分從業(yè)者每個(gè)月的收入都不過(guò)5000元,其中也不乏少數(shù)的幸運(yùn)兒。楊碩本來(lái)在四川經(jīng)營(yíng)一家服裝店,但疫情影響了他的生意,他在今年轉(zhuǎn)型做大模型數(shù)據(jù)標(biāo)注,現(xiàn)在,他每個(gè)月有8000元收入,“我是和公司簽了合同,交了9500元的加盟費(fèi),合同里寫著每個(gè)月最低收益是7000元。”

究竟誰(shuí)賺到了錢

阿里、騰訊、字節(jié)這樣的互聯(lián)網(wǎng)大廠,以及上汽、領(lǐng)克等車企是數(shù)據(jù)標(biāo)注業(yè)務(wù)分發(fā)的源頭,想要以最好的價(jià)格直接從源頭獲取訂單,數(shù)據(jù)標(biāo)注公司們需要具備一定的規(guī)模。

一位數(shù)據(jù)標(biāo)注公司員工對(duì)Tech星球稱,他們直接從大廠拿到訂單,但是大廠要求他們得有500人,因此他們會(huì)選擇通過(guò)加盟或者子公司的方式來(lái)達(dá)到人員要求。

二者的區(qū)別是加盟適用于初入行的人組建工作室,如果要成立子公司,一般一個(gè)區(qū)域就只有一家。小白工作室需要收加盟費(fèi),2.5萬(wàn)或者3萬(wàn)。子公司是一個(gè)區(qū)域的獨(dú)家代理商,需要繳納5萬(wàn)費(fèi)用。而他們可以三年以內(nèi)保證訂單的充足,并負(fù)責(zé)3年內(nèi)的技術(shù)培訓(xùn),這些工作室或者子公司們組成一個(gè)大的工會(huì),幾百到幾千不等。

上述數(shù)據(jù)標(biāo)注公司員工稱,大模型的火熱再次將數(shù)據(jù)標(biāo)注行業(yè)推上熱潮,現(xiàn)在幾乎每天都有人去他們公司拜訪。

但事實(shí)上,經(jīng)營(yíng)一個(gè)數(shù)據(jù)標(biāo)注公司并不容易。數(shù)據(jù)標(biāo)注公司告訴你的是,這個(gè)行業(yè)前1到2個(gè)月比較難做,因?yàn)閱T工需要爬坡期,前期只需要5-8個(gè)人就夠了,40多歲的阿姨都沒(méi)有問(wèn)題的。

穩(wěn)定是數(shù)據(jù)標(biāo)注公司或者工作室最重要的因素。但是Tech星球接觸的大部分標(biāo)注員工往往都因?yàn)榭菰餆o(wú)趣在3個(gè)月內(nèi)“光速”離職,新員工并不是馬上可以到崗實(shí)操,人員流動(dòng)性大的結(jié)果就是數(shù)據(jù)標(biāo)注的質(zhì)量和周期不夠穩(wěn)定。缺錢的寶媽是數(shù)據(jù)標(biāo)注工作室最喜歡招納的人群。

“找兼職肯定不行的,會(huì)有空檔期,房租和電腦投入了,會(huì)虧錢,最好的方式是全員坐班”,開(kāi)過(guò)數(shù)據(jù)標(biāo)注工作室的人魏銘向Tech星球介紹。

大部分?jǐn)?shù)據(jù)標(biāo)注公司的回款周期是3個(gè)月起步,最多半年,但他們需要以月付的方式給員工工資,這需要一定程度的資金儲(chǔ)備,“一個(gè)人3500,100個(gè)人,3個(gè)月就是105萬(wàn)?!?/p>

張建曾經(jīng)加入過(guò)一個(gè)又200多號(hào)員工的工會(huì)。第一年,他們趕上行業(yè)的爆發(fā)期,2D拉框的單價(jià)高達(dá)5毛,那一年他所在的工會(huì)賺了400多萬(wàn)。

但是第二年,行情急轉(zhuǎn)直下。標(biāo)注的單價(jià)變低,員工的流動(dòng)性更快,空檔期增加,再加上兩個(gè)大項(xiàng)目都沒(méi)有結(jié)算,一整年過(guò)去,他們虧了300多萬(wàn)?!袄习宥颊f(shuō)短時(shí)間內(nèi)堅(jiān)決不碰數(shù)據(jù)標(biāo)注”,張建表示,“他們現(xiàn)在正在和上游打官司?!?/p>

這是利潤(rùn)微薄的生意。海天瑞聲是目前數(shù)據(jù)標(biāo)注行業(yè)內(nèi)首家主板上市公司,去年這家公司有2.63億元營(yíng)收,利潤(rùn)只有2945萬(wàn)元,凈利潤(rùn)率剛剛超過(guò)10%。但今年上半年,由于客戶數(shù)量減少,這家公司便陷入了虧損。

隨時(shí)可能被替代的“螺絲釘”

依靠著肯尼亞工人螞蟻搬家式的積累,最終OpenAI的語(yǔ)言對(duì)話大模型能力脫穎而出。這些被稱為數(shù)據(jù)民工的普通人支撐起了山姆·奧特曼(OpenAI創(chuàng)始人)的AI夢(mèng),但如果不出意外,他們手中的大部分工作,很快就會(huì)被自己參與創(chuàng)造的新產(chǎn)品所取代。

在國(guó)外,Open AI 前員工于2021年成立的Anthropic今年已經(jīng)融資51.5億美元,是其過(guò)去兩年融資總額的7倍還多。這家公司提供了一種新的方法,可在較少人工參與的情況下,便訓(xùn)練出模型。

今年,AI初創(chuàng)公司refuel推出了一個(gè)名為Autolabel的開(kāi)源工具,可以使用市面上主流的大模型來(lái)對(duì)數(shù)據(jù)集進(jìn)行標(biāo)注。該公司的測(cè)試結(jié)果稱,Autolabel的標(biāo)注效率相比人工標(biāo)注提高了100倍,成本僅為人工成本的1/7。

在國(guó)內(nèi),一家名為視智未來(lái)的公司也在打造標(biāo)注大模型。他們?cè)诮邮懿稍L時(shí)表示,有些項(xiàng)目已經(jīng)用GPT交付了,準(zhǔn)確率方面達(dá)到了80%多,與人工接近。

不過(guò),海天瑞聲認(rèn)為,AI一定不會(huì)實(shí)現(xiàn)完全的自動(dòng)化標(biāo)注,因?yàn)闄C(jī)器如果想要持續(xù)演進(jìn),使其更接近于人類的判斷和理解,就一定需要人類作為引導(dǎo)。

幾乎所有從事過(guò)數(shù)據(jù)標(biāo)注的人員,都向Tech星球透露著同一個(gè)觀點(diǎn):數(shù)據(jù)標(biāo)注是一個(gè)沒(méi)有門檻的工作,只需要你熟練使用電腦即可。

但事實(shí)上,如果簡(jiǎn)單的標(biāo)注可以用AI來(lái)完成,那么人工參與的將是難度更高的數(shù)據(jù)篩選和標(biāo)準(zhǔn)工作,這也意味著行業(yè)的門檻將會(huì)不斷提高,尤其是ChatGPT、文心一言類的大語(yǔ)言模型。

作為對(duì)照,早在ChatGPT走紅前,OpenAI就組建十幾位博士生來(lái)“打標(biāo)”。而百度在??诘臄?shù)據(jù)標(biāo)注基地?fù)碛袛?shù)百名專職大模型數(shù)據(jù)標(biāo)注師,標(biāo)注師的本科率達(dá)到100%。

這類大語(yǔ)言模型的特點(diǎn)是,標(biāo)注員需要具備一定的知識(shí)儲(chǔ)備和邏輯分析能力。根據(jù)《財(cái)經(jīng)十一人》報(bào)道,標(biāo)注師們需要判斷問(wèn)題類型,隨后給5個(gè)回答分別打分并排序,分?jǐn)?shù)區(qū)間為0-5分,如果打分低于3分,還要標(biāo)注出具體原因,例如“答非所問(wèn)(0分)”、“嚴(yán)重跑題(1分)”、“存在邏輯問(wèn)題,存在事實(shí)性錯(cuò)誤,比例較小給2分”等。

數(shù)據(jù)標(biāo)注的另一個(gè)熱門領(lǐng)域是自動(dòng)駕駛。據(jù)德勤的報(bào)告顯示,2022年自動(dòng)駕駛領(lǐng)域的標(biāo)注需求占整個(gè)AI下游應(yīng)用的38%,預(yù)計(jì)到2027年,比例將上漲到52%。相較于大語(yǔ)言模型,對(duì)于自動(dòng)駕駛領(lǐng)域的模型而言,那些簡(jiǎn)單的拉框操作依然有著較為寬松的學(xué)歷要求。

標(biāo)注員們是人類從移動(dòng)互聯(lián)網(wǎng)時(shí)代到人工智能時(shí)代的基石,Tech星球接觸到的大部分從業(yè)者大多不清楚AI將帶給他們那些改變,也不知道他們?yōu)榱薃I的發(fā)展做出的貢獻(xiàn),他們只是互聯(lián)網(wǎng)時(shí)代的新一代螺絲釘,而且隨時(shí)可能被替代。

(備注:文中人物皆為化名。)

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請(qǐng)聯(lián)系原著作權(quán)人。