文|真故研究室 林秋藝
編輯|龔 正
今年5月,24歲的張娟開始做大模型數(shù)據(jù)標注的工作。她是甘肅積石山縣的一位95后,大專畢業(yè)。
積石山縣位于甘肅西南部與青海的交界處,經(jīng)濟欠發(fā)達。2022年,該縣城鎮(zhèn)居民人均可支配收入為26258.5元/年,每月平均才2188.2元,農(nóng)村就更低。但做數(shù)據(jù)標注的張娟,月薪平均已到7000元,時而上萬。
大模型數(shù)據(jù)標注是國內(nèi)今年一個熱門職業(yè)。它的工作內(nèi)容是,人們?yōu)槿f事萬物打上標簽,AI通過標簽來進行深度學習,從而訓練自己的智能。數(shù)據(jù)標注工,做的就是打標簽的工作。
一些簡單的標注,技術(shù)含量不會那么高。比如張娟做的就是標注照片中是否包含鳥類或者汽車、錄音中有哪些詞的發(fā)音等等,大專畢業(yè)的她完全能勝任。
畢業(yè)后的張娟本來先是入職了蘭州一家測繪公司,但由于心里牽掛母親和年邁的爺爺奶奶,加上測繪經(jīng)常要到野外作業(yè),她覺得并不適合自己,更想回到家鄉(xiāng)工作。
但老家的工作機會,除了考公就是服務業(yè),工資不高,張娟很猶豫。直到遇到數(shù)據(jù)標注工作,它屬于AI行業(yè)的一種新崗位,既解決了年輕人賺錢儲蓄的心理,也能夠照顧家里。
向積石山縣這樣經(jīng)濟不發(fā)達地區(qū),發(fā)包AI標注的是遠在杭州的螞蟻集團。今年,隨著大模型熱潮,中國包括阿里、百度、騰訊、字節(jié)在內(nèi)的互聯(lián)網(wǎng)大廠紛紛投入這個被稱為“移動互聯(lián)網(wǎng)時代最后一個機會”的領(lǐng)域。
螞蟻相關(guān)負責人告訴《真故研究室》,做這樣的發(fā)包,本質(zhì)是一個與地方政府合作的名為“數(shù)字木蘭|AI豆計劃”的公益項目。螞蟻在集團內(nèi)部勻出部分工作需求,與欠發(fā)達地區(qū)進行合作,希望讓新技術(shù)普惠到更廣泛的人群。
若追溯數(shù)據(jù)標注工種的誕生,并不是今年才開始,而是可以追到2011年。當年,隨著大數(shù)據(jù)、云計算、互聯(lián)網(wǎng)和物聯(lián)網(wǎng)等信息技術(shù)發(fā)展,針對AI的數(shù)據(jù)標注外包市場隨之開啟,2017年數(shù)據(jù)標注市場進入爆發(fā)階段。
而今年對話大模型的爆火,使得數(shù)據(jù)標注員的需求量節(jié)節(jié)攀升,人才供需缺口被迅速放大,這一職業(yè)逐漸被人們所熟知。
一些原本對AI搶自身工作很擔憂的人們,這才逐漸認識到,AI也在創(chuàng)造新工作。當然自己到底是受益方、還是受損方,不同立場的人們有不同的利益計算。
和螞蟻集團偏公益的操作不同,在大模型領(lǐng)域迅猛發(fā)展的百度,在聚焦技術(shù)研發(fā)的同時,也在聯(lián)合各大高校,通過產(chǎn)學研共建的方法培養(yǎng)大模型領(lǐng)域、更具專業(yè)度的人才,并致力于為大學生們增加職業(yè)選擇路徑。
6月28日,百度聯(lián)合廣西科技大學舉辦的“500萬AI人才培養(yǎng)計劃”系列活動——大數(shù)據(jù)標注首期訓練營,就在廣西科技大學計算機學院(軟件學院)正式開啟。
雙方具體的合作是,百度通過在該學院開設的《計算思維導論》這門課程中,設置大模型訓練標注實踐環(huán)節(jié),來培養(yǎng)大學新生的數(shù)據(jù)標注能力,讓大學生們有機會理論與實踐相結(jié)合。
廣西科技大學副校長秦小云向《真故研究室》表示,希望通過開設數(shù)據(jù)標注的實踐課程,培養(yǎng)本校學生的在大模型方面更高階的思維,打好專業(yè)基礎,為其增加能貫穿職業(yè)發(fā)展與晉升路徑的能力模型,提高就業(yè)競爭力。
部分學生在訪談中透露,自己的心儀工作崗位是算法工程師、建模工程師這類傳統(tǒng)工作崗位,但隨著AI的不斷發(fā)展,數(shù)據(jù)標注的能力或?qū)⒃诰蜆I(yè)市場中越來越被看重,且未來還能依靠專業(yè)學歷與實踐能力不斷進階?!跋M芙鑼W校與百度開設的這門實踐課,為自己的職業(yè)生涯增添砝碼?!?/p>
AI給普通人帶來機會,不只發(fā)生在中國,在國際上也正在進行一些國際分工。
Open AI的一家外包數(shù)據(jù)標注公司Sama,員工就來自烏干達、肯尼亞、印度等工資水平相對較低的國家。
在肯尼亞,Sama最初級的數(shù)據(jù)標注員每月工資有2.1萬肯尼亞先令(約合1057元),雖然低于國內(nèi)數(shù)據(jù)標注員的工資水平,但無疑對人均GDP只有2000美元的當?shù)囟裕@工作不算差。
同時,數(shù)據(jù)標注也給聰明人帶來了新的創(chuàng)業(yè)機會。
如Open AI的另一家外包數(shù)據(jù)標注公司Scale AI(提供數(shù)據(jù)標注服務的公司,創(chuàng)始人為華裔Alexandr Wang ),位于舊金山,靠承包數(shù)據(jù)標注這一工作起家和得勢,估值已達73億美元。
值得關(guān)注的是,該公司比較推行讓AI給AI標注數(shù)據(jù),也就是自動化標注。這給人們又帶來了另一層隱憂,即:未來數(shù)據(jù)標注是否會全部由模型代勞,不再需要人工標注工?
目前行業(yè)的判斷是不會,認為沒有任何數(shù)據(jù)標注公司、能夠完全擺脫人工參與,畢竟AI沒辦法識別它沒見過的東西。
綜合種種,從數(shù)據(jù)標注的行業(yè)現(xiàn)狀來看,該行業(yè)還能出現(xiàn)外包企業(yè)的創(chuàng)業(yè)機會。
廣西科技大學計算機學院院長李春貴判斷,國內(nèi)的數(shù)據(jù)標注行業(yè)將會涌現(xiàn)大批初創(chuàng)企業(yè),其中,為科技、醫(yī)學等專業(yè)領(lǐng)域進行數(shù)據(jù)標準的、這樣小而精的公司更有希望在行業(yè)中拔得頭籌。