文|摩登AI 三石
編輯 | 聶風(fēng)
大模型已成兵家必爭之地。
訓(xùn)練模型,最關(guān)鍵的環(huán)節(jié)之一是投喂數(shù)據(jù)。
那么訓(xùn)練AI的數(shù)據(jù)由誰提供,AI成長的養(yǎng)分,又從何而來?
在東西競跑之下,迭代大模型是核心根本,而標(biāo)注中文數(shù)據(jù),同等重要。
01、海量數(shù)據(jù)投喂出的AI
使用英文和其他語言的ChatGPT時,體驗有差別嗎?
有,ChatGPT英文確實比其他語言表現(xiàn)更好。
這種差異除了ChatGPT英文在使用過程中受到的訓(xùn)練更多,同時也要歸功于模型創(chuàng)建時期的資料投喂。
2020年,OpenAI在投喂海量數(shù)據(jù)、更接近人腦的超大基礎(chǔ)模型GPT-3模型上持續(xù)提升,終于在2022年11月,ChatGPT誕生。
ChatGPT足夠智能,是因為它的核心任務(wù)是將一個文本進行合理性延續(xù),即根據(jù)已有的文本,生成一個符合上下文背景和書寫習(xí)慣的合理內(nèi)容。
因此,前期的海量資料投喂與模型訓(xùn)練才是其后期使用過程中最大的差異原因。
據(jù)悉,ChatGPT的大模型數(shù)據(jù)主要來自以下幾方面:
維基百科:ChatGPT使用了英文版維基百科的數(shù)據(jù),包含了超過640萬篇文章,超過40億個詞。
書籍:ChatGPT使用了ProjectGutenberg和BookCorpus的數(shù)據(jù),包含了超過10萬本書籍,超過20億個詞。
期刊:ChatGPT使用了PubMedCentral和arXiv的數(shù)據(jù),包含了超過100萬篇期刊文章,超過10億個詞。
Reddit鏈接:社交媒體網(wǎng)站Reddit上的各種帖子和評論,包含了用戶之間的對話和互動。ChatGPT使用了Reddit的數(shù)據(jù),包含了超過18億條鏈接和評論,超過100億個詞。
CommonCrawl:包含超過31億個網(wǎng)頁內(nèi)容,超過4100億個詞。
其他數(shù)據(jù)集:ChatGPT使用了GitHub的代碼倉庫、WebText2的新聞文章、OpenSubtitles的電影字幕等數(shù)據(jù)。
從ChatGPT資源投喂上可以看出,ChatGPT獲得了更多的英文數(shù)據(jù),大模型訓(xùn)練時,也更多地使用英文,而非中文。
所以,在現(xiàn)實使用過程中,ChatGPT英文將比中文反應(yīng)更快,更智能。反過來,中國大廠創(chuàng)建的人工智能大模型,中文版應(yīng)比英文版反應(yīng)更快,更智能。
據(jù)悉,目前中國大廠創(chuàng)建的人工智能大模型,數(shù)據(jù)投喂資源主要分為三類:
公開數(shù)據(jù)集,如中文維基百科、中文新聞?wù)Z料庫、中文問答語料庫等;自有數(shù)據(jù)集,這些數(shù)據(jù)集是由各個大廠自行收集、整理、標(biāo)注的,包括用戶行為數(shù)據(jù)、搜索引擎數(shù)據(jù)、社交媒體數(shù)據(jù)、電商平臺數(shù)據(jù)等;合作數(shù)據(jù)集,這些數(shù)據(jù)集是由各個大廠與其他機構(gòu)或組織合作獲取的,包括政府部門數(shù)據(jù)、行業(yè)協(xié)會數(shù)據(jù)、科研機構(gòu)數(shù)據(jù)等。
一個人工智能大模型的創(chuàng)建,不僅需要超高的運算能力,也需要海量數(shù)據(jù)投喂和大量的數(shù)據(jù)標(biāo)注員。
02、賽博流水線上的民工
人工智能為什么需要數(shù)據(jù)標(biāo)注員?
在人工智能大模型投入海量的數(shù)據(jù)后,還需要像人一樣,辨別、理解這些數(shù)據(jù),才能成長,成熟,而這個過程離不開數(shù)據(jù)標(biāo)注員。
對于人工智能而言,有標(biāo)簽的數(shù)據(jù)才是有用的數(shù)據(jù)。
例如人臉識別,人工智能本身不會識別物體,只有當(dāng)人臉關(guān)鍵點被一一標(biāo)注之后,計算機才能建立起對人臉的認知。
對數(shù)據(jù)進行標(biāo)注是人工智能的一個必須過程。
可以說,數(shù)據(jù)標(biāo)注員就是人工智能的老師,幫助人工智能成長。那么,數(shù)據(jù)標(biāo)注員每天都如何調(diào)校人工智能呢?
數(shù)據(jù)標(biāo)注員身上的標(biāo)簽是“互聯(lián)網(wǎng)民工”、“賽博流水線”。他們每天的日常工作,就是坐在一間如同初代網(wǎng)吧的屋子里,每天對著電腦劃拉鼠標(biāo)幾千次。不停地對海量數(shù)據(jù)進行清洗、分類、畫框、注釋、標(biāo)記等操作。
他們將大量的文字、語音、圖像打上標(biāo)記,例如“眼珠”、“四川話”、“綠化帶”等。只有被標(biāo)注過的數(shù)據(jù),才能被人工智能模型識別,訓(xùn)練出它的分辨能力。
例如標(biāo)記道路圖片,標(biāo)注道路圖片上的物體名稱、顏色等信息。業(yè)內(nèi)人士稱這種工作位“拉框”。
他們或許并不明白“什么是人工智能”,但卻實實在在是人工智能的老師。
2021年版的《人工智能訓(xùn)練師國家職業(yè)技能標(biāo)準(zhǔn)》中,對該職業(yè)的能力特征描述是“具有一定的學(xué)習(xí)能力、表達能力、計算能力;空間感、色覺正?!保毡槭芙逃潭葘懙氖恰俺踔挟厴I(yè)”。
這意味著,標(biāo)注員是一份幾乎沒有門檻的職業(yè)。
美國《時代》雜志曾發(fā)表過一份調(diào)查,OpenAI為訓(xùn)練ChatGPT使用了非洲肯尼亞外包勞工。
據(jù)悉,肯尼亞首都內(nèi)羅畢有30多名ChatGPT的數(shù)據(jù)標(biāo)注員,他們每天工作9個小時,閱讀150-200段文字。
標(biāo)注員需要從這些文字中標(biāo)注出包含性、暴力與仇恨言論的內(nèi)容,由于每天閱讀大量極具沖擊力的文字,有人會連續(xù)做噩夢。
欠發(fā)達地區(qū)的標(biāo)注員不在少數(shù)。肯尼亞、烏干達和印度,有不少人是谷歌、Meta和微軟等硅谷企業(yè)的數(shù)據(jù)標(biāo)注員。
這些數(shù)據(jù)標(biāo)注員的實得工資約為每小時1.32美元至2美元。這在當(dāng)?shù)匾呀?jīng)算得上中產(chǎn)收入,所以數(shù)據(jù)標(biāo)注員雖然會因工作而做噩夢,但他們并沒有討厭這份工作。
而在BOSS直聘等招聘網(wǎng)站上,數(shù)字標(biāo)注員的公司月工資大都在3K-5K,崗位要求在大專及以上學(xué)歷,專業(yè)不限。在貴州、西安等地的縣城里,數(shù)據(jù)標(biāo)注員的工資僅僅過千。
人工智能快速成長的背后,數(shù)據(jù)標(biāo)注員像一群卑微的工蟻,默默地搬運著過冬的食物。
03、即將被取代的老師
中國的數(shù)據(jù)標(biāo)注公司主要分為兩類,一是人工智能公司內(nèi)部的標(biāo)注公司,二是商務(wù)流程外包公司。
大廠內(nèi)部標(biāo)注公司有京東的京東眾智,百度的百度眾測,網(wǎng)易的網(wǎng)易有數(shù),阿里的阿里數(shù)據(jù)標(biāo)注、騰訊的騰訊數(shù)據(jù)標(biāo)注,這些大廠都已經(jīng)擁有自己的標(biāo)注平臺和工具。
其他新興的國內(nèi)數(shù)據(jù)標(biāo)注公司,有龍貓數(shù)據(jù)、Testin云測、倍賽BasicFinder、數(shù)據(jù)堂等,這些公司都具有相當(dāng)?shù)囊?guī)模。
截至2021年初,數(shù)據(jù)標(biāo)注企業(yè)分布的top5城市是:北京185家,上海84家,成都68家,深圳63家,杭州46家。
這5個城市都是人工智能技術(shù)發(fā)展和應(yīng)用的重要區(qū)域,擁有大量的需求方和合作伙伴,同時擁有較為完善的政策支持和產(chǎn)業(yè)環(huán)境。
此外,新疆和田、山西太原、山東濟南、河北保定、安徽合肥等地的數(shù)據(jù)標(biāo)注產(chǎn)業(yè)都在不斷成長。
貴州是全國首個大數(shù)據(jù)綜合試驗區(qū),而惠水縣百鳥河數(shù)字小鎮(zhèn)也則是貴州首個縣級大數(shù)據(jù)產(chǎn)業(yè)園區(qū)。
目前,百鳥河數(shù)字小鎮(zhèn)已培育了迦太利華、金百合、黔南即富、夢動科技、金信大數(shù)據(jù)等重點企業(yè)。
其中,貴州夢動科技員工超過500人,其中的一半人,是附近盛華職業(yè)學(xué)院的學(xué)生。該公司曾入選2020全國數(shù)據(jù)標(biāo)注公司排行榜前10強。
鄭成安是一名大三在校學(xué)生,目前在夢動科技實習(xí),公司全職員工只有十多人,管理層大都是學(xué)校里的老師,對他而言上課就是上班,老師就是經(jīng)理。
鄭成安出身農(nóng)村,上高職前沒碰過電腦,現(xiàn)在憑借電腦前的兼職,一個月能拿到1500元以上的收入,他感到非常滿足。
有時候,他為了多掙一些生活費,碰上緊急的項目,會主動加班。但鄭成安很清楚,標(biāo)注員的工作很難一直做下去。
2022年6月,美國加州圣馬特奧縣的特斯拉辦公室,200員工被裁員,其中大多數(shù)都是數(shù)據(jù)標(biāo)注員。
裁員背后,是因為特斯拉正在研發(fā)計算機Dojo,采用自監(jiān)督學(xué)習(xí)技術(shù),用于訓(xùn)練人工智能模型,對數(shù)據(jù)標(biāo)注的需求正越來越低。
不僅如此,國內(nèi)騰訊、阿里、字節(jié)跳動等一眾大廠都在研發(fā)自監(jiān)督學(xué)習(xí)技術(shù)。
可以說,隨著人工智能的不斷成長,數(shù)據(jù)標(biāo)注員的工作,也變得岌岌可危。這些曾經(jīng)教會了人工智能“思考”的人,同樣正面臨被人工智能取代的風(fēng)險。