huangshuo.com,亚洲av永久无码精品表情包

文｜摩登AI 三石

編輯 | 聶風(fēng)

大模型已成兵家必爭(zhēng)之地。

訓(xùn)練模型，最關(guān)鍵的環(huán)節(jié)之一是投喂數(shù)據(jù)。

那么訓(xùn)練AI的數(shù)據(jù)由誰(shuí)提供，AI成長(zhǎng)的養(yǎng)分，又從何而來(lái)？

在東西競(jìng)跑之下，迭代大模型是核心根本，而標(biāo)注中文數(shù)據(jù)，同等重要。

01、海量數(shù)據(jù)投喂出的AI

使用英文和其他語(yǔ)言的ChatGPT時(shí)，體驗(yàn)有差別嗎？

有，ChatGPT英文確實(shí)比其他語(yǔ)言表現(xiàn)更好。

這種差異除了ChatGPT英文在使用過(guò)程中受到的訓(xùn)練更多，同時(shí)也要?dú)w功于模型創(chuàng)建時(shí)期的資料投喂。

2020年，OpenAI在投喂海量數(shù)據(jù)、更接近人腦的超大基礎(chǔ)模型GPT-3模型上持續(xù)提升，終于在2022年11月，ChatGPT誕生。

ChatGPT足夠智能，是因?yàn)樗暮诵娜蝿?wù)是將一個(gè)文本進(jìn)行合理性延續(xù)，即根據(jù)已有的文本，生成一個(gè)符合上下文背景和書(shū)寫(xiě)習(xí)慣的合理內(nèi)容。

因此，前期的海量資料投喂與模型訓(xùn)練才是其后期使用過(guò)程中最大的差異原因。

據(jù)悉，ChatGPT的大模型數(shù)據(jù)主要來(lái)自以下幾方面：

維基百科：ChatGPT使用了英文版維基百科的數(shù)據(jù)，包含了超過(guò)640萬(wàn)篇文章，超過(guò)40億個(gè)詞。

書(shū)籍：ChatGPT使用了ProjectGutenberg和BookCorpus的數(shù)據(jù)，包含了超過(guò)10萬(wàn)本書(shū)籍，超過(guò)20億個(gè)詞。

期刊：ChatGPT使用了PubMedCentral和arXiv的數(shù)據(jù)，包含了超過(guò)100萬(wàn)篇期刊文章，超過(guò)10億個(gè)詞。

Reddit鏈接：社交媒體網(wǎng)站Reddit上的各種帖子和評(píng)論，包含了用戶之間的對(duì)話和互動(dòng)。ChatGPT使用了Reddit的數(shù)據(jù)，包含了超過(guò)18億條鏈接和評(píng)論，超過(guò)100億個(gè)詞。

CommonCrawl：包含超過(guò)31億個(gè)網(wǎng)頁(yè)內(nèi)容，超過(guò)4100億個(gè)詞。

其他數(shù)據(jù)集：ChatGPT使用了GitHub的代碼倉(cāng)庫(kù)、WebText2的新聞文章、OpenSubtitles的電影字幕等數(shù)據(jù)。

從ChatGPT資源投喂上可以看出，ChatGPT獲得了更多的英文數(shù)據(jù)，大模型訓(xùn)練時(shí)，也更多地使用英文，而非中文。

所以，在現(xiàn)實(shí)使用過(guò)程中，ChatGPT英文將比中文反應(yīng)更快，更智能。反過(guò)來(lái)，中國(guó)大廠創(chuàng)建的人工智能大模型，中文版應(yīng)比英文版反應(yīng)更快，更智能。

據(jù)悉，目前中國(guó)大廠創(chuàng)建的人工智能大模型，數(shù)據(jù)投喂資源主要分為三類(lèi)：

公開(kāi)數(shù)據(jù)集，如中文維基百科、中文新聞?wù)Z料庫(kù)、中文問(wèn)答語(yǔ)料庫(kù)等；自有數(shù)據(jù)集，這些數(shù)據(jù)集是由各個(gè)大廠自行收集、整理、標(biāo)注的，包括用戶行為數(shù)據(jù)、搜索引擎數(shù)據(jù)、社交媒體數(shù)據(jù)、電商平臺(tái)數(shù)據(jù)等；合作數(shù)據(jù)集，這些數(shù)據(jù)集是由各個(gè)大廠與其他機(jī)構(gòu)或組織合作獲取的，包括政府部門(mén)數(shù)據(jù)、行業(yè)協(xié)會(huì)數(shù)據(jù)、科研機(jī)構(gòu)數(shù)據(jù)等。

一個(gè)人工智能大模型的創(chuàng)建，不僅需要超高的運(yùn)算能力，也需要海量數(shù)據(jù)投喂和大量的數(shù)據(jù)標(biāo)注員。

02、賽博流水線上的民工

人工智能為什么需要數(shù)據(jù)標(biāo)注員？

在人工智能大模型投入海量的數(shù)據(jù)后，還需要像人一樣，辨別、理解這些數(shù)據(jù)，才能成長(zhǎng)，成熟，而這個(gè)過(guò)程離不開(kāi)數(shù)據(jù)標(biāo)注員。

對(duì)于人工智能而言，有標(biāo)簽的數(shù)據(jù)才是有用的數(shù)據(jù)。

例如人臉識(shí)別，人工智能本身不會(huì)識(shí)別物體，只有當(dāng)人臉關(guān)鍵點(diǎn)被一一標(biāo)注之后，計(jì)算機(jī)才能建立起對(duì)人臉的認(rèn)知。

對(duì)數(shù)據(jù)進(jìn)行標(biāo)注是人工智能的一個(gè)必須過(guò)程。

可以說(shuō)，數(shù)據(jù)標(biāo)注員就是人工智能的老師，幫助人工智能成長(zhǎng)。那么，數(shù)據(jù)標(biāo)注員每天都如何調(diào)校人工智能呢？

數(shù)據(jù)標(biāo)注員身上的標(biāo)簽是“互聯(lián)網(wǎng)民工”、“賽博流水線”。他們每天的日常工作，就是坐在一間如同初代網(wǎng)吧的屋子里，每天對(duì)著電腦劃拉鼠標(biāo)幾千次。不停地對(duì)海量數(shù)據(jù)進(jìn)行清洗、分類(lèi)、畫(huà)框、注釋、標(biāo)記等操作。

他們將大量的文字、語(yǔ)音、圖像打上標(biāo)記，例如“眼珠”、“四川話”、“綠化帶”等。只有被標(biāo)注過(guò)的數(shù)據(jù)，才能被人工智能模型識(shí)別，訓(xùn)練出它的分辨能力。

例如標(biāo)記道路圖片，標(biāo)注道路圖片上的物體名稱(chēng)、顏色等信息。業(yè)內(nèi)人士稱(chēng)這種工作位“拉框”。

他們或許并不明白“什么是人工智能”，但卻實(shí)實(shí)在在是人工智能的老師。

2021年版的《人工智能訓(xùn)練師國(guó)家職業(yè)技能標(biāo)準(zhǔn)》中，對(duì)該職業(yè)的能力特征描述是“具有一定的學(xué)習(xí)能力、表達(dá)能力、計(jì)算能力；空間感、色覺(jué)正?！?，普遍受教育程度寫(xiě)的是“初中畢業(yè)”。

這意味著，標(biāo)注員是一份幾乎沒(méi)有門(mén)檻的職業(yè)。

美國(guó)《時(shí)代》雜志曾發(fā)表過(guò)一份調(diào)查，OpenAI為訓(xùn)練ChatGPT使用了非洲肯尼亞外包勞工。

據(jù)悉，肯尼亞首都內(nèi)羅畢有30多名ChatGPT的數(shù)據(jù)標(biāo)注員，他們每天工作9個(gè)小時(shí)，閱讀150-200段文字。

標(biāo)注員需要從這些文字中標(biāo)注出包含性、暴力與仇恨言論的內(nèi)容，由于每天閱讀大量極具沖擊力的文字，有人會(huì)連續(xù)做噩夢(mèng)。

欠發(fā)達(dá)地區(qū)的標(biāo)注員不在少數(shù)?？夏醽啞醺蛇_(dá)和印度，有不少人是谷歌、Meta和微軟等硅谷企業(yè)的數(shù)據(jù)標(biāo)注員。

這些數(shù)據(jù)標(biāo)注員的實(shí)得工資約為每小時(shí)1.32美元至2美元。這在當(dāng)?shù)匾呀?jīng)算得上中產(chǎn)收入，所以數(shù)據(jù)標(biāo)注員雖然會(huì)因工作而做噩夢(mèng)，但他們并沒(méi)有討厭這份工作。

而在BOSS直聘等招聘網(wǎng)站上，數(shù)字標(biāo)注員的公司月工資大都在3K-5K，崗位要求在大專(zhuān)及以上學(xué)歷，專(zhuān)業(yè)不限。在貴州、西安等地的縣城里，數(shù)據(jù)標(biāo)注員的工資僅僅過(guò)千。

人工智能快速成長(zhǎng)的背后，數(shù)據(jù)標(biāo)注員像一群卑微的工蟻，默默地搬運(yùn)著過(guò)冬的食物。

03、即將被取代的老師

中國(guó)的數(shù)據(jù)標(biāo)注公司主要分為兩類(lèi)，一是人工智能公司內(nèi)部的標(biāo)注公司，二是商務(wù)流程外包公司。

大廠內(nèi)部標(biāo)注公司有京東的京東眾智，百度的百度眾測(cè)，網(wǎng)易的網(wǎng)易有數(shù)，阿里的阿里數(shù)據(jù)標(biāo)注、騰訊的騰訊數(shù)據(jù)標(biāo)注，這些大廠都已經(jīng)擁有自己的標(biāo)注平臺(tái)和工具。

其他新興的國(guó)內(nèi)數(shù)據(jù)標(biāo)注公司，有龍貓數(shù)據(jù)、Testin云測(cè)、倍賽BasicFinder、數(shù)據(jù)堂等，這些公司都具有相當(dāng)?shù)囊?guī)模。

截至2021年初，數(shù)據(jù)標(biāo)注企業(yè)分布的top5城市是：北京185家，上海84家，成都68家，深圳63家，杭州46家。

這5個(gè)城市都是人工智能技術(shù)發(fā)展和應(yīng)用的重要區(qū)域，擁有大量的需求方和合作伙伴，同時(shí)擁有較為完善的政策支持和產(chǎn)業(yè)環(huán)境。

此外，新疆和田、山西太原、山東濟(jì)南、河北保定、安徽合肥等地的數(shù)據(jù)標(biāo)注產(chǎn)業(yè)都在不斷成長(zhǎng)。

貴州是全國(guó)首個(gè)大數(shù)據(jù)綜合試驗(yàn)區(qū)，而惠水縣百鳥(niǎo)河數(shù)字小鎮(zhèn)也則是貴州首個(gè)縣級(jí)大數(shù)據(jù)產(chǎn)業(yè)園區(qū)。

目前，百鳥(niǎo)河數(shù)字小鎮(zhèn)已培育了迦太利華、金百合、黔南即富、夢(mèng)動(dòng)科技、金信大數(shù)據(jù)等重點(diǎn)企業(yè)。

其中，貴州夢(mèng)動(dòng)科技員工超過(guò)500人，其中的一半人，是附近盛華職業(yè)學(xué)院的學(xué)生。該公司曾入選2020全國(guó)數(shù)據(jù)標(biāo)注公司排行榜前10強(qiáng)。

鄭成安是一名大三在校學(xué)生，目前在夢(mèng)動(dòng)科技實(shí)習(xí)，公司全職員工只有十多人，管理層大都是學(xué)校里的老師，對(duì)他而言上課就是上班，老師就是經(jīng)理。

鄭成安出身農(nóng)村，上高職前沒(méi)碰過(guò)電腦，現(xiàn)在憑借電腦前的兼職，一個(gè)月能拿到1500元以上的收入，他感到非常滿足。

有時(shí)候，他為了多掙一些生活費(fèi)，碰上緊急的項(xiàng)目，會(huì)主動(dòng)加班。但鄭成安很清楚，標(biāo)注員的工作很難一直做下去。

2022年6月，美國(guó)加州圣馬特奧縣的特斯拉辦公室，200員工被裁員，其中大多數(shù)都是數(shù)據(jù)標(biāo)注員。

裁員背后，是因?yàn)樘厮估谘邪l(fā)計(jì)算機(jī)Dojo，采用自監(jiān)督學(xué)習(xí)技術(shù)，用于訓(xùn)練人工智能模型，對(duì)數(shù)據(jù)標(biāo)注的需求正越來(lái)越低。

不僅如此，國(guó)內(nèi)騰訊、阿里、字節(jié)跳動(dòng)等一眾大廠都在研發(fā)自監(jiān)督學(xué)習(xí)技術(shù)。

可以說(shuō)，隨著人工智能的不斷成長(zhǎng)，數(shù)據(jù)標(biāo)注員的工作，也變得岌岌可危。這些曾經(jīng)教會(huì)了人工智能“思考”的人，同樣正面臨被人工智能取代的風(fēng)險(xiǎn)。