正在閱讀:

ChatGPT到底都被投喂了些什么?

掃一掃下載界面新聞APP

ChatGPT到底都被投喂了些什么?

訓(xùn)練AI的數(shù)據(jù)由誰(shuí)提供,AI成長(zhǎng)的養(yǎng)分,又從何而來(lái)?

文|摩登AI 三石

編輯 | 聶風(fēng)

大模型已成兵家必爭(zhēng)之地。

訓(xùn)練模型,最關(guān)鍵的環(huán)節(jié)之一是投喂數(shù)據(jù)。

那么訓(xùn)練AI的數(shù)據(jù)由誰(shuí)提供,AI成長(zhǎng)的養(yǎng)分,又從何而來(lái)?

在東西競(jìng)跑之下,迭代大模型是核心根本,而標(biāo)注中文數(shù)據(jù),同等重要。

01、海量數(shù)據(jù)投喂出的AI

使用英文和其他語(yǔ)言的ChatGPT時(shí),體驗(yàn)有差別嗎?

有,ChatGPT英文確實(shí)比其他語(yǔ)言表現(xiàn)更好。

這種差異除了ChatGPT英文在使用過(guò)程中受到的訓(xùn)練更多,同時(shí)也要?dú)w功于模型創(chuàng)建時(shí)期的資料投喂。

2020年,OpenAI在投喂海量數(shù)據(jù)、更接近人腦的超大基礎(chǔ)模型GPT-3模型上持續(xù)提升,終于在2022年11月,ChatGPT誕生。

ChatGPT足夠智能,是因?yàn)樗暮诵娜蝿?wù)是將一個(gè)文本進(jìn)行合理性延續(xù),即根據(jù)已有的文本,生成一個(gè)符合上下文背景和書(shū)寫(xiě)習(xí)慣的合理內(nèi)容。

因此,前期的海量資料投喂與模型訓(xùn)練才是其后期使用過(guò)程中最大的差異原因。

據(jù)悉,ChatGPT的大模型數(shù)據(jù)主要來(lái)自以下幾方面:

維基百科:ChatGPT使用了英文版維基百科的數(shù)據(jù),包含了超過(guò)640萬(wàn)篇文章,超過(guò)40億個(gè)詞。

書(shū)籍:ChatGPT使用了ProjectGutenberg和BookCorpus的數(shù)據(jù),包含了超過(guò)10萬(wàn)本書(shū)籍,超過(guò)20億個(gè)詞。

期刊:ChatGPT使用了PubMedCentral和arXiv的數(shù)據(jù),包含了超過(guò)100萬(wàn)篇期刊文章,超過(guò)10億個(gè)詞。

Reddit鏈接:社交媒體網(wǎng)站Reddit上的各種帖子和評(píng)論,包含了用戶之間的對(duì)話和互動(dòng)。ChatGPT使用了Reddit的數(shù)據(jù),包含了超過(guò)18億條鏈接和評(píng)論,超過(guò)100億個(gè)詞。

CommonCrawl:包含超過(guò)31億個(gè)網(wǎng)頁(yè)內(nèi)容,超過(guò)4100億個(gè)詞。

其他數(shù)據(jù)集:ChatGPT使用了GitHub的代碼倉(cāng)庫(kù)、WebText2的新聞文章、OpenSubtitles的電影字幕等數(shù)據(jù)。

從ChatGPT資源投喂上可以看出,ChatGPT獲得了更多的英文數(shù)據(jù),大模型訓(xùn)練時(shí),也更多地使用英文,而非中文。

所以,在現(xiàn)實(shí)使用過(guò)程中,ChatGPT英文將比中文反應(yīng)更快,更智能。反過(guò)來(lái),中國(guó)大廠創(chuàng)建的人工智能大模型,中文版應(yīng)比英文版反應(yīng)更快,更智能。

據(jù)悉,目前中國(guó)大廠創(chuàng)建的人工智能大模型,數(shù)據(jù)投喂資源主要分為三類(lèi):

公開(kāi)數(shù)據(jù)集,如中文維基百科、中文新聞?wù)Z料庫(kù)、中文問(wèn)答語(yǔ)料庫(kù)等;自有數(shù)據(jù)集,這些數(shù)據(jù)集是由各個(gè)大廠自行收集、整理、標(biāo)注的,包括用戶行為數(shù)據(jù)、搜索引擎數(shù)據(jù)、社交媒體數(shù)據(jù)、電商平臺(tái)數(shù)據(jù)等;合作數(shù)據(jù)集,這些數(shù)據(jù)集是由各個(gè)大廠與其他機(jī)構(gòu)或組織合作獲取的,包括政府部門(mén)數(shù)據(jù)、行業(yè)協(xié)會(huì)數(shù)據(jù)、科研機(jī)構(gòu)數(shù)據(jù)等。

一個(gè)人工智能大模型的創(chuàng)建,不僅需要超高的運(yùn)算能力,也需要海量數(shù)據(jù)投喂和大量的數(shù)據(jù)標(biāo)注員。

02、賽博流水線上的民工

人工智能為什么需要數(shù)據(jù)標(biāo)注員?

在人工智能大模型投入海量的數(shù)據(jù)后,還需要像人一樣,辨別、理解這些數(shù)據(jù),才能成長(zhǎng),成熟,而這個(gè)過(guò)程離不開(kāi)數(shù)據(jù)標(biāo)注員。

對(duì)于人工智能而言,有標(biāo)簽的數(shù)據(jù)才是有用的數(shù)據(jù)。

例如人臉識(shí)別,人工智能本身不會(huì)識(shí)別物體,只有當(dāng)人臉關(guān)鍵點(diǎn)被一一標(biāo)注之后,計(jì)算機(jī)才能建立起對(duì)人臉的認(rèn)知。

對(duì)數(shù)據(jù)進(jìn)行標(biāo)注是人工智能的一個(gè)必須過(guò)程。

可以說(shuō),數(shù)據(jù)標(biāo)注員就是人工智能的老師,幫助人工智能成長(zhǎng)。那么,數(shù)據(jù)標(biāo)注員每天都如何調(diào)校人工智能呢?

數(shù)據(jù)標(biāo)注員身上的標(biāo)簽是“互聯(lián)網(wǎng)民工”、“賽博流水線”。他們每天的日常工作,就是坐在一間如同初代網(wǎng)吧的屋子里,每天對(duì)著電腦劃拉鼠標(biāo)幾千次。不停地對(duì)海量數(shù)據(jù)進(jìn)行清洗、分類(lèi)、畫(huà)框、注釋、標(biāo)記等操作。

他們將大量的文字、語(yǔ)音、圖像打上標(biāo)記,例如“眼珠”、“四川話”、“綠化帶”等。只有被標(biāo)注過(guò)的數(shù)據(jù),才能被人工智能模型識(shí)別,訓(xùn)練出它的分辨能力。

例如標(biāo)記道路圖片,標(biāo)注道路圖片上的物體名稱(chēng)、顏色等信息。業(yè)內(nèi)人士稱(chēng)這種工作位“拉框”。

他們或許并不明白“什么是人工智能”,但卻實(shí)實(shí)在在是人工智能的老師。

2021年版的《人工智能訓(xùn)練師國(guó)家職業(yè)技能標(biāo)準(zhǔn)》中,對(duì)該職業(yè)的能力特征描述是“具有一定的學(xué)習(xí)能力、表達(dá)能力、計(jì)算能力;空間感、色覺(jué)正?!?,普遍受教育程度寫(xiě)的是“初中畢業(yè)”。

這意味著,標(biāo)注員是一份幾乎沒(méi)有門(mén)檻的職業(yè)。

美國(guó)《時(shí)代》雜志曾發(fā)表過(guò)一份調(diào)查,OpenAI為訓(xùn)練ChatGPT使用了非洲肯尼亞外包勞工。

據(jù)悉,肯尼亞首都內(nèi)羅畢有30多名ChatGPT的數(shù)據(jù)標(biāo)注員,他們每天工作9個(gè)小時(shí),閱讀150-200段文字。

標(biāo)注員需要從這些文字中標(biāo)注出包含性、暴力與仇恨言論的內(nèi)容,由于每天閱讀大量極具沖擊力的文字,有人會(huì)連續(xù)做噩夢(mèng)。

欠發(fā)達(dá)地區(qū)的標(biāo)注員不在少數(shù)??夏醽啞醺蛇_(dá)和印度,有不少人是谷歌、Meta和微軟等硅谷企業(yè)的數(shù)據(jù)標(biāo)注員。

這些數(shù)據(jù)標(biāo)注員的實(shí)得工資約為每小時(shí)1.32美元至2美元。這在當(dāng)?shù)匾呀?jīng)算得上中產(chǎn)收入,所以數(shù)據(jù)標(biāo)注員雖然會(huì)因工作而做噩夢(mèng),但他們并沒(méi)有討厭這份工作。

而在BOSS直聘等招聘網(wǎng)站上,數(shù)字標(biāo)注員的公司月工資大都在3K-5K,崗位要求在大專(zhuān)及以上學(xué)歷,專(zhuān)業(yè)不限。在貴州、西安等地的縣城里,數(shù)據(jù)標(biāo)注員的工資僅僅過(guò)千。

人工智能快速成長(zhǎng)的背后,數(shù)據(jù)標(biāo)注員像一群卑微的工蟻,默默地搬運(yùn)著過(guò)冬的食物。

03、即將被取代的老師

中國(guó)的數(shù)據(jù)標(biāo)注公司主要分為兩類(lèi),一是人工智能公司內(nèi)部的標(biāo)注公司,二是商務(wù)流程外包公司。

大廠內(nèi)部標(biāo)注公司有京東的京東眾智,百度的百度眾測(cè),網(wǎng)易的網(wǎng)易有數(shù),阿里的阿里數(shù)據(jù)標(biāo)注、騰訊的騰訊數(shù)據(jù)標(biāo)注,這些大廠都已經(jīng)擁有自己的標(biāo)注平臺(tái)和工具。

其他新興的國(guó)內(nèi)數(shù)據(jù)標(biāo)注公司,有龍貓數(shù)據(jù)、Testin云測(cè)、倍賽BasicFinder、數(shù)據(jù)堂等,這些公司都具有相當(dāng)?shù)囊?guī)模。

截至2021年初,數(shù)據(jù)標(biāo)注企業(yè)分布的top5城市是:北京185家,上海84家,成都68家,深圳63家,杭州46家。

這5個(gè)城市都是人工智能技術(shù)發(fā)展和應(yīng)用的重要區(qū)域,擁有大量的需求方和合作伙伴,同時(shí)擁有較為完善的政策支持和產(chǎn)業(yè)環(huán)境。

此外,新疆和田、山西太原、山東濟(jì)南、河北保定、安徽合肥等地的數(shù)據(jù)標(biāo)注產(chǎn)業(yè)都在不斷成長(zhǎng)。

貴州是全國(guó)首個(gè)大數(shù)據(jù)綜合試驗(yàn)區(qū),而惠水縣百鳥(niǎo)河數(shù)字小鎮(zhèn)也則是貴州首個(gè)縣級(jí)大數(shù)據(jù)產(chǎn)業(yè)園區(qū)。

目前,百鳥(niǎo)河數(shù)字小鎮(zhèn)已培育了迦太利華、金百合、黔南即富、夢(mèng)動(dòng)科技、金信大數(shù)據(jù)等重點(diǎn)企業(yè)。

其中,貴州夢(mèng)動(dòng)科技員工超過(guò)500人,其中的一半人,是附近盛華職業(yè)學(xué)院的學(xué)生。該公司曾入選2020全國(guó)數(shù)據(jù)標(biāo)注公司排行榜前10強(qiáng)。

鄭成安是一名大三在校學(xué)生,目前在夢(mèng)動(dòng)科技實(shí)習(xí),公司全職員工只有十多人,管理層大都是學(xué)校里的老師,對(duì)他而言上課就是上班,老師就是經(jīng)理。

鄭成安出身農(nóng)村,上高職前沒(méi)碰過(guò)電腦,現(xiàn)在憑借電腦前的兼職,一個(gè)月能拿到1500元以上的收入,他感到非常滿足。

有時(shí)候,他為了多掙一些生活費(fèi),碰上緊急的項(xiàng)目,會(huì)主動(dòng)加班。但鄭成安很清楚,標(biāo)注員的工作很難一直做下去。

2022年6月,美國(guó)加州圣馬特奧縣的特斯拉辦公室,200員工被裁員,其中大多數(shù)都是數(shù)據(jù)標(biāo)注員。

裁員背后,是因?yàn)樘厮估谘邪l(fā)計(jì)算機(jī)Dojo,采用自監(jiān)督學(xué)習(xí)技術(shù),用于訓(xùn)練人工智能模型,對(duì)數(shù)據(jù)標(biāo)注的需求正越來(lái)越低。

不僅如此,國(guó)內(nèi)騰訊、阿里、字節(jié)跳動(dòng)等一眾大廠都在研發(fā)自監(jiān)督學(xué)習(xí)技術(shù)。

可以說(shuō),隨著人工智能的不斷成長(zhǎng),數(shù)據(jù)標(biāo)注員的工作,也變得岌岌可危。這些曾經(jīng)教會(huì)了人工智能“思考”的人,同樣正面臨被人工智能取代的風(fēng)險(xiǎn)。

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請(qǐng)聯(lián)系原著作權(quán)人。

評(píng)論

暫無(wú)評(píng)論哦,快來(lái)評(píng)價(jià)一下吧!

下載界面新聞

微信公眾號(hào)

微博

ChatGPT到底都被投喂了些什么?

訓(xùn)練AI的數(shù)據(jù)由誰(shuí)提供,AI成長(zhǎng)的養(yǎng)分,又從何而來(lái)?

文|摩登AI 三石

編輯 | 聶風(fēng)

大模型已成兵家必爭(zhēng)之地。

訓(xùn)練模型,最關(guān)鍵的環(huán)節(jié)之一是投喂數(shù)據(jù)。

那么訓(xùn)練AI的數(shù)據(jù)由誰(shuí)提供,AI成長(zhǎng)的養(yǎng)分,又從何而來(lái)?

在東西競(jìng)跑之下,迭代大模型是核心根本,而標(biāo)注中文數(shù)據(jù),同等重要。

01、海量數(shù)據(jù)投喂出的AI

使用英文和其他語(yǔ)言的ChatGPT時(shí),體驗(yàn)有差別嗎?

有,ChatGPT英文確實(shí)比其他語(yǔ)言表現(xiàn)更好。

這種差異除了ChatGPT英文在使用過(guò)程中受到的訓(xùn)練更多,同時(shí)也要?dú)w功于模型創(chuàng)建時(shí)期的資料投喂。

2020年,OpenAI在投喂海量數(shù)據(jù)、更接近人腦的超大基礎(chǔ)模型GPT-3模型上持續(xù)提升,終于在2022年11月,ChatGPT誕生。

ChatGPT足夠智能,是因?yàn)樗暮诵娜蝿?wù)是將一個(gè)文本進(jìn)行合理性延續(xù),即根據(jù)已有的文本,生成一個(gè)符合上下文背景和書(shū)寫(xiě)習(xí)慣的合理內(nèi)容。

因此,前期的海量資料投喂與模型訓(xùn)練才是其后期使用過(guò)程中最大的差異原因。

據(jù)悉,ChatGPT的大模型數(shù)據(jù)主要來(lái)自以下幾方面:

維基百科:ChatGPT使用了英文版維基百科的數(shù)據(jù),包含了超過(guò)640萬(wàn)篇文章,超過(guò)40億個(gè)詞。

書(shū)籍:ChatGPT使用了ProjectGutenberg和BookCorpus的數(shù)據(jù),包含了超過(guò)10萬(wàn)本書(shū)籍,超過(guò)20億個(gè)詞。

期刊:ChatGPT使用了PubMedCentral和arXiv的數(shù)據(jù),包含了超過(guò)100萬(wàn)篇期刊文章,超過(guò)10億個(gè)詞。

Reddit鏈接:社交媒體網(wǎng)站Reddit上的各種帖子和評(píng)論,包含了用戶之間的對(duì)話和互動(dòng)。ChatGPT使用了Reddit的數(shù)據(jù),包含了超過(guò)18億條鏈接和評(píng)論,超過(guò)100億個(gè)詞。

CommonCrawl:包含超過(guò)31億個(gè)網(wǎng)頁(yè)內(nèi)容,超過(guò)4100億個(gè)詞。

其他數(shù)據(jù)集:ChatGPT使用了GitHub的代碼倉(cāng)庫(kù)、WebText2的新聞文章、OpenSubtitles的電影字幕等數(shù)據(jù)。

從ChatGPT資源投喂上可以看出,ChatGPT獲得了更多的英文數(shù)據(jù),大模型訓(xùn)練時(shí),也更多地使用英文,而非中文。

所以,在現(xiàn)實(shí)使用過(guò)程中,ChatGPT英文將比中文反應(yīng)更快,更智能。反過(guò)來(lái),中國(guó)大廠創(chuàng)建的人工智能大模型,中文版應(yīng)比英文版反應(yīng)更快,更智能。

據(jù)悉,目前中國(guó)大廠創(chuàng)建的人工智能大模型,數(shù)據(jù)投喂資源主要分為三類(lèi):

公開(kāi)數(shù)據(jù)集,如中文維基百科、中文新聞?wù)Z料庫(kù)、中文問(wèn)答語(yǔ)料庫(kù)等;自有數(shù)據(jù)集,這些數(shù)據(jù)集是由各個(gè)大廠自行收集、整理、標(biāo)注的,包括用戶行為數(shù)據(jù)、搜索引擎數(shù)據(jù)、社交媒體數(shù)據(jù)、電商平臺(tái)數(shù)據(jù)等;合作數(shù)據(jù)集,這些數(shù)據(jù)集是由各個(gè)大廠與其他機(jī)構(gòu)或組織合作獲取的,包括政府部門(mén)數(shù)據(jù)、行業(yè)協(xié)會(huì)數(shù)據(jù)、科研機(jī)構(gòu)數(shù)據(jù)等。

一個(gè)人工智能大模型的創(chuàng)建,不僅需要超高的運(yùn)算能力,也需要海量數(shù)據(jù)投喂和大量的數(shù)據(jù)標(biāo)注員。

02、賽博流水線上的民工

人工智能為什么需要數(shù)據(jù)標(biāo)注員?

在人工智能大模型投入海量的數(shù)據(jù)后,還需要像人一樣,辨別、理解這些數(shù)據(jù),才能成長(zhǎng),成熟,而這個(gè)過(guò)程離不開(kāi)數(shù)據(jù)標(biāo)注員。

對(duì)于人工智能而言,有標(biāo)簽的數(shù)據(jù)才是有用的數(shù)據(jù)。

例如人臉識(shí)別,人工智能本身不會(huì)識(shí)別物體,只有當(dāng)人臉關(guān)鍵點(diǎn)被一一標(biāo)注之后,計(jì)算機(jī)才能建立起對(duì)人臉的認(rèn)知。

對(duì)數(shù)據(jù)進(jìn)行標(biāo)注是人工智能的一個(gè)必須過(guò)程。

可以說(shuō),數(shù)據(jù)標(biāo)注員就是人工智能的老師,幫助人工智能成長(zhǎng)。那么,數(shù)據(jù)標(biāo)注員每天都如何調(diào)校人工智能呢?

數(shù)據(jù)標(biāo)注員身上的標(biāo)簽是“互聯(lián)網(wǎng)民工”、“賽博流水線”。他們每天的日常工作,就是坐在一間如同初代網(wǎng)吧的屋子里,每天對(duì)著電腦劃拉鼠標(biāo)幾千次。不停地對(duì)海量數(shù)據(jù)進(jìn)行清洗、分類(lèi)、畫(huà)框、注釋、標(biāo)記等操作。

他們將大量的文字、語(yǔ)音、圖像打上標(biāo)記,例如“眼珠”、“四川話”、“綠化帶”等。只有被標(biāo)注過(guò)的數(shù)據(jù),才能被人工智能模型識(shí)別,訓(xùn)練出它的分辨能力。

例如標(biāo)記道路圖片,標(biāo)注道路圖片上的物體名稱(chēng)、顏色等信息。業(yè)內(nèi)人士稱(chēng)這種工作位“拉框”。

他們或許并不明白“什么是人工智能”,但卻實(shí)實(shí)在在是人工智能的老師。

2021年版的《人工智能訓(xùn)練師國(guó)家職業(yè)技能標(biāo)準(zhǔn)》中,對(duì)該職業(yè)的能力特征描述是“具有一定的學(xué)習(xí)能力、表達(dá)能力、計(jì)算能力;空間感、色覺(jué)正?!?,普遍受教育程度寫(xiě)的是“初中畢業(yè)”。

這意味著,標(biāo)注員是一份幾乎沒(méi)有門(mén)檻的職業(yè)。

美國(guó)《時(shí)代》雜志曾發(fā)表過(guò)一份調(diào)查,OpenAI為訓(xùn)練ChatGPT使用了非洲肯尼亞外包勞工。

據(jù)悉,肯尼亞首都內(nèi)羅畢有30多名ChatGPT的數(shù)據(jù)標(biāo)注員,他們每天工作9個(gè)小時(shí),閱讀150-200段文字。

標(biāo)注員需要從這些文字中標(biāo)注出包含性、暴力與仇恨言論的內(nèi)容,由于每天閱讀大量極具沖擊力的文字,有人會(huì)連續(xù)做噩夢(mèng)。

欠發(fā)達(dá)地區(qū)的標(biāo)注員不在少數(shù)??夏醽?、烏干達(dá)和印度,有不少人是谷歌、Meta和微軟等硅谷企業(yè)的數(shù)據(jù)標(biāo)注員。

這些數(shù)據(jù)標(biāo)注員的實(shí)得工資約為每小時(shí)1.32美元至2美元。這在當(dāng)?shù)匾呀?jīng)算得上中產(chǎn)收入,所以數(shù)據(jù)標(biāo)注員雖然會(huì)因工作而做噩夢(mèng),但他們并沒(méi)有討厭這份工作。

而在BOSS直聘等招聘網(wǎng)站上,數(shù)字標(biāo)注員的公司月工資大都在3K-5K,崗位要求在大專(zhuān)及以上學(xué)歷,專(zhuān)業(yè)不限。在貴州、西安等地的縣城里,數(shù)據(jù)標(biāo)注員的工資僅僅過(guò)千。

人工智能快速成長(zhǎng)的背后,數(shù)據(jù)標(biāo)注員像一群卑微的工蟻,默默地搬運(yùn)著過(guò)冬的食物。

03、即將被取代的老師

中國(guó)的數(shù)據(jù)標(biāo)注公司主要分為兩類(lèi),一是人工智能公司內(nèi)部的標(biāo)注公司,二是商務(wù)流程外包公司。

大廠內(nèi)部標(biāo)注公司有京東的京東眾智,百度的百度眾測(cè),網(wǎng)易的網(wǎng)易有數(shù),阿里的阿里數(shù)據(jù)標(biāo)注、騰訊的騰訊數(shù)據(jù)標(biāo)注,這些大廠都已經(jīng)擁有自己的標(biāo)注平臺(tái)和工具。

其他新興的國(guó)內(nèi)數(shù)據(jù)標(biāo)注公司,有龍貓數(shù)據(jù)、Testin云測(cè)、倍賽BasicFinder、數(shù)據(jù)堂等,這些公司都具有相當(dāng)?shù)囊?guī)模。

截至2021年初,數(shù)據(jù)標(biāo)注企業(yè)分布的top5城市是:北京185家,上海84家,成都68家,深圳63家,杭州46家。

這5個(gè)城市都是人工智能技術(shù)發(fā)展和應(yīng)用的重要區(qū)域,擁有大量的需求方和合作伙伴,同時(shí)擁有較為完善的政策支持和產(chǎn)業(yè)環(huán)境。

此外,新疆和田、山西太原、山東濟(jì)南、河北保定、安徽合肥等地的數(shù)據(jù)標(biāo)注產(chǎn)業(yè)都在不斷成長(zhǎng)。

貴州是全國(guó)首個(gè)大數(shù)據(jù)綜合試驗(yàn)區(qū),而惠水縣百鳥(niǎo)河數(shù)字小鎮(zhèn)也則是貴州首個(gè)縣級(jí)大數(shù)據(jù)產(chǎn)業(yè)園區(qū)。

目前,百鳥(niǎo)河數(shù)字小鎮(zhèn)已培育了迦太利華、金百合、黔南即富、夢(mèng)動(dòng)科技、金信大數(shù)據(jù)等重點(diǎn)企業(yè)。

其中,貴州夢(mèng)動(dòng)科技員工超過(guò)500人,其中的一半人,是附近盛華職業(yè)學(xué)院的學(xué)生。該公司曾入選2020全國(guó)數(shù)據(jù)標(biāo)注公司排行榜前10強(qiáng)。

鄭成安是一名大三在校學(xué)生,目前在夢(mèng)動(dòng)科技實(shí)習(xí),公司全職員工只有十多人,管理層大都是學(xué)校里的老師,對(duì)他而言上課就是上班,老師就是經(jīng)理。

鄭成安出身農(nóng)村,上高職前沒(méi)碰過(guò)電腦,現(xiàn)在憑借電腦前的兼職,一個(gè)月能拿到1500元以上的收入,他感到非常滿足。

有時(shí)候,他為了多掙一些生活費(fèi),碰上緊急的項(xiàng)目,會(huì)主動(dòng)加班。但鄭成安很清楚,標(biāo)注員的工作很難一直做下去。

2022年6月,美國(guó)加州圣馬特奧縣的特斯拉辦公室,200員工被裁員,其中大多數(shù)都是數(shù)據(jù)標(biāo)注員。

裁員背后,是因?yàn)樘厮估谘邪l(fā)計(jì)算機(jī)Dojo,采用自監(jiān)督學(xué)習(xí)技術(shù),用于訓(xùn)練人工智能模型,對(duì)數(shù)據(jù)標(biāo)注的需求正越來(lái)越低。

不僅如此,國(guó)內(nèi)騰訊、阿里、字節(jié)跳動(dòng)等一眾大廠都在研發(fā)自監(jiān)督學(xué)習(xí)技術(shù)。

可以說(shuō),隨著人工智能的不斷成長(zhǎng),數(shù)據(jù)標(biāo)注員的工作,也變得岌岌可危。這些曾經(jīng)教會(huì)了人工智能“思考”的人,同樣正面臨被人工智能取代的風(fēng)險(xiǎn)。

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請(qǐng)聯(lián)系原著作權(quán)人。