文|venturebeat
編譯|DeFi 之道 Kyle
人工智能 (AI) 迅速改變了我們的生活和工作方式。與此同時(shí),AI 數(shù)據(jù)偏見帶來的挑戰(zhàn)已經(jīng)走到了最前面。當(dāng)我們走向 Web3 的未來時(shí),我們自然會(huì)看到同時(shí)使用 Web3 和 AI 的創(chuàng)新產(chǎn)品、解決方案和服務(wù)。而且,雖然一些評(píng)論員認(rèn)為去中心化技術(shù)可以解決數(shù)據(jù)偏見問題,但事實(shí)并非完成如此。
圖片來源:由 Maze AI 生成
Web3 市場(chǎng)規(guī)模仍然相對(duì)較小且難以量化,因?yàn)?Web3 生態(tài)系統(tǒng)仍處于發(fā)展的早期階段,Web3 的確切定義仍在不斷發(fā)展。雖然 2021 年的 Web3 市場(chǎng)規(guī)模估計(jì)接近 20 億美元,但各種分析師和研究公司報(bào)告稱,預(yù)計(jì)復(fù)合年增長(zhǎng)率 (CAGR) 約為 45%,再加上 Web3 解決方案和消費(fèi)者采用率的快速增長(zhǎng),到 2030 年,Web3 市場(chǎng)的價(jià)值將達(dá)到 800 億美元左右。
雖然 Web3 正在快速增長(zhǎng),但該行業(yè)的現(xiàn)狀與其他科技行業(yè)因素相結(jié)合是 AI 數(shù)據(jù)偏見走上錯(cuò)誤道路的原因。
數(shù)據(jù)偏見、質(zhì)量和數(shù)量之間的聯(lián)系
AI 系統(tǒng)依靠大量高質(zhì)量數(shù)據(jù)來訓(xùn)練它們的算法。OpenAI 的 GPT-3(包括 ChatGPT 模型)在大量高質(zhì)量數(shù)據(jù)上進(jìn)行了訓(xùn)練。OpenAI并未透露用于訓(xùn)練的確切數(shù)據(jù)量,但估計(jì)在千億字量級(jí)或更多。
數(shù)據(jù)經(jīng)過過濾和預(yù)處理,以確保其質(zhì)量高且與語言生成任務(wù)相關(guān)。OpenAI 使用先進(jìn)的機(jī)器學(xué)習(xí) (ML) 技術(shù)(例如 Transformer)在這個(gè)大型數(shù)據(jù)集上訓(xùn)練模型,使其能夠?qū)W習(xí)單詞和短語之間的模式和關(guān)系,并生成高質(zhì)量的文本。
AI 訓(xùn)練數(shù)據(jù)的質(zhì)量對(duì) ML 模型的性能有重大影響,數(shù)據(jù)集的大小也是決定模型泛化到新數(shù)據(jù)和任務(wù)能力的關(guān)鍵因素。但是,質(zhì)量和數(shù)量都會(huì)對(duì)數(shù)據(jù)偏見產(chǎn)生重大影響,這也是事實(shí)。
數(shù)據(jù)偏見的獨(dú)特風(fēng)險(xiǎn)
AI 中的數(shù)據(jù)偏見是一個(gè)重要問題,因?yàn)樗赡茉诰蜆I(yè)、信貸、住房和刑事司法等領(lǐng)域?qū)е虏还健⑵缫暫陀泻Φ慕Y(jié)果。
2018 年,亞馬遜被迫廢棄了一款顯示出對(duì)女性有偏見的 AI 招聘工具。該工具接受了對(duì)過去 10 年期間提交給亞馬遜的簡(jiǎn)歷的培訓(xùn),其中主要包括男性候選人,導(dǎo)致 AI 減少了包含“女性”和“女人”等詞的簡(jiǎn)歷。
2019 年,研究人員發(fā)現(xiàn),一種用于預(yù)測(cè)患者預(yù)后的商用 AI 算法對(duì)黑人患者存在偏見。該算法主要針對(duì)白人患者數(shù)據(jù)進(jìn)行訓(xùn)練,導(dǎo)致其對(duì)黑人患者的假陽性率更高。
Web3 解決方案的去中心化性質(zhì)與 AI 相結(jié)合,帶來獨(dú)特的偏見風(fēng)險(xiǎn)。這種環(huán)境中數(shù)據(jù)的質(zhì)量和可用性可能是一個(gè)挑戰(zhàn),這使得準(zhǔn)確訓(xùn)練 AI 算法變得困難,這不僅是因?yàn)槿狈κ褂弥械?Web3 解決方案,還因?yàn)槿狈τ心芰κ褂盟鼈兊娜巳骸?/p>
我們可以從 23andMe 等公司收集的基因組數(shù)據(jù)中得出相似之處,這些數(shù)據(jù)對(duì)貧困和邊緣化社區(qū)存在偏見。23andMe 等 DNA 檢測(cè)服務(wù)的成本、可用性和目標(biāo)營(yíng)銷限制了來自低收入社區(qū)或生活在該服務(wù)未運(yùn)營(yíng)地區(qū)的個(gè)人獲得這些服務(wù)的機(jī)會(huì),這些地區(qū)往往是較貧窮、欠發(fā)達(dá)國(guó)家。
因此,這些公司收集的數(shù)據(jù)可能無法準(zhǔn)確反映更廣泛人群的基因組多樣性,從而導(dǎo)致基因研究以及醫(yī)療保健和醫(yī)學(xué)發(fā)展的潛在偏差。
這讓我們想到了 Web3 增加 AI 數(shù)據(jù)偏見的另一個(gè)原因。
行業(yè)偏見和對(duì)道德的關(guān)注
Web3 創(chuàng)業(yè)行業(yè)缺乏多樣性是一個(gè)主要問題。截至 2022 年,女性占據(jù)了 26.7% 的技術(shù)職位。其中,56% 是有色人種女性。科技行業(yè)的高管職位中女性比例更低。
在 Web3 中,這種不平衡加劇了。根據(jù)各種分析師的說法,只有不到 5% 的 Web3 初創(chuàng)公司擁有女性創(chuàng)始人。這種多樣性的缺乏意味著 AI 數(shù)據(jù)偏見很可能被男性和白人創(chuàng)始人無意識(shí)地忽視為一個(gè)問題。
為了克服這些挑戰(zhàn),Web3 行業(yè)必須在其數(shù)據(jù)源和團(tuán)隊(duì)中優(yōu)先考慮多樣性和包容性。此外,該行業(yè)需要改變?yōu)槭裁炊鄻有?、平等和包容是必要的故事?/p>
從財(cái)務(wù)和可擴(kuò)展性的角度來看,從不同角度設(shè)計(jì)的產(chǎn)品和服務(wù)更有可能為數(shù)十億客戶服務(wù),而不是數(shù)百萬客戶,這使得那些擁有多元化團(tuán)隊(duì)的初創(chuàng)公司更有可能獲得高回報(bào)和全球規(guī)模的能力。Web3 行業(yè)還必須關(guān)注數(shù)據(jù)質(zhì)量和準(zhǔn)確性,確保用于訓(xùn)練 AI 算法的數(shù)據(jù)沒有偏見。
Web3 能否解決 AI 數(shù)據(jù)偏差問題?
應(yīng)對(duì)這些挑戰(zhàn)的一種解決方案是開發(fā)去中心化的數(shù)據(jù)市場(chǎng),允許個(gè)人和組織之間安全、透明地交換數(shù)據(jù)。這有助于降低數(shù)據(jù)偏差的風(fēng)險(xiǎn),因?yàn)樗试S在訓(xùn)練 AI 算法時(shí)使用更廣泛的數(shù)據(jù)。此外,可以利用區(qū)塊鏈技術(shù)保證數(shù)據(jù)的透明性和準(zhǔn)確性,使算法不產(chǎn)生偏見。
但是,最終,在主流受眾使用 Web3 解決方案之前,我們將面臨多年尋找廣泛數(shù)據(jù)源的重大挑戰(zhàn)。
雖然 Web3 和區(qū)塊鏈繼續(xù)出現(xiàn)在主流新聞中,但此類產(chǎn)品和服務(wù)最有可能吸引初創(chuàng)企業(yè)和技術(shù)社區(qū)的人們——我們知道這些社區(qū)缺乏多樣性,但在全球市場(chǎng)中所占的份額相對(duì)較小。
很難估計(jì)在 Web3 初創(chuàng)公司工作的世界人口的百分比。近年來,該行業(yè)在美國(guó)創(chuàng)造了大約 300 萬個(gè)工作崗位。如果將這一數(shù)字與美國(guó)總?cè)丝谙啾取⑶也豢紤]失去的工作崗位——這個(gè)科技行業(yè)遠(yuǎn)不能代表適齡工作的公民。
在 Web3 解決方案變得更加主流并將其吸引力和使用范圍擴(kuò)大到那些對(duì)技術(shù)具有內(nèi)在興趣并變得負(fù)擔(dān)得起并且足以被更廣泛的人群使用之前,獲得足夠數(shù)量的高質(zhì)量數(shù)據(jù)來訓(xùn)練 AI 系統(tǒng)仍然是一個(gè)重大障礙。業(yè)界現(xiàn)在必須采取措施解決這個(gè)問題。