文|創(chuàng)瞰巴黎
導(dǎo)讀
機(jī)器學(xué)習(xí)算法能夠識別規(guī)律,因此,即便是最不起眼的偏見,也會影響到整個算法,最終導(dǎo)致偏見的延續(xù)和放大。人工智能技術(shù)為什么存在偏見問題?本期帶您了解機(jī)器學(xué)習(xí)算法的運(yùn)作機(jī)制,弄清其本質(zhì),找出避免問題的方法。
一覽:
- 機(jī)器學(xué)習(xí)有三大主流方法:有監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)。
- 機(jī)器學(xué)習(xí)算法能夠識別規(guī)律,因此,即便是最不起眼的偏見,也會影響到整個算法,最終導(dǎo)致偏見的延續(xù)和放大。
- 算法以歷史數(shù)據(jù)為基礎(chǔ)發(fā)掘規(guī)律,以解決當(dāng)下問題,但容易出現(xiàn)“數(shù)據(jù)泛化”的問題——總結(jié)出過于片面的規(guī)律。
- 人工智能的使用也牽涉到權(quán)力的分配:數(shù)據(jù)使用權(quán)等倫理問題可能會不斷涌現(xiàn)。
- 民眾應(yīng)充分利用人工智能技術(shù),以協(xié)作的方式實現(xiàn)廣泛賦能。
要想解決人工智能技術(shù)存在的偏見問題,我們必須首先了解機(jī)器學(xué)習(xí)算法的運(yùn)作機(jī)制,并弄清其本質(zhì)。法國CEA-List研究所人工智能和機(jī)器學(xué)習(xí)專業(yè)博士后Victor Berger表示:“很多人都認(rèn)為,所有的問題都能在數(shù)據(jù)集中通過統(tǒng)計學(xué)手段找到答案?!?/p>
01 三大主流學(xué)習(xí)方式
“有監(jiān)督學(xué)習(xí)”是機(jī)器學(xué)習(xí)中最簡單,也是最常見的方法。Berger解釋道:“假設(shè)一個數(shù)據(jù)庫中存有動物圖片,那么有監(jiān)督學(xué)習(xí)相當(dāng)于告訴算法:狗的圖片、貓的圖片、雞的圖片對應(yīng)著‘狗’、‘貓’、‘雞’等名詞。此后一旦給算法某個特定的輸入(圖片),就會得到一個特定的輸出(名詞)。機(jī)器翻譯就是典型的有監(jiān)督學(xué)習(xí)算法。”
“無監(jiān)督學(xué)習(xí)”是第二類算法,也就是說,對于一個給定輸入,不告訴算法現(xiàn)成的輸出?!耙陨衔牡臄?shù)據(jù)庫為例,無監(jiān)督學(xué)習(xí)指給機(jī)器輸入一張張動物圖片,讓算法自主進(jìn)行統(tǒng)計歸納,從而對輸入進(jìn)行分類?!?/p>
“監(jiān)督算法的數(shù)據(jù)集發(fā)揮著至關(guān)重要的作用?!?/p>
第三類算法名為“半監(jiān)督學(xué)習(xí)”。Berger稱:“在前兩類學(xué)習(xí)模式下,代碼能夠讓算法不斷自我改進(jìn)。但在半監(jiān)督模式下,算法只能分辨出任務(wù)完成與否,并不會得知改進(jìn)方式。此時,影響算法學(xué)習(xí)能力的將是環(huán)境,以及環(huán)境對結(jié)果作出的反應(yīng)?!?/p>
在上述三種學(xué)習(xí)模式中,提供給算法的數(shù)據(jù)集均發(fā)揮著至關(guān)重要的作用。Berger強(qiáng)調(diào):“機(jī)器學(xué)習(xí)算法擅長識別規(guī)律?!币虼耍幢闶亲畈黄鹧鄣钠?,也會影響到整個算法,最終導(dǎo)致偏見的延續(xù)和放大。
02 數(shù)據(jù)泛化
瑞士科創(chuàng)企業(yè)Tournesol的聯(lián)合創(chuàng)始人Lê Nguyên Hoang是一名數(shù)學(xué)博士,他在人工智能的普及上做出過許多貢獻(xiàn)。在他看來,“數(shù)據(jù)泛化”這一現(xiàn)象在機(jī)器學(xué)習(xí)領(lǐng)域無處不在?!翱v觀業(yè)界和學(xué)界,幾乎所有人都將焦點(diǎn)放在算法的設(shè)計上,很少會有人關(guān)注數(shù)據(jù)的質(zhì)量。當(dāng)我們在訓(xùn)練算法時,使用了很多歷史數(shù)據(jù)庫,但其中的數(shù)據(jù)是否經(jīng)過了仔細(xì)審核?從歷史數(shù)據(jù)中總結(jié)出泛化、片面的規(guī)律,是否真正對社會發(fā)展有益?”
為了更好地了解數(shù)據(jù)泛化,Berger分享了一個業(yè)界廣為流傳的小故事?!盀榱硕沤^性別偏見,一家公司在使用人工智能篩選簡歷時,抹去了姓名和照片等信息。但隨后他們意識到,‘足球’一詞成為了算法的關(guān)注焦點(diǎn)?!?該公司已經(jīng)是萬般謹(jǐn)慎,但他們沒有預(yù)料到,訓(xùn)練算法時所使用的那些過往簡歷中,很多被招募的男性員工都將足球列為了興趣愛好。所以,在這則故事中,算法不僅沒有削弱性別偏見,反而助長了這一現(xiàn)象。Berger解釋道:“當(dāng)前有兩種方法可以克服這一挑戰(zhàn):一、花費(fèi)精力打造質(zhì)量更高的數(shù)據(jù)庫;二、讓算法消除已經(jīng)形成的偏見?!?/p>
但這并不是萬全之策。Lê Nguyên Hoang 稱:“以內(nèi)容審核為例,數(shù)據(jù)的研判取決于我們對言論自由的理解,以及對仇恨言論或虛假信息的判斷??梢哉f,這些問題并沒有明確的、放之四海而皆準(zhǔn)的答案。如果問題本身牽涉到了技術(shù)之外的因素,那么解決方案也理應(yīng)如此。”
03 反饋循環(huán)
算法可能會導(dǎo)致的反饋循環(huán)也引發(fā)了人們的討論。Lê Nguyên Hoang指出:“我們需要記住一點(diǎn)——機(jī)器學(xué)習(xí)算法的運(yùn)作永遠(yuǎn)是以目的為導(dǎo)向的,如提升內(nèi)容曝光率、利潤、點(diǎn)擊率等。”
假設(shè)某地區(qū)的警察想使用算法來預(yù)測最易發(fā)生犯罪行為的街區(qū)。在Berger看來,算法勢必會基于警方的歷史數(shù)據(jù)進(jìn)行預(yù)測,找出逮捕人數(shù)最多的街區(qū)。但這又回到了之前的問題:歷史數(shù)據(jù)的片面泛化,過度放大過往對未來的預(yù)測能力。事實上,算法不僅會對街區(qū)的現(xiàn)有治安環(huán)境進(jìn)行定性,還會左右未來該街區(qū)的治安決策,如警力增加、視頻監(jiān)控覆蓋率擴(kuò)大,從而進(jìn)一步加劇執(zhí)法人員和民眾的對立。
“但這一做法可能使人們對激進(jìn)主義、宗教運(yùn)動和陰謀論更加深信不疑。”
同樣,當(dāng)用戶使用社交媒體和娛樂平臺時,算法會基于他們的瀏覽記錄來做相關(guān)推薦,以盡可能吸引用戶駐足停留,但這可能會演變?yōu)橄到y(tǒng)大力推送宣揚(yáng)激進(jìn)主義、教派對立、陰謀論的內(nèi)容。Lê Nguyên Hoang正在開發(fā)一款名為Tournesol的算法以解決上述問題。Tournesol使用的數(shù)據(jù)庫采用了開源模式,基于用戶的相互協(xié)作建立而成[1]。
04 權(quán)力分配
綜上所述,人工智能技術(shù)不僅牽涉到科學(xué)研究和技術(shù)應(yīng)用,還涉及權(quán)力的分配問題。美國機(jī)器學(xué)習(xí)應(yīng)用開發(fā)企業(yè)Hugging Face 的哲學(xué)研究員和高級倫理學(xué)家Giada Pistilli指出:“我們必須辨明算法在訓(xùn)練、設(shè)計和部署等諸多環(huán)節(jié)可能產(chǎn)生的各種社會和倫理問題?!?/p>
問題究竟有哪些?Giada Pistilli稱,這些問題在人工智能技術(shù)的發(fā)展歷程中隨處可見。“一旦數(shù)據(jù)存在偏見,模型訓(xùn)練完畢后便會引發(fā)一些倫理方面的思考,比如,相關(guān)數(shù)據(jù)是否會導(dǎo)致刻板印象的產(chǎn)生?特定數(shù)據(jù)的缺失會帶來何種后果?如果數(shù)據(jù)庫中含有侵犯了他人知識產(chǎn)權(quán)的圖片或數(shù)據(jù),那么在使用數(shù)據(jù)前是否征得了本人的同意?”
但這僅僅是問題的冰山一角。Giada Pistilli 指出:“在算法的開發(fā)和部署環(huán)節(jié),模型的歸屬、算法設(shè)計人員的選取、設(shè)計的目的等疑問都有待解答。此外,模型的使用十分耗能,出于減排的考慮,某些模型是否該舍棄?這也間接證明了只有‘財大氣粗’的公司才有能力去投資和使用算法?!?/p>
“我們可以將人工智能打造成有效的賦能工具,為各類群體謀福祉?!?/p>
所幸,前途并非一片黑暗——人工智能完全有潛力變成一種賦能工具。Giada Pistilli是BigScience項目的成員,該項目旨在開發(fā)一個開放的語言模型,共有幾千名參與者。在她看來,這樣的項目能夠極大發(fā)揮人工智能的益處。“開發(fā)這種專注于單一任務(wù)的人工智能模型其實更能因地制宜,因為在此過程中,人人皆可參與,并且可以密切監(jiān)督該模型的發(fā)展。向公眾普及這些新技術(shù),并廣邀社會各界參與數(shù)據(jù)庫的建立,可以將人工智能打造成有效的賦能工具,為各類群體謀福祉?!?/p>
人類能否自信迎接機(jī)器學(xué)習(xí)的重重挑戰(zhàn)?答案或許需要你來書寫。