文|創(chuàng)瞰巴黎 Agnès Vernet
編輯|Meister Xia
導讀
人工智能的算法是如何模仿生物的神經(jīng)系統(tǒng)的?生物模仿學在算法的發(fā)展中有什么作用?為什么現(xiàn)在的算法需要注意力層來提高學習速度?這些問題都與我們的未來息息相關,因為算法已經(jīng)滲透到了我們生活的方方面面,從醫(yī)療診斷到自動翻譯,從游戲設計到能源消耗。如何讓算法更加節(jié)能,更加符合生物的特性,是未來的挑戰(zhàn)和機遇。本文將帶你走進這些算法的奧秘,讓你感受生物與計算的魅力。
一覽:
- 神經(jīng)網(wǎng)絡算法是一種仿生系統(tǒng),模仿生物體神經(jīng)元的機理。
- 仿生學已用于許多算法的開發(fā),例如遺傳算法和卷積/循環(huán)神經(jīng)網(wǎng)絡算法。
- 受到人類行為的啟發(fā),研究人員通過在神經(jīng)網(wǎng)絡中添加“注意力層”來提高算法的速度。
- 未來的挑戰(zhàn)是減少這些算法學習所需要的電力。
如今,算法技術發(fā)展迅猛,功能愈發(fā)強大。仿生學的理念在算法開發(fā)中扮演了舉足輕重的角色。生物體最大的優(yōu)勢之一是其對能源的高利用率,但這一點暫時還無法在IT開發(fā)中得到實現(xiàn)。
算法自誕生之初,便開始應用仿生學理念。1964 年首個神經(jīng)網(wǎng)絡“感知器”就是仿生學的產(chǎn)物。里昂-克洛德·貝爾納第一大學講師 Clément Viricel 解釋道:“‘感知器’模擬了神經(jīng)元的電生理特性,及其傳遞興奮和信息的能力。”每個神經(jīng)元接收數(shù)據(jù),對其進行評估并根據(jù)算法中指定的函數(shù)產(chǎn)生結果。這個過程構成了人工神經(jīng)元的“激活”過程,就像大腦中的神經(jīng)元被神經(jīng)脈沖激活一樣。在“感知器”中,神經(jīng)元連接在單層中,可通過增加神經(jīng)元層來處理信息流。
01 仿生學與神經(jīng)網(wǎng)絡的發(fā)展
從20世紀90年代開始,訓練算法就開始采用神經(jīng)網(wǎng)絡,模仿人類的學習方式。里昂-克洛德·貝爾納第一大學研究員Laurent Pujo-Menjouet解釋道:“神經(jīng)網(wǎng)絡是仿生的,因為它們通過犯錯來學習,就像人類一樣,特別是人類嬰兒。神經(jīng)可塑性可以用矩陣來模擬:矩陣的元素根據(jù)成功程度進行加權。系數(shù)在神經(jīng)元之間起到了強化作用。” Viricel補充道:“例如,在學習語言時,人類往往通過上下文領會單詞的含義,語義起著至關重要的作用。訓練神經(jīng)網(wǎng)絡的方法,就是讓算法做填空題,然后通過反向傳播進行優(yōu)化?!币簿褪钦f根據(jù)輸出結果,來修正輸入神經(jīng)元的權重。“但這個過程是一個黑匣子,其中使算法得以發(fā)展的權重變化是不可見的?!比绻麩o法得知某個事物的原理,人們就很難信任它。對于生產(chǎn)自動駕駛汽車[1]、診斷輔助系統(tǒng)[2]的廠家而言,產(chǎn)品必須包含算法,而算法的不可知性是個非常棘手的問題。
許多算法的開發(fā)都得益于仿生學,比如遺傳算法。該算法基于計算目的的系統(tǒng)發(fā)生樹,并且能夠根據(jù)多種方法(排序、選擇、適應等)得到最相關的結果。諸如此類的系統(tǒng)已用于優(yōu)化問題和游戲開發(fā)中。著名的《超級馬里奧》正是使用它對玩家進行排名。此外還有受人類視覺系統(tǒng)啟發(fā)的卷積神經(jīng)網(wǎng)絡。Viricel 解釋道:“開發(fā)者希望重現(xiàn)人眼分析圖像的方式,先用多個神經(jīng)元排成一個方形,掃描圖像以捕獲像素,然后將圖像整體重建?!被诰矸e神經(jīng)網(wǎng)絡的計算機視覺在某些領域的辨識能力已經(jīng)超越了人類專家,特別是在黑色素瘤的診斷 [3]。“在訓練期間,它會提取‘腫瘤形狀’和‘腫瘤大小’等特征,然后通過尋找這些特征來識別圖像中是否有腫瘤。”
仿生算法的應用范圍很廣,特別是循環(huán)神經(jīng)網(wǎng)絡。據(jù)Viricel介紹:“此類神經(jīng)網(wǎng)絡可按順序或按時間先后分析數(shù)據(jù),廣泛用于需要考慮詞序的文本自動處理。密集層是循環(huán)出現(xiàn)的,因此網(wǎng)絡不會忘記它之前做過的事情?!边@樣的網(wǎng)絡已應用于機器翻譯工具中。第一個循環(huán)網(wǎng)絡“讀取”原始語言文本,并將其編碼,第二個循環(huán)網(wǎng)絡以另一種語言解碼文本。這些步驟需要耗費時間和電力。Viricel承認:“算法訓練耗電量很大?!?/p>
02 Transformer網(wǎng)絡:模擬人類思維的成果
考慮到高能耗,未來必須開發(fā)出學習得更快的算法。為此,學者們設計了一種再現(xiàn)“詞匯依賴”現(xiàn)象的方法。當人類學習文本時,能立刻明白每個代詞的所指,減輕理解負擔。Viricel解釋道:“為了模擬人類的‘詞匯依賴’,我們添加了額外的神經(jīng)元層,即‘注意力層’。這是仿生學應用在算法研發(fā)中帶來的又一突破?!薄白⒁饬印钡陌l(fā)明者在一篇題為《注意力就是你所需要的一切 Attention is all you need》的論文中闡述了其最新發(fā)現(xiàn)。他們的神經(jīng)網(wǎng)絡僅由12個注意力層和編碼器/解碼器系統(tǒng)組成。此類網(wǎng)絡被稱為“transformer”。由三名法國人創(chuàng)立的Hugging Face初創(chuàng)公司,就是使用了transformer開發(fā)BERT和BLOOM語言模型,現(xiàn)已被谷歌采用。Chat-GPT與transformer一脈相承,不過只有解碼器而沒有編碼器。
以上所述的例子,證明了仿生學對算法創(chuàng)新的促進作用。但研發(fā)者在仿生的同時,卻忘記了生物體的基本特征之一:能量利用率極高。訓練 Chat GPT-3已經(jīng)耗費了1.287 兆瓦時的能量,排放了552噸二氧化碳[4]。Viricel 承認:“一直以來,神經(jīng)網(wǎng)絡開發(fā)者都沒有關注能耗問題。這是分工所導致的。設計算法的和生產(chǎn)制造硬件的是兩批人。前者往往會忽略實際的設備設計問題。最新的硬件已經(jīng)很耗能了,未來的TPU 或 HPU只會更加如此?!?/p>
不過,新一代程序員或許會突破以往的常規(guī)。“在IT業(yè)界,對能耗的關注度越來越高。這既是出于節(jié)能的需要,也是出于保護環(huán)境的道德義務。目前的改進主要是機械硬件優(yōu)化,以節(jié)省能量傳導中的消耗?!辈贿^,也有學者另辟蹊徑,例如設計零樣本沖擊、零樣本學習的算法。“它們無需訓練即可運行,從而節(jié)省了學習成本?!辈贿^,新算法的性能是否能達到現(xiàn)有算法的水平,用以生成徹底仿生的系統(tǒng),尚有待觀察。