文|創(chuàng)瞰巴黎 Pablo Andres
編輯|Meister Xia
導(dǎo)讀
人工智能的發(fā)展日新月異,生成型AI是其中的一種,它能夠根據(jù)輸入的指示,創(chuàng)造出各種文字、圖像或聲音的內(nèi)容。這種技術(shù)有什么原理?它有哪些應(yīng)用和局限?它又會(huì)帶來哪些挑戰(zhàn)和風(fēng)險(xiǎn)?本文將為您介紹生成型AI的基本概念、最新進(jìn)展和未來趨勢,讓您了解這個(gè)正在改變我們社會(huì)的創(chuàng)新領(lǐng)域。
一覽:
- 生成式AI,指能夠?qū)W習(xí)數(shù)據(jù)庫中的信息,并以此為基礎(chǔ),根據(jù)用戶輸入的提示生成文字、圖像或音頻的人工智能。
- 生成式AI仍處于蹣跚學(xué)步的階段,有許多需要改進(jìn)的地方,比如答案不夠可靠或帶有偏見。
- ChatGPT、Bloom都屬于生成式AI的應(yīng)用模型。潛在的應(yīng)用還有千千萬萬待探索。
- 任何技術(shù)有利必有弊。生成式AI耗能極高,而且存在被濫用的風(fēng)險(xiǎn)。
ChatGPT已經(jīng)成為了當(dāng)今社會(huì)的熱議話題,新一輪AI技術(shù)革命已初露端倪。生成式AI有看似無窮的潛在應(yīng)用場景,也毫不意外地引發(fā)了無休止的爭論。不過,大眾對于生成式AI 原理的理解似乎還有待加深。
生成式AI,指能夠?qū)W習(xí)數(shù)據(jù)庫中的信息,并以此為基礎(chǔ),根據(jù)用戶輸入的提示生成文字、圖像或音頻的人工智能。巴黎綜合理工大學(xué)的統(tǒng)計(jì)機(jī)器學(xué)習(xí)教授Eric Moulines解釋說:“AI在學(xué)習(xí)的過程中,會(huì)從數(shù)據(jù)中概括規(guī)律,并基于此生成具有原創(chuàng)性的內(nèi)容?!?/p>
目前兩種主流的人工智能模型分別是GPT(生成式預(yù)訓(xùn)練轉(zhuǎn)換器)和擴(kuò)散模型。法國國家科學(xué)研究中心(CNRS)密集型科學(xué)計(jì)算開發(fā)與資源研究所(IDRIS)的人工智能研究工程師Hatim Bourfone補(bǔ)充說:“人工智能會(huì)通過一種‘注意力機(jī)制’理解輸入文本的上下文含義。其輸出的內(nèi)容由其之前在訓(xùn)練階段學(xué)習(xí)的詞匯構(gòu)成,AI會(huì)根據(jù)每個(gè)詞出現(xiàn)的概率,判斷接下來該使用哪個(gè)詞”。用不同的數(shù)據(jù)庫訓(xùn)練算法,便能得到適用于不同情景的AI。
Bourfoune的團(tuán)隊(duì)參與開發(fā)了一款名為Bloom的AI,這是一款供研究人員使用的學(xué)術(shù)論文翻譯器。IDRIS 研究員Pierre Cornette 說“Bloom模式的主要任務(wù)就是學(xué)習(xí)多門外語。我們給它輸入了大量的文本,然后讓它根據(jù)前文內(nèi)容去判斷下文該出現(xiàn)哪個(gè)詞。如果出錯(cuò)了,我們會(huì)糾正?!?/p>
01 蹣跚學(xué)步的新技術(shù)
Moulines解釋道:“第一代生成式AI模型的歷史還不到十年。生成式AI技術(shù)的首次突破發(fā)生于2017年:轉(zhuǎn)換器技術(shù)問世,完善了注意力機(jī)制。到2021年,商用生成式AI就上市了,速度之快令人乍舌,比其他深度學(xué)習(xí)模型都要快得多?!北M管如此,我們必須認(rèn)識到ChatGPT等AI仍處于蹣跚學(xué)步的階段,有許多需要改進(jìn)的地方。
Moulines承認(rèn),GPT給出的答案的可信度不夠高,仍然是個(gè)問題:“ChatGPT不知道什么是‘可信度’,不懂得評估自己給出的答案的準(zhǔn)確性?!边@就是為什么有時(shí)候ChatGPT會(huì)“一本正經(jīng)地胡說八道”?!坝捎贑hatGPT純粹根據(jù)概率推理來生成單詞序列,所以會(huì)生成看似可信,實(shí)則虛假的內(nèi)容?!?/p>
除了會(huì)“瞎編”,生成式AI還有一些其他的缺陷需要引起我們的注意。AI在深度學(xué)習(xí)過程中,會(huì)大量吸收現(xiàn)有文本,也會(huì)內(nèi)化其中的偏見。Moulines說:“如果你問ChatGPT地緣政治問題,得到的答案都是西方國家的立場。這樣的答案中國用戶肯定不會(huì)認(rèn)同!”
02 無窮無盡的潛在應(yīng)用
生成式AI的魅力在于,通過使用多樣化的學(xué)習(xí)數(shù)據(jù)庫,能夠開發(fā)出無窮無盡、功能各異的模型。Cornette 說:“生成式AI就如同一臺高功率的發(fā)動(dòng)機(jī),可以搭載在拖拉機(jī)上,讓其發(fā)揮最大牽引力,也能安裝在賽車中,讓其飛馳而過?!比舭袰hatGPT比作一輛賽車,GPT-4就是它的發(fā)動(dòng)機(jī)?!鞍l(fā)動(dòng)機(jī)是核心技術(shù)。開車的人不須要知道發(fā)動(dòng)機(jī)的原理,也能在賽場上風(fēng)馳電掣?!?/p>
Bloom也能反映生成式AI模型的廣泛應(yīng)用潛力。Bourfoune說:“一年前,Bloom是唯一一個(gè)對學(xué)界完全開放的模型?!比魏稳硕伎梢韵螺dBloom并用于自己的研究。經(jīng)過多語種科學(xué)論文數(shù)據(jù)庫的訓(xùn)練,Bloom現(xiàn)在能幫學(xué)者輕松理解外語論文。Cornette補(bǔ)充道:“Bloom的開發(fā)團(tuán)隊(duì)還發(fā)起了一個(gè)叫Bigcode的項(xiàng)目,用于計(jì)算機(jī)代碼自動(dòng)生成。只要簡單地描述代碼的功能,Bigcode就可以用用戶指定的編程語言寫出具體的代碼。”
ChatGPT現(xiàn)在大受歡迎,表明一般用戶已經(jīng)意識到它的實(shí)用價(jià)值。為了與谷歌競爭,必應(yīng)已經(jīng)將GPT的聊天功能整合到其搜索引擎中,這種做法一定程度上能克服生成式AI“胡說八道”的缺點(diǎn):必應(yīng)聊天給出的答案中會(huì)標(biāo)注信息來源,便于用戶理解并驗(yàn)證內(nèi)容的可靠性。最近,Adobe將生成式AI模型集成到Photoshop、Illustrator等軟件中,展示了另一種新穎應(yīng)用。
03 激動(dòng)人心的未來
從當(dāng)前的應(yīng)用來看,生成式AI必將迎來令人振奮的未來,然而也有人擔(dān)心這一技術(shù)可能被濫用。Bourfoune承認(rèn):“任何技術(shù)有利必有弊。這就為什么OpenAI設(shè)置了多重安全屏障。” OpenAI的內(nèi)容政策也帶著這些安全因素的考量,因此在涉及ChatGPT運(yùn)作的許多問題上,OpenAI都選擇保持沉默。
對于仍處于起步階段的生成式AI技術(shù),Moulines表示:“我們在研究中清楚地知道技術(shù)還在起跑線上。生成式AI已經(jīng)能實(shí)際使用,這一點(diǎn)我們都覺得驚訝。”不過,技術(shù)仍有許多法律監(jiān)管等各方面的空白有待填補(bǔ)。由于生成式AI以現(xiàn)有內(nèi)容數(shù)據(jù)庫為基礎(chǔ)生成內(nèi)容,可能會(huì)“剽竊”他人的作品,而不提及原作者的姓名。“以既有內(nèi)容創(chuàng)作新作品,必須聲明原作來源。AI的行為涉嫌侵權(quán)?!?/p>
盡管生成式AI有各種局限性,但潛力依舊巨大。Moulines 說:“想到未來這一領(lǐng)域可能發(fā)生的突破,我心情十分激動(dòng)。生成式AI的發(fā)展勢不可擋,衍生應(yīng)用將如雨后春筍般出現(xiàn)?,F(xiàn)在大家都在爭相開發(fā)新技術(shù),進(jìn)展很快?!?Bloom就屬于一種衍生應(yīng)用,既能促進(jìn)科學(xué)家之間的跨語種交流,又能將論文翻譯成稀有小語種,促進(jìn)科研結(jié)果的傳播,還有望用于保存瀕臨滅亡的語言。
不過,在激動(dòng)之余,不能忽視生成式AI的碳足跡。Moulines解釋:“這些模型須要存儲大量數(shù)據(jù),故需要大量內(nèi)存。根據(jù)我們的估算,OpenAI消耗的能量相當(dāng)于比利時(shí)整個(gè)國家電網(wǎng)的耗能?!蔽磥恚芎目赡軙?huì)是生成式AI發(fā)展道路上最大的阻礙。