文|經(jīng)緯創(chuàng)投
3月29日,由圖靈獎(jiǎng)得主Yoshua Bengio、特斯拉CEO馬斯克、紐約大學(xué)名譽(yù)教授Gary Marcus、UC伯克利教授Stuart Russell等1000多人,在一封叫停GPT-4后續(xù)AI大模型的公開信上簽名。
這封公開信指出,最近人工智能陷入了一場失控的競賽,模型的創(chuàng)造者們沒有辦法理解、預(yù)測(cè)或可靠地控制自己創(chuàng)造的大模型,人類社會(huì)對(duì)其可能造成的影響也沒有做好準(zhǔn)備。因此,公開信呼吁,所有AI實(shí)驗(yàn)室應(yīng)立即暫停訓(xùn)練比GPT-4更強(qiáng)大的AI模型,為期至少6個(gè)月。
一石激起千層浪,從各個(gè)AI群里的討論來看,贊同和反對(duì)的人都為數(shù)不少。我們一直在關(guān)注大語言模型,所以對(duì)這封公開信中提到的“但是沒有人能理解、預(yù)測(cè)或可靠地控制這些大模型,甚至模型的創(chuàng)造者也不能”頗有感觸,我想這個(gè)論斷背后的核心點(diǎn)之一,就是人類至今沒有搞清楚大語言模型中的“涌現(xiàn)”(Emergent)現(xiàn)象到底是怎么回事?AI為什么一下子變得如此智能?
過去幾十年來,AI能夠在局部領(lǐng)域打敗人類,比如圍棋,但在大多數(shù)時(shí)候,AI都沒那么聰明,比如你問它“李白喜歡用什么手機(jī)?”,它要么卡殼要么給出離譜回答。這是因?yàn)樽孉I掌握常識(shí),并且能夠融會(huì)貫通地運(yùn)用這些常識(shí)、形成推理能力非常難,一直以來這都是巨大的難題。
但這次以ChatGPT為代表的一眾大語言模型,突然突破了這個(gè)門檻,變得非?!奥斆鳌薄.?dāng)然背后的原因有很多,比如自監(jiān)督學(xué)習(xí)、Fine-tuning策略等等,但有一個(gè)重要的底層變化——大語言模型的“涌現(xiàn)”(Emergent)現(xiàn)象,就是說一些業(yè)界從未想象到的能力,例如基礎(chǔ)的社會(huì)知識(shí)、上下文學(xué)習(xí)(ICL)、推理(CoT)等等,在訓(xùn)練參數(shù)和數(shù)據(jù)量超過一定數(shù)值后,這些能力突然出現(xiàn)了,令A(yù)I一下子變得非常智能。
“計(jì)算機(jī)科學(xué)之父”艾倫·麥席森·圖靈早在1950年的論文Computing machinery and intelligence(計(jì)算機(jī)器與智能),就提出過一個(gè)觀點(diǎn):“學(xué)習(xí)機(jī)器有一個(gè)重要的特征,即它的老師往往對(duì)機(jī)器內(nèi)部運(yùn)行情況一無所知?!?/p>
70多年后,這則恐怖的論斷成真了。大語言模型的設(shè)計(jì)者,比如OpenAI、DeepMind或是Meta,他們也不清楚這些新興能力是如何產(chǎn)生的。微軟在關(guān)于GPT-4的論文中提出了這個(gè)問題:它是如何推理、規(guī)劃和創(chuàng)造內(nèi)容的?為什么GPT-4本質(zhì)上只是由簡單的算法組件——梯度下降和大規(guī)模的Transformer架構(gòu),以及大量數(shù)據(jù)組合而成,但會(huì)表現(xiàn)出如此通用和靈活的智能?
微軟對(duì)GPT-4的這個(gè)問題,還可以延伸出很多新問題:涌現(xiàn)是在多大參數(shù)規(guī)模出現(xiàn)的?哪些調(diào)整會(huì)影響能力的涌現(xiàn)?會(huì)涌現(xiàn)出哪些方向的能力?我們能控制它嗎?……
搞清楚這些問題其實(shí)非常重要,短期的意義是,多大的模型規(guī)模是合適的?根據(jù)Chinchilla的論文,你可以對(duì)比在GPT-3的1750億參數(shù)中,可能是有不少冗余的,如果更小的模型也可以出現(xiàn)能力涌現(xiàn),這也許能削減訓(xùn)練成本。
長期的意義在于,AI目前還是在線上,但遲早會(huì)與物理世界連接,你可以想象一個(gè)基于GPT-10的ChatGPT與波士頓動(dòng)力或者特斯拉的機(jī)器人結(jié)合嗎?這或許在不遠(yuǎn)的將來就能實(shí)現(xiàn)。但如果涌現(xiàn)依然是一個(gè)黑箱,人類無法理解人工智能的進(jìn)化方式或是方向,這在未來AI與物理世界連接后,恐怕會(huì)存在危險(xiǎn)。
目前,學(xué)界與產(chǎn)業(yè)界有幾十篇論文在研究涌現(xiàn)現(xiàn)象,或是研究模型規(guī)模與性能之間的聯(lián)系,我們?cè)诒疚闹袝?huì)引用一些核心觀點(diǎn),在文末的注釋中會(huì)列出這些論文的簡介與鏈接,供感興趣的朋友們進(jìn)一步研究。本篇文章會(huì)主要討論這些問題:
● 大語言模型令人震驚的理解和推理能力
● 當(dāng)我們加大模型規(guī)模時(shí),出現(xiàn)的三種神奇表現(xiàn)
● 兩種被證明具備“涌現(xiàn)”的典型能力:上下文學(xué)習(xí)(ICL)和思維鏈(CoT)
● 多大的模型規(guī)模會(huì)出現(xiàn)“涌現(xiàn)”?
大語言模型的涌現(xiàn)現(xiàn)象,在一定規(guī)模后迅速涌現(xiàn)出新能力;圖片來源:Google、Stanford、DeepMind:Emergent Abilities of Large Language Models
01 大語言模型令人震驚的理解和推理能力
最近幾個(gè)月里,硅谷一夜之間出現(xiàn)了幾百家應(yīng)用層的創(chuàng)業(yè)公司,但在去年11月OpenAI發(fā)布ChatGPT之前,整個(gè)市場并沒有意識(shí)到人工智能會(huì)在這個(gè)時(shí)刻,出現(xiàn)這樣的爆發(fā)。
并且大語言模型的迭代速度非常驚人,OpenAI在三個(gè)半月后,就即刻發(fā)布了GPT-4,升級(jí)到多模態(tài),GPT-4竟然可以從文字+圖片中,理解人類的幽默感。這些里程碑式的進(jìn)化背后,核心是涌現(xiàn)現(xiàn)象的出現(xiàn),只有AI涌現(xiàn)出了這些能力,AI產(chǎn)業(yè)才真正迎來了拐點(diǎn)。
給GPT-4提問:你能解釋一下作者想表達(dá)什么嗎?
GPT-4說:這是一個(gè)笑話,它結(jié)合了兩個(gè)不相關(guān)的東西:從太空看地球的圖片和雞塊。文字表明,下面的圖片是從太空看地球的美麗圖片。然而,該圖片實(shí)際上是雞塊的排列,只是有點(diǎn)像世界地圖。這個(gè)備忘錄的幽默來自文本和圖片的意外并置,文字設(shè)置了一個(gè)對(duì)地球雄偉形象的期望,但圖像實(shí)際上是一些平凡而愚蠢的東西。
上面這個(gè)例子證明了GPT-4具備多模態(tài)的理解力,可以識(shí)別并理解圖片,以及理解了文字+圖片并行的意思,并且懂得人類的幽默感。我們?cè)倥e兩個(gè)例子,來證明GPT-4具備知識(shí)沉淀與推理能力:
黃色標(biāo)記突出了關(guān)鍵的成功推理步驟;圖片來源:Sparks of Articial General Intelligence:Early experiments with GPT-4,Microsoft
這是給GPT-4出的一個(gè)典型謎題:一個(gè)獵人向南走了一英里,向東走了一英里,向北走了一英里,此時(shí)恰好回到了起點(diǎn)。他看到了一只熊,于是開槍打了它。這只熊是什么顏色的?
我們看到ChatGPT直接放棄了回答,但GPT-4的回答是正確的,答案是白色,并且GPT-4展開推理分析:因?yàn)楂C人先向南,再向東最后向北,分別走了一英里,恰好回到了原點(diǎn),這種情況只可能發(fā)生在北極,而那里生活著北極熊,所以是白色的。
我們?cè)倥e一個(gè)類似的例子,但這個(gè)謎題需要不同的知識(shí)積累:我駕駛一架飛機(jī)離開我的營地,直接向東飛行24901英里,然后回到營地。當(dāng)我回到營地時(shí),看到一個(gè)老虎在我的帳篷里吃我的食物,這只老虎是什么物種?
黃色標(biāo)記突出了關(guān)鍵的成功推理步驟;圖片來源:Sparks of Articial General Intelligence:Early experiments with GPT-4,Microsoft
同樣的,ChatGPT直接放棄了回答,但GPT-4給出了正確的答案:任何生活在赤道上的老虎物種,例如孟加拉虎和蘇門答臘虎。在這個(gè)謎題里,AI需要知道地球赤道長24901英里,只有在赤道上才能向東或向西行駛并返回同一點(diǎn),以及哪些老虎物種生活在赤道上。
這些測(cè)試都證明了AI具備知識(shí)沉淀和推理能力,這也是AI首次真正意義上跨過常識(shí)這道門檻。擁有常識(shí)要求AI不僅能夠看懂眼前畫面里的各種東西,還得知道社會(huì)規(guī)范、物理化學(xué)地理等等知識(shí),并且把新看到和已知的一切融會(huì)貫通,這是之前十幾年AI產(chǎn)業(yè)都沒有解決的問題,所以之前的AI都有點(diǎn)“智障”,直到GPT-4出現(xiàn)。
為什么AI會(huì)涌現(xiàn)出這些能力?目前學(xué)界還沒有答案。不過,有一些探索性的研究論文,在嘗試得出一些結(jié)論。例如Google+DeepMind+Stanford等16位大牛合作的論文《Emergent Abilities of Large Language Models》(大語言模型的涌現(xiàn)能力)、UCLA 3位教授合寫的論文《Emergent Analogical Reasoning in Large Language Models》(類比推理能力在大語言模型中的涌現(xiàn))。
以及,到底如何評(píng)估大語言模型的能力表現(xiàn)?在哪些任務(wù)上會(huì)出現(xiàn)涌現(xiàn)現(xiàn)象?Google在2022年做了一項(xiàng)重要的基準(zhǔn)測(cè)試。研究人員設(shè)計(jì)了一個(gè)大規(guī)模、非常復(fù)雜且具有多樣化的基準(zhǔn)測(cè)試——超越模仿游戲基準(zhǔn)(Beyond the Imitation Game Benchmark,BIG-bench),以在這個(gè)新基準(zhǔn)之上衡量大模型的性能。
這是一項(xiàng)非常重要的研究,它包含了204項(xiàng)任務(wù),內(nèi)容多種多樣,包括語言學(xué)、數(shù)學(xué)、常識(shí)推理、生物學(xué)、物理學(xué)、社會(huì)學(xué)、編程等各個(gè)方面,并且還有一個(gè)由人類專家組成的對(duì)照組,他們也同時(shí)來做這些測(cè)試任務(wù),以跟大模型的結(jié)果做對(duì)比。
BIG-bench對(duì)很多大模型做了測(cè)試,包括OpenAI的GPT-3、Google的BIG-G等等,模型規(guī)模參數(shù)有百萬級(jí)別的,也有千億級(jí)別的。這項(xiàng)任務(wù)的主要目標(biāo),不是簡單地判斷大模型與人類的區(qū)別,而是為了研究與大模型行為相關(guān)的問題。這篇論文的很多結(jié)論很有意思,其中就有對(duì)“涌現(xiàn)”現(xiàn)象的研究,我們?cè)诤笪闹袝?huì)介紹。
還有一些對(duì)大語言模型參數(shù)規(guī)模與性能之間聯(lián)系的研究,比如DeepMind在21位作者合寫的論文《Training Compute-Optimal Large Language Models》(訓(xùn)練計(jì)算利用率最優(yōu)的大語言模型)中,闡釋了盡管大型語言模型隨著規(guī)模的增長,實(shí)現(xiàn)了性能的大幅增強(qiáng),但由于訓(xùn)練它們的數(shù)據(jù)量并沒有相應(yīng)成比例地增加,所以并沒有實(shí)現(xiàn)最高的投入產(chǎn)出比,很多大語言模型都存在訓(xùn)練不足的問題。
這篇論文也很有意思,它的背景是DeepMind此前發(fā)布了2800億參數(shù)的Gopher,他們統(tǒng)計(jì)了Gopher高昂的訓(xùn)練成本,但預(yù)測(cè)出最優(yōu)模型應(yīng)該小4倍,并且在多4倍的數(shù)據(jù)量上進(jìn)行訓(xùn)練,才能更充分。然后Deepmind又訓(xùn)練了一個(gè)更小的、700億參數(shù)的模型Chinchilla,但在更大規(guī)模的數(shù)據(jù)量上訓(xùn)練,最終證實(shí)了這個(gè)想法,Chinchilla的性能不輸于Gopher。
還有OpenAI 10位作者合寫的論文《Scaling Laws for Neural Language Models》;Microsoft 14位作者合寫的GPT-4論文《Sparks of Articial General Intelligence:Early experiments with GPT-4》;Meta 11位作者合寫的論文《LLaMA:Open and Efficient Foundation Language Models》,LLaMA是一個(gè)值得關(guān)注的大模型,因?yàn)镸eta一次性發(fā)布了四種尺寸:7B、13B、33B和65B,有助于研究模型規(guī)模與性能之間的聯(lián)系。
目前對(duì)于涌現(xiàn),最核心的判斷來自Google+DeepMind+Stanford的論文《Emergent Abilities of Large Language Models》:小語言模型本來不具備某種能力,然后我們把模型加大,結(jié)果它就產(chǎn)生了某種能力,這就是涌現(xiàn)。
02 當(dāng)我們加大模型規(guī)模時(shí),出現(xiàn)的三種神奇表現(xiàn)
在2020年之后,人工智能領(lǐng)域最大的進(jìn)展,其實(shí)就是模型規(guī)模的快速增長。在AI圍棋打敗人類棋手時(shí)代,Google Bert的參數(shù)規(guī)模在3億量級(jí)。但到了2020年之后,GPT-3跨越到了1750億參數(shù)規(guī)模。而Google在今年初新出的PaLM多模態(tài)模型,都在5000億以上。當(dāng)然模型規(guī)模不僅僅是越大越好,還需要足夠高的訓(xùn)練效率。
近年來,大語言模型在參數(shù)規(guī)模和算力上都大幅提升;圖片來源:BofA Global Research
當(dāng)我們不斷加大模型規(guī)模時(shí),大語言模型出現(xiàn)了三種表現(xiàn):
第一種是大語言模型從海量自由文本中學(xué)習(xí)了大量知識(shí),并且是在不斷積累的。從下圖我們可以看到,隨著有效參數(shù)規(guī)模的提升,大語言模型在處理知識(shí)密集型任務(wù)越來越厲害。
知識(shí)密集型任務(wù)遵循伸縮法則;圖片來源:Google BIG-bench:Beyond The Imitation Game: Quantifying And Extrapolating The Capabilities Of Language Models
如果把這些知識(shí)粗略分類的話,主要是語言類知識(shí)和世界知識(shí)兩大類。自從Google的Bert出現(xiàn)以來,就不斷有相關(guān)研究,并且也有了結(jié)論,各種實(shí)驗(yàn)充分證明大語言模型可以學(xué)習(xí)各種層次類型的語言學(xué)知識(shí),這也是為何使用預(yù)訓(xùn)練模型后,各種語言理解類的任務(wù),獲得了大幅提升。
另外,各種研究也證明了淺層語言知識(shí),比如詞法、詞性、句法等知識(shí)存儲(chǔ)在Transformer的低層和中層,而抽象的語言知識(shí)比如語義類知識(shí),廣泛分布在Transformer的中層和高層結(jié)構(gòu)中。
世界知識(shí)指的是,一些事實(shí)型知識(shí)和常識(shí)型知識(shí),比如“第一次世界大戰(zhàn)開始于1914年7月28日”、“拿破侖曾經(jīng)是法蘭西皇帝”等等事實(shí)型知識(shí);以及“人有兩只眼睛”、“太陽從東方升起”、“世界有五大洲”“一天有24小時(shí)”等等常識(shí)型知識(shí),大量研究證明了大語言模型,從訓(xùn)練數(shù)據(jù)中吸收了大量世界知識(shí),而這類知識(shí)主要分布在Transformer的中層和高層,尤其聚集在中層。
一篇2021年的論文顯示,研究人員通過分層探測(cè)程序,來研究Google基于Transformer架構(gòu)的Bert是如何儲(chǔ)存知識(shí)的,發(fā)現(xiàn)并不是所有知識(shí)都在最后幾層獲得,大量的事實(shí)與一些關(guān)系更多是在中間層,比如給Bert一個(gè)問題“阿拉巴馬州的首府是?”,在Transformer的架構(gòu)中,可以發(fā)現(xiàn)正確答案“蒙哥馬利(Montgomery,上圖中標(biāo)紅)”是儲(chǔ)存在11層和12層之間,但一些邏輯推理中所需要的詞匯,比如located(位于)、today(今天)、city(判斷任務(wù)中的capital這個(gè)詞,此時(shí)指的是城市),以及其他地名知識(shí)Gaveston(加爾維斯敦,美國得克薩斯州東南部港市)、Haifa(以色列城市海法)等等,儲(chǔ)存在5-11層之間。
圖片來源:BERTnesia:Investigating the capture and forgetting of knowledge in BERT
更重要的是,隨著Transformer模型層深增加,能夠?qū)W習(xí)到的知識(shí)數(shù)量逐漸以指數(shù)級(jí)增加。以色列特拉維夫大學(xué)、Allen Institute for AI、Cornell Tech的4位學(xué)者,在一篇論文中研究了Transformer到底是如何儲(chǔ)存這些知識(shí)?以及如何對(duì)全局信息進(jìn)行集成、如何建立知識(shí)與知識(shí)之間的聯(lián)系、在使用時(shí)如何提取。
這個(gè)研究揭示了大語言模型如何預(yù)測(cè)下一個(gè)詞,比如這個(gè)任務(wù)中,需要預(yù)測(cè)Stay with you for a ?,我們知道答案是while,但大語言模型如何預(yù)測(cè)出來?首先輸入向量(這里是x5),與key相乘,上圖中“k2”是由描述一段時(shí)期(it will take a、every once in a、and for a)、并且以a為結(jié)尾的輸入觸發(fā)的,得出記憶系數(shù)(例如V1的記憶系數(shù)是0.2,V2是1.5),然后對(duì)儲(chǔ)存在數(shù)值中的輸出詞匯進(jìn)行權(quán)重分配,因此前饋層(feed-forward layer)的輸出是其數(shù)值的加權(quán)和,而前饋層在這個(gè)過程中模擬了神經(jīng)記憶。在這個(gè)例子中,AI將大部分概率放在了V2上,也就是“while”這個(gè)詞。同時(shí),研究者發(fā)現(xiàn)大模型作為一個(gè)整體,每個(gè)層結(jié)合了數(shù)百個(gè)活躍的記憶,在預(yù)測(cè)的過程中創(chuàng)造了每個(gè)組成記憶的值的概率發(fā)布,而層與層之間也有著某種鏈接以便調(diào)整,最終的輸出分布是以自下而上的方式構(gòu)建出來的。
圖片來源:Transformer Feed-Forward Layers Are Key-Value Memories
能證明大語言模型是有知識(shí)沉淀的,其實(shí)非常重要。OpenAI為什么能一直堅(jiān)持做大語言模型?在發(fā)展的前期,GPT其實(shí)讓OpenAI非常受挫,GPT-1和GPT-2都沒能勝過Google的Bert,直到GPT-3才揚(yáng)眉吐氣。
在這個(gè)有點(diǎn)“對(duì)抗全世界”的過程中,一顆定心丸就是“大語言模型確實(shí)在不斷積累知識(shí)”,如果沒有這些,OpenAI可能很難堅(jiān)持下來。試想一下,如果你拿大量數(shù)據(jù)訓(xùn)練了很久,最后卻發(fā)現(xiàn)沒有證據(jù)證明這個(gè)大模型學(xué)會(huì)了任何知識(shí)和推理,只是學(xué)習(xí)到了統(tǒng)計(jì)相關(guān)性,那誰還會(huì)一直有決心堅(jiān)持下去呢?所以ChatGPT的成功,不單單是OpenAI獨(dú)立實(shí)現(xiàn)的。
目前在知識(shí)密集型任務(wù)上,隨著模型規(guī)模增長而帶來的效果提升,還沒有看到盡頭,這也意味著只要我們不斷擴(kuò)大,AI處理這類任務(wù)的能力還會(huì)提升。
另外,OpenAI也在研究中得出了類似的結(jié)論。在論文Scaling Laws for Neural Language Models中,OpenAI提出了大語言模型遵循“伸縮法則”(scaling law)。如下圖所示,OpenAI通過研究證明,當(dāng)我們?cè)黾訁?shù)規(guī)模、數(shù)據(jù)集規(guī)模和延長模型訓(xùn)練時(shí)間,大語言建模的性能就會(huì)提高。并且,如果獨(dú)立進(jìn)行,不受其他兩個(gè)因素影響時(shí),大模型性能與每個(gè)單獨(dú)的因素都有一個(gè)冪律關(guān)系,體現(xiàn)為Test Loss的降低,也就是模型性能提升。
當(dāng)我們獨(dú)立增加參數(shù)規(guī)模、數(shù)據(jù)集規(guī)模和延長模型訓(xùn)練時(shí)間,大語言建模的性能就會(huì)提高;圖片來源:OpenAI:Scaling Laws for Neural Language Models
在上一步的基礎(chǔ)上,第二類就是涌現(xiàn)出新能力。具體體現(xiàn)為,在模型參數(shù)規(guī)模不夠大時(shí),AI的能力表現(xiàn)非常一般,準(zhǔn)確性幾乎是隨機(jī)的。但是當(dāng)模型規(guī)模和計(jì)算力都推進(jìn)到一定規(guī)模之后,AI的能力突然急劇增長。經(jīng)過分析,這類能力也有一個(gè)共性,就是這類任務(wù)都是由多個(gè)步驟構(gòu)成的一個(gè)復(fù)雜任務(wù),比如語詞檢測(cè)、國際音標(biāo)音譯、周期性運(yùn)算、修正算術(shù)、單詞解讀等等。
多步驟推理類任務(wù)中,也具有涌現(xiàn)能力;圖片來源:Google BIG-bench:Beyond The Imitation Game: Quantifying And Extrapolating The Capabilities Of Language Models
第三種表現(xiàn)是有些情況下,能力效果會(huì)呈現(xiàn)U型曲線。這類情況出現(xiàn)的比較少,主要是隨著模型規(guī)模加大,剛開始的時(shí)候效果反而下降,但當(dāng)規(guī)模到了一定程度之后,效果又開始上升。
圖片來源:Google:Inverse scaling can become U-shaped
如上圖中紅色線代表的PaLM模型,在兩個(gè)任務(wù)上的指標(biāo)走勢(shì),為何會(huì)出現(xiàn)U型曲線?Google的論文Inverse scaling can become U-shaped給出了一種解釋:這些任務(wù),內(nèi)部其實(shí)包含了兩種不同類型的子任務(wù),一種是真正的任務(wù),另外一種是“干擾任務(wù)”。
當(dāng)模型規(guī)模小的時(shí)候,無法識(shí)別子任務(wù)是哪一種,所以模型的表現(xiàn)跟隨機(jī)選擇答案差不多;當(dāng)模型增長到中等規(guī)模的時(shí)候,主要執(zhí)行的是干擾任務(wù),所以對(duì)真正的任務(wù)效果有負(fù)面影響;當(dāng)進(jìn)一步增加模型規(guī)模,大模型開始識(shí)別出干擾任務(wù),并忽略掉它們,執(zhí)行真正的任務(wù),最終結(jié)果的準(zhǔn)確率上升。
03 兩種被證明具備“涌現(xiàn)”的典型能力:上下文學(xué)習(xí)(ICL)和思維鏈(CoT)
目前有兩類最典型的能力,有實(shí)際證據(jù)來說明大模型具備涌現(xiàn)效應(yīng)。
第一類就是In Context Learning(ICL,上下文學(xué)習(xí)),ICL是在2022年初正式提出來的,它也是ChatGPT熱潮的重要基石之一。
ICL的關(guān)鍵思想是不對(duì)模型參數(shù)進(jìn)行調(diào)整,而是給大模型幾個(gè)示例,AI就可以從類比中學(xué)習(xí)。這也意味著,AI其實(shí)并沒有經(jīng)歷一個(gè)明確的學(xué)習(xí)過程,而是通過看了一些示例,就出現(xiàn)了解決該領(lǐng)域問題的新能力。
ICL對(duì)大語言模型能否泛化非常重要。在ICL之前,很多語言模型都是兩段式框架,即預(yù)訓(xùn)練+下游任務(wù)微調(diào),但是在針對(duì)下游任務(wù)的微調(diào)過程中,需要大量的樣本參數(shù),否則效果很差,然而標(biāo)注數(shù)據(jù)的成本高昂、標(biāo)注量有限,并且如果數(shù)據(jù)較少的話,容易導(dǎo)致過擬合,致使模型的泛化能力下降。此時(shí)ICL這種不需要fine-tune的方法既節(jié)省時(shí)間與算力資源,還提升了模型性能。
In Context Learning示例。圖片來源:華盛頓大學(xué)、Meta、Allen Institute for AI:Rethinking the Role of Demonstrations: What Makes In-Context Learning Work?
上圖給出了一個(gè)大語言模型如何使用ICL進(jìn)行決策的例子。首先,ICL需要一些示例來形成一個(gè)演示上下文,這些示例通常都是用自然語言編寫的(上圖中標(biāo)黃的部分)。然后ICL將查詢的問題(即你需要預(yù)測(cè)標(biāo)簽的input,上圖中標(biāo)綠的部分)和一個(gè)上下文演示(一些相關(guān)的例子)連接在一起,形成帶有提示的輸入,并將其輸入到語言模型中進(jìn)行預(yù)測(cè)(上圖中最下方的結(jié)果)。
所以,ICL只需要一些演示「輸入-標(biāo)簽」對(duì),模型就可以預(yù)測(cè)標(biāo)簽,甚至是沒見過的輸入標(biāo)簽。在許多下游任務(wù)中,大型 GPT模型的性能非常好,甚至超過了一些經(jīng)過監(jiān)督微調(diào)的小型模型。
不過,雖然GPT-3/4已經(jīng)顯示出令人驚訝的ICL能力,但它到底是如何工作的?這些能力是如何涌現(xiàn)出來的?現(xiàn)在還沒有結(jié)論。
還有很神秘的一點(diǎn)是,如果說大模型只是看了一些示例,但怎么就能預(yù)測(cè)對(duì)新的例子呢?ICL與Fine-tuning表面上看,都是給大模型一些例子,然后讓它們?nèi)ヮA(yù)測(cè),但兩者有本質(zhì)不同。Fine-tuning是拿這些例子當(dāng)作訓(xùn)練數(shù)據(jù),利用反向傳播去修正大模型的參數(shù),而這個(gè)修正的動(dòng)作,體現(xiàn)了大模型從這些例子中有學(xué)習(xí)過程。
但在ICL中,只是拿出例子讓大模型“看了一眼”,并沒有證據(jù)表明大模型有根據(jù)例子去修正參數(shù)的動(dòng)作,就直接讓大模型去預(yù)測(cè)新例子,這意味著大模型似乎并未經(jīng)歷一個(gè)學(xué)習(xí)的過程,那么大模型是如何做到的?
這目前還是未解之謎。有學(xué)者試圖證明ICL沒有從例子中學(xué)習(xí),代表論文是華盛頓大學(xué)、Meta與Allen Institute for AI的7位研究者所寫的Rethinking the Role of Demonstrations:What Makes In-Context Learning Work?。但也有學(xué)者認(rèn)為大模型其實(shí)有一種隱式學(xué)習(xí),代表論文是What learning algorithm is in-context learning? Investigations with linear models。目前這些互相矛盾的研究,暫時(shí)還誰也說服不了誰。
第二類被廣泛認(rèn)為具備涌現(xiàn)能力的就是CoT(思維鏈,Chain of Thought),CoT是大語言模型推理能力的重要來源之一。
CoT的主體思想是:為了教會(huì)大語言模型如何做推理,我們先給出一些人工寫好的推理示例,示例里要把一步步的具體推理步驟寫清楚,而這些人工寫的詳細(xì)推理過程,就是思維鏈Prompting。
圖片來源:Google Brain Team:Chain of thought prompting elicits reasoning in large language models
最早系統(tǒng)性提出CoT做法的,是Google Brain團(tuán)隊(duì),9位作者在論文Chain of thought prompting elicits reasoning in large language models中系統(tǒng)性闡述了CoT。人工寫的詳細(xì)推理過程,就是上圖中藍(lán)色文字部分。
CoT是要讓大語言模型明白,在推理過程中,步子不要邁得太大,否則很容易出錯(cuò),而是要把大問題拆分成一個(gè)一個(gè)小問題,逐步得出最終的正確結(jié)果。Google Brain的這篇論文發(fā)布于2022年1月,開始應(yīng)用CoT后,一些改進(jìn)技術(shù)很快跟上,大語言模型的推理能力得到了巨大提升,特別是像數(shù)學(xué)推理的準(zhǔn)確率瞬間提高。
我們?cè)谏衔姆治鲞^,通過海量數(shù)據(jù)訓(xùn)練,大語言模型吸收了大量世界知識(shí),并且可以對(duì)全局信息進(jìn)行集成、建立知識(shí)與知識(shí)之間的聯(lián)系、在需要使用時(shí)準(zhǔn)確提取。但我們不會(huì)因?yàn)橐粋€(gè)人擁有很強(qiáng)的記憶能力,就說這個(gè)人很有智慧,而決定有沒有智慧的,是這個(gè)人能不能通過大量知識(shí)推理出準(zhǔn)確結(jié)論。
所以CoT是ChatGPT如此驚艷的重要基礎(chǔ),已經(jīng)有不少研究證實(shí),CoT也具備涌現(xiàn)現(xiàn)象。
使用CoT提示,提高了大模型處理數(shù)學(xué)問題、符號(hào)推理任務(wù)的能力,出現(xiàn)了能力涌現(xiàn)現(xiàn)象。圖片來源:Google Brain:Chain-of-Thought Prompting Elicits Reasoning in Large Language Model。
使用CoT提示,還提高了大模型的常識(shí)推理能力,也出現(xiàn)了能力涌現(xiàn)現(xiàn)象。圖片來源:Google Brain:Chain-of-Thought Prompting Elicits Reasoning in Large Language Model。
如今GPT-4已經(jīng)在很多人類的考試中取得了高分,比如SAT、AP、GRE等等,甚至還通過了模擬律師考試,分?jǐn)?shù)在應(yīng)試者的前10%左右。
圖片來源:OpenAI:GPT-4 Technical Report
一些能力涌現(xiàn)舉例。圖片來源:Google、Stanford、DeepMind:Emergent Abilities of Large Language Models
不過目前大模型在復(fù)雜推理方面仍然有局限性。無論是微軟在論文Sparks of Artificial General Intelligence:Early experiments with GPT-4中,還是加州大學(xué)圣芭芭拉分校5位研究者的論文Limitations of Language Models in Arithmetic and Symbolic Induction,都提出了大語言模型在解決問題時(shí)的規(guī)劃能力偏弱。
比如對(duì)于一個(gè)簡單算術(shù)問題,7*4+8*8=?,GPT-4就給出了錯(cuò)誤答案88。微軟用了100個(gè)隨機(jī)樣本測(cè)試了這個(gè)任務(wù),得到的準(zhǔn)確率只有58%,但這其實(shí)是一個(gè)小學(xué)生都可以解決的簡單算術(shù)問題。如果把數(shù)字變大,到99-199 之間,準(zhǔn)確率降至零。
圖片來源:Microsoft:Sparks of Artificial General Intelligence:Early experiments with GPT-4
但如果我們提示大模型要規(guī)劃好推理步驟,比如這個(gè)更難一點(diǎn)的任務(wù):116 * 114 + 178 * 157 =?,我們這次同時(shí)寫上提示推理步驟:“讓我們一步一步地考慮如何解決這個(gè)表達(dá)式,寫下所有中間步驟,然后才得出最終解決方案。”
于是準(zhǔn)確率大幅提升,可以到90%-100%。這其實(shí)說明了,大模型自身缺乏提前規(guī)劃的能力,這種能力的缺失,會(huì)導(dǎo)致大模型很難去處理更加復(fù)雜的推理任務(wù)。總之,如何加強(qiáng)大模型的復(fù)雜推理能力,是未來研究中非常重要的一點(diǎn)。
04 多大的模型規(guī)模會(huì)出現(xiàn)“涌現(xiàn)”?
我們?cè)谏衔姆治隽舜竽P驮谀男┤蝿?wù)中出現(xiàn)了涌現(xiàn)現(xiàn)象,緊接著一個(gè)更具有短期價(jià)值的問題出現(xiàn)了——多大的模型規(guī)模會(huì)出現(xiàn)“涌現(xiàn)”現(xiàn)象?
根據(jù)Google、Stanford、DeepMind的論文Emergent Abilities of Large Language Models,我們可以得出一個(gè)經(jīng)驗(yàn)判斷:68B是一個(gè)基礎(chǔ)的參數(shù)(params)門檻(B代表單位billions,十億),最好要超過100B。當(dāng)然這與具體的任務(wù)和模型本身都有關(guān)聯(lián)。
在ICL(上下文學(xué)習(xí))的情形下,需要最少參數(shù)就能出現(xiàn)涌現(xiàn)的任務(wù)是Addition/ subtraction(3 digit),也就是三位數(shù)的加/減法,只需要130億參數(shù);而像在Word in Context(WiC)benchmark(多義詞判斷,該任務(wù)是指給定兩個(gè)文本片段和一個(gè)有多重含義的多義詞,要求模型判定這個(gè)單詞是否在兩個(gè)句子中有相同的含義)這樣的稍復(fù)雜任務(wù)中,則需要5400億參數(shù)才能出現(xiàn)涌現(xiàn)。
ICL情形下,出現(xiàn)能力涌現(xiàn)所對(duì)應(yīng)的模型規(guī)模。圖片來源:Google、Stanford、DeepMind:Emergent Abilities of Large Language Models
而在CoT(思維鏈)的情形下,需要最小參數(shù)的任務(wù)是using open-book knowledge for fact checking(事實(shí)核查),只需要71億;而leveraging explanations in prompting(在提示中利用解釋詞)則需要2800億參數(shù)才能涌現(xiàn)這個(gè)能力。
CoT情形下,出現(xiàn)能力涌現(xiàn)所對(duì)應(yīng)的模型規(guī)模。圖片來源:Google、Stanford、DeepMind:Emergent Abilities of Large Language Models
所以綜合來看,68B是一個(gè)最基礎(chǔ)的門檻。而目前效果最好的大語言模型,其參數(shù)規(guī)?;径汲^了100B。例如OpenAI的GPT-3為175B,GPT-4的參數(shù)規(guī)模未公布;Google的LaMDA規(guī)模為137B,PaLM的規(guī)模為540B,DeepMind的Gogher規(guī)模最大,達(dá)到280B。當(dāng)然,參數(shù)規(guī)模不是盲目地越大越好,而是要充分訓(xùn)練。
那么能不能把模型做小?我們知道,現(xiàn)在大模型的訓(xùn)練成本非常高昂,無論是算力還是高質(zhì)量的數(shù)據(jù)集本身都是稀缺資源,動(dòng)輒百萬美元的單次訓(xùn)練成本對(duì)大多數(shù)公司來說都太貴了。但是如果模型太小,很多能力涌現(xiàn)不出來,又會(huì)變成“智障”,所有訓(xùn)練成本都白費(fèi)。
目前小模型的代表之一是DeepMind的Chinchilla,它的參數(shù)規(guī)模在70B,但在各項(xiàng)性能上,與280B的大模型Gopher相差不算太大。當(dāng)然這里的“小”模型,只是相對(duì)于更大參數(shù)規(guī)模的模型而言,Chinchilla本身也還是屬于大語言模型。
Gopher也是DeepMind發(fā)布的大模型,由于模型規(guī)模太大,所以訓(xùn)練成本非常高昂。不過Google通過一項(xiàng)研究,預(yù)測(cè)出了最優(yōu)模型其實(shí)應(yīng)該小4倍,并且在多4倍的數(shù)據(jù)量上進(jìn)行訓(xùn)練,才能更充分。
于是DeepMind又訓(xùn)練了一個(gè)更小的、70B參數(shù)的模型Chinchilla,但在更大規(guī)模的數(shù)據(jù)量上訓(xùn)練,最終證實(shí)了這個(gè)想法。不過在訓(xùn)練成本方面,Chinchilla雖然減少了參數(shù)規(guī)模,但增加了數(shù)據(jù)量,所以訓(xùn)練成本并沒有降低,而是降低了推理成本,并且能夠在更小硬件上實(shí)現(xiàn)應(yīng)用。
各個(gè)主流大模型的參數(shù)規(guī)模與訓(xùn)練數(shù)據(jù)量對(duì)比,Chinchilla參數(shù)規(guī)模最小,但訓(xùn)練數(shù)據(jù)量最大。圖片來源:DeepMind:Training Compute-Optimal Language Models
Chinchilla也具備涌現(xiàn)能力。圖片來源:Google、Stanford University、DeepMind:Emergent Abilities of Large Language Models。
如上圖所示,可見Chinchilla在各種MMLU任務(wù)(是一種自然語言處理的綜合任務(wù),其中有很多子任務(wù))中,具備涌現(xiàn)能力。
圖片來源:DeepMind:Training Compute-Optimal Language Models
在Google BIG-bench基準(zhǔn)測(cè)試中,如上圖所示(上圖是用Chinchilla的測(cè)試得分除以Gopher,以體現(xiàn)Chinchilla比Gopher提升了多少),70B參數(shù)規(guī)模的Chinchilla,比起280B參數(shù)規(guī)模的Gopher,只有四項(xiàng)任務(wù)表現(xiàn)更差,其他在性能上都更優(yōu)。
這里就涉及到了一個(gè)核心問題——算力如何分配?我們?cè)谏衔慕榻B“伸縮法則”時(shí),提到過OpenAI在論文Scaling Laws for Neural Language Models中得出結(jié)論,當(dāng)我們獨(dú)立增加參數(shù)規(guī)模、數(shù)據(jù)集規(guī)模和延長模型訓(xùn)練時(shí)間,大語言建模的性能就會(huì)提高。那么假設(shè)總算力是一定的,到底是應(yīng)該多增加數(shù)據(jù)量、減少模型參數(shù)呢?還是兩者同時(shí)增加,但減少訓(xùn)練時(shí)間呢?
最終OpenAI選擇了同時(shí)增加訓(xùn)練數(shù)據(jù)量和模型參數(shù),但是采用早停策略(early stopping),來減少訓(xùn)練時(shí)長。
OpenAI證明了,如果只單獨(dú)增加訓(xùn)練數(shù)據(jù)量和模型參數(shù)其中某一個(gè),不是最好的選擇,而是要按照一定比例同時(shí)增加兩者。OpenAI的結(jié)論是優(yōu)先增加模型參數(shù),然后才是訓(xùn)練數(shù)據(jù)量。假設(shè)用于訓(xùn)練大語言模型的算力總預(yù)算增加了10倍,那么應(yīng)該增加5.5倍的模型參數(shù)量,1.8倍的訓(xùn)練數(shù)據(jù)量,此時(shí)模型效果最佳。
DeepMind在論文Training Compute-Optimal Large Language Models中,也得出了類似的結(jié)論,但與OpenAI不同的是,DeepMind認(rèn)為訓(xùn)練數(shù)據(jù)量也很重要,不亞于模型參數(shù)。
基于這個(gè)認(rèn)知,DeepMind在設(shè)計(jì)Chinchilla模型時(shí),在算力分配上選擇了新配置:對(duì)標(biāo)數(shù)據(jù)量300B、模型參數(shù)量280B的Gopher模型,Chinchilla選擇增加4倍的訓(xùn)練數(shù)據(jù)量,但是將模型參數(shù)降低為Gopher的四分之一(70B)。從結(jié)果來看,無論是預(yù)訓(xùn)練指標(biāo),還是很多下游任務(wù)指標(biāo),Chinchilla效果都要優(yōu)于規(guī)模更大的Gopher。
另一個(gè)“小”模型的例子是Meta推出的LLaMA。LLaMA一推出,就引起了轟動(dòng),因?yàn)長LaMA可以在配備M1芯片的蘋果電腦,或者單個(gè)英偉達(dá)消費(fèi)級(jí)GPU上運(yùn)行,而像GPT這些大模型都需要多個(gè)數(shù)據(jù)中心級(jí)英偉達(dá)A100 GPU支持,并且LLaMA是開源的。如果LLaMA確實(shí)好用,那就意味著普通人也可以在自己的消費(fèi)級(jí)硬件上運(yùn)行這些工具了,這將對(duì)社會(huì)產(chǎn)生巨大影響。
從Meta的論文LLaMA:Open and Efficient Foundation Language Models中,Meta也提出了這樣一個(gè)觀點(diǎn):在給定的算力預(yù)算下,最好的性能不是由最大的模型實(shí)現(xiàn)的,而是由在更多數(shù)據(jù)上訓(xùn)練的“小”模型實(shí)現(xiàn)的。
Meta更進(jìn)一步的是,把推理成本也納入進(jìn)來。Meta認(rèn)為很多研究都忽略了推理所需的算力成本,而這一點(diǎn)在大語言模型最終應(yīng)用時(shí)非常重要。所以盡管Hoffmann等人建議在200B tokens的數(shù)據(jù)量上訓(xùn)練10B參數(shù)規(guī)模的模型,但Meta發(fā)現(xiàn)7B參數(shù)模型的性能,在1T tokens數(shù)據(jù)量以上還能繼續(xù)提升。
所以Meta的目標(biāo)是用盡量小的參數(shù)規(guī)模,拿更大的數(shù)據(jù)量來訓(xùn)練,以追求更低的推理成本。所以LLaMA最小的參數(shù)只有7B,最大的也只有65B,相比于GPT-3 175B確實(shí)是“小”模型。
那么LLaMA雖然有更小的參數(shù)規(guī)模,但效果如何?也具備涌現(xiàn)能力嗎?
圖片來源:Meta:LLaMA: Open and Efficient Foundation Language Models
圖片來源:Meta:LLaMA: Open and Efficient Foundation Language Models
上圖是Meta在論文中,主要列出的針對(duì)MMLU(大規(guī)模多任務(wù)語言理解)任務(wù)成績,可見LLaMA的性能還是很不錯(cuò)的,在不少基準(zhǔn)測(cè)試中優(yōu)于GPT-3,這證明了更小的參數(shù)規(guī)模,也能產(chǎn)生涌現(xiàn)能力。
以上這些研究都很有意義,我們可以猜想,GPT-3的175B參數(shù),其實(shí)并沒有得到充分訓(xùn)練,因?yàn)橐訥PT的訓(xùn)練數(shù)據(jù)量來說,其實(shí)不需要這么大的參數(shù)量。
那從另一個(gè)角度,在不降低模型效果的前提下,其實(shí)可以把模型做小,先增加訓(xùn)練數(shù)據(jù)量、降低模型參數(shù)量,把這個(gè)量級(jí)的參數(shù)充分訓(xùn)練,然后再繼續(xù)往更大的規(guī)模推。
一個(gè)太大的模型規(guī)模,會(huì)在應(yīng)用的時(shí)候,導(dǎo)致推理速度變慢、推理成本急劇上升,一個(gè)更精煉的“小”模型,在應(yīng)用端更有前途,例如Meta的LLaMA。
涌現(xiàn)與參數(shù)規(guī)模、訓(xùn)練數(shù)據(jù)量可能有一個(gè)不同的映射關(guān)系,但具體是什么,現(xiàn)在仍然未知。這一點(diǎn)還有待學(xué)界研究。
ChatGPT的出現(xiàn),代表著人工智能突破了掌握并運(yùn)用常識(shí)的能力,涌現(xiàn)現(xiàn)象的出現(xiàn),使得大語言模型正在往“真正的人工智能”方向大踏步迭代。
微軟在GPT-4論文中寫道:
我們對(duì)GPT-4的研究完全是基于現(xiàn)象學(xué)的,我們關(guān)注的是GPT-4能夠做到這些令人驚訝的事情,但我們并不知道它是如何變得如此智能的。它是如何推理、規(guī)劃和創(chuàng)造內(nèi)容的?為什么當(dāng)它本質(zhì)上只是由簡單的算法組件——梯度下降和Transformer,以及龐大的數(shù)據(jù)組合而成時(shí),會(huì)表現(xiàn)出如此通用和靈活的智能?
這些問題是大語言模型充滿神秘和吸引力的部分,挑戰(zhàn)了我們對(duì)學(xué)習(xí)和認(rèn)知的理解,關(guān)鍵方向就是對(duì)大語言模型涌現(xiàn)現(xiàn)象的持續(xù)研究。
闡明GPT-4等AI系統(tǒng)的本質(zhì)和機(jī)制,是一個(gè)巨大的挑戰(zhàn),這個(gè)挑戰(zhàn)在今天已經(jīng)突然變得重要和緊迫。
1942年,科幻小說作家阿西莫夫(Isaac Asimov)提出了機(jī)器人三定律:
機(jī)器人不得傷害人類,或者目睹人類遭受危險(xiǎn)而袖手旁觀;
在不違反第一定律的前提下,機(jī)器人必須服從人給予它的命令;
機(jī)器人在不違反第一、第二定律的情況下要盡力保護(hù)自己。
當(dāng)下,我們雖然還處于通用人工智能的早期階段,但ChatGPT的迭代速度非常驚人,有傳聞?wù)fGPT-5的部分代碼,已經(jīng)是由GPT-4來自動(dòng)生成的了。我們是否需要在未來的某個(gè)時(shí)刻停下來,先思考一下如何制定針對(duì)通用人工智能的定律?并確保這些定律能夠被100%執(zhí)行,因?yàn)橛楷F(xiàn)仍然是黑箱,我們對(duì)能力涌現(xiàn)的機(jī)制與方向還所知甚少。
目前有少量研究探尋了涌現(xiàn)現(xiàn)象出現(xiàn)的可能原因,但只是一些初步探索,限于本文篇幅,我們會(huì)在下一篇文章中介紹這些研究。一些猜想包括:涌現(xiàn)可能只是一種外在表現(xiàn),因?yàn)槲覀儗?duì)任務(wù)的評(píng)價(jià)指標(biāo)不夠平滑;很多任務(wù)是由多步驟構(gòu)成,隨著模型規(guī)模變大,如果每個(gè)步驟都更準(zhǔn)確了一點(diǎn)點(diǎn),最終的整體正確率會(huì)大幅提升,就會(huì)體現(xiàn)成“涌現(xiàn)”現(xiàn)象。
在本文最后的最后,我想說一個(gè)題外話。我最初看到論文Beyond The Imitation Game: Quantifying And Extrapolating The Capabilities Of Language Models的時(shí)候,被它的首頁嚇到了,然后是一種感動(dòng)油然而生:在作者署名那里,密密麻麻的列舉了來自132個(gè)機(jī)構(gòu)的442位作者,他們?cè)?022年密切合作,在人類未曾涉足的前沿領(lǐng)域探索。
縱觀最近1-2年人工智能領(lǐng)域的論文,幾乎沒有僅僅2-3位作者署名的,都是5-6位或者10多位作者的聯(lián)合署名,比如微軟關(guān)于GPT-4的論文就有14位作者署名、Google關(guān)于超大模型PaLM的論文有67位作者。如今在諸多前沿領(lǐng)域,比如量子計(jì)算、人工智能、航天科學(xué)、核聚變等等,都需要非常復(fù)雜的多學(xué)科交匯,人類的進(jìn)步不僅僅依靠一兩個(gè)天才,越來越是密切的組織與合作的結(jié)果。
Beyond The Imitation Game: Quantifying And Extrapolating The Capabilities Of Language Models論文首頁,密密麻麻地列舉了132個(gè)機(jī)構(gòu)的442位作者,感謝這些在人類前沿領(lǐng)域不斷探索的人們。
附錄:本文的論文注釋與引用
1、 針對(duì)涌現(xiàn),最核心的論文是以下兩篇,可供進(jìn)一步詳細(xì)閱讀:Google+DeepMind+Stanford等16位大牛合作的論文《Emergent Abilities of Large Language Models》(大語言模型的涌現(xiàn)能力)(https://openreview.net/pdf?id=yzkSU5zdwD)、UCLA 3位教授合寫的論文《Emergent Analogical Reasoning in Large Language Models》(類比推理能力在大語言模型中的涌現(xiàn))(https://arxiv.org/pdf/2212.09196.pdf)。
2、 Google聯(lián)合132個(gè)機(jī)構(gòu)的442位作者設(shè)計(jì)的基準(zhǔn)測(cè)試——超越模仿游戲基準(zhǔn)(Beyond the Imitation Game Benchmark,BIG-bench),論文鏈接如下:https://arxiv.org/pdf/2206.04615.pdf,測(cè)試了很多大模型的性能,都是在這個(gè)新基準(zhǔn)之上做的。它包含了204項(xiàng)任務(wù),內(nèi)容多種多樣,包括語言學(xué)、數(shù)學(xué)、常識(shí)推理、生物學(xué)、物理學(xué)、社會(huì)學(xué)、編程等各個(gè)方面,并且還有一個(gè)由人類專家組成的對(duì)照組,他們也同時(shí)來做這些測(cè)試任務(wù),以跟大模型的結(jié)果做對(duì)比。
3、 研究如何分配總算力,如何在參數(shù)規(guī)模、訓(xùn)練數(shù)據(jù)量之間權(quán)衡取舍?Chinchilla模型的效果如何?詳細(xì)可見DeepMind 21位作者發(fā)布的Training Compute-Optimal Language Models(https://arxiv.org/pdf/2203.15556.pdf)。DeepMind發(fā)現(xiàn)當(dāng)前的大型語言模型存在明顯訓(xùn)練不充分的問題,這是因?yàn)榇蠹疫^于關(guān)注擴(kuò)展大語言模型的參數(shù),但沒有同步增加訓(xùn)練數(shù)據(jù)量所導(dǎo)致的,所以DeepMind訓(xùn)練了一個(gè)參數(shù)規(guī)模更小、但訓(xùn)練數(shù)據(jù)量更大的優(yōu)化模型 Chinchilla 來檢驗(yàn)這一假設(shè)。
4、 類似DeepMind的Chinchilla,另一個(gè)“小”模型的例子,Meta推出的LLaMA,可在配備M1芯片的蘋果電腦,或者單個(gè)英偉達(dá)消費(fèi)級(jí)GPU上運(yùn)行,并且LLaMA是開源的,詳細(xì)可見這篇論文LLaMA:Open and Efficient Foundation Language Models(https://arxiv.org/pdf/2302.13971.pdf),也討論了給定總算力預(yù)算下,該如何分配參數(shù)規(guī)模、訓(xùn)練數(shù)據(jù)量與訓(xùn)練步數(shù)/時(shí)長。
5、 以上是兩個(gè)“小”模型的例子,而對(duì)于超大模型,Google在今年3月發(fā)布了史上最大的“通才”多模態(tài)模型PaLM,它有540B參數(shù),PaLM-E更是有562B參數(shù)。關(guān)于這個(gè)超大模型,可見Google Research 67位作者聯(lián)合署名的這篇論文:PaLM:Scaling Language Modeling with Pathways(https://arxiv.org/pdf/2204.02311.pdf)。
6、 微軟針對(duì)GPT-4的論文,詳細(xì)分析了GPT-4的各種表現(xiàn),并且提出了對(duì)能力涌現(xiàn)的疑問,詳細(xì)可見:https://arxiv.org/pdf/2303.12712.pdf。
7、 基于人類反饋的fine-tuning策略,OpenAI訓(xùn)練了InstructGPT,盡管參數(shù)規(guī)模小很多(只有1.3B),但I(xiàn)nstructGPT比175B參數(shù)規(guī)模的GPT-3,在真實(shí)性和減少有毒輸出方面表現(xiàn)更好,這種方法被證明是保持大語言模型與人類意圖一致的潛在方法。詳細(xì)可見OpenAI的論文:Training language models to follow instructions with human feedback(https://arxiv.org/pdf/2203.02155.pdf)。
8、 另一個(gè)通過人類反饋的強(qiáng)化學(xué)習(xí)(RLHF),來微調(diào)語言模型的例子是Anthropic做的,這家新公司創(chuàng)立于2021年,由OpenAI的早期核心員工離職創(chuàng)立,他們致力于解決AI“黑盒子”的問題,希望能夠解釋AI真正的工作原理,提升安全性。這篇論文由31位Anthropic的作者聯(lián)合署名,詳細(xì)可見:Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback(https://arxiv.org/pdf/2204.05862.pdf)。
9、 如果你想進(jìn)一步研究ICL(in-context learning,上下文學(xué)習(xí)),ICL的表現(xiàn)大幅超越零監(jiān)督學(xué)習(xí),并給大模型高效運(yùn)用提供了新的思路,但其工作機(jī)制仍有待研究??梢钥催@2篇:OpenAI寫的:《Language Models are Few-Shot Learners》(https://arxiv.org/pdf/2005.14165.pdf);以及華盛頓大學(xué)、Meta、Allen Institute for AI合著的論文:《Rethinking the Role of Demonstrations: What Makes In-Context Learning Work?》(https://arxiv.org/pdf/2202.12837.pdf)。
10、 關(guān)于CoT,CoT(思維鏈,Chain of Thought)是大語言模型推理能力的重要來源之一,最早系統(tǒng)性提出CoT做法的,是Google Brain團(tuán)隊(duì),9位作者在論文Chain of thought prompting elicits reasoning in large language models中系統(tǒng)性闡述了CoT,詳細(xì)可見:https://arxiv.org/pdf/2201.11903.pdf。
11、 為何會(huì)出現(xiàn)U型曲線?Google在論文Inverse scaling can become U-shaped中給出了包含了不同類型的子任務(wù),一種是真正的任務(wù),另外一種是“干擾任務(wù)”,詳細(xì)可見:https://arxiv.org/pdf/2211.02011.pdf。
12、 對(duì)于論證淺層語言知識(shí),比如詞法、詞性、句法等知識(shí),存儲(chǔ)在Transformer的低層和中層;而抽象的語言知識(shí)比如語義類知識(shí),廣泛分布在Transformer的中層和高層,以下兩篇論文做了深度的研究工作,這些論證研究工作對(duì)大語言模型的發(fā)展至關(guān)重要。詳細(xì)可見:BERTnesia:Investigating the capture and forgetting of knowledge in BERT(https://arxiv.org/pdf/2106.02902.pdf)和Transformer Feed-Forward Layers Are Key-Value Memories(https://arxiv.org/pdf/2012.14913.pdf)。
13、 目前大語言模型在復(fù)雜推理方面仍然有局限性,加州大學(xué)圣芭芭拉分校5位研究者在論文Limitations of Language Models in Arithmetic and Symbolic Induction,研究了這個(gè)問題,詳細(xì)可見:https://arxiv.org/pdf/2208.05051.pdf。
14、 新浪微博AI Lab負(fù)責(zé)人張俊林對(duì)大語言模型技術(shù)及涌現(xiàn)現(xiàn)象有過詳細(xì)的綜述,本文部分內(nèi)容援引自他的綜述,可見《由ChatGPT反思大語言模型(LLM)的技術(shù)精要》,感謝他對(duì)此做了體系化的綜述。