文 | 智東西 ZeR0
編輯 | 漠影
智東西3月13日報道,昨日,由中國人民大學高瓴人工智能學院主辦的AIGC論壇在北京舉行,本次會議以“AIGC:從不存在到存在”為議題,探討對話生成模型、多媒體內容生成等人工智能(AI)前沿技術的發(fā)展趨勢。
在對話與語言生成模型專場,哈爾濱工業(yè)大學計算機學院教授車萬翔、中國科學院自動化研究所研究員張家俊、中國人民大學高瓴人工智能學院長聘副教授嚴睿、新浪微博資深算法專家張俊林分別作報告。
這場學術盛會干貨滿滿,不僅系統(tǒng)性地回顧了自然語言處理(NLP)的五個發(fā)展階段,對大型語言模型研究的三個主要技術路徑進行解讀,并拆解了ChatGPT的四項關鍵技術,還就大型語言模型研究重心的變遷與未來趨勢進行探討。
01.NLP五級進階路:從基于規(guī)則到遵循人的價值觀
新浪微博資深算法專家張俊林認為,要想探尋大型語言模型未來怎么走,需要先回顧此前是怎么一路變遷的。他將自然語言處理發(fā)展到大型語言模型的歷程分為五個階段:規(guī)則、統(tǒng)計機器學習、深度學習、預訓練、大型語言模型。
機器翻譯是NLP中難度最高、綜合性最強的任務。因此張俊林以機器翻譯任務為例來對比不同階段的特點以及技術棧、數(shù)據的變化,以此展示NLP如何一步步演進。
規(guī)則階段大致從1956年到1992年,基于規(guī)則的機器翻譯系統(tǒng)是在內部把各種功能的模塊串到一起,由人先從數(shù)據中獲取知識,歸納出規(guī)則,寫出來教給機器,然后機器來執(zhí)行這套規(guī)則,從而完成特定任務。
統(tǒng)計機器學習階段大致從1993年到2012年,機器翻譯系統(tǒng)可拆成語言模型和翻譯模型,這里的語言模型與現(xiàn)在的GPT-3/3.5的技術手段一模一樣。該階段相比上一階段突變性較高,由人轉述知識變成機器自動從數(shù)據中學習知識,主流技術包括SVM、HMM、MaxEnt、CRF、LM等,當時人工標注數(shù)據量在百萬級左右。
深度學習階段大致從2013-2018年,相對上一階段突變性較低,從離散匹配發(fā)展到embedding連續(xù)匹配,模型變得更大。該階段典型技術棧包括Encoder-Decoder、LSTM、Attention、Embedding等,標注數(shù)據量提升到千萬級。
預訓練階段是從2018年到2022年,相比之前的最大變化是加入自監(jiān)督學習,張俊林認為這是NLP領域最杰出的貢獻,將可利用數(shù)據從標注數(shù)據拓展到了非標注數(shù)據。該階段系統(tǒng)可分為預訓練和微調兩個階段,將預訓練數(shù)據量擴大3到5倍,典型技術棧包括Encoder-Decoder、Transformer、Attention等。
大型語言模型階段從2023年起,目的是讓機器能聽懂人的命令、遵循人的價值觀。其特性是在第一個階段把過去的兩個階段縮成一個預訓練階段,第二階段轉換成與人的價值觀對齊,而不是向領域遷移。這個階段的突變性是很高的,已經從專用任務轉向通用任務,或是以自然語言人機接口的方式呈現(xiàn)。
隨后他介紹了一個研究工作的結論:在高資源語言上,ChatGPT機器翻譯效果與商用MT系統(tǒng)效果接近;在低資源語言上,目前ChatGPT機器翻譯效果與商用MT系統(tǒng)相比差得比較遠。
從這些階段中數(shù)據、算法、人機關系的變化,可以觀察到NLP的發(fā)展趨勢。
數(shù)據方面,從少量標注數(shù)據、大量標注數(shù)據、海量非標注數(shù)據+少量標注數(shù)據到海量非標注數(shù)據,越來越多數(shù)據被利用起來,人的介入越來越少,未來會有更多文本數(shù)據、更多其它形態(tài)的數(shù)據被用起來,更遠的未來是任何我們能見到的電子數(shù)據,都應該讓機器自己從中學到知識或能力。
算法方面,表達能力越來越強,規(guī)模越來越大,自主學習能力越來越強,從專用向通用,沿著這個趨勢往后,未來Transformer預計夠用,同時也需要替代Transformer的新型模型,逐步邁向通用人工智能。
人機關系方面,人的角色逐漸從教導者轉向監(jiān)督者,未來可能會從人機協(xié)作、機器向人學習,發(fā)展成人向機器學習,最后由機器拓展人類。
02.大型語言模型的三大技術路線:Bert、GPT、混合模式
張俊林分享道,近5年來,大型語言模型研究的發(fā)展有三條技術路線:Bert模式、GPT模式、混合模式。其中國內大多采用混合模式,多數(shù)主流大型語言模型走的是GPT技術路線,直到2022年底在GPT-3.5的基礎上產生了ChatGPT。
可以看到,到2019年后,Bert路線基本上就沒有什么標志性的新模型出現(xiàn)了,而GPT技術路線趨于繁榮。從Bert往GPT走,模型越來越大,做的事越來越通用。
大型語言模型按照從數(shù)據到知識來劃分,數(shù)據可分為通用數(shù)據和領域數(shù)據,知識分為語言知識和世界知識;從任務類型來劃分,可以分為單一任務和多任務、理解類和生成類。
Bert模式有兩階段(雙向語言模型預訓練+任務Fine-tuning),適用于理解類、做理解類、某個場景的具體任務,專而輕。
GPT模式是由兩階段到一階段(單向語言模型預訓練+zero shot prompt/Instruct),比較適合生成類任務、多任務,重而通。
T5模式將兩者的方法結合,有兩階段(單向語言模型預訓練+Fine-tuning)。張俊林稱這種模式“形似GPT,神似Bert”,生成和理解都行,從效果上看較適合理解類任務,國內很多大型語言模型采用這種模式。
目前的研究結論是,如果模型規(guī)模不是特別大,面向單一領域的理解類任務,適合用T5模式。做生成類任務時,用GPT模式效果最好。
如果單獨考慮zero-shot,GPT模式效果最好;如果在預訓練后引入多任務fine-tuning,則T5模式效果好。不過張俊林認為這個結論存疑,因為目前的實驗Encoder-Decoder都是Decoder-only參數(shù)量的兩倍。
綜合來看,當前幾乎所有參數(shù)規(guī)模超過千億的大型語言模型都采取GPT模式。張俊林分析可能的原因有三點:1、Encoder-Decoder里的雙向attention,損害zero shot能力;2、Encoder-Decoder結構在生成Token時,只能對Encoder高層做attention,Decoder-only結構在生成Token時可以逐層Attention,信息更細粒度;3、Encoder-Decoder訓練“中間填空”,生成最后單詞Next Token,存在不一致性,Decoder-only結構訓練和生成方式一致。
03.用提示學習方法,觸發(fā)大模型通用能力
從GPT的成長路徑來看,哈爾濱工業(yè)大學計算機學院教授車萬翔談道,2018年第一代GPT真正開啟NLP預訓練模型時代,但沒有引起特別大的關注,其風頭被Bert蓋住。2019年GPT-2模型的參數(shù)變得更多,但仍未引起很大轟動。
2020年GPT-3模型發(fā)布,2022年3月InstructGPT模型問世,當時重點是用1%參數(shù)達到1750億參數(shù)的GPT-3的效果,也沒有特別令人興奮,直到ChatGPT誕生,直接推向市場和面向終端用戶,并憑借驚艷的效果在社會上引起廣泛關注。
為什么GPT-3問世兩年了,還沒有受到足夠廣泛的關注?車萬翔認為,這是因為它只解決了知識存儲問題,尚未很好解決“知識怎么調用”的問題,而ChatGPT相當于解決了這一部分。兩塊打通后,就產生了非常好的應用效果。
中國科學院自動化研究所研究員張家俊介紹了ChatGPT的通用能力基座。OpenAI在2020年用45T文本數(shù)據,通過自監(jiān)督訓練獲得基礎大模型GPT-3,實現(xiàn)了流暢性、知識性;2021年在GPT-3基礎上利用179G代碼數(shù)據,通過自監(jiān)督訓練獲得邏輯編程模型Codex;2022年利用更多更新文本數(shù)據和代碼數(shù)據的混合學習,得到了更強的基礎大模型GPT-3.5,這成為ChatGPT的基礎模型,實現(xiàn)了流暢性、知識性和邏輯性。
據他分享,大模型的通用能力由基礎模型決定,GPT-3用提示學習方法觸發(fā)通用能力。
參數(shù)微調通過任務相關的監(jiān)督數(shù)據修改模型參數(shù),能夠最大限度激發(fā)預訓練大模型完成特定任務的能力,但面臨數(shù)據稀、災難遺忘、資源浪費、通用性差等難題。
提示學習通過設計提示信息修改輸入模式,能夠觸發(fā)預訓練大模型完成特定任務,但是單一的外部提示信號難以最大限度地激發(fā)預訓練大模型的能力,從而高質量完成具體任務。
將兩者結合,通過若干任務相關的經過提示增強的監(jiān)督數(shù)據修改模型參數(shù),有助于激發(fā)模型的通用能力。
OpenAI聘請數(shù)據標注團隊,根據各垂直領域問題指令撰寫人工答案,并從開放的GPT-3、InstructGPT等API接口收集全球用戶的問題指令,對其按照問答、摘要等領域進行分類;同時借助指令學習,在GPT-3.5的基礎上利用各領域人工撰寫的指令與答案對模型進行微調。
當模型參數(shù)規(guī)模達到百億以上時,幾十個任務聯(lián)合指令學習可以解決沒有見過的任務。
張家俊強調說,任何大模型都有其能力邊界,幾乎不可能實現(xiàn)面向無限任務的通用能力,但可以通過讓大模型學會與其他模型、工具和環(huán)境進行交互,實現(xiàn)大模型通用能力的拓展。
紫東太初多模態(tài)大模型便嘗試模型交互實現(xiàn)通用多模態(tài)對話。這是一個擁有千億參數(shù)規(guī)模的圖文音三模態(tài)大模型,通過學會API的使用,讓較小的語言大模型擁有通用的多模態(tài)對話能力。3月24日,張家俊將在「GTIC 2023中國AIGC創(chuàng)新峰會」上發(fā)表演講,分享紫東太初大模型的更多進展。
04.解讀ChatGPT四大關鍵技術
下圖是車萬翔分享的從GPT-3到ChatGPT的技術演化路徑。
總體而言,ChatGPT有四個關鍵技術:
1、大規(guī)模預訓練模型:只有模型規(guī)模足夠大,才可能具備推理能力。中國人民大學高瓴人工智能學院長聘副教授嚴睿談道,智能涌現(xiàn)不是故意設計出來的,而是大模型規(guī)模大到一定程度后,天然具備這樣的特性。
2、在代碼上進行預訓練:可能代碼把解決一個大的問題分解成若干個小的問題,這種分布解決問題的方式有助于自然語言推理。和自然語言模型相比,代碼語言模型需要更長的上下文的依賴。
3、Prompt/Instruction Tuning:GPT-3模型太大,已經沒辦法去精調了,只能用prompt,但是如果不精調,模型相當于還是一個語言模型,沒辦法適應人,只能由人去適應模型。讓人適應模型只能用指令的方式,再進行精調,這相比預訓練代價要小的多。所以指令上精調就可以把一些不太多的數(shù)據,把語言模型的任務掰到適應人類的回答問題。
4、基于人類反饋的強化學習(RLHF):這對于結果好壞的影響不是特別大,甚至會限制語言模型生成的能力,但這種方式可能更好地和人類在安全性、無毒無害等等方面的價值觀對齊。當模型上線后,它可以收集到更多用戶的反饋。
嚴睿認為Human-in-the-Loop可能是大型語言模型成功的一個重要因素,通過RLHF不斷獲得人類反饋,將人的指令與機器的理解逐漸對齊,實現(xiàn)智能的不斷演化。
展望未來,ChatGPT能發(fā)展多久?車萬翔發(fā)現(xiàn)了一個有意思的規(guī)律。如圖所示,每個箭頭長短代表技術發(fā)展的時間長度,可以看到,新技術的發(fā)展時間大約是舊技術的一半,以此推演,預訓練模型可能發(fā)展五年到2023年,再往后可能到2025年左右會有新技術產生。
05.大模型的未來:多模態(tài)、具身智能、社會交際
車萬翔認為,ChatGPT可以說是繼數(shù)據庫和搜索引擎后的全新一代知識表示和檢索的方法。
從知識表示和運用角度來看,知識在計算機內如何表示是人工智能最核心的問題之一。早期是通過關系型數(shù)據庫的方式,精度較高,因為數(shù)據庫中每行每列的語義都非常明確,問題是調用的自然度極低,必須由人去學習機器的語言,早期這些存儲方式產生了Oracle、微軟等科技巨頭。
后來互聯(lián)網上存儲了人類全部的知識,這種知識表達方式不如數(shù)據庫精確,但存儲量大、信息多,調取這些知識需要借助搜索引擎、通過關鍵詞的方式,關鍵詞和SQL語句比起來就更為廣大用戶所接受,表達自然度更好,但仍然不及自然語言,產生谷歌、百度等科技巨頭。
到大模型時代,可以認為大模型也是一種知識存儲的方式,不是以人能看懂的方式來存儲,而是以參數(shù)的方式來存儲,可讀性、精度相對較低,但調用方式非常自然,通過自然語言就能調出大模型中的知識。車萬翔相信和前兩次革命一樣,大模型時代會出現(xiàn)新的科技巨頭,現(xiàn)在看來OpenAI非常具有這樣的潛力,領先優(yōu)勢明顯。
談到大型語言模型研究的重心,車萬翔和張俊林都認為除了語言外,還需要更多知識。
關于NLP的過去、現(xiàn)在、未來,科學家們在2020年提出了一個world scope概念,將NLP的發(fā)展進程分為語料庫、互聯(lián)網、多模態(tài)、具身智能、社會交際這五個world scope。
早期NLP基于文本,再往后發(fā)展要走向多模態(tài)、具身認知、社會交際。ChatGPT已經似乎有與人類社會互動的意思,相當于是跳過了中間兩步,但車萬翔認為,要真正實現(xiàn)通用人工智能,中間這兩步是不能跳的,不然就像盲人在學語言。據傳GPT-4會是一個多模態(tài)大模型,如果解決了多模態(tài)這一步,那就只剩下具身了。
多模態(tài)大型語言模型的目標是增強更多的現(xiàn)實環(huán)境感知能力,包括視覺輸入(圖片、視頻)、聽覺輸入(音頻)、觸覺輸入(壓力)等等。張俊林認為,目前阻礙多模態(tài)大模型發(fā)展的一個障礙是其很大程度上依賴于人工整理的大數(shù)據集,圖像處理的自監(jiān)督技術路線尚未走通,如果走通可能會是又一大技術突破,一些圖像理解類任務大概率會被融入大型語言模型,不再單獨存在。
多模態(tài)大模型是具身智能的基礎,相當于大腦,它還需要身體,才能與物理世界的交互。因此下一步就是將大腦與身體(如機器人等)結合的具身智能,利用強化學習,從真實世界獲得真實反饋、學習新的知識。
另一個值得探討的話題是大型語言模型的規(guī)模,做大還是做小?
張俊林談道,一方面,Scaling Law說明了模型規(guī)模越大,數(shù)據越多,訓練越充分,大型語言模型的效果越好;另一方面,訓練成本太高了,Chinchilla證明了如果在數(shù)據充足的前提下,目前大型語言模型的規(guī)模比應有的合理大小更大些,似乎存在參數(shù)空間浪費。因此應該是:先把模型做小,充分利用模型參數(shù)后,再將模型做大。
除此之外,張俊林認為大型語言模型的復雜推理能力未來將進一步提升。大型語言模型如何與專用工具結合也是非常有前景的方向,但技術尚不成熟,他判斷OpenAI應該不會走這條路。
大型語言模型還有很多問題有待克服,包括構建中文評測數(shù)據集、優(yōu)化新知識的獲取、優(yōu)化舊知識的修正、探索私域領域知識的融入、優(yōu)化更好理解命令的能力、降低訓練推理成本等等。
06.結語:大模型與生成式AI駛入快車道
自然語言處理被譽為人工智能皇冠上的明珠,而其最新代表之作ChatGPT憑借卓越的多輪對話和內容生成能力,正掀起新一輪人工智能研究、商用及創(chuàng)業(yè)熱潮。
ChatGPT仍有很多問題,比如事實檢索性和復雜計算性效果差,無法實現(xiàn)一些實時性、動態(tài)變化性的任務等。但優(yōu)化這些問題以及提升大模型能力的研究正在飛速推進。
如果上周微軟德國公司CTO兼AI部門主管Andreas Braun透露的信息為真,那么本周OpenAI將發(fā)布更強大的GPT-4多模態(tài)大模型,打通認知與感知的連接。百度基于文心大模型研發(fā)的生成式對話產品“文心一言”也將于本周四3月16日正式發(fā)布。微軟將在周五舉行主題為“與AI一起工作的未來”的在線活動。大模型與生成式AI領域正變得愈發(fā)熱鬧。