編譯|智東西 程茜
編輯|心緣
智東西2月25日報道,圍繞生成式AI的前沿技術(shù)競爭愈發(fā)膠著。就在昨晚,Meta突然公布了一款全新的AI大型語言模型LLaMA,宣稱可幫助研究人員降低生成式AI工具可能帶來的“偏見、有毒評論、產(chǎn)生錯誤信息的可能性”等問題。
此前在最新季度財報電話會議中,Meta CEO扎克伯格提到“生成式AI”的次數(shù)比“元宇宙”還要多。如今,Meta帶來了一個利好研究學者的AI重磅成果——僅用約1/10的參數(shù)規(guī)模,實現(xiàn)了匹敵OpenAI GPT-3、DeepMind Chinchilla、谷歌PaLM等主流大模型的性能表現(xiàn)。
Meta介紹LLaMA論文
Meta目前提供有70億、130億、330億和650億四種參數(shù)規(guī)模的LLaMA模型。
根據(jù)論文,在一些基準測試中,僅有130億參數(shù)的LLaMA模型,性能表現(xiàn)超過了擁有1750億參數(shù)的GPT-3,而且能跑在單個GPU上;擁有650億參數(shù)的LLaMA模型,能夠跟擁有700億參數(shù)的Chinchilla、擁有5400億參數(shù)的PaLM“競爭”。
要知道,GPT-3是AI聊天機器人ChatGPT背后大模型GPT-3.5的前代,GPT-3.5的參數(shù)量也高達1750億;而谷歌驅(qū)動對話式AI應用Bard進行搜索查詢的模型,參數(shù)量比5400億還要多。
這是大模型研究邁出的重要一步!隨著技術(shù)持續(xù)優(yōu)化,未來有朝一日,你也許能在自己的筆記本電腦乃至手機上跑類ChatGPT功能的語言模型。
扎克伯格說,LLaMA“在生成文本、進行對話、總結(jié)書面材料以及解決數(shù)學定理或預測蛋白質(zhì)結(jié)構(gòu)等更復雜的任務(wù)方面表現(xiàn)出了很大的潛力”。
扎克伯格Facebook貼文
值得一提的是,Meta宣布LLaMA基礎(chǔ)大型語言模型“開源”,不作商用目的,免費供給研究人員。目前Meta在GitHub上提供了精簡版LLaMA。
01 擁有70-650億參數(shù),20種語言訓練
LLaMA作為一種基礎(chǔ)大型語言模型,相比于GPT-3等模型,其可以讓開發(fā)人員使用更少的計算能力和資源來進行測試。
目前,科技巨頭玩家在大型語言模型領(lǐng)域開展軍備競賽,并且有多個成果面世。但研發(fā)人員在運行此類大模型時往往需要大量的資源投入,導致部分開發(fā)人員并不能全面研究訪問這些模型。
而這種限制就會阻礙人員去理解這些模型的工作模式和功能,并且使得他們在調(diào)整模型的偏見、發(fā)生錯誤的可能性上會較為困難。
作為一個基礎(chǔ)模型,LLaMA不是為特定任務(wù)而設(shè)計,Meta研究人員通過標記一些Tokens等來訓練基礎(chǔ)模型,其優(yōu)勢在于更容易針對特定潛在產(chǎn)品應用進行再訓練和微調(diào)。
不同于Chinchilla、PaLM、GPT-3等大模型,LLaMA只使用公開可用的數(shù)據(jù)集進行訓練,其中包括開放數(shù)據(jù)平臺Common Crawl、英文文檔數(shù)據(jù)集C4、代碼平臺GitHub、維基百科、論文預印本平臺ArXiv等。項目成員稱,這是為了使其工作與開源兼容和可復現(xiàn)。
總體來看,整個訓練數(shù)據(jù)集在標記化后大約包含1.4萬億個Tokens。
其中,擁有650億參數(shù)的LLaMA和擁有330億參數(shù)的LLaMA使用1.4萬億Tokens進行訓練,最小的擁有70億參數(shù)的LLaMA在1萬億Tokens上進行了訓練。
擁有不同參數(shù)的模型與訓練損失的關(guān)系圖
與其他大型語言模型一樣,LLaMA的工作原理是將一系列Tokens作為輸入,并預測下一個單詞以遞歸生成文本,Meta使用了20種語言對其進行訓練。
此外,大型語言模型中還可能會遇到生成偏見、不良信息、不實信息的風險,基于共享LLaMA的代碼,其他開發(fā)人員可以測試限制或消除大型語言模型中這些問題的方法。
02 7項AI能力,不輸業(yè)界主流大模型
在測試過程中,研究人員采用0-shot和1-shot、5-shot、64-shot幾種方式,將LLaMA與GPT-3、Gopher、Chinchilla等模型進行了比較。
尤其值得一提的是,130億參數(shù)LLaMA模型在單個GPU上運行時,性能表現(xiàn)可能超過1750億參數(shù)GPT-3。這也許會給類ChatGPT產(chǎn)品跑在消費級硬件上打開新的大門。
1、常識推理(Common Sense Reasoning)
LLaMA涵蓋了八個標準常識性數(shù)據(jù)基準,包括BoolQ、PIQA等。這些數(shù)據(jù)集包括完形填空、多項選擇題和問答等。
結(jié)果顯示,擁有650億參數(shù)的LLaMA在BoolQ以外的所有報告基準上均超過擁有700億參數(shù)的Chinchilla。同時,除BoolQ和WinoGrande外,該模型測試中均超過擁有5400億參數(shù)的PaLM。
擁有130億參數(shù)的LLaMA模型在大多數(shù)基準測試上也優(yōu)于擁有1750億參數(shù)的GPT-3。
2、閉卷問答(Closed-book Question Answering)
研究人員就閉卷答疑對LLaMA進行了測試,該基準測試的數(shù)據(jù)集包含閱讀理解與問答的大規(guī)模語料集TriviaQA以及自然問題。
擁有650億參數(shù)的LLaMA在0-shot和1-shot條件下,實現(xiàn)了較好的性能。
在推理過程中,擁有130億參數(shù)的LLaMA在一個V100 GPU上運行,其基準測試結(jié)果顯示,與GPT-3和Chinchilla不相上下。
3、閱讀理解(Reading Comprehension)
在閱讀理解能力方面,LLaMA通過大型深層閱讀理解任務(wù)數(shù)據(jù)集RACE評估,擁有650億參數(shù)的LLaMA與擁有5400億參數(shù)的PaLM相差并不大。
4、數(shù)學推理(Mathematical reasoning)
研究人員根據(jù)兩個數(shù)學基準評估LLaMA模型,分別是包含中學和高中數(shù)學問題的數(shù)據(jù)集MATH、OpenAI發(fā)布的小學數(shù)學題數(shù)據(jù)集GSM8k。
其比較模型對象是,從ArXiv和Math Web Pages提取的擁有385億數(shù)據(jù)進行微調(diào)的PaLM模型Minerva。
結(jié)果顯示,在GSM8k上,擁有650億參數(shù)的LLaMA優(yōu)于擁有620億參數(shù)的Minerva。
5、代碼生成(Code generation)
基于編程代碼開源數(shù)據(jù)集HumanEval和小型數(shù)據(jù)集MBPP,被評估的模型將會收到幾個句子中的程序描述以及輸入輸出實例,然后生成一個符合描述并能夠完成測試的Python程序。
對于擁有相似參數(shù)的模型,LLaMA優(yōu)于其他通用模型。
6、大規(guī)模多任務(wù)語言理解(Massive Multitask LanguageUnderstanding)
這一數(shù)據(jù)集基準涵蓋人文科學、STEM、社會科學等各種知識領(lǐng)域的多項選擇題。
經(jīng)比較,研究人員發(fā)現(xiàn),擁有650億參數(shù)的LLaMA在大多數(shù)領(lǐng)域平均落后于擁有700億參數(shù)的Chinchilla和擁有5400億參數(shù)的PaLM幾個百分點。
研究人員猜測,其中一個可能的原因是,他們在訓練前使用的數(shù)據(jù)集較為有限,包括177GB大小的ArXiv、Gutenberg和Books3,而其余模型的訓練數(shù)據(jù)足有2TB大小。
7、訓練期間的能力進化(Evolution of performance during training)
在訓練過程中,研發(fā)人員跟蹤了LLaMA在一些問題回答和常識性基準上的表現(xiàn),其都保持穩(wěn)步提高。
不過針對于相關(guān)數(shù)據(jù)集的評估,研究人員認為其存在許多性能差異,該基準的結(jié)果并不可靠。
03 去年曾發(fā)布Galactica大模型但因偏見和造假火速下架
關(guān)于大模型的研究如今在AI領(lǐng)域十分火熱。其基本原理就是通過獲取新聞、社交媒體或其他互聯(lián)網(wǎng)資源上的文本,來訓練軟件,使得基于大模型生成的產(chǎn)品可以在用戶給出提示或查詢搜索時自行預測和生成內(nèi)容,其目前最直觀的例子就是最近爆火的聊天機器人ChatGPT。
也正由于這一現(xiàn)象級消費級應用的推動,使得科技巨頭開始構(gòu)建基于大模型的產(chǎn)品測試,并將生成式AI視作新競爭領(lǐng)域。
年初,微軟向聊天機器人ChatGPT的創(chuàng)造者OpenAI投資了數(shù)十億美元,隨后,微軟推出了其ChatGPT版新Bing搜索引擎。谷歌很快也加入競賽,該公司基于其大型語言LaMDA推出類似的對話式AI應用程序Bard。
去年5月,Meta也曾發(fā)布了擁有1750億參數(shù)的OPT大型語言模型,這一模型的適用對象也是開發(fā)人員,是生成其聊天機器人BlenderBot的基礎(chǔ)模型。半年后,Meta推出名為Galactica的語言模型,該模型可以撰寫科學文章并解決數(shù)學問題,但在推出三天后,這一模型就因經(jīng)常胡言亂語以及給出虛假信息被撤下。
國外投資機構(gòu)DA Davidson高級軟件分析師Gil Luria認為:“Meta今天的公告似乎是測試他們生成式AI能力的一步,這樣他們就可以在未來將它們應用到產(chǎn)品中?!?/p>
他還補充道:“生成式AI作為AI的一種新應用,Meta對此經(jīng)驗較少,但顯然對其未來的業(yè)務(wù)很重要?!?/p>
04 結(jié)語:生成式AI競賽不斷升溫
大型語言模型已經(jīng)在生成創(chuàng)意文本、解決數(shù)學問題、預測蛋白質(zhì)結(jié)構(gòu)、回答閱讀理解問題等方面展示出了巨大的潛力,如今ChatGPT的發(fā)布使得其在消費級應用市場中爆發(fā)。
繼微軟、谷歌之后,Meta也試圖在這一領(lǐng)域展現(xiàn)自己的技術(shù)優(yōu)勢。
在科技大廠紛紛亮出生成式AI商用計劃之時,Meta難得地聚焦在研究貢獻上,無論是用更多數(shù)據(jù)訓練出的更少參數(shù)規(guī)模模型實現(xiàn)優(yōu)于更大參數(shù)規(guī)模模型的研究成果,還是將LLaMA模型和權(quán)重開源開放,都令人感到耳目一新。
但也由于僅限于研究用途,這可能導致Meta短期內(nèi)難以在生成式AI領(lǐng)域形成像OpenAI、谷歌那樣的影響力。