正在閱讀:

Meta推出開源大模型Llama 3,追趕GPT-4

掃一掃下載界面新聞APP

Meta推出開源大模型Llama 3,追趕GPT-4

最強(qiáng)開源大模型來了!

圖片來源:界面新聞| 匡達(dá)

文|烏鴉智能說  

4月18日,Meta公司推出其開源大語(yǔ)言模型“Llama”(直譯是“羊駝”)系列的最新產(chǎn)品——Llama 3。此次發(fā)布共發(fā)布樂兩款開源Llama 3 8B與Llama 3 70B模型,供外部開發(fā)者免費(fèi)使用。Llama 3的這兩個(gè)版本,也將很快登陸主要的云供應(yīng)商。

根據(jù)Meta的說法,Llama 3 8B和Llama 3 70B是目前同體量下,性能最好的開源模型。強(qiáng)大的性能離不開龐大的訓(xùn)練數(shù)據(jù)。據(jù)Meta透露,Llama 3是在由24000塊GPU組成的定制集群上,使用15萬(wàn)億個(gè)token訓(xùn)練的,數(shù)據(jù)規(guī)模幾乎是Llama 2的七倍。

Llama 3的推出,對(duì)開發(fā)者社區(qū)意義重大。Hugging Face聯(lián)創(chuàng)兼CEO Clément Delangue表示:“Llama 1和Llama 2現(xiàn)在已經(jīng)衍生出了30,000個(gè)新模型。我迫不及待地想看到Llama 3將會(huì)給AI生態(tài)帶來怎樣的沖擊了?!?/p>

具體來說,Llama 3的主要亮點(diǎn)有:

? 在大量重要基準(zhǔn)測(cè)試中均具有最先進(jìn)性能;

? 基于超過15T token訓(xùn)練,大小相當(dāng)于Llama 2數(shù)據(jù)集的7倍還多;

? 訓(xùn)練效率比Llama 2高3倍;

? 安全性有明顯進(jìn)步,配備了Llama Guard 2、Code Shield等新一代的安全工具。

/ 01 / 性能全面領(lǐng)先的Llama 3

從發(fā)布的信息看,Llama 3公布了10項(xiàng)標(biāo)準(zhǔn)測(cè)試基準(zhǔn)的表現(xiàn),其中在與70億參數(shù)級(jí)的Mistral 7B模型和Google Gemma 7B模型對(duì)比中,Llama 3在9項(xiàng)標(biāo)準(zhǔn)測(cè)試基準(zhǔn)上都有著更好的表現(xiàn)。

其中,包括MMLU(測(cè)試知識(shí)水平)、ARC(測(cè)試技能獲?。?、DROP(測(cè)試對(duì)文本塊的推理能力)、GPQA(涉及生物、物理和化學(xué)的問題)、HumanEval(代碼生成測(cè)試)、GSM-8K(數(shù)學(xué)應(yīng)用問題)、MATH(數(shù)學(xué)基準(zhǔn))、AGIEval(問題解決測(cè)試集)和BIG-Bench Hard(常識(shí)推理評(píng)估)。

從上圖不難看出,Llama 3 8B的成績(jī)?cè)诰彭?xiàng)測(cè)試中領(lǐng)先同行,其中Gemma-7B模型于今年2月發(fā)布,一度被稱為全球最強(qiáng)開源大模型。Llama 3 70B則在MMLU、HumanEval和GSM-8K上戰(zhàn)勝了Gemini 1.5 Pro,同時(shí)在五項(xiàng)測(cè)試上全面優(yōu)于Claude 3系列的中杯模型Sonnet。

值得一提的是,Meta還組織了一個(gè)貼近用戶實(shí)際使用體驗(yàn)的測(cè)試。根據(jù)Meta的說法,該測(cè)試集包含 1,800 個(gè)提示,涵蓋 12 個(gè)關(guān)鍵場(chǎng)景:尋求建議、頭腦風(fēng)暴、分類、封閉式問答、編碼、創(chuàng)意寫作、提取、塑造角色/角色、開放式問答、推理、重寫和總結(jié)。

測(cè)試數(shù)據(jù)顯示,70B 版本的 Llama 3 在指令調(diào)優(yōu)后,在對(duì)比 Claude Sonnet、Mistral Medium、GPT-3.5 和 Llama 2 的比賽中,其勝率分別達(dá)到了 52.9%、59.3%、63.2%、63.7%

Llama 3一經(jīng)發(fā)布便引發(fā)了熱議。埃隆·馬斯克在楊立昆的X下面評(píng)論:“還不錯(cuò)?!庇ミ_(dá)高級(jí)研究經(jīng)理、具身智能負(fù)責(zé)人Jim Fan認(rèn)為,即將推出的Llama 3-400B+模型將成為社區(qū)獲得GPT-4級(jí)別模型的重要里程碑。它將改變?cè)S多研究工作和草根初創(chuàng)公司的計(jì)算方式。

據(jù)Meta披露,Llama 3即將在亞馬遜云(AWS)、Databricks、谷歌云、Hugging Face、Kaggle、IBM WatsonX、微軟云Azure、NVIDIA NIM和Snowflake等多個(gè)平臺(tái)上推出。這一過程得到了AMD、AWS、戴爾、英特爾和英偉達(dá)等公司的硬件支持。

近期,Meta也將計(jì)劃推出Llama 3的新功能,包括更長(zhǎng)的上下文窗口和更強(qiáng)大的性能,并將推出新的模型尺寸版本和公開Llama 3的研究論文。

/ 02 / 最強(qiáng)開源模型怎樣煉成?

Llama 3優(yōu)越的性能,離不開Meta在訓(xùn)練數(shù)據(jù)上的投入。根據(jù)Meta透露,Llama 3訓(xùn)練數(shù)據(jù)規(guī)模高達(dá)15 萬(wàn)億token,幾乎是Llama 2的七倍。

不僅如此,為了滿足多語(yǔ)種的需求,Llama 3超過 5%的預(yù)訓(xùn)練數(shù)據(jù)集,由涵蓋 30 多種語(yǔ)言的高質(zhì)量非英語(yǔ)數(shù)據(jù)組成。

為了確保 Llama 3 接受最高質(zhì)量數(shù)據(jù)的訓(xùn)練,Meta還開發(fā)、使用了啟發(fā)式過濾器、NSFW 過濾器、語(yǔ)義重復(fù)數(shù)據(jù)刪除方法和文本分類器來保證數(shù)據(jù)質(zhì)量。

相比數(shù)據(jù)規(guī)模,數(shù)據(jù)來源更加令人關(guān)注。畢竟,此前Meta因訓(xùn)練數(shù)據(jù)不足而產(chǎn)生焦慮,甚至一度爆出消息,在最近的一次高層管理會(huì)議中,Meta高管甚至還建議收購(gòu)出版社 Simon & Schuster以采購(gòu)包括史蒂芬金等知名作家作品在內(nèi)的長(zhǎng)篇小說為其AI模型提供訓(xùn)練數(shù)據(jù)。

在此次發(fā)布Llama 3中,對(duì)于數(shù)據(jù)來源,Meta只說了“收集于公開來源”。不過根據(jù)外媒的說法,Llama 3使用的訓(xùn)練數(shù)據(jù),有很大一部分是AI合成的數(shù)據(jù)。有趣的是,兩個(gè)版本的數(shù)據(jù)庫(kù)日期還略微有點(diǎn)不同,8B版本截止日期為2023年3月,70B版本為2023年12月。

除了提高數(shù)據(jù)規(guī)模和質(zhì)量外,Meta花了很多精力在優(yōu)化訓(xùn)練效率上,比如數(shù)據(jù)并行化、模型并行化和管道并行化。當(dāng)16000個(gè)GPU集群上進(jìn)行訓(xùn)練時(shí),Meta最高可實(shí)現(xiàn)每個(gè)GPU超過 400 TFLOPS的計(jì)算利用率。

同時(shí),為了延長(zhǎng) GPU 的正常運(yùn)行時(shí)間,Meta開發(fā)了一種先進(jìn)的新訓(xùn)練堆棧,可以自動(dòng)執(zhí)行錯(cuò)誤檢測(cè)、處理和維護(hù)。

此外,Meta還極大地改進(jìn)了硬件可靠性和靜默數(shù)據(jù)損壞檢測(cè)機(jī)制,并且開發(fā)了新的可擴(kuò)展存儲(chǔ)系統(tǒng),以減少檢查點(diǎn)和回滾的開銷。這些改進(jìn)使總體有效培訓(xùn)時(shí)間超過 95%。綜合起來,這些改進(jìn)使Llama 3的訓(xùn)練效率比Llama 2提高了約三倍。

為了優(yōu)化Llama 3的聊天和編碼等使用場(chǎng)景,Meta 創(chuàng)新了其指令微調(diào)方法,結(jié)合了監(jiān)督微調(diào)、拒絕采樣、近似策略優(yōu)化和直接策略優(yōu)化等技術(shù)。這些技術(shù)不僅提升了模型在復(fù)雜任務(wù)中的表現(xiàn),還幫助模型在面對(duì)難解的推理問題時(shí)能生成正確的解答路徑。

在外界關(guān)注的安全性上,Meta采用了一種新的系統(tǒng)級(jí)方法來負(fù)責(zé)任地開發(fā)和部署Llama 3。他們將Llama 3視為更廣泛系統(tǒng)的一部分,讓開發(fā)人員能夠完全掌握模型的主導(dǎo)權(quán)。

指令微調(diào)在確保模型的安全性方面也發(fā)揮著重要作用。Meta的指令微調(diào)模型已經(jīng)通過內(nèi)部和外部的努力進(jìn)行了安全紅隊(duì)(測(cè)試)。Meta的紅隊(duì)方法利用人類專家和自動(dòng)化方法來生成對(duì)抗性提示,試圖引發(fā)有問題的響應(yīng)。比如,他們進(jìn)行了全面的測(cè)試,來評(píng)估與化學(xué)、生物、網(wǎng)絡(luò)安全和其他風(fēng)險(xiǎn)領(lǐng)域相關(guān)的濫用風(fēng)險(xiǎn)。

通過以上的種種努力,才最終打造了最強(qiáng)開源大模型Llama 3。據(jù)國(guó)外媒體道理,Meta希望Llama3能趕上OpenAI的GPT-4。

由此可見,開源和閉源的爭(zhēng)論遠(yuǎn)遠(yuǎn)沒有到停下的時(shí)候。如今,Meta用Llama 3給出自己的回應(yīng),接下來就看OpenAI如何應(yīng)對(duì)了?

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請(qǐng)聯(lián)系原著作權(quán)人。

Facebook

5.5k
  • Meta宣布將重啟面部識(shí)別技術(shù),以打擊詐騙
  • 美股三大指數(shù)均錄得周線六連漲,標(biāo)普500指數(shù)、道指均續(xù)創(chuàng)歷史收盤新高

評(píng)論

暫無(wú)評(píng)論哦,快來評(píng)價(jià)一下吧!

下載界面新聞

微信公眾號(hào)

微博

Meta推出開源大模型Llama 3,追趕GPT-4

最強(qiáng)開源大模型來了!

圖片來源:界面新聞| 匡達(dá)

文|烏鴉智能說  

4月18日,Meta公司推出其開源大語(yǔ)言模型“Llama”(直譯是“羊駝”)系列的最新產(chǎn)品——Llama 3。此次發(fā)布共發(fā)布樂兩款開源Llama 3 8B與Llama 3 70B模型,供外部開發(fā)者免費(fèi)使用。Llama 3的這兩個(gè)版本,也將很快登陸主要的云供應(yīng)商。

根據(jù)Meta的說法,Llama 3 8B和Llama 3 70B是目前同體量下,性能最好的開源模型。強(qiáng)大的性能離不開龐大的訓(xùn)練數(shù)據(jù)。據(jù)Meta透露,Llama 3是在由24000塊GPU組成的定制集群上,使用15萬(wàn)億個(gè)token訓(xùn)練的,數(shù)據(jù)規(guī)模幾乎是Llama 2的七倍。

Llama 3的推出,對(duì)開發(fā)者社區(qū)意義重大。Hugging Face聯(lián)創(chuàng)兼CEO Clément Delangue表示:“Llama 1和Llama 2現(xiàn)在已經(jīng)衍生出了30,000個(gè)新模型。我迫不及待地想看到Llama 3將會(huì)給AI生態(tài)帶來怎樣的沖擊了?!?/p>

具體來說,Llama 3的主要亮點(diǎn)有:

? 在大量重要基準(zhǔn)測(cè)試中均具有最先進(jìn)性能;

? 基于超過15T token訓(xùn)練,大小相當(dāng)于Llama 2數(shù)據(jù)集的7倍還多;

? 訓(xùn)練效率比Llama 2高3倍;

? 安全性有明顯進(jìn)步,配備了Llama Guard 2、Code Shield等新一代的安全工具。

/ 01 / 性能全面領(lǐng)先的Llama 3

從發(fā)布的信息看,Llama 3公布了10項(xiàng)標(biāo)準(zhǔn)測(cè)試基準(zhǔn)的表現(xiàn),其中在與70億參數(shù)級(jí)的Mistral 7B模型和Google Gemma 7B模型對(duì)比中,Llama 3在9項(xiàng)標(biāo)準(zhǔn)測(cè)試基準(zhǔn)上都有著更好的表現(xiàn)。

其中,包括MMLU(測(cè)試知識(shí)水平)、ARC(測(cè)試技能獲?。ROP(測(cè)試對(duì)文本塊的推理能力)、GPQA(涉及生物、物理和化學(xué)的問題)、HumanEval(代碼生成測(cè)試)、GSM-8K(數(shù)學(xué)應(yīng)用問題)、MATH(數(shù)學(xué)基準(zhǔn))、AGIEval(問題解決測(cè)試集)和BIG-Bench Hard(常識(shí)推理評(píng)估)。

從上圖不難看出,Llama 3 8B的成績(jī)?cè)诰彭?xiàng)測(cè)試中領(lǐng)先同行,其中Gemma-7B模型于今年2月發(fā)布,一度被稱為全球最強(qiáng)開源大模型。Llama 3 70B則在MMLU、HumanEval和GSM-8K上戰(zhàn)勝了Gemini 1.5 Pro,同時(shí)在五項(xiàng)測(cè)試上全面優(yōu)于Claude 3系列的中杯模型Sonnet。

值得一提的是,Meta還組織了一個(gè)貼近用戶實(shí)際使用體驗(yàn)的測(cè)試。根據(jù)Meta的說法,該測(cè)試集包含 1,800 個(gè)提示,涵蓋 12 個(gè)關(guān)鍵場(chǎng)景:尋求建議、頭腦風(fēng)暴、分類、封閉式問答、編碼、創(chuàng)意寫作、提取、塑造角色/角色、開放式問答、推理、重寫和總結(jié)。

測(cè)試數(shù)據(jù)顯示,70B 版本的 Llama 3 在指令調(diào)優(yōu)后,在對(duì)比 Claude Sonnet、Mistral Medium、GPT-3.5 和 Llama 2 的比賽中,其勝率分別達(dá)到了 52.9%、59.3%、63.2%、63.7%

Llama 3一經(jīng)發(fā)布便引發(fā)了熱議。埃隆·馬斯克在楊立昆的X下面評(píng)論:“還不錯(cuò)?!庇ミ_(dá)高級(jí)研究經(jīng)理、具身智能負(fù)責(zé)人Jim Fan認(rèn)為,即將推出的Llama 3-400B+模型將成為社區(qū)獲得GPT-4級(jí)別模型的重要里程碑。它將改變?cè)S多研究工作和草根初創(chuàng)公司的計(jì)算方式。

據(jù)Meta披露,Llama 3即將在亞馬遜云(AWS)、Databricks、谷歌云、Hugging Face、Kaggle、IBM WatsonX、微軟云Azure、NVIDIA NIM和Snowflake等多個(gè)平臺(tái)上推出。這一過程得到了AMD、AWS、戴爾、英特爾和英偉達(dá)等公司的硬件支持。

近期,Meta也將計(jì)劃推出Llama 3的新功能,包括更長(zhǎng)的上下文窗口和更強(qiáng)大的性能,并將推出新的模型尺寸版本和公開Llama 3的研究論文。

/ 02 / 最強(qiáng)開源模型怎樣煉成?

Llama 3優(yōu)越的性能,離不開Meta在訓(xùn)練數(shù)據(jù)上的投入。根據(jù)Meta透露,Llama 3訓(xùn)練數(shù)據(jù)規(guī)模高達(dá)15 萬(wàn)億token,幾乎是Llama 2的七倍。

不僅如此,為了滿足多語(yǔ)種的需求,Llama 3超過 5%的預(yù)訓(xùn)練數(shù)據(jù)集,由涵蓋 30 多種語(yǔ)言的高質(zhì)量非英語(yǔ)數(shù)據(jù)組成。

為了確保 Llama 3 接受最高質(zhì)量數(shù)據(jù)的訓(xùn)練,Meta還開發(fā)、使用了啟發(fā)式過濾器、NSFW 過濾器、語(yǔ)義重復(fù)數(shù)據(jù)刪除方法和文本分類器來保證數(shù)據(jù)質(zhì)量。

相比數(shù)據(jù)規(guī)模,數(shù)據(jù)來源更加令人關(guān)注。畢竟,此前Meta因訓(xùn)練數(shù)據(jù)不足而產(chǎn)生焦慮,甚至一度爆出消息,在最近的一次高層管理會(huì)議中,Meta高管甚至還建議收購(gòu)出版社 Simon & Schuster以采購(gòu)包括史蒂芬金等知名作家作品在內(nèi)的長(zhǎng)篇小說為其AI模型提供訓(xùn)練數(shù)據(jù)。

在此次發(fā)布Llama 3中,對(duì)于數(shù)據(jù)來源,Meta只說了“收集于公開來源”。不過根據(jù)外媒的說法,Llama 3使用的訓(xùn)練數(shù)據(jù),有很大一部分是AI合成的數(shù)據(jù)。有趣的是,兩個(gè)版本的數(shù)據(jù)庫(kù)日期還略微有點(diǎn)不同,8B版本截止日期為2023年3月,70B版本為2023年12月。

除了提高數(shù)據(jù)規(guī)模和質(zhì)量外,Meta花了很多精力在優(yōu)化訓(xùn)練效率上,比如數(shù)據(jù)并行化、模型并行化和管道并行化。當(dāng)16000個(gè)GPU集群上進(jìn)行訓(xùn)練時(shí),Meta最高可實(shí)現(xiàn)每個(gè)GPU超過 400 TFLOPS的計(jì)算利用率。

同時(shí),為了延長(zhǎng) GPU 的正常運(yùn)行時(shí)間,Meta開發(fā)了一種先進(jìn)的新訓(xùn)練堆棧,可以自動(dòng)執(zhí)行錯(cuò)誤檢測(cè)、處理和維護(hù)。

此外,Meta還極大地改進(jìn)了硬件可靠性和靜默數(shù)據(jù)損壞檢測(cè)機(jī)制,并且開發(fā)了新的可擴(kuò)展存儲(chǔ)系統(tǒng),以減少檢查點(diǎn)和回滾的開銷。這些改進(jìn)使總體有效培訓(xùn)時(shí)間超過 95%。綜合起來,這些改進(jìn)使Llama 3的訓(xùn)練效率比Llama 2提高了約三倍。

為了優(yōu)化Llama 3的聊天和編碼等使用場(chǎng)景,Meta 創(chuàng)新了其指令微調(diào)方法,結(jié)合了監(jiān)督微調(diào)、拒絕采樣、近似策略優(yōu)化和直接策略優(yōu)化等技術(shù)。這些技術(shù)不僅提升了模型在復(fù)雜任務(wù)中的表現(xiàn),還幫助模型在面對(duì)難解的推理問題時(shí)能生成正確的解答路徑。

在外界關(guān)注的安全性上,Meta采用了一種新的系統(tǒng)級(jí)方法來負(fù)責(zé)任地開發(fā)和部署Llama 3。他們將Llama 3視為更廣泛系統(tǒng)的一部分,讓開發(fā)人員能夠完全掌握模型的主導(dǎo)權(quán)。

指令微調(diào)在確保模型的安全性方面也發(fā)揮著重要作用。Meta的指令微調(diào)模型已經(jīng)通過內(nèi)部和外部的努力進(jìn)行了安全紅隊(duì)(測(cè)試)。Meta的紅隊(duì)方法利用人類專家和自動(dòng)化方法來生成對(duì)抗性提示,試圖引發(fā)有問題的響應(yīng)。比如,他們進(jìn)行了全面的測(cè)試,來評(píng)估與化學(xué)、生物、網(wǎng)絡(luò)安全和其他風(fēng)險(xiǎn)領(lǐng)域相關(guān)的濫用風(fēng)險(xiǎn)。

通過以上的種種努力,才最終打造了最強(qiáng)開源大模型Llama 3。據(jù)國(guó)外媒體道理,Meta希望Llama3能趕上OpenAI的GPT-4。

由此可見,開源和閉源的爭(zhēng)論遠(yuǎn)遠(yuǎn)沒有到停下的時(shí)候。如今,Meta用Llama 3給出自己的回應(yīng),接下來就看OpenAI如何應(yīng)對(duì)了?

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請(qǐng)聯(lián)系原著作權(quán)人。