正在閱讀:

微軟開(kāi)源DeepSpeed Chat,人人上手訓(xùn)練大模型不再是夢(mèng)

掃一掃下載界面新聞APP

微軟開(kāi)源DeepSpeed Chat,人人上手訓(xùn)練大模型不再是夢(mèng)

只需要花費(fèi)1620美元,就可以通過(guò)混合引擎DeepSpeed-HE,在2.1天內(nèi)訓(xùn)練一個(gè)OPT-66B模型。

圖片來(lái)源:圖蟲(chóng)創(chuàng)意

界面新聞?dòng)浾?| 佘曉晨

近日,微軟開(kāi)源DeepSpeed Chat的消息再次引發(fā)AI圈的關(guān)注。

DeepSpeed Chat基于微軟的DeepSpeed深度學(xué)習(xí)優(yōu)化庫(kù)開(kāi)發(fā)而成,具備訓(xùn)練、強(qiáng)化推理等功能,其使用了RLHF(基于人類(lèi)反饋對(duì)語(yǔ)言模型進(jìn)行強(qiáng)化學(xué)習(xí))技術(shù),可以將訓(xùn)練速度提升15倍以上,同時(shí)大幅降低成本。根據(jù)微軟DeepSpeed組的官方介紹,DeepSpeed-Chat具有三大核心功能:簡(jiǎn)化ChatGPT類(lèi)型模型的訓(xùn)練和強(qiáng)化推理體驗(yàn)、DeepSpeed-RLHF模塊和DeepSpeed-RLHF系統(tǒng)。

在ChatGPT走向大眾視野之后,大模型背后的算力和訓(xùn)練成本繼而成為焦點(diǎn)。

國(guó)金證券測(cè)算的數(shù)據(jù)顯示,在通用大模型訓(xùn)練方面,使用云計(jì)算時(shí)ChatGPT的訓(xùn)練成本約為170萬(wàn)美元,若自建AI算力中心進(jìn)行模型訓(xùn)練,訓(xùn)練成本有望降至約51萬(wàn)美元;在大模型推理方面,使用云計(jì)算時(shí)的ChatGPT每處理1000Tokens信息需花費(fèi)約0.177美分,自建AI算力中心有望將成本降至0.053美分。

今年3月1日,OpenAI宣布開(kāi)放ChatGPT API接口,允許第三方開(kāi)發(fā)者通過(guò)API將ChatGPT功能集成到自己的應(yīng)用程序和服務(wù)中。該接口對(duì)每1000字符處理單元收費(fèi)0.002美元,即支付兩美元可處理約75萬(wàn)個(gè)英文單詞。OpenAI稱(chēng),新模型較GPT-3.5模型便宜10倍,成本下降主要因?yàn)閳F(tuán)隊(duì)去年12月以來(lái)進(jìn)行一系列的系統(tǒng)優(yōu)化。

此前,開(kāi)源社區(qū)已經(jīng)推出過(guò)LLaMA、Alpaca、Vicuna、Databricks-Dolly等模型,讓更多人用上ChatGPT。不過(guò),由于缺乏支持端到端的RLHF規(guī)?;到y(tǒng),類(lèi)ChatGPT模型的訓(xùn)練依然存在不小的阻礙。

DeepSpeed方面表示,盡管開(kāi)源社區(qū)付出了巨大的努力,但目前仍缺乏一個(gè)支持端到端的RLHF規(guī)?;到y(tǒng),這使得訓(xùn)練強(qiáng)大的類(lèi)ChatGPT模型十分困難。

例如,用現(xiàn)有的系統(tǒng)訓(xùn)練一個(gè)適度的6.7B ChatGPT模型,通常需要昂貴的多GPU設(shè)置,這是許多數(shù)據(jù)科學(xué)家無(wú)法做到的。即使有這樣的計(jì)算資源,訓(xùn)練效率也往往低于這些機(jī)器所能達(dá)到的5%。即使有多GPU集群,現(xiàn)有的解決方案也無(wú)法做到簡(jiǎn)單、快速和經(jīng)濟(jì)實(shí)惠地訓(xùn)練具有數(shù)千億個(gè)參數(shù)的最先進(jìn)的ChatGPT模型。

為了讓ChatGPT這樣的模型更容易被普通數(shù)據(jù)科學(xué)家和研究者使用,并使RLHF訓(xùn)練真正普及到AI社區(qū),他們發(fā)布了DeepSpeed-Chat。

而在微軟開(kāi)源DeepSpeed Chat之后,普通用戶(hù)可以通過(guò)簡(jiǎn)單的操作訓(xùn)練類(lèi)ChatGPT等大語(yǔ)言模型。數(shù)據(jù)顯示,只需要花費(fèi)1620美元,就可以通過(guò)混合引擎DeepSpeed-HE,在2.1天內(nèi)訓(xùn)練一個(gè)OPT-66B模型;如果使用多節(jié)點(diǎn)、多GPU系統(tǒng),DeepSpeed-HE可以花320美元,在1.25小時(shí)內(nèi)訓(xùn)練一個(gè)OPT-13B模型,花費(fèi)5120美元,在不到一天的時(shí)間內(nèi)訓(xùn)練一個(gè)OPT-175B模型。

圖片來(lái)源:微軟DeepSpeed

這也是AI界為之振奮的原因。在微軟開(kāi)源DeepSpeed Chat之后,更多人開(kāi)始有機(jī)會(huì)直接上手訓(xùn)練大模型。對(duì)于需要更多數(shù)據(jù)訓(xùn)練的AI行業(yè)來(lái)說(shuō),也將是一次重要的節(jié)點(diǎn)。

未經(jīng)正式授權(quán)嚴(yán)禁轉(zhuǎn)載本文,侵權(quán)必究。

微軟

5.4k
  • 微軟據(jù)悉致力于在365 Copilot產(chǎn)品中添加非OpenAI模型
  • 微軟據(jù)悉為新的AI健康部門(mén)挖來(lái)多名DeepMind員工

評(píng)論

暫無(wú)評(píng)論哦,快來(lái)評(píng)價(jià)一下吧!

下載界面新聞

微信公眾號(hào)

微博

微軟開(kāi)源DeepSpeed Chat,人人上手訓(xùn)練大模型不再是夢(mèng)

只需要花費(fèi)1620美元,就可以通過(guò)混合引擎DeepSpeed-HE,在2.1天內(nèi)訓(xùn)練一個(gè)OPT-66B模型。

圖片來(lái)源:圖蟲(chóng)創(chuàng)意

界面新聞?dòng)浾?| 佘曉晨

近日,微軟開(kāi)源DeepSpeed Chat的消息再次引發(fā)AI圈的關(guān)注。

DeepSpeed Chat基于微軟的DeepSpeed深度學(xué)習(xí)優(yōu)化庫(kù)開(kāi)發(fā)而成,具備訓(xùn)練、強(qiáng)化推理等功能,其使用了RLHF(基于人類(lèi)反饋對(duì)語(yǔ)言模型進(jìn)行強(qiáng)化學(xué)習(xí))技術(shù),可以將訓(xùn)練速度提升15倍以上,同時(shí)大幅降低成本。根據(jù)微軟DeepSpeed組的官方介紹,DeepSpeed-Chat具有三大核心功能:簡(jiǎn)化ChatGPT類(lèi)型模型的訓(xùn)練和強(qiáng)化推理體驗(yàn)、DeepSpeed-RLHF模塊和DeepSpeed-RLHF系統(tǒng)。

在ChatGPT走向大眾視野之后,大模型背后的算力和訓(xùn)練成本繼而成為焦點(diǎn)。

國(guó)金證券測(cè)算的數(shù)據(jù)顯示,在通用大模型訓(xùn)練方面,使用云計(jì)算時(shí)ChatGPT的訓(xùn)練成本約為170萬(wàn)美元,若自建AI算力中心進(jìn)行模型訓(xùn)練,訓(xùn)練成本有望降至約51萬(wàn)美元;在大模型推理方面,使用云計(jì)算時(shí)的ChatGPT每處理1000Tokens信息需花費(fèi)約0.177美分,自建AI算力中心有望將成本降至0.053美分。

今年3月1日,OpenAI宣布開(kāi)放ChatGPT API接口,允許第三方開(kāi)發(fā)者通過(guò)API將ChatGPT功能集成到自己的應(yīng)用程序和服務(wù)中。該接口對(duì)每1000字符處理單元收費(fèi)0.002美元,即支付兩美元可處理約75萬(wàn)個(gè)英文單詞。OpenAI稱(chēng),新模型較GPT-3.5模型便宜10倍,成本下降主要因?yàn)閳F(tuán)隊(duì)去年12月以來(lái)進(jìn)行一系列的系統(tǒng)優(yōu)化。

此前,開(kāi)源社區(qū)已經(jīng)推出過(guò)LLaMA、Alpaca、Vicuna、Databricks-Dolly等模型,讓更多人用上ChatGPT。不過(guò),由于缺乏支持端到端的RLHF規(guī)?;到y(tǒng),類(lèi)ChatGPT模型的訓(xùn)練依然存在不小的阻礙。

DeepSpeed方面表示,盡管開(kāi)源社區(qū)付出了巨大的努力,但目前仍缺乏一個(gè)支持端到端的RLHF規(guī)?;到y(tǒng),這使得訓(xùn)練強(qiáng)大的類(lèi)ChatGPT模型十分困難。

例如,用現(xiàn)有的系統(tǒng)訓(xùn)練一個(gè)適度的6.7B ChatGPT模型,通常需要昂貴的多GPU設(shè)置,這是許多數(shù)據(jù)科學(xué)家無(wú)法做到的。即使有這樣的計(jì)算資源,訓(xùn)練效率也往往低于這些機(jī)器所能達(dá)到的5%。即使有多GPU集群,現(xiàn)有的解決方案也無(wú)法做到簡(jiǎn)單、快速和經(jīng)濟(jì)實(shí)惠地訓(xùn)練具有數(shù)千億個(gè)參數(shù)的最先進(jìn)的ChatGPT模型。

為了讓ChatGPT這樣的模型更容易被普通數(shù)據(jù)科學(xué)家和研究者使用,并使RLHF訓(xùn)練真正普及到AI社區(qū),他們發(fā)布了DeepSpeed-Chat。

而在微軟開(kāi)源DeepSpeed Chat之后,普通用戶(hù)可以通過(guò)簡(jiǎn)單的操作訓(xùn)練類(lèi)ChatGPT等大語(yǔ)言模型。數(shù)據(jù)顯示,只需要花費(fèi)1620美元,就可以通過(guò)混合引擎DeepSpeed-HE,在2.1天內(nèi)訓(xùn)練一個(gè)OPT-66B模型;如果使用多節(jié)點(diǎn)、多GPU系統(tǒng),DeepSpeed-HE可以花320美元,在1.25小時(shí)內(nèi)訓(xùn)練一個(gè)OPT-13B模型,花費(fèi)5120美元,在不到一天的時(shí)間內(nèi)訓(xùn)練一個(gè)OPT-175B模型。

圖片來(lái)源:微軟DeepSpeed

這也是AI界為之振奮的原因。在微軟開(kāi)源DeepSpeed Chat之后,更多人開(kāi)始有機(jī)會(huì)直接上手訓(xùn)練大模型。對(duì)于需要更多數(shù)據(jù)訓(xùn)練的AI行業(yè)來(lái)說(shuō),也將是一次重要的節(jié)點(diǎn)。

未經(jīng)正式授權(quán)嚴(yán)禁轉(zhuǎn)載本文,侵權(quán)必究。