界面新聞?dòng)浾?| 崔鵬
界面新聞編輯 | 宋佳楠
9月25日上午,百度在云智大會(huì)上推出百舸AI異構(gòu)計(jì)算平臺(tái)4.0和千帆大模型平臺(tái)3.0等AI基礎(chǔ)設(shè)施產(chǎn)品,并公布了多項(xiàng)AI相關(guān)業(yè)務(wù)的最新數(shù)據(jù)。其中,文心大模型日均調(diào)用量已經(jīng)超過7億,距離百度上次公布的6億數(shù)據(jù)有進(jìn)一步提升。
在剛結(jié)束的阿里云棲大會(huì)上,阿里巴巴CEO吳永銘曾表示,阿里云的單網(wǎng)絡(luò)集群已經(jīng)拓展至10萬卡級(jí)別,而百度也不甘于落后。百度集團(tuán)執(zhí)行副總裁、百度智能云事業(yè)群總裁沈抖特別強(qiáng)調(diào),百舸4.0將不僅僅是萬卡集群,而是具備了成熟的10萬卡集群部署和管理能力。
百度今年一直在強(qiáng)調(diào)大模型的落地應(yīng)用。百度CEO李彥宏在最近一次內(nèi)部講話中表示,具備應(yīng)用場(chǎng)景、能夠持續(xù)迭代升級(jí)的大模型,與其它模型產(chǎn)品的差距會(huì)越來越大。
基于此,百度找來了長安汽車和三星等大量客戶為其站臺(tái),以展示百度大模型在各行各業(yè)的落地應(yīng)用成果。
沈抖表示,過去一年,百度感受到客戶的模型需求猛增,需要的集群規(guī)模越來越大,企業(yè)對(duì)模型推理成本下降的預(yù)期也越來越高。
訓(xùn)練大模型的前提是創(chuàng)建集群,這并非簡(jiǎn)單地買來GPU組裝即可,通常需要幾個(gè)月的時(shí)間進(jìn)行設(shè)備配置和調(diào)試。
此前有云廠商提到,組建集群可以壓縮到1天,而沈抖稱,百舸4.0能夠做到最快1小時(shí)完成組建,主要采用將業(yè)界流行訓(xùn)練工具和框架進(jìn)行內(nèi)置的方式。
一旦進(jìn)入到大規(guī)模訓(xùn)練階段,最重要的就是穩(wěn)定性。大模型領(lǐng)域一直遵循著名的Scaling Law(尺度定律),認(rèn)為模型性能會(huì)隨著參數(shù)、算力和數(shù)據(jù)集的規(guī)模增加而提高。
根據(jù)沈抖的說法,GPU集群需要耗費(fèi)巨額的建設(shè)和運(yùn)營成本,通常建設(shè)一個(gè)萬卡集群,單是GPU的采購成本就高達(dá)幾十億元。如果是10萬卡集群,服務(wù)器一天消耗的電量大約是300萬千瓦時(shí),相當(dāng)于北京東城區(qū)一天的居民用電量。
在這種大規(guī)模的集群上,硬件不可避免會(huì)出現(xiàn)故障,規(guī)模越大,出故障的概率越高。在這些故障中,絕大多數(shù)是由GPU引起的,因?yàn)?/span>GPU是非常敏感的硬件,對(duì)溫度、濕度等環(huán)境波動(dòng)反應(yīng)靈敏。
沈抖提到,Meta訓(xùn)練Llama3模型時(shí),用了1.6萬張GPU卡的集群,平均每3小時(shí)就會(huì)出一次故障。
大模型的訓(xùn)練是龐大的單一任務(wù),一個(gè)節(jié)點(diǎn)出錯(cuò),整個(gè)集群就需要停下,并回滾到上一個(gè)記憶點(diǎn)。考慮到GPU集群的成本非常昂貴,每多停一分鐘就會(huì)白白燒錢,“有效訓(xùn)練時(shí)長”便成為非常重要的指標(biāo)。
針對(duì)大模型訓(xùn)練過程中故障頻發(fā)的問題,百舸4.0對(duì)故障檢測(cè)手段和自動(dòng)容錯(cuò)機(jī)制進(jìn)行了升級(jí),目前萬卡集群上的有效訓(xùn)練時(shí)長達(dá)到99.5%,沈抖稱這高于同行對(duì)手的數(shù)據(jù)表現(xiàn)。此外,百舸4.0將主流的長文本推理效率提升了1倍以上,同時(shí)降低了推理成本。
在百度最新的財(cái)報(bào)電話會(huì)上,李彥宏曾透露,二季度百度智能云AI貢獻(xiàn)的收入占比進(jìn)一步提升至9%,而上一季度為6.9%。
大模型工具的性能提升固然重要,但對(duì)于百度來說,模型落地的成果更具有現(xiàn)實(shí)意義。
除升級(jí)百舸平臺(tái)外,百度還著重介紹了最新的千帆3.0平臺(tái)。根據(jù)沈抖公布的數(shù)據(jù),在千帆大模型平臺(tái)上,文心大模型日均調(diào)用量超過7億次,累計(jì)幫助用戶精調(diào)了3萬個(gè)大模型,開發(fā)出70多萬個(gè)企業(yè)級(jí)應(yīng)用。千帆3.0可調(diào)用包括文心系列大模型在內(nèi)的近百個(gè)國內(nèi)外大模型,也支持調(diào)用語音、視覺等各種傳統(tǒng)的小模型。
目前,大模型落地的三大主要需求分別是應(yīng)用開發(fā)、模型推理和模型開發(fā)。
在應(yīng)用開發(fā)層,企業(yè)級(jí)RAG(將企業(yè)和行業(yè)數(shù)據(jù)做成外掛知識(shí)庫給大模型)和Agent智能體是兩大常見的大模型落地場(chǎng)景。
其中,智能體接到任務(wù)后,會(huì)進(jìn)行自主思考、任務(wù)拆解、方案規(guī)劃,并調(diào)用工具,全程自主進(jìn)行,能夠完成過往需要3到4個(gè)APP才能完成的任務(wù)。
沈抖表示,百度內(nèi)部為千帆平臺(tái)提供了百度搜索和百度地圖等超過80個(gè)官方組件,用來提升智能體在特定任務(wù)上的能力。
而在李彥宏看來,智能體是大模型發(fā)展的下一個(gè)重要方向。“有很多人看好智能體這個(gè)發(fā)展方向,但是到今天為止,智能體還不是共識(shí),像百度這樣把智能體作為大模型最重要的戰(zhàn)略、最重要的發(fā)展方向的公司并不多?!?/span>
百度在今年的Create大會(huì)上曾發(fā)布過三款產(chǎn)品,分別是AgentBuilder、AppBuilder和ModelBuilder。其中,AgentBuilder和AppBuilder都與智能體相關(guān),一個(gè)門檻更低,另一個(gè)更強(qiáng)調(diào)功能性。
根據(jù)百度最新透露的數(shù)據(jù),智能體在百度生態(tài)的分發(fā)量大幅增加,7月日均分發(fā)次數(shù)超800萬次,為5月數(shù)據(jù)的兩倍。
百度旗下數(shù)字人平臺(tái)和智能客服產(chǎn)品也有了最新進(jìn)展。其中曦靈數(shù)字人平臺(tái)4.0,支持根據(jù)文字快速生成不同妝造、不同行業(yè)特色的3D數(shù)字人形象和視頻,并將3D超寫實(shí)數(shù)字人的價(jià)格從萬元降至199元。
智能客服產(chǎn)品“客悅”則在用戶意圖理解、多模態(tài)信息交流等方面進(jìn)行了優(yōu)化,提升了處理復(fù)雜問題的能力。
按照百度的說法,目前業(yè)內(nèi)“問題自主解決率”的平均水平是80%,升級(jí)后“客悅”將這一指標(biāo)提升至92%。該產(chǎn)品已累計(jì)幫助企業(yè)客戶服務(wù)超過1.5億人次,交互超5億次。