文|數(shù)智前線 趙艷秋
編輯|石兆
7月7日下午,華為云在東莞舉辦的華為開發(fā)者大會2023(HDC.Cloud 2023 ) 上,宣布推出盤古大模型3.0,這是華為云自2021年4月正式發(fā)布盤古大模型后的最新進展。
由于華為是BATH等科技大廠中,最晚官宣大模型進展的企業(yè),又選擇了一條與OpenAI不同的道路——定位產(chǎn)業(yè)、大模型包含三層架構(gòu)、多個模型。由此,華為的路線選擇、大模型在行業(yè)市場的可商用性、華為發(fā)力點等,都引發(fā)業(yè)界廣泛關(guān)注。
01、為什么不是一個大模型?
與OpenAI聚焦于GPT一個大模型不同,華為云盤古大模型3.0包含了三層架構(gòu)、多個模型。為什么華為大模型與OpenAI的不一樣?
在大會上,華為常務(wù)董事、華為云CEO張平安系統(tǒng)介紹了華為云盤古大模型的情況。華為云于2019年投入AI大模型研發(fā),并于2021年發(fā)布了基于Transformer架構(gòu)的盤古NLP中文大模型和阿語大模型。華為云稱,與2021年發(fā)布的盤古大模型 1.0相比,此次主要在架構(gòu)、訓練方法上進行了升級。
在華為云盤古大模型3.0架構(gòu)中,第一層L0層有5個盤古基礎(chǔ)大模型,不僅有今年最火的自然語言大模型,還有視覺大模型、多模態(tài)大模型、預測大模型、科學計算大模型。第二層L1層目前有多個行業(yè)大模型,既有基于行業(yè)公開數(shù)據(jù)訓練的行業(yè)通用大模型,如政務(wù)、金融、氣象等,也有基于行業(yè)客戶自有數(shù)據(jù),在盤古L0和L1上訓練而來的企業(yè)專有大模型。第三層L2層是針對更多細化場景的模型,可以開箱即用。
為什么華為云會選擇這樣的道路?實際上,此前也有企業(yè)采用類似做法,“本質(zhì)上是更容易實現(xiàn)行業(yè)閉環(huán)落地”,有業(yè)界人士認為,這是一個更平滑的技術(shù)路線。通過不同層模型間的飛輪效應(yīng),既可以把模型越做越大,也可以形成真實的行業(yè)落地和用戶反饋閉環(huán),讓模型越來越有用,“而不是一上來就是萬億參數(shù)的大模型,卻形不成用戶反饋閉環(huán)”。
這輪大模型變革以語言大模型為主,但有人士注意到,從華為云基礎(chǔ)大模型來看,除了語言大模型之外,還有預測、科學計算大模型這類比較專用、解決特定問題的模型。業(yè)界人士告訴數(shù)智前線,這些基礎(chǔ)大模型之間能形成互補,也是目前演進的一個趨勢——這一輪以語言大模型發(fā)起,逐步衍生出CV、多模態(tài)等大模型。張平安介紹,他們是考慮到行業(yè)客戶不同應(yīng)用場景、不同時延、不同響應(yīng)速度的多樣化需求而來。
值得注意的是,盤古大模型采用了“完全的分層解耦設(shè)計”,這是盤古3.0全新做的架構(gòu)設(shè)計,也是此前各大企業(yè)推出大模型時未涉及的。根據(jù)張平安的介紹,這是為了更好地構(gòu)筑一個商業(yè)模式——適配行業(yè)不同場景,必須要做到完全解耦。比如,有些企業(yè)只需要圖像分析,不需要文案生成,基礎(chǔ)大模型和能力集解耦后,他們就可以按需調(diào)用;甚至還有數(shù)據(jù)解耦,模型升級時,數(shù)據(jù)就可以復用;這個解耦架構(gòu),也實現(xiàn)了模型的并行迭代。
02、為什么做行業(yè)大模型?
業(yè)界觀察,自從OpenAI推出ChatGPT之后,美國絕大部分創(chuàng)新應(yīng)用集中在C端。在中國市場,百度、阿里、商湯、科大訊飛、華為等科技大廠先后公布大模型最新進展。截至7月,全球已發(fā)布數(shù)百個大模型,中國有80多個。
業(yè)界觀察,國內(nèi)企業(yè)在大模型落地時,都結(jié)合自身在已有業(yè)務(wù)上的積累,雖然有些模型看著較為類似,但落地思路上有較大差異。比如,百度“文心一言”大語言模型,正在搜索、地圖、音箱等方向上探索;同時也推出“文心千帆”大模型平臺,爭奪產(chǎn)業(yè)級市場??拼笥嶏w一面將大模型技術(shù)疊加到教育、辦公智能硬件等成熟業(yè)務(wù)中,另一面也介入此前一直在做的醫(yī)療、教育等企業(yè)數(shù)字化市場。
華為云此次發(fā)布的盤古大模型3.0,則聚焦在行業(yè)市場,這也有賴于它在政企市場上的長期積累。張平安稱,“AI for Industries”是華為云堅持的方向,“盤古大模型,不作詩只做事”,這在一定程度上代表了產(chǎn)業(yè)界的聲音。資深業(yè)界人士認為,ChatGPT核心并不是“Chat”,而是它的思維鏈、智能涌現(xiàn)、從感知到認知這些巨大的變化,它讓人工智能的通用性有了眉目,而不像過去一個場景、一個場景地去提供AI技術(shù)。
實際上,雖然這一輪大模型是先在消費級市場引發(fā)風潮,讓每個人意識到大模型的價值,但業(yè)界也達成共識,大模型是可能引發(fā)類似蒸汽機產(chǎn)業(yè)革命的技術(shù)范式變遷,因此,企業(yè)級市場也是商業(yè)競爭焦點。
張平安告訴數(shù)智前線,他們注意到OpenAI也有動作準備進入行業(yè),“我覺得這才是正確的道路”。
03、大模型在行業(yè)是否達到可商用?
雖然業(yè)界在進軍行業(yè),但由于目前大模型在企業(yè)級市場落地還處于早期階段,各種問題也引發(fā)了“大模型遠未達到可商用化程度”的說法。不過,從本次華為開發(fā)者大會上看,大模型落地的各種問題正在逐步解決,在產(chǎn)業(yè)中確實在發(fā)揮出價值。
舉例來說,大模型的最大弊端之一是擅于“一本正經(jīng)地胡說八道”,這對于嚴謹?shù)男袠I(yè)應(yīng)用是致命的。而這次華為云演示了對準確性要求嚴苛的金融業(yè)和制造業(yè)的落地進展。
在金融行業(yè),工行在全國有4萬多個網(wǎng)點、20多萬網(wǎng)點的柜員,經(jīng)常要幫助客戶解決各種問題,需要在不同系統(tǒng)中進行多次查詢。工行和華為正在緊密合作,通過盤古打造工行的金融大模型。
華為云EI服務(wù)產(chǎn)品部部長尤鵬介紹,在合作中工行首先提出,大模型協(xié)助網(wǎng)點員工辦理業(yè)務(wù)時,第一要做到合規(guī),這就意味著在用生成式大模型時,必須要能夠溯源。第二是要準確,年利率如果是3%,絕對不能說成3.5%。由此,基于盤古大模型的的銀行網(wǎng)點助手,將大模型的生成能力和檢索能力進行融合,自動生成的辦理流程和操作指導,都提供了檢索來源。目前,原來需要平均5次的操作降低為1次,辦結(jié)時間縮短5分鐘以上。
在制造行業(yè),無論是高精工藝,還是生產(chǎn)計劃,都需要分毫不差,一旦出現(xiàn)錯誤,可能會釀成事故。盤古大模型已走進華為生產(chǎn)線,在學習了各種數(shù)據(jù),包括能準確理解發(fā)給計劃員的郵件,并轉(zhuǎn)化為調(diào)度指令,再通過天籌AI求解器進行運算,現(xiàn)在1分鐘可準確做出未來3天的生產(chǎn)計劃。
大模型如何在要求精準的行業(yè)應(yīng)用中不跑偏,仍是行業(yè)性挑戰(zhàn)。目前業(yè)界都在進行探索改進。華為云戰(zhàn)略與產(chǎn)業(yè)發(fā)展部總裁黃瑾稱,除了要不斷提升大模型的水平外,依賴現(xiàn)有高質(zhì)量知識,包括外掛插件、搜索引擎、相關(guān)數(shù)據(jù)庫、知識圖譜、行業(yè)知識庫等,都能在一定程度上保障大模型應(yīng)用的精準和專業(yè)。而此前,包括微軟在內(nèi)的業(yè)界認為,當下大模型的定位“還是一個專家助手”,并非完全替代人。
一些行業(yè)企業(yè)還有一個疑惑,他們關(guān)注到一些應(yīng)用如礦山,用的最多的是攝像頭和圖像分析,這真的需要大模型嗎?業(yè)界人士告訴數(shù)智前線,實際上,大模型的出現(xiàn),提升了政企客戶的期望值。他們應(yīng)用大模型,不再為解決單點問題,而是期望大模型充當企業(yè)智能化的“一個底座”。
從這次華為展示的盤古礦山大模型來看,覆蓋煤礦的采、掘、機、運、通、洗、選等業(yè)務(wù)流程下的1000個細分場景,大模型將充當?shù)鬃T谌A為與深圳福田區(qū)政府的合作中,此前在數(shù)字政府1.0項目中,福田區(qū)建設(shè)了很多感知系統(tǒng)?,F(xiàn)在,將這些系統(tǒng)接入大模型后,相當于給政務(wù)系統(tǒng)配上了智慧大腦,客戶認為這才是數(shù)字政府2.0。
大模型在行業(yè)中的應(yīng)用才剛剛開始,由于行業(yè)數(shù)據(jù)的可獲得性及開放度不高,行業(yè)Know-how復雜等挑戰(zhàn),大模型在行業(yè)的落地進展較慢。張平安稱,未來隨著不斷深入行業(yè),華為云會推出更多行業(yè)大模型。而這也是當下競爭的關(guān)鍵。
04、百模大戰(zhàn),華為的發(fā)力點在哪里?
業(yè)界看到,在推出大模型的企業(yè)中,他們的投入重點各有不同。在7月7日開發(fā)者大會上,張平安強調(diào)了大模型所需的各項根技術(shù)。他稱,一方面大模型的創(chuàng)新來自模型本身創(chuàng)新;另一方面則必須依靠AI各項根技術(shù),“如果沒有算力技術(shù)、沒有算子,沒有開發(fā)框架,沒有開發(fā)平臺、工程平臺,沒有開放性,很難做到大模型好用,給各行業(yè)賦予價值”。
業(yè)界觀察,華為不僅提及昇騰芯片,更強調(diào)上述軟硬件根技術(shù)組成的昇騰云底座。由于行業(yè)中最成熟的GPU以及相關(guān)軟件,華為都不可用,它轉(zhuǎn)而發(fā)展全棧根技術(shù):最底層是鯤鵬、昇騰為基礎(chǔ)的AI算力云平臺,之上是異構(gòu)計算架構(gòu)CANN、全場景AI框架昇思MindSpore,以及AI開發(fā)生產(chǎn)線ModelArts?!艾F(xiàn)在基于華為的AI根技術(shù),我們大模型訓練效能不僅不落后,還可以調(diào)優(yōu)到業(yè)界主流GPU的1.1倍?!睆埰桨苍诖髸贤嘎读诉@個業(yè)界關(guān)注的數(shù)字。
7月7日,華為云也將昇騰AI云服務(wù)對外開放。華為云2000P Flops單集群的昇騰AI云服務(wù)在烏蘭察布和貴安同時上線。昇騰云服務(wù)除了支持華為的AI框架Mindspore外,還支持Pytorch、Tensorflow等主流AI框架,框架中的90%算子,可以通過華為端到端遷移工具從GPU平滑遷移到昇騰。
有業(yè)界人士稱,目前GPU之所以一卡難求是因為大家都急著用,未來隨著多樣化算力走向商用,AI算力將更為多元化。據(jù)悉,美團用30天時間,已將70多個AI應(yīng)用遷移到了昇騰AI云。華為還與美團的開發(fā)人員一起,將美團30個算子進行了深度優(yōu)化,AI算力的效能比原來提升了30%。
AI算力是一個堪稱比摩爾定律發(fā)展速度還快的領(lǐng)域。目前,包括英偉達在內(nèi)的企業(yè)都在風暴般研發(fā)新框架,拉升AI算力。張平安稱,華為對AI根技術(shù)堆棧的發(fā)展是一條長期道路,除了大量自身技術(shù)外,還要與客戶應(yīng)用場景、算子結(jié)合。
張平安表示,為了幫助全球客戶、伙伴、開發(fā)者訓練和使用大模型,華為云致力于為全球客戶打造世界AI另一極,為所有AI開發(fā)者提供新的選擇。
05、盤古大模型未來怎么走?
目前,業(yè)界大模型處于快速演進狀態(tài)。業(yè)界人士稱,在過去幾個月時間中,大模型在訓練、推理方面,每天都有很大變化。
“我們內(nèi)部做了一個非常激進的roadmap(技術(shù)路線圖)?!睆埰桨舱f,華為云現(xiàn)在是“All in盤古大模型”,目標圖制定得密密麻麻。他透露,這一階段的路標更多的不在盤古大模型參數(shù)提升等方向,比如,在昇騰AI云服務(wù)上,華為云剛剛發(fā)布的2000P Flops單集群,如果按照一張加速卡算力是400T的話,集群規(guī)模是6000張卡。
另外,更為重要的是向行業(yè)深處的挺進速度,“這也是我們價值最大的路標圖”。
張平安稱,盤古大模型在中國市場成功之后,在海外也會繼續(xù)拓展。在海外,既可以部署在華為昇騰云上,也可以經(jīng)過合作伙伴的改造,部署在其他任何算力平臺上?!氨P古更加是個軟件,它是一個AI的軟件系統(tǒng)。”數(shù)智前線獲悉,今年以來,華為在軟件發(fā)展戰(zhàn)略方面,內(nèi)部也進行了多次大范圍研討,華為有意在軟件領(lǐng)域成為一家成功的企業(yè)。
此外,華為云CTO張宇昕針對業(yè)界關(guān)注的盤古大模型開發(fā)問題進行了回復。盤古大模型沒有采用開源技術(shù),全棧技術(shù)為自主創(chuàng)新。
他介紹,從數(shù)據(jù)角度,L0基礎(chǔ)大模型訓練采用業(yè)界開放數(shù)據(jù)集。L1和L2面向行業(yè)的模型,采用了行業(yè)公開數(shù)據(jù)集以及行業(yè)客戶授權(quán)的數(shù)據(jù)。在這個過程中,他們需要采用多項技術(shù)保證數(shù)據(jù)處理過程中的隱私保護、安全合規(guī)要求,確保知識產(chǎn)權(quán)等。而基于此,華為盤古大模型也將走商業(yè)閉源道路。