文|奇偶派
隨著2024年的鐘聲即將敲響,站在這個歷史的節(jié)點上,回望過去一年,發(fā)展、進步、改變、革新最大的行業(yè)非人工智能莫屬,AI的快速進步如同翻江倒海一般,激蕩著無數(shù)的可能性。
其中,2023年里國產大模型的噴涌出現(xiàn)和快速發(fā)展,作為最引人矚目的焦點,為我們每個人的工作與生活帶來前所未有的新奇體驗,并開啟了一波AI發(fā)展的浪潮。
它們的出現(xiàn),標志著人工智能從單一的任務處理,朝著多任務、復雜任務甚至多模態(tài)任務處理的方向邁進。這些大模型不僅能夠理解和生成人類的語言,還能夠理解和生成圖像、視頻等多種類型的數(shù)據(jù),甚至能夠在多個任務之間進行遷移學習,展現(xiàn)出了驚人的靈活性和適應性。
然而,能力的躍遷進步,并不意味著大模型的發(fā)展就能一帆風順。
龐大的參數(shù)量和計算需求,使得訓練和部署這些大模型成為了一項極具挑戰(zhàn)性的任務,而國產大模型在算力層面被封鎖、的情況下則顯得更加窘迫。同時,大模型強大的能力與真正落地生產生活也有著不小的距離,如何能將其快速、準確、低成本地投放至應有之處,也成為了眾多大模型廠商們思考的問題。
盡管如此,我們不能否認大模型帶來的巨大潛力。它們?yōu)槲覀兇蜷_了一個全新的世界,讓我們有機會以前所未有的方式理解和利用數(shù)據(jù)。
那么,回望2023年,在AI發(fā)展的三駕馬車——算力、數(shù)據(jù)、算法上,“國產派”遇到了哪些問題,取得了哪些突破,又有著怎樣的思考?在百模大戰(zhàn)甚至千模大戰(zhàn)的背景下,各家廠商推出了怎樣的大模型?面對大模型能力投放難、落地難的問題,企業(yè)又該如何解決呢?
01 大模型三駕馬車發(fā)展情況
在前置端,算力、數(shù)據(jù)、算法作為大模型的三大支柱,都是不可或缺的因素,在2023年中,它們在各自的道路上都有著長足的進步,也面臨著不少的發(fā)展困難。
其中,算力作為實現(xiàn)大模型的基礎,發(fā)展基調可以用“外部制裁,內部發(fā)展,夾縫求生”來概括。
但也正是在此困境之下,國產GPU芯片終于不再被NV與AMD兩家“騎在頭上”,得到了快速發(fā)展的最佳窗口期。
與國產廠商大力推進AI芯片進步的同時,面對著當下海量的需求和短期內只會越來越強的AI芯片封禁,中國幾大公有云廠商也在通過“集中算力,以云代卡”的方法解決算力問題。
“集中算力,以云代卡”,顧名思義,就是將很多AI芯片匯集到一處地方,再通過云的方法將算力傳輸至需要的地方,這樣可以提高算力基礎設施的質量與效率、實現(xiàn)資源的優(yōu)化配置與共享,這也是為什么2023年中小企業(yè)很難拿到加速卡,而是由幾大公有云廠商競爭搭建算力池的原因。
根據(jù)IDC數(shù)據(jù),2023上半年中國AI服務器已經(jīng)使用50萬塊自主開發(fā)的AI加速器芯片。華為已經(jīng)推出昇騰AI云服務,提供自主AI算力服務。在東數(shù)西算背景下,各地建立一批采用自主AI算力的AI計算中心,保障云端AI算力穩(wěn)定可靠供給。
總的來說,算力作為被圍追堵截最嚴重的地方,2023年國產大模型廠商們也在東拼西湊之中拮據(jù)存活了下來,但面對著越拉越大的算力差距,將會更明顯地成為中國AI追趕世界頂尖水平的絆腳石,所以在未來算力層面的企業(yè)也將會被多次拉出炒作,可注意相關投資機會。
如果說算力決定了大模型是否能面世,那么數(shù)據(jù)才是決定大模型優(yōu)質與否的關鍵要素。
所有人都明白,數(shù)據(jù)數(shù)量越多越好、數(shù)據(jù)多樣性越多越好、數(shù)據(jù)質量越高越好,所以目標是一致的,而方法也相差不大。
而目前國內科技互聯(lián)網(wǎng)頭部企業(yè)主要基于公開數(shù)據(jù)及自身特有數(shù)據(jù)差異化訓練大模型, 譬如百度文心主要依靠的是萬億級別的網(wǎng)頁數(shù)據(jù)、搜索數(shù)據(jù),阿里通義則主要來源于阿里達摩院,騰訊混元的訓練數(shù)據(jù)大多取自微信公眾號、微信搜索等處,但此類信息大多都有著互聯(lián)互通,所以截至目前,國內大模型整體的數(shù)據(jù)規(guī)模、質量也不會相差甚遠。
但有一個在發(fā)展第一年中尚未察覺的隱患,那就是高質量的語言數(shù)據(jù)與圖像數(shù)據(jù)或將耗盡,據(jù)機構預測,全球英文語言數(shù)據(jù)將于2030~2040年耗盡,其中能訓練出更好性能的高質量語言數(shù)據(jù)將于2026年耗盡。
與英文語言數(shù)據(jù)相比,中文優(yōu)質數(shù)據(jù)集更加稀缺,盡管國內數(shù)據(jù)資源豐富,合成數(shù)據(jù)也有不少,但由于挖掘不足導致優(yōu)質數(shù)據(jù)無法在市場上自由流動,未來如果廠商想要大模型更進一步,或許就需要將資金投入至尋找優(yōu)質數(shù)據(jù)的道路中,未來手握巨大優(yōu)質數(shù)據(jù)的如知乎、豆瓣等企業(yè),與挖掘、合成數(shù)據(jù)的企業(yè),也將獲得一定的發(fā)展空間。
而在算法層面,當前許多都是基于谷歌提出的Transformer模型構建的,仍在不斷地更新迭代中,但這并非是一定一成不變或必須要走的道路。
在AICC 2023人工智能計算大會上,浪潮信息人工智能軟件研發(fā)總監(jiān)吳韶華表示,如果想接近甚至超越GPT4的能力,一定要同時考慮算法和數(shù)據(jù)。首先是算法,不能一味地使用LIama結構或者Transformer結構,而不做任何創(chuàng)新。
譬如,在考慮到算力不足之時,在相同的架構下可以盡可能地降低參數(shù)量,這樣能提升參數(shù)效率,也能節(jié)省算力,相當于從算法層面考慮算力的開銷,而此類算法更新改進的思路,也是大廠們一直在做的事情。
02 模型進步雙輪驅動,基礎與行業(yè)并重
而在底層技術迭代的同時,各家大模型不斷地發(fā)布自然成為了最引人注目的事情。
繼3月百度發(fā)布文心大模型以來,圍繞在我們耳邊的一直就是華為、阿里、騰訊等互聯(lián)網(wǎng)大廠,三六零、科大訊飛等AI企業(yè),還有清華大學、復旦大學等高校科研機構推出的大模型及相關升級進展,截至目前,市場上出現(xiàn)的各類大模型已經(jīng)超過240個,正在供用戶們使用。
圖源:頭豹研究
但這么多的大模型,從屬性上來進行區(qū)分,一般都可以分為基礎大模型和行業(yè)大模型兩大類。
其中,基礎大模型是指通用性強、適用范圍廣的大模型,可以用于多個領域和任務,也可以在其基礎上進行特定數(shù)據(jù)的訓練與調教,使其變?yōu)槌蚰硞€方向或某個行業(yè)的專用大模型。
但基礎大模型的入場門檻較高,往往需要大量的計算資源和訓練數(shù)據(jù)方可進行開發(fā)和優(yōu)化。以當前國內能力最強的基礎大模型——文心大模型為例,其參數(shù)量已經(jīng)飆升至萬億級別,相關算力也是由萬卡AI集群提供,相關的成本大幅增加。
同時,在具體的落地使用方面,很多人會發(fā)現(xiàn)歷經(jīng)一年打磨、升級后的文心4.0、迭代后的通義千問、進步后的混元大模型的能力與一些行業(yè)專有大模型甚至都有著一定的差距,便認為基礎大模型的能力或許沒有那么重要,訓練好每個行業(yè)的大模型快速應用于生產中才是正道,但這樣的想法是十分錯誤的。
與行業(yè)大模型相比,基礎大模型的參數(shù)量超過某個閾值后,AI效果將不再是隨機概率事件,此時再將其訓練為行業(yè)大模型,將更容易獲得準確的結果。同樣的,基礎大模型也是其下所有行業(yè)模型的中心與核心,只要“大腦”有任何哪怕一丁點進步,都會引起整個模型群能力的提升,以百度為例,文心大模型4.0升級將會提升所有千帆智能平臺上的行業(yè)模型的落地能力。
此外,行業(yè)模型大多依靠人工標注與調優(yōu),有著成本高、周期長、效率低的缺點,但基礎大模型則能夠進行自我學習、自我監(jiān)督、自我更正,可以顯著地加速訓練成果,還能總結不同情況下的通用能力,如此訓練才有機會讓電影里無所不知的人工智能的落地成為真正的可能。
所以說,在基礎大模型尚不牢靠之時,就放棄基礎大模型的探索轉向行業(yè)大模型的發(fā)展實在是有“短視”之嫌,持續(xù)加碼基礎大模型的或許將為未來行業(yè)大模型的發(fā)展起到事半功倍的作用。
但作為門檻極高、花費極大的賽道,就交由大廠們去卷吧,而我們在2023年中也能欣慰地看到,BAT、華為等大模型第一梯隊企業(yè),在布局行業(yè)大模型、應用生態(tài)的過程中,并沒有放松加速迭代基礎大模型的速度,而未來伴隨著基礎大模型的突破,中國大模型的能力有機會得到“飛升”的機會。
不過,基礎大模型的建設固然重要,但是并不影響行業(yè)大模型的發(fā)展,與之相反的是,在巨大對于大模型能力的需求之下,年內,在金融、消費、能源行業(yè)中,都有著十分優(yōu)秀的落地案例。
在金融行業(yè)中,百度旗下度小滿以“通用大模型+自有行業(yè)數(shù)據(jù)”的方式構建了金融行業(yè)的垂直大模型“軒轅”。
在金融應用場景中,傳統(tǒng)的通用大模型由于其訓練數(shù)據(jù)很少接觸金融行業(yè)內的專業(yè)術語、業(yè)務邏輯和公式計算,導致其在具體問題上表現(xiàn)不佳。
而“軒轅70B”的強項就在于其專業(yè)的金融能力,受益于預訓練和微調階段中海量金融專業(yè)語料庫的訓練,無論是注冊會計師考試(CPA)、銀行/證券/保險/基金/期貨從業(yè)資格、理財規(guī)劃師、經(jīng)濟師等金融領域十大類權威考試,都能提供專業(yè)的支持和解答。
圖源:頭豹研究院
但軒轅能扮演的角色更像一個助手,提供的價值更多停留在工具層。而在未來,伴隨著金融行業(yè)大模型數(shù)據(jù)合規(guī)、隱私安全等問題得到解決后,將會應用于交互性更強的場景,賦能金融行業(yè)的數(shù)字化發(fā)展。
而在泛消費領域中,阿里、京東等依靠電商起家的大廠,都有著客服機器人、營銷數(shù)字人等行業(yè)大模型的應用。
在電商中,客服一直是最為依賴人工的環(huán)節(jié),在雙十一、六一八等購物節(jié)期間,需要24小時保持即時回復,也因為依賴人工,導致客服團隊的效率極低、難以滿足客戶需求。
但今年雙十一期間,京東與淘寶等平臺都引入了智能客服,以京東為例,“京小智”可以幾十分之一人工的價格,為用戶提供即時的服務,而在接入京東言犀大模型后,可以與消費者絲滑交流。
在智能客服外,在直播中京東數(shù)字人也讓人眼前一亮,其形象可以根據(jù)企業(yè)需求進行定制,音色、形象、身高、體型等項目都可以根據(jù)企業(yè)需求進行個性化設置,可以與真人主播搭配輪班,甚至完全替代真人主播。
此外,導購服務也是大模型接入電商行業(yè)后帶來的新功能,今年9月淘寶接入通義千問后,淘寶問問可以面向C端用戶提供智能導購服務,只要消費者問出相關問題,AI可以迅速給出所需購買的產品、相關視頻介紹、商品鏈接等,成為新的流量入口,讓商家、平臺和消費者完成三贏。
而在更加“硬核”的能源行業(yè)生產場景中,華為與商湯科技等廠商則有著很深的造詣。
在能源電力行業(yè)中,從業(yè)者過去常常面臨一個問題,如何將在能源緊缺時分配至最需要的地方,又如何在能源充裕時儲存起來,這就涉及到了虛擬電廠的調度問題了,而引入大模型后,可以對電力供給、需求端進行精確的把控,起到“削峰填谷”的作用。
據(jù)頭豹研究院報道,目前華為、商湯科技等廠商開發(fā)出的針對電力行業(yè)的AI大模型已經(jīng)投入了應用中。
例如,華為基于L1級別盤古電力大模型,推出無人機電力巡檢、電力缺陷識別等場景模型。商湯科技則基于AI大模型的底座,提供電力系統(tǒng)大模型解決方案,向電力能源行業(yè)持續(xù)輸出高質量的AI算法和算力,賦能電力系統(tǒng)多域智能化升級。
這樣的行業(yè)大模型及具體的應用還有很多很多,而這只是其能力落地的第一年,未來還會有更多的應用出現(xiàn)在我們身邊,并伴隨著大模型能力的進化而不斷迭代,并經(jīng)歷神化到祛魅的完整過程,真正成為人類的最好幫手。
03 云模結合的新投放方式——MaaS加速生長
伴隨著2023年中各家大模型的密集發(fā)布與快速成長,一個新的問題擺在了各家大廠的面前,那就是如何將大模型的能力簡單快速地投送至其應處的地方,畢竟如果在產業(yè)落地的環(huán)節(jié)出了問題,那么有關大模型的一切都只是空談。
但也就在此時,MaaS(Model as a Service)——模型即服務的概念,火了起來。
MaaS是指將大模型封裝成可調用的云服務,通過云計算平臺提供給用戶使用,這種服務化的模型部署方式通過將模型和計算資源放置在云端,用戶可以通過簡單的API接口調用模型,無需關注底層的模型訓練和部署細節(jié),同時可以根據(jù)需求自動擴展計算資源,實現(xiàn)彈性擴展和高可用性。
而像MaaS這樣將AI同云結合后再投放的形式,無論從需求、供給還是已有的云基礎設施建設來看,都有著出現(xiàn)的必然性。
從需求端來看,當前企業(yè)仍然處于朝向數(shù)智化轉型的階段中,許多生產場景都如干涸的土地一般,在等待人工智能的雨露助力效率的提升;而在供給端,受計算資源與存儲資源的影響,無法做到“家家有卡,人人會用”,只能采用集中算力再投放的方法;而在基礎設施端,在過去十年中,我們已經(jīng)搭建起了一套有關云的完整體系,而MaaS剛好可以作為SaaS的替代品接替上位。
于是,截至目前,幾乎所有兼?zhèn)湓坪痛竽P偷膹S商都發(fā)布了自己的MaaS平臺——百度千帆、字節(jié)火山方舟、騰訊云MaaS平臺、阿里云MaaS平臺......都已經(jīng)推出。
以百度千帆為例,其內置了百余款Prompt模板,包含對話、編程、電商、醫(yī)療、游戲、翻譯、演講等十余個場景,相關企業(yè)可以直接選擇某一個模型或者在已有模型的基礎上再根據(jù)自身的要求加入數(shù)據(jù)進行微調。
騰訊云MaaS的服務也大抵相同,可為金融、文旅、傳媒、政務、教育等10大行業(yè)提供了超過50個大模型解決方案,供客戶調用。
而在百度與騰訊之外的其他MaaS平臺,建設思路與打法也都大同小異,都是利用基礎設施和行業(yè)理解的優(yōu)勢,提供一整套的開發(fā)工具與套件,保證不同體量不同需求客戶的完美交付。
但是,2023年MaaS的發(fā)展還遠遠稱不上完備,最多只能說是搭起了往后發(fā)展的模板,仍然還有著很多很多需要更迭的地方。
其中最讓廠商們頭疼的點,就是基礎大模型與行業(yè)大模型之間的鴻溝。俗話說的好,“三百六十行,行行出狀元”,但在現(xiàn)實生活的行業(yè)中遠遠不止這個數(shù)字,讓大廠們去卷基礎大模型還好,但要讓那數(shù)萬甚至數(shù)千的開發(fā)人員去接觸每一個行業(yè),定制每一個方向的專用大模型,無異于癡人說夢。
而這就需要真正的從業(yè)人員參與到其中,但這個難度也著實不小,可以說這個問題還將困擾廠商、行業(yè)甚至社會很久很久的時間。
此外,MaaS本身作為一種云服務模式,算力是其提供服務的基礎,隨著MaaS的發(fā)展,云服務市場對算力的需求呈現(xiàn)爆發(fā)式增長趨勢,廠商們尚未跑通的商業(yè)化邏輯、大模型逐漸增長的數(shù)據(jù)還有價格逐漸增加的算力,成為了限制MaaS發(fā)展的一大難題。
而在這兩大痛點之外,用戶的教育也需要時間來堆砌。
據(jù)腦極體報道,包括了數(shù)據(jù)標注、訓練、評估、測試和部署等全套工具的騰訊云TI平臺,即使交到了行業(yè)客戶和伙伴手中,沒有技術專家深入指導,沒有產品經(jīng)理、項目經(jīng)理、運營、程序員等手把手教學,很難搞定定制化需求。
但無論怎么說,MaaS這樣的服務模式正處于發(fā)展的早期階段,尚未形成較為成熟的模式,未來大廠們若跑通商業(yè)模式,算力緊缺問題有所解決,客戶教育逐漸進步,屬于MaaS的春天才正式來到。
04 寫在最后
2023年,對于國產大模型的發(fā)展來說是充滿機遇與挑戰(zhàn)的一年。在算力、數(shù)據(jù)、算法等“AI三駕馬車”的推動下,國產大模型取得了顯著的進步,但同時也面臨著諸多困難。
但令人欣慰的是,大模型作為這樣一個新興事物,快速完成了商業(yè)模式的基礎閉環(huán),雖然當前仍有重重困難,但在起步之年能做到此種程度已經(jīng)體現(xiàn)了國內互聯(lián)網(wǎng)、科技大廠們的實力。
而在未來,伴隨著底層技術、大模型能力、投送能力和商業(yè)化模式的進一步發(fā)展,人工智能將不斷深入我們的生活當中,成為每個人都可借用的強大生產力工具。
參考資料:
1.《MaaS,云廠商在打一場“翻身仗”》,腦極體;
2.《云計算服務新范式:MaaS有望改變云服務廠商的商業(yè)模式》,賽迪顧問;
3.《英偉達A800、H800將被出口管制,國產GPU能否頂起一片天?》,科技云報道;
4.《AICC圓桌對話:打破跟隨,實現(xiàn)大模型創(chuàng)新能力突破 》,科技知多少;
5.《數(shù)據(jù)要素專題研究報告:大模型與數(shù)據(jù)共振,數(shù)據(jù)要素市場方興未艾》,國金證券;
6.《2023年中國AI大模型應用研究報告》,頭豹研究院。