正在閱讀:

重復(fù)造輪子的百模大戰(zhàn):兩極熱,中間空

掃一掃下載界面新聞APP

重復(fù)造輪子的百模大戰(zhàn):兩極熱,中間空

不要重復(fù)造輪子,但大家都想當(dāng)輪子。

攝影:界面新聞 范劍磊

文|光錐智能  周文斌

編輯|王一粟

“不敢下手,現(xiàn)在中國(guó)還沒(méi)跑出來(lái)一家絕對(duì)有優(yōu)勢(shì)的大模型,上層應(yīng)用沒(méi)法投,擔(dān)心押錯(cuò)寶?!蓖顿Y人Jucy(化名)向光錐智能表示,AI項(xiàng)目看得多、投的少是這段時(shí)間的VC常態(tài)。

ChatGPT點(diǎn)燃AI大爆炸2個(gè)月中,中國(guó)一直在等待自己的GPT-3.5。

AI真的冒犯到了打工人。游戲團(tuán)隊(duì)替代掉30%的原畫(huà)師、電商團(tuán)隊(duì)用AIGC生成低成本數(shù)字人模特、基礎(chǔ)程序員也感受到了被降維打擊的焦慮......眼看著GPT在國(guó)外要將所有領(lǐng)域都重新做一遍的趨勢(shì),科技顛覆裹挾著金錢(qián)的味道滾滾而來(lái)。

于是,除了焦慮的打工人,企業(yè)急著用大模型降本增效,創(chuàng)業(yè)者急著接入大模型推出新產(chǎn)品,股市急著用ChatGPT概念割韭菜,培訓(xùn)機(jī)構(gòu)更是先賺一波為敬。

襯托之下,反而顯得喜歡追逐風(fēng)口的中國(guó)科技巨頭們比以往更沉得住氣。

果然,周期使人成長(zhǎng),公司也是。

終于,眾望所歸、望眼欲穿、姍姍來(lái)遲,4月第二周,中國(guó)也迎來(lái)了新一代大模型的密集發(fā)布。

繼通義千問(wèn)開(kāi)放測(cè)試4天后,張勇在接手阿里云后首次亮相,宣布所有阿里產(chǎn)品未來(lái)將接入“通義千問(wèn)”大模型,進(jìn)行全面改造;

商湯科技在10日的技術(shù)交流會(huì)上,演示了“日日新”大模型的能力:對(duì)話、AI繪畫(huà)、編程、數(shù)字人,第二天開(kāi)盤(pán)大漲9%;

華為盤(pán)古大模型在8日低調(diào)亮相,但并于10日發(fā)布新產(chǎn)品;

明星創(chuàng)業(yè)者王小川公開(kāi)亮相,攜手搜狗老搭檔茹立云正式開(kāi)啟AI創(chuàng)業(yè)的新征程,將在下半年推出百川智能的大模型;

毫末發(fā)布首個(gè)自動(dòng)駕駛大模型DriveGPT雪湖·海若,把人類(lèi)反饋強(qiáng)化學(xué)習(xí)引入到駕駛領(lǐng)域。

就連游戲公司昆侖萬(wàn)維也趕來(lái)湊熱鬧,宣稱(chēng)“中國(guó)第一個(gè)真正實(shí)現(xiàn)智能涌現(xiàn)”的國(guó)產(chǎn)大語(yǔ)言模型將于17日啟動(dòng)邀請(qǐng)測(cè)試,但隨后被媒體質(zhì)疑其借熱點(diǎn)炒作股價(jià)。

熱熱鬧鬧、真真假假,大模型一時(shí)竟然有點(diǎn)亂花漸欲迷人眼。中國(guó)的大模型怎么就一下子如雨后春筍般都冒了出來(lái)?如果不重復(fù)造輪子,大家還能干點(diǎn)什么?

雖然是摸著Open AI過(guò)河,但中國(guó)大模型也都邁入了無(wú)人區(qū)。

01、涌現(xiàn)之前:亦步亦趨,又分道揚(yáng)鑣

如果要為AI大模型找一個(gè)時(shí)間節(jié)點(diǎn),2019年應(yīng)該是關(guān)鍵的一個(gè)。

這一年2月,遠(yuǎn)在大洋彼岸的OpenAI推出了GPT-2,恰好也是這個(gè)時(shí)間點(diǎn),微軟慷慨的投入了10億美元,讓OpenAI從“非營(yíng)利性”組織變成了“盈利上限”組織。

大概在一個(gè)月之后,太平洋的另一邊,百度發(fā)布了ERNIE1.0,成為中國(guó)第一個(gè)正式開(kāi)放的預(yù)訓(xùn)練大模型。

但這種第一其實(shí)有很多,比如華為的盤(pán)古大模型,業(yè)界首個(gè)千億參數(shù)的中文語(yǔ)言預(yù)訓(xùn)練模型;比如阿里的M6,中國(guó)首個(gè)千億參數(shù)多模態(tài)大模型;再比如騰訊HunYuan,國(guó)內(nèi)首個(gè)低成本、可落地的NLP萬(wàn)億大模型.....

總之,只要定語(yǔ)加的足夠多,就總能在某個(gè)領(lǐng)域當(dāng)?shù)谝?。那段時(shí)間,從硅谷到北京西二旗、再?gòu)奈宓揽诘缴虾ER港,包括華為、阿里、騰訊、商湯在內(nèi),凡是有能力的企業(yè),都開(kāi)始涉足AI大模型的相關(guān)研究。

但中國(guó)第一波AI大模型的“涌現(xiàn)”卻是在兩年之后。

2021年,曾任職過(guò)微軟亞洲工程院院長(zhǎng)、后被雷軍親自邀請(qǐng)到金山接替求伯君任CEO的張宏江,牽頭成立的智源研究院發(fā)布“悟道1.0”,包括國(guó)內(nèi)首個(gè)面向中文的NLP大模型、首個(gè)中文通用圖文多模態(tài)大模型和首個(gè)具有認(rèn)知能力的超大規(guī)模預(yù)訓(xùn)練的模型等等。

智源成立于2018年,也就是OpenAI發(fā)布GPT-1.0的前五個(gè)月,作為北京市和科技部牽頭成立,并集合學(xué)界和頭部科技企業(yè)資源的研究機(jī)構(gòu),智源其實(shí)是中國(guó)早期探索AI大模型的一個(gè)代表。

可以說(shuō),“悟道1.0”其實(shí)為中國(guó)后來(lái)所有AI大模型的一個(gè)樣本。除此之外,智源研究院還為中國(guó)構(gòu)建了大規(guī)模預(yù)訓(xùn)練模型技術(shù)體系,并建設(shè)開(kāi)放了全球最大中文語(yǔ)料數(shù)據(jù)庫(kù)WuDaoCorpora,為后來(lái)其他企業(yè)發(fā)展AI大模型打下了基礎(chǔ)。

也正是在“悟道1.0”之后,中國(guó)大模型開(kāi)始出現(xiàn)井噴的狀態(tài)。

2021年,華為基于昇騰AI與鵬城實(shí)驗(yàn)室聯(lián)合發(fā)布了鵬程盤(pán)古大模型。2022年,阿里發(fā)布了“通義”大模型系列,騰訊發(fā)布混元AI大模型......

在中國(guó)AI大模型如雨后春筍般涌現(xiàn)的同時(shí),國(guó)外的AI大模型也走到了從量變到質(zhì)變的節(jié)點(diǎn)。

2022年11月,OpenAI發(fā)布了基于GPT-3.5的ChatGPT,徹底打開(kāi)了人工智能的魔盒,然后就是席卷全球的AI 2.0浪潮。

事實(shí)上,如果以2018年GPT-1發(fā)布為節(jié)點(diǎn),中國(guó)的AI大模型的發(fā)展與國(guó)外的發(fā)展脈絡(luò)一直都亦步亦趨,但ChatGPT為什么并沒(méi)有出現(xiàn)在中國(guó)?

這其實(shí)和國(guó)內(nèi)外AI大模型兩種不同的發(fā)展路徑有關(guān)。

從目前國(guó)外具有代表性的AI大模型產(chǎn)品來(lái)看,比如ChatGPT、Midjourney、Notion AI或者Stable diffusion等等,都是以C端用戶為基礎(chǔ)的產(chǎn)品。

而反觀國(guó)內(nèi),目前大模型的主要應(yīng)用場(chǎng)景的都在B端。

比如阿里的“通義”大模型的典型應(yīng)用場(chǎng)景包括電商跨模態(tài)搜索、AI輔助設(shè)計(jì)、開(kāi)放域人機(jī)對(duì)話、法律文書(shū)學(xué)習(xí)、醫(yī)療文本理解等等,而騰訊的HunYuan-NLP-1T大模型則應(yīng)用在騰訊廣告、搜索、對(duì)話等內(nèi)部產(chǎn)品落地,或者像商湯的大模型,為自動(dòng)駕駛、機(jī)器人等通用場(chǎng)景任務(wù)提供感知和理解能力支持。

之所以選擇To B,一個(gè)重要的原因是,B端能夠更容易進(jìn)行商業(yè)化。

To B的行業(yè)特點(diǎn)導(dǎo)致中國(guó)的AI大模型并不需要做到非常大的參數(shù)規(guī)模,甚至于當(dāng)ChatGPT出來(lái)之后,國(guó)內(nèi)的公司討論的一個(gè)重要方向,是如何將已有的大模型規(guī)模“做小”,應(yīng)用到具體的行業(yè)上。

所以中國(guó)采用谷歌BERT路線的AI大模型會(huì)比較多,以更小的參數(shù),做更有效率,更適合垂類(lèi)的場(chǎng)景。

所以某種程度上,從出生的第一天,中國(guó)大模型就帶著商業(yè)化的任務(wù)。

而國(guó)外To C的大模型則不同,如ChatGPT的用戶在短短兩個(gè)月就達(dá)到一億,其底層預(yù)訓(xùn)練大模型GPT-3.5作為通用大模型,“大”成為參數(shù)的一個(gè)基本要求。

這在某種程度上促進(jìn)OpenAI不停為GPT增加參數(shù),然后激發(fā)更強(qiáng)大的“涌現(xiàn)”現(xiàn)象,最終實(shí)現(xiàn)“大力出奇跡”的ChatGPT。

因此,To B和To C兩種完全不一樣的發(fā)展路徑,也將中國(guó)和美國(guó)的AI大模型引向了兩種完全不同的發(fā)展方向。

02、不要重復(fù)造輪子,但大家都想當(dāng)輪子

到目前為止,中國(guó)已經(jīng)發(fā)布的AI大模型產(chǎn)品已經(jīng)發(fā)布了5個(gè),而這之后,還有5個(gè)AI大模型產(chǎn)品正在趕來(lái)的路上。

模型大亂斗已經(jīng)開(kāi)始。

大部分國(guó)內(nèi)的大模型能力都在GPT-2的水平上,但關(guān)注度卻遠(yuǎn)遠(yuǎn)高于GPT-2推出時(shí),這就造成了一種尷尬的局面——明知道還沒(méi)有完全準(zhǔn)備好,但卻不得不積極地在推進(jìn)模型發(fā)布,似乎稍微晚一點(diǎn)就會(huì)錯(cuò)過(guò)整個(gè)市場(chǎng)。

的確,無(wú)論是市場(chǎng)還是技術(shù)本身,都在要求企業(yè)更快地將大模型推向市場(chǎng)。

從技術(shù)上講,越早進(jìn)入市場(chǎng)就能越早地獲得用戶的使用數(shù)據(jù),進(jìn)而推動(dòng)模型優(yōu)化迭代。從市場(chǎng)角度而言,當(dāng)國(guó)外AI大模型與產(chǎn)業(yè)結(jié)合帶來(lái)更高效率的同時(shí),國(guó)內(nèi)企業(yè)也存在同樣的需求。

比如目前,光錐智能向多個(gè)SaaS公司調(diào)研發(fā)現(xiàn),幾乎都已經(jīng)接入GPT-3.5,目前在同步測(cè)試文心一言中。

而對(duì)于推出大模型的企業(yè)來(lái)說(shuō),這個(gè)時(shí)候搶占市場(chǎng)先機(jī)就變得尤為重要。

某頭部機(jī)構(gòu)負(fù)責(zé)AI的投資人告訴光錐智能,“中國(guó)現(xiàn)在被排除在ChatGPT生態(tài)之外是非常危險(xiǎn)的。”

他認(rèn)為,雖然應(yīng)用層存在更大的創(chuàng)業(yè)機(jī)會(huì),但應(yīng)用層的所有應(yīng)用卻都依賴于大模型而存在。就像PC互聯(lián)網(wǎng)時(shí)代,所有的桌面應(yīng)用都基于Windows開(kāi)發(fā),而移動(dòng)互聯(lián)網(wǎng)時(shí)代所有APP又都基于Android或iOS系統(tǒng)一樣,在模型即服務(wù)的時(shí)代,也需要出現(xiàn)一些“操作系統(tǒng)”級(jí)別的底層大模型。

目前國(guó)外GPT-4已經(jīng)明確可以成為這樣的存在,但國(guó)內(nèi)還沒(méi)有相應(yīng)的大模型出現(xiàn)。因此,在底層大模型的格局還未明朗的情況下,一旦大模型的市場(chǎng)格局發(fā)生變化,建立在大模型之上的應(yīng)用也將付之東流。

這也成為許多投資人不愿意現(xiàn)在就下場(chǎng)的原因,他們想讓這個(gè)市場(chǎng)再跑一跑,等待一個(gè)明確能夠成為“操作系統(tǒng)”級(jí)別的底層大模型出現(xiàn)。

所以,無(wú)論是百度還是阿里,在推出大模型之后,第一件關(guān)心的事就是——是否有更多企業(yè)能夠達(dá)成合作。

比如,在2月份明確文心一言推出計(jì)劃后,百度就開(kāi)始積極推進(jìn)不同行業(yè)的企業(yè)接入文心一言,到3月16日百度發(fā)布文心一言時(shí),已有超過(guò)650家企業(yè)宣布接入文心一言生態(tài)。而在4月7日,阿里官宣“通義千問(wèn)”之后,第一件事也是向企業(yè)開(kāi)放測(cè)試邀請(qǐng)。

如今國(guó)內(nèi)的AI大模型正處在競(jìng)爭(zhēng)“誰(shuí)能成為底層操作系統(tǒng)”的階段,各家積極推出自己的大模型,開(kāi)放內(nèi)測(cè),引導(dǎo)企業(yè)入駐,一個(gè)核心目標(biāo)就是圍繞大模型建立起自己的模型生態(tài)。

這是大廠能否在下一個(gè)時(shí)代繼續(xù)成為大廠的關(guān)鍵。下一個(gè)AI時(shí)代的船票并不是大模型,而是圍繞大模型建立起來(lái)的生態(tài)。

因此,即便所有人都在口口聲聲表示不要重復(fù)造輪子,不要浪費(fèi)資源建立一個(gè)同樣的大模型,但機(jī)會(huì)當(dāng)前,所有人都在重復(fù)造輪子。

但如今從百度到阿里,再?gòu)娜A為到商湯,底層大模型的戰(zhàn)爭(zhēng)也才剛剛剛開(kāi)始,畢竟不只是像騰訊、字節(jié)這樣的科技巨頭,還有像王小川、王慧文、李開(kāi)復(fù)等創(chuàng)業(yè)大佬也在虎視眈眈。

王小川、王慧文都先后入駐搜狐網(wǎng)絡(luò)科技大廈,五道口似乎又恢復(fù)了之前的榮光。

畢竟,許多人都感覺(jué)到,“這是一次文藝復(fù)興”。

到目前為止,更多具有競(jìng)爭(zhēng)力的玩家還沒(méi)有完全下場(chǎng),但底層大模型的“百團(tuán)大戰(zhàn)”卻已經(jīng)一觸即發(fā)。

03、AI熱“兩極化”,中間真空

大模型讓AI公司越來(lái)越重。

4月10日,商湯在公布“日日新SenseNova”大模型體系的同時(shí),其實(shí)還提到另一個(gè)關(guān)鍵點(diǎn),即依托于AI大裝置SenseCore實(shí)現(xiàn)“大模型+大算力”的研發(fā)體系。

為了滿足大模型海量數(shù)據(jù)訓(xùn)練的需求,原本可以輕裝上陣的算法公司,開(kāi)始自己做云,也自建人工智能數(shù)據(jù)中心(AIDC)。

另一個(gè)案例就是毫末,這家自動(dòng)駕駛公司為了用大模型訓(xùn)練數(shù)據(jù),也建了自己的智算中心。

這些垂類(lèi)的AI巨頭和獨(dú)角獸,之所以要自己做的這么重,最重要的原因之一,就是市面上幾乎沒(méi)有高性能的現(xiàn)成產(chǎn)品可以滿足。

近年來(lái),大模型參數(shù)量以指數(shù)級(jí)的速率提升,而數(shù)據(jù)量隨著多模態(tài)的引入也將大規(guī)模增長(zhǎng),因此就必然會(huì)導(dǎo)致對(duì)算力需求的劇增。例如,過(guò)去5年,超大參數(shù)AI大模型的參數(shù)量幾乎每一年提升一個(gè)數(shù)量級(jí)。過(guò)往的10年,最好的AI算法對(duì)于算力的需求增長(zhǎng)超過(guò)了100萬(wàn)倍。

一位商湯員工表示,商湯上海臨港AIDC的服務(wù)器機(jī)柜設(shè)計(jì)功耗10千瓦~25千瓦,最大可同時(shí)容納4臺(tái)左右英偉達(dá)A100服務(wù)器,但普通的服務(wù)器機(jī)柜普遍設(shè)計(jì)功耗以5千瓦居多,而單臺(tái)A100服務(wù)器的功耗即高達(dá)4.5千瓦左右。

科技巨頭就更是如此,每個(gè)巨頭都希望在自己的生態(tài)中形成閉環(huán),一定程度上也是因?yàn)檎麄€(gè)國(guó)內(nèi)開(kāi)源的生態(tài)不夠強(qiáng)大。

目前,大模型產(chǎn)業(yè)鏈大致可以分為數(shù)據(jù)準(zhǔn)備、模型構(gòu)建、模型產(chǎn)品三個(gè)層次。在國(guó)外,AI大模型的產(chǎn)業(yè)鏈比較成熟,形成了數(shù)量眾多的AI Infra(架構(gòu))公司,但這一塊市場(chǎng)在國(guó)內(nèi)還相對(duì)空白。

而在國(guó)內(nèi),巨頭們都有一套自己的訓(xùn)練架構(gòu)。

比如,華為的模型采用的是三層架構(gòu),其底層屬于通識(shí)性大模型,具備超強(qiáng)的魯棒性的泛化性,在這之上是行業(yè)大模型和針對(duì)具體場(chǎng)景和工作流程的部署模型。這種構(gòu)架的好處是,當(dāng)訓(xùn)練好的大模型部署到垂類(lèi)行業(yè)時(shí),可以不必再重復(fù)訓(xùn)練,成本僅是上一層的5%~7%。

阿里則是為AI打造了一個(gè)統(tǒng)一底座,無(wú)論是CV、NLP、還是文生圖大模型都可以放進(jìn)去這個(gè)統(tǒng)一底座中訓(xùn)練,阿里訓(xùn)練M6大模型需要的能耗僅是GPT-3的1%。

百度和騰訊也有相應(yīng)的布局,百度擁有覆蓋超50億實(shí)體的中文知識(shí)圖譜,騰訊的熱啟動(dòng)課程學(xué)習(xí)可以將萬(wàn)億大模型的訓(xùn)練成本降低到冷啟動(dòng)的八分之一。

整體來(lái)看,各個(gè)大廠之間的側(cè)重點(diǎn)雖然有所不同,但主要特點(diǎn)就是降本增效,而能夠?qū)崿F(xiàn)這一點(diǎn),很大程度上就是受益于“一手包辦”的閉環(huán)訓(xùn)練體系。

這種模式在單一大廠內(nèi)部固然有優(yōu)勢(shì),但從行業(yè)角度而言,也存在一些問(wèn)題。

國(guó)外成熟的AI產(chǎn)業(yè)鏈形成了數(shù)量眾多的AI Infra公司,這些公司有的專(zhuān)門(mén)做數(shù)據(jù)標(biāo)注、做數(shù)據(jù)質(zhì)量、或者模型架構(gòu)等。

這些企業(yè)的專(zhuān)業(yè)性,能夠讓他們?cè)谀骋粋€(gè)單一環(huán)節(jié)的效率、成本、質(zhì)量上都要比大廠親自下場(chǎng)做得更好。

比如,數(shù)據(jù)質(zhì)量公司Anomalo就是Google Cloud和Notion的供應(yīng)商,它可以通過(guò)ML自動(dòng)評(píng)估和通用化數(shù)據(jù)質(zhì)量檢測(cè)能力,來(lái)實(shí)現(xiàn)數(shù)據(jù)深度觀察和數(shù)據(jù)質(zhì)量檢測(cè)。

這些公司就像汽車(chē)行業(yè)的Tier 1,通過(guò)專(zhuān)業(yè)的分工,能夠讓大模型企業(yè)不必重復(fù)造輪子,而只需要通過(guò)整合供應(yīng)商資源,就能快速地搭建起自己模型構(gòu)架,從而降低成本。

但國(guó)內(nèi)在這一方面并不成熟,原因在于:一方面國(guó)內(nèi)大模型的主要玩家都是大廠,他們都有一套自己的訓(xùn)練體系,外部供應(yīng)商幾乎沒(méi)有機(jī)會(huì)進(jìn)入;另一方面,國(guó)內(nèi)也缺乏足夠龐大的創(chuàng)業(yè)生態(tài)和中小企業(yè),AI供應(yīng)商也很難在大廠之外找到生存的空間。

以谷歌為例,谷歌愿意將自己訓(xùn)練的數(shù)據(jù)結(jié)果分享給它的數(shù)據(jù)質(zhì)量供應(yīng)商,幫助供應(yīng)商提高數(shù)據(jù)處理能力,供應(yīng)商能力提升之后,又會(huì)反過(guò)來(lái)給谷歌提供更多高質(zhì)量數(shù)據(jù),從而形成一種良性循環(huán)。

國(guó)內(nèi)AI Infra生態(tài)的不足,直接導(dǎo)致的就是大模型創(chuàng)業(yè)門(mén)檻的拔高。

王慧文剛下場(chǎng)做光年之外的時(shí)候曾提出5000萬(wàn)美金的投入,這筆錢(qián)其實(shí)是李志飛為他算的,具體可以分為2000萬(wàn)美金搞算力,2000萬(wàn)美金找人,1000萬(wàn)美金做數(shù)據(jù)。這體現(xiàn)出一個(gè)直接的問(wèn)題,如果將在中國(guó)做大模型比喻成吃上一頓熱乎飯,那必須從挖地、種菜開(kāi)始。

目前,在AI 2.0的熱潮中,一個(gè)重要的特點(diǎn)就是“兩極化”:最熱門(mén)的要么是大模型層、要么就是應(yīng)用層。而類(lèi)似AI Infra(架構(gòu))的中間層,反而有很大的真空。

別都盯著造輪子,能造一顆好的螺絲也很重要。

04、結(jié)語(yǔ):巨頭&創(chuàng)新者

王小川和百度的隔空口水戰(zhàn),成為最近大模型混戰(zhàn)中一個(gè)熱鬧的插曲。

“高富帥”李彥宏認(rèn)為,中國(guó)基本不會(huì)再出OpenAI,用巨頭的就可以了。

“直男”王小川說(shuō),行業(yè)中有些人(李彥宏)對(duì)未來(lái)的觀點(diǎn)從來(lái)就沒(méi)有判斷對(duì)過(guò),一直活在平行宇宙里。

除了陳年恩怨,這大體上可以看作是巨頭和創(chuàng)業(yè)者之間的立場(chǎng)對(duì)立:巨頭都喜歡包攬一切,而創(chuàng)業(yè)者則喜歡打破常規(guī)。

而科技行業(yè)的成功似乎更依仗于創(chuàng)新。畢竟,從打造AlophaGo的DeepMind,到發(fā)布ChatGPT的OpenAI,沒(méi)有一個(gè)是從巨頭中孵化出來(lái)的。

這就是創(chuàng)新者的窘境。

對(duì)于科技巨頭而言,自己造輪子固然重要,但能找到、孵化出下一個(gè)OpenAI又何嘗不可呢?

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請(qǐng)聯(lián)系原著作權(quán)人。

百度

5.4k
  • 李彥宏堅(jiān)稱(chēng)不做視頻生成模型,中國(guó)版Sora到底值不值得做?
  • 百度智能云海東數(shù)據(jù)標(biāo)注基地正式啟動(dòng)

阿里巴巴

5.6k
  • 阿里云被惡意造謠涉“非法測(cè)繪案”,警方:已對(duì)造謠者采取強(qiáng)制措施
  • 南向資金今日凈賣(mài)出47.79億港元,阿里巴巴逆市獲凈買(mǎi)入7.41億港元

評(píng)論

暫無(wú)評(píng)論哦,快來(lái)評(píng)價(jià)一下吧!

下載界面新聞

微信公眾號(hào)

微博

重復(fù)造輪子的百模大戰(zhàn):兩極熱,中間空

不要重復(fù)造輪子,但大家都想當(dāng)輪子。

攝影:界面新聞 范劍磊

文|光錐智能  周文斌

編輯|王一粟

“不敢下手,現(xiàn)在中國(guó)還沒(méi)跑出來(lái)一家絕對(duì)有優(yōu)勢(shì)的大模型,上層應(yīng)用沒(méi)法投,擔(dān)心押錯(cuò)寶。”投資人Jucy(化名)向光錐智能表示,AI項(xiàng)目看得多、投的少是這段時(shí)間的VC常態(tài)。

ChatGPT點(diǎn)燃AI大爆炸2個(gè)月中,中國(guó)一直在等待自己的GPT-3.5。

AI真的冒犯到了打工人。游戲團(tuán)隊(duì)替代掉30%的原畫(huà)師、電商團(tuán)隊(duì)用AIGC生成低成本數(shù)字人模特、基礎(chǔ)程序員也感受到了被降維打擊的焦慮......眼看著GPT在國(guó)外要將所有領(lǐng)域都重新做一遍的趨勢(shì),科技顛覆裹挾著金錢(qián)的味道滾滾而來(lái)。

于是,除了焦慮的打工人,企業(yè)急著用大模型降本增效,創(chuàng)業(yè)者急著接入大模型推出新產(chǎn)品,股市急著用ChatGPT概念割韭菜,培訓(xùn)機(jī)構(gòu)更是先賺一波為敬。

襯托之下,反而顯得喜歡追逐風(fēng)口的中國(guó)科技巨頭們比以往更沉得住氣。

果然,周期使人成長(zhǎng),公司也是。

終于,眾望所歸、望眼欲穿、姍姍來(lái)遲,4月第二周,中國(guó)也迎來(lái)了新一代大模型的密集發(fā)布。

繼通義千問(wèn)開(kāi)放測(cè)試4天后,張勇在接手阿里云后首次亮相,宣布所有阿里產(chǎn)品未來(lái)將接入“通義千問(wèn)”大模型,進(jìn)行全面改造;

商湯科技在10日的技術(shù)交流會(huì)上,演示了“日日新”大模型的能力:對(duì)話、AI繪畫(huà)、編程、數(shù)字人,第二天開(kāi)盤(pán)大漲9%;

華為盤(pán)古大模型在8日低調(diào)亮相,但并于10日發(fā)布新產(chǎn)品;

明星創(chuàng)業(yè)者王小川公開(kāi)亮相,攜手搜狗老搭檔茹立云正式開(kāi)啟AI創(chuàng)業(yè)的新征程,將在下半年推出百川智能的大模型;

毫末發(fā)布首個(gè)自動(dòng)駕駛大模型DriveGPT雪湖·海若,把人類(lèi)反饋強(qiáng)化學(xué)習(xí)引入到駕駛領(lǐng)域。

就連游戲公司昆侖萬(wàn)維也趕來(lái)湊熱鬧,宣稱(chēng)“中國(guó)第一個(gè)真正實(shí)現(xiàn)智能涌現(xiàn)”的國(guó)產(chǎn)大語(yǔ)言模型將于17日啟動(dòng)邀請(qǐng)測(cè)試,但隨后被媒體質(zhì)疑其借熱點(diǎn)炒作股價(jià)。

熱熱鬧鬧、真真假假,大模型一時(shí)竟然有點(diǎn)亂花漸欲迷人眼。中國(guó)的大模型怎么就一下子如雨后春筍般都冒了出來(lái)?如果不重復(fù)造輪子,大家還能干點(diǎn)什么?

雖然是摸著Open AI過(guò)河,但中國(guó)大模型也都邁入了無(wú)人區(qū)。

01、涌現(xiàn)之前:亦步亦趨,又分道揚(yáng)鑣

如果要為AI大模型找一個(gè)時(shí)間節(jié)點(diǎn),2019年應(yīng)該是關(guān)鍵的一個(gè)。

這一年2月,遠(yuǎn)在大洋彼岸的OpenAI推出了GPT-2,恰好也是這個(gè)時(shí)間點(diǎn),微軟慷慨的投入了10億美元,讓OpenAI從“非營(yíng)利性”組織變成了“盈利上限”組織。

大概在一個(gè)月之后,太平洋的另一邊,百度發(fā)布了ERNIE1.0,成為中國(guó)第一個(gè)正式開(kāi)放的預(yù)訓(xùn)練大模型。

但這種第一其實(shí)有很多,比如華為的盤(pán)古大模型,業(yè)界首個(gè)千億參數(shù)的中文語(yǔ)言預(yù)訓(xùn)練模型;比如阿里的M6,中國(guó)首個(gè)千億參數(shù)多模態(tài)大模型;再比如騰訊HunYuan,國(guó)內(nèi)首個(gè)低成本、可落地的NLP萬(wàn)億大模型.....

總之,只要定語(yǔ)加的足夠多,就總能在某個(gè)領(lǐng)域當(dāng)?shù)谝?。那段時(shí)間,從硅谷到北京西二旗、再?gòu)奈宓揽诘缴虾ER港,包括華為、阿里、騰訊、商湯在內(nèi),凡是有能力的企業(yè),都開(kāi)始涉足AI大模型的相關(guān)研究。

但中國(guó)第一波AI大模型的“涌現(xiàn)”卻是在兩年之后。

2021年,曾任職過(guò)微軟亞洲工程院院長(zhǎng)、后被雷軍親自邀請(qǐng)到金山接替求伯君任CEO的張宏江,牽頭成立的智源研究院發(fā)布“悟道1.0”,包括國(guó)內(nèi)首個(gè)面向中文的NLP大模型、首個(gè)中文通用圖文多模態(tài)大模型和首個(gè)具有認(rèn)知能力的超大規(guī)模預(yù)訓(xùn)練的模型等等。

智源成立于2018年,也就是OpenAI發(fā)布GPT-1.0的前五個(gè)月,作為北京市和科技部牽頭成立,并集合學(xué)界和頭部科技企業(yè)資源的研究機(jī)構(gòu),智源其實(shí)是中國(guó)早期探索AI大模型的一個(gè)代表。

可以說(shuō),“悟道1.0”其實(shí)為中國(guó)后來(lái)所有AI大模型的一個(gè)樣本。除此之外,智源研究院還為中國(guó)構(gòu)建了大規(guī)模預(yù)訓(xùn)練模型技術(shù)體系,并建設(shè)開(kāi)放了全球最大中文語(yǔ)料數(shù)據(jù)庫(kù)WuDaoCorpora,為后來(lái)其他企業(yè)發(fā)展AI大模型打下了基礎(chǔ)。

也正是在“悟道1.0”之后,中國(guó)大模型開(kāi)始出現(xiàn)井噴的狀態(tài)。

2021年,華為基于昇騰AI與鵬城實(shí)驗(yàn)室聯(lián)合發(fā)布了鵬程盤(pán)古大模型。2022年,阿里發(fā)布了“通義”大模型系列,騰訊發(fā)布混元AI大模型......

在中國(guó)AI大模型如雨后春筍般涌現(xiàn)的同時(shí),國(guó)外的AI大模型也走到了從量變到質(zhì)變的節(jié)點(diǎn)。

2022年11月,OpenAI發(fā)布了基于GPT-3.5的ChatGPT,徹底打開(kāi)了人工智能的魔盒,然后就是席卷全球的AI 2.0浪潮。

事實(shí)上,如果以2018年GPT-1發(fā)布為節(jié)點(diǎn),中國(guó)的AI大模型的發(fā)展與國(guó)外的發(fā)展脈絡(luò)一直都亦步亦趨,但ChatGPT為什么并沒(méi)有出現(xiàn)在中國(guó)?

這其實(shí)和國(guó)內(nèi)外AI大模型兩種不同的發(fā)展路徑有關(guān)。

從目前國(guó)外具有代表性的AI大模型產(chǎn)品來(lái)看,比如ChatGPT、Midjourney、Notion AI或者Stable diffusion等等,都是以C端用戶為基礎(chǔ)的產(chǎn)品。

而反觀國(guó)內(nèi),目前大模型的主要應(yīng)用場(chǎng)景的都在B端。

比如阿里的“通義”大模型的典型應(yīng)用場(chǎng)景包括電商跨模態(tài)搜索、AI輔助設(shè)計(jì)、開(kāi)放域人機(jī)對(duì)話、法律文書(shū)學(xué)習(xí)、醫(yī)療文本理解等等,而騰訊的HunYuan-NLP-1T大模型則應(yīng)用在騰訊廣告、搜索、對(duì)話等內(nèi)部產(chǎn)品落地,或者像商湯的大模型,為自動(dòng)駕駛、機(jī)器人等通用場(chǎng)景任務(wù)提供感知和理解能力支持。

之所以選擇To B,一個(gè)重要的原因是,B端能夠更容易進(jìn)行商業(yè)化。

To B的行業(yè)特點(diǎn)導(dǎo)致中國(guó)的AI大模型并不需要做到非常大的參數(shù)規(guī)模,甚至于當(dāng)ChatGPT出來(lái)之后,國(guó)內(nèi)的公司討論的一個(gè)重要方向,是如何將已有的大模型規(guī)?!白鲂 ?,應(yīng)用到具體的行業(yè)上。

所以中國(guó)采用谷歌BERT路線的AI大模型會(huì)比較多,以更小的參數(shù),做更有效率,更適合垂類(lèi)的場(chǎng)景。

所以某種程度上,從出生的第一天,中國(guó)大模型就帶著商業(yè)化的任務(wù)。

而國(guó)外To C的大模型則不同,如ChatGPT的用戶在短短兩個(gè)月就達(dá)到一億,其底層預(yù)訓(xùn)練大模型GPT-3.5作為通用大模型,“大”成為參數(shù)的一個(gè)基本要求。

這在某種程度上促進(jìn)OpenAI不停為GPT增加參數(shù),然后激發(fā)更強(qiáng)大的“涌現(xiàn)”現(xiàn)象,最終實(shí)現(xiàn)“大力出奇跡”的ChatGPT。

因此,To B和To C兩種完全不一樣的發(fā)展路徑,也將中國(guó)和美國(guó)的AI大模型引向了兩種完全不同的發(fā)展方向。

02、不要重復(fù)造輪子,但大家都想當(dāng)輪子

到目前為止,中國(guó)已經(jīng)發(fā)布的AI大模型產(chǎn)品已經(jīng)發(fā)布了5個(gè),而這之后,還有5個(gè)AI大模型產(chǎn)品正在趕來(lái)的路上。

模型大亂斗已經(jīng)開(kāi)始。

大部分國(guó)內(nèi)的大模型能力都在GPT-2的水平上,但關(guān)注度卻遠(yuǎn)遠(yuǎn)高于GPT-2推出時(shí),這就造成了一種尷尬的局面——明知道還沒(méi)有完全準(zhǔn)備好,但卻不得不積極地在推進(jìn)模型發(fā)布,似乎稍微晚一點(diǎn)就會(huì)錯(cuò)過(guò)整個(gè)市場(chǎng)。

的確,無(wú)論是市場(chǎng)還是技術(shù)本身,都在要求企業(yè)更快地將大模型推向市場(chǎng)。

從技術(shù)上講,越早進(jìn)入市場(chǎng)就能越早地獲得用戶的使用數(shù)據(jù),進(jìn)而推動(dòng)模型優(yōu)化迭代。從市場(chǎng)角度而言,當(dāng)國(guó)外AI大模型與產(chǎn)業(yè)結(jié)合帶來(lái)更高效率的同時(shí),國(guó)內(nèi)企業(yè)也存在同樣的需求。

比如目前,光錐智能向多個(gè)SaaS公司調(diào)研發(fā)現(xiàn),幾乎都已經(jīng)接入GPT-3.5,目前在同步測(cè)試文心一言中。

而對(duì)于推出大模型的企業(yè)來(lái)說(shuō),這個(gè)時(shí)候搶占市場(chǎng)先機(jī)就變得尤為重要。

某頭部機(jī)構(gòu)負(fù)責(zé)AI的投資人告訴光錐智能,“中國(guó)現(xiàn)在被排除在ChatGPT生態(tài)之外是非常危險(xiǎn)的?!?/p>

他認(rèn)為,雖然應(yīng)用層存在更大的創(chuàng)業(yè)機(jī)會(huì),但應(yīng)用層的所有應(yīng)用卻都依賴于大模型而存在。就像PC互聯(lián)網(wǎng)時(shí)代,所有的桌面應(yīng)用都基于Windows開(kāi)發(fā),而移動(dòng)互聯(lián)網(wǎng)時(shí)代所有APP又都基于Android或iOS系統(tǒng)一樣,在模型即服務(wù)的時(shí)代,也需要出現(xiàn)一些“操作系統(tǒng)”級(jí)別的底層大模型。

目前國(guó)外GPT-4已經(jīng)明確可以成為這樣的存在,但國(guó)內(nèi)還沒(méi)有相應(yīng)的大模型出現(xiàn)。因此,在底層大模型的格局還未明朗的情況下,一旦大模型的市場(chǎng)格局發(fā)生變化,建立在大模型之上的應(yīng)用也將付之東流。

這也成為許多投資人不愿意現(xiàn)在就下場(chǎng)的原因,他們想讓這個(gè)市場(chǎng)再跑一跑,等待一個(gè)明確能夠成為“操作系統(tǒng)”級(jí)別的底層大模型出現(xiàn)。

所以,無(wú)論是百度還是阿里,在推出大模型之后,第一件關(guān)心的事就是——是否有更多企業(yè)能夠達(dá)成合作。

比如,在2月份明確文心一言推出計(jì)劃后,百度就開(kāi)始積極推進(jìn)不同行業(yè)的企業(yè)接入文心一言,到3月16日百度發(fā)布文心一言時(shí),已有超過(guò)650家企業(yè)宣布接入文心一言生態(tài)。而在4月7日,阿里官宣“通義千問(wèn)”之后,第一件事也是向企業(yè)開(kāi)放測(cè)試邀請(qǐng)。

如今國(guó)內(nèi)的AI大模型正處在競(jìng)爭(zhēng)“誰(shuí)能成為底層操作系統(tǒng)”的階段,各家積極推出自己的大模型,開(kāi)放內(nèi)測(cè),引導(dǎo)企業(yè)入駐,一個(gè)核心目標(biāo)就是圍繞大模型建立起自己的模型生態(tài)。

這是大廠能否在下一個(gè)時(shí)代繼續(xù)成為大廠的關(guān)鍵。下一個(gè)AI時(shí)代的船票并不是大模型,而是圍繞大模型建立起來(lái)的生態(tài)。

因此,即便所有人都在口口聲聲表示不要重復(fù)造輪子,不要浪費(fèi)資源建立一個(gè)同樣的大模型,但機(jī)會(huì)當(dāng)前,所有人都在重復(fù)造輪子。

但如今從百度到阿里,再?gòu)娜A為到商湯,底層大模型的戰(zhàn)爭(zhēng)也才剛剛剛開(kāi)始,畢竟不只是像騰訊、字節(jié)這樣的科技巨頭,還有像王小川、王慧文、李開(kāi)復(fù)等創(chuàng)業(yè)大佬也在虎視眈眈。

王小川、王慧文都先后入駐搜狐網(wǎng)絡(luò)科技大廈,五道口似乎又恢復(fù)了之前的榮光。

畢竟,許多人都感覺(jué)到,“這是一次文藝復(fù)興”。

到目前為止,更多具有競(jìng)爭(zhēng)力的玩家還沒(méi)有完全下場(chǎng),但底層大模型的“百團(tuán)大戰(zhàn)”卻已經(jīng)一觸即發(fā)。

03、AI熱“兩極化”,中間真空

大模型讓AI公司越來(lái)越重。

4月10日,商湯在公布“日日新SenseNova”大模型體系的同時(shí),其實(shí)還提到另一個(gè)關(guān)鍵點(diǎn),即依托于AI大裝置SenseCore實(shí)現(xiàn)“大模型+大算力”的研發(fā)體系。

為了滿足大模型海量數(shù)據(jù)訓(xùn)練的需求,原本可以輕裝上陣的算法公司,開(kāi)始自己做云,也自建人工智能數(shù)據(jù)中心(AIDC)。

另一個(gè)案例就是毫末,這家自動(dòng)駕駛公司為了用大模型訓(xùn)練數(shù)據(jù),也建了自己的智算中心。

這些垂類(lèi)的AI巨頭和獨(dú)角獸,之所以要自己做的這么重,最重要的原因之一,就是市面上幾乎沒(méi)有高性能的現(xiàn)成產(chǎn)品可以滿足。

近年來(lái),大模型參數(shù)量以指數(shù)級(jí)的速率提升,而數(shù)據(jù)量隨著多模態(tài)的引入也將大規(guī)模增長(zhǎng),因此就必然會(huì)導(dǎo)致對(duì)算力需求的劇增。例如,過(guò)去5年,超大參數(shù)AI大模型的參數(shù)量幾乎每一年提升一個(gè)數(shù)量級(jí)。過(guò)往的10年,最好的AI算法對(duì)于算力的需求增長(zhǎng)超過(guò)了100萬(wàn)倍。

一位商湯員工表示,商湯上海臨港AIDC的服務(wù)器機(jī)柜設(shè)計(jì)功耗10千瓦~25千瓦,最大可同時(shí)容納4臺(tái)左右英偉達(dá)A100服務(wù)器,但普通的服務(wù)器機(jī)柜普遍設(shè)計(jì)功耗以5千瓦居多,而單臺(tái)A100服務(wù)器的功耗即高達(dá)4.5千瓦左右。

科技巨頭就更是如此,每個(gè)巨頭都希望在自己的生態(tài)中形成閉環(huán),一定程度上也是因?yàn)檎麄€(gè)國(guó)內(nèi)開(kāi)源的生態(tài)不夠強(qiáng)大。

目前,大模型產(chǎn)業(yè)鏈大致可以分為數(shù)據(jù)準(zhǔn)備、模型構(gòu)建、模型產(chǎn)品三個(gè)層次。在國(guó)外,AI大模型的產(chǎn)業(yè)鏈比較成熟,形成了數(shù)量眾多的AI Infra(架構(gòu))公司,但這一塊市場(chǎng)在國(guó)內(nèi)還相對(duì)空白。

而在國(guó)內(nèi),巨頭們都有一套自己的訓(xùn)練架構(gòu)。

比如,華為的模型采用的是三層架構(gòu),其底層屬于通識(shí)性大模型,具備超強(qiáng)的魯棒性的泛化性,在這之上是行業(yè)大模型和針對(duì)具體場(chǎng)景和工作流程的部署模型。這種構(gòu)架的好處是,當(dāng)訓(xùn)練好的大模型部署到垂類(lèi)行業(yè)時(shí),可以不必再重復(fù)訓(xùn)練,成本僅是上一層的5%~7%。

阿里則是為AI打造了一個(gè)統(tǒng)一底座,無(wú)論是CV、NLP、還是文生圖大模型都可以放進(jìn)去這個(gè)統(tǒng)一底座中訓(xùn)練,阿里訓(xùn)練M6大模型需要的能耗僅是GPT-3的1%。

百度和騰訊也有相應(yīng)的布局,百度擁有覆蓋超50億實(shí)體的中文知識(shí)圖譜,騰訊的熱啟動(dòng)課程學(xué)習(xí)可以將萬(wàn)億大模型的訓(xùn)練成本降低到冷啟動(dòng)的八分之一。

整體來(lái)看,各個(gè)大廠之間的側(cè)重點(diǎn)雖然有所不同,但主要特點(diǎn)就是降本增效,而能夠?qū)崿F(xiàn)這一點(diǎn),很大程度上就是受益于“一手包辦”的閉環(huán)訓(xùn)練體系。

這種模式在單一大廠內(nèi)部固然有優(yōu)勢(shì),但從行業(yè)角度而言,也存在一些問(wèn)題。

國(guó)外成熟的AI產(chǎn)業(yè)鏈形成了數(shù)量眾多的AI Infra公司,這些公司有的專(zhuān)門(mén)做數(shù)據(jù)標(biāo)注、做數(shù)據(jù)質(zhì)量、或者模型架構(gòu)等。

這些企業(yè)的專(zhuān)業(yè)性,能夠讓他們?cè)谀骋粋€(gè)單一環(huán)節(jié)的效率、成本、質(zhì)量上都要比大廠親自下場(chǎng)做得更好。

比如,數(shù)據(jù)質(zhì)量公司Anomalo就是Google Cloud和Notion的供應(yīng)商,它可以通過(guò)ML自動(dòng)評(píng)估和通用化數(shù)據(jù)質(zhì)量檢測(cè)能力,來(lái)實(shí)現(xiàn)數(shù)據(jù)深度觀察和數(shù)據(jù)質(zhì)量檢測(cè)。

這些公司就像汽車(chē)行業(yè)的Tier 1,通過(guò)專(zhuān)業(yè)的分工,能夠讓大模型企業(yè)不必重復(fù)造輪子,而只需要通過(guò)整合供應(yīng)商資源,就能快速地搭建起自己模型構(gòu)架,從而降低成本。

但國(guó)內(nèi)在這一方面并不成熟,原因在于:一方面國(guó)內(nèi)大模型的主要玩家都是大廠,他們都有一套自己的訓(xùn)練體系,外部供應(yīng)商幾乎沒(méi)有機(jī)會(huì)進(jìn)入;另一方面,國(guó)內(nèi)也缺乏足夠龐大的創(chuàng)業(yè)生態(tài)和中小企業(yè),AI供應(yīng)商也很難在大廠之外找到生存的空間。

以谷歌為例,谷歌愿意將自己訓(xùn)練的數(shù)據(jù)結(jié)果分享給它的數(shù)據(jù)質(zhì)量供應(yīng)商,幫助供應(yīng)商提高數(shù)據(jù)處理能力,供應(yīng)商能力提升之后,又會(huì)反過(guò)來(lái)給谷歌提供更多高質(zhì)量數(shù)據(jù),從而形成一種良性循環(huán)。

國(guó)內(nèi)AI Infra生態(tài)的不足,直接導(dǎo)致的就是大模型創(chuàng)業(yè)門(mén)檻的拔高。

王慧文剛下場(chǎng)做光年之外的時(shí)候曾提出5000萬(wàn)美金的投入,這筆錢(qián)其實(shí)是李志飛為他算的,具體可以分為2000萬(wàn)美金搞算力,2000萬(wàn)美金找人,1000萬(wàn)美金做數(shù)據(jù)。這體現(xiàn)出一個(gè)直接的問(wèn)題,如果將在中國(guó)做大模型比喻成吃上一頓熱乎飯,那必須從挖地、種菜開(kāi)始。

目前,在AI 2.0的熱潮中,一個(gè)重要的特點(diǎn)就是“兩極化”:最熱門(mén)的要么是大模型層、要么就是應(yīng)用層。而類(lèi)似AI Infra(架構(gòu))的中間層,反而有很大的真空。

別都盯著造輪子,能造一顆好的螺絲也很重要。

04、結(jié)語(yǔ):巨頭&創(chuàng)新者

王小川和百度的隔空口水戰(zhàn),成為最近大模型混戰(zhàn)中一個(gè)熱鬧的插曲。

“高富帥”李彥宏認(rèn)為,中國(guó)基本不會(huì)再出OpenAI,用巨頭的就可以了。

“直男”王小川說(shuō),行業(yè)中有些人(李彥宏)對(duì)未來(lái)的觀點(diǎn)從來(lái)就沒(méi)有判斷對(duì)過(guò),一直活在平行宇宙里。

除了陳年恩怨,這大體上可以看作是巨頭和創(chuàng)業(yè)者之間的立場(chǎng)對(duì)立:巨頭都喜歡包攬一切,而創(chuàng)業(yè)者則喜歡打破常規(guī)。

而科技行業(yè)的成功似乎更依仗于創(chuàng)新。畢竟,從打造AlophaGo的DeepMind,到發(fā)布ChatGPT的OpenAI,沒(méi)有一個(gè)是從巨頭中孵化出來(lái)的。

這就是創(chuàng)新者的窘境。

對(duì)于科技巨頭而言,自己造輪子固然重要,但能找到、孵化出下一個(gè)OpenAI又何嘗不可呢?

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請(qǐng)聯(lián)系原著作權(quán)人。