正在閱讀:

大模型混戰(zhàn)這一年

掃一掃下載界面新聞APP

大模型混戰(zhàn)這一年

進(jìn)化之賽、效率之爭(zhēng)、落地之戰(zhàn),誰(shuí)也不想落后。

圖片來(lái)源:界面圖庫(kù)

文 | 連線Insight 王慧瑩

編輯 | 子夜

日行千里,烈火烹油的兩年過(guò)去,飛速發(fā)展的大模型行業(yè)怎么樣了?

與兩年前“百模大戰(zhàn)”為技術(shù)爭(zhēng)奪的景象不同,玩家們有兩個(gè)速度之爭(zhēng):一是技術(shù)迭代和產(chǎn)品更新的速度,二是商業(yè)化賺錢(qián)和應(yīng)用落地的速度。

技術(shù)和產(chǎn)品的迭代很直觀,直接推動(dòng)大模型行業(yè)的百舸爭(zhēng)流。從語(yǔ)言大模型,到文生視頻大模型,再到3D生成大模型,幾乎每隔幾個(gè)月就會(huì)有讓人眼前一亮的大模型出現(xiàn)。

大家都在嘗試和摸索。每一次技術(shù)的擴(kuò)大亮相,都會(huì)將具有前瞻性的大模型廠商推到聚光燈下,并引發(fā)新一輪的行業(yè)追隨。

有人領(lǐng)先,就有人追趕。這些尚未成熟的技術(shù),給了探路者彎道超車的機(jī)會(huì),也帶來(lái)了商業(yè)化的壓力。

尤其是進(jìn)入今年下半年,整個(gè)行業(yè)的風(fēng)向更加微妙。市場(chǎng)逐漸對(duì)大模型祛魅,資本也回歸理性,行業(yè)的兩股勢(shì)力也發(fā)生了站位的轉(zhuǎn)換。

一邊是阿里、字節(jié)等巨頭投入的動(dòng)作明顯加快,收編大模型創(chuàng)業(yè)公司的核心人才,推出一系列AI產(chǎn)品;一邊是創(chuàng)業(yè)公司開(kāi)始重新評(píng)估自身的路線,國(guó)內(nèi)“AI六小虎”有兩家逐步放棄預(yù)訓(xùn)練模型,業(yè)務(wù)重心轉(zhuǎn)向AI應(yīng)用。

這背后,直指行業(yè)第二個(gè)速度之爭(zhēng):商業(yè)化的效率。

毋庸置疑,當(dāng)下的大模型賽道高度擁擠,隨著算力成本上漲、算力分配有限,對(duì)創(chuàng)業(yè)公司而言,大模型這場(chǎng)戰(zhàn)役時(shí)間線拉得越長(zhǎng),創(chuàng)業(yè)公司的壓力就越大。

“AI大模型(賽道),將只剩下10家企業(yè)扮演重要角色?!敝袊?guó)工程院外籍院士張亞勤曾表示。這幾乎是行業(yè)的共識(shí),最后的勝利屬于少數(shù)的玩家。

大模型最終會(huì)進(jìn)化成什么樣,還不確定,但可以確定的是,大模型浪潮下,技術(shù)仍在迭代,場(chǎng)景仍在驚艷,商業(yè)化也始終在探索的路上。

過(guò)去兩年,大模型不缺驚艷時(shí)刻,行業(yè)也處于百家爭(zhēng)鳴的階段,無(wú)論是暫時(shí)領(lǐng)先的玩家,還是奮力追趕的玩家,都有機(jī)會(huì)在奔跑中,搶到更多的蛋糕。

1、3D世界、自主 Agent、思考大模型……大模型驚艷迭代

從ChatGPT的驚艷亮相開(kāi)始,新一輪的AI浪潮整整奔涌了兩年。AI想象力被重啟,大模型站上C位,圍繞大模型的討論和嘗試也爆發(fā)式增長(zhǎng)。

大模型的終局是什么樣的?這一問(wèn)題的答案吸引眾多玩家前赴后繼地卷技術(shù)、卷應(yīng)用。

根據(jù)lifearchitect.ai數(shù)據(jù),截至目前,全球總共有467個(gè)大模型。新技術(shù)不斷涌現(xiàn),行業(yè)競(jìng)速賽愈演愈烈,大模型廠商都在不斷迭代升級(jí),旨在離AGI更進(jìn)一步。

進(jìn)入到今年,除了應(yīng)用上的百家爭(zhēng)鳴,一個(gè)明顯的變化在于,以ChatGPT為代表的大語(yǔ)言模型局限性日益顯現(xiàn)。比如,他們只能處理文本領(lǐng)域的任務(wù),無(wú)法與物理和社會(huì)環(huán)境進(jìn)行互動(dòng);雖然大模型語(yǔ)料庫(kù)已經(jīng)十分豐富,但關(guān)于人類的價(jià)值觀的文本,他們并不具備理解能力……

技術(shù)被重構(gòu),大模型行業(yè)也在不斷改進(jìn)和進(jìn)化中,行業(yè)在尋找下一個(gè)更“類人”的模型或應(yīng)用。

北京時(shí)間12月3日,“AI教母”李飛飛創(chuàng)立的World Labs推出最新成果:世界模型,一張單個(gè)圖像即可生成3D世界。

圖源World Labs官網(wǎng)

以往,我們熟知的大多數(shù)GenAI工具僅能制作圖像/視頻2D內(nèi)容。World Labs則實(shí)現(xiàn)了在3D中生成,視頻的控制性、一致性能得到改善。World Labs稱,他們所生成場(chǎng)景的獨(dú)特之處在于它們具有交互性,而且是可修改的。

這是今年9月份創(chuàng)立World Labs以來(lái),李飛飛團(tuán)隊(duì)推出的首個(gè)成果,也是其邁向空間智能的第一步。早在成立之初,李飛飛團(tuán)隊(duì)瞄準(zhǔn)的就是空間智能,其初衷就是空間智能的AI,能夠?qū)κ澜邕M(jìn)行建模,同時(shí)根據(jù)3D時(shí)空中物體/地點(diǎn)/交互進(jìn)行推理。

李飛飛的個(gè)人影響力,加之空間智能的想象力,World Labs成立三個(gè)月,有消息稱其估值達(dá)10億美元。

兩天后,北京時(shí)間12月5日,Google Deepmind緊隨其后發(fā)布了最新基礎(chǔ)世界模型Genie 2。作為今年初推出的Genie模型的升級(jí)版,Genie 2只需要一張圖就能生成可玩的AI系統(tǒng)。DeepMind透露,Genie 2具備從不同視角(如第一人稱視角與等距視角)生成連貫世界的能力,這些生成的世界可持續(xù)時(shí)間長(zhǎng)達(dá)一分鐘,盡管多數(shù)情況下維持在10到20秒之間。

如果說(shuō)世界模型展現(xiàn)的是模型理解虛擬世界運(yùn)作規(guī)律,并準(zhǔn)確做出預(yù)測(cè)的能力,那OpenAI今年9月推出的o1系列模型則在于會(huì)思考。

彼時(shí),OpenAI CEO奧特曼對(duì)o1信心滿滿,“我認(rèn)為這次 o1 模型發(fā)布最重要的信息是,AI 發(fā)展不僅沒(méi)有放緩,而且我們對(duì)未來(lái)幾年已經(jīng)勝券在握。”

與GPT系列模型不同,o1系列模型有更強(qiáng)大的“思路鏈”,模型會(huì)在思考后回答用戶問(wèn)題,輸出高質(zhì)量的內(nèi)容,而非迅速回應(yīng)無(wú)效回答。此外,o1系列更擅長(zhǎng)推理,推理能力大幅提升,特別是在奧數(shù)、編程等領(lǐng)域展現(xiàn)出了優(yōu)勢(shì)。

行業(yè)風(fēng)向標(biāo)的新動(dòng)作,引發(fā)國(guó)內(nèi)大模型廠商的追趕。11月16日,月之暗面公布了k0 math;11月20日,Deepseek上線DeepSeek-R1-Lite大模型;11月27日,昆侖萬(wàn)維推出“天工大模型 4.0” o1 版……無(wú)一不在強(qiáng)調(diào)大模型的邏輯思考能力。

無(wú)論是哪種路線的大模型進(jìn)化,都讓人類離AGI更進(jìn)一步。

其中,在應(yīng)用層面,今年還有一個(gè)趨勢(shì)不能忽視,人類與機(jī)器的互動(dòng)方式正在發(fā)生范式轉(zhuǎn)變,擁有對(duì)話功能的GPT逐漸進(jìn)化能行動(dòng)的AI Agent(智能體)。

市場(chǎng)研究機(jī)構(gòu) Research and Market在11月11日發(fā)布的報(bào)告中指出,未來(lái)五年AI智能體的市場(chǎng)規(guī)模將增加420億美元。麥肯錫也表示,AI智能體將是生成式AI的下一個(gè)前沿。

具體到玩家的動(dòng)作上,“有手、有腦、有眼睛”的AI Agent成為玩家搶灘的對(duì)象。

10月份,作為最早探索Agent的初創(chuàng)企業(yè)智譜,推出自主智能體AutoGLM ;一個(gè)月后的Agent OpenDay上,智譜展示了AI Agent的最新成果,包括AutoGLM、AutoGLM-Web、GLM-PC三個(gè)版本,對(duì)應(yīng)手機(jī)、瀏覽器、電腦的應(yīng)用場(chǎng)景。

新升級(jí)的AutoGLM能夠理解超長(zhǎng)指令,執(zhí)行超長(zhǎng)任務(wù),在多步、循環(huán)任務(wù)中,AutoGLM的速度表現(xiàn)超過(guò)人手動(dòng)操作??梢灶A(yù)見(jiàn)的是,當(dāng)技術(shù)足夠成熟,一個(gè)Agent就能幫助人操控一切。

此前,微軟Ignite大會(huì)上,微軟宣布已建立全球規(guī)模最大的企業(yè)級(jí)AI Agent生態(tài)系統(tǒng);前OpenAI高管創(chuàng)辦的初創(chuàng)公司Anthropic推出名為Claude的AI智能體;OpenAI被傳出將在2025年1月發(fā)布代號(hào)為Operator的智能體。

在國(guó)內(nèi),智能體也百花齊放。一邊是手機(jī)廠商開(kāi)始拿出智能體、智能助力講故事;一邊是巨頭下場(chǎng)做智能體。比如字節(jié)跳動(dòng)的扣子、騰訊云的騰訊元器、百度智能云千帆AgentBuilder、阿里云大模型平臺(tái)百煉、……

這一年,大模型不缺驚艷時(shí)刻。會(huì)思考的大模型、會(huì)想象的大模型、會(huì)預(yù)測(cè)的大模型,站在大模型技術(shù)的潮頭,走向AGI的路上,更驚艷的產(chǎn)品迭代一直在發(fā)生。

2、AI視頻,新的角逐中誰(shuí)都不甘落后

時(shí)間回到今年2月,行業(yè)軍備競(jìng)賽持續(xù)一年,OpenAI再次將大模型行業(yè)推至高潮。OpenAI以世界模擬器的名號(hào)發(fā)布了視頻生成模型 Sora,讓“一句話生成視頻”變成可能。

行業(yè)的加速器來(lái)自Sora。追趕Sora、超越Sora,幾乎成了海內(nèi)外大模型玩家的共識(shí)。

在海外,今年5月,谷歌發(fā)布對(duì)標(biāo)Sora的文生視頻模型Veo;6月,Luma推出Dream Machine視頻生成模型,AI視頻生成初創(chuàng)公司Runway推出Gen-3 Alpha模型。

將視角放到國(guó)內(nèi),玩家們?yōu)椤爸袊?guó)版Sora”爭(zhēng)先恐后,催生兩輪爆發(fā)期。

先是今年5月開(kāi)始,生數(shù)科技Vidu、快手可靈、字節(jié)即夢(mèng)、智譜清影、商湯Vimi等都相繼發(fā)布文生視頻模型。

今年9月,國(guó)產(chǎn)視頻生成大模型又迎來(lái)了新一輪爆發(fā)。MiniMax正式發(fā)布視頻模型video-01、阿里云在云棲大會(huì)上發(fā)布通義萬(wàn)相全新視頻生成模型、美圖宣布MiracleVision大模型完成視頻生成能力的升級(jí)。

今年11月,騰訊混元大模型正式上線視頻生成能力。目前的生成視頻支持中英文雙語(yǔ)輸入、多種視頻尺寸以及多種視頻清晰度。另一邊,月之暗面旗下Kimi被爆出正在內(nèi)測(cè)AI視頻生成功能“Kimi創(chuàng)作空間”,可通過(guò)12種預(yù)設(shè)風(fēng)格模板和自定義創(chuàng)作功能,為用戶制作個(gè)性化音樂(lè)視頻。

兩輪爆發(fā)期間,隨著初創(chuàng)企業(yè)和巨頭的入局,AI視頻賽道正變得擁擠。更關(guān)鍵的是,經(jīng)過(guò)上半年密集發(fā)布新產(chǎn)品的階段,想要在競(jìng)爭(zhēng)中突出重圍,行業(yè)的比拼從“有沒(méi)有”升級(jí)為“好不好用”。

為了變得好用,升級(jí)更新是玩家們的統(tǒng)一動(dòng)作。在國(guó)內(nèi),動(dòng)作最快的莫過(guò)于有視頻基因的快手和抖音。

截至今年9月,快手可靈經(jīng)歷了十次迭代升級(jí)。目前,在可靈1.5模型的支持下,可靈AI可以直出1080p高清視頻,挑戰(zhàn)大屏清晰度與質(zhì)感。在圖生視頻方面,可靈1.5模型可以響應(yīng)更復(fù)雜的文本描述要求。此外,可靈AI還支持運(yùn)動(dòng)筆刷、對(duì)口型等功能。

可靈AI對(duì)口型功能,圖源可靈AI微信公眾號(hào)

快手科技2024年投資者日上,快手主站業(yè)務(wù)與社區(qū)科學(xué)線負(fù)責(zé)人蓋坤介紹,已有累計(jì)超260萬(wàn)人使用過(guò)可靈AI,并累計(jì)生成超2700萬(wàn)個(gè)視頻、5300萬(wàn)張圖片。

同為視頻賽道的字節(jié),與快手正面交鋒。今年一季度,字節(jié)AI研發(fā)團(tuán)隊(duì)將視頻生成模型的優(yōu)先級(jí)排在前列。3月底,即夢(mèng)開(kāi)啟視頻生成功能內(nèi)測(cè);9月,字節(jié)發(fā)布豆包模型家族的兩款視頻生成模型Seaweed和Pixeldance,并通過(guò)即夢(mèng)AI、火山引擎小范圍邀測(cè)。

相比于之前的視頻生成模型大多只能完成簡(jiǎn)單指令,字節(jié)的這兩款模型能讓視頻在大動(dòng)態(tài)與運(yùn)鏡中自由切換,擁有變焦、環(huán)繞、目標(biāo)跟隨等多鏡頭語(yǔ)言能力,能更好地服務(wù)在視頻、電影領(lǐng)域的專業(yè)創(chuàng)作者。

11月,Seaweed面向平臺(tái)用戶正式開(kāi)放。據(jù)字節(jié)方面介紹,本次開(kāi)放使用的豆包視頻生成模型Seaweed是該款模型的標(biāo)準(zhǔn)版,僅需60秒即能生成時(shí)長(zhǎng)5秒的高質(zhì)量AI視頻,領(lǐng)先國(guó)內(nèi)業(yè)界3至5分鐘的所需生成時(shí)間。

從底層技術(shù)看,AI視頻賽道玩家的路線基本一致,即采用Transformer架構(gòu)的新型擴(kuò)散模型DiT,進(jìn)行相關(guān)擴(kuò)散、生成的技術(shù)突破。也就是說(shuō),玩家更多是通過(guò)訓(xùn)練數(shù)據(jù)豐富產(chǎn)品功能。

這也是字節(jié)、快手在AI視頻賽道跑得更快的原因?!癝ora們”切入的60s視頻正是字節(jié)、快手的基本盤(pán)。在短視頻生態(tài)下,二者有豐厚的視頻土壤滋養(yǎng),這種視頻數(shù)據(jù)的訓(xùn)練,正是推動(dòng)大模型“好用”的關(guān)鍵因素。

歷經(jīng)近一年,國(guó)內(nèi)文生視頻大模型賽道進(jìn)入了Sora時(shí)刻。AI視頻大模型的生成能力邁入新階段的同時(shí),我們也要看到行業(yè)的焦慮。

從實(shí)際落地層面上看,如果是B端商業(yè)生產(chǎn),短劇、電影、廣告對(duì)畫(huà)面的連續(xù)性、一致性要求很高;如果是C端用戶娛樂(lè),對(duì)AI生成的最大要求是真實(shí)性。

需求倒逼技術(shù),想實(shí)現(xiàn)真正的好用,并不容易。

從技術(shù)上看,當(dāng)下視頻模型在理解、創(chuàng)作物理世界方面的表現(xiàn)依舊有限,畫(huà)面的連貫穩(wěn)定、主體的一致真實(shí)以及視頻的時(shí)長(zhǎng)都亟需迭代進(jìn)化。

從成本上看,當(dāng)下的視頻技術(shù)很難下放到尋常百姓家,名噪一時(shí)的Sora至今仍處于研究階段,僅面向少數(shù)專業(yè)人士進(jìn)行內(nèi)測(cè),很大一部分原因就在于高昂的成本。

再回到AI視頻是行業(yè)趨勢(shì)的這個(gè)問(wèn)題上,廠商們之所以紛紛下注,一方面是因?yàn)樾袠I(yè)需求催生了市場(chǎng)規(guī)模。

頭豹研究院數(shù)據(jù)顯示,2021年中國(guó)AI視頻生成行業(yè)的市場(chǎng)規(guī)模為800萬(wàn)元,預(yù)計(jì)2026年,這一市場(chǎng)規(guī)模將達(dá)到92.79億元。

另一方面,大模型的商業(yè)落地進(jìn)度越來(lái)越迫切,相比于ChatGPT這種聊天機(jī)器工具,AI視頻生成是大模型技術(shù)商業(yè)化落地更具潛力的賽道。

3、效率之爭(zhēng)、落地之戰(zhàn)

兩年,給行業(yè)帶來(lái)技術(shù)革命,也讓行業(yè)變得冷靜。

今年7月,2024世界人工智能大會(huì)上,百度創(chuàng)始人李彥宏在演講中提到,“2023年國(guó)內(nèi)出現(xiàn)了百模大戰(zhàn),其實(shí)造成了社會(huì)資源的巨大浪費(fèi),尤其是算力的浪費(fèi)?!?/p>

李彥宏言辭激烈的背后,是整個(gè)行業(yè)更加理性。市場(chǎng)期待在模型之中長(zhǎng)出能落地的應(yīng)用,為大模型廠商賺到錢(qián)、為各行各業(yè)提供效率。

拋開(kāi)技術(shù)問(wèn)題,這注定是一場(chǎng)應(yīng)用落地的效率之戰(zhàn),這也就回到了商業(yè)化的問(wèn)題上。

從去年“百模大戰(zhàn)”,到今年應(yīng)用之戰(zhàn),無(wú)論是哪個(gè)階段,商業(yè)化都是大模型行業(yè)反復(fù)提到的話題。大模型的特殊性在于“燒錢(qián)”,技術(shù)上的研發(fā)成本,應(yīng)用上的運(yùn)行成本,每一步都少不了真金白銀的支持,這也是大模型企業(yè)們的“緊箍咒”。

在國(guó)內(nèi),相比于兩年前焦灼地坐上牌桌,爭(zhēng)做“中國(guó)OpenAI”的執(zhí)念,這群AI明星企業(yè)將重點(diǎn)放在了商業(yè)化落地應(yīng)用的探索上。

據(jù)智能涌現(xiàn)報(bào)道,被稱為“AI六小虎”的6家中國(guó)大模型獨(dú)角獸(智譜、零一萬(wàn)物、MiniMax、百川智能、月之暗面、階躍星辰)中,已經(jīng)有兩家逐步放棄預(yù)訓(xùn)練模型,縮減了預(yù)訓(xùn)練算法團(tuán)隊(duì)人數(shù),業(yè)務(wù)重心轉(zhuǎn)向AI應(yīng)用。

這透露了市場(chǎng)兩個(gè)曲線,一個(gè)是部分初創(chuàng)企業(yè)正被困在商業(yè)化的焦慮里;二是行業(yè)商業(yè)化戰(zhàn)線拉長(zhǎng),巨頭的戰(zhàn)斗力更足。

比如去年只發(fā)布了語(yǔ)言大模型的字節(jié),今年一口氣補(bǔ)全了視頻、3D、音樂(lè)等多領(lǐng)域的大模型。在應(yīng)用層面,字節(jié)陸續(xù)推出了十幾個(gè)AI應(yīng)用,覆蓋了娛樂(lè)、對(duì)話、Agent等多個(gè)產(chǎn)品方向。

在C端表現(xiàn)上,下半年巨頭商業(yè)化的影響力更為突出。據(jù)數(shù)據(jù)分析機(jī)構(gòu)QuestMobile,字節(jié)豆包App今年9月的日活已達(dá)760萬(wàn),成為中國(guó)日活最大的AI產(chǎn)品。

這一趨勢(shì)下,大廠和創(chuàng)業(yè)公司的角色站位也發(fā)生變化。尤其是步入今年下半年,當(dāng)資本冷靜,一些AI明星創(chuàng)業(yè)公司被巨頭收編,大模型創(chuàng)業(yè)公司高管加入大廠。

這驗(yàn)證了大廠堅(jiān)決投入AI的重要性。AI是個(gè)增量,不僅能為大廠原有業(yè)務(wù)帶來(lái)新的想象力,大廠原有的業(yè)務(wù)場(chǎng)景也可以為AI提供商業(yè)閉環(huán)。

不過(guò),盡管是資源和場(chǎng)景更為豐富的大廠,面對(duì)市場(chǎng)對(duì)其巨額AI投入何時(shí)能換來(lái)回報(bào)的質(zhì)疑時(shí),也有些迷茫。

迷茫的背后,還有個(gè)更重要的問(wèn)題:Scaling Law還成立嗎?

所謂Scaling Law,是大模型行業(yè)的一個(gè)重要技術(shù)原理。具體而言,OpenAI四年前曾經(jīng)發(fā)布過(guò)一篇論文表示,模型的性能會(huì)隨模型參數(shù)量、數(shù)據(jù)量、計(jì)算資源增加而指數(shù)提升。

只要Scaling Law 還成立,那么大模型的能力就可以通過(guò)算力、參數(shù)、數(shù)據(jù)的訓(xùn)練實(shí)現(xiàn)AGI。

行業(yè)仍是積極的。特別是OpenAI推出o1后,標(biāo)志著大模型能力突破到了L2階段。大模型開(kāi)始真正擁有了邏輯思維能力,在無(wú)人力干預(yù)的情況下進(jìn)行規(guī)劃、驗(yàn)證和反思。

某種程度上,o1打破了預(yù)訓(xùn)練的 Scaling Law 瓶頸,商業(yè)上解鎖了新的可能。在OpenAI和智譜給出的“通往AGI五階段”的定義中,兩家公司均將多模態(tài)和語(yǔ)言能力歸在L1階段,也就是最為基礎(chǔ)的能力配備。

這個(gè)行業(yè),從ChatGPT,到Sora,再到o1,OpenAI仍是具有時(shí)代性的公司。也許和過(guò)去一樣,哪個(gè)大模型廠商能最先追上o1,市場(chǎng)還會(huì)迎來(lái)一波新高潮。

追趕技術(shù)的路上,玩家們不能忽視的是如何把錢(qián)花到刀刃上,這是一場(chǎng)技術(shù)、應(yīng)用、場(chǎng)景的效率之戰(zhàn)。

眼下,行業(yè)的淘汰賽已經(jīng)開(kāi)始,李彥宏曾預(yù)測(cè),在未來(lái)AI浪潮里,市場(chǎng)中99%的偽創(chuàng)新都將被淘汰,只有1%的企業(yè)能夠脫穎而出。誰(shuí)是這1%,誰(shuí)能創(chuàng)造“新”世界,要等市場(chǎng)給出答案。

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請(qǐng)聯(lián)系原著作權(quán)人。

評(píng)論

暫無(wú)評(píng)論哦,快來(lái)評(píng)價(jià)一下吧!

下載界面新聞

微信公眾號(hào)

微博

大模型混戰(zhàn)這一年

進(jìn)化之賽、效率之爭(zhēng)、落地之戰(zhàn),誰(shuí)也不想落后。

圖片來(lái)源:界面圖庫(kù)

文 | 連線Insight 王慧瑩

編輯 | 子夜

日行千里,烈火烹油的兩年過(guò)去,飛速發(fā)展的大模型行業(yè)怎么樣了?

與兩年前“百模大戰(zhàn)”為技術(shù)爭(zhēng)奪的景象不同,玩家們有兩個(gè)速度之爭(zhēng):一是技術(shù)迭代和產(chǎn)品更新的速度,二是商業(yè)化賺錢(qián)和應(yīng)用落地的速度。

技術(shù)和產(chǎn)品的迭代很直觀,直接推動(dòng)大模型行業(yè)的百舸爭(zhēng)流。從語(yǔ)言大模型,到文生視頻大模型,再到3D生成大模型,幾乎每隔幾個(gè)月就會(huì)有讓人眼前一亮的大模型出現(xiàn)。

大家都在嘗試和摸索。每一次技術(shù)的擴(kuò)大亮相,都會(huì)將具有前瞻性的大模型廠商推到聚光燈下,并引發(fā)新一輪的行業(yè)追隨。

有人領(lǐng)先,就有人追趕。這些尚未成熟的技術(shù),給了探路者彎道超車的機(jī)會(huì),也帶來(lái)了商業(yè)化的壓力。

尤其是進(jìn)入今年下半年,整個(gè)行業(yè)的風(fēng)向更加微妙。市場(chǎng)逐漸對(duì)大模型祛魅,資本也回歸理性,行業(yè)的兩股勢(shì)力也發(fā)生了站位的轉(zhuǎn)換。

一邊是阿里、字節(jié)等巨頭投入的動(dòng)作明顯加快,收編大模型創(chuàng)業(yè)公司的核心人才,推出一系列AI產(chǎn)品;一邊是創(chuàng)業(yè)公司開(kāi)始重新評(píng)估自身的路線,國(guó)內(nèi)“AI六小虎”有兩家逐步放棄預(yù)訓(xùn)練模型,業(yè)務(wù)重心轉(zhuǎn)向AI應(yīng)用。

這背后,直指行業(yè)第二個(gè)速度之爭(zhēng):商業(yè)化的效率。

毋庸置疑,當(dāng)下的大模型賽道高度擁擠,隨著算力成本上漲、算力分配有限,對(duì)創(chuàng)業(yè)公司而言,大模型這場(chǎng)戰(zhàn)役時(shí)間線拉得越長(zhǎng),創(chuàng)業(yè)公司的壓力就越大。

“AI大模型(賽道),將只剩下10家企業(yè)扮演重要角色?!敝袊?guó)工程院外籍院士張亞勤曾表示。這幾乎是行業(yè)的共識(shí),最后的勝利屬于少數(shù)的玩家。

大模型最終會(huì)進(jìn)化成什么樣,還不確定,但可以確定的是,大模型浪潮下,技術(shù)仍在迭代,場(chǎng)景仍在驚艷,商業(yè)化也始終在探索的路上。

過(guò)去兩年,大模型不缺驚艷時(shí)刻,行業(yè)也處于百家爭(zhēng)鳴的階段,無(wú)論是暫時(shí)領(lǐng)先的玩家,還是奮力追趕的玩家,都有機(jī)會(huì)在奔跑中,搶到更多的蛋糕。

1、3D世界、自主 Agent、思考大模型……大模型驚艷迭代

從ChatGPT的驚艷亮相開(kāi)始,新一輪的AI浪潮整整奔涌了兩年。AI想象力被重啟,大模型站上C位,圍繞大模型的討論和嘗試也爆發(fā)式增長(zhǎng)。

大模型的終局是什么樣的?這一問(wèn)題的答案吸引眾多玩家前赴后繼地卷技術(shù)、卷應(yīng)用。

根據(jù)lifearchitect.ai數(shù)據(jù),截至目前,全球總共有467個(gè)大模型。新技術(shù)不斷涌現(xiàn),行業(yè)競(jìng)速賽愈演愈烈,大模型廠商都在不斷迭代升級(jí),旨在離AGI更進(jìn)一步。

進(jìn)入到今年,除了應(yīng)用上的百家爭(zhēng)鳴,一個(gè)明顯的變化在于,以ChatGPT為代表的大語(yǔ)言模型局限性日益顯現(xiàn)。比如,他們只能處理文本領(lǐng)域的任務(wù),無(wú)法與物理和社會(huì)環(huán)境進(jìn)行互動(dòng);雖然大模型語(yǔ)料庫(kù)已經(jīng)十分豐富,但關(guān)于人類的價(jià)值觀的文本,他們并不具備理解能力……

技術(shù)被重構(gòu),大模型行業(yè)也在不斷改進(jìn)和進(jìn)化中,行業(yè)在尋找下一個(gè)更“類人”的模型或應(yīng)用。

北京時(shí)間12月3日,“AI教母”李飛飛創(chuàng)立的World Labs推出最新成果:世界模型,一張單個(gè)圖像即可生成3D世界。

圖源World Labs官網(wǎng)

以往,我們熟知的大多數(shù)GenAI工具僅能制作圖像/視頻2D內(nèi)容。World Labs則實(shí)現(xiàn)了在3D中生成,視頻的控制性、一致性能得到改善。World Labs稱,他們所生成場(chǎng)景的獨(dú)特之處在于它們具有交互性,而且是可修改的。

這是今年9月份創(chuàng)立World Labs以來(lái),李飛飛團(tuán)隊(duì)推出的首個(gè)成果,也是其邁向空間智能的第一步。早在成立之初,李飛飛團(tuán)隊(duì)瞄準(zhǔn)的就是空間智能,其初衷就是空間智能的AI,能夠?qū)κ澜邕M(jìn)行建模,同時(shí)根據(jù)3D時(shí)空中物體/地點(diǎn)/交互進(jìn)行推理。

李飛飛的個(gè)人影響力,加之空間智能的想象力,World Labs成立三個(gè)月,有消息稱其估值達(dá)10億美元。

兩天后,北京時(shí)間12月5日,Google Deepmind緊隨其后發(fā)布了最新基礎(chǔ)世界模型Genie 2。作為今年初推出的Genie模型的升級(jí)版,Genie 2只需要一張圖就能生成可玩的AI系統(tǒng)。DeepMind透露,Genie 2具備從不同視角(如第一人稱視角與等距視角)生成連貫世界的能力,這些生成的世界可持續(xù)時(shí)間長(zhǎng)達(dá)一分鐘,盡管多數(shù)情況下維持在10到20秒之間。

如果說(shuō)世界模型展現(xiàn)的是模型理解虛擬世界運(yùn)作規(guī)律,并準(zhǔn)確做出預(yù)測(cè)的能力,那OpenAI今年9月推出的o1系列模型則在于會(huì)思考。

彼時(shí),OpenAI CEO奧特曼對(duì)o1信心滿滿,“我認(rèn)為這次 o1 模型發(fā)布最重要的信息是,AI 發(fā)展不僅沒(méi)有放緩,而且我們對(duì)未來(lái)幾年已經(jīng)勝券在握。”

與GPT系列模型不同,o1系列模型有更強(qiáng)大的“思路鏈”,模型會(huì)在思考后回答用戶問(wèn)題,輸出高質(zhì)量的內(nèi)容,而非迅速回應(yīng)無(wú)效回答。此外,o1系列更擅長(zhǎng)推理,推理能力大幅提升,特別是在奧數(shù)、編程等領(lǐng)域展現(xiàn)出了優(yōu)勢(shì)。

行業(yè)風(fēng)向標(biāo)的新動(dòng)作,引發(fā)國(guó)內(nèi)大模型廠商的追趕。11月16日,月之暗面公布了k0 math;11月20日,Deepseek上線DeepSeek-R1-Lite大模型;11月27日,昆侖萬(wàn)維推出“天工大模型 4.0” o1 版……無(wú)一不在強(qiáng)調(diào)大模型的邏輯思考能力。

無(wú)論是哪種路線的大模型進(jìn)化,都讓人類離AGI更進(jìn)一步。

其中,在應(yīng)用層面,今年還有一個(gè)趨勢(shì)不能忽視,人類與機(jī)器的互動(dòng)方式正在發(fā)生范式轉(zhuǎn)變,擁有對(duì)話功能的GPT逐漸進(jìn)化能行動(dòng)的AI Agent(智能體)。

市場(chǎng)研究機(jī)構(gòu) Research and Market在11月11日發(fā)布的報(bào)告中指出,未來(lái)五年AI智能體的市場(chǎng)規(guī)模將增加420億美元。麥肯錫也表示,AI智能體將是生成式AI的下一個(gè)前沿。

具體到玩家的動(dòng)作上,“有手、有腦、有眼睛”的AI Agent成為玩家搶灘的對(duì)象。

10月份,作為最早探索Agent的初創(chuàng)企業(yè)智譜,推出自主智能體AutoGLM ;一個(gè)月后的Agent OpenDay上,智譜展示了AI Agent的最新成果,包括AutoGLM、AutoGLM-Web、GLM-PC三個(gè)版本,對(duì)應(yīng)手機(jī)、瀏覽器、電腦的應(yīng)用場(chǎng)景。

新升級(jí)的AutoGLM能夠理解超長(zhǎng)指令,執(zhí)行超長(zhǎng)任務(wù),在多步、循環(huán)任務(wù)中,AutoGLM的速度表現(xiàn)超過(guò)人手動(dòng)操作??梢灶A(yù)見(jiàn)的是,當(dāng)技術(shù)足夠成熟,一個(gè)Agent就能幫助人操控一切。

此前,微軟Ignite大會(huì)上,微軟宣布已建立全球規(guī)模最大的企業(yè)級(jí)AI Agent生態(tài)系統(tǒng);前OpenAI高管創(chuàng)辦的初創(chuàng)公司Anthropic推出名為Claude的AI智能體;OpenAI被傳出將在2025年1月發(fā)布代號(hào)為Operator的智能體。

在國(guó)內(nèi),智能體也百花齊放。一邊是手機(jī)廠商開(kāi)始拿出智能體、智能助力講故事;一邊是巨頭下場(chǎng)做智能體。比如字節(jié)跳動(dòng)的扣子、騰訊云的騰訊元器、百度智能云千帆AgentBuilder、阿里云大模型平臺(tái)百煉、……

這一年,大模型不缺驚艷時(shí)刻。會(huì)思考的大模型、會(huì)想象的大模型、會(huì)預(yù)測(cè)的大模型,站在大模型技術(shù)的潮頭,走向AGI的路上,更驚艷的產(chǎn)品迭代一直在發(fā)生。

2、AI視頻,新的角逐中誰(shuí)都不甘落后

時(shí)間回到今年2月,行業(yè)軍備競(jìng)賽持續(xù)一年,OpenAI再次將大模型行業(yè)推至高潮。OpenAI以世界模擬器的名號(hào)發(fā)布了視頻生成模型 Sora,讓“一句話生成視頻”變成可能。

行業(yè)的加速器來(lái)自Sora。追趕Sora、超越Sora,幾乎成了海內(nèi)外大模型玩家的共識(shí)。

在海外,今年5月,谷歌發(fā)布對(duì)標(biāo)Sora的文生視頻模型Veo;6月,Luma推出Dream Machine視頻生成模型,AI視頻生成初創(chuàng)公司Runway推出Gen-3 Alpha模型。

將視角放到國(guó)內(nèi),玩家們?yōu)椤爸袊?guó)版Sora”爭(zhēng)先恐后,催生兩輪爆發(fā)期。

先是今年5月開(kāi)始,生數(shù)科技Vidu、快手可靈、字節(jié)即夢(mèng)、智譜清影、商湯Vimi等都相繼發(fā)布文生視頻模型。

今年9月,國(guó)產(chǎn)視頻生成大模型又迎來(lái)了新一輪爆發(fā)。MiniMax正式發(fā)布視頻模型video-01、阿里云在云棲大會(huì)上發(fā)布通義萬(wàn)相全新視頻生成模型、美圖宣布MiracleVision大模型完成視頻生成能力的升級(jí)。

今年11月,騰訊混元大模型正式上線視頻生成能力。目前的生成視頻支持中英文雙語(yǔ)輸入、多種視頻尺寸以及多種視頻清晰度。另一邊,月之暗面旗下Kimi被爆出正在內(nèi)測(cè)AI視頻生成功能“Kimi創(chuàng)作空間”,可通過(guò)12種預(yù)設(shè)風(fēng)格模板和自定義創(chuàng)作功能,為用戶制作個(gè)性化音樂(lè)視頻。

兩輪爆發(fā)期間,隨著初創(chuàng)企業(yè)和巨頭的入局,AI視頻賽道正變得擁擠。更關(guān)鍵的是,經(jīng)過(guò)上半年密集發(fā)布新產(chǎn)品的階段,想要在競(jìng)爭(zhēng)中突出重圍,行業(yè)的比拼從“有沒(méi)有”升級(jí)為“好不好用”。

為了變得好用,升級(jí)更新是玩家們的統(tǒng)一動(dòng)作。在國(guó)內(nèi),動(dòng)作最快的莫過(guò)于有視頻基因的快手和抖音。

截至今年9月,快手可靈經(jīng)歷了十次迭代升級(jí)。目前,在可靈1.5模型的支持下,可靈AI可以直出1080p高清視頻,挑戰(zhàn)大屏清晰度與質(zhì)感。在圖生視頻方面,可靈1.5模型可以響應(yīng)更復(fù)雜的文本描述要求。此外,可靈AI還支持運(yùn)動(dòng)筆刷、對(duì)口型等功能。

可靈AI對(duì)口型功能,圖源可靈AI微信公眾號(hào)

快手科技2024年投資者日上,快手主站業(yè)務(wù)與社區(qū)科學(xué)線負(fù)責(zé)人蓋坤介紹,已有累計(jì)超260萬(wàn)人使用過(guò)可靈AI,并累計(jì)生成超2700萬(wàn)個(gè)視頻、5300萬(wàn)張圖片。

同為視頻賽道的字節(jié),與快手正面交鋒。今年一季度,字節(jié)AI研發(fā)團(tuán)隊(duì)將視頻生成模型的優(yōu)先級(jí)排在前列。3月底,即夢(mèng)開(kāi)啟視頻生成功能內(nèi)測(cè);9月,字節(jié)發(fā)布豆包模型家族的兩款視頻生成模型Seaweed和Pixeldance,并通過(guò)即夢(mèng)AI、火山引擎小范圍邀測(cè)。

相比于之前的視頻生成模型大多只能完成簡(jiǎn)單指令,字節(jié)的這兩款模型能讓視頻在大動(dòng)態(tài)與運(yùn)鏡中自由切換,擁有變焦、環(huán)繞、目標(biāo)跟隨等多鏡頭語(yǔ)言能力,能更好地服務(wù)在視頻、電影領(lǐng)域的專業(yè)創(chuàng)作者。

11月,Seaweed面向平臺(tái)用戶正式開(kāi)放。據(jù)字節(jié)方面介紹,本次開(kāi)放使用的豆包視頻生成模型Seaweed是該款模型的標(biāo)準(zhǔn)版,僅需60秒即能生成時(shí)長(zhǎng)5秒的高質(zhì)量AI視頻,領(lǐng)先國(guó)內(nèi)業(yè)界3至5分鐘的所需生成時(shí)間。

從底層技術(shù)看,AI視頻賽道玩家的路線基本一致,即采用Transformer架構(gòu)的新型擴(kuò)散模型DiT,進(jìn)行相關(guān)擴(kuò)散、生成的技術(shù)突破。也就是說(shuō),玩家更多是通過(guò)訓(xùn)練數(shù)據(jù)豐富產(chǎn)品功能。

這也是字節(jié)、快手在AI視頻賽道跑得更快的原因?!癝ora們”切入的60s視頻正是字節(jié)、快手的基本盤(pán)。在短視頻生態(tài)下,二者有豐厚的視頻土壤滋養(yǎng),這種視頻數(shù)據(jù)的訓(xùn)練,正是推動(dòng)大模型“好用”的關(guān)鍵因素。

歷經(jīng)近一年,國(guó)內(nèi)文生視頻大模型賽道進(jìn)入了Sora時(shí)刻。AI視頻大模型的生成能力邁入新階段的同時(shí),我們也要看到行業(yè)的焦慮。

從實(shí)際落地層面上看,如果是B端商業(yè)生產(chǎn),短劇、電影、廣告對(duì)畫(huà)面的連續(xù)性、一致性要求很高;如果是C端用戶娛樂(lè),對(duì)AI生成的最大要求是真實(shí)性。

需求倒逼技術(shù),想實(shí)現(xiàn)真正的好用,并不容易。

從技術(shù)上看,當(dāng)下視頻模型在理解、創(chuàng)作物理世界方面的表現(xiàn)依舊有限,畫(huà)面的連貫穩(wěn)定、主體的一致真實(shí)以及視頻的時(shí)長(zhǎng)都亟需迭代進(jìn)化。

從成本上看,當(dāng)下的視頻技術(shù)很難下放到尋常百姓家,名噪一時(shí)的Sora至今仍處于研究階段,僅面向少數(shù)專業(yè)人士進(jìn)行內(nèi)測(cè),很大一部分原因就在于高昂的成本。

再回到AI視頻是行業(yè)趨勢(shì)的這個(gè)問(wèn)題上,廠商們之所以紛紛下注,一方面是因?yàn)樾袠I(yè)需求催生了市場(chǎng)規(guī)模。

頭豹研究院數(shù)據(jù)顯示,2021年中國(guó)AI視頻生成行業(yè)的市場(chǎng)規(guī)模為800萬(wàn)元,預(yù)計(jì)2026年,這一市場(chǎng)規(guī)模將達(dá)到92.79億元。

另一方面,大模型的商業(yè)落地進(jìn)度越來(lái)越迫切,相比于ChatGPT這種聊天機(jī)器工具,AI視頻生成是大模型技術(shù)商業(yè)化落地更具潛力的賽道。

3、效率之爭(zhēng)、落地之戰(zhàn)

兩年,給行業(yè)帶來(lái)技術(shù)革命,也讓行業(yè)變得冷靜。

今年7月,2024世界人工智能大會(huì)上,百度創(chuàng)始人李彥宏在演講中提到,“2023年國(guó)內(nèi)出現(xiàn)了百模大戰(zhàn),其實(shí)造成了社會(huì)資源的巨大浪費(fèi),尤其是算力的浪費(fèi)。”

李彥宏言辭激烈的背后,是整個(gè)行業(yè)更加理性。市場(chǎng)期待在模型之中長(zhǎng)出能落地的應(yīng)用,為大模型廠商賺到錢(qián)、為各行各業(yè)提供效率。

拋開(kāi)技術(shù)問(wèn)題,這注定是一場(chǎng)應(yīng)用落地的效率之戰(zhàn),這也就回到了商業(yè)化的問(wèn)題上。

從去年“百模大戰(zhàn)”,到今年應(yīng)用之戰(zhàn),無(wú)論是哪個(gè)階段,商業(yè)化都是大模型行業(yè)反復(fù)提到的話題。大模型的特殊性在于“燒錢(qián)”,技術(shù)上的研發(fā)成本,應(yīng)用上的運(yùn)行成本,每一步都少不了真金白銀的支持,這也是大模型企業(yè)們的“緊箍咒”。

在國(guó)內(nèi),相比于兩年前焦灼地坐上牌桌,爭(zhēng)做“中國(guó)OpenAI”的執(zhí)念,這群AI明星企業(yè)將重點(diǎn)放在了商業(yè)化落地應(yīng)用的探索上。

據(jù)智能涌現(xiàn)報(bào)道,被稱為“AI六小虎”的6家中國(guó)大模型獨(dú)角獸(智譜、零一萬(wàn)物、MiniMax、百川智能、月之暗面、階躍星辰)中,已經(jīng)有兩家逐步放棄預(yù)訓(xùn)練模型,縮減了預(yù)訓(xùn)練算法團(tuán)隊(duì)人數(shù),業(yè)務(wù)重心轉(zhuǎn)向AI應(yīng)用。

這透露了市場(chǎng)兩個(gè)曲線,一個(gè)是部分初創(chuàng)企業(yè)正被困在商業(yè)化的焦慮里;二是行業(yè)商業(yè)化戰(zhàn)線拉長(zhǎng),巨頭的戰(zhàn)斗力更足。

比如去年只發(fā)布了語(yǔ)言大模型的字節(jié),今年一口氣補(bǔ)全了視頻、3D、音樂(lè)等多領(lǐng)域的大模型。在應(yīng)用層面,字節(jié)陸續(xù)推出了十幾個(gè)AI應(yīng)用,覆蓋了娛樂(lè)、對(duì)話、Agent等多個(gè)產(chǎn)品方向。

在C端表現(xiàn)上,下半年巨頭商業(yè)化的影響力更為突出。據(jù)數(shù)據(jù)分析機(jī)構(gòu)QuestMobile,字節(jié)豆包App今年9月的日活已達(dá)760萬(wàn),成為中國(guó)日活最大的AI產(chǎn)品。

這一趨勢(shì)下,大廠和創(chuàng)業(yè)公司的角色站位也發(fā)生變化。尤其是步入今年下半年,當(dāng)資本冷靜,一些AI明星創(chuàng)業(yè)公司被巨頭收編,大模型創(chuàng)業(yè)公司高管加入大廠。

這驗(yàn)證了大廠堅(jiān)決投入AI的重要性。AI是個(gè)增量,不僅能為大廠原有業(yè)務(wù)帶來(lái)新的想象力,大廠原有的業(yè)務(wù)場(chǎng)景也可以為AI提供商業(yè)閉環(huán)。

不過(guò),盡管是資源和場(chǎng)景更為豐富的大廠,面對(duì)市場(chǎng)對(duì)其巨額AI投入何時(shí)能換來(lái)回報(bào)的質(zhì)疑時(shí),也有些迷茫。

迷茫的背后,還有個(gè)更重要的問(wèn)題:Scaling Law還成立嗎?

所謂Scaling Law,是大模型行業(yè)的一個(gè)重要技術(shù)原理。具體而言,OpenAI四年前曾經(jīng)發(fā)布過(guò)一篇論文表示,模型的性能會(huì)隨模型參數(shù)量、數(shù)據(jù)量、計(jì)算資源增加而指數(shù)提升。

只要Scaling Law 還成立,那么大模型的能力就可以通過(guò)算力、參數(shù)、數(shù)據(jù)的訓(xùn)練實(shí)現(xiàn)AGI。

行業(yè)仍是積極的。特別是OpenAI推出o1后,標(biāo)志著大模型能力突破到了L2階段。大模型開(kāi)始真正擁有了邏輯思維能力,在無(wú)人力干預(yù)的情況下進(jìn)行規(guī)劃、驗(yàn)證和反思。

某種程度上,o1打破了預(yù)訓(xùn)練的 Scaling Law 瓶頸,商業(yè)上解鎖了新的可能。在OpenAI和智譜給出的“通往AGI五階段”的定義中,兩家公司均將多模態(tài)和語(yǔ)言能力歸在L1階段,也就是最為基礎(chǔ)的能力配備。

這個(gè)行業(yè),從ChatGPT,到Sora,再到o1,OpenAI仍是具有時(shí)代性的公司。也許和過(guò)去一樣,哪個(gè)大模型廠商能最先追上o1,市場(chǎng)還會(huì)迎來(lái)一波新高潮。

追趕技術(shù)的路上,玩家們不能忽視的是如何把錢(qián)花到刀刃上,這是一場(chǎng)技術(shù)、應(yīng)用、場(chǎng)景的效率之戰(zhàn)。

眼下,行業(yè)的淘汰賽已經(jīng)開(kāi)始,李彥宏曾預(yù)測(cè),在未來(lái)AI浪潮里,市場(chǎng)中99%的偽創(chuàng)新都將被淘汰,只有1%的企業(yè)能夠脫穎而出。誰(shuí)是這1%,誰(shuí)能創(chuàng)造“新”世界,要等市場(chǎng)給出答案。

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請(qǐng)聯(lián)系原著作權(quán)人。