正在閱讀:

李彥宏斷言有點(diǎn)早,開(kāi)源大模型并不差

掃一掃下載界面新聞APP

李彥宏斷言有點(diǎn)早,開(kāi)源大模型并不差

可閉源果真就能戰(zhàn)勝開(kāi)源嗎?

文|科技說(shuō)

自2022年11月ChatGPT問(wèn)世,這一現(xiàn)象級(jí)產(chǎn)品迅速點(diǎn)燃了市場(chǎng)的大模型熱情。新老科技企業(yè)紛紛殺入,誓要抓住移動(dòng)互聯(lián)網(wǎng)以來(lái)最大的一次產(chǎn)業(yè)紅利。當(dāng)行業(yè)如火如荼發(fā)展一門心思搞技術(shù)之時(shí),又出現(xiàn)了“路線之爭(zhēng)”:

閉源路線:以國(guó)外OpenAI的ChatGPT,Anthropic的Claude,谷歌的Gemini,國(guó)內(nèi)百度的文心一言,月之暗面的Kimi等企業(yè)為典型代表,傾向于閉源大模型的高性能,強(qiáng)商業(yè)化等優(yōu)勢(shì),其中以百度最為激進(jìn),李彥宏近期便一直以“閉源擁躉”頻頻出圈,發(fā)表諸如“開(kāi)源大模型是智商稅“,”大模型場(chǎng)景下開(kāi)源是最貴的”等出位言論,引發(fā)行業(yè)熱議;

開(kāi)源路線:以META的Llama,國(guó)內(nèi)阿里云的通義為典型代表,認(rèn)為開(kāi)源模式的協(xié)作特性可實(shí)現(xiàn)技術(shù)的快速迭代,可以通過(guò)模型托管提高云計(jì)算的業(yè)務(wù)成長(zhǎng)空間,且該路線有利于數(shù)據(jù)敏感型組織通過(guò)私有云或本地化內(nèi)網(wǎng)落地大模型,較之閉源具有高成長(zhǎng)性,多落地場(chǎng)景等優(yōu)點(diǎn)。

與行業(yè)往日爭(zhēng)議不同,此次大模型爭(zhēng)論充滿技術(shù)情懷,從業(yè)者爭(zhēng)論多聚焦在 “技術(shù)之爭(zhēng)”,李彥宏就表示“開(kāi)源模型會(huì)越來(lái)越落后”,其讓頻頻登上熱搜。

那么在這場(chǎng)開(kāi)閉源的爭(zhēng)論中我們要建立怎樣的分析框架?又來(lái)如何理性評(píng)判當(dāng)前的路線之爭(zhēng)呢?

其一,根據(jù)Scaling laws原理,大模型的成功乃是更大算力,更多數(shù)據(jù),更高算力的綜合結(jié)果,這背后則是資金的海量投入,基礎(chǔ)設(shè)施完善,管理的穩(wěn)定等等,大模型沒(méi)有閃電戰(zhàn)只有持久戰(zhàn);

其二,百度選擇閉源有技術(shù)的考量,但與商業(yè)路徑也密不可分;

其三,開(kāi)源大模型并沒(méi)有想象那般弱雞,閉源也不一定能永遠(yuǎn)保持先進(jìn)性;

其四,開(kāi)閉源大模型共存將會(huì)是長(zhǎng)期趨勢(shì);

Scaling laws原理:大模型將長(zhǎng)期燒錢

我們首先從大語(yǔ)言模型中的第一性原理“Scaling laws”入手分析(被翻譯為“縮放原理”或“尺度定律”)。

2020 年 1 月,OpenAI 發(fā)布論文《Scaling Laws for Neural Language Models》,奠定了 Scaling Law的基礎(chǔ),為后續(xù) GPT 的迭代指明了方向:更大參數(shù)、更多數(shù)據(jù)和更多算力能夠得到更好的模型智能。

也就從此時(shí)開(kāi)始,OpenAI開(kāi)啟了大參數(shù)模型路線,GPT-3的參數(shù)已經(jīng)達(dá)到1750億(GPT-2還只有15億),訓(xùn)練數(shù)據(jù)則直接躍升到570億G。

大模型的大參數(shù)軍備競(jìng)賽也由此拉開(kāi)大幕,動(dòng)輒數(shù)千億級(jí)的大模型流行于市場(chǎng),帶來(lái)技術(shù)的快速發(fā)展和普及。

由此也就引發(fā)了一個(gè)新的問(wèn)題:算力。

根據(jù) Scaling Law 論文,可以用 6ND 來(lái)估算模型所需要的訓(xùn)練算力(N為參數(shù),D為數(shù)據(jù)集TOKEN數(shù)),算力需求在大模型時(shí)代得到指數(shù)級(jí)提升(長(zhǎng)文本大模型所需算力可能還要高于6ND)。

這一方面催生了底層算力提供者英偉達(dá)為代表的GPU廠商的爆炸式增長(zhǎng),另一方面大模型廠商若要保持技術(shù)先進(jìn)性就必須花大價(jià)錢在算力基礎(chǔ)設(shè)施方面。

在華泰證券的圖表中我們也能清晰看到大模型與此前的云計(jì)算爆發(fā)式增長(zhǎng)一樣,業(yè)務(wù)的增長(zhǎng)是要基礎(chǔ)算力的高投入為前提的。根據(jù)Visible Alpha一致預(yù)測(cè),2026年全球科技四巨頭(微軟,谷歌,META和亞馬遜)合計(jì)資本支出將達(dá)2399億美元,2023-2026年CAGR為18.86%。

有觀點(diǎn)曾寄希望于Scaling Law的邊際效應(yīng)收窄效應(yīng),認(rèn)為只要熬到技術(shù)成熟期(Scaling Law效應(yīng)邊際效應(yīng)迅速放大之時(shí)),算力的投入便會(huì)達(dá)峰,此時(shí)模型只需要維護(hù)自身模型的可靠性與穩(wěn)固性即可,只是站在當(dāng)下時(shí)代,Scaling Law遠(yuǎn)未到終點(diǎn)。

清華大學(xué)的唐杰教授在2024年 2 月就指出:我們還遠(yuǎn)未到 Scaling law 的盡頭, 數(shù)據(jù)量、計(jì)算量、參數(shù)量還遠(yuǎn)遠(yuǎn)不夠。未來(lái)的 Scaling law 還有很長(zhǎng)遠(yuǎn)的路要走。

現(xiàn)實(shí)中主流大模型廠商的算力仍然在持續(xù)增大,模型的參數(shù)規(guī)模也在增大,行業(yè)終局是看不到頭的。

研發(fā)人員固然可以通過(guò)技術(shù)架構(gòu)優(yōu)化和軟硬件資源協(xié)同等方面來(lái)提高大模型的性能,只是我們也必須得承認(rèn),指數(shù)級(jí)的大模型技術(shù)迭代仍然仰賴于高參數(shù)和強(qiáng)算力。

在上述兩項(xiàng)約束條件下,大模型廠商不得不面臨非常棘手的問(wèn)題:

如果把算力的資本性支出視為“蛋”,大模型的高性能為“雞”,究竟雞生蛋還是蛋生雞就成了大模型廠商不得不面臨的問(wèn)題。

我們以閉源大模型的忠實(shí)擁躉百度為例,在基石的廣告業(yè)務(wù)壓力不斷加碼之時(shí),其經(jīng)營(yíng)理念已經(jīng)越加審慎,如對(duì)非核心業(yè)務(wù)的裁撤,人員的優(yōu)化等等。這在資本開(kāi)支中則反饋表現(xiàn)為支出的越加保守,過(guò)去三年表現(xiàn)非常明顯。

2023年META和亞馬遜等科技頭部企業(yè)也均在進(jìn)行資本支出的結(jié)構(gòu)性優(yōu)化,如亞馬遜的物流倉(cāng)儲(chǔ)成本開(kāi)始降低,與此同時(shí)云計(jì)算的數(shù)據(jù)中心等基礎(chǔ)設(shè)施仍處于大規(guī)模擴(kuò)張中。百度亦是如此,表面看其資本開(kāi)支越發(fā)慎重,但大模型相關(guān)的基礎(chǔ)設(shè)施投入必然是高速增長(zhǎng)的。

這對(duì)百度也就會(huì)帶來(lái)一個(gè)問(wèn)題,結(jié)構(gòu)化的資本開(kāi)支縮減終有結(jié)束之時(shí),Scaling Law還遠(yuǎn)未能看到終端,加之“第二曲線”短期內(nèi)無(wú)法扛起支出重任,從財(cái)務(wù)方面就迫使百度不得不在商業(yè)路徑上進(jìn)行考慮。

以賣模型(API接口)的閉源大模型成為首選,對(duì)C端用戶文心一言收取會(huì)員,對(duì)B端以API的接口費(fèi)為主要變現(xiàn),又由于閉源大模型乃是企業(yè)獨(dú)家開(kāi)發(fā),維護(hù)和管理成本也相對(duì)低廉,對(duì)百度是十分劃算的。在雞生蛋和蛋生雞的問(wèn)題上,百度選擇了雞生蛋。

可閉源果真就能戰(zhàn)勝開(kāi)源嗎?

開(kāi)源大模型不“弱雞”

前文中我們已經(jīng)從大模型的原理,技術(shù)以及商業(yè)路徑角度,簡(jiǎn)單勾勒了行業(yè)當(dāng)前的現(xiàn)狀,并對(duì)百度對(duì)閉源大模型抱以極度的熱忱有了一定的理解。

接下來(lái)我們來(lái)討論開(kāi)閉源大模型的趨勢(shì)性問(wèn)題 。

如開(kāi)篇所言,李彥宏對(duì)開(kāi)源大模型常有鄙夷之情,如開(kāi)篇“開(kāi)源模型會(huì)越來(lái)越落后”,又如“沒(méi)有應(yīng)用,開(kāi)源閉源模型都一文不值”,閉源大模型果真如此不堪嗎?

ARK Investment每年都會(huì)將其觀點(diǎn)和洞察力發(fā)表在年初的“Big Ideas”報(bào)告中,在2024年的報(bào)告中,”開(kāi)源模型性能進(jìn)步快于閉源模型“乃是其重要觀點(diǎn)之一。在上圖中阿里云的Qwen-72B乃為閉源大模型之最。

一方面閉源大模型確實(shí)有先發(fā)優(yōu)勢(shì),以O(shè)penAI的ChatGPT為典型代表,但另一方面大模型的演進(jìn)又是一個(gè)持久戰(zhàn)(Scaling law為主要因素),對(duì)企業(yè)的管理,投入以及持續(xù)的創(chuàng)新力就有了更高的要求,如此前OpenAI一系列的“人事斗爭(zhēng)”很難說(shuō)不會(huì)影響核心業(yè)務(wù)。

與之所對(duì)應(yīng)的開(kāi)源大模型也在此時(shí)開(kāi)始展示先進(jìn)性。

2024 年 4 月,Meta 發(fā)布 Llama 3,設(shè)計(jì)目標(biāo)是多模態(tài)、多語(yǔ)言,根據(jù) Meta 公布的目前訓(xùn)練數(shù)據(jù),其性能與 GPT-4 相當(dāng)。

Llama大模型的成功給了開(kāi)源陣營(yíng)足夠的信心,在權(quán)威機(jī)構(gòu)推出全新的大模型測(cè)評(píng)基準(zhǔn)LiveBench AI中,阿里通義Qwen2拿下美國(guó)最新測(cè)評(píng)榜單開(kāi)源大模型全球第一,成績(jī)超過(guò)Meta的Llama3-70B模型。

在基礎(chǔ)算力的投入保障之下,拉長(zhǎng)時(shí)間線,開(kāi)源大模型是可以保持足夠競(jìng)爭(zhēng)力的,僅就此來(lái)看李彥宏鄙夷開(kāi)源大模型性能不進(jìn)步是站不住腳的。

這再次告訴我們:閉源和開(kāi)源絕非技術(shù)理念之爭(zhēng),而是商業(yè)路徑的分歧。

那么究竟哪何種商業(yè)路徑最適合大模型的落地呢?

篇幅原因我們省去繁瑣的分析過(guò)程,精簡(jiǎn)觀點(diǎn)如下:

中短期:閉源大模型在變現(xiàn)方面優(yōu)勢(shì)更明顯,以賣模型為主要商業(yè)模式,簡(jiǎn)單易操作。百度又可以通過(guò)改造原互聯(lián)網(wǎng)應(yīng)用產(chǎn)品(如地圖,文庫(kù),搜索等),實(shí)現(xiàn)模型的落地改進(jìn)產(chǎn)品力,將業(yè)務(wù)線由“AI+”向“+AI”過(guò)渡。此外需要提醒的是,企業(yè)內(nèi)部原產(chǎn)品線的改造也是伴隨巨大的成本開(kāi)支需求的,如華泰證券曾測(cè)算,META若內(nèi)容推薦完全以大模型為主,取代原有算法,將需要至少50萬(wàn)片英偉達(dá)GPU,僅此一項(xiàng)就是一筆巨大開(kāi)支(最近有消息稱META今年GPU規(guī)模將超過(guò)30萬(wàn)塊),這就對(duì)短期內(nèi)閉源大模型的落地和變現(xiàn)提出了更高的要求。

長(zhǎng)期:開(kāi)源大模型走的更遠(yuǎn),如高度定制化的特點(diǎn)將提高大模型對(duì)不同行業(yè)的滲透率,當(dāng)不同行業(yè)的接入大模型,提高大模型的應(yīng)有廣度之后,企業(yè)開(kāi)發(fā)展則要仰賴于開(kāi)源大模型背后的算力和云計(jì)算平臺(tái),以實(shí)現(xiàn)可持續(xù)增長(zhǎng)。

在上述兩種路徑中,“資本”是商業(yè)模式運(yùn)轉(zhuǎn)的必要條件,這又回到了我們前文所言的“雞生蛋”的悖論。

這也就使得采取閉源大模型的往往具有以下特點(diǎn):應(yīng)用端具有得天獨(dú)厚優(yōu)勢(shì)(如谷歌),又如技術(shù)上短期內(nèi)遙遙領(lǐng)先(如OpenAI);

開(kāi)源大模型則具有:資金底子雄厚(如META),云計(jì)算基礎(chǔ)設(shè)施健全(如阿里云),能夠熬得住,扛得起基礎(chǔ)設(shè)施膨脹帶來(lái)的巨大成本,又能接得住開(kāi)源大模型普及后的云計(jì)算需求。

顯然沒(méi)有一種大模型是兼有所有優(yōu)點(diǎn)而無(wú)缺點(diǎn)的,百度此時(shí)以激烈語(yǔ)言來(lái)鼓吹閉源大模型,其背后應(yīng)是其短期商業(yè)化的焦慮(此前API接口價(jià)格戰(zhàn)對(duì)閉源大模型影響更大),以及對(duì)爭(zhēng)奪目標(biāo)客戶心智的野心。

基于此我們并不認(rèn)為會(huì)有包打一切的大模型路徑,相反企業(yè)選擇適合自己的路徑更多是“權(quán)宜之計(jì)”,客戶選擇開(kāi)閉源模式也將會(huì)有自己的考量,一些企業(yè)也采取開(kāi)閉源共存的模式來(lái)滿足不同客戶需求,如谷歌將輕量級(jí)的開(kāi)源模型系列Gemma進(jìn)行開(kāi)源。

不過(guò)此時(shí)發(fā)表出格語(yǔ)言最能出圈,能夠提高閉源大模型優(yōu)點(diǎn)的普及型,只是忽視了開(kāi)源大模型絕非“弱雞”,大模型的發(fā)展會(huì)是持久戰(zhàn),未來(lái)有太多的不可測(cè)性,輕易下斷言在其后很可能被反噬。

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請(qǐng)聯(lián)系原著作權(quán)人。

評(píng)論

暫無(wú)評(píng)論哦,快來(lái)評(píng)價(jià)一下吧!

下載界面新聞

微信公眾號(hào)

微博

李彥宏斷言有點(diǎn)早,開(kāi)源大模型并不差

可閉源果真就能戰(zhàn)勝開(kāi)源嗎?

文|科技說(shuō)

自2022年11月ChatGPT問(wèn)世,這一現(xiàn)象級(jí)產(chǎn)品迅速點(diǎn)燃了市場(chǎng)的大模型熱情。新老科技企業(yè)紛紛殺入,誓要抓住移動(dòng)互聯(lián)網(wǎng)以來(lái)最大的一次產(chǎn)業(yè)紅利。當(dāng)行業(yè)如火如荼發(fā)展一門心思搞技術(shù)之時(shí),又出現(xiàn)了“路線之爭(zhēng)”:

閉源路線:以國(guó)外OpenAI的ChatGPT,Anthropic的Claude,谷歌的Gemini,國(guó)內(nèi)百度的文心一言,月之暗面的Kimi等企業(yè)為典型代表,傾向于閉源大模型的高性能,強(qiáng)商業(yè)化等優(yōu)勢(shì),其中以百度最為激進(jìn),李彥宏近期便一直以“閉源擁躉”頻頻出圈,發(fā)表諸如“開(kāi)源大模型是智商稅“,”大模型場(chǎng)景下開(kāi)源是最貴的”等出位言論,引發(fā)行業(yè)熱議;

開(kāi)源路線:以META的Llama,國(guó)內(nèi)阿里云的通義為典型代表,認(rèn)為開(kāi)源模式的協(xié)作特性可實(shí)現(xiàn)技術(shù)的快速迭代,可以通過(guò)模型托管提高云計(jì)算的業(yè)務(wù)成長(zhǎng)空間,且該路線有利于數(shù)據(jù)敏感型組織通過(guò)私有云或本地化內(nèi)網(wǎng)落地大模型,較之閉源具有高成長(zhǎng)性,多落地場(chǎng)景等優(yōu)點(diǎn)。

與行業(yè)往日爭(zhēng)議不同,此次大模型爭(zhēng)論充滿技術(shù)情懷,從業(yè)者爭(zhēng)論多聚焦在 “技術(shù)之爭(zhēng)”,李彥宏就表示“開(kāi)源模型會(huì)越來(lái)越落后”,其讓頻頻登上熱搜。

那么在這場(chǎng)開(kāi)閉源的爭(zhēng)論中我們要建立怎樣的分析框架?又來(lái)如何理性評(píng)判當(dāng)前的路線之爭(zhēng)呢?

其一,根據(jù)Scaling laws原理,大模型的成功乃是更大算力,更多數(shù)據(jù),更高算力的綜合結(jié)果,這背后則是資金的海量投入,基礎(chǔ)設(shè)施完善,管理的穩(wěn)定等等,大模型沒(méi)有閃電戰(zhàn)只有持久戰(zhàn);

其二,百度選擇閉源有技術(shù)的考量,但與商業(yè)路徑也密不可分;

其三,開(kāi)源大模型并沒(méi)有想象那般弱雞,閉源也不一定能永遠(yuǎn)保持先進(jìn)性;

其四,開(kāi)閉源大模型共存將會(huì)是長(zhǎng)期趨勢(shì);

Scaling laws原理:大模型將長(zhǎng)期燒錢

我們首先從大語(yǔ)言模型中的第一性原理“Scaling laws”入手分析(被翻譯為“縮放原理”或“尺度定律”)。

2020 年 1 月,OpenAI 發(fā)布論文《Scaling Laws for Neural Language Models》,奠定了 Scaling Law的基礎(chǔ),為后續(xù) GPT 的迭代指明了方向:更大參數(shù)、更多數(shù)據(jù)和更多算力能夠得到更好的模型智能。

也就從此時(shí)開(kāi)始,OpenAI開(kāi)啟了大參數(shù)模型路線,GPT-3的參數(shù)已經(jīng)達(dá)到1750億(GPT-2還只有15億),訓(xùn)練數(shù)據(jù)則直接躍升到570億G。

大模型的大參數(shù)軍備競(jìng)賽也由此拉開(kāi)大幕,動(dòng)輒數(shù)千億級(jí)的大模型流行于市場(chǎng),帶來(lái)技術(shù)的快速發(fā)展和普及。

由此也就引發(fā)了一個(gè)新的問(wèn)題:算力。

根據(jù) Scaling Law 論文,可以用 6ND 來(lái)估算模型所需要的訓(xùn)練算力(N為參數(shù),D為數(shù)據(jù)集TOKEN數(shù)),算力需求在大模型時(shí)代得到指數(shù)級(jí)提升(長(zhǎng)文本大模型所需算力可能還要高于6ND)。

這一方面催生了底層算力提供者英偉達(dá)為代表的GPU廠商的爆炸式增長(zhǎng),另一方面大模型廠商若要保持技術(shù)先進(jìn)性就必須花大價(jià)錢在算力基礎(chǔ)設(shè)施方面。

在華泰證券的圖表中我們也能清晰看到大模型與此前的云計(jì)算爆發(fā)式增長(zhǎng)一樣,業(yè)務(wù)的增長(zhǎng)是要基礎(chǔ)算力的高投入為前提的。根據(jù)Visible Alpha一致預(yù)測(cè),2026年全球科技四巨頭(微軟,谷歌,META和亞馬遜)合計(jì)資本支出將達(dá)2399億美元,2023-2026年CAGR為18.86%。

有觀點(diǎn)曾寄希望于Scaling Law的邊際效應(yīng)收窄效應(yīng),認(rèn)為只要熬到技術(shù)成熟期(Scaling Law效應(yīng)邊際效應(yīng)迅速放大之時(shí)),算力的投入便會(huì)達(dá)峰,此時(shí)模型只需要維護(hù)自身模型的可靠性與穩(wěn)固性即可,只是站在當(dāng)下時(shí)代,Scaling Law遠(yuǎn)未到終點(diǎn)。

清華大學(xué)的唐杰教授在2024年 2 月就指出:我們還遠(yuǎn)未到 Scaling law 的盡頭, 數(shù)據(jù)量、計(jì)算量、參數(shù)量還遠(yuǎn)遠(yuǎn)不夠。未來(lái)的 Scaling law 還有很長(zhǎng)遠(yuǎn)的路要走。

現(xiàn)實(shí)中主流大模型廠商的算力仍然在持續(xù)增大,模型的參數(shù)規(guī)模也在增大,行業(yè)終局是看不到頭的。

研發(fā)人員固然可以通過(guò)技術(shù)架構(gòu)優(yōu)化和軟硬件資源協(xié)同等方面來(lái)提高大模型的性能,只是我們也必須得承認(rèn),指數(shù)級(jí)的大模型技術(shù)迭代仍然仰賴于高參數(shù)和強(qiáng)算力。

在上述兩項(xiàng)約束條件下,大模型廠商不得不面臨非常棘手的問(wèn)題:

如果把算力的資本性支出視為“蛋”,大模型的高性能為“雞”,究竟雞生蛋還是蛋生雞就成了大模型廠商不得不面臨的問(wèn)題。

我們以閉源大模型的忠實(shí)擁躉百度為例,在基石的廣告業(yè)務(wù)壓力不斷加碼之時(shí),其經(jīng)營(yíng)理念已經(jīng)越加審慎,如對(duì)非核心業(yè)務(wù)的裁撤,人員的優(yōu)化等等。這在資本開(kāi)支中則反饋表現(xiàn)為支出的越加保守,過(guò)去三年表現(xiàn)非常明顯。

2023年META和亞馬遜等科技頭部企業(yè)也均在進(jìn)行資本支出的結(jié)構(gòu)性優(yōu)化,如亞馬遜的物流倉(cāng)儲(chǔ)成本開(kāi)始降低,與此同時(shí)云計(jì)算的數(shù)據(jù)中心等基礎(chǔ)設(shè)施仍處于大規(guī)模擴(kuò)張中。百度亦是如此,表面看其資本開(kāi)支越發(fā)慎重,但大模型相關(guān)的基礎(chǔ)設(shè)施投入必然是高速增長(zhǎng)的。

這對(duì)百度也就會(huì)帶來(lái)一個(gè)問(wèn)題,結(jié)構(gòu)化的資本開(kāi)支縮減終有結(jié)束之時(shí),Scaling Law還遠(yuǎn)未能看到終端,加之“第二曲線”短期內(nèi)無(wú)法扛起支出重任,從財(cái)務(wù)方面就迫使百度不得不在商業(yè)路徑上進(jìn)行考慮。

以賣模型(API接口)的閉源大模型成為首選,對(duì)C端用戶文心一言收取會(huì)員,對(duì)B端以API的接口費(fèi)為主要變現(xiàn),又由于閉源大模型乃是企業(yè)獨(dú)家開(kāi)發(fā),維護(hù)和管理成本也相對(duì)低廉,對(duì)百度是十分劃算的。在雞生蛋和蛋生雞的問(wèn)題上,百度選擇了雞生蛋。

可閉源果真就能戰(zhàn)勝開(kāi)源嗎?

開(kāi)源大模型不“弱雞”

前文中我們已經(jīng)從大模型的原理,技術(shù)以及商業(yè)路徑角度,簡(jiǎn)單勾勒了行業(yè)當(dāng)前的現(xiàn)狀,并對(duì)百度對(duì)閉源大模型抱以極度的熱忱有了一定的理解。

接下來(lái)我們來(lái)討論開(kāi)閉源大模型的趨勢(shì)性問(wèn)題 。

如開(kāi)篇所言,李彥宏對(duì)開(kāi)源大模型常有鄙夷之情,如開(kāi)篇“開(kāi)源模型會(huì)越來(lái)越落后”,又如“沒(méi)有應(yīng)用,開(kāi)源閉源模型都一文不值”,閉源大模型果真如此不堪嗎?

ARK Investment每年都會(huì)將其觀點(diǎn)和洞察力發(fā)表在年初的“Big Ideas”報(bào)告中,在2024年的報(bào)告中,”開(kāi)源模型性能進(jìn)步快于閉源模型“乃是其重要觀點(diǎn)之一。在上圖中阿里云的Qwen-72B乃為閉源大模型之最。

一方面閉源大模型確實(shí)有先發(fā)優(yōu)勢(shì),以O(shè)penAI的ChatGPT為典型代表,但另一方面大模型的演進(jìn)又是一個(gè)持久戰(zhàn)(Scaling law為主要因素),對(duì)企業(yè)的管理,投入以及持續(xù)的創(chuàng)新力就有了更高的要求,如此前OpenAI一系列的“人事斗爭(zhēng)”很難說(shuō)不會(huì)影響核心業(yè)務(wù)。

與之所對(duì)應(yīng)的開(kāi)源大模型也在此時(shí)開(kāi)始展示先進(jìn)性。

2024 年 4 月,Meta 發(fā)布 Llama 3,設(shè)計(jì)目標(biāo)是多模態(tài)、多語(yǔ)言,根據(jù) Meta 公布的目前訓(xùn)練數(shù)據(jù),其性能與 GPT-4 相當(dāng)。

Llama大模型的成功給了開(kāi)源陣營(yíng)足夠的信心,在權(quán)威機(jī)構(gòu)推出全新的大模型測(cè)評(píng)基準(zhǔn)LiveBench AI中,阿里通義Qwen2拿下美國(guó)最新測(cè)評(píng)榜單開(kāi)源大模型全球第一,成績(jī)超過(guò)Meta的Llama3-70B模型。

在基礎(chǔ)算力的投入保障之下,拉長(zhǎng)時(shí)間線,開(kāi)源大模型是可以保持足夠競(jìng)爭(zhēng)力的,僅就此來(lái)看李彥宏鄙夷開(kāi)源大模型性能不進(jìn)步是站不住腳的。

這再次告訴我們:閉源和開(kāi)源絕非技術(shù)理念之爭(zhēng),而是商業(yè)路徑的分歧。

那么究竟哪何種商業(yè)路徑最適合大模型的落地呢?

篇幅原因我們省去繁瑣的分析過(guò)程,精簡(jiǎn)觀點(diǎn)如下:

中短期:閉源大模型在變現(xiàn)方面優(yōu)勢(shì)更明顯,以賣模型為主要商業(yè)模式,簡(jiǎn)單易操作。百度又可以通過(guò)改造原互聯(lián)網(wǎng)應(yīng)用產(chǎn)品(如地圖,文庫(kù),搜索等),實(shí)現(xiàn)模型的落地改進(jìn)產(chǎn)品力,將業(yè)務(wù)線由“AI+”向“+AI”過(guò)渡。此外需要提醒的是,企業(yè)內(nèi)部原產(chǎn)品線的改造也是伴隨巨大的成本開(kāi)支需求的,如華泰證券曾測(cè)算,META若內(nèi)容推薦完全以大模型為主,取代原有算法,將需要至少50萬(wàn)片英偉達(dá)GPU,僅此一項(xiàng)就是一筆巨大開(kāi)支(最近有消息稱META今年GPU規(guī)模將超過(guò)30萬(wàn)塊),這就對(duì)短期內(nèi)閉源大模型的落地和變現(xiàn)提出了更高的要求。

長(zhǎng)期:開(kāi)源大模型走的更遠(yuǎn),如高度定制化的特點(diǎn)將提高大模型對(duì)不同行業(yè)的滲透率,當(dāng)不同行業(yè)的接入大模型,提高大模型的應(yīng)有廣度之后,企業(yè)開(kāi)發(fā)展則要仰賴于開(kāi)源大模型背后的算力和云計(jì)算平臺(tái),以實(shí)現(xiàn)可持續(xù)增長(zhǎng)。

在上述兩種路徑中,“資本”是商業(yè)模式運(yùn)轉(zhuǎn)的必要條件,這又回到了我們前文所言的“雞生蛋”的悖論。

這也就使得采取閉源大模型的往往具有以下特點(diǎn):應(yīng)用端具有得天獨(dú)厚優(yōu)勢(shì)(如谷歌),又如技術(shù)上短期內(nèi)遙遙領(lǐng)先(如OpenAI);

開(kāi)源大模型則具有:資金底子雄厚(如META),云計(jì)算基礎(chǔ)設(shè)施健全(如阿里云),能夠熬得住,扛得起基礎(chǔ)設(shè)施膨脹帶來(lái)的巨大成本,又能接得住開(kāi)源大模型普及后的云計(jì)算需求。

顯然沒(méi)有一種大模型是兼有所有優(yōu)點(diǎn)而無(wú)缺點(diǎn)的,百度此時(shí)以激烈語(yǔ)言來(lái)鼓吹閉源大模型,其背后應(yīng)是其短期商業(yè)化的焦慮(此前API接口價(jià)格戰(zhàn)對(duì)閉源大模型影響更大),以及對(duì)爭(zhēng)奪目標(biāo)客戶心智的野心。

基于此我們并不認(rèn)為會(huì)有包打一切的大模型路徑,相反企業(yè)選擇適合自己的路徑更多是“權(quán)宜之計(jì)”,客戶選擇開(kāi)閉源模式也將會(huì)有自己的考量,一些企業(yè)也采取開(kāi)閉源共存的模式來(lái)滿足不同客戶需求,如谷歌將輕量級(jí)的開(kāi)源模型系列Gemma進(jìn)行開(kāi)源。

不過(guò)此時(shí)發(fā)表出格語(yǔ)言最能出圈,能夠提高閉源大模型優(yōu)點(diǎn)的普及型,只是忽視了開(kāi)源大模型絕非“弱雞”,大模型的發(fā)展會(huì)是持久戰(zhàn),未來(lái)有太多的不可測(cè)性,輕易下斷言在其后很可能被反噬。

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請(qǐng)聯(lián)系原著作權(quán)人。