文|真探Alphaseeker 吳鴻鍵
“最近大模型的涌現(xiàn),比大模型能力的「涌現(xiàn)」都要快?!?/p>
「涌現(xiàn)」是一個(gè)專業(yè)概念,放在大模型的語(yǔ)境里,指的是模型在突破某個(gè)規(guī)模時(shí),出現(xiàn)了意想不到的能力。這話雖然是調(diào)侃,但也高度概括了行業(yè)現(xiàn)狀。
ChatGPT在全球掀起熱潮以來(lái),國(guó)內(nèi)已有多家公司發(fā)布或?qū)l(fā)布自己的大模型,這些公司中既有阿里巴巴、百度、京東、華為等互聯(lián)網(wǎng)或科技大廠,也有以商湯為代表的AI公司,以及備受矚目的初創(chuàng)企業(yè)(例如王慧文的光年之外,王小川的百川智能)。
如果再把科研院所算上,據(jù)民生證券的統(tǒng)計(jì),國(guó)內(nèi)目前已有超30個(gè)大模型亮相。行業(yè)儼然有大模型“軍備競(jìng)賽”的意思。
“混戰(zhàn)”本身說(shuō)明了不少事情,比如各家都已認(rèn)識(shí)到大模型的價(jià)值,試圖通過(guò)大模型升級(jí)已有業(yè)務(wù)和打開(kāi)新增長(zhǎng)空間。即使人們普遍認(rèn)為大模型門(mén)檻高,但“百花齊放”也折射出業(yè)界認(rèn)為大模型的發(fā)展尚處早期,且并不是只有極少數(shù)大玩家才能參與的游戲。
機(jī)會(huì)看上去很多,但撥開(kāi)冗雜的信息,我們需要判斷,大模型的“涌現(xiàn)”是不是曇花一現(xiàn)?以下四點(diǎn)值得關(guān)注。
產(chǎn)業(yè)融合成共識(shí)
相比ChatGPT在用戶端的熱潮,國(guó)內(nèi)廠商更愿意談大模型和產(chǎn)業(yè)的結(jié)合?!翱蛻簟笔歉哳l詞,“接入我們的大模型”是共同目標(biāo)。
以阿里巴巴的通義大模型為例,近期,阿里云官宣自研大模型“通義千問(wèn)”并面向企業(yè)開(kāi)始邀請(qǐng)測(cè)試,在阿里云峰會(huì)上,包括張勇在內(nèi)的阿里云高管頻頻強(qiáng)調(diào)大模型能為各行業(yè)企業(yè)帶來(lái)的價(jià)值。據(jù)阿里云智能CTO周靖人介紹,未來(lái)企業(yè)在阿里云上既可以調(diào)用通義千問(wèn)的全部能力,也可以結(jié)合企業(yè)自己的行業(yè)知識(shí)和應(yīng)用場(chǎng)景,訓(xùn)練自己的企業(yè)大模型。
早些時(shí)候發(fā)布“文心一言”的百度,也是將B端“生態(tài)圈”作為宣傳和業(yè)務(wù)重點(diǎn)。華為云盤(pán)古大模型提出了“AI for Industries”理念。推出大模型“日日新”體系的商湯,更是只面向政企客戶開(kāi)放API。
大環(huán)境對(duì)于生成式人工智能服務(wù)相對(duì)謹(jǐn)慎的態(tài)度、企業(yè)各自的資源和能力稟賦、以及在C端體驗(yàn)上和ChatGPT的差距,都可能是造成差異的原因。上述案例的共性是,大模型對(duì)于各家企業(yè)并非一個(gè)“另起爐灶”式的新業(yè)務(wù),而是對(duì)已有業(yè)務(wù)方向的延伸和突破,對(duì)大模型的理解依然要放在公司已有的業(yè)務(wù)發(fā)展框架里來(lái)看。
依然以阿里云為例,云計(jì)算公司容易陷入“低毛利集成商”困境,難以在標(biāo)準(zhǔn)化和定制化之間找到平衡。預(yù)訓(xùn)練大模型帶來(lái)了新的可能——在阿里云方面的設(shè)想中,企業(yè)只需將數(shù)據(jù)放在專屬數(shù)據(jù)空間,用于大模型自動(dòng)學(xué)習(xí),然后就能生成企業(yè)專屬的大模型。相比原本“什么都要從頭做”的業(yè)務(wù)模式,大模型提供了效率更高的選擇。
揚(yáng)長(zhǎng)避短,各秀肌肉
目前,國(guó)內(nèi)的大模型廠商并不諱言和OpenAI、ChatGPT的差距,只是各家對(duì)于“差距有多大”有一些不同的判斷。
相比OpenAI,國(guó)內(nèi)互聯(lián)網(wǎng)大廠有成熟的業(yè)務(wù)矩陣,多元的能力架構(gòu),以及在多年實(shí)戰(zhàn)中鍛煉出來(lái)的差異化能力,因此大公司們?cè)敢鈴?qiáng)調(diào)的能力和方向也有所不同。
例如張勇在云峰會(huì)上表示,阿里巴巴所有產(chǎn)品未來(lái)都將接入“通義千問(wèn)”大模型。此舉意在利用大模型升級(jí)甚至改造現(xiàn)有業(yè)務(wù)體系,阿里云方面將這種融合視為未來(lái)發(fā)展的關(guān)鍵,稱“阿里巴巴和所有企業(yè)都在同一起跑線上”。
除了拿自家業(yè)務(wù)當(dāng)試煉場(chǎng),阿里云還在峰會(huì)上提及其他優(yōu)勢(shì),比如指出大模型的研發(fā)不是簡(jiǎn)單的“堆疊算力”問(wèn)題,強(qiáng)調(diào)阿里云在低碳低能耗方面的能力積累。這也是阿里云提出為企業(yè)打造專屬大模型的重要原因。
百度的優(yōu)勢(shì)來(lái)自其在中文搜索引擎的領(lǐng)導(dǎo)地位,因此公司在發(fā)布文心一言時(shí),著重強(qiáng)調(diào)了其“更懂中文”的特性。商湯則更多強(qiáng)調(diào)其在參數(shù)和算力上的優(yōu)勢(shì)。“日日新”體系包含自然語(yǔ)言處理模型“商量”(SenseChat)、文生圖模型“秒畫(huà)”和數(shù)字人視頻生成平臺(tái)“如影”(SenseAvatar),其中“商量”參數(shù)約1800億。商湯方面還強(qiáng)調(diào),SenseCore大裝置已完成2.7萬(wàn)塊GPU的部署,并實(shí)現(xiàn)了5.0 exaFLOPS的算力輸出能力,最高可支持萬(wàn)億參數(shù)超大模型的訓(xùn)練。
除了應(yīng)用,在和大模型相關(guān)的芯片和框架方面,國(guó)內(nèi)大公司也有現(xiàn)成的積累。百度有昆侖芯、深度學(xué)習(xí)框架飛槳,華為有昇騰310和910芯片,ModelArts平臺(tái)。這些同樣是大廠在發(fā)展大模型時(shí)著重利用的對(duì)象。
大模型不稀缺,高質(zhì)量數(shù)據(jù)才稀缺
大模型“混戰(zhàn)”還反映了一個(gè)信息:至少?gòu)谋砻嫔峡?,大模型不再稀缺?/p>
民生證券在研報(bào)中指出,因?yàn)橛虚_(kāi)源基礎(chǔ)以及大公司自本身的算力儲(chǔ)備和資金實(shí)力,“單純發(fā)布一個(gè)大模型的門(mén)檻沒(méi)有市場(chǎng)想象中的那么高”。
“有大模型”不難,難的是“有一個(gè)能持續(xù)迭代,性能不斷提升的優(yōu)質(zhì)大模型”。一些觀點(diǎn)也提到,決定大模型發(fā)展的關(guān)鍵要素是高質(zhì)量數(shù)據(jù),尤其是在大模型“百花齊放”的背景下,數(shù)據(jù)是“勝負(fù)手”。
數(shù)據(jù)、算法、算力是AI能力三要素。
高質(zhì)量的數(shù)據(jù)是助力AI訓(xùn)練與調(diào)優(yōu)的關(guān)鍵,在和數(shù)據(jù)相關(guān)的流程中,數(shù)據(jù)采集、數(shù)據(jù)標(biāo)注和數(shù)據(jù)質(zhì)檢又是較為重要的三個(gè)環(huán)節(jié)。但相比大模型的熱鬧,目前國(guó)內(nèi)的數(shù)據(jù)相關(guān)產(chǎn)業(yè)鏈還有不小的提升空間。
據(jù)“自象限”的觀察,目前數(shù)據(jù)質(zhì)量在國(guó)內(nèi)尚未受到足夠重視,缺乏專門(mén)做數(shù)據(jù)質(zhì)量的企業(yè),這類企業(yè)更多是以大公司附庸品的形態(tài)出現(xiàn)。
而在海外,數(shù)據(jù)質(zhì)量形成了垂直賽道,其中的公司會(huì)幫助AI企業(yè)最大限度地減少劣質(zhì)數(shù)據(jù)帶來(lái)的影響,這類公司產(chǎn)品通常包括數(shù)據(jù)可觀察性平臺(tái)、數(shù)據(jù)整理和偏見(jiàn)檢測(cè)工具,以及數(shù)據(jù)標(biāo)簽錯(cuò)誤的識(shí)別工具等等。
到底需不需要這么多大模型?
最后是一個(gè)靈魂之問(wèn):行業(yè)需不需要這么多大模型?或者說(shuō),在大廠相繼發(fā)布大模型的背景下,新玩家還有沒(méi)有加入混戰(zhàn)的必要?
大佬們對(duì)此有不同的看法。早些時(shí)候李彥宏在接受采訪時(shí)表示,現(xiàn)在國(guó)內(nèi)大廠都看好AI大模型,創(chuàng)業(yè)公司重新做沒(méi)有多大意義。相較而言,“基于大語(yǔ)言模型開(kāi)發(fā)應(yīng)用機(jī)會(huì)很大,沒(méi)有必要再重新發(fā)明一遍輪子”。
并不是所有人都認(rèn)同這一觀點(diǎn)。根據(jù)“品玩”的采訪,王小川認(rèn)為“大模型就是需要時(shí)間長(zhǎng)一點(diǎn),認(rèn)真一點(diǎn),而錢(qián)也不是唯一重要的”,“有些公司雖然有大模型這個(gè)底子,但沒(méi)碰好就練歪了,上戰(zhàn)場(chǎng)更難受?!?/p>
由于大模型的門(mén)檻和不確定性,留給中小廠商以及創(chuàng)業(yè)公司的難題還有很多——規(guī)模跟不上大公司的節(jié)奏,中模型或小模型難以找到競(jìng)爭(zhēng)點(diǎn),也難以獲得“涌現(xiàn)”機(jī)會(huì)。如果選擇垂直場(chǎng)景切入,又有可能遭遇來(lái)自通用大模型的“碾壓”,一如ChatGPT對(duì)Jasper.AI的沖擊。
大部分關(guān)于這類問(wèn)題的討論,比如要不要做大模型,要做什么樣的大模型,要選擇什么樣的場(chǎng)景來(lái)落地等等,目前都還處于“混沌”狀態(tài)。不少人在表達(dá)觀點(diǎn)時(shí)還會(huì)特意強(qiáng)調(diào)“就目前的情況看”,并表示自己未來(lái)可能會(huì)在觀點(diǎn)上有搖擺。但行業(yè)普遍認(rèn)為,大模型代表著大機(jī)會(huì),最后只有少數(shù)玩家能留下。