文|新莓daybreak 史圣園
編輯|翟文婷
騰訊混元大模型終于亮相。
用騰訊自己的話說,之前是「不急于把半成品拿出來展示」。但此次發(fā)布,他們卻也坦陳,目前「只是可用、可實(shí)踐」。
早在 3月,百度文心一言就啟動(dòng)了內(nèi)測(cè)邀請(qǐng);4月,阿里通義千問緊隨其后。連姍姍來遲的字節(jié),也在 8 月 17 日對(duì)外測(cè)試 AI 對(duì)話產(chǎn)品「豆包」。
在「百模大戰(zhàn)」中,先發(fā)優(yōu)勢(shì)重要嗎?
似乎沒那么重要。大模型是一種非常標(biāo)準(zhǔn)化的產(chǎn)品,無論是個(gè)人、企業(yè)還是開發(fā)者,都可通過 API 即可接入,切換模型的成本相當(dāng)?shù)?。最終,還是產(chǎn)品的效果和體驗(yàn)決定一切。
但也有點(diǎn)作用。用戶真實(shí)的提問,是最寶貴的數(shù)據(jù)資產(chǎn)。先跑起來,就能積累更多數(shù)據(jù),幫助大模型在充滿噪音和歧義的真實(shí)場(chǎng)景中訓(xùn)練、學(xué)習(xí)、增強(qiáng)能力。
8 家首批通過《生成式人工智能服務(wù)管理暫行辦法》的大模型產(chǎn)品,已經(jīng)陸續(xù)開放注冊(cè),普通用戶終于可以上手體驗(yàn)了。不過,聊上幾輪,就會(huì)有種大模型產(chǎn)品「還沒成年就出來打工掙錢」的感覺 —— 閑聊可以,但不能細(xì)究。
這也不免讓人擔(dān)心,生成結(jié)果的不穩(wěn)定性,會(huì)成為實(shí)際部署的掣肘,且優(yōu)化周期較為漫長(zhǎng)。
真正能留在牌桌的大模型玩家,一定是少數(shù)。
同質(zhì)化競(jìng)爭(zhēng)?
從各個(gè)廠商公布的大模型產(chǎn)品和解決方案來看,同質(zhì)化的情況比較嚴(yán)重。
在 toB 辦公場(chǎng)景,主要聚焦在文檔和會(huì)議場(chǎng)景,充當(dāng)創(chuàng)作助理、會(huì)議秘書、設(shè)計(jì)助手的角色;toC 個(gè)人場(chǎng)景,打出的牌也都是情感陪伴、生活向科普(菜譜、旅游策劃)。
目前,百度文心、字節(jié)豆包、智譜 AI、百川智能均全面開放注冊(cè)使用;中科院紫東太初正在維護(hù)中,商湯日日新需要邀請(qǐng)碼,MiniMax 僅面向開發(fā)者,上海人工智能實(shí)驗(yàn)室的書生通用大模型還未開放注冊(cè)。
此外,訊飛星火大模型也開放了全面注冊(cè),騰訊混元大模型暫時(shí)還是邀請(qǐng)制,需要申請(qǐng)并排隊(duì)。
開放注冊(cè)的 5 款產(chǎn)品都是 chatbot 形式,也都加入了不同程度的提示語引導(dǎo)、使用場(chǎng)景提示。有的是在對(duì)話中推薦問題,有的預(yù)設(shè)了助手角色。有的做得更深入一些,制作了提示語模板、社區(qū)或插件,能隱隱約約看到搭建生態(tài)的野心,向用戶和開發(fā)者創(chuàng)造力借智,但目前都處于較為初期的階段。
但用戶感知上的相似,并不等于業(yè)務(wù)邏輯的相似。
各家大模型廠商無一例外,都想借力公司既有業(yè)務(wù),進(jìn)行差異化競(jìng)爭(zhēng)。
百度是最強(qiáng)調(diào)「生態(tài)」的大廠,結(jié)合最深的業(yè)務(wù)場(chǎng)景也是「搜索」。在文心一言首頁的顯著位置,就放置了插件市場(chǎng)入駐申請(qǐng)的鏈接。在連接開發(fā)者和創(chuàng)業(yè)者上,百度也尤為積極,搶先舉辦了文心杯創(chuàng)業(yè)比賽。而在百度搜索引擎中,AI對(duì)話助手也已經(jīng)上線,并開放使用。
阿里通義千問最先落地的場(chǎng)景是釘釘,釘釘總裁葉軍曾表示,「要用大模型把釘釘重做一遍」。
騰訊發(fā)布混元大模型時(shí),也同步表示,騰訊云、騰訊廣告、騰訊游戲、騰訊會(huì)議等 50 余個(gè)業(yè)務(wù)和產(chǎn)品均已接入。
而訊飛在機(jī)器語音識(shí)別領(lǐng)域掌握 9 種方言,這讓星火大模型在接納語音數(shù)據(jù)時(shí)占據(jù)了絕對(duì)優(yōu)勢(shì)。此外,訊飛的學(xué)習(xí)機(jī)等教育硬件,讓星火大模型與教育場(chǎng)景結(jié)合有著天然優(yōu)勢(shì)。
「很多都會(huì)迅速消失」
除了技術(shù)層的攻堅(jiān)克難、業(yè)務(wù)層的生態(tài)集結(jié),還有「大模型評(píng)測(cè)」的戰(zhàn)場(chǎng):所有大廠都想要把 GPT 比下去。
據(jù)不完全統(tǒng)計(jì),8月以來,至少有 4 家本土大模型官宣在某些方面超越了 GPT。
科大訊飛表示星火大模型的代碼能力超過了 GPT 3.5;商湯說自己的新模型 internlm-123b 在51個(gè)評(píng)測(cè)集的30萬個(gè)問題上超過了 GPT 3.5;百川CEO王小川稱自家的模型微調(diào)后,在中文問答、摘要細(xì)分場(chǎng)景上的表現(xiàn)超越了 GPT 3.5;騰訊則更不客氣,副總裁蔣杰稱混元大模型中文能力全面超過 GPT-3.5。
如果沒有「在某個(gè)特定領(lǐng)域超過 GPT」的評(píng)測(cè)結(jié)果,似乎都不好意思加入這場(chǎng)大模型的混戰(zhàn)。
但讓一個(gè)模型成為某個(gè)「評(píng)測(cè)數(shù)據(jù)集」的頂級(jí)做題家,對(duì)于實(shí)際的效率提升,意義不大。
業(yè)內(nèi)人士都知道有個(gè)投機(jī)取巧的訓(xùn)練方法,是讓優(yōu)質(zhì)大模型在開源數(shù)據(jù)集上進(jìn)行輸出,再用這些輸出的結(jié)果來微調(diào)小模型,直接抄大模型的作業(yè)。但伯克利學(xué)者研究表明,這些模仿模型只是看起來不錯(cuò),實(shí)際能力并沒有提升,在真實(shí)場(chǎng)景中的泛化能力較弱。
目前,OpenAl 的 GPT-3 擁有1750億個(gè)參數(shù),本土大模型的規(guī)模一般在數(shù)百億到千億之間。
此外,脫離了具體使用場(chǎng)景的評(píng)測(cè)都是耍流氓。在toB辦公場(chǎng)景下,準(zhǔn)確地提取數(shù)據(jù),并給到穩(wěn)定的輸出最重要。在toC陪伴場(chǎng)景中,模型的共情力、幽默感才是提供情緒價(jià)值的關(guān)鍵。各家發(fā)布的評(píng)測(cè)榜單,更像是 PR 行為,而非可用性評(píng)估。
百度智能云事業(yè)群總裁沈抖在接受采訪時(shí)說,市面上有非常多模型,但很多都會(huì)迅速消失。「現(xiàn)在很多模型之所以還存在,是因?yàn)楹芏嗳诉€不知道它的好壞。反正誰也試不了,誰也用不了,一測(cè)排名還挺靠前。但隨著模型的放開,優(yōu)劣更容易評(píng)判了?!?/p>
已經(jīng)到了逐漸放開的時(shí)刻。
新莓daybreak 體驗(yàn)了下目前 C 端可注冊(cè)的大模型產(chǎn)品。在生成「小紅書種草文案」這個(gè)任務(wù)上,幾款產(chǎn)品的表現(xiàn)均達(dá)到了「文通字順」,甚至「有點(diǎn)好用」。文心一言擅長(zhǎng)加tag引流,豆包的文案頗有親切感,混元的文案有點(diǎn)4A廣告公司的味道,智譜清言像是嚴(yán)謹(jǐn)?shù)恼Z文老師,訊飛星火則從場(chǎng)景切入。還是本土模型最懂本土社交平臺(tái)。
但在 toB,大模型的腳尖已經(jīng)觸碰到了應(yīng)用場(chǎng)景的泥濘。
各家廠商從不低調(diào),騰訊、華為、商湯、百度都曾提到,自己的大模型解決方案已覆蓋了十余個(gè)、數(shù)十個(gè)行業(yè)場(chǎng)景。但實(shí)際上,企業(yè)真的用起來了嗎?
「讓大模型成為某一行業(yè)的助理,比如金融行業(yè)的大模型,還是太泛泛了,需要把行業(yè)和場(chǎng)景拆得更細(xì)?!筆eter說,他是一名算法工程師,在某金融機(jī)構(gòu)從事大模型應(yīng)用的開發(fā)和探索。
他介紹,以銀行為例,有多個(gè)主營(yíng)業(yè)務(wù)。光是資本市場(chǎng)業(yè)務(wù),下面就有定向增發(fā)、股權(quán)投資、股權(quán)激勵(lì)、債轉(zhuǎn)股、可交換債券等十余個(gè)子業(yè)務(wù)。僅僅是股權(quán)激勵(lì),相關(guān)法律法規(guī)就有數(shù)十篇。
「現(xiàn)在我們甚至不能讓大模型學(xué)習(xí)股權(quán)激勵(lì)的法律法規(guī)上做出可靠的回答。10個(gè)問題,能有5個(gè)回答正確就已經(jīng)相當(dāng)好了?!?/p>
模型要大,應(yīng)用要垂
不可否認(rèn)的是,在中文大模型基座能力尚弱的時(shí)候,上層應(yīng)用就已經(jīng)先跑起來了。
「理想化的場(chǎng)景是,大模型可以在最初的交流中識(shí)別提問者的意圖,然后再分給掌握細(xì)分領(lǐng)域知識(shí)的、不同的 AI Agents,后續(xù)讓各個(gè) AI Agents 去處理,而不是做一個(gè)大而全的法律AI助手、金融AI助手。」
David 是某家初創(chuàng)公司的 AI 產(chǎn)品經(jīng)理,開發(fā)了一款類似 Character.ai 的產(chǎn)品。他認(rèn)為,作為開發(fā)者,流程規(guī)劃、系統(tǒng)穩(wěn)定等等工程層面的努力,對(duì)于落地應(yīng)用來說更重要。
Magi 創(chuàng)始人季逸超,在播客中也提到過類似的觀點(diǎn):「AI 創(chuàng)業(yè)是 80% 的產(chǎn)品工程 + 20% 的底層技術(shù)。」
季逸超認(rèn)為,大模型超過 65% 的應(yīng)用場(chǎng)景,是信息的檢索、匯總、再生成,約 20% 的需求是流程自動(dòng)化、決策輔助。
以信息的檢索生成為例,看似簡(jiǎn)單,實(shí)則每個(gè)角落、每個(gè)細(xì)節(jié)都需要優(yōu)化。數(shù)據(jù)是否能夠處理干凈、文本塊的切分是否完整、訓(xùn)練時(shí)樣本和機(jī)器怎么分布、響應(yīng)速度和成本怎么權(quán)衡,這其中涉及到大量的工作。如果每個(gè)環(huán)節(jié)的質(zhì)量都只有 60-70 分,那么串聯(lián)起來,最終可用性一定不理想。
甲子光年對(duì)國(guó)內(nèi)外熱度較高的 10 款大模型進(jìn)行了客群分析,國(guó)外的大模型廠商,主要還是側(cè)重普通C端用戶使用,商業(yè)模式是收取訂閱費(fèi)。而國(guó)內(nèi)的大模型似乎都打定主意,做平臺(tái)、做生態(tài),然后從 B 端客戶那里掙錢,商業(yè)模式包括按量計(jì)費(fèi)的 API 調(diào)用,以及更加深入的解決方案服務(wù)、模型定制開發(fā)。
然而無論 toB 還是 toC,商業(yè)模式也許會(huì)有不同,讓用戶買單的關(guān)鍵還是基礎(chǔ)模型的能力。
畢竟,上層應(yīng)用的能力,還是由底層模型決定的。基礎(chǔ)模型擁有的能力,上層應(yīng)用不一定能夠發(fā)揮出來;但基礎(chǔ)模型沒有的能力,上層應(yīng)用一定做不到。
Peter 坦陳,他們測(cè)試了一圈本土大模型,在真實(shí)場(chǎng)景下,表現(xiàn)都還「差點(diǎn)意思」。而對(duì)于行業(yè)模型微調(diào),他們「想都不敢想」,因?yàn)椤敢淮沃辽僖?500 萬起」,效果卻尚未可知。
「所以現(xiàn)階段一定會(huì)有垂直應(yīng)用,但不太可能有垂直模型。」Peter 總結(jié)道。
另一個(gè)國(guó)內(nèi)應(yīng)用開發(fā)者需要考慮的關(guān)鍵是合規(guī)。有兩項(xiàng)法規(guī)提供了具體指導(dǎo):1月10日開始施行的《互聯(lián)網(wǎng)信息服務(wù)深度合成管理規(guī)定》,以及8月15日開始施行的《生成式人工智能服務(wù)管理暫行辦法》。
目前,AI 產(chǎn)品上線前需要通過算法備案和安全評(píng)估,業(yè)內(nèi)稱之為「雙新評(píng)估」。可以說,能夠更快、更及時(shí)地做到合規(guī),也是產(chǎn)品競(jìng)爭(zhēng)力的一部分。
細(xì)心的用戶不難發(fā)現(xiàn),目前國(guó)內(nèi) C 端可用的大模型對(duì)話產(chǎn)品界面,幾乎都有免責(zé)聲明和水印標(biāo)記。前者提示 AI 生成的內(nèi)容不一定保證真實(shí),后者則是確保信息傳播時(shí)的可追溯性。
國(guó)產(chǎn)大模型只是剛剛從實(shí)驗(yàn)室走向市場(chǎng),開始面向真實(shí)用戶。此時(shí)就拿出商業(yè)世界的價(jià)值衡量標(biāo)準(zhǔn),對(duì)它們發(fā)出極度務(wù)實(shí)的三連問,「能否真正提升工作效率、能否有效降低成本、能否優(yōu)化用戶體驗(yàn)」,未免顯得有些嚴(yán)苛。但這恰恰是企業(yè)用戶的真正關(guān)切,也是大模型在商業(yè)應(yīng)用中的核心價(jià)值。