界面新聞?dòng)浾?| 李京亞
界面新聞編輯 | 宋佳楠
馬斯克的Neuralink想把芯片植入完全健康的人類大腦,但一些大模型公司想最先“征服”智能手機(jī)。
近日,國(guó)內(nèi)大語(yǔ)言模型創(chuàng)業(yè)公司面壁智能推出了只有20億參數(shù)量級(jí)的端側(cè)語(yǔ)言模型面壁MiniCPM,希望“以小博大”。參數(shù)量級(jí)是衡量模型規(guī)模和潛在學(xué)習(xí)能力的一項(xiàng)關(guān)鍵指標(biāo)。
雖然目前大模型評(píng)測(cè)難以形成統(tǒng)一標(biāo)準(zhǔn),且缺少公開(kāi)的提示詞和測(cè)試代碼,但面壁智能研究團(tuán)隊(duì)發(fā)表論文稱,其小模型MiniCPM的性能超越或與市面上大部分70億規(guī)模大模型持平,超越了部分百億參數(shù)以上大模型。
這與全行業(yè)正在給予小模型的高關(guān)注度相吻合,尤其是小模型在智能手機(jī)、嵌入式系統(tǒng)等邊緣設(shè)備上展現(xiàn)出天然應(yīng)用優(yōu)勢(shì)之后。
邊緣設(shè)備通常只有有限的計(jì)算能力和存儲(chǔ)空間,無(wú)法有效地運(yùn)行大型語(yǔ)言模型。當(dāng)手機(jī)廠商僅靠硬件難以實(shí)現(xiàn)差異化時(shí),他們希望把大模型塞進(jìn)手機(jī),成為移動(dòng)設(shè)備的又一賣點(diǎn)。更重要的是,這些大模型主要依托于云計(jì)算,例如OpenAI的ChatGPT使用了微軟的云服務(wù)。
為擺脫對(duì)OpenAI的依賴,去年6月,微軟便發(fā)布論文證明,13億參數(shù)的模型也能具備非常良好的性能,此后這家公司集中開(kāi)發(fā)了Phi系列小模型。同樣看到小模型在降本和提高業(yè)務(wù)效益方面潛力的還有谷歌和Stability AI,他們紛紛在小模型上發(fā)力。
急需找到新增長(zhǎng)曲線的手機(jī)廠商如華為、OPPO和vivo,已經(jīng)在去年下半年開(kāi)始部署端側(cè)模型,只是模型適配尺寸暫不統(tǒng)一,如榮耀是把端側(cè)模型參數(shù)局限在70億之上,小米則是13億。
據(jù)面壁智能團(tuán)隊(duì)透露,MiniCPM已經(jīng)跑通了國(guó)際主流手機(jī)品牌和終端CPU芯片,目前正與多家終端廠商溝通,探討將MiniCPM落地的各種可能。該團(tuán)隊(duì)還表示,將完全開(kāi)源MiniCPM-2B的模型參數(shù)供學(xué)術(shù)研究和有限商用。
更小的參數(shù)意味著更低的部署門檻和使用成本,某種程度上有助于解決云側(cè)模型耗能、算力等成本居高不下的問(wèn)題。
據(jù)面壁智能CEO李大海介紹,MiniCPM的單個(gè)模型成本較低,原因是足夠小的參數(shù)能夠?qū)崿F(xiàn)推理成本的斷崖式下跌,甚至可以實(shí)現(xiàn)CPU推理,只需一臺(tái)機(jī)器持續(xù)參數(shù)訓(xùn)練,一張顯卡進(jìn)行參數(shù)微調(diào),同時(shí)也有持續(xù)改進(jìn)的成本空間。
不過(guò),業(yè)界對(duì)大模型端側(cè)部署還有些重要問(wèn)題尚未達(dá)成共識(shí),比如手機(jī)上跑大模型到底有什么用?到底能跑多大的模型?
為探究大模型在手機(jī)上的真實(shí)使用場(chǎng)景,阿里前副總裁、人工智能科學(xué)家賈揚(yáng)清的整體感受是,做信息提取跟信息摘要效果較好,而涉及創(chuàng)作、展示創(chuàng)造的東西,則需要更大的模型承載,“大家會(huì)覺(jué)得在云端跑更好”。
對(duì)前述問(wèn)題,力推端側(cè)模型的面壁智能也不能給出明確答案。在李大海看來(lái),賈揚(yáng)清的觀點(diǎn)屬于某個(gè)具體時(shí)點(diǎn)看到的特定現(xiàn)象,但伴隨著大模型的快速發(fā)展,端側(cè)模型能力邊界有了極大提升,這些論斷就有可能不成立。
“我們不會(huì)對(duì)手機(jī)大模型的應(yīng)用場(chǎng)景設(shè)限,因?yàn)槠浔旧砭褪峭ㄓ萌斯ぶ悄堋!鼻迦A大學(xué)長(zhǎng)聘副教授、面壁智能聯(lián)合創(chuàng)始人劉知遠(yuǎn)表示,在為系統(tǒng)提供穩(wěn)定接口之后,會(huì)解鎖很多新玩法,比如訂餐與旅游。像蘋(píng)果Siri能做的事情,都可以作為端側(cè)大語(yǔ)言模型驅(qū)動(dòng)的應(yīng)用。
他判斷端側(cè)大模型有極大可用潛力,因?yàn)槠洳幌裨贫四P鸵粯右[私數(shù)據(jù)進(jìn)行交互,可以高度保護(hù)個(gè)人隱私。未來(lái)大模型會(huì)是云端共存、云端協(xié)同的模式,而他們希望探索模型性能的天花板。
這家創(chuàng)立于2022年的公司,創(chuàng)始成員全部來(lái)自清華大學(xué)自然語(yǔ)言處理NLP實(shí)驗(yàn)室。
早在2019年,已經(jīng)在科學(xué)界聲名鵲起的劉知遠(yuǎn)決定把清華NLP實(shí)驗(yàn)室的研究方向從傳統(tǒng)NLP命題中撤出,全面圍繞大模型領(lǐng)域展開(kāi)。2020年底,劉知遠(yuǎn)、曾國(guó)洋(現(xiàn)任面壁智能CTO)帶領(lǐng)的面壁早期核心團(tuán)隊(duì)發(fā)布了首個(gè)中文大語(yǔ)言模型CPM-1,三年時(shí)間內(nèi)陸續(xù)發(fā)布了CPM-2(110億參數(shù))、CPM-3、CPM-Ant、CPM-Bee等模型。
后來(lái)公司開(kāi)始向商業(yè)化轉(zhuǎn)型,并以實(shí)現(xiàn)AGI(通用人工智能)為長(zhǎng)遠(yuǎn)目標(biāo)?!癆GI的實(shí)現(xiàn)需要我們做什么,我們就做什么。”劉知遠(yuǎn)稱。
去年4月,知乎官宣了與面壁智能的合作。6月,知乎CTO李大海出任面壁智能董事和CEO,開(kāi)始全面負(fù)責(zé)后者的戰(zhàn)略發(fā)展和日常管理。
同在4月,面壁智能完成了由知乎獨(dú)家投資的千萬(wàn)人民幣級(jí)別天使輪融資,這是其迄今為止唯一一輪融資。在國(guó)內(nèi)基礎(chǔ)大模型領(lǐng)域競(jìng)爭(zhēng)中,這家公司需要面對(duì)Minimax、百川智能、智譜AI、零一萬(wàn)物和月之暗面等實(shí)力強(qiáng)勁的對(duì)手。
當(dāng)下,面壁智能不僅需要證明自己的技術(shù),還需要證明技術(shù)給產(chǎn)品帶來(lái)的好處,因?yàn)榇竽P屯顿Y人正在密切關(guān)注商業(yè)變現(xiàn)。
自去年6月開(kāi)始,國(guó)內(nèi)AIGC領(lǐng)域整體投融資趨冷,而在硅谷,一大批AIGC新興初創(chuàng)開(kāi)始死去。
日前,AI搜索引擎新貴Perplexity CEO表示,AI創(chuàng)業(yè)公司應(yīng)該先做產(chǎn)品,后做模型,成為一個(gè)擁有十萬(wàn)用戶的套殼產(chǎn)品比擁有自有模型卻沒(méi)有用戶更有意義。目前,這家公司正在跟谷歌叫板。
李大海對(duì)這一觀點(diǎn)部分認(rèn)同。他告訴界面新聞,大模型公司有兩種思路“可行”:產(chǎn)品能力更強(qiáng)的公司,模型一側(cè)可以先置空;模型能力更強(qiáng)的,可以后面再做商業(yè)化。大模型既是技術(shù),也是產(chǎn)品,關(guān)鍵是要盡快形成數(shù)據(jù)飛輪,建立模型跟應(yīng)用的閉環(huán)。
據(jù)他透露,面壁智能的商業(yè)收入以金融、營(yíng)銷領(lǐng)域的大型企業(yè)客戶為主,端側(cè)大模型的商業(yè)模式則還在探索之中。
不過(guò),據(jù)界面新聞?dòng)浾吡私猓A為、OPPO、vivo等主流手機(jī)廠商都在自研端側(cè)大模型。像榮耀與百度文心一言盡管有合作,也多是在前者自有端側(cè)模型上提供輔助支持,完全使用外部端側(cè)大模型的案例仍然很少。
而且在現(xiàn)實(shí)中,大模型頭部廠商想在短時(shí)間內(nèi)做好端側(cè)應(yīng)用并不容易。
一位大語(yǔ)言模型產(chǎn)品經(jīng)理表示,大模型頭部廠商有能力用較低成本在端側(cè)模型上取得更好效果,但在挖掘場(chǎng)景方面欠缺經(jīng)驗(yàn)。具備大模型技術(shù)積累的手機(jī)廠商一樣有機(jī)會(huì)做出好的應(yīng)用。
這也意味著,在徹底解決隱私安全等一系列問(wèn)題之前,面壁智能想要說(shuō)服手機(jī)廠商大范圍使用其產(chǎn)品并不容易。