文|定焦 黎明
編輯|方展博
AI行業(yè)的“百模大戰(zhàn)”已經(jīng)打了大半年。從上半年的火熱,到下半年的漸冷,勝負(fù)難分。
GPT成了國(guó)內(nèi)廠商的靶子。幾乎每家在發(fā)布大模型時(shí),都要把GPT拉出來(lái)對(duì)比一波,而且他們總能找到一個(gè)指標(biāo)把GPT超越——比如,中文能力。
測(cè)評(píng)類的榜單太多了。從英文的MMLU,到中文的SuperCLUE,再到借鑒游戲排位賽機(jī)制的ChatbotArena,各種大模型榜單讓人眼花繚亂。很多時(shí)候,榜單上的排名成為廠商對(duì)外宣傳的工具。
但奇怪的是,用戶在體驗(yàn)后發(fā)現(xiàn),號(hào)稱超越ChatGPT的一些大模型產(chǎn)品,實(shí)際表現(xiàn)不盡如人意。各種不同的統(tǒng)計(jì)排名口徑,更是讓人感到迷惑。以至于“第一”太多,榜單都快不夠用了。
比如最近,昆侖萬(wàn)維開(kāi)源「天工」系列大模型,號(hào)稱多榜超越Llama 2;李開(kāi)復(fù)的零一萬(wàn)物公司發(fā)布開(kāi)源大模型“Yi”,“問(wèn)鼎”全球多項(xiàng)榜單;vivo發(fā)布自研AI“藍(lán)心”大模型,是國(guó)內(nèi)“首家”開(kāi)源7B大模型的手機(jī)廠商。
如此之多的大模型,跑馬圈地這半年,大家做得怎么樣?我們又該如何評(píng)價(jià)孰優(yōu)孰劣?
“刷榜”,大模型公開(kāi)的秘密
就像當(dāng)年手機(jī)廠商流行跑分打榜,現(xiàn)在的大模型廠商,也熱衷于沖上各種榜單。
大模型相關(guān)的榜單很多,學(xué)術(shù)圈、產(chǎn)業(yè)界、媒體智庫(kù)、開(kāi)源社區(qū),都在今年推出了各種各樣的評(píng)測(cè)榜單。這其中,國(guó)內(nèi)廠商常常引用的是SuperCLUE和C-Eval,這倆都由國(guó)人自己推出。
5月6日科大訊飛發(fā)布星火認(rèn)知大模型,三天后SuperCLUE發(fā)布榜單,星火排在國(guó)產(chǎn)第一;6月13日360集團(tuán)發(fā)布360智腦大模型,六天后SuperCLUE更新榜單,360成了第一。
再后來(lái)的7月、8月、9月、10月榜單,拿下國(guó)產(chǎn)第一的分別是百度、百川智能、商湯、vivo?!暗琼敗薄皧Z冠”“國(guó)內(nèi)第一”,出現(xiàn)在這些廠商的宣傳中。
有好事者發(fā)現(xiàn),科大訊飛在5月9日“奪冠”時(shí),SuperCLUE官網(wǎng)顯示的顧問(wèn)成員中,排在最前面的那位,頭銜是哈工大訊飛聯(lián)合實(shí)驗(yàn)室(HFL)資深級(jí)研究員。發(fā)榜第二天,這位專家的信息被官網(wǎng)刪除了。
當(dāng)時(shí),SuperCLUE只用了幾百道題進(jìn)行測(cè)試,被人質(zhì)疑不夠客觀。而在國(guó)外,早就有一個(gè)叫做SuperGLUE的權(quán)威榜單,二者名稱相似度極高,讓人傻傻分不清楚。后來(lái),SuperCLUE對(duì)測(cè)評(píng)標(biāo)準(zhǔn)和題目數(shù)量進(jìn)行了完善,日漸成為國(guó)內(nèi)知名度較高的測(cè)評(píng)榜。
大模型測(cè)評(píng)領(lǐng)域的業(yè)內(nèi)人士趙小躍對(duì)「定焦」說(shuō),一些測(cè)評(píng)機(jī)構(gòu)有題庫(kù),用接入各家廠商API的方式來(lái)測(cè)試,但其實(shí)測(cè)一遍之后,廠商就知道測(cè)過(guò)什么題,除非下輪測(cè)試換題,否則廠商可以用定向爆破的方式得高分。
在他看來(lái),一套題只要測(cè)過(guò)一家模型,題目就廢了,因?yàn)槟P涂梢酝ㄟ^(guò)API獲取題目,題目的可重復(fù)性為零。這是模型評(píng)測(cè)最有挑戰(zhàn)的一件事情。
C-Eval榜單剛推出時(shí),業(yè)內(nèi)是認(rèn)可的。它由上海交通大學(xué)、清華大學(xué)、愛(ài)丁堡大學(xué)共同完成,有13948道題目。
但很快,大家就發(fā)現(xiàn),一些原本知名度不高的大模型,突然沖到了榜首,甚至把GPT4踩在腳下使勁摩擦。
在9月初的榜單中,云天勵(lì)飛大模型總分排第一,360排第八,GPT4居然排第十。再后來(lái),拿過(guò)榜單第一的還有度小滿金融大模型、作業(yè)幫銀河大模型,業(yè)內(nèi)公認(rèn)最強(qiáng)的GPT4被它們無(wú)情甩在了身后。
成績(jī)墊底,到底是GPT錯(cuò)了還是榜錯(cuò)了?
顯然,榜單有問(wèn)題,因?yàn)樗庥隽恕安唤】档乃瘛薄?/p>
C-Eval團(tuán)隊(duì)在官網(wǎng)發(fā)出聲明,承認(rèn)評(píng)測(cè)方式有局限性,同時(shí)指出了刷榜得高分的一些方法,比如:從GPT-4的預(yù)測(cè)結(jié)果蒸餾,找人工標(biāo)注然后蒸餾,在網(wǎng)上找到原題加入訓(xùn)練集中微調(diào)模型。
這三種方法,前兩種可以視為間接作弊,第三種相當(dāng)于直接作弊。
大模型從業(yè)者李健對(duì)「定焦」說(shuō),間接作弊,就是知道考試大概的類型,然后花較多精力把可能的題目都找出來(lái)或叫專業(yè)的人造出來(lái),答案也給出來(lái),用這樣的數(shù)據(jù)訓(xùn)練模型。
他指出,業(yè)內(nèi)現(xiàn)在常用的手段是,讓GPT4來(lái)“造答案”,然后得到訓(xùn)練數(shù)據(jù)。
李健分析,直接作弊,就是知道考試題目,然后稍微改改,得到新的很多份題目,之后直接拿來(lái)訓(xùn)練模型。
“在清楚榜單任務(wù)的情況下,很多類型的任務(wù),很容易刷榜。”他說(shuō)。
這樣得到的分?jǐn)?shù)是沒(méi)有意義的?!爸苯幼鞅谆緦?duì)提升模型的泛化能力(舉一反三)沒(méi)用,間接作弊有點(diǎn)像做題家,對(duì)提升學(xué)生真實(shí)的素質(zhì)弊大于利?!?/p>
為了讓“用戶謹(jǐn)慎看待以下榜單”,C-Eval團(tuán)隊(duì)不得不將榜單拆分成兩個(gè),一個(gè)是模型已公開(kāi)的,一個(gè)是未公開(kāi)的。結(jié)果,那些得分高的基本全是未公開(kāi)的大模型。而這些模型的真實(shí)表現(xiàn),人們是無(wú)法體驗(yàn)的。
復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院教授邱錫鵬說(shuō),C-Eval本身質(zhì)量還挺高,但被刷榜后導(dǎo)致學(xué)術(shù)價(jià)值不大了?,F(xiàn)在很多企業(yè)去刷榜,但又不公開(kāi)數(shù)據(jù),也不具體說(shuō)怎么做,這是一種不公平的競(jìng)爭(zhēng)。
多位大模型從業(yè)者對(duì)「定焦」說(shuō),刷榜在大模型行業(yè)很常見(jiàn)。
躍盟科技創(chuàng)始人王冉對(duì)「定焦」打了一個(gè)比方:“先射完箭再畫(huà)靶子”。他認(rèn)為今天的某些測(cè)評(píng)手段,是有一些大模型公司為了表現(xiàn)自己牛而專門(mén)設(shè)計(jì)的。
盛景嘉成董事總經(jīng)理劉迪認(rèn)為,有答案或者評(píng)分標(biāo)準(zhǔn),就有人能鉆空子。單靠數(shù)據(jù)集和問(wèn)題集的評(píng)判方式,很難評(píng)出大模型在應(yīng)用層面的好壞。
“一個(gè)丹一個(gè)煉法,哪個(gè)對(duì)癥還得吃下去看?!彼麑?duì)「定焦」說(shuō)。
考試拿第一,不是好學(xué)生?
大模型評(píng)測(cè),作為評(píng)估大模型綜合實(shí)力的一個(gè)手段,還有參考價(jià)值嗎?
趙小躍認(rèn)為,在核心的通用能力上,比如語(yǔ)言理解、邏輯推理等,學(xué)術(shù)數(shù)據(jù)集的榜單測(cè)評(píng)能反映七八成。這其中最大的問(wèn)題是,開(kāi)源的榜單結(jié)果跟大家用大語(yǔ)言模型的場(chǎng)景之間有鴻溝。
“測(cè)評(píng)只能反映模型某一部分的能力,大家其實(shí)都是從不同的維度盲人摸象,很難知道它的能力邊界在哪里?!彼f(shuō)。
對(duì)于大語(yǔ)言模型,首先在語(yǔ)言上,分為英文和中文兩大語(yǔ)種。國(guó)外大模型的訓(xùn)練語(yǔ)料以英文為主,所以英文很強(qiáng),但中文不一定比國(guó)內(nèi)大模型強(qiáng)。這也是為什么國(guó)內(nèi)很多大模型,都在“超越ChatGPT”之前加一個(gè)“中文能力”的定語(yǔ)。
其次在考察科目上,評(píng)測(cè)數(shù)據(jù)集通常會(huì)設(shè)置很多個(gè)方面,從百科知識(shí)到角色扮演,從上下文對(duì)話到閑聊。但這些能力只能單一評(píng)價(jià),然后得分加總。
這跟評(píng)價(jià)一個(gè)人很像。任何一道考卷,都只能測(cè)試出這個(gè)人某方面的能力。即便是全套試卷的成績(jī),也不等同于這個(gè)人的能力。就像ChatGPT的榜單排名不一定能比過(guò)國(guó)內(nèi)的一些大模型,但使用體驗(yàn)上就是更好。
王冉認(rèn)為,如果將大模型比作一個(gè)人的大腦,如何評(píng)測(cè)一個(gè)人的大腦好用,如果只給他做題,其實(shí)是充滿偏見(jiàn)的?!按竽P偷臏y(cè)評(píng)不應(yīng)該用考試來(lái)做,而應(yīng)該用應(yīng)用來(lái)做?!?/p>
人工智能公司開(kāi)放傳神(OpenCSG)創(chuàng)始人、CEO陳冉認(rèn)為,通用性的評(píng)測(cè),看綜合得分,沒(méi)有一個(gè)大模型超過(guò)GPT4,但是在特定領(lǐng)域,可能有些指標(biāo)GPT4得分不一定高。
問(wèn)題在于,有些廠商拿特定領(lǐng)域的得分,去宣傳整體超過(guò)了GPT4?!斑@就是以偏概全,我覺(jué)得有些廠商在對(duì)外宣傳時(shí),還是要對(duì)生態(tài)公司給到正確的指引,具體哪個(gè)指標(biāo)在哪個(gè)領(lǐng)域得分高,要說(shuō)清楚。”他對(duì)「定焦」表示。
而一旦測(cè)評(píng)成績(jī)進(jìn)入排名賽,有了功利的成分,有些廠商就會(huì)有刷榜的動(dòng)機(jī)?!皬乃竦慕嵌龋惶鼙WC中小廠不會(huì)把這部分?jǐn)?shù)據(jù)拿去訓(xùn)練,這是大家對(duì)公開(kāi)數(shù)據(jù)集最大的顧慮。”趙小躍說(shuō)。
綜合多位業(yè)內(nèi)人士的觀點(diǎn),目前國(guó)內(nèi)還沒(méi)有一個(gè)特別好的數(shù)據(jù)集,能綜合反映大模型的能力,各方都在探索。
李健在今年做了“CLiB中文大模型能力評(píng)測(cè)榜單”,為了避免泄題,他盡量參考業(yè)界好的方案,自己出題。“主要是業(yè)界和學(xué)術(shù)界的榜單,不太讓人滿意,公開(kāi)程度不高,都是各說(shuō)各話?!?/p>
還有一些非商業(yè)性質(zhì)的機(jī)構(gòu)相信,測(cè)評(píng)榜單最大的意義在于,從模型演化的角度,能夠幫助廠商監(jiān)控模型生產(chǎn)過(guò)程中能力的變化,糾正訓(xùn)練模型的方法,有針對(duì)性提高模型能力。
比如OpenCompass,它是Meta官方推薦的開(kāi)源大模型評(píng)測(cè)框架,利用分布式技術(shù)支持上百個(gè)數(shù)據(jù)集的評(píng)測(cè),提供了大模型評(píng)測(cè)的所有技術(shù)細(xì)節(jié),同時(shí)給大家提供了統(tǒng)一的測(cè)試基準(zhǔn),方便各家模型在公平公正的情況下開(kāi)展對(duì)比。
開(kāi)源:先賺吆喝再賺錢(qián)
對(duì)大模型做出全面評(píng)價(jià)是困難的。除了打榜的方式,有一些廠商通過(guò)開(kāi)源,獲得了巨大的關(guān)注。
開(kāi)源是一種經(jīng)營(yíng)策略,需要對(duì)自家產(chǎn)品足夠自信。相比之下,敢于放開(kāi)注冊(cè)讓公眾體驗(yàn)的閉源大模型,要比那些無(wú)法體驗(yàn)的強(qiáng),開(kāi)源大模型則又往前邁了一步。
第一個(gè)被大范圍使用、好評(píng)度最高的開(kāi)源大語(yǔ)言模型,是由Meta在今年2月推出的Llama。當(dāng)時(shí)全球科技公司都盯著OpenAI,試圖追趕閉源的ChatGPT。但開(kāi)源讓Meta坐上了牌桌,吸引了大量開(kāi)發(fā)者,一時(shí)名聲大噪。
國(guó)內(nèi)公司很快跟上,搶抓第一波關(guān)注度。智譜AI、智源研究院、百川智能,是動(dòng)作最快的三家。
在Llama開(kāi)源之后,號(hào)稱全面對(duì)標(biāo)OpenAI、有著清華背景的智譜AI,迅速在國(guó)內(nèi)第一個(gè)開(kāi)源了自己的大模型ChatGLM-6B。這個(gè)時(shí)間點(diǎn)非常早,當(dāng)時(shí)國(guó)內(nèi)廠商的大模型都還沒(méi)發(fā)布,百度文心一言兩天后才推出,而王小川的百川智能公司還沒(méi)成立。
三個(gè)月后的6月9日,跟智譜AI有著很深淵源的智源研究院,宣布開(kāi)源“悟道·天鷹”Aquila。它比智譜AI更進(jìn)一步——可商用,于是拿下“國(guó)內(nèi)首個(gè)開(kāi)源可商用語(yǔ)言大模型”的頭銜。
是否支持商用,是判斷模型能力的一個(gè)關(guān)鍵指標(biāo)。GPT 3.5的水平,通常被認(rèn)為是大模型商用的標(biāo)準(zhǔn)線。不過(guò),智源是一個(gè)非營(yíng)利機(jī)構(gòu),它更多的用意是為公用發(fā)展提供技術(shù)支持。
智源主動(dòng)開(kāi)源之后,開(kāi)源大模型的軍備競(jìng)賽正式打響。
這其中值得一提的是百川智能。作為一家今年4月才成立的初創(chuàng)公司,百川獲得的關(guān)注度甚至超過(guò)很多互聯(lián)網(wǎng)大廠。
從時(shí)間上來(lái)看,百川是智源之后第一家開(kāi)源的創(chuàng)業(yè)公司,且第一個(gè)宣布可免費(fèi)商用。它開(kāi)源不可商用的版本時(shí),比智譜AI早九天;后來(lái)開(kāi)源免費(fèi)可商用的版本時(shí),又比智譜AI早三天。
時(shí)間點(diǎn)很重要。當(dāng)時(shí)Llama1只被允許用作研究,但市場(chǎng)有傳聞可商用的Llama 2即將開(kāi)源。百川不僅搶在Llama 2之前,還卡在智譜AI之前宣布了免費(fèi)可商用,贏得了巨大的關(guān)注度,一周之內(nèi)下載量破百萬(wàn)。
趙小躍認(rèn)為,百川在那個(gè)時(shí)間發(fā)布一個(gè)開(kāi)源模型,作為自己的第一槍,是一個(gè)很對(duì)的決策。“賺了一波吆喝?!?/p>
支持商用的Llama 2比百川和智譜AI晚了一周,即便如此,它還是在全球引發(fā)巨震。在同等參數(shù)規(guī)模下,Llama 2能力超過(guò)所有的開(kāi)源大模型,是目前全球公認(rèn)的開(kāi)源大模型的代表。
因?yàn)長(zhǎng)lama的帶動(dòng),國(guó)內(nèi)廠商踩上了開(kāi)源熱潮的風(fēng)口。它們急著秀肌肉,爭(zhēng)奪大眾注意力。但從技術(shù)角度,尚不能說(shuō)明它們就跑在了前面。
有觀點(diǎn)認(rèn)為,開(kāi)源模型雖多,但大多數(shù)都是從Llama派生出來(lái)。簡(jiǎn)單來(lái)說(shuō),就是用了Llama作為基模型,然后選用其它不同的訓(xùn)練方法微調(diào)。因?yàn)長(zhǎng)lama原生在中文方面相對(duì)較弱,給了國(guó)產(chǎn)開(kāi)源大模型宣傳的發(fā)力點(diǎn)。
6月中旬百川開(kāi)源第一版Baichuan-7B時(shí),公司只成立剛兩個(gè)月。當(dāng)時(shí)有人質(zhì)疑其模型架構(gòu)跟Llama很相似?!敖柚呀?jīng)開(kāi)源的技術(shù)和方案,百川是站在了巨人的肩膀上?!币晃淮竽P蛣?chuàng)業(yè)者評(píng)價(jià)。
本質(zhì)上,開(kāi)源也是一種商業(yè)模式。賺完吆喝后,廠商的目的還是賺錢(qián)。
陳冉向「定焦」舉了個(gè)例子,開(kāi)源就像一些化妝品品牌推出試用裝,免費(fèi)給用戶用,但不會(huì)透露配方和成分。用戶試用完如果覺(jué)得好想繼續(xù)用,就得付費(fèi)買(mǎi)商業(yè)版。另外它可能透露配方,如果有廠商想基于這個(gè)配方去創(chuàng)造一個(gè)新的產(chǎn)品,就需要交授權(quán)費(fèi)。
百川在9月下旬推出了兩款閉源大模型,API接口對(duì)外開(kāi)放,進(jìn)入ToB領(lǐng)域,開(kāi)啟商業(yè)化進(jìn)程。
“它已經(jīng)通過(guò)開(kāi)源賺了一波吆喝,接下來(lái)一定會(huì)推閉源大模型做商業(yè)化,它最先進(jìn)的模型是一定不會(huì)開(kāi)源的?!壁w小躍說(shuō)。
大家都沒(méi)有護(hù)城河?
“百模大戰(zhàn)”發(fā)展到今天,各家廠商通過(guò)各種方式博取關(guān)注度,那么誰(shuí)做到了真正的領(lǐng)先?
趙小躍認(rèn)為,從主觀感受層面來(lái)看,國(guó)內(nèi)的大模型,無(wú)論是開(kāi)源還是閉源,本質(zhì)上沒(méi)有核心的技術(shù)代差。因?yàn)闊o(wú)論是模型大小,還是數(shù)據(jù)質(zhì)量,大家都沒(méi)有飛躍式的突破?!霸贕PT3.5的指引下,國(guó)內(nèi)廠商只要模型容量達(dá)到一定地步,再配合一批高質(zhì)量數(shù)據(jù),大家都不會(huì)太差?!?/p>
但跟GPT4相比,技術(shù)代差是存在的。“因?yàn)殚]源,大家不知道GPT4背后真正的技術(shù)方案是什么,如何把這么大的模型用專家結(jié)構(gòu)訓(xùn)練出來(lái),目前大家還都在探索?!?/p>
在陳冉看來(lái),國(guó)內(nèi)的大語(yǔ)言模型完全原創(chuàng)的較少,有些是在transformer架構(gòu)上做了一個(gè)整體調(diào)優(yōu),本質(zhì)是在算子上做了調(diào)優(yōu),而沒(méi)有本質(zhì)上的改變。還有一些走開(kāi)源路線的廠商,更多是在中文方面深入研究。
大家都有自己的大模型,但本質(zhì)上沒(méi)有顯著的區(qū)別,這就是當(dāng)前國(guó)內(nèi)大模型行業(yè)的特點(diǎn)。
某種程度上,這是由行業(yè)階段決定的。國(guó)內(nèi)的互聯(lián)網(wǎng)大廠、創(chuàng)業(yè)公司、高??蒲袡C(jī)構(gòu),真正開(kāi)始投入大量人力物力做大模型,也就在今年。行業(yè)的技術(shù)路線也還在摸索中,沒(méi)有哪家公司建立起護(hù)城河。
相比純技術(shù)實(shí)力方面的比拼,算力和數(shù)據(jù)層面的比拼更能出效果。
“大家更多的精力是花在數(shù)據(jù)和語(yǔ)料上,誰(shuí)能花錢(qián)獲得高質(zhì)量的語(yǔ)料,同時(shí)有足夠的算力,誰(shuí)就能訓(xùn)練出一個(gè)相對(duì)好一點(diǎn)的模型?!标惾秸f(shuō)。
開(kāi)源讓局面變得更加不可控。去年底ChatGPT亮相后,全球冒出來(lái)上百個(gè)大模型,但今年Meta開(kāi)源Llama 2之后,很多模型還沒(méi)有投入市場(chǎng)就已經(jīng)過(guò)時(shí)。就連谷歌的工程師都在內(nèi)部直言稱,谷歌和OpenAI都沒(méi)有護(hù)城河。
大模型更新迭代太快了。“今天你推出一個(gè)大模型,花錢(qián)打了榜,有很多人用,可能明天就有個(gè)新的模型迅速替代掉?!标惾秸f(shuō)。
多位業(yè)內(nèi)人士對(duì)「定焦」表示,大模型之間真正顯著的區(qū)別,會(huì)在具體的用戶場(chǎng)景或B端的業(yè)務(wù)中體現(xiàn)。
“現(xiàn)實(shí)世界里我們?cè)u(píng)價(jià)某個(gè)人是專家,是因?yàn)樗谔囟I(lǐng)域很厲害。大模型也一樣,要在領(lǐng)域里建立共識(shí),專業(yè)性一定要放到具體的場(chǎng)景里去體現(xiàn)?!蓖跞秸f(shuō)。
核心的通用能力是基礎(chǔ),廠商會(huì)根據(jù)自己所在的領(lǐng)域,差異化發(fā)展?!氨热缥覀兏t(yī)院和律所接觸,他們其實(shí)更關(guān)心的是醫(yī)療或法律方面的能力。”趙小躍說(shuō)。
對(duì)于互聯(lián)網(wǎng)巨頭而言,需要考量的因素相對(duì)更多。
除了要對(duì)外“接單”,巨頭們已經(jīng)開(kāi)始在內(nèi)部進(jìn)行大模型的應(yīng)用端部署。比如騰訊的廣告、游戲、社交、會(huì)議等業(yè)務(wù),接入了混元大模型,百度搜索、文庫(kù)、百家號(hào)等產(chǎn)品早已接入文心大模型,阿里把AI作為各大業(yè)務(wù)板塊的驅(qū)動(dòng)力。
大模型對(duì)巨頭內(nèi)部的正面影響究竟有多大,會(huì)更難量化評(píng)估。
綜合來(lái)看,國(guó)內(nèi)大模型還處在起跑的混沌階段,一切都在快速變化中。做出一個(gè)大模型的技術(shù)壁壘不高,但要做好并真的解決問(wèn)題,還有很長(zhǎng)的路要走。
應(yīng)受訪者要求,趙小躍為化名。