正在閱讀:

李開(kāi)復(fù)被大模型絆了一跤

掃一掃下載界面新聞APP

李開(kāi)復(fù)被大模型絆了一跤

揭開(kāi)了國(guó)產(chǎn)大模型的一條隱秘“捷徑”。

圖片來(lái)源:pexels-Tara Winstead

文|盒飯財(cái)經(jīng) 趙晉杰

編輯|王靖

立志研發(fā)通用大模型底座的李開(kāi)復(fù),正在陷入一場(chǎng)套殼Meta開(kāi)源大模型LLaMA的質(zhì)疑之中。

近期,今年3月份從阿里離職投身AI大模型創(chuàng)業(yè)的賈揚(yáng)清爆料稱(chēng),在幫助海外客戶適配國(guó)內(nèi)某一新模型中,被朋友告知該模型用的其實(shí)是LLaMA架構(gòu),僅在代碼中更改了幾個(gè)變量名。

盡管賈揚(yáng)清并未點(diǎn)出開(kāi)發(fā)上述新模型的具體公司名稱(chēng),但種種跡象都指向了李開(kāi)復(fù)的零一萬(wàn)物。11月6日,零一萬(wàn)物剛剛發(fā)布了“Yi”系列開(kāi)源大模型——Yi-34B和Yi-6B。

針對(duì)外界質(zhì)疑,11月15日,零一萬(wàn)物在回應(yīng)盒飯財(cái)經(jīng)中承認(rèn),在訓(xùn)練模型過(guò)程中,沿用了 GPT/LLaMA的基本架構(gòu),但“就零一萬(wàn)物的觀察和分析,大模型社區(qū)在技術(shù)架構(gòu)方面現(xiàn)在是一個(gè)處于接近往通用化逐步收攏的階段,基本上國(guó)際主流大模型都是基于Transformer的架構(gòu)……國(guó)內(nèi)已發(fā)布的開(kāi)源模型也絕大多數(shù)采用漸成行業(yè)標(biāo)準(zhǔn)的GPT/LLaMA的架構(gòu)?!?/p>

如果把模型訓(xùn)練過(guò)程比做一道菜,“架構(gòu)只是決定了做菜的原材料和大致步驟……要訓(xùn)練出好的模型,還需要更好的‘ 原材料’(數(shù)據(jù))和對(duì)每一個(gè)步驟細(xì)節(jié)的把控(訓(xùn)練方法和具體參數(shù))?!绷阋蝗f(wàn)物進(jìn)一步解釋道。

在賈揚(yáng)清站出來(lái)爆料之前,有關(guān)零一萬(wàn)物模仿LLaMA架構(gòu)的指控已經(jīng)開(kāi)始在開(kāi)源社區(qū)內(nèi)發(fā)酵。

9天前,convai高級(jí)人工智能應(yīng)用專(zhuān)家埃里克·哈特福德在Huggingface上發(fā)帖稱(chēng),“Yi-34B 模型基本采用了LLaMA的架構(gòu),只是重命名了兩個(gè)張量?!?/p>

8天后的11月14日,Yi 團(tuán)隊(duì)開(kāi)源總監(jiān)Richard Lin在該帖下回復(fù)稱(chēng),哈特福德對(duì)張量名稱(chēng)的看法是正確的,零一萬(wàn)物將把它們從Yi重命名為L(zhǎng)lama。

在今天盒飯財(cái)經(jīng)收到的最新回復(fù)中,零一萬(wàn)物提到:“對(duì)于沿用LLaMA部分推理代碼經(jīng)實(shí)驗(yàn)更名后的疏忽,原始出發(fā)點(diǎn)是為了充分測(cè)試模型,并非刻意隱瞞來(lái)源。零一萬(wàn)物對(duì)此提出說(shuō)明,并表達(dá)誠(chéng)摯的歉意,我們正在各開(kāi)源平臺(tái)重新提交模型及代碼并補(bǔ)充LLaMA協(xié)議副本的流程中,承諾盡速完成各開(kāi)源社區(qū)的版本更新。”

李開(kāi)復(fù)個(gè)人在今天下午也發(fā)朋友圈對(duì)此事做了回應(yīng)。

素有國(guó)內(nèi)“AI教父”之稱(chēng)的李開(kāi)復(fù),在大模型浪潮中收獲外界寄予的更大期望之余,也不可避免迎來(lái)外界更嚴(yán)苛的審視。

盡管零一萬(wàn)物已經(jīng)公開(kāi)承認(rèn)其借鑒了LLaMA架構(gòu),但并不能就此直接給李開(kāi)復(fù)的大模型扣上“套殼”或者“抄襲”的帽子。

同樣開(kāi)發(fā)大模型的國(guó)內(nèi)創(chuàng)業(yè)者李振告訴盒飯財(cái)經(jīng),界定某一大模型是否存在套殼行為,取決于具體的實(shí)現(xiàn)細(xì)節(jié)和底層技術(shù)。“如果零一萬(wàn)物大模型使用了與Meta LLaMA相同的模型架構(gòu)、訓(xùn)練方法和數(shù)據(jù)集,那么它可能在某種程度上是套殼的。但是,如果它使用了不同的技術(shù)或進(jìn)行了額外的改進(jìn),那么就不能簡(jiǎn)單地說(shuō)是套殼?!?/p>

根據(jù)零一萬(wàn)物的聲明,其投注了大部分精力調(diào)整訓(xùn)練方法、數(shù)據(jù)配比、數(shù)據(jù)工程、細(xì)節(jié)參數(shù)、baby sitting(訓(xùn)練過(guò)程監(jiān)測(cè))技巧等。

即便模型架構(gòu)相似,但在不同的數(shù)據(jù)來(lái)源和數(shù)據(jù)訓(xùn)練方法加持下,最終訓(xùn)練出來(lái)的大模型性能依然會(huì)表現(xiàn)各異?!扒按竽P蜁r(shí)代,AI的主流是以模型為中心的單任務(wù)系統(tǒng),數(shù)據(jù)基本保持不變。進(jìn)入大模型時(shí)代,算法基本保持恒定,而數(shù)據(jù)在不斷增強(qiáng)增大。”在產(chǎn)業(yè)專(zhuān)家劉飛看來(lái),相比算法和算力,數(shù)據(jù)可能是眼下阻礙國(guó)產(chǎn)大模型追趕OpenAI步伐的更大鴻溝,“魔鬼都藏在這些數(shù)據(jù)訓(xùn)練的細(xì)節(jié)里?!?/p>

尤其值得一提的是,參數(shù)量的大小與最終模型呈現(xiàn)的效果之間,兩者“投入產(chǎn)出并不成正比,而是非線性的?!比斯ぶ悄軐?zhuān)家丁磊表示,“數(shù)據(jù)多只是一個(gè)定性,更重要的是考驗(yàn)團(tuán)隊(duì)數(shù)據(jù)清洗的能力,否則隨著數(shù)據(jù)增多,數(shù)據(jù)干擾也將隨之變大?!?/p>

這也為新晉大模型團(tuán)隊(duì)以更小參數(shù)量,在性能上反超更大參數(shù)量的模型提供了某種理論可能性。

11月6日Yi-34B預(yù)訓(xùn)練模型發(fā)布后,李開(kāi)復(fù)將其形容為“全球最強(qiáng)開(kāi)源模型”,以更小模型尺寸評(píng)測(cè)超越了LLaMA2-70B、Falcon-180B等大尺寸開(kāi)源模型。

Yi-34B

但隨著越來(lái)越多國(guó)產(chǎn)大模型在各類(lèi)測(cè)試榜單中登頂,逐一超越業(yè)內(nèi)公認(rèn)最強(qiáng)的GPT-4,有關(guān)這些大模型是靠實(shí)力拿下的高分,還是借助了刷榜手段,再次引發(fā)外界爭(zhēng)議。

知名大模型測(cè)試集C-Eval就在官網(wǎng)置頂聲明,稱(chēng)評(píng)估永遠(yuǎn)不可能是全面的,任何排行榜都可能以不健康的方式被黑客入侵,并給出了幾種常見(jiàn)的刷榜手法,如對(duì)強(qiáng)大的模型(例如GPT-4)的預(yù)測(cè)結(jié)果蒸餾、找人工標(biāo)注然后蒸餾、在網(wǎng)上找到原題加入訓(xùn)練集中微調(diào)模型等等。

造成國(guó)產(chǎn)大模型屢登測(cè)試榜單第一的一大客觀原因,在劉飛看來(lái),是因?yàn)榈侥壳盀橹?,并沒(méi)有真正公認(rèn)的客觀評(píng)判標(biāo)準(zhǔn)和方法。上一代AI的“單任務(wù)模型”有公認(rèn)的數(shù)據(jù)集作為黃金標(biāo)準(zhǔn),但在新興的大模型時(shí)代,“由于大模型多任務(wù)、開(kāi)放式的新特性,變得難以預(yù)先定義,數(shù)據(jù)質(zhì)量的測(cè)試既繁重,也難以全面?!眲w說(shuō)。

不過(guò),哪怕不少?lài)?guó)產(chǎn)大模型是借鑒LLaMA架構(gòu)訓(xùn)練而來(lái),其對(duì)國(guó)內(nèi)公司而言仍有不可替代的價(jià)值。

李振表示,外部公司在接入一個(gè)大模型平臺(tái)時(shí),除了考慮模型的性能和效果外,模型的開(kāi)放性和可定制性也是需要考慮的重要因素,具體到某些區(qū)域,還要特別重視數(shù)據(jù)隱私和安全合規(guī)問(wèn)題。

盡管目前國(guó)內(nèi)公司可以直接接入Meta LLaMA模型,但是由于Meta LLaMA是一個(gè)國(guó)際性的大模型平臺(tái),它需要遵守更多的國(guó)際法規(guī)和限制。此外,如果涉及到敏感領(lǐng)域或數(shù)據(jù),還需要獲得特定的授權(quán)或許可,甚至不排除海外開(kāi)源技術(shù)隨時(shí)關(guān)停、切換高額收費(fèi)或限制地區(qū)訪問(wèn)的風(fēng)險(xiǎn)。因此在李振看來(lái),相比冒險(xiǎn)接入Meta LLaMA,國(guó)內(nèi)公司直接調(diào)用國(guó)產(chǎn)大模型是更為經(jīng)濟(jì)劃算的選擇。

通過(guò)借鑒LLaMA 基本架構(gòu),李開(kāi)復(fù)的零一萬(wàn)物在訓(xùn)練模型速度上快速起步。

今年3月,李開(kāi)復(fù)正式宣布將親自帶隊(duì),成立一家AI2.0公司,研發(fā)通用大模型。經(jīng)過(guò)三個(gè)月籌辦期,7月份,該公司正式定名“零一萬(wàn)物”,并組建起數(shù)十人的大模型研發(fā)團(tuán)隊(duì)。團(tuán)隊(duì)成型四個(gè)月后,零一萬(wàn)物便在11月份推出了“Yi”系列大模型產(chǎn)品,并借助Yi-34B霸榜多個(gè)大模型測(cè)試集。

據(jù)投資界報(bào)道,在亮相大模型產(chǎn)品之際,零一萬(wàn)物已完成由阿里云領(lǐng)投的新一輪融資,投后估值超10億美元,躋身中國(guó)大模型創(chuàng)業(yè)公司獨(dú)角獸行列。

零一萬(wàn)物快速崛起的背后,離不開(kāi)李開(kāi)復(fù)的個(gè)人IP加持,就連官網(wǎng)都公開(kāi)感謝“李開(kāi)復(fù)博士過(guò)往40年在人工智能領(lǐng)域的科研和產(chǎn)業(yè)經(jīng)驗(yàn)”。

零一萬(wàn)物官網(wǎng)

出任過(guò)谷歌全球副總裁兼大中華區(qū)總裁,并在微軟全球副總裁期間開(kāi)創(chuàng)了微軟亞洲研究院的李開(kāi)復(fù),通過(guò)在2009年創(chuàng)立創(chuàng)新工場(chǎng),完成了從明星職業(yè)經(jīng)理人到VC投資人的身份轉(zhuǎn)變。

過(guò)去十多年間,創(chuàng)新工場(chǎng)投資超過(guò)300多個(gè)項(xiàng)目,其中不乏曠視科技、美圖、知乎、第四范式、地平線等行業(yè)知名公司。

在2019年被晚點(diǎn)問(wèn)及創(chuàng)新工場(chǎng)回報(bào)最好的基金是哪一期時(shí),李開(kāi)復(fù)回答:“投AI項(xiàng)目最多的回報(bào)最好……比如曠視回報(bào)400倍、VIPKID回報(bào)1200倍?!?/p>

靠著數(shù)十年如一日對(duì)AI的宣揚(yáng)布道,李開(kāi)復(fù)一度被稱(chēng)為中國(guó)的“AI教父”。盡管其在AI方面的投資可圈可點(diǎn),但李開(kāi)復(fù)扮演的角色顯然不同于山姆·阿爾特曼這樣用劃時(shí)代的產(chǎn)品來(lái)引領(lǐng) AI 行業(yè)的企業(yè)家。

在2018年9月推出的新書(shū)《AI·未來(lái)》中,李開(kāi)復(fù)曾談及中美兩國(guó)競(jìng)爭(zhēng)差距,大膽預(yù)言:“人工智能實(shí)干時(shí)代競(jìng)爭(zhēng)力的天平將傾向商業(yè)化執(zhí)行、產(chǎn)品質(zhì)量、創(chuàng)新速度和大數(shù)據(jù),而這些要素恰是中國(guó)優(yōu)于美國(guó)之處。”在書(shū)中,李開(kāi)復(fù)甚至寫(xiě)到“15年前從‘學(xué)習(xí)’起步的中國(guó)互聯(lián)網(wǎng)初創(chuàng)公司從美國(guó)商業(yè)模式中獲得靈感,激地相互競(jìng)爭(zhēng)……當(dāng)這一代中國(guó)企業(yè)家學(xué)會(huì)利用人工智能時(shí),將徹底顛覆游戲規(guī)則?!?/p>

在ChatGPT引發(fā)的新一輪AI顛覆性變革現(xiàn)實(shí)面前,越來(lái)越多人開(kāi)始重新打量中美在AI方面的差距。

具體到大模型方面,丁磊甚至認(rèn)為,相比算法、算力和數(shù)據(jù),“真正有領(lǐng)導(dǎo)力的AI管理者,像山姆·阿爾特曼這樣有能力推動(dòng)新技術(shù)落地應(yīng)用的技術(shù)管理人才,才是國(guó)內(nèi)更缺的一塊短板?!?/p>

除了需要向外界展現(xiàn)如阿爾特曼一般的高超技術(shù)管理能力之外,李開(kāi)復(fù)的大模型夢(mèng)還遭遇著諸多挑戰(zhàn)。

如何盡快追趕上OpenAI的步伐,是橫亙?cè)诶铋_(kāi)復(fù)等一眾大模型創(chuàng)業(yè)跟隨者面前的最大拷問(wèn)。

在國(guó)產(chǎn)大模型突飛猛進(jìn)的大半年間,OpenAI同樣進(jìn)步神速,相繼推出了GPT-4、GPT-4V、GPT-4 Turbo。

阿爾特曼還在帶領(lǐng)OpenAI繼續(xù)狂飆。今年10月份,阿爾特曼首次對(duì)外明確,OpenAI已經(jīng)啟動(dòng)GPT-5、GPT-6的訓(xùn)練,并將繼續(xù)沿著多模態(tài)方向持續(xù)迭代。

在國(guó)產(chǎn)大模型還在努力追上ChatGPT步伐之時(shí),其相比OpenAI更先進(jìn)模型的差距,反而有了逐漸擴(kuò)大的趨勢(shì)。

值得一提的是,2020年發(fā)布GPT-3時(shí),OpenAI曾詳細(xì)公開(kāi)了模型訓(xùn)練的所有技術(shù)細(xì)節(jié)。中國(guó)人民大學(xué)高瓴人工智能學(xué)院執(zhí)行院長(zhǎng)文繼榮表示,國(guó)內(nèi)很多大模型其實(shí)都有GPT-3的影子。

但隨著OpenAI在GPT-4上一改開(kāi)源策略,逐漸走向封閉,一些國(guó)產(chǎn)大模型就此失去了可供復(fù)制的追趕路徑。

放眼國(guó)內(nèi),即便宣稱(chēng)做到了一眾測(cè)試榜單第一,但留給零一萬(wàn)物的挑戰(zhàn)仍難言樂(lè)觀。

在發(fā)布Yi-34B預(yù)訓(xùn)練模型后,李開(kāi)復(fù)宣稱(chēng)內(nèi)部已經(jīng)啟動(dòng)下一個(gè)千億參數(shù)模型的訓(xùn)練。與之相比,國(guó)內(nèi)不少大模型公司已經(jīng)完成了千億模型的上市發(fā)布。

除了需要提速追趕先行者外,如何在商業(yè)落地上勝出,將是李開(kāi)復(fù)需要解決的更大挑戰(zhàn)。

經(jīng)歷過(guò)AI 1.0 時(shí)代的李開(kāi)復(fù),在投身大模型創(chuàng)業(yè)后,便對(duì)外提到自己“做的應(yīng)用一定是朝著能夠快速有收入,而且能夠產(chǎn)生非常好的利潤(rùn)、收入是高質(zhì)量的、可持續(xù)的,而不是一次性在某一個(gè)公司上打下一個(gè)單子?!?/p>

實(shí)現(xiàn)上述商業(yè)化的突破口被李開(kāi)復(fù)放在了C端應(yīng)用上,李開(kāi)復(fù)同樣相信AIGC時(shí)代將誕生比移動(dòng)互聯(lián)網(wǎng)大十倍的平臺(tái)機(jī)會(huì),將出現(xiàn)把既有的軟件、使用界面和應(yīng)用重寫(xiě)一次,改寫(xiě)用戶交互和入口的新機(jī)遇?!叭缤琖indows帶動(dòng)了PC普及,Android催生了移動(dòng)互聯(lián)網(wǎng)的生態(tài),AIGC也將誕生新一批AI-first的應(yīng)用,并催生由AI主導(dǎo)的商業(yè)模式?!?/p>

想要實(shí)現(xiàn)上述宏偉愿景,除了需要將旗下通用大模型打造得足夠先進(jìn)之外,還需要在一眾國(guó)產(chǎn)大模型競(jìng)爭(zhēng)中脫穎而出。

恒業(yè)資本創(chuàng)始合伙人江一認(rèn)為,這波AI大模型浪潮中,國(guó)內(nèi)最終能夠存活下來(lái)的通用大模型玩家,“可能有個(gè)3家就已經(jīng)不錯(cuò)了。因?yàn)橛?xùn)練大模型需要大量投入,要燒很多錢(qián),而且還不一定能追得上GPT-4。”

無(wú)論Windows還是Android,每個(gè)時(shí)代也只拼殺出了一個(gè),李開(kāi)復(fù)該如何讓零一萬(wàn)物成為AIGC時(shí)代的“唯一”呢?

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請(qǐng)聯(lián)系原著作權(quán)人。

評(píng)論

暫無(wú)評(píng)論哦,快來(lái)評(píng)價(jià)一下吧!

下載界面新聞

微信公眾號(hào)

微博

李開(kāi)復(fù)被大模型絆了一跤

揭開(kāi)了國(guó)產(chǎn)大模型的一條隱秘“捷徑”。

圖片來(lái)源:pexels-Tara Winstead

文|盒飯財(cái)經(jīng) 趙晉杰

編輯|王靖

立志研發(fā)通用大模型底座的李開(kāi)復(fù),正在陷入一場(chǎng)套殼Meta開(kāi)源大模型LLaMA的質(zhì)疑之中。

近期,今年3月份從阿里離職投身AI大模型創(chuàng)業(yè)的賈揚(yáng)清爆料稱(chēng),在幫助海外客戶適配國(guó)內(nèi)某一新模型中,被朋友告知該模型用的其實(shí)是LLaMA架構(gòu),僅在代碼中更改了幾個(gè)變量名。

盡管賈揚(yáng)清并未點(diǎn)出開(kāi)發(fā)上述新模型的具體公司名稱(chēng),但種種跡象都指向了李開(kāi)復(fù)的零一萬(wàn)物。11月6日,零一萬(wàn)物剛剛發(fā)布了“Yi”系列開(kāi)源大模型——Yi-34B和Yi-6B。

針對(duì)外界質(zhì)疑,11月15日,零一萬(wàn)物在回應(yīng)盒飯財(cái)經(jīng)中承認(rèn),在訓(xùn)練模型過(guò)程中,沿用了 GPT/LLaMA的基本架構(gòu),但“就零一萬(wàn)物的觀察和分析,大模型社區(qū)在技術(shù)架構(gòu)方面現(xiàn)在是一個(gè)處于接近往通用化逐步收攏的階段,基本上國(guó)際主流大模型都是基于Transformer的架構(gòu)……國(guó)內(nèi)已發(fā)布的開(kāi)源模型也絕大多數(shù)采用漸成行業(yè)標(biāo)準(zhǔn)的GPT/LLaMA的架構(gòu)?!?/p>

如果把模型訓(xùn)練過(guò)程比做一道菜,“架構(gòu)只是決定了做菜的原材料和大致步驟……要訓(xùn)練出好的模型,還需要更好的‘ 原材料’(數(shù)據(jù))和對(duì)每一個(gè)步驟細(xì)節(jié)的把控(訓(xùn)練方法和具體參數(shù))?!绷阋蝗f(wàn)物進(jìn)一步解釋道。

在賈揚(yáng)清站出來(lái)爆料之前,有關(guān)零一萬(wàn)物模仿LLaMA架構(gòu)的指控已經(jīng)開(kāi)始在開(kāi)源社區(qū)內(nèi)發(fā)酵。

9天前,convai高級(jí)人工智能應(yīng)用專(zhuān)家埃里克·哈特福德在Huggingface上發(fā)帖稱(chēng),“Yi-34B 模型基本采用了LLaMA的架構(gòu),只是重命名了兩個(gè)張量?!?/p>

8天后的11月14日,Yi 團(tuán)隊(duì)開(kāi)源總監(jiān)Richard Lin在該帖下回復(fù)稱(chēng),哈特福德對(duì)張量名稱(chēng)的看法是正確的,零一萬(wàn)物將把它們從Yi重命名為L(zhǎng)lama。

在今天盒飯財(cái)經(jīng)收到的最新回復(fù)中,零一萬(wàn)物提到:“對(duì)于沿用LLaMA部分推理代碼經(jīng)實(shí)驗(yàn)更名后的疏忽,原始出發(fā)點(diǎn)是為了充分測(cè)試模型,并非刻意隱瞞來(lái)源。零一萬(wàn)物對(duì)此提出說(shuō)明,并表達(dá)誠(chéng)摯的歉意,我們正在各開(kāi)源平臺(tái)重新提交模型及代碼并補(bǔ)充LLaMA協(xié)議副本的流程中,承諾盡速完成各開(kāi)源社區(qū)的版本更新?!?/p>

李開(kāi)復(fù)個(gè)人在今天下午也發(fā)朋友圈對(duì)此事做了回應(yīng)。

素有國(guó)內(nèi)“AI教父”之稱(chēng)的李開(kāi)復(fù),在大模型浪潮中收獲外界寄予的更大期望之余,也不可避免迎來(lái)外界更嚴(yán)苛的審視。

盡管零一萬(wàn)物已經(jīng)公開(kāi)承認(rèn)其借鑒了LLaMA架構(gòu),但并不能就此直接給李開(kāi)復(fù)的大模型扣上“套殼”或者“抄襲”的帽子。

同樣開(kāi)發(fā)大模型的國(guó)內(nèi)創(chuàng)業(yè)者李振告訴盒飯財(cái)經(jīng),界定某一大模型是否存在套殼行為,取決于具體的實(shí)現(xiàn)細(xì)節(jié)和底層技術(shù)?!叭绻阋蝗f(wàn)物大模型使用了與Meta LLaMA相同的模型架構(gòu)、訓(xùn)練方法和數(shù)據(jù)集,那么它可能在某種程度上是套殼的。但是,如果它使用了不同的技術(shù)或進(jìn)行了額外的改進(jìn),那么就不能簡(jiǎn)單地說(shuō)是套殼?!?/p>

根據(jù)零一萬(wàn)物的聲明,其投注了大部分精力調(diào)整訓(xùn)練方法、數(shù)據(jù)配比、數(shù)據(jù)工程、細(xì)節(jié)參數(shù)、baby sitting(訓(xùn)練過(guò)程監(jiān)測(cè))技巧等。

即便模型架構(gòu)相似,但在不同的數(shù)據(jù)來(lái)源和數(shù)據(jù)訓(xùn)練方法加持下,最終訓(xùn)練出來(lái)的大模型性能依然會(huì)表現(xiàn)各異。“前大模型時(shí)代,AI的主流是以模型為中心的單任務(wù)系統(tǒng),數(shù)據(jù)基本保持不變。進(jìn)入大模型時(shí)代,算法基本保持恒定,而數(shù)據(jù)在不斷增強(qiáng)增大?!痹诋a(chǎn)業(yè)專(zhuān)家劉飛看來(lái),相比算法和算力,數(shù)據(jù)可能是眼下阻礙國(guó)產(chǎn)大模型追趕OpenAI步伐的更大鴻溝,“魔鬼都藏在這些數(shù)據(jù)訓(xùn)練的細(xì)節(jié)里。”

尤其值得一提的是,參數(shù)量的大小與最終模型呈現(xiàn)的效果之間,兩者“投入產(chǎn)出并不成正比,而是非線性的?!比斯ぶ悄軐?zhuān)家丁磊表示,“數(shù)據(jù)多只是一個(gè)定性,更重要的是考驗(yàn)團(tuán)隊(duì)數(shù)據(jù)清洗的能力,否則隨著數(shù)據(jù)增多,數(shù)據(jù)干擾也將隨之變大?!?/p>

這也為新晉大模型團(tuán)隊(duì)以更小參數(shù)量,在性能上反超更大參數(shù)量的模型提供了某種理論可能性。

11月6日Yi-34B預(yù)訓(xùn)練模型發(fā)布后,李開(kāi)復(fù)將其形容為“全球最強(qiáng)開(kāi)源模型”,以更小模型尺寸評(píng)測(cè)超越了LLaMA2-70B、Falcon-180B等大尺寸開(kāi)源模型。

Yi-34B

但隨著越來(lái)越多國(guó)產(chǎn)大模型在各類(lèi)測(cè)試榜單中登頂,逐一超越業(yè)內(nèi)公認(rèn)最強(qiáng)的GPT-4,有關(guān)這些大模型是靠實(shí)力拿下的高分,還是借助了刷榜手段,再次引發(fā)外界爭(zhēng)議。

知名大模型測(cè)試集C-Eval就在官網(wǎng)置頂聲明,稱(chēng)評(píng)估永遠(yuǎn)不可能是全面的,任何排行榜都可能以不健康的方式被黑客入侵,并給出了幾種常見(jiàn)的刷榜手法,如對(duì)強(qiáng)大的模型(例如GPT-4)的預(yù)測(cè)結(jié)果蒸餾、找人工標(biāo)注然后蒸餾、在網(wǎng)上找到原題加入訓(xùn)練集中微調(diào)模型等等。

造成國(guó)產(chǎn)大模型屢登測(cè)試榜單第一的一大客觀原因,在劉飛看來(lái),是因?yàn)榈侥壳盀橹?,并沒(méi)有真正公認(rèn)的客觀評(píng)判標(biāo)準(zhǔn)和方法。上一代AI的“單任務(wù)模型”有公認(rèn)的數(shù)據(jù)集作為黃金標(biāo)準(zhǔn),但在新興的大模型時(shí)代,“由于大模型多任務(wù)、開(kāi)放式的新特性,變得難以預(yù)先定義,數(shù)據(jù)質(zhì)量的測(cè)試既繁重,也難以全面。”劉飛說(shuō)。

不過(guò),哪怕不少?lài)?guó)產(chǎn)大模型是借鑒LLaMA架構(gòu)訓(xùn)練而來(lái),其對(duì)國(guó)內(nèi)公司而言仍有不可替代的價(jià)值。

李振表示,外部公司在接入一個(gè)大模型平臺(tái)時(shí),除了考慮模型的性能和效果外,模型的開(kāi)放性和可定制性也是需要考慮的重要因素,具體到某些區(qū)域,還要特別重視數(shù)據(jù)隱私和安全合規(guī)問(wèn)題。

盡管目前國(guó)內(nèi)公司可以直接接入Meta LLaMA模型,但是由于Meta LLaMA是一個(gè)國(guó)際性的大模型平臺(tái),它需要遵守更多的國(guó)際法規(guī)和限制。此外,如果涉及到敏感領(lǐng)域或數(shù)據(jù),還需要獲得特定的授權(quán)或許可,甚至不排除海外開(kāi)源技術(shù)隨時(shí)關(guān)停、切換高額收費(fèi)或限制地區(qū)訪問(wèn)的風(fēng)險(xiǎn)。因此在李振看來(lái),相比冒險(xiǎn)接入Meta LLaMA,國(guó)內(nèi)公司直接調(diào)用國(guó)產(chǎn)大模型是更為經(jīng)濟(jì)劃算的選擇。

通過(guò)借鑒LLaMA 基本架構(gòu),李開(kāi)復(fù)的零一萬(wàn)物在訓(xùn)練模型速度上快速起步。

今年3月,李開(kāi)復(fù)正式宣布將親自帶隊(duì),成立一家AI2.0公司,研發(fā)通用大模型。經(jīng)過(guò)三個(gè)月籌辦期,7月份,該公司正式定名“零一萬(wàn)物”,并組建起數(shù)十人的大模型研發(fā)團(tuán)隊(duì)。團(tuán)隊(duì)成型四個(gè)月后,零一萬(wàn)物便在11月份推出了“Yi”系列大模型產(chǎn)品,并借助Yi-34B霸榜多個(gè)大模型測(cè)試集。

據(jù)投資界報(bào)道,在亮相大模型產(chǎn)品之際,零一萬(wàn)物已完成由阿里云領(lǐng)投的新一輪融資,投后估值超10億美元,躋身中國(guó)大模型創(chuàng)業(yè)公司獨(dú)角獸行列。

零一萬(wàn)物快速崛起的背后,離不開(kāi)李開(kāi)復(fù)的個(gè)人IP加持,就連官網(wǎng)都公開(kāi)感謝“李開(kāi)復(fù)博士過(guò)往40年在人工智能領(lǐng)域的科研和產(chǎn)業(yè)經(jīng)驗(yàn)”。

零一萬(wàn)物官網(wǎng)

出任過(guò)谷歌全球副總裁兼大中華區(qū)總裁,并在微軟全球副總裁期間開(kāi)創(chuàng)了微軟亞洲研究院的李開(kāi)復(fù),通過(guò)在2009年創(chuàng)立創(chuàng)新工場(chǎng),完成了從明星職業(yè)經(jīng)理人到VC投資人的身份轉(zhuǎn)變。

過(guò)去十多年間,創(chuàng)新工場(chǎng)投資超過(guò)300多個(gè)項(xiàng)目,其中不乏曠視科技、美圖、知乎、第四范式、地平線等行業(yè)知名公司。

在2019年被晚點(diǎn)問(wèn)及創(chuàng)新工場(chǎng)回報(bào)最好的基金是哪一期時(shí),李開(kāi)復(fù)回答:“投AI項(xiàng)目最多的回報(bào)最好……比如曠視回報(bào)400倍、VIPKID回報(bào)1200倍?!?/p>

靠著數(shù)十年如一日對(duì)AI的宣揚(yáng)布道,李開(kāi)復(fù)一度被稱(chēng)為中國(guó)的“AI教父”。盡管其在AI方面的投資可圈可點(diǎn),但李開(kāi)復(fù)扮演的角色顯然不同于山姆·阿爾特曼這樣用劃時(shí)代的產(chǎn)品來(lái)引領(lǐng) AI 行業(yè)的企業(yè)家。

在2018年9月推出的新書(shū)《AI·未來(lái)》中,李開(kāi)復(fù)曾談及中美兩國(guó)競(jìng)爭(zhēng)差距,大膽預(yù)言:“人工智能實(shí)干時(shí)代競(jìng)爭(zhēng)力的天平將傾向商業(yè)化執(zhí)行、產(chǎn)品質(zhì)量、創(chuàng)新速度和大數(shù)據(jù),而這些要素恰是中國(guó)優(yōu)于美國(guó)之處。”在書(shū)中,李開(kāi)復(fù)甚至寫(xiě)到“15年前從‘學(xué)習(xí)’起步的中國(guó)互聯(lián)網(wǎng)初創(chuàng)公司從美國(guó)商業(yè)模式中獲得靈感,激地相互競(jìng)爭(zhēng)……當(dāng)這一代中國(guó)企業(yè)家學(xué)會(huì)利用人工智能時(shí),將徹底顛覆游戲規(guī)則?!?/p>

在ChatGPT引發(fā)的新一輪AI顛覆性變革現(xiàn)實(shí)面前,越來(lái)越多人開(kāi)始重新打量中美在AI方面的差距。

具體到大模型方面,丁磊甚至認(rèn)為,相比算法、算力和數(shù)據(jù),“真正有領(lǐng)導(dǎo)力的AI管理者,像山姆·阿爾特曼這樣有能力推動(dòng)新技術(shù)落地應(yīng)用的技術(shù)管理人才,才是國(guó)內(nèi)更缺的一塊短板?!?/p>

除了需要向外界展現(xiàn)如阿爾特曼一般的高超技術(shù)管理能力之外,李開(kāi)復(fù)的大模型夢(mèng)還遭遇著諸多挑戰(zhàn)。

如何盡快追趕上OpenAI的步伐,是橫亙?cè)诶铋_(kāi)復(fù)等一眾大模型創(chuàng)業(yè)跟隨者面前的最大拷問(wèn)。

在國(guó)產(chǎn)大模型突飛猛進(jìn)的大半年間,OpenAI同樣進(jìn)步神速,相繼推出了GPT-4、GPT-4V、GPT-4 Turbo。

阿爾特曼還在帶領(lǐng)OpenAI繼續(xù)狂飆。今年10月份,阿爾特曼首次對(duì)外明確,OpenAI已經(jīng)啟動(dòng)GPT-5、GPT-6的訓(xùn)練,并將繼續(xù)沿著多模態(tài)方向持續(xù)迭代。

在國(guó)產(chǎn)大模型還在努力追上ChatGPT步伐之時(shí),其相比OpenAI更先進(jìn)模型的差距,反而有了逐漸擴(kuò)大的趨勢(shì)。

值得一提的是,2020年發(fā)布GPT-3時(shí),OpenAI曾詳細(xì)公開(kāi)了模型訓(xùn)練的所有技術(shù)細(xì)節(jié)。中國(guó)人民大學(xué)高瓴人工智能學(xué)院執(zhí)行院長(zhǎng)文繼榮表示,國(guó)內(nèi)很多大模型其實(shí)都有GPT-3的影子。

但隨著OpenAI在GPT-4上一改開(kāi)源策略,逐漸走向封閉,一些國(guó)產(chǎn)大模型就此失去了可供復(fù)制的追趕路徑。

放眼國(guó)內(nèi),即便宣稱(chēng)做到了一眾測(cè)試榜單第一,但留給零一萬(wàn)物的挑戰(zhàn)仍難言樂(lè)觀。

在發(fā)布Yi-34B預(yù)訓(xùn)練模型后,李開(kāi)復(fù)宣稱(chēng)內(nèi)部已經(jīng)啟動(dòng)下一個(gè)千億參數(shù)模型的訓(xùn)練。與之相比,國(guó)內(nèi)不少大模型公司已經(jīng)完成了千億模型的上市發(fā)布。

除了需要提速追趕先行者外,如何在商業(yè)落地上勝出,將是李開(kāi)復(fù)需要解決的更大挑戰(zhàn)。

經(jīng)歷過(guò)AI 1.0 時(shí)代的李開(kāi)復(fù),在投身大模型創(chuàng)業(yè)后,便對(duì)外提到自己“做的應(yīng)用一定是朝著能夠快速有收入,而且能夠產(chǎn)生非常好的利潤(rùn)、收入是高質(zhì)量的、可持續(xù)的,而不是一次性在某一個(gè)公司上打下一個(gè)單子?!?/p>

實(shí)現(xiàn)上述商業(yè)化的突破口被李開(kāi)復(fù)放在了C端應(yīng)用上,李開(kāi)復(fù)同樣相信AIGC時(shí)代將誕生比移動(dòng)互聯(lián)網(wǎng)大十倍的平臺(tái)機(jī)會(huì),將出現(xiàn)把既有的軟件、使用界面和應(yīng)用重寫(xiě)一次,改寫(xiě)用戶交互和入口的新機(jī)遇。“如同Windows帶動(dòng)了PC普及,Android催生了移動(dòng)互聯(lián)網(wǎng)的生態(tài),AIGC也將誕生新一批AI-first的應(yīng)用,并催生由AI主導(dǎo)的商業(yè)模式?!?/p>

想要實(shí)現(xiàn)上述宏偉愿景,除了需要將旗下通用大模型打造得足夠先進(jìn)之外,還需要在一眾國(guó)產(chǎn)大模型競(jìng)爭(zhēng)中脫穎而出。

恒業(yè)資本創(chuàng)始合伙人江一認(rèn)為,這波AI大模型浪潮中,國(guó)內(nèi)最終能夠存活下來(lái)的通用大模型玩家,“可能有個(gè)3家就已經(jīng)不錯(cuò)了。因?yàn)橛?xùn)練大模型需要大量投入,要燒很多錢(qián),而且還不一定能追得上GPT-4?!?/p>

無(wú)論Windows還是Android,每個(gè)時(shí)代也只拼殺出了一個(gè),李開(kāi)復(fù)該如何讓零一萬(wàn)物成為AIGC時(shí)代的“唯一”呢?

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請(qǐng)聯(lián)系原著作權(quán)人。