正在閱讀:

ChatGPT的“追風(fēng)者”

掃一掃下載界面新聞APP

ChatGPT的“追風(fēng)者”

到底是“追風(fēng)者”還是“追趕者”,不同的“初心”顯然對(duì)應(yīng)著不同的結(jié)果。

界面新聞|范劍磊

文|Alter

文心一言發(fā)布十余天后,爭(zhēng)論仍未有止歇的跡象。

有人給出了“拉垮”的評(píng)價(jià),相比于多輪迭代的ChatGPT,文心一言在邏輯推理、多輪對(duì)話等方面的表現(xiàn)不盡如人意;也有人認(rèn)為給文心一言值得肯定,原因是填補(bǔ)了中文互聯(lián)網(wǎng)的空白,以及百度直面競(jìng)爭(zhēng)的勇氣。

可能最終會(huì)像李彥宏在發(fā)布會(huì)上所說(shuō)的:當(dāng)前文心一言的內(nèi)測(cè)體驗(yàn)并不能叫作“完美”,發(fā)布是因?yàn)橛惺袌?chǎng)需求,“文心一言將建立起真實(shí)用戶反饋、開發(fā)者調(diào)用和模型迭代之間的飛輪,效果會(huì)迅速提升,給你‘士別三日,當(dāng)刮目相看’的驚喜?!?/p>

這里并非想對(duì)比文心一言與ChatGPT的差距,而是想要討論這樣一個(gè)話題:那些以“中國(guó)版ChatGPT”自居的玩家們,到底是“追風(fēng)者”還是“追趕者”,不同的“初心”顯然對(duì)應(yīng)著不同的結(jié)果。

01 中國(guó)版ChatGPT的虛與實(shí)

國(guó)內(nèi)企業(yè)對(duì)ChatGPT的態(tài)度,大致可以分為三個(gè)階段:

第一個(gè)階段是2023年農(nóng)歷春節(jié)前。

OpenAI在2022年11月30日推出了聊天機(jī)器人ChatGPT,5天時(shí)間注冊(cè)用戶量就超過(guò)了100萬(wàn)。期間不乏國(guó)內(nèi)媒體的報(bào)道,微博等社交網(wǎng)絡(luò)上逐漸流行起各種說(shuō)法:ChatGPT可能將顛覆谷歌,掀起一場(chǎng)搜索引擎的大革命;大學(xué)生開始用ChatGPT寫論文,部分高校宣布將禁用ChatGPT……

彼時(shí)“中國(guó)版ChatGPT”的話題已經(jīng)在技術(shù)論壇里小范圍討論,國(guó)內(nèi)大廠的工程師們大概率有參與其中??捎捎贑hatGPT頻頻被曝出回答錯(cuò)誤、存在假消息,且商業(yè)化落地的前景不明朗,國(guó)內(nèi)大多數(shù)企業(yè)都選擇了緘默。

第二個(gè)階段是ChatGPT爆紅后。

時(shí)間來(lái)到2023年1月末,ChatGPT的注冊(cè)用戶破億,成為史上擴(kuò)散速度最快的應(yīng)用,這場(chǎng)AI風(fēng)暴終于吹到了太平洋對(duì)岸。國(guó)內(nèi)社交媒體上充斥著ChatGPT的對(duì)話截圖,并且出現(xiàn)了“ChatGPT概念股”的說(shuō)法。

中國(guó)的科技大廠們“猛然醒悟”,紛紛開始就中國(guó)版ChatGPT表明態(tài)度:百度在2月7日官宣將在3月上線文心一言;騰訊在2月9日回應(yīng)稱“在相關(guān)方向上已有布局,專項(xiàng)研究也在有序推進(jìn)”;阿里傳出了類ChatGPT應(yīng)用的對(duì)話截圖;京東、網(wǎng)易有道、科大訊飛、小米也先后發(fā)聲將推出相關(guān)產(chǎn)品。

第三個(gè)階段是文心一言上線后。

可能因?yàn)榘l(fā)布會(huì)上的錄屏展示,百度的股價(jià)在文心一言發(fā)布當(dāng)天即下跌10%,一度成為互聯(lián)網(wǎng)上的眾嘲對(duì)象,即使李彥宏和百度CTO王海峰均在發(fā)布會(huì)上提前打了“預(yù)防針”,直言模型目前“訓(xùn)練不夠充分”。

有趣的是其他科技大廠的態(tài)度。目前申請(qǐng)測(cè)試百度文心的用戶已經(jīng)百萬(wàn),超過(guò)10家企業(yè)用戶申請(qǐng)調(diào)用文心一言的企業(yè)版API。如果說(shuō)ChatGPT的走紅只是喚醒了國(guó)內(nèi)網(wǎng)民的好奇心,擺出了一副吃瓜群眾的姿態(tài),現(xiàn)在已然被徹底點(diǎn)燃了熱情。但百度文心上線近10天后,并未有第二家企業(yè)官宣。

個(gè)中原因恐怕離不開“功利”二字。

在ChatGPT的方向被論證前,國(guó)內(nèi)的大部分投資人和技術(shù)領(lǐng)袖并不敢冒險(xiǎn)跟進(jìn),不考慮短期收益的只有少數(shù)派中的少數(shù)派;ChatGPT爆紅后,特別是“ChatGPT概念股”出現(xiàn)后,中國(guó)版ChatGPT已經(jīng)成為一種政治正確,大廠們的表態(tài)也就無(wú)可厚非;文心一言上線后則是另一個(gè)極端,在“肉眼可見(jiàn)”的技術(shù)差距面前,暫時(shí)收斂鋒芒是否也是一種避開被輿論討伐的選項(xiàng)?

“中國(guó)版ChatGPT”或喧囂或冷靜的背后,似乎還有另外一種解釋:在用戶心理閾值最高的時(shí)候,跟風(fēng)放出消息不失為一種聰明的商業(yè)策略,而落實(shí)到產(chǎn)品上,終歸還要結(jié)合現(xiàn)實(shí)需求。就像科大訊飛董事長(zhǎng)劉慶峰的觀點(diǎn):AI要兌現(xiàn)紅利,標(biāo)準(zhǔn)之一就是有看得見(jiàn)摸得著的應(yīng)用場(chǎng)景。

02 空間換時(shí)間的認(rèn)知陷阱

至于ChatGPT類產(chǎn)品的商業(yè)空間,微軟無(wú)疑是最佳的參考對(duì)象。

作為OpenAI的大股東,微軟被中國(guó)網(wǎng)友們戲稱為“坐在副駕駛上狂飆”,尤其是在ChatGPT的商業(yè)應(yīng)用上,微軟可謂動(dòng)作頻頻:1月17日的公開活動(dòng)上,微軟CEO納德拉表示,計(jì)劃將ChatGPT整合進(jìn)其所有產(chǎn)品;半個(gè)多月后,微軟正式推出新版必應(yīng),將ChatGPT與搜索引擎融合;GPT-4發(fā)布兩天后,微軟發(fā)布了新功能Copilot,將用于Word、PowerPoint、Excel、Outlook等產(chǎn)品中,可自動(dòng)生成PPT、自動(dòng)寫文章……

為何國(guó)內(nèi)企業(yè)并沒(méi)有兵臨城下的危機(jī)感?最常見(jiàn)的說(shuō)法是“空間換時(shí)間”,中文互聯(lián)網(wǎng)的特殊性,為國(guó)內(nèi)企業(yè)留下了充足的反應(yīng)時(shí)間。譬如晚于ChatGPT三個(gè)半月誕生的文心一言,照舊抓住了大把的機(jī)會(huì)。諸如此類的說(shuō)辭在某種程度上有其道理,卻也存在一些不可小覷的認(rèn)知陷阱。

比如中文語(yǔ)料庫(kù)的問(wèn)題。

在不少人的理解中,中文語(yǔ)料庫(kù)是ChatGPT難以逾越的壁壘,李彥宏稱“文心一言是更適合中國(guó)市場(chǎng)的人工智能模型”,理由正是中文特殊的分詞和語(yǔ)法結(jié)構(gòu)。中文語(yǔ)料庫(kù)的建設(shè)需要大量的人力、物力和財(cái)力投入,同時(shí)還需要考慮語(yǔ)料的質(zhì)量、版權(quán)等問(wèn)題,幾乎是一個(gè)天然避風(fēng)港。

可國(guó)內(nèi)互聯(lián)網(wǎng)巨頭的“數(shù)據(jù)隔離”也是不爭(zhēng)的事實(shí),盡管在工信部的施壓下,大廠們被迫“拆墻”,但不同平臺(tái)的數(shù)據(jù)仍然很難產(chǎn)生交流和總結(jié),無(wú)形中增加了模型訓(xùn)練的難度。就連文心一言的圖像生成都經(jīng)被傳出先將中文指令翻譯成英文,再根據(jù)英文描述生成圖像,中文語(yǔ)料的現(xiàn)狀可見(jiàn)一斑。

再比如技術(shù)上的硬性門檻。

國(guó)內(nèi)并不缺少媲美GPT-3的大模型,這也是很多企業(yè)自信可以開發(fā)出ChatGPT類應(yīng)用的直接原因,然而算力資源、工程能力、模型迭代策略、調(diào)優(yōu)機(jī)制等能力的缺失也是不爭(zhēng)的事實(shí)。還是文心一言的例子,雖然有ChatGPT這個(gè)參考答案,迭代、調(diào)優(yōu)的路還是要重新走一遍才行。

一個(gè)淺顯的道理,OpenAI在推出ChatGPT前,已經(jīng)在大模型上默默耕耘了4年時(shí)間,期間不知道有多少次的試錯(cuò)。畢竟一個(gè)現(xiàn)象級(jí)產(chǎn)品誕生,往往是資源、基礎(chǔ)技術(shù)、人才、產(chǎn)業(yè)需求等一系列因素的集大成,國(guó)內(nèi)到底有多少家企業(yè)能夠越過(guò)技術(shù)上的硬性門檻,目前還是一個(gè)未知數(shù)。

按照華西證券的測(cè)算,百度的文心一言想要達(dá)到ChatGPT目前的能力,需要補(bǔ)足的訓(xùn)練、推理和數(shù)據(jù)標(biāo)注成本分別為2.29億元、13.62億元、0.05億元,需要保持年均16億元的投入。

倘若再算上維持正常運(yùn)轉(zhuǎn)的人力成本、訓(xùn)練模型的算力成本、存儲(chǔ)數(shù)據(jù)的數(shù)據(jù)中心耗費(fèi),百度想要追平OpenAI需要付出相當(dāng)龐大的投入,遑論其他缺少前期布局的企業(yè)。

就在百度們還在追趕GPT-3.5時(shí),OpneAI已經(jīng)有條不紊的推出了功能更為強(qiáng)大的GPT-4,并在3月24日宣布部分解除了ChatGPT無(wú)法聯(lián)網(wǎng)的限制,正在推出ChatGPT插件,可以訪問(wèn)訓(xùn)練數(shù)據(jù)外的信息,增加一些特定功能,開始了從工具向平臺(tái)的進(jìn)化。

03 “追風(fēng)者”無(wú)緣“星辰大?!?/h4>

最糟糕的并不是做一個(gè)“追趕者”,而是“反應(yīng)遲鈍”的追風(fēng)者。

早在2020年的時(shí)候,OpenAI就借著GPT-3一鳴驚人,隨即在全球范圍內(nèi)拉開了一場(chǎng)大模型軍備競(jìng)賽,國(guó)內(nèi)的華為、智源、浪潮、阿里云、百度、騰訊等企業(yè)先后發(fā)布了自家的預(yù)訓(xùn)練大模型品,并不斷從NLP延伸出了雙語(yǔ)、CV、跨模態(tài)等大模型。

而后的一段日子里,來(lái)自中國(guó)的大模型覇榜各類榜單,學(xué)術(shù)論文如流水線般生產(chǎn)。一些研究人員以發(fā)論文為己任,鮮有人思考學(xué)術(shù)以外的價(jià)值;企業(yè)對(duì)大模型滿懷信心,并試圖推動(dòng)產(chǎn)業(yè)落地中來(lái)變現(xiàn)。最終也僅僅止步于此,沒(méi)有一家企業(yè)能創(chuàng)造性地越過(guò)大模型到ChatGPT的天塹。

有人在知乎上問(wèn)道:阻礙國(guó)內(nèi)團(tuán)隊(duì)研究 ChatGPT 這樣產(chǎn)品的障礙有哪些,技術(shù)、錢還是領(lǐng)導(dǎo)力?OneFlow創(chuàng)始人袁進(jìn)輝的回答道出了問(wèn)題的本質(zhì):“需要有遠(yuǎn)見(jiàn)且為理想而持之以恒的人?!?/p>

不可否認(rèn)的是,“談理想”在國(guó)內(nèi)的商業(yè)環(huán)境中多少有些感性且不切實(shí)際,甚至連相應(yīng)的故事都是“舶來(lái)品”:圖靈獎(jiǎng)得主Hinton潛心研究神經(jīng)網(wǎng)絡(luò)50多年;斯坦福的李飛飛教授花費(fèi)6年時(shí)間創(chuàng)建了ImageNet數(shù)據(jù)集;OpenAI最初被定義為非營(yíng)利性人工智能組織,要向全世界公開分享他們的研究成果……

國(guó)內(nèi)盛行的是另一種商業(yè)故事:張小龍?jiān)?010年帶領(lǐng)一個(gè)不到10人的團(tuán)隊(duì),用了不足70天的時(shí)間開發(fā)出了微信的第一個(gè)版本;出行大戰(zhàn)中勝出的滴滴,曾用四個(gè)月的時(shí)間拉來(lái)了一萬(wàn)多名網(wǎng)約車司機(jī);2013年才立項(xiàng)測(cè)試外賣項(xiàng)目的美團(tuán),到了2014年就將外賣送到了全國(guó)200個(gè)城市……

問(wèn)題在于,追逐風(fēng)口、快速創(chuàng)新的打法到了人工智能時(shí)代是否依然奏效?不妨借用英偉達(dá)CEO黃仁勛的一個(gè)比喻:“每家公司都應(yīng)該知道,未來(lái)的軟件開發(fā)有點(diǎn)像煉丹,這是一個(gè)MLOps的過(guò)程。”其中的MLOps可以翻譯為“人工智能研發(fā)運(yùn)營(yíng)體系”,涵蓋開發(fā)、部署、交付驗(yàn)證三個(gè)必不可少的過(guò)程。

在中國(guó)版ChatGPT的研發(fā)中,國(guó)內(nèi)的企業(yè)已然走了“捷徑”:比如ChatGPT最大的特點(diǎn)就是引入了人類反饋的強(qiáng)化學(xué)習(xí)(RLHF),即用人工標(biāo)注的方式,不斷地將結(jié)果去反饋給模型,讓模型不斷自我迭代。百度等企業(yè)后來(lái)也采用了RLHF模式,并輔以“對(duì)話增強(qiáng)、有監(jiān)督精調(diào)”等機(jī)制,底層架構(gòu)和技術(shù)路徑都與OpenAI相似。

最危險(xiǎn)的地方恰恰也在于此。

不少人將ChatGPT比作是移動(dòng)互聯(lián)網(wǎng)時(shí)代的iPhone,意味著ChatGPT只是個(gè)開始,將有更多超出固有認(rèn)知的新事物出現(xiàn),可能是聊天機(jī)器人,可能是“畫圖高手”,也可能是當(dāng)前還想不到的應(yīng)用。同時(shí)也預(yù)示著層出不窮的新風(fēng)口,凡是風(fēng)口,皆有虛實(shí),一味跟著別人走路,總有踏空的時(shí)候。

李彥宏曾在2021年初的內(nèi)部信中寫道:“我們熬得過(guò)萬(wàn)丈孤獨(dú),藏得下星辰大海。”冥冥中成了中國(guó)企業(yè)面對(duì)ChatGPT時(shí)的命運(yùn)寫照:熬不過(guò)萬(wàn)丈孤獨(dú),何談星辰大海?

04 寫在最后

中國(guó)版ChatGPT的故事還在繼續(xù),不排除有越來(lái)越多的相似產(chǎn)品上線,甚至出現(xiàn)“百花齊放”的局面。

需要警惕的是那些自詡為“國(guó)產(chǎn)之光“的追風(fēng)者,聊天機(jī)器人的風(fēng)口來(lái)臨時(shí),迅速整頓人馬開發(fā)類似應(yīng)用;AI生圖的熱度起來(lái)后,快速組建團(tuán)隊(duì)抓住新的契機(jī);而當(dāng)新的風(fēng)向標(biāo)出現(xiàn)時(shí),會(huì)再次調(diào)轉(zhuǎn)方向...... 不愿意在底層技術(shù)上“苦修”,注定要在風(fēng)口里兜兜轉(zhuǎn)轉(zhuǎn)。

因?yàn)椤白汾s者”仍抱有理想、信念和希望,“追風(fēng)者”注定只會(huì)在風(fēng)中盤旋,被風(fēng)勢(shì)裹挾。

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請(qǐng)聯(lián)系原著作權(quán)人。

評(píng)論

暫無(wú)評(píng)論哦,快來(lái)評(píng)價(jià)一下吧!

下載界面新聞

微信公眾號(hào)

微博

ChatGPT的“追風(fēng)者”

到底是“追風(fēng)者”還是“追趕者”,不同的“初心”顯然對(duì)應(yīng)著不同的結(jié)果。

界面新聞|范劍磊

文|Alter

文心一言發(fā)布十余天后,爭(zhēng)論仍未有止歇的跡象。

有人給出了“拉垮”的評(píng)價(jià),相比于多輪迭代的ChatGPT,文心一言在邏輯推理、多輪對(duì)話等方面的表現(xiàn)不盡如人意;也有人認(rèn)為給文心一言值得肯定,原因是填補(bǔ)了中文互聯(lián)網(wǎng)的空白,以及百度直面競(jìng)爭(zhēng)的勇氣。

可能最終會(huì)像李彥宏在發(fā)布會(huì)上所說(shuō)的:當(dāng)前文心一言的內(nèi)測(cè)體驗(yàn)并不能叫作“完美”,發(fā)布是因?yàn)橛惺袌?chǎng)需求,“文心一言將建立起真實(shí)用戶反饋、開發(fā)者調(diào)用和模型迭代之間的飛輪,效果會(huì)迅速提升,給你‘士別三日,當(dāng)刮目相看’的驚喜?!?/p>

這里并非想對(duì)比文心一言與ChatGPT的差距,而是想要討論這樣一個(gè)話題:那些以“中國(guó)版ChatGPT”自居的玩家們,到底是“追風(fēng)者”還是“追趕者”,不同的“初心”顯然對(duì)應(yīng)著不同的結(jié)果。

01 中國(guó)版ChatGPT的虛與實(shí)

國(guó)內(nèi)企業(yè)對(duì)ChatGPT的態(tài)度,大致可以分為三個(gè)階段:

第一個(gè)階段是2023年農(nóng)歷春節(jié)前。

OpenAI在2022年11月30日推出了聊天機(jī)器人ChatGPT,5天時(shí)間注冊(cè)用戶量就超過(guò)了100萬(wàn)。期間不乏國(guó)內(nèi)媒體的報(bào)道,微博等社交網(wǎng)絡(luò)上逐漸流行起各種說(shuō)法:ChatGPT可能將顛覆谷歌,掀起一場(chǎng)搜索引擎的大革命;大學(xué)生開始用ChatGPT寫論文,部分高校宣布將禁用ChatGPT……

彼時(shí)“中國(guó)版ChatGPT”的話題已經(jīng)在技術(shù)論壇里小范圍討論,國(guó)內(nèi)大廠的工程師們大概率有參與其中??捎捎贑hatGPT頻頻被曝出回答錯(cuò)誤、存在假消息,且商業(yè)化落地的前景不明朗,國(guó)內(nèi)大多數(shù)企業(yè)都選擇了緘默。

第二個(gè)階段是ChatGPT爆紅后。

時(shí)間來(lái)到2023年1月末,ChatGPT的注冊(cè)用戶破億,成為史上擴(kuò)散速度最快的應(yīng)用,這場(chǎng)AI風(fēng)暴終于吹到了太平洋對(duì)岸。國(guó)內(nèi)社交媒體上充斥著ChatGPT的對(duì)話截圖,并且出現(xiàn)了“ChatGPT概念股”的說(shuō)法。

中國(guó)的科技大廠們“猛然醒悟”,紛紛開始就中國(guó)版ChatGPT表明態(tài)度:百度在2月7日官宣將在3月上線文心一言;騰訊在2月9日回應(yīng)稱“在相關(guān)方向上已有布局,專項(xiàng)研究也在有序推進(jìn)”;阿里傳出了類ChatGPT應(yīng)用的對(duì)話截圖;京東、網(wǎng)易有道、科大訊飛、小米也先后發(fā)聲將推出相關(guān)產(chǎn)品。

第三個(gè)階段是文心一言上線后。

可能因?yàn)榘l(fā)布會(huì)上的錄屏展示,百度的股價(jià)在文心一言發(fā)布當(dāng)天即下跌10%,一度成為互聯(lián)網(wǎng)上的眾嘲對(duì)象,即使李彥宏和百度CTO王海峰均在發(fā)布會(huì)上提前打了“預(yù)防針”,直言模型目前“訓(xùn)練不夠充分”。

有趣的是其他科技大廠的態(tài)度。目前申請(qǐng)測(cè)試百度文心的用戶已經(jīng)百萬(wàn),超過(guò)10家企業(yè)用戶申請(qǐng)調(diào)用文心一言的企業(yè)版API。如果說(shuō)ChatGPT的走紅只是喚醒了國(guó)內(nèi)網(wǎng)民的好奇心,擺出了一副吃瓜群眾的姿態(tài),現(xiàn)在已然被徹底點(diǎn)燃了熱情。但百度文心上線近10天后,并未有第二家企業(yè)官宣。

個(gè)中原因恐怕離不開“功利”二字。

在ChatGPT的方向被論證前,國(guó)內(nèi)的大部分投資人和技術(shù)領(lǐng)袖并不敢冒險(xiǎn)跟進(jìn),不考慮短期收益的只有少數(shù)派中的少數(shù)派;ChatGPT爆紅后,特別是“ChatGPT概念股”出現(xiàn)后,中國(guó)版ChatGPT已經(jīng)成為一種政治正確,大廠們的表態(tài)也就無(wú)可厚非;文心一言上線后則是另一個(gè)極端,在“肉眼可見(jiàn)”的技術(shù)差距面前,暫時(shí)收斂鋒芒是否也是一種避開被輿論討伐的選項(xiàng)?

“中國(guó)版ChatGPT”或喧囂或冷靜的背后,似乎還有另外一種解釋:在用戶心理閾值最高的時(shí)候,跟風(fēng)放出消息不失為一種聰明的商業(yè)策略,而落實(shí)到產(chǎn)品上,終歸還要結(jié)合現(xiàn)實(shí)需求。就像科大訊飛董事長(zhǎng)劉慶峰的觀點(diǎn):AI要兌現(xiàn)紅利,標(biāo)準(zhǔn)之一就是有看得見(jiàn)摸得著的應(yīng)用場(chǎng)景。

02 空間換時(shí)間的認(rèn)知陷阱

至于ChatGPT類產(chǎn)品的商業(yè)空間,微軟無(wú)疑是最佳的參考對(duì)象。

作為OpenAI的大股東,微軟被中國(guó)網(wǎng)友們戲稱為“坐在副駕駛上狂飆”,尤其是在ChatGPT的商業(yè)應(yīng)用上,微軟可謂動(dòng)作頻頻:1月17日的公開活動(dòng)上,微軟CEO納德拉表示,計(jì)劃將ChatGPT整合進(jìn)其所有產(chǎn)品;半個(gè)多月后,微軟正式推出新版必應(yīng),將ChatGPT與搜索引擎融合;GPT-4發(fā)布兩天后,微軟發(fā)布了新功能Copilot,將用于Word、PowerPoint、Excel、Outlook等產(chǎn)品中,可自動(dòng)生成PPT、自動(dòng)寫文章……

為何國(guó)內(nèi)企業(yè)并沒(méi)有兵臨城下的危機(jī)感?最常見(jiàn)的說(shuō)法是“空間換時(shí)間”,中文互聯(lián)網(wǎng)的特殊性,為國(guó)內(nèi)企業(yè)留下了充足的反應(yīng)時(shí)間。譬如晚于ChatGPT三個(gè)半月誕生的文心一言,照舊抓住了大把的機(jī)會(huì)。諸如此類的說(shuō)辭在某種程度上有其道理,卻也存在一些不可小覷的認(rèn)知陷阱。

比如中文語(yǔ)料庫(kù)的問(wèn)題。

在不少人的理解中,中文語(yǔ)料庫(kù)是ChatGPT難以逾越的壁壘,李彥宏稱“文心一言是更適合中國(guó)市場(chǎng)的人工智能模型”,理由正是中文特殊的分詞和語(yǔ)法結(jié)構(gòu)。中文語(yǔ)料庫(kù)的建設(shè)需要大量的人力、物力和財(cái)力投入,同時(shí)還需要考慮語(yǔ)料的質(zhì)量、版權(quán)等問(wèn)題,幾乎是一個(gè)天然避風(fēng)港。

可國(guó)內(nèi)互聯(lián)網(wǎng)巨頭的“數(shù)據(jù)隔離”也是不爭(zhēng)的事實(shí),盡管在工信部的施壓下,大廠們被迫“拆墻”,但不同平臺(tái)的數(shù)據(jù)仍然很難產(chǎn)生交流和總結(jié),無(wú)形中增加了模型訓(xùn)練的難度。就連文心一言的圖像生成都經(jīng)被傳出先將中文指令翻譯成英文,再根據(jù)英文描述生成圖像,中文語(yǔ)料的現(xiàn)狀可見(jiàn)一斑。

再比如技術(shù)上的硬性門檻。

國(guó)內(nèi)并不缺少媲美GPT-3的大模型,這也是很多企業(yè)自信可以開發(fā)出ChatGPT類應(yīng)用的直接原因,然而算力資源、工程能力、模型迭代策略、調(diào)優(yōu)機(jī)制等能力的缺失也是不爭(zhēng)的事實(shí)。還是文心一言的例子,雖然有ChatGPT這個(gè)參考答案,迭代、調(diào)優(yōu)的路還是要重新走一遍才行。

一個(gè)淺顯的道理,OpenAI在推出ChatGPT前,已經(jīng)在大模型上默默耕耘了4年時(shí)間,期間不知道有多少次的試錯(cuò)。畢竟一個(gè)現(xiàn)象級(jí)產(chǎn)品誕生,往往是資源、基礎(chǔ)技術(shù)、人才、產(chǎn)業(yè)需求等一系列因素的集大成,國(guó)內(nèi)到底有多少家企業(yè)能夠越過(guò)技術(shù)上的硬性門檻,目前還是一個(gè)未知數(shù)。

按照華西證券的測(cè)算,百度的文心一言想要達(dá)到ChatGPT目前的能力,需要補(bǔ)足的訓(xùn)練、推理和數(shù)據(jù)標(biāo)注成本分別為2.29億元、13.62億元、0.05億元,需要保持年均16億元的投入。

倘若再算上維持正常運(yùn)轉(zhuǎn)的人力成本、訓(xùn)練模型的算力成本、存儲(chǔ)數(shù)據(jù)的數(shù)據(jù)中心耗費(fèi),百度想要追平OpenAI需要付出相當(dāng)龐大的投入,遑論其他缺少前期布局的企業(yè)。

就在百度們還在追趕GPT-3.5時(shí),OpneAI已經(jīng)有條不紊的推出了功能更為強(qiáng)大的GPT-4,并在3月24日宣布部分解除了ChatGPT無(wú)法聯(lián)網(wǎng)的限制,正在推出ChatGPT插件,可以訪問(wèn)訓(xùn)練數(shù)據(jù)外的信息,增加一些特定功能,開始了從工具向平臺(tái)的進(jìn)化。

03 “追風(fēng)者”無(wú)緣“星辰大?!?/h4>

最糟糕的并不是做一個(gè)“追趕者”,而是“反應(yīng)遲鈍”的追風(fēng)者。

早在2020年的時(shí)候,OpenAI就借著GPT-3一鳴驚人,隨即在全球范圍內(nèi)拉開了一場(chǎng)大模型軍備競(jìng)賽,國(guó)內(nèi)的華為、智源、浪潮、阿里云、百度、騰訊等企業(yè)先后發(fā)布了自家的預(yù)訓(xùn)練大模型品,并不斷從NLP延伸出了雙語(yǔ)、CV、跨模態(tài)等大模型。

而后的一段日子里,來(lái)自中國(guó)的大模型覇榜各類榜單,學(xué)術(shù)論文如流水線般生產(chǎn)。一些研究人員以發(fā)論文為己任,鮮有人思考學(xué)術(shù)以外的價(jià)值;企業(yè)對(duì)大模型滿懷信心,并試圖推動(dòng)產(chǎn)業(yè)落地中來(lái)變現(xiàn)。最終也僅僅止步于此,沒(méi)有一家企業(yè)能創(chuàng)造性地越過(guò)大模型到ChatGPT的天塹。

有人在知乎上問(wèn)道:阻礙國(guó)內(nèi)團(tuán)隊(duì)研究 ChatGPT 這樣產(chǎn)品的障礙有哪些,技術(shù)、錢還是領(lǐng)導(dǎo)力?OneFlow創(chuàng)始人袁進(jìn)輝的回答道出了問(wèn)題的本質(zhì):“需要有遠(yuǎn)見(jiàn)且為理想而持之以恒的人?!?/p>

不可否認(rèn)的是,“談理想”在國(guó)內(nèi)的商業(yè)環(huán)境中多少有些感性且不切實(shí)際,甚至連相應(yīng)的故事都是“舶來(lái)品”:圖靈獎(jiǎng)得主Hinton潛心研究神經(jīng)網(wǎng)絡(luò)50多年;斯坦福的李飛飛教授花費(fèi)6年時(shí)間創(chuàng)建了ImageNet數(shù)據(jù)集;OpenAI最初被定義為非營(yíng)利性人工智能組織,要向全世界公開分享他們的研究成果……

國(guó)內(nèi)盛行的是另一種商業(yè)故事:張小龍?jiān)?010年帶領(lǐng)一個(gè)不到10人的團(tuán)隊(duì),用了不足70天的時(shí)間開發(fā)出了微信的第一個(gè)版本;出行大戰(zhàn)中勝出的滴滴,曾用四個(gè)月的時(shí)間拉來(lái)了一萬(wàn)多名網(wǎng)約車司機(jī);2013年才立項(xiàng)測(cè)試外賣項(xiàng)目的美團(tuán),到了2014年就將外賣送到了全國(guó)200個(gè)城市……

問(wèn)題在于,追逐風(fēng)口、快速創(chuàng)新的打法到了人工智能時(shí)代是否依然奏效?不妨借用英偉達(dá)CEO黃仁勛的一個(gè)比喻:“每家公司都應(yīng)該知道,未來(lái)的軟件開發(fā)有點(diǎn)像煉丹,這是一個(gè)MLOps的過(guò)程。”其中的MLOps可以翻譯為“人工智能研發(fā)運(yùn)營(yíng)體系”,涵蓋開發(fā)、部署、交付驗(yàn)證三個(gè)必不可少的過(guò)程。

在中國(guó)版ChatGPT的研發(fā)中,國(guó)內(nèi)的企業(yè)已然走了“捷徑”:比如ChatGPT最大的特點(diǎn)就是引入了人類反饋的強(qiáng)化學(xué)習(xí)(RLHF),即用人工標(biāo)注的方式,不斷地將結(jié)果去反饋給模型,讓模型不斷自我迭代。百度等企業(yè)后來(lái)也采用了RLHF模式,并輔以“對(duì)話增強(qiáng)、有監(jiān)督精調(diào)”等機(jī)制,底層架構(gòu)和技術(shù)路徑都與OpenAI相似。

最危險(xiǎn)的地方恰恰也在于此。

不少人將ChatGPT比作是移動(dòng)互聯(lián)網(wǎng)時(shí)代的iPhone,意味著ChatGPT只是個(gè)開始,將有更多超出固有認(rèn)知的新事物出現(xiàn),可能是聊天機(jī)器人,可能是“畫圖高手”,也可能是當(dāng)前還想不到的應(yīng)用。同時(shí)也預(yù)示著層出不窮的新風(fēng)口,凡是風(fēng)口,皆有虛實(shí),一味跟著別人走路,總有踏空的時(shí)候。

李彥宏曾在2021年初的內(nèi)部信中寫道:“我們熬得過(guò)萬(wàn)丈孤獨(dú),藏得下星辰大海?!壁ぺぶ谐闪酥袊?guó)企業(yè)面對(duì)ChatGPT時(shí)的命運(yùn)寫照:熬不過(guò)萬(wàn)丈孤獨(dú),何談星辰大海?

04 寫在最后

中國(guó)版ChatGPT的故事還在繼續(xù),不排除有越來(lái)越多的相似產(chǎn)品上線,甚至出現(xiàn)“百花齊放”的局面。

需要警惕的是那些自詡為“國(guó)產(chǎn)之光“的追風(fēng)者,聊天機(jī)器人的風(fēng)口來(lái)臨時(shí),迅速整頓人馬開發(fā)類似應(yīng)用;AI生圖的熱度起來(lái)后,快速組建團(tuán)隊(duì)抓住新的契機(jī);而當(dāng)新的風(fēng)向標(biāo)出現(xiàn)時(shí),會(huì)再次調(diào)轉(zhuǎn)方向...... 不愿意在底層技術(shù)上“苦修”,注定要在風(fēng)口里兜兜轉(zhuǎn)轉(zhuǎn)。

因?yàn)椤白汾s者”仍抱有理想、信念和希望,“追風(fēng)者”注定只會(huì)在風(fēng)中盤旋,被風(fēng)勢(shì)裹挾。

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請(qǐng)聯(lián)系原著作權(quán)人。