文 | 娛樂資本論 James
今天半夜2點,OpenAI召開了首屆開發(fā)者大會。這條新聞在AIGC圈子里受到了非常重點的關(guān)注,以至于很多人熬夜等完全程的直播,并且迅速總結(jié)出相關(guān)要點。這似乎讓人想到了好多年前的蘋果發(fā)布會,頗有所謂“科技春晚”的架勢。
一上午過去,關(guān)于這次大會發(fā)布新品內(nèi)容的分析也已經(jīng)夠多了,但如你所料,這里面一定充斥著“史詩級更新!”“最強大模型炸場!”“震撼上新!”之類的最高級形容詞,對于普通人了解這些新內(nèi)容真實的意義,以及與自己的關(guān)系,少有幫助。
我們娛樂資本論要做的事情很簡單,就是解答兩個問題:
·本次開發(fā)者大會的更新是否顯著提升了能力,對文娛、媒體從業(yè)者用戶有什么幫助?
·這些更新是否拉大了ChatGPT與國內(nèi)友商之間的差距,“趕上或超越GPT”是不是更困難了?
VOL.1ChatGPT能力顯著增強了嗎?
從今天開始,ChatGPT將使用剛剛發(fā)布的GPT-4 Turbo模型。這個模型支持的上下文token從8k提升到128k,相當(dāng)于一本標(biāo)準(zhǔn)大小的300頁紙質(zhì)書所包含的文本量;奧特曼也表示,新模型在處理長文本情境下的準(zhǔn)確度也有所提高。
我們用一個自己部署的開源客戶端,調(diào)用了GPT-4 Turbo模型,來整理一篇飛書錄音轉(zhuǎn)文字的速記,目標(biāo)是修改錯別字及將口語變得更書面一些。這是娛樂資本論內(nèi)部非常常用的一個prompt,但之前受限于生成效果及token長度,必須將一篇完整的文本對話提前拆分為很多段,每段最開始是1200字,后來可以擴展到2000字(使用Word字?jǐn)?shù)統(tǒng)計)。
用來測試的速記原文有7863字,GPT-4 Turbo能支持完整輸入整篇速記而不報錯。不過,在輸出時它大概停在了5200字左右,后面的沒有繼續(xù)生成。
速記原文
GPT-4 Turbo API調(diào)用的速記整理結(jié)果
換用ChatGPT,我們把速記全文貼進去,7000多字的文本也沒有讓它抱怨“太長”,開始在后臺吭哧吭哧地整理了。
在主prompt之后暫停,并貼入全文
但是,ChatGPT出現(xiàn)了更明顯的“忘詞”情況,僅僅不到500字以后,它就忘記了prompt中“逐字處理速記”的要求,開始概括內(nèi)容并大量丟掉段落。
究其原因,這可能是因為ChatGPT還有不可跳過的預(yù)設(shè)prompt,而且官方一直在更積極地彌補漏洞。而在僅使用API的情況下,它會忠實地執(zhí)行你給它的prompt內(nèi)容,而不是添油加醋。
因此,有條件的用戶還是應(yīng)該自行架設(shè)終端,調(diào)用GPT-4 Turbo的API接口,來確保生成結(jié)果的一致性。
我們的測試表明,在調(diào)用API逐字整理文本時,GPT-4 Turbo可用的文本長度大約是5000漢字;如果只是想要摘要,或就文檔內(nèi)容問答等簡單任務(wù),直接用ChatGPT就可以。
接下來,如果你只愿意用ChatGPT的官方界面,現(xiàn)在也有更好的體驗了。因為這個界面當(dāng)中,瀏覽網(wǎng)絡(luò)、數(shù)據(jù)分析、文生圖等都可以交叉調(diào)用,而不是像以前那樣分開在不同的模式里使用。
理論上,這可以大大增加ChatGPT的可玩性,比如很多人期待的圖生圖功能,有的玩法很成功:
但也不是每次嘗試都讓人滿意。比如,我安排的一個任務(wù)是,看他能不能識別一張新聞?wù)掌?,并更改照片的畫風(fēng)。這個任務(wù)需要同時調(diào)用原本分開的識圖、搜索和生圖能力。
我們發(fā)現(xiàn)ChatGPT經(jīng)過這次更新之后,多模態(tài)或聯(lián)網(wǎng)功能有時會輸出英文結(jié)果,即使用中文提問。好在這不算是什么大問題,瀏覽器自帶翻譯的質(zhì)量也不差。
問題在于,識圖的時候,ChatGPT不能一同聯(lián)網(wǎng),也沒有以圖搜圖去尋找準(zhǔn)確答案。
在聯(lián)網(wǎng)的時候,ChatGPT運用了上一步生成的圖片描述文字,因此只能不結(jié)合圖像來猜測(當(dāng)然他還是猜對了)。
以上的兩個任務(wù)——速記整理和圖生圖——是非常簡單的演示,對于文娛和媒體從業(yè)者的日常使用來說,還是我們老生常談的一句話:你以前就用得上的能力,現(xiàn)在變得更好了;但以前就沒實現(xiàn)的功能,現(xiàn)在也還是沒有實現(xiàn)。
VOL.2“趕上或超越GPT”是不是更難了?
這是過去大半年來我們經(jīng)常能在各處看到的景象。
目前已經(jīng)通過國家備案的近20款大模型都有過類似的表述,說通過C-Eval、mmLU和AGIEval等測試集,它們在性能的某個角度或全局,都超越了GPT-3.5甚至GPT-4。
但是,用戶實際上手使用的體驗卻是另一回事。根據(jù)娛樂資本論·視智未來9月份進行的第二次國產(chǎn)大模型實用場景測評,GPT-4在絕大多數(shù)問題上都會比國產(chǎn)友商們高1-2分(問題滿分5分),假如其聯(lián)網(wǎng)能力正常工作,恐怕分?jǐn)?shù)還會更高。
此后,ChatGPT又推出多模態(tài)能力的重大升級。跟這個版本的ChatGPT相比,國產(chǎn)模型們的差距被拉得更大了。今天開發(fā)者大會后更新的ChatGPT,在性能的多數(shù)方面跟上次升級時一致。但如同上文所說,支持“300頁圖書”的長輸入,將讓它進一步擠占以此為賣點的大模型的生存空間,比如Claude、百川、月之暗面、零一萬物等。
即使是外行人也能根據(jù)其他行業(yè)的經(jīng)驗猜出原因。比如,現(xiàn)在的數(shù)據(jù)集就那幾個,“跑分”后再“優(yōu)化”一下完全在情理之中。
盡管深度學(xué)習(xí)一向被視為“黑盒”乃至“盲盒”,但是在現(xiàn)在的大模型訓(xùn)練中,有針對性地調(diào)整參數(shù),實現(xiàn)開發(fā)過程的可解釋性,已經(jīng)比一年前簡單得多,這一定程度上歸功于算力進步后“大力出奇跡”的貢獻。
本周發(fā)布第一個模型成果的李開復(fù)團隊“零一萬物”,其技術(shù)合伙人黃文灝(履歷有微軟亞研和北京智源)就說道:
“當(dāng)我們建立了自己的評測指標(biāo)后,按照評測指標(biāo)去優(yōu)化模型的訓(xùn)練過程,團隊內(nèi)部就會對模型有很強的自信,知道做的所有工作都是在優(yōu)化模型的能力。最后再去benchmark(測試數(shù)據(jù)集)上評測訓(xùn)練完的模型,會發(fā)現(xiàn)模型指標(biāo)還是很不錯的。這個算是個副產(chǎn)物吧,情理之中也意料之內(nèi)?!?/p>
他認(rèn)為,“大模型是極致的系統(tǒng)科學(xué),基礎(chǔ)做好了之后,模型在scale up(提升參數(shù)量)的過程中會無比‘絲滑’?!?/p>
由此可見,在當(dāng)今“大煉模型”的浪潮中,這件事已經(jīng)一定程度從科學(xué)乃至“玄學(xué)”領(lǐng)域,簡化到了一個工程問題。正如猴子無限的尹伯昊對河豚君說過的:“算法很難有壁壘,但是工程能力是有壁壘的?!碑?dāng)時他形容的是大模型私有化這種中間層的競爭,但現(xiàn)在在基底的模型層,也出現(xiàn)了同樣的傾向。
然而,各大模型的“基礎(chǔ)”部分依然存在參差不齊的差距,這部分也更少有規(guī)律可循。微軟之前一篇論文聲稱,ChatGPT的參數(shù)量僅有區(qū)區(qū)200億(20B),當(dāng)時可是引起了行業(yè)巨震——文心大模型參數(shù)2600億,通義M6宣稱參數(shù)規(guī)模10萬億,什么微軟谷歌統(tǒng)統(tǒng)沒法比。不過,微軟此后又撤回了這部分?jǐn)?shù)據(jù)。
讀者們應(yīng)該還記得ChatGPT突然“涌現(xiàn)”時給人帶來的震撼。我們可以提供一個比較簡單粗暴的判斷方法:
如果某個大模型的升級版本,在實際使用中沒有讓你產(chǎn)生“驚艷”的,跟以前完全不一樣了的感覺,它就還沒有達到自己宣稱的“超越GPT-x”的說法。
在本次開發(fā)者大會上,ChatGPT引入了很多人期待的Agent(代理)功能,被直白地稱為“GPT們”。官方定義是,這是自定義版本的ChatGPT,融合了用戶指定的初始prompt、額外的知識,以及執(zhí)行特殊任務(wù)的能力(應(yīng)該是API)。
此前,ChatGPT允許用戶自定義兩段話來優(yōu)化輸出結(jié)果,即“向GPT介紹你自己”和“你期待GPT怎么回答你”。這與創(chuàng)建“GPT”所需的材料非常相似,但這個設(shè)置會無條件應(yīng)用于每一段對話,且效果也沒有太顯著。
新的“GPT”創(chuàng)建能力沒有馬上推出,而是要等到11月底。OpenAI方面放出了一些官方預(yù)置的“GPT”,我們嘗試了其中一個“GenZ 4 meme”,它的長項是用拽拽的語氣回答你對于歐美年輕人流行文化的疑問。
馬斯克說X(Twitter)的大模型“Grok”默認(rèn)回復(fù)語氣就是有點兒不正經(jīng)的那種,從“GPTs”的演示看,這可能只需要定義一個“GPT”就可以重現(xiàn)。
不過,現(xiàn)在有一個Bug是切換到“GPT”情景模式時,輸入框不起作用,因此無法自己輸入問題,不能上傳圖片,也無法追問。我們只能用它的默認(rèn)問題,然后再點擊“修改提問”來放入自己的prompt來變相使用。
跟國產(chǎn)大模型的“助理”、“分身”、“數(shù)字員工”等比起來,那些都只是一句預(yù)定義的prompt而已,你自己輸入同一句話,效果是一樣的。很顯然“GPT”更為復(fù)雜,它需要增加在每次提問時都生效的用戶prompt,還會加入預(yù)置的知識內(nèi)容(雖然字?jǐn)?shù)很少,但這相當(dāng)于一個小型的私有化訓(xùn)練)。
我們認(rèn)為,如果國產(chǎn)大模型想通過專門的能力定向優(yōu)化,在某些任務(wù)上實現(xiàn)局部“超越GPT”的結(jié)果,這些定向優(yōu)化的步驟,必須比只有一句prompt要更有誠意才行。要不然,以后每個ChatGPT的消費者都可以自己實現(xiàn)“專屬模型”的效果了。
VOL.3如果OpenAI是“蘋果”,國內(nèi)友商會是“安卓”嗎?
“科技春晚”這個稱呼,最早被國內(nèi)媒體用在形容蘋果的發(fā)布會上,因為那時的蘋果總是能給人們各種各樣的驚喜,其它手機、電腦和手表廠商難以望其項背。
在很多次發(fā)布會帶來的驚喜當(dāng)中,蘋果產(chǎn)品不知不覺地從一般人只能仰望,但是買不起的“高嶺之花”,變成了更下沉、更大眾的技術(shù)工具。更多人形成了無腦換新機的習(xí)慣,稱為交“蘋果稅”。
最近這幾年的蘋果發(fā)布會,關(guān)注度遠遠比以前下降了,也和“春晚”本晚一樣逐漸少人關(guān)注。這有多方面的原因:
·首先,蘋果產(chǎn)品的創(chuàng)新雖然還有,但是相比以前,肯定是乏力了很多。
·然后,蘋果現(xiàn)在的產(chǎn)品發(fā)布節(jié)奏也跟以前不同,有一些產(chǎn)品只發(fā)個新聞稿就上架了,沒有擠在一年一兩次集中發(fā)布。
·最后,各種國內(nèi)競品的競爭力逐漸趕上,蘋果的獨特性不再成為一種“剛需”和苦苦追求的夢想。
OpenAI被業(yè)界稱為實現(xiàn)了AIGC的“iPhone時刻”,而這家公司本身,也一直將自己在行業(yè)中的地位與蘋果相提并論,它也希望擁有扭轉(zhuǎn)乾坤的“現(xiàn)實扭曲力場”。
從這一年來ChatGPT給用戶和開發(fā)者的感受來看,它確實保持著跟國內(nèi)外競品的斷層優(yōu)勢,而且尚未被開源陣營趕上。因此,可能也是時候把“科技春晚”的桂冠從蘋果發(fā)布會的頭上摘下來,戴到OpenAI發(fā)布會的頭上了。
如果我們暢想未來,希望今后國產(chǎn)大模型圍獵OpenAI,也像國產(chǎn)手機對陣蘋果一樣,至少在性價比、多樣性、可用性等方面局部地勝出,具備一定的競爭力;如果我們希望未來OpenAI的發(fā)布會,也像現(xiàn)在的蘋果發(fā)布會一樣,不再讓追趕者有那么強烈的無力感,那應(yīng)該怎么做呢?
·首先,OpenAI雖然有強大的創(chuàng)新能力,但從歷史規(guī)律看,它不可能永遠保持領(lǐng)先。它可能會犯錯,或者失去原先一樣的增長速度。
·然后,OpenAI的未來產(chǎn)品發(fā)布也可能沒有規(guī)律,有的計劃中的發(fā)布可能拖延。
·最后,國內(nèi)競品和開源體系有可能在OpenAI發(fā)展放緩的時候,縮小與其之間的差距,甚至通過意外的“涌現(xiàn)”創(chuàng)造驚喜。
只要真正的創(chuàng)新一直在發(fā)生,我們相信大模型產(chǎn)品的成本終究會下降,也和蘋果硬件一樣,變成更下沉、更大眾的技術(shù)工具。而在那樣的未來當(dāng)中,一定少不了中國廠家的身影。
最后,讓我們用ChatGPT自己給本文畫的題圖,來作為這篇文章的結(jié)尾。