一本一本久久α久久精品,99久久毛片无码一区二区三区

文 | 娛樂資本論 James

今天半夜2點，OpenAI召開了首屆開發(fā)者大會。這條新聞在AIGC圈子里受到了非常重點的關(guān)注，以至于很多人熬夜等完全程的直播，并且迅速總結(jié)出相關(guān)要點。這似乎讓人想到了好多年前的蘋果發(fā)布會，頗有所謂“科技春晚”的架勢。

一上午過去，關(guān)于這次大會發(fā)布新品內(nèi)容的分析也已經(jīng)夠多了，但如你所料，這里面一定充斥著“史詩級更新！”“最強大模型炸場！”“震撼上新！”之類的最高級形容詞，對于普通人了解這些新內(nèi)容真實的意義，以及與自己的關(guān)系，少有幫助。

我們娛樂資本論要做的事情很簡單，就是解答兩個問題：

·本次開發(fā)者大會的更新是否顯著提升了能力，對文娛、媒體從業(yè)者用戶有什么幫助？

·這些更新是否拉大了ChatGPT與國內(nèi)友商之間的差距，“趕上或超越GPT”是不是更困難了？

VOL.1ChatGPT能力顯著增強了嗎？

從今天開始，ChatGPT將使用剛剛發(fā)布的GPT-4 Turbo模型。這個模型支持的上下文token從8k提升到128k，相當(dāng)于一本標(biāo)準(zhǔn)大小的300頁紙質(zhì)書所包含的文本量；奧特曼也表示，新模型在處理長文本情境下的準(zhǔn)確度也有所提高。

我們用一個自己部署的開源客戶端，調(diào)用了GPT-4 Turbo模型，來整理一篇飛書錄音轉(zhuǎn)文字的速記，目標(biāo)是修改錯別字及將口語變得更書面一些。這是娛樂資本論內(nèi)部非常常用的一個prompt，但之前受限于生成效果及token長度，必須將一篇完整的文本對話提前拆分為很多段，每段最開始是1200字，后來可以擴展到2000字（使用Word字數(shù)統(tǒng)計）。

用來測試的速記原文有7863字，GPT-4 Turbo能支持完整輸入整篇速記而不報錯。不過，在輸出時它大概停在了5200字左右，后面的沒有繼續(xù)生成。

速記原文

GPT-4 Turbo API調(diào)用的速記整理結(jié)果

換用ChatGPT，我們把速記全文貼進去，7000多字的文本也沒有讓它抱怨“太長”，開始在后臺吭哧吭哧地整理了。

在主prompt之后暫停，并貼入全文

但是，ChatGPT出現(xiàn)了更明顯的“忘詞”情況，僅僅不到500字以后，它就忘記了prompt中“逐字處理速記”的要求，開始概括內(nèi)容并大量丟掉段落。

究其原因，這可能是因為ChatGPT還有不可跳過的預(yù)設(shè)prompt，而且官方一直在更積極地彌補漏洞。而在僅使用API的情況下，它會忠實地執(zhí)行你給它的prompt內(nèi)容，而不是添油加醋。

因此，有條件的用戶還是應(yīng)該自行架設(shè)終端，調(diào)用GPT-4 Turbo的API接口，來確保生成結(jié)果的一致性。

我們的測試表明，在調(diào)用API逐字整理文本時，GPT-4 Turbo可用的文本長度大約是5000漢字；如果只是想要摘要，或就文檔內(nèi)容問答等簡單任務(wù)，直接用ChatGPT就可以。

接下來，如果你只愿意用ChatGPT的官方界面，現(xiàn)在也有更好的體驗了。因為這個界面當(dāng)中，瀏覽網(wǎng)絡(luò)、數(shù)據(jù)分析、文生圖等都可以交叉調(diào)用，而不是像以前那樣分開在不同的模式里使用。

理論上，這可以大大增加ChatGPT的可玩性，比如很多人期待的圖生圖功能，有的玩法很成功：

但也不是每次嘗試都讓人滿意。比如，我安排的一個任務(wù)是，看他能不能識別一張新聞?wù)掌?，并更改照片的畫風(fēng)。這個任務(wù)需要同時調(diào)用原本分開的識圖、搜索和生圖能力。

我們發(fā)現(xiàn)ChatGPT經(jīng)過這次更新之后，多模態(tài)或聯(lián)網(wǎng)功能有時會輸出英文結(jié)果，即使用中文提問。好在這不算是什么大問題，瀏覽器自帶翻譯的質(zhì)量也不差。

問題在于，識圖的時候，ChatGPT不能一同聯(lián)網(wǎng)，也沒有以圖搜圖去尋找準(zhǔn)確答案。

在聯(lián)網(wǎng)的時候，ChatGPT運用了上一步生成的圖片描述文字，因此只能不結(jié)合圖像來猜測（當(dāng)然他還是猜對了）。

以上的兩個任務(wù)——速記整理和圖生圖——是非常簡單的演示，對于文娛和媒體從業(yè)者的日常使用來說，還是我們老生常談的一句話：你以前就用得上的能力，現(xiàn)在變得更好了；但以前就沒實現(xiàn)的功能，現(xiàn)在也還是沒有實現(xiàn)。

VOL.2“趕上或超越GPT”是不是更難了？

這是過去大半年來我們經(jīng)常能在各處看到的景象。

目前已經(jīng)通過國家備案的近20款大模型都有過類似的表述，說通過C-Eval、mmLU和AGIEval等測試集，它們在性能的某個角度或全局，都超越了GPT-3.5甚至GPT-4。

但是，用戶實際上手使用的體驗卻是另一回事。根據(jù)娛樂資本論·視智未來9月份進行的第二次國產(chǎn)大模型實用場景測評，GPT-4在絕大多數(shù)問題上都會比國產(chǎn)友商們高1-2分（問題滿分5分），假如其聯(lián)網(wǎng)能力正常工作，恐怕分數(shù)還會更高。

此后，ChatGPT又推出多模態(tài)能力的重大升級。跟這個版本的ChatGPT相比，國產(chǎn)模型們的差距被拉得更大了。今天開發(fā)者大會后更新的ChatGPT，在性能的多數(shù)方面跟上次升級時一致。但如同上文所說，支持“300頁圖書”的長輸入，將讓它進一步擠占以此為賣點的大模型的生存空間，比如Claude、百川、月之暗面、零一萬物等。

即使是外行人也能根據(jù)其他行業(yè)的經(jīng)驗猜出原因。比如，現(xiàn)在的數(shù)據(jù)集就那幾個，“跑分”后再“優(yōu)化”一下完全在情理之中。

盡管深度學(xué)習(xí)一向被視為“黑盒”乃至“盲盒”，但是在現(xiàn)在的大模型訓(xùn)練中，有針對性地調(diào)整參數(shù)，實現(xiàn)開發(fā)過程的可解釋性，已經(jīng)比一年前簡單得多，這一定程度上歸功于算力進步后“大力出奇跡”的貢獻。

本周發(fā)布第一個模型成果的李開復(fù)團隊“零一萬物”，其技術(shù)合伙人黃文灝（履歷有微軟亞研和北京智源）就說道：

“當(dāng)我們建立了自己的評測指標(biāo)后，按照評測指標(biāo)去優(yōu)化模型的訓(xùn)練過程，團隊內(nèi)部就會對模型有很強的自信，知道做的所有工作都是在優(yōu)化模型的能力。最后再去benchmark（測試數(shù)據(jù)集）上評測訓(xùn)練完的模型，會發(fā)現(xiàn)模型指標(biāo)還是很不錯的。這個算是個副產(chǎn)物吧，情理之中也意料之內(nèi)?！?/p>

他認為，“大模型是極致的系統(tǒng)科學(xué)，基礎(chǔ)做好了之后，模型在scale up（提升參數(shù)量）的過程中會無比‘絲滑’?！?/p>

由此可見，在當(dāng)今“大煉模型”的浪潮中，這件事已經(jīng)一定程度從科學(xué)乃至“玄學(xué)”領(lǐng)域，簡化到了一個工程問題。正如猴子無限的尹伯昊對河豚君說過的：“算法很難有壁壘，但是工程能力是有壁壘的?！碑?dāng)時他形容的是大模型私有化這種中間層的競爭，但現(xiàn)在在基底的模型層，也出現(xiàn)了同樣的傾向。

然而，各大模型的“基礎(chǔ)”部分依然存在參差不齊的差距，這部分也更少有規(guī)律可循。微軟之前一篇論文聲稱，ChatGPT的參數(shù)量僅有區(qū)區(qū)200億（20B），當(dāng)時可是引起了行業(yè)巨震——文心大模型參數(shù)2600億，通義M6宣稱參數(shù)規(guī)模10萬億，什么微軟谷歌統(tǒng)統(tǒng)沒法比。不過，微軟此后又撤回了這部分數(shù)據(jù)。

讀者們應(yīng)該還記得ChatGPT突然“涌現(xiàn)”時給人帶來的震撼。我們可以提供一個比較簡單粗暴的判斷方法：

如果某個大模型的升級版本，在實際使用中沒有讓你產(chǎn)生“驚艷”的，跟以前完全不一樣了的感覺，它就還沒有達到自己宣稱的“超越GPT-x”的說法。

在本次開發(fā)者大會上，ChatGPT引入了很多人期待的Agent（代理）功能，被直白地稱為“GPT們”。官方定義是，這是自定義版本的ChatGPT，融合了用戶指定的初始prompt、額外的知識，以及執(zhí)行特殊任務(wù)的能力（應(yīng)該是API）。

此前，ChatGPT允許用戶自定義兩段話來優(yōu)化輸出結(jié)果，即“向GPT介紹你自己”和“你期待GPT怎么回答你”。這與創(chuàng)建“GPT”所需的材料非常相似，但這個設(shè)置會無條件應(yīng)用于每一段對話，且效果也沒有太顯著。

新的“GPT”創(chuàng)建能力沒有馬上推出，而是要等到11月底。OpenAI方面放出了一些官方預(yù)置的“GPT”，我們嘗試了其中一個“GenZ 4 meme”，它的長項是用拽拽的語氣回答你對于歐美年輕人流行文化的疑問。

馬斯克說X（Twitter）的大模型“Grok”默認回復(fù)語氣就是有點兒不正經(jīng)的那種，從“GPTs”的演示看，這可能只需要定義一個“GPT”就可以重現(xiàn)。

不過，現(xiàn)在有一個Bug是切換到“GPT”情景模式時，輸入框不起作用，因此無法自己輸入問題，不能上傳圖片，也無法追問。我們只能用它的默認問題，然后再點擊“修改提問”來放入自己的prompt來變相使用。

跟國產(chǎn)大模型的“助理”、“分身”、“數(shù)字員工”等比起來，那些都只是一句預(yù)定義的prompt而已，你自己輸入同一句話，效果是一樣的。很顯然“GPT”更為復(fù)雜，它需要增加在每次提問時都生效的用戶prompt，還會加入預(yù)置的知識內(nèi)容（雖然字數(shù)很少，但這相當(dāng)于一個小型的私有化訓(xùn)練）。

我們認為，如果國產(chǎn)大模型想通過專門的能力定向優(yōu)化，在某些任務(wù)上實現(xiàn)局部“超越GPT”的結(jié)果，這些定向優(yōu)化的步驟，必須比只有一句prompt要更有誠意才行。要不然，以后每個ChatGPT的消費者都可以自己實現(xiàn)“專屬模型”的效果了。

VOL.3如果OpenAI是“蘋果”，國內(nèi)友商會是“安卓”嗎？

“科技春晚”這個稱呼，最早被國內(nèi)媒體用在形容蘋果的發(fā)布會上，因為那時的蘋果總是能給人們各種各樣的驚喜，其它手機、電腦和手表廠商難以望其項背。

在很多次發(fā)布會帶來的驚喜當(dāng)中，蘋果產(chǎn)品不知不覺地從一般人只能仰望，但是買不起的“高嶺之花”，變成了更下沉、更大眾的技術(shù)工具。更多人形成了無腦換新機的習(xí)慣，稱為交“蘋果稅”。

最近這幾年的蘋果發(fā)布會，關(guān)注度遠遠比以前下降了，也和“春晚”本晚一樣逐漸少人關(guān)注。這有多方面的原因：

·首先，蘋果產(chǎn)品的創(chuàng)新雖然還有，但是相比以前，肯定是乏力了很多。

·然后，蘋果現(xiàn)在的產(chǎn)品發(fā)布節(jié)奏也跟以前不同，有一些產(chǎn)品只發(fā)個新聞稿就上架了，沒有擠在一年一兩次集中發(fā)布。

·最后，各種國內(nèi)競品的競爭力逐漸趕上，蘋果的獨特性不再成為一種“剛需”和苦苦追求的夢想。

OpenAI被業(yè)界稱為實現(xiàn)了AIGC的“iPhone時刻”，而這家公司本身，也一直將自己在行業(yè)中的地位與蘋果相提并論，它也希望擁有扭轉(zhuǎn)乾坤的“現(xiàn)實扭曲力場”。

從這一年來ChatGPT給用戶和開發(fā)者的感受來看，它確實保持著跟國內(nèi)外競品的斷層優(yōu)勢，而且尚未被開源陣營趕上。因此，可能也是時候把“科技春晚”的桂冠從蘋果發(fā)布會的頭上摘下來，戴到OpenAI發(fā)布會的頭上了。

如果我們暢想未來，希望今后國產(chǎn)大模型圍獵OpenAI，也像國產(chǎn)手機對陣蘋果一樣，至少在性價比、多樣性、可用性等方面局部地勝出，具備一定的競爭力；如果我們希望未來OpenAI的發(fā)布會，也像現(xiàn)在的蘋果發(fā)布會一樣，不再讓追趕者有那么強烈的無力感，那應(yīng)該怎么做呢？

·首先，OpenAI雖然有強大的創(chuàng)新能力，但從歷史規(guī)律看，它不可能永遠保持領(lǐng)先。它可能會犯錯，或者失去原先一樣的增長速度。

·然后，OpenAI的未來產(chǎn)品發(fā)布也可能沒有規(guī)律，有的計劃中的發(fā)布可能拖延。

·最后，國內(nèi)競品和開源體系有可能在OpenAI發(fā)展放緩的時候，縮小與其之間的差距，甚至通過意外的“涌現(xiàn)”創(chuàng)造驚喜。

只要真正的創(chuàng)新一直在發(fā)生，我們相信大模型產(chǎn)品的成本終究會下降，也和蘋果硬件一樣，變成更下沉、更大眾的技術(shù)工具。而在那樣的未來當(dāng)中，一定少不了中國廠家的身影。

最后，讓我們用ChatGPT自己給本文畫的題圖，來作為這篇文章的結(jié)尾。

文 | 娛樂資本論 James

我們娛樂資本論要做的事情很簡單，就是解答兩個問題：

·本次開發(fā)者大會的更新是否顯著提升了能力，對文娛、媒體從業(yè)者用戶有什么幫助？

·這些更新是否拉大了ChatGPT與國內(nèi)友商之間的差距，“趕上或超越GPT”是不是更困難了？

VOL.1ChatGPT能力顯著增強了嗎？

用來測試的速記原文有7863字，GPT-4 Turbo能支持完整輸入整篇速記而不報錯。不過，在輸出時它大概停在了5200字左右，后面的沒有繼續(xù)生成。

速記原文

GPT-4 Turbo API調(diào)用的速記整理結(jié)果

換用ChatGPT，我們把速記全文貼進去，7000多字的文本也沒有讓它抱怨“太長”，開始在后臺吭哧吭哧地整理了。

在主prompt之后暫停，并貼入全文

但是，ChatGPT出現(xiàn)了更明顯的“忘詞”情況，僅僅不到500字以后，它就忘記了prompt中“逐字處理速記”的要求，開始概括內(nèi)容并大量丟掉段落。

因此，有條件的用戶還是應(yīng)該自行架設(shè)終端，調(diào)用GPT-4 Turbo的API接口，來確保生成結(jié)果的一致性。

理論上，這可以大大增加ChatGPT的可玩性，比如很多人期待的圖生圖功能，有的玩法很成功：

問題在于，識圖的時候，ChatGPT不能一同聯(lián)網(wǎng)，也沒有以圖搜圖去尋找準(zhǔn)確答案。

在聯(lián)網(wǎng)的時候，ChatGPT運用了上一步生成的圖片描述文字，因此只能不結(jié)合圖像來猜測（當(dāng)然他還是猜對了）。

VOL.2“趕上或超越GPT”是不是更難了？

這是過去大半年來我們經(jīng)常能在各處看到的景象。

本周發(fā)布第一個模型成果的李開復(fù)團隊“零一萬物”，其技術(shù)合伙人黃文灝（履歷有微軟亞研和北京智源）就說道：

他認為，“大模型是極致的系統(tǒng)科學(xué)，基礎(chǔ)做好了之后，模型在scale up（提升參數(shù)量）的過程中會無比‘絲滑’?！?/p>

讀者們應(yīng)該還記得ChatGPT突然“涌現(xiàn)”時給人帶來的震撼。我們可以提供一個比較簡單粗暴的判斷方法：

VOL.3如果OpenAI是“蘋果”，國內(nèi)友商會是“安卓”嗎？

最近這幾年的蘋果發(fā)布會，關(guān)注度遠遠比以前下降了，也和“春晚”本晚一樣逐漸少人關(guān)注。這有多方面的原因：

·首先，蘋果產(chǎn)品的創(chuàng)新雖然還有，但是相比以前，肯定是乏力了很多。

·然后，蘋果現(xiàn)在的產(chǎn)品發(fā)布節(jié)奏也跟以前不同，有一些產(chǎn)品只發(fā)個新聞稿就上架了，沒有擠在一年一兩次集中發(fā)布。

·最后，各種國內(nèi)競品的競爭力逐漸趕上，蘋果的獨特性不再成為一種“剛需”和苦苦追求的夢想。

·首先，OpenAI雖然有強大的創(chuàng)新能力，但從歷史規(guī)律看，它不可能永遠保持領(lǐng)先。它可能會犯錯，或者失去原先一樣的增長速度。

·然后，OpenAI的未來產(chǎn)品發(fā)布也可能沒有規(guī)律，有的計劃中的發(fā)布可能拖延。

·最后，國內(nèi)競品和開源體系有可能在OpenAI發(fā)展放緩的時候，縮小與其之間的差距，甚至通過意外的“涌現(xiàn)”創(chuàng)造驚喜。

最后，讓我們用ChatGPT自己給本文畫的題圖，來作為這篇文章的結(jié)尾。

歷史搜索全部刪除

熱門搜索

“新科技春晚”O(jiān)penAI大會后，國產(chǎn)大模型們差距更大了嗎？

VOL.1ChatGPT能力顯著增強了嗎？

VOL.2“趕上或超越GPT”是不是更難了？

VOL.3如果OpenAI是“蘋果”，國內(nèi)友商會是“安卓”嗎？

OpenAI

評論

“新科技春晚”O(jiān)penAI大會后，國產(chǎn)大模型們差距更大了嗎？

VOL.1ChatGPT能力顯著增強了嗎？

VOL.2“趕上或超越GPT”是不是更難了？

VOL.3如果OpenAI是“蘋果”，國內(nèi)友商會是“安卓”嗎？

“新科技春晚”O(jiān)penAI大會后，國產(chǎn)大模型們差距更大了嗎？

VOL.1ChatGPT能力顯著增強了嗎？

VOL.2“趕上或超越GPT”是不是更難了？

VOL.3如果OpenAI是“蘋果”，國內(nèi)友商會是“安卓”嗎？

OpenAI

評論

“新科技春晚”O(jiān)penAI大會后，國產(chǎn)大模型們差距更大了嗎？

VOL.1ChatGPT能力顯著增強了嗎？

VOL.2“趕上或超越GPT”是不是更難了？

VOL.3如果OpenAI是“蘋果”，國內(nèi)友商會是“安卓”嗎？

“新科技春晚”O(jiān)penAI大會后，國產(chǎn)大模型們差距更大了嗎？

VOL.1ChatGPT能力顯著增強了嗎？

VOL.2“趕上或超越GPT”是不是更難了？

VOL.3如果OpenAI是“蘋果”，國內(nèi)友商會是“安卓”嗎？

“新科技春晚”O(jiān)penAI大會后，國產(chǎn)大模型們差距更大了嗎？

VOL.1ChatGPT能力顯著增強了嗎？

VOL.2“趕上或超越GPT”是不是更難了？

VOL.3如果OpenAI是“蘋果”，國內(nèi)友商會是“安卓”嗎？