正在閱讀:

GPT-4來(lái)了,支持多模態(tài),全面吊打ChatGPT,“完虐”標(biāo)準(zhǔn)化考試

掃一掃下載界面新聞APP

GPT-4來(lái)了,支持多模態(tài),全面吊打ChatGPT,“完虐”標(biāo)準(zhǔn)化考試

未來(lái)已至,開(kāi)發(fā)者快沖。

編譯|智東西 ZeR0

編輯|漠影

智東西3月15日消息,今日凌晨,萬(wàn)眾矚目的大型多模態(tài)模型GPT-4正式發(fā)布!

OpenAI發(fā)文稱,GPT-4能接受圖像和文本輸入,輸出文本內(nèi)容,雖然在許多現(xiàn)實(shí)場(chǎng)景中的能力不如人類,但在各種專業(yè)和學(xué)術(shù)基準(zhǔn)測(cè)試中已做到人類水平的表現(xiàn)。

它強(qiáng)大到什么程度呢?輸入一張手繪草圖,GPT-4能直接生成最終設(shè)計(jì)的網(wǎng)頁(yè)代碼。

它以高分通過(guò)各種標(biāo)準(zhǔn)化考試:SAT拿下700分,GRE幾乎滿分,邏輯能力吊打GPT-3.5。

GPT-4在高級(jí)推理能力上超越ChatGPT。在律師模擬考試中,ChatGPT背后的GPT-3.5排名在倒數(shù)10%左右,而GPT-4考到了前10%左右。

GPT-4的長(zhǎng)度限制提升到32K tokens,即能處理超過(guò)25000個(gè)單詞的文本,并且可以使用長(zhǎng)格式內(nèi)容創(chuàng)建、擴(kuò)展對(duì)話、文檔搜索和分析等。

OpenAI還貼心地發(fā)布了GPT-4開(kāi)發(fā)者視頻,手把手教你生成代碼、檢查錯(cuò)誤信息、報(bào)稅等。在視頻中,OpenAI聯(lián)合創(chuàng)始人兼總裁Greg Brockman說(shuō)了句有點(diǎn)扎心的話:“它并不完美,但你也一樣?!?/p>

OpenAI正通過(guò)ChatGPT和API發(fā)布GPT-4的文本輸入功能,圖像輸入功能暫未開(kāi)放。ChatGPT plus訂閱者可直接獲得有使用上限的GPT-4的試用權(quán),4小時(shí)內(nèi)最多只能發(fā)布100條信息。開(kāi)發(fā)者也可以申請(qǐng)GPT-4 API,進(jìn)入候補(bǔ)名單等待通過(guò)。

隨著時(shí)間的推移,OpenAI會(huì)將其自動(dòng)更新為推薦的穩(wěn)定模型(你可以通過(guò)調(diào)用gpt-4-0314來(lái)鎖定當(dāng)前版本,OpenAI將支持到6月14日)。定價(jià)是每1k prompt tokens 0.03美元,每1k completion tokens 0.06美元。默認(rèn)速率限制是每分鐘40k tokens和每分鐘200個(gè)請(qǐng)求。

gpt-4的上下文長(zhǎng)度為8192個(gè)tokens。還提供對(duì)32768個(gè)上下文(約50頁(yè)文本)版本gpt-4-32k的有限訪問(wèn),該版本也將隨著時(shí)間的推移自動(dòng)更新(當(dāng)前版本gpt-4-32k-0314,也將支持到6月14日)。價(jià)格是每1k prompt tokens 0.06美元,每1K completion tokens 0.12美元。

此外,OpenAI還開(kāi)源了用于自動(dòng)評(píng)估AI模型性能的框架OpenAI Evals,以便開(kāi)發(fā)者更好的評(píng)測(cè)模型的優(yōu)缺點(diǎn),從而指導(dǎo)團(tuán)隊(duì)進(jìn)一步改進(jìn)模型。

01 GPT-4升級(jí)成“考霸”,基準(zhǔn)測(cè)試表現(xiàn)大大優(yōu)于現(xiàn)有大模型

如果是隨意聊天,你可能不太能感受出GPT-3.5與GPT-4之間的區(qū)別。但當(dāng)任務(wù)的復(fù)雜性達(dá)到足夠的閾值時(shí),GPT-4將明顯比GPT-3.5更可靠、更有創(chuàng)意,并且能夠處理更細(xì)微的指令。

為了了解這兩種模型之間的區(qū)別,OpenAI在各種基準(zhǔn)測(cè)試中進(jìn)行了測(cè)試,包括最初為人類設(shè)計(jì)的模擬考試。他們使用了最新的公開(kāi)試題(在奧林匹克競(jìng)賽和AP自由答題的情況下)或購(gòu)買 2022-2023年版的模擬考試題。

OpenAI沒(méi)有針對(duì)這些考試進(jìn)行專門訓(xùn)練。在模型訓(xùn)練期間,考試中的少數(shù)問(wèn)題被發(fā)現(xiàn)。但OpenAI認(rèn)為結(jié)果具有代表性。詳情可參見(jiàn)GPT-4論文(https://cdn.openai.com/papers/gpt-4.pdf)。

OpenAI還在為機(jī)器學(xué)習(xí)模型設(shè)計(jì)的傳統(tǒng)基準(zhǔn)測(cè)試中評(píng)估了GPT-4。GPT-4大大優(yōu)于現(xiàn)有的大型語(yǔ)言模型以及大多數(shù)最先進(jìn)的(SOTA)模型,其中可能包括基準(zhǔn)特定的制作或額外的訓(xùn)練協(xié)議:

許多現(xiàn)有的機(jī)器學(xué)習(xí)(ML)基準(zhǔn)測(cè)試都是用英語(yǔ)編寫的。為了初步了解它在其他語(yǔ)言中的性能,OpenAI使用Azure Translate將MMLU基準(zhǔn)測(cè)試(一套涵蓋57個(gè)主題的14000個(gè)多項(xiàng)選擇題)翻譯成各種語(yǔ)言。

在測(cè)試的26種語(yǔ)言中的24種中,GPT-4優(yōu)于GPT-3.5和其他大型語(yǔ)言模型(Chinchilla,PaLM)的英語(yǔ)表現(xiàn),包括拉脫維亞語(yǔ)、威爾士語(yǔ)、斯瓦希里語(yǔ)等資源匱乏的語(yǔ)言。

OpenAI也在內(nèi)部使用GPT-4,這對(duì)支持、銷售、內(nèi)容審核和編程等功能有很大影響。OpenAI還使用它來(lái)協(xié)助人類評(píng)估AI輸出,開(kāi)始了其對(duì)齊策略的第二階段。

02 描述照片、看懂圖表、解答論文

GPT-4可以接受文本和圖像提示,這與純文本設(shè)置并行,允許用戶指定任何視覺(jué)或語(yǔ)言任務(wù)。

具體來(lái)說(shuō),給定由穿插的文本和圖像組成的輸入,它能夠生成自然語(yǔ)言、代碼等文本輸出。在生成帶有文本和照片的文檔、圖表或屏幕截圖等方面,GPT-4展示了與純文本輸入類似的功能。

此外,GPT-4還可以使用為純文本語(yǔ)言模型開(kāi)發(fā)的測(cè)試時(shí)(test-time)技術(shù)進(jìn)行增強(qiáng),包括少量標(biāo)注數(shù)據(jù)(few-shot)和思維鏈(CoF,chain-of-thought)提示。圖像輸入仍處于研究預(yù)覽階段,尚未公開(kāi)。

OpenAI在官網(wǎng)展示了7個(gè)視覺(jué)輸入的例子。

1、描述多張圖片內(nèi)容,發(fā)現(xiàn)不合常理之處

輸入一張由三張圖片拼成的圖,用戶輸入“這張圖有什么奇怪的地方?一張圖一張圖地描述”,GPT-4會(huì)分別對(duì)每張圖中的內(nèi)容進(jìn)行描述,并指出這幅圖把一個(gè)大而過(guò)時(shí)的VGA接口插入一個(gè)小而現(xiàn)代的智能手機(jī)充電端口是荒謬的。

2、根據(jù)圖表,推理作答

用戶問(wèn)格魯吉亞和西亞的平均每日肉類消費(fèi)量總和是多少,讓GPT-4在給答案前提供一個(gè)循序漸進(jìn)的推理,GPT-4也能按需作答。

3、看圖考試

用戶也可以直接給一張考試題的照片,讓GPT-4一步步思考作答。

4、簡(jiǎn)練指出圖片的違和之處

用戶問(wèn)“這張圖片有什么不尋常之處”時(shí),GPT-4簡(jiǎn)練地回答出“一名男子正在行駛中的出租車車頂上在熨衣板上熨燙衣服”。

5、閱讀論文,總結(jié)摘要與解釋圖表

給幾張論文的照片,GPT-4可以做總結(jié),也可以對(duì)用戶指定的圖片的內(nèi)容進(jìn)行展開(kāi)解釋。

6、解讀“雞塊地圖”

讓GPT-4解釋圖中的模因(meme),GPT-4回答說(shuō)這是個(gè)笑話,結(jié)合了太空中的地球照片和雞塊這兩個(gè)不相關(guān)的東西。

7、理解漫畫含義

最后一個(gè)示例是讓GPT-4解釋這張漫畫,GPT-4認(rèn)為它諷刺了統(tǒng)計(jì)學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)在提高模型性能方面的差異。

OpenAI通過(guò)在一套狹窄的標(biāo)準(zhǔn)學(xué)術(shù)視覺(jué)基準(zhǔn)上評(píng)估GPT-4的性能來(lái)預(yù)覽。但這些數(shù)字并不能完全代表它的能力,因?yàn)镺penAI不斷發(fā)現(xiàn)該模型能夠處理的新的和令人興奮的任務(wù)。

OpenAI計(jì)劃很快發(fā)布進(jìn)一步的分析和評(píng)估數(shù)字,以及對(duì)測(cè)試時(shí)技術(shù)影響的徹底調(diào)查。

此外,OpenAI一直在研究其關(guān)于定義AI行為的文章中概述計(jì)劃的各方面,包括可操縱性。與擁有固定冗長(zhǎng)、語(yǔ)調(diào)、風(fēng)格的ChatGPT不同,開(kāi)發(fā)者(很快還有ChatGPT用戶)現(xiàn)可通過(guò)在“系統(tǒng)”消息中描述這些方向來(lái)規(guī)定他們的AI的風(fēng)格和任務(wù)。

系統(tǒng)消息(system messages)允許API用戶在一定范圍內(nèi)自定義用戶體驗(yàn)。OpenAI將在這方面繼續(xù)做改進(jìn)(特別是知道系統(tǒng)消息是“越獄”當(dāng)前模型的最簡(jiǎn)單方法,即對(duì)邊界的遵守并不完美),但OpenAI鼓勵(lì)用戶嘗試一下,并將想法告知他們。

關(guān)于可操縱性,OpenAI展示了3個(gè)示例。

第一個(gè)示例是讓GPT-4作為一位總是以蘇格拉底風(fēng)格回應(yīng)的導(dǎo)師,不直接給學(xué)生求解某個(gè)線性方程組的答案,而是通過(guò)將那個(gè)問(wèn)題拆分成更簡(jiǎn)單的部分,引導(dǎo)學(xué)生學(xué)會(huì)獨(dú)立思考。

第二個(gè)示例是讓GPT-4變成“莎士比亞的海盜”,忠于自己的個(gè)性,可以看到它在多輪對(duì)話過(guò)程中時(shí)刻保持著自己的“人設(shè)”。

第三個(gè)示例是讓GPT-4成為一名AI助手,總是用json編寫響應(yīng)輸出,然后GPT-4的回答畫風(fēng)就變成了這樣:

03 迄今最好的真實(shí)性、穩(wěn)定性、可控性

OpenAI稱其團(tuán)隊(duì)花了6個(gè)月的時(shí)間,使用對(duì)抗性測(cè)試程序和從ChatGPT得到的經(jīng)驗(yàn)教訓(xùn),對(duì)GPT-4進(jìn)行迭代調(diào)整,在真實(shí)性、可控制性等方面取得了有史以來(lái)最好的結(jié)果(仍遠(yuǎn)非完美)。

過(guò)去兩年里,OpenAI重建了整個(gè)深度學(xué)習(xí)堆棧,并與微軟Azure云平臺(tái)一起為其工作負(fù)載從頭開(kāi)始共同設(shè)計(jì)了一臺(tái)超級(jí)計(jì)算機(jī)。

一年前,OpenAI訓(xùn)練GPT-3.5作為系統(tǒng)的第一次“試運(yùn)行”,發(fā)現(xiàn)并修復(fù)了一些錯(cuò)誤并改進(jìn)了其理論基礎(chǔ)。結(jié)果,GPT-4訓(xùn)練運(yùn)行(至少對(duì)OpenAI而言)前所未有地穩(wěn)定,成為OpenAI能夠提前準(zhǔn)確預(yù)測(cè)其訓(xùn)練性能的第一個(gè)大型模型。

隨著繼續(xù)專注于可靠的擴(kuò)展,OpenAI的目標(biāo)是完善其方法,以幫助自身越來(lái)越多地提前預(yù)測(cè)和準(zhǔn)備未來(lái)的能力。OpenAI認(rèn)為這對(duì)安全至關(guān)重要。

與以前的GPT模型一樣,GPT-4基礎(chǔ)模型經(jīng)過(guò)訓(xùn)練可以預(yù)測(cè)文檔中的下一個(gè)單詞,并且使用公開(kāi)可用的數(shù)據(jù)(例如互聯(lián)網(wǎng)數(shù)據(jù))以及OpenAI已獲得許可的數(shù)據(jù)進(jìn)行訓(xùn)練。這些數(shù)據(jù)是網(wǎng)絡(luò)規(guī)模的數(shù)據(jù)語(yǔ)料庫(kù),包括數(shù)學(xué)問(wèn)題的正確和錯(cuò)誤解決方案、弱推理和強(qiáng)推理、自相矛盾和一致的陳述,并代表各種各樣的意識(shí)形態(tài)和想法。

因此,當(dāng)有問(wèn)題提示時(shí),基礎(chǔ)模型能以多種方式進(jìn)行響應(yīng),這些方式可能與用戶意圖相去甚遠(yuǎn)。為了使其與護(hù)欄(guardrails)內(nèi)的用戶意圖保持一致,OpenAI使用人類反饋強(qiáng)化學(xué)習(xí)(RLHF)對(duì)模型行為進(jìn)行微調(diào)。

需注意的是,模型的能力似乎主要來(lái)自預(yù)訓(xùn)練過(guò)程——RLHF并不會(huì)提高考試成績(jī)(如果不積極努力,它實(shí)際上會(huì)降低考試成績(jī))。但是模型的控制來(lái)自訓(xùn)練后的過(guò)程——基礎(chǔ)模型需要快速的工程設(shè)計(jì)來(lái)知道它應(yīng)該回答問(wèn)題。

04 GPT-4的局限性:不完全可靠

盡管功能更加強(qiáng)大,但GPT-4與早期的GPT模型具有相似的局限性。

最重要的是,它仍然不完全可靠(存在事實(shí)性“幻覺(jué)”并出現(xiàn)推理錯(cuò)誤)。在使用語(yǔ)言模型輸出時(shí)應(yīng)格外小心,特別是在高風(fēng)險(xiǎn)上下文中,使用符合特定用例需求的確切協(xié)議(例如人工審查、附加上下文的基礎(chǔ)或完全避免高風(fēng)險(xiǎn)使用) 。

不過(guò),GPT-4相對(duì)于以前的模型(它們本身在每次迭代中都在改進(jìn))顯著減少了幻覺(jué)。在OpenAI的內(nèi)部對(duì)抗性真實(shí)性評(píng)估中,GPT-4的得分比 GPT-3.5高40%。

OpenAI在TruthfulQA等外部基準(zhǔn)測(cè)試上取得了進(jìn)展,它測(cè)試了模型將事實(shí)與對(duì)抗性選擇的一組錯(cuò)誤陳述分開(kāi)的能力。這些問(wèn)題與事實(shí)不正確的答案相匹配,這些答案在統(tǒng)計(jì)上很有吸引力。

GPT-4基本模型在這項(xiàng)任務(wù)上只比GPT-3.5稍微好一點(diǎn);但在RLHF訓(xùn)練(應(yīng)用與GPT-3.5相同的過(guò)程)后,存在很大的差距。

檢查下面的一些例子,GPT-4拒絕選擇常見(jiàn)的諺語(yǔ)(你教不了老狗新技能,即“年老難學(xué)藝”),但它仍然會(huì)遺漏一些微妙的細(xì)節(jié)(埃爾維斯·普雷斯利不是演員之子)。

GPT-4的輸出可能存在各種偏差,OpenAI還有更多工作要做。

GPT-4普遍缺乏對(duì)絕大部分?jǐn)?shù)據(jù)中斷后(2021年9月)發(fā)生的事件的了解,也沒(méi)有從經(jīng)驗(yàn)中吸取教訓(xùn)。它有時(shí)會(huì)犯一些簡(jiǎn)單的推理錯(cuò)誤,這些錯(cuò)誤似乎與跨多個(gè)領(lǐng)域的能力不相稱,或者在接受用戶明顯的虛假陳述時(shí)過(guò)于輕信。

有時(shí)它會(huì)像人類一樣在難題上失敗,例如在它生成的代碼中引入安全漏洞。

GPT-4也可能自信地在其預(yù)測(cè)中犯錯(cuò),在可能出錯(cuò)時(shí)沒(méi)有仔細(xì)檢查工作。有趣的是,基礎(chǔ)預(yù)訓(xùn)練模型經(jīng)過(guò)高度校準(zhǔn)(它對(duì)答案的預(yù)測(cè)置信度通常與正確概率相匹配)。然而,通過(guò)OpenAI目前的后訓(xùn)練過(guò)程,校準(zhǔn)減少了。

05 OpenAI如何規(guī)避風(fēng)險(xiǎn)?

OpenAI一直在對(duì)GPT-4進(jìn)行迭代,以使其從訓(xùn)練開(kāi)始就更安全、更一致。其工作包括預(yù)訓(xùn)練數(shù)據(jù)的選擇和過(guò)濾、評(píng)估和專家參與、模型安全改進(jìn)以及監(jiān)控和執(zhí)行。

GPT-4會(huì)帶來(lái)與之前模型類似的風(fēng)險(xiǎn),例如生成有害建議、錯(cuò)誤代碼或不準(zhǔn)確信息。同時(shí)GPT-4的附加功能會(huì)帶來(lái)新的風(fēng)險(xiǎn)面。

為了了解這些風(fēng)險(xiǎn)的程度,OpenAI聘請(qǐng)了50多位來(lái)自AI對(duì)齊風(fēng)險(xiǎn)、網(wǎng)絡(luò)安全、生物風(fēng)險(xiǎn)、信任和安全以及國(guó)際安全等領(lǐng)域的專家來(lái)對(duì)模型進(jìn)行對(duì)抗性測(cè)試。他們的發(fā)現(xiàn)使OpenAI能夠在需要專業(yè)知識(shí)進(jìn)行評(píng)估的高風(fēng)險(xiǎn)領(lǐng)域測(cè)試模型行為。這些專家的反饋和數(shù)據(jù)用于模型改進(jìn)。

GPT-4在RLHF訓(xùn)練期間加入了一個(gè)額外的安全獎(jiǎng)勵(lì)信號(hào),通過(guò)訓(xùn)練模型拒絕對(duì)此類內(nèi)容的請(qǐng)求來(lái)減少有害輸出。獎(jiǎng)勵(lì)由GPT-4零樣本分類器提供,該分類器根據(jù)安全相關(guān)提示判斷安全邊界和完成方式。為了防止模型拒絕有效請(qǐng)求,OpenAI從各種來(lái)源收集了多樣化的數(shù)據(jù)集,并在允許和不允許的類別上應(yīng)用安全獎(jiǎng)勵(lì)信號(hào)(具有正值或負(fù)值)。

與GPT-3.5相比,其緩解措施顯著改善了GPT-4的許多安全特性,已將模型響應(yīng)禁止內(nèi)容請(qǐng)求的可能性降低了82%,并且GPT-4根據(jù)OpenAI的政策響應(yīng)敏感請(qǐng)求(如醫(yī)療建議和自我傷害)的頻率提高了29%。

 

總的來(lái)說(shuō),OpenAI的模型級(jí)干預(yù)提高了引發(fā)不良行為的難度,但依然無(wú)法做到完全規(guī)避。OpenAI強(qiáng)調(diào)目前需用部署時(shí)安全技術(shù)(如監(jiān)控濫用)來(lái)補(bǔ)充這些限制。

GPT-4和后續(xù)模型有可能以有益和有害的方式對(duì)社會(huì)產(chǎn)生重大影響。OpenAI正在與外部研究人員合作,以改進(jìn)理解和評(píng)估潛在影響的方式,以及對(duì)未來(lái)系統(tǒng)中可能出現(xiàn)的危險(xiǎn)功能進(jìn)行評(píng)估,并將很快分享更多關(guān)于GPT-4和其他AI系統(tǒng)的潛在社會(huì)和經(jīng)濟(jì)影響的想法。

06.構(gòu)建可預(yù)測(cè)擴(kuò)展的深度學(xué)習(xí)堆棧

GPT-4項(xiàng)目的一大重點(diǎn)是構(gòu)建可預(yù)測(cè)擴(kuò)展的深度學(xué)習(xí)堆棧。主要原因是,對(duì)于像GPT-4這樣的非常大的訓(xùn)練運(yùn)行,進(jìn)行廣泛的特定于模型的調(diào)整是不可行的。OpenAI開(kāi)發(fā)的基礎(chǔ)設(shè)施和優(yōu)化在多個(gè)尺度上具有非??深A(yù)測(cè)的行為。

為了驗(yàn)證這種可擴(kuò)展性,OpenAI通過(guò)從使用相同方法訓(xùn)練但計(jì)算量減少到原來(lái)的1/10000的模型進(jìn)行推斷,準(zhǔn)確預(yù)測(cè)了GPT-4在其內(nèi)部代碼庫(kù)(不屬于訓(xùn)練集)上的最終損失:

現(xiàn)在OpenAI可以準(zhǔn)確地預(yù)測(cè)其在訓(xùn)練期間優(yōu)化的指標(biāo)(損失),開(kāi)始開(kāi)發(fā)方法來(lái)預(yù)測(cè)更多可解釋的指標(biāo),例如成功預(yù)測(cè)了HumanEval數(shù)據(jù)集子集的通過(guò)率,從計(jì)算量減少至原來(lái)的1/1000的模型推斷:

有些能力仍難以預(yù)測(cè)。例如Inverse Scaling Prize是一項(xiàng)競(jìng)賽,目的是尋找隨著模型計(jì)算量的增加而變得更糟的度量指標(biāo),而hindsight neglect是獲勝者之一。就像最近的另一個(gè)結(jié)果一樣,GPT-4 扭轉(zhuǎn)了趨勢(shì):

OpenAI認(rèn)為,準(zhǔn)確預(yù)測(cè)未來(lái)的機(jī)器學(xué)習(xí)能力是安全的重要組成部分,但相對(duì)于其潛在影響而言,它并沒(méi)有得到足夠的重視。OpenAI正在加大力度開(kāi)發(fā)方法,為社會(huì)提供更好的未來(lái)系統(tǒng)預(yù)期指導(dǎo),并希望這成為該領(lǐng)域的共同目標(biāo)。

07 開(kāi)源軟件框架Evals,用于評(píng)估GPT-4

OpenAI正在開(kāi)源其軟件框架OpenAI Evals,用于創(chuàng)建和運(yùn)行基準(zhǔn)測(cè)試以評(píng)估GPT-4等模型,同時(shí)逐個(gè)樣本地檢查它們的性能。

OpenAI使用Evals來(lái)指導(dǎo)其模型的開(kāi)發(fā),其用戶可以應(yīng)用該框架來(lái)跟蹤模型版本(現(xiàn)在將定期發(fā)布)的性能和不斷發(fā)展的產(chǎn)品集成。例如Stripe 使用Evals來(lái)補(bǔ)充他們的人工評(píng)估,以衡量其基于GPT的文檔工具的準(zhǔn)確性。

因?yàn)榇a都是開(kāi)源的,所以Evals支持編寫新的類來(lái)實(shí)現(xiàn)自定義評(píng)估邏輯。但根據(jù)OpenAI的經(jīng)驗(yàn),許多基準(zhǔn)測(cè)試都遵循少數(shù)“模板”之一,所以他們也囊括了內(nèi)部最有用的模板(包括“模型分級(jí)評(píng)估”的模板——OpenAI發(fā)現(xiàn)GPT-4在檢查自己的工作方面驚人地強(qiáng)大)。通常構(gòu)建新eval最有效的方法是實(shí)例化這些模板之一,并提供數(shù)據(jù)。

OpenAI希望Evals成為一種共享和眾包基準(zhǔn)測(cè)試的工具,代表最廣泛的故障模式和困難任務(wù)。作為示例,OpenAI創(chuàng)建了一個(gè)邏輯難題eval,其中包含十個(gè)GPT-4失敗的提示。Evals也兼容現(xiàn)有的基準(zhǔn)測(cè)試;OpenAI已有一些實(shí)現(xiàn)學(xué)術(shù)基準(zhǔn)的筆記本和一些集成CoQA(小子集)的變體作示例。

OpenAI邀請(qǐng)每個(gè)人都使用Evals來(lái)測(cè)試其模型,提交最有趣的示例,給與貢獻(xiàn)、問(wèn)題和反饋。

08 結(jié)語(yǔ):OpenAI擴(kuò)展深度學(xué)習(xí)的最新里程碑

GPT-4是OpenAI在擴(kuò)展深度學(xué)習(xí)道路上的最新里程碑。OpenAI期待GPT-4成為一個(gè)有價(jià)值的工具,通過(guò)為許多應(yīng)用提供動(dòng)力來(lái)改善生活。

正如OpenAI所言,前方還有很多工作要做,這需要通過(guò)社區(qū)在模型之上構(gòu)建、探索和貢獻(xiàn)的集體努力,來(lái)持續(xù)將模型變得越來(lái)越強(qiáng)。

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請(qǐng)聯(lián)系原著作權(quán)人。

OpenAI

  • 科技早報(bào)|OpenAI為ChatGPT增添搜索功能;華為前三季營(yíng)收增長(zhǎng)近30%
  • OpenAI為ChatGPT增添搜索功能

評(píng)論

暫無(wú)評(píng)論哦,快來(lái)評(píng)價(jià)一下吧!

下載界面新聞

微信公眾號(hào)

微博

GPT-4來(lái)了,支持多模態(tài),全面吊打ChatGPT,“完虐”標(biāo)準(zhǔn)化考試

未來(lái)已至,開(kāi)發(fā)者快沖。

編譯|智東西 ZeR0

編輯|漠影

智東西3月15日消息,今日凌晨,萬(wàn)眾矚目的大型多模態(tài)模型GPT-4正式發(fā)布!

OpenAI發(fā)文稱,GPT-4能接受圖像和文本輸入,輸出文本內(nèi)容,雖然在許多現(xiàn)實(shí)場(chǎng)景中的能力不如人類,但在各種專業(yè)和學(xué)術(shù)基準(zhǔn)測(cè)試中已做到人類水平的表現(xiàn)。

它強(qiáng)大到什么程度呢?輸入一張手繪草圖,GPT-4能直接生成最終設(shè)計(jì)的網(wǎng)頁(yè)代碼。

它以高分通過(guò)各種標(biāo)準(zhǔn)化考試:SAT拿下700分,GRE幾乎滿分,邏輯能力吊打GPT-3.5。

GPT-4在高級(jí)推理能力上超越ChatGPT。在律師模擬考試中,ChatGPT背后的GPT-3.5排名在倒數(shù)10%左右,而GPT-4考到了前10%左右。

GPT-4的長(zhǎng)度限制提升到32K tokens,即能處理超過(guò)25000個(gè)單詞的文本,并且可以使用長(zhǎng)格式內(nèi)容創(chuàng)建、擴(kuò)展對(duì)話、文檔搜索和分析等。

OpenAI還貼心地發(fā)布了GPT-4開(kāi)發(fā)者視頻,手把手教你生成代碼、檢查錯(cuò)誤信息、報(bào)稅等。在視頻中,OpenAI聯(lián)合創(chuàng)始人兼總裁Greg Brockman說(shuō)了句有點(diǎn)扎心的話:“它并不完美,但你也一樣?!?/p>

OpenAI正通過(guò)ChatGPT和API發(fā)布GPT-4的文本輸入功能,圖像輸入功能暫未開(kāi)放。ChatGPT plus訂閱者可直接獲得有使用上限的GPT-4的試用權(quán),4小時(shí)內(nèi)最多只能發(fā)布100條信息。開(kāi)發(fā)者也可以申請(qǐng)GPT-4 API,進(jìn)入候補(bǔ)名單等待通過(guò)。

隨著時(shí)間的推移,OpenAI會(huì)將其自動(dòng)更新為推薦的穩(wěn)定模型(你可以通過(guò)調(diào)用gpt-4-0314來(lái)鎖定當(dāng)前版本,OpenAI將支持到6月14日)。定價(jià)是每1k prompt tokens 0.03美元,每1k completion tokens 0.06美元。默認(rèn)速率限制是每分鐘40k tokens和每分鐘200個(gè)請(qǐng)求。

gpt-4的上下文長(zhǎng)度為8192個(gè)tokens。還提供對(duì)32768個(gè)上下文(約50頁(yè)文本)版本gpt-4-32k的有限訪問(wèn),該版本也將隨著時(shí)間的推移自動(dòng)更新(當(dāng)前版本gpt-4-32k-0314,也將支持到6月14日)。價(jià)格是每1k prompt tokens 0.06美元,每1K completion tokens 0.12美元。

此外,OpenAI還開(kāi)源了用于自動(dòng)評(píng)估AI模型性能的框架OpenAI Evals,以便開(kāi)發(fā)者更好的評(píng)測(cè)模型的優(yōu)缺點(diǎn),從而指導(dǎo)團(tuán)隊(duì)進(jìn)一步改進(jìn)模型。

01 GPT-4升級(jí)成“考霸”,基準(zhǔn)測(cè)試表現(xiàn)大大優(yōu)于現(xiàn)有大模型

如果是隨意聊天,你可能不太能感受出GPT-3.5與GPT-4之間的區(qū)別。但當(dāng)任務(wù)的復(fù)雜性達(dá)到足夠的閾值時(shí),GPT-4將明顯比GPT-3.5更可靠、更有創(chuàng)意,并且能夠處理更細(xì)微的指令。

為了了解這兩種模型之間的區(qū)別,OpenAI在各種基準(zhǔn)測(cè)試中進(jìn)行了測(cè)試,包括最初為人類設(shè)計(jì)的模擬考試。他們使用了最新的公開(kāi)試題(在奧林匹克競(jìng)賽和AP自由答題的情況下)或購(gòu)買 2022-2023年版的模擬考試題。

OpenAI沒(méi)有針對(duì)這些考試進(jìn)行專門訓(xùn)練。在模型訓(xùn)練期間,考試中的少數(shù)問(wèn)題被發(fā)現(xiàn)。但OpenAI認(rèn)為結(jié)果具有代表性。詳情可參見(jiàn)GPT-4論文(https://cdn.openai.com/papers/gpt-4.pdf)。

OpenAI還在為機(jī)器學(xué)習(xí)模型設(shè)計(jì)的傳統(tǒng)基準(zhǔn)測(cè)試中評(píng)估了GPT-4。GPT-4大大優(yōu)于現(xiàn)有的大型語(yǔ)言模型以及大多數(shù)最先進(jìn)的(SOTA)模型,其中可能包括基準(zhǔn)特定的制作或額外的訓(xùn)練協(xié)議:

許多現(xiàn)有的機(jī)器學(xué)習(xí)(ML)基準(zhǔn)測(cè)試都是用英語(yǔ)編寫的。為了初步了解它在其他語(yǔ)言中的性能,OpenAI使用Azure Translate將MMLU基準(zhǔn)測(cè)試(一套涵蓋57個(gè)主題的14000個(gè)多項(xiàng)選擇題)翻譯成各種語(yǔ)言。

在測(cè)試的26種語(yǔ)言中的24種中,GPT-4優(yōu)于GPT-3.5和其他大型語(yǔ)言模型(Chinchilla,PaLM)的英語(yǔ)表現(xiàn),包括拉脫維亞語(yǔ)、威爾士語(yǔ)、斯瓦希里語(yǔ)等資源匱乏的語(yǔ)言。

OpenAI也在內(nèi)部使用GPT-4,這對(duì)支持、銷售、內(nèi)容審核和編程等功能有很大影響。OpenAI還使用它來(lái)協(xié)助人類評(píng)估AI輸出,開(kāi)始了其對(duì)齊策略的第二階段。

02 描述照片、看懂圖表、解答論文

GPT-4可以接受文本和圖像提示,這與純文本設(shè)置并行,允許用戶指定任何視覺(jué)或語(yǔ)言任務(wù)。

具體來(lái)說(shuō),給定由穿插的文本和圖像組成的輸入,它能夠生成自然語(yǔ)言、代碼等文本輸出。在生成帶有文本和照片的文檔、圖表或屏幕截圖等方面,GPT-4展示了與純文本輸入類似的功能。

此外,GPT-4還可以使用為純文本語(yǔ)言模型開(kāi)發(fā)的測(cè)試時(shí)(test-time)技術(shù)進(jìn)行增強(qiáng),包括少量標(biāo)注數(shù)據(jù)(few-shot)和思維鏈(CoF,chain-of-thought)提示。圖像輸入仍處于研究預(yù)覽階段,尚未公開(kāi)。

OpenAI在官網(wǎng)展示了7個(gè)視覺(jué)輸入的例子。

1、描述多張圖片內(nèi)容,發(fā)現(xiàn)不合常理之處

輸入一張由三張圖片拼成的圖,用戶輸入“這張圖有什么奇怪的地方?一張圖一張圖地描述”,GPT-4會(huì)分別對(duì)每張圖中的內(nèi)容進(jìn)行描述,并指出這幅圖把一個(gè)大而過(guò)時(shí)的VGA接口插入一個(gè)小而現(xiàn)代的智能手機(jī)充電端口是荒謬的。

2、根據(jù)圖表,推理作答

用戶問(wèn)格魯吉亞和西亞的平均每日肉類消費(fèi)量總和是多少,讓GPT-4在給答案前提供一個(gè)循序漸進(jìn)的推理,GPT-4也能按需作答。

3、看圖考試

用戶也可以直接給一張考試題的照片,讓GPT-4一步步思考作答。

4、簡(jiǎn)練指出圖片的違和之處

用戶問(wèn)“這張圖片有什么不尋常之處”時(shí),GPT-4簡(jiǎn)練地回答出“一名男子正在行駛中的出租車車頂上在熨衣板上熨燙衣服”。

5、閱讀論文,總結(jié)摘要與解釋圖表

給幾張論文的照片,GPT-4可以做總結(jié),也可以對(duì)用戶指定的圖片的內(nèi)容進(jìn)行展開(kāi)解釋。

6、解讀“雞塊地圖”

讓GPT-4解釋圖中的模因(meme),GPT-4回答說(shuō)這是個(gè)笑話,結(jié)合了太空中的地球照片和雞塊這兩個(gè)不相關(guān)的東西。

7、理解漫畫含義

最后一個(gè)示例是讓GPT-4解釋這張漫畫,GPT-4認(rèn)為它諷刺了統(tǒng)計(jì)學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)在提高模型性能方面的差異。

OpenAI通過(guò)在一套狹窄的標(biāo)準(zhǔn)學(xué)術(shù)視覺(jué)基準(zhǔn)上評(píng)估GPT-4的性能來(lái)預(yù)覽。但這些數(shù)字并不能完全代表它的能力,因?yàn)镺penAI不斷發(fā)現(xiàn)該模型能夠處理的新的和令人興奮的任務(wù)。

OpenAI計(jì)劃很快發(fā)布進(jìn)一步的分析和評(píng)估數(shù)字,以及對(duì)測(cè)試時(shí)技術(shù)影響的徹底調(diào)查。

此外,OpenAI一直在研究其關(guān)于定義AI行為的文章中概述計(jì)劃的各方面,包括可操縱性。與擁有固定冗長(zhǎng)、語(yǔ)調(diào)、風(fēng)格的ChatGPT不同,開(kāi)發(fā)者(很快還有ChatGPT用戶)現(xiàn)可通過(guò)在“系統(tǒng)”消息中描述這些方向來(lái)規(guī)定他們的AI的風(fēng)格和任務(wù)。

系統(tǒng)消息(system messages)允許API用戶在一定范圍內(nèi)自定義用戶體驗(yàn)。OpenAI將在這方面繼續(xù)做改進(jìn)(特別是知道系統(tǒng)消息是“越獄”當(dāng)前模型的最簡(jiǎn)單方法,即對(duì)邊界的遵守并不完美),但OpenAI鼓勵(lì)用戶嘗試一下,并將想法告知他們。

關(guān)于可操縱性,OpenAI展示了3個(gè)示例。

第一個(gè)示例是讓GPT-4作為一位總是以蘇格拉底風(fēng)格回應(yīng)的導(dǎo)師,不直接給學(xué)生求解某個(gè)線性方程組的答案,而是通過(guò)將那個(gè)問(wèn)題拆分成更簡(jiǎn)單的部分,引導(dǎo)學(xué)生學(xué)會(huì)獨(dú)立思考。

第二個(gè)示例是讓GPT-4變成“莎士比亞的海盜”,忠于自己的個(gè)性,可以看到它在多輪對(duì)話過(guò)程中時(shí)刻保持著自己的“人設(shè)”。

第三個(gè)示例是讓GPT-4成為一名AI助手,總是用json編寫響應(yīng)輸出,然后GPT-4的回答畫風(fēng)就變成了這樣:

03 迄今最好的真實(shí)性、穩(wěn)定性、可控性

OpenAI稱其團(tuán)隊(duì)花了6個(gè)月的時(shí)間,使用對(duì)抗性測(cè)試程序和從ChatGPT得到的經(jīng)驗(yàn)教訓(xùn),對(duì)GPT-4進(jìn)行迭代調(diào)整,在真實(shí)性、可控制性等方面取得了有史以來(lái)最好的結(jié)果(仍遠(yuǎn)非完美)。

過(guò)去兩年里,OpenAI重建了整個(gè)深度學(xué)習(xí)堆棧,并與微軟Azure云平臺(tái)一起為其工作負(fù)載從頭開(kāi)始共同設(shè)計(jì)了一臺(tái)超級(jí)計(jì)算機(jī)。

一年前,OpenAI訓(xùn)練GPT-3.5作為系統(tǒng)的第一次“試運(yùn)行”,發(fā)現(xiàn)并修復(fù)了一些錯(cuò)誤并改進(jìn)了其理論基礎(chǔ)。結(jié)果,GPT-4訓(xùn)練運(yùn)行(至少對(duì)OpenAI而言)前所未有地穩(wěn)定,成為OpenAI能夠提前準(zhǔn)確預(yù)測(cè)其訓(xùn)練性能的第一個(gè)大型模型。

隨著繼續(xù)專注于可靠的擴(kuò)展,OpenAI的目標(biāo)是完善其方法,以幫助自身越來(lái)越多地提前預(yù)測(cè)和準(zhǔn)備未來(lái)的能力。OpenAI認(rèn)為這對(duì)安全至關(guān)重要。

與以前的GPT模型一樣,GPT-4基礎(chǔ)模型經(jīng)過(guò)訓(xùn)練可以預(yù)測(cè)文檔中的下一個(gè)單詞,并且使用公開(kāi)可用的數(shù)據(jù)(例如互聯(lián)網(wǎng)數(shù)據(jù))以及OpenAI已獲得許可的數(shù)據(jù)進(jìn)行訓(xùn)練。這些數(shù)據(jù)是網(wǎng)絡(luò)規(guī)模的數(shù)據(jù)語(yǔ)料庫(kù),包括數(shù)學(xué)問(wèn)題的正確和錯(cuò)誤解決方案、弱推理和強(qiáng)推理、自相矛盾和一致的陳述,并代表各種各樣的意識(shí)形態(tài)和想法。

因此,當(dāng)有問(wèn)題提示時(shí),基礎(chǔ)模型能以多種方式進(jìn)行響應(yīng),這些方式可能與用戶意圖相去甚遠(yuǎn)。為了使其與護(hù)欄(guardrails)內(nèi)的用戶意圖保持一致,OpenAI使用人類反饋強(qiáng)化學(xué)習(xí)(RLHF)對(duì)模型行為進(jìn)行微調(diào)。

需注意的是,模型的能力似乎主要來(lái)自預(yù)訓(xùn)練過(guò)程——RLHF并不會(huì)提高考試成績(jī)(如果不積極努力,它實(shí)際上會(huì)降低考試成績(jī))。但是模型的控制來(lái)自訓(xùn)練后的過(guò)程——基礎(chǔ)模型需要快速的工程設(shè)計(jì)來(lái)知道它應(yīng)該回答問(wèn)題。

04 GPT-4的局限性:不完全可靠

盡管功能更加強(qiáng)大,但GPT-4與早期的GPT模型具有相似的局限性。

最重要的是,它仍然不完全可靠(存在事實(shí)性“幻覺(jué)”并出現(xiàn)推理錯(cuò)誤)。在使用語(yǔ)言模型輸出時(shí)應(yīng)格外小心,特別是在高風(fēng)險(xiǎn)上下文中,使用符合特定用例需求的確切協(xié)議(例如人工審查、附加上下文的基礎(chǔ)或完全避免高風(fēng)險(xiǎn)使用) 。

不過(guò),GPT-4相對(duì)于以前的模型(它們本身在每次迭代中都在改進(jìn))顯著減少了幻覺(jué)。在OpenAI的內(nèi)部對(duì)抗性真實(shí)性評(píng)估中,GPT-4的得分比 GPT-3.5高40%。

OpenAI在TruthfulQA等外部基準(zhǔn)測(cè)試上取得了進(jìn)展,它測(cè)試了模型將事實(shí)與對(duì)抗性選擇的一組錯(cuò)誤陳述分開(kāi)的能力。這些問(wèn)題與事實(shí)不正確的答案相匹配,這些答案在統(tǒng)計(jì)上很有吸引力。

GPT-4基本模型在這項(xiàng)任務(wù)上只比GPT-3.5稍微好一點(diǎn);但在RLHF訓(xùn)練(應(yīng)用與GPT-3.5相同的過(guò)程)后,存在很大的差距。

檢查下面的一些例子,GPT-4拒絕選擇常見(jiàn)的諺語(yǔ)(你教不了老狗新技能,即“年老難學(xué)藝”),但它仍然會(huì)遺漏一些微妙的細(xì)節(jié)(埃爾維斯·普雷斯利不是演員之子)。

GPT-4的輸出可能存在各種偏差,OpenAI還有更多工作要做。

GPT-4普遍缺乏對(duì)絕大部分?jǐn)?shù)據(jù)中斷后(2021年9月)發(fā)生的事件的了解,也沒(méi)有從經(jīng)驗(yàn)中吸取教訓(xùn)。它有時(shí)會(huì)犯一些簡(jiǎn)單的推理錯(cuò)誤,這些錯(cuò)誤似乎與跨多個(gè)領(lǐng)域的能力不相稱,或者在接受用戶明顯的虛假陳述時(shí)過(guò)于輕信。

有時(shí)它會(huì)像人類一樣在難題上失敗,例如在它生成的代碼中引入安全漏洞。

GPT-4也可能自信地在其預(yù)測(cè)中犯錯(cuò),在可能出錯(cuò)時(shí)沒(méi)有仔細(xì)檢查工作。有趣的是,基礎(chǔ)預(yù)訓(xùn)練模型經(jīng)過(guò)高度校準(zhǔn)(它對(duì)答案的預(yù)測(cè)置信度通常與正確概率相匹配)。然而,通過(guò)OpenAI目前的后訓(xùn)練過(guò)程,校準(zhǔn)減少了。

05 OpenAI如何規(guī)避風(fēng)險(xiǎn)?

OpenAI一直在對(duì)GPT-4進(jìn)行迭代,以使其從訓(xùn)練開(kāi)始就更安全、更一致。其工作包括預(yù)訓(xùn)練數(shù)據(jù)的選擇和過(guò)濾、評(píng)估和專家參與、模型安全改進(jìn)以及監(jiān)控和執(zhí)行。

GPT-4會(huì)帶來(lái)與之前模型類似的風(fēng)險(xiǎn),例如生成有害建議、錯(cuò)誤代碼或不準(zhǔn)確信息。同時(shí)GPT-4的附加功能會(huì)帶來(lái)新的風(fēng)險(xiǎn)面。

為了了解這些風(fēng)險(xiǎn)的程度,OpenAI聘請(qǐng)了50多位來(lái)自AI對(duì)齊風(fēng)險(xiǎn)、網(wǎng)絡(luò)安全、生物風(fēng)險(xiǎn)、信任和安全以及國(guó)際安全等領(lǐng)域的專家來(lái)對(duì)模型進(jìn)行對(duì)抗性測(cè)試。他們的發(fā)現(xiàn)使OpenAI能夠在需要專業(yè)知識(shí)進(jìn)行評(píng)估的高風(fēng)險(xiǎn)領(lǐng)域測(cè)試模型行為。這些專家的反饋和數(shù)據(jù)用于模型改進(jìn)。

GPT-4在RLHF訓(xùn)練期間加入了一個(gè)額外的安全獎(jiǎng)勵(lì)信號(hào),通過(guò)訓(xùn)練模型拒絕對(duì)此類內(nèi)容的請(qǐng)求來(lái)減少有害輸出。獎(jiǎng)勵(lì)由GPT-4零樣本分類器提供,該分類器根據(jù)安全相關(guān)提示判斷安全邊界和完成方式。為了防止模型拒絕有效請(qǐng)求,OpenAI從各種來(lái)源收集了多樣化的數(shù)據(jù)集,并在允許和不允許的類別上應(yīng)用安全獎(jiǎng)勵(lì)信號(hào)(具有正值或負(fù)值)。

與GPT-3.5相比,其緩解措施顯著改善了GPT-4的許多安全特性,已將模型響應(yīng)禁止內(nèi)容請(qǐng)求的可能性降低了82%,并且GPT-4根據(jù)OpenAI的政策響應(yīng)敏感請(qǐng)求(如醫(yī)療建議和自我傷害)的頻率提高了29%。

 

總的來(lái)說(shuō),OpenAI的模型級(jí)干預(yù)提高了引發(fā)不良行為的難度,但依然無(wú)法做到完全規(guī)避。OpenAI強(qiáng)調(diào)目前需用部署時(shí)安全技術(shù)(如監(jiān)控濫用)來(lái)補(bǔ)充這些限制。

GPT-4和后續(xù)模型有可能以有益和有害的方式對(duì)社會(huì)產(chǎn)生重大影響。OpenAI正在與外部研究人員合作,以改進(jìn)理解和評(píng)估潛在影響的方式,以及對(duì)未來(lái)系統(tǒng)中可能出現(xiàn)的危險(xiǎn)功能進(jìn)行評(píng)估,并將很快分享更多關(guān)于GPT-4和其他AI系統(tǒng)的潛在社會(huì)和經(jīng)濟(jì)影響的想法。

06.構(gòu)建可預(yù)測(cè)擴(kuò)展的深度學(xué)習(xí)堆棧

GPT-4項(xiàng)目的一大重點(diǎn)是構(gòu)建可預(yù)測(cè)擴(kuò)展的深度學(xué)習(xí)堆棧。主要原因是,對(duì)于像GPT-4這樣的非常大的訓(xùn)練運(yùn)行,進(jìn)行廣泛的特定于模型的調(diào)整是不可行的。OpenAI開(kāi)發(fā)的基礎(chǔ)設(shè)施和優(yōu)化在多個(gè)尺度上具有非??深A(yù)測(cè)的行為。

為了驗(yàn)證這種可擴(kuò)展性,OpenAI通過(guò)從使用相同方法訓(xùn)練但計(jì)算量減少到原來(lái)的1/10000的模型進(jìn)行推斷,準(zhǔn)確預(yù)測(cè)了GPT-4在其內(nèi)部代碼庫(kù)(不屬于訓(xùn)練集)上的最終損失:

現(xiàn)在OpenAI可以準(zhǔn)確地預(yù)測(cè)其在訓(xùn)練期間優(yōu)化的指標(biāo)(損失),開(kāi)始開(kāi)發(fā)方法來(lái)預(yù)測(cè)更多可解釋的指標(biāo),例如成功預(yù)測(cè)了HumanEval數(shù)據(jù)集子集的通過(guò)率,從計(jì)算量減少至原來(lái)的1/1000的模型推斷:

有些能力仍難以預(yù)測(cè)。例如Inverse Scaling Prize是一項(xiàng)競(jìng)賽,目的是尋找隨著模型計(jì)算量的增加而變得更糟的度量指標(biāo),而hindsight neglect是獲勝者之一。就像最近的另一個(gè)結(jié)果一樣,GPT-4 扭轉(zhuǎn)了趨勢(shì):

OpenAI認(rèn)為,準(zhǔn)確預(yù)測(cè)未來(lái)的機(jī)器學(xué)習(xí)能力是安全的重要組成部分,但相對(duì)于其潛在影響而言,它并沒(méi)有得到足夠的重視。OpenAI正在加大力度開(kāi)發(fā)方法,為社會(huì)提供更好的未來(lái)系統(tǒng)預(yù)期指導(dǎo),并希望這成為該領(lǐng)域的共同目標(biāo)。

07 開(kāi)源軟件框架Evals,用于評(píng)估GPT-4

OpenAI正在開(kāi)源其軟件框架OpenAI Evals,用于創(chuàng)建和運(yùn)行基準(zhǔn)測(cè)試以評(píng)估GPT-4等模型,同時(shí)逐個(gè)樣本地檢查它們的性能。

OpenAI使用Evals來(lái)指導(dǎo)其模型的開(kāi)發(fā),其用戶可以應(yīng)用該框架來(lái)跟蹤模型版本(現(xiàn)在將定期發(fā)布)的性能和不斷發(fā)展的產(chǎn)品集成。例如Stripe 使用Evals來(lái)補(bǔ)充他們的人工評(píng)估,以衡量其基于GPT的文檔工具的準(zhǔn)確性。

因?yàn)榇a都是開(kāi)源的,所以Evals支持編寫新的類來(lái)實(shí)現(xiàn)自定義評(píng)估邏輯。但根據(jù)OpenAI的經(jīng)驗(yàn),許多基準(zhǔn)測(cè)試都遵循少數(shù)“模板”之一,所以他們也囊括了內(nèi)部最有用的模板(包括“模型分級(jí)評(píng)估”的模板——OpenAI發(fā)現(xiàn)GPT-4在檢查自己的工作方面驚人地強(qiáng)大)。通常構(gòu)建新eval最有效的方法是實(shí)例化這些模板之一,并提供數(shù)據(jù)。

OpenAI希望Evals成為一種共享和眾包基準(zhǔn)測(cè)試的工具,代表最廣泛的故障模式和困難任務(wù)。作為示例,OpenAI創(chuàng)建了一個(gè)邏輯難題eval,其中包含十個(gè)GPT-4失敗的提示。Evals也兼容現(xiàn)有的基準(zhǔn)測(cè)試;OpenAI已有一些實(shí)現(xiàn)學(xué)術(shù)基準(zhǔn)的筆記本和一些集成CoQA(小子集)的變體作示例。

OpenAI邀請(qǐng)每個(gè)人都使用Evals來(lái)測(cè)試其模型,提交最有趣的示例,給與貢獻(xiàn)、問(wèn)題和反饋。

08 結(jié)語(yǔ):OpenAI擴(kuò)展深度學(xué)習(xí)的最新里程碑

GPT-4是OpenAI在擴(kuò)展深度學(xué)習(xí)道路上的最新里程碑。OpenAI期待GPT-4成為一個(gè)有價(jià)值的工具,通過(guò)為許多應(yīng)用提供動(dòng)力來(lái)改善生活。

正如OpenAI所言,前方還有很多工作要做,這需要通過(guò)社區(qū)在模型之上構(gòu)建、探索和貢獻(xiàn)的集體努力,來(lái)持續(xù)將模型變得越來(lái)越強(qiáng)。

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請(qǐng)聯(lián)系原著作權(quán)人。