正在閱讀:

超越數(shù)理化博士!OpenAI發(fā)布o(jì)1模型,打破AI“黑箱”

掃一掃下載界面新聞APP

超越數(shù)理化博士!OpenAI發(fā)布o(jì)1模型,打破AI“黑箱”

推翻GPT-4,OpenAI如何教會(huì)AI自我思考?

文|硅兔賽跑 Xuushan

編輯|蔓蔓周

今天,OpenAI藏了許久的“Strawberry”模型終于發(fā)布了!

連OpenAI的CEO Sam Altman都在社交平臺(tái)X上提到自己等不及了,并直言:“這是 o1,我們迄今為止最強(qiáng)大的模型系列。”

OpenAI o1是一個(gè)全新的系列模型,和GPT系列模型相比有兩大不同:第一,該系列模型是在思考之后回答用戶問(wèn)題,輸出高質(zhì)量的內(nèi)容,而非迅速回應(yīng)無(wú)效回答。第二,o1系列更擅長(zhǎng)推理,推理能力大幅提升,尤其擅長(zhǎng)準(zhǔn)確生成和調(diào)試復(fù)雜代碼。目前OpenAI并未全面對(duì)用戶開(kāi)放o1系列模型,僅開(kāi)放了o1-preview和o1-mini版本供用戶使用。同時(shí),OpenAI還發(fā)布了o1-mini模型,該模型推理速度更快,且成本更低,o1-mini比o1-preview便宜80%,更擅長(zhǎng)編碼等推理性內(nèi)容,但不擅長(zhǎng)語(yǔ)言、通用知識(shí)類內(nèi)容。OpenAI最后提到發(fā)布o(jì)1系列并不意味放棄GPT系列模型,他們將繼續(xù)開(kāi)發(fā)和發(fā)布GPT系列模型。讓人意外的是,OpenAI此次還披露了o1系列研發(fā)的參與者。該項(xiàng)目由Jakub Pachocki、Jerry Tworek(overall)、Liam Fedus、Lukasz Kaiser、Mark Chen、Szymon Sidor、Wojciech Zaremba領(lǐng)導(dǎo),核心貢獻(xiàn)者有51位。

o1模型發(fā)布后,一些曾參與到o1模型內(nèi)測(cè)的用戶或者剛剛體驗(yàn)了o1模型的用戶給出了更多的看法。以O(shè)penAI的研發(fā)人員為代表的工程師多數(shù)都在夸贊AI思考鏈的強(qiáng)大。但同時(shí),硅谷里也有人發(fā)出了不同的聲音,認(rèn)為o1很多測(cè)試并沒(méi)有得到科學(xué)界認(rèn)證。比如說(shuō),紐約大學(xué)教授、美國(guó)知名AI學(xué)者Gary Marcus認(rèn)為o1法學(xué)考試能力有夸大嫌疑,其真實(shí)能力有待檢驗(yàn)。

讓大模型學(xué)會(huì)思考?o1將思考過(guò)程透明化

我們看到o1系列模型與GPT系列模型明顯不同之處,在于o1有“思考鏈”了。這里面有兩個(gè)值得注意的地方。一是,OpenAI嘗試讓利用大規(guī)模強(qiáng)化學(xué)習(xí)算法“教會(huì)”模型有效思考,像人類一樣。OpenAI主要通過(guò)強(qiáng)化學(xué)習(xí),讓o1學(xué)會(huì)思考其思路鏈并改進(jìn)其思考路線。o1逐漸學(xué)會(huì)識(shí)別不同的思考鏈模式,并且能夠糾正思考路線錯(cuò)誤。同時(shí),它還學(xué)會(huì)將棘手步驟分解為更簡(jiǎn)單步驟。此外,它還能學(xué)會(huì)在一個(gè)思考模式不起作用時(shí),嘗試不同思考鏈解決?!斑@個(gè)過(guò)程極大地提高了模型的推理能力?!監(jiān)penAI說(shuō)道。二是,OpenAI發(fā)現(xiàn)隨著強(qiáng)化學(xué)習(xí)的增加(訓(xùn)練時(shí)間計(jì)算)和思考時(shí)間的增加(測(cè)試時(shí)間計(jì)算),o1的性能會(huì)持續(xù)提高。

這時(shí)候,新的問(wèn)題又?jǐn)[在了OpenAI面前——AI的思考過(guò)程到底要不要顯示出來(lái)?OpenAI認(rèn)為如果展示AI的思考鏈能夠幫助人類讀懂AI的思考,并且避免AI“背叛”人類,更好地監(jiān)視AI的安全性。同時(shí),OpenAI也提到希望模型能夠自由地以未改變的形式表達(dá)其思想,而非受到“政策合規(guī)性以及用戶偏好”的訓(xùn)練。從硅兔君目前測(cè)試的o1-mini模型來(lái)看,OpenAI最終還是為o1模型選擇了透明化其思考過(guò)程。這一下,不少網(wǎng)友都跑去提出許多奇奇怪怪的問(wèn)題,就為了想看看AI在想什么。目前,o1模型還在早期測(cè)試階段,其o1-preview模型也僅支持文字輸入,輸入方式相比GPT-4更單一。不過(guò),OpenAI提到未來(lái)希望添加瀏覽、文件和圖片上傳等功能。現(xiàn)在,ChatGPT Plus和Team用戶將能夠在ChatGPT中的模型選擇器中直接選擇訪問(wèn)o1模型。每周能夠給o1-preview發(fā)生30條消息,給o1-mini發(fā)送50條消息。符合API等級(jí)5的開(kāi)發(fā)人員現(xiàn)在可以開(kāi)始使用API中的兩種模型進(jìn)行產(chǎn)品原型設(shè)計(jì),速率限制為20RPM。但目前o1模型的API不包括函數(shù)調(diào)用、流式傳輸、對(duì)系統(tǒng)消息的支持和其他功能。ChatGPT Enterprise和Edu用戶將從下周開(kāi)始使用這兩種模型。

OpenAI o1模型:數(shù)理化強(qiáng)者,推理能力翻倍提升

o1在幾個(gè)ML基準(zhǔn)測(cè)試中,都表現(xiàn)出當(dāng)下最先進(jìn)的水平。尤其是在啟用視覺(jué)感知功能后,o1在MMMU上的得分為78.2%,成為第一個(gè)與人類專家相媲美的模型。OpenAI測(cè)試結(jié)果顯示,OpenAI o1在競(jìng)爭(zhēng)性編程問(wèn)題(Codeforces)中排名第 89 位,在美國(guó)數(shù)學(xué)奧林匹克 (AIME) 預(yù)選賽中躋身美國(guó)前500名學(xué)生之列,并在物理、生物和化學(xué)問(wèn)題 (GPQA) 基準(zhǔn)測(cè)試中超越人類博士級(jí)水平。在絕大多數(shù)的推理能力較強(qiáng)的任務(wù)中,o1的表現(xiàn)明顯優(yōu)于GPT-4o。

o1在廣泛基準(zhǔn)測(cè)試中都比GPT-4o有所改進(jìn),該項(xiàng)測(cè)試共54至57個(gè)測(cè)試方向,圖中顯示了7個(gè)子類別,可以看到o1全方面強(qiáng)于GPT-4o 。

同時(shí),OpenAI還評(píng)估了AIME的數(shù)學(xué)表現(xiàn),AIME 是一項(xiàng)旨在挑戰(zhàn)美國(guó)最聰明的高中數(shù)學(xué)學(xué)生的考試。在2024年的AIME考試中,GPT-4o平均僅解決了12% (1.8/15) 的問(wèn)題。o1拿下了13.9 的分?jǐn)?shù)使其躋身全國(guó)前500名學(xué)生之列,并超過(guò)了美國(guó)數(shù)學(xué)奧林匹克的分?jǐn)?shù)線。OpenAI還在GPQA測(cè)試上對(duì)o1進(jìn)行了評(píng)估。這是一個(gè)很難的考試,主要測(cè)試化學(xué)、物理和生物學(xué)方面的專業(yè)知識(shí)。為了將模型與人類進(jìn)行比較,OpenAI招募了具有博士學(xué)位的專家來(lái)回答 GPQA測(cè)試的問(wèn)題。OpenAI發(fā)現(xiàn)o1的表現(xiàn)超過(guò)了那些人類專家,成為第一個(gè)在這個(gè)基準(zhǔn)上做到這一點(diǎn)的模型。這些結(jié)果并不意味著o1在各方面都比博士更有能力——只是意味著該模型在解決一些博士需要解決的問(wèn)題方面更熟練。OpenAI還模擬了Codeforces主辦的競(jìng)爭(zhēng)性編程競(jìng)賽,以展示該模型的編碼技能。這個(gè)評(píng)估與競(jìng)賽規(guī)則非常接近,允許提交10份作品。GPT-4o的Elo評(píng)級(jí)為(3 分)(808 分),位于人類競(jìng)爭(zhēng)對(duì)手的第11個(gè)百分位。該模型遠(yuǎn)遠(yuǎn)超過(guò)了 GPT-4o 和 o1——它的 Elo評(píng)級(jí)為1807分,表現(xiàn)優(yōu)于93%的競(jìng)爭(zhēng)對(duì)手。

除了考試和學(xué)術(shù)基準(zhǔn)之外,OpenAI還選擇了一些用戶測(cè)試了對(duì)o1-preview和 GPT-4o的偏好。在這次評(píng)估中,人類訓(xùn)練師看到了對(duì)o1-preview和GPT-4o 提示的匿名回答,并投票選出他們更喜歡的回答。在數(shù)據(jù)分析、編碼和數(shù)學(xué)等推理能力較強(qiáng)的類別中,o1-preview的受歡迎程度遠(yuǎn)遠(yuǎn)高于GPT-4o。然而,o1-preview在某些自然語(yǔ)言任務(wù)上并不受歡迎,這表明它并不適合所有場(chǎng)景。

o1還顯著提升了AI推理的最新水平。OpenAI期望這些新的推理能力將提高模型與人類價(jià)值觀和原則相結(jié)合的能力。OpenAI相信o1及其后續(xù)產(chǎn)品將在科學(xué)、編碼、數(shù)學(xué)和相關(guān)領(lǐng)域解鎖更多的AI新應(yīng)用。

OpenAI o1-mini:小巧、便宜、高效,但不擅長(zhǎng)語(yǔ)言

OpenAI o1-mini是OpenAI推出一款經(jīng)濟(jì)高效的推理模型。該模型主要為一些需要推理而無(wú)需通用世界知識(shí)的應(yīng)用程序服務(wù)。簡(jiǎn)單來(lái)說(shuō),OpenAI o1-mini模型小巧、便宜、高效,但是對(duì)通用知識(shí)了解不多。

o1-mini在預(yù)訓(xùn)練期間針對(duì)STEM推理進(jìn)行了優(yōu)化。在使用與o1相同的高計(jì)算強(qiáng)化學(xué)習(xí) (RL) 管道進(jìn)行訓(xùn)練后,o1-mini在許多有用的推理任務(wù)上實(shí)現(xiàn)了相當(dāng)不錯(cuò)的性能,同時(shí)成本效率顯著提高。

比如說(shuō),在AI和推理基準(zhǔn)測(cè)試中,o1-mini的表現(xiàn)優(yōu)于o1-preview 和o1。

在高中AIME數(shù)學(xué)競(jìng)賽中,o1-mini(70.0%)與o1(74.4%)相當(dāng),同時(shí)價(jià)格便宜得多,且成績(jī)優(yōu)于o1-preview(44.6%)。o1-mini的得分(約 11/15 個(gè)問(wèn)題)大約位列美國(guó)高中生前 500 名。

在Codeforces競(jìng)賽網(wǎng)站上,o1-mini的Elo得分為1650,與o1(1673)不相上下,且高于o1-preview(1258)。該模型的Elo得分處于Codeforces平臺(tái)上競(jìng)爭(zhēng)程序員中第86個(gè)百分位左右。o1-mini在 HumanEval編碼基準(zhǔn)和高中級(jí)網(wǎng)絡(luò)安全奪旗挑戰(zhàn)賽 (CTF) 中也表現(xiàn)出色。

響應(yīng)速度方面,OpenAI比較了GPT-4o、o1-mini和o1-preview對(duì)一個(gè)單詞推理問(wèn)題的回答。雖然GPT-4o回答不正確,但o1-mini和o1-preview都回答正確,而且o1-mini得出答案的速度快了大約3-5倍。

但語(yǔ)言明顯是o1-mini模型的弱項(xiàng)。OpenAI讓人類評(píng)分員用同一開(kāi)放性自然語(yǔ)言提問(wèn)o1-mini和GPT-4o,測(cè)試問(wèn)題以及測(cè)試方法與他們測(cè)試o1-preview與GPT-4o的方法相同。與o1-preview類似,在推理能力較強(qiáng)的領(lǐng)域,o1-mini比GPT-4o更受歡迎,但在以語(yǔ)言為中心的領(lǐng)域,o1-mini 并不比 GPT-4o更受歡迎。

整體看來(lái), o1-mini專注于STEM推理能力,其關(guān)于日期、傳記和生活常識(shí)等非STEM主題的事實(shí)知識(shí)可與GPT-4o mini等小型 LLM 相媲美,但與GPT-4o仍有一定差距。

OpenAI介紹道:“我們將在未來(lái)版本中改進(jìn)這些限制,并嘗試將模型擴(kuò)展到 STEM之外的其他模態(tài)和專業(yè)。”

 

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請(qǐng)聯(lián)系原著作權(quán)人。

OpenAI

  • 阿里云通義開(kāi)源首個(gè)多模態(tài)推理模型QVQ
  • OpenAI已討論開(kāi)發(fā)一款人形機(jī)器人

評(píng)論

暫無(wú)評(píng)論哦,快來(lái)評(píng)價(jià)一下吧!

下載界面新聞

微信公眾號(hào)

微博

超越數(shù)理化博士!OpenAI發(fā)布o(jì)1模型,打破AI“黑箱”

推翻GPT-4,OpenAI如何教會(huì)AI自我思考?

文|硅兔賽跑 Xuushan

編輯|蔓蔓周

今天,OpenAI藏了許久的“Strawberry”模型終于發(fā)布了!

連OpenAI的CEO Sam Altman都在社交平臺(tái)X上提到自己等不及了,并直言:“這是 o1,我們迄今為止最強(qiáng)大的模型系列?!?/p>

OpenAI o1是一個(gè)全新的系列模型,和GPT系列模型相比有兩大不同:第一,該系列模型是在思考之后回答用戶問(wèn)題,輸出高質(zhì)量的內(nèi)容,而非迅速回應(yīng)無(wú)效回答。第二,o1系列更擅長(zhǎng)推理,推理能力大幅提升,尤其擅長(zhǎng)準(zhǔn)確生成和調(diào)試復(fù)雜代碼。目前OpenAI并未全面對(duì)用戶開(kāi)放o1系列模型,僅開(kāi)放了o1-preview和o1-mini版本供用戶使用。同時(shí),OpenAI還發(fā)布了o1-mini模型,該模型推理速度更快,且成本更低,o1-mini比o1-preview便宜80%,更擅長(zhǎng)編碼等推理性內(nèi)容,但不擅長(zhǎng)語(yǔ)言、通用知識(shí)類內(nèi)容。OpenAI最后提到發(fā)布o(jì)1系列并不意味放棄GPT系列模型,他們將繼續(xù)開(kāi)發(fā)和發(fā)布GPT系列模型。讓人意外的是,OpenAI此次還披露了o1系列研發(fā)的參與者。該項(xiàng)目由Jakub Pachocki、Jerry Tworek(overall)、Liam Fedus、Lukasz Kaiser、Mark Chen、Szymon Sidor、Wojciech Zaremba領(lǐng)導(dǎo),核心貢獻(xiàn)者有51位。

o1模型發(fā)布后,一些曾參與到o1模型內(nèi)測(cè)的用戶或者剛剛體驗(yàn)了o1模型的用戶給出了更多的看法。以O(shè)penAI的研發(fā)人員為代表的工程師多數(shù)都在夸贊AI思考鏈的強(qiáng)大。但同時(shí),硅谷里也有人發(fā)出了不同的聲音,認(rèn)為o1很多測(cè)試并沒(méi)有得到科學(xué)界認(rèn)證。比如說(shuō),紐約大學(xué)教授、美國(guó)知名AI學(xué)者Gary Marcus認(rèn)為o1法學(xué)考試能力有夸大嫌疑,其真實(shí)能力有待檢驗(yàn)。

讓大模型學(xué)會(huì)思考?o1將思考過(guò)程透明化

我們看到o1系列模型與GPT系列模型明顯不同之處,在于o1有“思考鏈”了。這里面有兩個(gè)值得注意的地方。一是,OpenAI嘗試讓利用大規(guī)模強(qiáng)化學(xué)習(xí)算法“教會(huì)”模型有效思考,像人類一樣。OpenAI主要通過(guò)強(qiáng)化學(xué)習(xí),讓o1學(xué)會(huì)思考其思路鏈并改進(jìn)其思考路線。o1逐漸學(xué)會(huì)識(shí)別不同的思考鏈模式,并且能夠糾正思考路線錯(cuò)誤。同時(shí),它還學(xué)會(huì)將棘手步驟分解為更簡(jiǎn)單步驟。此外,它還能學(xué)會(huì)在一個(gè)思考模式不起作用時(shí),嘗試不同思考鏈解決?!斑@個(gè)過(guò)程極大地提高了模型的推理能力?!監(jiān)penAI說(shuō)道。二是,OpenAI發(fā)現(xiàn)隨著強(qiáng)化學(xué)習(xí)的增加(訓(xùn)練時(shí)間計(jì)算)和思考時(shí)間的增加(測(cè)試時(shí)間計(jì)算),o1的性能會(huì)持續(xù)提高。

這時(shí)候,新的問(wèn)題又?jǐn)[在了OpenAI面前——AI的思考過(guò)程到底要不要顯示出來(lái)?OpenAI認(rèn)為如果展示AI的思考鏈能夠幫助人類讀懂AI的思考,并且避免AI“背叛”人類,更好地監(jiān)視AI的安全性。同時(shí),OpenAI也提到希望模型能夠自由地以未改變的形式表達(dá)其思想,而非受到“政策合規(guī)性以及用戶偏好”的訓(xùn)練。從硅兔君目前測(cè)試的o1-mini模型來(lái)看,OpenAI最終還是為o1模型選擇了透明化其思考過(guò)程。這一下,不少網(wǎng)友都跑去提出許多奇奇怪怪的問(wèn)題,就為了想看看AI在想什么。目前,o1模型還在早期測(cè)試階段,其o1-preview模型也僅支持文字輸入,輸入方式相比GPT-4更單一。不過(guò),OpenAI提到未來(lái)希望添加瀏覽、文件和圖片上傳等功能?,F(xiàn)在,ChatGPT Plus和Team用戶將能夠在ChatGPT中的模型選擇器中直接選擇訪問(wèn)o1模型。每周能夠給o1-preview發(fā)生30條消息,給o1-mini發(fā)送50條消息。符合API等級(jí)5的開(kāi)發(fā)人員現(xiàn)在可以開(kāi)始使用API中的兩種模型進(jìn)行產(chǎn)品原型設(shè)計(jì),速率限制為20RPM。但目前o1模型的API不包括函數(shù)調(diào)用、流式傳輸、對(duì)系統(tǒng)消息的支持和其他功能。ChatGPT Enterprise和Edu用戶將從下周開(kāi)始使用這兩種模型。

OpenAI o1模型:數(shù)理化強(qiáng)者,推理能力翻倍提升

o1在幾個(gè)ML基準(zhǔn)測(cè)試中,都表現(xiàn)出當(dāng)下最先進(jìn)的水平。尤其是在啟用視覺(jué)感知功能后,o1在MMMU上的得分為78.2%,成為第一個(gè)與人類專家相媲美的模型。OpenAI測(cè)試結(jié)果顯示,OpenAI o1在競(jìng)爭(zhēng)性編程問(wèn)題(Codeforces)中排名第 89 位,在美國(guó)數(shù)學(xué)奧林匹克 (AIME) 預(yù)選賽中躋身美國(guó)前500名學(xué)生之列,并在物理、生物和化學(xué)問(wèn)題 (GPQA) 基準(zhǔn)測(cè)試中超越人類博士級(jí)水平。在絕大多數(shù)的推理能力較強(qiáng)的任務(wù)中,o1的表現(xiàn)明顯優(yōu)于GPT-4o。

o1在廣泛基準(zhǔn)測(cè)試中都比GPT-4o有所改進(jìn),該項(xiàng)測(cè)試共54至57個(gè)測(cè)試方向,圖中顯示了7個(gè)子類別,可以看到o1全方面強(qiáng)于GPT-4o 。

同時(shí),OpenAI還評(píng)估了AIME的數(shù)學(xué)表現(xiàn),AIME 是一項(xiàng)旨在挑戰(zhàn)美國(guó)最聰明的高中數(shù)學(xué)學(xué)生的考試。在2024年的AIME考試中,GPT-4o平均僅解決了12% (1.8/15) 的問(wèn)題。o1拿下了13.9 的分?jǐn)?shù)使其躋身全國(guó)前500名學(xué)生之列,并超過(guò)了美國(guó)數(shù)學(xué)奧林匹克的分?jǐn)?shù)線。OpenAI還在GPQA測(cè)試上對(duì)o1進(jìn)行了評(píng)估。這是一個(gè)很難的考試,主要測(cè)試化學(xué)、物理和生物學(xué)方面的專業(yè)知識(shí)。為了將模型與人類進(jìn)行比較,OpenAI招募了具有博士學(xué)位的專家來(lái)回答 GPQA測(cè)試的問(wèn)題。OpenAI發(fā)現(xiàn)o1的表現(xiàn)超過(guò)了那些人類專家,成為第一個(gè)在這個(gè)基準(zhǔn)上做到這一點(diǎn)的模型。這些結(jié)果并不意味著o1在各方面都比博士更有能力——只是意味著該模型在解決一些博士需要解決的問(wèn)題方面更熟練。OpenAI還模擬了Codeforces主辦的競(jìng)爭(zhēng)性編程競(jìng)賽,以展示該模型的編碼技能。這個(gè)評(píng)估與競(jìng)賽規(guī)則非常接近,允許提交10份作品。GPT-4o的Elo評(píng)級(jí)為(3 分)(808 分),位于人類競(jìng)爭(zhēng)對(duì)手的第11個(gè)百分位。該模型遠(yuǎn)遠(yuǎn)超過(guò)了 GPT-4o 和 o1——它的 Elo評(píng)級(jí)為1807分,表現(xiàn)優(yōu)于93%的競(jìng)爭(zhēng)對(duì)手。

除了考試和學(xué)術(shù)基準(zhǔn)之外,OpenAI還選擇了一些用戶測(cè)試了對(duì)o1-preview和 GPT-4o的偏好。在這次評(píng)估中,人類訓(xùn)練師看到了對(duì)o1-preview和GPT-4o 提示的匿名回答,并投票選出他們更喜歡的回答。在數(shù)據(jù)分析、編碼和數(shù)學(xué)等推理能力較強(qiáng)的類別中,o1-preview的受歡迎程度遠(yuǎn)遠(yuǎn)高于GPT-4o。然而,o1-preview在某些自然語(yǔ)言任務(wù)上并不受歡迎,這表明它并不適合所有場(chǎng)景。

o1還顯著提升了AI推理的最新水平。OpenAI期望這些新的推理能力將提高模型與人類價(jià)值觀和原則相結(jié)合的能力。OpenAI相信o1及其后續(xù)產(chǎn)品將在科學(xué)、編碼、數(shù)學(xué)和相關(guān)領(lǐng)域解鎖更多的AI新應(yīng)用。

OpenAI o1-mini:小巧、便宜、高效,但不擅長(zhǎng)語(yǔ)言

OpenAI o1-mini是OpenAI推出一款經(jīng)濟(jì)高效的推理模型。該模型主要為一些需要推理而無(wú)需通用世界知識(shí)的應(yīng)用程序服務(wù)。簡(jiǎn)單來(lái)說(shuō),OpenAI o1-mini模型小巧、便宜、高效,但是對(duì)通用知識(shí)了解不多。

o1-mini在預(yù)訓(xùn)練期間針對(duì)STEM推理進(jìn)行了優(yōu)化。在使用與o1相同的高計(jì)算強(qiáng)化學(xué)習(xí) (RL) 管道進(jìn)行訓(xùn)練后,o1-mini在許多有用的推理任務(wù)上實(shí)現(xiàn)了相當(dāng)不錯(cuò)的性能,同時(shí)成本效率顯著提高。

比如說(shuō),在AI和推理基準(zhǔn)測(cè)試中,o1-mini的表現(xiàn)優(yōu)于o1-preview 和o1。

在高中AIME數(shù)學(xué)競(jìng)賽中,o1-mini(70.0%)與o1(74.4%)相當(dāng),同時(shí)價(jià)格便宜得多,且成績(jī)優(yōu)于o1-preview(44.6%)。o1-mini的得分(約 11/15 個(gè)問(wèn)題)大約位列美國(guó)高中生前 500 名。

在Codeforces競(jìng)賽網(wǎng)站上,o1-mini的Elo得分為1650,與o1(1673)不相上下,且高于o1-preview(1258)。該模型的Elo得分處于Codeforces平臺(tái)上競(jìng)爭(zhēng)程序員中第86個(gè)百分位左右。o1-mini在 HumanEval編碼基準(zhǔn)和高中級(jí)網(wǎng)絡(luò)安全奪旗挑戰(zhàn)賽 (CTF) 中也表現(xiàn)出色。

響應(yīng)速度方面,OpenAI比較了GPT-4o、o1-mini和o1-preview對(duì)一個(gè)單詞推理問(wèn)題的回答。雖然GPT-4o回答不正確,但o1-mini和o1-preview都回答正確,而且o1-mini得出答案的速度快了大約3-5倍。

但語(yǔ)言明顯是o1-mini模型的弱項(xiàng)。OpenAI讓人類評(píng)分員用同一開(kāi)放性自然語(yǔ)言提問(wèn)o1-mini和GPT-4o,測(cè)試問(wèn)題以及測(cè)試方法與他們測(cè)試o1-preview與GPT-4o的方法相同。與o1-preview類似,在推理能力較強(qiáng)的領(lǐng)域,o1-mini比GPT-4o更受歡迎,但在以語(yǔ)言為中心的領(lǐng)域,o1-mini 并不比 GPT-4o更受歡迎。

整體看來(lái), o1-mini專注于STEM推理能力,其關(guān)于日期、傳記和生活常識(shí)等非STEM主題的事實(shí)知識(shí)可與GPT-4o mini等小型 LLM 相媲美,但與GPT-4o仍有一定差距。

OpenAI介紹道:“我們將在未來(lái)版本中改進(jìn)這些限制,并嘗試將模型擴(kuò)展到 STEM之外的其他模態(tài)和專業(yè)?!?/p>

 

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請(qǐng)聯(lián)系原著作權(quán)人。