文|IT時(shí)報(bào) 賈天榮
編輯|孫妍
過(guò)去一周,小模型戰(zhàn)場(chǎng)悄然開(kāi)“卷”。大模型訓(xùn)練成本如滾雪球般越滾越大,曾經(jīng)堅(jiān)信“大力出奇跡”的科技巨頭們,如今紛紛轉(zhuǎn)向小模型賽道,試圖在這場(chǎng)技術(shù)與商業(yè)的角逐中尋找新的突破口。
OpenAI、谷歌、微軟乃至蘋(píng)果,各自帶著小模型利器紛紛亮相,誰(shuí)能在這場(chǎng)成本與性能較量中找到黃金分割點(diǎn)?
小模型 更小、更好、更便宜
7月18日,Open AI推出了號(hào)稱(chēng)迄今為止最具成本效益的小模型GPT-4o mini。
據(jù)Open AI介紹,小模型產(chǎn)品是想通過(guò)顯著降低AI使用成本,擴(kuò)大AI使用范圍。GPT-4o mini在MMLU上的得分為82%,并在LMSYS排行榜的聊天偏好測(cè)試中表現(xiàn)優(yōu)于GPT-4。
GPT-4o mini適用于一系列任務(wù),第一類(lèi)是需要多次調(diào)用模型的應(yīng)用,例如調(diào)用多個(gè)API;第二類(lèi)是需要向模型傳遞大量上下文信息的應(yīng)用,例如完整的代碼庫(kù)或?qū)υ挌v史;第三類(lèi)是通過(guò)快速的實(shí)時(shí)文本響應(yīng)與客戶(hù)互動(dòng)的應(yīng)用,例如聊天機(jī)器人。
目前,GPT-4o mini在API中支持文本和視覺(jué)處理,未來(lái)將支持文本、圖像、視頻和音頻的輸入和輸出。該模型的上下文窗口為128K tokens,每次請(qǐng)求支持多達(dá)16K輸出tokens,并且具備截至2023年10月的知識(shí)。
GPT-4o mini成為主推產(chǎn)品,已在 ChatGPT 免費(fèi)版上線。在學(xué)術(shù)基準(zhǔn)測(cè)試中,GPT-4o mini在文本智能和多模態(tài)推理方面超越了GPT-3.5 Turbo和其他小型模型,支持與GPT-4o相同范圍的語(yǔ)言。它還在函數(shù)調(diào)用方面表現(xiàn)出色,使開(kāi)發(fā)人員能夠構(gòu)建與外部系統(tǒng)交互的應(yīng)用,并在長(zhǎng)上下文處理性能方面優(yōu)于GPT-3.5 Turbo。
圖源:Open AI
就在OpenAI推出GPT-4o mini模型不久后,英偉達(dá)和法國(guó)明星AI獨(dú)角獸Mistral聯(lián)合發(fā)布了名為Mistral NeMo的小模型,提供性能優(yōu)越、部署便捷、安全性高的企業(yè)級(jí)AI功能。由于 Mistral NeMo 依賴(lài)于標(biāo)準(zhǔn)架構(gòu),因此易于使用,可以直接替換任何使用 Mistral 7B 的系統(tǒng)。
同樣不走尋常路的還有最新殺入AI戰(zhàn)場(chǎng)的蘋(píng)果。近期,蘋(píng)果公司作為 DataComp-LM(DCLM)項(xiàng)目的研究機(jī)構(gòu)之一,在 Hugging Face 上發(fā)布了 DCLM-7B 開(kāi)源模型,而且比其他公司更開(kāi)放。據(jù)了解,該模型性能已經(jīng)超越了 Mistral 7B,并且正在逼近其他領(lǐng)先的開(kāi)源模型,包括 Llama 3 和 Gemma。
對(duì)此有科學(xué)家發(fā)出驚嘆:“Apple發(fā)布了一個(gè)擊敗Mistral 7B的模型,但更棒的是他們完全開(kāi)源了,包括預(yù)訓(xùn)練數(shù)據(jù)集!”
小模型或成價(jià)格戰(zhàn)“利器”
有人將AI領(lǐng)域如此熱鬧的一周戲稱(chēng)為“小模型周”。事實(shí)上,今年以來(lái),小模型的賽道早已開(kāi)跑,今年5月,谷歌發(fā)布了輕量級(jí)模型Gemini 1.5 Flash。4月,微軟推出SLM(小語(yǔ)言模型)Phi-3系列,微軟強(qiáng)調(diào)Phi-3便宜得多,但響應(yīng)能力接近比它大10倍的模型,號(hào)稱(chēng)能力對(duì)標(biāo)GPT3.5。
小模型,顧名思義指的是參數(shù)規(guī)模遠(yuǎn)小于一些大型語(yǔ)言模型的模型,常見(jiàn)的參數(shù)規(guī)模有1.5b、3b、7b等。盡管參數(shù)較少,但通過(guò)特定的設(shè)計(jì)和優(yōu)化,小模型依然能夠在某些任務(wù)上實(shí)現(xiàn)與大型模型相近的性能,同時(shí)降低計(jì)算資源消耗,提高能耗比。
曾經(jīng)信仰“大力出奇跡”的巨頭們,如今前赴后繼地入局小模型賽道,仍舊是出于那個(gè)繞不開(kāi)的理由:“成本”。
今年以來(lái),國(guó)內(nèi)外大模型賽道的價(jià)格戰(zhàn)愈演愈烈。自去年以來(lái),OpenAI已經(jīng)進(jìn)行了4次降價(jià),國(guó)內(nèi)方面,5月,字節(jié)跳動(dòng)把定價(jià)降低了一個(gè)數(shù)量級(jí),從以分計(jì)價(jià)進(jìn)入以厘計(jì)價(jià)時(shí)代。根據(jù)火山引擎公布的價(jià)格計(jì)算,1元就能買(mǎi)到豆包主力模型的125萬(wàn)Tokens,大約是200萬(wàn)個(gè)漢字。7月5日,2024世界人工智能大會(huì)(WAIC 2024)期間,百度宣布文心旗艦款模型ERNIE 4.0和ERNIE 3.5大幅降價(jià),ERNIE Speed、ERNIE Lite兩款主力模型持續(xù)免費(fèi)。
價(jià)格戰(zhàn)打得火熱的背后,尖端AI訓(xùn)練成本居高不下,甚至越來(lái)越高。
斯坦福HAI研究所發(fā)布的報(bào)告指出,當(dāng)前尖端AI的訓(xùn)練成本正越來(lái)越高,報(bào)告顯示,2017年訓(xùn)練最初的Transformer模型的成本僅為約900美元,而到了2019年,RoBERTa Large模型的訓(xùn)練成本已經(jīng)升至約16萬(wàn)美元。到了2023年,OpenAI GPT-4和Google Gemini Ultra的訓(xùn)練成本更是分別達(dá)到約7800萬(wàn)美元和近2億美元。
為此,小模型以更低的成本,極致的性?xún)r(jià)比,成為AI模型公司卷價(jià)格戰(zhàn)的“利器”。
GPT-4o mini發(fā)布后,山姆·奧特曼在推特上發(fā)文指出,早在2022年,世界上最好的模型是text-davinci-003,它比GPT-4o mini差得多,但成本要貴上100多倍。
成本更低的小模型給成本敏感型企業(yè)多了一重選擇。GPT-4o mini的每百萬(wàn)輸入tokens 為15美分,每百萬(wàn)輸出tokens 為60美分,相對(duì)的,此前入門(mén)款模型GPT-3.5 Turbo輸入/輸出定價(jià)是0.5美元/1.5美元,GPT-4o mini在此基礎(chǔ)上便宜了超60%。
根據(jù)Artificial Analysis的統(tǒng)計(jì),GPT-4o mini已經(jīng)達(dá)到美國(guó)AI公司主流“小模型”里價(jià)格最低位置,比起Anthropic、谷歌的同類(lèi)型競(jìng)品都要更具性?xún)r(jià)比。
“在過(guò)去的幾年里,我們見(jiàn)證了人工智能的顯著進(jìn)步,同時(shí)也見(jiàn)證了成本的大幅低,我們致力于提高模型性能的同時(shí)繼續(xù)降低成本?!監(jiān)penAI方面表示,自2022年以來(lái),模型每token的成本下降了99%。
小模型正成為新風(fēng)口
真正落地后,性?xún)r(jià)比成為企業(yè)的重要考量,小模型或?qū)⒃絹?lái)越受青睞。
《華爾街日?qǐng)?bào)》近日?qǐng)?bào)道,企業(yè)正越來(lái)越多地部署中小型的AI模型,它們更青睞規(guī)模較小、更具成本效益的AI技術(shù),而不是在AI熱潮早期掀起波瀾的大型昂貴模型。
對(duì)于一些最常見(jiàn)的AI用例來(lái)說(shuō),比如涉及文檔分類(lèi)等小范圍、重復(fù)的任務(wù),中小型模型更有意義。當(dāng)前企業(yè)正在部署更多AI用例,它們也面臨著管理這種昂貴技術(shù)的成本和回報(bào)的壓力。
營(yíng)銷(xiāo)服務(wù)公司W(wǎng)PP集團(tuán)正在使用谷歌Gemini的中型模型Flash,其首席技術(shù)官斯蒂芬·普雷托留斯提到,一年前,企業(yè)被少數(shù)幾款大型模型吸引。當(dāng)公司有限度地、試驗(yàn)性地使用它們的能力時(shí),情況還好,但現(xiàn)在隨著它們的規(guī)模擴(kuò)大,大模型的成本可能很快就會(huì)失控。
“企業(yè)傾向于構(gòu)建小模型來(lái)完成特定任務(wù)?!鄙胶R鍯OO彭璐在接受《IT時(shí)報(bào)》采訪時(shí)曾表示,國(guó)內(nèi)算力需求正從大規(guī)模模型訓(xùn)練轉(zhuǎn)向推理需求,尤其是企業(yè)對(duì)于私有化部署的推理需求日益增長(zhǎng)。隨著開(kāi)源模型能力的提升,企業(yè)發(fā)現(xiàn)通過(guò)微調(diào)開(kāi)源模型即可滿(mǎn)足特定任務(wù)需求,無(wú)須投入巨資訓(xùn)練超大規(guī)模模型。
在今年年初召開(kāi)的2024百度AI開(kāi)發(fā)者大會(huì)上,李彥宏也表示,基于百度文心4.0,用戶(hù)可以結(jié)合效果、響應(yīng)速度及推理成本等多維度因素,靈活剪裁出適用于不同場(chǎng)景的小尺寸模型。相較于直接使用開(kāi)源模型調(diào)整得到的模型,這些定制的小模型在同等尺寸下展現(xiàn)出了更為顯著的效果優(yōu)勢(shì);而在同等效果下,其成本則更低廉。
“在一些特定場(chǎng)景中,經(jīng)過(guò)精調(diào)后的小模型,其使用效果甚至可以媲美大模型?!崩顝┖暾摂啵磥?lái)大型的AI原生應(yīng)用將主要采用大小模型混合使用的方式,根據(jù)不同場(chǎng)景選擇適合的模型。
排版/ 季嘉穎