文|自象限 程心
編輯|羅輯
劃重點(diǎn):
1、如果將開(kāi)發(fā)大模型比做是“造房子”,那AI Infra 就是“工具箱”,而中國(guó)缺少的正是工具和原材料制造工廠。
2、根據(jù)國(guó)外市場(chǎng)的情況,可以將整個(gè)AI Infra大致分為數(shù)據(jù)準(zhǔn)備、模型構(gòu)建、模型產(chǎn)品三個(gè)層面,在這三個(gè)層面中的每一個(gè)節(jié)點(diǎn),都是創(chuàng)業(yè)公司的機(jī)會(huì)點(diǎn)。
3、“數(shù)據(jù)準(zhǔn)備”是中國(guó)AI Infra第一個(gè)機(jī)遇。圍繞著“以數(shù)據(jù)為‘能源’”,本身就是一條十分復(fù)雜而又基礎(chǔ)的產(chǎn)業(yè)鏈,而我國(guó)的數(shù)據(jù)相關(guān)產(chǎn)業(yè)鏈,幾乎都是云大廠“一帶而過(guò)”,缺乏深耕在某個(gè)細(xì)分領(lǐng)域的垂直競(jìng)爭(zhēng)。
4、在AI大模型的訓(xùn)練過(guò)程中,為訓(xùn)練和推理提供工具和調(diào)度平臺(tái)也正在成為一個(gè)新的市場(chǎng)“模型中臺(tái)”,但從目前國(guó)內(nèi)的情況來(lái)看,“模型中臺(tái)”確實(shí)是創(chuàng)業(yè)大佬們的游戲。
ChatGPT火爆之后,科技圈有不少人想譜寫(xiě)AI 2.0的中國(guó)故事。
據(jù)「自象限」不完全統(tǒng)計(jì),短短一個(gè)月,國(guó)內(nèi)有名有姓的大佬下場(chǎng)AI創(chuàng)業(yè)已經(jīng)不下10位。但當(dāng)AI Infra赫然出現(xiàn)在賈揚(yáng)清的創(chuàng)業(yè)字典里時(shí),一位前百度NLP高級(jí)工程師一邊感嘆賈揚(yáng)清創(chuàng)業(yè)眼光的毒辣,一邊對(duì)「自象限」說(shuō)了四個(gè)字:這事能成。
這位工程師所說(shuō)的“這事”,指的也并不是賈揚(yáng)清創(chuàng)業(yè)的成敗,而是終于有人看到了中國(guó)AI Infra的底子薄弱,想要上手來(lái)補(bǔ)一補(bǔ)了,那么,國(guó)內(nèi)做AGI——“這事能成”。
不止賈揚(yáng)清,最早掀起“大佬創(chuàng)業(yè)潮”的王慧文,在披露出為數(shù)不多的消息中,Infra 出現(xiàn)了兩次。在三個(gè)聯(lián)創(chuàng)中,“一個(gè)Infra(基礎(chǔ)設(shè)施)背景的聯(lián)創(chuàng)”占據(jù)了重要的名額,與此同時(shí),光年之外的第一個(gè)動(dòng)作,便是與國(guó)產(chǎn)AI框架一流科技(Oneflow)達(dá)成并購(gòu)意向。
被賈揚(yáng)清和王慧文雙雙押注“AI Infra”到底是什么?在整個(gè)大模型開(kāi)發(fā)中占據(jù)哪些關(guān)鍵節(jié)點(diǎn)?
順著大佬們的思路,「自象限」將AI Infra的鏈條進(jìn)行了盤(pán)點(diǎn)和國(guó)內(nèi)外公司對(duì)比以反觀中國(guó)現(xiàn)狀。簡(jiǎn)單來(lái)說(shuō),AI Infra 是一套十分復(fù)雜又基礎(chǔ)的體系,包括構(gòu)建、部署和維護(hù)人工智能 (AI) 系統(tǒng)所需的硬件、軟件和服務(wù)的組合,它包括使AI算法能夠處理大量數(shù)據(jù)、從數(shù)據(jù)中學(xué)習(xí)并生成有意義的見(jiàn)解或執(zhí)行復(fù)雜任務(wù)的基本組件。
即如果將開(kāi)發(fā)大模型比做是“造房子”,那AI Infra 就是“工具箱”,而中國(guó)正是缺少工具和原材料制造工廠。
在這樣的背景下,未來(lái)3~5 年,相比于受限大模型能力變化的應(yīng)用層面,AIInfra反而會(huì)更加穩(wěn)定。畢竟大模型公司搞軍備賽,那賣(mài)武器的公司增長(zhǎng)一定十分可觀。
但問(wèn)題在于,如今中國(guó)的AI產(chǎn)業(yè)鏈在這一塊還處于相當(dāng)空白的狀態(tài)。國(guó)內(nèi)基于ML進(jìn)行數(shù)據(jù)標(biāo)注的公司星塵數(shù)據(jù)創(chuàng)始人就曾提出過(guò)這個(gè)問(wèn)題,中國(guó)有沒(méi)有AI Infra公司?答案是,沒(méi)有。
他認(rèn)為“國(guó)內(nèi)從業(yè)人員太過(guò)于專(zhuān)注在方法論上,而方法論是公開(kāi)的,但實(shí)際不公開(kāi)的內(nèi)容才有更多Knowhow和壁壘性。”
所以,如果說(shuō)應(yīng)用生態(tài)是顯性創(chuàng)業(yè)機(jī)會(huì),那么AI Infra便是隱形的藍(lán)海。事實(shí)上,當(dāng)AI進(jìn)入2.0時(shí)代,AI Infra在整個(gè)AI產(chǎn)業(yè)鏈的價(jià)值也正在發(fā)生變化。
我們根據(jù)國(guó)外市場(chǎng)的情況,可以將整個(gè)AI Infra大致分為數(shù)據(jù)準(zhǔn)備、模型構(gòu)建、模型產(chǎn)品三個(gè)層面,在這三個(gè)層面中的每一個(gè)節(jié)點(diǎn),都是創(chuàng)業(yè)公司的機(jī)會(huì)點(diǎn)。
圖片為自象限原創(chuàng)
其中數(shù)據(jù)準(zhǔn)備又可以具體拆解為數(shù)據(jù)質(zhì)量、數(shù)據(jù)標(biāo)注、數(shù)據(jù)合成和應(yīng)用商城與工程;模型構(gòu)建又包括機(jī)器學(xué)習(xí)平臺(tái)、版本控制和實(shí)驗(yàn)跟蹤、模型風(fēng)險(xiǎn)管理;模型產(chǎn)品則包括模型部署和服務(wù)、模型監(jiān)控、資源優(yōu)化等。
這些細(xì)分場(chǎng)景都在成為AI產(chǎn)業(yè)鏈的新“聚寶盆”。本文重點(diǎn)結(jié)合海外頭部公司對(duì)AI基礎(chǔ)層的研究,梳理了在大模型訓(xùn)練中比較重要,亦或是國(guó)內(nèi)目前比較薄弱的方向,希望給國(guó)內(nèi)創(chuàng)業(yè)者予以啟發(fā)。
01 數(shù)據(jù)新產(chǎn)業(yè)鏈中的“聚寶盆”
“數(shù)據(jù)準(zhǔn)備”是中國(guó)AI Infra第一個(gè)機(jī)遇。
對(duì)比中外生成式AI的發(fā)展會(huì)發(fā)現(xiàn),中文數(shù)據(jù)的缺乏一直中文AI大模型的是最大的短板之一。
有公開(kāi)數(shù)據(jù)表示,截至2021年,在全球排名前1000萬(wàn)的網(wǎng)站中,英文內(nèi)容占比60.4%,中文內(nèi)容占比僅1.4%。但作為AI三要素(數(shù)據(jù)、算力、算法)中最基礎(chǔ)的部分,數(shù)據(jù)又是整個(gè)AI大模型訓(xùn)練的前提。沒(méi)有數(shù)據(jù),就相當(dāng)于巧婦難為無(wú)米之炊。
需要明確的是,圍繞著“以數(shù)據(jù)為‘能源’”,本身就是一條十分復(fù)雜而又基礎(chǔ)的產(chǎn)業(yè)鏈,涉及到數(shù)據(jù)質(zhì)量、數(shù)據(jù)標(biāo)注、數(shù)據(jù)安全三個(gè)主要部分和多個(gè)環(huán)節(jié)。
未來(lái)在AI活躍的氛圍下,中國(guó)一定會(huì)涌現(xiàn)出多個(gè)大模型,目前僅百度就有36個(gè)大模型,阿里、百度、騰訊、華為每家的大模型都不低于三個(gè)。而大模型越“熱鬧”,對(duì)后端數(shù)據(jù)的需求數(shù)量和質(zhì)量也會(huì)更高。
但反觀我國(guó)的數(shù)據(jù)相關(guān)產(chǎn)業(yè)鏈,幾乎都是云大廠“一帶而過(guò)”,缺乏深耕在某個(gè)細(xì)分領(lǐng)域的垂直競(jìng)爭(zhēng),「自象限」整理了幾個(gè)產(chǎn)業(yè)鏈中的關(guān)鍵機(jī)會(huì),僅供拋磚引玉,期待更多創(chuàng)造。
1、“數(shù)據(jù)質(zhì)量”新機(jī)會(huì):曾在這里摸爬滾打的企業(yè),或迎來(lái)“出頭之日”
整體上看,數(shù)據(jù)質(zhì)量的機(jī)會(huì)分為兩個(gè)部分,一部分是在技術(shù)側(cè),機(jī)器學(xué)習(xí)和自動(dòng)檢測(cè)正在成為數(shù)據(jù)質(zhì)量的新機(jī)會(huì)。另一部分是在市場(chǎng)側(cè),隨著AI市場(chǎng)規(guī)模越來(lái)越大,數(shù)據(jù)質(zhì)量正在從產(chǎn)業(yè)鏈末端擴(kuò)展成為供應(yīng)商直接服務(wù)企業(yè)。
未來(lái),隨著AI成為社會(huì)發(fā)展的底座,數(shù)據(jù)質(zhì)量會(huì)成為每個(gè)企業(yè)的剛需。但國(guó)內(nèi)數(shù)據(jù)質(zhì)量尚未受到足夠的重視,缺乏專(zhuān)門(mén)做數(shù)據(jù)質(zhì)量的企業(yè),它更多是以大公司附庸品的形態(tài)出現(xiàn),更像是“順手”做的事情。
但實(shí)際上,數(shù)據(jù)質(zhì)量是需要市場(chǎng)化的,就像汽車(chē)公司沒(méi)辦法生產(chǎn)每一個(gè)零部件一樣,只有讓數(shù)據(jù)質(zhì)量成為整個(gè)產(chǎn)業(yè)的底座,通過(guò)眾人拾柴火焰高的方式,才能推動(dòng)整個(gè)行業(yè)的發(fā)展。
在國(guó)外,數(shù)據(jù)質(zhì)量是十分垂直的賽道。這類(lèi)公司的核心目標(biāo),是幫助人工智能企業(yè)最大限度地減少劣質(zhì)數(shù)據(jù)帶來(lái)的影響,他們的產(chǎn)品通常包括數(shù)據(jù)可觀察性平臺(tái)、數(shù)據(jù)整理和偏見(jiàn)檢測(cè)工具,以及數(shù)據(jù)標(biāo)簽錯(cuò)誤的識(shí)別工具等等。
國(guó)內(nèi)其實(shí)也有這類(lèi)的公司,但數(shù)量稀少。比如針對(duì)數(shù)據(jù)治理的公司有億信華辰、普元、石竹、龍石、華矩科技、卡斯特等等。這些公司有一個(gè)非常明顯的特點(diǎn),就是他們?cè)跀?shù)據(jù)的細(xì)分賽道里摸爬滾打了很久,但因?yàn)檫@個(gè)賽道過(guò)于垂直,因此無(wú)論是資本還是市場(chǎng)都對(duì)他們關(guān)注不多,導(dǎo)致他們一直沒(méi)有“出頭之日”,也導(dǎo)致他們和國(guó)外專(zhuān)業(yè)的數(shù)據(jù)治理公司差距甚遠(yuǎn)。
圖源《數(shù)據(jù)治理產(chǎn)業(yè)圖譜1.0》
國(guó)內(nèi)的數(shù)據(jù)公司目前大多停留在篩選階段,而國(guó)外的公司卻能通過(guò)深度學(xué)習(xí)對(duì)數(shù)據(jù)進(jìn)行深度挖掘,在同樣的數(shù)量上獲得更多有價(jià)值的部分。這種差距主要源于:
第一,國(guó)內(nèi)數(shù)據(jù)處理方式老套。許多中國(guó)的數(shù)據(jù)公司仍然在使用數(shù)據(jù)建模這樣的傳統(tǒng)方法進(jìn)行數(shù)據(jù)處理,而國(guó)外已經(jīng)開(kāi)始使用機(jī)器學(xué)習(xí)的方式進(jìn)行自動(dòng)處理、自動(dòng)標(biāo)注,自動(dòng)檢測(cè)安全等工作。
第二,數(shù)據(jù)處理效率低下、可用的優(yōu)質(zhì)數(shù)據(jù)占比低。中國(guó)的數(shù)據(jù)公司在做數(shù)據(jù)處理的時(shí)候仍然處在初級(jí)階段,即在一堆數(shù)據(jù)中將符合標(biāo)準(zhǔn)的數(shù)據(jù)篩選出來(lái),只是不同的公司篩選的標(biāo)準(zhǔn)不同,得到的結(jié)果有所差異。而國(guó)外的公司卻能在數(shù)據(jù)處理的過(guò)程中,通過(guò)對(duì)數(shù)據(jù)不停的清洗、修改得到更多符合條件的優(yōu)質(zhì)數(shù)據(jù)。
簡(jiǎn)單來(lái)說(shuō),在AI 2.0時(shí)代,大模型的訓(xùn)練對(duì)更全面、更準(zhǔn)確、可溯源的高質(zhì)量數(shù)據(jù)有著更龐大的需求,同時(shí)也對(duì)效率有更高的要求,依靠機(jī)器學(xué)習(xí)自動(dòng)檢測(cè)質(zhì)量問(wèn)題,將會(huì)是一條新的路徑。
同時(shí),在數(shù)據(jù)成為“新石油” 時(shí)代,數(shù)據(jù)質(zhì)量并不能只靠大模型的發(fā)展帶動(dòng),每個(gè)企業(yè)都需要對(duì)內(nèi)部數(shù)據(jù)的質(zhì)量進(jìn)行精粹,發(fā)揮市場(chǎng)化的力量,大范圍提質(zhì)。
對(duì)標(biāo)國(guó)外垂直賽道中的典型案例Anomalo,它使用ML自動(dòng)評(píng)估和通用化數(shù)據(jù)質(zhì)量檢測(cè)能力,實(shí)現(xiàn)了數(shù)據(jù)深度的可觀察性,以及數(shù)據(jù)質(zhì)量檢測(cè)的能力泛化。
簡(jiǎn)單來(lái)講,它一方面把數(shù)據(jù)質(zhì)量這件事檢測(cè)這件事做得更深,另一方面通過(guò)能力泛化將其做得更廣。
圖源Anomalo官網(wǎng)
2022年10月,Anomalo與Google Cloud達(dá)成合作,企業(yè)可以使用無(wú)代碼關(guān)鍵指標(biāo)和驗(yàn)證規(guī)則或通過(guò)任何自定義SQL檢查來(lái)微調(diào)Anomalo的監(jiān)控。簡(jiǎn)單的說(shuō),Anomalo上云后,對(duì)于企業(yè)而言幾乎可以無(wú)門(mén)檻接入,且適配性高。
Notion是Anomalo的核心客戶(hù)之一,Notion是國(guó)外最大的All in one 辦公軟件,國(guó)內(nèi)的飛書(shū)學(xué)習(xí)的就是它。其軟件工程師對(duì)此評(píng)價(jià)到“Anomalo團(tuán)隊(duì)的功能、集成數(shù)量和響應(yīng)速度夠非常強(qiáng)大,用戶(hù)易于導(dǎo)航并找到他們正在尋找的內(nèi)容。”
2、數(shù)據(jù)標(biāo)注新機(jī)會(huì):從“人工標(biāo)注”到“算法標(biāo)注”
數(shù)據(jù)標(biāo)注者正在從人工標(biāo)注,向自動(dòng)標(biāo)注和智能標(biāo)注邁進(jìn),中間的變化不僅是效率的提升,也將迸發(fā)出巨大的產(chǎn)業(yè)機(jī)會(huì)。
在AI 1.0時(shí)代,人工標(biāo)注是AI發(fā)展最典型的特點(diǎn),在那個(gè)“有多少人工就有多少智能”的時(shí)代,全世界的AI發(fā)展都與底層廉價(jià)勞動(dòng)力資源息息相關(guān)。
但在AI2.0時(shí)代,李開(kāi)復(fù)點(diǎn)明與AI 1.0的第一個(gè)差異就是無(wú)需人工標(biāo)注,AI可以閱讀海量的文本,進(jìn)行自監(jiān)督學(xué)習(xí)??梢哉f(shuō),標(biāo)注后的數(shù)據(jù)是AI大模型的命脈,它的性能和準(zhǔn)確性直接取決于標(biāo)注數(shù)據(jù)的質(zhì)量和數(shù)量。
在AI產(chǎn)業(yè)鏈中,數(shù)據(jù)標(biāo)注也占據(jù)了非常大比重,據(jù)AI分析公司Cognilytica的數(shù)據(jù),數(shù)據(jù)標(biāo)注環(huán)節(jié)的耗時(shí)占比可達(dá)25%。根據(jù)researchandmarkets的報(bào)告,全球數(shù)據(jù)注釋和標(biāo)簽市場(chǎng)預(yù)計(jì)將從2022年的8億美元增長(zhǎng)到2027年的36億美元,預(yù)測(cè)期內(nèi)復(fù)合年增長(zhǎng)率為 33.2%。
數(shù)據(jù)標(biāo)注通常包含圖像、文本和視頻。
以AI大模型之前,以AI最為人所熟知的自動(dòng)駕駛領(lǐng)域?yàn)槔?,?shù)據(jù)標(biāo)注和訓(xùn)練一直是自動(dòng)駕駛技術(shù)研發(fā)中成本最高的兩個(gè)“吞金獸”,為了解決成本和效率問(wèn)題,無(wú)論是國(guó)外特斯拉還是國(guó)內(nèi)的毫末,都在人工標(biāo)注到標(biāo)注自動(dòng)化,再到標(biāo)注智能化的路徑上進(jìn)行探索。
自動(dòng)駕駛?cè)匀皇菙?shù)據(jù)標(biāo)注/圖片標(biāo)注使用量最大的一個(gè)應(yīng)用場(chǎng)景,而未來(lái),隨著文本大模型、多模態(tài)大模型的不斷涌現(xiàn),還將出現(xiàn)新的增長(zhǎng)機(jī)會(huì)。
從人工標(biāo)注到算法標(biāo)注,是底層智能化的變遷。這其中跑的最快的是Scale.ai,目前Scale.ai是全球最大的數(shù)據(jù)標(biāo)注公司,據(jù)外媒報(bào)道,目前Scale.ai最新一輪E輪融資3.25億美元,估值達(dá)到73億美元。
Scale.ai早期走的也是人工標(biāo)注路線(xiàn),利用了印度標(biāo)注團(tuán)隊(duì),靠著比美國(guó)更便宜、更高效的標(biāo)注服務(wù)打開(kāi)市場(chǎng)。在行業(yè)選擇上選擇了當(dāng)時(shí)大火的自動(dòng)駕駛賽道,并早早與Waymo等龍頭企業(yè)達(dá)成合作。
后期隨著技術(shù)的發(fā)展,AI訓(xùn)練對(duì)數(shù)據(jù)的廣度、深度、精度要求也越來(lái)越高,為了解決這個(gè)問(wèn)題,Scale AI將AI應(yīng)用在數(shù)據(jù)標(biāo)注服務(wù)中,先用AI識(shí)別,再由人工負(fù)責(zé)校對(duì)其中的錯(cuò)誤,校對(duì)完的數(shù)據(jù)再“投喂”給訓(xùn)練模型,使下一次的標(biāo)注更加精準(zhǔn)。
目前,Scale也將業(yè)務(wù)拓展到無(wú)人車(chē)、無(wú)人機(jī)和機(jī)器人等領(lǐng)域,同樣也在向下游拓展,開(kāi)發(fā)自有模型提供給其他數(shù)據(jù)標(biāo)注公司,并逐步進(jìn)入AI/ML價(jià)值鏈的更多環(huán)節(jié)??蛻?hù)包括美國(guó)國(guó)防部、PayPal、自動(dòng)駕駛公司及科技巨頭。
3、數(shù)據(jù)隱私和安全新機(jī)會(huì):“合成數(shù)據(jù)”或成AI數(shù)據(jù)主力軍
正如互聯(lián)網(wǎng)的發(fā)展長(zhǎng)河中,崛起過(guò)如360、金山毒霸等“安全專(zhuān)家”,移動(dòng)互聯(lián)網(wǎng)時(shí)代的騰訊手機(jī)管家、360手機(jī)衛(wèi)士一般,在AI時(shí)代,“安全”將仍然是技術(shù)和應(yīng)用發(fā)展的底盤(pán)和重心。
目前,隨著AI技術(shù)呈指數(shù)級(jí)發(fā)展,合規(guī)和隱私風(fēng)險(xiǎn)的行業(yè)痛點(diǎn)也在逐漸暴露,3月的最后一天,在西班牙媒體指責(zé)OpenAI未能遵守用戶(hù)數(shù)據(jù)保護(hù)法規(guī)后,意大利相關(guān)部門(mén)也以類(lèi)似的理由宣布了對(duì)ChatGPT的禁令。
隱私計(jì)算和數(shù)據(jù)安全話(huà)題被重新推上風(fēng)口浪尖。
3月下旬,OpenAI曾發(fā)布聲明,稱(chēng)因?yàn)镃hatGPT開(kāi)源庫(kù)中存在一個(gè)漏洞,致使一些用戶(hù)可以看到其他用戶(hù)的信息,包括用戶(hù)姓名、電子郵件地址、付款地址、信用卡號(hào)后四位以及信用卡有效期。
ChatGPT目前擁有超過(guò)1億用戶(hù),雖然OpenAI并未說(shuō)明,“一些”用戶(hù)泄露到底是多少數(shù)量級(jí),但哪怕只有千分之一的用戶(hù)接觸到了這一漏洞,其后果都是不可估量的。
中國(guó)面對(duì)大模型的保守和謹(jǐn)慎也有一部分來(lái)源于對(duì)數(shù)據(jù)安全體系的不信任。國(guó)家層面也不斷提出加大安全性測(cè)試和常態(tài)化管理投入,包括數(shù)據(jù)外泄等問(wèn)題的緊急檢測(cè)和修補(bǔ)措施,以及更先進(jìn)的預(yù)防體系建設(shè),如內(nèi)控流程的完善、數(shù)據(jù)脫敏處理等,最大限度保證安全性。
數(shù)據(jù)顯示,中國(guó)信息安全市場(chǎng)的潛在空間高達(dá)1000億元上下,與全球安全服務(wù)市場(chǎng)64.4%的份額相比,我國(guó)安全服務(wù)市場(chǎng)占比僅為19.8%。目前國(guó)內(nèi)信息安全產(chǎn)業(yè)依然以硬件為主,代表企業(yè)如奇安信、新華三等。軟件市場(chǎng)空白度高,發(fā)展?jié)摿薮蟆?/p>
除了更加強(qiáng)大的數(shù)據(jù)安全保護(hù)之外,從根本上解決數(shù)據(jù)隱私的問(wèn)題也成為一種思路,其答案就是數(shù)據(jù)合成。
合成數(shù)據(jù)即由計(jì)算機(jī)人工生產(chǎn)的數(shù)據(jù),來(lái)替代現(xiàn)實(shí)世界中采集的真實(shí)數(shù)據(jù),來(lái)保證真實(shí)數(shù)據(jù)的安全,它不存在法律約束的敏感內(nèi)容和私人用戶(hù)的隱私。
目前企業(yè)端已經(jīng)在紛紛部署,這也導(dǎo)致合成數(shù)據(jù)數(shù)量正在以指數(shù)級(jí)的速度向上增長(zhǎng)。Gartner研究認(rèn)為,2030年,合成數(shù)據(jù)將遠(yuǎn)超真實(shí)數(shù)據(jù)體量,成為AI數(shù)據(jù)的主力軍。
圖源Gartner官方
02 需要“鈔能力”的“模型中臺(tái)”:創(chuàng)業(yè)大佬們的新游戲
如果我們把大模型看作一個(gè)云產(chǎn)品,那么數(shù)據(jù)、算力、算法可以被看做是這個(gè)產(chǎn)品的“IaaS”,即基礎(chǔ)設(shè)施。而在“基礎(chǔ)設(shè)施”和前臺(tái)應(yīng)用的SaaS之間,還存在一個(gè)PaaS平臺(tái)作為中間層,承擔(dān)起為SaaS提供部署平臺(tái),開(kāi)發(fā)工具等任務(wù)。
這樣的結(jié)構(gòu)在AI大模型中也同樣存在,當(dāng)訓(xùn)練AI大模型的前期數(shù)據(jù)準(zhǔn)備工作完成后,數(shù)據(jù)會(huì)被送到一個(gè)新的訓(xùn)練池里,在這里完成訓(xùn)練、推理,中間也涉及到各種開(kāi)發(fā)工具、統(tǒng)籌調(diào)度等系統(tǒng),我們也可以將其稱(chēng)為大模型的“煉丹爐”。
現(xiàn)在,大模型訓(xùn)練已經(jīng)有ML Paltform這樣的平臺(tái)型解決方案覆蓋從數(shù)據(jù)準(zhǔn)備訓(xùn)練、驗(yàn)證、到模型部署和持續(xù)監(jiān)控的全流程,促進(jìn)端到端的模型開(kāi)發(fā)。
這類(lèi)公司可以簡(jiǎn)單理解為“大模型開(kāi)發(fā)的一站式服務(wù)平臺(tái)”,為任何想要開(kāi)發(fā)或使用大模型的公司做供應(yīng)商服務(wù)。
事實(shí)上,如果繼續(xù)對(duì)比這些年云計(jì)算的發(fā)展和變化會(huì)發(fā)現(xiàn),云廠商和企業(yè)都在不約而同地加碼PaaS平臺(tái)。而在AI大模型的訓(xùn)練過(guò)程中,為訓(xùn)練和推理提供工具和調(diào)度平臺(tái)也正在成為一個(gè)新的市場(chǎng)“模型中臺(tái)”。
圖源DataRobot
但“模型中臺(tái)”市場(chǎng)也存在許多問(wèn)題。
比如,F(xiàn)orrester在《The Landscape In China, Q4 2022》報(bào)告中指出目前的市場(chǎng)化難點(diǎn):“客戶(hù)使用AI技術(shù)的關(guān)鍵障礙之一,是缺乏開(kāi)發(fā)AI解決方案和操作AI系統(tǒng)的能力,而AI/ML平臺(tái)是解決這一問(wèn)題的有效方法。Forrester依據(jù)供應(yīng)商的市場(chǎng)情況,將其劃分為大型、中型、小型三類(lèi)。”
目前國(guó)外這個(gè)市場(chǎng)出現(xiàn)了“大魚(yú)吃小魚(yú)”的情況,大型供應(yīng)商正在通過(guò)收購(gòu)AI開(kāi)發(fā)過(guò)程中不同部分的小型公司,以占據(jù)更大的市場(chǎng)份額。
目前在全球范圍內(nèi)跑得比較快的是DataRobot,最新一輪完成了2.5億美元的融資,估值達(dá)到60億美元。Dataiku最新一輪完成了4億美元的融資,估值達(dá)到42億美元。還有開(kāi)源公司H2O.ai,最新一輪完成了7000多萬(wàn)美元的融資,由高盛和平安領(lǐng)投。
但這還只是“模型”中臺(tái)的在訓(xùn)練部分的機(jī)會(huì),當(dāng)一個(gè)模型完成訓(xùn)練之后,就進(jìn)入了模型部署環(huán)節(jié)。
模型部署也是未來(lái)大模型走向B端應(yīng)用的一個(gè)重要環(huán)節(jié),也有一套專(zhuān)屬工具。
這套工具需要與底層 ML 基礎(chǔ)設(shè)施、運(yùn)營(yíng)工具以及生產(chǎn)環(huán)境結(jié)合,來(lái)實(shí)現(xiàn)模型部署的三大環(huán)節(jié),即優(yōu)化模型性能,簡(jiǎn)化模型結(jié)構(gòu),并將模型推向生產(chǎn)。
一般來(lái)說(shuō),模型的部署可以是幾周、幾天,也可以是幾個(gè)小時(shí),這要看模型部署的效率。所以更快的模型部署能力也是更強(qiáng)的核心競(jìng)爭(zhēng)力。
而這類(lèi)工具可以將ML工程師從基礎(chǔ)設(shè)施和硬件層面的決策中抽象出來(lái),協(xié)調(diào)IT團(tuán)隊(duì)、業(yè)務(wù)人員、工程師和數(shù)據(jù)科學(xué)家的工作,提高大模型部署團(tuán)隊(duì)的整體效率。
除此之外,它們還能將訓(xùn)練有素的模型轉(zhuǎn)化為敏捷、可移植(適用于任何硬件)、可靠的軟件功能,并與企業(yè)現(xiàn)有的應(yīng)用程序堆棧和DevOps工作流程相結(jié)合。簡(jiǎn)單來(lái)說(shuō)就是提高模型的環(huán)境適應(yīng)能力,快速與更多業(yè)務(wù)兼容。
不過(guò),從目前國(guó)內(nèi)的情況來(lái)看,“模型中臺(tái)”確實(shí)是創(chuàng)業(yè)大佬們的游戲,對(duì)于當(dāng)下中國(guó)的AI鏈條來(lái)說(shuō),除了高昂的啟動(dòng)資金和試錯(cuò)成本外,更需要的是超一流的專(zhuān)業(yè)技術(shù),如何合理規(guī)劃平臺(tái)架構(gòu),深入到訓(xùn)練部署的每一個(gè)環(huán)節(jié),對(duì)創(chuàng)始人的框架能力要求極高。
從另一個(gè)角度來(lái)看,在這場(chǎng)需要“鈔能力”的游戲中,創(chuàng)業(yè)公司和資本的關(guān)系將比此前更為密切,甚至決定生死。