正在閱讀:

大模型“淘金”的創(chuàng)業(yè)者,陣痛比紅利來的還早?

掃一掃下載界面新聞APP

大模型“淘金”的創(chuàng)業(yè)者,陣痛比紅利來的還早?

“蒙眼狂奔”的選項已經(jīng)消失,必須要謹(jǐn)慎應(yīng)對潛在的合規(guī)和安全風(fēng)險。

攝影:界面新聞 范劍磊

文|Alter

根據(jù)北京市經(jīng)信局公布的數(shù)據(jù),截止到2023年10月初,國內(nèi)公開的AI大模型數(shù)量已經(jīng)達(dá)到238個。

盡管學(xué)術(shù)界對大模型的參數(shù)量并沒有明確的標(biāo)準(zhǔn),許多10億級參數(shù)的模型并不能和GPT4相提并論,國內(nèi)大模型的爆發(fā)式增長,無疑揭示了一個既定事實:和每一次風(fēng)口出現(xiàn)時一樣,總有人一窩蜂地涌入,試圖在新一輪的創(chuàng)業(yè)潮中搏一個機會。

就像創(chuàng)新工場董事長李開復(fù)的觀點:AI大模型是絕對不能錯過的歷史機遇。因為這將是有史以來最大的平臺革命,它將比Windows、安卓要大10倍甚至更多,它會讓每個應(yīng)用改寫,會重構(gòu)人類的工作,會讓有創(chuàng)意的那些人的聰明才智被放大10倍或者更多......

為了不錯過“百年一見”的歷史機遇,一場“百模大戰(zhàn)”正在上演,可問題在于:當(dāng)前的大模型戰(zhàn)場,當(dāng)真是屬于創(chuàng)業(yè)者的機會嗎?

01、“插件”更像是一種過渡

大模型的爆火,屬于多種因素疊加的結(jié)果,其中讓大多數(shù)人印象深刻的標(biāo)志性事件有兩個:一個是ChatGPT的走紅,月活用戶量在兩個月的時間里就超過一億;另一個是英偉達(dá)CEO黃仁勛的比喻,認(rèn)為“AI的iPhone時刻已經(jīng)來臨”。

冷靜下來思考,這兩個事件都有著鮮明的移動互聯(lián)網(wǎng)色彩,將月活視為一個產(chǎn)品成敗的標(biāo)準(zhǔn),將某個產(chǎn)品的爆炸性增長視為市場需求被激活的晴雨表。這樣的邏輯是否合理還不得而知,但深深影響了大模型商業(yè)模式的構(gòu)建。

于是,很多大模型都在打造自己的“應(yīng)用中心”。OpenAI上線了ChatGPT插件,付費用戶可以調(diào)用插件解決某類需求,目前ChatGPT上已經(jīng)有近1000個插件;國內(nèi)的百度也在積極布局,發(fā)布文心一言插件生態(tài)平臺“靈境矩陣”,并計劃提供百億流量、億元基金等激勵來扶持插件生態(tài)。

個中緣由并不難理解。

無論是站在移動互聯(lián)網(wǎng)塔尖的蘋果,還是出貨量穩(wěn)居前五的安卓廠商,無不構(gòu)建了應(yīng)用市場的變現(xiàn)模式,衍生出了廣告排名、支付分成、游戲聯(lián)運等多種盈利方式。甚至微信這樣的超級APP,也通過小程序?qū)崿F(xiàn)了類似的機制。

就現(xiàn)階段來看,像手機廠商一樣經(jīng)營“插件生態(tài)”,可能是大模型平臺當(dāng)下的最佳選項,而開發(fā)者同樣樂見其成。

就像移動互聯(lián)網(wǎng)催生的流量紅利,灌溉了大大小小的應(yīng)用,倘若大模型可以沿著移動互聯(lián)網(wǎng)的軌跡增長,大概率將帶來了新一輪的紅利。為大模型平臺開發(fā)插件,可能會得到平臺的流量傾斜,拿到大模型時代的門票,乃至通過“降維打擊”的方式顛覆固有的市場格局。

問題在于,大模型平臺能否成為占領(lǐng)用戶習(xí)慣的入口?在互聯(lián)網(wǎng)和移動互聯(lián)網(wǎng)時代,入口一詞頻頻被提及,可以細(xì)分為內(nèi)容、應(yīng)用、操作系統(tǒng)、硬件四個維度,充當(dāng)著用戶獲取信息、解決問題的第一觸點。

眼下的挑戰(zhàn)在于,坊間普遍認(rèn)為通用大模型會趨向寡頭化,最終只剩下兩到三家,開發(fā)者選擇加入哪個大模型插件生態(tài),就像是一場豪賭。畢竟ChatGPT的訪問量已經(jīng)連續(xù)三個月下滑,而且功能相似的聊天機器人應(yīng)用仍層出不窮,在大多數(shù)用戶的習(xí)慣養(yǎng)成前,無法斷言哪個大模型會是最后的贏家。

把視野再放大一些的話,聊天機器人可能并不是大模型的終極應(yīng)用,更像是一個啟蒙產(chǎn)品。

比如華為已經(jīng)將大模型和語音助手小藝融合,不排除越來越多的智能手機、智能音箱、智能家居類廠商有同樣的計劃,語音助手逐漸成為人們喚醒大模型的主流方式;再比如一些人鼓吹的Agent,即可以能自主理解、規(guī)劃決策、執(zhí)行復(fù)雜任務(wù)的智能體,自動幫主人處理一些繁瑣的流程性工作。

無論是哪一種情況,都意味著插件不過是一種過渡,用戶需要的只是連接某個服務(wù),不需要知道服務(wù)來自哪個插件。先調(diào)用某個插件才能獲得某項能力的交互,注定是大模型初級階段的產(chǎn)物。

02、垂直大模型是金礦嗎?

事實似乎也是如此。不管是ChatGPT還是同類產(chǎn)品,插件的主要貢獻(xiàn)者集中在獨立開發(fā)者和人數(shù)較少的小團(tuán)隊,那些手握上千萬用戶和海量數(shù)據(jù)的產(chǎn)品,好像對插件背后的機會窗口不太感興趣。

畢竟插件生態(tài)的主導(dǎo)者是通用大模型,插件的作用可以歸類為AI+的范疇,目的是為了擴展大模型的多元能力。借用百度集團(tuán)資深副總裁何俊杰的觀點:“如果說大模型是一顆聰明的大腦,那么插件就是大模型的手和腳?!?/p>

典型的例子就是文檔處理類的插件,調(diào)用大模型的能力對用戶的文檔進(jìn)行處理,再基于文檔完成摘要、問答、創(chuàng)作等任務(wù)。插件扮演的終歸是工具的角色,而工具類產(chǎn)品的宿命普遍不太樂觀:風(fēng)口期收獲了大把的流量,但大多數(shù)工具沒能走通變現(xiàn)的路子,風(fēng)口過后還要買流量來維持增長。

有野心的開發(fā)者不甘心做插件,做通用大模型的“寄生品”,瞄準(zhǔn)了更有吸引力的選擇:

一種是基于大模型的能力開發(fā)獨立應(yīng)用,或為自己的應(yīng)用接入大模型廠商的API,進(jìn)而提升產(chǎn)品的服務(wù)能力;另一種是在通用大模型或開源大模型的基礎(chǔ)上,訓(xùn)練適用于垂直場景的模型。據(jù)說北京市已經(jīng)有115個AI大模型,其中垂直大模型占到了103個。

前者的挑戰(zhàn)在于,目前的產(chǎn)品主要集中在對話型、繪畫類產(chǎn)品上,且以To C場景為主。只不過C端用戶仍以閑聊、娛樂為主,尚未產(chǎn)生實實在在的生產(chǎn)力,導(dǎo)致付費意愿通常比較低。同時還存在產(chǎn)品同質(zhì)化的現(xiàn)象,以閑聊類產(chǎn)品為例,早期的產(chǎn)品普遍基于公開語料,假如用戶的提問難以產(chǎn)生有價值的數(shù)據(jù),差異化也就無從談起。

To B漸漸成了行業(yè)內(nèi)心照不宣的選項。

大模型的能力聽起來很美好,大多數(shù)企業(yè)卻用不起來,原因在于通用大模型無法很好地解決垂類問題。對于B端企業(yè)來說,可以將自己服務(wù)行業(yè)的專業(yè)知識灌輸給大模型做進(jìn)一步的訓(xùn)練與微調(diào),訓(xùn)練完后在本地進(jìn)行私有部署,再來解決對應(yīng)垂類問題。

這就為垂直大模型提供了充足的想象空間,也是創(chuàng)業(yè)者扎堆的賽道。B端企業(yè)的場景比較明確,并且積累了海量的數(shù)據(jù),既能為大模型訓(xùn)練提供數(shù)據(jù),還提供了大模型效果的檢驗場。

相對不那么樂觀的是,現(xiàn)階段愿意為大模型付費的,還只有金融為首的個別場景,不少行業(yè)還在觀望中。以金融大模型為例,目前發(fā)布了金融大模型的企業(yè)有螞蟻集團(tuán)、Bloomberg、MorganStanley、Lemonade、蘇黎世保險、度小滿、瑞穗金融集團(tuán)等,要么手握海量金融數(shù)據(jù),要么有自研大模型的背景,都不是靠一腔熱血闖進(jìn)市場的創(chuàng)業(yè)者。

簡而言之,大模型的想象空間越大,想要從中尋找機會的企業(yè)就越多,留給創(chuàng)業(yè)者的機會窗口并沒有太多。況且還有一個無法規(guī)避的問題:在和大廠同臺競爭的過程中,創(chuàng)業(yè)者有資本試錯嗎?通往大模型的遠(yuǎn)方有千萬條路,也意味著會有千萬個死胡同。

03、創(chuàng)業(yè)者“無法承受之痛”

首當(dāng)其沖的正是合規(guī)問題。國內(nèi)在7月初出臺了大模型備案要求,依靠API接口獲取境外大模型能力的模式受到挑戰(zhàn),導(dǎo)致年初時就接入OpenAI做應(yīng)用的團(tuán)隊,在不同程度上陷入了困境。

比如某在線設(shè)計平臺,曾是國內(nèi)最早推出AI生圖的產(chǎn)品之一,并圍繞AI生圖搭建了社區(qū)生態(tài)。但在9月初的時候,這家平臺突然宣布“網(wǎng)站維護(hù)”,一直到一個多月后,依然是“網(wǎng)站升級中”的狀態(tài)。而在每天都有新事物出現(xiàn)的大模型行業(yè),早期的先發(fā)優(yōu)勢正不可避免地隨著時間消亡。

和過往幾次“風(fēng)口”最大的不同,在大模型的曙光面前,創(chuàng)業(yè)者很興奮,監(jiān)管卻很理性,為了避免大模型市場重蹈野蠻生長的局面,避免大模型走向失控,相關(guān)政策和法規(guī)密集出臺。

就在不久前,科技部、工信部、教育部等10部門聯(lián)合印發(fā)《科技倫理審查辦法(試行)》,明確提到:算法、模型和系統(tǒng)的設(shè)計、實現(xiàn)、應(yīng)用等遵守公平、公正、透明、可靠、可控等原則,符合國家有關(guān)要求,倫理風(fēng)險評估審核和應(yīng)急處置方案合理,用戶權(quán)益保護(hù)措施全面得當(dāng)?shù)取?/p>

幾乎在同一時間,全國信息安全標(biāo)準(zhǔn)化技術(shù)委員會發(fā)布了《生成式人工智能服務(wù)安全基本要求》(征求意見稿),涉及語料安全、模型安全、安全措施、安全評估等多個方面。

其中在語料安全要求中,不僅明確提出語料可溯源,包括開源語料和自采語料,還提出要建立語料來源黑名單,不使用黑名單來源的數(shù)據(jù)進(jìn)行訓(xùn)練?!皯?yīng)對各來源語料進(jìn)行安全評估,單一來源語料內(nèi)容中含違法不良信息超過5%的,應(yīng)將該來源加入黑名單?!?/p>

也就是說,在監(jiān)管趨嚴(yán)的背景下,等待開發(fā)者的不單單是備案問題,而是系統(tǒng)性的合規(guī)要求。無論是調(diào)用大模型API做創(chuàng)新的應(yīng)用層開發(fā)者,還是想在垂直領(lǐng)域分一杯羹的垂類大模型,“蒙眼狂奔”的選項已經(jīng)消失,必須要謹(jǐn)慎應(yīng)對潛在的合規(guī)和安全風(fēng)險。

如果開發(fā)者基于某個不合規(guī)的通用大模型訓(xùn)練產(chǎn)品,為了滿足合規(guī)需求而切換大模型的話,需要重新處理數(shù)據(jù),因為不同大模型的訓(xùn)練數(shù)據(jù)不同,開發(fā)者需要重新對數(shù)據(jù)進(jìn)行清洗、預(yù)處理和標(biāo)注;需要基于新模型訓(xùn)練和調(diào)優(yōu),包括訓(xùn)練算法、超參數(shù),以及反復(fù)的實驗和調(diào)整;在模型部署和應(yīng)用過程中,還要考慮不同的部署平臺和框架……

垂直大模型大發(fā)展需要應(yīng)對的潛在風(fēng)險更多。就像《生成式人工智能服務(wù)安全基本要求》中提到的,預(yù)訓(xùn)練、優(yōu)化訓(xùn)練等環(huán)節(jié)的輸入端數(shù)據(jù)均納入“訓(xùn)練語料”的范疇,過去靠采集境外數(shù)據(jù)進(jìn)行訓(xùn)練的方案已經(jīng)行不通,勢必要花更多的精力進(jìn)行數(shù)據(jù)采集、清洗、標(biāo)注。數(shù)據(jù)影響著大模型的“智商”,同時也左右著垂直大模型的生死。

相比于巨頭們充沛的資源,大模型創(chuàng)業(yè)者面臨的挑戰(zhàn)將越來越多,現(xiàn)階段是合規(guī),下階段可能就是盈利了。

04、寫在最后

用一句話形容大模型時代的創(chuàng)業(yè)者:表面上鮮花著錦,實際上烈火烹油,從搶跑到碰壁,不過才半年時間。

也許大模型時代不缺少機會,但每一條賽道都不會是康莊大道,不缺少沖出一家家獨角獸的機會,比例上注定是九死一生。結(jié)果大概率和一次次淘金熱一樣,淘到金子的人寥寥無幾,賣水人悄悄發(fā)了財。

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請聯(lián)系原著作權(quán)人。

評論

暫無評論哦,快來評價一下吧!

下載界面新聞

微信公眾號

微博

大模型“淘金”的創(chuàng)業(yè)者,陣痛比紅利來的還早?

“蒙眼狂奔”的選項已經(jīng)消失,必須要謹(jǐn)慎應(yīng)對潛在的合規(guī)和安全風(fēng)險。

攝影:界面新聞 范劍磊

文|Alter

根據(jù)北京市經(jīng)信局公布的數(shù)據(jù),截止到2023年10月初,國內(nèi)公開的AI大模型數(shù)量已經(jīng)達(dá)到238個。

盡管學(xué)術(shù)界對大模型的參數(shù)量并沒有明確的標(biāo)準(zhǔn),許多10億級參數(shù)的模型并不能和GPT4相提并論,國內(nèi)大模型的爆發(fā)式增長,無疑揭示了一個既定事實:和每一次風(fēng)口出現(xiàn)時一樣,總有人一窩蜂地涌入,試圖在新一輪的創(chuàng)業(yè)潮中搏一個機會。

就像創(chuàng)新工場董事長李開復(fù)的觀點:AI大模型是絕對不能錯過的歷史機遇。因為這將是有史以來最大的平臺革命,它將比Windows、安卓要大10倍甚至更多,它會讓每個應(yīng)用改寫,會重構(gòu)人類的工作,會讓有創(chuàng)意的那些人的聰明才智被放大10倍或者更多......

為了不錯過“百年一見”的歷史機遇,一場“百模大戰(zhàn)”正在上演,可問題在于:當(dāng)前的大模型戰(zhàn)場,當(dāng)真是屬于創(chuàng)業(yè)者的機會嗎?

01、“插件”更像是一種過渡

大模型的爆火,屬于多種因素疊加的結(jié)果,其中讓大多數(shù)人印象深刻的標(biāo)志性事件有兩個:一個是ChatGPT的走紅,月活用戶量在兩個月的時間里就超過一億;另一個是英偉達(dá)CEO黃仁勛的比喻,認(rèn)為“AI的iPhone時刻已經(jīng)來臨”。

冷靜下來思考,這兩個事件都有著鮮明的移動互聯(lián)網(wǎng)色彩,將月活視為一個產(chǎn)品成敗的標(biāo)準(zhǔn),將某個產(chǎn)品的爆炸性增長視為市場需求被激活的晴雨表。這樣的邏輯是否合理還不得而知,但深深影響了大模型商業(yè)模式的構(gòu)建。

于是,很多大模型都在打造自己的“應(yīng)用中心”。OpenAI上線了ChatGPT插件,付費用戶可以調(diào)用插件解決某類需求,目前ChatGPT上已經(jīng)有近1000個插件;國內(nèi)的百度也在積極布局,發(fā)布文心一言插件生態(tài)平臺“靈境矩陣”,并計劃提供百億流量、億元基金等激勵來扶持插件生態(tài)。

個中緣由并不難理解。

無論是站在移動互聯(lián)網(wǎng)塔尖的蘋果,還是出貨量穩(wěn)居前五的安卓廠商,無不構(gòu)建了應(yīng)用市場的變現(xiàn)模式,衍生出了廣告排名、支付分成、游戲聯(lián)運等多種盈利方式。甚至微信這樣的超級APP,也通過小程序?qū)崿F(xiàn)了類似的機制。

就現(xiàn)階段來看,像手機廠商一樣經(jīng)營“插件生態(tài)”,可能是大模型平臺當(dāng)下的最佳選項,而開發(fā)者同樣樂見其成。

就像移動互聯(lián)網(wǎng)催生的流量紅利,灌溉了大大小小的應(yīng)用,倘若大模型可以沿著移動互聯(lián)網(wǎng)的軌跡增長,大概率將帶來了新一輪的紅利。為大模型平臺開發(fā)插件,可能會得到平臺的流量傾斜,拿到大模型時代的門票,乃至通過“降維打擊”的方式顛覆固有的市場格局。

問題在于,大模型平臺能否成為占領(lǐng)用戶習(xí)慣的入口?在互聯(lián)網(wǎng)和移動互聯(lián)網(wǎng)時代,入口一詞頻頻被提及,可以細(xì)分為內(nèi)容、應(yīng)用、操作系統(tǒng)、硬件四個維度,充當(dāng)著用戶獲取信息、解決問題的第一觸點。

眼下的挑戰(zhàn)在于,坊間普遍認(rèn)為通用大模型會趨向寡頭化,最終只剩下兩到三家,開發(fā)者選擇加入哪個大模型插件生態(tài),就像是一場豪賭。畢竟ChatGPT的訪問量已經(jīng)連續(xù)三個月下滑,而且功能相似的聊天機器人應(yīng)用仍層出不窮,在大多數(shù)用戶的習(xí)慣養(yǎng)成前,無法斷言哪個大模型會是最后的贏家。

把視野再放大一些的話,聊天機器人可能并不是大模型的終極應(yīng)用,更像是一個啟蒙產(chǎn)品。

比如華為已經(jīng)將大模型和語音助手小藝融合,不排除越來越多的智能手機、智能音箱、智能家居類廠商有同樣的計劃,語音助手逐漸成為人們喚醒大模型的主流方式;再比如一些人鼓吹的Agent,即可以能自主理解、規(guī)劃決策、執(zhí)行復(fù)雜任務(wù)的智能體,自動幫主人處理一些繁瑣的流程性工作。

無論是哪一種情況,都意味著插件不過是一種過渡,用戶需要的只是連接某個服務(wù),不需要知道服務(wù)來自哪個插件。先調(diào)用某個插件才能獲得某項能力的交互,注定是大模型初級階段的產(chǎn)物。

02、垂直大模型是金礦嗎?

事實似乎也是如此。不管是ChatGPT還是同類產(chǎn)品,插件的主要貢獻(xiàn)者集中在獨立開發(fā)者和人數(shù)較少的小團(tuán)隊,那些手握上千萬用戶和海量數(shù)據(jù)的產(chǎn)品,好像對插件背后的機會窗口不太感興趣。

畢竟插件生態(tài)的主導(dǎo)者是通用大模型,插件的作用可以歸類為AI+的范疇,目的是為了擴展大模型的多元能力。借用百度集團(tuán)資深副總裁何俊杰的觀點:“如果說大模型是一顆聰明的大腦,那么插件就是大模型的手和腳?!?/p>

典型的例子就是文檔處理類的插件,調(diào)用大模型的能力對用戶的文檔進(jìn)行處理,再基于文檔完成摘要、問答、創(chuàng)作等任務(wù)。插件扮演的終歸是工具的角色,而工具類產(chǎn)品的宿命普遍不太樂觀:風(fēng)口期收獲了大把的流量,但大多數(shù)工具沒能走通變現(xiàn)的路子,風(fēng)口過后還要買流量來維持增長。

有野心的開發(fā)者不甘心做插件,做通用大模型的“寄生品”,瞄準(zhǔn)了更有吸引力的選擇:

一種是基于大模型的能力開發(fā)獨立應(yīng)用,或為自己的應(yīng)用接入大模型廠商的API,進(jìn)而提升產(chǎn)品的服務(wù)能力;另一種是在通用大模型或開源大模型的基礎(chǔ)上,訓(xùn)練適用于垂直場景的模型。據(jù)說北京市已經(jīng)有115個AI大模型,其中垂直大模型占到了103個。

前者的挑戰(zhàn)在于,目前的產(chǎn)品主要集中在對話型、繪畫類產(chǎn)品上,且以To C場景為主。只不過C端用戶仍以閑聊、娛樂為主,尚未產(chǎn)生實實在在的生產(chǎn)力,導(dǎo)致付費意愿通常比較低。同時還存在產(chǎn)品同質(zhì)化的現(xiàn)象,以閑聊類產(chǎn)品為例,早期的產(chǎn)品普遍基于公開語料,假如用戶的提問難以產(chǎn)生有價值的數(shù)據(jù),差異化也就無從談起。

To B漸漸成了行業(yè)內(nèi)心照不宣的選項。

大模型的能力聽起來很美好,大多數(shù)企業(yè)卻用不起來,原因在于通用大模型無法很好地解決垂類問題。對于B端企業(yè)來說,可以將自己服務(wù)行業(yè)的專業(yè)知識灌輸給大模型做進(jìn)一步的訓(xùn)練與微調(diào),訓(xùn)練完后在本地進(jìn)行私有部署,再來解決對應(yīng)垂類問題。

這就為垂直大模型提供了充足的想象空間,也是創(chuàng)業(yè)者扎堆的賽道。B端企業(yè)的場景比較明確,并且積累了海量的數(shù)據(jù),既能為大模型訓(xùn)練提供數(shù)據(jù),還提供了大模型效果的檢驗場。

相對不那么樂觀的是,現(xiàn)階段愿意為大模型付費的,還只有金融為首的個別場景,不少行業(yè)還在觀望中。以金融大模型為例,目前發(fā)布了金融大模型的企業(yè)有螞蟻集團(tuán)、Bloomberg、MorganStanley、Lemonade、蘇黎世保險、度小滿、瑞穗金融集團(tuán)等,要么手握海量金融數(shù)據(jù),要么有自研大模型的背景,都不是靠一腔熱血闖進(jìn)市場的創(chuàng)業(yè)者。

簡而言之,大模型的想象空間越大,想要從中尋找機會的企業(yè)就越多,留給創(chuàng)業(yè)者的機會窗口并沒有太多。況且還有一個無法規(guī)避的問題:在和大廠同臺競爭的過程中,創(chuàng)業(yè)者有資本試錯嗎?通往大模型的遠(yuǎn)方有千萬條路,也意味著會有千萬個死胡同。

03、創(chuàng)業(yè)者“無法承受之痛”

首當(dāng)其沖的正是合規(guī)問題。國內(nèi)在7月初出臺了大模型備案要求,依靠API接口獲取境外大模型能力的模式受到挑戰(zhàn),導(dǎo)致年初時就接入OpenAI做應(yīng)用的團(tuán)隊,在不同程度上陷入了困境。

比如某在線設(shè)計平臺,曾是國內(nèi)最早推出AI生圖的產(chǎn)品之一,并圍繞AI生圖搭建了社區(qū)生態(tài)。但在9月初的時候,這家平臺突然宣布“網(wǎng)站維護(hù)”,一直到一個多月后,依然是“網(wǎng)站升級中”的狀態(tài)。而在每天都有新事物出現(xiàn)的大模型行業(yè),早期的先發(fā)優(yōu)勢正不可避免地隨著時間消亡。

和過往幾次“風(fēng)口”最大的不同,在大模型的曙光面前,創(chuàng)業(yè)者很興奮,監(jiān)管卻很理性,為了避免大模型市場重蹈野蠻生長的局面,避免大模型走向失控,相關(guān)政策和法規(guī)密集出臺。

就在不久前,科技部、工信部、教育部等10部門聯(lián)合印發(fā)《科技倫理審查辦法(試行)》,明確提到:算法、模型和系統(tǒng)的設(shè)計、實現(xiàn)、應(yīng)用等遵守公平、公正、透明、可靠、可控等原則,符合國家有關(guān)要求,倫理風(fēng)險評估審核和應(yīng)急處置方案合理,用戶權(quán)益保護(hù)措施全面得當(dāng)?shù)取?/p>

幾乎在同一時間,全國信息安全標(biāo)準(zhǔn)化技術(shù)委員會發(fā)布了《生成式人工智能服務(wù)安全基本要求》(征求意見稿),涉及語料安全、模型安全、安全措施、安全評估等多個方面。

其中在語料安全要求中,不僅明確提出語料可溯源,包括開源語料和自采語料,還提出要建立語料來源黑名單,不使用黑名單來源的數(shù)據(jù)進(jìn)行訓(xùn)練?!皯?yīng)對各來源語料進(jìn)行安全評估,單一來源語料內(nèi)容中含違法不良信息超過5%的,應(yīng)將該來源加入黑名單?!?/p>

也就是說,在監(jiān)管趨嚴(yán)的背景下,等待開發(fā)者的不單單是備案問題,而是系統(tǒng)性的合規(guī)要求。無論是調(diào)用大模型API做創(chuàng)新的應(yīng)用層開發(fā)者,還是想在垂直領(lǐng)域分一杯羹的垂類大模型,“蒙眼狂奔”的選項已經(jīng)消失,必須要謹(jǐn)慎應(yīng)對潛在的合規(guī)和安全風(fēng)險。

如果開發(fā)者基于某個不合規(guī)的通用大模型訓(xùn)練產(chǎn)品,為了滿足合規(guī)需求而切換大模型的話,需要重新處理數(shù)據(jù),因為不同大模型的訓(xùn)練數(shù)據(jù)不同,開發(fā)者需要重新對數(shù)據(jù)進(jìn)行清洗、預(yù)處理和標(biāo)注;需要基于新模型訓(xùn)練和調(diào)優(yōu),包括訓(xùn)練算法、超參數(shù),以及反復(fù)的實驗和調(diào)整;在模型部署和應(yīng)用過程中,還要考慮不同的部署平臺和框架……

垂直大模型大發(fā)展需要應(yīng)對的潛在風(fēng)險更多。就像《生成式人工智能服務(wù)安全基本要求》中提到的,預(yù)訓(xùn)練、優(yōu)化訓(xùn)練等環(huán)節(jié)的輸入端數(shù)據(jù)均納入“訓(xùn)練語料”的范疇,過去靠采集境外數(shù)據(jù)進(jìn)行訓(xùn)練的方案已經(jīng)行不通,勢必要花更多的精力進(jìn)行數(shù)據(jù)采集、清洗、標(biāo)注。數(shù)據(jù)影響著大模型的“智商”,同時也左右著垂直大模型的生死。

相比于巨頭們充沛的資源,大模型創(chuàng)業(yè)者面臨的挑戰(zhàn)將越來越多,現(xiàn)階段是合規(guī),下階段可能就是盈利了。

04、寫在最后

用一句話形容大模型時代的創(chuàng)業(yè)者:表面上鮮花著錦,實際上烈火烹油,從搶跑到碰壁,不過才半年時間。

也許大模型時代不缺少機會,但每一條賽道都不會是康莊大道,不缺少沖出一家家獨角獸的機會,比例上注定是九死一生。結(jié)果大概率和一次次淘金熱一樣,淘到金子的人寥寥無幾,賣水人悄悄發(fā)了財。

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請聯(lián)系原著作權(quán)人。