正在閱讀:

Sora后觀察:AI大模型產(chǎn)業(yè)落地的八個錨點

掃一掃下載界面新聞APP

Sora后觀察:AI大模型產(chǎn)業(yè)落地的八個錨點

技術(shù)要突破,落地要實際。

文 | 產(chǎn)業(yè)家 斗斗

編輯 | 皮爺

“電影講述了一名30歲男士的太空歷險記,他身穿紅色羊毛針織,戴著摩托車頭盔,放眼望去只有藍天和鹽漠。請制作出色彩鮮艷的電影風格短片,用35毫米的膠片拍攝?!?/p>

這段提示詞來自O(shè)penAI 首個文生視頻模型 Sora的介紹頁面。在提示詞對應的視頻中,視頻播放流暢、畫質(zhì)清晰、視頻長度、連貫性、多鏡頭切換等方面的出色表現(xiàn)讓人驚嘆。

值得注意的是,在Pika發(fā)布產(chǎn)品后的短短不到3個月時間里,OpenAI Sora 在視頻時長、視頻畫幅、擴展視頻能力等方面就邁出了堪稱“王炸”新一步。

資本市場顯示,隨著AI視頻模型Sora的炸裂登場,A股掀起AI熱潮,盤中人工智能指數(shù)一度漲超7%,多只個股漲停。

2024年的大門,已然由人工智能大模型“文生視頻”敲響。一個嶄新時代正在來臨。

過去的一年,從生成式AI的爆發(fā)性創(chuàng)新,到模型小型化與場景化應用的深度融合,再到開源生態(tài)的繁榮和跨領(lǐng)域的協(xié)同效應,AI大模型正以前所未有的速度重塑世界。

在這個歷史性的轉(zhuǎn)折點上,也在Sora出現(xiàn)的節(jié)點,我們試圖深入剖析AI大模型發(fā)展的8個錨點:在已經(jīng)拉開帷幕的2024年,AI技術(shù)的發(fā)展標志將會是什么?將會在哪里?以及通向AGI,當下的世界將會走出哪幾條路?

毫無疑問,一輪新的AI生產(chǎn)力革命正在到來。

一、垂直模型走出來,加速大模型落地

一個市場共識是,在通用大模型領(lǐng)域,鑒于高昂的研發(fā)資金壁壘,只有少數(shù)科技巨頭有望在競爭中勝出,因為基礎(chǔ)大模型對于需求多元的廣大中小企業(yè)來說并不具備廣泛適用性。

就目前來看,市面上的主流大模型廠商互聯(lián)網(wǎng)廠商幾乎占據(jù)半壁江山,例如百度文心大模型、阿里通義大模型、騰訊混元大模型等。

客觀來看,通用大模型往往難以精準解決所有企業(yè)的具體問題,企業(yè)選擇大模型時,關(guān)鍵考量因素還包括其對行業(yè)特性的契合度、數(shù)據(jù)安全策略、迭代升級能力以及綜合成本效益等。

能夠預知的是,今年大模型發(fā)展將會愈發(fā)呈現(xiàn)顯著的細分化趨勢,主要分為通用型、專用型以及針對特定場景設(shè)計的模型。

垂直行業(yè)的專業(yè)模型將在推動大模型廣泛應用方面扮演重要角色,通過整合通用公域數(shù)據(jù)與行業(yè)專有數(shù)據(jù),共同構(gòu)建起產(chǎn)業(yè)級大模型訓練所需的數(shù)據(jù)基礎(chǔ)。

例如,在醫(yī)療行業(yè)中,由潤達醫(yī)療聯(lián)手華為云研發(fā)的“良醫(yī)小慧”就是一款專注于醫(yī)療檢驗領(lǐng)域的垂直大模型,它基于盤古大模型和慧檢檢驗知識圖譜進行構(gòu)建。同樣地,在教育領(lǐng)域,網(wǎng)易有道推出的首個經(jīng)官方備案的教育垂直大模型——“子曰”,已經(jīng)成功應用于智能硬件及App產(chǎn)品之中。

來源:億歐·TE《AIGC商業(yè)落地產(chǎn)業(yè)圖譜2.0》

供應鏈管理方面,企企通憑借其在數(shù)字采購方面的“多邊賦能”戰(zhàn)略,很可能已在探索或已研發(fā)出專門針對采購和供應鏈管理流程優(yōu)化的垂直AI模型。在旅游行業(yè),攜程推出的首個旅游垂直大模型“攜程問道”,為用戶提供全程智能化的服務(wù)支持,從出行前的規(guī)劃到旅途中的服務(wù)再到行程后的反饋,都體現(xiàn)了AI技術(shù)對旅游業(yè)深度變革的影響。

這種行業(yè)垂直模型在新的一年里將成為技術(shù)突破之外的一個核心落地趨勢,即專注行業(yè)、專注產(chǎn)業(yè)、專注垂直數(shù)據(jù)。如企業(yè)安全管理、財稅管理等領(lǐng)域,這些更為精密的領(lǐng)域或?qū)⒃?024年出現(xiàn)新的AI機會。

二、AI Agent,C端AI應用跑向全面商業(yè)化

隨著深度學習、強化學習等人工智能理論研究的發(fā)展,以及大模型如GPT系列、Alpha系列等在實踐中的成功運用,如今的AI Agent已經(jīng)具備了較為成熟的知識表示、學習和推理能力。

從國外視角來看,如今OpenAI的GPT-3已用于生成代碼、文本創(chuàng)作等多種場景,可以作為成熟的C端工具被人們使用,

除了單純工具層面的使用,伴隨著技術(shù)突破和應用逐漸落地,AI Agent正逐步實現(xiàn)視覺、聽覺、語言等多模態(tài)信息的綜合處理,使其能夠理解并適應更為復雜的現(xiàn)實環(huán)境,并應用于C端市場。

例如,谷歌提出的CoCa就是結(jié)合圖像和文字理解的多模態(tài)預訓練模型,其應用場景正在不斷拓寬。在客戶服務(wù)、教育、醫(yī)療、工業(yè)制造等領(lǐng)域,基于AI Agent的智能客服系統(tǒng)、教學助手、診斷輔助工具、自動化生產(chǎn)線決策支持系統(tǒng)等開始規(guī)?;渴鸷蛻?。

此外,在2024年,還能明確看到的是AI Agent不僅體現(xiàn)在軟件工具層面的進步,也伴隨著智能硬件設(shè)備(如機器人、無人機)的智能化升級,實現(xiàn)了軟硬一體的集成應用,進一步推動其實用化進程。例如,自動駕駛車輛中的決策系統(tǒng)、家庭服務(wù)機器人中的交互模塊等。

無論是理論基礎(chǔ)的夯實、技術(shù)產(chǎn)品的推出,還是實際案例的豐富、產(chǎn)業(yè)鏈條的完善,都充分表明AI Agent正逐步從理論研究走向?qū)嵱没A段。

國內(nèi)企業(yè)也更在加速競爭這一市場,如釘釘、飛書、金山辦公等AI Agent的應用。

釘釘在其產(chǎn)品中接入了名為“通義千問”的大模型。通過集成這一強大的AI技術(shù),釘釘能夠為用戶提供更加智能的協(xié)同服務(wù),例如智能客服、語音轉(zhuǎn)文字、會議紀要自動生成、智能日程管理等。

此外,“通義千問”還可能幫助用戶在工作場景下進行復雜問題的解答,提供跨部門信息查詢以及根據(jù)業(yè)務(wù)需求定制化的解決方案。

飛書則推出了智能助手“MyAI”。它能夠理解并執(zhí)行用戶的自然語言指令,處理日常工作流程中的任務(wù),比如文件檢索、項目進度跟蹤、內(nèi)部溝通協(xié)調(diào)等,并且結(jié)合機器學習能力不斷優(yōu)化用戶體驗。據(jù)了解,如今飛書的MyAI也在不斷實現(xiàn)更高級別的自動化辦公功能,如預測團隊工作負荷、智能推薦工作流程優(yōu)化方案等。

諸如此類的落地案例都正在生成熟過程中,而伴隨著軟件和硬件形態(tài)的成熟,AI Agent也正在從單純的“炫技”走進實用階段。

三、MaaS模式走向成熟,“AI+云”普惠化加速

MaaS(Model-as-a-Service,模型即服務(wù))是一種云計算模式,通過將預先訓練好的AI模型以API或SDK形式提供給開發(fā)者和企業(yè)用戶使用,使得他們無需從零開始構(gòu)建復雜的機器學習模型,可以快速地將AI技術(shù)集成到自己的產(chǎn)品和服務(wù)中。

具體來看,MaaS簡化了AI的使用流程,無需用戶擁有深厚的AI技術(shù)和大量計算資源來訓練模型,降低了企業(yè)和個人應用AI技術(shù)的難度和成本。MaaS還提供標準化接口,用戶可以根據(jù)自身需求靈活調(diào)用不同的模型服務(wù),節(jié)省了大量的研發(fā)時間和資金投入。

用戶不必在本地維護和運行復雜的模型,而是通過云端服務(wù)按需調(diào)用,實現(xiàn)了計算資源的有效利用和經(jīng)濟高效。MaaS模式能夠支持不同行業(yè)、不同規(guī)模的企業(yè)快速實現(xiàn)業(yè)務(wù)智能化,例如精準營銷、風險評估、智能客服等場景,進一步加速AI在各行業(yè)的普及和應用。

此模式下,服務(wù)商負責模型的持續(xù)優(yōu)化和更新,用戶只需關(guān)注業(yè)務(wù)邏輯和最終效果,可以享受到最新的AI成果和技術(shù)進步帶來的好處。

從云廠商來看,華為、騰訊云、阿里云、百度智能云等一眾大廠都在提供此類服務(wù)。專業(yè)廠商燧原科技也在其“曜圖 文生圖MaaS平臺”上提供了基于大模型的服務(wù)。此外,還有許多專注于特定領(lǐng)域或行業(yè)的初創(chuàng)公司和傳統(tǒng)軟件服務(wù)商也開始提供MaaS相關(guān)服務(wù)。

能夠預知的是,這種模式也將成為云廠商的一種新型服務(wù)模型,在SaaS、PaaS、IaaS之外,為企業(yè)提供新型的付費模式,對云計算場而言,這恰是一個新的發(fā)展和市場拓展方向。

四、大模型“裝進”終端,殺手級大模型應用誕生

2023年以來,諸多模型廠商、硬件廠商,都相繼發(fā)布將大模型裝進終端的愿景。芯片廠商如英偉達、英特爾和安謀等都在積極研發(fā)終端AI芯片產(chǎn)品,有力地支持了大模型在消費電子市場中的廣泛應用。

隨著技術(shù)的進步和優(yōu)化,包括模型小型化、輕量化、邊緣計算能力增強以及低功耗設(shè)計的發(fā)展,越來越多的大模型或其簡化版本有望嵌入到個人電腦、智能手機、AR眼鏡、家電等各種智能終端中。

此外,業(yè)界專家對于大模型在更多垂直領(lǐng)域的應用也持樂觀態(tài)度,就目前而言智譜、通義等國內(nèi)大模型廠商,已經(jīng)逐漸推出適配手機終端的“輕量級”模型。

而在手機廠商一側(cè),小米公布了其歷史上首個GPT大模型產(chǎn)品MiLM;OPPO發(fā)布了個性專屬大模型與智能體即安第斯大模型(AndesGPT);vivo 正式發(fā)布了自研AI大模型藍心 BlueLM;榮耀Magic6支持榮耀自研的7B端側(cè)AI大模型;華為宣布盤古大模型也開始融入到智能手機中……

這種趨勢下,預計2024年會有更多的定制化、行業(yè)化的“輕量級”大模型實現(xiàn)商業(yè)落地,為用戶帶來更加個性化、高效且實時的本地智能服務(wù)。

隨著這一愿景的落地,一些過去較難實現(xiàn)的技術(shù)也將照進現(xiàn)實。

例如高度個性化、能夠深度理解用戶需求的語音助手,可以更精準地預測用戶行為和提供決策建議,幫助處理日常事務(wù)、制定行程規(guī)劃等;

在醫(yī)療、法律、教育等領(lǐng)域,大模型可以作為專家系統(tǒng),直接在移動設(shè)備上提供專業(yè)的咨詢服務(wù),例如基于患者癥狀即時給出初步診斷建議或法律咨詢意見;

大模型驅(qū)動的圖像生成、視頻剪輯、文字寫作等創(chuàng)作工具,讓用戶通過簡單的指令就能生成高質(zhì)量的內(nèi)容,比如一鍵生成營銷海報、自動生成短視頻劇本等;

家庭智能設(shè)備中集成的大模型可實現(xiàn)自主學習與優(yōu)化家庭環(huán)境,包括節(jié)能管理、安全防護、舒適生活體驗等方面的自動化決策,并具備更強的理解和交互能力;

企業(yè)級軟件中的大模型應用,如財務(wù)分析、市場趨勢預測、客戶關(guān)系管理等,可在移動端快速響應復雜問題,為管理者提供實時決策支持。

總之,在2024年,大模型與終端設(shè)備相結(jié)合的應用場景將進一步豐富和深化,從理論走向?qū)嵺`,并可能催生出新的殺手級應用產(chǎn)品和服務(wù)。這其中尤其以手機廠商和智能家居廠商為代表,作為上一個時代的入口,他們也更在致力于成為AI時代的新入口。

五、多模態(tài)大模型,重新定義人與機器交互

伴隨著Sora的出現(xiàn),能夠感知到的是,除了在計算機視覺、自然語言處理等特定領(lǐng)域模型的發(fā)展,多模態(tài)大模型的進一步交叉融合或?qū)⒊蔀?024年未來重要的實踐方向。

不同于傳統(tǒng)的交互方式通常局限于單一模態(tài),比如鍵盤輸入或觸摸屏操作。多模態(tài)大模型可以整合并理解多種不同的輸入模式(如語音、圖像、文本、手勢等),從而模仿人類自然交流的復雜性和豐富性,接近于我們?nèi)粘I钪信c他人交流的方式。

正如文章開篇所言,OpenAI Sora 便是多模態(tài)大模型的典型案例。而從資本對其的態(tài)度,就不難看出其未來落地的巨大商業(yè)價值。

可以預見,未來多模態(tài)大模型可以識別和響應用戶的聲音指令、面部表情、肢體動作甚至是眼神接觸,使用戶能夠像與真人交談一樣與機器互動,極大地提高了交互的自然度和舒適感。

還能夠融合不同模態(tài)的信息來提取更深層次的意義,例如通過結(jié)合視覺和聽覺信息理解上下文,使得機器能更好地解析用戶意圖,即使在模糊、嘈雜或非正式的情境下也能進行有效溝通。

基于深度學習的大模型可以根據(jù)用戶的習慣和偏好進行自我優(yōu)化和個性化服務(wù),提供更加精準的反饋和建議,實現(xiàn)動態(tài)且個性化的交互過程。

對于有特殊需求的用戶,如殘障人士,多模態(tài)交互提供了更多樣化的交互手段,允許他們通過最適合自己的方式進行交流,從而提升技術(shù)的包容性和可達性。

在虛擬現(xiàn)實(VR)和增強現(xiàn)實(AR)環(huán)境中,多模態(tài)大模型能夠通過感知用戶的全面感官輸入來創(chuàng)建高度沉浸式的環(huán)境,實現(xiàn)實時反饋和交互。

在團隊協(xié)作和遠程辦公場景中,多模態(tài)系統(tǒng)能夠捕捉和解釋多個人同時發(fā)出的不同模態(tài)信號,促進高效溝通和協(xié)作。

這種多模態(tài)大模型,將使得未來人與機器之間的交互方式將更加豐富,或通過文字、視覺、語音等多維度溝通,進而提升效率。

目前大廠也在紛紛布局,如阿里云達摩院在自然語言處理、圖像識別等領(lǐng)域有豐富的多模態(tài)技術(shù)應用,并已推出了相應的服務(wù)和產(chǎn)品;騰訊優(yōu)圖在計算機視覺和多模態(tài)智能方面有深度研究,其產(chǎn)品和服務(wù)涵蓋了從內(nèi)容理解到社交互動等多個應用場景;百度的大規(guī)模預訓練模型如ERNIE-ViLG等具備多模態(tài)理解和生成能力,服務(wù)于搜索、廣告、地圖等多種場景。

六、大模型訓練數(shù)據(jù)付費:數(shù)據(jù)價值提上新高度

2023年年末,OpenAI與AxelSpringer簽訂的一個協(xié)議表明,人工智能在使用媒體品牌內(nèi)容進行大模型訓練時將需要向媒體品牌付費,這意味著AI大模型向數(shù)據(jù)提供方的知識產(chǎn)權(quán)付費或?qū)⒊蔀樾袠I(yè)趨勢。

2023年,國內(nèi)多地出臺促進 AI 技術(shù)發(fā)展的政策文件,如《北京市促進通用人工智能創(chuàng)新發(fā)展的若干措施》和《深圳市加快推動人工智能高質(zhì)量發(fā)展水平應用行動方案》,其中均提到“ 高質(zhì)量數(shù)據(jù)集”。

此外,國家網(wǎng)信辦等七部門聯(lián)合發(fā)布的《生成式人工智能服務(wù)暫行管理辦法》規(guī)定了生成式 AI 服務(wù)提供者不得侵害他人知識產(chǎn)權(quán)。

可見,當前 AI 政策密集出臺,高質(zhì)量數(shù)據(jù)集和訓練數(shù)據(jù)版權(quán)問題得到重視,未來優(yōu)質(zhì)訓練數(shù)據(jù)庫的價值將得到凸顯。

目前在大模型訓練過程中,特別是在深度學習領(lǐng)域中,針對大規(guī)模數(shù)據(jù)的管理和訪問效率,一些向量數(shù)據(jù)庫以及分布式存儲系統(tǒng)表現(xiàn)較為突出,例如騰訊云推出的向量數(shù)據(jù)庫服務(wù)和阿里云分布式NoSQL數(shù)據(jù)庫等等。

此外,數(shù)據(jù)問題不單純是數(shù)據(jù)庫的問題,在2024年一些關(guān)于數(shù)據(jù)的隱私保護和確權(quán)問題也更將浮上水面:比如AI大模型廠商到底可以使用怎樣的數(shù)據(jù)進行訓練,專有數(shù)據(jù)集的來源在哪里,以及如何通過標注等獲得更好的數(shù)據(jù)集,甚至基于AI大模型產(chǎn)出的產(chǎn)品,版權(quán)到底屬于誰?

這些數(shù)據(jù)層面的問題將在2024年成為新的AI引爆點。

數(shù)據(jù)顯示,如今AI企業(yè)平均的GPU和TPU成本分別為7.39萬元和2.29萬元,盡管GPU的成本較高,但其在處理并行運算,尤其是深度學習算習法方面的性能表現(xiàn)卓越,使得這一額外的投入成為企業(yè)無法避免的支出。

從市場占有率來看,GPU仍然是深度學習中最受歡迎的處理器架構(gòu)。目前,Nvidia在GPU領(lǐng)域具有較強的競爭優(yōu)勢和品牌影響力,但實際應用中多元化的供應商選擇依然存在。

七、B端,成為大模型核心主戰(zhàn)場

在過去的一年,大模型在B端雖然已有一些成功的案例,但整體上大模型在垂直領(lǐng)域的定制化和實用性還處于發(fā)展階段,此外數(shù)據(jù)隱私和安全法規(guī)可能還未完全跟上技術(shù)發(fā)展步伐,企業(yè)在應用大模型時面臨合規(guī)挑戰(zhàn)。

更為重要的是,企業(yè)內(nèi)部對新技術(shù)的認知和接受程度不一,大規(guī)模部署仍需時間培養(yǎng)市場信心和技術(shù)準備。相關(guān)產(chǎn)業(yè)鏈配套尚待完善,包括硬件算力、軟件生態(tài)、人才儲備等方面需要進一步積累和發(fā)展。

而隨著技術(shù)成熟度提升,大模型技術(shù)在2024年預計將達到更高的成熟度,不僅模型的性能和泛化能力更強,而且在垂直領(lǐng)域應用中具備更好的適應性和針對性。這使得大模型能更有效地解決B端業(yè)務(wù)中的復雜問題。

除此之外,隨著數(shù)字化轉(zhuǎn)型的深入,B端企業(yè)積累了大量的行業(yè)和業(yè)務(wù)數(shù)據(jù)。未來,大模型將能夠更好地利用這些數(shù)據(jù)進行深度學習和預測分析,為企業(yè)的決策優(yōu)化、生產(chǎn)效率提高和成本控制提供強大支持。

加之,云計算、邊緣計算等基礎(chǔ)設(shè)施的建設(shè)更加完善,為大模型在終端設(shè)備上的部署提供了條件,使得大模型能夠在各種業(yè)務(wù)場景下實時響應,滿足B端用戶對快速、準確及個性化服務(wù)的需求。

如果說2023年,大模型領(lǐng)域還有一大批創(chuàng)業(yè)者們瞄準C端,那么在2024年,B端將成為最為核心的戰(zhàn)場。對云廠商和軟件廠商而言,在單純的C端聲量之外,其更多的經(jīng)歷也將放到B端的變現(xiàn)和落地上,以試圖將AI轉(zhuǎn)化為真正的成生產(chǎn)力。

寫在最后:

隨著AI應用的深入,對高質(zhì)量、大規(guī)模且具有代表性的訓練數(shù)據(jù)需求更為迫切。然而,獲取和清理這類數(shù)據(jù)的成本高、難度大,尤其在處理多源異構(gòu)、實時流式數(shù)據(jù)時,如何確保數(shù)據(jù)的質(zhì)量、完整性及實時性是持續(xù)存在的問題。

除此之外,雖然算力不斷提升,但面對日益復雜的任務(wù)場景和更精細化的應用需求,提高模型的準確率、魯棒性、效率以及減少資源消耗仍是一大挑戰(zhàn)。尤其是在深度學習領(lǐng)域,大模型訓練成本高昂,模型壓縮與加速、微調(diào)策略等優(yōu)化手段有待進一步發(fā)展和完善。

盡管AI技術(shù)進步迅速,但將先進技術(shù)轉(zhuǎn)化為實際產(chǎn)品和服務(wù)的過程中,需要考慮開發(fā)成本、維護成本、硬件成本等因素,同時還要保證商業(yè)模式可持續(xù)并產(chǎn)生可觀的經(jīng)濟效益,這對AI整個市場的產(chǎn)品化能力和開放環(huán)境提出了考驗。

加之不同行業(yè)有著各自獨特的需求和規(guī)范,AI技術(shù)要成功商業(yè)化,就必須深入了解和適應各行業(yè)的特點,找到切實可行的應用場景,并克服行業(yè)間的壁壘,這同樣是一個艱巨的過程。

總體而言,盡管如今伴隨著Sora的出現(xiàn),能看到的是,AI技術(shù)已經(jīng)取得了顯著進展,但在落地層面,數(shù)據(jù)難題、模型效能的極致追求,以及如何打破實現(xiàn)效果、成本和邊際效應的三角形難題,商業(yè)化的諸多現(xiàn)實問題,仍將成為AI大模型在2024年的核心探索點。

在過去的一年里,我們看到的MaaS、AI Agent、多模態(tài)、開源、參數(shù)比拼、行業(yè)模型……這些關(guān)鍵詞背后對應的也更是對工業(yè)世界的改變和中國產(chǎn)業(yè)數(shù)字化轉(zhuǎn)型的加速推動,我們也更有理由想象相信,在正在進行的2024年,國內(nèi)大模型也將更下沉和落地,在技術(shù)上的突破之外,也會出現(xiàn)更多的向下的產(chǎn)業(yè)兼容和產(chǎn)業(yè)實踐案例,作為新質(zhì)生產(chǎn)力推動產(chǎn)業(yè)數(shù)字化轉(zhuǎn)型的航船加速前進。

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請聯(lián)系原著作權(quán)人。

華為

6.8k
  • 盤前機會前瞻| 華為每年投入超60億激勵開發(fā)者,鴻蒙系統(tǒng)迎來快速釋放期,這幾家鴻蒙產(chǎn)業(yè)鏈企業(yè)有望持續(xù)受益(附概念股)
  • 9月11日投資早報|延遲退休決定草案提請審議,華為發(fā)布全球首款三折疊屏手機,今日一只新股上市

騰訊

6k
  • 司南導航與騰訊云達成戰(zhàn)略合作,將攜手打造基于AI技術(shù)的司南云服務(wù)平臺
  • 專車平臺Blacklane在最新一輪融資中籌集6000萬歐元

阿里巴巴

5.6k
  • 阿里云被惡意造謠涉“非法測繪案”,警方:已對造謠者采取強制措施
  • 南向資金今日凈賣出47.79億港元,阿里巴巴逆市獲凈買入7.41億港元

評論

暫無評論哦,快來評價一下吧!

下載界面新聞

微信公眾號

微博

Sora后觀察:AI大模型產(chǎn)業(yè)落地的八個錨點

技術(shù)要突破,落地要實際。

文 | 產(chǎn)業(yè)家 斗斗

編輯 | 皮爺

“電影講述了一名30歲男士的太空歷險記,他身穿紅色羊毛針織,戴著摩托車頭盔,放眼望去只有藍天和鹽漠。請制作出色彩鮮艷的電影風格短片,用35毫米的膠片拍攝。”

這段提示詞來自O(shè)penAI 首個文生視頻模型 Sora的介紹頁面。在提示詞對應的視頻中,視頻播放流暢、畫質(zhì)清晰、視頻長度、連貫性、多鏡頭切換等方面的出色表現(xiàn)讓人驚嘆。

值得注意的是,在Pika發(fā)布產(chǎn)品后的短短不到3個月時間里,OpenAI Sora 在視頻時長、視頻畫幅、擴展視頻能力等方面就邁出了堪稱“王炸”新一步。

資本市場顯示,隨著AI視頻模型Sora的炸裂登場,A股掀起AI熱潮,盤中人工智能指數(shù)一度漲超7%,多只個股漲停。

2024年的大門,已然由人工智能大模型“文生視頻”敲響。一個嶄新時代正在來臨。

過去的一年,從生成式AI的爆發(fā)性創(chuàng)新,到模型小型化與場景化應用的深度融合,再到開源生態(tài)的繁榮和跨領(lǐng)域的協(xié)同效應,AI大模型正以前所未有的速度重塑世界。

在這個歷史性的轉(zhuǎn)折點上,也在Sora出現(xiàn)的節(jié)點,我們試圖深入剖析AI大模型發(fā)展的8個錨點:在已經(jīng)拉開帷幕的2024年,AI技術(shù)的發(fā)展標志將會是什么?將會在哪里?以及通向AGI,當下的世界將會走出哪幾條路?

毫無疑問,一輪新的AI生產(chǎn)力革命正在到來。

一、垂直模型走出來,加速大模型落地

一個市場共識是,在通用大模型領(lǐng)域,鑒于高昂的研發(fā)資金壁壘,只有少數(shù)科技巨頭有望在競爭中勝出,因為基礎(chǔ)大模型對于需求多元的廣大中小企業(yè)來說并不具備廣泛適用性。

就目前來看,市面上的主流大模型廠商互聯(lián)網(wǎng)廠商幾乎占據(jù)半壁江山,例如百度文心大模型、阿里通義大模型、騰訊混元大模型等。

客觀來看,通用大模型往往難以精準解決所有企業(yè)的具體問題,企業(yè)選擇大模型時,關(guān)鍵考量因素還包括其對行業(yè)特性的契合度、數(shù)據(jù)安全策略、迭代升級能力以及綜合成本效益等。

能夠預知的是,今年大模型發(fā)展將會愈發(fā)呈現(xiàn)顯著的細分化趨勢,主要分為通用型、專用型以及針對特定場景設(shè)計的模型。

垂直行業(yè)的專業(yè)模型將在推動大模型廣泛應用方面扮演重要角色,通過整合通用公域數(shù)據(jù)與行業(yè)專有數(shù)據(jù),共同構(gòu)建起產(chǎn)業(yè)級大模型訓練所需的數(shù)據(jù)基礎(chǔ)。

例如,在醫(yī)療行業(yè)中,由潤達醫(yī)療聯(lián)手華為云研發(fā)的“良醫(yī)小慧”就是一款專注于醫(yī)療檢驗領(lǐng)域的垂直大模型,它基于盤古大模型和慧檢檢驗知識圖譜進行構(gòu)建。同樣地,在教育領(lǐng)域,網(wǎng)易有道推出的首個經(jīng)官方備案的教育垂直大模型——“子曰”,已經(jīng)成功應用于智能硬件及App產(chǎn)品之中。

來源:億歐·TE《AIGC商業(yè)落地產(chǎn)業(yè)圖譜2.0》

供應鏈管理方面,企企通憑借其在數(shù)字采購方面的“多邊賦能”戰(zhàn)略,很可能已在探索或已研發(fā)出專門針對采購和供應鏈管理流程優(yōu)化的垂直AI模型。在旅游行業(yè),攜程推出的首個旅游垂直大模型“攜程問道”,為用戶提供全程智能化的服務(wù)支持,從出行前的規(guī)劃到旅途中的服務(wù)再到行程后的反饋,都體現(xiàn)了AI技術(shù)對旅游業(yè)深度變革的影響。

這種行業(yè)垂直模型在新的一年里將成為技術(shù)突破之外的一個核心落地趨勢,即專注行業(yè)、專注產(chǎn)業(yè)、專注垂直數(shù)據(jù)。如企業(yè)安全管理、財稅管理等領(lǐng)域,這些更為精密的領(lǐng)域或?qū)⒃?024年出現(xiàn)新的AI機會。

二、AI Agent,C端AI應用跑向全面商業(yè)化

隨著深度學習、強化學習等人工智能理論研究的發(fā)展,以及大模型如GPT系列、Alpha系列等在實踐中的成功運用,如今的AI Agent已經(jīng)具備了較為成熟的知識表示、學習和推理能力。

從國外視角來看,如今OpenAI的GPT-3已用于生成代碼、文本創(chuàng)作等多種場景,可以作為成熟的C端工具被人們使用,

除了單純工具層面的使用,伴隨著技術(shù)突破和應用逐漸落地,AI Agent正逐步實現(xiàn)視覺、聽覺、語言等多模態(tài)信息的綜合處理,使其能夠理解并適應更為復雜的現(xiàn)實環(huán)境,并應用于C端市場。

例如,谷歌提出的CoCa就是結(jié)合圖像和文字理解的多模態(tài)預訓練模型,其應用場景正在不斷拓寬。在客戶服務(wù)、教育、醫(yī)療、工業(yè)制造等領(lǐng)域,基于AI Agent的智能客服系統(tǒng)、教學助手、診斷輔助工具、自動化生產(chǎn)線決策支持系統(tǒng)等開始規(guī)?;渴鸷蛻?。

此外,在2024年,還能明確看到的是AI Agent不僅體現(xiàn)在軟件工具層面的進步,也伴隨著智能硬件設(shè)備(如機器人、無人機)的智能化升級,實現(xiàn)了軟硬一體的集成應用,進一步推動其實用化進程。例如,自動駕駛車輛中的決策系統(tǒng)、家庭服務(wù)機器人中的交互模塊等。

無論是理論基礎(chǔ)的夯實、技術(shù)產(chǎn)品的推出,還是實際案例的豐富、產(chǎn)業(yè)鏈條的完善,都充分表明AI Agent正逐步從理論研究走向?qū)嵱没A段。

國內(nèi)企業(yè)也更在加速競爭這一市場,如釘釘、飛書、金山辦公等AI Agent的應用。

釘釘在其產(chǎn)品中接入了名為“通義千問”的大模型。通過集成這一強大的AI技術(shù),釘釘能夠為用戶提供更加智能的協(xié)同服務(wù),例如智能客服、語音轉(zhuǎn)文字、會議紀要自動生成、智能日程管理等。

此外,“通義千問”還可能幫助用戶在工作場景下進行復雜問題的解答,提供跨部門信息查詢以及根據(jù)業(yè)務(wù)需求定制化的解決方案。

飛書則推出了智能助手“MyAI”。它能夠理解并執(zhí)行用戶的自然語言指令,處理日常工作流程中的任務(wù),比如文件檢索、項目進度跟蹤、內(nèi)部溝通協(xié)調(diào)等,并且結(jié)合機器學習能力不斷優(yōu)化用戶體驗。據(jù)了解,如今飛書的MyAI也在不斷實現(xiàn)更高級別的自動化辦公功能,如預測團隊工作負荷、智能推薦工作流程優(yōu)化方案等。

諸如此類的落地案例都正在生成熟過程中,而伴隨著軟件和硬件形態(tài)的成熟,AI Agent也正在從單純的“炫技”走進實用階段。

三、MaaS模式走向成熟,“AI+云”普惠化加速

MaaS(Model-as-a-Service,模型即服務(wù))是一種云計算模式,通過將預先訓練好的AI模型以API或SDK形式提供給開發(fā)者和企業(yè)用戶使用,使得他們無需從零開始構(gòu)建復雜的機器學習模型,可以快速地將AI技術(shù)集成到自己的產(chǎn)品和服務(wù)中。

具體來看,MaaS簡化了AI的使用流程,無需用戶擁有深厚的AI技術(shù)和大量計算資源來訓練模型,降低了企業(yè)和個人應用AI技術(shù)的難度和成本。MaaS還提供標準化接口,用戶可以根據(jù)自身需求靈活調(diào)用不同的模型服務(wù),節(jié)省了大量的研發(fā)時間和資金投入。

用戶不必在本地維護和運行復雜的模型,而是通過云端服務(wù)按需調(diào)用,實現(xiàn)了計算資源的有效利用和經(jīng)濟高效。MaaS模式能夠支持不同行業(yè)、不同規(guī)模的企業(yè)快速實現(xiàn)業(yè)務(wù)智能化,例如精準營銷、風險評估、智能客服等場景,進一步加速AI在各行業(yè)的普及和應用。

此模式下,服務(wù)商負責模型的持續(xù)優(yōu)化和更新,用戶只需關(guān)注業(yè)務(wù)邏輯和最終效果,可以享受到最新的AI成果和技術(shù)進步帶來的好處。

從云廠商來看,華為、騰訊云、阿里云、百度智能云等一眾大廠都在提供此類服務(wù)。專業(yè)廠商燧原科技也在其“曜圖 文生圖MaaS平臺”上提供了基于大模型的服務(wù)。此外,還有許多專注于特定領(lǐng)域或行業(yè)的初創(chuàng)公司和傳統(tǒng)軟件服務(wù)商也開始提供MaaS相關(guān)服務(wù)。

能夠預知的是,這種模式也將成為云廠商的一種新型服務(wù)模型,在SaaS、PaaS、IaaS之外,為企業(yè)提供新型的付費模式,對云計算場而言,這恰是一個新的發(fā)展和市場拓展方向。

四、大模型“裝進”終端,殺手級大模型應用誕生

2023年以來,諸多模型廠商、硬件廠商,都相繼發(fā)布將大模型裝進終端的愿景。芯片廠商如英偉達、英特爾和安謀等都在積極研發(fā)終端AI芯片產(chǎn)品,有力地支持了大模型在消費電子市場中的廣泛應用。

隨著技術(shù)的進步和優(yōu)化,包括模型小型化、輕量化、邊緣計算能力增強以及低功耗設(shè)計的發(fā)展,越來越多的大模型或其簡化版本有望嵌入到個人電腦、智能手機、AR眼鏡、家電等各種智能終端中。

此外,業(yè)界專家對于大模型在更多垂直領(lǐng)域的應用也持樂觀態(tài)度,就目前而言智譜、通義等國內(nèi)大模型廠商,已經(jīng)逐漸推出適配手機終端的“輕量級”模型。

而在手機廠商一側(cè),小米公布了其歷史上首個GPT大模型產(chǎn)品MiLM;OPPO發(fā)布了個性專屬大模型與智能體即安第斯大模型(AndesGPT);vivo 正式發(fā)布了自研AI大模型藍心 BlueLM;榮耀Magic6支持榮耀自研的7B端側(cè)AI大模型;華為宣布盤古大模型也開始融入到智能手機中……

這種趨勢下,預計2024年會有更多的定制化、行業(yè)化的“輕量級”大模型實現(xiàn)商業(yè)落地,為用戶帶來更加個性化、高效且實時的本地智能服務(wù)。

隨著這一愿景的落地,一些過去較難實現(xiàn)的技術(shù)也將照進現(xiàn)實。

例如高度個性化、能夠深度理解用戶需求的語音助手,可以更精準地預測用戶行為和提供決策建議,幫助處理日常事務(wù)、制定行程規(guī)劃等;

在醫(yī)療、法律、教育等領(lǐng)域,大模型可以作為專家系統(tǒng),直接在移動設(shè)備上提供專業(yè)的咨詢服務(wù),例如基于患者癥狀即時給出初步診斷建議或法律咨詢意見;

大模型驅(qū)動的圖像生成、視頻剪輯、文字寫作等創(chuàng)作工具,讓用戶通過簡單的指令就能生成高質(zhì)量的內(nèi)容,比如一鍵生成營銷海報、自動生成短視頻劇本等;

家庭智能設(shè)備中集成的大模型可實現(xiàn)自主學習與優(yōu)化家庭環(huán)境,包括節(jié)能管理、安全防護、舒適生活體驗等方面的自動化決策,并具備更強的理解和交互能力;

企業(yè)級軟件中的大模型應用,如財務(wù)分析、市場趨勢預測、客戶關(guān)系管理等,可在移動端快速響應復雜問題,為管理者提供實時決策支持。

總之,在2024年,大模型與終端設(shè)備相結(jié)合的應用場景將進一步豐富和深化,從理論走向?qū)嵺`,并可能催生出新的殺手級應用產(chǎn)品和服務(wù)。這其中尤其以手機廠商和智能家居廠商為代表,作為上一個時代的入口,他們也更在致力于成為AI時代的新入口。

五、多模態(tài)大模型,重新定義人與機器交互

伴隨著Sora的出現(xiàn),能夠感知到的是,除了在計算機視覺、自然語言處理等特定領(lǐng)域模型的發(fā)展,多模態(tài)大模型的進一步交叉融合或?qū)⒊蔀?024年未來重要的實踐方向。

不同于傳統(tǒng)的交互方式通常局限于單一模態(tài),比如鍵盤輸入或觸摸屏操作。多模態(tài)大模型可以整合并理解多種不同的輸入模式(如語音、圖像、文本、手勢等),從而模仿人類自然交流的復雜性和豐富性,接近于我們?nèi)粘I钪信c他人交流的方式。

正如文章開篇所言,OpenAI Sora 便是多模態(tài)大模型的典型案例。而從資本對其的態(tài)度,就不難看出其未來落地的巨大商業(yè)價值。

可以預見,未來多模態(tài)大模型可以識別和響應用戶的聲音指令、面部表情、肢體動作甚至是眼神接觸,使用戶能夠像與真人交談一樣與機器互動,極大地提高了交互的自然度和舒適感。

還能夠融合不同模態(tài)的信息來提取更深層次的意義,例如通過結(jié)合視覺和聽覺信息理解上下文,使得機器能更好地解析用戶意圖,即使在模糊、嘈雜或非正式的情境下也能進行有效溝通。

基于深度學習的大模型可以根據(jù)用戶的習慣和偏好進行自我優(yōu)化和個性化服務(wù),提供更加精準的反饋和建議,實現(xiàn)動態(tài)且個性化的交互過程。

對于有特殊需求的用戶,如殘障人士,多模態(tài)交互提供了更多樣化的交互手段,允許他們通過最適合自己的方式進行交流,從而提升技術(shù)的包容性和可達性。

在虛擬現(xiàn)實(VR)和增強現(xiàn)實(AR)環(huán)境中,多模態(tài)大模型能夠通過感知用戶的全面感官輸入來創(chuàng)建高度沉浸式的環(huán)境,實現(xiàn)實時反饋和交互。

在團隊協(xié)作和遠程辦公場景中,多模態(tài)系統(tǒng)能夠捕捉和解釋多個人同時發(fā)出的不同模態(tài)信號,促進高效溝通和協(xié)作。

這種多模態(tài)大模型,將使得未來人與機器之間的交互方式將更加豐富,或通過文字、視覺、語音等多維度溝通,進而提升效率。

目前大廠也在紛紛布局,如阿里云達摩院在自然語言處理、圖像識別等領(lǐng)域有豐富的多模態(tài)技術(shù)應用,并已推出了相應的服務(wù)和產(chǎn)品;騰訊優(yōu)圖在計算機視覺和多模態(tài)智能方面有深度研究,其產(chǎn)品和服務(wù)涵蓋了從內(nèi)容理解到社交互動等多個應用場景;百度的大規(guī)模預訓練模型如ERNIE-ViLG等具備多模態(tài)理解和生成能力,服務(wù)于搜索、廣告、地圖等多種場景。

六、大模型訓練數(shù)據(jù)付費:數(shù)據(jù)價值提上新高度

2023年年末,OpenAI與AxelSpringer簽訂的一個協(xié)議表明,人工智能在使用媒體品牌內(nèi)容進行大模型訓練時將需要向媒體品牌付費,這意味著AI大模型向數(shù)據(jù)提供方的知識產(chǎn)權(quán)付費或?qū)⒊蔀樾袠I(yè)趨勢。

2023年,國內(nèi)多地出臺促進 AI 技術(shù)發(fā)展的政策文件,如《北京市促進通用人工智能創(chuàng)新發(fā)展的若干措施》和《深圳市加快推動人工智能高質(zhì)量發(fā)展水平應用行動方案》,其中均提到“ 高質(zhì)量數(shù)據(jù)集”。

此外,國家網(wǎng)信辦等七部門聯(lián)合發(fā)布的《生成式人工智能服務(wù)暫行管理辦法》規(guī)定了生成式 AI 服務(wù)提供者不得侵害他人知識產(chǎn)權(quán)。

可見,當前 AI 政策密集出臺,高質(zhì)量數(shù)據(jù)集和訓練數(shù)據(jù)版權(quán)問題得到重視,未來優(yōu)質(zhì)訓練數(shù)據(jù)庫的價值將得到凸顯。

目前在大模型訓練過程中,特別是在深度學習領(lǐng)域中,針對大規(guī)模數(shù)據(jù)的管理和訪問效率,一些向量數(shù)據(jù)庫以及分布式存儲系統(tǒng)表現(xiàn)較為突出,例如騰訊云推出的向量數(shù)據(jù)庫服務(wù)和阿里云分布式NoSQL數(shù)據(jù)庫等等。

此外,數(shù)據(jù)問題不單純是數(shù)據(jù)庫的問題,在2024年一些關(guān)于數(shù)據(jù)的隱私保護和確權(quán)問題也更將浮上水面:比如AI大模型廠商到底可以使用怎樣的數(shù)據(jù)進行訓練,專有數(shù)據(jù)集的來源在哪里,以及如何通過標注等獲得更好的數(shù)據(jù)集,甚至基于AI大模型產(chǎn)出的產(chǎn)品,版權(quán)到底屬于誰?

這些數(shù)據(jù)層面的問題將在2024年成為新的AI引爆點。

數(shù)據(jù)顯示,如今AI企業(yè)平均的GPU和TPU成本分別為7.39萬元和2.29萬元,盡管GPU的成本較高,但其在處理并行運算,尤其是深度學習算習法方面的性能表現(xiàn)卓越,使得這一額外的投入成為企業(yè)無法避免的支出。

從市場占有率來看,GPU仍然是深度學習中最受歡迎的處理器架構(gòu)。目前,Nvidia在GPU領(lǐng)域具有較強的競爭優(yōu)勢和品牌影響力,但實際應用中多元化的供應商選擇依然存在。

七、B端,成為大模型核心主戰(zhàn)場

在過去的一年,大模型在B端雖然已有一些成功的案例,但整體上大模型在垂直領(lǐng)域的定制化和實用性還處于發(fā)展階段,此外數(shù)據(jù)隱私和安全法規(guī)可能還未完全跟上技術(shù)發(fā)展步伐,企業(yè)在應用大模型時面臨合規(guī)挑戰(zhàn)。

更為重要的是,企業(yè)內(nèi)部對新技術(shù)的認知和接受程度不一,大規(guī)模部署仍需時間培養(yǎng)市場信心和技術(shù)準備。相關(guān)產(chǎn)業(yè)鏈配套尚待完善,包括硬件算力、軟件生態(tài)、人才儲備等方面需要進一步積累和發(fā)展。

而隨著技術(shù)成熟度提升,大模型技術(shù)在2024年預計將達到更高的成熟度,不僅模型的性能和泛化能力更強,而且在垂直領(lǐng)域應用中具備更好的適應性和針對性。這使得大模型能更有效地解決B端業(yè)務(wù)中的復雜問題。

除此之外,隨著數(shù)字化轉(zhuǎn)型的深入,B端企業(yè)積累了大量的行業(yè)和業(yè)務(wù)數(shù)據(jù)。未來,大模型將能夠更好地利用這些數(shù)據(jù)進行深度學習和預測分析,為企業(yè)的決策優(yōu)化、生產(chǎn)效率提高和成本控制提供強大支持。

加之,云計算、邊緣計算等基礎(chǔ)設(shè)施的建設(shè)更加完善,為大模型在終端設(shè)備上的部署提供了條件,使得大模型能夠在各種業(yè)務(wù)場景下實時響應,滿足B端用戶對快速、準確及個性化服務(wù)的需求。

如果說2023年,大模型領(lǐng)域還有一大批創(chuàng)業(yè)者們瞄準C端,那么在2024年,B端將成為最為核心的戰(zhàn)場。對云廠商和軟件廠商而言,在單純的C端聲量之外,其更多的經(jīng)歷也將放到B端的變現(xiàn)和落地上,以試圖將AI轉(zhuǎn)化為真正的成生產(chǎn)力。

寫在最后:

隨著AI應用的深入,對高質(zhì)量、大規(guī)模且具有代表性的訓練數(shù)據(jù)需求更為迫切。然而,獲取和清理這類數(shù)據(jù)的成本高、難度大,尤其在處理多源異構(gòu)、實時流式數(shù)據(jù)時,如何確保數(shù)據(jù)的質(zhì)量、完整性及實時性是持續(xù)存在的問題。

除此之外,雖然算力不斷提升,但面對日益復雜的任務(wù)場景和更精細化的應用需求,提高模型的準確率、魯棒性、效率以及減少資源消耗仍是一大挑戰(zhàn)。尤其是在深度學習領(lǐng)域,大模型訓練成本高昂,模型壓縮與加速、微調(diào)策略等優(yōu)化手段有待進一步發(fā)展和完善。

盡管AI技術(shù)進步迅速,但將先進技術(shù)轉(zhuǎn)化為實際產(chǎn)品和服務(wù)的過程中,需要考慮開發(fā)成本、維護成本、硬件成本等因素,同時還要保證商業(yè)模式可持續(xù)并產(chǎn)生可觀的經(jīng)濟效益,這對AI整個市場的產(chǎn)品化能力和開放環(huán)境提出了考驗。

加之不同行業(yè)有著各自獨特的需求和規(guī)范,AI技術(shù)要成功商業(yè)化,就必須深入了解和適應各行業(yè)的特點,找到切實可行的應用場景,并克服行業(yè)間的壁壘,這同樣是一個艱巨的過程。

總體而言,盡管如今伴隨著Sora的出現(xiàn),能看到的是,AI技術(shù)已經(jīng)取得了顯著進展,但在落地層面,數(shù)據(jù)難題、模型效能的極致追求,以及如何打破實現(xiàn)效果、成本和邊際效應的三角形難題,商業(yè)化的諸多現(xiàn)實問題,仍將成為AI大模型在2024年的核心探索點。

在過去的一年里,我們看到的MaaS、AI Agent、多模態(tài)、開源、參數(shù)比拼、行業(yè)模型……這些關(guān)鍵詞背后對應的也更是對工業(yè)世界的改變和中國產(chǎn)業(yè)數(shù)字化轉(zhuǎn)型的加速推動,我們也更有理由想象相信,在正在進行的2024年,國內(nèi)大模型也將更下沉和落地,在技術(shù)上的突破之外,也會出現(xiàn)更多的向下的產(chǎn)業(yè)兼容和產(chǎn)業(yè)實踐案例,作為新質(zhì)生產(chǎn)力推動產(chǎn)業(yè)數(shù)字化轉(zhuǎn)型的航船加速前進。

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請聯(lián)系原著作權(quán)人。