文|正見TrueView
AI大模型競賽進一步加緊,國內企業(yè)、高校、科研院所、新型研發(fā)機構等均搶灘登陸中。
OpenAI投來的大模型技術沖擊震撼還在持續(xù)。從搜索引擎到office辦公,再到搭載了GPT-4模型全新的代碼編輯器OpenAI Cursor,讓人驚懼交加的技術革命正在逐步由預測變?yōu)楝F(xiàn)實。
業(yè)內曾把國內尚無法直接使用GPT-4當做窗口期,一如互聯(lián)網(wǎng)時代。但近期歐愛運營有限責任公司(OPENAI OPCO,LLC)已在國內申請注冊“GPT-4”商標,國際分類為科學儀器。此前,該公司還申請注冊了一枚國際分類為網(wǎng)站服務的“WHISPER”商標。據(jù)了解Whisper為OpenAI此前發(fā)布的神經(jīng)網(wǎng)絡,聲稱其在英語語音識別方面已接近人類水平。
此舉是否代表著OpenAI將擴大在國內市場的布局讓人遐想。有接近微軟的人士猜測,這可能是為了更好地讓中國用戶接入OpenAI API服務,以開展國內業(yè)務?!爸袊脩裟敲炊啵绻趪鴥雀阋恍┓掌鲿??!?/p>
AI大模型競賽進一步加緊,國內企業(yè)、高校、科研院所、新型研發(fā)機構等均有所動作,同時也被寄予厚望。觀察發(fā)現(xiàn),在技術追趕的過程中,大模型如同航天器一樣,開發(fā)者們在對其命名過程中結合了歷史典故、神話傳說等不同歷史文化,折射出了同一時代下創(chuàng)世者一致的科學夢想。
文心一言——百度
文心一言的模型演進始于2019年的自然語言處理(NLP)大模型ERNIE 1.0,如今已發(fā)展成為包含文本生成、文生圖、智能對話等技能,具備跨模態(tài)、跨語言的深度語義理解與生成能力的大模型平臺。關鍵技術包括SFT(監(jiān)督精調)、RLHF(從人類反饋中進行強化學習)、Prompt(提示構建)、知識增強、檢索增強和對話增強。
對于自己名字的由來,文心一言如此解釋道:“文”是語言文字,“心”是用心理解,“文心”從誕生之初就是致力于理解和運用語言文字的自然語言理解模型,同時也呼應《文心雕龍》,寓意用雕縷龍紋一樣精細的功夫去研究語言文字的內涵和魅力。
“一言”既有“一言為定、一言九鼎”之寓意,也有人機之間“你一言我一語”自由流暢溝通之期盼。文心“一言”既出,即可“一生二、二生三、三生萬言”。
作為“全球大廠中第一個發(fā)布(大語言模型產(chǎn)品)”,且從昆侖芯底層芯片、飛槳深度學習框架、文心預訓練大模型,以及最上層的搜索、智能云、自動駕駛、小度等應用,是全球少有的在人工智能四層架構中全棧布局的企業(yè),市場對百度抱以空前期待,但結果就如同李彥宏在發(fā)布會上所說,體驗“確實不能叫完美”、“訓練是不夠的”,發(fā)布卻又箭在弦上,“為什么要今天發(fā)布?因為有市場需求,有了用戶反饋,文心的成長會很快”。
急于追趕,急于搶占,急于商用,期望門檻高、產(chǎn)品不完美,高舉輕放……或許將是國產(chǎn)大模型領域接下來很長一段時間內所處于的混沌狀態(tài)。
通義——阿里巴巴
2022年9月,阿里巴巴資深副總裁、達摩院副院長周靖人發(fā)布阿里巴巴“通義”大模型系列,由統(tǒng)一底座層、通用模型層、行業(yè)模型層組成,并首次實現(xiàn)了模態(tài)表示、任務表示、模型結構的統(tǒng)一。
“通義”有“普遍適用的道理與法則”之意,如《漢書·卷三十六·楚元王劉交傳》所載,“天地之常經(jīng),古今之通義也?!迸c模型特點相對應。
“通義”大模型統(tǒng)一底座是由統(tǒng)一學習范式和模塊化設計理念構成;通用模型層覆蓋自然語言處理、多模態(tài)、計算機視覺;專業(yè)模型層已在超過200個場景中提供服務。
此前,阿里內測中的達摩院版ChatGPT也被曝光,除了實現(xiàn)類似OpenAI版的對話能力,還融合了多模態(tài)任務能力,能夠實現(xiàn)包括知識問答、AI繪畫、代碼生成、小說續(xù)寫、文案撰寫、寫詩作詞等。
在發(fā)展方向上,周靖人曾表示,對達摩院來說重點不是把模型的規(guī)模做大,而是通過一系列的前沿研究和實踐沉淀更通用更易用的大模型底層技術。阿里達摩院希望將底座做得更實,將更多模態(tài)和任務考慮到統(tǒng)一模型范疇內,通過減少 AI 模型在實際場景落地中的定制化成本,真正體現(xiàn)出大模型的效果。
渾元——騰訊
2022年4月,騰訊首次對外披露“混元”(HunYuan)AI大模型研發(fā)進展,模型包含但不限于:計算機視覺、自然語言處理、多模態(tài)內容理解、文案生成、文生視頻等多個方向,已廣泛應用于騰訊微信搜索、騰訊廣告等業(yè)務場景,用于提升搜索體驗和廣告推薦精準度。
混元AI大模型是基于騰訊“太極”機器學習平臺進行研發(fā)的,因此猜測命名源于道家學說:混元即無極,無極生太極,太極生兩儀,兩儀生四象,四象生八卦,八卦衍萬物。
騰訊太極廣告一站式機器學習平臺
隨著大模型熱度持續(xù)攀升,騰訊也如同遵循著產(chǎn)品命名中蘊含的萬物演變規(guī)律一樣,順勢“透露”??偛脛肫绞状卧诠_場合確認將推出類ChatGPT產(chǎn)品,并表示“騰訊必然會投入各類資源來打造自己的基礎模型技術,未來也會應用于各業(yè)務當中”。除應用于社交、通訊和游戲業(yè)務,聊天機器人、數(shù)字助手、資訊獲取等方面也將是騰訊的嘗試方向。
而在商業(yè)模式上,騰訊沿用互聯(lián)網(wǎng)時代“習慣”,劉熾平提到:“正如互聯(lián)網(wǎng)的發(fā)展一樣,以打造有用的服務為開始,而后思考合適的商業(yè)模式?!?/p>
此后不久,有消息稱騰訊針對類ChatGPT對話式產(chǎn)品已成立“混元助手”(HunyuanAide)項目組。項目組Owner為騰訊首席科學家、騰訊AI Lab及Robotics X實驗室主任張正友博士,他也是騰訊歷史上首位且唯一一位T17級(騰訊最高專業(yè)職級)“研究員/杰出科學家”。
而3月30日,騰訊正式發(fā)布AI智能創(chuàng)作助手“騰訊智影”,推出智影數(shù)字人、文本配音、文章轉視頻等AI創(chuàng)作工具,生成式AI布局加速。
盤古——華為
2021年4月,華為云盤古大模型正式發(fā)布,到2022年發(fā)展出了包括基礎大模型(L0)、行業(yè)大模型(L1)、行業(yè)細分場景模型(L2)三大階段體系。
以“盤古”來命名預訓練大模型,來自于“盤古開天”神話,有解讀該命名寓意著華為將通過輸出技術能力與產(chǎn)業(yè)融合,使AI走向千行百業(yè)打開新空間。
目前在行業(yè)大模型上,共發(fā)布了盤古氣象大模型、盤古礦山大模型、盤古OCR大模型三項。通過智能礦山領域可以窺見的華為行業(yè)大模型發(fā)展模式是——突破應用場景,形成業(yè)務閉環(huán);突破樣本泛化瓶頸,實現(xiàn)解決方案復用;實現(xiàn)“IT+CT+OT”的“3T融合”,即華為擁有以“礦山AI大模型”為代表的IT技術;以5G、F5G為代表的CT技術;以“礦鴻”操作系統(tǒng)為代表OT技術。
此外,華為大模型技術在消費市場的硬件終端應用上也有嘗試。在3月23日華為的春季旗艦手機新品發(fā)布會上,同時發(fā)布了基于多模態(tài)大模型的智慧搜圖功能。
“紅孩兒”——360
3月29日,周鴻祎在一活動現(xiàn)場以“彩蛋”的形式演示了360GPT產(chǎn)品“360搜索”,周鴻祎稱:“很多人關心360的人工智能進展,今天把‘剛出生的孩子’抱出來給大家看看。”這并不能看做是正式的產(chǎn)品發(fā)布,只是演示目前的產(chǎn)品雛形。
360的GPT 產(chǎn)品名字“叫360GPT還是360AI還沒想法,希望大家多提寶貴意見,幫它起個名字”,周鴻祎于現(xiàn)場進行征名,網(wǎng)友在直播間紛紛提議取名為“紅孩兒”。
在發(fā)展人工智能大語言模型上,360的戰(zhàn)略是堅持“兩翼齊飛”戰(zhàn)略,先占據(jù)場景,同步發(fā)力核心算法技術。在To C端,將推出新一代智能搜索引擎,并基于搜索場景推出人工智能個人助理類產(chǎn)品;在To SME端,將基于生成式大模型推出SaaS化垂直應用,如結合生成式AI的“蘇打辦公套件”和“企業(yè)即時通訊工具-推推”等;在To G和To B端,計劃結合數(shù)字安全業(yè)務推出企業(yè)私有化AI服務。
從現(xiàn)場“紅孩兒”的表現(xiàn)看,360GPT產(chǎn)品在“算法技術”上確實不能稱之為成熟,還是個“孩子”。雖然對于基本事實能做出比較準確的回答,也具有一定程度的理解能力,但在現(xiàn)場觀眾“梅西在阿根廷國家隊進了幾個球”的提問上,360“紅孩兒”給出了錯誤答案。不過這并沒有影響其股價應聲上漲,自從2月份宣布類ChatGPT技術布局之后,三六零股價已經(jīng)歷多輪漲停,從最低點的6.3元左右漲至如今的16.5元,漲幅超過160%,市值再次超1000億元。
玉言、子曰——網(wǎng)易
“玉言”大模型的前身是網(wǎng)易伏羲自研的GPT2生成模型,模型規(guī)模從最早的一億參數(shù)增長至千億參數(shù),模型領域從文本拓展到圖文、音樂、行為序列等多種模態(tài)。
“玉言”是對別人所說話的敬稱,常與“金口”連用。該大模型的訓練語料主要來源于小說、百科和新聞等,相關技術已應用在網(wǎng)易集團內的文字游戲、智能NPC、文本輔助創(chuàng)作、音樂輔助創(chuàng)作、美術設計、互聯(lián)網(wǎng)搜索推薦等業(yè)務場景。
日前有消息稱,網(wǎng)易有道自研的教育場景下類ChatGPT模型也將于近期推出,模型名字確定為“子曰”?;凇白釉弧毖邪l(fā)的AI口語老師和中文作文批改DEMO已完成,近期開放內測。
“子曰”在古代是各家學生對老師的尊稱,也十分符合網(wǎng)易有道所研發(fā)的類ChatGPT模型的定位。
在發(fā)展方向上,“子曰”類ChatGPT模型將在網(wǎng)易有道已建立起的“內容+硬件+AI”產(chǎn)業(yè)鏈條上,較快實現(xiàn)商業(yè)化落地。
書生——商湯
3月14日,商湯科技發(fā)布多模態(tài)多任務通用大模型“書生(INTERN)2.5”,其前身“書生”由商湯科技、上海人工智能實驗室、清華大學、香港中文大學、上海交通大學于2021年11月首次發(fā)布,并持續(xù)聯(lián)合研發(fā)。
“書生”命名與研發(fā)團隊學院派的背景一脈相承。官方釋義為——書生作為中國古代讀書人的經(jīng)典形象,代表著一個通過不斷學習、不斷成長進而擁有各方面才能的人格化角色:從基礎的知識技能學習開始,到對多種專業(yè)知識觸類旁通,進而成長為擁有通用知識的通才。
將全新的通用視覺技術體系命名為“書生”,意在體現(xiàn)其如同書生一般的特質,可通過持續(xù)學習,舉一反三,逐步實現(xiàn)通用視覺領域的融會貫通,最終實現(xiàn)靈活高效的模型部署。
“書生2.5”具備通用場景下圖像描述、視覺問答、視覺推理和文字識別等感知和問題處理能力。在自動駕駛和居家機器人等場景下,可輔助處理各種復雜任務。未來的發(fā)展方向也將專注于通用模型的技術突破和創(chuàng)新應用。
曹植——達觀數(shù)據(jù)
達觀目前正在研發(fā)國產(chǎn)版GPT“曹植”系統(tǒng),主要服務于專業(yè)領域的AIGC智能化應用,以及內置在客戶各類業(yè)務系統(tǒng)中提供專用服務。
“曹植”命名引自曹植七步成詩的典故,官方解釋希望它作為垂直、專用、國產(chǎn)的GPT模型,未來在各行各業(yè)里落地應用,為每個行業(yè)賦能。
“曹植”目前已在金融領域AIGC多場景投入應用,未來還將嘗試政務、制造等多個垂直領域和通用場景。
孟子——瀾舟科技
3月14日,瀾舟科技發(fā)布孟子MChat可控大模型,具備聊天、問答、翻譯、文本生成、信息抽取等多種能力,對功能、風格、人類認知等方面具可控性。
孟子有云:“以力服人者,非心服也,力不贍也”;“權,然后知輕重;度,然后知長短”。瀾舟科技認為這兩句話恰好體現(xiàn)了 NLP、AI 技術廣泛使用帶來的認知智能從“相關”到“認知”的轉變。
目前,孟子可控大模型的能力平臺已推出機器翻譯平臺、金融NLP、AIGC智能創(chuàng)作等多個企業(yè)級解決方案及對外開放服務,并和多家企業(yè)在金融輿情分析、多語言機器翻譯、AIGC 營銷文案寫作、網(wǎng)絡文學AI輔助創(chuàng)作上進行了合作。
除此之外,京東、小米、字節(jié)跳動等科技巨頭,在大模型上也多有布局。京東表示,基于自研領域知識大模型K-PLUG生成的商品文案,已覆蓋了京東3000+品類,累計生成30億字,帶來超過3億元GMV。小米在大模型方面也采取了多技術路線并行的策略,未來會引入更先進的大模型能力,包括探索多模態(tài)、智能座艙交互等。字節(jié)跳動語言大模型團隊由字節(jié)搜索部門牽頭,圖片大模型團隊則由產(chǎn)品研發(fā)與工程架構部下屬的智能創(chuàng)作團隊牽頭。
在垂直細分領域,更有積累了豐富專業(yè)領域知識的中小創(chuàng)新企業(yè),以各自擅長的方式和角度輪番切入嘗試。不論規(guī)模,企業(yè)家們似乎都聽到了時代巨輪轉動的“咔”“咔”聲,懷揣著幾分畏懼、沖動、熱血,帶著幾分粗魯、逐利、決心,深一腳、淺一腳地一點點踩出國產(chǎn)大模型之路。
這里曾近乎為荒野。