界面新聞記者 | 李彪
接力OpenAI、微軟的重磅產(chǎn)品轟炸,國產(chǎn)大模型在四月開啟了“鳴槍沖刺”。
4月17日,昆侖萬維(300418.SZ)旗下“天工3.5”類GPT大模型正式啟動邀請測試。按照官方說法,天工大模型參數(shù)規(guī)模達千億級,名字中的“3.5”源于“ ChatGPT基于GPT3.5大模型 ”,代表“天工大模型已經(jīng)非常接近OpenAI ChatGPT的智能水平 ”。
事實上,從ChatGPT開年帶火A股市場概念股以來,昆侖萬維一直是聲量最大、股價顯著受影響的龍頭公司之一——從1月伊始的14.39元/股漲至48.75元/股,不滿三個月漲幅已高達239%。
除產(chǎn)品直接對標ChatGPT外,昆侖萬維還計劃將現(xiàn)有資金最大程度用于支持AIGC領(lǐng)域的研發(fā)和商業(yè)化。在上周最新發(fā)布的業(yè)績年報中,集團董事會決議在2022年不派發(fā)現(xiàn)金紅利、不送紅股、不以資本公積金轉(zhuǎn)增股本 ,未分配利潤全部轉(zhuǎn)入下一季度。
據(jù)此,昆侖萬維提出了未來十年的戰(zhàn)略口號——“All in AGI與AIGC”。昆侖萬維CEO方漢接受界面新聞專訪時表示,AIGC內(nèi)部優(yōu)先級的提升經(jīng)過了一個動態(tài)變化過程?!拔覀冊?020年6月開始布局AIGC時,最早作為一個實驗性項目立項。直到去年年底,‘All in AIGC與AIGC’才上升為了集團戰(zhàn)略?!?/p>
根據(jù)先前回復(fù)深交所的關(guān)注函介紹,天工大模型產(chǎn)品由昆侖萬維與初創(chuàng)公司奇點智源合作自研。昆侖萬維主要為奇點智源提供硬件方面的支持,已合計采購價值4400萬美元的硬件設(shè)備。雙方開發(fā)的中國版類ChatGPT的知識產(chǎn)權(quán)歸奇點智源所有,昆侖萬維享有未來商業(yè)化產(chǎn)生的凈利潤的50%。
憑借游戲業(yè)務(wù)起家、2015年上市的昆侖萬維還將“All in AIGC”戰(zhàn)略描述為尋找第二增長曲線。
方漢表示,起步調(diào)研階段,OpenAI當時的GPT-3模型未開源,且市面上的同類開源模型并不多。由于圍繞底層開發(fā)上層的AIGC應(yīng)用走不通,自2020年年底,昆侖萬維便決定自建大模型。
方漢告訴界面新聞記者,從一片蠻荒到一擁而上,國產(chǎn)大模型在極速變化中發(fā)展。各家目前搶發(fā)大模型還是在追求“大力出奇跡”,首先要入場,然后追趕和競爭。
以下為采訪內(nèi)容,經(jīng)過不改變原意的編輯:
界面新聞:天工大模型對標GPT-3.5是基于什么標準?
方漢:對于專業(yè)研發(fā),大模型能力的量化其實都是有一系列公開的測試數(shù)據(jù)集作為統(tǒng)一參考標準。我們自己內(nèi)部已經(jīng)利用了這些公開的測試數(shù)據(jù)集對模型進行一個評測,公開數(shù)據(jù)的測試是天工對標GPT3.5的一個重要原因。
GPT-3.5、GPT-4的論文中都附了相應(yīng)的大型測試數(shù)據(jù)集,目前可能有將近20類,涵蓋了大模型多維度的各項能力測試。大模型廠商發(fā)布產(chǎn)品前都會用這些數(shù)據(jù)做評測,并得到一組分數(shù),這是專業(yè)圈子內(nèi)比較認可的公平、公正的評價標準。
界面新聞:各家大模型產(chǎn)品都會去測試嗎?天工的分數(shù)是多少?
方漢:不僅是發(fā)布產(chǎn)品,做研發(fā)也要靠測試去保證下一階段工作的推進。
現(xiàn)在各家宣傳模型參數(shù)級別動輒千億、萬億,其實統(tǒng)計口徑是不一樣的。誰都沒有說謊,但是模型表現(xiàn)不能簡單粗暴地靠參數(shù)量比較。用公開數(shù)據(jù)集測試后,各家對于自己處在什么梯隊、競爭對手的得分都是心中有數(shù)的。
天工在17號才開始邀請測試,具體分數(shù)現(xiàn)在還無法對外公布。
界面新聞:去年12月,昆侖萬維發(fā)布了一系列天工系列的多模態(tài)應(yīng)用,包括作畫、編程、作曲,其中天工巧繪是基于開源的Stable Diffusion模型,天工3.5發(fā)布后會做遷移嗎?
方漢:這之間有一個上下游的區(qū)別。預(yù)訓(xùn)練大模型是作畫、編程、作曲這樣的多模態(tài)AIGC應(yīng)用的底層基礎(chǔ)。而我們的作曲應(yīng)用天工樂府、編程應(yīng)用天工智碼都是基于自研的天工系列模型,天工巧繪的下游基于Stable Diffusion模型。這次天工3.5大模型正式推出后,我們可以用來替代它的底層模型。
天工3.5并不是突然從石頭中蹦出來的大模型,我們的合作方奇點智源在2021年就已經(jīng)發(fā)了130億參數(shù)的大模型,之后不斷去迭代它的中間模型。天工3.5是目前的里程碑應(yīng)用,這之前還有很多中間模型,只是沒有對外發(fā)布。
界面新聞:在產(chǎn)品公開測試后,用戶喜歡提一些刁鉆的問題來難倒大模型,你認為這種對話測試能真實反映大模型的能力嗎?
方漢:大家現(xiàn)在喜歡難倒大模型的問題,像腦筋急轉(zhuǎn)彎、段子和網(wǎng)絡(luò)梗,大部分都屬于語義問題。腦筋急轉(zhuǎn)彎是一種語言游戲,用它來考可以,也是一個很有娛樂性的話題,我并不反對。
但從大模型落地的角度,這類問題在實踐生活并不是大多數(shù)用戶真正想解決的問題。用戶當下的需求是寫作業(yè)、做PPT開會等等,就是說我們要更多從人類的通用治理上考核大模型,考核一種普適性的能力。
界面新聞:國內(nèi)已經(jīng)開啟測試同類型的大模型產(chǎn)品,你都有試用過嗎,體驗如何?
方漢:你現(xiàn)在就像訓(xùn)練機器模型一樣,不斷地變換提示詞(prompt)希望我來評價友商,但人類不會犯這種錯誤(笑)。
市面上的大模型產(chǎn)品我有部分試用過,但不適合公開點評個人體驗。
界面新聞:昆侖萬維2020年6月開始布局AIGC之時就已經(jīng)確定要自建大模型嗎?
方漢: 我們一開始就打算直接從底層做預(yù)訓(xùn)練的大模型。因為2020年底左右,當時開源模型項目也不多,唯一的GPT-3也沒有開源,國內(nèi)廠商唯一的路線就是自建,不存在做應(yīng)用的選項。
界面新聞:在此過程中,AIGC的優(yōu)先級是怎樣的?部門規(guī)模如何?內(nèi)部由誰帶隊?
方漢:現(xiàn)在同行互相挖人這么厲害, 對外只能統(tǒng)一說由我?guī)ш牎?/span>
優(yōu)先級是一個動態(tài)變化的過程,我們不能說自己兩年前就能未卜先知,最初是一個帶有預(yù)言性質(zhì)的探索項目,肯定不如已經(jīng)產(chǎn)生收入的主營業(yè)務(wù)重要。直到去年年底發(fā)布“天工”系列AIGC產(chǎn)品時,我們已經(jīng)把優(yōu)先級提到一個很高的位置,現(xiàn)在的戰(zhàn)略是“All in AIGC”。
人員規(guī)模的具體數(shù)字不便透露,人才資源現(xiàn)在應(yīng)該是各個公司最機密的部分。
參考OpenAI的創(chuàng)業(yè)先例,幾十人、百人左右的團隊足以搞出來大模型。
界面新聞:公司據(jù)稱已經(jīng)投入數(shù)千萬美元在項目上,主要的成本項在那些地方?
方漢:最大的成本肯定是采購訓(xùn)練卡,買或者租英偉達的A100系列GPU,然后是人力成本。
界面新聞:對于當下熱議“國產(chǎn)大模型缺算力還是還缺數(shù)據(jù)”,你怎么看?
方漢:從現(xiàn)在發(fā)布一款入門級的大模型來說,我覺得兩樣都不缺。
從算力的角度看,現(xiàn)在都知道OpenAI大概擁有28000張卡,更多可能超過3萬。但其實2021年時,他們大概只有4000張,2022年8月份以前有6000張,那時GPT-3.5、GPT-4都已經(jīng)訓(xùn)練完了。
OpenAI所用到的數(shù)據(jù)主要是著名的開源數(shù)據(jù)語料庫,國產(chǎn)廠商百分之七八十也能拿到。目前國產(chǎn)大模型廠商都是將英文數(shù)據(jù)、中文數(shù)據(jù)一起用做預(yù)訓(xùn)練的。中文語料的質(zhì)量是不如英文,這是客觀事實,但目前通過混用模式已經(jīng)足夠訓(xùn)練模型。
界面新聞:現(xiàn)在國產(chǎn)大模型的差距主要不在資源端?
方漢:對的,資源是一張門票,比方說沒有2000張GPU,你連訓(xùn)練都做不了,但有資源之后,那就是拼工程上的經(jīng)驗。工程上的技巧和經(jīng)驗是大模型競爭的主要因素,比拼的是做實驗的速度和人才的厚度。
界面新聞:如何理解工程經(jīng)驗?
方漢:以訓(xùn)練數(shù)據(jù)為例,其實業(yè)界最難的不是找數(shù)據(jù),而是如何丟數(shù)據(jù)。什么樣的數(shù)據(jù)不用?篩選數(shù)據(jù)的標準是什么?如何做數(shù)據(jù)的剪枝、清洗等。
通過篩選數(shù)據(jù)調(diào)整參數(shù)、改進模型設(shè)計才是最核心的機密,這也是OpenAI沒有在論文中公開的核心技術(shù)。
界面新聞: 據(jù)悉GPT-3.5訓(xùn)練1750參數(shù)所用的3000多億單詞訓(xùn)練語料有60%來自于C4數(shù)據(jù)集(谷歌開源的Colossal Clean Crawled Corpus)。C4數(shù)據(jù)集含有上萬億的經(jīng)過清洗的、分類規(guī)整的英文單詞,而目前國內(nèi)已知的最大中文語料庫TUCNews(清華大學開發(fā))只有7億左右的中文詞匯,如何看待這種落差?
方漢:公共的大型中文語料數(shù)據(jù)庫的缺失是客觀存在的差距,也不是一時半會能趕上的。我覺得國家層面也會意識到中文數(shù)據(jù)的重要性,未來會進行政策上的改進。
基本上各家的訓(xùn)練語料庫也不會公開,所以我認為,短時間內(nèi)大模型的涌現(xiàn)不會讓中文語料數(shù)據(jù)庫的改觀特別大。
還有一個值得重視的現(xiàn)象,由于大模型本身的能力能夠進行語言間的知識遷移,這就導(dǎo)致能夠生成海量的中文語料。未來如何看待以及管理AI生成的中文語料庫是重要問題。
界面新聞:現(xiàn)在大公司都在搶發(fā)產(chǎn)品,未來大模型是否會成為主流大廠人手一個的標配,進而使該領(lǐng)域進入到割據(jù)封閉的壁壘生態(tài)?
方漢: 雖然行業(yè)還是非常早期的搶跑入場階段,但未來會如同操作系統(tǒng)的發(fā)展歷史一樣,Windows與Linux:大廠會擁有質(zhì)量最高的大模型,開源界也會出現(xiàn)相對質(zhì)量還OK的模型,這樣的開源大模型會成為中小型企業(yè)、用戶的選擇,幫助他們基于這些大模型去做自己的二次開發(fā)和工作。
未來的大模型生態(tài)主要有兩類參與者,一類做底層模型,一類做上層的應(yīng)用產(chǎn)品。 我認為這個生態(tài)會相對均衡,不會一家獨大。