123,123

界面新聞?dòng)浾?| 李彪

接力OpenAI、微軟的重磅產(chǎn)品轟炸，國(guó)產(chǎn)大模型在四月開(kāi)啟了“鳴槍沖刺”。

4月17日，昆侖萬(wàn)維（300418.SZ）旗下“天工3.5”類(lèi)GPT大模型正式啟動(dòng)邀請(qǐng)測(cè)試。按照官方說(shuō)法，天工大模型參數(shù)規(guī)模達(dá)千億級(jí)，名字中的“3.5”源于“ ChatGPT基于GPT3.5大模型 ”，代表“天工大模型已經(jīng)非常接近OpenAI ChatGPT的智能水平 ”。

事實(shí)上，從ChatGPT開(kāi)年帶火A股市場(chǎng)概念股以來(lái)，昆侖萬(wàn)維一直是聲量最大、股價(jià)顯著受影響的龍頭公司之一——從1月伊始的14.39元/股漲至48.75元/股，不滿(mǎn)三個(gè)月漲幅已高達(dá)239%。

?數(shù)據(jù)來(lái)源：股價(jià)來(lái)自Wind，證監(jiān)會(huì)關(guān)注函、昆侖萬(wàn)維年報(bào)
制圖：界面新聞

除產(chǎn)品直接對(duì)標(biāo)ChatGPT外，昆侖萬(wàn)維還計(jì)劃將現(xiàn)有資金最大程度用于支持AIGC領(lǐng)域的研發(fā)和商業(yè)化。在上周最新發(fā)布的業(yè)績(jī)年報(bào)中，集團(tuán)董事會(huì)決議在2022年不派發(fā)現(xiàn)金紅利、不送紅股、不以資本公積金轉(zhuǎn)增股本，未分配利潤(rùn)全部轉(zhuǎn)入下一季度。

據(jù)此，昆侖萬(wàn)維提出了未來(lái)十年的戰(zhàn)略口號(hào)——“All in AGI與AIGC”。昆侖萬(wàn)維CEO方漢接受界面新聞專(zhuān)訪時(shí)表示，AIGC內(nèi)部?jī)?yōu)先級(jí)的提升經(jīng)過(guò)了一個(gè)動(dòng)態(tài)變化過(guò)程?！拔覀?cè)?020年6月開(kāi)始布局AIGC時(shí)，最早作為一個(gè)實(shí)驗(yàn)性項(xiàng)目立項(xiàng)。直到去年年底，‘All in AIGC與AIGC’才上升為了集團(tuán)戰(zhàn)略?！?/p>

根據(jù)先前回復(fù)深交所的關(guān)注函介紹，天工大模型產(chǎn)品由昆侖萬(wàn)維與初創(chuàng)公司奇點(diǎn)智源合作自研。昆侖萬(wàn)維主要為奇點(diǎn)智源提供硬件方面的支持，已合計(jì)采購(gòu)價(jià)值4400萬(wàn)美元的硬件設(shè)備。雙方開(kāi)發(fā)的中國(guó)版類(lèi)ChatGPT的知識(shí)產(chǎn)權(quán)歸奇點(diǎn)智源所有，昆侖萬(wàn)維享有未來(lái)商業(yè)化產(chǎn)生的凈利潤(rùn)的50%。

憑借游戲業(yè)務(wù)起家、2015年上市的昆侖萬(wàn)維還將“All in AIGC”戰(zhàn)略描述為尋找第二增長(zhǎng)曲線。

數(shù)據(jù)來(lái)源：證監(jiān)會(huì)關(guān)注函
制圖：界面新聞

方漢表示，起步調(diào)研階段，OpenAI當(dāng)時(shí)的GPT-3模型未開(kāi)源，且市面上的同類(lèi)開(kāi)源模型并不多。由于圍繞底層開(kāi)發(fā)上層的AIGC應(yīng)用走不通，自2020年年底，昆侖萬(wàn)維便決定自建大模型。

方漢告訴界面新聞?dòng)浾撸瑥囊黄U荒到一擁而上，國(guó)產(chǎn)大模型在極速變化中發(fā)展。各家目前搶發(fā)大模型還是在追求“大力出奇跡”，首先要入場(chǎng)，然后追趕和競(jìng)爭(zhēng)。

以下為采訪內(nèi)容，經(jīng)過(guò)不改變?cè)獾木庉嫞?/span>

界面新聞：天工大模型對(duì)標(biāo)GPT-3.5是基于什么標(biāo)準(zhǔn)？

方漢：對(duì)于專(zhuān)業(yè)研發(fā)，大模型能力的量化其實(shí)都是有一系列公開(kāi)的測(cè)試數(shù)據(jù)集作為統(tǒng)一參考標(biāo)準(zhǔn)。我們自己內(nèi)部已經(jīng)利用了這些公開(kāi)的測(cè)試數(shù)據(jù)集對(duì)模型進(jìn)行一個(gè)評(píng)測(cè)，公開(kāi)數(shù)據(jù)的測(cè)試是天工對(duì)標(biāo)GPT3.5的一個(gè)重要原因。

GPT-3.5、GPT-4的論文中都附了相應(yīng)的大型測(cè)試數(shù)據(jù)集，目前可能有將近20類(lèi)，涵蓋了大模型多維度的各項(xiàng)能力測(cè)試。大模型廠商發(fā)布產(chǎn)品前都會(huì)用這些數(shù)據(jù)做評(píng)測(cè)，并得到一組分?jǐn)?shù)，這是專(zhuān)業(yè)圈子內(nèi)比較認(rèn)可的公平、公正的評(píng)價(jià)標(biāo)準(zhǔn)。

界面新聞：各家大模型產(chǎn)品都會(huì)去測(cè)試嗎？天工的分?jǐn)?shù)是多少？

方漢：不僅是發(fā)布產(chǎn)品，做研發(fā)也要靠測(cè)試去保證下一階段工作的推進(jìn)。

現(xiàn)在各家宣傳模型參數(shù)級(jí)別動(dòng)輒千億、萬(wàn)億，其實(shí)統(tǒng)計(jì)口徑是不一樣的。誰(shuí)都沒(méi)有說(shuō)謊，但是模型表現(xiàn)不能簡(jiǎn)單粗暴地靠參數(shù)量比較。用公開(kāi)數(shù)據(jù)集測(cè)試后，各家對(duì)于自己處在什么梯隊(duì)、競(jìng)爭(zhēng)對(duì)手的得分都是心中有數(shù)的。

天工在17號(hào)才開(kāi)始邀請(qǐng)測(cè)試，具體分?jǐn)?shù)現(xiàn)在還無(wú)法對(duì)外公布。

界面新聞：去年12月，昆侖萬(wàn)維發(fā)布了一系列天工系列的多模態(tài)應(yīng)用，包括作畫(huà)、編程、作曲，其中天工巧繪是基于開(kāi)源的Stable Diffusion模型，天工3.5發(fā)布后會(huì)做遷移嗎？

方漢：這之間有一個(gè)上下游的區(qū)別。預(yù)訓(xùn)練大模型是作畫(huà)、編程、作曲這樣的多模態(tài)AIGC應(yīng)用的底層基礎(chǔ)。而我們的作曲應(yīng)用天工樂(lè)府、編程應(yīng)用天工智碼都是基于自研的天工系列模型，天工巧繪的下游基于Stable Diffusion模型。這次天工3.5大模型正式推出后，我們可以用來(lái)替代它的底層模型。

天工3.5并不是突然從石頭中蹦出來(lái)的大模型，我們的合作方奇點(diǎn)智源在2021年就已經(jīng)發(fā)了130億參數(shù)的大模型，之后不斷去迭代它的中間模型。天工3.5是目前的里程碑應(yīng)用，這之前還有很多中間模型，只是沒(méi)有對(duì)外發(fā)布。

界面新聞：在產(chǎn)品公開(kāi)測(cè)試后，用戶(hù)喜歡提一些刁鉆的問(wèn)題來(lái)難倒大模型，你認(rèn)為這種對(duì)話測(cè)試能真實(shí)反映大模型的能力嗎？

方漢：大家現(xiàn)在喜歡難倒大模型的問(wèn)題，像腦筋急轉(zhuǎn)彎、段子和網(wǎng)絡(luò)梗，大部分都屬于語(yǔ)義問(wèn)題。腦筋急轉(zhuǎn)彎是一種語(yǔ)言游戲，用它來(lái)考可以，也是一個(gè)很有娛樂(lè)性的話題，我并不反對(duì)。

但從大模型落地的角度，這類(lèi)問(wèn)題在實(shí)踐生活并不是大多數(shù)用戶(hù)真正想解決的問(wèn)題。用戶(hù)當(dāng)下的需求是寫(xiě)作業(yè)、做PPT開(kāi)會(huì)等等，就是說(shuō)我們要更多從人類(lèi)的通用治理上考核大模型，考核一種普適性的能力。

界面新聞：國(guó)內(nèi)已經(jīng)開(kāi)啟測(cè)試同類(lèi)型的大模型產(chǎn)品，你都有試用過(guò)嗎，體驗(yàn)如何？

方漢：你現(xiàn)在就像訓(xùn)練機(jī)器模型一樣，不斷地變換提示詞（prompt）希望我來(lái)評(píng)價(jià)友商，但人類(lèi)不會(huì)犯這種錯(cuò)誤（笑）。

市面上的大模型產(chǎn)品我有部分試用過(guò)，但不適合公開(kāi)點(diǎn)評(píng)個(gè)人體驗(yàn)。

界面新聞：昆侖萬(wàn)維2020年6月開(kāi)始布局AIGC之時(shí)就已經(jīng)確定要自建大模型嗎？

方漢： 我們一開(kāi)始就打算直接從底層做預(yù)訓(xùn)練的大模型。因?yàn)?020年底左右，當(dāng)時(shí)開(kāi)源模型項(xiàng)目也不多，唯一的GPT-3也沒(méi)有開(kāi)源，國(guó)內(nèi)廠商唯一的路線就是自建，不存在做應(yīng)用的選項(xiàng)。

界面新聞：在此過(guò)程中，AIGC的優(yōu)先級(jí)是怎樣的？部門(mén)規(guī)模如何？?jī)?nèi)部由誰(shuí)帶隊(duì)？

方漢：現(xiàn)在同行互相挖人這么厲害，對(duì)外只能統(tǒng)一說(shuō)由我?guī)ш?duì)。

優(yōu)先級(jí)是一個(gè)動(dòng)態(tài)變化的過(guò)程，我們不能說(shuō)自己兩年前就能未卜先知，最初是一個(gè)帶有預(yù)言性質(zhì)的探索項(xiàng)目，肯定不如已經(jīng)產(chǎn)生收入的主營(yíng)業(yè)務(wù)重要。直到去年年底發(fā)布“天工”系列AIGC產(chǎn)品時(shí)，我們已經(jīng)把優(yōu)先級(jí)提到一個(gè)很高的位置，現(xiàn)在的戰(zhàn)略是“All in AIGC”。

人員規(guī)模的具體數(shù)字不便透露，人才資源現(xiàn)在應(yīng)該是各個(gè)公司最機(jī)密的部分。

參考OpenAI的創(chuàng)業(yè)先例，幾十人、百人左右的團(tuán)隊(duì)足以搞出來(lái)大模型。

界面新聞：公司據(jù)稱(chēng)已經(jīng)投入數(shù)千萬(wàn)美元在項(xiàng)目上，主要的成本項(xiàng)在那些地方？

方漢：最大的成本肯定是采購(gòu)訓(xùn)練卡，買(mǎi)或者租英偉達(dá)的A100系列GPU，然后是人力成本。

界面新聞：對(duì)于當(dāng)下熱議“國(guó)產(chǎn)大模型缺算力還是還缺數(shù)據(jù)”，你怎么看？

方漢：從現(xiàn)在發(fā)布一款入門(mén)級(jí)的大模型來(lái)說(shuō)，我覺(jué)得兩樣都不缺。

從算力的角度看，現(xiàn)在都知道OpenAI大概擁有28000張卡，更多可能超過(guò)3萬(wàn)。但其實(shí)2021年時(shí)，他們大概只有4000張，2022年8月份以前有6000張，那時(shí)GPT-3.5、GPT-4都已經(jīng)訓(xùn)練完了。

OpenAI所用到的數(shù)據(jù)主要是著名的開(kāi)源數(shù)據(jù)語(yǔ)料庫(kù)，國(guó)產(chǎn)廠商百分之七八十也能拿到。目前國(guó)產(chǎn)大模型廠商都是將英文數(shù)據(jù)、中文數(shù)據(jù)一起用做預(yù)訓(xùn)練的。中文語(yǔ)料的質(zhì)量是不如英文，這是客觀事實(shí)，但目前通過(guò)混用模式已經(jīng)足夠訓(xùn)練模型。

界面新聞：現(xiàn)在國(guó)產(chǎn)大模型的差距主要不在資源端？

方漢：對(duì)的，資源是一張門(mén)票，比方說(shuō)沒(méi)有2000張GPU，你連訓(xùn)練都做不了，但有資源之后，那就是拼工程上的經(jīng)驗(yàn)。工程上的技巧和經(jīng)驗(yàn)是大模型競(jìng)爭(zhēng)的主要因素，比拼的是做實(shí)驗(yàn)的速度和人才的厚度。

界面新聞：如何理解工程經(jīng)驗(yàn)？

方漢：以訓(xùn)練數(shù)據(jù)為例，其實(shí)業(yè)界最難的不是找數(shù)據(jù)，而是如何丟數(shù)據(jù)。什么樣的數(shù)據(jù)不用？篩選數(shù)據(jù)的標(biāo)準(zhǔn)是什么？如何做數(shù)據(jù)的剪枝、清洗等。

通過(guò)篩選數(shù)據(jù)調(diào)整參數(shù)、改進(jìn)模型設(shè)計(jì)才是最核心的機(jī)密，這也是OpenAI沒(méi)有在論文中公開(kāi)的核心技術(shù)。

界面新聞：據(jù)悉GPT-3.5訓(xùn)練1750參數(shù)所用的3000多億單詞訓(xùn)練語(yǔ)料有60%來(lái)自于C4數(shù)據(jù)集（谷歌開(kāi)源的Colossal Clean Crawled Corpus）。C4數(shù)據(jù)集含有上萬(wàn)億的經(jīng)過(guò)清洗的、分類(lèi)規(guī)整的英文單詞，而目前國(guó)內(nèi)已知的最大中文語(yǔ)料庫(kù)TUCNews（清華大學(xué)開(kāi)發(fā)）只有7億左右的中文詞匯，如何看待這種落差？

方漢：公共的大型中文語(yǔ)料數(shù)據(jù)庫(kù)的缺失是客觀存在的差距，也不是一時(shí)半會(huì)能趕上的。我覺(jué)得國(guó)家層面也會(huì)意識(shí)到中文數(shù)據(jù)的重要性，未來(lái)會(huì)進(jìn)行政策上的改進(jìn)。

基本上各家的訓(xùn)練語(yǔ)料庫(kù)也不會(huì)公開(kāi)，所以我認(rèn)為，短時(shí)間內(nèi)大模型的涌現(xiàn)不會(huì)讓中文語(yǔ)料數(shù)據(jù)庫(kù)的改觀特別大。

還有一個(gè)值得重視的現(xiàn)象，由于大模型本身的能力能夠進(jìn)行語(yǔ)言間的知識(shí)遷移，這就導(dǎo)致能夠生成海量的中文語(yǔ)料。未來(lái)如何看待以及管理AI生成的中文語(yǔ)料庫(kù)是重要問(wèn)題。

界面新聞：現(xiàn)在大公司都在搶發(fā)產(chǎn)品，未來(lái)大模型是否會(huì)成為主流大廠人手一個(gè)的標(biāo)配，進(jìn)而使該領(lǐng)域進(jìn)入到割據(jù)封閉的壁壘生態(tài)？

方漢： 雖然行業(yè)還是非常早期的搶跑入場(chǎng)階段，但未來(lái)會(huì)如同操作系統(tǒng)的發(fā)展歷史一樣，Windows與Linux：大廠會(huì)擁有質(zhì)量最高的大模型，開(kāi)源界也會(huì)出現(xiàn)相對(duì)質(zhì)量還OK的模型，這樣的開(kāi)源大模型會(huì)成為中小型企業(yè)、用戶(hù)的選擇，幫助他們基于這些大模型去做自己的二次開(kāi)發(fā)和工作。

未來(lái)的大模型生態(tài)主要有兩類(lèi)參與者，一類(lèi)做底層模型，一類(lèi)做上層的應(yīng)用產(chǎn)品。我認(rèn)為這個(gè)生態(tài)會(huì)相對(duì)均衡，不會(huì)一家獨(dú)大。

界面新聞?dòng)浾?| 李彪

接力OpenAI、微軟的重磅產(chǎn)品轟炸，國(guó)產(chǎn)大模型在四月開(kāi)啟了“鳴槍沖刺”。

據(jù)此，昆侖萬(wàn)維提出了未來(lái)十年的戰(zhàn)略口號(hào)——“All in AGI與AIGC”。昆侖萬(wàn)維CEO方漢接受界面新聞專(zhuān)訪時(shí)表示，AIGC內(nèi)部?jī)?yōu)先級(jí)的提升經(jīng)過(guò)了一個(gè)動(dòng)態(tài)變化過(guò)程。“我們?cè)?020年6月開(kāi)始布局AIGC時(shí)，最早作為一個(gè)實(shí)驗(yàn)性項(xiàng)目立項(xiàng)。直到去年年底，‘All in AIGC與AIGC’才上升為了集團(tuán)戰(zhàn)略?！?/p>