文|經緯創(chuàng)投
新一代AI浪潮正在席卷全球,從硅谷、華爾街、中關村,直至世界各個角落的辦公室和大學教室,人們都在熱烈討論著ChatGPT及人工智能的未來。
最近,OpenAI新發(fā)布了GPT-4,令AI達到了“歷史上前所未有的、不可逆轉的新高度”。GPT-4新增了接受圖像輸入,而之前的GPT-3.5只接受文本。并且“專業(yè)性”大大提升,在模擬律師考試中,GPT-4的成績超出了90%的人類考生,而上一版GPT-3.5的得分,僅僅超出10%左右。
圖像識別、高級推理、龐大的單詞掌握能力,是這次GPT迭代的核心,具備多模態(tài)能力的GPT-4可以根據(jù)用戶提供的信息,來生成視頻、音頻、圖片和文本。但這次OpenAI沒有公布模型參數(shù)和數(shù)據(jù)規(guī)模,也沒有涉及技術細節(jié)、訓練方法等等,追趕者可能難以模仿。
而在幾周前,OpenAI還發(fā)布了ChatGPT API,將每輸出100萬個單詞的價格降低到2.7美元(約合18元人民幣),使用成本僅為此前GPT-3.5的十分之一,似乎在宣告“人手一個ChatGPT”時代的到來,也一舉奠定了OpenAI作為人工智能時代新基礎設施建設領域的重要地位,緊隨其后勢必涌現(xiàn)大量應用中間層的新公司。
同期,OpenAI創(chuàng)始人Sam Altman又通過Twitter提出了“新摩爾定律”——宇宙中的智能總量(amount of intelligence)每18個月翻一倍。
面對這個AI時代的“iPhone時刻”,我們陸續(xù)邀請學界與業(yè)界的資深專家,以及行業(yè)投資人與創(chuàng)業(yè)者進行深度交流。
本期特邀嘉賓北京銜遠科技創(chuàng)始人周伯文先生,曾任IBM Research人工智能基礎研究院院長、IBM Watson Group首席科學家、IBM杰出工程師、京東集團高級副總裁、集團技術委員會主席、云與AI總裁;同時,擔任清華大學惠妍講席教授、清華大學電子工程系長聘教授。
周教授針對包括語音和自然語言處理、多模態(tài)知識表征與生成、人機對話、可信賴AI等領域擁有二十年多年的研究經驗。早在2016年,由他提出的自注意力融合多頭機制的自然語言表征機理成為之后Transformer架構的核心思想之一;此外,AIGC領域兩個被廣泛引用的自然語言生成模型架構與算法也出自于他。
在產業(yè)層面,周教授2021年底創(chuàng)立銜遠科技,采取垂直模式打通了自有基礎大模型、應用場景和終端用戶,形成了垂直閉環(huán)。其核心產品是領銜CIP和基于其的ProductGPT,通過垂直數(shù)據(jù)集,并在訓練中加入Instruction-tuning,令最終模型在不斷調優(yōu)迭代中越做越好,從而幫助企業(yè)實現(xiàn)產品創(chuàng)新,以期在垂直賽道上,以更具深度、精準度的洞察與創(chuàng)新能力超越ChatGPT。
面對這一令人興奮的新趨勢,我們有太多問題想聊,所以這篇文章較長,不過由于這次采訪是在幾周前進行的,對于GPT-4的相關內容,本文僅做了有限補充,不做過多展開,有待日后再探討。以下,Enjoy:
1. ChatGPT背后有哪些核心突破?ChatGPT4有哪些核心迭代?
2. OpenAI為什么能堅持下去?Google為什么變成了那個“脆弱的大公司”?
3. 大模型時代的另一種模式:垂直閉環(huán)
4. 在ChatGPT的“數(shù)據(jù)飛輪效應”下,中國公司應該如何追趕?
5. 對ChatGPT的總結:到來不吃驚、影響不低估、未來不可怕
1、ChatGPT背后有哪些核心突破?ChatGPT4有哪些核心迭代?
經緯:OpenAI最近發(fā)布了GPT-4,并且此前還把ChatGPT API的價格下降了90%,這奠定了OpenAI作為AI時代基礎設施的地位,隨后勢必會涌現(xiàn)出大量應用中間層的新公司,您認為這將帶來哪些變化?
周伯文:GPT-4有三大變化:多模態(tài)、邏輯推理和可控性。
第一是多模態(tài),這帶來了人機協(xié)同交互的通道趨向統(tǒng)一。GPT-4具備十分強大的圖片理解能力,能夠支持像素級別的圖文處理,比如:可以根據(jù)設計圖寫代碼、對拍照題目寫解答過程、通過文檔圖片進行摘要問答等。GPT-4多模態(tài)能力必將催生更加廣泛的下游應用,智能體的“摩爾定律”時代已然到來。
第二是復雜長文本理解和生成能力大幅提升。GPT-4對文本長度的限制提升到32k字符,能處理超過25000個單詞的文本,并且可以使用長格式內容創(chuàng)建、擴展對話、文檔搜索和分析。GPT-4能夠融合更加復雜、多樣性的訓練數(shù)據(jù)集,相較 ChatGPT在邏輯推理方面上獲得顯著提升。目前,其在各種專業(yè)及學術測評,像是美國律師資格考試(MBE)、美國大學預科考試(AP)和美國高考(SAT)等測試中,達到了和人類相當?shù)乃健?/p>
第三是可控性,GPT-4具備創(chuàng)造性的寫作能力,包括:編歌曲、寫劇本、學習用戶寫作風格等。在微調過程中OpenAI引入了大量的人力來確保監(jiān)督信號的高質量。相比于InstructGPT和ChatGPT,可以猜測GPT-4中的RLHF可能是一個更加通用的范式,即覆蓋的任務和場景更為廣泛。
GPT-4存在一些局限性和改進。GPT-3和GPT-3.5存在的問題也都基本存在于GPT-4之中,例如:數(shù)據(jù)時效性、“幻覺”等問題。GPT-4在評測的各種任務上效果優(yōu)異,但在一些簡單問題上難以運用已有能力進行解決,這與GPT-4在知識存儲、定位、修改等方面存在問題有關。目前的大模型還是基于全連通圖的Transformer架構,其中對于知識的可控存儲、定位以及修改、持續(xù)的演變機理等仍未知,對于知識信息的時變維度刻畫也存在缺失。
目前,GPT-4在公開的技術報告及System Card中僅展示了其對視覺輸入的支持和較為淺層的推理能力,在更困難和深層的推理任務上仍有待測評和驗證。同時,GPT-4缺乏對音頻、視頻及其他模態(tài)的理解和生成能力,或許這與Transformer預訓練架構有關,未來在合并擴散模型的圖像生成能力與構建統(tǒng)一的多模態(tài)理解和生成模型上存在顯著的技術挑戰(zhàn)。當下,AI學術研究社區(qū)正在推進中的很多工作,都基于強大的語言模型結合多模態(tài)能力,通過語言智能撬動 AGI 值得期待。
ChatGPT開啟了協(xié)同交互的新階段,把交互作為了一種學習的手段。GPT-4則在此基礎上更進一步,通過視覺信號能夠更好洞察、形成新知識并完成任務。由此,我們更加相信 AI 的新一輪創(chuàng)新必將逐漸從傳統(tǒng)的智能質檢、客服等簡單場景,向產品創(chuàng)新、知識發(fā)現(xiàn)等復雜場景轉變。
GPT-4在去年8月已完成訓練,現(xiàn)在看到的很多問題可能已經被解決。不可否認,GPT-4 存在巨大的技術壁壘,在短期內難以被超越。OpenAI通過“Scaling Law”來預測GPT-4的性能邊界,而GPT-4是我們可見的現(xiàn)有最強的AI性能邊界,這有助于反思現(xiàn)有AI理論的優(yōu)勢和缺陷。
OpenAI不再Open, 那跟隨已不是選項,新一代AI大航海時代的參與者需要有自己的深刻技術理解、前瞻技術趨勢判斷,需要場景的反饋與打磨,也需要領路的將軍用自己的微光照亮大家前行。
Sam Altman前段時間在Twitter上提出了一個“新摩爾定律”,即“每18個月宇宙的智能總量(amount of intelligence)會翻一倍”, 我認為更準確的說法是“智慧觸點數(shù)目(number of intelligent touch points)會翻一倍”,而這件事的確正在發(fā)生。OpenAI令ChatGPT API大幅降價就是為了加速聚焦開發(fā)者,并通過更多開發(fā)者探索更多應用場景,以此形成新的AI生態(tài)。
大模型的使用成本主要來自兩部分,其一是訓練部分,其二是推理部分。OpenAI近期這一新舉措意在將推理成本降到盡可能更低的水平,這是可預料的并將持續(xù)發(fā)生,即:一個模型經過不斷優(yōu)化后,其模型密度與推理效率會變得越來越高,推理的成本也就會越來越低。
這件事對專注通用大模型的競爭者,無論是大廠亦或創(chuàng)業(yè)團隊,都是一個頗具挑戰(zhàn)的信號。今后,他們不僅要在技術與算法層面加速追趕,還要負擔高昂的模型訓練及推理部署成本,卻在推理的調用收入上不具備定價權。同時,還要面對開發(fā)者生態(tài)、用戶心智正快速集中到OpenAI等“先行者”上的被動局面,完成逆勢爬坡。
但在訓練的部分,OpenAI的降價并沒有帶來本質上的改變,比如ChatGPT對垂直場景的深度洞察與創(chuàng)新等等。當然,我預計OpenAI現(xiàn)階段也不會涉足垂直市場,他們不太可能為了某一垂直領域而耽擱占領整個平臺市場的先機。
在此背景下,大模型創(chuàng)業(yè)者想要取得成功首先需要找到正確的商業(yè)模式與護城河,做到“enjoy the ride of this wave” ,即相信智能觸點數(shù)目的增加會令自己發(fā)展得更快而不是更糟,但又不會被OpenAI等領先的通用大模型玩家不斷疊加的平臺優(yōu)勢(技術+訓練高投入+推理定價權+迅速培育和占領的生態(tài))所淹沒。
經緯:您很早任職IBM時,就已經在研究人工智能,那個時代的很多研究,比如Transformer奠定了如今ChatGPT成功的基礎。您認為Transformer、 ChatGPT等實現(xiàn)重大突破的背后,是基于哪些核心進展達成的?
周伯文:是的,最初我在中科大讀書期間就已開始研究人工智能,此后讀研和赴美留學也都是研究語音與語言理解,CU-Boulder博士畢業(yè)后直接進入IBM T. J. Watson Research Center 工作。那時的IBM是全球范圍內人工智能在語音、語言領域能力最強的機構之一,諸如使用機器學習去做語音識別、機器翻譯等奠基性工作都起源于此。這些優(yōu)秀人才中后來有不少去到學術界,如JHU、Yale和CMU;也有一部分去到華爾街,使用隱馬爾科夫模型(HMM)來做量化高頻交易等等。我自己的研究方向早期是融合語音識別、自然語言處理、機器翻譯等多個領域做語音翻譯,后來做深度語言理解、表征學習與推理。
如果去談ChatGPT為什么能取得成功?我認為首先要聊一聊Transformer,作為前者極為重要的一個支撐點,它融合了幾個非常核心的突破:
第一個核心突破出自于采用自注意力和多頭機制來表征自然語言,這個核心思想最早出自由我?guī)ьI的IBM團隊在2016年發(fā)表的論文,“A Structure Self-Attentive Sentence Embedding”,并在2017年被Transformer認可并引用。
此前,最常用的自然語言表征是基于序列到序列到模型加上注意力機制。比如:讓AI學習回答問題時,輸入的是問題,輸出是答案,用一個序列RNN或LSTM來表示,這就是序列到序列的表征模式。在這個基礎上,Bengio引入了attention,就是注意力機制,其核心是在回答問題時,并非所有詞都同等重要;如果能根據(jù)問題與答案之間的對應關系識別出更關鍵的部分,繼而更加關注這部分,就能給出更好的答案。這種注意力模型很快就得到了非常廣泛的認可。我本人也是基于這個思路,在2015年左右發(fā)表了幾個最早期被引用較多的AI用自然語言寫作生成模型。
但是,這個方法也存在一個問題,即注意力是基于給出答案后去構建的。這樣訓練的AI,形象地比方,就像大學期末考試前問老師劃重點的學生,再去有針對性(attention)的重點復習。這樣AI雖然對特定問題的表現(xiàn)能有所提高,卻并不具備通用性。所以我們提出了完全不依賴于給定的任務和輸出,只基于輸入自然語言的內在結構,通過AI多遍閱讀去學會哪些部分更重要及其相互之間的關系,這就是自注意力加上多頭機制的表征學習。這種學習機制只看輸入,更像學生在考前就多遍、系統(tǒng)性地學習理解課程,而不是基于考試重點去針對性、碎片性地學習,從而更逼近通用人工智能的目的,也大大增強了AI的學習能力。
第二個核心突破是采用了簡單的位置編碼而拋棄了RNN/LSTM等序列性神經網絡結構。我認為,它是這篇重要論文中最簡單也是最聰明的一點,通過一個簡化讓Transformer不再受RNN/LSTM難以并行訓練的束縛,可以更高效地使用更多數(shù)據(jù)進行訓練。這篇論文也因此成為該領域一個重要的里程碑,推動了其后一系列的變化,并最終開啟了大模型時代。Transformer論文的標題是《Attention is All You Need》,表達的同樣是 “自注意力很重要,多頭很重要,但RNN或許沒有我們以前想象中那么重要”的意思。順便說一下,Transformer論文的第一作者Ashish Vaswani正是我在IBM指導過的學生,后來他加入了Google Brain團隊。
了解過上述歷史沿革,我們再來看ChatGPT作為里程碑的意義所在:它的“前輩”,包括IBM Deep Blue、IBM Watson、Deepmind AlphaGo,這些雖然都是當時引領時代的人工智能,但它們跟ChatGPT最核心的不同在于,此前的人工智能設計思路是與人類競爭的AI,通過展示其在某些領域比人類更優(yōu)秀來證明AI技術的進步。
與之不同,ChatGPT引入了Instruction-tuning,強調的是和人的協(xié)同、交互與價值對齊。在經過GPT-1和GPT-2漫長且不那么成功的摸索與積淀過程,直到在GPT-3階段實現(xiàn)工程上的重大革新,如今的ChatGPT正是在GPT-3基礎上引入了Instruction-tuning與人在環(huán)路的強化學習,通過人對AI的標注、反饋,實現(xiàn)價值對齊,更好地幫助ChatGPT去理解,讓它更清楚什么樣的答案是好的并從中不斷學習。
舉個例子,如果要求AI為一個6歲的小孩解釋登月,以GPT-3的基礎模型能力可以從各種角度去回答這個問題,包括基于物理原理的萬有引力、基于歷史背景的美蘇冷戰(zhàn)促使登月、基于天文學角度的地月關系,或基于人類關于月亮的神話傳說等等。須知,找到這些信息并整合生成文字并不難,難的是GPT-3該如何辨別其中哪個答案更適合一個6歲的小孩子,這就是價值對齊。
常規(guī)模式會按照答案的出現(xiàn)概率進行排序。但ChatGPT在這個基礎上,由人對四類答案進行選擇、打分并給出排序,這些反饋可用于微調GPT-3模型,將GPT-3與人類的意圖和評價體系進行對齊,進而改變模型參數(shù)和推理結果。
通過上述與人的交互協(xié)同后,如果再要求ChatGPT為6歲孩子寫童話,它就會自己學會以“once upon a time(很久以前)”來開頭,因為它已經掌握在一個與6歲小孩的談話環(huán)境中,以這種方式進行回答會更好。因此,人類越多去使用ChatGPT,它就會變得越智能。
大家對ChatGPT效果驚艷的同時,可能也意識到了,這些結果的產生也取決于用戶提問的方式、指導ChatGPT修正與迭代答案的技巧與耐心。所以嚴格來說,這些驚艷效果是用戶和AI共創(chuàng)得來的。正因如此,ChatGPT成為了歷史上第一個與人協(xié)同交互而非競爭關系的,以人為中心、更好服務于人的里程碑式產物,其社會價值與潛力不可限量。這也是我長期研究前沿AI的理念,我的觀點一直是AI更大價值將來自于人和環(huán)境的協(xié)同與交互,所以我在2022年5月加入清華即建立了電子系協(xié)同交互智能研究中心。
誠然,當我們回顧來路,GPT-1、GPT-2當年所使用的參數(shù)局限性也是一個重要影響因素。GPT-1只有1.1億參數(shù),GPT-2也不過15億參數(shù),直到GPT-3這一數(shù)字猛增至1750億,方才有了涌現(xiàn)能力,有了后面更多突破性成果的產生。面對這一發(fā)展過程中對算力和訓練投入的龐大需求,不得不承認,不僅要有長期的研究積累,與清晰的前瞻思想引領,也要有足夠的資金做支撐。
2、OpenAI為什么能堅持下去?Google又因何變成了一家“脆弱的大廠”?
經緯:GPT大模型背后是一部艱辛的創(chuàng)業(yè)史,起初兩代由于不夠成熟經常敗給谷歌的Bert,直到GPT-3才真正實現(xiàn)了飛躍。很多人都佩服OpenAI的毅力,能夠在GPT-1和GPT-2不斷受挫的階段仍然堅持下來并對抗全世界,最終證明自己是對的。您認識很多業(yè)內核心人士,對OpenAI能一路堅持下來并最終取得成功是怎樣看待的?
周伯文:當年Transformer成功后,一時間大家都拿它來做各種大模型,但在NLP領域分成兩派:一派像是OpenAI這類公司,專注實踐從左到右的預訓練,命令AI去學習預測下一個詞是什么,一步步把自然語言的生成全部實現(xiàn)出來。這個思路的底層和我們的2016年論文中強調自注意力理念是一致的,即不允許AI使用未來的信息來學習,這樣更逼近通用人工智能的思路。
另一派像是Google的Bert,采用任務導向型的思考方式,目的在于做好針對自然語言的理解,即一段話從左到右要看,從右到左也要看,看得越多理解能力就越強。
這兩種思路其實不存在對錯,只是反映出雙方在哲學觀上的巨大不同,就如同我們提出的自注意力一樣,即堅決要求學生不能先看考題再來學習,而是要先把知識學明白再去考試。這也是為什么我認為GPT的哲學觀更適合真正的通用人工智能。但在發(fā)展的前期,GPT模式確實讓OpenAI受挫不少,GPT-1和GPT-2都沒能勝過Bert,直到GPT-3才揚眉吐氣。
此外,還有一個角度我認為非常值得關注,即OpenAI的成功不單單是這家公司獨立實現(xiàn)的,而是依托于整個AI學術研究社區(qū)的支持和幫助。英文里有一句俗語叫“It takes a village to raise a child”,OpenAI之所以能夠一直堅持做GPT,得力于整個AI學術研究社區(qū)對大模型豐富的研究分析,比如其中很多研究人員一直試圖證明在GPT和Transformer的中、低層中,包含有詞法和語法知識;在中、高層中存儲了大量語義和常識知識。
AI學術研究社區(qū)的相關驗證分析工作,極大地增強了OpenAI團隊的信心和方向。如果沒有上述這些自發(fā)研究工作的助力,OpenAI可能很難堅持下來。試想一下,如果你拿大量數(shù)據(jù)訓練了很久,最后卻發(fā)現(xiàn)沒有證據(jù)證明這個大模型學會了任何知識和推理,只是學習到了統(tǒng)計相關性,無法形成自身沉淀與未來涌現(xiàn)效應的可能性,那誰還會一直有決心堅持下去呢?ChatGPT的成功,正是因為OpenAI公司依靠背后強大的AI學術研究社區(qū),有較好的產學研的融合生態(tài),這樣的經驗值得我們借鑒。
經緯:從規(guī)模上看,OpenAI只是一家?guī)装偃说膭?chuàng)業(yè)公司,而Google卻是一家擁有上萬員工的科技巨頭。我相信在Google內部,無論從技術亦或想法上也是具備領先意識的,他們也傳出過與人工智能相關的新聞,但相比于openAI遲遲沒有上線真正的產品。其中一個原因或許是Google的主要利潤源自其搜索業(yè)務,而生成式AI則可能徹底顛覆相關商業(yè)模式,這似乎又是一個柯達與數(shù)碼相機的故事?
周伯文:一個是商業(yè)層面,一個是大公司的決策層面。大公司雖然看起來很強,但在很多時候特別是技術代際躍遷時其實是非常脆弱的。
ChatGPT這種深度強人工智能的對話模式,會讓搜索業(yè)務本身的價值大大降低,原有以“搜索關鍵詞排序”的商業(yè)模式屆時很可能已經不成立了,因為用戶不再需要去看網頁中那么多搜索引擎排序后的鏈接,這將導致的結果是Google的毛利率會迅速下降。而在占比份額不足10%,久居搜索引擎次席的微軟看來,這卻是一次千載難逢的機會,其在該領域的瘋狂投入可見一斑。
同時,微軟的To B業(yè)務及受眾非常多元化,所以我認為微軟的組織能力是遠優(yōu)于Google的。在這種情況下,微軟可依托To B業(yè)務在前,同時迅速調優(yōu)整個組織,從而比Google更好地適應新挑戰(zhàn),并在搜索領域跟Google打消耗戰(zhàn)。
此外,微軟具備在更多To B場景中嵌入ChatGPT的能力,而Google在這方面相形見絀。因此,我認為投資人在AI時代不可以再輕視To B領域。過去,AI在生產力工具方面不夠強力,因而變成了“C端的玩具”;但是,現(xiàn)在的AI已跨過技術門檻,其在B端的應用將會越來越具備沖擊力。當然,不是說To C不重要了,最好的模式依然是做到To B和To C兼顧。
在大公司的決策層面上,總有很多聲音質疑大公司缺乏創(chuàng)新,但大公司往往不缺乏單點創(chuàng)新能力,問題往往出現(xiàn)在系統(tǒng)性創(chuàng)新過程中,特別是在內部資源的協(xié)同與聚焦上。與此同時,大公司也有很多負擔,比如:Google需要維護自己的技術形象,如果認為新研發(fā)的產品不夠好,就不會開放公測。以ChatGPT為例,它一開始就存在非常多的錯誤和問題,如果是Google在做,大眾和輿論恐怕也很難像對OpenAI這類創(chuàng)業(yè)公司一般寬容。此外,在技術開發(fā)的早期,甚至可能引發(fā)政治性的爭論,這些均會對公司市值產生嚴重影響。
綜上兩方面因素,導致Google 在類似的產品發(fā)布上趨于保守。但這種生成式人工智能技術,從GPT到ChatGPT,中間很大的一道門檻是與大量用戶的真實交互,如果缺乏大量用戶的反饋,就永遠越不過這道門檻,且一旦落后便可能永遠落后。OpenAI敢于大膽投入,聚焦設計和打磨好一款產品。而大公司背負來自市值管理、資金使用效率、技術聲譽、社會口碑等方面的一系列壓力,因而在決策中很容易動作變形。
這就是為什么像OpenAI這樣的創(chuàng)業(yè)公司會跑得更快、路線更靈活,因為他們沒有大公司過多的包袱,不管有什么困難都能夠勇往直前。當然,無論是在Google還是微軟,都有我很尊敬的同事和朋友,他們都很聰明,個人能力也絕不比OpenAI差。
值得一提的是,微軟是在體外投資了OpenAI去完成這項工作,如果做得不好只需要在PR上進行切割,一旦功成微軟便大獲全勝,這也是其投資眼光和技巧上值得稱道的一點。
我曾在國內國外的大廠長期任職,這種決策上的問題是根深蒂固的,不是一個人,或一個團隊就能改變的。所以對大廠而言,最好的決策就是內部創(chuàng)新的同時,投資一家專注該領域的創(chuàng)業(yè)公司去完成這部分工作。
經緯:不僅是新公司,所有人都需要積極思考怎么去結合。比如最先到來的一大波C端變革,反而可能會是微軟,如果它把人工智能集合在Word、Excel、PowerPoint、outlook里面,這將是很大的場景。同時,GPT也會顛覆很多SaaS公司,比如一個財務SaaS,作為客戶可能只需要輸入問題,它就可以直接形成答案了。您覺得會有很多公司因此受到威脅嗎?
周伯文:對SaaS公司而言,如果原來的業(yè)務涉及太淺,只是在流程上做了自動化或信息整合,那么這樣的公司的確會受到很大的威脅,因為所有的流程如果基于深度自然語言理解和協(xié)同交互重新迭代一遍,不但門檻迅速降低,帶來的體驗會遠遠超過現(xiàn)在的產品;但如果業(yè)務跟行業(yè)深度綁定,且具備非常強的行業(yè)Know-how,那ChatGPT的加入就只有幫助而沒有威脅,因為ChatGPT目前還沒有辦法產生真正的洞察,在需要精確答案時不具備可用性。
此種情況下,端到端的垂直模式壁壘會更深。比如,有些SaaS公司可能原來與行業(yè)綁定較淺,雖然通過ChatGPT可以重構業(yè)務,但這個能力是與別人拉平的,大家都可以做同樣的事情,這時門檻就很低。
3、大模型時代的另一種模式:垂直閉環(huán)
經緯:其實銜遠是想做一個端到端的、上下打通的模式?
周伯文:銜遠從能力、場景到用戶是全部打通的。從底層模型到深層對話能力,都與場景緊密結合在一起。通過這個方式,我們把基礎大模型、應用場景和終端用戶形成了一個可以快速迭代的閉環(huán),這對用戶的價值會更大。我們也能獲取用戶的反饋幫助迭代基礎模型,在訓練中也會加入行業(yè)專家的Instruction-tuning,最終令模型在不斷調優(yōu)迭代中越做越好。
ChatGPT的模型,它的好處是覆蓋面很廣,但缺點是都很淺而且只是整合已有的信息。我認為人工智能的高價值應用除了廣度之外,也會存在另外一種形式,就是在兼具一定廣度的基礎上,于特定領域能做到非常深,甚至超過專業(yè)的人。
之所以這么說,是因為我們預計未來的人工智能在十年后能夠做到這個程度。2002年諾貝爾經濟學獎得主丹尼爾·卡尼曼有一本暢銷書,《思考,快與慢》(Thinking Fast And Slow),他當時提出了人的思考方式有兩類:“系統(tǒng)1”和“系統(tǒng)2”。“系統(tǒng)1”的特點是基于直覺和經驗判斷,快速、對人很輕松;“系統(tǒng)2”的特點則是慢、基于復雜計算和邏輯,對人有較重的認知消耗和較高的認知門檻。
在上一波的人工智能熱潮中,大部分人認為AI會適合干“系統(tǒng)1”的工作,比如通過模式識別做人臉識別或工業(yè)品質檢,而“系統(tǒng)2”的工作遠遠超過AI的能力。所以AI更多的是部署在藍領的工作場景里面,替代那些重復性工作。
但我認為,AI更大的價值是去輔助人更有效、更有深度地做好“系統(tǒng)2”的工作,這類工作需要非常復雜的推理、數(shù)據(jù)和邏輯,然后在特定領域里產生更多的創(chuàng)新,甚至創(chuàng)造新的知識,更好地完成更復雜的任務。最近AIGC和大模型的進展都在展示這個方向上的潛力。但如果按這個思路來看,真正要突破價值門檻,就需要在落地上不能想著做大且全的領域,而是要把領域收窄。
基于上述思路,銜遠一直在研發(fā)自有大模型領銜CIP和ProductGPT,以幫助企業(yè)實現(xiàn)產品創(chuàng)新。它能提供全面的分析和詳實的數(shù)據(jù)支持,以及按照品牌、品類、特點去展開深度分析,真正幫助到專業(yè)人士。
領銜CIP和ProductGPT作為垂直領域的協(xié)同交互式人工智能,按照我們的市場驗證和預測,它能夠讓創(chuàng)新機會翻10倍,上市周期縮短近10倍,大幅降低創(chuàng)新成本,幫企業(yè)帶來更多收入、業(yè)務增長和利潤,我們的模式就是要在產品創(chuàng)新領域里超過ChatGPT。
經緯:OpenAI也提出了應用中間層的說法,就是在OpenAI的GPT大模型之上,去對接各個應用領域,形成一個中間層。當然像GPT這樣的大模型,覆蓋面廣但淺,這時就需要有新公司加入,自己不做模型,而是直接拿GPT來銜接各個垂直賽道,比如醫(yī)療、法律等特定領域的數(shù)據(jù)集去做訓練,這類公司在未來會與垂直閉環(huán)型的公司產生強競爭嗎?
周伯文:針對這個市場我會把它分成三類,第一類就是銜遠科技這種創(chuàng)業(yè)公司,我們自己做底層模型,從技術算法到模型迭代、場景閉環(huán)都具備,這類是垂直的;第二類就是基于別人的模型(如GPT),然后結合自己的行業(yè)Know-how去做訓練;第三類是純粹做應用,是將模型拿來直接使用,這種的壁壘會較低。
為什么我認為銜遠科技的模式從長遠看更具競爭力?從技術角度來講,因為它把基礎設施、大模型、應用場景和終端用戶形成了一個完整的閉環(huán)。當公司有了具體的功能讓終端用戶使用,進而會產生非常多的使用數(shù)據(jù),數(shù)據(jù)反饋后又能幫助提升應用,也能幫助提升基礎模型能力,最終模型也會不斷去調優(yōu)迭代越做越好。從端到端做起,慢慢迭代出更大的商業(yè)模型。這樣的好處還使訓練的復雜度降低,從訓練成本和速度上來說,我們可以用更小的訓練成本更快的達到讓技術團隊訓練100次,通過這些百次的訓練打磨迅速提升工程化、各種Know-how與工程技巧和產品經驗。
對于第二類能不能成功,我覺得需要時間去驗證,現(xiàn)在還不明確。原因在于大家還不知道如何把行業(yè)Know-how去和大模型做融合的有效路徑,如何在有護城河的同時又有可持續(xù)的商業(yè)模式,這仍是個未知數(shù)。
站在OpenAI的角度或是大廠的角度,他們喜歡這種“應用中間層”的模式。當然要想真正成為基礎設施,能不能走得通,還需要先運行一段時間再做觀察。
但社會肯定需要另外一種模式,因為這對保持創(chuàng)新也很重要。比如過于中心化的問題,像是全世界所有應用都只集成在一個大模型里面,那這個世界是相當可怕的。這樣一種模型又是通過大量的數(shù)據(jù)反饋訓練出來的,其本身具備去進行一些價值觀對齊的能力,那將對人類社會的治理體系產生巨大的挑戰(zhàn)。
另外是技術層面的原因。如果只有一個通用大模型思路,就沒有辦法看到不同技術方向的迭代與對比。就像前面說的,如果沒有Bert與GPT競爭,GPT也不會發(fā)展得這么快,也只有在競爭中才能讓GPT的發(fā)展動能變得更大。學術創(chuàng)新和技術生態(tài),都需要多元化,不能完全集中在一個大模型之上,也不應都用一種思路去做事情。
4、在ChatGPT的“數(shù)據(jù)飛輪效應”下,中國公司應該如何追趕?
經緯:隨著ChatGPT的爆發(fā),中國的AI相關公司也需要奮起直追,但OpenAI確實占據(jù)了先發(fā)優(yōu)勢,并享受數(shù)據(jù)飛輪效應。您覺得中國AI行業(yè)在追趕的道路上,應該如何抉擇?
周伯文:一方面我們需要有自己的大模型,但另一方面可能要先從垂直領域開始。我的觀點是,先通過垂直領域的模型,去學會大模型是怎樣工作的,在場景上怎么跟大模型互動,獲取更多數(shù)據(jù),形成垂直領域的數(shù)據(jù)飛輪,再去看商業(yè)模式該如何展開;等到把垂直領域做好之后,才是去思考大模型該怎么做的時候。
特別是大模型需要很多工程化。工程化是指要進行足夠多的嘗試,在試的過程中工程師才會產生經驗,繼而總結出Know-how,以令下一次嘗試更容易取得成功。當然,這一過程在某些時刻和階段也會演變成誰投入的資金更多,誰就有能力去做更多嘗試。但若各家都投入高昂成本去做自己的大模型,分別產生各自的Know-how,則無疑會帶來重復性的資源浪費問題。
聚焦在一個有足夠廣度的垂直整合領域里,通過大量的數(shù)據(jù)的飽和訓練,有真實的閉環(huán)場景和用戶反饋,能夠獲得更多垂直數(shù)據(jù),大模型深度和推理能力可能以更低的成本獲得涌現(xiàn)能力。另外,中國的算力資源是十分緊張的。如果各家蜂擁去做大模型,假設每家需要一萬片A100,但激烈的內部競爭導致最終沒有任何一家拿到一萬片A100。如此惡性競爭,倒不如先通過100片A100把垂直模型做好,然后再加到1000片跑通toB或者toC的模式并產生出價值,最終由價值最高的通過市場的稱重機集中算力資源加到一萬片。所以說,從垂直開始嘗試,是更符合客觀實際的。
當然,我堅信中國最終肯定會有自己的通用大模型,只是這個道路不一定是要完全模仿OpenAI。OpenAI之前有很長一段時間都是非常艱難的,無論是技術層面的障礙與瓶頸,還是算力、數(shù)據(jù)上的窘境。同時,大公司則受到更多來自責任方面的壓力,以及類似對自家搜索業(yè)務的影響等因素,舉棋不定是可以理解的,這并不是件容易的事情。
經緯:對,其實從參數(shù)角度來說,也不是越多越好,現(xiàn)在OpenAI也說GPT-4不會是一個過于龐大的參數(shù)量級。您認為什么樣的參數(shù)量級是合理的?
周伯文:參數(shù)確實不是越多越好,進行充分的訓練更為重要。在充分訓練的前提下,800億參數(shù)有可能實現(xiàn)相較1000億參數(shù)更好的效果。同時,參數(shù)規(guī)模也應根據(jù)訓練的實際情況逐步增加。另一點值得注意的是,2022年ChatGPT面世有很多公司宣稱自己模型的參數(shù)比GPT-3要大的多,但到目前為止,沒有任何一家能夠跟ChatGPT的實際效果進行對比。
從技術原理上來說,模型的復雜度包括參數(shù)量級都應遵循“奧卡姆剃刀原則”,也就是說如果你能充分模型化一個假設的前提下,所用的參數(shù)永遠是越少越好。因為越少就越說明模型沒有做過多假設、更容易被泛化和通用化。這也被愛因斯坦稱為KISS原則,即“Keep it simple, stupid!”
經緯:有一種保守觀點認為,ChatGPT有很大的局限性,雖然它現(xiàn)在的回答很驚艷,但本質上其實是一個基于統(tǒng)計學的語言模型,即看過很多數(shù)據(jù),然后基于統(tǒng)計結果去預測下一步。但如果我們給它一些雜亂無章的數(shù)據(jù),它的回答也就會變得沒有邏輯。所以這種觀點會認為,即便未來給的參數(shù)和數(shù)據(jù)越來越多,但最終能否真的成為一個通用人工智能,還是有很大的疑問。對此您怎么看?
周伯文:首先我不認為ChatGPT等于通用人工智能。但是,ChatGPT確實在嘗試創(chuàng)造更好、更強大的人工智能。
同時,ChatGPT也存在很多弱點。首先,它缺乏真正的洞察,究其根本還是其推理能力不夠;其二,它對信息仍然是在比較淺薄的語義層面上進行整合,雖然能區(qū)分不同的觀點并將之整合起來,但仍舊缺乏深度;其三,則是它在知識和數(shù)據(jù)方面的可信度問題。
相比之下,銜遠科技要做的不是那種很寬泛的通用平臺,而是用更垂類的數(shù)據(jù)去訓練出在某個特定方向上更具深度的人工智能——它能給出的回答更細、更深、更精準,從而更好地幫助專業(yè)人士完成洞察和產品創(chuàng)新,這將成為強人工智能的又一種新形態(tài)。
5、對ChatGPT的總結:“到來不吃驚、影響不低估、未來不可怕”
經緯:近幾年來,雖然不斷有AI繪畫、AI視頻、AI聲音、AI預測蛋白質結構等新技術出現(xiàn),但它們還是點狀分布的。而這次ChatGPT的面世,卻以產品化聊天機器人的形式讓全世界感到震撼。您怎么看待AI的前景?
周伯文:最近確實有非常多的人在問我對ChatGPT的看法,其中一部分人對其到來感到興奮,同時也有人抱持顧慮。我的觀點總結起來就十五個字:“到來不吃驚、影響不低估、未來不可怕”。
“到來不吃驚”是指,這輪并非那種“斯普特尼克時刻”(Sputnik Moment),因為里面的很多技術和理念其實是2021年就已出現(xiàn)的趨勢。所以,這輪對于長期做AI前沿和前瞻研究的人來說并不太吃驚,核心的技術創(chuàng)新點大部分在2021年就已經出現(xiàn)了。所以說ChatGPT這樣的集成產品創(chuàng)新的出現(xiàn)是必然的,只不過什么時間、最終由誰做出來存在一定偶然性。
“影響不低估”是指,ChatGPT將會改變很多事情。ChatGPT在這個時刻出現(xiàn)是具有里程碑意義的,它對人類社會的影響將在經濟、技術等方方面面得以體現(xiàn)。
“未來不可怕”是指,我不認同很多人對AI的妖魔化,其中就包括馬斯克的所謂“危機意識”。至少目前來看,AI是可控的。而未來,包括政府決策者、學術研究團隊、企業(yè)家及法律界人士在內,也將持續(xù)從各方面思考人工智能該如何融入人類社會。
舉例來說,當下就會面臨一些問題,比如ChatGPT其實是一種討好型人格,偏向于不停的依循所得到的回答來修正自己,但人類社會充斥著矛盾、沖突等信息,ChatGPT在形成自身價值體系的過程中該如何迭代,就是一道非常值得思考的問題。
此外,知識版權也是不可回避的問題之一。ChatGPT的數(shù)據(jù)有很多是基于大眾創(chuàng)造的,如果涉及商業(yè)化,其中的利益又該如何分配?更何況ChatGPT并不是簡單的搜集,而是一個融合機制,那又該如何溯源、分配,厘清此間種種會十分復雜。
還有對使用方面的界定問題,比如部分學術界不允許論文發(fā)表者使用ChatGPT,但很多非英語母語的學者卻很喜歡用ChatGPT去修改語法和潤色語句,相關應用場景也很值得討論。
總之,ChatGPT是一個劃時代的產品。自此,AI開始真正找到了應用的爆發(fā)點,未來將與各個行業(yè)持續(xù)融合發(fā)展。最后,我還是用那十五個字來收尾,希望大家對正在發(fā)生和即將到來的AI新時代:“到來不吃驚、影響不低估、未來不可怕”。