文|甲子光年 趙健
ChatGPT的熱度正在一路狂飆。
“去年12月在機器學習圈曾持續(xù)熱議過,但是沒有現(xiàn)在每一個群都在交流和使用的狀況。這是除了疫情,從未有過的現(xiàn)象?!庇腥巳绱烁锌?。
一位AI產(chǎn)品經(jīng)理向「甲子光年」表示,或許若干年后回看AI行業(yè)的發(fā)展,會有兩個標志:阿爾法狗代表AI在專業(yè)領域“干翻”人類的起點,ChatGPT代表AI在通用智能領域“干翻”人類的起點......
《財富》雜志則是這樣描述的:
在一代人的時間中總有一種產(chǎn)品的出現(xiàn),它將從工程系昏暗的地下室、書呆子們臭氣熏天的青少年臥室和愛好者們孤獨的洞穴中彈射出來,變成了你的祖母Edna都知道如何使用的東西。早在 1990 年就有網(wǎng)絡瀏覽器,但直到 1994 年Netscape Navigator的出現(xiàn),大多數(shù)人才發(fā)現(xiàn)了互聯(lián)網(wǎng)。2001 年 iPod 問世之前就已經(jīng)有了 MP3 播放器,但它們并沒有引發(fā)數(shù)字音樂革命。在2007 年蘋果推出iPhone之前,也有智能手機,但在 iPhone 之前,沒有智能手機的應用程序。
2022年11月30日,人工智能迎來了Netscape Navigator時刻。
對于人工智能或者聊天機器人,我們并不陌生。從蘋果Siri、微軟小冰、智能音箱,這些人工智能產(chǎn)品已經(jīng)融入到人們的生活中,但是基本都有一個特點——還比較笨,跟我們在《流浪地球2》中看到的MOSS相差十萬八千里。
但這次的ChatGPT有點不一樣。它不但可以實現(xiàn)多輪文本對話,也可以寫代碼、寫營銷文案、寫詩歌、寫商業(yè)計劃書、寫電影劇本。雖然并不完美、也會出錯,但看起來無所不能。
連埃隆·馬斯克都評價道:“ChatGPT好得嚇人,我們離危險的強人工智能不遠了。”
而且,ChatGPT也不僅僅是一個打發(fā)時間的聊天機器人,微軟與谷歌此時此刻正在因為ChatGPT的出現(xiàn)籌備一場關乎未來的AI大戰(zhàn)。而國內(nèi)的科技公司,也在努力思考著如何搭上駛向未來的船票,無論是以蹭概念,還是真產(chǎn)品的方式。
這一切,ChatGPT是如何做到的?本文,「甲子光年」將首先回答幾個最基礎的問題:
- ChatGPT和過去的AI有什么不同?
- OpenAI是如何戰(zhàn)勝谷歌的?
- OpenAI的成功花了多少錢?
- ChatGPT爆火之后,誰是最后贏家?
01 ChatGPT,生成式AI的王炸
剛剛過去的2022年,從硅谷到國內(nèi)的科技公司,上上下下都蔓延著一股“寒氣”。但是,AI行業(yè)卻完全是另一番熱鬧的景象。
這一年,通過輸入文本描述就能自動生成圖片的AI繪畫神器突然雨后春筍般冒了出來,其中最具代表性的幾家為第二代DALL·E(由OpenAI于2022年4月發(fā)布)、Imagen(谷歌2022年5月發(fā)布)、Midjourney(2022年7月發(fā)布)、Stable Diffusion(2022年7月發(fā)布)等,讓人眼花繚亂。
2022年9月,由Midjourney創(chuàng)作生成的畫作《太空歌劇院》在科羅拉多州博覽會數(shù)字藝術創(chuàng)作類比賽中獲得一等獎并引發(fā)爭議,AI繪畫進一步破圈,受到大眾關注。
AI繪畫是AI發(fā)展的里程碑級應用,但沒過多久人們便發(fā)現(xiàn),AI繪畫只是“四個二”,真正的“王炸”在11月30日上線——ChatGPT。
去年12月,我們曾與ChatGPT做過一次對話。
從AI繪畫到ChatGPT,它們都屬于AI的一個分支——生成式AI(Generative AI),在國內(nèi)也被稱為AIGC(AI Generated Content)。
2022年9月,紅杉資本發(fā)布了一篇重磅文章——《生成式AI:一個創(chuàng)造性的新世界》(Generative AI: A Creative New World),首次提出生成式AI這一概念。
紅杉資本將生成式AI分為文本、代碼、圖片、語言、視頻、3D等數(shù)個應用場景。紅杉資本認為,生成式AI至少可以提高10%的效率或創(chuàng)造力,有潛力產(chǎn)生數(shù)萬億美元的經(jīng)濟價值。
憑借生成式AI的風口,一些AI繪畫公司開始拿到巨額融資。2022年10月,Stable Diffusion模型背后的公司Stability AI宣布獲得1.01億美元種子輪,投后估值達10億美元;另一家AI內(nèi)容平臺Jasper亦宣布獲1.25億美元新融資,估值達17億美元。
據(jù)Leonis Capital統(tǒng)計,自2020年以來,VC對生成人工智能的投資增長了400%以上,2022年則達到驚人的21億美元。
在文章中,紅杉資本將AI分為“分析式AI”與“生成式AI”兩大類,分析式AI主要用在垃圾郵件檢測、預測發(fā)貨時間或者抖音視頻推薦中,也是過去幾年最常見、發(fā)展最快的AI類型。國內(nèi)的AI四小龍——商湯、曠視、云從、依圖皆屬于此類。
生成式AI則聚焦于知識工作與創(chuàng)造性工作,從社交媒體到游戲,從廣告到建筑,從編碼到平面設計,從產(chǎn)品設計到法律,從營銷到銷售。
在2015年之前,人工智能基本是小模型的天下。
過去的微軟小冰、蘋果Siri、智能音箱,以及各個平臺的客服機器人背后都是小模型,在其系統(tǒng)中包含若干Agent(知行主體,可以理解為執(zhí)行具體任務的程序),一個專門負責聊天對話、一個專門負責詩詞生成、一個專門負責代碼生成、一個專門負責營銷文案等等。
如果需要增加新功能,只需要訓練一個新的Agent。如果用戶的問題超出了既有Agent的范圍,那么就會從人工智能變?yōu)槿斯ぶ钦稀?/p>
但是ChatGPT不再是這種模式,而是采用了“大模型+Prompting(提示詞)”。大模型可以理解為背后只有一個Agent來解決用戶所有的問題,因此更加接近AGI(通用人工智能)。
ChatGPT的出現(xiàn)不亞于在人工智能行業(yè)投下了一枚“核彈”。前微軟CEO比爾·蓋茨對ChatGPT評價為“不亞于互聯(lián)網(wǎng)誕生”,現(xiàn)微軟CEO薩提亞·納德拉將其盛贊為“堪比工業(yè)革命”。如今,有越來越多的公司開始將ChatGPT融入其產(chǎn)品中,或者推出類ChatGPT的產(chǎn)品。
對此,ChatGPT是如何做到的?
02 OpenAI纏斗谷歌
ChatGPT背后的公司為OpenAI,成立于2015年,由特斯拉CEO埃隆·馬斯克、PayPal聯(lián)合創(chuàng)始人彼得·蒂爾、Linkedin創(chuàng)始人里德·霍夫曼、創(chuàng)業(yè)孵化器Y Combinator總裁阿爾特曼(Sam Altman)等人出資10億美元創(chuàng)立。
OpenAI的誕生旨在開發(fā)通用人工智能(AGI)并造福人類。
當時,谷歌才是人工智能領域的最強公司。2016年打敗人類圍棋冠軍的阿爾法狗背后的AI創(chuàng)企DeepMind,就是由谷歌收購。
這一年5月,谷歌CEO桑德·皮查伊(Sundar Pichai)宣布將公司策略從“移動為先”轉(zhuǎn)變成“人工智能為先”(AI First),并計劃在公司的每一個產(chǎn)品上都應用機器學習算法。
OpenAI誕生的初衷,部分原因就是為了避免谷歌在人工智能領域形成壟斷。OpenAI起初是一個非營利組織,但在2019年成立OpenAI LP子公司,目標是盈利和商業(yè)化,并引入了微軟的10億美元投資。前YC孵化器總裁阿爾特曼就是此時加入OpenAI擔任CEO。
ChatGPT名字中的GPT(Generative Pre-trained Transformer ,生成式預訓練變換器),是OpenAI推出的深度學習模型。ChatGPT就是基于GPT-3.5版本的聊天機器人。
GPT的名字中包含了大名鼎鼎的Transformer,這是由谷歌大腦團隊在2017年的論文《Attention is all you need》中首次提出的模型。現(xiàn)在來看,這是人工智能發(fā)展的里程碑事件,它完全取代了以往的RNN(循環(huán)神經(jīng)網(wǎng)絡)和CNN(卷積神經(jīng)網(wǎng)絡)結(jié)構(gòu),先后在NLP(自然語言處理)、CV(計算機視覺)領域取得了驚人的效果。
最初的Transformer模型有6500個可調(diào)參數(shù),是當時最先進的大語言模型(Large Language Model, LLM)。谷歌公開了模型架構(gòu),任何人都可以用其搭建類似架構(gòu)的模型,并結(jié)合自己手上的數(shù)據(jù)進行訓練。
特斯拉自動駕駛,預測蛋白質(zhì)結(jié)構(gòu)的AlphaFold2模型,以及本文的主角OpenAI的GPT,都是在Transformer的基礎上構(gòu)建的。正如它的中文名字一樣——變形金剛。
Transformer出現(xiàn)之后,很多公司基于Transformer做NLP模型研究,其中OpenAI與谷歌就是最重要的兩家。
2018年,OpenAI推出了1.17億參數(shù)的GPT-1,谷歌推出了3億參數(shù)的BERT,雙方展開了一場NLP的較量。
GPT與BERT采用了不同的技術路線。簡單理解,BERT是一個雙向模型,可以聯(lián)系上下文進行分析,更擅長“完形填空”;而GPT是一個單項模型,只能從左到右進行閱讀,更擅長“寫作文”。
兩者的表現(xiàn)如何呢?發(fā)布更早的GPT-1贏了初代Transformer,但輸給了晚4個月發(fā)布的BERT,而且是完敗。在當時的競賽排行榜上,閱讀理解領域已經(jīng)被BERT屠榜了。此后,BERT也成為了NLP領域最常用的模型。
但是這場AI競爭才剛剛開始。OpenAI既沒有認輸,也非?!邦^鐵”。雖然GPT-1效果不如BERT,但OpenAI沒有改變策略,而是堅持走“大模型路線”。
在OpenAI眼中,未來的通用人工智能應該長這個樣子:“有一個任務無關的超大型LLM,用來從海量數(shù)據(jù)中學習各種知識,這個LLM以生成一切的方式,來解決各種各樣的實際問題,而且它應該能聽懂人類的命令,以便于人類使用。”
換句話說,就是大力出奇跡!
接下來的兩年(2019、2020年),在幾乎沒有改變模型架構(gòu)的基礎上,OpenAI陸續(xù)推出參數(shù)更大的迭代版本GPT-2、GPT-3,前者有15億參數(shù),后者有1750億參數(shù)。
GPT-2在性能上已經(jīng)超過BERT,到GPT-3又更進一步,幾乎可以完成自然語言處理的絕大部分任務 ,例如面向問題的搜索、閱讀理解、語義推斷、機器翻譯、文章生成和自動問答,甚至還可以依據(jù)任務描述自動生成代碼。
GPT-3大獲成功。OpenAI在早期測試結(jié)束后開始嘗試對GPT-3進行商業(yè)化,付費用戶可以通過API使用該模型完成所需語言任務,比如前文提到的AI繪畫獨角獸Jasper就是GPT-3的客戶。
值得一提的是,這個過程中谷歌也在不斷推出新的模型。但不同于OpenAI“從一而終”地堅持GPT路線,谷歌在BERT之后也推出了T5、Switch Transformer等模型,類似于賽馬機制。
此時距離ChatGPT的誕生還差一步。
03 意料之外的走紅
在GPT-3發(fā)布之后,OpenAI研究人員在思考如何對模型進行改進。
他們發(fā)現(xiàn),要想讓GPT-3產(chǎn)出用戶想要的東西,必須引入“人類反饋強化學習機制”(RLHF),通過人工標注對模型輸出結(jié)果打分建立獎勵模型,然后通過獎勵模型繼續(xù)循環(huán)迭代。
而聊天機器人就是引入強化學習的最佳方式,因為在聊天過程中,人類的對話就即時、持續(xù)地向模型反饋數(shù)據(jù),從而讓模型根據(jù)反饋結(jié)果進行改進。因為加入了人工標注環(huán)節(jié),OpenAI為此雇傭了大約40位外包人員來與機器人對話。
通過這樣的訓練,OpenAI獲得了更真實、更無害,并且更好地遵循用戶意圖的語言模型InstructGPT,在2022年3月發(fā)布,并同期開始構(gòu)建InstuctGPT的姊妹模型——ChatGPT。
根據(jù)《財富》雜志報道,當ChatGPT準備就緒后,OpenAI一開始并沒有想把它向公眾開放,而是先讓測試人員使用。
但根據(jù)OpenAI聯(lián)合創(chuàng)始人兼現(xiàn)任總裁Greg Brockman的說法,這些測試人員不清楚應該與這個聊天機器人談論什么。后來,OpenAI試圖將ChatGPT轉(zhuǎn)向特定領域的專業(yè)人士,但缺乏專業(yè)領域的訓練數(shù)據(jù)。
OpenAI最終不得不決定將ChatGPT向公眾開放。“我承認,我不知道這是否會奏效?!?Brockman說。
在《紐約時報》的報道中,OpenAI發(fā)布ChatGPT還有另外一個理由:擔心對手公司可能會在GPT-4 前發(fā)布他們的人工智能聊天機器人,因此要搶先發(fā)布。
總之,在2022年11月30日這天,ChatGPT誕生了。
ChatGPT成為了史上躥紅最快的應用。發(fā)布第五天,ChatGPT就積累了100萬用戶,這是Facebook花了10個月才達到的成績;發(fā)布兩個月,ChatGPT突破了1億用戶,對此TikTok用了大約九個月,Instagram用了兩年多。
ChatGPT的迅速傳播連OpenAI也猝不及防,OpenAI首席技術官Mira Murati說:“這絕對令人驚訝?!痹谂f金山VC活動上OpenAI CEO阿爾特曼說,他“本以為一切都會少一個數(shù)量級,少一個數(shù)量級的炒作”。
值得一提的是,OpenAI并非唯一的大模型聊天機器人。2021年5月,谷歌也發(fā)布了專注于生成對話的語言模型LaMDA,但直到現(xiàn)在谷歌仍未對外“交卷”。本周谷歌匆忙發(fā)布的用于對抗ChatGPT的聊天機器人Bard就由LaMDA支撐,但Bard的上線日期也未公布。
在這場OpenAI與谷歌持續(xù)數(shù)年的大模型競爭中,谷歌最終落了下風。
04 代價是什么?
但ChatGPT的成功,也讓OpenAI付出了代價,“燒錢”的代價。
過去幾年,大模型儼然成為了一場AI的軍備競賽。在2015年至2020年期間,用于訓練大模型的計算量增加了6個數(shù)量級,在手寫、語音和圖像識別、閱讀理解和語言理解方面超過了人類性能基準。
OpenAI的成功讓人們見識到了大模型的威力,但是大模型的成功可能難以復制,因為太燒錢了。
OpenAI很早就意識到,科學研究要想取得突破,所需要消耗的計算資源每3~4個月就要翻一倍,資金也需要通過指數(shù)級增長獲得匹配。而且,AI人才的薪水也不便宜,OpenAI首席科學家Ilya Sutskever在實驗室的頭幾年,年薪為190萬美元。
OpenAI CEO阿爾特曼在2019年對《連線》雜志表示:“我們要成功完成任務所需的資金比我最初想象的要多得多。”
這也是OpenAI從非營利性組織成立商業(yè)化公司的原因。2019年7月,重組后的OpenAI獲得了微軟的10億美元投資,可借助微軟的Azure云服務平臺解決商業(yè)化問題,緩解高昂的成本壓力。
解決了糧草問題的OpenAI,開始全力訓練大模型。
大模型背后離不開大數(shù)據(jù)、大算力。GPT-2用于訓練的數(shù)據(jù)取自于Reddit上高贊的文章,數(shù)據(jù)集共有約800萬篇文章,累計體積約40G;GPT-3模型的神經(jīng)網(wǎng)絡是在超過45TB的文本上進行訓練的,數(shù)據(jù)相當于整個維基百科英文版的160倍。
在算力方面,GPT-3.5在微軟Azure AI超算基礎設施(由V100GPU組成的高帶寬集群)上進行訓練,總算力消耗約 3640PF-days(即每秒一千萬億次計算,運行3640天)。
可以說,大模型的訓練就是靠燒錢燒出來的。據(jù)估算,OpenAI的模型訓練成本高達1200萬美元,GPT-3的單次訓練成本高達460萬美元。
根據(jù)《財富》雜志報道的數(shù)據(jù),2022年OpenAI的收入為3000萬美元的收入,但凈虧損總額預計為5.445億美元。阿爾特曼在推特上回答馬斯克的問題時表示,在用戶與ChatGPT的每次交互中OpenAI花費的計算成本為“個位數(shù)美分”,隨著ChatGPT變得流行,每月的計算成本可能達到數(shù)百萬美元。
大模型高昂的訓練成本讓普通創(chuàng)業(yè)公司難以為繼,因此參與者基本都是的科技巨頭。
在國內(nèi)科技公司中,阿里巴巴達摩院在2020年推出了M6大模型,百度在2021年推出了文心大模型,騰訊在2022年推出了混元AI大模型。
一個需要明確的事實是,雖然OpenAI的大模型取得了成功,但模型并非絕對意義上的越大越好,參數(shù)量也只是影響最終模型性能的因素之一。
GPT-3也不是參數(shù)最大的模型,比如,由英偉達和微軟開發(fā)的Megatron-Turing NLG模型,擁有超過5000億個參數(shù),但在性能方面并不是最好的,因為模型未經(jīng)充分的訓練。
實際上,在特定場景下,較小的模型可以達到更高的性能水平,而且成本更低。
一位AI從業(yè)者告訴「甲子光年」:“現(xiàn)實就是,NLP公司做to B只能做小模型。得私有化,工程性能好,計算消耗少。甲方還希望你能部署在CPU上呢?!?/p>
關于大模型與小模型的關系,我們會在后面的文章中繼續(xù)討論。
05 錢都流向了哪里?
以ChatGPT為代表的生成式AI正在引發(fā)新一輪AI軍備競賽,這個特別燒錢的新興市場,也讓背后的基礎設施廠商賺得盆滿缽滿。
著名風投機構(gòu)A16Z將生成式AI市場分成了三層:
應用層:將第三方API或自有模型集成到面向用戶的產(chǎn)品中,比如AI繪畫應用Jasper、Midjourney;
模型層:為應用層提供能力,比如閉源的GPT-3,或者開源的Stable diffusion;
基礎設施層:為生成人工智能模型運行培訓和推斷工作負載的云平臺和硬件制造商。
生成式AI的大量資金最終都穩(wěn)定地流向了基礎設施層——以亞馬遜AWS、微軟Azure、谷歌GCP為主的云廠商,以及以英偉達為代表的GPU廠商。
據(jù)A16Z估計,應用層廠商將大約20%~40%的收入用于推理和模型微調(diào),這部分收入通常直接支付給云廠商或第三方模型提供商,第三方模型提供商也會將大約一半的收入用于云基礎設施。因此,總的來看生成式AI總收入的10%~20%都流向了云提供商。
微軟投資OpenAI就是一個很好的案例。
2019年微軟投資OpenAI 10億美元,其中大約一半以Azure云計算的代金券形式,成為OpenAI 技術商業(yè)化的“首選合作伙伴”,未來可獲得OpenAI 的技術成果的獨家授權。今年1月23日,微軟再次加碼,宣布向OpenAI追求數(shù)十億美元,來加速人工智能的突破。
根據(jù)《財富》雜志報道,在OpenAI的第一批投資者收回初始資本后,微軟將有權獲得OpenAI 75%的利潤直到收回投資成本;當OpenAI賺取920億美元的利潤后,微軟的份額將降至49%。與此同時,其他風險投資者和 OpenAI的員工也將有權獲得OpenAI 49%的利潤,直到他們賺取約1500億美元。如果達到這些上限,微軟和投資者的股份將歸還給OpenAI的非營利基金會。
本質(zhì)上,OpenAI是在把公司借給微軟,借多久取決于OpenAI賺錢的速度。微軟對OpenAI的投資更大的野心在于,希望在下一個人工智能的十年向谷歌以及其他科技巨頭發(fā)起挑戰(zhàn)。
在今年1月份的瑞士達沃斯論壇期間,微軟CEO納德拉表示,微軟將全線接入ChatGPT,計劃將ChatGPT、DALL-E等人工智能工具整合進微軟旗下的所有產(chǎn)品中,包括且不限于Bing搜索引擎、Office全家桶、Azure云服務、Teams聊天程序等等。
本周,新版Bing正式發(fā)布。納德拉霸氣表示:“比賽今天開始了,我們將繼續(xù)前進并快速行動,希望在搜索領域再次獲得更多創(chuàng)新的樂趣?!?/p>
除了微軟之外,英偉達則是生成式AI幕后最大的贏家。
云廠商每年總共花費超過1000億美元的資本支出,來確保他們能夠擁有最全面、最可靠和最具成本競爭力的平臺,比如獲得英偉達最先進、也是最稀缺的GPU——A100與H100。GPU成為了生成式AI發(fā)展上限“卡脖子”的一環(huán)。
英偉達過去一個月的股價漲幅甚至超過了微軟。
ChatGPT在科技圈引發(fā)的震動仍在持續(xù)。一個不可否認的事實是,國內(nèi)的AI公司多少處于一種置身之外的感受。人們驚嘆于技術的進步,也感慨于實力的差距。
對此,云知聲創(chuàng)始人黃偉如此評價:
接下來,國內(nèi)科技公司會如何接招呢?
參考資料:
[1]Generative AI: A Creative New World,紅杉資本
[2]Who Owns the Generative AI Platform?,A16Z
[3]萬字長文:AI產(chǎn)品經(jīng)理視角的ChatGPT全解析,馬丁的面包屑
[4]OpenAI是如何勝過谷歌的?ChatGPT發(fā)展簡史,做AI做的事兒
[5]ChatGPT 的內(nèi)幕:OpenAI 創(chuàng)始人Sam Altman如何用微軟的數(shù)十億美元打造了全球最熱門技術,MoPaaS