文|酷玩實(shí)驗(yàn)室
1997年,一臺叫“深藍(lán)”的超級電腦僅僅用11步就擊敗了國際象棋大師卡斯帕羅夫,第一次完成電腦對人類的智力逆襲。
在那個AI技術(shù)還處于低谷的年代,卡斯帕羅夫賽后堅持認(rèn)為有人在操控,引發(fā)的爭議讓人們只把這件事當(dāng)成茶余飯后的談資,或者科幻電影素材,沒人想到,十年蟄伏后,一個AI的時代來的這么迅猛。
2010年,微軟剛剛用全球第一款探測跟蹤人體運(yùn)動的智能游戲設(shè)備把AI悄然帶到了普通消費(fèi)者面前,遠(yuǎn)在中國的百度就在財報電話會議上就透露了all in AI的計劃,產(chǎn)業(yè)競爭初見端倪。
三年后,谷歌brain項(xiàng)目的吳恩達(dá)教授團(tuán)隊(duì)用三臺機(jī)器上的Nvidia圖形處理單元(GPU)集群訓(xùn)練出了此前要一千臺電腦才能完成的貓咪圖像識別神經(jīng)網(wǎng)絡(luò),拉開了人工智能發(fā)展的快車道。
等2015年馬斯克剛剛成立Open AI,第二年,一個叫做AlphaGo的AI就以4:1的成績擊敗了韓國圍棋冠軍李世石。喚起了比人類當(dāng)年面對深藍(lán)更強(qiáng)烈的壓迫感。
因?yàn)橄聡逅枰牡乃懔σ葒H象棋高出N個數(shù)量級,當(dāng)然消耗的能量也比人類搞得多——下一場圍棋光電費(fèi)就要三千多美元。
從那之后,AI就越來越頻繁霸榜科技媒體頭版頭條。
比如,升級后的AlphaGo Zero打敗了人類圍棋冠軍柯潔、AlphaStar的AI在《星際爭霸2》中拿到了大師級段位,游戲渲染更流暢的DLSS技術(shù)也用到了AI,AI換臉、AI推送、AI自動駕駛也不是什么新鮮的玩意兒了。還有AI數(shù)字人度曉曉挑戰(zhàn)高考作文,以48分的分?jǐn)?shù)超過75%考生。
沒想到這兩年,AI再次迎來了一波熱潮,但與此前總是挑戰(zhàn)人類頂尖選手不同的是,這次AI顛覆的是每個普通人的生活。
首先是2020年,一個叫GPT-3的AI向全世界宣布:“我寫的作文,幾乎通過了圖靈測試”,驚掉了很多人的下巴。
沒等輿論把圖靈測試到底是什么給公眾科普清楚,一個叫做“DALL-E”的繪畫AI就在網(wǎng)絡(luò)上病毒式傳播開了。
用戶只要輸入一段文字,AI就可以生成符合描述的圖像,作畫效果出奇的好。
因?yàn)槟爿斎氲拿枋隹刹粌H僅是“天空”、“城市”、“激光”、“敵人”這樣簡單的詞語,還可以是“一座漂浮在天空的城市在用激光和敵人戰(zhàn)斗”這種雜糅了多種元素的自然語言表達(dá)。
同時,生成的圖像也絕對不是“在PS里把幾種元素隨意拼接在一起”的程度,而是構(gòu)圖、配色、風(fēng)格都非常統(tǒng)一的形式,還可以指定諸如“賽博朋克”、“UE4渲染”、“宮崎駿”等特定的作畫風(fēng)格。
由于AI作畫的水準(zhǔn)在線,創(chuàng)意也非常新穎,這東西經(jīng)常是玩起來一晚上就過去了,上癮程度堪比刷短視頻。
但這還沒完,到了過年的時候,與GPT-3同一家公司的聊天AI—— ChatGPT來了。而且轟動程度一點(diǎn)也不亞于AI作畫,從零到一百萬用戶,只用了五天,當(dāng)初扎克伯格的臉書用了整整一年。
ChatGPT厲害之處就是它擅長的是自然語言處理(NLP)。簡單來說,它的作用就是“有問必答”,而且更像是在跟人聊天,你甚至可以讓ChatGPT寫一段小說場景,或者寫一段實(shí)現(xiàn)具體功能的代碼,甚至年終總結(jié)也可以交給它試一試。
哪怕對于一些比較抽象的概念,ChatGPT也會先向人詢問這些概念到底指什么,再做出自己的回答,真是個小機(jī)靈鬼。
這么看的話,ChatGPT是不是有點(diǎn)通過圖靈測試那味兒了?
當(dāng)然,由于預(yù)言與注冊程序的原因,國內(nèi)用戶想要體驗(yàn)這兩類AI應(yīng)用還是比較困難的,但國內(nèi)對于AIGC的研發(fā)也完全不落下風(fēng)。
比如百度的文心一格可以用來AI作畫,文心NLP大模型ERNIE可以寫詩、可以撰文。而且國內(nèi)的產(chǎn)品也往往對于中文有更好的支持,在寫描述的時候也不用翻譯來翻譯去的了。
在此前幾輪的AI熱潮中,不論是下棋還是駕駛還是機(jī)器人,主角都是決策式AI。
而“AI作畫”和“AI聊天”,它們的名字叫生成式AI。
生成式AI擅長的是歸納后演繹創(chuàng)造,根據(jù)人給出的條件進(jìn)行縫合式創(chuàng)作、模仿式創(chuàng)新。英偉達(dá)的CEO黃仁勛相信,生成式AI會成為一項(xiàng)革命性的技術(shù)。
不過在10年代的機(jī)器學(xué)習(xí)教科書中,早已就有了這兩類AI。為什么在2020年后出現(xiàn)有了顯著突破呢?
真正的關(guān)鍵是,大模型的突破。
2019年 3 月,強(qiáng)化學(xué)習(xí)之父Richard Sutton發(fā)文表示:“短期內(nèi)要使AI能力有所進(jìn)步,研究者應(yīng)尋求在模型中利用人類先驗(yàn)知識;但之于AI的發(fā)展,唯一的關(guān)鍵點(diǎn)是對算力資源的充分利用。”
神經(jīng)網(wǎng)絡(luò)模型在上世紀(jì)90 年代出現(xiàn),但在2010 年前,基于統(tǒng)計的學(xué)習(xí)模型仍是主流,所以在打敗人類象棋高手多年后,遲遲無法攻克變數(shù)近乎宇宙級的圍棋。
后來得益于GPU算力的高速進(jìn)步與深度神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)等等算法的進(jìn)步,深度學(xué)習(xí)模型逐漸成為主流,擺脫了窮舉法的限制,AI能夠用來學(xué)習(xí)訓(xùn)練的參數(shù)也越來越多,充分利用了GPU 擅長并行計算的能力,基于龐大的數(shù)據(jù)集、復(fù)雜的參數(shù)結(jié)構(gòu)一次次刷新人類對AI智力天花板的想象。
簡單來說,早期的AI就像個剛出生的小嬰兒,什么也不懂。爸爸媽媽就要拿著一張“貓”的圖片然后跟他說“這是一只貓”,建立起圖像和語言的聯(lián)系。AI也是如此,我們需要大量的“識圖卡”來訓(xùn)練AI。
在十年前,由于芯片的算力有限,人類使用的方法非常笨拙:
找出一張主體是貓的圖片,然后人工打上“貓”的標(biāo)簽,喂給AI來學(xué)習(xí),效率非常低下,而且訓(xùn)練出來的AI只能識別特定的物種。經(jīng)過大量的訓(xùn)練,AI雖然能識別幾千類物品,可一旦遇到復(fù)雜的情況就蒙了。比如給一只狗帶上貓貓的頭套,AI大概率就出錯了,因?yàn)樗徽J(rèn)識0和1,但不認(rèn)識0.5。
但大模型就不一樣了。
隨著算力的提升,AI能處理的樣本數(shù)量也突飛猛進(jìn)。
工程師們反而可以化繁為簡,直接把大量的網(wǎng)絡(luò)圖片丟給AI去學(xué)習(xí)就好了。
因?yàn)榫W(wǎng)絡(luò)上的圖片一般都是自帶描述的,而且畫面還更復(fù)雜,比如“一只狗在草地上玩飛盤”,包括多個主體還有動作,一下子讓AI接收的信息量暴增。
比如,DALL-E 2采用了6.5億張圖文配對,這種龐大的樣本數(shù)量就構(gòu)成了AI的“大模型”,也是這兩年AI發(fā)展的大趨勢。從結(jié)果上來看,大模型也的確讓AI從量變達(dá)到了質(zhì)變,比如我們不僅可以畫“貓”和“火焰”,還可以畫“用火焰構(gòu)成的貓”這種現(xiàn)實(shí)中不會存在的幻想生物。
所以,大模型便是樣本參數(shù)量達(dá)到一定量級的產(chǎn)物,一旦突破某個質(zhì)變點(diǎn),比如十億級的參數(shù)量,就能實(shí)現(xiàn)在小模型無法實(shí)現(xiàn)的泛用性。
因?yàn)闊o論是AI作畫、AI聊天還是AI寫小說、寫詩歌,其背后最大的共同點(diǎn)是,可以分析識別人類的自然語言。而語言和人類的知識、思維整體相關(guān),所以AI學(xué)習(xí)勢必需要龐大的參數(shù)來支撐。
所以大模型的“大”主要體現(xiàn)在兩個方面,一個是AI模型自身的參數(shù)數(shù)量在呈指數(shù)級增加,另一個是用于訓(xùn)練AI的樣本也在質(zhì)和量上有著越來越夸張的提升。
如果把AI模型比作人的大腦,那參數(shù)就相當(dāng)于大腦中神經(jīng)元的數(shù)量。
早在2019年,Open AI實(shí)驗(yàn)室核算了自2012年以來模型所用的計算量。
從最早的AlexNet模型,就是在AI分類比賽中讓卷積神經(jīng)網(wǎng)絡(luò)一戰(zhàn)成名,是影響AI進(jìn)程冠軍模型,到AlphaGo Zero模型,即打敗韓國圍棋九段棋手李世石的AlphaGo增強(qiáng)版,七年里,兩者之間參數(shù)指標(biāo)增長30萬倍。
那些同時期堪稱“最大”的AI訓(xùn)練模型所使用的計算量,呈指數(shù)型增長,平均3.4個月就會倍增,比芯片摩爾定律還要快。
國內(nèi)也是一樣,百度2016年用于語音識別的DeepSpeech訓(xùn)練模型的參數(shù)是億級,到了今天的用于繪畫、寫作、聊天的文心大模型中,也有多個模型參數(shù)達(dá)到了千億級別。
簡單來說,大模型突出的就是一個“力大磚飛”,讓AI的能力在參數(shù)增加到某個階段就突然獲得從量變到質(zhì)變突破性進(jìn)展。
這種“突現(xiàn)能力”的具體原因科學(xué)家還在研究,可能是代碼、指令上的微調(diào),還可能是AI在預(yù)訓(xùn)練的海量數(shù)據(jù)中偶然學(xué)到了類似問題的思維鏈參數(shù)。
似乎只要參數(shù)夠大,一切皆有可能。
如果有一天AI像人腦一樣,有百萬億個參數(shù),那AI的智能可能真的可以和人類比肩。
但這并沒有那么容易。
面對這么大的參數(shù)量,不管是百度還是谷歌,都認(rèn)為自然語言處理對整個人工智能的未來都是非常大的挑戰(zhàn)。
因?yàn)檎麄€AI框架的設(shè)計是否合理,芯片之間如何分配工作量,如何讓更多的芯片滿負(fù)荷運(yùn)作,這些在實(shí)際應(yīng)用中是很難同時達(dá)到完美狀態(tài)的。
總之,對于AI訓(xùn)練來說,巨大的參數(shù)代表著算力、技術(shù)與費(fèi)用的暴增,而且產(chǎn)出并不是線性增長的。說不定100個AI芯片砸下去,也就比1個AI芯片提升了幾倍的效率,投入效費(fèi)比極速下跌。
像OpenAI公司GPT-3這種千億級別參數(shù)的大模型,一次訓(xùn)練的花銷高達(dá)千萬美元,而同樣是馬斯克創(chuàng)立的SpaceX,一顆衛(wèi)星成本也不過是五十萬美元。
據(jù)馬里蘭大學(xué)副教授Tom Goldstein粗略估計,如果100萬ChatGPT用戶平均每天只進(jìn)行10次對話,那么Open AI就需要為ChatGPT每天燒掉10萬美元(68萬人民幣)。
而現(xiàn)在ChatGPT的對話水平只能說交流沒問題,還遠(yuǎn)遠(yuǎn)到不了能夠創(chuàng)造利潤的地步,而未來每一次的訓(xùn)練進(jìn)步,都是錢燒出來的。
所以,短期來看,為每一個人配備鋼鐵俠賈維斯那樣全知全能的AI看來是無望了。
在國內(nèi),像是百度的文心大模型在不斷推進(jìn)算法、算力的同時,更加專注模型的效率,而且更加貼近產(chǎn)業(yè)落地應(yīng)用。
比如GPT-3很聰明,可以生成所有的結(jié)果,但它沒有人類習(xí)慣的常識。比如AI繪畫中,人的手指總是出問題,從三根四根到七根八根都可能出現(xiàn),結(jié)果是精美的畫面常常出現(xiàn)低級錯誤。
這時候就需要給AI一個常識,幫助AI快速理解人類社會。
而如果這個知識圖譜足夠?qū)I(yè)、細(xì)致,那么大模型就能干更專業(yè)的事情。
所以在龐大的參數(shù)基礎(chǔ)上,文心大模型有兩個突出特點(diǎn)——知識增強(qiáng)和產(chǎn)業(yè)級,知識增強(qiáng)也就是類似AI繪畫海量圖文匹配的大規(guī)模數(shù)據(jù)樣本,比如文心一格就采用了10億張圖文來配對,大幅增強(qiáng)了模型對于知識的記憶與推理能力,學(xué)習(xí)效率更高,而且在實(shí)體問答、知識預(yù)測、可控文本生成上擁有更好的效果。
為此,文心大模型背后還擁有一套從整個互聯(lián)網(wǎng)世界自動挖掘知識的方法體系,突破了從無結(jié)構(gòu)直言語言數(shù)據(jù)中挖掘大規(guī)模結(jié)構(gòu)知識的技術(shù)瓶頸,讓百度打造了擁有5500億知識的多元異構(gòu)超大規(guī)模的知識圖譜。
這一特點(diǎn)也讓文心大模型擁有了大量產(chǎn)業(yè)級應(yīng)用落地的能力,可以推動各行各業(yè)智能化升級,目前已經(jīng)于工業(yè)、能源、金融、通信、媒體、教育等各個領(lǐng)域。
這還需要數(shù)據(jù)之外更底層技術(shù)框架支持。
比如一系列AI大模型開發(fā)需要的工具組件、開發(fā)套件、基礎(chǔ)模型庫、核心框架、AI開發(fā)者社區(qū)等等,才能最大程度加速了傳統(tǒng)產(chǎn)業(yè)智能化升級,從人才培養(yǎng)開始為大模型的落地鋪路。
聊完了,國內(nèi)外的大模型與AIGC前沿競爭格局,最后還是要回到人與AI的關(guān)系上來。
現(xiàn)在的AI已經(jīng)能繪畫、寫小說、寫代碼、甚至可以做視頻了,如果AIGC真的擴(kuò)展到更多的領(lǐng)域,我們還是要問出那個一直擔(dān)憂的問題:
AI會造成人類的大規(guī)模失業(yè)嗎?
我覺得,如果人們對AI的發(fā)展報以一種厭惡和排斥的態(tài)度,那它逐漸取代部分人的工作只是時間問題。但如果我們能夠接納AI的發(fā)展,去主動了解、使用AI,讓它成為日常工作生活中的得力助手,那我們就不會被AI取代,反而會在AI幫助下更好的創(chuàng)作內(nèi)容。
這并不是一種“打不過就加入”的無奈,反而是人類不斷發(fā)展的必然。
正如熱兵器最終取代了冷兵器,信息化軍隊(duì)脫胎于機(jī)械化軍隊(duì),互聯(lián)網(wǎng)一定程度上取代了傳統(tǒng)媒體,我們之所以成為今天的我們,同樣也是接納了諸多新事物的結(jié)果。而且在當(dāng)下,一些技術(shù)的發(fā)展正處于瓶頸,或者是被一張薄紙擋住未來。
比如VR領(lǐng)域的計算機(jī)圖形學(xué),同樣也需要AI從另一個角度去攻破。就連計算機(jī)圖形學(xué)大佬約翰·卡馬克也在開拓通用人工智能的道路,并表示“想嘗試一些沒人知道會走向何方的領(lǐng)域”。
無論是芯片產(chǎn)業(yè)的殘酷博弈、AI算法競賽還是知識圖譜比拼,甚至是不知方向的瘋狂砸錢,面對AI帶來的期待與焦慮,人類今天種種,是因?yàn)檎l也說不好,哪一天AI技術(shù)就如爆炸一樣,捅穿了蒙在未來前面那張薄紙。
今天人類的彷徨、迷惑,甚至不屑,都可能是圖靈當(dāng)年所說的:
“不過是將來之事的前奏,也是將來之事的影子。”