界面新聞?dòng)浾?| 陳振芳
界面新聞編輯 | 文姝琪
6月14日,中關(guān)村國(guó)際創(chuàng)新中心,上午七點(diǎn)半,已經(jīng)開始有人排隊(duì)等待入場(chǎng),大模型創(chuàng)業(yè)者們開始享受到明星般的追隨與禮遇。
在由北京智源人工智能研究院主辦的“智源大會(huì)”上,李開復(fù)直言,具身智能并不一定適合創(chuàng)業(yè)者;相信Scaling Law過程中不能盲目“堆”GPU;大公司、傳統(tǒng)公司不敢采取顛覆式技術(shù),它們已經(jīng)習(xí)慣每年增長(zhǎng)5%的預(yù)算,做和去年一樣的事情。
大模型創(chuàng)業(yè)熱,但大廠群狼環(huán)伺,在大模型降價(jià)潮的口子剛剛撕開,大廠立即下場(chǎng)出牌,創(chuàng)業(yè)公司艱難交手。不同于多年前的互聯(lián)網(wǎng)熱,大模型熱不到兩年,但創(chuàng)業(yè)者們已經(jīng)開始強(qiáng)調(diào)性價(jià)比和產(chǎn)出比。
人們還在繼續(xù)追問:大模型的落地場(chǎng)景在哪里?B端和C端的場(chǎng)景在哪里?還有哪些機(jī)會(huì)?
李開復(fù)仍然相信技術(shù)可以永久領(lǐng)先,但技術(shù)帶來的領(lǐng)先窗口期非常短暫,一旦巨頭看到你驗(yàn)證了PMF(產(chǎn)品市場(chǎng)匹配度),他們會(huì)有很多方法超越你。最終勝出的To C(用戶端)應(yīng)用不僅需要技術(shù)優(yōu)勢(shì),還要在時(shí)間窗口內(nèi)打造持續(xù)優(yōu)勢(shì),比如品牌優(yōu)勢(shì)、社交鏈、用戶數(shù)據(jù),讓用戶離不開這個(gè)平臺(tái)。
會(huì)上,智源研究院理事長(zhǎng)黃鐵軍,零一萬物CEO、創(chuàng)新工場(chǎng)董事長(zhǎng)李開復(fù)與中國(guó)工程院院士、清華大學(xué)智能產(chǎn)業(yè)研究院(AIR)院長(zhǎng)張亞勤展開對(duì)談?,F(xiàn)場(chǎng)聊了關(guān)于大模型的優(yōu)勢(shì)與不足、大模型熱為自動(dòng)駕駛帶來機(jī)會(huì),具身智能和AGI等熱點(diǎn)話題。
以下內(nèi)容經(jīng)界面新聞編輯和刪節(jié)
談大模型:優(yōu)缺點(diǎn)、商業(yè)化難題
黃鐵軍:什么原因使得大模型如此成功?還有哪些欠缺的地方需要進(jìn)一步發(fā)展?
李開復(fù): AI 2.0是有史以來最偉大的科技革命和平臺(tái)革命,大模型Scaling Law 的重要性在這個(gè)時(shí)代得以凸顯——人類能夠用更多計(jì)算和數(shù)據(jù)不斷增加大模型的智慧,這條被多方驗(yàn)證的路徑還在推進(jìn)中,還遠(yuǎn)沒有觸達(dá)天花板,這點(diǎn)也讓大家非常振奮。
大模型的智慧來自于接近無損的壓縮,這點(diǎn)也非常重要。上世代的人工智能從業(yè)者很難想到今天會(huì)把壓縮和智能連接在一起。但Scaling Law過程中不能盲目“堆”GPU,需要有方法評(píng)估哪個(gè)方法做得更好。零一萬物內(nèi)部采用壓縮的理念去評(píng)估,讓以往漫無目的“煉丹”訓(xùn)模過程變得更系統(tǒng)也更有科學(xué)和數(shù)學(xué)根據(jù)。
大模型正面臨著一些挑戰(zhàn),如果“僅僅用更多算力就能把它往前推動(dòng)”是主要方向的話,就會(huì)導(dǎo)致只有那些GPU資源豐富的公司和國(guó)家能夠在這方面勝出。但話說回來,很多國(guó)內(nèi)大模型在部分案例里接近或者打平、或者偶爾超過美國(guó)大模型。需要專注算法和工程創(chuàng)新一體化推進(jìn),避免進(jìn)入“盲目堆算力推動(dòng)模型性能提升”的狀態(tài)。
張亞勤:我講“三個(gè)做對(duì)了”和“三個(gè)需要改進(jìn)” 。有三件事做對(duì)了。首先,規(guī)模定律Scaling Law(規(guī)模定律)的實(shí)現(xiàn),得益于對(duì)海量數(shù)據(jù)的利用以及算力的顯著提升,再加上現(xiàn)在的Diffusion和Transformer架構(gòu)能夠高效地利用算力和數(shù)據(jù),使得“飛輪效應(yīng)”得以正循環(huán)。
有人質(zhì)疑Scaling Law在2-3年后不一定有效,但我認(rèn)為至少在未來五年里,它仍是產(chǎn)業(yè)發(fā)展的主要方向。
其次是“Token-Based”統(tǒng)一表述方式。在大模型中,“Token”是一個(gè)基本元素。無論是文本、語音、圖像、視頻,還是自動(dòng)駕駛中的激光雷達(dá)信號(hào),甚至是生物領(lǐng)域的蛋白質(zhì)和細(xì)胞,最終都可以抽象為一個(gè)Token。
大模型的通用性不僅體現(xiàn)在文本處理上,還擴(kuò)展到了多模態(tài)領(lǐng)域,甚至可以生成如蛋白質(zhì)等復(fù)雜結(jié)構(gòu)。此外,它在物理世界(如具身智能)和生物世界(如生物智能)中也有著廣泛的應(yīng)用前景。以上這三個(gè)是大模型做對(duì)的。
大模型現(xiàn)階段主要存在以下三個(gè)問題:
一是大模型計(jì)算效率低下,與人類大腦的高效性形成了鮮明的對(duì)比。如何借鑒人類大腦的計(jì)算方法,在降低計(jì)算耗能、提高效率方面進(jìn)行探索和創(chuàng)新,是一個(gè)值得關(guān)注的方向。
其次,大模型尚未能真正理解物理世界,相關(guān)的推理能力、透明性以及幻覺等問題都還在研究中。
此外,大模型做得再好,它在生成式表述與對(duì)真實(shí)世界之間仍存在矛盾。需要探索將生成式大模型與現(xiàn)有的“第一性原理”或真實(shí)模型、知識(shí)圖譜相結(jié)合,雖然目前已經(jīng)有人采用RAG技術(shù)或進(jìn)行微調(diào)。但我認(rèn)為這些方法并非根本解決方案。未來五年內(nèi),會(huì)有一個(gè)全新的架構(gòu)取代目前的Transformer和Diffusion模型。
最后,大模型欠缺的地方是邊界問題。現(xiàn)在大模型無法知道“我不知道什么”,這是目前要解決的問題,是它的邊界效應(yīng)。
黃鐵軍:有人認(rèn)為大模型是實(shí)踐、工程,經(jīng)驗(yàn)主義的東西,沒有理論基礎(chǔ),說得不好聽叫“不靠譜”,不知道你怎么看這個(gè)問題?
李開復(fù):科學(xué)和工程缺一不可。如果只做工程,不了解“第一性原理”,沒有數(shù)學(xué)根據(jù)、沒有辦法評(píng)估不同方法的效果,考慮到高昂的算力成本,這樣的摸索肯定做不出好模型。如果只在實(shí)驗(yàn)室里雕花,寫論文,期待有工程人才把論文做成產(chǎn)品,肯定也是不行的。
零一萬物的經(jīng)驗(yàn)是,每個(gè)做AI、做模型的Researcher要懂Infrastructure、都要懂推理、知道成本問題。訓(xùn)練模型的過程中絕對(duì)不只是寫Paper,還要考慮怎樣系統(tǒng)化、工程化地做數(shù)據(jù)工程,還有底層的AI Infrastructure。GPU這么昂貴,如果把一張當(dāng)成兩張、三張使用,任何公司都會(huì)得到好處,所以科技和工程這兩方面缺一不可。
黃鐵軍:大模型產(chǎn)業(yè)化最大的場(chǎng)景在哪里?移動(dòng)互聯(lián)網(wǎng)這么多年,To B、To C ,這兩個(gè)大賽道哪個(gè)更有機(jī)會(huì)?為什么?
李開復(fù):簡(jiǎn)單來說,短期在中國(guó)To C 更有機(jī)會(huì),但國(guó)外兩者都有機(jī)會(huì)。To C方面,AI 2.0 時(shí)代會(huì)和PC、移動(dòng)互聯(lián)網(wǎng)時(shí)代一樣,第一個(gè)階段是生產(chǎn)力工具,包括信息獲取。第二個(gè)階段可能是娛樂、音樂、游戲。第三個(gè)階段是搜索;再下一個(gè)階段可能會(huì)是電商、社交、短視頻、O2O的應(yīng)用出現(xiàn)。
應(yīng)用要能賺錢并且解決問題,所以第一波潮流會(huì)出現(xiàn)生產(chǎn)力工具,但越往后的難度越高——高用戶量的應(yīng)用商業(yè)模式往往先堆積用戶,再找變現(xiàn)模式,所以應(yīng)用成本一定要低,試錯(cuò)難度大、所需要的投資也更多。
遞進(jìn)模式不會(huì)有特別大的改變,To C應(yīng)用會(huì)從生產(chǎn)力工具一步步走向短視頻類應(yīng)用,在普及順序上會(huì)按照這六個(gè)階段進(jìn)行。
但是,大模型領(lǐng)域做應(yīng)用的推理成本太貴。最近零一萬物提出了TC-PMF概念(技術(shù)成本產(chǎn)品市場(chǎng)契合度),這個(gè)概念是指,當(dāng)你考慮PMF時(shí),還要把技術(shù)的需求、實(shí)現(xiàn)難度和成本考慮進(jìn)去。做應(yīng)用一定要考慮到剛才這六個(gè)階段誰先誰后、什么時(shí)候做、提早做。
此外,做應(yīng)用還要綜合考慮技術(shù)、成本的性價(jià)比,大模型To C應(yīng)用不像過去移動(dòng)互聯(lián)網(wǎng)時(shí)代,產(chǎn)品經(jīng)理一個(gè)人就可以做主,它需要做Infrastructure、做推理引擎的人、一起打磨TC-PMF。
To B應(yīng)用上,大模型有可能在To B方向上帶來更大價(jià)值,而且比To C更快實(shí)現(xiàn),但To B領(lǐng)域存在以下幾個(gè)挑戰(zhàn)。
首先是大公司、傳統(tǒng)公司不敢采取顛覆式技術(shù),它們已經(jīng)習(xí)慣每年增長(zhǎng)5%的預(yù)算,做和去年一樣的事情。
第二個(gè)挑戰(zhàn)在中國(guó)比較嚴(yán)重,許多大公司沒有認(rèn)識(shí)到軟件的價(jià)值,為軟件付費(fèi)意的意識(shí)有待提高。
現(xiàn)在有許多大模型公司在競(jìng)標(biāo)時(shí)越競(jìng)越低,最后做一單賠一單,都沒有利潤(rùn)。我們?cè)贏I 1.0時(shí)代曾見過這個(gè)現(xiàn)象,現(xiàn)在它在AI 2.0時(shí)代又重現(xiàn)了。這種心態(tài)導(dǎo)致部分大公司只愿支付很低的價(jià)格,大模型公司也只能給出折中的方案,達(dá)到驚艷效果的寥寥無幾。零一萬物堅(jiān)決做To C,不做賠錢的To B,而是做能賺錢的To B。
黃鐵軍:在To B、To C方面,大模型產(chǎn)業(yè)的最大場(chǎng)景會(huì)在哪些場(chǎng)景落地?
張亞勤:在應(yīng)用和服務(wù)層面,先面向消費(fèi)者(To C)再面向企業(yè)(To B)。To B的周期相對(duì)較長(zhǎng),而To C的應(yīng)用產(chǎn)品則可以迅速推出,這與過去的PC互聯(lián)網(wǎng)和移動(dòng)互聯(lián)網(wǎng)的發(fā)展路徑基本一致。
在基礎(chǔ)設(shè)施層,目前真正盈利的主要集中在To B領(lǐng)域,特別是在芯片、硬件、服務(wù)器等。像英偉達(dá)、AMD等芯片制造商,以及服務(wù)器、HBM存儲(chǔ)、InfiniBand和NVLink等相關(guān)技術(shù)的提供商,他們目前是盈利最多的。
AI路徑上,我在過去十年中一直強(qiáng)調(diào)三個(gè)關(guān)鍵領(lǐng)域:信息智能、物理智能(即具身智能)、生物智能。在具身智能階段,To B的應(yīng)用可能會(huì)比To C更快落地。然而,在生物智能階段,情況可能相反,To C的應(yīng)用可能會(huì)先于To B出現(xiàn)。盡管每個(gè)領(lǐng)域的具體情況可能有所不同,但總體來看,無論是To C還是To B,都將存在開源模型、商業(yè)閉源模型、基礎(chǔ)大模型,以及針對(duì)垂直行業(yè)模型和邊緣模型。
談具身智能與自動(dòng)駕駛
黃鐵軍:在具身智能這么多可能性里面,到底是熱門的人形機(jī)器人會(huì)先有機(jī)會(huì),還是已經(jīng)有相當(dāng)多積累的自動(dòng)駕駛會(huì)有機(jī)會(huì)?
張亞勤:無人駕駛L4+是具身智能第一個(gè)、最大的應(yīng)用,也會(huì)是第一次實(shí)現(xiàn)新圖靈測(cè)試的應(yīng)用。
無人駕駛就是一個(gè)開車的特殊機(jī)器人,它在安全性已經(jīng)比人類駕駛要高至少10倍,不管是Waymo還是百度阿波羅的商業(yè)運(yùn)營(yíng)。
盡管安全性很好,當(dāng)前無人駕駛?cè)源嬖谝恍┨魬?zhàn)——開得安全但不夠老練,不夠“老司機(jī)”。無人駕駛要變成主流,要通過新圖靈測(cè)試的話,既是好司機(jī),也是老司機(jī)。我認(rèn)為無人駕駛在明年會(huì)成為第一個(gè)真正實(shí)現(xiàn)具身智能或者物理智能的AGI。
大模型的推出幫助無人駕駛解決了很多歷史問題,比如長(zhǎng)尾問題、數(shù)據(jù)生成問題,百度已經(jīng)積累了1億公里的駕駛數(shù)據(jù),但數(shù)據(jù)仍然不夠,生成式人工智能可以生成更多數(shù)據(jù)。大模型的應(yīng)用使得無人駕駛系統(tǒng)能夠?qū)崿F(xiàn)端到端的智能化,也意味著無人駕駛會(huì)有更高的智能性,加速其在實(shí)際場(chǎng)景中的落地應(yīng)用。
李開復(fù):我同意亞勤的分析。創(chuàng)新工場(chǎng)投了6家無人駕駛公司,發(fā)展都不錯(cuò)?,F(xiàn)在無人駕駛面臨的一個(gè)巨大機(jī)會(huì)——終于可以落地了。在L2、L3階段,包含城市自動(dòng)小巴等場(chǎng)景。到L4、L5階段,要無限制的開放場(chǎng)景,全球都面臨著挑戰(zhàn)。我在美國(guó)看到Waymo依然在往前推進(jìn)。特斯拉FSD雖然不是完全的大模型,但也用了類似end to end(端到端)的概念。至于不用FSD方案能產(chǎn)生多少產(chǎn)業(yè)價(jià)值,希望我們投的這五六家公司和亞勤的前公司都能夠證明,中國(guó)能做得很好,也許這是很大的市場(chǎng)。
過去一年,我專注于零一萬物,沒有做自動(dòng)駕駛研究,但我確定FSD會(huì)帶來新機(jī)會(huì)。把大模型的概念放到無人駕駛,是我非常期待能夠在下一階段看到的事。但這是需要巨大的投資,不見得適合初創(chuàng)公司。
具身智能很重要。但我也必須說,大模型非常適合虛擬世界,例如金融公司的后臺(tái)、客服等等場(chǎng)景,大模型可以迅速落地產(chǎn)生價(jià)值。如果你的需求是軟件,直接對(duì)接大模型就好了。一旦大模型接入物理世界就會(huì)面臨各種問題:安全、機(jī)器、機(jī)械、故障問題等,難度會(huì)大很多倍。
從創(chuàng)業(yè)者的角度來說,如果希望短期落地產(chǎn)生價(jià)值、能賺錢,做虛擬世界容易很多。具身智能可以很好地結(jié)合大模型多模態(tài)能力,而且一旦“具身”后就可以產(chǎn)生數(shù)據(jù),形成數(shù)據(jù)飛輪閉環(huán),有很大的想象空間。但短期要做好,難度很大。具身智能肯定要走很漫長(zhǎng)的道路。
對(duì)人形機(jī)器人,我有一些特別的看法:絕大多數(shù)應(yīng)用場(chǎng)景并不需要人形機(jī)器人,像是波士頓動(dòng)力那種很酷的、跳來跳去的機(jī)器人,真的會(huì)有很多應(yīng)用場(chǎng)景嗎?絕大多數(shù)場(chǎng)景幾個(gè)輪子不是更容易移動(dòng)嗎?很多科學(xué)家和創(chuàng)業(yè)者都是從小熱愛科技,希望能復(fù)制一個(gè)人,這無可厚非。如果你很簡(jiǎn)單地問VC,VC給出的恐怕是更務(wù)實(shí)更理性的判斷。
談AGI的定義、實(shí)現(xiàn)、安全
張亞勤:最近經(jīng)常有人問我,AGI到底什么時(shí)候可以實(shí)現(xiàn)?我比較樂觀,認(rèn)為15-20年內(nèi)可以就實(shí)現(xiàn),并通過新圖靈測(cè)試。
5年內(nèi),在信息智能領(lǐng)域,對(duì)語言、圖像、聲音和視頻的理解、生成等方面通過新圖靈測(cè)試。10年內(nèi),在物理智能領(lǐng)域,實(shí)現(xiàn)大模型在物理環(huán)境中的理解與操作能力,通過新圖靈測(cè)試。20年內(nèi),在生物智能領(lǐng)域,聚焦人體、腦機(jī)接口、生物體、制藥和生命科學(xué),實(shí)現(xiàn)大模型與生物體連結(jié)的生物智能,通過圖靈測(cè)試。
要是三年前問我這個(gè)問題,我可能會(huì)說50年實(shí)現(xiàn)AGI,隨著大模型的發(fā)展,現(xiàn)在20年能實(shí)現(xiàn)。
黃鐵軍:AGI是要超越人類、有自我意識(shí),有自己的目標(biāo)、獨(dú)立做判斷。你們剛才談的是這樣的AGI嗎?
李開復(fù):AGI的定義是因人而異的。如果把AGI定義為能做人所能做的一切事情,那么我今天沒有辦法定義,因?yàn)樗€有太多未解之謎。只把人當(dāng)作金標(biāo)準(zhǔn),就像在問車什么時(shí)候能跟人跑的一樣快。
只要Scaling Law繼續(xù),只要AI一年比一年更聰明,它會(huì)多做比如5倍的事情,IQ會(huì)提升20個(gè)點(diǎn)。
我是做投資和創(chuàng)業(yè)的,我想看到的是巨大的商業(yè)價(jià)值。從這個(gè)角度來說,我們不會(huì)太糾結(jié)是不是能夠100%做到人類能做的事。如果世界上有一萬件事情,AI在9000件上做得比人好,有1000件人做得比較好,這樣也挺好的,要給人留一點(diǎn)空間。
張亞勤:我剛才講的20年實(shí)現(xiàn)AGI,不包括擁有意識(shí)或情感。我對(duì)AGI的定義有三點(diǎn),第一是要有巨大的能力,要能在大部分的任務(wù)要比人類強(qiáng),而不是所有任務(wù)均超越人類。第二,它是必須要是通用的,過去每個(gè)任務(wù)都要用不同的模型,但是AGI是要有一個(gè)通用的大底座,當(dāng)然可以有小的垂直模型,但它本身具有通用性。第三是不斷升級(jí)、學(xué)習(xí)、進(jìn)化,就像人類一樣。我不認(rèn)為現(xiàn)在的Scaling Law,或者我們現(xiàn)在做的研究會(huì)讓AI產(chǎn)生意識(shí),并且我也不認(rèn)為我們應(yīng)該從事這方面的研究。我們還是要解決真正的問題,把人工智能作為我們的工具、我們的延伸、我們的Agent,而不是另外一種物種。
黃鐵軍:超越人類的、有自我意識(shí)的AGI出來之后,人類會(huì)面臨著失控的巨大風(fēng)險(xiǎn)嗎?
李開復(fù):存在,但概率不會(huì)很高。如果我們?cè)絹碓揭蕾嘡eward model完全讓AI自己找路徑的話,發(fā)生的概率或許會(huì)增高。
當(dāng)前大模型的訓(xùn)練方法還不至于讓大家擔(dān)憂過度。技術(shù)是中性的,每個(gè)科技時(shí)代有技術(shù)帶來的“電車難題”,最后人類都用了有效的方法解決了。所以,我對(duì)此是持謹(jǐn)慎樂觀的態(tài)度,短期最擔(dān)憂是壞人用它去做壞事。中長(zhǎng)期看,我仍然建議嘗試用“以子之矛攻子之盾”——用更好的技術(shù)解決技術(shù)帶來的挑戰(zhàn),讓“AI for Good”,真正造福全人類。
張亞勤:隨著AI的能力不斷擴(kuò)大,風(fēng)險(xiǎn)也在不斷擴(kuò)大,考慮未來的風(fēng)險(xiǎn)很重要。我不擔(dān)心所謂的AGI會(huì)出現(xiàn)意識(shí),會(huì)掌控人類。
如果現(xiàn)在不重視AI的治理,當(dāng)AGI達(dá)到一定的能力并被大規(guī)模部署,那么可能會(huì)有失控風(fēng)險(xiǎn)。目前AI仍存在可解釋性問題,未來機(jī)器人數(shù)量可能會(huì)比人多,當(dāng)大模型被用到基礎(chǔ)物理設(shè)施、金融系統(tǒng),包括國(guó)家安全,軍事系統(tǒng)等方面,就可能會(huì)有失控的風(fēng)險(xiǎn)。
我主張現(xiàn)在就要開始重視AI治理,但我對(duì)技術(shù)發(fā)永遠(yuǎn)持樂觀態(tài)度,人類有兩種智慧,一種是發(fā)明技術(shù)的智慧,一種是引導(dǎo)技術(shù)走向的智慧。我們會(huì)達(dá)到平衡,但前提是現(xiàn)在要采取行動(dòng)。