記者|冉翀 伍洋宇
編輯|劉方遠(yuǎn)
2017年夏天,一趟從北京飛往紐約的國際航班上,張林峰正在反復(fù)比對兩組幾乎一模一樣的數(shù)字,以確認(rèn)它們真的如此接近。
這兩組數(shù)字都代表64個水分子在10皮秒內(nèi)(10的-11次方秒,比一瞬間還短暫)模擬運(yùn)動的計(jì)算結(jié)果。其中一組是在1985年用量子力學(xué)原理算出來的,消耗了2億核時,即便在算力發(fā)達(dá)的今天,也需要大約2000萬的計(jì)算費(fèi)用才能實(shí)現(xiàn)。另一組就來自張林峰手里這臺筆記本,上面正運(yùn)行著他與合作者完成的某套算法,因?yàn)閺纳巷w機(jī)就插著電,大概只消耗了一些航空公司的電費(fèi)——這可能嗎?他甚至覺得自己抄錯了。
下飛機(jī)之后,張林峰立刻寫了一封郵件,將模擬的結(jié)果發(fā)送給自己在普林斯頓大學(xué)的導(dǎo)師、中國科學(xué)院院士鄂維南。來自遠(yuǎn)方的回復(fù)簡潔而有力:“Too good to be true(好得難以置信)?!?/p>
人類團(tuán)隊(duì)寫的AI算法讀懂了微觀世界的某種客觀規(guī)律——這像是一顆投向分子模擬領(lǐng)域的普羅米修斯火種,很多事情將就此被永遠(yuǎn)改變,但當(dāng)時沒人清晰預(yù)見。
再次回國后,一場老友見面,張林峰將飛機(jī)上發(fā)生的故事講給了自己的北大元培校友,一邊從事科技方向投資一邊尋找合適創(chuàng)業(yè)項(xiàng)目的孫偉杰。
孫偉杰關(guān)注過市面上絕大多數(shù)AI項(xiàng)目,早就發(fā)現(xiàn)這個行業(yè)的共性問題是缺乏Golden Standard(黃金準(zhǔn)則)來衡量成果。張林峰帶來的故事是一種認(rèn)知沖擊——如果AI的核心是發(fā)現(xiàn)并學(xué)習(xí)某種規(guī)律,其價值等同于它所學(xué)到的規(guī)律價值,那當(dāng)今世界還有什么規(guī)律的價值高于科學(xué)規(guī)律?
用AI來學(xué)習(xí)和發(fā)現(xiàn)科學(xué)規(guī)律,沒錯,他們應(yīng)該做這樣一套東西——達(dá)成這一共識之后,張林峰和孫偉杰開始籌劃共同創(chuàng)業(yè),他們?yōu)樾鹿救∶吧顒菘萍肌?,致力于用人工智能深度學(xué)習(xí)解決微觀尺度的問題。
時間快進(jìn)到2024年GTC大會,英偉達(dá)CEO黃仁勛在演講中談到了AI領(lǐng)域的三個關(guān)鍵方向,LLM(大語言模型),具身智能,以及AI for Science(科學(xué)智能)。
在前兩個領(lǐng)域,OpenAI和Tesla兩家美國公司已經(jīng)形成鮮明主導(dǎo)地位,全球范圍內(nèi)的競爭者均對其亦步亦趨。鮮有人知的是,第三個領(lǐng)域——AI for Science——早在七年前就在鄂維南院士的推動下在東方世界定下根基。
更加反直覺的在于,過去幾年來,AI for Science領(lǐng)域聲名在外的兩家科技巨頭Google DeepMind和微軟并未形成實(shí)質(zhì)上的引領(lǐng)地位,而是一直在與那個年輕東方團(tuán)隊(duì)相互追趕。
2017年,在鄂維南院士的帶領(lǐng)下,張林峰與團(tuán)隊(duì)合作發(fā)布DeePMD,緊接著Google DeepMind完成一套十分相近的技術(shù)框架;隨后,張林峰團(tuán)隊(duì)做出了DeePWF,一種電子波函數(shù)的AI計(jì)算方法,次年,DeepMind發(fā)布相同方向的解決方案FermiNet;2020年,張林峰團(tuán)隊(duì)再度發(fā)布DeePKS,而DeepMind的對標(biāo)框架DM21在2021年誕生。
2020年底,在鄂維南、張林峰等人因DeePMD相關(guān)工作獲得有高性能計(jì)算領(lǐng)域“諾貝爾獎”之稱的戈登貝爾獎時,DeepMind AlphaFold-2的工作改變了整個結(jié)構(gòu)生物學(xué)領(lǐng)域。而到了2021年底,深勢科技成為了全球首家成功復(fù)現(xiàn)AlphaFold-2并完全開源訓(xùn)練代碼的機(jī)構(gòu)。
大概只因?yàn)锳I for Science才剛剛起步,人們無從發(fā)現(xiàn)這個前沿科技領(lǐng)域正在上演一場激烈的全球競逐。
AI for Science有多重要?任正非曾指出中國的基礎(chǔ)科學(xué)薄弱,在最基礎(chǔ)的科研和工業(yè)問題上被“卡著脖子”。中國實(shí)體產(chǎn)業(yè)已經(jīng)在新能源汽車、光伏等領(lǐng)域誕生多個全球第一,但回到電池研發(fā)層面,仍在基礎(chǔ)科學(xué)問題上破繭無門。而大量重要科學(xué)問題的終極答案都指向微觀世界。
事實(shí)上,AI for Science的重要性已經(jīng)與大國競爭的新局面掛鉤。大洋彼岸,在美國白宮一份行政命令要求下,PCAST(美國總統(tǒng)科技顧問委員會)近日撰寫了題為《加速研究:利用人工智能應(yīng)對全球挑戰(zhàn)》的報告。其中,由知名數(shù)學(xué)家陶哲軒領(lǐng)銜的一份技術(shù)報告概述了AI for Science的潛在影響。
報告指出,AI將從根本上改變?nèi)祟愡M(jìn)行科學(xué)研究的方式。其闡述了AI在材料、半導(dǎo)體設(shè)計(jì)、氣候、物理、生命科學(xué)等領(lǐng)域已經(jīng)做出的改變,并高度總結(jié)了AI如何通過提供研究工具來加速科學(xué)發(fā)現(xiàn)和技術(shù)進(jìn)步,從而革命性地改變?nèi)祟惤鉀Q最緊迫問題的能力。
這恰恰是深勢科技決心投入并試圖引領(lǐng)中國產(chǎn)業(yè)去突破的問題。成立近六年時間,深勢科技已經(jīng)把當(dāng)初那顆火種衍生為一套完整的產(chǎn)品框架。用多尺度建模、機(jī)器學(xué)習(xí)和高性能計(jì)算去解決微觀尺度下的工業(yè)設(shè)計(jì)難題。這件事天然地適合藥企、材料研發(fā)和科研機(jī)構(gòu),是真正有可能四兩撥千斤的魔法工具。
但這趟旅程并不完全是一個天之驕子的爽文故事。因?yàn)槿瞬烹y尋,這家AI for Science領(lǐng)域的“中國OpenAI”在創(chuàng)業(yè)之初甚至有一半以上的員工是實(shí)習(xí)生。深勢科技在天使輪拿到了1600萬人民幣融資,聽上去不少,但去年由谷歌孵化,并由谷歌創(chuàng)始人掛帥的Sandbox AQ首輪單筆公開融資就已達(dá)到5億美金。孫偉杰說,當(dāng)他看到海外對手可能是以每年數(shù)十億美?為計(jì)在投?的時候,他知道自己還得做到更好。
作為深勢科技創(chuàng)始人兼首席科學(xué)家,張林峰判斷,AI for Science領(lǐng)域的科學(xué)大模型正處在GPT-2階段,這意味著涌現(xiàn)時刻已經(jīng)不會太遠(yuǎn)。他對未來的終局想象是無論半導(dǎo)體工業(yè)、電池、合金,還是藥物,都能從原子開始生產(chǎn)制造。一個形象的比喻大概就是,原?尺度下的“活字印刷術(shù)”。
而作為公司CEO,孫偉杰說,他們的創(chuàng)業(yè)出發(fā)點(diǎn)是做一家真正源自中國、引領(lǐng)世界的科技公司。他認(rèn)為一代公司有一代公司的使命,中國已經(jīng)走過了拿來主義的階段,這個時代在呼喚更多有底層創(chuàng)新技術(shù)的公司。
以下是界面新聞對孫偉杰、張林峰的采訪實(shí)錄(略作編輯):
打開微尺度的大門:看到光照不進(jìn)的地方
問:你們的官網(wǎng)一打開就寫著"分子模擬未來",為什么要用這句話?什么是分子模擬?
孫偉杰:分子模擬就是基于物理規(guī)律模擬原子、分子這些微觀粒子的排布和運(yùn)動,就好像我們給分子的運(yùn)動拍了一個視頻。我們團(tuán)隊(duì)的第一個突破就是在AI助力分子模擬領(lǐng)域,把分子模擬的時間和空間規(guī)模提升了上萬倍。這樣我們就能用分子模擬來研究很多面向未來的新分子、新材料了。
我們覺得在分子模擬里,可以發(fā)現(xiàn)人類的未來,所以就把公司口號定成了這句話。
問:為什么要模擬,而不是直接觀察呢?
孫偉杰:因?yàn)樵拥某叽缟踔列∮诳梢姽獾牟ㄩL了。這意味著我們無法用可見光看到它,必須得借助一些非常昂貴的儀器,像電子顯微鏡,而這些儀器效率又非常低。
另一個問題則是它動的太快了。對于常見的物質(zhì)來說,原子間振動的常用時間尺度是是十的負(fù)十五次方秒,也就是百萬億分之一秒。剛才過去的一秒鐘,它動了一百萬億次。
所以是真的“看不到”它怎么動,只能模擬。
問:看清楚分子原子是怎么運(yùn)動的很重要嗎?
孫偉杰:當(dāng)然,現(xiàn)在的重要科學(xué)問題其實(shí)大部分都是微觀問題。
比如生命和非生命的界限到底在哪?一個細(xì)胞可以是一個生命,但是細(xì)胞也是由無生命的原子構(gòu)成的,那為什么它會變成一個生命體呢?如果我們從最小的地方一點(diǎn)點(diǎn)開始模擬,一個原子,兩個原子,三個原子,直到組成蛋白質(zhì),組成線粒體,一點(diǎn)點(diǎn)往上加,加到什么樣的時候,它突然就有生命了?這是人類的一個終極問題,生命是“涌現(xiàn)的",你怎么知道那個界限在哪?
再比如說,中國目前在電動車和電池行業(yè)已經(jīng)世界領(lǐng)先,但是我們?nèi)匀徊煌耆私怃囍У纳L原因。鋰枝晶是一種會讓鋰電池失效的機(jī)制,它會在負(fù)極界面和電解質(zhì)界面上形成,這個過程涉及至少數(shù)十萬個原子在微秒甚至毫秒的時間尺度內(nèi)發(fā)生變化。
問:模擬分子很難嗎,以前是怎么解決這些問題的?
孫偉杰:主要有兩種方法,第一種是用第一性原理,基于量子力學(xué)來算。它的好處是可以算得準(zhǔn),壞處就是算得非常慢,而且它只能算個幾十個幾百個原子。
靠量子力學(xué)這樣的算法,隨原子數(shù)量的上升,計(jì)算量是三次方指數(shù)上升。一百個原子和一萬個原子,差的原子數(shù)量是一百倍,但是差的計(jì)算量是一百萬倍。這就導(dǎo)致我們想要算一個真正感興趣的問題,如果里面有幾十萬個原子,可能把全球的算力加起來都不夠用,這個叫做維數(shù)災(zāi)難。
第二種方法就是經(jīng)驗(yàn)力場,靠歸納。我就簡單地把原子間的力抽象成一個化學(xué)鍵,像個皮筋一樣。它不那么準(zhǔn),但至少能算,在相當(dāng)長的歷史階段里面也解決了很多問題。但一旦面臨精度很高的體系,就不管用了。
問:所以說要算得準(zhǔn)就算得慢,要算得快就算得不準(zhǔn)。
張林峰:對,算得快的就不準(zhǔn),或者使用范圍非常受限。而這是我們用AI能解決的問題,讓精度和效率可以兼得。
問:那算到多大規(guī)模的模擬才算是真正完成了任務(wù)呢?
張林峰:要到我們用光學(xué)顯微鏡能夠觀察到運(yùn)動變化的這個尺度。對于生物學(xué)來說,可能是到一個細(xì)胞層面,我們模擬出來的這個細(xì)胞的運(yùn)動和變化和我們光學(xué)上觀察的是一致的,我覺得這個時候分子模擬的任務(wù)首先從規(guī)模上解決了。
在分子模擬領(lǐng)域有三個終極問題:第一是否所有的元素和構(gòu)型,第二就是模擬的規(guī)模,第三就是模擬的時間尺度。在這三個問題上其實(shí)我們基本上未來的路已經(jīng)比較清楚了,未來兩三年之內(nèi)應(yīng)該這個領(lǐng)域應(yīng)該會被顛覆。
問:達(dá)到目標(biāo)對于業(yè)界的影響會是什么,對于人們的日常生活又會有什么影響?
張林峰:比如可以幫助電池企業(yè)發(fā)現(xiàn)讓電池續(xù)航更高的方法,幫助藥物公司研發(fā)出更好的藥物。
我們研究新材料,比如說一塊橡皮泥,為什么它有這種彈性形變?現(xiàn)在是沒有原理能夠解釋的。我們只是觀察到了,它一捏可以這樣,但我們不知道為什么會這樣。
而當(dāng)我們有了分子模擬,就有可能通過模擬的方式搞明白背后的原理,這樣在我們需要有彈性形變的材料時可以嘗試把這個原理使用上去。
中國團(tuán)隊(duì)扛起AI for Science的大旗
問:你們是怎么發(fā)現(xiàn)AI可以解決分子模擬效率和精度不可兼得的問題的?
張林峰:主要是因?yàn)槲业膬晌粚?dǎo)師。其中一位是鄂維南老師,他是應(yīng)用數(shù)學(xué)家。鄂老師給我最核心的insight是機(jī)器學(xué)習(xí)能解決維數(shù)災(zāi)難問題。
我本科畢業(yè)剛剛?cè)テ樟炙诡D的時候,其實(shí)做了非常多的純理論的探索,量子計(jì)算、量子場論等等。在找科研方向的時候有一句話是共振程度最高的,是楊振寧說的"the party is over",找不到令人振奮的方向了。(注:楊振寧在1980年就認(rèn)為,高能物理的黃金時代已經(jīng)過去,未來的發(fā)展將不會像過去那樣頻繁地出現(xiàn)重大發(fā)現(xiàn)和理論突破。)
那時候鄂老師直接勸我不要再繼續(xù)上課了,盡管普林斯頓有很多菲爾茲獎、諾貝爾獎得主的課程,重學(xué)一遍也挺開心的。但我理解他的意思是:上課只會滿足你的虛榮心,你80%都會了然后上去再會一點(diǎn),并不是在定義重要問題。
問:不上課干啥?
張林峰:鄂老師勸我關(guān)注機(jī)器學(xué)習(xí)??茖W(xué)界大量的問題,無論是微觀的還是宏觀的,很多都卡在了所謂的維數(shù)災(zāi)難。而機(jī)器學(xué)習(xí)在數(shù)學(xué)上,恰好給我們提供了高維復(fù)雜函數(shù)的表示能力。
比如AI處理圖像,以一個32乘32像素的圖像為例,算上RGB的三個值,那有3000多個數(shù)字作為輸入,然后輸出的畫面就是貓或者狗或者別的。這個事兒我們現(xiàn)在去看好像挺自然,但事實(shí)上從數(shù)學(xué)建模的角度來講,是非常反直覺的,至少是反一代數(shù)值算法科學(xué)家的經(jīng)驗(yàn)和直觀的。
問:其實(shí)非計(jì)算機(jī)領(lǐng)域的數(shù)學(xué)家,反而可能對AI有更本質(zhì)的理解?
張林峰:每個領(lǐng)域的人對AI的認(rèn)知是不同的,正是因?yàn)檫@些差異,讓我們產(chǎn)生了碰撞,去探索AI為科學(xué)計(jì)算所帶來的新可能。
世界上本來就不存在學(xué)科,以前分學(xué)科是為了教育方便。過去因?yàn)榉椒芰Φ南拗疲鱾€尺度下面的不同場景已經(jīng)被四分五裂到不同的學(xué)科。而現(xiàn)在我們有了一個統(tǒng)一的工具,也就是AI,能表示所有的復(fù)雜高維函數(shù),那我們可以帶著一個全新的視角把所有的東西都重新審視一遍。
問:話說回來,另一位導(dǎo)師是誰,他又給了你什么啟發(fā)?
張林峰:另一位導(dǎo)師Roberto Car是計(jì)算化學(xué)家,是第一性原理分子模擬的祖師爺,而第一性原理分子模擬恰好受限于維數(shù)災(zāi)難。比如他在2016年用超算做了一個很簡單的模擬,模擬64個水分子,運(yùn)動10皮秒(1皮秒是10的-12次方秒),這個模擬用了兩億個核時。即使放到今天成本可能也要一兩千萬人民幣。
而如果我們把這個東西拿AI一學(xué),然后用來做模擬,模擬的分子數(shù)大10倍,時間長10倍,用你這個筆記本跑一天就可以了。
64個水分子的模擬,我是在去美國的飛機(jī)上跑通的。當(dāng)時在飛機(jī)上用筆記本插著電跑,跑完之后出來的結(jié)果跟Roberto Car的模擬互相重疊,我甚至以為抄錯數(shù)據(jù)了。下飛機(jī)以后我發(fā)給鄂老師寫了一個郵件說了這件事情,然后他只回了一句話:"too good to be true。"
問:這個就是后來拿了戈登貝爾獎的的DeePMD算法嗎?聽起來對于分子模擬來說是一個劃時代的突破,一下就能做很多以前不能做的事情?;氐侥莻€時間點(diǎn),學(xué)界的反應(yīng)是什么?
張林峰:對,這套算法后來發(fā)展成了DeePMD。我們相當(dāng)于是提出了一個新的范式,但AI for Science在那個時候并沒有一個明確的Benchmark。好在以前很多做量子力學(xué)計(jì)算的人有數(shù)據(jù),因?yàn)橛?jì)算的復(fù)雜度高,一算就要三個月,他們就在超算那等著。等待的時候他們發(fā)現(xiàn)DeePMD這方法挺好安裝的可以試試,一試發(fā)現(xiàn)一天就能跑很多數(shù)據(jù)。
同時我們還做了一個開源社區(qū)DeepModelling,很快就有來自非常多不同領(lǐng)域,半導(dǎo)體、電池、合金材料、天文地理的科學(xué)家都拿AI for Science的工具做了很多應(yīng)用。在這個基礎(chǔ)上,它慢慢地形成了一個比較廣泛的影響。
也是從18年開始,我們確定了分子模擬能真正打開微觀工業(yè)研發(fā)的大門,而AI會推動整個工業(yè)研發(fā)新范式的變革。
創(chuàng)業(yè):10億做一個科學(xué)大模型,但當(dāng)時兜里只有20萬
問:那個時候偉杰還在做投資,林峰博士還沒畢業(yè),為什么你們會決定要一起出來創(chuàng)業(yè)?
孫偉杰:我做投資就是為了創(chuàng)業(yè),其實(shí)一直在找方向。
當(dāng)時我看了很多AI相關(guān)的方向。我最早對AI的認(rèn)知是:AI可以從大量數(shù)據(jù)里面找到背后的規(guī)律,所以說AI的價值是由它學(xué)到的規(guī)律的價值決定的。學(xué)到的規(guī)律越有價值,它就能解決越多問題。
林峰的工作讓我意識到,世界上最高價值的規(guī)律不就是科學(xué)家研究出來的這些科學(xué)規(guī)律嗎?它能解釋世界上最復(fù)雜最多的現(xiàn)象。能把這么高價值的科學(xué)規(guī)律學(xué)會的話,那這個AI一定是最有價值的。
問:林峰呢?
張林峰:我在學(xué)術(shù)方面本來就很迷茫,迷茫在于雖然我特別想做一個科學(xué)家,但不知道選擇怎樣的方向探索,并且很長時間以來“理想中學(xué)術(shù)的樣子”和“我看到很多從事學(xué)術(shù)研究的人實(shí)際展現(xiàn)的樣子”有些不一樣。幸運(yùn)的是在普林斯頓又找到了AI for Science這條路。
問:所以你想做什么樣的科學(xué)家?
張林峰:我希望自己還是回歸好奇心的初心,解決我感興趣的問題,定義有意義的問題,然后去解決有意義的問題。創(chuàng)業(yè)其實(shí)也是因?yàn)榭吹搅诉@樣的問題,可以在我們的認(rèn)知范圍內(nèi)解決。
問:決定創(chuàng)業(yè)之后,你們有沒有給公司設(shè)立一個愿景?
孫偉杰:要做一家源自中國,引領(lǐng)世界的科技公司。
后來發(fā)現(xiàn)這個牛吹出去也還挺難實(shí)現(xiàn)的,源自中國、引領(lǐng)世界、科技公司這三點(diǎn)可能是每一個拆出來都還行,合在一起就發(fā)現(xiàn)這樣的公司很少。我們不敢定義自己已經(jīng)實(shí)現(xiàn)了這樣的目標(biāo),但我覺得我們確實(shí)是照這個目標(biāo)在前行。
問:我們算了算,去年中國一級市場里拿到10億以上資金的公司,除了那些做大語言模型的就是你們了。你們的融資過程應(yīng)該比較順利吧?
孫偉杰:其實(shí)每輪都遇到過很多困難。
我記得最早我們盤算了一下這個事情大概需要多少錢。當(dāng)時我們想的是去訓(xùn)練一個涵蓋宇宙所有物質(zhì)的萬物模型,我們覺得至少要需要10億個數(shù)據(jù)點(diǎn)。一個數(shù)據(jù)點(diǎn)差不多10塊錢,這個成本是可以優(yōu)化的,如果我們優(yōu)化到一個數(shù)據(jù)點(diǎn)1塊錢,那也要10億。但當(dāng)時卡里只有20多萬。
問:你們那個時候就想做預(yù)訓(xùn)練模型了嗎?
孫偉杰:對,我們現(xiàn)在的狀態(tài)和我們一開始設(shè)想的很像?,F(xiàn)在做的很多東西都是19年就設(shè)想好的。當(dāng)然中間有一些技術(shù)的沖擊,比如2020年的AlphaFold2,比如ChatGPT,但我們本身還是很好的利用了所有新技術(shù)的浪潮。AI for Science的科學(xué)大模型,從分子模擬先是數(shù)據(jù)庫,然后預(yù)訓(xùn)練模型,這些都是在19年我們已經(jīng)做好的計(jì)劃。
問:說回來,訓(xùn)練科學(xué)大模型要10個億,你們一開始怎么去找錢?
孫偉杰:那個時候林峰還沒畢業(yè),不方便融資,我們就瞄準(zhǔn)了參加比賽。
問:什么比賽?
孫偉杰:當(dāng)時我們參加不少創(chuàng)業(yè)比賽拿到了獎金。其中最大的一筆獎金來自于中關(guān)村的顛覆性科技類項(xiàng)目,有1200萬。我們是第一屆最終入選的公司,當(dāng)時花了挺大的努力,也很驚險?,F(xiàn)場的評委非常資深,有一些評委是從事我們相關(guān)領(lǐng)域的,看到了我們的價值,所以說也算是比較幸運(yùn)。
決賽的最終答辯是在張林峰提前定好的婚禮的第二天,前一天我們還開著車回張林峰的老家山西去舉辦婚禮?;槎Y當(dāng)天不得不喝酒,張林峰過來說:別喝太多啊,明天還要答辯呢,1200萬!當(dāng)時我直接就清醒了。
問:一開始反正也沒法融資,所以先打比賽。
孫偉杰:對,獎金是分期到賬的,對應(yīng)著幾個里程碑,但解決了燃眉之急。我們每個里程碑都double甚至triple完成的。
后來林峰20年初畢業(yè),回來了我就可以融資了。當(dāng)時BP都寫好了,然后就碰上疫情了。那時候融資確實(shí)是摸爬滾打,林峰在線上也參與了很多次投資人的拷問,最后總算在林峰回來之前把第一輪融資搞定了。
問:第一輪拿了多少錢?
孫偉杰:1600萬。第一輪融資完算是正式起步了,疫情期間我們才找了第一個辦公室。后來林峰團(tuán)隊(duì)拿了戈登貝爾獎,把分子模擬的體系從百萬直接推到億級別,再后面的故事就有更多人知道了。
問:你們的第一個核心技術(shù)是DeePMD,但做一家公司的話,這個技術(shù)要怎么商業(yè)落地呢?
張林峰:我們做的第一件事情其實(shí)用偉杰在投資機(jī)構(gòu)的方法論:做行研。那個時候我們有一個不錯的開源社區(qū),社區(qū)里面拿分子模擬技術(shù)做啥的都有,那我們就決定把這些行業(yè)都研究一遍。
孫偉杰:我們對電池、材料、半導(dǎo)體和藥物這些領(lǐng)域建立的初步相對完整的認(rèn)識基本上都是在那段時間。我和另一個同事很高強(qiáng)度的兩天看一個行業(yè),過了差不多有二三十個細(xì)分行業(yè),看這些行業(yè)里面現(xiàn)在可能有哪些瓶頸。
問:當(dāng)時得到了哪些結(jié)論?
孫偉杰:當(dāng)時研究完,發(fā)現(xiàn)我們最適合做的是微尺度的工業(yè)設(shè)計(jì)和仿真。
19年8月份,我們決定先做FEP(注:FEP是一種用于計(jì)算分子A轉(zhuǎn)變?yōu)榉肿覤過程中自由能變化的計(jì)算化學(xué)方法。通過模擬分子結(jié)構(gòu)細(xì)微變化引起的能量差異,能預(yù)測候選藥物分子與蛋白質(zhì)的結(jié)合能力,在藥物研發(fā)中有重要應(yīng)用。)藥物領(lǐng)域已經(jīng)有了一個微尺度的軟件叫薛定諤,是一家美國上市公司,而FEP是他最核心的功能,當(dāng)時也只有他做得好。但我們認(rèn)為通過機(jī)器學(xué)習(xí)和分子模擬,我們可以做得更好。
張林峰:我印象比較深的結(jié)論有兩個:一是很多行業(yè)不一定只有分子模擬計(jì)算是瓶頸,它有很多瓶頸,解決分子模擬then what?那這樣的行業(yè)我們就放在之后再考慮。二是我們發(fā)現(xiàn)哪怕是在很合適的行業(yè),要用一個新技術(shù)去解決實(shí)際問題,第一步并不是把這個新技術(shù)搞進(jìn)去,而是把過去缺的課先補(bǔ)回來。
問:要把哪些缺的課補(bǔ)回來?
張林峰:學(xué)界和工業(yè)界要求的東西是不一樣的。
比如前面說的FEP是計(jì)算藥物分子與蛋白質(zhì)結(jié)合自由能的變化。由分子A轉(zhuǎn)變?yōu)榉肿覤的過程可能有多種途徑,學(xué)術(shù)界只需要關(guān)注其中有限的情況并且算準(zhǔn)了,就足以成為一篇優(yōu)秀的論文。
然而,在工業(yè)界,重點(diǎn)是確保轉(zhuǎn)變過程中不會出現(xiàn)重大問題,無論是崩潰還是中斷,都是不可接受的。因此,需要將解決方案提升到工業(yè)級,然后再結(jié)合更好的方案,這樣才能充分發(fā)揮新方案的價值。
到2020年,我們才真正把自己定位成一家微尺度工業(yè)軟件公司。現(xiàn)在不光是在藥物領(lǐng)域,我們推出了BDA電池設(shè)計(jì)自動化平臺Piloteye,這是世界上首個電池設(shè)計(jì)工業(yè)軟件系統(tǒng),而恰好電池也是我們國家的優(yōu)勢領(lǐng)域。
中國科技缺乏原始創(chuàng)新?一代公司有一代公司的使命
問:過去中國科技企業(yè)一直被詬病說缺乏原始創(chuàng)新,你們怎么看這個問題?
孫偉杰:我的看法是,一代人有一代人的使命,一代公司有一代公司的使命,公司的目標(biāo)是要創(chuàng)造經(jīng)濟(jì)價值,要有盈利。那在過去的一個歷史階段內(nèi),實(shí)現(xiàn)最大盈利目標(biāo)的確可能不是通過原創(chuàng)技術(shù)。
國外的這些真正有非常強(qiáng)原創(chuàng)技術(shù)的公司,它一定是在實(shí)現(xiàn)了超額利潤的基礎(chǔ)之上,在追求下一個時代、下一個增長曲線的布局的時候,才有很多這種原創(chuàng)性的基礎(chǔ)研究。
問:那你認(rèn)為中國現(xiàn)在處在一個什么樣的時代?
孫偉杰:中國已經(jīng)走過了拿來主義的階段,以后拿來主義的空間會變得越來越少。中國在很多產(chǎn)業(yè)已經(jīng)走在世界前列了,這個時代在呼喚更多有底層創(chuàng)新技術(shù)的公司出現(xiàn)。但是當(dāng)大家開始做底層創(chuàng)新,會發(fā)現(xiàn)做原始創(chuàng)新的效率是低的。所以說需要先對創(chuàng)新的方法、創(chuàng)新的手段做創(chuàng)新。
AI for Science就是對研發(fā)手段、研發(fā)能力的革新,讓做底層創(chuàng)新的公司有更高投入產(chǎn)出比、更高效的研發(fā)方式。
問:當(dāng)下最熱的大語言模型其實(shí)我們還是在跟隨國外的步伐,國內(nèi)公司依然在集體追趕OpenAI。在AI for Science領(lǐng)域也是我們在跟隨國外嗎?
孫偉杰:不是,甚至有時候是反過來的。2017年鄂院士和林峰團(tuán)隊(duì)做出DeePMD之后,Google DeepMind才完成了一套十分相近的技術(shù)框架。我們做出用AI計(jì)算電子波函數(shù)的DeePWF之后,DeepMind又跟進(jìn)了相同方向的解決方案FermiNet。2020年我們發(fā)布DeePKS,2021年DeepMind又發(fā)布了對標(biāo)框架DM21。
當(dāng)然,在2020年DeepMind做出了AlphaFold-2,改變了整個結(jié)構(gòu)生物學(xué)領(lǐng)域。我們在21年成功復(fù)現(xiàn)了AlphaFold-2,在國內(nèi)是第一個。
我可以說如果當(dāng)時不是鄂老師一直在推AI for Science,我們沒有創(chuàng)立深勢科技,現(xiàn)在很有可能這個領(lǐng)域也是國外完全主導(dǎo)的。
問:你們的競爭者主要都有誰?
孫偉杰:主要是DeepMind和微軟等。微軟設(shè)置了一個全球四中心的AI for Science center。英偉達(dá)更多的聚焦在宏觀、流體、固體的這些方向。國外的很多科研機(jī)構(gòu)、很多高校包括美國能源部也都在這個領(lǐng)域有布局。
創(chuàng)業(yè)公司中比較有名的有SandboxAQ,他的創(chuàng)始人是谷歌的聯(lián)合創(chuàng)始人謝爾蓋·布林。他們也是用AI學(xué)習(xí)量子力學(xué)的方法做藥物設(shè)計(jì)等方向,第一個應(yīng)用的是FEP,聽起來有沒有很熟悉?跟我們的路徑一模一樣。但是它們第一輪公開市場的融資單筆已經(jīng)拿到了5億美金。
所以我說我們選了一個重要的方向,但是把自己丟進(jìn)了一個地獄模式的難度里。
問:聽起來確實(shí)很難,現(xiàn)在這個領(lǐng)域的人才爭奪是不是也很激烈?
孫偉杰:我們近?年時間經(jīng)歷的“十動然拒”(十分感動,然后拒絕)?過去整個人生的都多。我們的海外的競爭對手每年是以數(shù)十億美金為計(jì)的在投入這個領(lǐng)域,這個時候你就不會覺得我們?nèi)谫Y順了,我們還是深知自己還有很多地方可以做得更好。
問:深勢科技現(xiàn)在有多少人?
孫偉杰:我司統(tǒng)計(jì)人數(shù)有兩個口徑,一個是全職員工,一個是總員工。
問:差異是?
孫偉杰:總員工接近300人,全職220左右,剩下的其實(shí)是實(shí)習(xí)生。
說到實(shí)習(xí)生,我們在融資的時候曾經(jīng)有過一個非?!捌婀帧钡臈l款。在A輪融資的時候,領(lǐng)投方給我們的一個條件是,在完成本輪融資后的18個月內(nèi)將公司的實(shí)習(xí)生的人數(shù)的比例降低到50%以下,說“你們公司實(shí)習(xí)生太多了”。
問:為什么會有這么多實(shí)習(xí)生?
孫偉杰:招不著全職的呀。AI for Science是個很新的領(lǐng)域,要求很強(qiáng)的跨學(xué)科能力,你既要懂Science,還要懂AI,我們根本從市場上招不到,最后決定從頭去培養(yǎng)。全球可能最優(yōu)秀的博士生有很多都在海外,但是最優(yōu)秀的本科生都在國內(nèi),我們就從本科生大一大二開始培養(yǎng)。
問:實(shí)習(xí)生有多大比例最后留下來?
孫偉杰:那比例還是挺高的,也舍不得他們走。以前看到硅谷創(chuàng)業(yè)的那些故事,有很多本科就愛各種折騰的年輕人,深勢就是這種人的天堂。
問:林峰怎么看這個領(lǐng)域的人才問題?
張林峰:人才其實(shí)不止競爭一個視角。我覺得更關(guān)鍵的還得是使命感和tech vision。我們要找的人,不是說希望通過AI的能力刷了個榜,或者發(fā)了篇大paper,或者說在一個技術(shù)杠桿沒那么強(qiáng)的地方去做一些模式上的事情。我們希望吸引這些既懂AI又懂Science的人來,一起做一件雖然有挑戰(zhàn),但是也很有價值,有清晰實(shí)現(xiàn)路徑的事情。
并且,“地獄模式”還有一個好處是沒有過早的分工,我們可以更加放開想象力去做。我內(nèi)部經(jīng)常說,“如果你的反應(yīng)不是退縮、而是激動”,那就應(yīng)該一起做最偉大的事情。
提高原子使用率,科學(xué)大模型已經(jīng)走到了GPT-2
問:說說你們的科學(xué)大模型吧,偉杰前面說希望做一個萬物模型,這是類似于大語言模型中的GPT嗎?它進(jìn)展到什么程度了?
張林峰:從技術(shù)上發(fā)展的話,我們覺得它跟GPT這樣的大語言模型的相差的周期也就在一個小的技術(shù)周期內(nèi),也就是在三五年這樣的周期。
問:這個對比結(jié)論是怎么得出來的?
張林峰:我們看AI的發(fā)展,在2011年的時候逐漸地證明了神經(jīng)網(wǎng)絡(luò)可以解決很多問題。2014到15年AlphaGo這種現(xiàn)象級應(yīng)用出現(xiàn)之后,行業(yè)逐漸開始進(jìn)入到技術(shù)基礎(chǔ)設(shè)施建設(shè)期,這時候出現(xiàn)了TensorFlow、PyTorch這樣的框架。18年出現(xiàn)了預(yù)訓(xùn)練模型,20年有了GPT-3。去年ChatGPT之后就進(jìn)入到了應(yīng)用的涌現(xiàn)期。
AI for Science差不多就是晚一個周期,15、16年那個時候人們開始用AI解決一些科學(xué)問題,包括AlphaFold最開始出現(xiàn)也是在那時候。然后到了20年有兩個比較關(guān)鍵的點(diǎn),一個是DeePMD拿到了戈登貝爾獎,另一個是AlphaFold2出世,證明AI for Science毫無疑問是可以做出非常牛逼的應(yīng)用的,行業(yè)進(jìn)入了技術(shù)設(shè)施建設(shè)期。現(xiàn)在該有的基礎(chǔ)設(shè)施基本也都出現(xiàn)了。
而且我覺得AI for Science由于借鑒了很多過去大模型發(fā)展的路徑,它的速度可能還會比大語言模型要更快一些。
問:這么一比較感覺確實(shí)很像。那你們現(xiàn)在找到了AI for Science領(lǐng)域的“GPT”模型架構(gòu)嗎?
張林峰:我覺得我們找到了GPT,甚至說AI for Science領(lǐng)域的GPT已經(jīng)處在GPT2的階段了,對應(yīng)的是我們現(xiàn)在的面向物理世界的 DPA、面向化學(xué)世界的 Uni-Mol、面向生物世界的 Uni-RNA,還有其他,這些都是“微觀大模型”的代表,都包含在我們的深勢宇知?大模型體系中。接下來的問題就是Scale,然后再去期待這個上面怎么樣找到更多的應(yīng)用。
問:這里的Scale,和大語言模型中的Scailling law是一個含義嗎?
張林峰:Scale這塊是一個值得討論的點(diǎn),技術(shù)其實(shí)不一樣,語言體系是自回歸的,它天然有一個Scale的特性。
自然法則本來是Scale的,但我們有點(diǎn)像反過來,是anti-scale,這就是為什么要搞到原子級,因?yàn)槟闶莝cale back然后再重新reconstruct的過程,這個點(diǎn)是不一樣的。
另外一個就是說科學(xué)問題的結(jié)構(gòu)更豐富,很多時候不是一個單模態(tài)的擴(kuò)展,而是這個組合型的scale,這也跟大模型有一些不同。當(dāng)然訓(xùn)練模型的邏輯是一致的,有大規(guī)模的數(shù)據(jù)、大規(guī)模的訓(xùn)練模型實(shí)現(xiàn)更好的遷移創(chuàng)造和生成。
問:你們是怎么看AGI的?AGI和AI for Science是什么關(guān)系?
張林峰:與其談我的理解還是不如談大家覺得是啥,看起來大家覺得AGI是一個在計(jì)算機(jī)上的具有智能的一個系統(tǒng)。AGI在數(shù)字世界實(shí)現(xiàn)了閉環(huán),更多的是一個具有通識的一個智能體。
而對于AI for Science來說是利用AI去拓寬人們的認(rèn)知的邊界,拓寬我們的底層構(gòu)建能力,去重塑整個世界。到最后其實(shí)我們會發(fā)現(xiàn)AGI最后的邊界還是物理,無論是物理規(guī)律還是物理的實(shí)體,在這一輪數(shù)字世界的閉環(huán)的基礎(chǔ)上,下一步可能還是要跟物理世界產(chǎn)生一個有效的連接,這也是AGI和AI for Science產(chǎn)生連接的地方。
問:所以AI for Science其實(shí)是精確的模擬了物理世界,這樣數(shù)字世界的智能體能更好地跟這個精確模擬的物理世界進(jìn)行一些交互?
孫偉杰:先認(rèn)知后模擬。AI學(xué)習(xí)虛擬世界的文字、圖片的時候也是先認(rèn)知它,然后才能生成想要的內(nèi)容。那么AI學(xué)習(xí)了物質(zhì)世界的底層的規(guī)律后,它就是理解了世界底層的原理,能生成我們想要的物質(zhì)。所以我覺得AI for Science是掌握了物質(zhì)的密碼。以后想要什么物質(zhì)可以用AI來幫我們設(shè)計(jì)、幫我們生成。
AGI不可能只認(rèn)識數(shù)字世界的東西,也必須得理解我們的客觀物理世界。所以,AI for Science也一定是通用人工智能其中的一部分。
問:如果給你們一個立馬實(shí)現(xiàn)某一個愿望的機(jī)會,你們會想要實(shí)現(xiàn)一個什么樣的愿望?
孫偉杰:我希望看到原子尺度的打印,你要啥打啥。
問:什么是原子尺度的打印?
張林峰:就是你每一個原子放在哪都是能打印出來的。其實(shí)到最后最大的瓶頸還是制造,原子尺度的活字印刷術(shù)。
孫偉杰:原子尺度的活字印刷術(shù),這個是終極業(yè)務(wù),這個如果實(shí)現(xiàn)的話這是上帝的業(yè)務(wù)。
問:如果這是一個終極目標(biāo),深勢科技在其中要扮演什么角色?
張林峰:深勢科技希望形成一個技術(shù)生態(tài)體系,來幫助人們做微尺度的科學(xué)研究和工業(yè)研發(fā)。從底層來說,其實(shí)是幫大家如何提高原子的利用率。給定這樣的一個路徑,我們就可以看到一些地方需要更加深入極致的產(chǎn)品打磨,另外一些地方需要非常開放的大規(guī)模反饋迭代。
目前,我們已經(jīng)有專注軟件的DeepModeling社區(qū)、提供“教學(xué)研用”一體化服務(wù)的玻爾科研空間站以及涉及數(shù)據(jù)模型工作流的AIS Sqaure。有了這些基礎(chǔ)設(shè)施,科研工作者就能通過新的方式集結(jié)和協(xié)作起來,我們今年在推出DPA-2之后,也面向社區(qū)發(fā)起了OpenLAM大原子模型計(jì)劃。
問:大原子模型?對標(biāo)大語言模型嗎?
張林峰:對,我們希望推動的技術(shù)不是比特世界的 Foundation Model,而是原子世界的 Foundation Model,并且是通過開源開放的方式來推動。
開源精神其實(shí)和我們的文化是一致的,我們想要推動一個向善的、真正做好事的技術(shù)體系,并且在生態(tài)共建的過程中持續(xù)成就伙伴。我們給OpenLAM起了個口號叫“征服元素周期表”。我們希望通過OpenLAM進(jìn)一步打破數(shù)據(jù)壁壘,讓研究人員可以一鍵獲取任意元素組合體系的勢函數(shù),而不再需要費(fèi)力生成大量新的第一性原理計(jì)算數(shù)據(jù)。
另一方面,我們一直說重構(gòu),發(fā)起這樣一個大規(guī)模的開源協(xié)作本身也是“重構(gòu)科研協(xié)作”的一個實(shí)踐,鄂老師一直強(qiáng)調(diào)科研未來要走向“安卓模式”,我們認(rèn)為未來的平臺化科研和工業(yè)研發(fā)應(yīng)該就是這個樣子。