界面新聞記者 | 陳振芳
界面新聞編輯 | 宋佳楠
“當(dāng)前,AI4S行業(yè)正逐漸擺脫單純追求模型能力的階段,轉(zhuǎn)向解決深層次問題的深耕期?!?/span>
近日,在界面新聞財經(jīng)年會上,深勢科技藥物發(fā)現(xiàn)部聯(lián)席總裁王冬冬接受了界面新聞的采訪,就AI for Science(科學(xué)智能,下稱AI4S)行業(yè)的技術(shù)發(fā)展,商業(yè)化落地等問題交流。
這家來自中國的公司正在與美國硅谷的谷歌SandboxAQ等大公司競爭。2023年11月,深勢科技基于自主研發(fā)的有機(jī)分子大模型Uni-Mol,發(fā)布了Uni-MolDockingv2,其性能超越了DeepMind。
深勢科技的Uni-Fold也是國內(nèi)首個復(fù)現(xiàn)AlphaFold2,在推理速度、單體蛋白結(jié)構(gòu)預(yù)測精度、蛋白多聚體結(jié)構(gòu)預(yù)測精度等指標(biāo)超越AlphaFold2的模型。在相同的測試條件下,Uni-Fold的預(yù)測精度超越了華盛頓大學(xué)DavidBaker教授課題組研發(fā)的RoseTTAFold,與DeepMind官方發(fā)布的AlphaFold2模型接近,且支持的最大蛋白序列長度增至2倍,有更強(qiáng)的通用性。
2024年諾貝爾化學(xué)獎頒給了大衛(wèi)·貝克(DavidBaker)、德米斯·哈薩比斯(DemisHassabis)和約翰·M·詹珀(JohnM.Jumper)等人,這也是AI for Science全新科研范式得到最高的認(rèn)可,為行業(yè)再添了一把火。
“當(dāng)前,行業(yè)正在從基礎(chǔ)能力的快速提升期逐步進(jìn)入‘挖深礦’的深耕階段。”王東東判斷,AI4S將進(jìn)一步優(yōu)化預(yù)測設(shè)計的精度和復(fù)雜度;在大數(shù)據(jù)驅(qū)動和知識圖譜輔助方面,解決現(xiàn)有數(shù)據(jù)不足和知識遷移問題,以及產(chǎn)業(yè)化與規(guī)?;?/span>面臨的成本、算力、模型可解釋性等挑戰(zhàn),
在他看來,科學(xué)智能的“GPT-3.5時刻”更多是指AI4S技術(shù)在規(guī)模、精度、應(yīng)用范圍的全面躍升,具備大規(guī)模實(shí)際應(yīng)用能力的時間點(diǎn)。而要達(dá)到“GPT-3.5時刻”有三大技術(shù)前提:
一是大模型架構(gòu)的進(jìn)化:在更高維度的數(shù)據(jù)和算力支持下,能夠精準(zhǔn)解決更復(fù)雜的科學(xué)問題。二是多模態(tài)AI的突破,也會帶來結(jié)合語言、視覺和其他感知能力,提升科學(xué)研究中的協(xié)同能力。三是科學(xué)實(shí)驗(yàn)閉環(huán)支持,實(shí)現(xiàn)從模型預(yù)測到實(shí)驗(yàn)驗(yàn)證的高效閉環(huán)。
王東東預(yù)測,未來幾年,隨著技術(shù)能力的持續(xù)迭代、跨領(lǐng)域應(yīng)用的深化以及產(chǎn)業(yè)化的推進(jìn),AI4S的“GPT-3.5”甚至N.0時刻將隨時到來,屆時將推動科學(xué)研究與產(chǎn)業(yè)的深度融合,實(shí)現(xiàn)質(zhì)的飛躍。
面對大模型行業(yè)普遍面臨的商業(yè)化落地難題,深勢科技提出“一橫一縱”技術(shù)布局策略,具體來看,在橫向上通過通用化的AI模型和算法工具搭建技術(shù)平臺完善AI基礎(chǔ)設(shè)施,在縱向上深耕特定的科學(xué)領(lǐng)域,如分子模擬、材料設(shè)計、蛋白質(zhì)預(yù)測等。
此外,在AI+基礎(chǔ)設(shè)施部分,深勢科技還研發(fā)面向AI和科學(xué)計算場景的異構(gòu)云原生算力調(diào)度平臺勒貝格,實(shí)現(xiàn)算力資源的高效管理與精準(zhǔn)調(diào)度。
縱向布局上,深勢科技目前深耕在教學(xué)科研、生命科學(xué)、物質(zhì)科學(xué)。目前已經(jīng)打造出專為科研人群打造的計算平臺,例如擁有海量的CPU/GPU算力資源和集群化彈性調(diào)度的能力Bohrium?玻爾?空間站,利用AI4S加持的CADD工具加速理性藥物研發(fā)的Hermite?藥物計算平臺、RiDYMO?基于AI for Science的高質(zhì)量Hit發(fā)現(xiàn)平臺、Piloteye?能源電池研發(fā)解決方案和玄鑄人工智能與物理建模驅(qū)動的材料設(shè)計平臺。
“AI4S的應(yīng)用正在改變游戲規(guī)則。”王東東告訴界面新聞,AI4S在藥物研發(fā)和新能源材料開發(fā)中都在產(chǎn)生顛覆性變化。
過去,藥物研發(fā)傳統(tǒng)上是一個高成本、高時間投入且高風(fēng)險的過程,AI4S應(yīng)用能夠提升了科學(xué)家在蛋白質(zhì)分子設(shè)計與優(yōu)化、早期靶點(diǎn)發(fā)現(xiàn)與驗(yàn)證、虛擬篩選的精準(zhǔn)化和個性化治療等研究方面的效率。
據(jù)其介紹,在新藥研發(fā)領(lǐng)域,常常被提到“研發(fā)周期10年、研發(fā)費(fèi)用10億美元”的雙十定律,深勢科技的“Hermite”藥物計算設(shè)計平臺能夠通過精準(zhǔn)的計算模擬大幅縮減實(shí)驗(yàn)次數(shù),加倍提升藥物研發(fā)各環(huán)節(jié)效率。
而在新能源材料領(lǐng)域,AI4S幫助科學(xué)家快速且精確地預(yù)測材料性能,比如通過AI與量子化學(xué)計算相結(jié)合,能夠預(yù)測新材料的熱穩(wěn)定性、電導(dǎo)率、比容量等關(guān)鍵性能,大幅降低實(shí)驗(yàn)篩選的不確定性。
目前,深勢科技已經(jīng)與業(yè)內(nèi)超過50家生物醫(yī)藥、新能源和新材料企業(yè)進(jìn)行合作。盡管市場空間足夠大,但王東東也指出,當(dāng)前的AI4S領(lǐng)域仍舊面臨挑戰(zhàn),在很多場景中,需要部分成本則是在于教育用戶,例如,深勢科技需要跟藥物客戶都是建立長期合作關(guān)系,要陪客戶走完一整個驗(yàn)證周期。
此外,數(shù)據(jù)稀缺性也是AI模型訓(xùn)練的主要障礙之一。在王東東看來,相比數(shù)據(jù)量,其實(shí)對結(jié)果影響更大的是數(shù)據(jù)的質(zhì)量。一是語言這種相對主觀的數(shù)據(jù),二是化學(xué)、生物有評判標(biāo)準(zhǔn)的數(shù)據(jù)。目前,深勢科技通過訓(xùn)練AI獲得數(shù)據(jù),解決實(shí)體工業(yè)數(shù)據(jù)不足的情況。
“科研和市場化之間的平衡不是一個‘選擇’問題,而是如何更好地融合且共贏的問題。”王東東告訴界面新聞。