文|硅谷101
AI正在入侵科學界,特別是生物科技方向。
瑞典皇家科學院在2024年10月宣布了當年諾貝爾化學獎的獲獎者,出乎意料的是—— AI又是大贏家。
2024年的諾貝爾化學獎被授予了Google旗下DeepMind人工智能實驗室的首席執(zhí)行官Demis Hassabis和總監(jiān)John Jumper ,以及華盛頓大學蛋白質設計研究所所長David Baker。
其中,Hassabis和Jumper因“蛋白質結構預測”研究獲獎,而Baker則因“計算蛋白質設計”研究獲獎。而此前一天,人工智能先驅Geoffrey Hinton和John Hopfield剛剛榮獲諾貝爾物理學獎。
如果說諾貝爾物理學獎授予人工智能領域的兩位先驅是眾望所歸,諾貝爾化學獎也花落AI及生物醫(yī)療的跨界領域則有些出人意料。因為即便對AI而言,該領域也是最難啃的骨頭之一。
然而隨著人工智能技術的迅速發(fā)展,生物科技行業(yè)迎來了新的希望。
這篇文章我們將講述:AlphaFold究竟是何方神圣?AI和生物醫(yī)療行業(yè)擦出了什么火花?人類如何靠AI推動生物醫(yī)藥技術更快地向前更迭?
01 AlphaFold與新紀元
2020年末,一場看似平常的線上會議,悄然揭開了人工智能與生物學深度融合的新時代。
當時,全世界正在經(jīng)歷疫情挑戰(zhàn),但沒有人預料到,一個困擾科學界數(shù)十年的難題,會在這樣一個特殊的時刻被攻克。就在那個冬日,人工智能向我們展示了AI與生物學深度融合時代的開端。
Chapter 1.1 線上會議的意外之喜
CASP大會是生物學界備受矚目的盛會,每兩年舉辦一次,被稱為“蛋白質折疊界的奧運會”。
會議聚集世界各地的頂尖科學家,共同探討一個看似簡單卻極其復雜的問題:如何僅憑一維的分子代碼,準確預測蛋白質的三維結構?
多年來,科學家們在這個問題上進展緩慢,有些研究者甚至將近幾十年的職業(yè)生涯都奉獻給了這項事業(yè),然而距離真正的突破遙不可及。
直到2020年11月底、12月初,這個局面被徹底改變。由于全球疫情的影響,這次CASP大會首次以線上形式舉行,與會者們聚集在屏幕前,原本期待著又一次漸進式的進步,然而一場意想不到的驚喜在等著他們。
在這次線上會議上,一位名叫John Jumper的新面孔引起了所有人的注意。他來自谷歌旗下的人工智能部門DeepMind,帶來了一款革命性的工具——AlphaFold2。
Chapter 1.2 AlphaFold2的驚人表現(xiàn)
2020年11月30日,當Jumper通過Zoom展示AlphaFold2的成果時,整個會議室陷入了震驚的沉默。
AlphaFold2在3D蛋白質結構預測方面展現(xiàn)出了前所未有的準確性,其精確度超過90%,遠遠甩開了其他競爭對手,領先優(yōu)勢高達五倍之多。
具體來說,AlphaFold2預測了數(shù)十種蛋白質的結構,誤差幅度僅為1.6埃(0.16 納米),差不多原子大小。這遠遠超過了所有其他計算方法,并首次與實驗室中使用的技術(如低溫電子顯微鏡、核磁共振和X射線晶體學)的精度相匹配。
此前,這些技術昂貴且緩慢:每種蛋白質可能需要數(shù)十萬美元和數(shù)年的反復試驗;而AlphaFold卻可以在幾天內找到蛋白質的形狀。
這個突破性的成果在整個科學界引起了巨大的轟動,并立即成為了各大媒體的頭條新聞,因為它幾乎一舉解決了困擾科學界近50年來的蛋白質折疊問題?!蹲匀弧冯s志在標題里引用科學家的話說,“它會改變一切”。
AlphaFold2的成功不僅標志著人工智能在生物學領域的重大突破,更預示著跨學科研究的無限可能。我們邀請到的采訪嘉賓也同樣用“震驚”表達了她和同行們看到AlphaFold2時的感受。
Janice
N-1 Life創(chuàng)始人:
AlphaFold2出現(xiàn)就一騎絕塵,把其他對手都甩在了后面。我覺得對大家是一種徹底震驚的感覺,完全沒有想到AlphaFold2已經(jīng)可以達到這樣一個高度。
這是生物技術屆第一次如此直觀得感受到,人工智能帶來的顛覆進步。
我們先來解釋一下蛋白質折疊問題為什么如此重要。
Chapter 1.3 蛋白質折疊
蛋白質是生命的基石,維持著生命活動的正常運轉。
蛋白質的功能與它的三維結構密切相關:就像一把鑰匙必須有正確的形狀才能打開特定的鎖,蛋白質也必須折疊成正確的形狀才能執(zhí)行其特定的功能。
因此,準確預測蛋白質的三維結構,對于我們理解疾病機理、開發(fā)新藥物,以及深入洞察生命運作的奧秘都具有深遠的影響。
長期以來,科學家們一直在試圖從蛋白質的一維氨基酸序列(可以看作是蛋白質的"源代碼")推斷出最終的三維結構。但這個過程,就像是要從一串字母中預測出一個復雜折紙的最終形狀,難度可想而知。
正是因為這個問題的重要性和復雜性,CASP大會才會每兩年舉辦一次,吸引眾多科學家前來展示他們最新的蛋白質折疊預測工具。AlphaFold2的突破,正是在這個背景下顯得尤為重要和令人振奮。
Chapter 1.4 科學界的失落與肯定
AlphaFold2的驚人成果在科學界引起了巨大的反響,反應可謂是喜憂參半。許多科學家對這一突破感到興奮和鼓舞,但也有一些人表現(xiàn)出了謹慎和懷疑的態(tài)度。
這并不是AlphaFold的第一次亮相,在2018年12月舉行的第13屆CASP大會上,Deepmind就首次推出了AlphaFold。
它在98個參賽隊伍中名列前茅,預測了43種蛋白質中25種的最準確結構,而同一類別中排名第二的團隊,僅預測了43種蛋白質中的3種最準確結構。
盡管AlphaFold1表現(xiàn)出色,但它的準確性并未達到足以徹底改變整個領域的水平,在某些情況下仍然無法很好地預測復雜蛋白質的三維結構,因此其影響力相對有限。
然而兩年后的AlphaFold2,出現(xiàn)了巨大的飛躍:其預測準確性,在大多數(shù)測試蛋白上達到了接近實驗結構的水平,相較于實驗方法和其他計算方法,它大大縮短了預測時間,使得大規(guī)模應用成為可能。
這讓一些研究者拒絕相信,一個AI系統(tǒng)能夠在短時間內解決困擾人類數(shù)十年的難題。畢竟有些科學家已經(jīng)將近三十年的職業(yè)生涯都奉獻給了這個問題,突然間看到一個"外來者"取得如此巨大的成功,難免會感到些許失落和不安。
然而在會議的總結發(fā)言中,CASP大會的組織者John Moult卻表現(xiàn)出了堅定的信心,他毫不猶豫地宣布:AlphaFold2"在很大程度上解決了"蛋白質折疊問題。這個聲明無疑給這次突破蓋上了權威的印章。
John Jumper
DeepMind人工智能實驗室總監(jiān):
十年后,AlphaFold將被視為打開機器學習洪流的時刻,它將真正改變我們對結構生物學和更廣泛的生物學問題的思考方式。
如今距離AlphaFold2給業(yè)界帶來震撼已過去了4年,在這個期間DeepMind也在不斷發(fā)展。
2021年與歐洲生物信息學研究所(EMBL-EBI)合作,啟動AlphaFold數(shù)據(jù)庫,納入35萬個蛋白質預測結構,涵蓋了人類、小鼠和其他19種被廣泛研究的生物體產(chǎn)生的幾乎每種蛋白質。
2023年,更是公布了從細菌到人類的幾乎所有已知2億多個蛋白質的可能結構,并將其納入相關數(shù)據(jù)庫。研究人員說,“可以像在谷歌通過關鍵詞搜索信息一樣輕松地查找蛋白質三維結構”。
AlphaFold 2的代碼也已開源,Hassabis非常驕傲地稱,“我們發(fā)布了整個蛋白質宇宙的結構?!?/p>
據(jù)歐洲生物信息學研究所(EMBL-EBI)估計,在現(xiàn)有的超2.14億個預測的蛋白質結構中,大約35%是高度準確的(高度準確意味著它們與實驗確定的結構質量一樣高);有45%的結構足以在許多應用程序中使用。
2024年5月,谷歌進一步在 《自然》雜志上發(fā)表了關于AlphaFold 3的突破性研究,這一最新版本的AI模型,在生物分子結構預測領域掀起了一場新的風暴。
Chapter 1.5 AlphaFold3
AlphaFold 3由DeepMind和一家名為Isomorphic Labs的初創(chuàng)公司開發(fā)。Isomorphic Labs公司其實是DeepMind分拆出來的團隊,甚至還是由Hassabis親自領導。
AlphaFold 3厲害的地方在于它是一個生成式神經(jīng)網(wǎng)絡模型,可以生成蛋白質、核酸(DNA/RNA)和更小分子的3D結構,并揭示它們如何組合在一起,即史上最強的AI組合架構:Transformer+Diffusion。
這兩個模型我們之前介紹過,而Transformer+Diffusion這個架構也讓它成為了一個單一AI模型。基于這種組合架構,AlphaFold 3的核心突破主要體現(xiàn)在以下幾個方面:
1.全面預測能力:它不僅能生成蛋白質的3D結構,還能預測DNA、RNA和小分子的結構,更重要的是,它能揭示這些分子之間是如何相互作用的。
2.細胞過程模擬:AlphaFold 3可以模擬控制細胞正常運轉的化學變化,為我們理解和預防疾病提供了新的視角。
3.驚人的精度提升:在預測分子相互作用方面,即使在沒有任何結構信息輸入的情況下,它的準確性也比傳統(tǒng)的最先進方法提高了50%。
這使得AlphaFold 3成為生物分子結構預測領域中,首個超越物理基礎工具的AI系統(tǒng)。
Demis Hassabis將AlphaFold 3的發(fā)布稱為一個重要的里程碑,標志著AI在理解和建模生物學領域又邁出了關鍵性的一步。
AlphaFold 3超越蛋白質,進入廣泛的生物分子領域,這一飛躍可以開啟更多變革性科學,從開發(fā)生物可再生材料和更具彈性的作物,到加速藥物設計和基因組學研究。
而在藥物研發(fā)領域,AlphaFold 3的潛力尤為突出:它不僅能提高藥物設計的成功率,還為探索新的疾病靶點提供了可能。
Hassabis甚至預測,這可能會發(fā)展成一個價值千億美元的產(chǎn)業(yè)。
此外,谷歌推出了免費研究平臺「AlphaFold Server」,供全球科學家非商業(yè)化研究,可以利用AlphaFold 3在10分鐘內預測分子,并測試假設。
當然,并不是用了Transformer + Diffusion架構所有問題都能迎刃而解。在專業(yè)人士看來,即使是Transformer加Diffusion這對強力組合,應用在制藥領域,也還是有一些挑戰(zhàn)。
車興
YDS Pharmatech創(chuàng)始人兼CEO:
所有AI在制藥領域應用的最大障礙,還是對實驗需求和對科學問題的理解。
因為我們領域沒有開發(fā)自己新的架構,這些LM、Transformer、 Diffusion 其實都是NLP、 CV等領域開發(fā)出來的,最終應用取決于我們要在實驗上達到的目標,再去配合合適的技術來實現(xiàn)。
值得一提的好消息是:谷歌把AlphaFold 3開源了。
此前,AlphaFold3使用上有不少限制:比如研究者無法運行自己的AlphaFold3版本或訪問其底層代碼、每日預測次數(shù)也有限制,這也令部分科學家反而認為AlphaFold3的影響力反而會不如AlphaFold2。
或許是諾貝爾化學獎的“刺激”,谷歌在11月11日悄悄地把它給開源了!“悄悄”是因為,谷歌甚至都沒有發(fā)布一篇新聞,只是在原來的博客文章上進行了一段很小的文字更新:
“2024年11月11日更新,我們已發(fā)布了AlphaFold3的模型代碼和權重作為學術用途,以幫助前沿研究?!?/p>
也就是說,現(xiàn)在任何人都可以下載AlphaFold3軟件代碼并將其用于非商業(yè)用途了。雖然目前只有具有學術背景的科學家才能訪問訓練權重,而且只能在提出請求后才能訪問,但對于學術界,這仍然是個巨大的進步。
Demis Hassabis
谷歌DeepMind首席執(zhí)行官:
我認為AlphaFold是我們迄今為止構建的最復雜且可能最有意義的系統(tǒng),我們建立AlphaGo和Alpha Zero的初衷,就是為通用學習系統(tǒng)奠定基礎,并將其應用于現(xiàn)實世界的挑戰(zhàn),我熱衷于科學挑戰(zhàn),比如蛋白質折疊,而AlphaFold當然是我們在這方面的第一個重要成果。
硅谷的華源2024年會上,我們采訪到了諾貝爾生理學或醫(yī)學獎得主Randy Schekman,他認為AlphaFold會持續(xù)顛覆傳統(tǒng)科研的范式。
Randy Schekman
2013年諾貝爾生理學或醫(yī)學獎得主:
它會對傳統(tǒng)研究產(chǎn)生顛覆性的影響,但進步的本質就是顛覆,所以這并不可怕。相反,我們需要擁抱這種創(chuàng)新。
AlphaFold的影響是巨大的,唯一的限制就在于人的想象力——如何實現(xiàn)它、如何部署它。
但我并不認為從此我們就不需要做實驗,實驗仍然是推動科學進步的基礎,但AlphaFold肯定會幫助我們更好地所有生成的數(shù)據(jù)。
02 AI結合生物領域的其他玩家
Chapter 2.1 ESMFold
2022年,Meta AI研究團隊推出了ESMFold,這是一個強大的蛋白質結構預測模型,并且還公布了6億多種蛋白結構預測結果。
這個龐大的數(shù)據(jù)庫涵蓋了地球環(huán)境樣本中鮮為人知的蛋白質,包括土壤、海洋和人體中的微生物。
Meta表示,在ESMFold預測的蛋白質中,約有三分之一可以以高置信度完成預測。也就是說,當時ESMFold預測出來的蛋白結構數(shù)量,相當于AlphaFold2的3倍左右。
ESMFold還在計算效率方面取得了顯著進展。Meta AI研究科學家表示,ESMFold能夠在幾秒鐘內完成單個蛋白質結構的預測。這比之前的方法快了幾個數(shù)量級:用ESMFold預測超過6.17億個蛋白質的結構,只花了2周時間。
另外,在單個英偉達V100 GPU上,ESMFold可以在14.2秒內對含有384個殘基的蛋白質進行預測,比AlphaFold2快6倍,而對于較短的序列,它甚至比AlphaFold2快了60倍。
Janice
N-1 Life創(chuàng)始人:
ESMFold在早期的時候有非常多的優(yōu)點,比如計算速度比較快。另外,它的數(shù)據(jù)庫早期非常開源。
ESMFold的核心是一個創(chuàng)新的AI模型,由大約十幾名科學家共同打造,它借鑒了類似于ChatGPT的語言預測技術。
Meta的科學家們?yōu)镋SMFold提供了代表蛋白質遺傳密碼的氨基酸序列,讓AI模型學習如何填補序列中的空白部分。
通過學習已知蛋白質序列與結構之間的關系,ESMFold能夠預測新蛋白質的三維結構。
這項技術的一個顯著優(yōu)勢是其驚人的速度。
此外,盡管功能強大,ESMFold的設計卻相對輕量,這意味著它可以在普通的GPU上運行,使得更多研究者能夠使用這個工具。
不過,它的缺點也很明顯:準確度較低。不少生物技術業(yè)內人士表示,他們更喜歡 AlphaFold,而不是ESMFold,因為它更準確。
由于在AI賦能生物醫(yī)藥這件事上,瓶頸不是計算,所以更快并不意味著更好,準確才更重要。
然而,ESMFold項目卻沒有得到扎克伯格的支持:2023年春季,作為Meta公司大范圍裁員的一部分,ESMFold部門被解散。這一舉措使學術界擔憂Meta是否能長期維持數(shù)據(jù)庫的運行和相關服務,盡管如此,ESMFold的影響力依然顯著。
自2022年發(fā)布以來,ESMFold模型每月的下載量約為25萬次,每小時可預測1000種蛋白質結構,多個學術研究團體和生物科技公司已經(jīng)開始使用這一工具。
相比之下,DeepMind的AlphaFold自2021年首次發(fā)布以來,已有來自190多個國家的100多萬研究人員和生物學家使用,查看了300萬種蛋白質結構。
雖然AlphaFold在準確性上仍占優(yōu)勢,但ESMFold的速度優(yōu)勢和更大的數(shù)據(jù)庫為科研人員提供了另一種選擇。只是不知道,遭遇了裁員危機的ESMFold的未來命運如何。
Chapter 2.2 RoseTTAFold
這次諾獎的另外一名獲獎者David Baker帶領團隊開發(fā)的蛋白質分析工具系列Rosetta,是生物醫(yī)藥界人士的最愛。
2021年,看到AlphaFold2大殺四方,David Baker教授和他的研究團隊,開發(fā)出了一種名為RoseTTAFold的新型蛋白質結構預測工具,這一突破性成果為解決長期以來困擾科學界的蛋白質折疊問題提供了新的思路和方法。
車興
YDS Pharmatech創(chuàng)始人兼CEO:
David Baker組之前出過很多Diffusion做蛋白設計的,對于計算領域來說特別ground breaking(開創(chuàng)性的)。
因為以前計算領域沒有這些工具,現(xiàn)在不但有了,還能有一定的成功率,所以我們都認為非常好。
Randy Schekman
2013年諾貝爾生理學或醫(yī)學獎得主:
這尤其體現(xiàn)在David Baker取得進展的領域:他正在使用人工智能設計自然界中從未存在過的蛋白質,通過設計它們來催化制藥行業(yè)。
之前,但這些反應通常效率低下且涉及有毒物質,而通過設計蛋白質來催化這些反應,或者設計用于疫苗研發(fā)的新分子,或應用于藥物開發(fā)的新藥分子。
這種基于人工智能算法的設計原則,在生產(chǎn)蛋白質或其他分子中的應用,無疑是未來的發(fā)展方向,其重要性將不斷提高。
RoseTTAFold的核心是一種創(chuàng)新的深度學習算法。它采用了三軌神經(jīng)網(wǎng)絡架構,可以同時處理蛋白質的一維序列信息、二維距離信息和三維結構信息。
這種多維度的信息整合使得RoseTTAFold能夠更準確地模擬蛋白質的折疊過程,從而實現(xiàn)高精度的結構預測。與傳統(tǒng)的實驗方法相比,RoseTTAFold具有幾個顯著的優(yōu)勢:
1.速度快:通常只需幾個小時就能完成一個蛋白質的結構預測,大大縮短了研究周期。
2.成本低:不需要昂貴的實驗設備和試劑,降低了研究門檻。
3.適用范圍廣:可以預測各種類型的蛋白質結構,包括一些難以通過實驗方法解析的蛋白質。
然而RoseTTAFold也存在一些局限性,比如對于一些特殊的蛋白質結構,其預測準確度還有待提高。此外,如何將預測結果與實驗數(shù)據(jù)有機結合,也是未來需要解決的問題。
不過,在生物醫(yī)藥業(yè)內人士的眼里,RoseTTAFold比起Google的AlphaFold和ESMFold,最大的優(yōu)勢是對生物學的理解。
Janice
N-1 Life創(chuàng)始人:
因為David Baker團隊是科學家而非工程師出身,所以模型里面融入的生物學的理解和對于結構的理解是更深入的。
這是獨一無二的,而且可能是全世界最好的。
也就是說,RoseTTAFold模型提出了一種全新的思路和底層架構。
我們提到的AlphaFold和OpenAI的GPT-4等語言模型,其實都是從AI技術出發(fā),然后將其應用到生物醫(yī)藥等領域。而RoseTTAFold則從根本上突破了這一傳統(tǒng)路徑,提供了與以往AI驅動模型截然不同的創(chuàng)新方向。
正是這種對生物學多維度、多尺度的理解,使得RoseTTAFold具備天然優(yōu)勢——它對生物學的理解和輸出更為準確。
在與AlphaFold 2的對比中可以發(fā)現(xiàn),RoseTTAFold計算速度更快,且所需算力更少。這可能是因為它融入了更深入的生物學理解,從而減少了計算時間和資源消耗。
Janice
N-1 Life創(chuàng)始人:
RoseTTAFold甚至可以在普通的GPU上進行計算,但是AlphaFold必須用最好的A100來做。
接下來我們總結下AI入侵生物醫(yī)藥行業(yè)的三個階段。
03 AI+生物醫(yī)藥進化的三階段
Chapter 3.1 早期階段
第一階段:機器學習的簡單應用。
制藥公司在早期嘗試使用機器學習建模來預測藥物效果和生物學反應,但成效甚微,主要因為數(shù)據(jù)量不足和模型的局限性。
AI技術的起源可以追溯到20世紀60年代,盡管當時還不叫“AI”。
早期的研究主要是嘗試用計算機和定量數(shù)學方法,解讀化學結構及其與藥效之間的關系。當時的著名術語叫“定量構效關系”(Quantitative Structure-Activity Relationship,QSAR)。
代表人物Corwin Hansch創(chuàng)立了一個方程,用于定量分析化學分子的結構與其藥效之間的聯(lián)系,然而這些研究在當時仍然較為基礎。
70年代和80年代,化學結構數(shù)據(jù)庫的建立逐漸成為研究的重點。
80年代和90年代,隨著計算機技術的興起,全球的化學家和藥物學家開始將化學結構及其生物活性的信息匯總到數(shù)據(jù)庫中,通過數(shù)據(jù)庫學習結構特征成為主流。
90年代見證了與Docking相關模型的建立,其中加利福尼亞大學舊金山分校UCSF和牛津大學的研究尤為突出。
Docking又叫分子對接,是一種計算生物學技術,它模擬了小分子(如藥物候選物)與大分子(如蛋白質受體)之間的相互作用,以預測它們如何結合在一起。這項技術在當時是非常先進的,盡管只能在實驗室的大型本地計算機上進行,使用起來也十分受限。
Janice
N-1 Life創(chuàng)始人:
現(xiàn)在在斯坦福的一些實驗室里面還保留著當時的計算機——特別大,而且都是本地的計算機,實驗室里有誰需要用這個工具,都只能去那個特定的計算機去嘗試。所以是當時那個時代非常先進的成果。
進入21世紀后,機器學習和深度學習技術逐步應用于藥物發(fā)現(xiàn)領域。第一代AI藥物發(fā)現(xiàn)公司出現(xiàn),通過機器學習分析藥物分子的結構和藥效,嘗試設計新的藥物分子。
同時,高通量篩選技術的普及使得數(shù)據(jù)產(chǎn)生的速度和量大幅提升,為機器學習提供了大量的數(shù)據(jù)點,推動了AI在藥物研發(fā)中的應用。
Chapter 3.2 深度學習
第二個階段的技術突破是:深度學習算法的出現(xiàn)。它極大提升了生物醫(yī)藥領域的數(shù)據(jù)處理和分析能力,為復雜的生物學問題提供了新的解決方案。
21世紀初期,生物醫(yī)藥領域主要依賴于大量數(shù)據(jù)的積累,通過機器學習方法從中提取規(guī)律。
真正的轉折點出現(xiàn)在2010年代初期,深度學習的興起為生物醫(yī)藥領域帶來了前所未有的變革。
再往后,就是人工智能時代了。盡管“人工智能”(AI)這一術語早在計算機領域廣泛應用,但直到2020年前后,它才在生物醫(yī)藥領域真正得到重視,這一變革的關鍵推動力是AlphaFold等突破性模型的問世。
AlphaFold的成功不僅標志著AI技術在生物醫(yī)藥領域的成熟應用,更是一次劃時代的分水嶺。這些先進的AI工具超越了傳統(tǒng)的數(shù)據(jù)堆積分析,具備了強大的預測能力,從而加速了生命科學和藥物發(fā)現(xiàn)的進程。
Janice
N-1 Life創(chuàng)始人:
AlphaFold出現(xiàn)是一個很重要、劃時代的分水嶺,這個時候大家就開始把所有很相對成熟很多的這些 AI 的工具用到生物醫(yī)藥里面。
它不僅僅是堆疊各種數(shù)據(jù),嘗試在數(shù)據(jù)里面去找到它的規(guī)律,而更多的是有預測性的功能,所以從2020年開始一直到現(xiàn)在,其實時間并不長,但是現(xiàn)在模型迭代非???,進入了AI助力生命醫(yī)學和藥物發(fā)現(xiàn)的新時代。
Chapter 3.3 真正的AI時代
第三階段:生物醫(yī)藥領域進入了端到端學習的新時代。
早期的機器學習工具在生物醫(yī)藥領域的應用主要依賴于龐大的數(shù)據(jù)庫,通過分析已知結構來尋找規(guī)律,然而這種方法在預測新結構和功能方面存在局限性。而且傳統(tǒng)的結構-活性關系(SAR)研究需要逐步解析化學分子從化學式到三維構象,再到與蛋白質或藥物靶點的相互作用,每一步都需要明確的關系。
隨著人工智能技術的發(fā)展,特別是深度學習的引入,生物醫(yī)藥領域進入了端到端學習的新時代:這種方法允許從化學式直接預測分子的功能,中間過程由模型自動處理,減少了人為干預。
這得益于強大的計算資源和先進的模型,使得科學家不再需要關注每個環(huán)節(jié)的細節(jié),而是直接獲得高準確率的預測結果。
Janice
N-1 Life創(chuàng)始人:
這時候人就已經(jīng)跟不上機器的速度。對于科學家來講,現(xiàn)在我們要嘗試去理解并不是每個環(huán)節(jié)都要有結論,因為就算有結論也不一定是正確的,在化學生物界很難去證實,大家都是在不斷的證偽,產(chǎn)生了很多假設。
這些假設將引導我們走向不同的研究方向,但有時設計的藥物、采取的途徑可能并不正確,這也是生物醫(yī)藥領域之所以困難的原因之一。
在這種情況下,AI可以不用管中間的過程、直接為我們提供一個結果,而且準確率正不斷提升,所以我覺得完全是一個新時代。
AI技術的演進,我們可以從前面提到的Alpha Fold1、2、3代可以看出來:
為了構建AlphaFold1,DeepMind用數(shù)千種已知蛋白質訓練了一個神經(jīng)網(wǎng)絡,直到它能夠僅從氨基酸就能預測出3D結構。
當給定一種新蛋白質時,AlphaFold使用神經(jīng)網(wǎng)絡來預測氨基酸對之間的距離,以及連接它們的化學鍵之間的角度。
在第二步中,AlphaFold調整了草圖結構以找到最節(jié)能的排列,這個程序剛開始時花了兩周時間預測其第一個蛋白質結構,但現(xiàn)在只需幾個小時就能預測出來。
AlphaFold2,則是運用了深度卷積神經(jīng)網(wǎng)絡來進行訓練。AlphaFold3,就已經(jīng)是Transformer加Difusion模型了。
Janice
N-1 Life創(chuàng)始人:
Alphafold 1的時候,用的還是傳統(tǒng)的解題思路,但是AlphaFold 2就跳過了這一塊,直接去用深度神經(jīng)網(wǎng)絡預測了蛋白質的結構。
在蛋白質預測領域,除了谷歌外還有其他公司也在構建類似的大型模型。例如Meta的ESM Fold、David Baker團隊的Rosetta Fold都是競爭對手。
然而到了AlphaFold 3的時代,其準確度已經(jīng)遠遠超過了其他模型,所以谷歌給到的那么多資源支持,確實讓他們在領域內領先了。
了解了計算機技術改造生物醫(yī)藥行業(yè)的三個階段,下一個問題是:AI技術會帶來什么樣的革新?
首先,人工智能(AI)技術的應用顯著加速了藥物研發(fā)進程,進而降低了成本。
傳統(tǒng)藥物開發(fā)通常需要5到10年才能篩選出一個先導化合物(lead candidate),然后再進入臨床試驗階段。AI的引入使這一過程大幅縮短,例如Iambic Therapeutics公司在9個月內開發(fā)出一個新分子,并在24個月內進入臨床試驗。
其次,AI的優(yōu)勢在于減少了對大量化合物合成和實驗室實驗的依賴,更多地利用計算機模擬進行預測和驗證。這使得資源分配從傳統(tǒng)的實驗室實驗轉向計算能力的投入,隨著計算技術的不斷革新,預計成本將持續(xù)下降。
此外,AI在自然語言處理(NLP)領域的成功,如ChatGPT的出現(xiàn),進一步提升了人們對AI在藥物研發(fā)中潛力的認識。這促使研究人員探索將大型語言模型(LLM)等先進AI技術應用于藥物開發(fā),以提高效率和成功率。
車興
YDS Pharmatech創(chuàng)始人兼CEO:
在ChatGPT出來前,我們探索了純用RL和基于圖的方法,發(fā)現(xiàn)成功率較低,且計算成本比較高。
后來ChatGPT太成功了,吸引了大家的注意。加上我們之前嘗試的其他技術路徑,都存在一些不盡如人意的地方。
我們的AI案例主要關注自然語言處理(NLP),在了解ChatGPT的方法后,我們就能夠更好地應用它,這也是我們技術傳承和積累的結果。
04 未來,剛剛開始
毫無疑問的是,AI正在影響生物行業(yè)的方方面面。當談到生物科技時,不僅僅是制藥公司,從藥物發(fā)現(xiàn)到開發(fā),再到藥物制造、監(jiān)管、臨床試驗和診斷的各類公司,都在受到AI的影響。
例如,藥企想要進行臨床試驗時,需要向FDA提交數(shù)百頁的文件來證明他們的數(shù)據(jù)有效,申請藥物的批準。過去,這些工作完全由人來完成,光是準備這些文件就可能花費100萬美元。
但現(xiàn)在有了AI工具,比如大語言模型和其他用于數(shù)據(jù)總結和分析的工具,這些時間和費用都可以節(jié)省。但這并不意外,因為文本、數(shù)值數(shù)據(jù)、圖像處理正好是AI擅長處理的。
Randy Schekman
2013年諾貝爾生理學或醫(yī)學獎得主:
AI正被用于評估當前生成的大量數(shù)據(jù),這還只是開始,因此其中蘊藏著許多機會。
在硅谷101的線下AI論壇上,F(xiàn)usion Fund的聯(lián)合創(chuàng)始人張璐也提到:現(xiàn)在到了AI在醫(yī)療健康領域大顯身手的黃金時期。
AI不僅在醫(yī)療健康行業(yè)中得到各種應用,包括數(shù)字診斷、治療到數(shù)字生命科學和數(shù)字生物學等。更重要的是,AI也需要醫(yī)療健康行業(yè),這個行業(yè)有大量高質量的數(shù)據(jù),能夠展現(xiàn)AI的能力。
張璐
Fusion Fund創(chuàng)始合伙人:
人類社會產(chǎn)生的數(shù)據(jù)大約30%是與醫(yī)療保健相關的,在這30%的數(shù)據(jù)中,目前只有5%得到了有價值的分析。
這就像一個尚未開發(fā)的金礦,我們還沒挖掘出它的真正價值?,F(xiàn)在,人們終于開始嘗試學習并應用新技術,吸引最優(yōu)秀的人才和資源,推動不同的創(chuàng)新,這些創(chuàng)新會涉及到計算生物學、數(shù)字生物學和合成生物學。
對于AI在生命科學領域的最具潛力的投資方向,張璐甚至還提到了一點,隨著Space X Starship的成功發(fā)射,意味著未來人類探索宇宙的時間表可能會在五到十年內出現(xiàn)。
太空環(huán)境會為數(shù)字治療、數(shù)字生物學提供哪些新的解決方案、新的結果呢?這也是一個非常有趣的腦洞。
目前AI的應用主要集中在研發(fā)階段,雖然在如何把AI整合進生物醫(yī)藥的整個鏈條、尤其是商業(yè)運營上還在摸索,但已經(jīng)可以看到不少科技公司的頻繁動作:
英偉達開始頻繁在AI制藥領域投資出手,2023年的5月至11月,半年間陸續(xù)投資了9家AI制藥公司,其中有2013年成立的上市公司,也有剛成立、募集種子輪融資的新公司。
亞馬遜云科技宣布與生命科學行業(yè)商業(yè)服務提供商EVERSANA合作,共同推廣AI驅動制藥等應用。
谷歌云宣布與生物制藥上市公司Insmed合作,利用AI技術提高效率,減少新藥開發(fā)和交付的時間
在AI技術飛速發(fā)展的新周期中,我們迫切地希望看到科技公司和生物醫(yī)藥公司能強強聯(lián)手,加速人類的健康醫(yī)療水平的進步。
而未來,才剛剛開始。