文|經(jīng)緯創(chuàng)投
如果要問AI的下一個(gè)黃金賽道是什么?黃仁勛的答案是生命科學(xué)。
他在很多場合明確表達(dá)了這個(gè)觀點(diǎn),比如在一場“世界政府峰會(huì)”的會(huì)議中,他說:“每個(gè)人都要學(xué)習(xí)電腦的時(shí)代已經(jīng)結(jié)束了,未來的世界應(yīng)該是生物學(xué)?!?/p>
在另一場會(huì)議的問答環(huán)節(jié)中,他說如果有重來一次的機(jī)會(huì),他會(huì)首先考慮生物學(xué),特別是和人類相關(guān)的生物學(xué)。
不僅僅是黃仁勛這么說,英偉達(dá)對外投資也證明了這一點(diǎn)。近兩年,英偉達(dá)近乎瘋狂地在醫(yī)療和藥物發(fā)現(xiàn)領(lǐng)域投資,已投資了超過十幾家初創(chuàng)公司。
據(jù)WSJ報(bào)道,Moon Surgical是一家利用AI改進(jìn)腹腔鏡手術(shù)的法國創(chuàng)業(yè)公司,其首席執(zhí)行官Anne Osdoit說,她的公司大約在三年前就開始與英偉達(dá)合作,當(dāng)時(shí)該公司正在為生命科學(xué)領(lǐng)域開發(fā)芯片。她說,這種合作關(guān)系最終促成了投資,英偉達(dá)還幫助公司解決了有關(guān)手術(shù)機(jī)器人的技術(shù)監(jiān)管擔(dān)憂?!坝ミ_(dá)非常務(wù)實(shí),直接說‘嘿,告訴我們你需要什么’?!?/p>
英偉達(dá)醫(yī)療保健副總裁Kimberly Powell甚至直言:“既然計(jì)算機(jī)輔助設(shè)計(jì)行業(yè)捧出了第一家2萬億美元市值的芯片公司,計(jì)算機(jī)輔助藥物發(fā)現(xiàn)行業(yè),為什么不能打造下一個(gè)價(jià)值萬億美元的藥物公司呢?”
在今年英偉達(dá)GTC大會(huì)上,與醫(yī)療保健/生命科學(xué)相關(guān)的活動(dòng)將達(dá)90場,也突顯了英偉達(dá)對生命科學(xué)領(lǐng)域的重視?!拔覀兪窍喈?dāng)內(nèi)行的投資者。”今年1月,黃仁勛在一場摩根大通醫(yī)療健康會(huì)議上說,“如果你在計(jì)算或AI方面有困難,請給我們發(fā)郵件,我們隨時(shí)為你服務(wù)。”
英偉達(dá)的對外投資中,醫(yī)療保健和生物技術(shù)類非常多
創(chuàng)新藥研發(fā)一直都費(fèi)時(shí)費(fèi)力,業(yè)界有一個(gè)著名的“雙十定律”,即研發(fā)一款新藥需要10年時(shí)間、10億美元,并且成功率也只有10%。所以哪怕是微小的改進(jìn),也將價(jià)值連城。
科學(xué)家們一直在努力用傳統(tǒng)的統(tǒng)計(jì)工具,來嘗試改進(jìn)效率,機(jī)器學(xué)習(xí)使篩選成堆的信息成為可能。比如谷歌DeepMind曾利用其AlphaFold系統(tǒng),來預(yù)測蛋白質(zhì)結(jié)構(gòu)。這項(xiàng)技術(shù)的最新進(jìn)展出現(xiàn)在5月8日的《自然》雜志,新推出的AlphaFold 3不僅能夠模擬蛋白質(zhì)與其他分子的相互作用,還能準(zhǔn)確預(yù)測包括DNA、RNA、配體等生物分子結(jié)構(gòu)以及它們?nèi)绾蜗嗷プ饔?,這項(xiàng)技術(shù)能改變我們對生物世界和藥物發(fā)現(xiàn)的理解。
下面我們來看看 AlphaFold 3 令人興奮的一些預(yù)測結(jié)果:
7PNM - 一種普通感冒病毒的突起蛋白(冠狀病毒OC43):隨著病毒蛋白(藍(lán)色部分)與抗體(綠色)和單糖(黃色)相互作用,AlphaFold 3對7PNM的預(yù)測結(jié)果與真實(shí)結(jié)構(gòu)(灰色)完全吻合。這能夠增進(jìn)我們對這種免疫系統(tǒng)過程的了解,有助于更好地理解冠狀病毒,包括COVID-19,從而提高改進(jìn)治療的可能性。
8AW3 - RNA修飾蛋白:AlphaFold 3 預(yù)測的由蛋白質(zhì)(藍(lán)色)、一條 RNA 鏈(紫色)和兩個(gè)離子(黃色)組成的分子復(fù)合物與真實(shí)結(jié)構(gòu)(灰色)非常吻合。這個(gè)復(fù)合體參與了其他蛋白質(zhì)的生成,這是一個(gè)對生命和健康至關(guān)重要的細(xì)胞過程。
7R6R - DNA結(jié)合蛋白:AlphaFold 3 預(yù)測的蛋白質(zhì)(藍(lán)色)與 DNA 雙螺旋(粉色)結(jié)合的分子復(fù)合物,其預(yù)測結(jié)果與通過復(fù)雜實(shí)驗(yàn)得到的真實(shí)分子結(jié)構(gòu)(灰色)幾乎完全吻合圖片來源:Google DeepMind
雖然迄今為止只有十幾種藥物在研發(fā)過程中使用了人工智能技術(shù),但這一數(shù)字在未來可能會(huì)迅速增長,未來的藥物研發(fā)會(huì)越來越像一個(gè)計(jì)算問題。當(dāng)數(shù)據(jù)科學(xué)、人工智能和自動(dòng)化相結(jié)合時(shí),生物學(xué)將變得工程化,有可能出現(xiàn)指數(shù)型改進(jìn)。
AI 將改變藥物發(fā)現(xiàn)過程的每一步,雖然它可能是一種漸進(jìn)式的改進(jìn)——這里提升10%,那里20%、30%,但最終將所有這些改進(jìn)相乘,速度和成功率就可以提高兩到三倍。
今天這篇文章,我們就來聊聊AI在制藥方面到底能做什么?最大的瓶頸——數(shù)據(jù),會(huì)帶來哪些問題?以及AI制藥更可能會(huì)是一種漸進(jìn)式的變革,而非突變式……Enjoy:
AI在制藥方面到底能做什么?
但為什么現(xiàn)在還沒有獲批藥物,是通過AI方式做出來的?
01 AI在制藥方面到底能做什么?
我們先說一個(gè)真實(shí)案例。
幾年前,在奧利地維也納醫(yī)科大學(xué),一名82歲的病人(保羅)患有一種侵襲性血癌,他已經(jīng)做了六個(gè)療程的化療,但都未能根治。在這個(gè)漫長且痛苦的治療過程中,醫(yī)生不得不把那些常用的抗癌藥一個(gè)一個(gè)劃掉,因?yàn)樗鼈兌紱]有起到作用。
最終,保羅參與了一項(xiàng)藥物試驗(yàn),一家英國公司Exscientia正在開發(fā)一種新型的配對技術(shù),能根據(jù)不同患者的細(xì)微生理差異,為他們配對所需的精確藥物。
研究人員從保羅身上提取了一小塊組織樣本,將包括正常細(xì)胞和癌細(xì)胞在內(nèi)的樣本分成一百多塊,并將它們暴露在不同的藥物組合中。然后,他們利用機(jī)器自動(dòng)化和計(jì)算機(jī)視覺,這是一種經(jīng)過訓(xùn)練的機(jī)器學(xué)習(xí)模型,可識(shí)別及預(yù)測細(xì)胞中的微小變化。
實(shí)驗(yàn)證明,有些藥物不能殺死保羅的癌細(xì)胞,有些藥物反而損害了他的健康細(xì)胞。最終,這項(xiàng)技術(shù)找到了一款抗癌藥物,而此前保羅的醫(yī)生沒有嘗試過它,因?yàn)橥诘脑囼?yàn)表明,這種藥物對治療這種類型的癌癥無效。
最終這款藥物成功了。兩年后,保羅的病情完全緩解,他的癌癥消失了。而如果采用傳統(tǒng)的辦法,實(shí)驗(yàn)的速度和規(guī)模不可能這么快。
當(dāng)然,在這個(gè)已經(jīng)成功的案例里,機(jī)器學(xué)習(xí)只做到了篩選出正確的藥物,這也只是這家英國公司Exscientia的一個(gè)小目標(biāo),真正的目標(biāo)是徹底改變整個(gè)藥物開發(fā)流程,利用人工智能技術(shù)設(shè)計(jì)新藥。
但這個(gè)目標(biāo)還未實(shí)現(xiàn),這是目前整個(gè)生命科學(xué)界和AI界都在探索的方向。我們希望通過AI和數(shù)據(jù)驅(qū)動(dòng)的方法,注入更強(qiáng)算力,來提高藥物研發(fā)中的成功率。
我們先來看看研發(fā)一款新藥(這里主要指小分子藥物)的基本步驟是什么,再來說AI能切入哪些環(huán)節(jié)。首先,研發(fā)人員需要在人體內(nèi)選擇一個(gè)藥物會(huì)與之發(fā)生作用的靶點(diǎn),例如蛋白質(zhì);然后設(shè)計(jì)一種分子,對該靶點(diǎn)起作用,比如改變它的工作方式或讓它停止工作。接下來,在實(shí)驗(yàn)室中制造出這種分子,并檢查它是否真的起了作用,并且這個(gè)作用是設(shè)計(jì)所需的作用,而不是其他作用。最后,在人體中進(jìn)行測試,看它是否安全有效。
幾十年來,研發(fā)人員們篩選候選小分子藥物的方法是,將所需靶點(diǎn)的樣本放入實(shí)驗(yàn)室的許多小格子中,加入不同的分子,觀察反應(yīng)。然后多次重復(fù)這一過程,調(diào)整候選藥物分子的結(jié)構(gòu),比如把這個(gè)原子換成那個(gè)原子,如此反復(fù),這里面依賴的都是研發(fā)人員的經(jīng)驗(yàn)和直覺。
但從實(shí)驗(yàn)室到人體并不容易,許多藥物分子在實(shí)驗(yàn)室中似乎很有效,但最終在人體中進(jìn)行試驗(yàn)時(shí)卻失敗了。所以這里面需要大量修改的工作,比如脂溶性不好,就需要修改與脂溶性相關(guān)的地方;如果有毒副作用,就需要修改相應(yīng)的地方克服掉。
新藥研發(fā)其實(shí)就是一個(gè)不斷迭代、修改的過程,最后經(jīng)過實(shí)驗(yàn)驗(yàn)證,走向臨床、上市,產(chǎn)生價(jià)值。從經(jīng)驗(yàn)來看,研發(fā)人員可能需要設(shè)計(jì)和測試20種藥物,才能最終選出一種有效的藥物,這導(dǎo)致研發(fā)成本非常之高。
在這個(gè)過程中,AI能切入的主要是兩個(gè)環(huán)節(jié):
第一是在最初選擇苗頭化合物時(shí),就通過AI去篩選。傳統(tǒng)方法是依賴于研發(fā)人員的經(jīng)驗(yàn)和直覺,只能在一個(gè)幾百萬級(jí)的化合物庫中去搜索和篩選。據(jù)測算,如果剔除一些非常相似的分子,所有的大型制藥公司比如默克、諾華、阿斯利康等等加在一起,最多能有1000萬個(gè)分子可以用來制造藥物,其中有些是專有的,有些是眾所周知的。這就是大量化學(xué)家在過去百年辛勤工作的總成果。
但自然界中的化合物,或者說成藥空間,有10的60次方,我們實(shí)際上只是在一個(gè)非常小的范圍內(nèi)搜索。如果強(qiáng)算力的AI能夠在更大的范圍內(nèi)搜索,那就能大大突破目前的探索空間,找到更合適的成藥化合物。
這是人工智能的真正潛力所在——打開一個(gè)巨大的生物和化學(xué)結(jié)構(gòu)庫,這些結(jié)構(gòu)可能成為未來藥物的成分。
第二是在對先導(dǎo)化合物的修改時(shí),運(yùn)用AI技術(shù)修改。在選擇完苗頭化合物后,形成先導(dǎo)化合物,但有很多地方往往需要修改,比如需要把活性修改得更好,或是要把成藥性改得更好,這個(gè)環(huán)節(jié)在藥企研發(fā)中可能占了90%的工作量。
如何修改這些分子呢?由于藥物研發(fā)已經(jīng)有了上百年的歷史,我們已經(jīng)記錄了很多結(jié)構(gòu)的作用,基于這些再去做創(chuàng)新會(huì)容易一些。打個(gè)比方,這個(gè)過程像是要把一幅畫改得更漂亮,但是目前這幅畫中的某一部分,已經(jīng)畫得還不錯(cuò),此前也已經(jīng)被實(shí)驗(yàn)驗(yàn)證過了,那就可以保留,在這個(gè)基礎(chǔ)上修改。
而經(jīng)過訓(xùn)練的AI大模型,它可以從數(shù)十年間的幾百萬篇論文和大量檔案中挖掘數(shù)據(jù),從這些文件中提取出知識(shí)圖譜——哪些改變會(huì)導(dǎo)致什么樣的結(jié)果,這樣的因果鏈對修改非常重要。
基于這樣的數(shù)據(jù)基礎(chǔ),然后就可以讓AI去把其他部分設(shè)計(jì)出來,讓AI發(fā)揮想象力。AI往往比人類專家的想象力更加豐富,人類專家往往只能畫出幾十個(gè)分子,而AI生成的數(shù)量是沒有上限的,只要算力支持。
并且,在修改中需要同時(shí)考慮很多影響因素,比如合成性、活性、成藥性等等,是一個(gè)多重目標(biāo)的復(fù)雜問題。人類專家在處理時(shí),往往是簡化,一次只處理一個(gè)環(huán)節(jié),比如在這個(gè)環(huán)節(jié)只考慮活性,在另外一個(gè)環(huán)節(jié)才去考慮成藥性。但AI能夠更好地處理多重信息。
拿比較重要的成藥性來舉例,比如一款口服針對腫瘤的藥物,它要想進(jìn)入體內(nèi)后可以治愈腫瘤,首先需要經(jīng)過消化系統(tǒng),然后進(jìn)入血液和細(xì)胞,這個(gè)是吸收、代謝的過程;其次藥效需要持續(xù)一段時(shí)間,并且不能有毒副作用。這些性質(zhì)統(tǒng)稱為成藥性,是藥物研發(fā)中很重要的因素。
以往研發(fā)人員主要依賴實(shí)驗(yàn)驗(yàn)證,這就導(dǎo)致有可能在之前的研發(fā)環(huán)節(jié)花了很多錢,做了很長時(shí)間,好不容易發(fā)現(xiàn)了一個(gè)有效分子,但在成藥性驗(yàn)證上出了問題,而導(dǎo)致重新做或是放棄,這就造成了“雙十原則”。
如今則可以通過AI+專家經(jīng)驗(yàn)+自動(dòng)化實(shí)驗(yàn)的方式,通過AI提升預(yù)測的準(zhǔn)確率和設(shè)計(jì)出更結(jié)構(gòu)新穎、性質(zhì)更好的分子,來提升整體成功率。有研發(fā)人員將藥物和蛋白質(zhì)在體內(nèi)的相互作用,視為一個(gè)物理問題,模擬原子間的推拉作用,而這種推拉作用會(huì)影響分子如何結(jié)合在一起,利用人工智能更準(zhǔn)確地模擬分子之間的相互作用。
生成式AI對生命科學(xué)各環(huán)節(jié)的作用及經(jīng)濟(jì)價(jià)值推動(dòng);圖片來源:麥肯錫
02 為什么現(xiàn)在還沒有獲批藥物,是通過AI方式做出來的?
不過,與AI制藥偉大潛力相對應(yīng)的是一個(gè)冰冷的事實(shí),目前還沒有任何一款獲批的藥物,是通過AI的方式做出來的。
“如果有人告訴你,他們可以完美預(yù)測哪種藥物分子可以通過腸道或不被肝臟分解,諸如此類,那么他們很可能也有火星上的土地要賣給你。"MIT Review曾經(jīng)采訪了一位該領(lǐng)域的專業(yè)人士。
如今橫在AI制藥技術(shù)面前最大的難題是數(shù)據(jù),由于生命科學(xué)領(lǐng)域的數(shù)據(jù)非常不標(biāo)準(zhǔn)化,特別是在實(shí)驗(yàn)領(lǐng)域,經(jīng)常會(huì)出現(xiàn)A實(shí)驗(yàn)室做出來的實(shí)驗(yàn),與B實(shí)驗(yàn)室做出來的實(shí)驗(yàn)壓根沒有可比性。該領(lǐng)域甚至有一個(gè)常用語——“Apple to Apple”或者“head to head”,來特別強(qiáng)調(diào)可比性。
一旦涉及對真實(shí)世界的數(shù)據(jù)采集,最大的問題就是如何采集足夠多的數(shù)據(jù)維度。不管是研究細(xì)胞還是研究人、動(dòng)物,一般在傳統(tǒng)生物學(xué)、醫(yī)學(xué)的視角里,采集的都是單點(diǎn)數(shù)據(jù),比如這只猴子是胖還是瘦、這個(gè)細(xì)胞是增殖還是死亡,但這些維度過于單一,對胖瘦、增殖還是死亡的影響因素其實(shí)非常多,如果我們?nèi)狈ψ銐蚨嗟挠^察手段,以及不能形成多維度、結(jié)構(gòu)化的數(shù)據(jù),那么對AI進(jìn)行的訓(xùn)練也就會(huì)大打折扣。
以及這些數(shù)據(jù)從哪里來?并不一定是大型藥企,因?yàn)橐郧暗臄?shù)據(jù)記錄方式不一定能復(fù)用。曾經(jīng)在自動(dòng)駕駛領(lǐng)域就有一個(gè)經(jīng)典例子:當(dāng)我們?nèi)ふ铱晒┠P陀?xùn)練的數(shù)據(jù)時(shí),很多人最初找到出租車公司,因?yàn)槌鲎廛嚩寂溆行熊囉涗泝x,理論上應(yīng)該有很多自動(dòng)駕駛的數(shù)據(jù)。但實(shí)際上大家發(fā)現(xiàn)不行,因?yàn)槌鲎廛嚾狈Χ嗑S度的數(shù)據(jù)記錄,雖然行車記錄儀的數(shù)據(jù)有很多,但并不知道當(dāng)某個(gè)路況發(fā)生時(shí),司機(jī)做出了什么動(dòng)作,比如怎么打方向盤、什么時(shí)候踩了剎車,原來的行車記錄儀并沒有足夠的傳感器去記錄這些內(nèi)容。所以現(xiàn)在的自動(dòng)駕駛公司,為了采集多維度的數(shù)據(jù),都必須在測試車?yán)锛友b很多傳感器。
如今在生命科學(xué)領(lǐng)域也一樣,雖然不一定要完全從零開始,但目前的行業(yè)數(shù)據(jù)庫肯定是不夠的,需要加入各種新維度,包括加標(biāo)準(zhǔn)、加定義、加新的“傳感器”等等,需要圍繞AI訓(xùn)練所需,把各種維度補(bǔ)全,才能夠有訓(xùn)練好AI的基礎(chǔ)。
而如果從AI大模型scaling law的角度,現(xiàn)在還沒有人知道一個(gè)足夠智能的生命科學(xué)大模型,到底在哪個(gè)范疇上才能夠達(dá)到涌現(xiàn)?在沒有足夠高質(zhì)量的數(shù)據(jù)、沒有達(dá)到scaling law生效前所做出來的AI,歸根結(jié)底可能只是overfitting(擬合過度),還無法達(dá)到真正的突破。至于這個(gè)scaling law的突破點(diǎn)在哪里?仍然還處于探索中。
除了數(shù)據(jù)原因之外,另一大原因是AI也不是萬能的,無論研發(fā)環(huán)節(jié)多么先進(jìn),藥物仍然需要進(jìn)行人體臨床試驗(yàn)。任何藥物研發(fā)的最后階段,都需要招募大量志愿者,這很需要時(shí)間,平均約10年。許多藥物需要花費(fèi)數(shù)年時(shí)間才能進(jìn)入這一階段,但仍然以失敗告終。
雖然有很多AI制藥公司都在加班加點(diǎn)地研發(fā),但這些實(shí)驗(yàn)室中的實(shí)驗(yàn)和人體臨床試驗(yàn)無法被縮短,所以第一批在人工智能幫助下設(shè)計(jì)的藥物,可能還需要幾年時(shí)間才能上市。
當(dāng)然,雖然AI無法加快臨床試驗(yàn)的進(jìn)程,但它確實(shí)可以幫助制藥公司減少試錯(cuò)成本,也就是減少在實(shí)驗(yàn)室中測試無效藥物分子所花費(fèi)的時(shí)間,讓有希望的候選藥物更快進(jìn)入臨床試驗(yàn)階段。而且,由于資金投入的減少,公司可能不會(huì)感到那么大的放棄壓力,而堅(jiān)持想碰碰運(yùn)氣。
如今正有越來越多的由AI輔助的藥物管線出現(xiàn)。根據(jù)智藥局統(tǒng)計(jì),AI輔助的臨床管線已經(jīng)從2022年的50條,增長到當(dāng)前的102條,這還僅僅是統(tǒng)計(jì)的AI制藥公司的管線情況。
一級(jí)市場的資金也正在往該領(lǐng)域聚集。比如在上個(gè)月,生物技術(shù)領(lǐng)域最大的投資機(jī)構(gòu)ARCH Venture Partners,做出了有史以來最大的一筆投資,單筆領(lǐng)投了2億美元,投資于AI+醫(yī)療創(chuàng)業(yè)公司Xaira。這家成立僅一年的創(chuàng)業(yè)公司,在種子輪就拿了10億美金,目標(biāo)是利用 AI 來重塑藥物的研發(fā)、尋找治療疾病的新藥。
英偉達(dá)對Biotech的投資
當(dāng)我們在討論AI制藥的未來時(shí),它更像是一場漸進(jìn)式的變革,而非突進(jìn)式的變革。
這一輪AI熱潮與此前計(jì)算機(jī)輔助制藥最大的不同在于,算力和算法已經(jīng)得到了顯著提升,相比之前已經(jīng)產(chǎn)生了代際差異,這為藥物發(fā)現(xiàn)和設(shè)計(jì)提供了前所未有的精確度和效率。
由于數(shù)據(jù)問題,以及AI無法觸達(dá)的臨床試驗(yàn)等耗時(shí)環(huán)節(jié),至今仍未有獲批藥物是通過AI方式做出來的。但AI制藥的真正價(jià)值,可能不在于它能夠立即創(chuàng)造出超越現(xiàn)有藥物的奇跡,而在于作為一種工具,能夠系統(tǒng)性地解決以往難以解決的問題。這種系統(tǒng)性的解決方案,而不是偶發(fā)性的一兩次成功,如果能夠?qū)崿F(xiàn),將是對傳統(tǒng)制藥方法的一次重大突破,有可能帶來制藥行業(yè)的革命。
最新的研究里程碑也證明了這一點(diǎn)。華盛頓大學(xué)生物化學(xué)教授David Baker的研究團(tuán)隊(duì),首次利用AI技術(shù)從零開始設(shè)計(jì)出了一種新型抗體,將抗體療法推向了一個(gè)全新的高度。雖然尚未達(dá)到人類設(shè)計(jì)的頂尖水平,但已經(jīng)證明了AI設(shè)計(jì)的蛋白質(zhì)是可行的,這為未來的發(fā)展奠定了基礎(chǔ)。
最后,如果我們用一句話總結(jié):“AI在大分子領(lǐng)域的潛力值得期待,但這個(gè)積極樂觀可能不是在一個(gè)2-3年的時(shí)間周期里,而是更長的、漸進(jìn)式的發(fā)展周期里?!痹诠糯?,藥物發(fā)現(xiàn)純粹靠運(yùn)氣;在近代,藥物發(fā)現(xiàn)依賴經(jīng)驗(yàn)和直覺;在未來,AI技術(shù)料將大大加速這一進(jìn)程——這里提升10%,那里20%、30%,最終將所有這些改進(jìn)相乘,速度和成功率就可以提高兩到三倍。
References:
1. EndPoints:Cash, chips and talent: Inside Nvidia's plan to dominate biotech's AI revolution
2. 國聯(lián)證券:醫(yī)療AI賦能醫(yī)藥產(chǎn)業(yè)新發(fā)展
3. The Economist:Big pharma is warming to the potential of AI
4. MIT Review:AI is dreaming up drugs that no one has ever seen. Now we’ve got to see if they work.
5. Reuters:Big Pharma bets on AI to speed up clinical trials