文|陳根
人類的基因組常被比作是一本書寫生命的“天書”——人類憑借A、T、C、G四種堿基,卻配對(duì)出了高達(dá)60億的可能,堿基的無窮組合也蘊(yùn)含著人類進(jìn)化、生老病死的奧秘,而DNA則分布在23對(duì)染色體中。2001年,人類啟動(dòng)了解碼人類基因組的計(jì)劃,成為醫(yī)學(xué)和遺傳學(xué)的里程碑。
不過,在當(dāng)時(shí),第一個(gè)參考基因組并不完整——大約8%的DNA序列無法測序。主要包括染色體末端和著絲粒(染色體的中心節(jié)點(diǎn))中的遺傳物質(zhì)部分。這些部分中的DNA序列由許多幾乎相同的副本和重復(fù)組成。
終于,20年后,科學(xué)家們補(bǔ)齊了人類基因組圖譜上缺失的部分,2022年4月1日,人類基因組的完整序列首次在Science上重磅發(fā)布,完成了整個(gè)人類基因組的測序解碼,由此發(fā)現(xiàn)了多種頑癥和生命規(guī)律的根源——基因。現(xiàn)在,立足于人類基因組的完整序列,關(guān)于人類進(jìn)化、生老病死的研究也走向了新的序幕。
長鏈DNA測序技術(shù)是關(guān)鍵
人類基因組就是一個(gè)人所有的DNA,含有約31.6億個(gè)DNA堿基對(duì),包括大約2-3萬個(gè)基因。這些基因中除了編碼蛋白質(zhì)的兩萬多個(gè)基因之外,還包含了數(shù)千個(gè)RNA基因。如果從單個(gè)細(xì)胞中取出并拉伸成鏈,長度能夠達(dá)到2米。
這些基因分片段組合,通常被分成23對(duì),稱為染色體,其中包括22對(duì)常染色體,1對(duì)性染色體?;虿粌H可以通過復(fù)制把遺傳信息傳遞給下一代,還可以使遺傳信息得到表達(dá)。不同人種之間頭發(fā)、膚色、眼睛、鼻子等不同,都是基因之間的差異導(dǎo)致的。
每個(gè)物種都有自己的基因組,負(fù)責(zé)指示細(xì)胞什么時(shí)候、通過什么方式構(gòu)建這個(gè)物種的個(gè)體生命藍(lán)圖。對(duì)于人類來說,完整的基因組圖譜將有助于更好理解人作為一個(gè)有機(jī)體是如何形成的,一個(gè)有機(jī)體和其他人、其他物種之間又有哪些不同,為什么會(huì)有這些不同。
2003年,人類基因組計(jì)劃基本完成,不過,受到當(dāng)時(shí)技術(shù)的限制,最后得出的圖譜并不算完美——“人類基因組計(jì)劃”的科學(xué)家們從染色體DNA中獲得了大量的短序列,這些短序列與相鄰區(qū)域重疊,構(gòu)成更大的連續(xù)序列——重疊群。
理想情況下,每條染色體將呈現(xiàn)單個(gè)重疊群,但首次草圖卻包含了1246個(gè)這樣的片段。重復(fù)的片段包括著絲粒和核糖體DNA等,無法按照正確的順序組裝一些被切碎的片段。這就像擁有相同的拼圖碎片一樣,科學(xué)家們不知道哪塊碎片在哪里,因此基因組圖中留下了很大的空白。對(duì)于此,科學(xué)家們只能持續(xù)地完善組裝,手動(dòng)檢查,并使用測序分析來識(shí)別有錯(cuò)誤和信息缺口的片段。
人類基因組圖譜的最新版本于2013年發(fā)布,被稱為GRCh38。從那時(shí)起,它就被反復(fù)修補(bǔ)。然而,一直以來,它仍然缺少5%-10%的基因組,包括所有的著絲粒和其他困難區(qū)域,如編碼核糖體RNA序列的大量基因。這些缺失的基因組藏于大量重復(fù)基因拷貝的長序列中。
以著絲粒為例,攜帶基因的兩條染色體臂通過著絲粒相連。著絲粒由數(shù)千個(gè)幾乎一樣的α衛(wèi)星序列組成——171bp的α衛(wèi)星重復(fù)單位需要被正確排布以確保染色體穩(wěn)定和細(xì)胞分裂。然而,在人類基因組草圖發(fā)布20年后,著絲粒和其他有難度的DNA序列仍然是染色體圖譜中難以填補(bǔ)的缺口。
這些難題持續(xù)阻礙著基因組的組裝——如果測序技術(shù)沒有發(fā)生顛覆性改變,人類基因組測序?qū)⒃诤荛L時(shí)間內(nèi)停滯不前。
好在不間斷讀取長鏈DNA的測序技術(shù)終于問世。其中,一種技術(shù)是加州生物技術(shù)公司太平洋生物科學(xué)使用的成像系統(tǒng)來直接讀取數(shù)十萬甚至數(shù)百萬條平行DNA鏈,每條鏈包含數(shù)千個(gè)堿基。另一種技術(shù)則是英國公司的牛津納米孔技術(shù),它將DNA鏈穿過微小的蛋白孔或納米孔,測量核苷酸穿過孔道時(shí)電流的細(xì)微變化,進(jìn)而讀取數(shù)萬至數(shù)十萬個(gè)堿基。
在長鏈DNA的測序技術(shù)下,跨越20年的人類基因組謎題終于大白。
從填補(bǔ)缺口到完整發(fā)布
2022年4月1日,第一個(gè)完整的、無間隙的人類基因組序列發(fā)布,徹底填補(bǔ)了多年前的測序空白。人類基因組完整測序離不開T2T聯(lián)盟的努力。T2T聯(lián)盟成立于2019年初,旨在為每個(gè)人類染色體提供高質(zhì)量的從端粒到端粒的組裝。
該研究針對(duì)剩余8%的基因組,提供了人類基因組的完整30.55億堿基對(duì)序列T2T-CHM13,包括了除Y之外的所有染色體的無間隙裝配,糾正了之前的參考序列,并介紹了近2億個(gè)堿基對(duì)序列,包含1956個(gè)基因預(yù)測,其中,99個(gè)預(yù)測為蛋白質(zhì)編碼。完成的區(qū)域包括所有著絲粒衛(wèi)星陣列、最近的節(jié)段重復(fù)和所有五個(gè)近端著絲粒染色體的短臂。
與過去20年的任何基因組參考版本相比,T2T-CHM13組裝增加了五個(gè)完整的染色體臂和更多的額外序列,覆蓋了基因組中一些最復(fù)雜的區(qū)域。比如染色體末端的端粒和在細(xì)胞分裂過程中協(xié)調(diào)同源染色體或姐妹染色單體分離的著絲粒。新序列還揭示了以前未檢測到的片段重復(fù)(在基因組中重復(fù)的長段DNA),這些重復(fù)片段可在進(jìn)化和疾病中發(fā)揮重要作用。
具體來看,CHM13是一種腫瘤衍生細(xì)胞系,其基因組包含兩套相同的染色體。這就避免了二倍體基因組的復(fù)雜性,因?yàn)槎扼w基因組具有來自父母雙方的不同染色體拷貝。在2020年底,T2T聯(lián)盟的研究人員公布了兩個(gè)染色體的完整組裝,即X染色體和8號(hào)染色體。
研究人員使用牛津納米孔技術(shù),對(duì)兩條染色體的片段進(jìn)行測序,這兩條染色體的長度通常超過7萬個(gè)堿基,其中一條讀長甚至超過100萬個(gè)堿基。雖然很成功,但是對(duì)X染色體和8號(hào)染色體的測序過程卻費(fèi)力且艱苦。
除了長鏈DNA的測序技術(shù)外,完成和檢查基因組組裝還需要專用的軟件,這套工具由Phillippy和加州大學(xué)圣地亞哥分校計(jì)算生物學(xué)家PavelPevzner等研究人員共同開發(fā)。研究人員表示,這是一個(gè)非常謹(jǐn)慎的過程,只有兩個(gè)長度超過7000個(gè)堿基的序列,基本上100%相同,他們才會(huì)把它們粘合在一起,因?yàn)橐坏┠?、在組裝中引入一個(gè)錯(cuò)誤,就很難修復(fù)它。
在這個(gè)過程中,PacBio儀器支持環(huán)形一致測序(CCS),在此過程中單個(gè)DNA鏈被轉(zhuǎn)換成可以反復(fù)讀取的閉環(huán)。通過比較這些重復(fù)序列,研究員可以消除隨機(jī)錯(cuò)誤,獲取高度準(zhǔn)確的結(jié)果。早期版本的CCS最多容納幾千個(gè)堿基,在基因組組裝中用途有限。但2019年,PacBio改進(jìn)了這一過程,后續(xù)的高保真技術(shù)如今產(chǎn)生超過2萬個(gè)堿基的一致序列,準(zhǔn)確率超過99%。
其次,研究人員還利用了作圖技術(shù),比如加州生物科技公司BionanoGenomics開發(fā)的一種技術(shù),使得測量一條染色體上不同DNA序列之間的距離成為可能。當(dāng)然,對(duì)X染色體的初步研究也離不開之前對(duì)該染色體著絲粒的了解,此著絲粒的結(jié)構(gòu)已經(jīng)被充分研究。
T2T的方法也使得龐大復(fù)雜的基因測序工作相對(duì)縮短,而T2T-CHM13的問世則為科學(xué)家提供了一種有效的方式,來訪問和可視化與基因組和基因組其他元素相關(guān)的大量信息。如今,有了完整的基因組,科學(xué)家就能進(jìn)一步研究該片段在人類種群中的多樣性以及導(dǎo)致疾病的精細(xì)遺傳點(diǎn)。
這也是本次測序工作最大的意義所在——通過長讀測序技術(shù)解決復(fù)雜區(qū)域的序列結(jié)構(gòu),為后續(xù)的精準(zhǔn)醫(yī)療和分子診斷提供更為精細(xì)的索引。
基因組學(xué)新時(shí)代
完整基因組序列的公布對(duì)于揭示人類進(jìn)化、生老病死的意義是巨大的。實(shí)際上,4月1日,與完整的的人類基因組序列的論文同時(shí)發(fā)布的,還有5篇相關(guān)論文。其他5篇論文就分別從5個(gè)方面探討了完整基因組在人類遺傳學(xué)上的重要性。
5篇論文中的第一篇主要研究segmental duplication等復(fù)雜區(qū)域;第二篇論文重點(diǎn)介紹了中心粒的結(jié)構(gòu)和其表觀圖譜;第三篇論文討論的是該完整基因組如何提高對(duì)人類遺傳變異多樣性的分析;第四篇論文說明了人類基因組重復(fù)序列中的基因表達(dá)和其表觀圖譜;第五篇論文則介紹了該完整基因組的表觀圖譜。
要知道,過去未被揭示的8%的基因組代表了醫(yī)學(xué)和基因組知識(shí)的巨大差距。差距就在人類染色體的兩個(gè)關(guān)鍵區(qū)域:端粒和著絲粒。
端粒是位于染色體末端的小帽。這個(gè)部分隨著人年齡的增長而縮短。已經(jīng)有研究表明,端粒比正常水平短的人更容易患老年疾病,而且比端粒長的人更早死亡,通過延長端粒來減緩衰老速度是一種可能的方法。
著絲粒位于染色體中間部分。這個(gè)區(qū)域在細(xì)胞分裂過程中扮演了很重要的角色,因?yàn)榈鞍踪|(zhì)就是在這個(gè)狹窄部位附著并分裂 DNA,兩個(gè)新細(xì)胞由此共享攜帶同樣遺傳密碼的DNA——部分癌癥、衰老和不孕癥患者的基因中可以發(fā)現(xiàn)著絲粒出現(xiàn)問題或者錯(cuò)誤。
并且,對(duì)于癌癥來說,追溯基因突變是了解癌細(xì)胞誕生的重要途徑。畢竟,每種癌癥都有數(shù)千個(gè)突變。如果能夠在人體的乳腺、肺部、神經(jīng)系統(tǒng)等十幾個(gè)組織器官中鑒定不同的突變特征,就能尋找倒不同癌癥類型的患者具有的共性和差異,將常見的突變過程與人群中發(fā)生頻率較低的罕見突變過程區(qū)分開來。
而基因組測序能夠讓科學(xué)家們更近距離地觀察到某些癌癥的發(fā)展可能性,使得探索大多數(shù)癌癥的突變特征成為可能。尤其是憑借全基因組測序(WGS)方法,可全面探索所有類型的癌癥基因改變。
可以說 ,完整的基因測序開創(chuàng)了基因組學(xué)的新時(shí)代,隨著人類基因組逐漸被破譯,一張生命之圖將被繪就,人們的生活也將發(fā)巨大變化。人類對(duì)人類本身的了解還將邁上新的臺(tái)階,很多疾病的病因?qū)⒈唤议_,治療方案就能“對(duì)因下藥”,生活起居、飲食習(xí)慣也有可能根據(jù)基因情況進(jìn)行調(diào)整。
利用基因,人們可以改良果蔬品種,提高農(nóng)作物的品質(zhì),更多的轉(zhuǎn)基因植物和動(dòng)物、食品將問世,人類可能在新世紀(jì)里培育出超級(jí)物作。通過控制人體的生化特性,人類將能夠恢復(fù)或修復(fù)人體細(xì)胞和器官的功能,甚至改變?nèi)祟惖倪M(jìn)化過程。而這種改變帶來的顛覆,不比工業(yè)革命或互聯(lián)網(wǎng)的誕生來得更小。
對(duì)于此,BBC《科技聚焦》雜志說,在大部分人還沒有意識(shí)到的時(shí)候,人類已經(jīng)“處于一場深刻的醫(yī)學(xué)和技術(shù)革命的山腳下,這場革命不僅帶來了新療法和治療方法的前景,還帶來了關(guān)于倫理、平等和健康正義的巨大問題”。
鑒于我們?cè)诋?dāng)前環(huán)境中對(duì)某些基因的功能所知甚少,有專家指出,在進(jìn)行有可能影響千年的基因改造時(shí),必須格外謹(jǐn)慎。畢竟,當(dāng)前,人類暫時(shí)無法知道一個(gè)基因變異會(huì)對(duì)人類細(xì)胞造成的所有變化,也很難預(yù)見未來千百年后的環(huán)境下基因編輯對(duì)人類所起的作用。要判斷一個(gè)基因編輯是否合乎倫理,我們首先需要了解這個(gè)編輯的基因會(huì)帶領(lǐng)人類進(jìn)入一個(gè)什么樣的未來世界。