正在閱讀:

完整基因組的問(wèn)世,破解了關(guān)于生命的“天書”

掃一掃下載界面新聞APP

完整基因組的問(wèn)世,破解了關(guān)于生命的“天書”

人類基因組完整序列的發(fā)布帶來(lái)的顛覆,不比工業(yè)革命或互聯(lián)網(wǎng)的誕生來(lái)得更小。

文|陳根

人類的基因組常被比作是一本書寫生命的“天書”——人類憑借A、T、C、G四種堿基,卻配對(duì)出了高達(dá)60億的可能,堿基的無(wú)窮組合也蘊(yùn)含著人類進(jìn)化、生老病死的奧秘,而DNA則分布在23對(duì)染色體中。2001年,人類啟動(dòng)了解碼人類基因組的計(jì)劃,成為醫(yī)學(xué)和遺傳學(xué)的里程碑。

不過(guò),在當(dāng)時(shí),第一個(gè)參考基因組并不完整——大約8%的DNA序列無(wú)法測(cè)序。主要包括染色體末端和著絲粒(染色體的中心節(jié)點(diǎn))中的遺傳物質(zhì)部分。這些部分中的DNA序列由許多幾乎相同的副本和重復(fù)組成。

終于,20年后,科學(xué)家們補(bǔ)齊了人類基因組圖譜上缺失的部分,2022年4月1日,人類基因組的完整序列首次在Science上重磅發(fā)布,完成了整個(gè)人類基因組的測(cè)序解碼,由此發(fā)現(xiàn)了多種頑癥和生命規(guī)律的根源——基因?,F(xiàn)在,立足于人類基因組的完整序列,關(guān)于人類進(jìn)化、生老病死的研究也走向了新的序幕。

長(zhǎng)鏈DNA測(cè)序技術(shù)是關(guān)鍵

人類基因組就是一個(gè)人所有的DNA,含有約31.6億個(gè)DNA堿基對(duì),包括大約2-3萬(wàn)個(gè)基因。這些基因中除了編碼蛋白質(zhì)的兩萬(wàn)多個(gè)基因之外,還包含了數(shù)千個(gè)RNA基因。如果從單個(gè)細(xì)胞中取出并拉伸成鏈,長(zhǎng)度能夠達(dá)到2米。

這些基因分片段組合,通常被分成23對(duì),稱為染色體,其中包括22對(duì)常染色體,1對(duì)性染色體?;虿粌H可以通過(guò)復(fù)制把遺傳信息傳遞給下一代,還可以使遺傳信息得到表達(dá)。不同人種之間頭發(fā)、膚色、眼睛、鼻子等不同,都是基因之間的差異導(dǎo)致的。

每個(gè)物種都有自己的基因組,負(fù)責(zé)指示細(xì)胞什么時(shí)候、通過(guò)什么方式構(gòu)建這個(gè)物種的個(gè)體生命藍(lán)圖。對(duì)于人類來(lái)說(shuō),完整的基因組圖譜將有助于更好理解人作為一個(gè)有機(jī)體是如何形成的,一個(gè)有機(jī)體和其他人、其他物種之間又有哪些不同,為什么會(huì)有這些不同。

2003年,人類基因組計(jì)劃基本完成,不過(guò),受到當(dāng)時(shí)技術(shù)的限制,最后得出的圖譜并不算完美——“人類基因組計(jì)劃”的科學(xué)家們從染色體DNA中獲得了大量的短序列,這些短序列與相鄰區(qū)域重疊,構(gòu)成更大的連續(xù)序列——重疊群。

理想情況下,每條染色體將呈現(xiàn)單個(gè)重疊群,但首次草圖卻包含了1246個(gè)這樣的片段。重復(fù)的片段包括著絲粒和核糖體DNA等,無(wú)法按照正確的順序組裝一些被切碎的片段。這就像擁有相同的拼圖碎片一樣,科學(xué)家們不知道哪塊碎片在哪里,因此基因組圖中留下了很大的空白。對(duì)于此,科學(xué)家們只能持續(xù)地完善組裝,手動(dòng)檢查,并使用測(cè)序分析來(lái)識(shí)別有錯(cuò)誤和信息缺口的片段。

人類基因組圖譜的最新版本于2013年發(fā)布,被稱為GRCh38。從那時(shí)起,它就被反復(fù)修補(bǔ)。然而,一直以來(lái),它仍然缺少5%-10%的基因組,包括所有的著絲粒和其他困難區(qū)域,如編碼核糖體RNA序列的大量基因。這些缺失的基因組藏于大量重復(fù)基因拷貝的長(zhǎng)序列中。

以著絲粒為例,攜帶基因的兩條染色體臂通過(guò)著絲粒相連。著絲粒由數(shù)千個(gè)幾乎一樣的α衛(wèi)星序列組成——171bp的α衛(wèi)星重復(fù)單位需要被正確排布以確保染色體穩(wěn)定和細(xì)胞分裂。然而,在人類基因組草圖發(fā)布20年后,著絲粒和其他有難度的DNA序列仍然是染色體圖譜中難以填補(bǔ)的缺口。

這些難題持續(xù)阻礙著基因組的組裝——如果測(cè)序技術(shù)沒(méi)有發(fā)生顛覆性改變,人類基因組測(cè)序?qū)⒃诤荛L(zhǎng)時(shí)間內(nèi)停滯不前。

好在不間斷讀取長(zhǎng)鏈DNA的測(cè)序技術(shù)終于問(wèn)世。其中,一種技術(shù)是加州生物技術(shù)公司太平洋生物科學(xué)使用的成像系統(tǒng)來(lái)直接讀取數(shù)十萬(wàn)甚至數(shù)百萬(wàn)條平行DNA鏈,每條鏈包含數(shù)千個(gè)堿基。另一種技術(shù)則是英國(guó)公司的牛津納米孔技術(shù),它將DNA鏈穿過(guò)微小的蛋白孔或納米孔,測(cè)量核苷酸穿過(guò)孔道時(shí)電流的細(xì)微變化,進(jìn)而讀取數(shù)萬(wàn)至數(shù)十萬(wàn)個(gè)堿基。

在長(zhǎng)鏈DNA的測(cè)序技術(shù)下,跨越20年的人類基因組謎題終于大白。

從填補(bǔ)缺口到完整發(fā)布

2022年4月1日,第一個(gè)完整的、無(wú)間隙的人類基因組序列發(fā)布,徹底填補(bǔ)了多年前的測(cè)序空白。人類基因組完整測(cè)序離不開(kāi)T2T聯(lián)盟的努力。T2T聯(lián)盟成立于2019年初,旨在為每個(gè)人類染色體提供高質(zhì)量的從端粒到端粒的組裝。

該研究針對(duì)剩余8%的基因組,提供了人類基因組的完整30.55億堿基對(duì)序列T2T-CHM13,包括了除Y之外的所有染色體的無(wú)間隙裝配,糾正了之前的參考序列,并介紹了近2億個(gè)堿基對(duì)序列,包含1956個(gè)基因預(yù)測(cè),其中,99個(gè)預(yù)測(cè)為蛋白質(zhì)編碼。完成的區(qū)域包括所有著絲粒衛(wèi)星陣列、最近的節(jié)段重復(fù)和所有五個(gè)近端著絲粒染色體的短臂。

與過(guò)去20年的任何基因組參考版本相比,T2T-CHM13組裝增加了五個(gè)完整的染色體臂和更多的額外序列,覆蓋了基因組中一些最復(fù)雜的區(qū)域。比如染色體末端的端粒和在細(xì)胞分裂過(guò)程中協(xié)調(diào)同源染色體或姐妹染色單體分離的著絲粒。新序列還揭示了以前未檢測(cè)到的片段重復(fù)(在基因組中重復(fù)的長(zhǎng)段DNA),這些重復(fù)片段可在進(jìn)化和疾病中發(fā)揮重要作用。

具體來(lái)看,CHM13是一種腫瘤衍生細(xì)胞系,其基因組包含兩套相同的染色體。這就避免了二倍體基因組的復(fù)雜性,因?yàn)槎扼w基因組具有來(lái)自父母雙方的不同染色體拷貝。在2020年底,T2T聯(lián)盟的研究人員公布了兩個(gè)染色體的完整組裝,即X染色體和8號(hào)染色體。

研究人員使用牛津納米孔技術(shù),對(duì)兩條染色體的片段進(jìn)行測(cè)序,這兩條染色體的長(zhǎng)度通常超過(guò)7萬(wàn)個(gè)堿基,其中一條讀長(zhǎng)甚至超過(guò)100萬(wàn)個(gè)堿基。雖然很成功,但是對(duì)X染色體和8號(hào)染色體的測(cè)序過(guò)程卻費(fèi)力且艱苦。

除了長(zhǎng)鏈DNA的測(cè)序技術(shù)外,完成和檢查基因組組裝還需要專用的軟件,這套工具由Phillippy和加州大學(xué)圣地亞哥分校計(jì)算生物學(xué)家PavelPevzner等研究人員共同開(kāi)發(fā)。研究人員表示,這是一個(gè)非常謹(jǐn)慎的過(guò)程,只有兩個(gè)長(zhǎng)度超過(guò)7000個(gè)堿基的序列,基本上100%相同,他們才會(huì)把它們粘合在一起,因?yàn)橐坏┠?、在組裝中引入一個(gè)錯(cuò)誤,就很難修復(fù)它。

在這個(gè)過(guò)程中,PacBio儀器支持環(huán)形一致測(cè)序(CCS),在此過(guò)程中單個(gè)DNA鏈被轉(zhuǎn)換成可以反復(fù)讀取的閉環(huán)。通過(guò)比較這些重復(fù)序列,研究員可以消除隨機(jī)錯(cuò)誤,獲取高度準(zhǔn)確的結(jié)果。早期版本的CCS最多容納幾千個(gè)堿基,在基因組組裝中用途有限。但2019年,PacBio改進(jìn)了這一過(guò)程,后續(xù)的高保真技術(shù)如今產(chǎn)生超過(guò)2萬(wàn)個(gè)堿基的一致序列,準(zhǔn)確率超過(guò)99%。

其次,研究人員還利用了作圖技術(shù),比如加州生物科技公司BionanoGenomics開(kāi)發(fā)的一種技術(shù),使得測(cè)量一條染色體上不同DNA序列之間的距離成為可能。當(dāng)然,對(duì)X染色體的初步研究也離不開(kāi)之前對(duì)該染色體著絲粒的了解,此著絲粒的結(jié)構(gòu)已經(jīng)被充分研究。

T2T的方法也使得龐大復(fù)雜的基因測(cè)序工作相對(duì)縮短,而T2T-CHM13的問(wèn)世則為科學(xué)家提供了一種有效的方式,來(lái)訪問(wèn)和可視化與基因組和基因組其他元素相關(guān)的大量信息。如今,有了完整的基因組,科學(xué)家就能進(jìn)一步研究該片段在人類種群中的多樣性以及導(dǎo)致疾病的精細(xì)遺傳點(diǎn)。

這也是本次測(cè)序工作最大的意義所在——通過(guò)長(zhǎng)讀測(cè)序技術(shù)解決復(fù)雜區(qū)域的序列結(jié)構(gòu),為后續(xù)的精準(zhǔn)醫(yī)療和分子診斷提供更為精細(xì)的索引。

基因組學(xué)新時(shí)代

完整基因組序列的公布對(duì)于揭示人類進(jìn)化、生老病死的意義是巨大的。實(shí)際上,4月1日,與完整的的人類基因組序列的論文同時(shí)發(fā)布的,還有5篇相關(guān)論文。其他5篇論文就分別從5個(gè)方面探討了完整基因組在人類遺傳學(xué)上的重要性。

5篇論文中的第一篇主要研究segmental duplication等復(fù)雜區(qū)域;第二篇論文重點(diǎn)介紹了中心粒的結(jié)構(gòu)和其表觀圖譜;第三篇論文討論的是該完整基因組如何提高對(duì)人類遺傳變異多樣性的分析;第四篇論文說(shuō)明了人類基因組重復(fù)序列中的基因表達(dá)和其表觀圖譜;第五篇論文則介紹了該完整基因組的表觀圖譜。

要知道,過(guò)去未被揭示的8%的基因組代表了醫(yī)學(xué)和基因組知識(shí)的巨大差距。差距就在人類染色體的兩個(gè)關(guān)鍵區(qū)域:端粒和著絲粒。

端粒是位于染色體末端的小帽。這個(gè)部分隨著人年齡的增長(zhǎng)而縮短。已經(jīng)有研究表明,端粒比正常水平短的人更容易患老年疾病,而且比端粒長(zhǎng)的人更早死亡,通過(guò)延長(zhǎng)端粒來(lái)減緩衰老速度是一種可能的方法。

著絲粒位于染色體中間部分。這個(gè)區(qū)域在細(xì)胞分裂過(guò)程中扮演了很重要的角色,因?yàn)榈鞍踪|(zhì)就是在這個(gè)狹窄部位附著并分裂 DNA,兩個(gè)新細(xì)胞由此共享攜帶同樣遺傳密碼的DNA——部分癌癥、衰老和不孕癥患者的基因中可以發(fā)現(xiàn)著絲粒出現(xiàn)問(wèn)題或者錯(cuò)誤。

并且,對(duì)于癌癥來(lái)說(shuō),追溯基因突變是了解癌細(xì)胞誕生的重要途徑。畢竟,每種癌癥都有數(shù)千個(gè)突變。如果能夠在人體的乳腺、肺部、神經(jīng)系統(tǒng)等十幾個(gè)組織器官中鑒定不同的突變特征,就能尋找倒不同癌癥類型的患者具有的共性和差異,將常見(jiàn)的突變過(guò)程與人群中發(fā)生頻率較低的罕見(jiàn)突變過(guò)程區(qū)分開(kāi)來(lái)。

而基因組測(cè)序能夠讓科學(xué)家們更近距離地觀察到某些癌癥的發(fā)展可能性,使得探索大多數(shù)癌癥的突變特征成為可能。尤其是憑借全基因組測(cè)序(WGS)方法,可全面探索所有類型的癌癥基因改變。

可以說(shuō) ,完整的基因測(cè)序開(kāi)創(chuàng)了基因組學(xué)的新時(shí)代,隨著人類基因組逐漸被破譯,一張生命之圖將被繪就,人們的生活也將發(fā)巨大變化。人類對(duì)人類本身的了解還將邁上新的臺(tái)階,很多疾病的病因?qū)⒈唤议_(kāi),治療方案就能“對(duì)因下藥”,生活起居、飲食習(xí)慣也有可能根據(jù)基因情況進(jìn)行調(diào)整。

利用基因,人們可以改良果蔬品種,提高農(nóng)作物的品質(zhì),更多的轉(zhuǎn)基因植物和動(dòng)物、食品將問(wèn)世,人類可能在新世紀(jì)里培育出超級(jí)物作。通過(guò)控制人體的生化特性,人類將能夠恢復(fù)或修復(fù)人體細(xì)胞和器官的功能,甚至改變?nèi)祟惖倪M(jìn)化過(guò)程。而這種改變帶來(lái)的顛覆,不比工業(yè)革命或互聯(lián)網(wǎng)的誕生來(lái)得更小。

對(duì)于此,BBC《科技聚焦》雜志說(shuō),在大部分人還沒(méi)有意識(shí)到的時(shí)候,人類已經(jīng)“處于一場(chǎng)深刻的醫(yī)學(xué)和技術(shù)革命的山腳下,這場(chǎng)革命不僅帶來(lái)了新療法和治療方法的前景,還帶來(lái)了關(guān)于倫理、平等和健康正義的巨大問(wèn)題”。

鑒于我們?cè)诋?dāng)前環(huán)境中對(duì)某些基因的功能所知甚少,有專家指出,在進(jìn)行有可能影響千年的基因改造時(shí),必須格外謹(jǐn)慎。畢竟,當(dāng)前,人類暫時(shí)無(wú)法知道一個(gè)基因變異會(huì)對(duì)人類細(xì)胞造成的所有變化,也很難預(yù)見(jiàn)未來(lái)千百年后的環(huán)境下基因編輯對(duì)人類所起的作用。要判斷一個(gè)基因編輯是否合乎倫理,我們首先需要了解這個(gè)編輯的基因會(huì)帶領(lǐng)人類進(jìn)入一個(gè)什么樣的未來(lái)世界。

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請(qǐng)聯(lián)系原著作權(quán)人。

評(píng)論

暫無(wú)評(píng)論哦,快來(lái)評(píng)價(jià)一下吧!

下載界面新聞

微信公眾號(hào)

微博

完整基因組的問(wèn)世,破解了關(guān)于生命的“天書”

人類基因組完整序列的發(fā)布帶來(lái)的顛覆,不比工業(yè)革命或互聯(lián)網(wǎng)的誕生來(lái)得更小。

文|陳根

人類的基因組常被比作是一本書寫生命的“天書”——人類憑借A、T、C、G四種堿基,卻配對(duì)出了高達(dá)60億的可能,堿基的無(wú)窮組合也蘊(yùn)含著人類進(jìn)化、生老病死的奧秘,而DNA則分布在23對(duì)染色體中。2001年,人類啟動(dòng)了解碼人類基因組的計(jì)劃,成為醫(yī)學(xué)和遺傳學(xué)的里程碑。

不過(guò),在當(dāng)時(shí),第一個(gè)參考基因組并不完整——大約8%的DNA序列無(wú)法測(cè)序。主要包括染色體末端和著絲粒(染色體的中心節(jié)點(diǎn))中的遺傳物質(zhì)部分。這些部分中的DNA序列由許多幾乎相同的副本和重復(fù)組成。

終于,20年后,科學(xué)家們補(bǔ)齊了人類基因組圖譜上缺失的部分,2022年4月1日,人類基因組的完整序列首次在Science上重磅發(fā)布,完成了整個(gè)人類基因組的測(cè)序解碼,由此發(fā)現(xiàn)了多種頑癥和生命規(guī)律的根源——基因。現(xiàn)在,立足于人類基因組的完整序列,關(guān)于人類進(jìn)化、生老病死的研究也走向了新的序幕。

長(zhǎng)鏈DNA測(cè)序技術(shù)是關(guān)鍵

人類基因組就是一個(gè)人所有的DNA,含有約31.6億個(gè)DNA堿基對(duì),包括大約2-3萬(wàn)個(gè)基因。這些基因中除了編碼蛋白質(zhì)的兩萬(wàn)多個(gè)基因之外,還包含了數(shù)千個(gè)RNA基因。如果從單個(gè)細(xì)胞中取出并拉伸成鏈,長(zhǎng)度能夠達(dá)到2米。

這些基因分片段組合,通常被分成23對(duì),稱為染色體,其中包括22對(duì)常染色體,1對(duì)性染色體。基因不僅可以通過(guò)復(fù)制把遺傳信息傳遞給下一代,還可以使遺傳信息得到表達(dá)。不同人種之間頭發(fā)、膚色、眼睛、鼻子等不同,都是基因之間的差異導(dǎo)致的。

每個(gè)物種都有自己的基因組,負(fù)責(zé)指示細(xì)胞什么時(shí)候、通過(guò)什么方式構(gòu)建這個(gè)物種的個(gè)體生命藍(lán)圖。對(duì)于人類來(lái)說(shuō),完整的基因組圖譜將有助于更好理解人作為一個(gè)有機(jī)體是如何形成的,一個(gè)有機(jī)體和其他人、其他物種之間又有哪些不同,為什么會(huì)有這些不同。

2003年,人類基因組計(jì)劃基本完成,不過(guò),受到當(dāng)時(shí)技術(shù)的限制,最后得出的圖譜并不算完美——“人類基因組計(jì)劃”的科學(xué)家們從染色體DNA中獲得了大量的短序列,這些短序列與相鄰區(qū)域重疊,構(gòu)成更大的連續(xù)序列——重疊群。

理想情況下,每條染色體將呈現(xiàn)單個(gè)重疊群,但首次草圖卻包含了1246個(gè)這樣的片段。重復(fù)的片段包括著絲粒和核糖體DNA等,無(wú)法按照正確的順序組裝一些被切碎的片段。這就像擁有相同的拼圖碎片一樣,科學(xué)家們不知道哪塊碎片在哪里,因此基因組圖中留下了很大的空白。對(duì)于此,科學(xué)家們只能持續(xù)地完善組裝,手動(dòng)檢查,并使用測(cè)序分析來(lái)識(shí)別有錯(cuò)誤和信息缺口的片段。

人類基因組圖譜的最新版本于2013年發(fā)布,被稱為GRCh38。從那時(shí)起,它就被反復(fù)修補(bǔ)。然而,一直以來(lái),它仍然缺少5%-10%的基因組,包括所有的著絲粒和其他困難區(qū)域,如編碼核糖體RNA序列的大量基因。這些缺失的基因組藏于大量重復(fù)基因拷貝的長(zhǎng)序列中。

以著絲粒為例,攜帶基因的兩條染色體臂通過(guò)著絲粒相連。著絲粒由數(shù)千個(gè)幾乎一樣的α衛(wèi)星序列組成——171bp的α衛(wèi)星重復(fù)單位需要被正確排布以確保染色體穩(wěn)定和細(xì)胞分裂。然而,在人類基因組草圖發(fā)布20年后,著絲粒和其他有難度的DNA序列仍然是染色體圖譜中難以填補(bǔ)的缺口。

這些難題持續(xù)阻礙著基因組的組裝——如果測(cè)序技術(shù)沒(méi)有發(fā)生顛覆性改變,人類基因組測(cè)序?qū)⒃诤荛L(zhǎng)時(shí)間內(nèi)停滯不前。

好在不間斷讀取長(zhǎng)鏈DNA的測(cè)序技術(shù)終于問(wèn)世。其中,一種技術(shù)是加州生物技術(shù)公司太平洋生物科學(xué)使用的成像系統(tǒng)來(lái)直接讀取數(shù)十萬(wàn)甚至數(shù)百萬(wàn)條平行DNA鏈,每條鏈包含數(shù)千個(gè)堿基。另一種技術(shù)則是英國(guó)公司的牛津納米孔技術(shù),它將DNA鏈穿過(guò)微小的蛋白孔或納米孔,測(cè)量核苷酸穿過(guò)孔道時(shí)電流的細(xì)微變化,進(jìn)而讀取數(shù)萬(wàn)至數(shù)十萬(wàn)個(gè)堿基。

在長(zhǎng)鏈DNA的測(cè)序技術(shù)下,跨越20年的人類基因組謎題終于大白。

從填補(bǔ)缺口到完整發(fā)布

2022年4月1日,第一個(gè)完整的、無(wú)間隙的人類基因組序列發(fā)布,徹底填補(bǔ)了多年前的測(cè)序空白。人類基因組完整測(cè)序離不開(kāi)T2T聯(lián)盟的努力。T2T聯(lián)盟成立于2019年初,旨在為每個(gè)人類染色體提供高質(zhì)量的從端粒到端粒的組裝。

該研究針對(duì)剩余8%的基因組,提供了人類基因組的完整30.55億堿基對(duì)序列T2T-CHM13,包括了除Y之外的所有染色體的無(wú)間隙裝配,糾正了之前的參考序列,并介紹了近2億個(gè)堿基對(duì)序列,包含1956個(gè)基因預(yù)測(cè),其中,99個(gè)預(yù)測(cè)為蛋白質(zhì)編碼。完成的區(qū)域包括所有著絲粒衛(wèi)星陣列、最近的節(jié)段重復(fù)和所有五個(gè)近端著絲粒染色體的短臂。

與過(guò)去20年的任何基因組參考版本相比,T2T-CHM13組裝增加了五個(gè)完整的染色體臂和更多的額外序列,覆蓋了基因組中一些最復(fù)雜的區(qū)域。比如染色體末端的端粒和在細(xì)胞分裂過(guò)程中協(xié)調(diào)同源染色體或姐妹染色單體分離的著絲粒。新序列還揭示了以前未檢測(cè)到的片段重復(fù)(在基因組中重復(fù)的長(zhǎng)段DNA),這些重復(fù)片段可在進(jìn)化和疾病中發(fā)揮重要作用。

具體來(lái)看,CHM13是一種腫瘤衍生細(xì)胞系,其基因組包含兩套相同的染色體。這就避免了二倍體基因組的復(fù)雜性,因?yàn)槎扼w基因組具有來(lái)自父母雙方的不同染色體拷貝。在2020年底,T2T聯(lián)盟的研究人員公布了兩個(gè)染色體的完整組裝,即X染色體和8號(hào)染色體。

研究人員使用牛津納米孔技術(shù),對(duì)兩條染色體的片段進(jìn)行測(cè)序,這兩條染色體的長(zhǎng)度通常超過(guò)7萬(wàn)個(gè)堿基,其中一條讀長(zhǎng)甚至超過(guò)100萬(wàn)個(gè)堿基。雖然很成功,但是對(duì)X染色體和8號(hào)染色體的測(cè)序過(guò)程卻費(fèi)力且艱苦。

除了長(zhǎng)鏈DNA的測(cè)序技術(shù)外,完成和檢查基因組組裝還需要專用的軟件,這套工具由Phillippy和加州大學(xué)圣地亞哥分校計(jì)算生物學(xué)家PavelPevzner等研究人員共同開(kāi)發(fā)。研究人員表示,這是一個(gè)非常謹(jǐn)慎的過(guò)程,只有兩個(gè)長(zhǎng)度超過(guò)7000個(gè)堿基的序列,基本上100%相同,他們才會(huì)把它們粘合在一起,因?yàn)橐坏┠?、在組裝中引入一個(gè)錯(cuò)誤,就很難修復(fù)它。

在這個(gè)過(guò)程中,PacBio儀器支持環(huán)形一致測(cè)序(CCS),在此過(guò)程中單個(gè)DNA鏈被轉(zhuǎn)換成可以反復(fù)讀取的閉環(huán)。通過(guò)比較這些重復(fù)序列,研究員可以消除隨機(jī)錯(cuò)誤,獲取高度準(zhǔn)確的結(jié)果。早期版本的CCS最多容納幾千個(gè)堿基,在基因組組裝中用途有限。但2019年,PacBio改進(jìn)了這一過(guò)程,后續(xù)的高保真技術(shù)如今產(chǎn)生超過(guò)2萬(wàn)個(gè)堿基的一致序列,準(zhǔn)確率超過(guò)99%。

其次,研究人員還利用了作圖技術(shù),比如加州生物科技公司BionanoGenomics開(kāi)發(fā)的一種技術(shù),使得測(cè)量一條染色體上不同DNA序列之間的距離成為可能。當(dāng)然,對(duì)X染色體的初步研究也離不開(kāi)之前對(duì)該染色體著絲粒的了解,此著絲粒的結(jié)構(gòu)已經(jīng)被充分研究。

T2T的方法也使得龐大復(fù)雜的基因測(cè)序工作相對(duì)縮短,而T2T-CHM13的問(wèn)世則為科學(xué)家提供了一種有效的方式,來(lái)訪問(wèn)和可視化與基因組和基因組其他元素相關(guān)的大量信息。如今,有了完整的基因組,科學(xué)家就能進(jìn)一步研究該片段在人類種群中的多樣性以及導(dǎo)致疾病的精細(xì)遺傳點(diǎn)。

這也是本次測(cè)序工作最大的意義所在——通過(guò)長(zhǎng)讀測(cè)序技術(shù)解決復(fù)雜區(qū)域的序列結(jié)構(gòu),為后續(xù)的精準(zhǔn)醫(yī)療和分子診斷提供更為精細(xì)的索引。

基因組學(xué)新時(shí)代

完整基因組序列的公布對(duì)于揭示人類進(jìn)化、生老病死的意義是巨大的。實(shí)際上,4月1日,與完整的的人類基因組序列的論文同時(shí)發(fā)布的,還有5篇相關(guān)論文。其他5篇論文就分別從5個(gè)方面探討了完整基因組在人類遺傳學(xué)上的重要性。

5篇論文中的第一篇主要研究segmental duplication等復(fù)雜區(qū)域;第二篇論文重點(diǎn)介紹了中心粒的結(jié)構(gòu)和其表觀圖譜;第三篇論文討論的是該完整基因組如何提高對(duì)人類遺傳變異多樣性的分析;第四篇論文說(shuō)明了人類基因組重復(fù)序列中的基因表達(dá)和其表觀圖譜;第五篇論文則介紹了該完整基因組的表觀圖譜。

要知道,過(guò)去未被揭示的8%的基因組代表了醫(yī)學(xué)和基因組知識(shí)的巨大差距。差距就在人類染色體的兩個(gè)關(guān)鍵區(qū)域:端粒和著絲粒。

端粒是位于染色體末端的小帽。這個(gè)部分隨著人年齡的增長(zhǎng)而縮短。已經(jīng)有研究表明,端粒比正常水平短的人更容易患老年疾病,而且比端粒長(zhǎng)的人更早死亡,通過(guò)延長(zhǎng)端粒來(lái)減緩衰老速度是一種可能的方法。

著絲粒位于染色體中間部分。這個(gè)區(qū)域在細(xì)胞分裂過(guò)程中扮演了很重要的角色,因?yàn)榈鞍踪|(zhì)就是在這個(gè)狹窄部位附著并分裂 DNA,兩個(gè)新細(xì)胞由此共享攜帶同樣遺傳密碼的DNA——部分癌癥、衰老和不孕癥患者的基因中可以發(fā)現(xiàn)著絲粒出現(xiàn)問(wèn)題或者錯(cuò)誤。

并且,對(duì)于癌癥來(lái)說(shuō),追溯基因突變是了解癌細(xì)胞誕生的重要途徑。畢竟,每種癌癥都有數(shù)千個(gè)突變。如果能夠在人體的乳腺、肺部、神經(jīng)系統(tǒng)等十幾個(gè)組織器官中鑒定不同的突變特征,就能尋找倒不同癌癥類型的患者具有的共性和差異,將常見(jiàn)的突變過(guò)程與人群中發(fā)生頻率較低的罕見(jiàn)突變過(guò)程區(qū)分開(kāi)來(lái)。

而基因組測(cè)序能夠讓科學(xué)家們更近距離地觀察到某些癌癥的發(fā)展可能性,使得探索大多數(shù)癌癥的突變特征成為可能。尤其是憑借全基因組測(cè)序(WGS)方法,可全面探索所有類型的癌癥基因改變。

可以說(shuō) ,完整的基因測(cè)序開(kāi)創(chuàng)了基因組學(xué)的新時(shí)代,隨著人類基因組逐漸被破譯,一張生命之圖將被繪就,人們的生活也將發(fā)巨大變化。人類對(duì)人類本身的了解還將邁上新的臺(tái)階,很多疾病的病因?qū)⒈唤议_(kāi),治療方案就能“對(duì)因下藥”,生活起居、飲食習(xí)慣也有可能根據(jù)基因情況進(jìn)行調(diào)整。

利用基因,人們可以改良果蔬品種,提高農(nóng)作物的品質(zhì),更多的轉(zhuǎn)基因植物和動(dòng)物、食品將問(wèn)世,人類可能在新世紀(jì)里培育出超級(jí)物作。通過(guò)控制人體的生化特性,人類將能夠恢復(fù)或修復(fù)人體細(xì)胞和器官的功能,甚至改變?nèi)祟惖倪M(jìn)化過(guò)程。而這種改變帶來(lái)的顛覆,不比工業(yè)革命或互聯(lián)網(wǎng)的誕生來(lái)得更小。

對(duì)于此,BBC《科技聚焦》雜志說(shuō),在大部分人還沒(méi)有意識(shí)到的時(shí)候,人類已經(jīng)“處于一場(chǎng)深刻的醫(yī)學(xué)和技術(shù)革命的山腳下,這場(chǎng)革命不僅帶來(lái)了新療法和治療方法的前景,還帶來(lái)了關(guān)于倫理、平等和健康正義的巨大問(wèn)題”。

鑒于我們?cè)诋?dāng)前環(huán)境中對(duì)某些基因的功能所知甚少,有專家指出,在進(jìn)行有可能影響千年的基因改造時(shí),必須格外謹(jǐn)慎。畢竟,當(dāng)前,人類暫時(shí)無(wú)法知道一個(gè)基因變異會(huì)對(duì)人類細(xì)胞造成的所有變化,也很難預(yù)見(jiàn)未來(lái)千百年后的環(huán)境下基因編輯對(duì)人類所起的作用。要判斷一個(gè)基因編輯是否合乎倫理,我們首先需要了解這個(gè)編輯的基因會(huì)帶領(lǐng)人類進(jìn)入一個(gè)什么樣的未來(lái)世界。

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請(qǐng)聯(lián)系原著作權(quán)人。