文|觀察未來科技
人類的基因組是一本書寫生命的“天書”。每個(gè)物種都有自己的基因組,負(fù)責(zé)指示細(xì)胞什么時(shí)候、通過什么方式構(gòu)建這個(gè)物種的個(gè)體生命藍(lán)圖。
對于人類來說,完整的基因組圖譜將有助于更好理解人作為一個(gè)有機(jī)體是如何形成的,一個(gè)有機(jī)體和其他人、其他物種之間又有哪些不同,為什么會有這些不同。近日,隨著兩篇最新研究論文在頂尖學(xué)術(shù)期刊《自然》正式上線,人類Y染色體的完整序列終于展現(xiàn)在世人面前。
值得一提的是,Y染色體是人類的性別決定染色體之一,也是人類46條染色體中最后一條完全解碼的染色體。那么,人類Y染色體完整序列的解碼,給我們帶來了什么信息?基于人類基因組的完整序列,對我們來說,又意味著什么?
被遺漏的Y染色體
人類對于自身基因組的解碼從21世紀(jì)初就已經(jīng)開始。2001年,人類啟動(dòng)了解碼人類基因組的計(jì)劃,成為醫(yī)學(xué)和遺傳學(xué)的里程碑。兩年后,2003年,人類基因組計(jì)劃基本完成。自此之后,我們邁入了基因組學(xué)的時(shí)代。
不過,當(dāng)時(shí),受到技術(shù)的限制,最后得出的基因組圖譜并不算完美。在“人類基因組計(jì)劃”中,科學(xué)家們采用了一種稱為“Shotgun測序”的方法來獲得基因組片段的序列信息。這個(gè)方法類似于將整個(gè)基因組隨機(jī)地切成許多小片段,然后對這些片段進(jìn)行測序,最后再通過計(jì)算機(jī)算法將它們拼接起來。
但眾所周知,人類的基因組非常龐大,這種方法在切割和測序的過程中會導(dǎo)致許多重復(fù)的片段,特別是在重復(fù)序列豐富的區(qū)域,比如著絲粒和核糖體DNA。這些重復(fù)片段的存在使得科學(xué)家們很難確定這些片段的準(zhǔn)確順序和位置。就像在一副拼圖中,有許多相同的拼圖碎片,無法確定它們的正確位置。
在初次草圖中,基因組被分割成了大約1246個(gè)重疊群,這意味著這么多的基因組片段無法在組裝時(shí)被正確地連接在一起。
由于科學(xué)家們難以區(qū)分相似的片段,也無法確定它們之間的精確關(guān)系,因此在基因組圖譜上留下了許多未知的區(qū)域。對此,科學(xué)家們只能使用一些額外的信息和技術(shù)來進(jìn)行驗(yàn)證和修復(fù)。比如使用其他測序方法來填補(bǔ)信息缺失的片段,或者依靠已知的基因和序列信息來指導(dǎo)組裝過程。這也是過去20多年里,科學(xué)家不懈努力的重點(diǎn)之一。
事實(shí)上,想要“從頭到尾”地對基因組進(jìn)行測序本身就是件非常具有挑戰(zhàn)的任務(wù),因?yàn)榛蚪M中存在大量重復(fù)序列。人類所擁有的約2萬個(gè)基因,只占了整個(gè)基因組的2%,剩下的98%基本上都是由這些重復(fù)序列家族組成的。
2022年3月末,《科學(xué)》雜志上刊登了6篇論文,介紹了由一個(gè)名為“端粒到端粒(T2T)聯(lián)盟”的科學(xué)家團(tuán)隊(duì)通過使用新的測序技術(shù),破解了人類基因組中此前無法破譯的區(qū)域,產(chǎn)生了當(dāng)時(shí)最完整的參考基因組。
2022年解碼的基因組不僅糾正了之前的參考序列,還增加了五個(gè)完整的染色體臂和更多的額外序列,覆蓋了基因組中一些最復(fù)雜的區(qū)域。比如染色體末端的端粒和在細(xì)胞分裂過程中協(xié)調(diào)同源染色體或姐妹染色單體分離的著絲粒。新序列還揭示了以前未檢測到的片段重復(fù)(在基因組中重復(fù)的長段DNA),這些重復(fù)片段可在進(jìn)化和疾病中發(fā)揮重要作用。
在這項(xiàng)成果中,科學(xué)家們成功地在人類基因組中增加了大約2億個(gè)堿基,解碼了從1號到22號染色體上的大部分空缺,而唯一被遺漏的,是人類所有染色體中最小的一條——Y染色體。
揭開人類基因組的最后謎團(tuán)
2022年之后,Y染色體就成為了人類基因組的最后謎團(tuán)。
Y染色體之所以會成為人類基因組的最后謎團(tuán),與其重復(fù)結(jié)構(gòu)的異常復(fù)雜有關(guān)。Y染色體作為人類基因組中的一個(gè)特殊染色體,僅在男性中存在,負(fù)責(zé)決定男性的生殖特征。然而,Y染色體與其他染色體不同,它的重復(fù)序列異常復(fù)雜。
所有染色體都有一些重復(fù)序列,但在Y染色體中,重復(fù)序列所占的篇幅特別大,將近一半——約3000萬個(gè)堿基是重復(fù)序列,因此要把測序讀取到的片段重新拼裝起來就特別困難。就像拼純色圖案的拼圖一樣,由于Y染色體的重復(fù)結(jié)構(gòu),將測序讀取的碎片重新拼裝起來變得非常復(fù)雜。
這種復(fù)雜的重復(fù)結(jié)構(gòu)使得科學(xué)家們在解碼Y染色體時(shí)面臨巨大的挑戰(zhàn)。為了解決這一難題,T2T聯(lián)盟領(lǐng)導(dǎo)的這項(xiàng)新研究應(yīng)用了前沿的長讀取測序技術(shù)和新型的計(jì)算組裝方法,借鑒此前無縫組裝人類其他染色體時(shí)的成功經(jīng)驗(yàn),首次完成了Y染色體的測序和組裝。其結(jié)果填補(bǔ)了Y染色體長度50%以上的空白,同時(shí)糾正了原先人類參考基因組序列中Y染色體上的多個(gè)錯(cuò)誤。
根據(jù)此次獲得的完整序列(T2T-Y),人類的Y染色體由62,460,029對堿基組成??茖W(xué)家們從中新鑒定出了41個(gè)過去未知的蛋白編碼基因,也揭示了影響生育的重要基因組特征。
例如,Y染色體有一段被稱為“無精子癥因子區(qū)”,包含了與精子生成有關(guān)的幾個(gè)基因。而這段DNA中有一組回文序列。這種回文結(jié)構(gòu)會形成環(huán)狀結(jié)構(gòu)(DNA loop),有時(shí)DNA環(huán)被意外切斷,造成缺失。而“無精子癥因子區(qū)”的DNA缺失會破壞精子生成,導(dǎo)致不育。研究人員指出,有了完整的Y染色體序列,現(xiàn)在就可以更精確地分析這類缺失及其對精子生成的影響。
此次研究還重點(diǎn)關(guān)注了TSPY(testis-specific protein Y)基因家族,即睪丸特異性蛋白編碼基因,新發(fā)現(xiàn)的41個(gè)基因中有38個(gè)屬于這一家族。它們的一大特征是串聯(lián)重復(fù)拷貝非常多。研究人員在分析這一區(qū)域時(shí)發(fā)現(xiàn),不同的個(gè)體含有的TSPY拷貝10~40個(gè)不等。
與此同時(shí),由杰克遜實(shí)驗(yàn)室(JAX)教授和Robert Alvine家族捐贈(zèng)主席Charles Lee博士領(lǐng)導(dǎo)的團(tuán)隊(duì)FACMG也在《自然》雜志上發(fā)表了完成43個(gè)不相關(guān)男性的Y染色體組裝的報(bào)告,其中近一半來自非洲血統(tǒng)。研究團(tuán)隊(duì)一共組裝了43條來自不同男性個(gè)體的Y染色體,他們來自全球21個(gè)不同種群。這些組合提供了人類Y染色體在18.3萬年間遺傳變異的詳細(xì)視圖,揭示了新的DNA序列、保守區(qū)域的特征,并揭示了造成Y染色體復(fù)雜結(jié)構(gòu)的分子機(jī)制。結(jié)果發(fā)現(xiàn),Y染色體不僅結(jié)構(gòu)復(fù)雜,還是人類染色體中變化速度最快的染色體。
可以看到,完整的人類Y染色體序列正在為許多新發(fā)現(xiàn)打開大門。一直以來,人們都不甚了解Y染色體對男性健康的影響。而基于Y染色體的完整序列,后續(xù)將有更多研究可以圍繞影響健康的臨床相關(guān)基因深入探索。
揭示生命的密碼
完整基因組序列的揭示對于揭示人類進(jìn)化、生老病死的意義是巨大的。其關(guān)鍵在于兩個(gè)部分:端粒和著絲粒。
其中,端粒是位于染色體末端的小帽。這個(gè)部分隨著人年齡的增長而縮短。已經(jīng)有研究表明,端粒比正常水平短的人更容易患老年疾病,而且比端粒長的人更早死亡,通過延長端粒來減緩衰老速度是一種可能的方法。
著絲粒位于染色體中間部分。這個(gè)區(qū)域在細(xì)胞分裂過程中扮演了很重要的角色,因?yàn)榈鞍踪|(zhì)就是在這個(gè)狹窄部位附著并分裂 DNA,兩個(gè)新細(xì)胞由此共享攜帶同樣遺傳密碼的DNA——部分癌癥、衰老和不孕癥患者的基因中可以發(fā)現(xiàn)著絲粒出現(xiàn)問題或者錯(cuò)誤。
并且,對于癌癥來說,追溯基因突變是了解癌細(xì)胞誕生的重要途徑。畢竟,每種癌癥都有數(shù)千個(gè)突變。如果能夠在人體的乳腺、肺部、神經(jīng)系統(tǒng)等十幾個(gè)組織器官中鑒定不同的突變特征,就能尋找倒不同癌癥類型的患者具有的共性和差異,將常見的突變過程與人群中發(fā)生頻率較低的罕見突變過程區(qū)分開來。
而基因組測序能夠讓科學(xué)家們更近距離地觀察到某些癌癥的發(fā)展可能性,使得探索大多數(shù)癌癥的突變特征成為可能。尤其是憑借全基因組測序(WGS)方法,可全面探索所有類型的癌癥基因改變。
此次人類Y染色體的完整序列的揭示更是讓我們對Y染色體有了更多的了解,大大增加了我們對人類DNA的認(rèn)識,解決了我們尚未發(fā)現(xiàn)的關(guān)于我們基因組中最小的但又最復(fù)雜的染色體的問題。這項(xiàng)研究的完成意味著科學(xué)家們可以更詳細(xì)地研究這些基因的功能和相互作用。這有助于解開一系列關(guān)于性別差異、男性生育力以及一些性別相關(guān)疾病如何產(chǎn)生的謎團(tuán)。
此外,Y染色體也扮演著人類進(jìn)化歷史中的一部分。通過研究Y染色體的變異和演化,科學(xué)家們能夠更好地理解人類族群的歷史,包括遷徙和人類群體之間的關(guān)系。究其原因,Y染色體的特殊之處在于它在每一代中只由父親傳給兒子,不同于其他染色體在父母間的隨機(jī)遺傳。這使得Y染色體上的基因變異能夠被相對穩(wěn)定地追蹤,成為一種有力的工具來研究人類族群的歷史。通過比較不同地理區(qū)域和族群的Y染色體序列,科學(xué)家們可以重建人類的遷徙路徑和演化關(guān)系。
比如,研究表明,不同地區(qū)的男性Y染色體具有特定的遺傳標(biāo)記,這些標(biāo)記可以追溯到人類古代的遷徙和定居歷史。通過分析這些遺傳標(biāo)記的分布,科學(xué)家們可以推斷出人類祖先從哪里起源,是如何分布到不同地區(qū),甚至可以追蹤古代遷徙路線。這些研究揭示了我們的祖先是如何適應(yīng)不同環(huán)境、逐步占領(lǐng)地理區(qū)域,并最終形成多樣的人類族群的。
可以說 ,包括Y染色體在內(nèi)的完整的基因測序開創(chuàng)了基因組學(xué)的新時(shí)代,隨著人類基因組逐漸被破譯,一張生命之圖將被繪就,人們的生活也將發(fā)巨大變化。人類對人類本身的了解還將邁上新的臺階,很多疾病的病因?qū)⒈唤议_,治療方案就能“對因下藥”,生活起居、飲食習(xí)慣也有可能根據(jù)基因情況進(jìn)行調(diào)整。