人類基因體草圖於 2001 年公開 [1],並於三年後進一步修正,完成真染色質區 [2],此後約二十年間經歷了數次校正與增補。參考基因體聯盟(Genome Reference Consortium,GRC)主要利用細菌人工染色體(bacterial artificial chromosomes,BACs)進行組裝(assembly),透過輻射雜交作圖radiation hybrid mapping)、基因聯鎖、與指紋輿圖(fingerprint map)等方法,將 BACs 依順序與位向排列,構建出完整的基因體序列圖譜(圖一)。然而,此方法面臨的最大困境在於難以解析重複序列區域,且 BAC 基因庫片段來自不同個體,需要拼湊諸多單倍型(haplotype),致使許多序列間的間隙(gap)因基因多型性的緣故,序列無法相容而難以解碼。
儘管目前的參考基因體版本 GRCh38 已修彌了諸多先前基因體組裝的空缺與錯漏之處 [3],然而受限於定序技術與序列組裝方法,在最新的修補版本中(GRCh38.p13,註一)仍有 8% 的基因體序列未知,約有 1.5 億個未被解碼的鹼基對散落於人類基因體各處,這些空缺包含鄰近中節與端粒的序列、區段重複序列(segmental duplications,SDs,又譯區段複製)、擴增基因陣列(ampliconic gene array)、與 rDNA 陣列(ribosomal DNA array)。較大範圍的間斷則涵蓋棒狀染色體(acrocentric chromosomes,包含第 13、14、15、21、22 號染色體,又譯近端絲點染色體)的短臂、與人類衛星重複序列陣列(human satellite repeat array, HSat repeat array)等。
今年四月,T2T 聯盟(Telomere-to-Telomere Consortium)於 Science 發表完整的人類基因體序列。有別於過往短讀取片段定序,團隊運用長讀取霰彈槍定序技術(long-read shotgun sequencing)拼組了三十億鹼基對,修補 GRCh38 基因體組裝版本中的缺誤與間隙之處,也揭曉先前未知的序列(圖二)。
團隊主要運用 Oxford Nanopore ultralong-read sequencing(ONT)與 PacBio circular consensus sequencing(HiFi),前者讀取片段可長達十萬個鹼基對,便於讀取與組裝極長的序列,然而錯誤率相對高,定序重複片段將是一大挑戰;後者錯誤率有 0.1%,但讀取片段長度僅約兩萬個鹼基對。兩者截長補短,取用 ONT 組裝大範圍基因片段,並以 HiFi 辨識複雜基因體區域的序列,共同建構序列骨架,定序 CHM13hTERT 細胞株(CHM13)的基因體。CHM13 來自人類完全葡萄胎(complete hyatidiform mole,CHM),染色體由父系的單套染色體複製而得,核型(karyotype)為 46, XX,幾乎是完全的同型合子,降低序列的複雜度。這項基因體組裝的策略不僅克服先前利用 BAC 基因庫組裝的限制,也化解了來自不同個體的單倍型嵌合造成序列不相容的難題。
CHM13 基因體的序列組裝是利用 HiFi 讀取數據所建構出的高解析度序列組裝線狀圖(assembly string graph)(圖三):圖中的節點代表組裝明確無疑義的序列,邊緣則代表序列片段間因重複或相鄰而重疊的區域。讀取序列後會經過壓縮、比對、校正、並遮蔽重複序列,再以確切重疊的序列描繪出線狀圖。絕大部分的染色體都能清楚地區分開來,且呈線狀結構。想像基因體是一段絲線,遇到重複片段時,絲線會將其整併為單一節點,重新組裝序列的過程中,經過這些節點的路徑便顯得迴環複沓(註二),繪製線狀圖時也因而出現特殊的結構:第九號染色體上的 HSat 重複片段形成環形構造;五條棒狀染色體因序列重複性匯成群組,其短臂上的 rDNA 大型串聯重複片段則形成密集的綑結。這些未能釐清的序列,後續仰賴 ONT 技術遍歷(traverse)線狀圖上的結構,整合讀取數據結果,進行驗證除錯。
團隊整合了所有可取得的初步定序資料,鑑測基因體中的序變異手勘誤,組裝為 CHM13v1.0 版本的基因體,進一步經過端粒周邊區域序列修訂與 rDNA 陣列的增補,才完成了 T2T-CHM13v1.1,涵蓋了 22 條體染色體與 X 染色體不間斷的完整序列,定序 30 鹼基對的細胞核 DNA 與約 1.6 萬鹼基對的粒線體基因體(圖四)。這一個完整的基因體針對目前基因體組裝版本增補並校正約兩億個鹼基對的序列,包含中節衛星序列(76%)、非衛星區段重複(19%)、與 rDNAs(4%),其中更有 1.8 億個鹼基對是此次研究的新發現。經過註解(annotation)後,預測出約 2000 個新的基因,其中有 99 個為蛋白編譯序列。經估計,目前 T2T-CHM13 每千萬個鹼基對中約只有一個錯誤,可能有疑慮的序列僅佔基因體的 0.3%,相較於 GRCh38 的 8%,整體而言準確度大幅提升(表一)。
T2T-CHM13 基因體以高準確度的長讀取定序技術,破除原先基因體組裝技術的藩籬,揭曉了 GRCh38 中因序列複雜度或重複性而難以定序的 8%,並發掘了約兩億鹼基對的新序列。然而 CHM13 缺乏 Y 染色體,故團隊後續援用 NIST HG002 的基因體樣本進行定序,並預計於近期發表預印本(T2T-CHM13v2.0,註三)。
此外,團隊重新定序如千人基因體計畫(1000 Genomes Project,1KGP)、西蒙斯基因體多樣性計畫(Simons Genome Diversity Project,SGDP)等大型人類基因體計畫,發現運用 T2T-CHM13 在單一 1KGP 樣本中可避免數以千計的虛假變異辨認結果(variant calls);在 SGDP 樣本中,在區段重複的基因區域中,則具有較好的基因拷貝數(copy number)預測能力,初步展現其於解析基因體變異上的優勢。然而 T2T-CHM13 目前仍未能完全解析人類因體的多樣性與繁複,因此下來 T2T 聯盟將與人類泛基因體參考計畫(Human Pangenome Reference Consortium,HPRC)共同定序來自不同族裔的人類基因體 [4],深入探究基因體變異的多樣性,期望對未來的生物功能性研究及精準醫學的實際應用有所助益(圖五)。
註一:GRCh38.p13 為此篇研究發表時最新版,現今最新的修補版本則為 GRCh38.p14。
註二、想像基體是一條絲線,黑灰白三色頭代表著種重複序列片段。若能辨認出這三種基本因子(三種不同的重複序列片段)的差異,便可以透過數據分析了解絲線中這三種因子個別的數量。根據其出現的次數與類別,進一步重建這段絲線的原始結構,其中的一條尤拉路徑(Eulerian tour,一條經過圖中所有的邊皆恰好一次的路徑)便會是這段絲線原來的樣貌,由此進行序列組裝,推知原始的基因體序列 [5]。
註三、目前已可於 UCSC Genome Browser 瀏覽 T2T-CHM13v2.0 。Y 染色體序列已於 2022 年 12 月發行預印本。
Investigator 選文|Completing the human genome | Collections | AAAS
延伸閱讀|Investigator:Third generation sequencing 選文
延伸閱讀|Investigator:Sequencing technologies 選文
延伸閱讀|Investigator:Medical genetics 選文
延伸閱讀|Investigator 生物資訊學專題:上篇、下篇
Main Article:
Nurk, S., Koren, S., Rhie, A., Rautiainen, M., Bzikadze, A. V., Mikheenko, A., Vollger, M. R., Altemose, N., Uralsky, L., Gershman, A., Aganezov, S., Hoyt, S. J., Diekhans, M., Logsdon, G. A., Alonge, M., Antonarakis, S. E., Borchers, M., Bouffard, G. G., Brooks, S. Y., Caldas, G. V., … Phillippy, A. M. (2022). The complete sequence of a human genome. Science (New York, N.Y.), 376(6588), 44–53. https://doi.org/10.1126/science.abj6987
參考文獻:
[1] Lander, E. S., Linton, L. M., Birren, B., Nusbaum, C., Zody, M. C., Baldwin, J., Devon, K., Dewar, K., Doyle, M., FitzHugh, W., Funke, R., Gage, D., Harris, K., Heaford, A., Howland, J., Kann, L., Lehoczky, J., LeVine, R., McEwan, P., McKernan, K., … International Human Genome Sequencing Consortium (2001). Initial sequencing and analysis of the human genome. Nature, 409(6822), 860–921. https://doi.org/10.1038/35057062
[2] International Human Genome Sequencing Consortium (2004). Finishing the euchromatic sequence of the human genome. Nature, 431(7011), 931–945. https://doi.org/10.1038/nature03001
[3] Schneider, V. A., Graves-Lindsay, T., Howe, K., Bouk, N., Chen, H., Kitts, P. A., Murphy, T. D., Pruitt, K. D., Thibaud-Nissen, F., Albracht, D., Fulton, R. S., Kremitzki, M., Magrini, V., Markovic, C., McGrath, S., Steinberg, K. M., Auger, K., Chow, W., Collins, J., … Church, D. M. (2016). Evaluation of GRCh38 and de Novo haploid genome assemblies demonstrates the enduring quality of the reference assembly. https://doi.org/10.1101/072116
[4] Wang, T., Antonacci-Fulton, L., Howe, K., Lawson, H. A., Lucas, J. K., Phillippy, A. M., Popejoy, A. B., Asri, M., Carson, C., Chaisson, M. J., Chang, X., Cook-Deegan, R., Felsenfeld, A. L., Fulton, R. S., Garrison, E. P., Garrison, N. A., Graves-Lindsay, T. A., Ji, H., & Kenny, E. E. (2022). The human Pangenome project: A global resource to map genomic diversity. Nature, 604(7906), 437-446. https://doi.org/10.1038/s41586-022-04601-8
[5] Myers E. W. (2005). The fragment assembly string graph. Bioinformatics (Oxford, England), 21 Suppl 2, ii79–ii85. https://doi.org/10.1093/bioinformatics/bti1114
撰文|陳品萱
審稿|王振宇