基因與基因體學 生物技術 生物資訊學 科學報導

#NEWS 人類泛基因體草圖

* 本文特別感謝原文共同第一作者廖玟崴協助審稿

“My life amounts to no more than one drop in a limitless ocean. Yet what is any ocean, but a multitude of drops?”
– David Mitchell, Cloud Atlas

自人類基因體草圖於 2001 年問世以來 [1],及去 Telomere-to-Telomere Consortium 利用長讀取定序,解碼並補完先前未知或缺誤的序列 [2],隨著定序技術革新與大型基因體計畫興起,參考基因體版本經歷多次的增補與校正,漸次趨近人類基因體的真實樣貌,亦裨益基因變異與遺傳疾病的相關研究。

人類的基因體中有許多遺傳變異和特定基因位點的多型性(polymorphism),這些共同構成了基因序列的複雜性,同時也會影響族群或個體對環境的適應能力和患病風險。然而,目前使用的參考基因組版本主要是從少數特定遺傳背景的個體中得到的基因序列,這雖然建立了人類基因體的基礎,但無法涵蓋不同族群之間的基因變異和多樣性;特別是在結構複雜或變異度高的區域,可能會導致解讀上的偏誤。

人類泛基因體參考聯盟 (Human Pangenome Reference Consortium,HPRC) 則使用來自不同族裔個體的全基因體定序資料,以研究基因體變異的多樣性。有別於現有線性的參考基因體序列,人類泛基因體以圖譜方式呈現序列,以分支與不同路徑標示出基因體序列中的差異,在發生遺傳變異處,圖上的序列則會以上下彎折的不同路徑呈現,形成「泡泡」結構(bubbles),這也展現基因體序列是由諸多可能的途徑匯聚、交織而成宛如地鐵路網的脈絡(圖一)。該研究成果於今年五月發表於 Nature 期刊 [3]。

圖一、泛基因體組裝概覽。HPRC 蒐集來自不同族裔背景的全基因體序列,區分單倍型序列後,透過類似地鐵路網的圖像表示法,繪出共同序列與差異序列,呈現基因體組成的多樣性。泛基因體圖譜的兩個主要元素,一是組裝序列圖,包含代表 DNA 片段的節點與意味著節點間連結關係的雙向邊線,二則是嵌入的單倍型序列所行經的「路徑」(以彩色線條表示),代表著不同的組裝序列,發生遺傳變異處則會在圖上形成 bubbles。
圖片來源:https://doi.org/10.1146/annurev-genom-120120-081921

團隊自千人基因體計畫(1000 Genomes Project,1KGP)選擇 47 名代表不同族群的個體。他們使用 PacBio high-fidelity sequencing(HiFi)與 Oxford Nanopore Technologies(ONT)等方法來獲得完整的基因體序列,其中以 HiFi 定序的深度達約 40 倍覆蓋率,有助於更全面地偵測基因變異(一般而言,全基因體定序的深度超過 30 倍的覆蓋率,序列的可靠度就足夠高,可以應用於臨床遺傳檢測)。團隊使用 N50 指標來評估序列的連續性(註一),其長度接近兩萬個鹼基,具有高度連續的序列也有助於後續的組裝工作。

取得定序資料後,他們運用 Trio-Hifiasm 方法進行序列組裝 [4],整合個體的 HiFi 定序結果與其父母的 Illumina 短序列資料,將所有二倍體基因體進行定相(phasing,註二),確定父系與母系的單倍型。接下來進行手動除錯,修正了大規模組裝錯誤,如基因重複錯誤、定相錯誤、與染色體錯接(interchromosomal misjoins)等問題。

為了評估序列組裝的品質,團隊衡量序列的完整性、連續性、序列品質、與定相準確度。帶有 X 染色體的單倍型序列總長約 3.04 Gb,與 T2T-CHM13 (序列來自染色體核型 46, XX 細胞)的完整人類基因體大小相近,而帶有 Y 染色體者則長約 2.93 Gb。序列組裝連續性(NG50,註一)則與 GRCh38 相近。序列錯誤程度低,且錯誤大多是發生於重複序列區域的小片段插入─缺失變異(indels),而運用兩種不同指標分析結果皆指出定相準確度高。團隊開發 Flagger 以探討不同基因體區域的序列可信度,確認在諸多不同類型重複序列等以往難以解析的區域仍高度可信。序列組裝的完整度接近 T2T-CHM13,並僅有不到 5% 的序列無法與其妥善比對。至此,便完成了高連續性、高準確度的序列組裝(圖二)。

圖二、由 47 名來自不同族裔背景個體的全基因體定序資料共同構成人類泛基因體。 (a)樣本選擇。左:千人基因體計畫的主成分分析,顯示樣本分散於不同群落;右:於世界地圖標示個體分布與代表族群。 (b)棒狀染色體(acrocentric chromosomes,註三)之間相接的情形。紅色線段代表兩者位於同股,藍色則為其他。 (c)定相後的單倍型基因體序列組裝長度。 (d)評估不同染色體組裝版本的連續性指標 NG50。 (e)以兩種不同方法分析定相錯誤。 (f)分析不同類別重複片段序列可信度。包含衛星序列、區段重複序列(segmental duplications,SDs)、可變數目串聯重複序列(variable number tandem repeats,VNTRs)、與短片段串聯重複序列(short tandem repeats,STRs)。
圖片來源:https://doi.org/10.1038/s41586-023-05896-x

完成評估後,他們開始繪製泛基因體序列的圖譜。圖譜中的每個節點代表 DNA 片段,每個節點都有順逆兩種可能方向,在兩節點之間則有四種可能的邊,反映節點間所有可能的連結情形。每個單倍型序列可視為在此圖譜上移動的途徑,整合不同路徑在節點上相會的情形,便可進一步描繪出所有可能的變化。研究中使用了三種不同圖譜繪製方法:MinigraphMinigraph-Cactus (MC)PanGenome Graph Builder (PGGB)。Minigraph 以 GRCh38 做為參考基因體,迭代添加各個組裝序列,同時僅考慮大於 50 bp 的結構變異,例如倒位與複製等複雜變異;MC 則在 Minigraph 基礎上,運用序列比對工具以確保不同組裝序列間的同源性。至於 PGGB 則是以無參考基因體的方式,同時比對所有組裝序列,構建泛基因體圖譜(圖三)。

圖三、以 Minigraph、MC、PGGB 三種不同製圖方式表達基因體組裝序列的區別。(a)圖中兩個單倍型序列 H1 與 H2 分別帶有不同數目的染色體片段 S。S1、S2、S3 之間除了 SNP 與 indel 之外,序列高度相似。(b)Minigraph 以 H1 為骨架,並僅納入 S3 的結構變異、捨去 S2 的 SNP,將其與 S1 視為相同片段。MC 則在 Minigraph 基礎上,多考量了 SNP,因此可區辨 S1 與 S2 片段中所帶有的 SNP。PGGB 則是同時比對所有序列,不因匯入序列的先後順序指定參考序列,構築泛基因體架構。三者繪圖方式的另一區別則是,在旁系同源基因(paralog)序列與具有拷貝數多型性(copy number polymorphism)的位點,例如 SDs VNTRs 等,由於序列間不明確的配對關係,PGGB 傾向將這些序列合併為單一片段,而另外兩者則不會。
圖片來源:https://doi.org/10.1038/s41586-023-05896-x

團隊進一步分析泛基因體的序列組成並和 GRCh38 比較,解析泛基因體圖譜中不同序列所形成的 bubbles(圖一)發現三種繪圖方式所得的遺傳變異組成相近。此一結果也經由實際分析各組裝序列得到證實。從不同族裔背景個體的序列觀察到,非洲裔族群帶有較多遺傳變異,與先前研究的結果相符。此外,他們也將每個單倍型序列與 GRCh38 進行比對,定量所增補的真染色質區體染色體序列長度。以 MC 為例,發現新增序列總和共長約 175 Mb,其中有 5 Mb 為核心序列(現於 95% 以上的單型)70 Mb 為常見序列(出現於 5% 以上的單倍型中)(圖四)。團隊也預估,成功組裝 700 個單倍型序列時,可望再新增 150 Mb 的序列。

圖四、與 GRCh38 進行比對,分析泛基因體中各個單倍型序列所增補的序列長度。深度代表特定片段出現在任一單倍型序列中的頻率,圖上亦標示出核心序列與常見序列區塊。
圖片來源:https://doi.org/10.1038/s41586-023-05896-x

相較於以往線性的考基因體,泛基因體涵蓋了更多遺傳變異的資訊,偵測短片段變異時錯誤率降低了 34%。此外,解析重複序列區域的能力也大幅提升,並增補了 1115 個可能的基因重複片段。Guarracino 等人的研究應用泛基因體研究成果,發現棒狀染色體短臂上高度相似的序列中帶有擬同源區域(pseudo-homologous regions,PHRs) [5],且這些序列之間極易發生重組,互換序列以共同維持核仁結構,這個現象或許能解釋羅氏平衡轉位(Robertsonian translocation)的形成原因。Vollger 等人將泛基因體用於解析 SDs 中的序列變異,發現 SDs 中的 SNPs 頻率相較於特異序列高出了 60%,並推測其中有一定比例源自於不同位點之間的基因轉換(interlocus gene conversion,IGC),進一步評估發現 IGC 影響了約 799 個蛋白質基因,不僅改變其基因序列,更可能影響蛋白質功能 [6] 。

人類泛基因體草圖的公開無疑是基因體學研究中的一個的重要里程碑,它混合了不同族群的遺傳多樣性。HPRC 團隊預估將於 2024 年完成 700 個單倍型序列組裝,以涵蓋更多族群。對於未來泛基因體的應用,我們期盼它能大幅幫助人們更深入了解人類基因體多樣而複雜的序列組成,並推動精準醫療的應用。

註一、N50 是以序列連續性評估後續組裝品質的指標,意味著將片段重疊群(contig)從大到小依次相加,總和可超過組裝序列總長半數時最短的片段重疊群長度;或也可視為將片段重疊群(contig)從大到小排列後,加權中位數的序列長度。NG50 則適用於比較不同序列組裝版本,計算概念相似,但為排序後總和可超過基因體大小半數時最的片段重疊群長度。

註二、定相是指將二倍體基因體中的各個等位基因(allele),分別定位到父系和母系的單倍型上,研究中也使用了個體父母的全基因體定序資料輔助定相(即 mother-father-child-trio-based phasing)。

註三、棒狀染色體為第 13、14、15、21、22 號染色體,又譯近端著絲點染色體。

Investigator 選文|Human Pangenome Reference | Nature Portfolio
延伸閱讀|Investigator:Sequencing technologies 選文
延伸閱讀|Investigator:Medical genetics 選文
延伸閱讀|Investigator:Third generation sequencing 選文
延伸閱讀|Investigator 生物資訊學專題:上篇下篇

Main Article:

Liao, W.-W., Asri, M., Ebler, J., Doerr, D., Haukness, M., Hickey, G., Lu, S., Lucas, J. K., Monlong, J., Abel, H. J., Buonaiuto, S., Chang, X. H., Cheng, H., Chu, J., Colonna, V., Eizenga, J. M., Feng, X., Fischer, C., Fulton, R. S., Garg, S., … Paten, B. (2023). A draft human pangenome reference. Nature, 617(7960), 312–324. https://doi.org/10.1038/s41586-023-05896-x

參考文獻:

[1] International Human Genome Sequencing Consortium (2001). Initial sequencing and analysis of the human genome. Nature, 409(6822), 860–921. https://doi.org/10.1038/35057062

[2] Nurk, S., Koren, S., Rhie, A., Rautiainen, M., Bzikadze, A. V., Mikheenko, A., Vollger, M. R., Altemose, N., Uralsky, L., Gershman, A., Aganezov, S., Hoyt, S. J., Diekhans, M., Logsdon, G. A., Alonge, M., Antonarakis, S. E., Borchers, M., Bouffard, G. G., Brooks, S. Y., Caldas, G. V., … Phillippy, A. M. (2022). The complete sequence of a human genome. Science (New York, N.Y.), 376(6588), 44–53. https://doi.org/10.1126/science.abj6987
Read this series: Completing the human genome | Collections | AAAS

[3] Liao, W.-W., Asri, M., Ebler, J., Doerr, D., Haukness, M., Hickey, G., Lu, S., Lucas, J. K., Monlong, J., Abel, H. J., Buonaiuto, S., Chang, X. H., Cheng, H., Chu, J., Colonna, V., Eizenga, J. M., Feng, X., Fischer, C., Fulton, R. S., Garg, S., … Paten, B. (2023). A draft human pangenome reference. Nature, 617(7960), 312–324. https://doi.org/10.1038/s41586-023-05896-x

[4] Cheng, H., Concepcion, G. T., Feng, X., Zhang, H., & Li, H. (2021). Haplotype-resolved de novo assembly using phased assembly graphs with hifiasm. Nature Methods, 18(2), 170–175. https://doi.org/10.1038/s41592-020-01056-5

[5] Guarracino, A., Buonaiuto, S., de Lima, L. G., Potapova, T., Rhie, A., Koren, S., … & Garrison, E. (2023). Recombination between heterologous human acrocentric chromosomes. Nature, 617(7960), 335-343. https://doi.org/10.1038/s41586-023-05976-y

[6] Vollger, M. R., Dishuck, P. C., Harvey, W. T., DeWitt, W. S., Guitart, X., Goldberg, M. E., … & Eichler, E. E. (2023). Increased mutation and gene conversion within human segmental duplications. Nature, 617(7960), 325-334. https://doi.org/10.1038/s41586-023-05895-y

關鍵字:NEWS、pangenome、reference genome、HPRC、Sequencing technologies

撰文|陳品萱
審稿|廖玟崴、紀威佑

About the author

陳 品萱

陳 品萱

慕尼黑大學博士生,主要研究興趣為人類遺傳學與基因體學,對於小兒先天與發展疾病的源起與遺傳背景格外好奇並持續探索中。國立陽明大學生命科學系暨基因體科學研究所五年一貫學程畢,曾參與 2015 iGEM,亦曾擔任職涯沙龍副召及營隊教學長。喜愛科學傳播與寫作,期盼在 Investigator 與來自不同領域的人們交流,共同學習與成長。

Leave a Comment