基因與基因體學 生物資訊學

基因組結構變異的精準分析與對既定機轉的挑戰

圖片連結:doi: 10.1038/ncomms8256

隨著人類基因組的解碼,發現你我之間 DNA 的序列有大約 99.9% 的一致性。換言之,那僅有的 0.1 %序列差異決定了你我的個體性狀差異與疾病的易感性。定序科技的進步與計算生物學策略的突破,科學家發現人類 DNA 序列中平均每 300 個鹼基對就可能有一個 SNP(Single-nucleotide polymorphisms, SNPs),它們主導了個體差異性。然而,隨著策略走往人類基因組全面性變異序列數量與分佈的分析,國際人類基因體單體型圖合作計畫(HapMap Project)開始收穫更多 copy-number variants(CNVs)的數據,這些 CNVs 由於分析的視窗的擴大得以被發現,它們通常介於 1 kb-3 Mb 的大小片段,可以涵蓋一整個基因與它的調控序列,其對個體差異性的影響,可想而知絕對不會亞於 SNPs 的影響。目前已知許多複合型疾病(complex disease)像是精神分裂症、自閉症也都發現源於 CNVs。因此,了解 CNVs 這樣的基因組結構變異(structural variations, SVs)的如何產生便是首要之務。SVs 是透過 DNA 片段缺失(deletion)、重複 (duplication)、放大 (amplification)、插入 (insertion)而改變基因劑量(gene dosage)進而影響性狀。然而 SVs 的形成關鍵往往掌握於這些變異導致 DNA 斷點(breakpoints)的鄰近序列。因此,這些關鍵序列的剖析,將可以帶領我們更了解 SVs 的機轉,疾病的預測分析。目前已知 SVs 形成模式主要有三種:第一種與人類基因體中存在許多的重覆序列(low copy repeats, LCRs)有關,當其兩者大小超過 10 kb、大於 97% 序列相似性又距離小於 10 Mb時,即會發基因不穩定的不對稱重組 Non-allelic homologous recombination(NAHR)。第二種,轉位子 transposable element insertions(TEI) 雖然序列長度不及 LCRs,但其高移動的特性也可使其遵循著類似的模式。第三種則和 LCRs 無關,發生於雙股 DNA 發生斷裂修復不當的過程,稱做 Non-homologous end joining(NHEJ)。又或發生於 DNA 複製時因微小相似序列(microhomology)導致序列交叉(Fork),而引發的序列轉移錯誤 FoSTeS/MMBIR (fork stalling and template switching/ microhomology mediated break induced replication)。

本篇研究指出,透過分析 2008 年建立的 1000 Genomes Project,並在 2012 年發表的 1092 個樣本裏 8943 個基因缺失的斷點,發現到這些斷點其上下游的序列相較全面性的序列,相似性下降許多,且多緊鄰著 SNPs 和缺失 / 插入的序列(indels)。然而,並未找到特定 SNPs 可以對應特定哪一類 SVs 的現象。顯示該研究序列深度必須到達幾個關鍵鹼基,才能正確地分類 SVs 並推究其機轉,同時,仍需加入其它表觀遺傳表徵等參數,才能精準地揭示斷點背後隱藏的疾病機轉評估。本篇的價值在於嚴謹的生物資訊序列分析策略,作者在斷點處理後,利用 inner sequence 接附斷點上下游形成隨機的完整序列,藉此篩選出相較過去 1000 Genomes Project 前期還要高品質的信心斷點片段,同時也彌補該計劃後期為了提高信賴性的分析方式,導致序列較短的 NAHR 和 TEI 被低估的風險。

此研究也提出有趣的結果,他們發現 NAHR 斷點鄰近序列有著可預期的高重組率、高密度 C、G 鹼基和 CpG motifs,但同時卻有著低度 DNA 甲基化、高度 DNA 易近性(DNA accessibility)、活化組織蛋白標誌(active histone marks),與寬鬆的染色質(open chromatin)結構。這是相當於提出與細胞分裂時染色質呈緊密結構狀態的悖論。因此,他們提出在胚胎或生殖細胞存在一群不經 DNA 複製和細胞分裂就存在的 NAHR 缺失假設。另外,同時作者也發現NH缺失的機轉和其斷點鄰近的微小插入序列 microinsertions(MIs)有關,MI 的產生是由於複製時序列的轉移造成鹼基缺失導致。研究發現,有兩種鄰近的 MIs,分別是距離斷點 20-60 bps、2-6 kbps 的位置,它們複製的時間點會晚於斷點位置的複製,顯示 MIs 在空間和時間上扮演 NH 機轉執行的關鍵序列。

本篇研究透過嚴謹的生物資訊序列分析策略,搭配完整的資料庫的應用,揭示關鍵鹼基解析與樣本分類的重要性。同時也發表了一個生物資訊工具BreakSeq2,將更準確且快速地從次世代定序的全基因體資料中,分析基因組結構變異(SV)。

撰稿人 | 呂理峰

文章連結:Abyzov, A., Li, S., Kim, D. R., Mohiyuddin, M., Stütz, A. M., Parrish, N. F., … Gerstein, M. B. (2015). Analysis of deletion breakpoints from 1,092 humans reveals details of mutation mechanisms. Nature Communications, 6, 7256. doi: 10.1038/ncomms8256.

參考資料:
1. Stankiewicz P1, Lupski JR. (2010). Structural variation in the human genome and its role in disease. Annu Rev Med, 61, 437-55. doi: 10.1146/annurev-med-100708-204735.
2. Conrad, D. F., Pinto, D., Redon, R., Feuk, L., Gokcumen, O., Zhang, Y., … Hurles, M. E. (2010). Origins and functional impact of copy number variation in the human genome. Nature, 464(7289), 704–712. doi:10.1038/nature08516.
3. The 1000 Genomes Project Consortium. (2012). An integrated map of genetic variation from 1,092 human genomes. Nature, 491(7422), 56–65. doi: 10.1038/nature11632.

About the author

Avatar

Investigator團隊

2013年,憑著一股對學術研究的熱忱,一群海內外學生與社會新鮮人成立了「The Investigator Taiwan 臺灣生物科學研發策進社群」。幾年來社群持續成長,到現在成員超過百名,背景橫跨基礎研究、臨床、產業各領域。我們透過經營平台、生醫報導與活動交流、協助媒合學習對象等多元面向,為臺灣的生醫領域創造了許多正面價值。

留言