基因體學 生物資訊學

De novo assembly──人類基因體補完計畫

2003 年,人類基因體計畫宣布完成,建構出了第一個人類的參考基因體(reference genome)。不出幾年,因為定序科技的進步,上百種物種的參考基因體如雨後春筍般地冒出。建構了人類參考基因體的我們可說是破解了「智人」此一物種由 ATGC 四個密碼子所組成的排列順序,可喜可賀、可喜可賀。

圖、達文西著名素描「維特魯威人」成為人類基因體計畫的標誌。圖片來源:維基百科

然而,真的是這樣子嗎?我們真的已經了解一個「參考人類」的所有 DNA 序列?想想看,人類有 23 對染色體,染色體上有基因,也有尚未知道或無功能的「垃圾」序列,更有一些高度重複的序列,例如端粒(telomere)或中節(centromere)。假如我們真的列出一個人的所有非同源 DNA 序列,那應該會有 23 個句子(或 24,多了 Y 染色體),其中每句皆由內容不間斷的 ATGC 組成。但實際上,根據 GRC 在 2013 年聖誕夜提交的最新版人類參考序列 GRCh38,這樣的句子有 25 句(多了粒線體DNA),而句子中間總共有 349 個間斷(gaps)[2]。

這些序列中的間斷怎麼來?那要先從基因定序原理說起,人類基因體計畫主要使用的方式稱為「階層式散彈槍法」(hierarchical shotgun sequencing),先把人類的基因體切成約 50-200 Kb 的小塊,確認每塊在基因體的位置,再分給大家,用散彈槍法打成小於 1Kb 的碎片來定序。這種方法比較步步為營,對電腦的運算和演算法需求比較小,但是曠日廢時。於是後來有了新的「全基因體散彈槍法」(whole genome shotgun sequencing),簡而言之,就是不先切小塊,直接把整個基因體打成碎片,定序完再用電腦組裝起來。這個方法步驟簡便,但想想看,人類 DNA 約 3 Gb,要把小於 1 Kb 的碎片拼回去談何容易?

幸好電腦的運算能力是很厲害的,首先電腦把小片段之間互相有重疊的區塊拼起來,以這種方式出重疊群(contigs),此時再確認 contigs 間的前後關係,把他拼成scaffold。不過,再怎麼厲害,還是會遇到片段拼不起來的問題,極少數情況剛好就是該片段缺失,沒被定序到;更可能出現的情況是因為 segmental duplication,此時同樣的片段在不同的區塊出現,就像不同的拼圖卻有相同的形狀一樣,電腦不知道該怎麼拼;或者是同樣的片段重複了很多次,當電腦讀到了這種情況,會不知道他們是一塊拼圖被定序很多次,或是真的有很多塊同樣的拼圖。

圖、序列組裝基本原理。(Chua et al., 2013)

因此電腦再厲害、科學家再努力,還是有許多缺塊需要填補,此時 de novo assembly就派上用場。通常我們想要定序生物時,會使用稱為再定序(resequencing)的方法,將其 DNA 定序之後,透過和同物種或類似物種的參考序列比較,快速組裝出他的基因體,而相對於「再定序」,de novo 顧名思義就是「重新定序」,不使用參考序列來組裝定序結果。其實前述的人類基因體計畫就是這麼一回事,然而之前的方法有其限制,所以科學家正在想各種辦法,繞過限制來定序剩下的「迷霧地帶」。

要繞過限制,最簡單的作法就是一次定序更長的範圍,現在的單分子定序(single molecule sequencing)就有潛力做到,其特點為單次定序片段長,但錯誤率略高。另外也能改進定序組裝的演算法,最基本的演算法為 overlap layout consensus (OLC),原理和拼圖相仿;另也有 de Bruijn 與 string graph 彼此各有千秋,近年則以前者最為廣用。若從定序的目標下手的話,有團隊定序的是人類的完全性葡萄胎(complete mole):這種特別的細胞是由一個精子進入無染色體的卵子後複製一次所產生的雙套體,因此內含有的雙套染色體皆相同,定序此種細胞可以免除雙套 DNA 對隨後定序組裝的影響 [3]。

將參考序列的缺失填滿,不只能滿足我們的求知慾,更和許多疾病成因有關。事實上,世界上各個計劃已經從中找到許多疾病相關的基因,舉例來說,顯性腎臟疾病 MCKD1 ,從家族史來看,明明是很簡單的孟德爾式遺傳,但在十幾年間,卻找不到其基因,就是因為當時他位於參考基因體的序列是不完整的,一直到 2013 年才有團隊以 de novo sequencing 找出其基因變異 [4]。此外,填滿序列斷層對個人化醫療與每人不同的性狀(簡稱體質)相當重要,也因此世界上許多團隊正致力於建構新的參考序列來補足 GRCh38。

在人類基因體計畫完成後,我們對於自身的了解增加了很多,但仍然不夠多。只能說,在全盤解答生命本質前,人類絕不會善罷干休。

參考資料:

  1. Baker, M. (2012). De novo genome assembly: what every biologist should know. Nature Methods,9(4), 333-337. doi:10.1038/nmeth.1935
  2. GRCh38.p12 – Genome – Assembly – NCBI. (2017, December 21). Retrieved from https://www.ncbi.nlm.nih.gov/assembly/GCF_000001405.38
  3. Chaisson, M. J., Wilson, R. K., & Eichler, E. E. (2015). Genetic variation and the de novo assembly of human genomes. Nature Reviews Genetics, 16(11), 627-640. doi:10.1038/nrg3933
  4. Kirby, A., Gnirke, A., Jaffe, D. B., Barešová, V., Pochet, N., Blumenstiel, B., … Daly, M. J. (2013). Mutations causing medullary cystic kidney disease type 1 lie in a large VNTR in MUC1 missed by massively parallel sequencing. Nature Genetics, 45(3), 299-303. doi:10.1038/ng.2543

撰文│ 威佑

About the author

紀威佑

紀威佑

臺大醫學系畢業,曾為臺大iGEM代表隊成員,曾於台大、中研院、AMC實驗室進行實習。對科普推廣與寫作有很大的興趣,希望能和志同道合的朋友交流,並做為知識的傳播者為科學社群盡一份心力。