基因與基因體學 基因體學 生物技術 生物資訊學 科學報導

三代定序再度掀起革命:從頭定序(de novo sequencing)

一般進行定序時,通常需要將定序結果和一個稱作「參考基因體」(reference genome)的資料庫做比對,想像你在拼拼圖的時候,需要將每片拼圖和完成圖進行比對才會比較容易拼完,尤其當拼圖多達數十億片時,這個過程更是必要。舉例來說,人類的參考基因體自從人類基因體計畫完成後持續更新,到 2017 年底已經更新到了第 38 版(GRCh38.p12)[1]。

 

圖、長序列定序有利於解決上述問題 (圖片來源:https://doi.org/10.1101/048603  CC-BYNC 4.0

 

從頭定序(de novo sequencing),是指不使用參考序列(reference sequence)來組裝定序結果。為什麼需要這樣做呢?主要原因是現行的參考序列並不是完整的,中間有許多空洞需要填補與更新。次世代定序雖然方便,但其較短的定序長度限制了定序組裝的結果,尤其以基因體內重複及缺失的片段更加明顯。【詳見 De novo assembly──人類基因體補完計畫  

第三代定序中的單分子即時定序(single molecule real time sequencing, SMRT),為這個問題提供突破點。相較於次世代定序多把 DNA 打散成數百鹼基對的大小,SMRT 技術的定序長度可達約 3,000 到 15,000 鹼基對 (bp),最長可達 60 kb。這就好像你拼相同的拼圖,SMRT 的拼圖片硬是比次世代定序的大上了數十倍,使得拼圖難度直直下降。SMRT 在偵測到人類基因體中約 40 萬個小片段序列插入/刪除變異(indel variants,定義為小於 50 bp 的變異)和兩萬個結構性變異(structural variants,定義為 50 bp 以上的變異),其中超過 80% 的變異是難以用次世代定序等短序列定序達成的 [2]。

Pacific Biosciences (PacBio) 在 2013 年的研究指出,SMRT 在從頭定序的表現優於二代定序 [3]。為了證明自家產品的強大,2016 年 PacBio 和冷泉港與巴斯德研究院的科學家合作,以 SMRT 從頭組裝了惡性瘧原蟲(Plasmodium falciparum)的基因體——將他 14 個核染色體從一邊的端粒拼到另一端。其定序長度平均為 12 kb,其中有一半介於15.5 到 50 kb [4]。在2018 年,PacBio 從頭定序了一位波多黎各女性,產生 2.83 Gb 大小的基因體,中間的間斷(gap)僅有 511 個,並且能區分出來自雙親的兩套染色體。雖然完整度還比不上 GRC 的資料庫(約 3.10 Gb 大小、349 個間斷),但這無疑地貢獻了該地區族群的基因多樣性,同時展現了他們強大的火力 [2]。

近年來 SMRT 展露頭角,越來越多研究者使用 SMRT 輔助次世代定序的結果,用以組裝定序結果的演算法也是越來越精良 [5],想必未來前途光明。

 

參考資料:

  1. GRCh38.p12 – Genome – Assembly – NCBI. (2017, December 21). Retrieved from https://www.ncbi.nlm.nih.gov/assembly/GCF_000001405.38
  2. Pacific Biosciences Releases Highest-Quality, Most Contiguous Individual Human Genome Assembly to Date – PacBio. (n.d.). Retrieved from https://www.pacb.com/press_releases/pacific-biosciences-releases-highest-quality-most-contiguous-individual-human-genome-assembly-to-date/
  3. Chin, C.-S., Alexander, D. H., Marks, P., Klammer, A. A., Drake, J., Heiner, C., … Korlach, J. (2013). Nonhybrid, finished microbial genome assemblies from long-read SMRT sequencing data. Nature Methods, 10(6), 563–569. doi:10.1038/nmeth.2474
  4. Vembar, S. S., Seetin, M., Lambert, C., Nattestad, M., Schatz, M. C., Baybayan, P., Scherf, A., … Smith, M. L. (2016). Complete telomere-to-telomere de novo assembly of the Plasmodium falciparum genome through long-read (>11 kb), single molecule, real-time sequencing. DNA research, 23(4), 339-51.
  5. Chaisson, M. J. P., Wilson, R. K., & Eichler, E. E. (2015). Genetic variation and the de novo assembly of human genomes. Nature Reviews Genetics, 16(11), 627–640. doi:10.1038/nrg3933

 

撰文│紀威佑
審稿│楊仁龍

About the author

紀威佑

紀威佑

臺大醫學系畢業,曾為臺大iGEM代表隊成員,曾於台大、中研院、AMC實驗室進行實習。對科普推廣與寫作有很大的興趣,希望能和志同道合的朋友交流,並做為知識的傳播者為科學社群盡一份心力。

Leave a Comment