本月份的主題再次回來探討定序技術,我們將焦點放在近幾年逐漸從理論走向實用的第三代定序(長片段定序 third generation sequencing, long read sequencing),向各位讀者介紹現有的定序平台、分子診斷、對基因體學研究的影響。定序方法不斷演進,次世代定序(next generation sequencing)已經成功作為基因體、轉錄體研究的必要技術十幾年,定序基因體所需的花費甚至迅速降低,遠快於摩爾定律 (Moore’s law) 的預期。其特徵為:使用 PCR 或 DNA 連接酶為基礎,在晶片或球珠(beads)表面同時進行大量 DNA 片段合成/接合,再接收光線訊號,最後轉換為核苷酸的種類與正確機率。然而,次世代定序面臨好幾個先天限制。次世代定序的 DNA 片段偏短,以 illumina NovaSeq 6000 為例,定序長度局限於 150 bp,因此較難處理大尺度的基因體結構變化。因為定序片段較零碎,故需要重複定序大量片段以獲得足夠的覆蓋率,這類動輒數個 terabytes 的巨量資料,得依賴深奧的分析技術與高階電腦輔助,才有較高的機會組裝出完整的基因體。針對頻率較低或未知的序列變化,常常面臨偽陰性的問題。前述多個限制會在定序全新基因體(de novo sequencing)的時候更加顯著。
第三代定序的概念與方法,約在 10 年前應運而生,其核心方法著重於直接定序單一分子,避免將 DNA 震碎成小片段;若針對 DNA 的表觀遺傳修飾,也能省略建立定序基因庫 (library)的階段,故能夠避免 PCR error。第三代定序能夠直接面對至少 10,000 bp 的 DNA 分子,提供較大尺度的序列資訊,這在富含重複片段的區域(例如中節、端粒、植物基因體)較次世代定序占優勢,也能夠協助次世代定序資料的組裝,降低組裝短片段、haplotype phasing 的困難。當然,第三代定序並非無懈可擊,正確率、通量(throughput)為其弱點。近幾年,科學家努力改善定序技術,或嘗試改善錯誤率,或嘗試運用演算法或定序策略校正,已有幾個定序策略可進行商業服務,這讓第三代定序的應用越來越廣泛。
期待這系列文章能讓讀者一窺第三代定序的面貌與現今應用。
圖片來源:https://www.genome.gov/27541954/dna-sequencing-costs-data/
撰文│王振宇
審稿│楊仁龍