本月的生物資訊學專題即將進入尾聲。生物資訊學(Bioinformatics)近十幾年蓬勃發展,根據美國國家衛生研究院(National Institute of Health, NIH)的定義,生物資訊學指的是:研究或發展出分析的工具或方法,用來處理生物醫學上的數據。所以一篇好的研究論文,往往都不是特別發展了新的演算法或資訊技術,而是將一般的常見的分析方法加以改良或運用,讓我們能重新省視並發現生物學背後獨特的含義及現象。在這樣的基礎下,生物資訊學領域可大略分為兩個方向,一個是新技術的應用,另一個則是純技術的突破,而這個月的小新聞主要介紹 2014 年至今的新技術應用在生物學這個部分。而本文將分為幾個段落說明,如果還不是很熟生物資訊領域的朋友我們建議先閱讀一下 The Investigator 於 2013 年 11 月撰寫的完整生物資訊專題介紹。
生物資訊(Bioinformatics)專題(上):https://investigator.tw/982/
生物資訊(Bioinformatics)專題(下):https://investigator.tw/1003/
【回顧本月小新聞】
由於近年來 Genome-wide association study(GWAS)及 RNA-seq 等定序技術不斷革新,讓科學家可以分析古往今來疾病的感染模式,也可以將不同的資料庫交叉比對後,推測基因調控或疾病的分子機制並作進一步驗證。全基因組序列的獲得也讓我們能夠建構更清晰的演化親緣關係。2013 年開始的泛癌症分析計畫(Pan-Cancer Analysis Project)和 TCGA(The Cancer Genome Atlas),由於基因體定序技術進步以及資料庫的建立而快速發展,對於未來癌症的診斷及治療將為一大助益。GTEx協會的轉錄體分析,其跨個體及組織的基因表現譜整合基因型分析將提供更準確的醫療診斷。另外也介紹了 ClinGen 這個世界級資料庫,將基因分析應用於疾病診斷及用藥治療上,無疑是未來醫療發展的一大趨勢。
【回顧生物資訊重要的工具 – 聚焦於序列分析】
除了以上 2014 年以來的重要研究之外,我們也整理一些重要的生物資訊工具。《Nature》期刊在 2014 年的 The top 100 papers 一文中 [1],作者挑出被引用次數前 100 名的論文。其中 1990 年代以後的論文中,前 5 名就有 3 個是著名生物資訊工具,引用數約 4 萬次,分別是 ClustalW [2]、BLAST [3]、和改良版 BLAST 與 PSI-BLAST [4]。其中,BLAST 系列工具(包含 PSI-BLAST)為兩兩序列相互比對(Pairwise sequence alignment)工具,幾乎成為每位生物學家都會使用的工具,各種實驗或研究得到一段序列,運用 BLAST 比對來找出相似的序列。PSI-BLAST 則在不同序列位置運用不同的計分方式找出更具有演化關係的蛋白質序列。ClustalW 為多重序列比對(Multiple sequences alignment)工具,相較於 BLAST,ClustalW 能一次相互比對三條以上的序列,運用於找出跨物種中共同保留的區域、推導序列的同源性與分析演化關係等。生物資訊學家也常常善用這些工具於高速電腦中,快速比對新的物種基因或演化分析。近年,次世代定序(Next Generation Sequencing, NGS)蓬勃發展,其所產生的是龐大的短序列(上百萬條至千萬條,長度約 50 至 150 個核苷酸),當時的生物資訊工具已無法快速地計算比對,於是在 2009 年三個團隊運用 Burrows-Wheeler transform(BWT)演算法發表了很有效率比對龐大短序列工具,分別是 BWA [5]、Bowtie [6, 7] 和 SOAP2 [8],其中前兩個工具自 2009 年至今被引用次數都超過 4,000 次,可見其效能強大,分析 NGS 資料幾乎都會用這兩個工具的其中一種。BWT 演算法也呼應了第一段所述,原本應用在資料壓縮技術的演算法,因為運用得當,研究人員將其改良應用於只有 ”A, T, C, G” 四種字母,重複性很高的 NGS 定序資料中,而成功的解決耗時或耗能的短序列比對。更多關於成功的生物資訊工具介紹,請閱參考資料 [9]。
【生物資訊未來的發展】
美國總統歐巴馬在今年 1 月所倡導的精準醫學計畫(Precision Medicine Initiative),預算超過兩億美金,計畫募集超過 100 萬人的醫療、生理及基因組數據,透過研究不同個體的個人化基因醫學資訊,患者、研究人員 / 醫師和藥商 / 供應商攜手共同發展個人化治療新時代 [10, 11]。一方面,我們看到了有超過 100 萬的個人化基因組資料需要生物資訊的協助來整合分析,而這 100 萬人可能還會分別收集全基因組(Genome)、外顯子(Exome)、轉錄體(Transcriptome)、蛋白體(Proteome)和 DNA 甲基化(Methylation)等等的定序資料分析,看似前程似錦,美國應該會很缺生物資訊的人才。但另一方面,我們人類真的有辦法解讀這些資料嗎?Jeffrey Chang 在今年四月於《Nature》期刊就提出了質疑 [12],他認為,生物數據的累積的速度超過了人類的所能分析的能力、大部分的資料都需客製化分析,並非有標準化流程、生物資訊研究人員必須拿捏好與生物學家合作研究及自主研發的時間,如果自主研發時間不足,分析技術能很快就成為非主流等。綜合以上,以現今生物資訊的發展而言,序列的取得已非難事,但是如何適當轉換並分析這些大量累積的數據,是現在研究生物資訊領域的科學家們重要的一項課題。生物資訊學領域珍貴之處不在於發展出什麼華麗或複雜的新技術,而是希望用這些技術解決並探討生物醫學本身的問題,也才能讓這個新領域的價值發揮得淋漓盡致。未來將有分析不完的生物數據,各領域專家勢必共同討論和研究,將更多好的演算法在生物醫學運用得當、創意和視覺化資料呈現方式來解讀龐大且複雜的數據也是必要的。
【結論與下個月主題簡介】
本月生物資訊專題聚焦於新技術應用在生物學、基因體與演化分析、NGS 應用與分析,但生物資訊相關課題還包含蛋白質結構預測、電腦輔助藥物設計、代謝體資料分析、生醫文本探勘等等,有機會在介紹這些主題的研究給大家。下個月 The Investigator 的主題為微生物相(Microbiota) ,主要會為大家介紹腸道內微生物相與免疫系統的交互關係,這些與我們的飲食及日常生活息息相關,敬請期待也請大家繼續支持 The Investigator。
撰稿人 | 吳季芸、周致宏
參考文獻:
- Van Noorden R, Maher B, Nuzzo R. (2014). The top 100 papers. Nature, 514, 550–553. doi:10.1038/514550a
- Thompson, J. D., Higgins, D. G., & Gibson, T. J. (1994). CLUSTAL W: improving the sensitivity of progressive multiple sequence alignment through sequence weighting, position-specific gap penalties and weight matrix choice. Nucleic Acids Research, 22(22), 4673–4680.
- Altschul SF, Gish W, Miller W, Myers EW, Lipman DJ. (1990). Basic local alignment search tool. J Mol Biol, 215, 403-410. https://doi.org/10.1016/S0022-2836(05)80360-2
- Altschul SF, Madden TL, Schaffer AA, Zhang J, Zhang Z, Miller W, Lipman DJ. (1997). Gapped BLAST and PSI-BLAST: a new generation of protein database search programs. Nucleic Acids Res, 25(17), 3389-402.
- Li, H., & Durbin, R. (2009). Fast and accurate short read alignment with Burrows–Wheeler transform. Bioinformatics, 25(14), 1754–1760. http://doi.org/10.1093/bioinformatics/btp324
- Langmead, B., Trapnell, C., Pop, M., & Salzberg, S. L. (2009). Ultrafast and memory-efficient alignment of short DNA sequences to the human genome. Genome Biology, 10(3), R25. http://doi.org/10.1186/gb-2009-10-3-r25
- Langmead, B., & Salzberg, S. L. (2012). Fast gapped-read alignment with Bowtie 2. Nature Methods, 9(4), 357–359. http://doi.org/10.1038/nmeth.1923
- Li R, Yu C, Li Y, Lam TW, Yiu SM, Kristiansen K, Wang J. (2009). SOAP2: an improved ultrafast tool for short read alignment. Bioinformatics, 25(15), 1966-7. https://doi.org/10.1093/bioinformatics/btp336
- Altschul, S., Demchak, B., Durbin, R., Gentleman, R., Krzywinski, M., Li, H., … Trapnell, C. (2013). The anatomy of successful computational biology software. Nature Biotechnology, 31(10), 894–897. http://doi.org/10.1038/nbt.2721
- THE PRECISION MEDICINE INITIATIVE. Retrieved from https://obamawhitehouse.archives.gov/node/333101
- Collins, F. S., & Varmus, H. (2015). A New Initiative on Precision Medicine. The New England Journal of Medicine, 372(9), 793–795. http://doi.org/10.1056/NEJMp1500523
- Chang J. (2015). Core services: Reward bioinformaticians. Nature, 520(7546), 151-2. doi: 10.1038/520151a.