Features 生物資訊學 研究領域專題

生物資訊 (Bioinformatics) 專題(上)

bioinfo

生物資訊學(Bioinformatics)是一門結合生物學、計算機科學、應用數學、統計學等學科的跨領域學門,也因為人類基因組計畫(Human Genome Project)的完成而越來越受到重視。隨著生醫研究技術的進展,如何分析、整理隨之而來的大量資料與數據,便成為一項重要的課題。本月份Investigator特別介紹「生物資訊」專題,分成上下集介紹生物資訊包含的內容及主要研究領域, 常用的資源及近幾年生物資訊的新興研究方向。對生物資訊有興趣的朋友不要錯過了!

生物資訊的源起與進展

自從1953年華生(James Watson)和克里克(Francis Crick)解開了DNA雙股螺旋的結構後1,越來越多藏在DNA序列內的秘密被揭露出來。而伴隨著分生實驗技術的突飛猛進,也累積了各式龐大的生物資料,例如DNA序列(DNA sequence)、DNA註解(DNA annotation)、蛋白質之胺基酸序列、蛋白質結構,DNA微陣列(DNA microarray)資料等等。為了分析如此龐大而仍舊爆炸性成長的生物資料,就衍生出近年來蓬勃發展的新興學門-生物資訊學。
生物資訊學是一門結合生物學、計算機科學、應用數學、統計學等學科的新研究領域。不但參與研究者的背景相當多元化,研究主題更是一直隨著時代及技術在演變,連生物資訊學本身的定義也一直有不同的解讀. 其實,關於生物資訊學這個名詞出現以前就已經有相關的概念被發想,但一直到1970年代Paulien Hogeweg和Ben Hesper才正式使用“Bioinformatics”這個字2,3,4。而像Elvin A. Kabat,率先將數學和計算方法引入生物學研究的Michael Waterman教授5,以及被稱為“生物資訊學始祖”的Margaret Oakley Dayhoff和David Lipman等,都是生物資訊研究領域早期的開拓者6
除了這些開拓生物資訊研究領域的研究者之外,生物資訊能迅速興起的另一個原因在於人類基因組計畫的解讀完成7,8。1989年美國衛生研究院(National Institute of Health, NIH)成立了人類基因體研究中心,結合來自18個國家的研究團隊,參與為人類遺傳密碼的30億個DNA鹼基對進行序列解讀的工作。在歷時十年後完成了人體基因排序草圖,而其序列後續的生物資訊分析便成為國際上極度重視的研究領域。之後開啟的“後基因體時代”(post-genome era), 在DNA解碼後更進一步探討基因與蛋白質的運作,即所謂的蛋白質體學(Proteomics)。各式的生物資料數據庫加上生物資訊的整合、比對、分析等研究更讓生物資訊領域的發展到達顛峰。

生物資訊到底是什麼呢?

生物資訊學到底是什麼?又包含哪些項目呢?生物資訊學是一門跨生物、數學、資訊、統計等學門的研究領域。希望藉著這些領域橫向的合作而去解釋生物學上的現象或預測生物原理,並進而建立生物的宏觀系統。其中包括分析大量生物資料的統計方法及演算法設計;儲存及管理大量生物資料的生物資訊數據庫設計;對生物實驗資料及知識的模式化分析;可用來進行生物資訊分析的資訊工具的開發及管理;或者統合以上知識流動的平台等等。
生物資訊包含的生物領域學科包括遺傳學、細胞分子生物學、結構生物學、基因晶片(gene chip)、生物晶片(biochip)原理與應用、分子演化、生物學、基因體學(Genomics)、蛋白體學、生物化學、生物數學、生物物理等學科。而生物資訊橫跨的資訊領域學科包括:生物晶片及資訊處理、資訊工程、機率學、統計數學、統計與數據分析、計算生物學、計算方法與設計、人工智慧、資料庫系統、資料結構、程式設計、網路程式規劃、生物資訊、生物分子模擬、演算法、影像處理、機器學習等。

生物資訊的主要研究領域介紹

生物資訊在很多生物傳統領域的重要性越來越大,包括影像處理及訊號處理應用在分生實驗數據上、遺傳學和基因體學上的序列資料、基因表現及蛋白質表現調控的分析結果、基因與基因之間的比較、演化樹(phylogenic tree)分析乃至於數據及文獻的挖掘,生物資訊提供了更大尺度的分析方法,這是傳統生物學上做不到的。而生物訊息傳導路徑(signaling pathway)或基因調控網路(gene regulatory network)的歸類或簡化,也變成系統生物學(Systems Biology)不可或缺的一部份;生物資訊也提供了結構生物學(Structural Biology)很多強大的工具。以下列出目前幾個生物資訊的主要研究方向:
序列分析(Sequence analysis
透過對DNA序列的分析,希望能透過序列資訊瞭解基因的功能性9,方法之一就是將基因對應到蛋白質編碼及找到基因調控序列. 而透過不同物種間的序列比對, 除了可以解釋物種之間的遺傳距離,也可以解釋蛋白質的功能相似性或和蛋白質結構作比對。不過不是序列上的每一段都具有意義能代表基因,所以去判別基因或基因調控序列也是分析時要考量的一部份。
測定DNA序列通常使用散彈槍定序法(Shotgun sequencing) 10,11。將DNA序列打成許多數百核苷酸長度的DNA片段,接下來以系列產出(Sequence production)將DNA片段標示後頭尾比對整理,最後藉著聚合酶連鎖反應(polymerase chain reaction, PCR)、引子移步(primer walking),基因圖譜繪製等技術把DNA片段順序做正確的排列,並補齊缺失以還原成完整的DNA序列。基因體註解(genome annotation)12就是把DNA序列中有意義的資訊註解出來,作法是將核醣體RNA先找出並估計基因起始點及終點位置,利用基因資料庫比對推測出可能性最高的基因。
計算演化生物學(Computational evolutionary biology
計算演化生物學所要解決的問題在於物種的起源及演化過程。最具代表的就是演化樹的建立13,14,15。演化樹又稱系統發生樹,是用來表明有親緣關係的各物種間的演化關係樹狀圖,各節點間的距離則是演化距離。傳統的生物學會以物種的外觀及生理特徵來作度量,而現今多以比對DNA序列間的差異來建立系統發生樹。重建系統發生樹的方法通常包括:距離法、離散特徵法、非加權組平均法(Unweighted Pair Group Method with Arithmetic Mean, UPGMA) 16、鄰近連接法(Neighbor-Joining, NJ) 17、最大簡約法(Maximum Parsimony, MP) 18 及最大似然估計法(Maximum Likelihood, ML)19等等。除了比對DNA序列之外,生物資訊整合了以上方法,能夠對基因組的比對分析能提供更進一步的資訊譬如基因漂移(genetic drift)等。
度量生物多樣性Biodiversity
生物多樣性一詞在1986年被提出,是一個描述自然界多樣性程度的指標。廣義的生物多樣性主要分成三個不同的層面包括遺傳多樣性21、物種多樣性及生態多樣性20。遺傳多樣性指的是物種內或物種間遺傳物質的多樣性,包含DNA,基因的多型性。廣義的遺傳多樣性指的是地球上生物攜帶遺傳物質訊息的總和。
物種多樣性指的是地球上動植物種類的多樣性,通常是用來衡量某一地區生物資源是否健全的指標。物種多樣性可以指某一特定地區物種的豐富程度,或是指物種分佈的均勻程度。而生態多樣性或生態系統多樣性指的是包含各種物種及環境所構成之生態系統的豐富及平均程度。最近也有人倡導景觀多樣性(landscape diversity)的概念。
蛋白質結構預測Protein structure prediction
和蛋白質的胺基酸序列比較起來,蛋白質的結構對於理解蛋白質的功能性更為重要,所以蛋白質的結構預測也是生物資訊相當重要的一個研究區塊。蛋白質結構可分成四個等級:一級結構為胺基酸序列;二級結構為主要由氫鍵組成的結構包括α螺旋和β摺疊;三級結構為由二級結構所組成的蛋白質分子穩定結構;四級結構則是由不同肽鏈互相作用形成的蛋白質複合物分子。
一級結構預測其實就是胺基酸序列的分析,而蛋白質二級結構的預測難度就高很多。主要方法是評估胺基酸形成α螺旋和β摺疊二級結構的傾向,或者計算穩定能量態來預測,目前正確率約在60%左右23,24。如果使用多序列比對的方式可將預測正確率提高到80%,而像類神經網路(Cellular Neural Network,CNN)25、隱馬爾可夫模型(Hidden Markov Model, HMM)26 及支持向量機(Support Vector Machine, SVM) 27等都是常用的算法。至於三級結構的預測則可從同源模擬法(Homology modeling)28、摺疊辨識法(Folding recognition)29 以及重頭起算法(Ab initio)三種方法出發。
蛋白質表達分析(Analysis of protein expression
蛋白質體學是繼基因體學之後, 在後基因體時代生命科學領域最重要的課題之一30。蛋白質體學描述各種生物基因組在細胞內表達的全部蛋白質的表達模式及功能模式。蛋白質的數量和結構上都遠遠多於基因體,再加上轉譯後修飾作用,分析工作會變得相當複雜。而質譜(Mass Spectrometry)分析和蛋白質微陣列(Protein microarray)技術的不斷更新,推動了蛋白質體學的成熟。在質譜方面,無論是以質譜儀進行蛋白質序列的研究,或蛋白質身份鑑定(Protein identification) 31,32,亦或是建立蛋白質-蛋白質交互作用(Protein-protein interactions, PPI)相關研究34等,生物資訊的方法都提升了蛋白質的定性及定量效果。
無論是探討特定功能的蛋白質,或蛋白質圖譜(Protein profile)33或是PPI等方面都可以用蛋白質微陣列技術進行分析。蛋白質微陣列是目前最成熟且使用最廣泛的生物晶片,提供了一個在活體外容易監控及系統性分析蛋白質交互作用的方法。在微陣列的數據分析上,如叢集分析(Cluster analysis)35、自組織型態(Self-organizing maps)36及階層分析(Hierarchical analysis)38等都是常用的方法。
比較基因組體學(Comparative genomics
人類基因體計畫的啟動造成了DNA定序技術的提升,並產生了非常龐大的基因體定序資料。而比較基因組體學就是對已知的基因或基因組結構進行比較,經由比較而瞭解基因的功能、結構或演化之間的關係 38,39,40。比較基因組體學依對象可以分成兩大類,包括種間之比較基因組體學(Interspecific comparative genomics)及種內之比較基因組體學(Intraspecific comparative genomics)。透過不同物種間之基因序列比較,能夠鑑定出基因位置、調控序列的位置等。通過比較具有共同祖先的物種,更能夠鑑定出它們之間具有種屬差別的基因組,或具有同線性的基因組。同時比較基因組體學也和系統發生學相輔相成。
不但物種之間存在著基因的差異性,同一物種的群體內也存在著變異性,這就是種內之比較基因組體學主要要探討的現象。單核苷酸多態性(single-nucleotide polymorphism,SNP)的意義是在DNA序列上發生的單一核苷酸鹼基之間的變異,且普遍認為SNP是造成人類遺傳基因差異的主要原因 41。而用來檢測分析SNP的方式包括生物資訊方法的基因微陣列、EST序列比對(Expressed Sequence Tag)等42。此外,拷貝數變異(Copy number variation, CNV)44也是比較基因組體學中很重要的一個項目。
基因表達分析(Analysis of gene expression
和蛋白質表達分析相比,基因體表達分析更為成熟,且包含很多以測量mRNA為主的技術。包括DNA微陣列44,45、表達序列標籤(expressed cDNA sequence tag)、基因表達連續分析(serial analysis of gene expression, SAGE)46、大規模平行信號測序(massively parallel signature sequencing, MPSS)47、多元原位雜交法(multiplexed in-situ hybridization)等48。而生物資訊方法也有助於幫助降低數據內的雜訊。
調控分析(Analysis of regulation
要瞭解基因如何被調控,分析轉錄因子(transcription factors)是非常重要的。轉錄因子為基因表現的調控因子,會辨認序列的基因啟動子(promoter),以便在適當的時機開啟基因表現,並控制基因表現的程度。轉錄因子與DNA之間的交互作用控制很多重要的生理反應,生物資訊方法應用在表達基因表現的數據,基因組序列和互相作用並建構調控網路模型,並通過統計或演算法分析網路模型的性質及結構。
系統生物學及網路分析(Network and systems biology
系統生物學也是近代大量使用生物資訊方法的研究領域之一,透過研究生物系統中所有組成成分的構成,以及在特定條件下這些成分之間的相互關係的學科。譬如生物個體、組織或細胞的模擬、生化代謝途徑的動態分析、信號傳遞路徑的相互作用及基因調控網路等。而要分析這麼複雜的生物系統必須整合實驗以及計算方法。從細胞系統的電腦模擬到新陳代謝網路,及酵素、信號傳遞路徑及基因調控網路的模擬及可視化,蛋白質-蛋白質交互關係網路等生物網路,大量的資訊方法、圖論、動態分析、網路分析、統計模型及複雜系統理論讓我們從系統層面的觀點去分析這複雜的生物系統。

撰稿|吳子青
編輯|張    捷

參考文獻

  1. Watson, James D., and Francis HC Crick. “Molecular structure of nucleic acids.” Nature 171.4356 (1953): 737-738.
  2. Hogeweg, Paulien. “The roots of bioinformatics in theoretical biology.” PLoS computational biology 7.3 (2011): e1002021.
  3. Hesper, B., and P. Hogeweg. “Bioinformatica: een werkconcept.” Kameleon 1.6 (1970): 28-29.
  4. Hogeweg, Pauline. “Simulating the growth of cellular forms.” Simulation 31.3 (1978): 90-96.
  5. Johnson, George, and Tai Te Wu. “Kabat database and its applications: 30 years after the first variability plot.” Nucleic acids research 28.1 (2000): 214-218.
  6. Moody, Glyn. Digital code of life: how bioinformatics is revolutionizing science, medicine, and business. John Wiley & Sons, 2004.
  7. Sawicki, Mark P., et al. “Human genome project.” The American journal of surgery 165.2 (1993): 258-264.
  8. Collins, Francis, and David Galas. “A new five-year plan for the US Human Genome Project.” SCIENCE-NEW YORK THEN WASHINGTON- 262 (1993): 43-43.
  9. Sanger, Frederick, Steven Nicklen, and Alan R. Coulson. “DNA sequencing with chain-terminating inhibitors.” Proceedings of the National Academy of Sciences 74.12 (1977): 5463-5467.
  10. Staden, R. “A strategy of DNA sequencing employing computer programs.”Nucleic acids research 6.7 (1979): 2601-2610.
  11. Anderson, Stephen. “Shotgun DNA sequencing using cloned DNase I-generated fragments.” Nucleic Acids Research 9.13 (1981): 3015-3027.
  12. Stein, Lincoln. “Genome annotation: from sequence to biology.” Nature reviews genetics 2.7 (2001): 493-503.
  13. Penny, David, Michael D. Hendy, and Michael A. Steel. “Progress with methods for constructing evolutionary trees.” Trends in Ecology & Evolution 7.3 (1992): 73-79.
  14. Hodge, Tony, M. Jamie, and T. V. Cope. “A myosin family tree.” Journal of Cell Science 113.19 (2000): 3353-3354.
  15. Doolittle, W. Ford. “Uprooting the tree of life.” Scientific American 282.2 (2000): 90.
  16. Legendre, Pierre, and Louis Legendre. “Numerical Ecology: second english edition.” Developments in environmental modelling 20 (1998).
  17. Saitou, Naruya, and Masatoshi Nei. “The neighbor-joining method: a new method for reconstructing phylogenetic trees.” Molecular biology and evolution4.4 (1987): 406-425.
  18. Fitch, Walter M. “Toward defining the course of evolution: minimum change for a specific tree topology.” Systematic Biology 20.4 (1971): 406-416.
  19. Pfanzagl, Johann. Parametric statistical theory. Walter de Gruyter, 1994.
  20. Larsson, T. B. “Biodiversity evaluation tools for European forests.” Criteria and Indicators for Sustainable Forest Management at the Forest Management Unit Level (2001): 75.
  21. Groom, Martha J., Gary K. Meffe, and Carl Ronald Carroll. Principles of conservation biology. Sunderland: Sinauer Associates, 2006.
  22. Hurlbert, Stuart H. “The nonconcept of species diversity: a critique and alternative parameters.” Ecology 52.4 (1971): 577-586.
  23. Yang, An-Suei, and Lu-yong Wang. “Local structure prediction with local structure-based sequence profiles.” Bioinformatics 19.10 (2003): 1267-1274.
  24. Chou, Peter Y., and Gerald D. Fasman. “Prediction of protein conformation.”Biochemistry 13.2 (1974): 222-245.
  25. Holley, L. Howard, and Martin Karplus. “Protein secondary structure prediction with a neural network.” Proceedings of the National Academy of Sciences 86.1 (1989): 152-156.
  26. Sonnhammer, Erik LL, Gunnar von Heijne, and Anders Krogh. “A hidden Markov model for predicting transmembrane helices in protein sequences.” Ismb. Vol. 6. 1998.
  27. Ward, Jonathan J., et al. “Secondary structure prediction with support vector machines.” Bioinformatics 19.13 (2003): 1650-1655.
  28. Schwede, Torsten, et al. “SWISS-MODEL: an automated protein homology-modeling server.” Nucleic acids research 31.13 (2003): 3381-3385.
  29. Jones, David T. “Protein secondary structure prediction based on position-specific scoring matrices.” Journal of molecular biology 292.2 (1999): 195-202.
  30. Wasinger, Valerie C., et al. “Progress with gene‐product mapping of the Mollicutes: Mycoplasma genitalium.” Electrophoresis 16.1 (1995): 1090-1094.
  31. Ashcroft, Alison E. “Protein and peptide identification: the role of mass spectrometry in proteomics.” Natural product reports 20.2 (2003): 202-215.
  32. Mo, Wenjun, and Barry L. Karger. “Analytical aspects of mass spectrometry and proteomics.” Current opinion in chemical biology 6.5 (2002): 666-675.
  33. Kingsmore, Stephen, Girish Nallur, and Barry Schweitzer. “Protein expression profiling.” U.S. Patent No. 6,531,283. 11 Mar. 2003.
  34. Waugh, David F. “Protein-protein interactions.” Advances in protein chemistry 9 (1954): 325-437.
  35. Eisen, Michael B., et al. “Cluster analysis and display of genome-wide expression patterns.” Proceedings of the National Academy of Sciences 95.25 (1998): 14863-14868.
  36. Tamayo, Pablo, et al. “Interpreting patterns of gene expression with self-organizing maps: methods and application to hematopoietic differentiation.”Proceedings of the National Academy of Sciences 96.6 (1999): 2907-2912.
  37. Livingstone, Craig D., and Geoffrey J. Barton. “Protein sequence alignments: a strategy for the hierarchical analysis of residue conservation.” Computer applications in the biosciences: CABIOS 9.6 (1993): 745-756.
  38. King, David C., et al. “Finding cis-regulatory elements using comparative genomics: some lessons from ENCODE data.” Genome research 17.6 (2007): 775-786.
  39. Miller, Webb, et al. “Comparative genomics.” Annu. Rev. Genomics Hum. Genet. 5 (2004): 15-56.
  40. Nobrega, Marcelo A., and Len A. Pennacchio. “Comparative genomic analysis as a tool for biological discovery.” The Journal of physiology 554.1 (2004): 31-39.
  41. Sachidanandam, Ravi, et al. “A map of human genome sequence variation containing 1.42 million single nucleotide polymorphisms.” Nature 409.6822 (2001): 928-933.
  42. Adams, Mark D., et al. “Complementary DNA sequencing: expressed sequence tags and human genome project.” Science 252.5013 (1991): 1651-1656.
  43. Stankiewicz, Pawel, and James R. Lupski. “Structural variation in the human genome and its role in disease.” Annual review of medicine 61 (2010): 437-455.
  44. Schena, Mark, et al. “Quantitative monitoring of gene expression patterns with a complementary DNA microarray.” Science 270.5235 (1995): 467-470.
  45. Chen, Jeremy JW, et al. “Profiling expression patterns and isolating differentially expressed genes by cDNA microarray system with colorimetry detection.” Genomics 51.3 (1998): 313-324.
  46. Velculescu, Victor E., et al. “Serial analysis of gene expression.” Science-AAAS-Weekly Paper Edition 270.5235 (1995): 484-486.
  47. Brenner, Sydney, et al. “Gene expression analysis by massively parallel signature sequencing (MPSS) on microbead arrays.” Nature biotechnology 18.6 (2000): 630-634.
  48. Levsky, Jeffrey M., and Robert H. Singer. “Fluorescence in situ hybridization: past, present and future.” Journal of Cell Science 116.14 (2003): 2833-2838.

About the author

吳子青

吳子青

清大化學系畢,並直攻清大生命科學所博班。後轉至台大生物環境系統工程研究所研究類神經網路, 最佳化及Soft Computation。目前在美國Purdue大學農業生物工程所攻讀博士班,研究方向為發展顯微鏡影像處理演算法及軟體開發及深度學習, 以及數值分析數學模型應用在斑馬魚胚胎研究以及發育生物學的應用上。也是Dosudo矽谷工程師深度學習讀書會及的發起人, 以及Cubix health technologies的cofunder.

2 Comments

Leave a Comment