突變可以改變基因表達與生物體的外在表現,進而影響物種在環境變化下的適應度;另一方面,啟動子序列(promotor sequence)也對於基因表達扮演重要的調控角色,了解啟動子序列與基因表現型及適應度之間的關係可以幫助我們回答基因調節的問題,並將之應用在生物工程上。
進化生物學中用「適應度地形(fitness landscape)」描述基因表達與演化繁殖成功兩者之間的關係,而完整描繪適應度地形(fitness landscape)一直是生物學上的遠大目標,但序列空間的遼闊使得此事變成一個巨大的挑戰。然而,隨著人工智慧的發展,以及各領域之間相互結合,將深度學習的數學模型用於預測生物學上的未知也成了研究上一條可行之路。以麻省理工學院為首的研究團隊,使用酵母菌(Saccharomyces cerevisiae)建立啟動子的序列表達模型,希望能藉解密調節演化的原則,以建構完整的適應度地形 [1]。
該研究團隊利用先前建立的大量製造隨機序列啟動子之技術 [2],並將這些長度 80 個鹼基對(base pair, bp)的啟動子 DNA 序列轉殖進含有黃色螢光蛋白的(yellow fluorescent protein, YFP)表現載體,送入酵母菌中表現,分成 18 組進行基因表現預測。基因序列與 YFP 亮度結果則作為卷積神經網路(convolutional neural network, CNN)的訓練資料,建立一個可預測序列表達的模型。
研究團隊設定了三種基因變異的模擬情境:隨機遺傳漂變(random genetic drift)、穩定選擇(stabilizing selection)以及極端表達下的定向天擇(directional selection for extreme expression levels,利模型預測這些情境下的序列表達,再將結果進行實驗測試。
- 隨機遺傳漂變(random genetic drift)
隨機遺傳漂變是指在族群中,等位基因於世代間發生隨機變異的現象。為模擬調控序列的隨機遺傳漂變,研究人員在任意起始序列上隨機誘導單一突變(single mutation),並且不斷重複此步驟,接著使用卷積模型預測突變序列與起始序列在表現上的差異。隨著突變基因數量增加,基因表達差異也越大,當 80 bp 的序列中含有多達 32 個突變時,與原始序列相比已是兩個不相關的序列(圖一)。
- 穩定選擇(stabilizing selection)
穩定選擇是指在演化過程中族群中多數個體擁有的性狀會被保留,族群中極端值則會被剔除,以增強族群的穩定性。研究人員利用模型研究穩定選擇的調控複雜度 ,結合他們先前開發的模型來對應轉錄因子(Transcription factor)參數,將調控複雜度定義為 1- Gini(轉錄因子交互作用強度),以衡量模型的預測結果。研究依調控複雜度分為高、低組(調控複雜度高表示轉錄因子與基因表達之間的關聯性較高,反之則表示轉很少轉錄因子影響基因表現),並在每個世代中都會引入一個單突變,隨著隨機突變的累積,極端複雜序列的調控複雜度會趨減,並接近隨機序列的平均值(圖二),究其原因可能是不同調節因子的角色逐漸改變而複雜性極端(極端複雜、極端不複雜)的序列皆趨向隨機序列的平均複雜性,此結果也可能意味著,對單一環境中的天然序列而言,其複雜的調控並沒有選擇性。
- 定向天擇(directional selection for extreme expression levels)
不同的等位基因對環境的適應度會有程度上的差異,定向天擇指的便是具有最大適應度的等位基因能在族群中保留、持續壯大的現象。為了研究定向天擇對表達程度的影響,研究團隊模擬強選擇弱突變(strong-selection weak-mutation,SSWM),其中的每個突變可能是利或有害的,且突變僅考單鹼基的取代。起始表達程度不同的序列大多會在培養基中迅速增加到有 3 到 4 個突變,接近飽和的極端程度。序列會經由不同的途徑演化成高表達或低表達。透過分析突變步驟的預測與實際測量結果(圖三),研究人員發現啟動子演化快速,且受到受益突變收益遞減機制(diminishing returns epistasis,註 1)的影響。
註 1:在合適基因型中的有利突變所獲得的效益比在不合適的基因型中所能獲得的要少
評估序列選擇的指標:表達守恆係數 (expression conservation coefficient ,ECC)
為了更大規模的預測數以億計的序列表現量,研究團隊開發出 Transformer 模型,較原有卷積模型少了近 20 倍的參數,但兩者就基因漂變、定向天擇等的預測結果相似。Transformer 模型被用以評估天然調控序列的選擇壓力,以表達守恆係數(expression conservation coefficient,ECC)作為指標,其中,正值 ECC 意味著穩定表達:序列中的變異比預期地要少;負值 ECC 代表分歧性選擇 (diversifying selection):序列發生較多變異。預結果顯示,有超過七成的啟子 ECC 為正值(圖四),此結果與直接測量基因表現的實驗結果有一致性。此外,ECC 高的基因多與重要的細胞功能(如:蛋白質代謝)有關,而 ECC 低的基因則主要調控羧酸、醇的代謝機制,這可能反映了這些調控發酵的基因在不同環境下的適應性。
演化空間中的適應度地形
最,研究隊想道是否可以透過可進化性原型(evolvability archetypes)來區分調控演化向量(regulatory evolvability vector);此處的原型意味著典型特徵(canonical pattern)的極端,因此每個單獨序列的演化向量可以通過其與各個原型的相似性來表示。
研究團隊在此處使用的適應度地形依據可進化性的相似性進行排列,並依此為基因序列分組。通過將 1011 個已被測序的酵母株之啟動子演化向量放入原型進化空間中,研究人員希望能知道這些序列如何探索演化空間。結果發現:當一個菌株的基因啟動子接近可延展原型時,其在其他菌株中的直系同源物傾向於廣泛分佈在可進化空間中;當啟動子靠近穩健性裂(robustness cleft)時,它的直系同源物也會有相同策略。另外,研究結果也反映了穩定選擇限制進化的方式:未處於強穩定選擇下的啟動子因為有不同表達程度的等位基因,使其能夠更自由地探索表達空間,並且快速適應新的表達。
結語
本文的研究團隊使用深度學習模型預測酵母菌的演化,為基因工程的研究方法開闢一條別樣的思路,預測模型的輔助或許能提升基因研究過程的效率,減少生物研究的試錯成本。然而,由於深度學習的預測只提供了結果,無法闡明其中緣由,因此在預測模型之外,我們也需要科學家們的轉譯為研究結果提出具說服力的洞見。
Main Article:
Vaishnav, E. D., de Boer, C. G., Molinet, J., Yassour, M., Fan, L., Adiconis, X., Thompson, D. A., Levin, J. Z., Cubillos, F. A., & Regev, A. (2022). The evolution, evolvability and engineering of gene regulatory DNA. Nature, 603(7901), 455–463. https://doi.org/10.1038/s41586-022-04506-6
參考文獻:
[1] Vaishnav, E. D., de Boer, C. G., Molinet, J., Yassour, M., Fan, L., Adiconis, X., Thompson, D. A., Levin, J. Z., Cubillos, F. A., & Regev, A. (2022). The evolution, evolvability and engineering of gene regulatory DNA. Nature, 603(7901), 455–463. https://doi.org/10.1038/s41586-022-04506-6
[2] de Boer, C.G., Vaishnav, E.D., Sadeh, R. et al. Deciphering eukaryotic gene-regulatory logic with 100 million random promoters. Nat Biotechnol 38, 56–65 (2020). https://doi.org/10.1038/s41587-019-0315-8
關鍵字:基因調控、演化、人工智慧、深度學習、酵母菌
撰文|游霈柔
審稿|吳畇芸