蛋白質結構預測一直是科學家矢志解決的一大難題,國際間更有 CASP (Critical Assessment of Techniques for Protein Structure Prediction)競賽讓各團隊能一展身手。去年(2020)CASP14 競賽由 Google 旗下 DeepMind 開發的 AlphaFold(隊名 AlphaFold2)運用深度學習技術拔得頭籌,不僅震撼科學界,也加速了深度學習在蛋白質結構預測上的應用進展。
近(15)日,AlphaFold 團隊在 Nature [1] 發表了背後原理技術,而同日,長期致力於蛋白質結構設計與預測的華盛頓大學 David Baker 團隊,也在 Science [2] 發表了同樣應用深度學習而開發的 RoseTTAFold。
AlphaFold 取目標蛋白的完整胺基酸序列及同源蛋白的比對序列(aligned sequence),組成多重比對序列(multiple sequence alignment, MSA),能以此直接預測整體結構。AlphaFold 兩大核心模組為 Evoformer 與結構預測模組,Evoformer 模組將蛋白質質結構預測視為 3D 空間中的圖像推論(graphic inference),以序列之間及胺基酸之間互相比較的不同數組(array)為資訊,學習序列與胺基酸位置的關聯並預測未知蛋白的數組。接著由結構預測模組將之轉換為最終結構。AlphaFold 的神經網絡強調以最終輸出結果(output)比較的資訊流失(loss)進行訓練並改進,而非單純不斷將結果提供給系統學習,如此能提升預測準確度但又能減少訓練時間。如預測一段 384 個胺基酸序列的結構,以單一 GPU(V100 GPU)僅需 9.2 分鐘,若只讓 Evoformer 處理一次(跳過其所謂 ensembling 步驟),耗時則降低至 1.1 分鐘。
去年的 CASP14 競賽中,AlphaFold 十分精準的預測了競賽範圍內的蛋白質結構,預測結構與實際結構骨架(backbone)的均方根誤差 (Root Mean Square Deviation,RMSD)中位數僅有 0.94 Å,大幅超越當時次佳方法達成的 2.8 Å。然而 AlphaFold 目前仍有適用限制,當比對序列相似度較低、或結構受鄰近不同蛋白域(domain)接觸影響的蛋白質,其預測準確度則大幅降低。
另一方面,華盛頓大學 Baker 團隊開發的 RoseTTAFold 同樣以多重序列比對 MSA 作為主要輸入資訊,不只取經於 AlphaFold 展現的優勢:除了一維序列資訊、二維距離圖,更進一步將 3D 座標納入學習系統,建立三軌神經網絡(three-track neural network),並改採片段化的學習方式。 RoseTTAFold 不直接讀取完整胺基酸序列資訊,而是先以不連續的片段學習、預測,再最終統合為整體結構。這樣的方式不僅減輕硬體負擔,也能取得更準確的結構預測。
針對小於 400 個胺基酸的蛋白質,RoseTTAFold 在花約 1.5 小時進行初步序列與模板搜尋後,以單一 GPU(RTX2080 GPU)運算約 10 分鐘便能產生蛋白質骨架三維坐標。除了解析結構,團隊也認為由於 RoseTTAFold 的片段化學習方式,需要將片段結構統合為最終結構,此過程能進一步應用於建立蛋白複合體之間交互作用的模型。
比較兩者,RoseTTAFold 在 MSA 深度與模型準確度的關聯性表現比 AlphaFold 佳,但或許是因硬體限制,就 CASP 競賽中的蛋白質結構預測表現仍舊略遜一籌。值得一提的是,RoseTTAFold 若以 GPCR(G-protein coupled receptor,G-蛋白偶聯受體)、與人類疾病相關蛋白質進行預測,能成功預測活化態、非活化態的結構,且就算相近同源蛋白結構未知也能有良好預測表現。
AlphaFold 和 RoseTTAFold 的神經網絡設計雖各有所長,但都能透過一維胺基酸序列直接預測出三維蛋白質結構,成為了解蛋白質結構的一大利器,此外也能加速分析實驗上透過結晶法或冷凍電顯(CryoEM)取得的結構圖譜資訊,將裨益相關生物功能、機制研究及藥物開發。
相關原始碼及運算伺服器|
1. AlphaFold 開放原始碼: https://github.com/deepmind/alphafold
2. RoseTTAFold 開放原始碼: https://github.com/RosettaCommons/RoseTTAFold
3. RoseTTAFold 結構預測伺服器: Robetta(開放使用)
延伸閱讀|突破原子級解析度:冷凍電顯異軍突起
延伸閱讀|結構生物學專題
參考文獻:
- Jumper, J., Evans, R., Pritzel, A., Green, T., Figurnov, M., Ronneberger, O., Tunyasuvunakool, K., Bates, R., Žídek, A., Potapenko, A., Bridgland, A., Meyer, C., Kohl, S. A. A., Ballard, A. J., Cowie, A., Romera-Paredes, B., Nikolov, S., Jain, R., Adler, J., … Hassabis, D. (2021). Highly accurate protein structure prediction with AlphaFold. Nature, 1–11. https://doi.org/10.1038/s41586-021-03819-2
- Baek, M., DiMaio, F., Anishchenko, I., Dauparas, J., Ovchinnikov, S., Lee, G. R., Wang, J., Cong, Q., Kinch, L. N., Schaeffer, R. D., Millán, C., Park, H., Adams, C., Glassman, C. R., DeGiovanni, A., Pereira, J. H., Rodrigues, A. V., Dijk, A. A. van, Ebrecht, A. C., … Baker, D. (2021). Accurate prediction of protein structures and interactions using a three-track neural network. Science. https://doi.org/10.1126/science.abj8754
撰文|黃云宣
審稿|蔡宗霖、周嗣堯
[…] 小分子藥物的開發與應用,在老化與疾病進程中也扮演了關鍵的角色。科學家利用電腦輔助藥物設計、高通量篩選、與蛋白質降解藥物等,嘗試突破藥物開發的瓶頸。近年深度學習與人工智慧在蛋白質結構預測方法帶來重大突破,並於 2021 年末獲選為 Science 期刊的 Breakthrough of the Year [4],我們亦曾以快訊報導 AlphaFold 和 RoseTTAFold 如何以胺基酸序列預測蛋白結構及其應用性。 […]