機器與深度學習 科學報導 結構生物學 諾貝爾獎 Nobel Prize

通用型生物分子結構預測與設計:RoseTTAFold All-Atom

在結構生物學領域中,蛋白質等生物分子的結構目前主要可以由三種實驗方法得到:X-ray 繞射儀、核磁共振儀(NMR)、冷凍電子顯微鏡(cryoEM)。三種方法的結果各有優劣,但共同的缺點是實驗過程耗時、耗材成本高、儀器不易取得。因此,使用電腦進行結構預測,可以改善前述的問題,並可以在實驗前進行初步的評估,以避免不必要的實驗花費。

延伸閱讀|結構生物學(Structural Biology) 專題 

然而,結構預測是個難題,全球性的蛋白質結構預測競賽:CASP [2] 從 1994 年每兩年舉行一次,直到 CASP13 的 AplhaFold(2018)、CASP14 的 AlphaFold2(2020)出現後,才突破瓶頸,大幅提升預測的準確度,解決了這個難題。他們巧妙的結合多重序列比對(multiple sequence alignment, MSA)的資訊與深度學習的技術,將大量的 MSA 資訊視為胺基酸殘基(residue)共演化(coevolution)的圖譜(image),讓模型自行從資料中找出隱含的資訊與關聯性,最後預測序列上每個胺基酸原子的空間座標位置。RoseTTAFold(RF)也是利用類似的概念與技術。

延伸閱讀|#NEWS AlphaFold 與 RoseTTAFold:蛋白質結構預測誰更勝一籌?

RoseTTAFold All-Atom(RFAA)基於 RF 的架構,使用三軌(three-track)作為模型的骨幹(圖一),涵蓋了序列(1D 資訊)、同源模板的胺基酸骨架(backbone)殘基成對距離(residue pairwise distance)(2D 資訊)、重原子(heavy atom, 非氫原子)的座標資訊(3D 資訊)的輸入資訊,使模型可以自行綜合評估不同的資訊,給出最好的預測結果。在 AlphaFold2 及 RF 模型的設計中有個回收(recycling)的步驟 ,可以讓模型在給出最終結果前,自我審視並優化結果。模型首先會用同源模板的 3D 資訊進行預測,接著,把初步預測出的重原子座標結果再次進行前處理後,當作 2D/3D 軌的輸入資訊,讓模型重新預測一次結果,重複幾次相同的 ”回收” 步驟後,才給出最終的重原子座標結果。

圖一、RF 的三軌模型架構示意圖 [3]。三條平行的軌可以同步處理不同類型的資料,如序列、胺基酸對(residue-pair)、3D 結構,在整合資料後,給出預測的結構。 圖片來源:https://doi.org/10.1126/science.abj8754

為了使模型能夠廣泛應用於各種生物分子上(圖二), RFAA 的設計讓使用者可以提供核酸序列、金屬離子、小分子、共價修飾等額外的資訊,透過資料前處理的轉換,可將序列、分子鍵長、鍵角、二面角(dihedral angle)、立體異構等資訊作為模型的輸入,讓模型能夠考慮蛋白質與其他分子間隱含的互動關係,如此一來,不僅能準確預測蛋白質本身,還能預測出生物複合體(complex)或共價修飾後蛋白質。

圖二、使用 RFAA 模型廣泛用於預測生物分子結構 [1]。(A)RFAA 使用蛋白質序列作為必要輸入,其餘輸入 (如:核酸序列、金屬離子、小分子、共價鍵殘基) 則可根據使用者需求作為補充輸入,模型會根據輸入的資料來預測結果,可能包含蛋白質本身、蛋白質-核酸生物分子複合體 (complex)、蛋白質-金屬生物分子複合體、蛋白質-小分子複合體、共價修飾蛋白質。 (B)輸入資料前處理的流程與輸出。序列型的資料會被用來進行多重序列比對,比對結果(1D 資訊)會被模型利用,除此之外,透過序列找到同源的結構模板(2D 和 3D 資訊)也會被模型利用。分子的檔案會被分成三個部分,元素的資訊 (1D 資訊)、化學分子接合的關係與方式(2D 資訊)、光學立體結構關係(3D 資訊)。這些輸入資訊會分別被 RF All-Atom 中的 1D/2D/3D 軌 (track) 利用,資訊也會在不同的軌中交換,模型會綜合所有資訊,給予兩個資訊作為輸出:(1)重原子(heavy atom, 非氫原子)的座標;(2)預測的錯誤率(predicted error)。 圖片來源:https://doi.org/10.1126/science.abj8754

為了檢驗 RFAA 在蛋白質-小分子複合體(protein-small molecule complex)的預測準確度,團隊使用了 CAMEO(Continuous Automated Model EvaluatiOn)[4] 進行盲測。有 43% 的 CAMEO 目標(target)被 RFAA 自信地預測(predicted alignment error interaction <10),其中 77% 的結構預測十分接近,配體(ligand)的均方根差(root mean square deviation, RMSD)皆小於 2Å。另一方面,RFAA 在共價修飾的蛋白質的資料集上,將近一半(46%)的預測結果上,都十分準確(RMSD < 2.5Å)。

雖然 RFAA 能夠直接給予蛋白質-小分子複合體的結構,但是仍需預先知道蛋白質序列,因此在設計分子上仍有諸多限制。為了克服這項限制,先前團隊曾採用擴散模型(diffusion model)(註一),允許在未知序列的狀態下,生成跟另一個目標蛋白質分子有高親和力(affinity)的蛋白質接合子(binder)[5]。在本篇研究中,團隊擴展這個方法到小分子上,讓模型能夠根據小分子的結構及資訊,在未知序列的狀態下,生成一個蛋白質接合子 (圖三 A)。

註一:擴散模型的方法是透過將訓練資料階段性加上高斯雜訊(Gaussian noise),使模型一步步學習如何去除雜訊(denoise),當模型學習完成後,便可以直接從一個隨機的雜訊產生結果。

圖三、使用 RFdiffusionAA 進行接合子(binder)設計並以實驗驗證 [1]。(A)接合子生成示意圖。起初,殘基會隨機產生在小分子周圍,RFdiffusionAA 會階段性去噪,讓隨機分佈的殘基逐漸形成有秩序且合理的蛋白質結構,並圍繞在小分子周圍。(B)使用模型設計 Digoxigenin 的接合子。左一圖:輸入小分子結構與所設計出蛋白質結構。左二圖:結合位置放大圖,其中紫色的文字為在訓練資料集裡的所有蛋白中結構最接近的TM score(template modelling score),而藍色的文字為在訓練資料集裡具有相似配體(Taniomoto similarity > 0.5)的蛋白中結構最接近的TM score。右二圖:等溫卡計(isothermal calorimetry, ITC)量測結果,結合親和力(binding affinity, Kd)為 343 nM,ΔH:結合焓(enthalpy of binding)。右一圖:在不同溫度下,原二色光譜儀(circular dichroism, CD)結果(在 26 mM 蛋白質濃度下),小圖為 MRE(波長 220 nm)與溫度的關係圖,MRE:摩爾橢圓率(molar ellipticity)。 圖片來源:https://doi.org/10.1126/science.abj8754

在本篇中,團隊使用了一個蛋白質-小分子複合體的資料集,針對資料集中蛋白質每個殘基的 C-alpha 座標及布朗運動方式加上了 3D 高斯雜訊(小分子的結構與座標保持固定),讓模型 RFdiffusionAA 學習去噪。團隊成功使用 RFdiffusionAA 針對同一小分子去產生多個不同蛋白質結合子。

接著,團隊嘗試使用  RFdiffusionAA 針對一個心臟疾病相關的小分子 digoxigenin(DIG)設計結合子(圖三B)。結果顯示,團隊所設計出來的結合子 DIG_1,以等溫卡計(isothermal calorimetry, ITC)進行量測,解離常數(disocciation constant, Kd)為 343 nM,表示具有高親和力,此外,從原二色光譜儀(circular dichroism, CD)的結果顯示 DIG_1 在 95°C 仍能與 DIG 保持穩定。團隊在文章中有展示其他設計結合子的例子,也皆顯示 RFdiffusionAA 對於潛在的應用與對於生化實驗及藥物設計的幫助。

David Baker 團隊所開發的 RFAA 展示了訓練單一個模型便可以準確預測通用的生物分子組合物(biomolecular assemblies),甚至包含許多非蛋白的結構。雖然預測的結果仍有進步空間,但 RFAA 可以被更廣泛地應用在不同的生物研究問題上進行分子結構預測。而延伸的 RFdiffusionAA 則可以在未知序列的情況下,設計出高親和力的蛋白結合子,並能夠應用在真實實驗場域中。

Main article:

Krishna, R., Wang, J., Ahern, W., Sturmfels, P., Venkatesh, P., Kalvet, I., … & Baker, D. (2024). Generalized biomolecular modeling and design with RoseTTAFold All-Atom. Science, 384(6693), eadl2528.

參考文獻 :

  1. 15th Community Wide Experiment on the Critical Assessment of Techniques for Protein Structure Prediction. https://predictioncenter.org/casp15/index.cgi
  2. Baek, M., Anishchenko, I., Humphreys, I. R., Cong, Q., Baker, D., & DiMaio, F. (2023). Efficient and accurate prediction of protein structure using RoseTTAFold2. BioRxiv, 2023-05.
  3. Haas, J., Barbato, A., Behringer, D., Studer, G., Roth, S., Bertoni, M., … & Schwede, T. (2018). Continuous Automated Model EvaluatiOn (CAMEO) complementing the critical assessment of structure prediction in CASP12. Proteins: Structure, Function, and Bioinformatics, 86, 387-398.
  4. Watson, J. L., Juergens, D., Bennett, N. R., Trippe, B. L., Yim, J., Eisenach, H. E., … & Baker, D. (2023). De novo design of protein structure and function with RFdiffusion. Nature, 620(7976), 1089-1100.

關鍵字:結構生物學、機器學習、深度學習、結構預測、諾貝爾獎、藥物設計

撰文|楊淯元
審稿|葉國掄

About the author

Avatar

楊 淯元

畢業於國立臺灣大學農業化學系與化學工程系雙主修,目前就讀於生醫電子與資訊學研究所。研究領域為生物資訊學、化學資訊學、分子模擬、機器學習。

Leave a Comment