通用型生物分子結構預測與設計：RoseTTAFold All-Atom

在結構生物學領域中，蛋白質等生物分子的結構目前主要可以由三種實驗方法得到：X-ray 繞射儀、核磁共振儀（NMR）、冷凍電子顯微鏡（cryoEM）。三種方法的結果各有優劣，但共同的缺點是實驗過程耗時、耗材成本高、儀器不易取得。因此，使用電腦進行結構預測，可以改善前述的問題，並可以在實驗前進行初步的評估，以避免不必要的實驗花費。

延伸閱讀｜結構生物學(Structural Biology) 專題

然而，結構預測是個難題，全球性的蛋白質結構預測競賽：CASP [1] 從 1994 年每兩年舉行一次，直到 CASP13 的 AplhaFold（2018）、CASP14 的 AlphaFold2（2020）出現後，才突破瓶頸，大幅提升預測的準確度，解決了這個難題。他們巧妙的結合多重序列比對（multiple sequence alignment, MSA）的資訊與深度學習的技術，將大量的 MSA 資訊視為胺基酸殘基（residue）共演化（coevolution）的圖譜（image），讓模型自行從資料中找出隱含的資訊與關聯性，最後預測序列上每子的空間座標位置。RoseTTAFold（RF）也是利用類似的概念與技術。

延伸閱讀｜#NEWS AlphaFold 與 RoseTTAFold：蛋白質結構預測誰更勝一籌？

RoseTTAFold All-Atom（RFAA）基於 RF 的架構，使用三軌（three-track）作為模型的骨幹（圖一），涵蓋了序列（1D 資訊）、同源模板的胺基酸骨架（backbone）殘基成對距離（residue pairwise distance）（2D 資訊）、重原子（heavy atom, 非氫原子）的座資（3D 訊的輸入資訊，使模型可以自行綜合評估不同的資訊，給出最好的預測結果。在 AlphaFold2 及 RF 模型的設計中有個回收（recycling）的步驟，可以讓模型在給出最終結果前，自我審視並優化結果。模型首先會用同源模板的 3D 資訊進行預測，接著，把初步預測出的重原子座標結果再次進行前處理後，當作 2D/3D 軌的輸入資訊，讓模型重新預測一次結果，重複幾次相同的 ”回收” 步驟後，才給出最終的重原子座標結果。

圖一、RF 的三軌模型架構示意圖 [2]。三條平行的軌可以同步處理不同類型的資料，如序列、胺基酸對（residue-pair）3D 結，整合料後，給出預測的結構。圖片來源：https://www.biorxiv.org/content/10.1101/2023.05.24.542179v1.full

為了使模型能夠廣泛應用於各種生物分子上（圖二）， RFAA 的設計讓使用者可以提供核酸序列、金屬離子、小分子、共價修飾等額外的資訊，透過資料前處理的轉換，可將序列、分子鍵長、鍵角、二面角（dihedral angle）、立體異構等資訊作為模型的輸入，讓模型能夠考慮蛋白質與其他分子間隱含的互動關係，如此一來，不僅能準確預測蛋白質本身，還能預測出生物複合體（complex）或共價修飾後蛋白質。

圖二、使用 RFAA 模型廣泛用於預測生物分子結構。（A）RFAA 使用蛋白質序列作為必要輸入，其餘輸入 (如：核酸序列、金屬離子、小分子、共價鍵殘基）則可根據使用者需求作為補充輸入，模型會根據輸入的資料來預測結果，可能包含蛋白質本身、蛋白質-核酸生物分子複合體（complex）、蛋白質-金屬生物分子複合體、蛋白質-小分子複合體、共價修飾蛋白質。 (B）輸入資料前處理的流程與輸出。序列型的資料會被用來進行多重序列比對，比對結果（1D 資訊）會被模型利用，除此之外，透過序列找到同源的結構模板（2D 和 3D 資訊）也會被模型利用。分子的檔案會被分成三個部分，元素的資訊（1D 資訊）、化學分子接合的關係與方式（2D 資訊）、光學立體結構關係（3D 資訊）。這些輸入資訊會分別被 RF All-Atom 中的 1D/2D/3D 軌 (track）利用，資訊也會在不同的軌中交換，模型會綜合所有資訊，給予兩個資訊作為輸出：（1）重原子（heavy atom, 非氫原子）的座標；（2）預測的錯誤率（predicted error）。圖片來源：https://doi.org/10.1126/science.abj8754

為了檢驗 RFAA 在蛋白質-小分子複合體（protein-small molecule complex）的預測準確度，團隊使用了 CAMEO（Continuous Automated Model EvaluatiOn）[3] 進行盲測。有 43% 的 CAMEO 目標（target）被 RFAA 自信地預測（predicted alignment error interaction <10），其中 77% 的結構預測十分接近，配體（ligand）的均方根差（root mean square deviation, RMSD）皆小於 2Å。另一方面，RFAA 在共價修飾的蛋白質的資料集上，將近一半（46%）的預測結果上，都十分準確（RMSD < 2.5Å）。

雖然 RFAA 能夠直接給予蛋白質-小分子複合體的結構，但是仍需預先知道蛋白質序列，因此在設計分子上仍有諸多限制。為了克服這項限制，先前團隊曾採用擴散模型（diffusion model）（註一），允許在未知序列的狀態下，生成跟另一個目標蛋白質分子有高親和力（affinity）的蛋白質接合子（binder）[4]。在本篇研究中，團隊擴展這個方法到小分子上，讓模型能夠根據小分子的結構及資訊，在未知序列的狀態下，生成一個蛋白質接合子（圖三 A）。

註一：擴散模型的方法是透過將訓練資料階段性加上高斯雜訊（Gaussian noise），使模型一步步學習如何去除雜訊（denoise），當模型學習完成後，便可以直接從一個隨機的雜訊產生果。

圖三、使用 RFdiffusionAA 進行接合子（binder）設計並以實驗驗證。（A）接合子生成示意圖。起初，殘基會隨機產生在小分子周圍，RFdiffusionAA 會階段性去噪，讓隨機分佈的殘基逐漸形成有秩序且合理的蛋白質結構，並圍繞在小分子周圍。（B）使用模型設計 Digoxigenin 的接合子。左一圖：輸入小分子結構與所設計出蛋白質結構。左二圖：結合位置放大圖，其中紫色的文字為在訓練資料集裡的所有蛋白中結構最接近的TM score（template modelling score），而藍色的文字為在訓練資料集裡具有相似配體（Taniomoto similarity > 0.5）的蛋白中結構最近的TM score。二圖等溫卡（isothermal calorimetry, ITC）量測結果，結合親和力（binding affinity, Kd）為 343 nM，ΔH：結合焓（enthalpy of binding）。右一圖：在不同溫度下，原二色光譜儀（circular dichroism, CD）結果（在 26 mM 蛋白質濃度下），小圖為 MRE（波長 220 nm）與溫度的關係圖，MRE：摩爾橢圓率（molar ellipticity）。圖片來源：https://doi.org/10.1126/science.abj8754

在本篇中，團隊使用了一個蛋白質-小分子複合體的資料集，針對資料集中蛋白質每個殘基的 C-alpha 座標及布朗運動方式加上了 3D 高斯雜訊（小分子的結構與座標保持固定），讓模型 RFdiffusionAA 學習去噪。團隊成功使用 RFdiffusionAA 針對同一小分子去產生多個不同蛋白質結合子。

接著，團隊嘗試使用 RFdiffusionAA 針對一個心臟疾病相關的小分子 digoxigenin（DIG）設計結合子（圖三B）。結果顯示，團隊所設計出來的結合子 DIG_1，以等溫卡計（isothermal calorimetry, ITC）進行量測，解離常數（disocciation constant, Kd）為 343 nM，表示具有高親和力，此外，從原二色光譜儀（circular dichroism, CD）的結果顯示 DIG_1 在 95°C 仍能與 DIG 保持穩定。團隊在文章中有展示其他設計結合子的例子，也皆顯示 RFdiffusionAA 對於潛在的應用與對於生化實驗及藥物設計的幫助。

David Baker 團隊所開發的 RFAA 展示了訓練單一個模型便可以準確預測通用的生物分子組合物（biomolecular assemblies），至包含多非蛋白結構。雖然預測的結果仍有進步空間，但 RFAA 可以被更廣泛地應用在不同的生物研究問題上進行分子結構預測。而延伸的 RFdiffusionAA 則可以在未知序列的情況下，設計出高親和力的蛋白結合子，並能夠應用在真實實驗場域中。

Main article：

Krishna, R., Wang, J., Ahern, W., Sturmfels, P., Venkatesh, P., Kalvet, I., … & Baker, D. (2024). Generalized biomolecular modeling and design with RoseTTAFold All-Atom. Science, 384(6693), eadl2528.

參考獻：

15th Community Wide Experiment on the Critical Assessment of Techniques for Protein Structure Prediction. https://predictioncenter.org/casp15/index.cgi
Baek, M., Anishchenko, I., Humphreys, I. R., Cong, Q., Baker, D., & DiMaio, F. (2023). Efficient and accurate prediction of protein structure using RoseTTAFold2. BioRxiv, 2023-05.
Haas, J., Barbato, A., Behringer, D., Studer, G., Roth, S., Bertoni, M., … & Schwede, T. (2018). Continuous Automated Model EvaluatiOn (CAMEO) complementing the critical assessment of structure prediction in CASP12. Proteins: Structure, Function, and Bioinformatics, 86, 387-398.
Watson, J. L., Juergens, D., Bennett, N. R., Trippe, B. L., Yim, J., Eisenach, H. E., … & Baker, D. (2023). De novo design of protein structure and function with RFdiffusion. Nature, 620(7976), 1089-1100.