在結構生物學領域中,蛋白質等生物分子的結構目前主要可以由三種實驗方法得到:X-ray 繞射儀、核磁共振儀(NMR)、冷凍電子顯微鏡(cryoEM)。三種方法的結果各有優劣,但共同的缺點是實驗過程耗時、耗材成本高、儀器不易取得。因此,使用電腦進行結構預測,可以改善前述的問題,並可以在實驗前進行初步的評估,以避免不必要的實驗花費。
延伸閱讀|結構生物學(Structural Biology) 專題
然而,結構預測是個難題,全球性的蛋白質結構預測競賽:CASP [2] 從 1994 年每兩年舉行一次,直到 CASP13 的 AplhaFold(2018)、CASP14 的 AlphaFold2(2020)出現後,才突破瓶頸,大幅提升預測的準確度,解決了這個難題。他們巧妙的結合多重序列比對(multiple sequence alignment, MSA)的資訊與深度學習的技術,將大量的 MSA 資訊視為胺基酸殘基(residue)共演化(coevolution)的圖譜(image),讓模型自行從資料中找出隱含的資訊與關聯性,最後預測序列上每個胺基酸原子的空間座標位置。RoseTTAFold(RF)也是利用類似的概念與技術。
延伸閱讀|#NEWS AlphaFold 與 RoseTTAFold:蛋白質結構預測誰更勝一籌?
RoseTTAFold All-Atom(RFAA)基於 RF 的架構,使用三軌(three-track)作為模型的骨幹(圖一),涵蓋了序列(1D 資訊)、同源模板的胺基酸骨架(backbone)殘基成對距離(residue pairwise distance)(2D 資訊)、重原子(heavy atom, 非氫原子)的座標資訊(3D 資訊)的輸入資訊,使模型可以自行綜合評估不同的資訊,給出最好的預測結果。在 AlphaFold2 及 RF 模型的設計中有個回收(recycling)的步驟 ,可以讓模型在給出最終結果前,自我審視並優化結果。模型首先會用同源模板的 3D 資訊進行預測,接著,把初步預測出的重原子座標結果再次進行前處理後,當作 2D/3D 軌的輸入資訊,讓模型重新預測一次結果,重複幾次相同的 ”回收” 步驟後,才給出最終的重原子座標結果。
為了使模型能夠廣泛應用於各種生物分子上(圖二), RFAA 的設計讓使用者可以提供核酸序列、金屬離子、小分子、共價修飾等額外的資訊,透過資料前處理的轉換,可將序列、分子鍵長、鍵角、二面角(dihedral angle)、立體異構等資訊作為模型的輸入,讓模型能夠考慮蛋白質與其他分子間隱含的互動關係,如此一來,不僅能準確預測蛋白質本身,還能預測出生物複合體(complex)或共價修飾後蛋白質。
為了檢驗 RFAA 在蛋白質-小分子複合體(protein-small molecule complex)的預測準確度,團隊使用了 CAMEO(Continuous Automated Model EvaluatiOn)[4] 進行盲測。有 43% 的 CAMEO 目標(target)被 RFAA 自信地預測(predicted alignment error interaction <10),其中 77% 的結構預測十分接近,配體(ligand)的均方根差(root mean square deviation, RMSD)皆小於 2Å。另一方面,RFAA 在共價修飾的蛋白質的資料集上,將近一半(46%)的預測結果上,都十分準確(RMSD < 2.5Å)。
雖然 RFAA 能夠直接給予蛋白質-小分子複合體的結構,但是仍需預先知道蛋白質序列,因此在設計分子上仍有諸多限制。為了克服這項限制,先前團隊曾採用擴散模型(diffusion model)(註一),允許在未知序列的狀態下,生成跟另一個目標蛋白質分子有高親和力(affinity)的蛋白質接合子(binder)[5]。在本篇研究中,團隊擴展這個方法到小分子上,讓模型能夠根據小分子的結構及資訊,在未知序列的狀態下,生成一個蛋白質接合子 (圖三 A)。
註一:擴散模型的方法是透過將訓練資料階段性加上高斯雜訊(Gaussian noise),使模型一步步學習如何去除雜訊(denoise),當模型學習完成後,便可以直接從一個隨機的雜訊產生結果。
在本篇中,團隊使用了一個蛋白質-小分子複合體的資料集,針對資料集中蛋白質每個殘基的 C-alpha 座標及布朗運動方式加上了 3D 高斯雜訊(小分子的結構與座標保持固定),讓模型 RFdiffusionAA 學習去噪。團隊成功使用 RFdiffusionAA 針對同一小分子去產生多個不同蛋白質結合子。
接著,團隊嘗試使用 RFdiffusionAA 針對一個心臟疾病相關的小分子 digoxigenin(DIG)設計結合子(圖三B)。結果顯示,團隊所設計出來的結合子 DIG_1,以等溫卡計(isothermal calorimetry, ITC)進行量測,解離常數(disocciation constant, Kd)為 343 nM,表示具有高親和力,此外,從原二色光譜儀(circular dichroism, CD)的結果顯示 DIG_1 在 95°C 仍能與 DIG 保持穩定。團隊在文章中有展示其他設計結合子的例子,也皆顯示 RFdiffusionAA 對於潛在的應用與對於生化實驗及藥物設計的幫助。
David Baker 團隊所開發的 RFAA 展示了訓練單一個模型便可以準確預測通用的生物分子組合物(biomolecular assemblies),甚至包含許多非蛋白的結構。雖然預測的結果仍有進步空間,但 RFAA 可以被更廣泛地應用在不同的生物研究問題上進行分子結構預測。而延伸的 RFdiffusionAA 則可以在未知序列的情況下,設計出高親和力的蛋白結合子,並能夠應用在真實實驗場域中。
Main article:
Krishna, R., Wang, J., Ahern, W., Sturmfels, P., Venkatesh, P., Kalvet, I., … & Baker, D. (2024). Generalized biomolecular modeling and design with RoseTTAFold All-Atom. Science, 384(6693), eadl2528.
參考文獻 :
- 15th Community Wide Experiment on the Critical Assessment of Techniques for Protein Structure Prediction. https://predictioncenter.org/casp15/index.cgi
- Baek, M., Anishchenko, I., Humphreys, I. R., Cong, Q., Baker, D., & DiMaio, F. (2023). Efficient and accurate prediction of protein structure using RoseTTAFold2. BioRxiv, 2023-05.
- Haas, J., Barbato, A., Behringer, D., Studer, G., Roth, S., Bertoni, M., … & Schwede, T. (2018). Continuous Automated Model EvaluatiOn (CAMEO) complementing the critical assessment of structure prediction in CASP12. Proteins: Structure, Function, and Bioinformatics, 86, 387-398.
- Watson, J. L., Juergens, D., Bennett, N. R., Trippe, B. L., Yim, J., Eisenach, H. E., … & Baker, D. (2023). De novo design of protein structure and function with RFdiffusion. Nature, 620(7976), 1089-1100.
關鍵字:結構生物學、機器學習、深度學習、結構預測、諾貝爾獎、藥物設計
撰文|楊淯元
審稿|葉國掄