科學報導 結構生物學 計算生物學

Foldit:蛋白質折疊領域的 Ender’s Game

隨著技術的進展與突破,科學家從研究中能獲取越來越大量的資料,但未必有足夠的資源和時間去分析這些資料,此時群眾外包(crowdsourcing)和分散式運算突破了此一瓶頸:將需要大量計算的資料分割成小塊,由多台電腦分別運算、上傳分析結果,經由系統整合並得出結論;這類公民參與的著名科學研究案例包括尋找梅森質數(Mersenne prime)[1]的 GIMPS(Great Internet Mersenne Prime Search)、分析天文望遠鏡獲取之訊號以搜尋地外智慧生物的 SETI@home、和進行星系作形態學分類的 Galaxy Zoo等,都曾取得不錯的研究成果。

華盛頓大學的 David Backer 團隊致力於蛋白質結構的解析與設計,過程需要龐大計算量,主要挑戰有二:一是設計出可成為最低自由能態的蛋白質骨架;二是找出可摺疊成此骨架的蛋白質序列,前者難處在於多肽鏈構象(conformation)數量呈指數增長,後者則難以確認設計出的序列比其他任何結構都具有更低的能態基本原理。為了解決這個問題,他們開發了一項分散式運算的專案 Rosetta@home,並以真實蛋白質結構來為題設計了相對應的蛋白質折疊線上遊戲 Foldit [2],提供玩家一定的教學內容、讓玩家操縱簡單的類蛋白質結構,系統會依設計原則、根據解謎後得出的折疊狀態評分,越完善的結構會得到越高的分數 [3]。

圖一、Foldit 完整功能之介面。(圖片來源:Koepnick, B., 2019, DOI: 10.1038/s41586-019-1274-4)

在過去曾有 Foldit 玩家解析出 Mason-Pfizer 猴病毒(M-PMV)之逆轉錄病毒蛋白酶的晶體結構[4],該蛋白質酶是愛滋病毒細胞內複製和自我繁殖的關鍵,其結構已有十五年未被解決,然 Foldit 玩家卻僅在三週內破解該結構,意味著人類對三度空間的解構能力和解謎思維或許有助於改善專業蛋白質設計軟體。

在一篇 2019 年的研究中[5],研究團隊在 Foldit 內設計了一項更有挑戰的任務:從無到有設計蛋白質結構。他們提供玩家一條約 60-100 個氨基酸組成的多肽鏈,給予限定時間、讓玩家能任意進行蛋白質折疊和編碼,反覆操作以得到最高的評分(即最穩定的結構)。透過比對結構設計軟體  Rosetta 和玩家建構的成果,他們發現Rosetta 傾向直接設計出能態最低、最穩定的結構,而玩家則傾向在能態高低不同的構像中來回折疊、探索出新的架構;玩家的策略可協助後續的演算法中建立更多分支和節點,也顯示既有設計規則反而限縮了尋找到最佳結構的可能性。

圖二、Rosetta 軟體和 Foldit 玩家設計路徑比較。紅、藍、綠線為 Foldit 玩家的模擬過程,灰線則是透過 Rosetta 軟體設計的過程, i-vi 為六個不同階段,從只有一條多肽鏈到完整的蛋白質結構。可觀察到軟體傾向直接設計出能態最低(-1.00)的結構,而玩家則傾向在起伏劇烈的不同能態中探索新的架構。(圖片來源:Koepnick, B., 2019, DOI: 10.1038/s41586-019-1274-4)

當 Foldit 玩家能從頭設計出穩定蛋白質結構後,研究團隊進一步發現:使用 α 螺旋(α-helix)的分數比 β 摺疊(β-sheet)更高,也讓玩家更傾向使用 α 螺旋而非 β 摺疊來設計。為鼓勵玩家探索更多樣的結構,團隊引入了二級結構的設計規則,限制構成 α 螺旋的氨基酸百分比,讓玩家必須設計混合 α/β 結構的蛋白質。然而這些混合 α/β 序列所設計的結構與預測的目標架構僅有 11% 是符合的,肇始於玩家所設計的構型骨架並不穩固、出現局部應變(strain);為此,團隊再次添加幾項輔助功能,如互動式拉氏圖(Ramachandran map)讓玩家得以確定蛋白質構象是否合理,結果顯示有 47% 的設計為預期的二級結構,在化學變性測試中也有出色的穩定性,比起過往 α/β 架構之設計取得更好的成果 [6]。

圖三、對比天然蛋白質和過去研究所設計的蛋白質(Lin et al. designs),未經過改善構型骨架前的設計(Rounds 1&2)有明顯更多的、被認定對結構不利的扭曲(torsion),而改善後的設計(Rounds 3)則有統計上顯著的、更少的扭曲。(圖片來源:Koepnick, B., 2019, DOI: 10.1038/s41586-019-1274-4)

在數十個 Foldit 玩家設計的結構中,研究團隊針對其中十二種結構設計出可編碼的基因迴路,進一步透過大腸桿菌表現這些蛋白質、並進行高解析度的結構分析,結果發現這些蛋白質的序列與任何已知蛋白質均不具有同源性(monomeric),意味著這些蛋白質折疊是前所未有的,且其結構較一般 de novo 從頭設計更為多樣,甚至其中包含一個全新的 fold!Foldit 成功證明了即使是沒有科學研究背景的大眾,也能夠透過基礎教學、簡單的規則和創造力,設計出嶄新的蛋白質結構,加以分散運算的協助能系統性地改善既有設計模型並突破研究瓶頸。

近期新冠肺炎疫情持續延燒,Foldit 也曾推出了針對新型冠狀病毒的謎題[7],挑戰玩家能否設計出阻斷新冠病毒與受體結合、阻斷其感染的蛋白質結構,正閱讀此文的你若也想為抗疫貢獻一份心力,不妨了解或參與其他同樣研究新冠病毒蛋白質結構的分散式運算專案(如 Folding@home)看看!

參考文獻:

[0] Ender’s Game 是一系列軍事科幻小說、也曾被改編成電影,本文標題向故事主角 Ender 以為僅是進行戰爭模擬測試、實際上殲滅了整個外星蟲族的情節致敬。

[1] 2^n-1 的數若為質數則稱為梅森質數(Mersenne prime)

[2] Foldit 官方網站 https://fold.it

[3] Cooper, S., Khatib, F., Treuille, A. et al. Predicting protein structures with a multiplayer online game. Nature 466, 756–760 (2010). DOI: 10.1038/nature09304

[4] Khatib, F., DiMaio, F., Cooper, S. et al. Crystal structure of a monomeric retroviral protease solved by protein folding game players. Nat Struct Mol Biol 18, 1175–1177 (2011). DOI: 10.1038/nsmb.2119

[5] Koepnick, B., Flatten, J., Husain, T. et al. De novo protein design by citizen scientists. Nature 570, 390–394 (2019). DOI: 10.1038/s41586-019-1274-4

[6] Lin YR, Koga N, Tatsumi-Koga R, et al. Control over overall shape and size in de novo designed proteins. Proc Natl Acad Sci U S A. 2015;112(40):E5478-E5485. DOI: 10.1073/pnas.1509508112 

[7] 針對新冠病毒的題目 https://fold.it/portal/node/2008926

關鍵字:群眾參與、Foldit、蛋白質設計、新型冠狀肺炎病毒

撰文|吳冠廷

審稿|黃云宣

 

About the author

Avatar

吳冠廷

現為陽明醫學系 B 組五年級學生,也是生醫光電所一年級碩士生。曾領導 2017 年陽明 iGEM 團隊並獲得金牌,重建、主導並規劃 Entropyspace 亂度空間諸多活動與訪談文撰寫,期盼建立一個讓醫學生研究者得以自由交流的平台。目前持續撰寫部落格、學習電腦科學和邏輯學,對生物資訊學和電腦視覺辨識感興趣。

Leave a Comment