隨著21世紀初期人類基因圖譜計畫的落幕,後基因體時代的來臨,並未使科學家對人類與疾病相關的問題有了較清晰的答案,反而因為過於大量的訊息,令人不知該如何解讀。為了突破,生物學家一方面試圖從龐大的資訊中,搜尋自己有興趣的基因,進行更深入的分析;另一方面,生物資訊學家嘗試利用不同的數學模型,為過度複雜的訊息理出頭緒,進行解碼。
其中,尤以後天免疫B和T細胞,因體細胞基因重組(Somatic gene recombination, VDJ recombination)等機制,基因和細胞表現極為複雜,更是難以捉摸。以一個人體內的T細胞為例,經估算高達2 x 107種(Arstila et al. Science. 1999 286(5441):958-61.),每一種細胞表現一個特定專一性的T細胞接受體(TCR)。這些T細胞與病原之間的關係,要如何有效地歸納、分析,一直是免疫學家致力探討的問題。
史丹福大學的Mark Davis實驗室,是其中的代表。該實驗室第一個發現TCR有g、d次單元,也是第一個發現,利用MHC四聚體(tetramer)能夠有效增加MHC group-peptide-TCR之間的親合力。他們現在正在研究TCR與其專一性辨識的抗原peptide、以及呈現該peptide的MHC group之間的結構及親和力,對整體免疫系統,有何關鍵性的影響。
雖然目前的流式細胞儀技術,利用螢光標定技術,可以於同一時間,分析單一細胞上18種不同基因表現的強度,但對於Mark Davis實驗室而言,仍然遠不及他們實驗所需,因此該團隊人員積極地參與新時代技術的開發,此處筆者參考今年自然生物科技期刊的文章(E. Newell and M. Davis. Nat Biotechnol. 2014 32(2):149-57)略為概述其中兩者如下:
一、質譜流式細胞儀(CyTOF):螢光標定的流式細胞儀,受限於各螢光間spectral overlap的問題(圖一),可以測定的參數(基因)難以突破,所以DVS Sciences公司開發出以同位素重金屬原子標定的方法mass cytometry,簡稱CyTOF,目前可用來標定的同位素重金屬已高達34種。
CyTOF的原理如圖二,單一細胞以同位素重金屬標定的抗體處理後,經流式細胞儀吹出,打入能精確測定金屬質量的感應耦合電漿質譜分析儀ICP-MS中。細胞在高熱的氬氣電漿中汽化,其上的重金屬接著離子化,飛越真空層後打在偵測器上,偵測器換算重金屬離子在真空飛行的時間,即能精確計算出質量,因此可以做出質量圖譜,顯示單一細胞中,出現多少種重金屬,以及該重金屬出現的數量。不同的重金屬在圖譜上的強度,即相當於其鍵結抗體所辯識蛋白質的表現量。
雖然目前應用在CyTOF的同位素重金屬”僅”有34種,但可以透過排列組合的方式,大幅增加同一時間可辨別的參數。舉例而言,其中10個金屬,取三種鍵結同一種抗體或tetramer,則其可能性即可高達120種(組合的算式 C(10,3)=120)
在Bendal 2011年發表的論文中(Bendal et al. Science 2011 332, 687–696),利用CyTOF,單是測定人類骨髓細胞13種細胞表面的markers,就能做出有效的分群(如圖四)。由於13種參數太過複雜,必需藉助生物資訊學家利用各種數學模型,開發出的簡化法,才能將資訊作有效的呈獻。此處是先以PCA(Principle component analysis,註1)將參數簡化為三維結構後,再依分群位置的遠近畫出關係樹狀圖SPADE(spanning-tree progression analysis of density-normalized events)。
二、單細胞轉錄體研究(Single-cell transcriptomics):基因表現的改變不一定在蛋白質的層面顯現,有時mRNA也能告訴我們很多有意思的訊息。生物學家現在已經能將單顆細胞置入極小的凹槽中,將此細胞的mRNA萃取出,然後放大並將之快速地定序,由於定序的資料龐大,動輒上億個鹼基對被定序,並測定出其表現量,所以同樣需要生物資訊學家的幫忙,並且需要有良好的資料庫,提供正確的比對。
利用這種技術,每顆細胞的上千個基因轉錄表現的強弱都能被正確地分析,相對於CyTOF分析單個細胞的上百個參數,Single-cell transcriptomics相當於可以分析每個細胞的上千種參數,雖然更複雜,但同樣地可以透過PCA分析法將其簡化,提供研究者有用的資訊。
研究單顆細胞的基因表現有何意義呢?我們可透過以下的實驗進一步的了解。如圖六,美國NIH的學者Dominguez (J. Immunol. Methods 2013 391: 133–145)取50位自願者的週邊血細胞PBMC,以金黃色葡萄球菌腸毒素SEB處理後,看CXCR5與CCL5這兩個基因表現的變化。圖左的每一點,代表著100顆細胞基因的整體表現,CXCR5和CCL5均明顯地升高;但是如果看圖右單一細胞的表現時,出乎意料地,多數細胞僅表現其中一個基因,或二者皆不表現。我們可以想像,如果圖右是100顆細胞,有單一表現CXCR5的有13顆,有表現CCL5的有20顆,一旦定量分析時改取100顆細胞一起做,那個整群細胞表現成雙陽性的結構,也就不足為奇了。所以Dr. Dominguez認為,做細胞基因分析時,應同時呈現群體和個別細胞的模型,避免見樹不見林,才能得到足夠的資訊。
綜觀以上兩種新科技,均是為了有效、快速地提供研究者鉅量的資訊,以免研究者在設計實驗的初始,即受限於研究方法,只選擇分析少量的參數,無可避免地,可能會忽略真正重要的訊息。對Mark Davis實驗室而言,希望能因此找到TCR的抗原專一性,是否能告訴我們更多的故事。對我們而言,也因為這類工具的開發,未來發生特定傳染病、或研究新型疫苗時,能夠更巨觀地分析整體族群免疫相關的基因變化,從中尋找更好的治療標的。
註1:PCA, Principle component analysis,是將多參數的資訊,轉換成多維空間的資料,然後以數學模型,將多維資訊簡化為2或3維空間的方式。簡化的基本觀念來自於投影法。如下圖(http://www.nlpca.org/pca_principal_component_analysis.html),如果有三個基因(參數)形成的三維模型,可以計算每一對之間的距離,找到密度最高的平面,然後三維模型中的每一點均投影在此平面上,因此形成二維的模形,資訊就可以有效地簡化了。
參考文獻:
- Arstila et al. Science. 1999 286(5441):958-61.
- Newell and M. Davis. Nat Biotechnol. 2014 32(2):149-57
- http://flowbook.denovosoftware.com
- Harvey et al. Nat Biotechnol. 2013 )31(7):609-10.
- Bendal et al. Science 2011 332, 687–696
- DeKosky et al. Nat Biotechnol. 2013 31(2):166-9.
- Immunol. Methods 2013 391: 133–145
- http://www.nlpca.org/pca_principal_component_analysis.html
作者介紹:
宋奇璋,台大免疫所博士班學生,致力於HBV的研究。
Email:d02449001@ntu.edu.tw
撰稿|宋奇璋
編輯|林琬瑜
學術部負責人|陳致曄