Beyond model antigens 超越極限

隨著21世紀初期人類基因圖譜計畫的落幕，後基因體時代的來臨，並未使科學家對人類與疾病相關的問題有了較清晰的答案，反而因為過於大量的訊息，令人不知該如何解讀。為了突破，生物學家一方面試圖從龐大的資訊中，搜尋自己有興趣的基因，進行更深入的分析；另一方面，生物資訊學家嘗試利用不同的數學模型，為過度複雜的訊息理出頭緒，進行解碼。

其中，尤以後天免疫B和T細胞，因體細胞基因重組(Somatic gene recombination, VDJ recombination)等機制，基因和細胞表現極為複雜，更是難以捉摸。以一個人體內的T細胞為例，經估算高達2 x 10⁷種(Arstila et al. Science. 1999 286(5441):958-61.)，每一種細胞表現一個特定專一性的T細胞接受體(TCR)。這些T細胞與病原之間的關係，要如何有效地歸納、分析，一直是免疫學家致力探討的問題。

史丹福大學的Mark Davis實驗室，是其中的代表。該實驗室第一個發現TCR有g、d次單元，也是第一個發現，利用MHC四聚體(tetramer)能夠有效增加MHC group-peptide-TCR之間的親合力。他們現在正在研究TCR與其專一性辨識的抗原peptide、以及呈現該peptide的MHC group之間的結構及親和力，對整體免疫系統，有何關鍵性的影響。
雖然目前的流式細胞儀技術，利用螢光標定技術，可以於同一時間，分析單一細胞上18種不同基因表現的強度，但對於Mark Davis實驗室而言，仍然遠不及他們實驗所需，因此該團隊人員積極地參與新時代技術的開發，此處筆者參考今年自然生物科技期刊的文章(E. Newell and M. Davis. Nat Biotechnol. 2014 32(2):149-57)略為概述其中兩者如下：
一、質譜流式細胞儀(CyTOF)：螢光標定的流式細胞儀，受限於各螢光間spectral overlap的問題(圖一)，可以測定的參數(基因)難以突破，所以DVS Sciences公司開發出以同位素重金屬原子標定的方法mass cytometry，簡稱CyTOF，目前可用來標定的同位素重金屬已高達34種。

圖一、FITC的激發光光譜會干擾到PE(箭頭處)，稱為spectral overlap (http://flowbook.denovosoftware.com)

CyTOF的原理如圖二，單一細胞以同位素重金屬標定的抗體處理後，經流式細胞儀吹出，打入能精確測定金屬質量的感應耦合電漿質譜分析儀ICP-MS中。細胞在高熱的氬氣電漿中汽化，其上的重金屬接著離子化，飛越真空層後打在偵測器上，偵測器換算重金屬離子在真空飛行的時間，即能精確計算出質量，因此可以做出質量圖譜，顯示單一細胞中，出現多少種重金屬，以及該重金屬出現的數量。不同的重金屬在圖譜上的強度，即相當於其鍵結抗體所辯識蛋白質的表現量。

圖二、CyTOF示意圖

雖然目前應用在CyTOF的同位素重金屬”僅”有34種，但可以透過排列組合的方式，大幅增加同一時間可辨別的參數。舉例而言，其中10個金屬，取三種鍵結同一種抗體或tetramer，則其可能性即可高達120種(組合的算式 C(10,3)=120)

圖三、a. 利用多個金屬當作barcode；b.同時出現M1、M6、M9的為CD8(Harvey et al. Nat Biotechnol. 2013 )31(7):609-10.

在Bendal 2011年發表的論文中(Bendal et al. Science 2011 332, 687–696)，利用CyTOF，單是測定人類骨髓細胞13種細胞表面的markers，就能做出有效的分群(如圖四)。由於13種參數太過複雜，必需藉助生物資訊學家利用各種數學模型，開發出的簡化法，才能將資訊作有效的呈獻。此處是先以PCA(Principle component analysis，註1)將參數簡化為三維結構後，再依分群位置的遠近畫出關係樹狀圖SPADE(spanning-tree progression analysis of density-normalized events)。

圖四、a. 利用PCA將細胞分群，並畫出樹狀圖；b. 檢視各個參數(基因)在樹狀圖中的表現量，紅色代表最高、藍色代表最低；c. 最後就能將樹狀圖中的每個次群定義出是哪一種細胞。

二、單細胞轉錄體研究(Single-cell transcriptomics)：基因表現的改變不一定在蛋白質的層面顯現，有時mRNA也能告訴我們很多有意思的訊息。生物學家現在已經能將單顆細胞置入極小的凹槽中，將此細胞的mRNA萃取出，然後放大並將之快速地定序，由於定序的資料龐大，動輒上億個鹼基對被定序，並測定出其表現量，所以同樣需要生物資訊學家的幫忙，並且需要有良好的資料庫，提供正確的比對。

圖五、Single-cell transcriptomics。a. 先以流式細胞儀分離出有興趣的細胞次群；b. 置入125-pl體積的凹槽中；c. 萃取mRNA；d. e. 以次世代定序技術NGS定序；f. 送入data base分析(DeKosky et al. Nat Biotechnol. 2013 31(2):166-9.)

利用這種技術，每顆細胞的上千個基因轉錄表現的強弱都能被正確地分析，相對於CyTOF分析單個細胞的上百個參數，Single-cell transcriptomics相當於可以分析每個細胞的上千種參數，雖然更複雜，但同樣地可以透過PCA分析法將其簡化，提供研究者有用的資訊。
研究單顆細胞的基因表現有何意義呢?我們可透過以下的實驗進一步的了解。如圖六，美國NIH的學者Dominguez (J. Immunol. Methods 2013 391: 133–145)取50位自願者的週邊血細胞PBMC，以金黃色葡萄球菌腸毒素SEB處理後，看CXCR5與CCL5這兩個基因表現的變化。圖左的每一點，代表著100顆細胞基因的整體表現，CXCR5和CCL5均明顯地升高；但是如果看圖右單一細胞的表現時，出乎意料地，多數細胞僅表現其中一個基因，或二者皆不表現。我們可以想像，如果圖右是100顆細胞，有單一表現CXCR5的有13顆，有表現CCL5的有20顆，一旦定量分析時改取100顆細胞一起做，那個整群細胞表現成雙陽性的結構，也就不足為奇了。所以Dr. Dominguez認為，做細胞基因分析時，應同時呈現群體和個別細胞的模型，避免見樹不見林，才能得到足夠的資訊。

圖六、同樣是偵測CXCR5和CCL5兩個基因的表現變化，100顆細胞展現的模式和單顆細不同。

綜觀以上兩種新科技，均是為了有效、快速地提供研究者鉅量的資訊，以免研究者在設計實驗的初始，即受限於研究方法，只選擇分析少量的參數，無可避免地，可能會忽略真正重要的訊息。對Mark Davis實驗室而言，希望能因此找到TCR的抗原專一性，是否能告訴我們更多的故事。對我們而言，也因為這類工具的開發，未來發生特定傳染病、或研究新型疫苗時，能夠更巨觀地分析整體族群免疫相關的基因變化，從中尋找更好的治療標的。
註1：PCA, Principle component analysis，是將多參數的資訊，轉換成多維空間的資料，然後以數學模型，將多維資訊簡化為2或3維空間的方式。簡化的基本觀念來自於投影法。如下圖(http://www.nlpca.org/pca_principal_component_analysis.html)，如果有三個基因(參數)形成的三維模型，可以計算每一對之間的距離，找到密度最高的平面，然後三維模型中的每一點均投影在此平面上，因此形成二維的模形，資訊就可以有效地簡化了。

參考文獻：