生物基因體的表現 (global gene expression) 仰賴於多個層次的調控步驟,這些細胞內的控制系統包含了轉錄 (transcriptional) 及表觀遺傳學 (epigenetic) 的調節。胚胎幹細胞 (embryonic stem cell) 為了要維持其最重要的二個特性:自我更新 (self-renewal) 與多功能性 (pluripotency), 已有許多研究支持轉錄調控是其中的關鍵步驟 [1],而我們已知的轉錄調控模組 (regulatory module) 通常是透過數以百計的 trans-acting DNA-binding proteins (DBPs),例如:轉錄因子 (transcription factors)、染色質調控蛋白 (chromatin regulator) 和眾多 DNA 上的調控序列 (target cis-regulatory elements) 相互結合後才得以發揮功能。近年來,由於高通量 (high-throughput) 定序技術的進步,使得研究者們能更精確地辨識出整個生物基因體內 DBPs 與他們的結合標的 (target),並進一步釐清這些基因的功能,成了當前的研究策略。這些技術包含如次世代定序技術 (next-generation sequencing) 有著快速處理大量資訊的能力,RNA-seq 能偵測轉錄體基因表現量的高低,而不須像 microarray 一樣要有已知序列,另外 ChIP-seq 結合了染色質免疫沉澱 (Chromatin immunoprecipitation) 與次世代定序,能同時辨識結合到 DNA 上的蛋白與其調控片段序列染色質的修飾表徵、哪些基因可能被調控。
為了探討在老鼠胚胎幹細胞的基因體表現調控機制,作者對超過 200 個定序數據集 (sequencing data sets) 進行整合性的分析,包括了 166 個基因體 ChIP-seq 數據及 91 個組織樣本 [2]。從大量的資料中,根據是否結合在共同的目標序列 (co-occupancy) 歸納出了四大類 DNA 結合蛋白 (DBPs) (另有較小的二群,是 P53 和 REST),並以最代表性的蛋白命名這個類別,這四類分別為 Core、PRC、MYC、CTCF。除此之外,作者同時分析了 DBPs 和 10 個組蛋白修飾標記 (histone modification markers)、染色質可近性 (chromatin accessibility/ DNase I hypersensitivity regions, DHRs) 或 DNA甲基化 (methylation) 之間的關聯性,結果顯示 Core 的標的大多位於有高度的增強子標記 (H3K4me1) 之 DHRs 中 [3]。MYC 則偏好結合有 H3K4me3、H3K27ac 的 DHRs;而 PRC 的標的同時有活化性的 H3K4me3 和抑制性的 H3K27me3,與之前研究不同的是,PRC 的結合區域主要也是在 DHRs 內,顯示 PRC 抑制基因表現並不一定要透過染色質的濃縮 (condensation)。
其中他們又發現 MYC 和 PRC 的目標序列與 CpG islands 結合蛋白(註1)是相同的,所有 CGI+ 基因是藉由 MYC 和 PRC 之間相互拮抗來調控基因表達的強弱,換言之 CGI+ 基因雖然持續表現,但當結合 MYC 時表現更強,結合 PRC 時則表現較弱。這種 CGI 依賴性 (CGI-dependent) 的調控模式解釋了胚胎幹細胞尚未分化時,CGI+ 和 CGI- 基因之間的功能差異,此時 CGI+ 基因可能負責維持細胞特性的功能。另一方面,Core 這一類蛋白則結合在增強子 (enhancer)上,但是不同於 MYC 和 PRC 的 co-occupancy 只和 CGI+ 基因表現呈正相關;Core 不管在 CGI+ 或 CGI- 都與基因活性有著正向關係,顯示 Core 在 CGI+ 基因都有調控功能,真正關鍵於增強子的決定,不過由於 CGI+ 基因正常情況下普遍處於活化狀態,因此增強子的角色便只有加成 (additive) 基因表現的效果;相反地,CGI- 基因的表現卻呈現組織專一性的現象,作者比較了老鼠肝細胞和胚胎幹細胞中主要 Core 蛋白(肝細胞為 FOXA2/胚胎幹細胞為 OCT4)目標基因的表現,發現 FOXA2 的目標基因多在肝細胞中表現;反之 OCT4 則調控在胚胎幹細胞表現的目標基因,這樣的結果顯示相對於 CGI+ 基因,增強子與其結合的調控蛋白在 CGI- 基因調控扮演了決定性的角色 (圖二)。
這項研究對基因體表現調控提供了一個新穎獨特的觀點,以 CpG island 的存在與否重新定義了基因是 general on 或者 general silent,並闡述了原始設定沉默的組織專一性 CGI- 基因可能藉由增強子的調控在特定時間點或環境下,打開基因表現的開關。另外,作者對DNA結合蛋白 (DBPs) 的分類,觀察到 6 類不同的 DBPs,其中 Core,PRC 和 MYC 調控模組與作者先前的研究有類似的結果,只是多增加了一些新成員,而剩餘的 CTCF、P53 和 REST 則是新類別,他們的調控模式則須進一步的研究佐證。這篇論文可算是大數據 (big data) 時代研究的實際體現,不僅有效運用了已發表的研究數據,並且整合了 DBP occupancies,組蛋白的修飾標記,染色質的可近性與 DNA 甲基化,應用了上個月所提到人類表觀基因圖譜計劃 (Epigenome Roadmap Program) 的成果,分析出基因體調控的新模式,這樣的成功策略顯示即使在舊有的數據之中,仍然蘊藏著無盡的寶藏,等待著我們去深掘!
註1:CpG islands (CGIs) 是一段含有大量胞嘧啶 (Cytosine/ C)、鳥糞嘌呤 (Guanidine/ G) 的 DNA 序列而大多沒有被甲基化 (methylation),在超過 60% 的真核細胞基因都存在著 CGIs,並環繞在轉錄起始點 (transcriptional start sites/ TSS) 周圍,而早先的研究顯示有 CGIs 的基因 (CGI+ genes) 幾乎全為 housekeeping genes,較少出現於組織專一性 (tissue-specific) 的基因,因此 CGI+ 基因從胚胎時期到成體都持續表現,稱為「general on」。儘管 CGIs 已被認為是調控基因表現的重要元素,選擇性結合於 CGIs 的蛋白截至目前為止發現的卻不多,像是: KDM2A、CFP1、TET1。
參考資料 :
- Boyer, L. A., Lee, T. I., Cole, M. F., Johnstone, S. E., Levine, S. S., Zucker, J. P., … Young, R. A. (2005). Core Transcriptional Regulatory Circuitry in Human Embryonic Stem Cells. Cell, 122(6), 947-956. doi:10.1016/j.cell.2005.08.020
- Lattin, J. E., Schroder, K., Su, A. I., Walker, J. R., Zhang, J., Wiltshire, T., … Sweet, M. J. (2008). Expression analysis of G Protein-Coupled Receptors in mouse macrophages. Immunome Research, 4(1), 5. doi:10.1186/1745-7580-4-5
- Heintzman, N. D., Stuart, R. K., Hon, G., Fu, Y., Ching, C. W., Hawkins, R. D., … Ren, B. (2007). Distinct and predictive chromatin signatures of transcriptional promoters and enhancers in the human genome. Nature Genetics, 39(3), 311-318. doi:10.1038/ng1966
撰文 | 姚京含
修訂 | 熊浩安