基因與基因體學 基因體學 機器與深度學習

無監督式演算法翻開細胞分化路徑新頁

現有的單細胞分析技術,比如:單細胞 RNA 定序、質譜流式細胞儀、多重免疫螢光標定等可從單一細胞生成上千筆數據。如何時間點的細胞「快照」(通常是細胞的遺照),而無法追蹤細胞的連續變化,多數演算法假設細胞遵循特定的分化路徑,藉此重組這些快照之間遺失的資訊。其中一類為最小生成樹(minimal spanning tree, MST)演算法,把相似的細胞連起來、產生數據中最長的路徑作為分化軌跡。這類方法即使丟入同一組數據也可能產生不同結果。另一類利用非線性內嵌法(non-linear data embedding),雖然相較於早期其他線性降維方法更適合重建具多分支點的細胞分化路徑,但仍非完全準確。例如 RNA 定序和影像、流式細胞儀的數據維度不同,分析效能就可能不同;而特定細胞若在組織中相對數量太少也可能被完全忽略。

2016 年由哥倫比亞大學 Pe’er 實驗室所提出的非線性降維法 Wishbone [2] 是一種監督式隨機漫步演算法,其生成的分化路徑可由統計方法量化其效能但生成路徑前仍需指定該細胞的起始相關資訊。為突破前述種種限制,范德堡大學的 Lau 實驗室發展出一可自行透過統計方法確效的無監督式演算法 p (putative)-Creode。

圖一、圖解摘要、實驗流程(圖片來源:https://goo.gl/FaKVvN)

Creode 意指器官發育過程中組織內各細胞所經的分化軌跡,是生物學家 C. H. Waddington 結合希臘字根的「必然(χρη)」和「路徑(άδοϛ)」所造的詞。假設細胞分化為一連續過程,從混有雜訊的原始細胞數據中採樣正規化後做圖、由其數據點間的距離判斷端點(細胞為幹細胞或已分化細胞)並生成最短路徑,最後和原始數據比對得到 p-Creode 分數做路徑穩固性評估。(圖一)Lau 等人利用 p-Creode 分析了正常人類骨髓細胞的質譜流式細胞儀數據。和利用 MST 的演算法、Wishbone 等方法相比, p-Creode 能穩定生成固定數量的節點,路徑生成時外溢的數據點更少,同時能分析多分支點的分化路徑。

除了流式細胞儀數據,p-Creode 也能處理影像數據。Lau 利用 MxIF 平台(multiplexed immunofluoresence),選取 18 個涵蓋分化路徑的細胞標記,拍攝了 39,000 個小鼠小腸細胞及 17,000 個結腸細胞。p-Creode 生成路徑上的細胞過渡狀態和已知的小腸結腸上皮細胞分化層級相符。小腸簇狀細胞(tuft cells)和屬於分泌譜系(secretory lineage)的杯狀細胞(goblet cells)、潘氏細胞(Paneth cells)不同,而和腸上皮細胞屬於同一分支;結腸中的簇狀細胞則更接近幹細胞(如圖二) 。另外,由肺泡上皮細胞、骨髓前導細胞的 RNA 序列庫分析,p-Creode 也能處理小量 RNA 序列數據並從雜訊中分辨出稀有細胞。

圖二、腸道細胞的螢光影像及 p-Creode 分析結果(圖片來源:https://goo.gl/FaKVvN)

參考資料:

  1. Kamimoto, K., & Morris, S. A. (2018). Breaking New Ground in the Landscape of Single-Cell Analysis. Cell Systems, 6(1), 5–7. doi:10.1016/j.cels.2017.12.015
  2. Setty, M., Tadmor, M. D., Reich-Zeliger, S., Angel, O., Salame, T. M., Kathail, P., … Pe’er, D. (2016). Wishbone identifies bifurcating developmental trajectories from single-cell data. Nature Biotechnology, 34(6), 637–645. doi:10.1038/nbt.3569

撰文|林宛瑢
審稿|魏廷燕
校訂|紀威佑

About the author

林宛瑢

林宛瑢

Hi, this is Eureka.
目前就讀聖路易華大機械材料系博士班, 研究主題為高通量癌症轉移及藥篩模型。

留言

Leave a Comment