本月生物資訊學月,我們很榮幸邀請到目前就讀台灣大學生醫電資所碩二的程式強者—王亮博學長,與我們分享他豐富的跨領域經歷。學長精通多種程式語言,並曾參與北京微軟亞洲研究院的實習交換計畫,目前的研究內容著重將解決各種生醫問題的演算法包裝成程式套件,讓更多使用者能利用套件進行研究分析。本次專訪希望由學長豐富經歷的分享,讓大家了解目前生物資訊領域的發展現況;也希望由學長在跨領域研究的心路歷程,讓有興趣朝跨領域發展的人有可以參考的方向。
學經歷
國立台灣大學 電機工程學系 學士
北京微軟亞洲研究院 實習
Pinkoi 電子商務公司 實習
研究經歷
亮博學長畢業於台大電機系,大二大三時因為對生物領域有興趣,開始進入生物與電機結合的實驗室作專題研究。一開始學長做的研究是生醫微機電(BioMEMS)相關的設計、量測,但發現比起硬體相關的研究,學長反而比較喜歡寫晶片量測的程式。之後歷經 iGEM 等競賽對生物領域有進一步的摸索後,最後進入莊曜宇老師的生物資訊暨統計實驗室。次世代定序(NGS)技術快速發展之際,老師的實驗室開始著手利用定序資料分析癌症與基因調控網路的研究,之後碩士班也選擇留在莊老師的實驗室繼續進行研究。 目前學長的研究主要是與學長姐合作將實驗開發的演算法包裝成程式套件,讓實驗室以外的使用者,能透過套件安裝,很容易地使用他們發表的新方法分析自己的數據。最近即將完成一個處理 Copy number alternation (CNA)分析的 R 套件。CNA 可以透過 CNA microarray 得到每個基因拷貝數的變化,這有助於研究在不同的實驗情況下,基因表現是否與 CNA 有關。
學長目前的計劃是明年碩班畢業後出國讀生物資訊相關的 PhD。
實習經歷
2014 年時學長經由莊老師的介紹,參與了北京微軟亞洲研究院半年的實習交換計畫。當時的研究內容為中國大腸癌病理切片分析,此計畫使用了一種類神經網路演算法 Convolutional Neural Network(CNN)來做切片大腸癌細胞的形態學上辨識與分類,目標是讓機器能做初步的篩檢,以減輕中國病理醫師少但需求與日俱增的負擔。回台之後除了將相同的方法應用在不同癌症之外,也結合了受試者基因的表現與臨床資料,試著將病理切片的觀察量化,並與其他數據結果共同分析,探討藉由不同的基因調控,腫瘤是否會與周圍組織有不同的互動。
學長也提到自己本身喜歡寫程式。在大學攝影社做社團網站時,接觸 Python 這個程式語言,便開始用它去處理生活中的大小事。之後也接觸處理統計的程式語言 R,且用它來處理之後研究上的各種統計問題。學長在學習程式的過程中,受到了很多相關程式社群(MLDM Monday、Taipei.py)前輩們的指導,之後他自己也在 Tawian R Conf、PyCon APAC 等程式年會擔任工作人員與講者,分享自己寫程式的經驗。因為這些經驗,在前輩介紹下,目前在 Pinkoi 電子商務公司實習,協助改善搜尋系統。R、Python 也是學長目前研究上用來做定序資料的處理、分析、統計檢定的程式。
目前了解的生物資訊領域的現況
因為生物資訊涵蓋的領域十分廣泛,學長針對自己實驗室主要的研究—人類癌症基因定序做介紹。定序技術持續革新,國內外許多大型計畫也不斷產出新的資料,加上定序的成本越來越低,使得學界、業界都蓬勃發展。
1. 學術界:臺灣中研院、陽明、台大及各大醫院都已經有完善的次世代定序服務(NGS Service)讓研究者使用。與以往全基因組晶片(whole genome microarray)相比,NGS 的優勢在於它能處理 de novo 的部份(例如:新的 SNP、新的基因、或是新的 alternative splicing form),而 microarray 主要用於找尋已知的序列。另外,NGS 也被用來做臺灣特有物種的基因組定序,這類的研究一方面得以保存生物多樣性,我們也能從基因的角度來建構這些生物的演化關係,例如台灣有 Taiwan Biobank 這類大規模收集母群體樣本的計畫。跨國的研究最近最有名的就是 TCGA(The Cancer Genome Atlas)計畫,目前進行到 phase II,收集了 33 種不同的腫瘤類型,共有超過萬位病患的全方位資料,從腫瘤切片、臨床診斷報告,到 Gene/miRNA expression、Somatic mutation、CNV、SNP、DNA methylation等。近年因為 NGS 技術的發展,一些先前是 microarray 的資料都開始新增了 NGS 資料,且還在不斷增加中。
2. 業界:有些提供生物資訊服務的公司(例如:23andMe)利用微陣列晶片(microarray),讓顧客可以追踨自己的家族來源及進行遺傳疾病風險推測。跟研究有關的網站像 DNA Nexus、Seven Bridge、Google Genomics,為研究者提供雲端計算、資料存放的平台。在實驗室自行架設完整的 NGS 分析系統不太容易,因此這類的網站提供人性化的介面,讓研究者只要選擇自己資料的類型,網站就會自動跑完所有的流程。臺灣目前也開始有一些類似的新創公司,例如:DNArails。
該如何培養跨領域的能力(從電資背景的角度)
從電資領域轉向生物資訊,主要缺乏的是生物以及統計的知識。學長高中曾是三類組,所以對生物有基本的了解,因此他主要充實跟研究相關的生物用詞。學習的管道主要有兩個:閱讀 review paper、修習課程。Review paper 能讓自己快速了解這個領域的現況,並且能透過文中的參考文獻,向外延伸了解這領域發展的進程,以及能精確地掌握特定主題的發展。修習課程則可以幫助自己了解是否真的喜歡某個領域。除了校內的修課, Coursera、edX、MIT OCW 等線上課程內容都很豐富,能自由安排自己學習的進度,也是很好的選擇。
從事跨領域的合作研究,如果什麼都只懂一點,卻無法針對特定主題有深入的見解,這樣一方面很難做出獨當一面的研究,另一方面也很容易被其他人取代,所以應該要想辦法發展出自己的專業技能。
給學弟妹的建議
如果大學有「專題研究」,應該盡量去嘗試每個自己感興趣的領域,並且把握機會向學長姐請教。實驗室通常每週有固定的 meeting 時間,這個是掌握實驗室研究第一手資訊的最好機會,不論學長姐當週是不是有進度,或者他做的東西自己聽不聽得懂,都應該儘量參加。他們遇到的問題以及解決的方法,都是很寶貴的經驗,可以把自己不懂的關鍵字筆記起來,自己查詢或事後詢問學長姐。學長自己的經驗是,大約前半年都聽不懂大家在做什麼,但過了這段時間之後,就有辦法抓出實驗室做的大方向,也漸漸能掌握大家的研究內容與進度。學長十分鼓勵學弟妹們盡早出國求學,國外 Bioinfo 除了業界發展都較臺灣成熟,畢業要找相關工作較容易,學術研究也大幅領先台灣。如果目標是相關產業就職的話,可以從碩班開始考慮,因為目前國外十分缺少相關人才。考慮往學術界發展或者目標深造的人,可能會想直攻 PhD,這時應該慎選實驗室和自己有興趣的題目。
如果沒有生物資訊相關研究經驗其實是很難做出「適當」的選擇,這時不妨考慮先唸碩士班,「讀碩士班能幫助自己確認適不適合走博士班這條路」。對生物資訊還很迷惘的學弟妹,不妨先花一些時間參與臺灣研究機構的計畫(不論是專題、碩班、研究助理),了解整個產學界的概況再做決定也不遲。
撰文|吳季芸
編輯|周致宏、呂理峰
攝影|CC BY 4.0 by Toomore