你想成為計算生物學家麼?

你想成為計算生物學家麼?

兩位計算生物學專家2013年發表在

nature biotechnology

上給即將開始科研專案的你的實用建議。 計算生物學家包含幾個不同的角色,資料分析者,資料收集者1,資料庫開發者,統計學家,數學

建模

者,生物 資訊學家,軟體開發者,存在論者等。計算機是現代生物學研究所必需的工具,科學家們要求掌握新的計算生物 技能和新的專業術語(Box 1)。無論你是學生、教授還是介於兩者之間,如果你發現計算分析對於你的研究越來 越很重要,以下的建議會對你成為一名計算生物學家挺重要的。現我將十條建議翻譯如下,如你感興趣可看原文

http://www。

cbcb。umd。edu/~sridhar/D

ocs/Loman-CompBiol。pdf

你想成為計算生物學家麼?

你想成為計算生物學家麼?

1。 明確目標、選擇適合的方法

一個好的計算生物學研究者會選擇並使用適合自己研究工作的軟體。當開始使用一個軟體之前,我們必須明白軟 件工作原理、使用的演算法並且它能夠完成哪些工作。不同的軟體會使用不同的演算法,並適用於不同型別的資料。 例如,從頭拼接軟體,基於

Overlap-Layout-Consensus演算法

的拼接軟體適合於長讀長的資料,而基於

de Bruijn graphs演算法

的軟體是專門為短讀長資料設計的。因此,選擇基於更適合你資料的演算法的軟體,會節省許多時間。

2。 測試你的或別人的程式碼

你知道自己的程式碼、軟體或者pipeline是如何工作的麼?當你匯入任何奇異的資料時,計算機都會輸出一些結果 。因此,沒有報錯資訊並不代表著計算成功、結果正確。我們需要建立小測試資料集,它的輸出結果是已知的, 然後去測試我們所使用的軟體和pipeline能否正確輸出結果。總之,在正式開始自己的資料之前,要用多種型別 的資料去一再測試,保證輸出的結果可信。生物學家在做實驗的時候,一定會設定

陽性實驗組

和陰性對照組;而 對於計算生物學科學家來說,我們要做的就是test、test and test。

3。 你是科學家,並不是程式設計師

完美是優良的敵人。我們必須記住我們是科學家,具備你的專業研究所需技能和思維才是最重要的,而不是你的 程式碼寫得有多漂亮。寫得再漂亮的程式碼輸出的結果是錯的還不如簡單使用基礎程式碼來完成任務。如果你確定你代 碼的核心演算法是正確的,再去花時間使它變得更加優美和編寫使用文件。對於你來說,更為重要的還是你的生物 知識,那樣才能使你成為一名真正的計算生物學專家。

4。 使用版本控制軟體

使用Git、Subversion (Table 1) ,可以使你更加方便得與他人合作,追蹤你的歷史修改記錄。它們也是很好的軟體倉儲,便於公開分享你所開發 的軟體。

你想成為計算生物學家麼?

你想成為計算生物學家麼?

5。 Pipelineitis是一種

惡疾

pipeline就是使用預先設計的一系列步驟、軟體工具對

序列資料

進行處理,它是一種很好的工具將確切的步驟綜 合到一起。但是它會限制我們思考、抑制我們的創造力。我們給出的警告是,不要太早使用pipeline,在此之前 必須一步一步得找到處理你資料的方法。即使在那以後,你也必須思考自己是否需要是pipeline?那樣節約了你 的時間了麼?你開發的pipeline是否真的對其他人有用?這些步驟你都能夠靠自己所寫的簡單程式碼完成了,再去 使用別人的pipeline簡直就是浪費時間。

6。要擁有奧巴馬一樣的心境

Yes you can!

作為計算生物學科學家,我們必須要創造力,調整已有的方法到開發全新的方法。要有冒險精神, 不懼失敗、永往直前。這是一件激動人心的是當你透過谷歌、詢問領域的專家、自學來解決一個特殊的問題。這 裡有一些學習資源(Table 2)。

你想成為計算生物學家麼?

你想成為計算生物學家麼?

7。 要懷疑一切,不相信任何人

重複已完成的專案是資料分析訓練的專案。首先,創造一個很大的

資料矩陣

,每一列代表著實驗組和

對照組

。統 計檢驗會被應用分析兩組試驗資料的顯著性差異,然後幾百行的資料輸入然後返回P值代表著統計顯著性結果。 即使是生物學家在進行資料處理的時候,會從特定的軟體或者pipeline分析中得出有趣的結果。這時我們需要注 意啦,這樣的資料結果要懷疑它的真實性,要進行進一步的實驗驗證來確定它是否是實驗錯誤或者誤差造成的。 如果透過多種方法驗證都正確,你的結果的真實性就大大增加。但是對於大多數發現來說,實驗驗證和進一步實 驗工作是必。生物知識是至關重要的,將計算機分析結果翻譯成生物結果。設定資料測試也是其中的一部分。這 些檢測步驟能夠保證你的軟體和pipeline輸出的結果能夠滿足你的預期就行,不需要保證結果是否正確。

8。 選擇正確的工作工具

強大的UNIX/Linux

命令列

會使你的工作變得更加容易。你還要學會程式設計,並且不要陷入語言之爭,每種程式語言 都有一定的優點和缺點,你只需要使用它去完成你的工作就行了。整理好自己實驗資料和專案,使其井然有序、 可追溯。

9。 成為一名偵探

計算生物學科學家絕大多數時間都在分析和整合資料,去挖掘其中的科學故事。除非你很幸運,能夠挖掘出一個 完美的故事並不容易。你必須去思考為什麼這樣去設計實驗,如何去分析是更好的,這個結果告訴我們什麼?你 必須去考慮資料中是否存在失誤或者系統誤差。

做到上面的事情,我們必須跟團隊的其他科學家討論並且整合、分析其他資料。你可能需要進行後續的實驗來驗 證你的猜想。記住,真實的故事可能並不存在你的資料當中。如果你感興趣的生物系統取決於磷酸化作用相關的 一個蛋白質,可能你並不能從你的轉錄組資料中看到影響。你是小偵探,來讓我們挖掘資料吧!

10。 已經有人做了,找出他們!

無論是多麼基礎的問題或者、前沿的方法,總會有人已經能研究過。這裡有兩個討論軟體問題的資源:BioStars (

http://www。

biostars。org/

)和SEQanswers(

http://

seqanswers。com/

)。還有就是Twitter,你可以在上面找到 一些有用的建議和資源連結。“勾搭”你們單位的其他計算生物學科學家。參加一些當地的計算生物學研討會和興 趣學習小組。總而言之,如果你想學習計算生物學,網路上擁有許多資源。最重要的一點就是勇於嘗試去學習新 的知識。你會有驚奇的發現與體驗哦!

補充

1 資料收集者

以下文字出處:http://blog。sina。com。cn/s/blog_745072fd0100ywap。html

一般獲得大量的測序資料,特別是篩選到一定數量的variants後,下一步的分析,

data curation

要佔到研究者8 0%的時間,也就是搜尋大量的文獻,再從中挑選出可信度高的有價值的,來作為分析生物機理的依據。目前全世 界有250個左右專職的data curator,負責文獻查詢,構建資料庫,現在也開始處理一部分高通量測序的資料。 沒有可用的

資料庫

時,自己要搜尋並閱讀成千上萬的文獻,要好幾個星期;有構建好的資料庫,達到一樣的目標 只需要30分鐘,當然這是以curator的前期工作為基礎的。Data curator一般是博士,少數是碩士,通常是不喜歡bench work或者某個特定的課題,但是仍然希望與science俱進 的。薪水還可以,上班時間比較固定,很多是做媽媽的到點要接孩子。這位guest professor實驗室有十幾個cur ator,而且都做了很長時間了,距離現在最近的一個離職是7年前,他們曾經在1000個工作小時內curate了16000 篇文獻,平均不到4分鐘一篇,一般只看figure/figure legends和results。Guest走後,我們都覺得這種工作真 的是要具備某種特定性格的人才做的來,我說我反正難以想象自己做這樣的工作,will be bored to death,旁 邊某曾獲

諾貝爾醫學獎

的教授也表示他也會受不了。可是在做這個行業的人們是非常喜歡這種型別的工作的。所 以說,合適的才是最好的。

原文來自:你想成為計算生物學家麼?

你想成為計算生物學家麼?

你想成為計算生物學家麼?