隨著基因組測序爆炸性增長,比較基因組學已逐漸成為每個物種尤其是首次被破譯基因組的物種的必備研究內容之一。那麼什麼是比較基因組學呢?比較基因組學是透過對系統發育中的代表性物種之間的基因和基因家族的比較分析、構建系統發育圖譜, 來揭示基因、基因家族的起源和功能及其在進化過程中複雜化和多樣化的機制。比較基因組學研究有助於進一步闡明物種進化的分子基礎, 探索基因起源機制, 從基因進化的角度研究基因序列與功能的關係。

物種選擇

這麼多的物種中該選擇哪些來進行研究呢?又應該怎麼挑選呢?“好的”比較基因組研究一般需要遵循以下幾點:

(1)顧名思義,最重要的是這些物種要有參考基因組(即需要有蛋白質序列檔案以及基因註釋檔案);基因組常用的資料下載網站有以下三種:

NCBI

https://www。

ncbi。nlm。nih。gov/

);

ENSEMBLE

http://

asia。ensembl。org/index。

html

);

Phyzome

https://

phytozome。jgi。doe。gov/p

z/portal。html

)。(2)為了研究的準確性,儘量選擇基因組組裝連續性好的物種。若要用作共線性分析,則該物種的基因組需要為染色體水平。(3)與研究目的物種的親緣關係不宜太遠、數目不宜過多(通常在6-10個左右)。物種越多,物種間親緣關係越遠,將使得可獲取的單複製直系同源基因數目越少,影響進化樹的準確性。(4)可從分類系統選擇,將更好的從親緣關係水平尋找近緣物種。

比較基因組學研究那些事

被子植物系統發育海報

http://www。

plantgateway。com/chines

e/

(5)可從已發表近緣物種基因組文章中的進化樹內進行挑選,以此作為參考;或是直接從基因組發表網站上進行挑選,從而避免所選物種無基因組資料而反覆挑選查詢的麻煩。

比較基因組學研究那些事

比較基因組學研究那些事

網站查詢方法圖例(https://phytozome。jgi。doe。gov/pz/portal。html)

(6)為了避免基因家族擴張與收縮分析結果受到干擾,所分析物種的倍性最好保持一致,異源多倍體通常會拆成亞基因組對應的蛋白質序列進行分析,例如陸地棉AADD,則需要分為AA與DD分別進行。當然,不拆開亞基因組也可以,例如2019年Nature Communications上發表的異源四倍體糜子基因組就與二倍體穀子、高粱等一同分析(Zhou C

et al

。,Nature communications。 2019)。(7)需要含有關心的物種:這些物種與目標物種具有相似/相反的生物功能,透過物種間的比較可以解釋說明一定的生物問題,同時也利於後續基因家族功能故事闡述。(8)全基因組複製事件加上前期已有研究物種或是研究較為清晰的物種作為比對(葡萄或無油樟可作為內參)。(9)進化樹選取外群物種,主要基於三個原則:①外群物種要比研究物種先從祖先物種中分化出去;②外群物種與研究物種的親緣關係不宜太遠;③基因組組裝質量較好。目前,外群物種的選取可以從文獻調研、分類系統查詢、專案經驗等三種途徑進行獲取。尋找已發表基因組的近源物種文章。文章正文或附錄中的系統進化樹,最外面的物種即為外群物種。百邁客具有豐富的專案經驗,實在不會選擇時可與百邁客進行聯絡~百邁客將透過豐富的專案經驗為您提供合適的選取建議。

比較基因組學研究那些事

香雪球基因組進化樹(Huang L et al。Horticulture Research。 2020)

(10)分析中需要藉助於化石時間矯正得到有分化時間的物種樹,因此需要進化樹分支上某一物種具有化石資訊,為了分析的準確性,最好能在每個大分支內有一個化石資訊。常用的化石資訊查詢網站:TIMETREE website (

http://

timetree。org/

分析內容

(1)基因家族聚類

基因家族(gene family),是來源於同一個祖先,由一個基因透過基因重複而產生兩個或更多的複製而構成的一組基因,它們在結構和功能上具有明顯的相似性,編碼相似的蛋白質產物。對物種的蛋白序列進行家族分類,對獲得基因家族進行註釋;對本物種的特有基因家族進行GO和KEGG富集分析。物種共有基因家族中的單複製同源基因數目,用於系統發育樹的構建等分析。Veen圖中非重疊區與重疊區的數量分別表示幾個物種間特有基因家族和共有基因家族的數量。

比較基因組學研究那些事

板藍根基因家族聚類(Kang M et al。Horticulture Research。 2020)

(2)系統進化分析

透過與其它種基因組進行比較,挖掘目的物種與不同種間的系統進化關係。利用單複製蛋白序列建進化樹,透過外群的加入,使無根樹轉為有根樹。

(3)分化時間分析

透過與其它種基因組進行比較,挖掘不同種間的系統進化關係。根據各類生物間的親緣關係的遠近,把各類生物安置在有分枝的樹狀的圖表上,簡明地表示生物的進化歷程和親緣關係。藉助於化石時間矯正,可以得到有分化時間的物種樹,從而獲得物種之間的親緣關係和分歧時間,有利於闡明物種的進化歷史。

比較基因組學研究那些事

馬蘭及其近緣種分化時間(分支數字表示分化時間範圍)(Xu W et al。, Plant Journal。2020)

(4)基因家族擴張收縮

在比較基因組學中往往要研究具有某一類功能或者控制某性狀的基因家族在所研究的物種上是變多了還是變少。這就需要對基因家族進行收縮與擴張分析。透過目標物種和近源物種之間的進化關係,模擬推算共同祖先的狀態,然後兩者都和祖先比較,進而確定收縮和擴張的基因家族使用帶有分歧時間的進化樹和基因家族聚類之後的結果,通過出生死亡率模型估計每個分枝的祖先的基因家族成員個數,從而預測出該物種基因家族相對於祖先的收縮和擴張情況。

比較基因組學研究那些事

二倍體芋頭及其近緣種基因家族擴張收縮(紅色表示擴張數目,藍色表示收縮數目)(Yin J et al。, Mol Ecol Resour。2020)

(5)選擇壓力分析

選擇壓力是指外界施加給某物種生物進化過程中的壓力,使得物種適應自然環境。在遺傳學中,Ka/Ks或者dN/dS表示的是異意替換(Ka)和同意替換(Ks)之間的比例。一般認為,同義突變不受自然選擇,而非同義突變則受到自然選擇作用。如果Ka/Ks>1,則認為有正選擇效應。如果Ka /Ks=1,則認為存在中性選擇。如果Ka/Ks<1,則認為有純化選擇作用。如2019年百邁客合作發表於《Molecular Plant》文章雜草稻基因家族聚類圖例所示:ka/ks值在1。4到1。5之間,雜草稻(WR04-6)比野生稻(w1943)含有更多的基因;明雜草稻基因組中的基因可能積累了比栽培稻更多的功能突變,這意味著雜草稻的半馴化導致了雜草的進化。

比較基因組學研究那些事

雜草稻基因對Ka/Ks值的頻率分佈(Sun J et al。,Molecular Plant。 2019)

(6)基因組共線性分析

線性暗示兩個物種來源與共同的祖先序列,有著相似的功能。透過對物種內或者物種間共線性相關聯,來確定物種內部或者物種間的結構變異,揭示物種染色體進化,研究物種內部多倍化等事件。主要應用:結構變異的挖掘、基因組組裝準確性驗證(與已發表比較驗證)、觀察全基因組複製事件、功能基因組學研究(有相同生物學功能)。如2018年百邁客合作發表於《Nature Genetics》陸地棉與海島棉基因組文章圖例所示:海島棉染色體D05和陸地棉D12中均存在大的染色體臂間倒位,暗示這些變異出現在多倍化之後;兩個四倍體相對於

G。 raimondii

共有一些結構變異,例如染色體D09中兩個四倍體發生了大的反轉。

比較基因組學研究那些事

陸地棉和海島棉D亞基因組與雷蒙德氏棉(DD型)基因組共線性分析(Wang M et al。,Nature genetics。 2018)

如2019年百邁客合作發表於《Genome Biology》開心果基因組文章事例所示:每個無油樟區域對應三個開心果區域,每個開心果區域對應有兩個毛果楊區域,暗示了開心果在毛果楊之外又發生了一次獨立的複製事件。

比較基因組學研究那些事

開心果與無油樟及毛果楊共線性(Zeng lin et al。,Genome Biology。2019)

(7)全基因組複製事件

多倍化(polyploidy)或全基因組加倍(whole genome duplication, WGD)事件使基因組內的所有基因都發生重複,為生物進化提供了原始的遺傳材料,被認為是進化的加速器。全基因組複製事件在真菌或動植物中都有發生,是基因組中基因數量變化、基因新功能的形成、基因重排等的重要推動力。

比較基因組學研究那些事

陸地植物基因組複製歷史(Wu S et al。, Molecular plants。 2019)

由於在同一基因組上共線性的染色體片段中有旁系同源的基因集,因此可以透過這些成對的共線性片段追溯目的物種曾經的複製事件。透過研究全基因組複製事件,可以確定物種發生全基因組倍增時間,同時也透過分化時間的比對來判斷複製是發生在分化之前還是分化之後。常用方式:KS/4DTVKS:全基因組加倍事件會產生大量的同源基因,反映在Ks值上便是會有大量的Ks值接近的同源基因對的產生,Ks值峰就對應了全基因組加倍事件的存在。

比較基因組學研究那些事

茶樹全基因組複製事件(Ks)(Xia E et al。 Molecular Plant。2020)

4DTV:如果密碼子的第三個位點無論是哪種核苷酸,均編碼同樣的氨基酸,則稱這個位點為4倍簡併位點。較多的基因對數存在4倍簡併位點,說明基因組多樣性較多(or冗餘基因較多),可能此刻發生了物種分化或者基因組複製。

比較基因組學研究那些事

小白菜全基因組複製事件(4DTV)(Li Y et al。, Horticulture Research。 2020)

尾聲

隨著分析技術的不斷成熟,再加上無需其他額外材料收集以及測序分析與實驗工作,基因組結合比較基因組學分析是目前快速基因組文章發表的一個重要小途徑,也是一些新破譯基因組物種所不可或缺的分析內容之一。當然也正是因為分析的成熟,若想要衝刺高分雜誌還需要結合其他組學手段,講述一段較為完整的生物故事(多組學研究方案詳見→基因組學深入挖掘·研究方案(上篇)&(下篇))。