一文帶你看懂高質量動植物基因組研究思路

01
背景
動植物基因組的大小由幾十Mb到上百Gb不等,尤其是植物基因組中存在高雜合、高度重復序列以及復雜的多倍體現象,用短讀長的二代測序無法拼接和組裝出這些高復雜區域的基因組信息,因此,對于雜合度高、重復度高、多倍體或者超大基因組來說,高質量基因組的組裝是非常具有挑戰性的,一般需要reads的長度超過在基因組中發現的大片段的重復序列區域。要實現這些高復雜度動植物基因組的組裝,必須采用三代長讀長測序技術。而近年來三代測序技術的快速發展,則極大地推動了越來越多高質量復雜基因組的成功組裝。
02
De novo項目拓展研究與案例分享
隨著測序技術與基因組組裝技術的快速發展,越來越多物種的基因組被組裝,其中不乏一些高重復性、高雜合性、多倍體或者超大基因組的成功組裝。僅靠組裝一個高質量基因組就可以發表一篇不錯文章的時代已經過去,基因組De novo組裝已逐漸成為基因數據挖掘的基礎項目,結合不同的生物學問題,以高質量基因組組裝為基礎,結合多種不同的組學數據或分析手段,多角度、多層次闡述生物學現象,解決生物學問題,是目前基因組研究的大方向。為此,我們梳理了在基因組De novo組裝基礎上,結合不同材料樣本背景的個性化需求,可以拓展的研究思路(De novo+?項目,圖2.1)。根據樣本特點,也可以將這些思路進行不同的組合,實現多組學聯合分析。

圖2.1:De novo+?項目研究思路導圖
03
三代測序
三代測序是單分子測序,與二代測序相比,長讀長測序技術的發展是推動植物基因組組裝的主要動力。PacBio和Oxford?Nanopore是目前占據三代測序市場的兩大主流生產商,他們的三代測序長reads讀取技術也各有千秋。
3.1 Nanopore測序
Oxford Nanopore Technologies(ONT)通過檢測DNA或者RNA單鏈分子通過兩端帶電壓的納米孔芯片時,不同堿基序列組合在納米孔內部產生不同的電流阻信號而測序(圖3.1)。其優點是讀長長,特別是ultra long ONT, 測序長度可達上百kb,同時其測序設備小巧、簡潔。但其也有明顯的缺點:(1)需要抽提高質量的DNA,而且reads 越長,對DNA的質量和完整度要求越高。(2)錯誤率較高。

圖3.1:ONT測序技術原理示意圖(圖片來源于網絡)
3.2 PacBio 測序
PacBio Sequel II測序系統也屬于SMRT(Single Molecule Real-Time)測序技術,在一個ZMW(Zero Mode Waveguide)孔中,利用熒光可逆終止dNTP檢測技術,DNA聚合酶以一條DNA鏈為模板,邊合成邊測序(圖3.2)。PacBio Sequel II測序系統支持兩種測序模式——CLR(Continuous Long Reads)模式和CCS (Circular Consensus Sequencing)模式。

圖3.2:PacBio Sequel II 測序技術原理示意圖(圖片來源于網絡)
3.2.1 CLR測序模式
根據PacBio數據,采用CLR模式時,有半數以上的reads讀長可以超過50Kb。但是由于文庫片段越長,對抽提的DNA質量要求就越高,抽提的技術難度就越大,因此,目前采用CLR模式測序時,一般構建的文庫平均長度為20-30Kb。在CLR測序模式中,聚合酶分子從一端的接頭開始沿著雙鏈DNA分子邊合成邊置換邊,隨著鏈的延長,聚合酶的活力越來越低,而且聚合酶在單鏈接頭部位時相對不穩定,容易脫落。因此,在CLR測序模式下, 絕大部分reads只能被讀取1次,因此在合成或讀取過程中造成的錯誤被保留了下來,而且這些錯誤在reads上也是隨機分布的(圖3.3 左)。
3.2.2 CCS測序模式
在CCS模式下,文庫插入片段長度較短,一般被限定在10-20kb之間,目前主流的平均插入片段長度為15kb左右。這種一致性序列通過對來自單個ZMW中的subreads進行比對產生,產生的CCS reads使用CCS算法需要至少兩輪讀取來自插入片段的subreads。
對于單個ZMW中的同一條序列來說,在聚合酶的活力下降或聚合酶脫落之前,這條序列已經被讀取了數次(多輪passes),將這些同一序列產生的subreads進行自身的比對,其中1條subreads上某一個位點的錯誤,可以被其他幾條進行校正,這樣就產生了高置信度的reads,也就是HiFi reads (圖3.3 右)。在這種模式下,序列讀取的準確性得以顯著提高(99.8%以上),同時,對于大部分物種來說,15kb的讀長基本可以跨越基因組上的大部分重復序列區域,實現對基因組全序列的覆蓋。因此這種15kb HiFi reads的模式一經推出,很快就得到了認可和推廣。這種模式也是目前我們首推的三代測序模式。
與以往錯誤率偏高的三代測序技術相比,15kb CCS模式的優勢非常明顯,是長讀長與高準確性的完美結合,而且組裝速度快,在數據存儲和計算資源的需求方面也有很大優勢。不過,這種模式也有不足之處,比如為了提高準確率而對同一序列多次測序會造成數據量產出的浪費,從而導致相對較高的測序成本。另外,即使是幾近完美的15 kb讀長也可能無法實現復雜植物基因組中常見的巢式的、高度相似的重復結構。許多復雜的植物基因組具有大于20kb的重復結構。對于這樣的序列,還需要輔助更長讀長的其他測序技術,比如ONT Ultra-long reads或者BioNano測序。

圖3.3:PacBio CLR模式與CCS模式對比示意圖
04
基因組三代測序主要應用范圍
De novo測序即從頭測序,是指在沒有參考基因組的條件下從頭組裝一個基因組。隨著三代測序技術與分析軟件的日臻成熟以及測序成本的下降,三代De novo測序在動植物基因組研究中得到廣泛應用,主要包括以下幾種應用場景:
(1)無基因組信息的物種;
(2)已有的基因組組裝質量不高,不滿足研究需求;
(3)已有高質量基因組,但物種的不同品種之間(或者突變體與野生型之間)差異大,需要針對特定的品種進行高質量基因組的組裝和注釋,用于基因資源的挖掘(如水稻、玉米、棉花、大豆等);
(4)遠緣雜交品種;
(5)泛基因組;
(6)將基因組三代De novo組裝注釋與比較基因組結合,研究關鍵性狀,物種進化,適應性機制,育種等發面。
(5)將基因組三代De novo組裝注釋與BSA,GWAS,群體研究或個體差異研究相結合,形成系統地研究。?
05
De novo項目拓展研究與案例分享
接下來,結合歐易代表性的項目文章,介紹下基因組在科研領域和生產實踐上的具體應用:
案例1:基因組De novo組裝+BSA測序——中國玉米界首篇Nature正刊:野生玉米基因組組裝以及克隆控制玉米高蛋白品質形成和氮素高效利用的關鍵基因THP9

文章題目:THP9 enhances seed protein content and nitrogen-use efficiency in maize
發表期刊:Nature
影響因子:69.504
合作單位:中國科學院分子植物科學卓越創新中心巫永睿研究組。中國科學院分子植物科學卓越創新中心黃永財博士后、王海海副研究員、朱一棟博士生為本文的共同第一作者。其中基因組組裝、注釋、BSA分析由上海歐易生物完成。
研究背景
玉米的祖先起源于南美洲墨西哥南部的大芻草,它像雜草一樣生長,種子外面包裹著堅硬的殼。早在9000年以前,人類祖先就開始馴化它,把雜草一樣的野生玉米大芻草逐漸改造成了今天的玉米。如今,玉米已成為世界上主要且最高產的農作物之一,70%的玉米都用作飼料,有“飼料之王”的美稱。但由于普通玉米籽粒蛋白含量較低,大部分雜交種籽粒蛋白含量不到8%,不能滿足動物對畜牧飼料蛋白的需求,嚴重限制了玉米的應用。野生玉米中含有很多優良基因及性狀,如籽粒蛋白含量高(~30%),但是其高蛋白形成的機制由于缺乏一個高質量的基因組而成為一個世紀級難題。因此組裝高質量的野生玉米基因組,克隆控制玉米高蛋白和氮素高效利用的關鍵基因,解析其機制是科學家們研究的重要方向。
研究內容
研究團隊利用trio-binning技術對野生玉米和B73雜交F1代基因組成功分型,組裝出兩套高質量基因組,并利用BSA、GWAS和圖位克隆等技術,對高世代回交的近等基因系材料定位,成功克隆了控制高蛋白的關鍵基因THP9。通過過表達等試驗證明了該基因的生物學功能,同時作者利用大量大田試驗證明了該優良基因對于提高玉米蛋白含量,提升氮素利用效率有重要的理論和實踐意義。
研究結果
1)研究團隊將野生玉米(Zea mays ssp. parviglumis, accession number Ames21814)和栽培玉米B73構建F1材料,通過三代測序技術和三維基因組相結合的測序策略,利用trio-binning技術成功組裝出高雜合的野生玉米單倍體基因組,基因組大小2.4G,contig N50達62 Mb,Scaffold N50 245.33 Mb,BUSCO為96.8%,是目前已發表玉米基因組中連續性最高的一個基因組。最后注釋出58,092個蛋白編碼基因,86.58%的重復序列。

2)作者通過構建高世代的野生玉米與B73的回交群體,篩選極端表型混池材料,通過BSA技術對野生玉米高蛋白基因定位和克隆。進一步作者對高蛋白遺傳群體進行精細定位,成功克隆了首個控制玉米高蛋白含量的主效基因THP9。

3)該基因編碼天冬酰胺合成酶4 (ASN4),負責合成天冬酰胺,是氮代謝的中心,充當氨基基團的分子間轉移反應中充當氮供體。因此,植物中的天冬酰胺水平與種子蛋白質含量密切相關。研究發現野生玉米優良基因Thp9-T顯著高表達,而B73和一些玉米自交系中含有Thp9的突變形式Thp9-B,導致 ASN4 的表達量較低。野生玉米優良基因Thp9-T導入玉米自交系B73后,使種子蛋白質含量增加約35%,根,莖和葉中氮含量也明顯增加,并且生物量即植株整體重量也大大增加。

4)進一步,作者將野生玉米高蛋白基因Thp9-T雜交導入我國推廣面積最大的玉米生產栽培品種鄭單958中,也可以顯著提高雜交種籽粒蛋白含量,表明該基因在培育高蛋白玉米中具有重要的應用潛能。同時,在減少氮肥施用條件下,可以有效保持玉米的生物量以及植株和籽粒中氮含量水平,這對于在低氮條件下促進玉米高產、穩產具有重要意義。

研究結論
本項研究組裝了一個高質量的野生玉米基因組,并從野生玉米中發現一個控制高蛋白玉米形成的關鍵優異變異基因Thp9-T,它可以提高玉米中氮的同化效率從而有利于產生更多的蛋白質。將Thp9-T導入現代玉米品種,大大提高了氨基酸水平,尤其是天冬酰胺,并且在不影響粒重的情況下增加了種子蛋白質含量。同時,在大田試驗中,本項研究也驗證了Thp9-T在高蛋白育種改良過程中起著重大作用,不僅顯著提高玉米栽培品種鄭單958的籽粒蛋白含量,而且在在低氮條件下能有效保持玉米的生物量以及植株和籽粒氮含量水平,對今后該基因的進一步推廣應用奠定了堅實基礎。
案例2:基因組De novo組裝+群體GWAS分析——蓖麻起源、馴化以及農藝性狀的遺傳基礎研究

文章題目:Genomic insights into the origin,domestication and genetic basis of
agronomic traits of castor bean
發表期刊:Genome Biology?
影響因子:17.904
合作單位:中國科學院昆明植物研究所李德銖課題組和西南林業大學劉愛忠課題組。中國科學院昆明植物研究所徐偉副研究員為第一作者。其中基因組組裝、比較基因組和群體進化分析由上海歐易生物完成。
研究背景
蓖麻(Ricinus?communis L.)是大戟科一種重要的油料作物,在工業上有重要的應用價值。關于蓖麻起源、馴化和遺傳基礎等研究工作,由于缺乏一個高質量的基因組而受限制,因此組裝一個高質量的蓖麻參考基因組對于揭示蓖麻的栽培起源,群體動態歷史以及重要農藝性狀的分子基礎具有非常重要的現實意義。
研究內容
本研究組裝了一個高質量的染色體水平的大戟科植物的野生祖先基因組,為理解大戟科植物的基因組進化提供了新的見解。進一步地,通過對全球505份蓖麻品種的重測序數據的群體進化分析,揭示了大約3200年前蓖麻馴化的東非起源。選擇性清除分析揭示了從野生樹木祖先衍生為一年生品種的受選擇區域。GWAS和QTL分析確定了與營養結構和種子性狀相關的關鍵候選基因。該研究系統描述了蓖麻馴化和基因組進化,為蓖麻的改良和利用提供了堅實的分子和遺傳證據。
研究結果
1)研究者利用PacBio Sequel三代數據和Hi-C測序數據組裝了野生種蓖麻樹(Rc039)的高質量基因組,基因組大小336 Mb,contig N50 11.59 Mb,scaffold N50 32.06 Mb。注釋出25,826個蛋白編碼基因,含53.9%重復序列。通過比較基因組學分析,發現蓖麻基因組經歷了一次古老的WGD事件。對蓖麻(2n=20)、麻風樹(2n=22)和木薯(2n=36)三個大戟科基因組進行共線性分析表明,三者之間存在大量共線性區域。同時研究者發現蓖麻的5號染色體在大戟科物種分化中發生了多次斷裂和融合事件,揭示了染色體進化在決定大戟科不同物種染色體數目中的重要作用。

2)以野生蓖麻基因組為參考基因組,對279份種質的進行了重測序數據(平均測序深度19.5×),結合226份已發表的數據,共獲得來源于35個國家和地區505份重測序數據。群體結構分析顯示這些種質分為三個主要亞群:埃塞俄比亞野生種(WE)、肯尼亞野生種(WK)和栽培種(LC)。其中埃塞俄比亞野生種和肯尼亞野生種遺傳關系較近,分化程度低,連鎖不平衡(LD)衰減速率快,衰減距離小,表現出較高的遺傳多樣性。相反,栽培種與WE或者WK之間有明顯的遺傳分化,LD衰減速率慢,衰減距離大,遺傳多樣性降低。

3)種群動態歷史分析揭示蓖麻群體在4400至6000年前經歷了一次嚴重的瓶頸事件,導致了有效群體大小急劇下降。隨后有效群體大小緩慢增加,在200至4000年前達到最大,推測可能與第一次工業革命(機器制造)期間為獲取具有高級潤滑油特性的蓖麻油而大量引種栽培有關。同時,該研究發現野生蓖麻與栽培蓖麻的分化時間約在3200年前,與古埃及栽培蓖麻的考古時間大致相同。但埃塞俄比亞(WE)和肯尼亞野生蓖麻(WK)在約7000年前就發生了分化。通過潛在適生區預測分析,發現在全新世期?(7000-5000?年前),野生蓖麻群體在埃塞俄比亞和肯尼亞邊境地區發生了大規模減少,甚至消失。已有大量證據表明,約6000年前該區域遭受了頻繁的極端干旱事件,導致湖泊水面急劇下降、植被消失和人類遷徙。這些結果表明蓖麻群體的遺傳瓶頸和群體分化可能與當時肯尼亞邊境地區急劇的氣候變化有關。

4)通過比較野生種群體(包括WE和WK)與栽培種群體(LC),采用ROD和FST分析方法進行選擇性清除位點掃描。共鑒定出326個受人為選擇的區域,包含1220 基因,主要涉及開花(如TFL1),次生細胞壁合成(如MYB46)和適應性相關的通路。同時,一些與種子大小相關的基因(如SOD7,TTG2,GW5,ABI5)也受到了選擇。通過GWAS分析鑒定出13個與3種株型性狀顯著相關的信號,其中一個與莖節數(NN)有關,9個與莖粗(DMS)有關,2個與植株高度(PH)有關。

?5)蓖麻種子大小和粒重性狀的GWAS分析和QTL定位。將種子性狀拆分為種子長度(SL)、寬度(SW)、厚度(ST)、面積(SA)、單粒種(SSW)和籽油含量(SOC)。利用構建的種子大小的RIL群體進行QTL定位,鑒定到除SA之外五個性狀的18個QTLs位點。通過GWAS鑒定到與除SOC外的5個性狀顯著關聯的17個位點。對這些位點所包含的基因進行功能分析,為理解蓖麻株型性狀和產量關聯性狀的遺傳基礎提供了重要的信息。

研究結論
該研究組裝了一個高質量的野生蓖麻基因組,通過比較基因組揭示了大戟科不同物種間染色體進化現象。通過群體進化,GWAS等分析揭示出東非蓖麻是現存的野生種,而栽培蓖麻大約發生在3200年前。野生蓖麻群體在約7000年前發生分化,可能與東非大裂谷Turkana Depression區域的急劇氣候變化有關,這次事件也導致蓖麻有效群體大小的減少和瓶頸的發生。通過選擇性清除和GWAS分析,揭示出大量與蓖麻株型和種子大小相關的候選位點。該研究不但為人們理解蓖麻的起源、馴化和群體動態歷史提供了新的認識,尤其是對多年生木本樹到一年生作物的馴化過程,而且為蓖麻的遺傳育種和改良提供了豐富的野生資源和候選基因。
案例3:基因組De novo組裝+比較基因組分析——棕尾別麻蠅染色體級基因組組裝為肉蠅進化適應提供見解

文章題目:Chromosome-level De novo?genome assembly of Sarcophaga peregrina?provides insights into the evolutionary adaptation of flesh flies.
發表期刊:Molecular Ecology Resources
影響因子:6.286
合作單位:中南大學基礎醫學院法醫系主任郭亞東課題組。中南大學基礎醫學院任立品博士為本文第一作者。其中基因組組裝、注釋和比較基因組分析由上海歐易生物完成。
研究背景
棕尾別麻蠅被認為具有重要的生態、醫學和法醫意義,并具有不尋常的生物學特征,如卵胎生生殖模式和適應腐肉。棕尾別麻蠅高質量基因組的組裝將有助于進一步揭示其潛在的機制。
研究內容
通過三代測序、Hi-C測序組裝了一個高質量染色體級別的棕尾別麻蠅基因組,通過基因組組件注釋對棕尾別麻蠅基因組上的重復序列、功能基因和轉錄因子基因、ncRNA等進行了注釋和分析,并通過比較基因組分析,揭示了擴大和正選擇的與生物學特性相關的基因,為棕尾別麻蠅提供了有價值的基因組資源,并進一步揭示其潛在的分子機制。
研究結果
1)組裝了一個560Mb的棕尾別麻蠅De novo基因組,contig N50為3.84 Mb,基因組組裝完整度BUSCOs評估為97.9%。總長度為548.19 Mb的基因組序列被掛載到6條染色體上,占基因組草圖的97.76%。
2)共鑒定出15710個基因,有潛在功能注釋的蛋白編碼基因14476個,占已組裝基因組中所有基因的92.14%。重復序列占組裝基因組的45.70%,其中TEs占基因組的12.35%。最終在組裝的基因組中鑒定出9,636個基因家族,其中有13個基因家系(包含106個基因)是棕尾別麻蠅特有的。
3)比較基因組分析揭示了與生物學特性相關的擴張基因家族和正選擇的基因,如脂質代謝、嗅覺受體活性、抗氧化酶、蛋白質水解和絲氨酸型內肽酶活性,這些生物學特性有助于闡明卵生生殖和腐肉進食的適應性。鑒定了卵黃蛋白、轉鐵蛋白和鞘磷脂酸酶等卵黃蛋白編碼基因。

棕尾別麻蠅染色體水平基因組組裝及與其他物種的基因組比較分析。
a. 組裝基因組的迭群關聯矩陣;b. 棕尾別麻蠅和黑腹果蠅基因組之間的染色體共線性。c. 維恩圖顯示了棕尾別麻蠅與其他蠅類間同源簇的分布。

棕尾別麻蠅與其他9個種的基因組收縮/擴張比較分析。
分枝上的數字表示每個分枝的擴展(藍色)和收縮(紅色)基因家族的數量。每個分支附近的數目表示每個分支顯著擴張(紅色)和收縮(藍色)基因家族的數目。黑色數字表示散度時間,兩個紅色圓圈表示校準節點。
研究結論
在這項研究中,利用PacBio三代測序數據和Hi-C測序數據組裝了一個高質量的染色體級別棕尾別麻蠅基因組,具有高覆蓋和高連續性,可用于進一步深入了解棕尾別麻蠅的系統發育多樣性。該基因組不僅為揭示棕尾別麻蠅等腐肉食性物種的進化適應性提供了重要資源,也為進一步開展大規模系統發育工程中的昆蟲進化研究填補了空白。
06
歐易在De novo項目上的優勢
歐易生物自從2009年成立以來,秉承“硬數據、好服務”的價值理念,為廣大科研工作者提供上百次基因組組裝服務,物種涵蓋各種動植物,特別是在植物方面有豐富的組裝經驗。
1)優質服務:充分的售前溝通 +?個性化方案設計?+?執行中及時溝通 +?專業售后支持
2)專業顧問指導:上百個物種組裝經驗,植物方面尤為突出,專業技術顧問在復雜多倍體組裝方面經驗豐富。
3)比較基因組分析專業解讀:比較基因組分析是大部分物種基因組De novo項目的靈魂,既為文章提供多張精致美圖,又可以從系統進化等角度多方面闡釋生物學現象。歐易生物在挖掘比較基因組數據信息方面獨具優勢,帶給客戶超值服務。
4)De novo+項目一站式服務:歐易生物擁有多種組學(基因組、轉錄組、代謝組、蛋白組)服務項目,對于以De novo基因組組裝為基礎的De novo+項目,在提供專業方案設計的同時,享受一站式服務。

END
原創聲明:本文由歐易生物(OEBIOTECH)學術團隊報道,本文著作權歸文章作者所有。歡迎個人轉發及分享,未經作者的允許禁止轉載。


-
儀器推薦
-
儀器推薦
-
儀器推薦
-
儀器推薦