标准化分析 > RNA测序 > 三代转录组测序 > 三代转录组案例
通过单分子测序进行玉米和高粱间的比较转录组分析
A comparative transcriptional landscape of maize and sorghum obtained by single-molecule sequencing
DOI:10.1101/gr.227462.117
Genome Research 2018
背景
密切相关的物种之间基因组序列相似性极高等却表现出巨大的形态差异,例如人类和黑猩猩之间由基因组和转录组比较共同确认的分子差异,这些差异是两个物种之间转录和基因组共同作用的结果。此外,人和小鼠组织的转录本之间的比较显示出相当多的转录表达情况可能可以解释两个物种之间的基本生理差异。在植物中,保守选择性剪接事件已经在拟南芥和水稻之间、芸薹属和拟南芥以及水稻和玉米等多对物种中发现。然而保守选择性剪接这样的事件只在物种间中少量发现。
玉米和高粱具有非常相似的形态和系统发育结构,同时玉米和高粱是基因组序列层次上最相近的物种。尽管近期发表的玉米和高粱的RNA-seq数据揭示了发育过程中的基因表达模式,但很少有研究对这两个物种的转录组进行比较,特别是在统一组织之间可变剪切的差异。虽然RNA-seq被广泛应用于定量分析,但基于短序列序列组装出来的转录本的精确度远低于单分子长读序的组装结果。并且已有多项研究证明了单分子长读序的功能性和可靠性,特别是用于识别全长转录本。
主要材料方法
1. 主要数据
选取玉米B73自交系14天的根、茎、叶和种子等组织,以及v8时期的叶耳,r1时期的花粉,授粉20天后的胚、胚乳和果皮,R1时期的丝,最深处的苞片。高粱BTx623 14天的根、茎、叶和种子等组织,授粉20天后的胚、胚乳和果皮,开花期123三个时期的花序。所有的组织都进行了超过10个个体的三个生物学重复的混池测序。
所有Illumina和Pacbio Iso-Seq都上传到ArrayExpress (https://www.ebi.ac.uk/arrayexpress/), 数据编号为E-MTAB-5957,E-MTAB-5915, 和E-MTAB-5956.
2. 主要分析流程
a. 基础分析包括Illumina 数据RNA-seq,Pacbio数据比对,利用Pacbio数据鉴定lncRNA,以及Pacbio isoform的功能注释和Wang 等*(2016)采用的方法一致。
* Wang B, Tseng E, Regulski M, Clark TA, Hon T, Jiao Y, Lu Z, Olson A, Stein JC, Ware D. 2016. Unveiling the complexity of the maize transcriptome by single-molecule long-read sequencing. Nat Commun 7: 11708.
b. 单拷贝基因和倍增基因的鉴定:基于Ensembl Compara gene tree 的流程,以高粱基因作为古老基因进行鉴定,在玉米和高粱中都只有一个直系同源基因的为单拷贝基因,如果在高粱中有一个而玉米种有两个直系同源基因,那么玉米中的直系同源基因被认为倍增基因。cleavage sites (CSs)
c. 可变聚腺苷酸化(Alternative polyadenylation,APA) 分析: 提取每个转录本的3'UTR中切割位点(cleavage sites, CS)上游50nt的序列,并使用SignalSleuth2对从1-40nt上游CS区域poly(A)基序进行扫描以鉴定靠近上游的元件(near upstream element, NUE)基序。来自每个组织的前10个基序用于物种之间和组织之间的比较。 为了测量聚腺苷酸化的组织特异性,我们将两个物种间的11种组织种结束位置相聚5nt之间的所有全长转录本聚集在一起,并按照基因位点对不同组织在不同poly(A)位点的转录本进行分组。
d. 无义介导的衰变(Nonsense-mediated decay, NMD)候选的鉴定:为了确定可变剪切是否产生含有过早终止密码子并且可能被NMD降解的全长转录本,我们首先通过EMBOSS预测每个全长转录本的最长ORF并计算出终止密码子和最后一个外显子结合点之间的距离。如果一个全长转录本的距离> 50 nt,而另一种<50 nt,然后AS事件被认为是产生了NMD候选。
e. Ka/Ks 值计算:对于每种生物,在同源基因组中随机挑选至少基于BLASTPe值≤10-5的直系同源蛋白对,然后选择BLASTP评分最高的直系同源蛋白进行进一步分析。 使用Clustal W 2.0蛋白质序列的比对,并Pal2Nal将蛋白质序列比对转换为相应的密码子比对。 根据Nei-Gojobori算法,使用KaKs_Calculator1.2计算Ka / Ks值。
f. 转录进化年龄指数(transcriptome age index, TAI)和转录分化指数(transcriptome divergence index, TDI)计算:
TAI和TDI是进化年龄和序列分化的加权平均值。计算公式如下:
其中s =每个组织,n=分析的基因总数。低PS值对应于进化上的旧基因,因此低TAI值对应进化上的旧转录组。同样,高PS值对应于进化上的年轻基因,因此高TAI值对应于进化上年轻的转录组。通过类比,我们简单地通过用Ka / Ks代替上述方程中代替psi来引入发育阶段的转录组发散指数TDIs,计算公式如下:
因此,低或高Ka / Ks值比分别对应于保守或分化基因,因此低或高的TDI值对应于分别是保守或分化的转录组。
A comparative transcriptional landscape of maize and sorghum obtained by single-molecule sequencing
DOI:10.1101/gr.227462.117
Genome Research 2018
背景
密切相关的物种之间基因组序列相似性极高等却表现出巨大的形态差异,例如人类和黑猩猩之间由基因组和转录组比较共同确认的分子差异,这些差异是两个物种之间转录和基因组共同作用的结果。此外,人和小鼠组织的转录本之间的比较显示出相当多的转录表达情况可能可以解释两个物种之间的基本生理差异。在植物中,保守选择性剪接事件已经在拟南芥和水稻之间、芸薹属和拟南芥以及水稻和玉米等多对物种中发现。然而保守选择性剪接这样的事件只在物种间中少量发现。
玉米和高粱具有非常相似的形态和系统发育结构,同时玉米和高粱是基因组序列层次上最相近的物种。尽管近期发表的玉米和高粱的RNA-seq数据揭示了发育过程中的基因表达模式,但很少有研究对这两个物种的转录组进行比较,特别是在统一组织之间可变剪切的差异。虽然RNA-seq被广泛应用于定量分析,但基于短序列序列组装出来的转录本的精确度远低于单分子长读序的组装结果。并且已有多项研究证明了单分子长读序的功能性和可靠性,特别是用于识别全长转录本。
主要材料方法
1. 主要数据
选取玉米B73自交系14天的根、茎、叶和种子等组织,以及v8时期的叶耳,r1时期的花粉,授粉20天后的胚、胚乳和果皮,R1时期的丝,最深处的苞片。高粱BTx623 14天的根、茎、叶和种子等组织,授粉20天后的胚、胚乳和果皮,开花期123三个时期的花序。所有的组织都进行了超过10个个体的三个生物学重复的混池测序。
所有Illumina和Pacbio Iso-Seq都上传到ArrayExpress (https://www.ebi.ac.uk/arrayexpress/), 数据编号为E-MTAB-5957,E-MTAB-5915, 和E-MTAB-5956.
2. 主要分析流程
a. 基础分析包括Illumina 数据RNA-seq,Pacbio数据比对,利用Pacbio数据鉴定lncRNA,以及Pacbio isoform的功能注释和Wang 等*(2016)采用的方法一致。
* Wang B, Tseng E, Regulski M, Clark TA, Hon T, Jiao Y, Lu Z, Olson A, Stein JC, Ware D. 2016. Unveiling the complexity of the maize transcriptome by single-molecule long-read sequencing. Nat Commun 7: 11708.
b. 单拷贝基因和倍增基因的鉴定:基于Ensembl Compara gene tree 的流程,以高粱基因作为古老基因进行鉴定,在玉米和高粱中都只有一个直系同源基因的为单拷贝基因,如果在高粱中有一个而玉米种有两个直系同源基因,那么玉米中的直系同源基因被认为倍增基因。cleavage sites (CSs)
c. 可变聚腺苷酸化(Alternative polyadenylation,APA) 分析: 提取每个转录本的3'UTR中切割位点(cleavage sites, CS)上游50nt的序列,并使用SignalSleuth2对从1-40nt上游CS区域poly(A)基序进行扫描以鉴定靠近上游的元件(near upstream element, NUE)基序。来自每个组织的前10个基序用于物种之间和组织之间的比较。 为了测量聚腺苷酸化的组织特异性,我们将两个物种间的11种组织种结束位置相聚5nt之间的所有全长转录本聚集在一起,并按照基因位点对不同组织在不同poly(A)位点的转录本进行分组。
d. 无义介导的衰变(Nonsense-mediated decay, NMD)候选的鉴定:为了确定可变剪切是否产生含有过早终止密码子并且可能被NMD降解的全长转录本,我们首先通过EMBOSS预测每个全长转录本的最长ORF并计算出终止密码子和最后一个外显子结合点之间的距离。如果一个全长转录本的距离> 50 nt,而另一种<50 nt,然后AS事件被认为是产生了NMD候选。
e. Ka/Ks 值计算:对于每种生物,在同源基因组中随机挑选至少基于BLASTPe值≤10-5的直系同源蛋白对,然后选择BLASTP评分最高的直系同源蛋白进行进一步分析。 使用Clustal W 2.0蛋白质序列的比对,并Pal2Nal将蛋白质序列比对转换为相应的密码子比对。 根据Nei-Gojobori算法,使用KaKs_Calculator1.2计算Ka / Ks值。
f. 转录进化年龄指数(transcriptome age index, TAI)和转录分化指数(transcriptome divergence index, TDI)计算:
TAI和TDI是进化年龄和序列分化的加权平均值。计算公式如下:
其中s =每个组织,n=分析的基因总数。低PS值对应于进化上的旧基因,因此低TAI值对应进化上的旧转录组。同样,高PS值对应于进化上的年轻基因,因此高TAI值对应于进化上年轻的转录组。通过类比,我们简单地通过用Ka / Ks代替上述方程中代替psi来引入发育阶段的转录组发散指数TDIs,计算公式如下:
因此,低或高Ka / Ks值比分别对应于保守或分化基因,因此低或高的TDI值对应于分别是保守或分化的转录组。