环状RNA(circRNAs)是一类不具有5’末端帽子和3’末端poly(A)尾巴、并以共价键形成环形结构的非编码RNA分子。目前发现的circRNAs主要来源于基因外显子exon,但还有其他类型,比如来源于内含子intron,基因间intergenic,反义链antisense,重叠区sense overlapping。
1. 平台介绍:
1.1 硬件设备:
生物计算集群:配备多台HP机架式服务器,E5-2630V4处理器(10核,2.2GHz)
1.2 软件:
转录组测序相关的生物信息学分析软件,同时提供多种个性化生物信息学服务软件可供选择
2. 服务名称:
CircRNA测序分析项目
3. 服务内容:
标准分析
|
|
高级分析
|
|
circRNA预测
|
√
|
miRNA-circRNA调控网络
|
√
|
circRNA长度分布
|
√
|
miRNA-circRNA-mRNA调控网络
|
√
|
circRNA类型统计
|
√
|
|
|
circRNA染色体来源统计
|
√
|
|
|
已知circRNA注释
|
√
|
|
|
circRNA表达量分析
|
√
|
|
|
circRNA表达差异统计分析
|
√
|
|
|
circRNA表达聚类分析
|
√
|
|
|
host基因GO富集分析
|
√
|
|
|
host基因KEGG富集分析
|
√
|
|
|
4. 交付内容
4.1 circRNA预测
环状RNA是一类特殊的非编码RNA,与传统的线性RNA(linear
RNA,含5’和3’末端)不同,circRNA分子呈封闭环状结构,不受RNA外切酶影响,表达更稳定,不易降解。circRNA主要是由下游外显子的剪接供体位点与上游剪切外显子的剪接受体位点反向剪接而成,因此识别反式剪切位点就成了识别环状RNA 的关键点。我们选择了UROBORUS和CIRI两款软件识别出样本中的circRNA用于后续分析。
UROBORUS先利用Tophat软件寻找未匹配到基因组上的reads,再筛选出reads两端反向比对到同一染色体上不同外显子的方法作为junction
reads来确定circRNA的存在。详细的工作流程如下:
图4.1.1 UROBORUS工作流程图
CIRI利用BWA-MEM
算法进行序列比对,寻找Junction
Reads,然后根据支持剪切位点的GT-AG
信号和PCC 成对交替剪切信号的Junction
Reads 作为识别circRNA
的依据,利用动态规划算法来检测circRNA。工作流程图如下:
图4.1.2 CIRI工作流程图
预测结果:circRNA_results.xls
表4.1 鉴定出的circRNA信息
4.2 circRNA的长度分布
对每一个样本鉴定出的circRNA进行长度分布统计。
图4.2 CircRNA长度分布
4.3 circRNA的类型统计
对样本中鉴定出的circRNA类型进行统计。
图4.3 CircRNA的类型分布
4.4 circRNA染色体来源分布
对样本中鉴定出的circRNA进行染色体来源统计。
图4.4 CircRNA染色体来源分布
4.5 已知circRNA注释
将样本中鉴定出的circRNA与已发表的circRNA数据库进行比较,统计出样本中已知circRNAs个数和新发现的circRNAs个数。CircRNA数据库包括circBase、circRNADb、CIRCpedia和CSCD等。
4.6 circRNA表达量分析
由于linear RNA的干扰,从total
RNA-seq数据中很难准确地获取所有比对上circRNA
的Reads
信息,因此circRNA的表达量估计方法是使用Back-spliced
Reads 的数目来估计circRNA
的表达量。
SRPM(Spliced
Reads per Million Mapping)的缩写,利用反式剪切位点所匹配上的Reads 来估计表达量。
公式如下:SRPM=Spliced
reads/(Total mapped reads)×106。
CircRNA
|
Normal
|
Cancer
|
hsa_circ_0000123
|
2.8573
|
2.5951
|
hsa_circ_0001567
|
0
|
0.7701
|
hsa_circ_0025684
|
1.1192
|
0
|
4.7 circRNA表达差异统计分析
针对多样本(≥2)我们会对样本间的circRNA
表达情况进行差异表达分析,鉴定出样品间差异表达circRNA。
利用统计软件对样本中的circRNA进行差异表达分析,显著差异表达circRNA
的筛选标准为:FDR
< 0.05 & |log2FC| >= 1
4.8 circRNA表达聚类分析
利用R语言中的ggplot2包对对样本间的circRNA
表达情况进行差异表达分析,绘制热图,从而将差异表达circRNA聚类,以便后续分析。
图4.8 各样本中CircRNA表达聚类热图
4.9 host基因GO富集分析
Gene
Ontology可分为分子功能(Molecular
Function),生物过程(biological
process)和细胞组成(cellular
component)三个部分。GO
分析对实验结果有提示的作用,通过差异基因的GO
分析,可以找到富集差异基因的GO分类条目,寻找不同样品的差异基因可能和哪些基因功能的改变有关。因此我们利用DAVID软件对circRNA的亲本(host)基因进行分析,绘制热图。
图4.9
CircRNA对应的host基因GO分析热图
4.10
host基因KEGG富集分析
KEGG(Kyoto
Encyclopedia of Genes and Genomes)是系统分析基因功能、基因组信息数据库,它有助于研究者把基因及表达信息作为一个整体网络进行研究。基因组信息存储在GENES数据库里,包括完整和部分测序的基因组序列;更高级的功能信息存储在PATHWAY数据库里,包括图解的细胞生化过程如代谢、膜转运、信号传递、细胞周期,还包括同系保守的子通路等信息。
图4.10 CircRNA对应的host基因KEGG分析热图
4.11
circRNA-miRNA调控网络
研究显示,
circRNA通过碱基互补配对原则识别结合RNA诱导的沉默复合体中的miRNA,发挥miRNA海绵吸附作用,抑制miRNA的调控功能,从而升高靶基因的表达水平。因此我们利用miRanda和TargetScan对circRNA可能结合的miRNA进行预测,并绘图。
图4.11
CircRNA-miRNA调控网络
4.12
circRNA-miRNA-mRNA调控网络
我们利用Cytoscape将circRNA可能结合的miRNA,以及miRNA对应调节的mRNA构建三元组,绘制调控网络图。
图4.12
CircRNA-miRNA-mRNA调控网络
|