利用转录组测序数据分析可变剪接的方法
转录组测序数据分析(有参考基因组)
转录组测序数据分析(有参考基因组)一、数据分析流程二、数据分析内容1. 数据预处理目的:对原始测序数据进行一定程度的过滤。
原理:根据测序接头以及测序质量对原始的测序数据进行预处理,其中,测序质量Q与测序错误E之间的关系如下:结果:对预处理后质量以及碱基分布统计进行统计2. 比对基因组目的:将经过预处理的测序数据与参考基因组进行相似性比对。
原理:Burrower-Wheeler转换算法与splicing比对算法。
1)Burrower-Wheeler转换算法:由于测序数据量非常大,与整条基因组比对所需资源与时间是较为巨大的。
目前,我们采用Burrower-Wheeler(BWT)算法对基因进行建立索引、碱基压缩等过程,这样可以很大程度上加快比对速度,减少比对过程中所需资源。
2)splicing比对算法:即分段比对算法,当某条测序序列位于转录本剪切位点时,也就是这条序列同时属于两个外显子,如果将它与参考基因组进行比对,由于基因组两个外显子之间含有intron区,那么它将无法找到它合适的位置;但是应用分段比对算法就可以将这条测序序列分割变成多段子序列,然后应用这些段子序列与基因组进行比对,这样就可以找到它们真正的位置。
Vps28基因的一个分段比对的结果,蓝线连接的两端即为被分割的子序列,可见此种算法非常的适用于转录组测序。
结果展示:应用比对结果进行一些相关mapping统计,测序饱和度及测序5’,3’ bias统计。
Multi mapping,Unique mapping及Unique gene-body mapping统计。
饱和度分析,当reads达到一定测序量后,基因覆盖率基本达到饱和。
测序3’,5’偏好性统计,测序主要集中于基因bady区,两端偏向性较轻。
3. 基因表达水平研究目的:应用基因组比对结果进行基因定量。
原理:从指定物种基因模型(基因结构)中得到gene、exon、intron以及UTR等位置信息,通过基因组比对结果计算出在不用区域富集片段数目,然后应用RPKM/FPKM标准化公式对富集片段的数量进行归一化。
RNA可变剪接谱图分析的步骤与实践指南
RNA可变剪接谱图分析的步骤与实践指南RNA可变剪接(RNA alternative splicing)是一种在转录过程中产生不同mRNA isoform的机制,可显著增加一个基因所编码的蛋白质的多样性。
通过可变剪接,一个基因可以产生多种不同结构和功能的蛋白质,从而增强了生物体对环境变化的适应能力。
在研究中,了解RNA可变剪接的谱图分析步骤和实践指南是非常重要的。
一、分析步骤:1. 数据预处理:从高通量测序数据中提取出RNA可变剪接信息是分析的第一步。
这个过程通常包括测序数据的质量控制、去除低质量的序列、剪切适配器的剪除等。
2. 剪接位点的标定:下一步是找出RNA可变剪接的剪接位点。
常用的方法是使用剪接位点标定工具,如SUPPA、DASPER和Whippet等。
这些工具可以根据测序数据和已知的基因组注释信息确定剪接位点。
3. 剪接事件的分类:基于剪接位点的信息,可以将剪接事件分为多种类型,如剪接外显子(exon skipping)、剪接边界改变(alt-3' or alt-5' splice site)、可变剪接弯曲(intron retention)等。
这个步骤可以使用软件工具,如rMATS、MAJIQ和Whippet等进行分类和注释。
4. 剪接事件的定量分析:定量分析是了解不同可变剪接事件在不同条件下的表达差异的关键步骤。
这个过程可以使用计数矩阵进行,这个矩阵记录了每个可变剪接事件在不同样本中的剪接事件计数。
常用的统计学方法如DESeq2、edgeR和limma等可以用于分析这个计数矩阵,确定不同可变剪接事件的显著差异。
5. 功能注释和富集分析:对于得到的显著差异的可变剪接事件,功能注释和富集分析可以帮助我们了解这些可变剪接事件所参与的功能通路或生物学过程。
这个步骤可以使用GO(Gene Ontology)富集分析、KEGG(Kyoto Encyclopedia of Genes and Genomes)富集分析或基于其他数据库的功能注释工具进行。
可变剪接分析
Genome Browser 使用
Genome Browser提供一个与基因组比对 的程序blat, 用户可以提交序列用blat进行 基因组定位。
Blat 提交界面
可以从下拉菜单中选择不同基因组
Blat 结果
可以看到QUERY AY174119为用户提交序列,比 对得分为742, 提交序列全长774,其中4-755的序 列可以匹配在16号染色体正链区域(66377), 有99.6%的匹配序列与提交序列完全相同。 “details”为比对的文本显示,“browser”为 在Genome Browser中查看结果
(1) 寻找潜在的启动子
Cold Spring Harbor的Michael Zhang 小组开发 的FirstEF程序针对第一外显子和启动子的预测, 其准确度在同类软件中较高,因此选用该程序对 我们序列进行预测。实际上在genome browser 中也包括firstexon 预测结果。 该软件网址/tools/FirstEF/
•外显子的跳越现象。3,4,5,6外显子均存在被 切除的现象。
•剪接位点的偏移。在同一外显子区域,外显子的 大小不同(对应方块的大小不同),可能是由于 内含子内存在多个相邻的剪接信号,导致不同的 剪接结果。
查看EST支持
Genome Browser 提供的一个重要资源 是EST在染色体上的定位信息,其基本 做法是把EST数据与基因组作比对后, 按照最好的匹配结果将EST唯一的定位 到基因组上。
1.3 可变剪接的调控
可变剪接的调控机制目前还不清楚。但 越来越多的研究表明,可变剪接的调控 是通过基因序列上的顺式作用元件和核 内反式作用分子的相互作用进行的。
可变剪接的调控
主要的顺式作用元件有:
利用转录组测序数据分析可变剪接的方法
图1 生物体内发生的主要可变剪接类型目前大量数据研究结果表明,可变剪接主要包括五种形式(图1),分别为外显子跳跃(Skipped Exon,SE),可变5′剪接位点(Alternative 5′ Splice Site,A5SS),可变3′剪接位点(Alternative 3′ Splice Site,A3SS),互斥外显子(Mutually Exclusive Exons,MXE)和内含子保留(Retained Intron,RI)。
此外还有两种不常见的形式:可变的第一个外图2 Exon Inclusion or Skipping event示意图Exon Skipping Isoform为Upstream exon 和Downstream exon直接连接形Exon Inclusion Isoform为Upstream exon, Alternative exon和Downstream 连接形成。
该模型以Likelihood-ratio test计算p值,大大提升了计算速度。
rMATS支持多线程运行且支持两种输入格式:Fastq或者Bam。
根据计算时用到的reads差别,最后会得到两组结果,一种是只用到跨Junction的reads;另一种是比对到剪接位点上的所reads。
rMATS是目前在RNA-seq数据领域应用最多的分析可变剪接的工具。
图3 DARTS工作流程DARTS BHT(flat)进行常规分析大规模RNA-seq数据中的可变剪接事件,创建带标签的训练数据,用于训练 DNN模型;新的特定RNA-seq经DNN 模型预测作为贝叶斯模型的先验(DARTS BHT(info));用户的RNA-seq数据则是用于更新先验概率形成后验概率。
顺式序列特征(Cis-sequence)和反式RBP的mRNA水平(Trans-RBP):DARTS DNN预测差异可变剪接的两个因素。
先验信息(Prior):DARTS DNN预测的结果。
转录组研究新技术RNASeq及其应用
转录组研究新技术RNASeq及其应用一、本文概述随着生物信息学和分子生物学的快速发展,转录组研究已成为解析生命活动重要机制的关键手段。
近年来,新一代测序技术(Next-Generation Sequencing,NGS)的崛起,特别是RNA测序(RNA Sequencing,RNA-Seq)技术的广泛应用,极大地推动了转录组学研究的深度和广度。
RNA-Seq技术以其高分辨率、高灵敏度和高定量的特性,在基因表达分析、非编码RNA研究、基因结构变异分析等领域展现出强大的潜力。
本文旨在全面介绍RNA-Seq技术的基本原理、实验流程、数据分析方法,以及其在生命科学各领域中的实际应用,以期为相关研究人员提供有益的参考和启示。
二、RNASeq技术概述RNA测序(RNASeq)是一种革命性的技术,极大地推动了转录组学的研究进程。
该技术基于下一代测序(Next Generation Sequencing, NGS)平台,可以对生物样本中的RNA进行全面、精确的测序和分析。
RNASeq不仅提供了转录本的序列信息,还能够揭示转录本的表达水平、剪接方式、变异情况以及基因结构等重要信息。
RNASeq的实验流程通常包括样本制备、文库构建、测序和数据分析等步骤。
在样本制备阶段,需要提取高质量的RNA,并通过一系列的处理步骤去除杂质和降解的RNA。
文库构建是RNASeq技术的核心,其目标是将RNA片段化、反转录成cDNA,并构建成适合测序的文库。
测序阶段则利用NGS平台对文库进行高通量测序,获得大量的序列数据。
数据分析是RNASeq技术的另一个关键环节。
通过对测序数据的处理和分析,可以鉴定出转录本、评估基因表达水平、发现可变剪接事件、识别基因融合以及探索非编码RNA等。
RNASeq技术还可以与表观遗传学、蛋白质组学等其他组学技术相结合,从多个层面揭示生命活动的复杂性和多样性。
RNASeq技术的应用范围非常广泛,涵盖了基础生物学研究、疾病机理探索、药物研发等多个领域。
RNA可变剪接分析的常用方法与流程
RNA可变剪接分析的常用方法与流程随着RNA测序技术的发展,研究者们可以获得大量的RNA序列数据,从而揭示基因表达的复杂性和多样性。
其中,RNA可变剪接是一种重要的基因调控机制,可以在转录过程中产生不同的mRNA剪接体,进而编码多种蛋白质亚型。
正确地进行可变剪接分析可以帮助我们理解基因功能的多样性及其在不同生物进程中的作用。
本文将介绍RNA可变剪接分析的常用方法与流程。
一、生物信息学预测对于已经注释的基因组,我们可以利用基因组注释文件及相应的RNA测序数据,进行生物信息学预测来分析RNA的可变剪接。
常用的预测软件包括Cufflinks、StringTie和MISO等。
首先,我们可以对RNA测序数据进行拼接,利用比对算法将reads与参考基因组比对。
然后,基于比对数据,我们可以确定每个剪接位点的比对 reads 数量,进一步得到受该剪接位点调控的剪接事件。
二、剪接事件的分类与可视化在生物信息学预测的基础上,我们需要将剪接事件进行分类和可视化,以便更好地理解和分析。
根据可变剪接的模式,常见的剪接事件包括外显子跳跃剪接、替代剪接以及内含子保留等。
我们可以利用软件包如ASpli、JuncBASE和MAJIQ等,对剪接事件进行注释、分类和可视化。
三、差异剪接分析差异剪接可能在不同条件下发生,用以产生不同的mRNA剪接体。
对于差异剪接的分析,我们可以使用不同的差异剪接分析工具。
比较流行的方法有rMATS和DEXSeq等。
这些工具可以用于检测和定量差异剪接事件,进而帮助我们找到与特定生物进程或疾病相关的剪接事件。
四、功能分析在差异剪接分析之后,我们通常会对差异剪接事件进行功能分析,以了解这些剪接事件与基因功能的相关性。
功能分析一般包括基因本体论(Gene Ontology)分析和富集分析。
基因本体论分析可以将差异剪接事件的基因ID映射到相应的生物学过程、细胞组分和分子功能。
而富集分析可以帮助我们找到与差异剪接事件相关的已知通路、信号和功能等。
干货整理转录组测序和分析,你需要知道的
干货整理转录组测序和分析,你需要知道的转录组测序及分析技术可以解决新基因的深度发掘、低丰度转录本的发现、转录图谱绘制、可变剪接的调控、代谢途径确定、基因家族鉴定及进化分析等各方面的问题;成为了广大科研工作者备受青睐的高通量测序技术之一。
转录组研究的应用领域十分广泛,适合研究组织特异性的、不同生长发育的、逆境胁迫下的、侵染转基因的、性状突变等材料。
转录组是在某一特定发育时期或某一生理条件下,细胞或组织内所有转录产物的集合,包括mRNA、lncRNA、small RNA、circle RNA等。
因此做转录组测序理论上可以研究各种长度范围的RNA序列,目前的常规技术包括mRNA测序、lncRNA测序、smallRNA测序。
那么问题来了,研究转录组如何下手?1根据研究对象,选择相应的建库策略(1)mRNA:可以通过富集polyA的方式来调取mRNA,进行建库测序;(2)lncRNA或lncRNA+mRNA:可以通过去rRNA试剂盒去除rRNA后进行建库测序;(3)circle RNA:可以通过消化线性RNA,再去除rRNA后进行建库测序;(4)small RNA:采用sRNA的建库策略,对18-40nt范围的sRNA进行切胶富集后建库测序。
2根据研究目的,选择不同的测序策略(1)了解不同样品间基因或sRNA的表达差异:选择SE(single end)测序即可,测序量10M reads以上;(2)进行基因的可变剪切、挖掘新基因、对现有基因的注释进行优化、检测基因融合等结构方面的分析:选择PE(pair end)测序,测序量则根据物种基因集合的大小来决定。
3基于转录组测序的主流研究手段(1)RNA-seq denovo:基于序列组装,用于从头构建某物种的转录本序列;(2)RNA-seq resequencing:对于已有参考基因的物种,进行基因定量、基因可变剪切、基因融合、新基因检测等分析;(3)lncRNA-sequencing:主要研究lncRNA的表达量,预测新的lncRNA及其功能;(4)sRNA sequencing:主要研究和分析small RNA序列,特别是miRNA的表达情况,并预测novel miRNA,miRNA靶基因分析等。
基于rna-seq数据分析玉米抗虫响应基因的可变剪接事件
河南农业大学学报 Journal of Henan Agricultural University
Vol. 54 No. 2 Apr. 2020
文章编号:1000-2340( 2020) 02-0181-08
基于 RNA-seq 数据分析玉米抗虫响应 基因的可变剪接事件
Analysis of alternative splicing events of insect-resistant response genes based on RNA-seq data in Zea mays
YANG Liyan1 , ZHANG Yurong1 , YANG Yashu1 , WANG Meixia2 , CHEN Baoguo2 , ZHAO Li2 , ZHANG Liguang2 , WANG Chuangyun2
(1. College of Life Sciences, Shanxi Normal University, Linfen 041004, China; 2. Institute of Crop Science, Shanxi Academy of Agricultural Sciences, Taiyuan 030031, China)
杨利艳1, 张玉荣1, 杨雅舒1, 王美霞2, 陈保国2, 赵丽2, 张丽光2, 王创云2
(1. 山西师范大学生命科学学院,山西 临汾 041004; 2. 山西省农业科学院作物科学研究所,山西 太原 030031)
摘要:采用 Illumina HiseqTM 分别对黏虫取食的玉米叶片及对照组材料 进 行 转 录 组 测 序,鉴 定 和 分 析 响 应 黏 虫 取 食基因的可变剪接事件。 结果表明,对照组中鉴定出 15 701 个基因对应 79 363 个可变剪接事件,黏虫取食组中 鉴定到 11 791 个基因的 39 385 个可变剪接事件。 2 组玉米基因组在不同的可变剪接类型中,均是以第 1 个外显 子可变剪切、最后 1 个外显子可变剪切、单内含子滞留和可变 5′ 或 3′ 端剪切 4 种类型为主。 对 2 组发生可变剪 接事件的基因进行比对发现,黏虫处理组新增加了 1 121 个可变剪接基因,差异表达分析鉴定出 177 个表达显著 差异的可变剪接基因。 GO 功能富集分析表明,发生可变剪接的差异基因主要富集于氧化还原酶活性、转移酶活 性、DNA 结合、ATP 结合、代谢过程、以 DNA 为模板的转录及调控相关的功能,表明这些可变剪接差异表达基因 参与了玉米的抗虫响应过程。 关 键 词 :玉 米 ;可 变 剪 接 ;抗 虫 ;RNA - seq 中图分类号:S 513 文献标志码:A
利用转录组测序数据分析可变剪接的方法
利用转录组测序数据分析可变剪接的方法可变剪接(alternative splicing)是指在基因转录过程中,由于RNA的剪接方式的改变,导致最终产生的mRNA分子中不同的外显子结合模式,从而编码不同的蛋白质。
可变剪接是真核生物基因表达的重要调控机制之一,能够增加基因的功能复杂性和多样性。
然而,异常的可变剪接事件与多种疾病的发生和发展密切相关,因此对可变剪接事件进行准确的鉴定和分析对于揭示其生物学功能和研究疾病机制具有重要意义。
近年来,随着高通量测序技术的快速发展,转录组测序数据已成为可变剪接分析的重要数据源。
下面将介绍基于转录组测序数据分析可变剪接事件的方法。
首先,可变剪接事件的鉴定是可变剪接分析的基础。
对于每个基因,可变剪接事件主要包括外显子跳跃(exon skipping)、选择性包含(inclusion)、选择性起始/终止位点(alternative start/stop site)等。
通过比对RNA-seq数据到基因组参考序列,可以识别出转录组中的外显子覆盖情况,并进一步分析不同外显子组合的比例,从而鉴定可变剪接事件。
其次,可变剪接事件的定量分析是研究其生物学功能的关键。
对于定量分析,可以使用RPKM(reads per kilobase of exon model permillion mapped reads)或FPKM(fragments per kilobase of exon model per million mapped fragments)等方法计算各个外显子或外显子组合的表达量。
通过比较不同样本或不同组织中可变剪接事件的表达差异,可以筛选出与特定生物过程或疾病相关的事件。
然而,由于RNA-seq数据的获取和分析过程存在一定的偏差和误差,因此需要对可变剪接事件进行验证和筛选。
传统的PCR和RT-PCR技术可以用于验证一些特定可变剪接事件的存在和表达水平,而新兴的第三代测序技术,如PacBio和Oxford Nanopore,能够提供更长的读长和更准确的测序结果,有助于验证和鉴定具有低表达量或短外显子的可变剪接事件。
如何利用生物大数据技术分析基因组可变剪接
如何利用生物大数据技术分析基因组可变剪接在基因组学领域,可变剪接(alternative splicing)是一种重要的基因表达调控机制。
它指的是同一个基因在转录过程中,通过对其预mRNA分子的不同区域进行选择性剪接,从而产生不同的mRNA剪接异构体。
这一过程使得一个基因能够编码多个不同的蛋白质变体,进而拓宽了生物体在基因表达上的多样性。
如何利用生物大数据技术来分析基因组可变剪接,成为了研究者们关注的焦点之一。
本文将深入探讨如何利用生物大数据技术分析基因组可变剪接,并介绍相关的方法和工具。
首先,生物大数据技术使得我们能够获取大规模的转录组数据。
转录组是指某个生物体在特定情况下所有被转录的RNA序列的总和。
通过高通量测序技术,我们可以获取到大量的转录组数据,包括mRNA的序列信息。
这些数据能够提供基因剪接的全景图,揭示不同组织、不同发育阶段、不同疾病状态下基因可变剪接的变化规律。
同时,这些数据也为我们提供了用于分析剪接异构体的丰富材料。
基因组可变剪接的分析需要从转录组数据中鉴定各个基因的剪接异构体以及其相对表达水平。
近年来,研究者们提出了许多分析剪接异构体的方法和工具。
其中,比较常用的方法包括Cufflinks、MISO、rMATS等。
这些方法主要基于统计学原理,通过对转录组数据中的reads进行分析,确定不同剪接事件的发生概率,并进一步推导出各个剪接异构体的表达水平。
这些方法的基本操作流程是:首先,利用软件将测序数据进行处理,包括去除低质量的reads、去除合成引物和连接器等。
接着,将所得到的高质量reads与参考基因组序列进行比对,得到每个基因的reads覆盖情况。
然后,利用软件对每个基因的剪接事件进行鉴定,得到其剪接异构体的列表。
最后,利用统计学方法计算不同剪接事件的发生概率和各个剪接异构体的相对表达水平。
此外,在分析基因组可变剪接时,还需要注意一些技术细节。
例如,对于测序数据的处理,要考虑到对splice junction支持度的要求,以排除低质量的reads和剪接事件。
《小鼠早期胚胎发育可变剪接数据库(MEEAS)构建》范文
《小鼠早期胚胎发育可变剪接数据库(MEEAS)构建》篇一一、引言随着生物学技术的不断发展,基因剪接成为了解基因表达多样性的重要途径之一。
在哺乳动物中,特别是小鼠早期胚胎发育过程中,可变剪接是一种普遍存在的基因表达机制。
为深入了解小鼠早期胚胎发育的生物学过程及对剪接过程中出现的相关信息进行研究,本文旨在构建小鼠早期胚胎发育可变剪接数据库(MEEAS)。
二、背景介绍可变剪接是指在一个转录过程中,由于不同的剪接方式导致产生多个不同的mRNA剪接体。
这种剪接方式在小鼠早期胚胎发育过程中起着重要作用,对胚胎发育的各个阶段具有重要影响。
然而,目前关于小鼠早期胚胎发育过程中的可变剪接研究尚不充分,缺乏一个全面、系统的数据库来整合和展示这些信息。
因此,构建MEEAS数据库势在必行。
三、数据库构建流程(一)数据收集与整理首先,我们需要从公开数据库、文献资料和实验室已有数据中收集小鼠早期胚胎发育相关的可变剪接数据。
数据收集应涵盖各个发育阶段,包括卵母细胞、受精卵、早期胚胎等。
同时,还需要对数据进行预处理和清洗,确保数据的准确性和可靠性。
(二)数据库设计与开发根据收集到的数据特点,设计一个合理的数据库结构。
数据库应包括基因信息、剪接方式、发育阶段等关键信息。
采用合适的数据库管理系统进行开发,如MySQL或Oracle等。
此外,为方便用户使用,需要开发一个友好的用户界面。
(三)数据分析与验证对收集到的数据进行深入分析,包括剪接模式的变化、基因表达量的变化等。
通过生物信息学方法对数据进行验证,确保数据的可靠性。
同时,与已有的数据库进行比对,确保数据的准确性和完整性。
(四)数据库测试与优化在数据库开发完成后,进行全面的测试,确保数据库的稳定性和可靠性。
根据测试结果进行优化,提高数据库的性能和用户体验。
四、MEEAS数据库的特点与优势(一)全面性:MEEAS数据库涵盖了小鼠早期胚胎发育各个阶段的可变剪接数据,为研究提供了全面的信息。
生物学在生物信息处理与分析中的应用
生物学在生物信息处理与分析中的应用生物学作为一门研究生命现象和生命规律的科学,近年来在生物信息处理与分析领域发挥了重要的作用。
通过利用生物学的理论和方法,可以更好地理解和解读生物信息数据,提高生物信息处理与分析的准确性和效率。
本文将介绍生物学在生物信息处理与分析中的主要应用,包括基因组学、蛋白质组学、转录组学和代谢组学等方面。
一、基因组学的应用基因组学是研究生物个体基因组中基因的数量和位置以及它们在生物体中的功能和相互作用的科学。
在生物信息处理与分析中,基因组学的应用主要包括以下几个方面:1. 基因组测序与分析通过高通量测序技术,可以获取大量的基因组序列数据,并借助生物学知识对这些序列进行分析,如寻找编码蛋白质的基因,预测基因的结构和功能等。
2. 基因组比较与进化分析通过对不同物种的基因组序列进行比较和分析,可以揭示物种间的基因演化关系、寻找与进化相关的基因等。
3. 基因功能注释利用生物学数据库和工具,将基因与已知的功能模块或基因组中其他基因进行关联,可以预测和注释基因的功能。
这对于理解基因在生物体内的作用和调控机制具有重要意义。
二、蛋白质组学的应用蛋白质组学是研究生物体中所有蛋白质的种类、数量和相互作用的科学。
在生物信息处理与分析中,蛋白质组学的应用主要包括以下几个方面:1. 蛋白质组测序与鉴定利用质谱技术等高通量分析方法,对复杂的蛋白质混合物进行测序和鉴定,可以获取蛋白质的序列和结构信息。
这对于理解蛋白质的功能和调控机制非常重要。
2. 蛋白质互作网络建立通过蛋白质互作实验和计算模型,可以建立蛋白质之间的相互作用网络,揭示蛋白质在细胞内的功能组合和调控网络。
3. 蛋白质功能预测与注释通过比对已知的蛋白质数据库,可以预测新发现的蛋白质的功能和结构。
同时,通过生物学实验验证,可以注释蛋白质的功能和参与的生物过程。
三、转录组学的应用转录组学是研究细胞或组织中所有转录的RNA分子的总体表达和调控的科学。
植物可变剪接研究进展
植物可变剪接研究进展作者:徐悦王希申子萌来源:《农学学报》2022年第08期摘要:选择性剪接广泛存在于植物中,是生物体转录组和蛋白质组多样性的主要来源。
随着科技的发展,可变剪接的研究方法逐渐变得简单方便高效,越来越多的可变剪接事件在植物中被发现。
本研究对植物可变剪接的机制、研究方法以及几种植物的最新可变剪接研究进展进行分析,并且对未来应深入研究的方向给出了建议。
关键词:mRNA;可变剪接;植物;拟南芥;大豆;单分子测序技术中图分类号:S1文献标志码:A论文编号:cjas2020-0190Research Progress of Alternative Splicing in PlantsXU Yue1,2,3,4, WANG Xi1,2,3, SHEN Zimeng1,2,3,5(1College of Advanced Agriculture and Ecological Environment of Heilongjiang University/ Sugar Beet Research Institute of Chinese Academy of Agricultural Sciences, Harbin 150080,Heilongjiang, China; 2The Key Laboratory of Sugar Beet Genetic Breeding, Colleges of Heilongjiang Province/ Sugar Beet Engineering Research Center of Heilongjiang Province, Harbin 150080, Heilongjiang, China; 3National Sugar Crops Improvement Center/Key Laboratory of North Sugar Crop Resource and Utilization, Chinese Academy of Agricultural Sciences, Harbin 150080, Heilongjiang, China; 4Shanghai Belief Biomed Pharmaceutical Technology Co.,Ltd., Shanghai 200000, China; 5China Blue Sky Ecological Technology (Beijing) Co.,Ltd., Beijing 100083, China)Abstract: Alternative splicing is widespread in plants and is the main source of transcriptome and proteome diversity in organisms. With the development of science and technology, the research methods of alternative splicing have gradually become simple, convenient and efficient, and more and more alternative splicing events have been discovered in plants. The article mainly introduces the mechanism and research methods of alternative splicing in plants, as well as the latest research progress of alternative splicing in several plants, and puts forward suggestions on the research direction in the future.Keywords: mRNA; alternative splicing; plant; Arabidopsis; soybean; single molecule sequencing technology0引言可变剪接又称选择性剪接(Alternative Splicing, AS),指在一个mRNA前体中通过不同的剪接方式产生不同的mRNA异构体的过程。
rna-seq的生信文章
rna-seq的生信文章
RNA-seq(RNA测序)是一种用于研究转录组的高通量测序技术,它在生物信息学领域引起了广泛的关注。
RNA-seq技术利用高通量
测序平台对细胞或组织中的RNA进行测序,从而可以获得关于基因
表达水平、可变剪接、转录本结构等信息。
因此,RNA-seq在生物
医学研究中扮演着重要的角色。
关于RNA-seq的生物信息学文章涉及到很多方面。
首先,研究
人员可能会关注RNA-seq数据的分析方法,包括数据的质控、比对、表达量分析、可变剪接分析等。
这些文章可能介绍新的算法或者工具,以帮助研究人员更好地分析RNA-seq数据。
其次,RNA-seq在不同生物学研究领域的应用也是一个热门话题。
比如,在肿瘤研究中,研究人员可能会使用RNA-seq来研究肿
瘤细胞的基因表达谱,以寻找潜在的治疗靶点。
在发育生物学中,RNA-seq可以用来研究不同发育阶段的基因表达变化。
这些文章会
介绍具体的研究案例以及他们的研究结果。
此外,RNA-seq数据的公共数据库和资源也是生物信息学文章
中的热门话题。
一些文章可能会介绍已有的RNA-seq数据库,或者
开发新的数据库和在线工具,以方便研究人员访问和分析RNA-seq 数据。
总的来说,RNA-seq在生物信息学领域有着广泛的应用和研究内容,相关的生信文章涵盖了数据分析方法、应用案例以及数据库资源等多个方面。
这些文章对于推动RNA-seq技术的发展和促进生物医学研究具有重要意义。
使用生物大数据技术研究RNA剪接变异
使用生物大数据技术研究RNA剪接变异RNA剪接是一个重要的基因表达调控过程,在转录过程中,经过剪接酶的介入,将原始mRNA前驱分子中的内含子剪接掉,连接剩余的外显子,从而生成成熟的mRNA。
然而,在这个过程中,剪接错误或者剪接方式的变化可能会导致不同的剪接变异,这些变异可能对基因功能和表达产生重要的影响。
为了深入了解RNA剪接变异的机制与作用,生物大数据技术提供了一种高效而全面的方法。
生物大数据技术通过对大规模的生物数据进行系统化的整合、分析和挖掘,可以帮助研究人员揭示RNA剪接变异的模式、机制和影响。
以下将介绍两种使用生物大数据技术研究RNA剪接变异的方法:RNA-Seq和数据库挖掘。
首先,RNA-Seq是一种通过高通量测序技术对转录本进行全面检测的方法。
通过该方法,可以获取到转录过程中不同剪接形式的转录本序列及其对应的表达量信息。
研究人员可以根据这些数据,分析RNA剪接变异的模式和特点,进一步了解不同剪接变异在细胞功能和发育过程中的作用。
同时,RNA-Seq技术还可以通过对两个或多个样品的比较,发现差异表达的剪接事件,进一步揭示RNA剪接变异在疾病发生和发展中的潜在作用。
其次,数据库挖掘是另一种常用的生物大数据技术,通过对公开可获得的数据库进行检索和分析,获取RNA剪接变异的相关信息。
例如,人类剪接数据库(Human Splicing Database)和基因组广义测序数据(The Genomes Project)等提供了大量的RNA剪接变异数据。
研究人员可以通过这些数据库,系统地研究RNA 剪接变异的模式、频率和与基因功能相关的信息。
同时,数据库挖掘可以帮助发现特定的剪接变异事件与特定疾病的关联,从而揭示RNA剪接变异在疾病的发生和发展中的重要性。
通过生物大数据技术研究RNA剪接变异不仅可以揭示剪接事件的多样性和复杂性,还有助于我们对基因功能的深入理解。
此外,对RNA剪接变异的深入研究还有助于揭示疾病的发生机制和发展过程,为疾病的诊断、治疗和预防提供新的思路和方法。
PennDiff——通过RNA测序检测差异选择性剪接和转录的方法
PennDiff——通过RNA测序检测差异选择性剪接和转录的方法PennDiff:Detecting Differential Alternative Splicing and Transcriptionby RNA Sequencing可变剪接和转录是产生转录组多样性的主要机制。
差异可变剪接和转录(DAST)描述了不同条件下不同isoforms的不同方式,可以补充表征基因调控的差异表达。
然而只有一小部分RNA-seq读数可用于isoforms,因此DAST 的分析仍然具有挑战性。
目前,已经开发了几种方法来检测基于外显子和基于基因的DAST,例如DEXSeq和rMATS,但它们常因许多isoforms的基因的影响而不能保证准确性。
PennDiff,利用基因结构和预先估计的isoforms相对丰度的信息,从而使用RNA-seq数据检测DAST的方法(PennDiff源代码和用户指南可从https:///tigerhu15/PennDiff免费下载)。
PennDiff的基本思想:1.exon-inclusion水平定量可变剪接或转录通过折叠isoforms共享相同的替代外显子来估计exon-inclusion 水平,并根据exon-inclusion水平定量可变剪接或转录。
其中,对于PennDiff基于注释(RefSeq和Ensembl)估计的exon-inclusion水平,并且Spearman相关系数在logit scale上分别为0.87和0.76,估计值与真实值具有良好的一致性。
2.exon-inclusion水平的Gaussian copula回归在Gaussian copula回归中,使用广义线性模型对exon-inclusion水平的边际分布进行建模,然后应用多元正态分布将广义线性模型连接在一起以考虑DAST分析中的相关性。
3.基于Gaussian copula回归模型,在外显子水平和基因水平上识别DAST事件。
使用SGSeq探索可变剪切
使用SGSeq探索可变剪切关于可变剪切,之前我们讲解过DEXseq 软件包,见:/bioconductor_China/software/DEXSeq.html现在来一个不一样的,因为它自己要做counts这一步,直接从比对好的bam文件开始分析。
可变剪切是指mRNA前体以多种方式将exon连接在一起的过程。
由于可变剪切使一个基因产生多个mRNA转录本,不同mRNA可能翻译成不同蛋白。
可变剪切背景知识转录组一般是指从细胞或组织的基因组所转录出来的RNA的总和,包括编码蛋白质的mRNA和各种非编码RNA (rRNA,tRNA,snRNA,snoRNA,lncRNA,microRNA等)。
真核生物的基因结构是不连续的,如下图:真核生物的基因结构其基因组最初的转录产物其实并不是成熟的mRNA分子,而是它的前体pre-mRNA,那么怎么变成成熟的mRNA呢,就需要从pre-mRNA中将非编码蛋白质的内含子(intron)切除,然后拼接剩下的编码蛋白质的外显子(exon)。
但实际上,在这个过程中,有多种多样的前切和拼接方式,从而产生不同的剪切异构体,也就咱们要说的可变剪切。
可变剪切的形式复杂多样,大致可以分为5大类。
•第一类是外显子跳跃型(exon skipping),发生跳跃的外显子和其两侧的内含子都被剪切掉,上游和下游的外显子被直接连着一起保留在剪切后的产物中。
•第二类是内含子滞留型(intron retention),某一段核苷酸序列在一个剪切体中是外显子的一部分,而在与之对照的剪切体中却是内含子而被剪切掉。
•第三类是可变5’或3’端剪切(alternative 5’ss splice or alternative 3’ss splice,其中5’ss称供体位点,3’ss称受体位点),和与它对照的另一个剪切体相比,发生剪切的位点在5’或3’端不同,除此,其他剪切选择一致。
•第四类是转录起始区域可变剪切(alternative TSS),发生剪切的位点在转录起始区域,即与之对应的另一个剪切体除转录起始位点不同外,其余一致。
我是如何做可变剪切
我是如何做可变剪切我是如何做可变剪切理论篇⼀、什么是可变剪切⼆、可变剪切的类型分析篇⼀、搜官⽹⼆、逐个拆解当需要分析⼀个新的测序数据或者对⼀种数据做新的分析的时候(按我⼀脸懵逼的⼼情,我给它取了⼀个名字,“de novo'分析),⽹上教程很多,也有很多软件,我选择了SGSeq。
理论篇⼀、什么是可变剪切可变剪切⼜叫选择性剪切(Alternative splicing, AS),⽣物的基因序列包含了外显⼦(exon)和内含⼦(intron),两者相互间隔。
在mRNA前体的剪接过程中,参加剪接的外显⼦可以不按其线性次序剪接,内含⼦也可以不被切除⽽保留,即⼀个外显⼦或内含⼦是否出现在成熟mRNA中是可以选择的,这种剪接⽅式称为选择性剪接。
AS也是转录本复杂性的⼀个主要来源。
⼆、可变剪切的类型关于可变剪切的类型,有⼏种不同的说法,但都主要包含下⾯五种:1、外显⼦跳跃(Exon Skipping)2、内含⼦保留(Intron Retention)3、5'端可变剪接(Alternative 5' splice Site)4、3'端可变剪接(Alternative 3' splice Site)5、最后⼀个外显⼦可变剪接(Alternative Last Exon)6、第⼀个外显⼦可变剪接(Alternative First Exon)最后两个(5、6)可以概括为可变外显⼦(Alternative Exon),这张图的好处就是有表达量,可以很清晰地看出到底哪些地⽅转录了,哪些地⽅没有转录。
分析篇⼀、搜官⽹这⾥告诉了我们SGSeq是⽤来分析可变剪切的R package,输⼊是RNA-seq⽐对后的BAM file,下⾯是安装⽅法,以及PDF/HTML两种格式的manual和⼀个版本更新信息。
点开HTML/PDF其中的⼀种,即可看到详细的⽤法,共14个版块。
⼆、逐个拆解①转录本的特征和可变剪切事件,SGSeq分析步骤②下载调⽤SGSeq1. source('https:///biocLite.R')2. biocLite('SGSeq')3. library(SGSeq)4. si #SGSeq中的测试数据5. path <> system.file('extdata', package = 'SGSeq')6. si$file_bam <> file.path(path, 'bams', si$file_bam) #添加路径7. si #和前⾯的si不⼀样③注释信息:TxDb.Hsapiens.UCSC.hg19.knownGene1. biocLite('TxDb.Hsapiens.UCSC.hg19.knownGene')2. library(TxDb.Hsapiens.UCSC.hg19.knownGene)3. txdb <> TxDb.Hsapiens.UCSC.hg19.knownGene4. txdb <> keepSeqlevels(txdb, 'chr16')5. seqlevelsStyle(txdb) <> 'NCBI'⽤convertToTxFeatures函数转换类型对象1. txf_ucsc <> convertToTxFeatures(txdb)2. txf_ucsc <> txf_ucsc[txf_ucsc %over% gr]3. head(txf_ucsc)这⾥每个字母代表的剪切类型J (splice junction)I (internal exon)F (first/5′′-terminal exon)L (last/5′′-terminal exon)U (unspliced transcript)④再次转换1. sgf_ucsc <> convertToSGFeatures(txf_ucsc)2. head(sgf_ucsc)字母代表的含义J (splice junction)E (disjoint exon bin)D (splice donor site)A (splice acceptor site⑤根据注释的转录本信息转换成剪切信息1. sgfc_ucsc <> analyzeFeatures(si, features = txf_ucsc)2. sgfc_ucsc3. colData(sgfc_ucsc)4. rowRanges(sgfc_ucsc)5. head(counts(sgfc_ucsc))6. head(FPKM(sgfc_ucsc))7. df <> plotFeatures(sgfc_ucsc, geneID = 1)历经千⾟万苦,终于出来⼀张图!每⼀⾏表⽰⼀个bam file,每⼀列表⽰外显⼦的表达,表达程度⽤染⾊表⽰。
rna可变剪接的扫描机制
rna可变剪接的扫描机制【最新版】目录1.RNA 可变剪接的概述2.RNA 可变剪接的扫描机制3.RNA 可变剪接的应用正文1.RNA 可变剪接的概述RNA 可变剪接是一种在转录过程中产生不同转录本的现象,这些转录本在剪接方式和外显子含量上存在差异。
这种现象使得同一个基因可以产生多种功能不同的蛋白质,从而扩大了基因的表达多样性。
RNA 可变剪接在生物体的生长发育、细胞分化以及疾病发生过程中具有重要作用。
2.RNA 可变剪接的扫描机制RNA 可变剪接的扫描机制主要包括以下几种:(1) 剪接位点识别:剪接位点是 RNA 剪接的关键区域,通常包含保守的核苷酸序列。
剪接酶在剪接位点上识别并结合,从而完成剪接过程。
(2) 剪接酶活性调控:剪接酶的活性受到多种因素的调控,如 RNA 结构、蛋白质因子和代谢环境等。
这些因素的变化可以影响剪接酶的活性,进而影响 RNA 可变剪接的发生。
(3) RNA 结构变化:RNA 在剪接过程中会发生结构变化,如 RNA 折叠、RNA 互作等。
这些结构变化可以影响剪接位点的暴露和识别,从而影响 RNA 可变剪接的发生。
3.RNA 可变剪接的应用RNA 可变剪接在生物学研究中具有广泛的应用,包括:(1) 研究基因功能:通过研究 RNA 可变剪接,可以了解基因在不同条件下的表达特点,从而揭示基因功能和调控机制。
(2) 疾病诊断和治疗:RNA 可变剪接异常与多种疾病的发生有关,如肿瘤、神经系统疾病等。
研究 RNA 可变剪接可以为疾病的诊断和治疗提供新的思路和靶点。
(3) 基因编辑和调控:通过研究 RNA 可变剪接,可以发展新的基因编辑和调控技术,为生物医学研究和应用提供支持。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
利用转录组测序数据分析可变剪接的方法作者:***来源:《科学与信息化》2020年第08期摘要可变剪接是调节基因表达和产生蛋白组多样性的重要因素,同时参与调控细胞分裂、分化及凋亡等重要生物学过程,异常的可变剪接多与人类疾病有关。
随着新一代测序技术和生物信息学的快速发展,以及先进计算方法的提出,使得我们对可变剪接有了深入的认识。
并且基于剪接机制对于病的靶向药物设计,已得到了有效的临床治疗效果。
本文主要阐述了近年来基于二代测序技术开发的几种识别可变剪接的计算方法,并对未来的发展方向进行展望。
关键词可变剪接;二代测序技术;生物信息学;分析工具可变剪接,又称选择性剪接(Alternative Splicing,AS),是真核生物基因表达的普遍调节机制,是指一个前体mRNA经过不同的剪接形式产生多种不同剪接异构体的过程。
在1978年,Walter Gilbert提出了内含子和外显子命名[1],不同外显子组合产生特异的异构体。
二代测序技术的迅速发展极大地推动了人类对可变剪接的认识。
现有数据表明,人类大约有92%-94%的基因都会经历某种程度的可变剪接行为,并且在20000多种人类蛋白编码基因中,约37%的基因会编码产生不同的蛋白亚型,这表明可变剪接增加了蛋白质组的多样性和复杂性[2]。
AS对基因的功能起着重要调控作用,同一基因的不同亚型可能参与不同的生物学过程。
例如p53抑癌基因(TP53)在DNA受损细胞的调控中起着核心作用,然而其Δ133β亚型则可以抑制全长p53β亚型5和6从而诱导肿瘤细胞的凋亡[3]。
另外AS几乎参与了所有生物学过程,包括调节细胞的分裂和凋亡、神经系统的发育以及细胞对抗多种环境因素做出的免疫应激反应等[4]。
另一方面,AS的异常调节还与多种遗传性疾病和恶性肿瘤相关,包括神经退行性疾病、心血管疾病和代谢状况等。
据报道,与SNP相关的遗传性疾病多达一半是由于剪接受损引起的[5]。
AS的异常调节对癌症的发生发展有重要的作用,为疾病的发展提供了可能的新颖治疗靶标和生物标志物的来源,而AS位点的预测可以为药物设计提供很好的分子基础。
本文主要阐述了最新的基于二代测序数据计算可变剪接方法的基本原理及应用,并对未来的研究方向做了初步的展望。
1 可变剪接的主要类型目前大量数据研究结果表明,可变剪接主要包括五种形式(图1),分别为外显子跳跃(Skipped Exon,SE),可变5′剪接位点(Alternative 5′ Splice Site,A5SS),可变3′剪接位点(Alternative 3′ Splice Site,A3SS),互斥外显子(Mutually Exclusive Exons,MXE)和内含子保留(Retained Intron,RI)。
此外还有两种不常见的形式:可變的第一个外显子(Alternative First Exon,AFE)和可变的最后一个外显子(Alternative Last Exon,ALE)。
其中SE是人类基因组中最主要的可变剪接模式(约35%),其次是A3SS(16%)与AA5SS (15%),RI发生最少,仅占到全部事件的1%[6]。
2 分析可变剪接的软件可变剪接现象从70年代发现后,其基本的科学问题聚焦于剪接位点的发现、差异分析、调控元件和网络的发现和构建等。
RNA-seq技术的发明,使系统、定量的可变差异剪接分析成为可能。
大量测序数据的可变剪接差异分析需要优秀的统计模型和计算工具,因此一直是生物信息学领域的重要研究课题之一。
2.1 转录组读段回帖序列比对软件STAR(Spliced Transcripts Alignments to a Reference,STAR)[7]是专门针对RNA-seq数据开发的,该算法使用未压缩后缀阵列中的连续最大可比种子进行搜索,接着进行种子聚类(Seed clustering)和缝合过程(Stitching procedure)。
除了典型剪接的无偏从头检测外,STAR还能发现非典型拼接和嵌合(融合)转录本,并且能够比对全长RNA序列。
STAR是目前转录组测序分析最常用的软件之一,由C++编写,运行速度快,同时也是免费开源软件。
TopHat[8]是基于Bowtie[9]短序列比对软件开发的,它可以实现对短序列的快速比对,根据比对的结果可以检测到外显子间的剪接位点。
该算法基本思想是对Bowtie比对结果中大量重叠的片段寻找标志性的剪接位点,并列出它们所有可能的组合情况。
此外对于Bowtie没有比对到基因组上的片段,TopHat会重新建立索引进行比对,并与上个过程得到的所有可能组合进行对比,最终将跨越剪接位点的片段比对到基因组。
2.2 比对后的可变剪接分析rMATS( replicate multivariate analysis of transcript splicing)是目前最常用的分析RNA-seq 数据可变剪接事件的软件[10]。
该算法依赖于有重复的数据集,利用分层模型同时考虑重复样本的不确定性和变异性。
以SE为例,rMATS首先采用Exon Inclusion level 来定义样本中可变剪接事件的表达量,正常的isoform称为Exon Inclusion Isoform,发生了外显子跳跃的转录本称之为Exon Skipping Isoform,比对到Inclusion; isoform上的reads用L表示,比对到Skipping Isoform上的reads用S表示(图2),则该外显子跳跃的定量如下:Exon Inclusion level为Inclusion isoform所占的比例,计算时用长度(LI和Ls)校正了原始的reads数。
给定阈值c,; 判断两个样本中相对应的inclusion level是否发生了变化:c,c用户可以自定义,取值范围为0~1,表示两个样本中Inclusion level的差值。
如c=0.1,则表示两个样本中该可变剪接事件的Inclusion level相差10%。
其他类型的可变剪接事件也可以划分成上述两种isoforms,进行差异分析比较的是两组样本中inclusion level的差异。
Exon Skipping Isoform為Upstream exon 和Downstream exon直接连接形成;Exon Inclusion Isoform为Upstream exon, Alternative exon和Downstream exon连接形成。
该模型以Likelihood-ratio test计算p值,大大提升了计算速度。
rMATS支持多线程运行且支持两种输入格式:Fastq或者Bam。
根据计算时用到的reads差别,最后会得到两组结果,一种是只用到跨Junction的reads;另一种是比对到剪接位点上的所有reads。
rMATS是目前在RNA-seq数据领域应用最多的分析可变剪接的工具。
DARTS[11]是2019年3月由邢毅教授团队在开发rMATS工具后,新提出的一个基于深度学习检测可变剪接的计算框架,这也是首次将深度学习与贝叶斯假设检验相结合,用于RNA 的可变剪接分析。
DARTS由两部分构成(图3):深度神经网络(DNN)和贝叶斯假设检验(BHT)。
DNN模型是基于顺式序列特征和RNA结合蛋白(RBP)的mRNA表达水平预测差异剪接的结果;BHT统计模型通过将经验证据整合到特定的RNA-seq数据集中,并结合先验的差异可变剪接概率来进行预测。
在训练过程中,DARTS BHT使用无先验概率信息(DARTS BHT(flat),仅将RNA-seq数据用于推断)分析大规模RNA-seq数据,以生成高置信度差异及未发生剪接的训练标签之间的事件,以此作为DARTS DNN的训练输入。
在应用过程中,已训练完成的DARTS DNN用于预测用户特定数据集中的差异可变剪接,然后与DARTS BHT (DARTS BHT(info))观察到的RNA-seq片段的计数结合到一起,以达到深度学习增强的剪接分析。
DARTS BHT(flat)进行常规分析大规模RNA-seq数据中的可变剪接事件,创建带标签的训练数据,用于训练 DNN模型;新的特定RNA-seq经DNN模型预测作为贝叶斯模型的先验(DARTS BHT(info));用户的RNA-seq数据则是用于更新先验概率形成后验概率。
顺式序列特征(Cis-sequence)和反式RBP的mRNA水平(Trans-RBP):DARTS DNN预测差异可变剪接的两个因素。
先验信息(Prior):DARTS DNN预测的结果。
可能性(Likelihood):特定RNA-seq数据集观察到的读数。
差异剪接的后验概率(Posterior)由Cis-sequence和Trans-RBP生成的先验概率和Likelihood组成。
DARTS的深度神经网络部分整合了剪接位置附近的序列信息、进化信息、可变剪接产生的RNA二级结构信息和RBP的表达信息等,提高了该模型的准确性。
相较于之前的例如MISO[12]、SpliceTrap[13]、SUPPA[14]等软件,DARTS对测序深度的要求降低。
总的来说,DARTS综合了深度学习和贝叶斯假设检验统计模型的优点,为低测序深度的数据提供了更好的分析可变剪接的方法,拓展了传统RNA-seq可变剪接分析的敏感度和准确度。
3 总结与展望可变剪接(AS)是基因在转录后水平的一项复杂调控机制。
在最近的几十年中,我们对AS的机理和动力学的了解呈指数级增长,人们也越来越认识到AS在人类健康和疾病中发挥的关键作用。
随着RNA-seq和各种计算工具的不断涌现,使得我们可以在全基因组水平检测AS现象。
同时随着近年来单细胞测序技术的发展,可能会在单个细胞中出现新的剪接现象,这需要我们去开发专门针对单细胞测序的更优计算方法。
另外机器学习方法将会加快我们对可变剪接的认识[15]。
最后,可变剪接变体在功能上有助于疾病的耐药性,因此靶向可变剪接可作为某些疾病的新型疗法。
目前在人类某些疾病(如SMA)中已取得了很好的临床治疗效果[16],但在癌症方面还未有重大突破,相信随着研究的不断深入,在不久的将来也能为癌症提供有效的可选药物。
参考文献[1] Gilbert,Walter. Why genes in pieces?[J]. Nature,1978, 271(5645):501.[2] Min-Sik, K. A draft map of the human proteome.[J].Nature, 2014,509(7502):575-581.[3] Aoubala M,Murray-Zmijewski F,Khoury M P,et al. P53 directly transactivatesΔ133p53α, regulating cell fate outcome in response to DNA damage[J]. Cell death and differentiation,2011,18(2):248-258.[4] Ramanouskaya T V,Grinev V V . The determinants of alternative RNA splicing in human cells[J]. Molecular Genetics & Genomics,2017,(3):263.[5] Garcia-Blanco M A,Baraniak A P,Lasda E L . Alternative splicing in disease and therapy[J]. Nature Biotechnology,2004,22(5):535-546.[6] Wang E T,Sandberg R,Luo S,et al. Alternative isoform regulation in human tissue transcriptomes[J]. Nature,2008,456(7221):470-476.[7] Alexander D , Davis C A , Felix S , et al. STAR: ultrafast universal RNA-seqaligner[J]. Bioinformatics,,2013(1):1.[8] Trapnell C,Pachter L,Salzberg S L . TopHat: discovering splice junctions with RNA-Seq[J]. Bioinformatics,2009,25(9):1105-1111.[9] Langmead B,Trapnell C,Pop M,et al. Ultrafast and memory-efficient alignment of short DNA sequences to the human genome[J]. Genome Biology,2009,10(3):1-10.[10] Shihao Shen,Juw Won Park,Zhixiang Lu,et al. rMATS: Robust and flexible detection of differential alternative splicing from replicate RNA-Seq data[J]. proc natl acad sci u s a,2014,111(51):5593-601.[11] 佚名. Deep-learning augmented RNA-seq analysis of transcript splicing[J]. Nature Methods,2019,(1):157.[12] Yang-Ming S I,Yong-Qiang X,Lu C . Differential splicing event analysis of liver tumor-educated blood platelets RNA-seq data with Hisat2 and MISO[J]. journal of inner mongolia university of science and technology,2016,(3):73.[13] Zhang M Q . SpliceTrap: a method to quantify alternative splicing under single cellular conditions[J]. Bioinformatics,2011,27(21):3010-3016.[14] more samples. SUPPA: a super-fast pipeline for alternative splicing analysis from RNA-Seq[J]. Biorxiv,2014,(1):257.[15] Jaganathan K,Kyriazopoulou Panagiotopoulou S,Mcrae J F,et al. Predicting Splicing from Primary Sequence with Deep Learning[J]. Cell,2019,(3):176.[16] Cleveland,D. W. Antisense oligonucleotide therapy for neurodegenerative disease[J].The Journal of clinical investigation,2006, 116(8):2290.。