可变剪接与蛋白质组多样性及其调节机制
一种面向生物基因组可变剪接问题的网络并行求解方案
计算机研究与发展ISSN 100021239ΠCN 1121777ΠTPJournal of Computer Research and Development 44(10):1682~1687,2007 收稿日期5;修回日期3 基金项目国家“八六三”高技术研究发展计划基金项目(6Z33);国家自然科学基金重大项目();国家自然科学基金面上项目(633);国家科技基础条件平台建设基金项目(5D K 6)一种面向生物基因组可变剪接问题的网络并行求解方案徐国市 鲁发凯 许卓群 余华山 丁文魁(北京大学信息科学技术学院 北京 100871)(xuguoshi @gmail 1com )A N et w or k Pa rallel Comput ing Scheme f or A lter nat ive Splicing of Biology G enomeXu G uoshi ,Lu Fakai ,Xu Zhuoqun ,Yu Huashan ,and Di ng Wenkui(Scho ol of Elect ronics Engineering a nd Computer Science ,Peking U niversity ,Beijing 100871)Abstra ct Alternative splicing is a major mechanism for adj ust ing gene expression and generati ng protei n diversity ,which has i mport ant biological significance 1Wit h t he rapid increase of biological dat a ,t he si ngle comput er can hardly meet t he requirement for massive c omput ing power of alternative splicing research works 1In such context ,a network parallel comput ing scheme for alt ernati ve splicing problems is presented 1Wit h careful c onsideration of challenges ,a service 2oriented network resource vi rt ualization mechanism i s designed ,which provides uniform selection ,access and monitoring i nterfaces to network resources 1Furt hermore ,a suit e of API provides user 2oriented application layer support ,which hides the det ails of accessing network resources ,and support quick and efficient applicat ion development 1K ey w or ds parallel computi ng ;net work c omput ing ;alternative splicing;resource vi rt ualization ;service oriented architect ure (SOA )摘 要 生物基因的可变剪接是调节基因表达和产生蛋白质组多样性的重要机制,具有重要的生物学意义1随着生物数据的快速增长,单机计算环境难以满足可变剪接研究所需要的超大计算能力1为了解决这一问题,提出了一种面向生物基因组可变剪接问题的网络并行求解方案1它充分考虑了可变剪接问题的挑战,设计了面向服务的网络资源虚拟化方案,提供了对网络资源一致的选择、访问、监控接口1通过一组API 提供了面向用户的应用层支持,屏蔽了访问网络资源的细节,支持用户快速有效的开发应用程序1关键词 并行计算;网络计算;可变剪接;资源虚拟化;面向服务的体系结构中图法分类号 TP393 可变剪接[1]是指从一个m RNA 前体中通过不同的剪接方式(选择不同的剪接位点组合)产生不同的m RNA 剪接异构体的过程1可变剪接的研究具有重要的生物学意义1首先,一个基因通过可变剪接产生多个转录异构体,各个不同的转录异构体编码结构和功能不同的蛋白质,它们分别在细胞Π个体分化发育不同阶段,在不同的组织,有各自特异的表达和功能1因此,可变剪接是一种在转录后RNA 水平调控基因表达的重要机制1其次,可变剪接是从相对简单的基因组提高蛋白质组多样性的重要机制,蛋白质组的多样性与多细胞高等生物的复杂性相适应1从可变剪接涉及的基因分布格局分析,可变剪接多发生在参与信号传导和表达调节等复杂过程的基因上,如受体、信号传导通路(凋亡)、转录因子等1对个体分化发育和一些关键的细胞生理过程如凋亡、细胞兴奋等的精确调控有重要意义1目前,可变剪接的研究重点是基于高通量的基因组测序和ES T 测序[1],通过生物信息学的方法,:2007-02-2:2007-07-0:200AA 0249041201000001200A 4001对基因组的可变剪接形式进行分析预测1这样的研究方式需要大量的计算能力,其计算工作具有如下特点:1)需要处理的基因数目众多1例如,人类基因组大约有35000条基因,小鼠大约有36000条,果蝇大约有14000条1多个研究小组通过不同的生物信息学的方法,从整个人基因组的水平进行分析,结果一致显示,约35%~60%的人基因有可变剪接形式12)作业的计算规模极不平衡1多数基因可以在几秒内完成,但有一部分基因由于比较复杂,ES T 测序信息非常多,导致运行时间很长,有的甚至需要几十个小时1例如,果蝇的pa ra基因有13个可变外显子,可编码1536种不同的mRNA1另外,pa ra 的转录体还要经过11个已知位点的RNA编辑,理论上一共可以产生1032192个不同的para转录异构体13)需要周期性运行1随着新的ES T数据的测得,需要定期重复运行,以获得最新的预测结果1目前,循环运行的周期通常为3个月1上述特点使得在单台计算机上实施可变剪接的预测计算需要运行非常长的时间,难以满足研究人员的需求1随着并行计算技术,特别是诸如P2P、CORBA、网格计算[226]等基于网络的并行Π分布式计算技术的发展,使得通过网络协调多个计算节点共同实施可变剪接的预测计算成为可能1众多的研究团体都提出了基于网络解决大型复杂科学问题的方案1Condor2G[7]通过计算管理代理将G lobus[6]和C ondor[7]联合起来,使得用户可以访问多个域的资源1织女星网格系统VE G A[8]提供了完整的网格软件套件,包括网格操作系统G OS,信息系统V I G,网格服务标记语言GSML[9]和业务端编程语言V INCA1中国教育科研网格公共支撑平台C GSP[10]通过屏蔽网络资源的异构性和动态性,为各种科学计算与工程研究提供高性能、高可靠的、安全方便的透明网格服务1CROWN[11]建立了一个基于服务的科学活动环境综合实验平台,主要提供了资源能力的描述与发布、自动的服务发现和服务交互1网络资源的异构性、动态性和自治性[223]给分布式系统造成了极大的挑战1这些挑战有的是分布式计算技术所共同面对的,如资源的透明访问、资源发现和监控机制、安全、数据传输[23]等1这些问题在众多的分布式系统中得到了广泛深入的研究1而有些挑战是由可变剪接问题自身产生的1这些挑战主要表现在如下几个方面:①极不平衡的作业计算规模对作业调度效率的挑战1对于那些运行时间很短的作业,作为一个独立的调度单位,调度时间可能远大于作业自身的执行时间1因此,需要建立一种适当的调度机制,使得可以将多个小作业打包成一个较大的作业来调度1而对于那些本身就很大的作业,则不能打包,而是要直接进行调度,从而保证调度的高效1②长时间运行作业对运行稳定性的挑战1由于真核生物基因数目都很大,动辄上万,而每个基因都是一个可以独立运行的作业1如此众多的作业通常需要数周甚至上月的时间才能完成1如此长时间的运行,除了资源的高可靠性以外,还需要运行环境有强大的容错能力,以保证运行的稳定性1③频繁的文件传输对总体运行效率的挑战1由于基因数据和ES T数据都以文件的形式保存,运行过程中需要大量的文件传输1对于那些较小的作业,文件传输的时间消耗就显得非常可观1因此,需要采取措施,减少文件传输时间在总运行时间中的比重1为了应对上述挑战,在分析了可变剪接的问题特点后,我们提出了一种面向生物基因组可变剪接问题的网络并行求解方案1它利用以服务来标准化资源访问接口的优势,在充分分析了生物信息学领域应用程序和软件特点的基础上,建立了面向服务的资源虚拟化方案,提供了统一、透明的资源信息收集、定位、访问、监控接口1同时,在应用层提供了一套API,用以屏蔽访问网络资源的细节,帮助用户快速有效的开发应用程序11 面向服务的资源虚拟化方案在可变剪接问题的求解过程中涉及到的资源包括计算节点等硬件资源、程序等软件资源以及基因数据、EST数据等数据资源1在基于网络的求解环境中,普遍采用的方式是对这些资源进行虚拟化或抽象化,从而支持全局统一的资源发现和监控机制,以及对资源的一致访问接口1基于Web服务规范[3,5],我们设计了面向服务的资源虚拟化方案1资源的虚拟化方案主要由3个服务构成:111 信息服务信息服务负责收集资源信息,并支持为作业选择合适的资源1根据资源的种类,信息服务的内容由3部分构成3861徐国市等:一种面向生物基因组可变剪接问题的网络并行求解方案2:1)硬件资源信息1包括CPU 、内存、硬盘等信息,遵循普遍采用的抽象计算存储资源模型G LUE [12]12)软件资源信息1基于我们的分析,目前生物信息学领域的应用程序和各种软件包主要采用命令行的形式运行,输入Π输出主要通过命令行参数和文本文件来完成,有时通过特定环境变量来传递参数1这样的运行方式在作业执行过程中基本没有交互的需求,因此通过抽象“运行脚本或可执行程序+命令行参数+环境变量”的方式,可以为软件资源建立一致的抽象描述模型1特别地,相对于本地运行环境,网络运行环境中文件参数指定的不再是本地文件,而是任何网络可达的节点上的数据文件13)数据资源信息1生物信息学领域大量的生物信息被以特定格式的数据文件存放,而且这些数据会不断增加,如BLAST [13]使用的NT ΠNR ΠSWISS [13]数据库、可变剪接使用的EST 数据库G enBank [13]等1许多生物信息学的应用程序或工具都是基于某些数据库运行1由于这些数据库通常是一些公共数据,而且规模比较大,因此一般作为资源提供,而不是由用户在提交作业时即时导入1数据资源的信息主要包括数据库名称、保存的文件名称、大小、版本等信息1上述3类资源信息通过各个节点上的本地信息服务被聚集到中央信息服务,中央信息服务据此为作业提供资源选择支持1资源的具体选择策略由应用层决定,信息服务的资源选择功能负责根据资源选择策略返回适当的可用资源集合1112 资源代理服务以往,在面向科学计算的网络应用中,对网络资源的使用通常表现为直接的远程程序执行1这种方式虽然效率较高,但难以适应异构、动态的网络环境,操作起来也较为底层、繁琐,难以进行有效的管理1而将网络资源虚拟化成Web 服务的方式,通过提供标准的服务接口,可以为用户提供对各种资源的一致、透明的访问方式1在本方案中,网络中的计算资源被虚拟化成统一的资源代理服务1资源代理服务负责接收用户提交的作业,并将其解析成对本地程序的调用执行,然后将执行结果返回给用户1资源代理服务屏蔽了诸如体系结构、操作系统、作业管理机制等资源的内部细节,为用户提供了统一的资源视图,用户通过一致的操作原语来访问、操作资源,同时也为全局的作业调度提供了有效的支持1从作业运行时的角度来看,作业被提交给资源代理服务后,通常要经历如图所示的几个阶段1Fig 11 The states of jobs 1图1 作业的状态转化 1)作业开始处于等待状态(waiti ng ),如果资源空闲,则立刻进入执行流程12)执行流程首先是输入文件的准备(file St age In)1位于远程的输入文件此时通过文件传输服务被导入到本地1通常输入文件都存放于数据中心的用户数据空间内13)完成文件导入后,代理服务向本地作业管理系统提交相应的运行脚本,作业进入执行状态(executing)1特别地,在支持资源预约的作业管理系统中,如PBS [14],L SF [15],用户可以通过资源预约接口提前预约资源,从而保证作业的资源需求得到满足14)程序执行完毕,代理服务需要将输出文件通过文件传输服务传送到用户指定的位置(file St ageOut),通常也是用户的数据空间15)上述2)~4)顺利完成后,整个作业就成功完成了(finished)1否则,出现任何不可恢复的意外,如资源无法获得、程序执行错误、无法导入Π导出数据等,都将导致作业失败(failing )1113 作业监控服务作业监控服务负责监视作业执行过程中的状态变化1在并行的网络计算环境中,同时会有多个作业在运行1这些作业的状态信息需要被及时地收集起来,以便用户能够实时地获取作业的状态信息1在信息收集机制上,通常有“推Π拉”两种方式1作业监控服务采用的是“推”方式1当作业的状态发生变化时,资源代理服务会向作业监控服务发出一个状态变化的通知,从而更新该作业的状态1在作业提交时,资源代理服务需要将该作业注册到作业监控服务里去,以便监控服务可以收到资源代理服务发来的作业状态变化通知1 面向用户的应用层支持从用户角度出发,应用层的工作主要集中于帮4861计算机研究与发展 2007,44(10)12助用户快速、方便的构造基于网络的并研可变剪接应用1通常情况下,用户关心的不是作业在哪里执行、作业的具体执行流程,而是作业的执行状态、执行时间、如何获得执行结果等因素1因此,作业所使用资源的选择、作业的调度、作业和资源状态的监控、容错处理等对用户应该是透明的1为此,我们提出了如下的应用层支持的目标:①管理应用使用远程资源过程中的上下文环境;②提供对远程资源方便的请求、定位、使用接口;③支持对网络计算作业的一致描述;④支持对远程资源的分组聚集管理;⑤提供灵活的资源使用策略1上述目标主要通过一组应用开发API来保证:1)应用上下文环境(ApplicationContext)1每个可变剪接应用都对应一个应用上下文环境1应用运行之前上下文环境被初始化,包括应用的惟一编号、用户信息、用户个人数据空间信息等1在应用运行过程中,应用所访问的资源的信息、提交的作业的状态信息等都会被上下文环境纪录下来1应用执行结束,需要保存的信息被持久化到数据库中,上下文环境被释放12)全局文件(G lobal File)1描述网络环境中的一个文件或者目录1由于系统中涉及到大量的非本地文件传输,需要对网络环境中的文件或目录进行一致的描述,因此定义全局文件1全局文件由主机地址、本地目录、文件名3部分构成,当文件名为空时,表示一个网络目录13)作业(job)和作业组(Job G roup)1作业是对远程程序的一次执行过程1作业对象是对需要在远程资源上运行的计算任务的一致描述,包括需要运行的程序及其分类信息、程序运行参数的设定(一般字符参数,输入Π输出文件参数)、标准输入Π输出Π出错的管道文件信息等1程序及分类信息由信息服务的模板来统一指定1对于需要作业提供的一般字符参数,用户可以在应用里直接指定1而对于非本地的输入Π输出文件参数,需要使用G lobalFile来指定1管道文件定义了标准输入Π输出Π出错的保存位置1通常,一个作业的执行过程就是对资源代理服务的一次访问过程1但是,由于可变剪接问题所处理的作业规模非常不均匀,大部分作业的规模都很小,使得服务调用流程在整个执行时间中的比重很大,并行的优势不明显1为此,我们提出了作业组的概念1一个作业组由多个作业构成1对于那些规模较小的作业,可以将多个作业打包成一个作业组1把作业组提交给资源代理服务,而不是作业1这样,资源代理服务可以将作业组内所有作业的输入文件一次导入,执行完后,再把输出文件一次导出,节省了频繁的启动传输服务的时间,从而提高了并行的效率14)资源(resource)1资源表示远程计算机上的一个作业运行环境1这个运行环境提供了运行特定程序所需要的完备的软硬件资源,如C PU、内存空间、磁盘空间、环境变量、程序进程等1可变剪接应用通过向合适的资源提交作业来实现对远程资源的使用1资源为用户提供了提交作业、查询作业状态、回收作业、释放资源等操作1同时,资源也纪录了在其生命周期内所运行过的所有作业的相关信息15)资源集(ResourceSet)与资源请求(Resource2 Request)、资源策略(Resource P olicy)1可变剪接应用通常需要处理数以万计的基因数据,而且每个基因数据都是独立的作业,因此,可以并行的使用多个相同性质的资源来运行作业1资源集就是一组同质资源的集合1资源请求描述了作业对资源的要求,如需要运行的程序、可用CPU数目、空闲存储空间大小等1用户将设定好的资源请求提交给信息服务的资源选择接口,信息服务则返回一个资源集1资源集里包含了符合条件的资源1另外,可以为资源集设定资源策略1资源策略定义了资源集的一些条件规则1例如,可以设定资源集的最大资源数m,这样信息服务在选择资源时最多返回m个资源,而不是所有符合条件的资源1又例如,可以设定资源集的最小资源数n及其动作,这样当运行过程中由于某些意外情况使得资源集中的有效资源少于n时,资源集就可以按照设定的资源策略向用户发出通知或者自动去寻找新的可用资源1F1 T f I1图 几个重要I的相互关系上述API的关系如图2所示1A pplicationC ontext 记录了应用运行过程中所有的上下文信息1多个Job 可以打包成一个JobGroup1Job和Job G roup都可以提交到Resource去执行1一个ResourceSet包含多5861徐国市等:一种面向生物基因组可变剪接问题的网络并行求解方案ig2he relatio n o main A P s2A P个Resource1而ResourceSet的创建和使用由ResourceRequest和ResourcePolicy来约束1图3以伪码的形式描述了一个可变剪接应用的形式1应用首先初始化上下文环境(①),然后设定资源需求和资源策略(②,③)1信息服务根据设定好的资源需求和资源策略创建合适的资源集(④)1然后,只要作业列表中还有未被提交的作业,就向资源集以阻塞的方式请求一个空闲的资源(⑤)1成功获得资源后,作业就被提交到该资源上去运行(⑥)1最后,上下文环境被释放(⑦),应用运行结束1 Applicatio nContext ac=new ApplicationC o nt ext();ΠΠ①…ResourceReques t rq=new Res ourceRequest();ΠΠ②…ResourceP olicy rp=new R es ourcePol i cy();ΠΠ③…ResourceSet rs=new R es ourceSet(rq,rp);ΠΠ④while(jobLi s t1size()!=0){ newJob=jobLi s t1getJob(); i dleResource=rs1get IdleResource();ΠΠ⑤ i dleResource1submit(newJob);ΠΠ⑥}ac1fi nal ize();ΠΠ⑦Fig13 The main flow of alternative s plicing application1图3 可变剪接应用的主要流程3 实现与结论Harmonia是北京大学网络研究所网格计算研究组研发的网络协同计算平台1该平台致力于使用网络技术,特别是网格计算技术,协同网络上的分布资源,求解科学计算问题1自2003年以来,经过研究组多位老师和同学的不懈努力,已经在该平台上进行了包括石油地质勘探数据处理、天体运动模拟(N2body问题)、生物信息学问题等多项实验1本文提出的面向生物基因组可变剪接问题的网络并行方案已经在Harmonia上实现,并在由两个集群计算机组成的网络环境中进行了实验1一台集群计算机由4个HP IA64双C PU节点构成,另一台集群计算机由6台PC机构成1两台集群计算机都以PBS作为本地作业管理系统1在实验中,10个计算节点共运行了约2400个机时来预测人类基因组可能的mRNA可变剪接体(isoform)在基因组上的坐标信息1从运行结果来看,通过协调网络中的多台计算机进行并行处理,相对于单机运行环境,运行时间被大大缩短,取得了明显的并行优势1在本方案中我们主要实现了以下关键技术)提出了生物信息学领域应用程序Π软件的一致描述模型1生物信息学是高性能计算的一个重要领域1通过与生物信息学领域的研究人员充分交流,分析大量的生物信息学程序Π软件的使用方式,我们提出了生物信息学领域程序Π软件的一致描述模型1该模型可以支持在广域范围内为生物信息学作业进行资源选择,从而为搭建面向生物信息学的网络计算环境提供了基础12)一致的资源代理服务1资源代理服务在付出较小的时间和空间代价的情况下,屏蔽了各个计算节点的异构性,为用户提供了一致、透明的资源访问接口,便利了用户对远程资源的使用13)方便丰富的应用开发支持1通过一组面向用户的AP I,屏蔽了资源选择、作业调度、错误处理等诸多细节,使得用户可以专心于应用处理逻辑的表达1在为用户提供了对远程资源的访问能力的同时,没有占用用户太多的精力去关注复杂的内部细节,提高了用户的工作效率1本文主要从资源虚拟化和应用层支持两个方面讨论了一种面向生物基因组可变剪接问题的网络并行求解方案1面向服务的一致的资源虚拟化方案降低了访问远程资源的难度1而经过精心设计的应用层AP I可以帮助用户快速的开发出高效的并行应用程序1可变剪接作为生物信息学的一个重要研究课题,本文提出的网络并行方案可以为搭建面向生物信息学的网络计算环境提供有益的参考1参 考 文 献[1]Namshi n K i m,Seokmin Shin,Sanghyuk Lee1ECgene:Genome2based EST clusteri ng and gene modeling for al ternatives plicing[J]1G enome Res earch,2005,15(4):566-576[2]I Foster,et al1GFD211080220051The Open Grid ServicesArchitect ure115[S]1Lem ont,Illinoi s,USA:O GF,2005 [3]Steve Graham,et al1wsrf2ws res o urce21122s pec2os1WebS ervice Res o urce112[S]1Billerica,Massachuset t s,USA:OASIS,2006[4]W illiam Vambenepe,et al1wsdm2muws121112s pec2os2011WebS ervices Di s t ributed Managem ent:Managem ent Us i ng WebS ervices(MU WS111)[S]1Billerica,Massachuset t s,USA:OASIS,2006[5]Igor S edukhi n,et al1wsdm2mows21112s ped2o s2011WebS ervice Di stributed Management:Management of Web Services(WSDM2MOWS)111[S]1B illerica,Mass achuset t s,USA:OASIS,2006[6]I Foster1G lobus Toolkit Versi o n4:S oft ware for s ervice2orient ed s yst ems[G]1In:Proc of IFIP Int’l C onf on Net wo rkand Parallel C omputing(N PC2005),LNCS37791Berli n:S p ri nger,200512-13[]F y,T T,M L y,12Gf2[]1 T I I’Sy f D,S F,6861计算机研究与发展 2007,44(10): 17J re annenbaum ivn et al C ondo r:A computation m anagement agent o r mult i i ns t it ut ional gri ds Che10t h EEE nt l m p o n High Per o rm ance ist ri but edC omputing an ranci s co2001[8]G ongYiLi ,DongFangpeng ,LiWei ,et al 1V EG Ainf ras t ruct ure fo r res o urce discovery i n gri ds [J ]1Journal of C o m put er Science and Technology ,2003,18(4):413-422[9]Li Bingchen ,Xu Zhi wei 1Im plement ation issues of GSML grid program m ing language [J ]1Jo urnal of Computer Res earch and Development ,2003,40(12):1715-1719(i n Chines e )(李丙辰,徐志伟1GSML 网格编程语言的一种实现方法[J ]1计算机研究与发展,2003,40(12):1715-1719)[10]Hai Ji n 1ChinaGri d :Maki ng gri d co m puti ng a reality [G]1In :Digital Libraries :Int ’l C ollaboration and Cross 2Fertilization (ICADL 2004),LNCS 33341Berli n :S p ringer 2Verlag ,2004113-24[11]J Huai ,T W o ,Y Liu 1Resource management and o rganization in CROWN gri d [C ]1The 1s tInt ’l Conf onScalableInformation Systems ,Hong K o ng ,2006[12]Sergi o Andreozzi ,et al 1G L U E S chem a Specification Vers ion 112[S]1O GF dra ft ,2005[13]Tom Madden 1The BLAST Sequence Analysis Tool [OL ]1ht tp :ΠΠwww.ncbi.nl .li .au Πbooks Πbookres.fcgi Πhandboo k Πch16.pdf ,2003208213[14]R Henders o n ,et al 1P B S Release 2121P o rt able Batch System :ExternalReferenceS peci fication[S]1Mountai nView :Numerical Aerospace Si m ulat i o n Systems Divisi o n ,NASA Am es Res earch Cent er ,1996[15]Ming Q Xu 1Effecti ve m etac o m p ut ing us ing LSF mult icluster [C ]1The 1s t Int ’l Sym p on Cluster C omputi ng and t he G rid ,Washi ngto n ,2001X u G uoshi ,b orn in 19801Received his B 1A ’s degree in computer software and t heory f rom Pe king University in 20021Since 2002,he has been a Ph 1D 1candidate in computer s of tware a nd theory f rom Pe king University 1H is curre nt research interestsinclude gridcomputing ,parallelcom putingandhighperforma nce computing 1徐国市,1980年生,博士研究生,主要研究方向为网格计算、并行计算、高性能计算1Lu Fa k a i ,b orn in 19801Received his B 1A ’s degree in computer s of tware a nd theory f rom Pe king University in 20021Since 2002,he has been a Ph 1D 1candidate in computer software and t heory from Peking Univer s ity 1His current research interestsinclude grid computing ,parallel computing a nd highperformance com puting 1鲁发凯,1980年生,博士研究生,主要研究方向为网格计算、并行计算、高性能计算1X u Zhuoqun ,b orn in 19361Professor and Ph 1D 1supervis or of Peking Univer s ity 1His main res earch interests are Web information sha ring and knowledge expression ,GIS ,and computing grid 1许卓群,1936年生,教授,博士生导师,主要研究方向为W eb 信息共享与知识表示、地理信息系统与辅助决策、计算网格1Yu Huashan ,born in 19711Ph 1D 1a nd ass ociate profess or 1Hismainres earchinterest sareparallelcomputing ,highperformance com puting and grid computing 1余华山,1971年生,博士,副教授,主要研究方向为并行计算、高性能计算、网格计算1Ding Wenkui ,b orn in 19461Profess or of Peking University 1H ismainresearchinterest sarecompilingtechnologyandparallel computing 1丁文魁,1946年生,教授,主要研究方向为编译技术和并行计算1Resea rc h B ac kg r oundBiologists generally study genome ’s alternative s plicing fashions by analyzing EST data 1This process needs massive computing resources because of the huge amount of gene and com ple x computation 1Since t he s ize of ES T data is increasing every day ,t his process has to be performed repeatedly 1In this paper ,an SOA 2based parallel scheme ispresented in which distributed res ources can be used to perfor m t he alternative s plicing computing in collaboration 1As a result ,the computing time is reduced remarkably 1Our work is suppor ted by the National 863Plan (2006AA02Z334),the National Natural Science Foundation (60303001,90412010),a nd the National Basic Researc h Progra m (2005D K A64001)of China 17861徐国市等:一种面向生物基因组可变剪接问题的网络并行求解方案。
基因剪接和可变剪接的分子机制研究
基因剪接和可变剪接的分子机制研究随着分子生物学和基因工程等学科的不断进展,我们对基因剪接和可变剪接机制的认识逐渐加深。
基因剪接是生物体在进行基因表达过程中最为关键的步骤之一,它能够控制一段基因序列中的可变部分是否被拼接在一起,从而决定基因编码的蛋白质的种类和数量。
而可变剪接则是基因剪接的一种特殊类型,它允许生物体在不同组织、不同发育阶段、不同环境条件下产生不同的蛋白质,具有非常重要的生物学意义和医学价值。
基因剪接的分子机制主要涉及两个方面,即RNA剪接因子和RNA剪接位点。
RNA剪接因子是介导剪接反应的蛋白质,它们能够识别RNA前体分子中的剪接位点,并在剪接位点处催化剪接反应。
RNA剪接位点是RNA前体分子中的两个可剪切区域,它们分别称为剪接供体位点和剪接受体位点。
剪接供体位点是一个包含GU二核苷酸序列的扩展序列,它位于RNA前体分子的3’端;剪接受体位点是一个包含AG二核苷酸序列的扩展序列,它位于RNA前体分子的5’端。
RNA剪接因子能够在剪接位点处与RNA前体分子进行特异性识别和结合,并催化剪接反应的进行。
可变剪接的分子机制则更加复杂和多样化。
现在已知的可变剪接类型超过20种,每一种类型都可能涉及较复杂的分子机制。
其中最为典型的可变剪接类型包括外显子跳跃剪接、替代外显子剪接、选择性剪接、内部后延剪接等。
外显子跳跃剪接是一种非常特殊的可变剪接类型,它允许基因前体分子在剪接过程中跳过一个或多个外显子,从而产生完全不同的蛋白质。
这种剪接机制的实现需要依赖于一种特殊的RNA剪接酶,它具有将两个不相邻的外显子进行拼接的能力。
替代外显子剪接则是一种非常常见的可变剪接类型,它允许基因前体分子在剪接过程中选择性地拼接某些外显子,而将其他外显子排除。
这种剪接机制的实现需要依赖于一种特殊的RNA剪接因子,它能够根据不同的外显子序列选择性地结合RNA前体分子的不同区域。
选择性剪接则是一种基于具有多个剪接位点的RNA前体分子,它在剪接过程中根据不同的剪接选择将不同的外显子排列组合的可变剪接类型。
可变剪接
可变剪接:有些基因的一个mRNA前体通过不同的剪接方式(选择不同的剪接位点)产生不同的mRNA剪接异构体,这一过程称为可变剪接(或选择性剪接,alternative splicing) 。
可变剪接是调节基因表达和产生蛋白质组多样性的重要机制,是导致人类基因和蛋白质数量较大差异的重要原因。
基本内容大多数真核基因转录产生的mRNA前体是按一种方式剪接产生出一种成熟mRNA分子,因而只翻译成一种蛋白质。
但有些基因的一个mRNA前体通过不同的剪接方式(选择不同的剪接位点)产生不同的mRNA剪接异构体,这一过程称为可变剪接(或选择性剪接, alternative splicing)。
由于RNA的可变剪接不牵涉到遗传信息的永久性改变.所以是真核基因表达调控中一种比较灵活的方式。
可变剪接是调节基因表达和产生蛋白质组多样性的重要机制, 是导致人类基因和蛋白质数量较大差异的重要原因。
可变剪接形式的识别真核细胞核内前体mRNA加工通过5’加帽、剪接(移除内含子)、3’末端切割加尾.从而形成成熟的mRNA.成熟的mRNA和hnRNP及其他蛋白质形成复合体输出核外再经过选择性降解参与翻译。
这些步骤并不是简单的线性顺序.而是在转录物延伸期和转录同时发生的。
从而形成一个大型的“生产链。
一般认为,可变剪接有5种基本形式:①内含子保留;②可变的5’端;③可变的3’端;④外显子盒;⑤互斥外显子(一组外显子中只选其一)。
也有分为7种形式的,加上可变的起始或末端外显子,而这两种形式更有可能是可变启动子、可变polyA位点造成的。
可进行专门分析。
可变剪接的意义和作用可变剪接被认为是导致蛋白质功能多样性的重要原因之一,它使一个基因可编码多个不同转录产物和蛋白产物。
可变剪接也是产生基因组规模与生物复杂性之间的矛盾根源之一。
已有实验研究表明,可变剪接在产生受体多样性、控制调节生长发育等方面起决定性作用。
尤其表现在神经系统和免疫系统,这与该类系统的功能多样性和反应敏感性是密切相关的。
利用转录组测序数据分析可变剪接的方法
利用转录组测序数据分析可变剪接的方法作者:***来源:《科学与信息化》2020年第08期摘要可变剪接是调节基因表达和产生蛋白组多样性的重要因素,同时参与调控细胞分裂、分化及凋亡等重要生物学过程,异常的可变剪接多与人类疾病有关。
随着新一代测序技术和生物信息学的快速发展,以及先进计算方法的提出,使得我们对可变剪接有了深入的认识。
并且基于剪接机制对于病的靶向药物设计,已得到了有效的临床治疗效果。
本文主要阐述了近年来基于二代测序技术开发的几种识别可变剪接的计算方法,并对未来的发展方向进行展望。
关键词可变剪接;二代测序技术;生物信息学;分析工具可变剪接,又称选择性剪接(Alternative Splicing,AS),是真核生物基因表达的普遍调节机制,是指一个前体mRNA经过不同的剪接形式产生多种不同剪接异构体的过程。
在1978年,Walter Gilbert提出了内含子和外显子命名[1],不同外显子组合产生特异的异构体。
二代测序技术的迅速发展极大地推动了人类对可变剪接的认识。
现有数据表明,人类大约有92%-94%的基因都会经历某种程度的可变剪接行为,并且在20000多种人类蛋白编码基因中,约37%的基因会编码产生不同的蛋白亚型,这表明可变剪接增加了蛋白质组的多样性和复杂性[2]。
AS对基因的功能起着重要调控作用,同一基因的不同亚型可能参与不同的生物学过程。
例如p53抑癌基因(TP53)在DNA受损细胞的调控中起着核心作用,然而其Δ133β亚型则可以抑制全长p53β亚型5和6从而诱导肿瘤细胞的凋亡[3]。
另外AS几乎参与了所有生物学过程,包括调节细胞的分裂和凋亡、神经系统的发育以及细胞对抗多种环境因素做出的免疫应激反应等[4]。
另一方面,AS的异常调节还与多种遗传性疾病和恶性肿瘤相关,包括神经退行性疾病、心血管疾病和代谢状况等。
据报道,与SNP相关的遗传性疾病多达一半是由于剪接受损引起的[5]。
AS的异常调节对癌症的发生发展有重要的作用,为疾病的发展提供了可能的新颖治疗靶标和生物标志物的来源,而AS位点的预测可以为药物设计提供很好的分子基础。
可变剪接与蛋白质组多样性及其调节机制
可变剪接与蛋白质组多样性及其调节机制武春晓 2001级博士生专业:免疫学导师:马大龙教授前言可变剪接是指从一个mRNA前体中通过不同的剪接方式(选择不同的剪接位点组合)产生不同的mRNA剪接异构体的过程。
可变剪接是调节基因表达和产生蛋白质组多样性的重要机制。
剪接过程受多种顺式作用序列和反式作用因子相互作用调节。
包括SR和hnRNP 家族蛋白在内的多种剪接因子参与这一调节过程。
转录机器(machine)也参与可变剪接的调节。
本文将讨论:一.可变剪接与蛋白质组多样性二. 可变剪接的调节机制。
.第一部分可变剪接与蛋白质组多样性5据预测,人类基因组可能有约35,000个基因,果蝇约14,000个,而简单的模式生物线虫约19,000个基因。
生物的复杂性与其基因组基因数量似乎存在明显差异。
原因在蛋白质组。
基因重排,RNA编辑,和可变剪接等机制可以从一个基因产生多种蛋白,从而使蛋白质组中蛋白质的数量超过基因组中基因的数量。
其中,从影响的基因数量和生物种类范围来看,可变剪接是扩大蛋白质多样性的最重要的机制1-4。
一、可变剪接的频率。
5,61. 5%。
从1977年Walter Gilbert提出可变剪接概念,1980年Baltimore在小鼠IgM基因发现第一个可变剪接产生膜型、分泌型IgM,至2001年,用经典分子生物学实验的方法研究,一共仅发现了数百种有可变剪接的基因。
并推测在高级真核细胞生物约5%的基因有可变剪接。
2. 35%-60%。
高通量的基因组测序和EST测序,使得生物信息学的方法研究可变剪接成为可能。
EST来源于完全加工的mRNA, 它们提供了一个广泛的mRNA多样性的样品库。
这种多样性可以用计算机分析。
最近两年,多个研究小组通过不同的生物信息学的方法,从整个人基因组的水平进行分析,结果一致显示约35%-60%的人基因有可变剪接形式。
而且,由于对大多数基因来说,每个基因只测了很少几EST甚至没有EST;EST不是全长的mRNA,多位于mRNA的5’和3’端;EST来源于有限的组织和发育阶段;很有可能存在有更多的可变剪接而在现在的EST库中没有显示。
高考生物学二轮总复习课后习题 专题5 遗传的分子基础、变异与进化 (6)
专题五遗传的分子基础、变异与进化A组基础对点练考点1 遗传的分子基础1.(四川广安一模)科学研究发现,T2噬菌体侵染大肠杆菌后,大肠杆菌自身蛋白质的合成立即停止,转而合成噬菌体蛋白质。
下列叙述正确的是( )A.T2噬菌体和大肠杆菌主要的遗传物质都是DNAB.噬菌体蛋白质的合成需要大肠杆菌提供酶和能量C.噬菌体基因控制合成的蛋白质需内质网进行加工D.噬菌体蛋白质外壳会侵入大肠杆菌影响细菌代谢2.(山东联考二模)DNA复制过程中,尚未解开螺旋的亲代双链DNA同新合成的两条子代双链DNA的交界处称为复制叉。
研究发现,啤酒酵母中某种蛋白被加载到复制叉时,被招募并停滞在复制叉处的Mec1蛋白就会被激活并随复制叉向前移动,从而完成DNA的复制。
下列说法错误的是( )A.DNA一条链中的磷酸基团和脱氧核糖通过磷酸二酯键连接B.DNA解旋过程中解旋酶需在ATP供能驱动下断裂两条链间的氢键C.Mec1蛋白被激活后会与RNA聚合酶结合,进而完成DNA的复制过程D.抑制细胞中Mec1基因的表达,细胞可能会被阻滞在细胞分裂间期3.(浙江台州二模)唾液腺细胞合成淀粉酶的局部过程如图所示,图中①表示某种细胞器,②表示某种大分子化合物。
下列叙述错误的是( )A.图中的囊腔是内质网腔B.①识别②上的启动子,启动多肽合成C.多个①结合在②上合成同一种多肽,提高翻译效率D.图示过程需三种RNA参与,三种RNA都是基因转录产物4.(山东模拟)不同核酸类型的病毒完成遗传信息传递的具体方式不同。
下图为某“双链±RNA病毒”基因表达示意图。
这类病毒携带有RNA复制酶,在该酶的作用下,-RNA作为模板复制出新的+RNA。
合成的+RNA既可以翻译出病毒的蛋白质,又可以作为模板合成-RNA,最终形成“±RNA”。
已知逆转录病毒的核酸为“+RNA”。
下列说法正确的是( )B.与DNA的复制不同,±RNA的双链可能都是新合成的C.该病毒与逆转录病毒基因表达时都存在A—T、A—U的配对D.逆转录病毒与该病毒繁殖时均有+RNA到-RNA的过程5.DNA甲基化是指在甲基转移酶的催化下,DNA的CG二核苷酸中的胞嘧啶被选择性地添加甲基。
可变剪接分析综述
可变剪接的分析主要包括剪接体序列的 校正,剪接体之间的比较,以及剪接机 制的探索。
剪接体序列的校正
克隆试验得到的mRNA 往往不是全长, 测序反应也不能保证100%的正确,所以 拿到一条序列首先要对其进行校正,尽 可能保证使全长序列且无错误。 校正可以通过剪接体序列与EST数据及 基因组的比对进行。
Details 结果
图中显示有四个block, 即提交序列可以分为四个区段 与染色体上四个区域对应,即有四个外显子。蓝色区 域为完全匹配,浅蓝色为比对区域的边缘序列,可以 理解为外显子边界
Details 结果
点击每个block 可以看到对应的外显子序列, block之间可以认为是内含子序列,可以观察是否 符合GT-AG 或是GC-AG模式
可变剪接示意图
可变剪接是生物多样性的重要成因
高等生物与低等生物的基因数量并没有特别显著 的差别,如人的基因估计约30000-40000,小鼠 的基因也为30000左右,而且人鼠基因有很多存 在有很高的相似性。果蝇、线虫等基因约为 15000,基因数量的差别不足以解释以上物种间 存在的显著差异。
可变剪接与蛋白质组
Spliced EST
Total ESTs
EST 数据选择
整条序列在染色体上以单外显子形式出 现很可能是染色体污染。一般优先看已 剪接EST数据对基因的支持情况,如数 量不足再看包含未剪接EST的所有EST 集合
改变查看区域
在browser 里可以任意移动查看,改变位 置的方法有两种,一是直接输入定位数字, 二是通过窗口下方的方向箭头移动。
SR蛋白主要与外显子剪接增强元件ESE结合, 通过直接招募剪接体蛋白或是拮抗剪接抑制因 子的作用来发挥作用。 SR蛋白主要对5’位点的选择起作用: 通过招募剪接体蛋白如U2AF或是U1-70K,在 pre-mRNA的两个或多个5’可变剪接位点中促 进选择使用距内含子3’端较近的5’位点。
基因可变剪接的调控机制及其研究进展
基因可变剪接的调控机制及其研究进展作者:苏握瑜,李丽娟,贺花,雷初朝,陈宏,黄永震来源:《畜牧兽医科学》 2018年第3期摘要:基因的可变剪接( alternative splicing AS)自从被发现以来,对于它的研究一直是一个热门,它是由一个RNA前体经过剪接体( spliceosome)和剪接因子(splicing factor)的相互作用,最终形成多种成熟的具有不同生物学和化学活性的功能RNA的过程。
它的出现让蛋白质的多样性的形成原因有了更为合理的解释并在基因表达调控中占据重要地位。
近年来对基因可变剪接的研究主要集中在它的调控机制以及在不同生物中的发生状况,旨通过这些研究来为人们利用可变剪接创造经济效益或者在人类疾病的治疗方面做出贡献奠定基础。
本文对近1 0年来猪(Sus scrofa)、牛(Bos taurus)、山羊(Capra hircus)、绵羊(Ovis aries)、鸡(GalLus gallus)、和鸭(Anas platyrhynchos)等主要畜禽的基因可变剪接研究进展进行综述,分别从基因可变剪接的调控机制及其在动物遗传育种中的研究进展2个方面进行论述,并对畜禽基因可变剪接的未来的研究工作进行了展望。
关键词:可变剪接;调控机制;不同动物;研究进展中图分类号:Q752 文献标识码:A doi:10. 3969/j. i ssn. 2096-3637. 2018. 03. 002O引言早在19世纪80年代就有关于基因可变剪接的记录”],而随着测序技术的成熟,越来越多的基因被发现可以进行可变剪接,这使得人们不得不重新认识基因的表达的蛋白质的多样性的关联。
随着越来越多的生物物种中可变剪接被发现,它的作用也越来越重要,弄清它的调控机制成了至关重要的一步,这也是对可变剪接进行利用的前提。
研究发现顺式作用元件( Cis-acting element)和反式作用因子(Trans-acting element)的相互作用调控着可变剪接的发生,而随着研究的深入,越来越多的因素被牵扯其中。
可变剪接的生物信息数据分析综述
可变剪接的生物信息数据分析综述章天骄【摘要】前体mRNA的可变剪接是扩大真核生物蛋白质组多样性的重要基因调控机制.可变剪接的错误调节可以引起多种人类疾病.由于高通量技术的发展,生物信息学成为可变剪接研究的主要手段.本文总结了可变剪接在生物信息学领域的研究方法,同时也分析并预测了可变剪接的发展方向.%Alternative pre - mRNA splicing is an important gene regulation mechanism for expanding proteomic diversity in higher eukaryotes. The misregulation of alternative splicing underlies many human diseases. With the development of high - throughput technology, bioinformatics becomes to the main method in study of alternative splicing. This article summarizes the bioinformatics methods in alternative splicing research, as well as analyzes and predicts the direction of alternative splicing.【期刊名称】《生物信息学》【年(卷),期】2012(010)001【总页数】4页(P61-64)【关键词】可变剪接;高通量技术;生物信息学【作者】章天骄【作者单位】哈尔滨工业大学计算机科学与技术学院,哈尔滨150001【正文语种】中文【中图分类】Q811可变剪接是指一个前体mRNA通过不同的剪接方式(选择不同的剪接位点组合)产生不同mRNA剪接异构体的过程。
遗传学名词解释
1.主缢痕(初级缢痕;着丝粒区):染色较浅、向内凹陷成狭小区段的部位。
2.次缢痕(副缢痕):除主缢痕外着色较浅的染色体缢缩区,不能弯曲,与核仁形成有关。
常在短臂出现,位置相对稳定。
3.随体:从次缢痕到臂末端的圆形或略呈长形的突出体。
4.端粒:真核生物染色体臂末端特化的着色较深部位。
由端粒DNA和端粒蛋白组成,高度保守。
作用:维持染色体稳定性5.Homologous chromosomes(同源染色体/P21): Chromosomes that pair (synapse联会) in meiosis and have the same genetic loci(基因座)and structure.6.Haploid(单倍体): a cell or organism(生物体) containing the set of chromosomes normally found in gametes(配子).7.Diploid(二倍体): a cell or organism with two complete sets of homologous chromosomes.8.染色体的核型(karyotype):一个物种的一组染色体所具有的特定的染色体的大小、形态和数目。
9.分离定律Segregation:一对等位基因在杂合子中,各自保持其独立性,在配子形成时,彼此分开,随机地进入不同的配子.10.自由组合定律Principle of Independent Assortment:支配两对(或两对以上)不同性状的等位基因,在配子形成时,各等位基因独立分配,不同对的基因自由组合。
11. 完全显性:杂合子和显性纯合子的表型相同。
即AA与Aa表现相同。
12.不完全显性:杂合子的表型介于显性纯合子和隐性纯合子之间,又称半显性(semi-dominance)。
13.共显性:指一对等位基因之间,没有显、隐性的区别,在杂合时两种基因的作用都完全表现出来。
基因相关名词解释级NCBI序列案例
一、基因基因在结构上,分为编码区和非编码区两部分(其中非编码区对基因的表达主要起调控作用,如启动子等位于该区)。
真核生物基因的编码区是不连续的(真核生物结构基因,由若干个编码序列和非编码序列互相间隔开但又连续镶嵌而成,去除非编码序列再连接后,可翻译出由连续氨基酸组成的完整蛋白质,这些基因称为断裂基因split gene),分为外显子(Exon)和内含子,其中外显子是可以最终实现表达的(表现在蛋白质的一级结构上),内含子则最终不能表达(所以真核生物基因表达过程中,转录产物——信使RNA不能直接进行翻译,而是要修剪掉内含子部分后才能去指导翻译)。
原核生物的基因也有编码区、非编码区,但是编码区内是连续的编码区列,无外显子、内含子的区分。
1.正义链:DNA上携带有编码蛋白质氨基酸信息的核苷酸序列的链称为正义链,又称编码链,与mRNA核苷酸序列相同(U代替T)。
另一条链核苷酸序列与正义链互补,按碱基配对规律能指引转录生成RNA单链,称为模板链、反义链。
2.编码区、开放阅读框、编码序列、CDS的区别和关系?①编码序列:真核细胞基因结构中的编码序列是位于编码区的核苷酸序列,也就是说,编码区包括全部编码序列(外显子)和一些非编码序列(内含子),剩下的非编码序列存在于非编码区。
②CDS:CDS是编码序列(Coding sequence)的缩写。
DNA转录成mRNA,mRNA经剪接等加工后翻译出蛋白质,所谓CDS就是与蛋白质序列一一对应的DNA序列,且该序列中间不含其它非该蛋白质对应的序列,不考虑mRNA加工等过程中的序列变化。
总之,就是与蛋白质的密码子完全对应。
③ORF(开放阅读框):开放阅读框是从一个起始密码子开始到一个终止密码子结束的一段序列;不是所有读码框都能被表达出蛋白产物,或者能表达出占有优势或能产生生物学功能的蛋白。
比如当一个新基因被识别,其DNA序列被解读,有若干个开放阅读框,但人们仍旧无法搞清相应的蛋白序列是什么。
可变剪切与复杂疾病论文
可变剪切与复杂疾病摘要:大多数真核生物的基因都是断裂基因,断裂基因的转录产物需要通过剪接,去除插入部分(部分内含子),使编码区(外显子)连接起来成为连续序列。
剪接是真核生物转录调控的一个重要环节,是一个非常复杂的过程,如果剪接发生异常,则会引起一些疾病。
并且对剪接认识的加深,也为这类疾病的治疗提供了一些方法。
关键字:断裂基因,外显子,内含子,可变剪接,疾病。
1剪接概述剪接是真核生物表达调控的一个重要过程,它涉及到很多的调控因子,并且发生在特定的调控位点。
并不是所有的位点都可以发生剪接,而是只有在特定的剪接位点才会发生剪接,如果剪接发生在不正常的位点就会出现剪接异常。
1.1剪接位点的特点内含子切割位点有2个特点(1)内含子的两个末端并不存在同源或互补。
这就排除了存在二级结构的可能。
(2)连接点具有很短的保守序列,称为边界顺序。
其规律称为GT-AG法则(GT-AGrule)Chambon法则。
并且我们称左边的剪接位点称供体(donor)位点,右边的剪接位点称受体(acceptor)位点。
在不同的真核生物中,内含子的一致顺序有不少变化,动物中典型的剪接位置一致顺序组成为:5'AGGTAAGU--------------YNYURAY--Y10-20--YAG3'其中Y为U或C,N为任何核苷酸。
但是需要注意的一点是仅仅GT-AG边界顺序并不能保证内含子的正确剪切,因为在内含子中有不少相同的GU-AG顺序。
内含子中还有另一段识别剪接边界必不可少的序列称为分枝点,位于3‘-端剪接位的上游,具有特征性组成:-YNCURAY-,Y表示嘧啶(U或C),R表示嘌呤(A或G),A是剪接时参与形成分枝的特别位点。
紧接在分枝点的下游有一段多嘧啶序列,也是参与剪接事件蛋白接合的位置。
1.2剪接的类型剪接是基因表达调控的一个重要环节,由于内含子具有多种多样的结构,剪接机制也是多种多样的。
有些内含子可以催化自身剪接,而有些内含子需在剪接体作用下才能剪接。
可变剪接分析PPT课件
05
可变剪接的调控与干预
基因编辑技术
基因编辑技术是一种强大的工具,可用于直接修改基因序列,从而调控可变剪接事件。CRISPR-Cas9系 统是目前最常用的基因编辑技术,通过设计特定的sgRNA,可以精确定位并切割DNA,随后通过同源重 组或非同源末端连接修复机制进行基因敲除或基因修复。
加强数据解读和挖掘
针对数据解读难度大的问题,需要加强算法和计 算平台的建设,提高数据的解读能力和挖掘深度。
3
推进标准化和规范化
为了提高不同实验室之间的结果可比性,需要推 进可变剪接分析的标准化和规范化,制定相应的 标准和规范。
THANKS
感谢观看
剪接因子的识别
剪接因子的组装
剪接因子能够识别内含子和外显子,确保 剪接反应的准确性。
在剪接反应开始前,多种剪接因子需要组 装成一个完整的剪接体。
剪接反应的进行
剪接产物的加工和修饰
在剪接因子的作用下,内含子被切除,外 显子被连接起来,形成一个完整的mRNA 分子。
在mRNA合成过程中,还需要进行后加工 和修饰,以确保mRNA的稳定性和翻译效 率。
可变剪接分析ppt课件
• 可变剪接概述 • 可变剪接的分子机制 • 可变剪接的研究方法 • 可变剪接与疾病 • 可变剪接的调控与干预 • 展望与未来研究方向
01
可变剪接概述
可变剪接的定义
总结词
可变剪接是一种基因表达的调控机制,通过选择性剪接,产生不同的转录本。
详细描述
可变剪接是指从一个多外显子基因中产生多个转录本的过程,这些转录本在剪 接方式、拼接位点等方面存在差异,从而产生不同的蛋白质或RNA分子。
03
测序相关名字注解
1、链特异性建库测序:(mRNA-Seq library(Strand-Specific) construction,ssRNA-Seq)可以确定转录本来自正链还是负链,以便更加准确的获得基因的结构以及基因表达信息,并且可以更好的发现新的基因;但链特异建库在read的随机性分布上略差,而其所得结果其他指标都是比较优秀的,其结果是准确可信的。
测序数据质量评估与预处理:质量控制Quality Control:FastQC、Fastx-toolkit 拼接Aligner:BWA,Bowtie, Tophat, SOAP2 Mapper:Tophat, Cufflinks基因定量Gene Quantification: Cufflinks, Avadis NGS质量改进Quality improvement:?Genome Analysis Toolkit(GATK)SNP: Unified Genotyper,Glfmultiple, SAMtools, Avadis NGSCNV: CNVnator Indel: Pindel, Dindel, Unified Genotyper, Avadis NGSMapping to a gene: Cufflinks, Rsamtools,?Genomic FeaturesQC分析:QUALITY CONTROL,检查表、层别法、柏拉图、因果图、散布图、直方图、管制图2、差异整合分析:Meta-analysis,对若干独立研究的统计结果进行综合差异的定量分析表达模式分析:分析基因如何表达的。
就是从DNA到蛋白质的过程,这个过程是如何进行的就是它的模式GO富集分析:可分为分子功能(Molecular Function),生物过程(biological process)和细胞组成(cellular component)三个部分。
蛋白质或者基因可以通过ID对应或者序列注释的方法找到与之对应的GO号,而GO号可对于到Term,即功能类别或者细胞定位。
基于TCGA SpliceSeq数据库可变剪接事件构建结肠癌患者预后风险模型
文章编号:1673-8640(2021)01-0060-09 中图分类号:R446.1 文献标志码:A DOI:10.3969/j.issn.1673-8640.2021.01.013基于TCGA SpliceSeq数据库可变剪接事件构建结肠癌患者预后风险模型雷 鸣,郭萌月,王若颖,倪小梅,石 琼(云南省肿瘤医院昆明医科大学第三附属医院云南省癌症中心,云南昆明 650118)摘要:目的通过全基因组分析构建预后风险模型,预测结肠癌(COAD)患者预后。
方法从癌症基因组计划(TCGA)数据库中下载COAD患者RNA-seq数据和临床信息;从TCGA SpliceSeq数据库下载7种类型的可变剪接事件;剪接因子(SF)数据从SpliceAid 2数据库中下载。
用单因素Cox回归分析确定预后相关可变剪接事件(PASE),采用Lasso回归分析筛选变量,多因素Cox回归分析用于计算风险值并构建风险模型。
用Cytoscape Reactome FI插件构建互作网络,寻找核心节点;用基因本体(GO)富集和KEGG通路进行基因功能注释和通路分析,Kaplan-Meier和受试者工作特征(ROC)曲线用于PASE风险模型的评估;用SF与其他基因的PASE构建预后相关互作网络。
结果398例COAD患者中共有9 085个基因发生了35 391次可变剪接事件,有1 811个基因发生了2 015次PASE。
由8个PASE构成的预后风险模型中,以0.919作为最佳临界值将患者分为高风险组和低风险组,2组间比较差异有统计学意义(P<0.001),ROC曲线下面积是0.860(1年生存率)。
在单因素Cox回归分析中,患者肿瘤浸润、淋巴结转移、远处转移、临床分期、预后风险模型都与患者总体生存时间呈显著负相关(P<0.001)。
经过多因素调整后,预后风险模型依然与患者总体生存时间呈显著负相关(P<0.001)。
预后风险模型中,8个PASE与其对应基因mRNA的表达量无相关性(P>0.05)。
可变剪接在糖料作物上的研究进展
㊀第45卷第3期2023年7月中国糖料Sugar Crops of China Vol.45,No.3Jul. 2023doi :10.13570/ki.scc.2023.03.003http ://收稿日期:2020-07-22基金项目:博士后研究人员落户黑龙江科研启动资助金 甜菜分子标记开发与重要性状相关标记的筛选 (LBH -Q 18108);2017年度黑龙江省省属高等学校基本科研业务费科技创新类重点项目 甜菜分子标记位点库的深度挖掘与候选SSR 标记开发 (KJCXZD 201713);财政部和农业农村部国家现代农业产业技术体系(糖料)项目 甜菜种质资源收集与评价 (CARS -170102)资助㊂第一作者:徐悦(1997-),女,江苏扬州人,在读硕士,研究方向为甜菜遗传育种与分子育种,E -mail :Joye 0103@ ㊂通信作者:王希(1984-),女,黑龙江黑河人,助理研究员,博士,研究方向为甜菜遗传育种与分子育种,E -mail :lagow @ ;赵春雷(1978-),男,黑龙江鸡东人,助理研究员,研究方向为糖料作物遗传育种,E -mail :zhaocl -1@ ㊂可变剪接在糖料作物上的研究进展徐㊀悦1,2,申子萌1,7,王㊀希3,4,5,6,赵春雷1,4,5(1.黑龙江大学现代农业与生态环境学院/中国农业科学院甜菜研究所,哈尔滨150080;2.上海信致医药科技有限公司,上海200000;3.陇东学院生命科学与技术学院,甘肃庆阳745000;4.黑龙江省普通高等学校甜菜遗传育种重点实验室/黑龙江省甜菜工程技术研究中心,哈尔滨150080;5.国家糖料改良中心/中国农业科学院北方糖料作物资源与利用重点开放实验室,哈尔滨150080;6.甘肃省高校陇东生物资源保护与利用省级重点实验室,甘肃庆阳745000;7.中资蓝天生态科技(北㊀㊀㊀京)有限公司,北京100083)摘㊀要:可变剪接在真核生物中普遍存在,是生物体产生多种蛋白质的一个重要机制㊂大量证据表明,可变剪接的复杂性与植物的发育㊁进化㊁适应性有关㊂可变剪接的相关研究为培育优质的作物品种提供了理论依据㊂文章主要综述了可变剪接的类型㊁研究方法以及糖料作物关于可变剪接的最新研究进展,并结合当前的研究形势对未来可变剪接的研究方向提出建议㊂研究发现,甘蔗㊁甜菜㊁甜叶菊糖料作物的可变剪接研究几乎都处于尝试阶段,今后在分子机制㊁规律㊁功能等方面还有大量的未知信息有待研究,可变剪接的研究可为提高糖料作物抗逆性㊁环境适应性㊁产糖量等方面提供帮助㊂关键词:糖料作物;甜菜;甘蔗;甜叶菊;可变剪接;研究进展中图分类号:S 566㊀㊀㊀㊀㊀㊀㊀文献标识码:A 文章编号:1007-2624(2023)03-0021-06徐悦,申子萌,王希,等.可变剪接在糖料作物上的研究进展[J ].中国糖料,2023,45(3):21-26.XU Yue ,SHEN Zimeng ,WANG Xi ,et al.Research progress on alternative splicing in sugar crops [J ].Sugar Crops of China ,2023,45(3):21-26.0㊀引言可变剪接又称选择性剪接(Alternative Splicing ,AS ),是真核生物中常见的一种生物学事件,指在一个mRNA 前体中通过不同的剪接方式产生不同mRNA 异构体的过程㊂目前可变剪接已涉及到许多作物,如大豆[1]㊁水稻[2-3]㊁玉米[4-5]㊁高粱[6]㊁小麦[7]等㊂可变剪接的发生与很多生物学事件密切相关,在研究植物生理适应㊁生长发育㊁遗传转化等方面具有重要意义㊂可变剪接增加了蛋白质的多样性,调节植物70%基因的外显子[8-9],在植物的生长发育过程中发挥着重要作用,如诱导开花[10],响应非生物胁迫等[11-12]㊂德国马普研究所Markus Schmid 课题组鉴定了一种含有Like -Sm (LSM )结构域蛋白PORCUPINE (PCP ),发现它是植物在低温下正常发育所必需的,而PCP 是一个与可变剪接相关的因子,能够影响温度依赖可变剪接,进而从22中国糖料2023另一方面调控植物的发育[13]㊂这为我们研究植物发育调控方面提供了新思路㊂随着高通量测序技术的发展,越来越多的可变剪接事件在高等植物中被发现,但糖料作物的可变剪接目前鲜有报道,值得我们深入研究㊂1㊀可变剪接的类型可变剪接在动植物细胞中都有发生,可分为7种类型(见图1):内含子保留(Intron Retention,IR)㊁外显子跳跃(Exon Skipping,ES)㊁互斥外显子(Mutually Exclusive Exon,MEE)㊁5ᶄ端可变剪接(Alternative5 Splice Site,A5SS)㊁3ᶄ端可变剪接(Alternative3 Splice Site,A3SS)㊁首部外显子可变剪接(Alternative First Exon,AFE)㊁尾部外显子可变剪接(Alternative Last Exon,ALE)㊂植物中出现最多的类型是内含子保留,如拟南芥基因内含子保留事件的发生在总数中超过60%,水稻基因中内含子保留占可变剪接事件总数的46%,玉米基因中内含子保留事件约38%[14-17]㊂图1㊀可变剪接的类型Fig.1㊀Types of alternative splicing2㊀可变剪接的研究方法研究可变剪接的方法主要有3种:表达序列标签[18-20]㊁生物芯片法[21]㊁新一代测序法[22]㊂基于EST数据的研究方法,可以发现新的可变剪接位点,但准确程度要依赖EST序列数据的质量,还要对结果进行生物学的分析验证[23]㊂MODREK等[24]提出了EST数据预测可变剪接事件的局限性㊂SABLOK等[25]使用表达序列标签的方法,比较了苹果㊁葡萄㊁甜橙和草莓4种不同果树的可变剪接事件,分别鉴定到苹果有2039个可变剪接事件,葡萄2454个,甜橙1425个,草莓444个㊂基于芯片技术的研究方法主要有剪接连接点芯片技术和外显子芯片技术两种类型㊂利用外显子-外显子连接部分的片段作为探针而设计的芯片可以用来验证特定可变剪接的发生,并研究其表达特性,适合全基因组范围的研究[26]㊂基于新一代测序技术的研究方法具有定量更准确㊁可重复性更高㊁适用范围更广㊁分析更加可靠等优点,为基因组和转录组的深入硏究提供了可能[27-29]㊂全基因组测序的成本也随着新一代测序技术的发展而逐步降低㊂转录组高通量测序对于研究可变剪接及其调节来说是一个强有力的实验工具,但同时也必须要有特殊的分析方法和工具㊂RNA-Seq测序提供了深度的转录组数据,可以用于识别比对组之间差异的可变剪接事件㊂3㊀糖料作物可变剪接的研究进展在植物中,许多生理代谢事件和反应都与可变剪接有关㊂已有研究表明可变剪接响应生物/非生物胁迫[30-34],对植物的生长发育㊁生理代谢㊁外界逆境等[35-38]起到一定的调控作用㊂如XIAO等[39]研究发现甘蔗的一个丝/苏氨酸蛋白激酶基因SCBAK1会发生可变剪接,且与生物胁迫有关㊂制糖原料以甘蔗㊁甜菜为主,也包括甜叶菊㊁甜高粱等糖料作物㊂目前,糖料作物可变剪接的研究屈指可数(未查到甜高粱的可变剪32㊀第45卷,第3期徐㊀悦,等:可变剪接在糖料作物上的研究进展接相关研究文献),故需深入糖料作物可变剪接的研究,以期为糖料作物相关基因的可变剪接机制提供参考依据,为提高糖料作物抗逆性㊁环境适应性㊁产糖量等方面提供帮助㊂3.1㊀甜菜的可变剪接甜菜可变剪接的研究尚处于初级阶段,研究内容及成果并不显著,但已有证据表明甜菜中存在可变剪接事件,ZOU等[40]在鉴定出的甜菜差异表达基因中,发现了136个未注释的基因,其中有24个出现了可变剪接㊂LISSON等[41]将玉米AC/DS导入甜菜中,发现AC转座酶基因的内含子4有时会发生可变剪接,甜菜AC转录本的RT-PCR分析表明,可变剪接只发生在低比例的初级转录本中㊂研究表明甜菜可变剪接还与外界温度存在联系,ROTTHUES等[42]在研究甜菜贮藏根收获后调控基因表达时发现,收获后调控的非蛋白编码基因的可变剪接可能与温度有关,储存温度越高,剪接产物的数量就越高㊂3.2㊀甘蔗的可变剪接甘蔗是我国重要的糖料作物,可变剪接的报道相对较多㊂甘蔗也是研究糖分代谢的理想材料,但其生长过程中经常受到各种不利环境因素的侵害,因此克隆和鉴定甘蔗相关基因,提高甘蔗品质就显得尤为重要㊂DANTAS等[43]发现甘蔗的可变剪接与季节变化㊁环境温度密切相关,为了更好地理解生物钟相关基因与可变剪接的关系以及这种关系对作物的影响,他们将实验扩大到了田间㊂通过表达序列标签和新一代测序的方法,鉴定5个甘蔗生物钟基因ScLHY㊁ScPRR37㊁ScPRR73㊁ScPRR95和ScTOC1中的可变剪接事件,其中内含子保留是识别出的最常见的事件㊂为了检验温度是否是调节可变剪接的一个因素,将温度信息与log (AS/FS)值进行了关联,只有ScLHY基因可变剪接事件显示出显著的负相关,这表明ScLHY基因的可变剪接调控是具有温度依赖性的,这可能是允许甘蔗生物钟受温度连续动态调节的关键机制,这对进一步研究季节变化对生物钟基因表达的影响是十分必要的,对研究甘蔗的新陈代谢和产量具有重要意义㊂由于甘蔗基因组复杂㊁染色体数目多样㊁缺乏可参考的基因组,甘蔗可变剪接的研究和异构体水平表达变化的分析受到一定阻碍㊂BEDRE等[44]使用转录组作图的方法,确定了甘蔗的可变剪接模式以及可变剪接基因对黑穗病真菌侵染的反应,发现14%的甘蔗基因都经历了可变剪接㊂根据作图数据,在200DAI对照㊁200DAI胁迫㊁5DAI对照和5DAI胁迫条件下,分别发现11490,10699,11248和11406个可变剪接事件㊂5ᶄ端可变剪接和3ᶄ端可变剪接约占整个可变剪接事件的50%,其次是内含子保留和外显子丢失㊂该研究首次概述了复杂甘蔗基因组响应黑穗病侵染的全基因组可变剪接和转录后基因调控,为研究甘蔗黑穗病互作过程中的可变剪接提供了新的研究方向㊂现有报道表明糖料作物的可变剪接不仅与温度㊁抗病性有关,还与干旱衰老有关㊂GUO等[45]鉴定了甘蔗R2R3-MYB基因(ScMYB2)及其两种转录本形式(ScMYB2S1和ScMYB2S2),实时荧光定量PCR分析表明,在干旱胁迫下,ScMYB2S1在甘蔗中受到抑制,而ScMYB2S2在处理后期被诱导㊂将两个基因分别注入烟草叶片中,ScMYB2S1出现衰老症状,而ScMYB2S2没有出现衰老症状㊂进一步的研究表明, ScMYB2S1注射后,NTPR-1a㊁NtNYC1㊁NtCAT3和NtABRE4个衰老相关基因在烟草叶片中的表达水平显著升高,而对ScMYB2S2注射不敏感㊂此外,注射后还检测了丙二醛(MDA)和脯氨酸(Pro)的含量,同样, ABA和ScMYB2S1诱导MDA和脯氨酸水平,而ScMYB2S2抑制MDA和脯氨酸水平㊂经研究猜测,通过可变剪接的这两个转录本可能参与了甘蔗叶片衰老信号通路,在甘蔗干旱诱导的衰老反应中起积极作用㊂转录因子基因ScMYB2的选择性剪接可能在甘蔗干旱衰老过程中的分子防御机制中起关键作用,为甘蔗逆境过程的进一步研究提供了信息㊂糖料作物中甘蔗可变剪接的研究相对较多㊁较深入,将为后续各方面的研究奠定基础㊂另外,还有一些研究从与甘蔗发生互作的生物中发现了可变剪接现象,但甘蔗中与之相应的应答机制还未见报道[46-48],这也有可能成为今后研究甘蔗可变剪接的一个重要方向㊂3.3㊀甜叶菊的可变剪接甜叶菊是90年代从国外引进的一种高甜度㊁低热量的甜味植物,从它的叶片中能够提取出甜度是蔗糖300倍的菊糖甙,而其热量仅为蔗糖的1/300㊂甜叶菊的可变剪接报道较少,WU[49]等利用农杆菌介导的稳42中国糖料2023定转化系统获得了200多株过表达UGT76G1特定亚型的转基因甜叶菊植株,通过对UGT76G1cDNA群体进行序列分析,表明至少在两个甜叶菊栽培品种中就存在一系列剪接变体,可变剪接可能有助于影响植物产生功能性UGT76G1转录本的能力,并可能在植物中产生酶变体㊂4 展望与总结可变剪接是生物多样性的重要成因之一,最初被认为是偶然的生物学事件而未得到广泛的研究,近几年随着新一代测序技术的发展,越来越多的剪接体被发现,可变剪接在环境胁迫㊁发育调节㊁抗病性[50-52]等方面取得了一些新的成果,但目前植物群体可变剪接的研究远没有动物群体和医学方面深入,研究方向也较为松散㊂此外,对植物可变剪接相关基因的功能也知之甚少,这将是今后植物可变剪接研究的一个重要方向㊂糖料作物可变剪接的研究整体尚处于初步阶段,仅甘蔗方面的报道相对较多,但也未形成较系统的结论,甜菜㊁甜叶菊以及其他的糖料作物的研究几乎都处于尝试阶段㊂现有研究表明糖料作物中存在着可变剪接现象,但研究内容还不够广泛,仅限非生物逆境方面,在分子机制㊁规律㊁功能等方面还有大量的未知信息有待研究㊂参考文献1SHEN Y ZHOU Z WANG Z et al.Global dissection of alternative splicing in paleopolyploid soybean J .Plant Cell 2014263996-1008.2LIU J CHEN X LIANG X et al.Alternative Splicing of Rice WRKY62and WRKY76Transcription Factor Genes in Pathogen Defense J .Plant Physiol 201617121427-1442.3YU J MIAO J ZHANG Z et al.Alternative splicing of OsLG3b controls grain length and yield in japonica rice J .Plant Biotechnol J 20181691667-1678.4THATCHER S R DANILEVSKAYA O N MENG X et al.Genome-Wide Analysis of Alternative Splicing during Development and Drought Stress in Maize J .Plant Physiol 20161701586-599.5TIAN L ZHAO X LIU H et al.Alternative splicing of ZmCCA1mediates drought response in tropical maize J .PLoS One 2019141e0211623.6RANWEZ V SERRA A POT D et al.Domestication reduces alternative splicing expression variations in sorghum J .PLoS One 2017129e0183454.7ZHANG H MAO R WANG Y et al.Transcriptome-wide alternative splicing modulation during plant-pathogen interactions in wheat J .Plant Sci 2019288110160.8ZHANG R CALIXTO C P G MARQUEZ Y et al.A high quality Arabidopsis transcriptome for accurate transcript-level analysis of alternative splicing J .Nucleic Acids Res 20174595061-5073.9CHOMALA S FENG G CHAVARRO C et al.Genome-wide identification of evolutionarily conserved alternative splicing events in flowering plants J .Frontiers in Bioengineering and Biotechnology 2015333.10SLOTTE T HUANG H R HOLM K et al.Splicing variation at a FLOWERING LOCUS C homeolog is associated with flowering time variation in the tetraploid Capsella bursa-pastoris J .Genetics 20091831337-345.11MASTRANGELO A M MARONE D LAIDÒG et al.Alternative splicing Enhancing ability to cope with stress via transcriptome plasticity J .Plant Science 201218540-49.12STAIGER D BROWN J W S.Alternative splicing at the intersection of biological timing development and stress responses J .The Plant Cell 201325103640-3656.13GIOVANNA C NICOLAS D SILVIO C et al.PORCUPINE regulates development in response to temperature through alternative splicing J .Nature plants 201848534-539.14ZHANG G GUO G HU X et al.Deep RNA sequencing at single base-pair resolution reveals high complexity of the rice transcriptome J .Genome Res 2010205646-654.15THATCHER S R ZHOU W LEONARD A et al.Genome-wide analysis of alternative splicing in Zea mays landscape and genetic regulation J .Plant Cell 20142693472-3487.52㊀第45卷,第3期徐㊀悦,等:可变剪接在糖料作物上的研究进展16FILICHKIN S A CUMBIE J S DHARMAWARDHANA P et al.Environmental stresses modulate abundance and timing of alternatively spliced circadian transcripts in Arabidopsis J .Mol Plant 201582207-227.17MIN X J POWELL B BRAESSLER J et al.Genome-wide cataloging and analysis of alternatively spliced genes in cereal crops J .BMC Genomics 2015161721.18李稚锋王正志张成岗.真核基因可变剪接研究现状与展望 J .生物信息学20042235-38.19林鲁萍马飞王义权.基因选择性剪接的生物信息学研究概况 J .遗传2005276145-150.20WANG L XI Y YU J et al.A statistical method for the detection of alternative splicing using RNA-seq J .PLoS One 201051e8529.21LE K MITSOURAS K ROY M et al.Detecting tissue-specific regulation of alternative splicing as a qualitative change in microarray data J .Nucleic Acids Res 20043222e180.22SHANG X CAO Y MA L.Alternative splicing in plant genes a means of regulating the environmental fitness of plants J .Int.J.Mol.Sci 2017182432.23KAN Z ROUCHKA E C GISH W R et al.Gene Structure Prediction and Alternative Splicing Analysis Using Genomically Aligned ESTs J .Genome Research 2001115889-900.24MODREK B LEE C.A genomic view of alternative splicing J .Nat Genet 200230113-19.25SABLOK G POWELL B BRAESSLER J et parative landscape of alternative splicing in fruit plants J .Current Plant Biology 20179-1029-36.26章天骄.可变剪接的生物信息数据分析综述 J .生物信息学201210161-64.27崔凯吴伟伟刁其玉.转录组测序技术的研究和应用进展 J .生物技术通报20193571-9.28张丁予章婷曦王国祥.第二代测序技术的发展及应用 J .环境科学与技术201639996-102.29高阳薛大伟钱前等.二代测序技术在水稻基因组学和转录组学研究中的应用J .中国水稻科学2015292 208-214.30XIONG L SCHUMAKER K S ZHU J K.Cell signaling during cold drought and salt stress J .Plant Cell 200214 S165-S183.31MUNNS R TESTER M.Mechanisms of salinity tolerance J .Annu.Rev.Plant Biol 200859651-681.32LALOUM T MARTÍN G DUQUE P.Alternative Splicing Control of Abiotic Stress Responses J .Trends Plant Sci 2018 232140-150.33ALSHAREEF S LING Y BUTT H et al.Herboxidiene triggers splicing repression and abiotic stress responses in plants J .BMC Genomics 20171811-16.34CHAUDHARY S KHOKHAR W JABRE I et al.Alternative Splicing and Protein Diversity Plants Versus Animals J .Front Plant Sci 201910708.35DUBROVINA A S KISELEV K V ZHURAVLEV Y N.The role of canonical and noncanonical pre-mRNA splicing in plant stress responses J .Biomed Res Int 20132013264314.36CARVALHO R F FEIJÃO C V DUQUE P.On the physiological significance of alternative splicing events in higher plants J .Protoplasma 20132503639-650.37SEO P J PARK M J PARK C M.Alternative splicing of transcription factors in plant responses to low temperature stress mechanisms and functions J .Planta 201323761415-1424.38XU S ZHANG Z JING B et al.Transportin-SRis required for proper splicing of resistance genes and plant immunity J .PLoSGenet 201176e1002159.39BROWN N A MALAVAZI I GOLDMAN G H et al.Transcriptional profiling of Brazilian Saccharomyces cerevisiae strains selected for semi-continuous fermentation of sugarcane must J .FEMS Yeast Res 2013133277-290.40ZOU C LIU D WU P et al.Transcriptome analysis of sugar beet Beta vulgaris L.in response to alkaline stress J .Plant Mol Biol 20201026645-657.41LISSON R HELLERT J RINGLEB M et al.Alternative splicing of the maize Ac transposase transcript in transgenic sugar beet Beta vulgaris L. J .Plant Mol Biol 20107419-32.42ROTTHUES A KAPPLER J LICHTFUSS A et al.Post-harvestregulated gene expression and splicing efficiency in storage roots of sugar beet Beta vulgaris L. J .Planta 200822761321-1332.43DANTAS L L B CALIXTO C P G DOURADO M M et al.Alternative Splicing of Circadian Clock Genes Correlates With Temperature in Field-Grown Sugarcane J .Front Plant Sci 2019101614.44BEDRE R IRIGOYEN S SCHAKER P D C et al.Genome-wide alternative splicing landscapes modulated by62中国糖料2023 biotrophicsugarcane smut pathogen J .Sci Rep 2019918876.45GUO J LING H MA J et al.A sugarcane R2R3-MYB transcription factor gene is alternatively spliced during drought stress J .Sci Rep 2017741922.46SOARES-CAVALCANTI N M WANDERLEY-NOGUEIRA A C BELARMINO L C et parative In Silico Evaluation of MYB Transcription Factors in Eucalyptus Sugarcane and Rice Transcriptomes C .International Meeting on Computational Intelligence Methods for Bioinformatics and Biostatistics.Springer Berlin Heidelberg 200844-55.47XINHUAN X LONG H NING H et al.Cloning and expression analysis of ScBAK1gene and its alternative spliceosome in sugarcane J .Chinese Journal of Applied&Environmental Biology 2015215872-881.48BOZORGI N HEYDARNEJAD J KAMALI M et al.Splicing features in the expression of the complementary-sense genes of Beet curly top Iran virus J .Virus Genes 2017532323-327.49WU Q LA H C CHEN H Y et al.An Efficient Stevia rebaudiana Transformation System and In vitro Enzyme Assays Reveal Novel Insights into UGT76G1Function J .Sci Rep 20201013773.50RACZYNSKA K D SIMPSON C G CIESIOLKA A et al.Involvement of the nuclear cap-binding proteincomplex in alternative splicing in Arabidopsis thaliana J .Necleic Acids Research 2010381265-278.51BOVE J KIM C Y GIBSON C A et al.Characterizationof wound-responsive RNA-binding proteins and their splice variants in Arabidopsis J .Plant Molecular Biology 2008671-271-88.52ZHANG X MOUNT S M.Two alternatively splicedisoforms of the Arabidopsis SR45protein have distinct roles during normal plant development J .Plant Physiology 200915031450-1458.Research Progress onAlternative Splicing in Sugar CropsXU Yue1,2,SHEN Zimeng1,7,WANG Xi3,4,5,6,ZHAO Chunlei1,4,5(1.College of Advanced Agriculture and Ecological Environment of Heilongjiang University/Sugar Beet Research Institute of Chinese Academy of Agricultural Sciences,Harbin150080;2.Shanghai Belief Biomed Pharmaceutical Technology Co.,Ltd.,Shanghai 200000;3.College of Life Sciences and Technology,Longdong University,Qingyang,Gansu745000;4.The Key Laboratory of Sugar Beet Genetic Breeding,Colleges of Heilongjiang Province/Sugar Beet Engineering Research Center of Heilongjiang Province,Harbin 150080;5.National Sugar Crops Improvement Center/Key Laboratory of North Sugar Crop Resource and Utilization,Chinese Academy of Agricultural Sciences,Harbin150080;6.Gansu Key laboratory of Protection and Utilization for Biological Resources and Ecological ㊀㊀㊀Restoration,Qingyang,Gansu745000;7.China Blue Sky Ecological Technology(Beijing)Co.,Ltd.,Beijing100083)Abstract:Alternative splicing is common in eukaryotes and is an important mechanism for organisms to produce a variety of proteins.A lot of evidence shows that the complexity of alternative splicing is related to the development,evolution and adaptability of plants.The relevant research on alternative splicing provides a theoretical basis for breeding high-quality crop varieties.This study mainly summarized the types and research methods of alternative splicing,as well as the research progress in sugar crops,and suggested the research direction of alternative splicing in the future according to the current research.It was found that the study of alternative splicing in sugarcane,sugar beet,stevia and other sugar crops had been almost in the trial stage,and there was still a lot of unknown information to be studied in future such as molecular mechanism,pattern, function and so on.The study of alternative splicing could help improve the stress tolerance,environmental adaptability and sugar yield of sugar crops.Key words:sugar crops;sugar beet;sugarcane;stevia;alternative splicing;research progress。
可变剪接的鉴定
可变剪接的鉴定:揭示基因表达的奥秘在生命科学领域,基因的表达调控是一个复杂而有趣的话题。
其中,可变剪接作为一种重要的基因表达调控方式,引起了科学家们的广泛关注。
本文将探讨可变剪接的鉴定方法,以期为深入了解基因表达的奥秘提供思路。
一、可变剪接概述可变剪接是指在基因转录过程中,由于外显子选择、跳跃、重叠或组合的差异,导致同一基因产生多种不同的转录本。
这些转录本在细胞、组织或个体发育过程中表达,从而影响生物体的表型和功能。
可变剪接的异常与多种疾病的发生发展密切相关,因此对可变剪接的鉴定具有重要的生物学意义。
二、可变剪接的鉴定方法1.基因组学方法基因组学方法是通过比较不同物种或同一物种不同发育阶段的基因组序列,寻找可变剪接位点。
随着新一代测序技术的发展,全基因组测序和转录组测序已成为鉴定可变剪接的主要手段。
通过对测序数据进行深入分析,可以发现不同转录本的表达模式,进而揭示可变剪接的规律。
2.生物信息学方法生物信息学方法是通过分析基因表达谱、转录组数据等大规模生物数据,挖掘可变剪接事件。
常用的生物信息学工具有:ASprofile、ASPIRE、DEXSeq等。
这些工具可以帮助研究人员快速准确地鉴定可变剪接事件,并对其功能进行预测和分析。
3.实验验证方法实验验证是鉴定可变剪接的可靠手段。
通过实时荧光定量PCR、Northern blot、Western blot等技术,可以检测不同转录本在特定组织或发育阶段的表达情况。
此外,利用细胞和分子生物学技术,可以进一步研究可变剪接对蛋白质功能的影响。
例如,通过蛋白质相互作用实验、亚细胞定位等手段,可以揭示可变剪接对蛋白质功能的影响。
三、可变剪接的生物学意义1.促进物种多样性可变剪接作为一种重要的基因表达调控方式,在物种进化过程中发挥了重要作用。
通过可变剪接,同一基因可以产生多种不同的转录本,从而增加物种的多样性。
研究表明,可变剪接在不同物种间具有保守性,但也存在一定程度的变异。
可变剪接的表观遗传学调控机制及其在脂肪代谢中的作用研究进展
可变剪接的表观遗传学调控机制及其在脂肪代谢中的作用研究进展骞鑫1,马海明1,何俊1,徐康2,张跃博1*(1.湖南农业大学动物科学技术学院,湖南长沙 410128;2.中国科学院亚热带农业生态研究所,湖南长沙 410125)摘 要:可变剪接是指从1个mRNA前体中通过不同的剪接方式产生不同的mRNA剪接异构体,并使得最终的蛋白产物表现出不同或者相互拮抗的功能和结构特性的过程。
基因通过可变剪接在组织发育和疾病中起着至关重要的作用,是高等真核生物蛋白质多样性的主要来源之一。
剪接过程受多种因素调控,其中表观遗传学现象是可变剪接过程中重要的影响因素,多项研究表明多种表观遗传学现象对于可变剪接存在调控作用。
可变剪接对于脂肪细胞的分化以及脂质的代谢也起到不可或缺的作用。
本文综述了表观遗传学修饰对可变剪接的调控及其在脂肪代谢调控中的研究进展,以期为可变剪接的进一步研究提供参考依据。
关键词:可变剪接;表观遗传学;调控机制;脂肪代谢中图分类号:S813 文献标识码:A DOI编号:10.19556/j.0258-7033.20201103-02mRNA的转录后加工是基因表达必需一个基本的生物学过程,在高等真核生物中蛋白质多样性很大程度上是由Pre-mRNA可变剪接引起的,约90%的人类基因经历此过程,基因通过可变剪接等表达调控机制控制着细胞的增殖、分化、凋亡等生物学进程,剪接的异常会引起蛋白质的功能异常甚至导致疾病的发生[1-2],所涉及的详细机制则需要进一步的研究。
表观遗传修饰是在不改变DNA序列的基础上参与基因组的调控,即可以直接作用在DNA或RNA上,也可以作用在与DNA 结合的蛋白上,对表观遗传学修饰的研究将大大提高对基因表达调控的理解[3-4],越来越多的研究证明DNA甲基化、RNA编辑以及非编码RNA等表观遗传学修饰在可变剪接的启动以及剪接位点的识别中起到重要作用,这提示着表观遗传学在pre-mRNA剪接中的重要意义[5]。
举例说明蛋白质结构多样性的原因
举例说明蛋白质结构多样性的原因1、多样性的原因一:表达能力可变:蛋白质结构具有多样性是由于蛋白质特有的特性之一——可变表达能力。
此特性使得通过不同的编码基因表达开关,多样的结构蛋白可以控制激活和表达。
例如,细胞在受到一定的外界刺激时,可能会产生相应的表达开关,激活细胞内现有的某些特定的蛋白质,形成一种新的蛋白质结构,以促进细胞的正常生物功能。
2、多样性的原因二:合成方式多样:蛋白质合成是由一次或多次碱基配对产生的,其合成方式多变,这也是蛋白质结构多样性的一个原因。
蛋白质的合成可以由RNA引导,也可以由某种碱基对小肽段的多轮装配而实现,而且还可以由一种或多种精细的有机物或金属离子组成,最后产生一种多维、多样的结构。
3、多样性的原因三:氨基酸的多样性:蛋白质是由氨基酸按照一定的次序排列而成的,而氨基酸的多样性也是蛋白质结构多样性的主要原因。
目前发现人类中有20种必需氨基酸,它们会按照不同比例进行排列,导致蛋白质结构发生变化,从而产生不同的功能。
例如,某种蛋白质中特定氨基酸的增加或减少可能会改变其形状、扩展其功能,从而使变异后的蛋白质产生不同的作用。
4、多样性的原因四:修饰可变:蛋白质的组成成分和结构都可以被细胞中位于其上的各种各样的修饰变性,包括磷酸化、甲基化、乙酰化等。
这些修饰可以改变蛋白质的功能,调节蛋白质的性质和结构,使蛋白质具有各种不同的组合性和灵活性,从而构成了各种多样性的蛋白质结构。
5、多样性的原因五:三级结构可变:蛋白质结构的多样性还可以归功于其高级三级结构的可变性,即氨基酸的排列顺序可以通过氢键、疏水性键、亲和性键、离子键等多种作用力互相结合而形成一种独特的空间结构,从而使得它们能够展现出灵活多样的功能。
在多种复杂环境下,蛋白质结构会随着温度和pH等因素发生变化,形成不同的结构。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
可变剪接与蛋白质组多样性及其调节机制武春晓 2001级博士生专业:免疫学导师:马大龙教授前言可变剪接是指从一个mRNA前体中通过不同的剪接方式(选择不同的剪接位点组合)产生不同的mRNA剪接异构体的过程。
可变剪接是调节基因表达和产生蛋白质组多样性的重要机制。
剪接过程受多种顺式作用序列和反式作用因子相互作用调节。
包括SR和hnRNP 家族蛋白在内的多种剪接因子参与这一调节过程。
转录机器(machine)也参与可变剪接的调节。
本文将讨论:一.可变剪接与蛋白质组多样性二. 可变剪接的调节机制。
.第一部分可变剪接与蛋白质组多样性5据预测,人类基因组可能有约35,000个基因,果蝇约14,000个,而简单的模式生物线虫约19,000个基因。
生物的复杂性与其基因组基因数量似乎存在明显差异。
原因在蛋白质组。
基因重排,RNA编辑,和可变剪接等机制可以从一个基因产生多种蛋白,从而使蛋白质组中蛋白质的数量超过基因组中基因的数量。
其中,从影响的基因数量和生物种类范围来看,可变剪接是扩大蛋白质多样性的最重要的机制1-4。
一、可变剪接的频率。
5,61. 5%。
从1977年Walter Gilbert提出可变剪接概念,1980年Baltimore在小鼠IgM基因发现第一个可变剪接产生膜型、分泌型IgM,至2001年,用经典分子生物学实验的方法研究,一共仅发现了数百种有可变剪接的基因。
并推测在高级真核细胞生物约5%的基因有可变剪接。
2. 35%-60%。
高通量的基因组测序和EST测序,使得生物信息学的方法研究可变剪接成为可能。
EST来源于完全加工的mRNA, 它们提供了一个广泛的mRNA多样性的样品库。
这种多样性可以用计算机分析。
最近两年,多个研究小组通过不同的生物信息学的方法,从整个人基因组的水平进行分析,结果一致显示约35%-60%的人基因有可变剪接形式。
而且,由于对大多数基因来说,每个基因只测了很少几EST甚至没有EST;EST不是全长的mRNA,多位于mRNA的5’和3’端;EST来源于有限的组织和发育阶段;很有可能存在有更多的可变剪接而在现在的EST库中没有显示。
因此实际可变剪接的频率可能比预测的更高。
这还有待于建立新的高通量的分子生物学方法,如生物芯片的方法,以进一步实验验证。
二、单个基因可变剪接产生的多样性5。
一个基因可以通过如下几种方式产生多个转录体,如不同的转录起始位点,可变剪接,选择不同的加尾信号位点,RNA编辑等。
可变剪接包括3种类型:1.内含子的保留;2.可变外显子的保留或切除;3. 3’和5’剪接位点的转移(shift)导致外显子的增长或缩短。
可变剪接对蛋白质结构的影响也是多样性的,如多肽链中一个到数百个氨基酸的增加或减少;某功能域的有无;如果可变剪接使读码框架改变,则可能无法有效翻译,mRNA被监视系统降解。
单独一个基因通过可变剪接产生的十几种剪接异构体的现象很常见。
有些基因甚至能够产生成千上万种剪接异构体。
最突出的例子是果蝇(Drosophila melanogaste r )的Dscam基因,可以通过可变剪接产生38,000多种mRNA异构体。
Dscam基因编码一个神经元轴突定向受体,它细胞外有一个由10个免疫球蛋白重复序列组成的结构域,第2,3,7个免疫球蛋白重复序列分别由第4,6,9号外显子编码,4号外显子盒(cassette)有12个变异体,6号外显子有48个变异体,9号外显子有33个变异体,再加上17号外显子的2个变异体。
每个成熟的Dscam mRNA分别只有一个有4,6,9,17号外显子的变异体,由此理论推测Dscam基因共有12×48×33×2=38016剪接异构体。
对Dscam基因50个cDNA克隆随机测序发现了49种不同的剪接异构体,说明实际存在的剪接异构体即使没有理论那么多,也至少有上千种。
人的Neurexins, n-Cadherins, calcium-activated potassium channels等基因也有类似的高度多样的剪接异构体。
上述现象非常类似于淋巴细胞TCR或免疫球蛋白的胚系基因重排,不同之处在于后者发生在DNA水平,前者发生在RNA水平。
基因重排产生的高度多样抗原受体库可以识别高度复杂的自身和异己抗原。
而Dscam基因的转录异构体可能有神经系统的发育有关。
神经元的定向迁移和相互连接可能是发育过程中最复杂的事件。
果蝇约有25,000个神经元,要使它们生长的轴突准确的,可重复性的到达目的地,使这些神经元准确的连接在一起,必然需要一个特殊的系统。
Dscam基因的38,000多种mRNA异构体,每个异构体各编码一个不同的受体,每个受体具有识别不同分子定向信号的潜能,从而有能力指导各个生长的轴突到达准确的位置。
如果将可变剪接与其它RNA加工过程(如RNA编辑)联系起来共同考虑,基因产物会更复杂。
例如,果蝇的para基因(voltage-gated action potential sodium channel)有13个可变外显子,可编码1536种不同的mRNA,另外,para的转录体还要经过在11个已知位点的RNA 编辑,这样理论上一共可以产生1,032,192个不同的para转录异构体。
根据受可变剪接影响的基因的概率,以及单个基因可能产生的可变剪接体的数目,足以表明可变剪接对蛋白质组多样性的巨大影响。
三、可变剪接的功能和生物学意义5,111. 可变剪接是在RNA水平调控基因表达的机制之一。
一个基因通过可变剪接产生多个转录异构体,各个不同的转录异构体编码结构和功能不同的蛋白质,它们分别在细胞/个体分化发育不同阶段,在不同的组织,有各自特异的表达和功能。
因此,可变剪接是一种在转录后RNA水平调控基因表达的重要机制。
目前已知的可变剪接异构体中,只有一小部分明确确定了功能和生物学意义。
第一个确定的可变剪接异构体功能是IgM基因,其末端最后两个外显子的可变剪接,决定了所编码的膜型/分泌型IgM的产生。
最著名的例子是果蝇性别决定系统,在此系统中,至少5个基因(sxl, tra, msl2, dsx, and fru) 转录体的可变剪接级联反应最终决定了果蝇雄性和雌性性别特征的表达。
有些基因,可变剪接造成的蛋白质异构体之间功能上的差异没有被实验检测出来。
不过阴性的结果不能代表没有功能差异,只是目前没有检测出来而已。
也有很多异构体造成读码框架改变,不能被翻译为蛋白质,而是直接被降解了。
真核生物也有mRNA监视系统NMD(nonsense-mediated degradation),检测mRNA中异常提前出现的终止密码子,一经发现,立即降解异常的mRNA,防止其翻译。
在大多数情况下,检测可变剪接造成的蛋白质异构体之间功能上的差异的实验还没有开展。
最近发展的RNAi技术,可以适应高通量的从功能基因组水平研究各基因可变剪接异构体的功能的要求。
2000年已经有人将RNAi技术应用于模式生物线虫的可变剪接异构体的大规模研究上。
(目前已经大量开始用于哺乳动物系统)2.多样性与复杂性可变剪接是从相对简单的基因组提高蛋白质组多样性的重要机制,蛋白质组的多样性与多细胞高等生物的复杂性相适应。
从可变剪接涉及的基因分布格局分析,可变剪接多发生在参与信号传导和表达调节等复杂过程的基因上,如受体,信号传导通路(凋亡),转录因子等。
对个体分化发育和一些关键的细胞生理过程如凋亡、细胞兴奋等的精确调控有重要意义。
从可变剪接涉及的基因系统分类分析,可变剪接多发生在免疫和神经等复杂系统。
正如Dscam基因所示,可变剪接产生的多样性,赋予这些系统精确处理复杂信息相适应的潜力。
第二部分可变剪接的调节机制7可变剪接能够产生惊人的多样性,但我们对其调节机制所知不多。
剪接位点的选择受到结合到非剪接位点RNA元件的剪接因子的多重调节。
参与可变剪接调节的RNA元件包括ESE、ISE、ESS、ISS。
剪接因子包括SR和hnRNP家族蛋白等多种因子。
真核生物新生的mRNA前体经过5’戴帽,剪接,3’加尾等加工成为成熟的mRNA。
在剪接反应过程中,含有内含子和外显子的新生的mRNA前体,在剪接体作用下切除内含子,并将外显子依次连接起来的过程。
剪接反应由剪接体执行,剪接体包括5个小核糖核蛋白复合体U1,U2,U4,U5 和U6 snRNPs ,和50-100种非snRNP蛋白。
剪接体通过RNA-RNA,RNA-蛋白质,蛋白质-蛋白质等多重相互作用以精确切除每个内含子和以正确次序连接外显子。
为有效剪接,绝大部分内含子需要:1.一个保守的5’剪接位点,A/CAG↓GURAGU;2.一个分支点序列BPS , YNYURAY,后面跟着一个多聚嘧啶Pytract Y10-20;3.一个3’剪接位点Y AG。
剪接体的形成是一个多步骤依次进行过程,形成多个中间体:1 E-复合体形成:U1snRNA通过碱基互补识别5’剪接位点,SR蛋白结合。
U2AF65和U2AF35识别多聚嘧啶Pytract和3’剪接位点;2 A-复合体形成:U2snRNA通过碱基互补识别分支点序列BPS;需A TP;3 B-复合体形成:U4/U6 _ U5 tri-snRNP随后与mRNA结合;4 C-复合体形成:最后,RNA-RNA,RNA-蛋白质相互作用构象改变形成有催化活性的剪接体。
(见图1)一、参与可变剪接的RNA顺式作用元件:根据它们所在的位置和作用特点,分为4类:1.ESE: exon splicing enhancer 外显子剪接增强子;2.ISE: intron splicing enhancer 内含子剪接增强子;3.ESS: exon splicing silencer 外显子剪接沉默子;4.ISS: intron splicing silencer 内含子剪接沉默子。
ESE和ISE是剪接因子SR蛋白结合位点,提高相邻剪接位点的活性。
ESS和ISS是hnRNP蛋白结合位点,抑制相邻剪接位点的活性。
ESE、ISE、ESS、ISS都是很短的序列基序,一般由6-10碱基组成。
每一类成员内部之间即有相对的特异性,也有简并性,作用有交叉和冗余。
二、SR蛋白SR蛋白是一个多细胞生物中高度保守的剪接因子家族,其成员多带有一个或二个拷贝的RNA识别基序(RRM),后面有一个精氨酸/丝氨酸富含结构域(RS)。
RRM介导RNA 结合,并决定各SR蛋白的底物特异性;RS结构域参与蛋白-蛋白间相互作用。
各SR蛋白在固有剪接和可变剪接中有多种作用。
其中之一是识别并结ESE或ISE,提高相邻剪接位点的活性。
SR蛋白的底物ESE/ISE含有简并性的共有识别序列基序,因此不同SR蛋白之间底物有交叉,其特异性取决于SR蛋白各自的表达水平、亲和力和与其它蛋白的相互作用。