生物基因组非蛋白质编码转录组学及研究进展_姜宁
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
生物基因组非蛋白质编码转录组学及研究进展
姜 宁1
陈启军
2
1.中国医学科学院 吉林大学人兽共患病联合研究中心人兽共患病研究教育部重点实验室,长春130062
2.中国医学科学院病原生物学研究所,北京100730
收稿日期:2009 9 13 修回日期:2009 12 1联系作者:陈启军,教授,cq@j jl .cn 。
摘 要 RNA 转录组学和功能组学的研究是目前生命科学领域的重要研究方向。生命的中心法则(由DNA 转录RNA,再由后者翻译成行使各种功能的蛋白质)因调控RNA 分子的发现而进一步得到扩展。最近的大量研究发现,自基因组中非蛋白质编码区转录的RNA 分子具有重要的调控功能,即转录后的调控功能。在这些RNA 分子中,内源性小干扰RNA 分子、m icroRNA 及pi w i RNA 等的功能逐渐被揭示。本文对目前有关RNA 转录组学研究进展做一简要综述。
关键词:RNA 转录组 小RNA si R NA m i R NA pi R NA
中图分类号:Q7 文献标识码:A 文章编号:1009 2412(2009)06 0015 05
一、引 言
生物物种遗传物质的组成随着物种进化程度的
提高而逐渐趋于复杂。然而随着大规模基因组测序的完成,人们发现很多生物(包括小鼠和人)遗传物质组成的主要差异不是在蛋白质编码区而是在基因组中的非编码(non cod i ng )区。生物物种的种源进化程度越高,其基因组中非蛋白质编码序列的组成比例越高[1],如人类基因组中编码蛋白质的DNA 只占基因组的2%左右。长期以来,对基因组序列的研究多集中在对编码区的分析上(如基因的序列组成,编码蛋白质的表达、功能及调控规律等)。由于非编码区的序列多含有一些假基因(ps eudo genes)、转座
子(trans poson 或trans posab le ele m ents)及大量的内含子和重复序列,其潜在的功能一直为研究者们所忽视。多年来人们一直将基因组中非编码序列认为是生物进化过程中形成的垃圾成分(junk DNA )[2]。然而,随着大规模转录组学(transcripto m ics)研究的进行,发现基因组中绝大部分DNA 在细胞活动过程中都是被转录成RNA 的[3],如人类基因组DNA 有93%以上都被转录成RNA,小鼠基因组的转录部分也达到63%以上[3]。这些RNA 有的呈单链存在,有的以双链形式存在。对RNA 转录组的研究经历了小RNA 的发现、大规模RNA 转录组的测定到目前的RNA 调控功能的分析和确定等阶段[3 8]
。RNA 转录
组学和功能组学的研究是目前生命科学领域的重要
研究方向。
二、基因组中非编码区转录产生的
RNA 分子种类及功能
根据RNA 片段长度的不同,自基因组中转录的
RNA 分子包括短片段RNA (s hort RNA )和长片段RNA (l ong RNA )[1,7,9,10]。短片段RNA 分子主要包括反式剪切引导RNA (trans splicing leader RNA,S L RNA )、m i cro RNA (m i R NA )、内源性小干扰RNA (en dogenous s m all i nterferi ng RNA,si R NA )、p i w i 蛋白质
结合RNA (p i w i RNA,
pi RNA )和一些编码寡肽的小
mRNA 分子[11]。内源性小RNA (endogenous s m all non cod i ng RNA,
s n RNA)是一类从基因组中非蛋白
质编码区转录而来的小RNA 分子。目前对内源性s nRNA 的研究主要集中在对S L RNA 、si R NA 和m i R NA 等的发现及功能分析方面。这些小RNA 主要通过影响mRNA 的成熟过程及稳定性进而调节转录因子或其它功能蛋白质的表达和发挥转录后的基因调控功能(post transcri pt i ona l gene regulat i on ,PTGR )。long RNA 主要指mRNA 前体(hnRNA )、mRNA 和一些不编码任何蛋白质的长的单链或双链RNA 片段。
本文只对内源性非蛋白质编码的小RNA分子的产生机制及功能做一介绍。
1.S L RNA
很多真核生物mRNA的成熟过程是通过顺式(c is )和反式剪切(trans s p licing)两种方式完成的。顺式剪切是将mRNA前体中对应于内含子(intron)部分的序列剪切掉,使对应于外显子的RNA序列连接起来,进而形成一个完整的读码框架。反式剪切过程包括剪切引导RNA(splicing leader RNA,S L RNA)以及mRNA的转录和连接过程。SL RNA和mRNA从基因组中的不同序列转录而来。SL RNA 的长度在90 150bp之间,其二级结构含有一或两个典型的发卡结构、一个RNA剪切复合体结合序列和一个保守的剪切位点。剪切后的序列的3 端都含有一个AUG密码子。SL被最终连接到mRNA上。很多真核生物都存在mRNA的反式剪切过程[12]。例如,锥虫的初始mRNA分子的5 端均不完整,缺少正常的UTR(包括甲基化的帽状结构)序列和起始密码子等[13]。而这些UTR需要由散在于基因组中的SL RNA基因转录后,经过一系列的修饰再连接到各个mRNA的5 端。在日本血吸虫的基因组中含有55个散在分布的S L RNA基因。每个基因所转录的RNA长度为90n,t这些RNA引导序列含有两个典型的发卡结构和一个RNA剪切复合物识别位点。这些RNA在转录后由RNA剪切复合物剪切成长为36nt和54nt的两个RNA片段。前一个S L片段被连接到mRNA上。目前的研究发现,多数生物的基因组中均含有一个SL RNA编码序列,只是SL DNA的拷贝数不尽相同,如日本血吸虫基因组中含有55个SL拷贝,曼氏血吸虫含有61个S L基因拷贝。而在秀丽杆线虫(C.ele gans)的基因组却含有两种序列不同的SL基因(SL1和SL2)[14],在反式剪切的mRNA 中,80%以上的mRNA含有S L1RNA,少数mRNA含有S L2RNA。在旋毛虫基因组中则含有15种序列不同的SL基因,而且同一mRNA分子上可以连接不同的SL RNA[15]。由此可见旋毛虫在基因调控机制上较其它线虫更复杂,也进一步说明其在进化上与其它生物存在明显的差异[16]。
关于SL RNA的转录及反式剪切在基因转录后的调控功能还有待进一步研究。目前认为反式剪切的作用主要有3个方面:一是为mRNA提供5 端帽状结构和AUG起始密码子[17],即参与mRNA的成熟过程。一般认为,mRNA前体(pre mRNA)的3 UTR 过长或过短都不利于表达。另外,只有S L提供的AUG才是真正的起始密码子,pre mRNA内部的AUG不能为核糖体所识别;二是增加mRNA的稳定性,不含SL系列的mRNA多容易降解;三是最近的研究发现,S L RNA还含有m icro RNA序列[18],而m i cro RNA具有重要基因调控作用。目前有关反式剪切在后生动物基因调控中的功能还没有完全一致的结论,尽管已发现日本血吸虫的反式剪切过程主要发生在虫体发育的初期(虫卵和尾蚴)阶段,但其在虫体发育调控过程中起到的作用还有待进一步确定。
2.内源性小干扰RNA(si R NA)
F ire等于1998年报道的RNA干扰(RNA inter ference,RNA i)是通过将短(23bp左右)的双链RNA (称作干扰RNA,即i R NA)分子或编码双链RNA的质粒以生物化学或物理学的方法转化到秀丽杆线虫细胞后,发现i RNA可以通过一系列的酶解(通过一个称作D icer的RNA酶的作用)过程,抑制功能蛋白质的表达[19]。这种RNA i的基因调控过程是通过外源性RNA分子的作用实现的。2004年人们发现,在基因组中的一些区域存在编码类似i RNA的分子,这些内源性i R NA被称为内源性si R NA。si RNA都是在细胞内形成的双链RNA分子。
si R NA的来源有以下几种:
(1)自转座子转录而来(称作TE deri ved si R NA)。转座子是基因组中通过两侧的重复序列和转座子酶的作用在基因组内反复复制和跳跃的DNA 片段。转座子的种类很多,如LTR(l ong ter m ina l re peats)、L I NE(long inters persed nucleot i de e le m ents)、SI NE(short i nters pers ed e le m ents)等。这些转座子在基因组中可串联排列,也可散在分布。转座子是内源性si R NA的主要来源。两个序列相同的转座子基因(可以是相互串联的,也可能是位于基因组不同的位置)从相反方向转录后的单链RNA可形成互补的双链RNA(double stand RNA,ds RNA),ds RNA再经D icer RNA酶剪切成小(20 23bp左右)的双链RNA[20,21]。日本血吸虫的si R NA主要由L I NE、SI NE、T I R和M I TE等转座子基因转录而来。人类基因组中有大约45%的成分来自转座子序列,可想而知由其产生的si RNA的作用是非常重要的。最近的研究发现,不同生物在si R NA的生成(biogenesi s)序列区域上有很大的差别。如果蝇,一个转座子的整个基因序列的转录产物都能形成si RNA[22];而在日