关于生物基因序列中重复序列的探讨
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
关于生物基因序列中重复序列的探讨
作者:杨汉铭
来源:《科学家》2016年第14期
摘要生物基因序列中,重复序列作用重大,现阶段,生物学领域研究的热点问题之一即为重复序列,研究目的在于将生物进化机制等相关信息反映出来。
在本文中,首先介绍了的生物基因序列及重复序列,接着研究了tRNA序列及HIV全序列中的重复序列。
关键词生物基因序列;重复序列;tRNA;HIV
中图分类号 Q1 文献标识码 A 文章编号 2095-6363(2016)14-0006-02
蛋白质合成过程中,tRNA的作用非常重要,引起了大量研究者的注意,再加上AIDS对社会及人类健康的严重威胁,研究者们开始研究生物基因序列中的重复序列,旨在通过研究,了解生物进化机制,并掌握相应的功能与特征。
1生物基因序列及重复序列概述
1.1生物基因序列
tRNA的全称为Transfer-RNA,为小分子核糖核酸。
核苷酸为构成tRNA的物质,通常,在一个tRNA中,核苷酸的数量为70到90几个,分子量25000~30000左右,主要功能为向核糖体转运氨基酸,同时,发挥转接器作用,解读mRNA信息,因此,将其称之为转运RNA。
tRNA在蛋白质合成中首次被发现的时间为1958年,随后,越来越多的学者开始研究tRNA序列结构。
纵观学者研究结果可知,tRNA序列结构包含三级,线性排列结构为一级结构,具备一定恒定性,而且修饰性碱基的数量比较多;三叶草结构为二级结构,其中,手臂共四条,分别为受臂体、D臂、反密码子臂、TIVC臂,多余臂一条;与倒立的L结构相类似的为三级结构。
tRNA序列结构具备恒定性,因此,基本不会改变碱基的位置,而碱基数量发生改变时,多发生在D臂和多余臂中。
近年来,人类健康受到艾滋病(AIDS)的严重威胁,世界各国都广泛的关注该疾病的防治工作。
引起AIDS的主要原因即为人感染人类免疫缺陷病毒(HIV),感染后,免疫系统受到影响,功能紊乱,影响人的身体健康,甚至导致其死亡。
HIV包含HIV-1和HIV-2两种,其中,HIV-I为当前世界中主要流行的。
在变异性与毒性方面,HIV-1要强于HIV-2。
在世界范围内,AIDS的死亡率都比较高,至今为止,AIDS疫苗尚未被研制出。
1.2重复序列
生物基因组中,序列片段重复出现即称之为重复序列。
研究显示,在生物基因组序列中,重复序列的存在非常广泛,尤其是真核生物,80%以上为重复序列,甚至部分生物超过90%,不过重复序列通常无表达,预测基因时,多会屏蔽掉重复序列,因此,有学者将其称之为“垃
圾基因”。
后来,有学者研究证实,在基因组中,重复序列所占据的比重非常大,而且其在生物体中的作用非常重要,由此促使越来越多的学者开始关注作者简介:杨汉铭,河南师范大学附属中学。
重复序列。
依照出现频率,重复序列包含高度、中度及单一三类,高度重复序列是指多次进行重复。
通常,重复次数超过百万次,中度重复序列重读的次数少于高于重复序列,次数多为数十次至数万次之间,而单一序列是指序列片段在基因组中出现1次或几次,也被称之为非重复序列。
2生物基因序列中重复序列研究
2.1tRNA序列中重复序列
基因组中,广泛的存在重复序列,基于其在基因组中的重要作用,本节中,以3420条tRNA序列作为一个整体,统计其中的重复序列。
研究时,所使用的tRNA序列均来源于相应的数据库中,经过处理后剩余3420条。
在进行重复序列统计工作过程中,首先选择一个序列,该序列固定长度为K个碱基,接着以tRNA序列为基础,统计每条序列中的K串序列、缺失序列(需真实出现)。
K串序列中,重叠会存在,而且一种编码信息可能由3个碱基代表,因此,以3个碱基作为K串序列统计时的步长。
由统计结果可知,序列长度K不断增加过程中,重复序列的出现次数由大逐渐变小,这与tRNA序列中减少K总数相关。
重复序列长度K为2时,出现次数最多的重复序列为TT;为3时,出现次数最多的重复序列为GTT;为4时,出现次数最多的重复系列为GTTC,对这些重复序列进行仔细的观察可以发现,随着序列长度的增加,出现次数最多的序列只是在原来的基础上增加b个碱基(1
2.2HIV全序列中重复序列
在统计HIV全序列中的重复序列数量时,下载的HIV全序列均来源于NCBI。
下载完成后,进行相应的处理,将其中完全相同序列去除,之后再进行统计工作。
由于重叠部分可能存在于K串序列中,而且为了保证生物信息的全面性,以1个碱基作为K串序列统计时的步长,每次统计间隔1个碱基进行。
对于HIV全序列的重复序列来说,满足power-law分布,由此可知,多次重复出现的重复序列在HIV全序列中比较少,多数重复序列的出现次数并不多。
通过回文序列总数与频数的重复序列关系图可知,当重复序列的长度分别为6、10、16、20时,总数与频数的分布均满足power-law分布。
由不同长度含量最多的重复序列统计结果可知,序列长度为2~30时,重复序列出现的次数最多,考虑在HIV进化与变异过程中,这些重复序列有重要作用。
此外,在HIV全序列中,Gc碱基总含量明显低于AT碱基,而且在K 值相同情况下,100%AT含量的重复序列会多于100%GC含量,这说明,在HIV进化期间,对AT碱基的偏好更大,或承受更大的AT碱基压力。
3结论
对于tRNA序列与HIV序列中重复序列的研究,从内容上看,归属于生物信息学研究,通过该项研究的开展,有利于人们更好地了解在生物进化、发展中重复序列的作用,但由于生物信息学的研究时间尚比较短,加之生物数据不断增多,还需要进一步加大重复序列的研究力度,从而更为全面地了解其产生机制及功能,发挥重复序列的作用。