真核基因起始与终止密码子旁侧序列特征分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
;!
生
物
信
息
学
第!卷
"#$% !
图 ! 小鼠起始、 终止密码子旁侧序列概率堆积图 &’( )*+,-,#.#/0 1/-23(4 $*-)’ +5 6+71( 1(87(92(1 5.-93#9$ /’( 1/-*/ 2+4+9 -94 1/+) 2+4+91
万方数据
"#$% :
图 : 大鼠起始、 终止密码子旁侧序列概率堆积图 &’( )*+,-,#.#/0 1/-23(4 $*-)’ +5 *-/ 1(87(92(1 5.-93#9$ /’( 1/-*/ 2+4+9 -94 1/+) 2+4+91
[!] 则” 。该保守序列特征在新基因预测和生物工程 ["] 产品的开发与研究中起到了重要的作用 。然而, [>] 此, 本文拟基于高质量的 ,01/02 数据库 ( ESSW: \\
, 对 ’()* 翻译起始 YYYI F’JD I FACI FDE I G4Z \ ,01/02 \ ) 位点旁侧碱基的保守特征进行统计学分析, 可望在 大规模数据量尺度上回答该问题, 从而能够更好地 揭示真核基因起始密码子旁侧序列的特征。同时, 启发, 本文进一步分析了终止密码 受 “34567 规则” 子旁侧碱基序列的特征, 并分析了在真实开放阅读 下起始、 终止密码子在 框架 ( 4W0F N06VDFG 1N6C0, +,-) 同相位的串联使用情况, 以期找出密码子串联使用 的整体规律并分析其生物学意义。
第<期
翁景然, 等: 真核基因起始与终止密码子旁侧序列特征分析
!!
!
!"!
数据与方法
数据的来源 由于 #$%&$’ 数据库中的记录经过了加工整理,
计算所提取的序列片段中四种碱基分布概 (=) 率, 并绘制概率分布图; 根据不同物种对所提取的序列片段进行分 (<) 组, 然后采用 &>&& %?@ AB)C?D: E F 8 版进行方差分析。 采用 5G,$H 方法, 取显著性水平 8 F !, 得到相应的正 则表达式; 统计同相位串联起始、 终止密码子出现数 (6) 量, 计算出现概率。
较 ($)*+), 等数据库有较小的冗余度和较高的准确 性及可靠性, 因此, 本文拟利用 #$%&$’ 数据库提供 的 -./0 序列作为分析样本。具体分析步骤如下: !"1 分析方法 (!) 提取 #$%&$’ 数据库中编码区字段即 2.& 字 段的信息, 确定 -./0 序列的真实 3#4。剔除线粒 这是因为线粒体的遗传密码 体来源 -./0 的序列, 和标准密码子有差异; 抽取翻译起始密码子 ( 05() 上游 !6 个碱基 (1) 与下游 7 个碱基; 抽取终止密码子上游 !8 个碱基与 下游 7 个碱基作为分析样本。对密码子旁侧碱基数 目达不到要求的少数序列, 首先将其定位到基因组 序列, 然 后 提 取 所 需 序 列, 这一点通过本地化的 *9+:Βιβλιοθήκη Baidu 软件和本地化的数据库实现 仍达不到要求的序列, 将其剔除;
能提示不同进化地位与起始密码子旁侧序列的使用 特征有关。 对于 D 类终止密码子旁侧序列的特征分析发现 它们各有不同, 但总体上小鼠、 大鼠、 智人 D 个物种 的结果较相近, 与斑马鱼的分析结果有差别。从进 化树上来看, 小鼠、 大鼠、 智人 D 个物种属于哺乳动 物在同一分支上, 而斑马鱼则与它们在进化距离上 位于另一分支。这可能是出现区别的一个原因。 另外, 从表 = 中可以看出无论哪个物种终止密 明显高于另两种 码子 &?< 的出现频率都接近 BAJ , 终止密码子出现的概率, 这提示真核基因对 &?< 作 为终止密码可能具有一定的偏好性。 >K> 真实 LM" 下同相位终止密码子串联使用情况 以下的数据和讨论都是在真实 LM" 下得到的。 对同相位两个以上终止密码子连续串联的现象进行 分析的结果见表 D。
终止密码子 2:;< 序列的数量见 ! 个物种起始、 表 =。根据统计分析所推导出的正则表达式见表 >。
&-,.( = 物种 斑马鱼 小鼠 大鼠 智人 表 = 不同密码子 2:;< 序列的数量 &’( 867,(* +5 2:;< 1(96(82(1 #8 4#55(*(8/ 2+4+81 <&? > @AB =! >>! D F@= =@ AD= &<? BC= D B>@ @!! ! !CA &<< = A@! D @!E = =BB B CB@ &?< = D@@ F BFA > AF= @ @E=
( !" #$%&%’( )’*+%+,+$ -. /01%0+%-’ 2$1%3%’$ , #$%&%’( !44564 , 7 8 / 8 9:%’0 ; ;" 9-<<$($ -. =>><%$1 ?3%$’3$* , #$%&%’( @’%A$B*%+C -. D$3:’-<-(C , #$%&%’( !444;; , 7 8 / 8 9:%’0 )
第!期
翁景然, 等: 真核基因起始与终止密码子旁侧序列特征分析
=D
图!
智人起始、 终止密码子旁侧序列概率堆积图
"#$% ! &’( )*+,-,#.#/0 1/-23(4 $*-)’ +5 ’67-8 1(96(82(1 5.-83#8$ /’( 1/-*/ 2+4+8 -84 1/+) 2+4+81
生物信息学
.EDF6 M4UNF6A 41 ?D4DF14NC6SD’T
研究论文
真核基因起始与终止密码子旁侧序列特征分析
" 翁景然!, , 张宏!, 耿美英", 张成岗!!
(!# 军事医学科学院放射医学研究所, 北京 !$$%&$; 北京 !$$$"") "# 北京工业大学应用数理学院,
摘要: 真核基因起始与终止密码子旁侧序列的特征对于确定 ’()* 开放阅读框架 ( +,-) 和预测基因组序列中的编码区 ( .(/) 在较大数据规模下统计分析了起始密码子旁侧序列所具有的 “ 34567 规则” , 发现不同 非常重要。基于高质量 ,01/02 数据库, 物种之间存在差别。同时分析了不同终止密码子旁侧序列的统计学特征, 给出了相应的正则表达式。由于发现多种基因中 存在同相位起始、 终止密码子串联使用的情况, 亦对此进行了讨论。 关键词: 真核基因; 起始密码子; 终止密码子; 序列特征; ’()* 序列; 34567 规则 中图分类号: 89&: 文献标识码: * 文章编号: ("$$<) !:9" ; &&:& ; $< ; $$!$ ; $&
在多个物种基因组计划已经完成、 大量 ’()* 序列 数据库已经发布的今天, 34567 规则是否仍然能够 代表 *@L 旁侧 序 列 的 特 征, 尚 无 人 系 统 研 究。因
收稿日期: 修回日期: "$$< ; $9 ; $9; "$$< ; $% ; !$
基金项目: 国家重点基础研究发展计划 (=9> 计划) ("$$>.?9!&=$$) , 国家高技术研究发展计划 (%:> 计划) ("$$"**"><$"!) 资助。 作者简介: 翁景然 (!=9= ; ) , 女, 北京人, 在读硕士, 主要研究方向: 应用数学。 张成岗, 男, 副研究员, @0A: $!$ ; ::=>!&=$, B ; C6DA: 5E6FG’GH FD’I JCD I 6’I ’F。 !通讯作者: 万方数据
[<]
1
1"!
结果分析
起始密码子和终止密码子旁侧序列特征 小鼠、 大鼠、 智人四 对 #$%&$’ 数据库中斑马鱼、
个物种每个位置四种碱基的详细概率堆积图请见图 其中: ! I 图 <, 的概率、 代表腺嘌呤 0 出现的概率、 代表鸟嘌呤 ( 出现 代表胞嘧啶 2 出现的概率、
代表胸腺嘧 5 出现的概率。横轴表示
56)&$#%&: @E0 ’E6N6’S0NT 41 T02U0F’0 1A6F7DFG SE0 TS6NS ’4V4F 6FV TS4W ’4V4F DF 0U76NR4SD’ G0F0T WA6R 6F DCW4NS6FS N4A0 DF (+,-)DF ’()* T02U0F’0T 6FV ’4VDFG N0GD4F( .(/)DF G0F4CD’ ()* T02U0F’0T I XTDFG V01DFDFG SE0 4W0F N06VDFG 1N6C0 EDGE 2U6ADSR ’()* T02U0F’0T 41 ,01/02 V6S6J6T0, SE0“ 34567 NUA0”Y0N0 1UNSE0N ’4F1DNC0V 4F 6 A6NG0 ; T’6A0 A0Z0A, JUS YDSE 6 ADSSA0 VD110N0FS J0SY00F VD110N0FS TW0’D0T I *S SE0 T6C0 SDC0, SE0 1A6F7DFG T02U0F’0 ’E6N6’S0NT 41 SEN00 TS4W ’4V4FT Y0N0 6AT4 6F6AR50V I @E0 N0GUA6N 0[WN0TTD4F 14N VD110N0FS TS4W ’4V4FT Y0N0 V0VU’0V I Q4N04Z0N, SE0 JD4A4GD’6A TDGFD1D’6F’0 41 S6FV0C DF ; 1N6C0 N0W06S0V TS6NS ’4V4FT 6FV TS4W ’4V4FT Y6T 6AT4 VDT’UTT0V DF SEDT W6W0N I 7’, 8-$3): 0U76NR4SD’ G0F0; ’()* T02U0F’0; TS6NS ’4V4F; TS4W ’4V4F; T02U0F’0 ’E6N6’S0N; 34567 NUA0 美国学者 34567 通过对 :== 条脊椎动 !=%9 年, 非编码区 < 种碱基分布概率的统计学研 物 ’()* &’ 究分析发现, 在脊椎动物 ’()* 翻译起始位点上游 一段 序 列 相 对 保 守, 在 *@L 旁 侧 的 保 守 序 列 是 “ ( L.. )L..* \ L..*@LL ” ,即 著 名 的“ 34567 规
。对于处理后
位置和每个位置的方差, 纵轴为出现概率。显然, 四 种碱基出现概率和为 !。
图!
斑马鱼起始、 终止密码子旁侧序列概率堆积图
万方数据
4BJF !
5K$ L@?M+MB9B;H :;+-,$C J@+LK ?% N$M@+%B:K :$’G$)-$: %9+),B)J ;K$ :;+@; -?C?) +)C :;?L -?C?):
!"#$#%&’$()&(% #*#+,)() -. .+#*/(*0 )’12’*%’ -. )&#$& %-3-* #*3 )&-4 %-3-* (* ’2/#$,-&(% 0’*’)
" , KB)L MDFG ; N6F!, OP*)L P4FG! , LB)L Q0D ; RDFG" , OP*)L .E0FG ; G6FG!!
不同物种起始和终止密码子旁侧序列的正则表达式
&’( 2’-*-2/(*1 +5 1(96(82( 5.-83#8$ /’( 1/-*/ 2+4+8 -84 1/+) 2+4+8 #8 4#55(*(8/ 1)(2#(1 &<? ( < O &) NN< N &<? ( N O ?) ( < O ?) < <N &<? ( N O ?) ( < O &) < < N &<? ( < O &) N<; ; &<?<< &<< <;<<N &<<<< ( < O &) <;< N &<<< <;<<N &<<< ( < O ?) <N <; &<<< &?< <N;<N &?<?? (& O <) ( ? O N) <N; N &?<? ( N O ?) < ;<N &?<? ( < O ?) ( < O ?) <N <N &?<
相比于 G+H-3 对 C@@ 条脊椎 动 物 所 进 行 的 分 析, 我们发现小鼠、 大鼠、 智人 D 个物种起始密码子 “ G+H-3 规则” 相吻合, 而斑马鱼的 <&? 旁侧序列与 在 I !、 这可 结果与 “G+H-3 规则” I > 位有较大差别,
表> &-,.( > 物种 智人 大鼠 小鼠 斑马鱼 !; <&? ( N O ?) N<NN <&??N ( N O ?) N<NN <&??N ( N O ?) N<NN <&??N ( N O &) ( < O N) <<N <&??N