基因组序列分析和诠释详细要求

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
预期真正的外显子会表现出密码子偏爱,随机 碱基序列却不会。
9
一、在基因组中搜寻基因(蛋白质编码基因)
1、通过序列筛查定位基因 之 外显子-内含子边界
外显子和内含子的边界有一些明显的特征 如:内含子的上游边界常见的顺序为 5’-AG↓GTTAAGT-3’。 下游边界多为 5‘PyPyPyPyPyPyNC AG-3’ (Py:嘧啶 核苷酸,T或C)
13
一、在基因组中搜寻基因(功能性RNA基因)
1、通过序列筛查定位基因 功能性RNA分子最重要的特征是能够折叠成二级结构。
这些二级结构通过分子内碱基配对而形成。 为了使分子内形成碱基配对,该分子中两 部分的核苷酸序列必须是互补的。
14
一、在基因组中搜寻基因(功能性RNA基因)
1、通过序列筛查定位基因 之 tRNA基因定位
基因组序列分析和诠 释详细要求
1
2
基因组序列所包含的全部遗传信息是什么? 基因组作为一个整体如何行使其功能?
用什么方法寻找基因,研究基因的功能呢?
3
基因组序列注释(annotation)
研究基因组的最终目的不是为了仅仅得到 基因组的全部序列,而是诠释基因组所包含的 信息和基因组功能。
在基因组中搜寻基因 –通过序列筛查定位基因(隶属生物信息学) –实验分析确认基因
6
一、在基因组中搜寻基因(蛋白质编码基因)
1、通过序列筛查定位基因 之 ORF
成功寻找ORF(ORF scanning)的关键在于终止 子在DNA序列中出现的频率。
➢随机序列中,GC% = 50%,终止密码子每64bp出现一次 GC% > 50% 终止密码子每100-200 bp出现一

➢由于多数基因 ORF 均多于50个密码子
目前通过序列分析定位外显子-内含子边界是件碰运气的事10 。
一、在基因组中搜寻基因(蛋白质编码基因)
1、通过序列筛查定位基因 之 上游调控序列
几乎所有基因(或操纵子)上游都有调控序列, 它们与DNA结合蛋白作用,控制基因表达
最常用的与转录起始位点相关的数据库是真核启 动子数据库(Eukaryotic Promoter Database,
12
一、在基因组中搜寻基因(蛋白质编码基因)
1、通过序列筛查定位基因 之 其他序列特征
2)3’端的确认 3’端的确认主要根据Poly(A)尾序列。 真核基因的3’末端转录终止位点上游15-
30bp处存在保守的加尾信号序列“AATAAA”。
3)个别生物基因组的特有组成也可作为判别依据。
如脊椎动物基因组许多基因的上游都有大约1kb长的CpG 岛(人类40-50%的基因上游都有CpG岛) 水稻中相当比例的基因5’端含有很高的GC含量。
含子通常会遇到终止密码,难以判断读码的准确性
8
一、在基因组中搜寻基因(蛋白质编码基因)
1、通过序列筛查定位基因 之 密码子偏爱性
编码同一氨基酸的不同密码子称为同义密码, 其差别仅在密码子的第3位碱基不同。
特定生物体的基因中并不是所有密码子的使用 频率都是平等的。
如Leu的密码子有6个(TTA、TTG、CTT、CTC、 CTA、CTG),在人类基因中,绝大多数Leu都是由 CTG编码的,而且几乎不由CTA和TTA编码。
功能性RNA基因的定位
1)tRNA基因; 2)其他功能RNA基因 5
一、在基因组中搜寻基因(蛋白质编码基因)
1、通过序列筛查定位基因 之 ORF ORF:每个编码蛋白的基因都含有ORF,它 是由一系列密码子组成,通常以ATG开始, TAA、TGA、TAG结束。 通过寻找起始密码子和终止密码子的ORF序 列是寻找基因的一种重要的方法。
所有的tRNA都折叠成三叶 草结构。为了形成这种复杂 的结构,所有配对的互补序 列在RNA序列内必须按照特 定的顺序进行排列。
这些特征能够通过设计好 的定位tRNA基因的计算机程 序进行寻找。
15
一、在基因组中搜寻基因(功能性RNA基因)
1、通过序列筛查定位基因 之 其他功能RNA基因定位
rRNA和某些功能RNA也具有二级结构,能够通 过序列特征很容易的鉴别出其基因。
基因功能的测定
4
一、在基因组中搜寻基因
1、通过序列筛查定位基因
基因的序列不是核苷酸的随机组合,而是具 有明显特征的。
计算机序列筛查是定位基因的强有力工具, 是分析新基因组序列的首选方法。
蛋白质编码基因的定位
1)ORF; 2)密码子偏爱性; 3)外显子-内含子边界; 4)上游调控序列; 5)其他序列特征
依据:现有生物不同种属之间具有结构或功能 相似的直系基因成员,它们在起源上一脉相承, 存在有一定的保守序列。
17
一、在基因组中搜寻基因
EPD. http:/// )
11
一、在基因组中搜寻基因(蛋白质编码基因)
1、通过序列筛查定位基因 之Leabharlann Baidu其他序列特征
1)Kozak规则,即第一个ATG侧翼序列的碱基分布所 满足的统计规律。
若将第一个ATG中的碱基A,T,G分别标为1, 2 , 3位,侧翼碱基序列具有以下特征:
➢第4位的偏好碱基为G ➢ATG的5’端约15bp范围的侧翼序列内不含碱基T ➢在-3,-6和-9位置,G是偏好碱基 ➢除-3,-6和-9位,在整个侧翼序列区,C是偏好 碱基
其他的功能RNA所含的配对碱基较少,对此,常 用定位方法有:
➢一个或多个茎环/发夹结构 ➢搜索与功能RNA基因相关的调控 序列。 ➢对于紧凑的小基因组,在蛋白 质编码基因之外的空白区搜索。
16
一、在基因组中搜寻基因
1、通过序列筛查定位基因
同源查询(homology search):利用已存入数 据库中的基因序列与待查基因组序列进行比较, 从中查找可与之匹配的碱基序列及其比例用于界 定基因的方法。
(大肠杆菌:317;酿酒酵母:483;人:450)
➢因此最可能的选择应该是 ORF不少于100个密码子。
原核生物:无内含子,基因序列不重叠, 无基因内基因
对于原核生物,简单的ORF扫描可以定位大多数基因7
一、在基因组中搜寻基因(蛋白质编码基因)
1、通过序列筛查定位基因 之 ORF
高等真核生物DNA的ORF的阅读障碍: ➢ 存在大量的基因间序列(如人类基因组占62%) ➢ 很多基因含有内含子 ➢ 由于多数外显子长度<100个密码子,当读码延伸至内
相关文档
最新文档