基因组注释
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基因同源性只有“是”和“非”的区别, 无所谓百 分比.
2) 一致性(identity):指同源DNA顺序的同一碱 基位置的相同的碱基成员, 或者蛋白质的同一 氨基酸位置的相同的氨基酸成员, 可用百分比 表示.
3) 相似性(similarity):指同源蛋白质的氨基酸 序列中一致性氨基酸和可取代氨基酸所占的 比例。可取代氨基酸系指具有相同性质如极 性氨基酸或非极性氨基酸的成员, 它们之间的 代换不影响蛋白质(或酶)的生物学功能。
第5章 基因组序列注释
学习重点:
1) 基因注释的方法 2) 基因功能的研究方法
基因组序列所包含的全部遗传信息是什么? 基因组作为一个整体如何行使其功能? 用什么方法寻找基因? 用什么方法研究基因的功能?
计算机Baidu Nhomakorabea析+实验
5.1 寻找基因
基因组序列 查找基因。有两种常见的方法: 1. 计算机分析寻找与基因有关的序列。 2. 通过对DNA序列进行实验分析,看其能否表
GCA,GCC或GCT,而GCG很少使用。 特定种属有特征性的密码子偏爱,这些序列在 编码区常常出现,非编码区只保持平均的碱基 分布水平。
2)外显子-内含子边界
外显子和内含子的边界有一些明显的特征如: 内含子的5‘端或称供体位(donor site)常见的顺序为 5’-AG↓GTTAAGT-3’; 3’端又称受体位(acceptor site), 多为 5‘PyPyPyPyPyPyCAG-3’(“Py”嘧啶核苷酸,T或C);
同源查询
当在氨基酸水平进行比较时,两个序列之间缺少同源性 就更明显。
同源性,一致性和相似性
1) 同源性(homology)基因系指起源于同一祖先但序列已经 发生变异的基因成员。 分布在不同物种间的同源基因又称直向同源基因。 同一物种的同源基因则称共生同源基因(水平基因), 水平基因由重复后趋异产生。
达基因产物。
5.1.1 根据基因结构特征搜寻基因
基因不是核苷酸的随机排列而是具有明显特征: 基因的编码区是可读框。
可能的六种ORF
1. 根据开放读码框预测基因
a. 起始密码子ATG: 第一个ATG的确定则依据Kozak规则: Kozak规则是基于已知数据的统计结果, 所谓Kozak规则,即第一个ATG侧翼序列的 碱基分布所满足的统计规律。
相似性与一致性
249 MFN-MAI PFGAGAYAQALNQQQAALMASVAQGG 232 I LTSL TLPFS AGAYAQALNQQQTTV I S - -T S GS 注: 红色为一致性氨基酸, 蓝色为可取代氨基酸, 白色为趋
异氨基酸. 一致性氨基酸百分比为红色氨基酸所占的 比例, 相似性氨基酸百分比为红色和蓝色氨基酸相加 所占的比例.
终止密码子: TAA, TAG,TGA GC% = 50% 终止密码子每 64 bp出现一次; GC% > 50% 终止密码子每100-200 bp 出现 一次;
由于多数基因 ORF 均多于50个密码子,因此 最可能的选择应该是 ORF 不少于100 个密码子。
细菌基因组的ORF阅读相对比较简单,错误 的概率较少,但单纯的ORF扫描对高等真核 生物DNA效果不佳。
若将第一个ATG中的碱基A,T,G分别标为1, 2,3位,则Kozak规则可描述如下: (1) 第4位的偏好碱基为G; (2) ATG的5’端约15bp范围的侧翼序列内不含
碱基T; (3) 在-3,-6和-9位置,G是偏好碱基; (4) 除-3,-6和-9位,在整个侧翼序列区,C是
偏好碱基。
b. 终止密码子
引自: Nature reviews genetics, 4:741-749,2003.
不同注释软件之间的效率
Performance of three popular gene prediction programs on 42 semiartificial genomic sequences containing 178 known human gene sequences (900 exons). Sensitivity is percentage of exons that are predicted correctly. Selectivity is percentage of predicted exons that are correct. Reproduced with changes from Yada et al., 2002 Cold Spring Harbor Genome Sequencing and Biology Meeting, May 7-11, 2002. FGENESH is by far the most accurate of three programs.
基因注释软件
1)目前基因注释程序的编写主要依据两种信息内涵:
1.signal terms (信号指令), 如起始密码, 终止密码, 终止信号, 剪接受体位与供体位序列, 多聚嘧啶顺序, 分支点等保守的顺序组成; 2.content terms (内容指令), 如密码子使用偏好.
对结构紧凑的小基因组上述注释软件效果不错,但对大基 因组特别是超长基因的注释有很大困难.在一个长度数十 或数百kb的内含子中, 存在许多可能误判的信号指令. 2) 常 用 的 注 释 软 如 GenScan 主 要 偏 重 于 内 容 指 令 , 而 FgeneSH则着重于信号指令.由于每种生物都有种属专一 性的密码子偏好,也存在某些非保守的信号指令, 因此在 超长基因注释中常出现正向错误(false-positive, 多注 释)或负向错误(false-negetive, 少注释).
上游外显子-内含 子边界的共有序列 在真正基因中发现 的真实序列之间的 关系。
3)上游控制顺序
几乎所有基因(或操纵子)上游都有调控序 列,它们可与DNA结合蛋白作用,控制基因 表达。
另外个别生物的基因组特有组成也可作为判 别依据,如脊椎动物基因组许多基因的上游 都有CpG岛。 大多数CpG岛都位于管家基因和大部分组织 专一性表达基因的5’侧翼区以及基因的第一 个外显子区。
5.1.2 同源基因查询
通过已存入数据库中的基因序列与待查的 基因组序列进行比较,从中查找可与之匹 配的碱基序列及其比例,用于界定基因的 方法称为同源查询。
同源有如下几种情况:
A. DNA序列某些片段完全相同; B. 开放读码框排列类似,如有等长外显子; C. 开放读码框翻译成的氨基酸序列的相同; D. 模拟多肽高级结构相似。
内含子使ORF扫描复杂化
内含子的出现给计算机判读基因带来不少问题, 对ORF扫描的基本程序的编写要考虑以下几个问 题:
1)密码子偏倚; 2)外显子—内含子边界; 3)上游调控序列。
1)密码子偏爱性
编码同一氨基酸的不同密码子称为同义密码, 其差别仅在密码子的第3位碱基不同。 不同种属间使用同义密码的频率有很大差异, 如人类基因中,丙氨酸(Ale)密码子多为
2) 一致性(identity):指同源DNA顺序的同一碱 基位置的相同的碱基成员, 或者蛋白质的同一 氨基酸位置的相同的氨基酸成员, 可用百分比 表示.
3) 相似性(similarity):指同源蛋白质的氨基酸 序列中一致性氨基酸和可取代氨基酸所占的 比例。可取代氨基酸系指具有相同性质如极 性氨基酸或非极性氨基酸的成员, 它们之间的 代换不影响蛋白质(或酶)的生物学功能。
第5章 基因组序列注释
学习重点:
1) 基因注释的方法 2) 基因功能的研究方法
基因组序列所包含的全部遗传信息是什么? 基因组作为一个整体如何行使其功能? 用什么方法寻找基因? 用什么方法研究基因的功能?
计算机Baidu Nhomakorabea析+实验
5.1 寻找基因
基因组序列 查找基因。有两种常见的方法: 1. 计算机分析寻找与基因有关的序列。 2. 通过对DNA序列进行实验分析,看其能否表
GCA,GCC或GCT,而GCG很少使用。 特定种属有特征性的密码子偏爱,这些序列在 编码区常常出现,非编码区只保持平均的碱基 分布水平。
2)外显子-内含子边界
外显子和内含子的边界有一些明显的特征如: 内含子的5‘端或称供体位(donor site)常见的顺序为 5’-AG↓GTTAAGT-3’; 3’端又称受体位(acceptor site), 多为 5‘PyPyPyPyPyPyCAG-3’(“Py”嘧啶核苷酸,T或C);
同源查询
当在氨基酸水平进行比较时,两个序列之间缺少同源性 就更明显。
同源性,一致性和相似性
1) 同源性(homology)基因系指起源于同一祖先但序列已经 发生变异的基因成员。 分布在不同物种间的同源基因又称直向同源基因。 同一物种的同源基因则称共生同源基因(水平基因), 水平基因由重复后趋异产生。
达基因产物。
5.1.1 根据基因结构特征搜寻基因
基因不是核苷酸的随机排列而是具有明显特征: 基因的编码区是可读框。
可能的六种ORF
1. 根据开放读码框预测基因
a. 起始密码子ATG: 第一个ATG的确定则依据Kozak规则: Kozak规则是基于已知数据的统计结果, 所谓Kozak规则,即第一个ATG侧翼序列的 碱基分布所满足的统计规律。
相似性与一致性
249 MFN-MAI PFGAGAYAQALNQQQAALMASVAQGG 232 I LTSL TLPFS AGAYAQALNQQQTTV I S - -T S GS 注: 红色为一致性氨基酸, 蓝色为可取代氨基酸, 白色为趋
异氨基酸. 一致性氨基酸百分比为红色氨基酸所占的 比例, 相似性氨基酸百分比为红色和蓝色氨基酸相加 所占的比例.
终止密码子: TAA, TAG,TGA GC% = 50% 终止密码子每 64 bp出现一次; GC% > 50% 终止密码子每100-200 bp 出现 一次;
由于多数基因 ORF 均多于50个密码子,因此 最可能的选择应该是 ORF 不少于100 个密码子。
细菌基因组的ORF阅读相对比较简单,错误 的概率较少,但单纯的ORF扫描对高等真核 生物DNA效果不佳。
若将第一个ATG中的碱基A,T,G分别标为1, 2,3位,则Kozak规则可描述如下: (1) 第4位的偏好碱基为G; (2) ATG的5’端约15bp范围的侧翼序列内不含
碱基T; (3) 在-3,-6和-9位置,G是偏好碱基; (4) 除-3,-6和-9位,在整个侧翼序列区,C是
偏好碱基。
b. 终止密码子
引自: Nature reviews genetics, 4:741-749,2003.
不同注释软件之间的效率
Performance of three popular gene prediction programs on 42 semiartificial genomic sequences containing 178 known human gene sequences (900 exons). Sensitivity is percentage of exons that are predicted correctly. Selectivity is percentage of predicted exons that are correct. Reproduced with changes from Yada et al., 2002 Cold Spring Harbor Genome Sequencing and Biology Meeting, May 7-11, 2002. FGENESH is by far the most accurate of three programs.
基因注释软件
1)目前基因注释程序的编写主要依据两种信息内涵:
1.signal terms (信号指令), 如起始密码, 终止密码, 终止信号, 剪接受体位与供体位序列, 多聚嘧啶顺序, 分支点等保守的顺序组成; 2.content terms (内容指令), 如密码子使用偏好.
对结构紧凑的小基因组上述注释软件效果不错,但对大基 因组特别是超长基因的注释有很大困难.在一个长度数十 或数百kb的内含子中, 存在许多可能误判的信号指令. 2) 常 用 的 注 释 软 如 GenScan 主 要 偏 重 于 内 容 指 令 , 而 FgeneSH则着重于信号指令.由于每种生物都有种属专一 性的密码子偏好,也存在某些非保守的信号指令, 因此在 超长基因注释中常出现正向错误(false-positive, 多注 释)或负向错误(false-negetive, 少注释).
上游外显子-内含 子边界的共有序列 在真正基因中发现 的真实序列之间的 关系。
3)上游控制顺序
几乎所有基因(或操纵子)上游都有调控序 列,它们可与DNA结合蛋白作用,控制基因 表达。
另外个别生物的基因组特有组成也可作为判 别依据,如脊椎动物基因组许多基因的上游 都有CpG岛。 大多数CpG岛都位于管家基因和大部分组织 专一性表达基因的5’侧翼区以及基因的第一 个外显子区。
5.1.2 同源基因查询
通过已存入数据库中的基因序列与待查的 基因组序列进行比较,从中查找可与之匹 配的碱基序列及其比例,用于界定基因的 方法称为同源查询。
同源有如下几种情况:
A. DNA序列某些片段完全相同; B. 开放读码框排列类似,如有等长外显子; C. 开放读码框翻译成的氨基酸序列的相同; D. 模拟多肽高级结构相似。
内含子使ORF扫描复杂化
内含子的出现给计算机判读基因带来不少问题, 对ORF扫描的基本程序的编写要考虑以下几个问 题:
1)密码子偏倚; 2)外显子—内含子边界; 3)上游调控序列。
1)密码子偏爱性
编码同一氨基酸的不同密码子称为同义密码, 其差别仅在密码子的第3位碱基不同。 不同种属间使用同义密码的频率有很大差异, 如人类基因中,丙氨酸(Ale)密码子多为