5基因组序列诠释

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

同源性分析可以给出整个基因或其中 某一区段功能的信息
1) 一般认为氨基酸的一致性或相似性在25%以 上可视为同源基因; 2)同源性与相似性含义不同; 3)一致性是指同一位置同一氨基酸在整个多 肽中所占的比例而相似性除一致性氨基酸 外还包括可取代氨基酸的成员
以氨基酸顺序进行同源性比较分析比DNA的结果更准确、可行
§5 基因组序列注释
1) 2) 3) 4) 基因注释 基因功能预测 基因功能检测 功能基因组研究
完成基因组测序仅仅是基因组计划 的第一步,更大的挑战在于弄清:
①基因顺序中所包含的全部遗传信息是什么? ②基因组作为一个整体是如何行使其功能?
这两项任务都必须依赖于对基因组顺序的正 确注解与诠释(annotation),首先是从已知 顺序中搜寻基因。 自动注释:依据某些规则进行数据分析得出 是否为基因的结论。 人工注释:人为检测评价注释的结果并根据其 他数据进行分析与校正。 实验注释:根据实验结果进行检测。如EST, cDNA全长序列进行基因注释。
基因注释标准—人类基因组
Known gene: 与人类已知cDNA和蛋白质顺序同源的基因. Novel gene: 与脊椎动物cDNA或其它物种蛋白质同源的基因. Novel transcripts: 与novel 基因相似,但缺少明确的ORF. Putative gene: 有同源EST支持, 但缺少cDNA或ORF. Predicted gene: 数据库中至少有一个外显子支持, 但缺 少cDNA或明确的ORF. Pseudogene(假基因): 与已知蛋白质有50%的同源性,但 cDNA残缺,在其它位点存在正常的同源基因的顺序. 引自: Nature 414:865-871, 2001(人类22号染色体注释)
5.2.2 蛋白质结构域在功能预测中的意义
5.2 基因功能预测
5.2.1计算机预测基因功能 —— 同源性比较、分析 同源基因可分为: A. 直向同源基因(orthologous gene) B.共生同源基因(paralogous gene)
当一个新的基因序列被确认后,根据同源性可从数据库查找已知 顺序的同源基因.根据进化的相关性可从已知的同源基因推测新 基因的功能.
3)
4) 5) 6)
不同注释软件比较
1) 目前基因组注释的软件绝大多数都是根据已有 基因结构的数据编写的,具有很多的经验成分. 2) 由于各家采用的注释软件不同, 注释结果有很大 的差别, 如人类基因组测序计划(HGP)注释的基 因与Celara公司注释的基因仅2/3一致.
不同注释软件之间的效率与准确率
简单的ORF扫描对高等真核生物DNA效果不佳
真核生物基因的组成特征
1) 外显子的组成 2) 内含子的组成 3) 碱基的分布规律
内含子的组成特点
1) 内含子具有前体mRNA加工的特征顺序. 2) 内含子含有高比例的三种读框的终止密码.
外显子的组成特点
1) CpG岛:脊椎动物 2) 摇摆密码子的使用频率或密 码子偏爱 3) 5’和3’非翻译区(UTR)碱基 比率, 水稻基因5’的高GC比 4) 不含或含有较少的终止密码 脊椎动物基因组许多基因上 游都有CpG岛, CpG岛长约 1kb.若发现CpG岛有可能在 其下游找到基因.
引自: Nature reviews genetics, 4:741-749,2003.
基因自动注释软件的问题
1) 2) 基因注释一般包括如下内容: 基因组DNA顺序中确定 的转录为mRNA的顺序; 外显子和内含子的位置; 基 因编码的蛋白质顺序. 在目前即使已有很好研究基础的生物中, 最好的计算 机基因注释程序对每个外显子注释的准确率也只能 达到80%.如果一个基因有5个外显子, 整个基因注释 的准确率为0.85=33%. 基因注释的软件通常容易犯误拼和误拆的错误, 即将 两个基因归在一个,或者反过来. 容易遗漏很小的外显子,特别是保守性不强的基因. 容易忽略小基因,特别是基因内基因. 无法预测mRNA中5’和3’非翻译区(UTR), 即很难确 定转录起点与终点.
起始密码子(initiation codon): ATG;
终止密码子(termination codon): TAA\TAG\TGA
寻找以ATG开始,终止密码子结束的ORF序列是寻找基因 的一种方法.
1.应选择ORF不少于100个密码子的读框. 2.内含子 A细菌中缺少内含子,非编码顺序仅占11%.对 读框的排查干扰少.因此细菌基因组的ORF 阅读相对较简单,错误的几率少. B 高等真核生物DNA的ORF比较复杂是因为: ①基因间存在大量的非编码序列; ②绝大多数基因含有非编码的内含子.
Performance of three popular gene prediction programs on 42 semiartificial genomic sequences containing 178 known human gene sequences (900 exons). Sensitivity is percentage of exons that are predicted correctly. Selectivity is percentage of predicted exons that are correct. Reproduced with changes from Yada et al., 2002 Cold Spring Harbor Genome Sequencing and Biology Meeting, May 7-11, 2002. FGENESH is by far the most accurate of three programs.
动物园杂交(Zoo blotting)
2)EST和cDNA指认基因
cDNA的测序可以解决基因在DNA顺序中的定位。 cDNA是mRNA的反转录拷贝,与基因的编码区对 应,并含有非转译的5’引导顺序与3’结尾顺序. 将cDNA与基因组的DNA比较可确定基因所在区 域并找到外显子-内含子边界。
借助全长cDNA和拼接cDNA人工注释
密码子偏爱
2 外显子-内含子边界有明显特征: 内含子5’端(供体位)顺序多为5’AG↓GTAAGT3’,3’端 (受体位)顺序多为5’PyPyPyPyPyPyCAG3’(Py:T或C).
3 上游控制顺序:
几乎所有基因(或操纵子)的上游都有调控序列, 与DNA结合蛋白作用控制基因的表达.调控顺序有 明显的特点,在查找基因时可作为参考.
自动注释
1)ab inition 软件的预测, 依据基因结构 的特点 2)同源性比较 3) 基序(motif)或功能域(domain)分析预 测基因
5.1 搜寻基因
5.1.1 根据基因结构特征搜寻基因
ORF的读取
开放读框(open reading frames, ORFs): 由一系列指令氨基酸的密码子(codons)组成。
同源性,一致性和相似性的定义
1) 同源性(homology) 基因系指起源于同一祖先但顺 序已经发生变异的基因成员, 分布在不同物种间 的同源基因又称直向同源基因. 同一物种的同源 基因则称共生同源基因, 水平基因由重复后趋异 产生. 2) 基因同源性只有“是”和“非”的区别, 无所谓百 分比. 3) 一致性(identity)系指同源DNA顺序的同一碱基位 置的相同的碱基成员, 或者蛋白质的同一氨基酸 位置的相同氨基酸成员, 可用百分比表示. 4) 相似性(similarity)系指同源蛋白质的氨基酸顺序 中一致性氨基酸和可取代氨基酸所占的比例. 可 取代氨基酸系指具有相同性质如极性氨基酸或非 极性氨基酸的成员, 它们之间的代换不影响蛋白
5.1.2 实验分析确认基因
1)分子杂交可确定DNA片段是否含表达顺序 A. northern印迹(Northern blotting)
B.动物园杂交(zoo-blotting) :
一些亲缘关系相近的物种,其基因的编码区相似性较高,而 非编码区的同源性很低.如果某一物种的DNA顺序与来自另一亲 源种的DNA片段杂交产生阳性信号,该区段可能含有1个或多个 基因.
相似性与一致性
249 MFN-MAI PFGAGAYAQALNQQQAALMASVAQGG 232 I LTSL TLPFS AGAYAQALNQQQTTVI S - -TSGS
注: 红色为一致性氨基酸, 蓝色为可取代氨基酸, 白色为趋 异氨基酸. 一致性氨基酸百分比为红色氨基酸所占的比例. 相似性氨基酸百分比为红色和蓝色氨基酸相加所占的比例.

Leabharlann Baidu
确定两个基因是否同源,氨基酸序列的比 较以及蛋白质高级结构的模拟给出的结果 更为可靠。原因在于,绝大多数同源基因 在功能上具有相似性,这种相似性体现在 关键的氨基酸通常占据相同的位置,它们 在蛋白质高级结构中组成具有特征性的活 性区。
现有基因注释软件的特点
1)目前基因注释程序的编写主要依据两种信息内涵: 1.signal terms (信号指令), 如起始密码, 终止密码, 终止信号, 剪接受体位与供体位顺序, 多聚嘧啶顺序, 分支点等保守的顺序组成; 2.content terms (内容指令), 如密码子使用偏好. 对结构紧凑的小基因组上述注释软件效果不错,但对大基 因组特别是超长基因的注释有很大困难.在一个长度数十 或数百kb的内含子中, 存在许多可能误判的信号指令. 2) 常 用 的 注 释 软 如 GenScan 主 要 偏 重 于 内 容 指 令 , 而 FgeneSH则着重于信号指令.由于每种生物都有种属专一 性的密码子偏好,也存在某些非保守的信号指令, 因此在 超长基因注释中常出现正向错误(false-positive, 多注 释)或负向错误(false-negetive, 少注释).
4 内含子与外显子的序列组成在两方面有明显不同: 内含子A/T比例高于外显子 内含子中有很高比例的终止密码子
5.1.2 同源基因查询
利用已存入数据库中基因顺序与待查的基因 组顺序进行比较,从中查找与之匹配的碱基顺序 及其比例用于界定基因的方法称为同源查询.它可 弥补ORFs的不足. 依据:现有生物不同种属间具有功能或结构相似的 直系基因成员,起源上一脉相承,存在保守的顺序组 成. 基因家族成员相似性:4条(P89). 孤独基因(orphan gene):缺少同源顺序的ORF。 依靠实验来进一步确认.
效率与准确率比较 -----------------------------------------------------------------------------------------program sensitivity specificity missed exon (%) wrong exon (%) -----------------------------------------------------------------------------------------FGENESH 77.1 65.7 9.6 23.2 GenScan 66.5 44.9 12.0 40.9 HMMGene 69.5 36.6 15.5 55.5 -----------------------------------------------------------------------------------------引自: http://www.softberry.com/berry.phtml
内含子的出现给计算机判读基因带来了不 少问题,在编写ORF扫描程序时要作许多修改, 必须加入一些相应的规则:
1 密码子偏爱(codon bias):不同种属之间使用同 义密码的频率有很大差异.如人类基因组中Ala密 码子多为GCA GCC GCT而GCG很少使用;单子叶植 物密码子摇摆碱基大多为G+C,双子叶植物的则大 多为A+T. 这些序列在编码区常常出现,根据生物密码子偏 爱现象在编写计算机程序时就可加入这些限制.
相关文档
最新文档