基因组序列注释的方法综述
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
特定生物体的基因中并不是所有密码子的使用 频率都是平等的。 如Leu的密码子有6个(TTA、TTG、CTT、CTC、 CTA、CTG),在人类基因中,绝大多数Leu都是由 CTG编码的,而且几乎不由CTA和TTA编码。 特定种属有特征性的密码子偏爱,这些序列在 编码区常常出现,非编码区只保持平均的碱基分 布水平。
ENCODE计划成果
4年来,通过建立一个目录,详尽地描述1% 人类基因组的全部生理功能基础。该结果 高度肯定了鉴定和归类人类基因组功能元 件的工程的成功,并且由于几项新技术的 兴起,大量关于功能元件的数据被获得, 这标志着技术发展阶段也获得了成功。
ENCODE计划的意义 ENCODE计划首次系统地研究了所有 类型的功能元件的位点和组织方式, 对基因组计划的实际应用具有划时代 的意义,为未来进一步认识整个人类 基因组的功能蓝图开辟了道路。
基因组序列注释的方法
一、基因组序列注释
以基因组序列为基础,确定全基因 序列中基因的确切位置
二、注释的方法
1、根据开放阅读框(ORF)预测
1)起始密码子ATG: 第一个ATG的确定依据Kozak规则,所谓 Kozak规则,即第一个ATG侧翼序列的碱基 分布所满足的统计规律:
若将第一个ATG中的碱基A,T,G分别标为1,2, 3位,则Kozak规则可描述如下: (1)第4位的偏好碱基为G;
(2)ATG的5’端约15bp范围的侧翼序列内不含碱基T;
(3)在-3,-6和-9位置,G是偏好碱基; (4)除-3,-6和-9位,在整个侧翼序列区,C是偏好 碱基
2)终止密码子 :
终止密码子: TAA, TAG,TGA GC% = 50% 终止密码子每 64 bp出现一次; GC% > 50% 终止密码子每100-200 bp 出现一 次;
2、同源查询
利用已存入数据库中的 基因序列与待查基因组序列 进行比较,从中查找可与之 匹配的碱基序列及其比例用 于界定基因的方法。
A. DNA序列某些片段完全相同; B. 开放阅读框排列类似; C. 开放阅读框翻译成的氨基酸序列的相同; D. 模拟多肽高级结构相似。
一般认为,氨基酸序列的相似性在25%以上可视 为同源基因。
c、上游调控顺序
几乎所有基因(或操纵子)上游都有调控 序列,它们与DNA结合蛋白作用,控制基因 表达,通过同源性比较来预测mRNA的5’端, 最常用的与转录起始位点相关的数据库是 真核启动子数据库 (The TRADAT Project , Eukaryotic Promoter Database, EPD. http://www.epd.unil.ch/ )。 另外个别基因组特有组成也可作为判别依 据,如脊椎动物基因组许多基因的上游都 有大约1kb长的CpG岛。
谢Fra Baidu bibliotek!
吉姆工程成果 吉姆工程耗时两年复查6次,通过 所提取的沃森血样,454生命科学公司 在两年时间里逐个识别沃森基因的30 亿个碱基对,并用67天时间为这些碱 基对排序,从而绘制了沃森的基因组 图谱。
吉姆工程的意义
个人基因组图谱隐藏的遗传信息好似“生命 密码”,如果破译,可以自人们出生之日起就采 取相应对策,减少患上特定疾病的风险,防患于 未然。 沃森举例说,如果一个孩子的基因组图谱显 示,这个孩子患上糖尿病的风险较高,那么就应 该严格控制这个孩子的体重。这样一来,在这个 孩子学会走路之前,他患上糖尿病的风险已经大 大降低。还有不少科学家认为,绘制出个人基因 组图谱,意义不仅在于降低患病风险,还可以铲 除疾病根源。
b、外显子-内含子边界
外显子和内含子的边界有一些明显的特征如:
内含子的5’端常见的顺序为 5’-AG↓GTTAAGT-3’;
3’端多为5‘PyPyPyPyPyPyCAG3’(“Py”嘧啶核苷酸,T或C);
上游外显子 -内含子边 界的共有序 列在真正基 因中发现的 真实序列之 间的关系。
运用外显子-内含子边界特殊 序列的方法来注释基因的成功率不 高。
这些结果均可作为基因判定的指标,可单独用, 也可综合用。
基因注释软件
1)目前基因注释程序的编写主要依据两种信息内涵: 1.signal terms ( 信号指令 ), 如起始密码 , 终止密码 , 终止信号,多聚嘧啶顺序,分支点等保守的顺序组成; 2.content terms (内容指令), 如密码子使用偏好. 对结构紧凑的小基因组上述注释软件效果不错,但对大基因 组特别是超长基因的注释有很大困难 . 在一个长度数十或 数百kb的内含子中, 存在许多可能误判的信号指令. 2)常用的注释软如GenScan主要偏重于内容指令, 而FgeneSH 则着重于信号指令 . 由于每种生物都有种属专一性的密码 子偏好 , 也存在某些非保守的信号指令 , 因此在超长基因 注释中常出现正向错误(false-positive, 多注释)或负向 错误(false-negetive, 少注释).
引自: Nature reviews genetics, 4:741-749,2003.
3、通过实验确认基因
a、确认基因的存在: 通过Northern杂交确定DNA片段是表达 序列; 由EST或cDNA指认基因。EST和cDNA是 基因转录加工后的产物,可以确切无疑的 代表相应基因成员的存在。
b、确定基因的位置: 获取基因全长cDNA序列。 根据已知片段设计引物,通过RACE技 术得到基因的全长cDNA序列; 确定DNA顺序中基因的位置。 通过对全长cDNA序列的测序,并与基 因组DNA的比较,确定基因所在的区域;
OR
通过物种已建立的遗传图和物理图来 确定基因的位置
三、基因组序列注释的应用
1、Jim工程
吉姆工程是美国454生命 科学公司(基因技术公司)在 2005年前给“DNA之父”称誉 的美国科学家詹姆斯·沃森绘 制完整的个人基因组图谱的工 作,美国这家基因技术公司将 相关工作所以命名为“吉姆工 程”是因为沃森名字“詹姆斯” 昵称“吉姆”。“DNA之父” 沃森的个人基因组图谱于2007 年05月31日首次向全世界公开, 成为世界首份个人基因组图谱; 将来普通人只需1000美元就可 掌握自己的“生命天书”。
由于多数基因ORF均多于50个密码子,因此最可能 的选择应该是ORF选择不少于100个密码子。
细菌基因组的ORF阅读相对比较简单,错误的概率较少, 但单纯的ORF扫描对高等真核生物DNA效果不佳。
内含子使ORF扫描复杂化
对ORF扫描的基本程序的编写要 考虑以下几个问题:
a、密码子偏倚
编码同一氨基酸的不同密码子称为同义密码, 其差别仅在密码子的第3位碱基不同。
2、ENCODE计划
The Encyclopedia of DNA Elements Project :即 “DNA元件百科全书计划”,简称ENCODE计划。2003年9月 由美国国立人类基因组研究所(National Human Genome Research Institute)组织的又一个重大的国际合作计划。 其目的是解码基因组的蓝图,鉴定人类基因组中包括基因、 启动子、增强子、抑制子/沉默子、内含子等已知的和还 不知功能的多个物种的保守序列等在内的所有功能元件。 ENCODE计划中提出的每一类元件都是已经被发现过的,所 不同的是现在要在全基因组的范围内进行系统的研究。