核酸序列分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
3、 一段序列上存在统计的规则性,表现为 密码子偏好,是蛋白编码区最明显的标志。
4、 与模板模式相符可能指出DNA上功能位点
的位置。
密码子偏好
编码蛋白对某一个物种有偏好使用某 一密码子的现象,称为密码子偏好。
进行基因预测的基本方法
1、遮蔽重复序列 寻找DNA序列中基因不可能出现的区域, 并将此遮蔽起来;
2.真核基因识别问题
真核基因远比原核基因复杂:
• 一方面,真核基因的编码区域是非连续 的,编码区域被分割为若干个小片段。
• 另一方面,真核基因具有更加丰富的基 因调控信息,这些信息主要分布在基因 上游区域。
真核基因组特点:
规模庞大——人类基因组 3×109 bp
大肠杆菌基因组 5 ×107 bp
2、进行序列对比寻找相似性 将预测的DNA与数据库中的DNA数据 aligment, 寻找保守区域;
3、寻找功能性位点 寻找起始密码、终止密码和剪接位点等;
4、找出编码区 将全部收集到的信息汇总成总体上尽可 能连贯的谱图。
5、DNA翻译
神经网络系统
大多数进行预测的软件都采用了神经网络系 统,赋予软件“学习”的功能,在应用之前必须 经过输入一定的训练集的一个学习的过程,所以 在使用预测工具时一定注意该工具的训练集是什 么。
基因识别——使用计算机手段识别DNA序列上 的具有生物学特征的片段,其对象主要是蛋白 质编码基因,也包括其他具有一定生物学功能 的因子,如RNA、MicroRNA基因等一些非编码 基因,基因识别是生物信息学领域里的一个重 要研究内容。
基因语言的特点
真核生物中有很多重复序列,拷贝在几十几百到几万。 通常是不编码的序列
巨大的非编码序列
复杂的基因结构
外显子 外显子 启动区 5’UTR 内含子 内含子
外显子 内含子 3’UTR终止区
5’
3’
转录位点 起始密码子 剪切受体位点 终止密码子
剪切给体位点
复杂的基因转录调控方式
内含子 GT----AC规则
CpG岛
真核生物基因组GC含量没有原核生 物差异那么明显.但在人基因5‘端 有CpG岛,大约有45,000这 样的岛,有一半和持家基因有关。
许多细胞基因组表现具有不同GC含量的区域的 组合物,这些区域反映了细菌的进化历史。
• 非翻译区域(untranslated regions, UTR) –编码区域两端的DNA,有一部分被 转录,但是不被翻译,这一部分称为 非翻译区域
• 5’UTR---基因上游区域的非翻译区域 • 3’UTR---基因下游区域的非翻译区域
• 真核生物基因是不连续的
• 真核生物的启动子和增强子
• 真核生物的基因有一些特定的模式
•
由于进化的原因,基因序列比较保守
基因预测的基本原则
1、 如果一个序列中某一区域出现重复序列, 该区域不大可能出现在编码区域。
2、 如果某一片段与其它基因或基因产物有序列 相似性,该片段是外显子的可能性极大。
第五章 核酸序列分析
生命之书的阅读
1、对生物个体的阅读 2、同种生物不同个体之间的比较分 析 3、不同物种比较
更重要的是找出差异的结果
一段核酸序列上可能有什么?
我们能用生物信息学对核 酸序列进行哪些分析?
在DNA序列中那些是基因?外显子?内含子? 这些基因编码什么蛋白? 这些基因有那些不同,不同会产生什么效果?会不会引
1.原核基因组的特点
长开放阅读框 简单的基因结构 高基因密度 GC含量 具有操纵子结构
5’ 启动区
5’UTR 开放阅读框 3’UTR 终止区
3’
转录起始位点 起始密码子 终止密码子 转录终止位点
原核基因的典型结构
GC含量(GC content): 不同原核生物中,GC含量从25%~75%。 基因水平转移(horizontal gene trasfer)
起蛋白的改变? 这一段核酸序列上有没有特殊的功能位点? 物种之间有什么差距? 这段序列中是否有重复序列
基因识别
• 基因识别是生物信息学领域里的一个重要研 究内容
• 基因识别问题,在近几年受到广泛的重视
–当人类基因组研究进入一个系统测序阶段时, 急需可靠自动的基因组序列翻译解释技术,以处 理大量已测定的但未知功能或未经注释的DNA序 列
序列比对 功能注释 KEGG
GO 系统发育树
wk.baidu.com contents
1. 分子质量、碱基组成、碱基分布、序列转换、核酸序列基本 分析
2. 限制性酶切分析 3. 克隆测序分析 4. 测序中载体序列的识别与去除 5. 核酸序列拼接 6. 核酸序列的电子延伸 7. 开放阅读框(ORF)分析 8. 基因组序列编码区/内含子结构分析 9. CpG岛分析 10. cDNA和Genomic DNA比对 11. 基因启动子分析
–一个开放阅读框(ORF,open reading frame)是一个没有终止编码的密码子序列。
–原核基因识别任务的重点是识别开放阅读 框,或者说识别长的编码区域。
形成6个开放读码框
由于氨基酸是由三联密码子编码的,因 此DNA序列就包含三个不同的开放读码框,取 决于从第一、第二或第三位核苷酸开始(第四 位和第一位同框)。而双链DNA的两条链都可 以转录RNA,后者翻译蛋白质。因此,一个 DNA序列及其互补链可以有6个不同的读码框 (reading frames)。
等值区 可变剪接(alternativee splicing) 密码子使用偏性
cDNA序列 基因组序列
翻译
编码区预测
蛋白质序列
蛋白质理化性质 二级结构预测 结构域分析 重要信号位点分析 三级结构预测
基因结构分析
Codon bias
GC Content 酶切位点 引物设计
选择性剪切 SNP
进行序列分析也需要一些工具,这些工具包括在 线工具和本地化工具。
• 对于任何给定的核酸序列(单链DNA 或mRNA),根据密码子的起始位置, 可以按照三种方式进行解释。
• 例如,序列ATTCGATCGCAA (1) ATTCGATCGCAA (2) ATTCGATCGCAA (3) ATTCGATCGCAA
• 这三种阅读顺序称为阅读框(reading frames)