核酸序列分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
可输出为.txt的文本格式文件。
DNAMAN查看测序峰图
调节按钮
导出序列
测序峰图导出的文本
再“载入序列” →“选定项目”后就可 以直接载入软件中分析!
Bioedit查看测序峰图
选择“copy Fasta formatted”, 相当于将文件中的序列以Fasta格 式复制,可黏贴到记事本中。
序列比对 功能注释 KEGG GO 系统发育树
contents
1. 分子质量、碱基组成、碱基分布、序列转换、核酸序列基本 分析 2. 限制性酶切分析
3. 克隆测序分析 4. 测序中载体序列的识别与去除 5. 核酸序列拼接 6. 核酸序列的电子延伸 7. 开放阅读框(ORF)分析 8. 基因组序列编码区/内含子结构分析
• 非翻译区域(untranslated regions, UTR) –编码区域两端的DNA,有一部分被 转录,但是不被翻译,这一部分称为 非翻译区域
• 5’UTR---基因上游区域的非翻译区域 • 3’UTR---基因下游区域的非翻译区域
• 对于任何给定的核酸序列(单链DNA 或mRNA),根据密码子的起始位置, 可以按照三种方式进行解释。 • 例如,序列ATTCGATCGCAA (1) ATTCGATCGCAA (2) ATTC GATCGCAA (3) ATTCGATCGCAA
第五章 核酸序列分析
生命之书的阅读
1、对生物个体的阅读 2、同种生物不同个体之间的比较分 析 3、不同物种比较 更重要的是找出差异的结果
一段核酸序列上可能有什么?
我们能用生物信息学对核 酸序列进行哪些分析?
在DNA序列中那些是基因?外显子?内含子?
这些基因编码什么蛋白? 这些基因有那些不同,不同会产生什么效果?会不会引 起蛋白的改变? 这一段核酸序列上有没有特殊的功能位点? 物种之间有什么差距? 这段序列中是否有重复序列
5’UTR 开放阅读框 3’UTR 终止区
3’
转录起始位点 起始密码子 终止密码子 转录终止位点
原核基因的典型结构
GC含量(GC content): 不同原核生物中,GC含量从25%~75%。 基因水平转移(horizontal gene trasfer) 许多细胞基因组表现具有不同GC含量的区域的 组合物,这些区域反映了细菌的进化历史。
EMBL的载体识别程序 http://www.ebi.ac.uk/blastall/vectors.html
NCBI中载体分析服务网页截图
输入序列
发现载体序列
EMBL中载体分析服务网页截图
结 果
5. 核酸序列拼接
通过2个及2个以上测序反应获得的序列都要拼接成 一个完整的序列,实验室小规模测序获得的各序列 可以通过常规分子生物学软件非常容易地拼接到一 起,形成一条完整的序列,也即形成一条contig。 这类软件包括:DNAMAN、 DNASTAR、Genetool等。
• 这三种阅读顺序称为阅读框(reading frames)
–一个开放阅读框(ORF,open reading frame)是一个没有终止编码的密码子序列。 –原核基因识别任务的重点是识别开放阅读 框,或者说识别长的编码区域。
形成6个开放读码框
由于氨基酸是由三联密码子编码的,因 此DNA序列就包含三个不同的开放读码框,取 决于从第一、第二或第三位核苷酸开始(第四 位和第一位同框)。而双链DNA的两条链都可 以转录RNA,后者翻译蛋白质。因此,一个 DNA序列及其互补链可以有6个不同的读码框 (reading frames)。
神经网络系统
大多数进行预测的软件都采用了神经网络系 统,赋予软件“学习”的功能,在应用之前必须 经过输入一定的训练集的一个学习的过程,所以 在使用预测工具时一定注意该工具的训练集是什 么。
1.原核基因组的特点
长开放阅读框 简单的基因结构 高基因密度 GC含量 具有操纵子结构
5’
启动区
克隆测序分析是分子生物学实验日常操作之一,
一般情况下单次测序将产生 300-500bp的序列,或
800-900bp的序列。将测序峰图识别为序列的过程 称为碱基读出( base calling )。送交专业公司进 行测序的结果返回后需要对所测序列进行一系列 后续分析,如测序峰图的查看和载体序列的去除
本地化工具有免费的也有收费的,免费的一般可 以从网上下载。其中,www.bio-soft.net收录、介 绍了大量生物软件及生物软件的使用方法,同时 还有一些在线分析工具。
1. 分子质量、碱基组成、碱基分布、序列 转换酸序列基本分析
核酸序列的分子质量、碱基组成、碱基分布等分
析序列转换
反向序列,互补序列,反向互补序列,显示双良,
等值区 可变剪接(alternativee splicing) 密码子使用偏性
cDNA序列
翻译
基因组序列
编码区预测
基因结构分析
蛋白质序列
蛋白质理化性质 二级结构预测 结构域分析 重要信号位点分析 三级结构预测
Codon bias GC Content 酶切位点 引物设计
选择性剪切 SNP
基因识别
• 基因识别是生物信息学领域里的一个重要研 究内容 • 基因识别问题,在近几年受到广泛的重视
–当人类基因组研究进入一个系统测序阶段时, 急需可靠自动的基因组序列翻译解释技术,以处 理大量已测定的但未知功能或未经注释的DNA序 列
基因识别——使用计算机手段识别DNA序列上 的具有生物学特征的片段,其对象主要是蛋白 质编码基因,也包括其他具有一定生物学功能 的因子,如RNA、MicroRNA基因等一些非编码 基因,基因识别是生物信息学领域里的一个重 要研究内容。
基因语言的特点
真核生物中有很多重复序列,拷贝在几十几百到几万。 通常是不编码的序列
• • • • 真核生物基因是不连续的 真核生物的启动子和增强子 真核生物的基因有一些特定的模式 由于进化的原因,基因序列比较保守
基因预测的基本原则
1、 如果一个序列中某一区域出现重复序列, 该区域不大可能出现在编码区域。 2、 如果某一片段与其它基因或基因产物有序列 相似性,该片段是外显子的可能性极大。
GTTAAC
限制酶数据库网页截图
输入内切酶的名称, 可查询其识别序列及 酶切位点
以DNAMAN为例
载入序列
目标DNA默认为线状, 若选择“环状”,则出 现的酶切图谱为环状。
可选“DNase”或 “DNA内切酶”
选 择 酶
在“酶文件”、“全选”、 “长度”及“末端”等选 项的选择都完成后→“完 成”。
百度文库
复杂的基因结构
外显子 外显子 启动区 5’UTR 内含子 内含子 5’ 转录位点 起始密码子 剪切受体位点 终止密码子 外显子 内含子 3’UTR终止区 3’
剪切给体位点
复杂的基因转录调控方式 内含子 GT----AC规则 CpG岛
真核生物基因组GC含量没有原核生 物差异那么明显.但在人基因5‘端 有CpG岛,大约有45,000这 样的岛,有一半和持家基因有关。
其它的软件还有 BioEdit 和 DNAMAN 等也都具有 该功能。
Chromas.exe查看测序峰图
打开.ab1文件。
开始一段序列的信号很杂乱,几乎难以辨别,主要 是因为残存的染料单体造成的干扰峰所致。该干扰 峰和正常序列峰重叠在一起;另外,测序电泳开始 阶段电压有一个稳定期,所以经常有20-50 bp 的紧 接着引物的片段读不清楚,有时甚至更长。
2.真核基因识别问题
真核基因远比原核基因复杂:
• 一方面,真核基因的编码区域是非连续 的,编码区域被分割为若干个小片段。 • 另一方面,真核基因具有更加丰富的基 因调控信息,这些信息主要分布在基因 上游区域。
真核基因组特点:
规模庞大——人类基因组 3×109 bp 大肠杆菌基因组 5 ×107 bp 巨大的非编码序列
及序列装配等过程。当然,服务较好的测序公司
后续工作做的也较好。
一般地,单次测序的正确率在500bp左右。
测序峰图查看
为了核实测序的准确性,往往需要对测序峰文件 进行直接分析。 Windows 环境下最简单的峰图查
看程序是澳大利亚的Chromas.exe程序,这是一个
专业程序,运行快、操作简单。
序列拼接在线服务
粘贴序列
结果链接
结果
?对于基因组未进行测序的物种,只知道某一
基因的partial CDS区,如何获得其全长cDNA 序列?
6. 核酸序列的电子延伸
随着各基因组计划的顺利进行,很多实验室采用 cDNA文库大规模测序策略获得了大量表达序列 标签(Expressed Sequence Tag,EST)和较长的 cDNA序列。但在大多数情况下,全长cDNA的获 得严重制约着新基因发现。同时很多实验室采用 差异显示PCR (different display PCR, DD-PCR)、 代表性差异分析(representational difference analysis, RDA)等技术发现了大量具有潜在应用 价值的新基因片断,但同样面临全长cDNA序列 难以获得的问题。
得到的结果
显示转换后的不同序列
序列基本信息 具 体 序 列
2. 限制性酶切分析
限制型酶切分析是分子生物学实验中日常工作之一。
限制酶数据库提供了较全面的限制酶相关信息
地址为:http://rebase.neb.com/rebase/rebase.html
大多数分子生物学软件都具有限制性酶切分析功能,
3、 一段序列上存在统计的规则性,表现为 密码子偏好,是蛋白编码区最明显的标志。
4、 与模板模式相符可能指出DNA上功能位点 的位置。
密码子偏好 编码蛋白对某一个物种有偏好使用某 一密码子的现象,称为密码子偏好。
进行基因预测的基本方法
1、遮蔽重复序列 寻找DNA序列中基因不可能出现的区域, 并将此遮蔽起来; 2、进行序列对比寻找相似性 将预测的DNA与数据库中的DNA数据 aligment, 寻找保守区域; 3、寻找功能性位点 寻找起始密码、终止密码和剪接位点等; 4、找出编码区 将全部收集到的信息汇总成总体上尽可 能连贯的谱图。 5、DNA翻译
完全可以轻松地实现限制性酶切分析功能,这方面
的软件如:DNAMAN、Bioedit、DNAStar软件包等。
限制性酶切位点
一种能识别特殊,短核苷酸序列, 并在DNA的某些位点上切割的蛋白质。 细菌包含了400种这样的酶,能识别和 切割100种以上不同的DNA序列。
如:EcoRI 识别序列
GAATTC
甲基化情况 分析结果
以线状图示酶切 位点
以环状图示酶切 位点
每种酶的单酶切电 泳模拟图
2.以BioEdit软件 为例
碱基组成 序列转换 ORF的查找 翻译成相对应 的蛋白质 内切酶的识别
参数选择区
显示序列中的酶切位点
显示内切酶识别的位置
显示序列中不存在的内 切酶
3. 克隆测序分析
调节按钮
4. 测序中载体序列的识别与去除
许多数据库中收集了常用的测序载体序列,使用Blast程序对 此类数据库进行相似性分析即可得知目的序列中是否含有载 体序列。如果是,在对测序数据进行进一步分析之前必须将 载体序列去除。此过程虽然很简单,在核酸序列数据库中仍 然有一些序列含有载体序列污染。 NCBI的载体识别程序 http://www.ncbi.nlm.nih.gov/VecScreen/VecScreen.html
以DNAMAN软件为例:序列拼接
待拼接序列显示区
某次测序的结果有两个序列, 将其拼成一条。
拼接结果
导出的是拼接后的序列
序列拼接在线服务
核酸在线拼接软件:CAP3(contig assembly program)
http://pbil.univ-lyon1.fr/cap3.php 可以自己以关键词搜索,还有其他软件。
9. CpG岛分析
10. cDNA和Genomic DNA比对 11. 基因启动子分析
进行序列分析也需要一些工具,这些工具包括在 线工具和本地化工具。
在线工具资源可以通过看资料、读相关文章获得 (如前面提到的“核酸研究”上的在线服务专 辑),也可以利用搜索工具(google等)到网上搜寻 或到论坛询问。
转化为RNA,转换为蛋白质
可以通过一些常用软件如: DNASTAR,Bioedit , Genetool、DNAStar等进行。下面我们以小鼠SOD1 基因为例,利用DNAMAN软件进行上述分析。
以DNAMAN软件为例
打开序列
展示序列:Sequence---Display Sequence
进行序列分析时,经常需要对DNA序列进行各种变换,如反向 序列、互补序列、互补反向序列、显示DNA双链、转换为RNA 序列等。