第四章 生物信息学软件及使用
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
引物二聚体及发夹结构 (duplex formation and hairpin)
错误引发位点(false priming site) 引物及产物GC含量(composition),有时还要对引物 进行修饰,如增加限制酶切点,引进突变等。
3)引物设计要点 一般引物的长度为16-23bp,常用的长度为18-21bp,过 长或过短都不合适。 引物3’端的碱基一般不用A,因为A在错误引发位点的引发
引物评价指标。 一般情况下,在Oligo 5.0软件的ΔG值窗口中,引物的ΔG值 最好呈正弦曲线形状,即5’端和中间部分ΔG值较高,而3’端 ΔG值相对较低,且不要超过9(ΔG值为负值,这里取绝对 值),wenku.baidu.com此则有利于正确引发反应而可防止错误引发。 其原理,引物与模板应具有较高的结合能量,这样有利于引 物与模板序列的整合,因此5’端与中间段的ΔG值应较高,
据的分析所得的结论设计下一阶段的实验
1. 用软件设计PCR引物,测序引物或杂交探针;
2. 设计克隆策略,构建载体;
3. 做模拟电泳实验,即模拟核酸内切酶或内肽酶对相应 的底物分子切割后的电泳行为; 4. 蛋白跨膜区域分析,信号肽潜在断裂点预测。
Winplas 2.6 质粒构建
Atheprot 5.0 预测蛋白跨膜区域
2.1 PCR 引物设计
1)引物设计的原则 引物要跟模板紧密结合; 引物与引物之间不能有稳定的二聚体或发夹结构存在;
引物不能在别的非目的位点引起高效DNA聚合反应(即
错配)。
2)引物设计需要考虑的因素 引物长度(primer length) 产物长度(product length) 序列Tm值 (melting temperature) ΔG值 (internal stability)
and approaches for expanding the use of biological, medical, behavioral or health data, including those to acquire, store, organize, archive, analyze, or visualize such data.)
Cn3D 2.5 显示 1EQF A链三维结构
RasMol 2.7 显示1EQF A链三维结构
2. 常见的部分生物学软件功能介绍
2.1 PCR 引物设计
2.2 DNA、蛋白质序列同源分析及进化树构建
2.3 Contig Express----DNA 序列片断拼接
2.4 DNA 模拟电泳 2.5 重要生物数据库简介
Vector NTI Suit 5.5 模拟电泳
Gene Construction Kit 2.0 模拟电泳
2.5 重要的生物数据库 三大数据库
• NCBI (美国) http://www.ncbi.nlm.nih.gov • DDBJ (日本) http://www.ddbj.nig.ac.jp
DNASIS 2.5 tRNA 二级结构预测
RNAStructure 3.5 RNA 二结构预测
Omiga 2.0 ORF Map
DNAStar 之 Protean 对氨基酸的亲疏水性 分析:helical wheel 图
不同颜色代表不同的AA
功能2. 提示、指导、替代实验操作,利用对实验数
DNASIS 2.5 对蛋白编码区的预测 A. (Codon Bias)
DNASIS2.5 对蛋白编码区的预测 B. (Rare Codon)
DNASIS 2.5 对蛋白编码区的预测 C. (ORF List)
DNASTAR 之 GeneQuest 预测CDS
功能5.蛋白质高级结构预测
1. 该项技术算法十分复杂,尚未成熟。PDB及MMDB数
Antheprot 5.0 预测信号肽断裂点
功能3. 用计算机管理实验室数据及文献资料
1. 实验室结果的储存、管理和申报工作; 2. 从网络数据库获得的序列文件(由ENTREZ集成检索
系统所得的数据文件可以进入EndNote 或者
Reference Manager 储存管理)或资料文献的管理; 3. 软件: EndNote,Reference Manager 。
而3’端ΔG值影响DNA聚合酶对模板DNA的解链,过高则不
利于这一步骤。
可能的错误引发位点决定于引物序列组成与模板序列组成 的相似性,相似性高则错误引发率高,错误引发的引发率
一般不要高过100,最好没有错误引发位点,如此可以保 证不出非目的产物的假带。
引物二聚体及发夹结构的能量一般不要超过4.5,否则容易 产生引物二聚体带,且会降低引物浓度从而导致PCR正常 反应不能进行。 对引物的修饰一般是增加酶切位点,应参考载体的限制酶 识别序列确定,常常对上下游引物修饰的序列选用不同限 制酶的识别序列,以有利于以后的工作。
• EBI (欧洲)
http://www.ebi.ac.uk/index.html
酵母基因组数据库(SGD) 酵母蛋白质数据库(YPD) 拟南芥数据库(AtDB) 医学数据库(OMIM) 线虫数据库(ACEDB)
网上数据库的运用
• http://www.labonweb.com IRACE (基因拉长功能)
如 Dot Plot (点阵序列比较)推荐软件: Peptool Lite
同源性指从一些数据中推断出的两个基因或蛋白质序列具而
共同祖先的结论,属于质的判断。 如 Alignment (同源性分析)推荐软件: Vector NTI 6---AlignX
Vector NTI Suit 同源比较—主窗口
Bioinfromatics
第三章:生物信息学软件及使用概述
第一讲:生物信息学软件概述
1. 生物信息学软件主要功能
2. 常见的部分生物学软件功能介绍 3. 生物信息学主要服务内容
第二讲:生物信息学软件应用实例 ──NCBI
第一讲:生物信息学软件概述
美国国家卫生研究院(NIH)的定义: Bioinformatics (Research, development, or application of computational tools
DNASIS 2.5 蛋白二级结构预测
目前应用的蛋白质结构预测的算法 1. 同源预测(一级结构决定高级结构) 2. 结构与结构相对比(DALI算法)
3. 当前最先进的结构预测方法:
结构类识别(fold recognition) 先建立一个已知的结构类数据库(fold library),将待测 序列“穿过”该数据库构成的坐标,并根据事先确定的物理 限制,逐个位置移动(threading, sequence-structure alignment) , 由一个函数(sequence-structure fitness alignment) 判断序列与 结构类的符合程度,找出未知序列在目标结构上的能量最优 和构象最稳固的比对位置。对计算机要求很高。
亲水性及疏水性分析),等电点及二级结构预测等等;
本地序列与公共序列的联接,成果扩大。
Antheprot 5.0 Dot Plot 点阵图
Dot plot 点阵图能够揭示多个局部相似性的复杂关系
Peptool Lite--- Dot Plot 点阵图
DNASIS 2.5 RNA 二级结构预测
效率相对比较高,而其它三种碱基的错误引发效率相对小
一些。 引物的GC含量一般为45-55%,过高或过低都不利于引发
反应。上下游引物的GC含量不能相差太大。
引物所对应模板序列的Tm值最好在72℃左右,当然由于 模板序列本身的组成决定其Tm值可能偏低或偏高,可根 据具体情况灵活运用。
ΔG值反映了引物与模板结合的强弱程度,也是一个重要的
Reference Manager 9 界面
功能4. 用计算机预测新基因及其结构和功能
1. 对CDS(Coding Sequence)蛋白编码区的预测准确率已 达到90%以上 2. 对整个基因结构的预测存在一定难度 PWM(位置权重矩阵)算法 由物化原理技术开发,侧重于找基因表达系统和核酸相互 作用的位点。给信号序列各个位置每种可能出现的核苷酸 分配一个分数,将各位置分数相加后得出该序列作为潜在 作用位点的分数。
Nosema vespula
Vairimorpha lymantriae Vairimorpha sp. Nosema apis Nosema apis
2.3 Contig Express----DNA 序列片断拼接
2.4 DNA 模拟电泳 • DNA模拟电泳具有一定实验预示功能 • 模拟电泳不能作为实验结果或依据
• BLAST同源序列检索
• ENTREZ SYSTEM (集成信息检索系统)
ENTREZ 集成检索示意图
Entrez是由NCBI开发和维护的一个集成检索数据系 统,允许对pubmed,核苷酸和蛋白质的序列数据库, 三维结构信息和图谱信息进行集成访问。
3. 生物信息学主要服务内容
PCR引物、测序引物及杂交探针的设计及评价 DNA,蛋白质序列同源分析及进化树构建 生物大分子二级结构模拟显示及基本序列分析 有关蛋白质亲疏水性,等电点,抗原性,跨膜蛋白,信号肽等分析以及Dot Plot服务
为拓展生物学、医学、行为学和卫生学数据的用途,而进行有关计 算机方法手段的研究、开发与应用,包括此类数据的采集、存贮、整理、 归档、分析与可视化。
生物学家 (生物学问题)
数学物理学家 计算机科学家 (基础理论问题)
工程师 (技术应用)
1. 生物信息学软件主要功能
功能一:分析和处理实验数据和公共数据,加快研究进度, 缩短科研时间 功能二:提示、指导、替代实验操作,利用对实验数据的 分析所得的结论设计下一阶段的实验 功能三:实验数据的自动化管理
Vector NTI Suit 同源比较—进化树
Nosema granulosis Nosema furnacalis Vairimorpha imperfecta Nosema tyriae MG5 Nosema bombycis Nosema bombycis Nosema bombycis Nosema sp. Vairimorpha sp. Mh8535 MG4 Mh7521 N.B Nosema cernanae Vairimorpha necatrix Nosema necatrix Nosema oulemae C.S Nosema sp. P.R MG2 Vairimorpha sp. Nosema sp. Nosema portugal Microsporidium sp.
据库目前仍然禁止收录软件预测出来的蛋白高级结构 模型。 2. X射线晶体学技术和多维核磁共振技术是当前人们认 识蛋白高级结构的主要手段,但两种技术都有不足之 处。前者要求必需得到高标准的蛋白晶体,后者对分 子量大于3万的大蛋白不能测定。因此理论模拟和结 构预测显得十分重要。 3. 序列与结构关系的根源在于“蛋白质折叠的问题”, 这是近期研究关注的焦点。
功能四:寻找、预测新基因及其结构、功能
功能五:蛋白质高级结构及功能预测(三维建模,目前研
究的焦点和难点)
功能1. 分析和处理实验数据和公共数据,加快研究 进度,缩短科研时间
核酸:序列同源性比较,分子进化树构建,结构信息分
析,包括基元(Motif)、酶切点、重复片断、碱基组成和
分布、开放阅读框(ORF),蛋白编码区(CDS)及外 显子预测、RNA二级结构预测、DNA片段的拼接; 蛋白:序列同源性比较,结构信息分析(包括Motif,限 制酶切点,内部重复序列的查找,氨基酸残基组成及其
4)关于引物的自动搜索和评价分析 • 推荐使用自动搜索软件: Primer Premier 5.0 • 推荐使用引物评价软件: Oligo 5/6
OLIGO 5.0 PCR 引物设计
2.2 DNA、蛋白质序列同源分析及进化树构建
相似性与同源性 相似性是指一种很直接的数量关系,比如部分相同或相似的 百分比或其它一些合适的度量。可进行自身局部比较。