生物信息学软件及使用概述

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2. 提示、指导、替代实验操作,利用 对实验数据的分析所得的结论设计 下一阶段的实验
3. 实验数据的自动化管理 4. 寻找、预测新基因及其结构、功能 5. 蛋白质高级结构及功能预测(三维
建模,目前研究的焦点和难点)
功能1. 分析和处理实验数据和公共数据, 加快研究进度,缩短科研时间
➢ 核酸:序列同源性比较,分子进化树构建,结 构信息分析,包括基元(Motif)、酶切点、重复 片断、碱基组成和分布、开放阅读框(ORF), 蛋白编码区(CDS)及外显子预测、RNA二级 结构预测、DNA片段的拼接;
8. 网上数据库应用辅助:包括序列拉长 (扩大实验成果),Blastn/Blastp, NCBI Entrez查询(多维查询),新序列、 snip等申报
9. 蛋白质三维结构初步预测(此为生物信 息学目前研发的焦点,正在探索中,结 果可能不十分准确或者不能出结果)
结束
• The end!

树 立 质 量 法 制观念 、提高 全员质 量意识 。20.10.1920.10.19Monday, October 19, 2020
DNASIS 2.5 对蛋白编码区的预测 A. (Codon Bias)
DNASIS2.5 对蛋白编码区的预测 B. (Rare Codon)
DNASIS 2.5 对蛋白编码区的预测 C. (ORF List)
DNASTAR 之 GeneQuest 预测CDS
功能5.蛋白质高级结构预测
• 该项技术算法十分复杂,尚未成熟。PDB及 MMDB数据库目前仍然禁止收录软件预测出来 的蛋白高级结构模型。
➢ 蛋白:序列同源性比较,结构信息分析(包括 Motif,限制酶切点,内部重复序列的查找,氨 基酸残基组成及其亲水性及疏水性分析),等电 点及二级结构预测等等;
➢ 本地序列与公共序列的联接,成果扩大。
Antheprot 5.0 Dot Plot 点阵图
Dot plot 点阵图能够揭示多个局部相似性的复杂关系
DNA 模拟电泳
Tips
• DNA模拟电泳具有一定实验预示功能, • 模拟电泳不能作为实验结果或依据
Vector NTI Suit 5.5 模拟电泳
Gene Construction Kit 2.0 模拟电泳
重要的生物数据库
其他重要数据库
• 酵母基因组数据库(SGD) • 酵母蛋白质数据库(YPD) • 拟南芥数据库(AtDB) • 医学数据库(OMIM) • 线虫数据库(ACEDB)
引物设计要点
• 一般引物的长度为16-23bp,常用的长度为1821bp,过长或过短都不合适。
• 引物3’端的碱基一般不用A,因为A在错误引 发位点的引发效率相对比较高,而其它三种碱 基的错误引发效率相对小一些。
• 引物的GC含量一般为45-55%,过高或过低都 不利于引发反应。上下游引物的GC含量不能 相差太大。
生物信息学软件及使用概述
刘吉平 liujiping@scau.edu.cn
生物信息学的概念:
生物信息学是一门新兴的交叉学 科,它将数学和计算机知识应用于生 物学,以获取、加工、存储、分类、 检索与分析生物大分子的信息,从而 理解这些信息的生物学意义。
生物信息学软件主要功能
1. 分析和处理实验数据和公共数据, 加快研究进度,缩短科研时间
• 其原理,引物与模板应具有较高的结合能量,这样 有利于引物与模板序列的整合,因此5’端与中间 段的ΔG值应较高,而3’端ΔG值影响DNA聚合酶 对模板DNA的解链,过高则不利于这一步骤。
引物设计要点
• 可能的错误引发位点决定于引物序列组成与模 板序列组成的相似性,相似性高则错误引发率 高,错误引发的引发率一般不要高过100,最好 没有错误引发位点,如此可以保证不出非目的 产物的假带。
Reference Manager 9 界面
功能4. 用计算机预测新基因及其结构和功能
• 对CDS(Coding Sequence)蛋白编码区的预测准 确率已达到90%以上
• 对整个基因结构的预测存在一定难度
PWM(位置权重矩阵)算法 由物化原理技术开发,侧重于找基因表达系统和 核酸相互作用的位点。给信号序列各个位置每种 可能出现的核苷酸分配一个分数,ຫໍສະໝຸດ Baidu各位置分数 相加后得出该序列作为潜在作用位点的分数。
• 同源性指从一些数据中推断出的两个基因或蛋 白质序列具而共同祖先的结论,属于质的判断。 如 Alignment (同源性分析)
推荐软件
• 相似性分析 • Peptool Lite • 同源性分析
– Vector NTI 6---AlignX • Contig Express----DNA 序列片断拼接
• X射线晶体学技术和多维核磁共振技术是当前 人们认识蛋白高级结构的主要手段,但两种技 术都有不足之处。前者要求必需得到高标准的 蛋白晶体,后者对分子量大于3万的大蛋白不 能测定。因此理论模拟和结构预测显得十分重 要。
• 序列与结构关系的根源在于“蛋白质折叠的问 题”,这是近期研究关注的焦点。
DNASIS 2.5 蛋白二级结构预测
Peptool Lite--- Dot Plot 点阵图
DNASIS 2.5 RNA 二级结构预测
DNASIS 2.5 tRNA 二级结构预测
RNAStructure 3.5 RNA 二结构预测
Omiga 2.0 ORF Map
DNAStar 之 Protean 对氨基酸的亲疏水性 分析:helical wheel 图
不同颜色代表不同的AA
功能2. 提示、指导、替代实验操作,利用对实 验数据的分析所得的结论设计下一阶段的实验
1. 用软件设计PCR引物,测序引物或杂交探 针;
2. 设计克隆策略,构建载体; 3. 做模拟电泳实验,即模拟核酸内切酶或内
肽酶对相应的底物分子切割后的电泳行为; 4. 蛋白跨膜区域分析,信号肽潜在断裂点预
网上数据库的运用
ENTREZ 集成检索示意图
Entrez是由NCBI开发和维护的一个集成检索数据系 统,允许对pubmed,核苷酸和蛋白质的序列数据库, 三维结构信息和图谱信息进行集成访问。
四. 生物信息学主要服务内容
1. PCR引物、测序引物及杂交探针的设 计及评价
2. DNA,蛋白质序列同源分析及进化树 构建
RasMol 2.7 显示1EQF A链三维结构
二.常见的部分生物学软件功能介绍
➢PCR 引物设计 ➢DNA、蛋白质序列同源分析及进化树构建 ➢Contig Express----DNA 序列片断拼接 ➢DNA 模拟电泳 ➢重要生物数据库简介
PCR 引物设计
引物设计的原则
1. 引物要跟模板紧密结合; 2. 引物与引物之间不能有稳定的二聚体或
Vector NTI Suit 同源比较—主窗口
Vector NTI Suit 同源比较—进化树 Nosema granulosis Nosema furnacalis Vairimorpha imperfecta Nosema tyriae MG5 Nosema bombycis Nosema bombycis Nosema bombycis Nosema sp. Vairimorpha sp. Mh8535 MG4 Mh7521 N.B Nosema cernanae Vairimorpha necatrix Nosema necatrix Nosema oulemae C.S Nosema sp. P.R MG2 Vairimorpha sp. Nosema sp. Nosema portugal Microsporidium sp. Nosema vespula Vairimorpha lymantriae Vairimorpha sp. Nosema apis Nosema apis
逐个位置移动(threading, sequence-
structure alignment) ,由一个函数 (sequence-structure fitness alignment) 判断序
列与结构类的符合程度,找出未知序列在目标
结构上的能量最优和构象最稳固的比对位置。
对计算机要求很高。
Cn3D 2.5 显示 1EQF A链三维结构
3. 生物大分子二级结构模拟显示及基本 序列分析
四. 生物信息学主要服务内容
4. 有关蛋白质亲疏水性,等电点,抗原性, 跨膜蛋白,信号肽等分析以及Dot Plot 服务
5. 质粒载体构建及克隆策略 6. 小型数据库建设及协助实验室进行数据
管理维护
四. 生物信息学主要服务内容
7. 医学相关的图像、病例统计、分析及小 型数据库建设
发夹结构存在; 3. 引物不能在别的非目的位点引起高效
DNA聚合反应(即错配)。
引物设计需要考虑的因素
如:
• 引物长度(primer length), • 产物长度(product length), • 序列Tm值 (melting temperature), • ΔG值(internal stability), • 引物二聚体及发夹结构(duplex formation and hairpin), • 错误引发位点(false priming site), • 引物及产物GC含量(composition),有时 还要对引物进行修饰,如增加限制酶切点,引 进突变等。

安 全 在 于 心 细,事 故出在 麻痹。 20.10.1920.10.1920:46:3020:46:30October 19, 2020

人 生 得 意 须 尽欢, 莫使金 樽空对 月。20:46:3020:46:3020:4610/19/2020 8:46:30 PM

安 全 象 只 弓 ,不拉 它就松 ,要想 保安全 ,常把 弓弦绷 。20.10.1920:46:3020:46Oct-2019-Oct-20

加 强 交 通 建 设管理 ,确保 工程建 设质量 。20:46:3020:46:3020:46Monday, October 19, 2020
• 推荐使用自动搜索软件:
Primer Premier 5.0
• 推荐使用引物评价软件:
Oligo 5/6
OLIGO 5.0 PCR 引物设计
DNA、蛋白质序列同源分析及 进化树构建
相似性与同源性
• 相似性是指一种很直接的数量关系,比如部分 相同或相似的百分比或其它一些合适的度量。 可进行自身局部比较。 如 Dot Plot (点阵序列比较)
• 引物二聚体及发夹结构的能量一般不要超过4.5, 否则容易产生引物二聚体带,且会降低引物浓 度从而导致PCR正常反应不能进行。
• 对引物的修饰一般是增加酶切位点,应参考载 体的限制酶识别序列确定,常常对上下游引物 修饰的序列选用不同限制酶的识别序列,以有 利于以后的工作。
关于引物的自动搜索和评价分析
目前应用的蛋白质结构预测的算法
1. 同源预测(一级结构决定高级结构)
2. 结构与结构相对比(DALI算法)
3. 当前最先进的结构预测方法:
4. 结构类识别(fold recognition)
5.
先建立一个已知的结构类数据库
(fold library),将待测序列“穿过”该数据
库构成的坐标,并根据事先确定的物理限制,
测。
Winplas 2.6 质粒构建
Atheprot 5.0 预测蛋白跨膜区域
Antheprot 5.0 预测信号肽断裂点
功能3. 用计算机管理实验室数据及文献资料
1. 实验室结果的储存、管理和申报工作; 2. 从 网 络 数 据 库 获 得 的 序 列 文 件 ( 由
ENTREZ集成检索系统所得的数据文件可 以进入EndNote 或者Reference Manager 储存管理)或资料文献的管理; 3. 软件: EndNote,Reference Manager 。
• 引物所对应模板序列的Tm值最好在72℃左右, 当然由于模板序列本身的组成决定其Tm值可 能偏低或偏高,可根据具体情况灵活运用。
引物设计要点
• ΔG值反映了引物与模板结合的强弱程度,也是一 个重要的引物评价指标。
• 一般情况下,在Oligo 5.0软件的ΔG值窗口中,引 物的ΔG值最好呈正弦曲线形状,即5’端和中间部 分ΔG值较高,而3’端ΔG值相对较低,且不要超 过9(ΔG值为负值,这里取绝对值),如此则有利 于正确引发反应而可防止错误引发。
相关文档
最新文档