生物信息学软件及使用技巧

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

引物设计要点
► 可能的错误引发位点决定于引物序列组成与模
板序列组成的相似性,相似性高则错误引发率 高,错误引发的引发率一般不要高过100,最好 高,错误引发的引发率一般不要高过100,最好 没有错误引发位点,如此可以保证不出非目的 产物的假带。 ► 引物二聚体及发夹结构的能量一般不要超过4.5, 引物二聚体及发夹结构的能量一般不要超过4.5, 否则容易产生引物二聚体带,且会降低引物浓 度从而导致PCR正常反应不能进行。 度从而导致PCR正常反应不能进行。 ► 对引物的修饰一般是增加酶切位点,应参考载 体的限制酶识别序列确定,常常对上下游引物 修饰的序列选用不同限制酶的识别序列,以有 利于以后的工作。
structure
analysis topology prediction. prediction. ► 软件。如,Vecotr NTI, Antheprot 软件。如,Vecotr
Omiga 2.0 ORF Map
三、限制性酶切位点分析
定义:一种能识别特殊,短核苷酸序列,并在DNA 定义:一种能识别特殊,短核苷酸序列,并在DNA
二、分析mRNA开放读框 二、分析mRNA开放读框
分析步骤: 分析步骤:
► 获得尽量长的mRNA序列。 获得尽量长的mRNA序列。
► 分析可能的读框(六种)。
软件:Vector NTI, 软件:Vector NTI, Omiga 等。 在线: 在线:
/tools/dna.html) (/tools/dna.html)
引物设计要点
► 一般引物的长度为16-23bp,常用的长度为18一般引物的长度为16-23bp,常用的长度为18-
21bp,过长或过短都不合适。 21bp,过长或过短都不合适。 ► 引物3’端的碱基一般不用A,因为A在错误引发 引物3 端的碱基一般不用A,因为A 位点的引发效率相对比较高,而其它三种碱基 的错误引发效率相对小一些。 ► 引物的GC含量一般为45-55%,过高或过低都 引物的GC含量一般为45-55%,过高或过低都 不利于引发反应。上下游引物的GC含量不能相 不利于引发反应。上下游引物的GC含量不能相 差太大。 ► 引物所对应模板序列的Tm值最好在72℃左右, 引物所对应模板序列的Tm值最好在72℃ 当然由于模板序列本身的组成决定其Tm值可 当然由于模板序列本身的组成决定其Tm值可 能偏低或偏高,可根据具体情况灵活运用。
Cn3D 2.5 显示 1EQF A链三维结构 A链三维结构
十一、质粒绘图
► winplas ► Plasmid
processor ► DMUP beta ► Vector NTI
Winplas 2.6 质粒构建
七、DNA与蛋白质序列同源分析 七、DNA与蛋白质序列同源分析
(进化树构建)
不同情况: 不同情况:
Bioinformatics Basics
生物信息学软件及 使用技巧
吴元明 讲师
第四军医大学基础部 wuym@
生物信息学软件分类
► 单机分析软件:如winplas ► 在线分析软件: 如webcutter 在线分析软件: ► 生物学数据库: 如NCBI,DDBJ,EBI 生物学数据库:
Vector NTI 5.2 ---
contig Express
二、分析mRNA开放读框 二、分析mRNA开放读框
► (一)5’-UTR结构 (一)5’ UTR结构
1、mRNA5’端m7G帽有增强翻译水平的作用. mRNA5’ m7G帽有增强翻译水平的作用. 2、“上游AUG密码子”(位于起始AUG上游的其他AUG 上游AUG密码子” 位于起始AUG上游的其他AUG 密码子) 密码子)的存在往往抑制下游开放读框的翻译效率. 3、起始AUG旁侧序列对翻译效率的影响. 、起始AUG旁侧序列对翻译效率的影响. Kozak序列:GCCAUGG Kozak序列:GCCAUGG ► (二)3’-UTR结构 )3’ UTR结构 1.poly(A)尾增加翻译效率 poly(A)尾增加翻译效率 2.富含UA序列抑制翻译。 .富含UA序列抑制翻译。
引物设计要点
► ∆G值反映了引物与模板结合的强弱程度,也是一个 ∆G值反映了引物与模板结合的强弱程度,也是一个
重要的引物评价指标。 ► 一般情况下,在Oligo 5.0软件的∆G值窗口中,引物 一般情况下,在Oligo 5.0软件的∆G值窗口中,引物 的∆G值最好呈正弦曲线形状,即5’端和中间部分 ∆G值最好呈正弦曲线形状,即5 ∆G值较高,而3 ∆G值相对较低,且不要超过9 ∆G值较高,而3’端∆G值相对较低,且不要超过9 (∆G值为负值,这里取绝对值),如此则有利于正 ∆G值为负值,这里取绝对值),如此则有利于正 确引发反应而可防止错误引发。 ► 其原理,引物与模板应具有较高的结合能量,这样 有利于引物与模板序列的整合,因此5 有利于引物与模板序列的整合,因此5’端与中间段 的∆G值应较高,而3’端∆G值影响DNA聚合酶对模 ∆G值应较高,而3 ∆G值影响DNA聚合酶对模 板DNA的解链,过高则不利于这一步骤。 DNA的解链,过高则不利于这一步骤。
分析步骤: 分析步骤:
► 找到待分析的核酸序列。
► 利用Vector 利用Vector
NTI或其他软件分析。 NTI或其他软件分析。
注 意:
•DNA模拟电泳具有一定实验预示功能。 DNA模拟电泳具有一定实验预示功能。 DNA模拟电泳具有一定实验预示功能
•模拟电泳不能作为实验结果或依据。 模拟电泳不能作为实验结果或依据。 模拟电泳不能作为实验结果或依据
一、DNA 一、DNA 序列片断拼接(电子基因克隆)
► 获得感兴趣的EST,在dbEST数据库中找出EST的最有 获得感兴趣的EST,在dbEST数据库中找出EST的最有 dbEST
途径是寻找同源序列,标准:长度≥100bp,同源性 途径是寻找同源序列,标准:长度≥100bp,同源性 50%以上、85%以下。 50%以上、85%以下。 ► 然后将检出序列组装为重叠群(contig),以此重 然后将检出序列组装为重叠群(contig) 叠群为被检序列,重复进行BLAST检索与序列组装, 叠群为被检序列,重复进行BLAST检索与序列组装, 延伸重叠样系列,重复以上过程,直到没有更多的 重叠EST检出或者说重叠群序列不能继续延伸,有时 重叠EST检出或者说重叠群序列不能继续延伸,有时 可获得全长的基因编码序列。 ► 再与GeneBank核酸数据库进行相似性检测,假如有 再与GeneBank核酸数据库进行相似性检测,假如有 精确匹配基因,将EST序列数据据EST六种阅读框翻 精确匹配基因,将EST序列数据据EST六种阅读框翻 译成蛋白质,接着与蛋白质序列数据库进行比较分 析。
► 利用Vector 利用Vector
NTI软件分析。 NTI软件分析。
► 利用webcutter 利用webcutter
2.0在线分析。 2.0在线分析。 /cutter) (/cutter)
四、DNA模拟电泳 四、DNA模拟电泳
的某些位点上切割的蛋白质。细菌包含了400种 的某些位点上切割的蛋白质。细菌包含了400种 这样的酶,能识别和切割100种以上不同的DNA序 这样的酶,能识别和切割100种以上不同的DNA序 列。
如:EcoRI 识别序列
GAATTC GTTAAC
三、限制性酶切位点分析
分析步骤: 分析步骤:
► 找到待分析的核酸序列。
• 个体与数据库比较。
• 两个或两个以上个体比较。
分析方法: 分析方法:
► internet网络。如,NCBI的BLAST; internet网络。如,NCBI的BLAST;
ExPASy的Alignment. ExPASy的Alignment.
► 软件。如,Vecotr 软件。如,Vecotr
NTI
Bioinformatics Basics
生物信息学软件的意义
1. 分析和处理实验数据和公共数据,加快研 究进度,缩短科研时间。 2. 提示、指导、替代实验操作,利用对实验 数据的分析所得的结论设计下一阶段的实 验。 3. 用计算机管理实验数据。
Bioinformatics Basics
生物学软件常用功能(核酸类)► Nhomakorabea选取最可能的一种。看是否符合各种条 件。
目前应用的蛋白质结构预测的算法
1. 2. 3.
同源预测(一级结构决定高级结构) 同源预测(一级结构决定高级结构) 结构与结构相对比(DALI算法) 结构与结构相对比(DALI算法) 当前最先进的结构预测方法: 结构类识别(fold recognition) 结构类识别(fold recognition) 先建立一个已知的结构类数据库(fold 先建立一个已知的结构类数据库(fold library),将待测序列“穿过”该数据库构成的座 library),将待测序列“穿过”该数据库构成的座 标,并根据事先确定的物理限制,逐个位置移动 (threading, sequence-structure alignment) ,并 threading, sequence一个函数(sequence一个函数(sequence-structure fitness alignment) 判断序列与结构类的符合程度,找出未知序列在 目标结构上的能量最优和构象最稳固的比对位置。 对计算机要求很高。
DNA 序列片断拼接----Contig Express 序列片断拼接----Contig 分析mRNA开放读框 分析mRNA开放读框 限制性酶切位点分析 DNA 模拟电泳 PCR 引物设计 RNA二级结构分析 RNA二级结构分析
Bioinformatics Basics
生物学软件常用功能(蛋白类)
Vector NTI Suit 5.5 模拟电 泳
Gene Construction Kit 2.0 模 拟电泳
五、PCR 五、PCR 引物设计(杂交探针设计)
引物设计的原则
1. 2.
引物要跟模板紧密结合; 引物与引物之间不能有稳定的二聚体或 发夹结构存在;
3.
引物不能在别的非目的位点引起高效 DNA聚合反应(即错配) DNA聚合反应(即错配)。
引物设计需要考虑的因素 引物设计需要考虑的因素
如: ► 引物长度(primer length), 引物长度(primer length), ► 产物长度(product length), 产物长度(product length), ► 序列Tm值 序列Tm值 (melting temperature), temperature), ► ∆G值 ∆G值(internal stability), stability), ► 引物二聚体及发夹结构(duplex 引物二聚体及发夹结构(duplex formation and hairpin), hairpin), ► 错误引发位点(false 错误引发位点(false priming site), site), ► 引物及产物GC含量(composition),有时 引物及产物GC含量(composition),有时 还要对引物进行修饰,如增加限制酶切点,引 进突变等。
Vector NTI Suit AlignX 同源比较—主 同源比较— 窗口
Vector NTI Suit 同源比较—进化树 同源比较—
八、蛋白质一级结构分析
包括: 包括:
• • • • 氨基酸组成。 氨基酸组成。 PI MW 亚细胞定位
分析方法: 分析方法:
► internet网络。如,ExPASy的primary internet网络。如,ExPASy的
蛋白一级结构分析(氨基酸分析) 蛋白二级结构分析(结构域分析) 蛋白三级结构分析(空间结构分析)
Bioinformatics Basics
生物学软件常用功能(共同类)
DNA、蛋白质序列同源分析 DNA、蛋白质序列同源分析 进化树构建
生物学软件常用功能(其它类) 生物学软件常用功能(其它类)
质粒绘图类 图象处理软件
相关文档
最新文档