生物信息学常用工具,作用及操作流程

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

用于分析DNA、RNA以及蛋白质一级结构
1、VecScreen用于分析未知序列的长度、载体序列的区域、判断可能使用的克隆载体。

操作过程：NCBI→Resource List (A-Z)→V→VecScreen→输入序列→Run VecScreen→获得结果
2、RepeatMasker用于分析未知序列的重复序列情况，输出重复序列的区域、包含的所有重复序列的类型、重复序列的总长度及Masked Sequence。

操作流程：
RepeatMasker Home Page→RepeatMasking→输入文本→选择参数→submit sequence→Results→选择所需结果
3、使用CpGPlot工具，分析未知序列的CpG岛的长度、区域、GC数量及Obs/Exp 值。

EMBL→service→Search “cpg”→EMBOSS cpgplot→输入序列→选择参数→submit→得到结果
4、Neural Network Promoter Prediction和Splice Site Prediction用于预测未知序列的启动子，获得可能的启动子序列及相应的位置。

Neural Network Promoter Prediction
BDGP: Home→Analysis Tools→Promoter Prediction→输入序列→选择参数→submit →得到结果
Splice Site Prediction
Splice Site Prediction→输入序列→选择参数（物种）→submit→得到结果
这两个都是bdgp里边的，sp这个直接能进去操作。

5、ORF finder用于分析未知序列开放阅读框的预测，寻找潜在的蛋白质编码片段，并进行六框翻译（概念性翻译）。

操作流程
NCBI→Resource List (A-Z)→ORF finder→输入序列→选择参数→submit→获得结果→选择符合要求的形式的结果
6、GENSCAN，用于未知序列综合分析，预测来自各种生物的基因组序列中基因的位置和外显子结构，并对其进行概念性翻译。

同时可以获得未知序列的长度以及C+G含量。

(首先确定给定序列的物种来源)
操作流程：
GENSCAN→输入序列→选择参数→Run GENSCAN→得到结果
7、REBASE是限制性内切酶数据库，用于分析限制性核酸内酶的Recognition Sequence和Type（识别序列和酶切类型）。

Official REBASE Homepage→输入酶的名字→GO→得到结果
8、NEBcutter V2.0用于分析实验序列的可能酶切位点，选择合适的酶进行消化分析，获得虚拟凝胶电泳图。

NEBcutter V2.0→输入序列→选择参数→submit→得到酶切结果
Custom digest→选择合适的酶→digest→得到结果→
View gel→选择参数→ok→的到结果
9、Genefisher和Primer 3.0是引物设计工具，能够根据实验要求设定参数，针对未知序列设计符合实验要求的引物。

Genefisher运行不了
Primer 3.0
Primer3 Input→输入序列→选择参数→pick primers→得到结果→选择符合要求的引物
蛋白质操作都是在ExPASy中进行的
ExPASy→proteomics→Ctrl+F→搜索（要用的工具）→输入（蛋白质）序列→选
择参数→(submit)运行
1、Compute pI/MW程序预测蛋白质的分子量及等电点。

（无参数click here to compute pI/MW）
2、ProtParam 分析蛋白质的基本物理化学性质。

（相对分子质量、理论pI值、氨基酸组成信息、原子组成、消光系数、半衰期、不稳定系数以及总平均亲水性等）（无参数、compute parameters）
3、ProtScale 用于分析蛋白质的亲水性和疏水性，获得亲疏性图谱，确定其疏水亲水区域的大致范围
4、PeptideMass 用于分析蛋白质酶切和化学试剂处理后的内切产物.(选择指定的酶、参数默认、perform）
5、Signa lP用于分析蛋白质是否存在信号肽，以及其切割位点。

（选择相应的参数）
6、SOPMA用于预测蛋白质二级结构。

（输入物种、选择二级结构类型)
1、VRT：分类码
2、数据库的特征：可检索、定时更新、数据库间可交叉链接引用。

3、世界三大数据库：NCBI EMBL DDBJ
4、数据库格式：文字说明、序列（fasta格式> ,文字说明，序列）
5、数据库条目：描述符、主序列本身、序列特征的生物信息的注释
GenBank数据库的数据来源：直接来源于测序工作者提交的序列、与其它数据机构协作交换的数据、美国专利局提供的专利数据。

2002年，PIR、SIR、EBI合并了分属旗下的PIR-PSD、Swiss-prot 和TrEMBL数据库，形成了统一的蛋白质数据库UniProt。

数据库搜索：通过相似性比对算法，从数据库中找到与检测序列具有一定程度相似性的序列。

数据库查询：（数据库检索）：与互联网搜索引擎查找信息概念相同。

进行关键词匹配。

同一性：两个序列之间完全相同的匹配残基数目。

相似性：用来描述序列之间相同或相似DNA碱基或氨基酸残基序列所占比例的高低。

同源性：通过一些数据，判断出两个基因进化上曾具有共同祖先的结论。

序列之间的相似程度是可以量化的参数，而序列是否同源需要有进化事实验证。

相似度越大，两个序列越相似。

两个序列之间距离越大，相似度就越低。

序列比对最终实现依赖于数学模型，模型参数不同也可能导致对比结果不同。