生物信息学常用工具,作用及操作流程
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
用于分析DNA、RNA以及蛋白质一级结构
1、VecScreen用于分析未知序列的长度、载体序列的区域、判断可能使用的克隆载体。
操作过程:NCBI→Resource List (A-Z)→V→VecScreen→输入序列→Run VecScreen→获得结果
2、RepeatMasker用于分析未知序列的重复序列情况,输出重复序列的区域、包含的所有重复序列的类型、重复序列的总长度及Masked Sequence。
操作流程:
RepeatMasker Home Page→RepeatMasking→输入文本→选择参数→submit sequence→Results→选择所需结果
3、使用CpGPlot工具,分析未知序列的CpG岛的长度、区域、GC数量及Obs/Exp 值。
EMBL→service→Search “cpg”→EMBOSS cpgplot→输入序列→选择参数→submit→得到结果
4、Neural Network Promoter Prediction和Splice Site Prediction用于预测未知序列的启动子,获得可能的启动子序列及相应的位置。
Neural Network Promoter Prediction
BDGP: Home→Analysis Tools→Promoter Prediction→输入序列→选择参数→submit →得到结果
Splice Site Prediction
Splice Site Prediction→输入序列→选择参数(物种)→submit→得到结果
这两个都是bdgp里边的,sp这个直接能进去操作。
5、ORF finder用于分析未知序列开放阅读框的预测,寻找潜在的蛋白质编码片段,并进行六框翻译(概念性翻译)。
操作流程
NCBI→Resource List (A-Z)→ORF finder→输入序列→选择参数→submit→获得结果→选择符合要求的形式的结果
6、GENSCAN,用于未知序列综合分析,预测来自各种生物的基因组序列中基因的位置和外显子结构,并对其进行概念性翻译。
同时可以获得未知序列的长度以及C+G含量。
(首先确定给定序列的物种来源)
操作流程:
GENSCAN→输入序列→选择参数→Run GENSCAN→得到结果
7、REBASE是限制性内切酶数据库,用于分析限制性核酸内酶的Recognition Sequence和Type(识别序列和酶切类型)。
Official REBASE Homepage→输入酶的名字→GO→得到结果
8、NEBcutter V2.0用于分析实验序列的可能酶切位点,选择合适的酶进行消化分析,获得虚拟凝胶电泳图。
NEBcutter V2.0→输入序列→选择参数→submit→得到酶切结果
Custom digest→选择合适的酶→digest→得到结果→
View gel→选择参数→ok→的到结果
9、Genefisher和Primer 3.0是引物设计工具,能够根据实验要求设定参数,针对未知序列设计符合实验要求的引物。
Genefisher运行不了
Primer 3.0
Primer3 Input→输入序列→选择参数→pick primers→得到结果→选择符合要求的引物
蛋白质操作都是在ExPASy中进行的
ExPASy→proteomics→Ctrl+F→搜索(要用的工具)→输入(蛋白质)序列→选
择参数→(submit)运行
1、Compute pI/MW程序预测蛋白质的分子量及等电点。
(无参数click here to compute pI/MW)
2、ProtParam 分析蛋白质的基本物理化学性质。
(相对分子质量、理论pI值、氨基酸组成信息、原子组成、消光系数、半衰期、不稳定系数以及总平均亲水性等)(无参数、compute parameters)
3、ProtScale 用于分析蛋白质的亲水性和疏水性,获得亲疏性图谱,确定其疏水亲水区域的大致范围
4、PeptideMass 用于分析蛋白质酶切和化学试剂处理后的内切产物.(选择指定的酶、参数默认、perform)
5、Signa lP用于分析蛋白质是否存在信号肽,以及其切割位点。
(选择相应的参数)
6、SOPMA用于预测蛋白质二级结构。
(输入物种、选择二级结构类型)
1、VRT:分类码
2、数据库的特征:可检索、定时更新、数据库间可交叉链接引用。
3、世界三大数据库:NCBI EMBL DDBJ
4、数据库格式:文字说明、序列(fasta格式> ,文字说明,序列)
5、数据库条目:描述符、主序列本身、序列特征的生物信息的注释
GenBank数据库的数据来源:直接来源于测序工作者提交的序列、与其它数据机构协作交换的数据、美国专利局提供的专利数据。
2002年,PIR、SIR、EBI合并了分属旗下的PIR-PSD、Swiss-prot 和TrEMBL数据库,形成了统一的蛋白质数据库UniProt。
数据库搜索:通过相似性比对算法,从数据库中找到与检测序列具有一定程度相似性的序列。
数据库查询:(数据库检索):与互联网搜索引擎查找信息概念相同。
进行关键词匹配。
同一性:两个序列之间完全相同的匹配残基数目。
相似性:用来描述序列之间相同或相似DNA碱基或氨基酸残基序列所占比例的高低。
同源性:通过一些数据,判断出两个基因进化上曾具有共同祖先的结论。
序列之间的相似程度是可以量化的参数,而序列是否同源需要有进化事实验证。
相似度越大,两个序列越相似。
两个序列之间距离越大,相似度就越低。
序列比对最终实现依赖于数学模型,模型参数不同也可能导致对比结果不同。