序列比对(生物数据库搜索)

合集下载

生物信息学中的序列比对技术研究

生物信息学中的序列比对技术研究

生物信息学中的序列比对技术研究序列比对是生物信息学中一项基础性工作,它通过比较不同生物体或同一生物体不同基因的DNA、RNA或蛋白质序列,寻找相似之处,从而揭示它们之间的关系、功能和演化。

随着高通量测序技术的发展和应用,序列比对技术已经成为生物信息学和基因组学研究不可或缺的一部分。

本文将介绍一些常用的序列比对技术及其在生物信息学研究中的应用。

1.全局比对和局部比对序列比对可以分为全局比对和局部比对两种策略。

全局比对尝试在整个序列长度范围内找到最佳的匹配,适用于相似度较高的序列。

常用的全局比对算法包括Smith-Waterman和Needleman-Wunsch算法。

局部比对则在序列的某个局部区域内寻找相似度最高的片段,适用于序列间具有局部相似性的情况。

BLAST算法是一种著名的局部比对算法,它采用快速而有效的启发式搜索方法,在大规模序列数据库中找到最相似的序列。

2.多序列比对除了比较两个序列之间的相似性外,多序列比对(Multiple Sequence Alignment,MSA)扩展了这个概念,允许比较多个序列之间的相似性。

多序列比对广泛应用于基因组学、蛋白质结构预测和系统发育进化等领域。

常用的多序列比对软件包括Clustal Omega、MAFFT 和Muscle等。

这些软件使用不同的算法和启发式策略,能够适应不同类型和规模的序列比对需求。

3.基因组序列比对基因组序列比对是指对基因组级别的序列进行比对。

随着测序技术的进步,越来越多的物种基因组序列被测定,基因组序列比对成为了重要的研究策略。

对于物种间的基因组比对,可以揭示它们之间的演化关系、基因家族和保守区域等信息。

对于同一物种的基因组比对,可以识别出重复序列、基因家族和功能元件等。

常用的基因组序列比对工具有LASTZ、MUMmer和BLAT等。

4.蛋白质序列比对蛋白质序列比对在功能注释、蛋白质结构预测和蛋白质进化研究中起到关键作用。

蛋白质序列比对的目标是找到相似性最高的结构和功能域,从而推断未知蛋白质的功能。

blast应用实例

blast应用实例

blast应用实例Blast是一种常用的生物信息学工具,用于比对和分析生物序列。

它可以将一个或多个查询序列与数据库中的目标序列进行比对,通过比对结果提供有关序列相似性、保守区域和功能注释的信息。

以下是Blast应用的一些实例:1.从NCBI数据库搜索相似序列:Blast可以用于从NCBI的数据库中搜索与给定序列相似的序列。

例如,如果我们有一个未知的蛋白质序列,我们可以使用Blast将其比对到NCBI的非冗余蛋白质数据库上,以找到与之相似的蛋白质序列。

这对于鉴定新的蛋白质家族、推断功能等非常有用。

2.基因注释:Blast可以用于对新的基因序列进行功能注释。

例如,通过比对一个未知的DNA序列到已知的基因组序列数据库,我们可以获得对应的基因区域、编码蛋白质以及可能的功能信息。

这对于基因组学研究和药物研发很重要。

3.遗传多样性分析:Blast也可以用于研究不同物种或个体之间的遗传差异。

通过比对DNA或RNA序列,可以鉴定不同物种或个体之间的变异位点。

这对于研究进化、种群遗传学和物种鉴定具有重要意义。

4.病原体识别:Blast可以用于快速识别和鉴定病原体。

通过比对未知的病原体序列到已知的病原体数据库,可以确定其种类和亚型。

这对于疾病的诊断和流行病学研究非常有帮助。

5.系统发育分析:Blast在系统发育学中也被广泛应用。

通过比对多个物种的DNA或蛋白质序列,可以构建物种间的进化关系树。

这对于研究生物的进化历史和亲缘关系具有重要意义。

6.基因工程:Blast可以用于在已知的基因库中寻找与目标序列相似的基因。

这对于基因工程和生物治疗的设计和优化非常有用。

通过比对获取相关蛋白质、启动子、调控序列等信息,可以进行目标基因的定向改造和调节。

7.基因家族研究:Blast可以用于鉴定和研究特定基因家族。

通过比对已知基因家族的代表性成员,可以找到其他类似的基因序列。

这对于研究基因家族的进化、功能和调控具有重要意义。

8.转录因子结合位点预测:Blast可以用于识别和预测转录因子结合位点。

run blast的意思

run blast的意思

run blast的意思Blast是一种常用的生物信息学工具,用于进行序列比对和数据库搜索。

“run blast”的意思是对给定的序列播放blast程序,以找到最佳匹配性进行分析和注释。

为什么要run blast?每个生物体都有其基因组中编码的蛋白质序列或DNA 序列。

了解这些序列之间的相似性或差异可以在生物学,医学和农业领域有很广泛的应用。

例如,测定病原体中特定蛋白质序列的相似性可以确定哪些细菌株是具有病原性的。

在医学领域,blast的使用可以帮助识别导致遗传疾病的突变。

如何run blast?现在有许多blast程序可供选择,包括NCBI blast和UniProt blast。

这些程序可以在线使用或下载到本地计算机上。

下面是简要步骤:1. 获取待比对序列:在进行blast比对之前,需要先从数据库或文件中收集待分析的蛋白质或DNA序列。

2. 定义查询:接下来,需要定义查询序列,该序列将用于比对。

3. 选择blast程序:根据样本类型(蛋白质还是DNA)以及需要解决的问题(查找同源物种、查找无同源物种比对)选择合适的blast程序。

4. 上传数据:如果使用在线blast服务,需要将查询序列和参考数据库上传至服务器。

否则,在本地计算机上运行blast软件。

5. 运行blast:在程序中设置必要的参数,如比对类型,比对得分和E值等,并运行blast。

6. 分析结果:一旦blast程序完成,可以查看和分析比对结果,以确定与查询序列最相似的参考序列和其他统计信息。

需要注意1. 查询序列应与数据库中的序列尽可能相似。

长度较小的序列可能会导致假阳性结果。

2. 需要了解blast得分和E值的含义。

偏低的得分或偏高的E值可能导致不准确的结果。

3. 无同源物种比对需要更多的计算资源,并且结果可能更难解释。

总之,run blast是一种有用的技术,能够将生物信息学应用于生物学、医学和农业等领域。

随着技术的进步和对生物信息学的理解的提高,blast程序将继续发挥重要作用,并为我们带来更多的发现。

序列比对与数据库搜索

序列比对与数据库搜索

Genomics and Bioinformatics 2011-2012, TMMU
Pairwise Sequence Alignment
Query: catcaactacaactccaaagacacccttacacccactaggatatcaacaa |||||||| |||| |||||| ||||| | ||||||||||||||||||||| Sbjct: catcaactgcaaccccaaagccacccct-cacccactaggatatcaacaa
18
红岭创投
注册“红岭创投”P2P理财平台,请输入 官方优惠码21253直接成为VIP会员 12%-18%固定收益
VIP会员100%本息担保
Genomics and Bioinformatics 2011-2012, TMMU
全局比对和局部比对
全局比对(Global Alignment):
Genomics and Bioinformatics 2011-2012, TMMU
氨基酸打分矩阵:BLOSUM
BLOSUM:BLOcks SUbstitution Matrix
A R N D C Q E G H I L K M F P S T W Y V 4 -1 5 -2 0 6 -2 -2 1 6 0 -3 -3 -3 9 -1 1 0 0 -3 5 -1 0 0 2 -4 2 5 BLOSUM62打分矩阵 0 -2 0 -1 -3 -2 -2 6 -2 0 1 -1 -3 0 0 -2 8 -1 -3 -3 -3 -1 -3 -3 -4 -3 4 -1 -2 -3 -4 -1 -2 -3 -4 -3 2 4 -1 2 0 -1 -1 1 1 -2 -1 -3 -2 5 -1 -2 -2 -3 -1 0 -2 -3 -2 1 2 -1 5 -2 -3 -3 -3 -2 -3 -3 -3 -1 0 0 -3 0 6 -1 -2 -2 -1 -3 -1 -1 -2 -2 -3 -3 -1 -2 -4 7 1 -1 1 0 -1 0 0 0 -1 -2 -2 0 -1 -2 -1 4 0 -1 0 -1 -1 -1 -1 -2 -2 -1 -1 -1 -1 -2 -1 1 5 -3 -3 -4 -4 -2 -2 -3 -2 -2 -3 -2 -3 -1 1 -4 -3 -2 11 -2 -2 -2 -3 -2 -1 -2 -3 2 -1 -1 -2 -1 3 -3 -2 -2 2 7 0 -3 -3 -3 -1 -2 -2 -3 -3 3 1 -2 1 -1 -2 -2 0 -3 -1 4 A R N D C Q E G H I L K M F P S T W Y V

生物信息学中的序列比对算法使用方法解析

生物信息学中的序列比对算法使用方法解析

生物信息学中的序列比对算法使用方法解析序列比对在生物信息学中是一项重要的技术,用于寻找DNA、RNA或蛋白质序列之间的相似性和差异性。

它是理解生物学结构和功能的基石之一。

在本文中,我们将解析生物信息学中常用的序列比对算法的使用方法。

序列比对算法主要分为全局比对和局部比对。

全局比对用于比较完整的序列,而局部比对则更适用于在序列中查找相似区域。

在这两个主要类别中,有几种经典的序列比对算法,包括Pairwise Sequence Alignment、BLAST、Smith-Waterman算法和Needleman-Wunsch算法等。

首先,我们来看Pairwise Sequence Alignment(两两序列比对)算法。

这个算法是基本的序列比对方法,通过比较两个序列中的每一个碱基、氨基酸或核苷酸,并根据其相似性和差异性对它们进行排列。

Pairwise Sequence Alignment算法使用动态规划的思想,通过计算匹配、替代和插入/删除的分数,来确定两个序列的最佳匹配方案。

在生物信息学中,常用的实现包括Needleman-Wunsch算法和Smith-Waterman算法。

Needleman-Wunsch算法是一种全局比对算法,用于比较两个序列的整个长度。

它是通过填充一个二维矩阵来计算最佳匹配路径的。

算法的核心思想是,通过评估每个格子的分数,根据路径选择的最佳分数进行全局比对。

这个算法不仅可以计算序列的相似性,还可以计算每个位置的分数,从而获得两个序列的对应二面的对应关系。

Smith-Waterman算法是一种局部比对算法,用于寻找两个序列中的最佳匹配片段(子序列)。

它与Needleman-Wunsch算法的计算思路相同,但不同之处在于允许负分数,这使得算法能够确定具有高分数的局部匹配片段。

通过动态规划计算,Smith-Waterman算法可以寻找到两个序列中的相似片段,并生成比对的结果。

另一种常用的序列比对算法是基本本地搜索工具(BLAST)。

生物信息学中的基因组序列比对算法

生物信息学中的基因组序列比对算法

生物信息学中的基因组序列比对算法1. 引言生物信息学是研究生物学信息的存储、分析和应用的学科,其中基因组序列比对算法是重要的研究方向之一。

基因组序列比对是将一个序列与一个或多个目标序列进行比较,以寻找相似性和差异性的过程。

本文将介绍生物信息学中常用的基因组序列比对算法,包括Smith-Waterman算法、Needleman-Wunsch算法和BLAST算法。

2. Smith-Waterman算法Smith-Waterman算法是一种动态规划算法,可以用于比对两个序列之间的相似性。

它的基本思想是通过构建一个得分矩阵,计算两条序列中各个位置之间的得分,然后根据得分确定最佳比对。

具体步骤如下:(1) 构建一个得分矩阵,矩阵的行和列分别表示两条序列的每个字符。

(2) 初始化得分矩阵,将第一行和第一列的得分设为0。

(3) 根据特定的得分规则,计算得分矩阵中每个位置的得分。

得分规则可以根据具体情况进行调整,常见的得分规则包括替换得分、插入得分和删除得分。

(4) 从得分矩阵中找出最高得分的位置,得到最佳比对的结束位置。

(5) 追溯最佳比对的路径,得到最佳比对的开始位置。

Smith-Waterman算法的优点是可以寻找到最佳比对的局部相似性,适用于比对包含插入或删除的序列。

3. Needleman-Wunsch算法Needleman-Wunsch算法是一种全局序列比对算法,通过构建一个得分矩阵和得分规则,计算两个序列的全局相似性。

具体步骤如下:(1) 构建一个得分矩阵,矩阵的行和列分别表示两条序列的每个字符。

(2) 初始化得分矩阵,将第一行和第一列的得分设为特定值。

(3) 根据特定的得分规则,计算得分矩阵中每个位置的得分。

(4) 从得分矩阵中找出最高得分的位置,得到最佳比对的结束位置。

(5) 追溯最佳比对的路径,得到最佳比对的开始位置。

Needleman-Wunsch算法的优点是可以寻找到全局最佳比对,适用于比对两个序列之间的整体相似性。

blast用法

blast用法

blast用法BLAST(Basic Local Alignment Search Tool)是一种常用的生物信息学工具,用于在数据库中搜索和比对生物序列(如DNA、RNA、蛋白质等)。

以下是使用BLAST的基本步骤和用法:1. 准备输入序列:首先,准备待查询的序列数据。

可以是DNA序列、蛋白质序列或其他类型的生物序列。

2. 选择BLAST程序:根据要比对的序列类型,选择合适的BLAST程序。

常见的BLAST程序包括blastn(用于DNA比对)、blastp(用于蛋白质比对)、blastx(用于DNA与蛋白质相互比对)等。

3. 选择数据库:确定要在哪个数据库中进行比对。

BLAST提供了多个数据库选项,如NCBI提供的nr数据库(非冗余蛋白质序列数据库)。

4. 运行BLAST:使用命令行或图形界面工具,输入BLAST命令或设置相应的参数进行比对。

例如,可以使用以下命令运行blastp程序进行蛋白质比对:```blastp -query input.fasta -db database -out output.txt```其中,`input.fasta`是输入序列文件,`database`是要比对的数据库,`output.txt`是输出结果文件。

5. 解析和分析结果:BLAST运行完成后,会生成比对结果文件。

可以使用相应的工具或脚本来解析、过滤和分析结果,以获取所需信息(如相似性、E值、比对长度等)。

6. 结果解释和进一步分析:根据比对结果,可以进一步解释和分析序列的功能、同源性等信息。

可以使用其他生物信息学工具和数据库来进一步研究和验证结果。

需要注意的是,BLAST具有多个参数和选项,可以根据具体的研究目的和需求进行调整和优化。

建议参考相关的文档、教程或使用BLAST 提供的帮助命令(如`blastn -help`)来了解更多详细的用法和参数设置。

实验二_数据库相似性搜索与序列比对

实验二_数据库相似性搜索与序列比对

实验二_数据库相似性搜索与序列比对实验二数据库相似性搜索与序列比对实验原理:数据库相似性搜索以两两序列比对为基础,将感兴趣的基因序列与序列数据库中的每个序列进行比较,鉴别出相似的序列。

搜索结果显示出与最佳匹配序列的对位排列及匹配记分。

序列数据库搜索对发现基因的功能非常有效。

fasta和blast是两个著名的用于数据库相似性搜索的软件包。

其中blast(basiclocala1ignmentsearchtool)基于局部比对的搜索工具,是一种启发式搜索算法服务软件,包括blastp,blastn,blastx,tblastn 和tblastx程序。

实验目的和要求:学习数据库相似性检索和序列比对的程序的使用,能够理解程序给出的结果,从中获取有关功能和结构的信息。

(1)要求学生使用所学的数据库检索方法检索数据库中的特定基因(2)掌握数据库相似性搜索工具blast的基本比对方法,参数设置及结果分析(3)掌握核酸和蛋白质序列的比对方法、参数设置和结果分析实验材料:未知核酸序列;未知氨基酸序列;SOD基因工具软件:(1)数据库检索工具Entrez一、利用blast中的special类下的aligntwosequences(bl2seq)比较人与老鼠的sod基因蛋白质序列的相似性程度(1)人类aab27818是通过NCBI 1的ntrez和小鼠3gtt_E的SOD基因氨基酸序列或登录号(SOD分为SOD1或SOD2等,检索时注意选择完全相同的SOD基因)搜索蛋白质数据库获得的。

(2)进入NCBI的blast网页,然后选择specializedlast下的align two sequences(bl2seq)程序来比较这两个序列(3)选择blastp子程序,将序列或登录号分别粘贴到序列框中(4)其他选项采用默认的设置,运行程序(5)分析结果,并回答以下问题NCBI的Entrez搜索中使用了哪些关键词?humanandsodmouseandsod人和小鼠SOD基因蛋白质序列的注册号是多少?人aab27818 1和鼠标3gtt_e两序列比对得到的一致性百分比和相似性百分比分别为多少?识别127/153(83%)阳性135/153(88%)两序列比对结果中哪些区域出现了gap?差距0/153(0%)二、利用specielizedblast的conserveddomain进行蛋白质保守结构域分析(1)进入ncbi的blast网页(2)选择specialize last to enter下的保守域超链接(3)在cazy数据库查找一个糖苷水解酶glycosidehydrolases(gh+学号),获得其蛋白质序列或蛋白质序列的genbank登录号aek59386.1(4)在保守域页面的输入框中输入糖苷水解酶的登录号或蛋白质(5),选择默认参数,点击提交进行提交分析(6)阅读得到的结果,点击各hit的超链接了解找到的结构域的功能(7)将结构域图形和表格记录在实验报告中三、利用blast在数据库中搜索不同物种的同源基因(1)利用文献检索工具检索clostridiumthermocellum嗜热梭菌与其纤维素降解功能相关的基因,例如糖苷水解酶glycosidehydrolases(gh+学号)或多糖裂解酶polysaccharidelyases(pls)或碳水化合物酯酶carbohydrateesterases(ces)等(2)利用ncbi的entrez检索该基因获得其核酸序列ab125373或者使用(2)中的蛋白质注册号通过NCBI数据库中的相关信息链接到核酸数据库,以获得基因的核酸注册号或序列(3)利用blastn进行数据库相似性搜索搜索其他微生物中的同源基因(4)分析blast结果,并回答以下问题检索获得基因名称是?chi19-1该基因的登录号是多少?ab125373进行blastn搜索的数据库选项为?nr请列出其他3-5种具有该基因及其同源基因的微生物的注册号?ap009493.1。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
复习:
数据库查询
所谓数据库查询 数据库查询,是指对序列、结构以及各种二 数据库查询 次数据库中的注释信息进行关键词匹配查找。数 据库查询有时也称数据库检索,它和互联网上通 过搜索引擎 (Search engine) 查找需要的信息是 一个概念。
请大家操作! 请大家操作!
利用NCBI中的查询工具Entrez找出蛋白质序列数 据库SwissProt中有关人(HOMO)的 HOMO)
四、上机操作(NCBI)
四、上机操作(NCBI)
四、上机操作(NCBI)
四、上机操作(NCBI)
四、上机操作(NCBI)
四、上机操作(NCBI)
四、上机操作(NCBI)
Blast结果给出的信息
Blast结果会列出跟查询序列相似性比较高,符合限定要求 的序列结果,根据这些结果可以获取以下一些信息。 1.查询序列可能具有某种功能 2.查询序列可能是来源于某个物种 3.查询序列可能是某种功能基因的同源基因
三、BLAST介绍(主要的BLAST程序)
程序名 Blastn Blastp Blastx Tblastn TBlastx 查询序列 核酸 蛋白质 核酸 蛋白质 核酸 数据库 核酸 蛋白质 蛋白质 核酸 核酸 搜索方法 核酸序列搜索逐一核酸数据库中的序列 蛋白质序列搜索逐一蛋白质数据库中的序列 核酸序列6框翻译成蛋白质序列后和蛋白质 数据库中的序列逐一搜索。 蛋白质序列和核酸数据库中的核酸序列6框 翻译后的蛋白质序列逐一比对。 核酸序列6框翻译成蛋白质序列,再和核酸 数据库中的核酸序列6框翻译成的蛋白 质序列逐一进行比对。
生物信息学实验
实验二 Blast介绍及应用
一、实验目的
了解和掌握数据库搜索工具BLAST, 并能熟练运用。
BLAST
BLAST
二、基本概念
相似性 同源性
二、基本概念
相似性(similarity): : 相似性 是指一种很直接的数量关系 数量关系,比如部分相同或相似 数量关系 的百分比或其它一些合适的度量。比如说,A序列 和B序列的相似性是80%,或者4/5。这是个量化 的关系。当然可进行自身局部比较。

这些信息都可以应用到后续分析中。
Blast程序评价序列相似性的两个数据
Score:使用打分矩阵对匹配的片段进行打分,这是
对各对氨基酸残基(或碱基)打分求和的结果,一般来 说,匹配片段越长、 相似性越高则Score值越大。
E value:在相同长度的情况下,两个氨基酸残基(或
碱基)随机排列的序列进行打分,得到上述Score值的 概率的大小。E值越小表示随机情况下得到该Score值的 可能性越低。
我们通过blast搜索来获取一些这个序列的信 息。
具体步骤
1.登陆blast主页 /BLAST/ 2.根据数据类型,选择合适的程序 3.填写表单信息 4.提交任务 5.查看和分析结果
分析过程(一)
1.登陆ncbi的blast主页 2.选择程序,因为 查询序列是蛋白序 列可以选择blastp, 点击进入
三、BLAST介绍(Blast相关的问题)
怎么获得blast服务,怎么使用的问题? 为什么使用blast,可以获得什么样的信息? 其他问题:实际使用时选择哪种方式(网络, 本地化),参数的选择,结果的解释…
三、BLAST介绍(Blast资源)
三、BLAST介绍(Blast资源)
1.NCBI主站点:
二、基本概念(两者关系)
序列的相似性和序列的同源性有一定的关系,一般来说 序列间的相似性越高的话, 序列间的相似性越高的话,它们是同源序列的可能性 就更高,所以经常可以通过序列的相似性来推测序列是 就更高 否同源。 正因为存在这样的关系,很多时候对序列的相似性和同 源性就没有做很明显的区分,造成经常等价混用两个名 词。所以有出现A序列和B序列的同源性为80%一说。
Blast任务提交表单(一)
1.序列信息部分
序列范围 (默认全部)
填入查询(query)的序列
选择搜索数据库 如果接受其他参数默认 设置,点击开始搜索
Blast任务提交表单(二)
2.设置各种参数部分
设置搜索的范围,entrez关键词, 或者选择特定物种
一些过滤选项,包括简 单重复序列,人类基因 组中的重复序列等

四、上机操作(NCBI)
NCBI站点:
/BLAST
四、上机操作(NCBI)
四、上机操作(NCBI)
四、上机操作(NCBI)
四、上机操作(NCBI)
GI number就是基因信息号 就是基因信息号
四、上机操作(NCBI)
四、上机操作(面
可以修改显示结果格式
结果页面(一)
图形示意结果
结果页面(二)
目标序列描述部分
带有genbank的链接,点击可以进入 相应的genbank序列
匹配情况,分值,e值
结果页面(三)
详细的比对上的序列的排列情况
一个具体的例子(blastp)
假设以下为一未知蛋白序列
>query_seq MSDNGPQSNQRSAPRITFGGPTDSTDNNQNGGRNGARPKQRRPQGLPNNTASWF TALTQHGKEELRFPRGQGVPINTNSGPDDQIGYYRRATRRVRGGDGKMKELSPRW YFYYLGTGPEASLPYGANKEGIVWVATEGALNTPKDHIGTRNPNNNAATVLQLPQGT TLPKGFYAEGSRGGSQASSRSSSRSRGNSRNSTPGSSRGNSPARMASGGGETALA LLLLDRLNQLESKVSGKGQQQQGQTVTKKSAAEASKKPRQKRTATKQYNVTQAFGR RGPEQTQGNFGDQDLIRQGTDYKHWPQIAQFAPSASAFFGMSRIGMEVTPSGTWLT YHGAIKLDDKDPQFKDNVILLNKHIDAYKTFPPTEPKKDKKKKTDEAQPLPQRQKKQP TVTLLPAADMDDFSRQLQNSMSGASADST QA
二、基本概念
序列相似性比较: 序列相似性比较: 就是将待研究序列与DNA或蛋白质序列库进行比较,用于确定该序列的 生物属性,也就是找出与此序列相似的已知序列是什么。完成这一工作只 需要使用两两序列比较算法。常用的程序包有BLAST、FASTA等。 BLAST、FASTA
序列同源性分析: 序列同源性分析: 是将待研究序列加入到一组与之同源,但来自不同物种的序列中进行多序 列同时比较,以确定该序列与其它序列间的同源性大小。这是理论分析方 法中最关键的一步。完成这一工作必须使用多序列比较算法。常用的程序 包有CLUSTAL等。
也可以选择tblastn
作为演示, 我们这里选blastp
分析过程(二)
3.填入序列(copy+paste) Fasta格式,或者纯序列 4.选择搜索区域,这里我们要 搜索整个序列,不填 5.选择搜索数据库,这里我们 选nr(非冗余的蛋白序列库)。 是否搜索保守区域数据库 (cdd),蛋白序列搜索才有。 我们选上
二、基本概念
直系同源(orthology) 旁系同源(paralogy)
Orthology describes genes in different species that derive from a common ancestor. Orthologous genes may or may not have the same function. Paralogy describes homologous genes within a single species that diverged by gene duplication. A paralog is one of a set of homologous genes that have
/BLAST/(网 络版) ftp:///blast/ (单机版)
2.其他站点:
/blast/ /ncbi_blast.html /blast/(果蝇)
二、基本概念
同源性(homology): : 同源性 指从一些数据中推断出的两个基因或蛋白质序列具 而共同祖先的结论,属于质的判断 质的判断。就是说A和B 质的判断 的关系上,只有是同源序列,或者非同源序列两种 关系。而说A和B的同源性为80%都是不科学的。
/Education/BLASTinfo/Orthology.html
E值上限 窗口大小 如果你对blast的命令行选项熟悉的话,可以在这里加入更多的参数
Blast任务提交表单(三)
3.设置结果输出显示格式 E值范围 选择需要显示的选项 以及显示的文件格式 显示数目 Alignment的显 示方式
筛选结果
其他一些显示格式参数 点击开始搜索
提交任务
返回查询号(request id)
insulin(胰岛素) 或与胰岛素有关的序列条目。
利用NCBI中的查询工具Entrez找出PUBMED数据库 中最近3个月insulin(胰岛素) 或与胰岛素有关的
文献条目。
/Entrez/ /sites/gquery
数据库搜索在分子生物信息学中有特定含义,它 数据库搜索 是指通过特定的序列相似性比对算法,找出核酸 或蛋白质序列数据库中与检测序列具有一定程度 相似性的序列。在生物信息学中,数据库搜索是 专门针对核酸和蛋白质序列数据库而言,其搜索 的对象,不是数据库的注释信息,而是序列信息。
数据库的搜索
在分子生物学研究中,对于新测定的碱基序列或由 此翻译得到的氨基酸序列,往往需要通过数据库搜 索,找出具有一定相似性的同源序列,以推测该未 知序列可能属于哪个基因家族,具有哪些生物学功 能。对于氨基酸序列来说,有可能找到已知三维结 构的同源蛋白质而推测其可能的空间结构。因此, 数据库搜索与数据库查询一样,是生物信息学研究 中的一个重要工具。
相关文档
最新文档