Local BLAST简明教程

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

准备待比对序列
直接从NCBI上下载FASTA格式的序列即可,与 数据库存放于同一位置(通常为Blast的bin文件 夹下)
如果需要批处理(即将多个序列与数据库进行 比对),可将其多个序列文件整合成一个fasta 文件,此处使用word或写字板均可。
序列比对
打开数据库及序列所在的文件夹,运行相应的blast命令即可
可输入 blastp –help 查看默认输出参数,即参数代码对照 如果需要对输出文件输出的参数进行自定义,则增加-outfmt参数 如只需要蛋白ID,Query Cover 和Identity 可增加参数 -outfmt “6 qacc sacc qcovs pident”
序列比对
输出格式及参数说明
(可选)Perl for Windows
主要用于下载NCBI上已有的构建好的数据库,但主要是人类、小鼠等,对 于我们来说不常用 下载地址: http://strawbberryperl.com/releases.html 下载后直接安装即可
构建数据库
方法一:
1.直接下载fasta格式的序列文件
构建数据库
“开始”->“运行”(快捷键Windows键+R)->输入“cmd”,“确认”->进入DOS系统 1.打开数据库(即序列文件)所在文件夹;2. 输入命令对数据库进行格式化。
打开数据库所在文件夹 运行命令,对数据库进行格式化
格式化成功
Leabharlann Baidu
构建数据库
方法二 从NCBI中的ftp库下载所需要的数据库, 地址:ftp://ftp.ncbi.nlm.nih.gov/blast/db
序列文件的格式必须为fasta,文件来源不限,如NCBI、JGI等均可,但 由于不同数据库中蛋白的ID不同,应结合后期数据分析具体要求进行选 择
2.在DOS系统中利用makeblastdb.exe构建数据库
命令行:
$ makeblastdb.exe –in protein.fasta –out protein_db –hash_index–dbtype prot
LOCAL BLAST 简明教程
简介
Local Blast 是Blast的本地化版本,与在线Blast 原理相同,主要进行序列间相似性的检索
优点:与在线Blast相比,其优点在于速度快, 不受网络连接影响,且可进行批处理,数据易 于处理。
软件准备
Blast+
下载地址:ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST 基于不同操作系统选择不同的安装包,解压安装,通常默认安装到 C:\Program files, 此处可以把C:\Program files\NCBI的子文件夹(通常是blast + 2.2.23)重命 名为blast,方便之后在dos中索引文件夹
要格式化的序列 的名称,需要后 缀
输出的数据库 的名称,不需 要后缀
输出的数据库 的类型 核酸:nucl 蛋白:prot
构建数据库
如:下载Aspergillus ruber基因组蛋白氨基酸序列,构建数据库 首先在NCBI上检索该物种基因组
构建数据库
基因组内共有10066个蛋白
构建数据库
也可安装Perl程序后,运用Blast自带的update_blastdb.pl进行下载 进入DOS后,打开Blast下的bin文件夹 输入以下指令可以查看帮助(可不做)
输入一下指令查看NCBI中的库
输入相应的数据库名称进行下载,此方法下载得到的数据库不需进行 格式化,以载体库(vector)为例
检索该基因组的蛋白,点击中间列右上角 “Send to”按钮,选择files, 选择FASTA格式,创建文件即可
构建数据库
• 将下载的序列重命名(默认下载文件名为sequence.fasta,容易混淆), 保持后缀为fasta格式不变,置于blast\bin文件夹中,如果配置了环境变量,可置于任 意位置,关于配置环境变量,点击此处。 • 检查下载的序列是否完整(NCBI连接不稳定,有时候会丢数据),方法如下: 用word打开序列文件,在文件内进行查找(快捷键Crtl+F),查找“>”,查找 结果数量即为下载得到的蛋白序列数量。
序列比对
输出格式及参数说明
序列比对
输出格式及参数说明
TIPS
在local blast过程中对文件进行命名时不要出现 空格,包括序列、数据库、结果的命名等
The End
如蛋白序列比对
$ blastp.exe –query proteins.fasta –db all_proteins_db –out blast_result.xls
待比对序列名称,
数据库名称,
结果文件名称,不同后
需要后缀
不需要后缀
缀可输出不同格式的文
件,xls为excel格式,txt、
xml等均可
相关文档
最新文档