Blast本地化安装图解

合集下载

linux下BLAST+(新版blast)本地化步骤

linux下BLAST+(新版blast)本地化步骤

64位LINUX下BLAST+的本地化以我的计算机(用户名为yonpen)和数据库nr为例,运行psiblast得到PSSM矩阵。

2012-02-181下载程序在ftp:///blast/executables/blast+/LATEST/下载ncbi-blast-2.2.25+-x64-linux.tar.gz2 解压如解压到用户的主目录(/home/yonpen)下,把解压后的文件夹重新命名为blast,则BLAST+的所有程序在目录/home/yonpen/blast/bin下。

3 添加环境变量打开终端(Terminal),切换为root用户,执行vim /etc/profile在最末尾添加export PATH=”/home/yonpen/blast/bin:$PATH”,保存退出。

或直接找到/etc/profile这个文件,在最末尾添加export PATH=”/home/yonpen/blast/bin:$PA TH”此处若成功,则执行blastn -version会出现版本信息。

4 新建在目录/home/yonpen/blast下新建一个文件夹,命名为db在/home/yonpen下新建一个文件,命名为.ncbirc在文件中添加内容[BLAST]BLASTDB=/home/yonpen/blast/db5 下载FASTA格式的数据库ftp:///blast/db/FASTA/如下载nr.gz6 建立BLAST+可用的数据库打开终端(Terminal),切换到/home/yonpen/blast/db目录下,执行:makeblastdb –in nr -parse_seqids -hash_index -dbtypeprot7 使用程序如使用psiblast在目录/home/yonpen/blast下新建3个文件夹,分别命名为pssm,input,output设待查询序列所在文件的名字为3.fasta(一个文件放一条序列,且必须为fasta格式)执行命令:psiblast -comp_based_stats 1 -evalue 0.001 -num_iterations 3 -db nr -query input/3.fasta -out output/3.txt -out_ascii_pssmpssm/3.pssm。

本地blast的详细用法∷柳城

本地blast的详细用法∷柳城

本地blast的详细用法Posted on 03 四月 2009 by 柳城,阅读 9,626本地blast的详细使用方法blast all -p blastn -i myRNA.fasta -d humanRNA.fasta -o myresult.blastout -a 2 -F F -T T -e 1e-10解释如下:blastall: 这是本地化/命令行执行blast时的程序名字!(Tips:blastall直接回车就会给出你所有的参数帮助,但是英文的)-p: p 是program的简写,program在计算机领域中是程序的意思。

此参数是指定要使用何种子程序,所谓子程序,就是针对不同的需要,如核酸序列和核酸序列进行比对、蛋白质序列和蛋白质序列进行比对、假设翻译后核酸序列于蛋白质序列进行比对,选择相应的子程序: blastn 是用于核酸对核酸 blastp 是蛋白质对蛋白质序列等等,一共5个自程序。

-i: i 是input的简写,意思是输入文件,就是你自己的要进行比对的序列文件(fasta格式)-d: d是database的简写,意思是要比对的目标数据库,在例子中就是humanRNA.fasta (别忘了要formatdb)-o: o是output的简写,意思是结果文件名字,这个根据你自己的习惯起名字,可以带路径,(上边两个参数-i -d 也都可以带路径)*注意以上4个参数是必须的,缺一不可,下面的参数是为了得到更好的结果自己可调的参数,如果你不加也没有关系,blastall程序本身会给一个默认值!-a: 是指计算时要用的CPU个数,我的机器有两个CPU,所以用-a 2,这样可以并行化进行计算,提高速度,当然你的计算机就一个CPU,可以不用这个参数,系统默认值为1,就是一个CPU-F: 是filter的简写,blastall程序中有对简单的重复序列和低复杂度的一些repeats过滤调,默认是T (注意以后的有几种参数就两个选项,T/F T就是ture,真,你可以理解为打开该功能; F就是false,假,理解为关闭该功能)-T: 是HTML的简写,是指blast结果文件是否用HTML格式,默认是F!如果你想用IE看,我建议用-T T-e: 是Expectation value,期望值,默认是10,我用的10-10!BLASTALL 用法a.格式化序列数据库格式化序列数据库— —formatdbformatdb简单介绍:formatdb处理的都是格式为 ASN.1和FASTA,而且不论是核苷酸序列数据库,还是蛋白质序列数据库;不论是使用Blastall ,还是Blastpgp,Mega Blast应用程序,这一步都是不可少的。

Blast本地化详细流程

Blast本地化详细流程

Blast 2.4.0+本地化详细流程(基于Windows系统)1.程序获得。

从NCBI上下载Blast本地化程序,下载地址:ftp:///blast/executables/blast+/LATEST/64×安装版▲64×解压(绿色)版▲最好安装或解压到X盘根目录:如X:\blast,尽量简短,方便后边命令输入。

2.原始序列获得。

方法1:找到转录组测序数据unigene数据库文件:unigene.fasta或unigene.fa,若为unigene.fa则直接改后缀为.fasta即可。

找到或修改后将数据库文件移动至Blast本地化程序目录“X:\blast\bin”。

方法2:从NCBI中的ftp 库下载所需要库,链ftp:///blast/db/FASTA/,其中nr.gz为非冗余的数据库,nt.gz为核酸数据库,month.nt.gz为最近一个月的核酸序列数据。

下载的month.nt.gz先用WINRAR解压缩,然后用makeblastdb.exe格式化。

方法3:利用新版blast自带的update_blastdb.pl进行下载,这需要安装perl程序。

注释:上述三种方法各有优缺点,前两种下载速度较快,但是每次进行检索都需要对数据库进行格式化(转化成二进制数据),第三种方法下载速度较慢,但是NCBI 中已经格式化好的,在进行本地检索时不需再进行格式化,直接用即可。

3.用文本编辑器(txt文件改名字及后缀)创建一个ncbi.ini文件,文件包含下面内容:[NCBI]Data="C:\blast\data\" 先新建TXT文件,然后改属性,将ncbi.ini文件存放到C:\Windows4.将Blast本地化程序目录添加路径中(该步骤非必须,但会给以后的操作带来方便),方法:a)右击我的电脑选择属性,选择高级,点击环境变量,设置环境变量b)系统变量中,选择Path,点击“编辑”,在变量值的后面添加Blast本地化程序所在路径,E:\blast 点击确定,将安装路径添加到path。

Blast本地化安装图解

Blast本地化安装图解

Blast本地化:window平台下blast软件的安装boyun发表于 2009-07-09 17:08 | 阅读 1 views1.对于windows 2000/xp 用户,下载blast-2.2.18-ia32-win32.exe安装文件ftp:///blast/executables/LATEST/blast-2.2.18-ia32-win32.exe2.创建一个新目录,例如C:\blast,将下载的文件blast-2.2.18-ia32-win32.exe复制到该目录,双击这个文件,自解压产生bin、data、doc 三个目录,bin是程序目录,data是程序使用数据的目录,doc是文档目录。

表:bin目录中的程序程序说明bl2seq.exe进行两条序列比对blastall.exe做普通的blast比对blastclust.exeblastpgp.execopymat.exefastacmd.exe通过gi号,接收号等,在数据库中检索序列formatdb.exe格式化数据库formatrpsdb.exeimpala.exemakemat.exemegablast.exe megablast程序rpsblast.exeseedtop.exe3.用文本编辑器创建一个ncbi.ini文件,文件包含下面内容:[NCBI]Data="C:\blast\data\"将ncbi.ini文件存放到系统的Windows 或者 WINNT目录。

4.将”C:\blast\bin”目录添加路径中(该步骤非必须,但会给以后的操作带来方便),方法:1)右击我的电脑选择属性,选择高级,点击环境变量,设置环境变量2)系统变量中,选择Path,点击“编辑”,在变量值的后面添加“; C:\blast\bin”,点击确定将安装路径添加到path5.测试,打开dos窗口(点击开始,选择运行,打开的输入框中输入“cmd”,确定),键入“blastall”,回车,如果安装正确,将显示blastall的所有参数说明。

NCBI_blast_使用教程.pptx

NCBI_blast_使用教程.pptx
19
Blast任务提交表单(二)
2.设置各种参数部分
设置搜索的范围,entrez关键词, 或者选择特定物种
一些过滤选项,包括简 单重复序列,人类基因
组中的重复序列等
E值上限
窗口大小 如果你对blast的命令行选项熟悉的话,可以在这里加入更多的参数
20
Blast任务提交表单(三)
E值范围
ቤተ መጻሕፍቲ ባይዱ
3.设置结果输出显示格式
蛋白质序列和核酸数据库中的核酸序列6 框翻译后的蛋白质序列逐一比对。
核酸序列6框翻译成蛋白质序列,再和核 酸数据库中的核酸序列6框翻译成的蛋 白质序列逐一进行比对。
10
Blast相关的问题
怎么获得blast服务,怎么使用的问题?
为什么使用blast,可以获得什么样的信息?
其他问题:实际使用时选择哪种方式(网 络,本地化),参数的选择,结果的解 释…
15
本地WEB版的Blast
16
Blast程序评价序列相似性的两个数据
Score:使用打分矩阵对匹配的片段进行打分,这是
对各对氨基酸残基(或碱基)打分求和的结果,一般来 说,匹配片段越长、 相似性越高则Score值越大。
E value:在相同长度的情况下,两个氨基酸残基(或
碱基)随机排列的序列进行打分,得到上述Score值的 概率的大小。E值越小表示随机情况下得到该Score值的 可能性越低。
2.Blast介绍 Blast资源和相关问题
3.Blast的应用 网络版,单机版
4.深入了解Blast(改进程序,算法基础) 5.其他的序列相似性搜索工具(fasta)
3
生物序列的相似性
相似性(similarity): 是指一种很直接的数量关系,比如部

NCBIblast使用教程[1]

NCBIblast使用教程[1]

E值范围
3.设置结果输出显示格式
选择需要显示的选项 以及显示的文件格式
显示数目
Alignment的显
筛选结果
示方式
点击开始搜索
其他一些显示格式参数
NCBIblast使用教程[1]
提交任务
返回查询号(request id) 修改完显示格式后点 击进入结果界面
可以修改显示结果格式
NCBIblast使用教程[1]
NCBIblast使用教程[1]
Blast程序评价序列相似性的两个数据
Score:使用打分矩阵对匹配的片段进行打分,这是
对各对氨基酸残基(或碱基)打分求和的结果,一般来 说,匹配片段越长、 相似性越高则Score值越大。
E value:在相同长度的情况下,两个氨基酸残基(或
碱基)随机排列的序列进行打分,得到上述Score值的 概率的大小。E值越小表示随机情况下得到该Score值的 可能性越低。
分析过程(一)
1.登陆ncbi的blast主页
2.选择程序,因为 查询序列是蛋白序 列可以选择blastp,
点击进入
也可以选择tblastn
作为演示, 我们这里选blastp
NCBIblast使用教程[1]
分析过程(二)
3.填入序列(copy+pa索整个序列,不填
w 其他问题:实际使用时选择哪种方式(网 络,本地化),参数的选择,结果的解 释…
NCBIblast使用教程[1]
Blast资源
1.NCBI主站点:
/BLAST/(网络版) ftp:///blast/ (单机版)
5.选择搜索数据库,这里我们 选nr(非冗余的蛋白序列库)。
是否搜索保守区域数据库 (cdd),蛋白序列搜索才有。

实验室 Linux下BLAST的使用

实验室 Linux下BLAST的使用

Linux下BLAST+的使用注意,此blast已更名为blast+,目前网上中文教程多为11年之前的老版本的blast的教程,此教程为最新版本1.软件简介核苷酸及蛋白质序列比对2.软件获取及安装2.1.获取在window系统下,利用浏览器,进入:ftp:///blast/executables/blast+/LATEST/中下载blast linux64位(目前最新版本:ncbi-blast-2.2.29+x64-linux.tar)。

2.2.官方文档见本文件夹中的CmdLineAppsManual.pdf文档2.3.安装步骤2.3.1利用putty软件进入home文件夹# cd /home2.3.2创建一个自己的英文文件夹# mkdir XX2.3.3进入xx文件夹# cd /XX2.3.4利用winscp软件将在windows中下载的blast压缩文件包放入其中xx文件夹中直接拖拽即可2.3.5利用putty软件解压下载后被拖拽近XX文件夹的blast压缩文件包# tar -xvzf 文件名2.3.6 修改文件夹名为blast# mv 解压后的文件夹名称blast2.3.7利用winscp软件将blast文件夹中bin目录下的文件全部拷贝至/usr/local/bin下2.3.8利用putty软件在自己建立的XX文件夹中制作软链接,将解压后的文件中bin目录链接至/home/XX下# ln -s /home/xx/blast/bin2.3.9利用winscp软件直接在当前目录(blast文件夹)下,建立.bashrc文件(注意文件名称前有个.),在文件中输入export PA TH=/home/xx/bin/=$PA TH;”2.3.10利用putty在当前目录(blast文件夹)中创建一个db文件夹用来存放数据# mkdir db2.3.11利用winscp软件在/home/XX目录下新建一个文件,命名为.ncbirc(注意前面有个.),在文件中添加内容[BLAST]BLASTDB=/home/XX/blast/db2.3.12此处若成功,则利用putty软件在任意位置执行”blastn –version”会出现版本信息3.输入输出数据格式说明3.1输入数据格式说明注意,比对数据必须全部是fasta格式的数据,如果不是,请寻求朱荣胜老师的help。

如何本地化进行blast序列比对

如何本地化进行blast序列比对

如何本地化进行blast序列比对1、基本概念相似性(Similarity)是指序列比对过程中用来描述检测序列和目标序列之间相同或相似碱基或氨基酸残基占全部比对碱基或氨基酸残基的比例的高低,属于量的判断。

同源性(Homology)是指从某一共同祖先经趋异进化而形成的不同序列。

只有当两个蛋白质在进化关系上具有共同的祖先时,才可称它们为同源的,属于质的判断。

相似性和同源性的关系当相似程度高于50%时,比较容易推测检测序列和目标序列可能是同源序列;而当相似性程度低于20%时,就难以确定或者根本无法确定其是否具有同源性。

总之不能把相似性和同源性混为一谈。

所谓“具有50%同源性”,或“这些序列高度同源”等说法,都是不确切的,应避免使用。

序列相似性比较和同源性分析序列相似性分析:就是用来计算待研究序列与某序列之间的相似性程度,常用的软件包有BLAST、FASTA等;序列同源性分析:是将待研究与来自不同物种的序列中进行进化分析,以确定该序列与其它序列间的亲源关系。

常用的程序包有Phylip及Mega等进化分析软件;全局比对与局部比对全局比对寻找序列在全长范围内最佳比对。

常用算法如:Needleman-Wunsch algorithm(Needle)在线程序如: Needle局部比对寻找序列在局部区域的最高比对打分。

常用算法如:Smith-Waterman algorithm, blast,fasta等在线程序如: WaterNeedle及Water的在线程序也可以本地安装Emboss执行以上程序局部相似性比对的生物学基础蛋白质功能位点往往是由较短的序列片段组成的,尽管在序列的其它部位可能有插入、删除等突变,但这些关键的功能部位的序列往往具有相当大的保守性。

而局部比对往往比整体比对对这些功能区段具有更高的灵敏度,因此其结果更具生物学意义。

BLAST程序常用的两个评价指标Score:使用打分矩阵对匹配的片段进行打分,这是对各对氨基酸残基(或碱基)打分求和的结果,一般来说,匹配片段越长、相似性越高则Score值越大,结果越可信。

简单流程

简单流程

首先需要安转BLAST软件包、perl环境以及bioperl一、windows下安装BLAST软件包从以下地址下载BLAST软件包:ftp:///blast/executables/release/2.2.22/blast-2.2.22-ia32-win32.exe下载后解压缩即可。

二、windows下安装perl环境从以下地址下载activePerl的安装文件:/Products/ActivePerl/下载后运行安装,所有选项默认即可,这样你的系统就有了perl环境了。

三、windows下安装bioperl打开命令行窗口(开始菜单->运行,输入“cmd”回车),然后运行命令:ppm(C:\>ppm).用以下命令,增加相应的软件仓库:ppm> rep add Bioperl /DISTppm> rep add Kobes http://theoryx5.uwinnipeg.ca/ppmsppm> rep add Bribes /perl/ppm用下面的命令寻找bioperl:ppm> search Bioperl回车后系统将返回一些和bioperl相符的软件,并带有相应的数字编号如1、2、3 ppm> install这里的就是你要安装的软件的编号。

上述程序安装完成后可以进行相关序列分析1)程序genomecut.pl用于基因组片段分割This program is used to cut the genomic sequences into fragments of user defined length.Usage: genomecut.pl genome_seq_file_name lengthExample: cut the genome file bacteria.txt into 1000 bp lengthgenomecut.pl bacteria.txt 1000genome sequence in FASTA format>SequenceID with optional text on same linesequence data on one or more linesfor example,> NC_003198 Salmonella enterica subsp. enterica serovar Typhi str. CT18, complete genome AGAGATTACGTCTGGTTGCAAGAGATCATAACAGGGGAAATTGATTGAAAA TAAATATATCGCCAGCAGCACATGAACAAGTTTCGGAATGTGATCAATTTAA AAATTTATTGACTTAGGCGGGCAGATACTTTAACCAATATAGGAATACAAGA CAGACAAATAAAAATGACAGAGTACACAACATCCATGAACCGCATCAGCA CCACCACCATTACCACCATCACCATTACCACAGGTAACGGTGCGGGCTGAC GCGTACAGGAAACACAGAAAAAAGCCCGCACCTGAACAGTGCGGGCTTTT TTTTCGACCAGAGATCACGAGGTAACAACCATGCGAGTGTTGAAGTTCGGC GGTACATCAGTGGCAAATGCAGAACGTTTTCTGCGTGTTGCCGATATTCTG GAAAGCAATTCCAGGCAAGGGCAGGTAGCGACCGTACTTTCCGCCCCCGC GAAAATTACCAACCATCTGGTGGCGATGATTGAAAAAACTATCGGCGGCCA GGATGCTTTGCCGAATATCAGCGATGCCGAACGTATTTTTTCTGACCTGCT 2)用BLAST对分割片段与种属内其他基因组进行相似性分析Usage: blastall –p blastn –i fragment_file_name –d sequence_database –e 1e-200 –o blast_result_file_nameBLAST E value 根据实际情况调整3)cofinder.pl发掘种属内保守片段Usage: cofinder.pl genome_list_file_name genome_fragments_file_name blast_result_file_name其中genome_list_file_name 文件包含BLAST比较时种属内其他基因组的序列名称for example,NC_003198NC_003199NC_003140NC_003141其中blast_result_file_name 是由步骤2产生的BLAST比较结果文件。

Windows下本地blast安装方法

Windows下本地blast安装方法

Windows系统下本地BLAST安装方法1.下载安装文件:以blast-2.2.23-ia32-win32.exe为例,将此安装文件放至指定目录,以G:\blast-\为例,如图所示:2. 运行安装程序:双击上述安装文件,单击运行:程序会自动在blast-文件夹下生成3个文件夹:\bin\、\data\和\doc\:3. 添加配置文件:在桌面(任意可以新建文件的地方)新建一个.txt文件,然后将其重命名为NCBI.ini,在提示更改后缀名的对话框中点是。

打开NCBI.ini,在其中写入如下两行内容:[NCBI]Data="path\data\"上边的path是你的blast安装路径,在本例中为G:\blast-,因此,NCBI.ini中的内容为:[NCBI]Data="G:\blast-\data\"写完后保存,然后将该文件复制至C:\Windows目录下:至此,本地blast-2.2.23-ia32-win32安装完毕。

4. 导入数据库:从ftp:///blast/db/上,可下载各类数据库文件,下载完毕后,将其解压至G:\blast-\data\目录下。

注意事项:1.NCBI.ini中的路径为blast所在安装路径;2.此安装办法适用与指定版本,对于blast+版本不适用,若想安装新版本,可自行到网站查阅安装办法;附:运行示例:1.打开cmd命令行;2.通过cd命令到达安装目录的bin\目录下3.通过dir命令查看全部可执行的子程序:4.使用blastall.exe进行比对:输入blastall.exe -d refseq_rna.01 -i G:\blast-\data\test_query.fa -p blastn该命令各部分的含义为:①blastall.exe:blast主程序;②-d refseq_rna.01:选择refseq_rna.01为被搜索的数据库,其数据已存至G:\blast-\data\下;③-i G:\blast-\data\test_query.fa: 选择test_query.fa为查找序列文件,注意,查找文件应输入其绝对路径,但数据库文件不用。

Blast软件的详细使用方法

Blast软件的详细使用方法

Blast软件的详细使用方法blastall -p blastn -i myRNA.fasta -d humanRNA.fasta -o myresult.blastout -a 2 -F F -T T -e 1e-10解释如下:blastall: 这是本地化/命令行执行blast时的程序名字!(Tips:blastall直接回车就会给出你所有的参数帮助,但是英文的)-p: p 是program的简写,program在计算机领域中是程序的意思。

此参数是指定要使用何种子程序,所谓子程序,就是针对不同的需要,如核酸序列和核酸序列进行比对、蛋白质序列和蛋白质序列进行比对、假设翻译后核酸序列于蛋白质序列进行比对,选择相应的子程序: blastn 是用于核酸对核酸blastp 是蛋白质对蛋白质序列等等,一共5个自程序。

-i: i 是input的简写,意思是输入文件,就是你自己的要进行比对的序列文件(fasta格式)-d: d是database的简写,意思是要比对的目标数据库,在例子中就是humanRNA.fasta (别忘了要formatdb)-o: o是output的简写,意思是结果文件名字,这个根据你自己的习惯起名字,可以带路径,(上边两个参数-i -d 也都可以带路径)*注意以上4个参数是必须的,缺一不可,下面的参数是为了得到更好的结果自己可调的参数,如果你不加也没有关系,blastall程序本身会给一个默认值!-a: 是指计算时要用的CPU个数,我的机器有两个CPU,所以用-a 2,这样可以并行化进行计算,提高速度,当然你的计算机就一个CPU,可以不用这个参数,系统默认值为1,就是一个CPU-F: 是filter的简写,blastall程序中有对简单的重复序列和低复杂度的一些repeats过滤调,默认是T (注意以后的有几种参数就两个选项,T/F T就是ture,真,你可以理解为打开该功能; F就是false,假,理解为关闭该功能)-T: 是HTML的简写,是指blast结果文件是否用HTML格式,默认是F!如果你想用IE看,我建议用-T T-e: 是Expectation value,期望值,默认是10,我用的10-10!BLASTALL 用法a.格式化序列数据库格式化序列数据库——formatdbformatdb简单介绍:formatdb处理的都是格式为ASN.1和FASTA,而且不论是核苷酸序列数据库,还是蛋白质序列数据库;不论是使用Blastall ,还是Blastpgp,Mega Blast应用程序,这一步都是不可少的。

本地Blast2GO安装

本地Blast2GO安装

本地Blast2GO安装,及其数据库更新和导入数据中断的解决方案http://blog.shenwei.me/local-blast2go-installation/Posted on 2013-08-17by shenweiin Bioinformatics(4 votes, average: 5.00 out of 5)分享到:QQ空间新浪微博腾讯微博微信人人网更多本文提供改进的本地化Blast2GO自动化安装脚本,以及指导如何更新数据库,并提供导入数据中断的解决方案。

对无root权限的用户同样有效,同时指导如何成功运行b2g4pipe和本地Blast2GO图形界面。

由于Blast2GO官方网站提供的Blast2GO数据库安装教程需要用户具有root权限,而其官网上另一自动化安装脚本已过时,会出错,故文本将二者结合,并根据自身经验重新整理。

软件环境▪操作系统:Linux(Centos, Ubuntu, Fedora等),最好有root权限,方便配置mysql。

▪数据库:Mysql(或者Mysql的分支MariaDB),要有能创建数据库权限的用户,如果没有,可以参照我另一篇日志在没有Root权限的情况下安装Mysql。

▪Java运行环境:一定要Oracle JDK (6、7都行),不要用OpenJDK,否则无法运行b2g4pipe!可参照我另一篇日志《Linux安装JDK》(内含没root权限时安装方法)。

▪Local NCBI-Blast,可参照我另一篇文章《Linux系统中NCBI BLAST+本地化教程》。

▪godatabase: /latest-full/目录下对应的go_XXXX-assocdb-data.gz▪gene_info.gz: ftp:///gene/DATA/gene_info.gz▪gene2accession.gz: ftp:///gene/DATA/gene2accession.gz▪idmapping.tb.gz: ftp:///databases/idmapping/idmapping.tb.gz11121314151617181920212223242526272829303132333435363738394041 MySQL,一定要改为设置的端口,比如我的33060path=/home/shenwei/Public/Data/local_b2g # 数据文件目录,注意路径末尾不要有“/”# 如果已经下载数据文件,下列部分保持注释### Download the GO database the NCBI mapping files and the PIR mapping# wget /latest-full/$godbname.gz# wget ftp:///gene/DATA/gene_info.gz# wget ftp:///gene/DATA/gene2accession.gz# wget ftp:///databases/idmapping/idmapping.tb.gz# 如果已经下载并解压数据文件,下列部分保持注释###unzip files# gzip -dv $godbname.gz# gzip -dv gene_info.gz# gzip -dv gene2accession.gz# gzip -dv idmapping.tb.gzecho 1. Create the DB Tables and usermysql -h$dbhost -P$dbport -u$dbuser -p$dbpass < b2gdb.sql### Import data to the GO Databaseecho 2. Import $godbnamemysql -h$dbhost -P$dbport -u$dbuser -p$dbpass $dbname < $godbnameecho 3. Import gene2accessionmysql -h$dbhost -P$dbport -u$dbuser -p$dbpass $dbname -e"LOAD DATA LOCAL INFILE'$path"/gene2accession"' INTO TABLE gene2accession FIELDS TERMINATED BY '\t' LINES TERMINATED BY '\n';"echo 4. Import gene_infomysql -h$dbhost -P$dbport -u$dbuser -p$dbpass $dbname -e"LOAD DATA LOCAL INFILE'$path"/gene_info"' INTO TABLE gene_info FIELDS TERMINATED BY '\t' LINES TERMINATED BY '\n';"echo 5. Import idmapping.tbjava -cp .:mysql-connector-java-5.0.8-bin.jar: ImportIdMapping $path/idmapping.tb $dbhost:$dbport $dbname blast2go blast4itecho All data imported.注意:如果是无root权限安装的MySQL,一定要设置数据库端口为为自己设置的端口,比如我的33060,否则无法导入idmapping.tb。

本地BLAST操作

本地BLAST操作

本地BLAST
搜索符合条件的序列,在结果列表页面中,点击右侧Send to的下拉菜单,选择File,选择FASTA,然后产生文件保存到自己磁盘:
安装blast本地软件,并测试,点击开始菜单,选择运行,在打开的输入框中输入“cmd”,确定,进入DOS界面,路径切换到你的blast安装目录bin目录下,键入“blastall”,回车:
运行建库程序formatdb:
建库的过程是建立目标序列的索引文件,前面下载保存的fasta格式的序列文件必须用formatdb格式化后,才能用于本地BLAST搜索。

在D:\blast\bin下新建文件夹database, 将local blast demo data解压到本地,将其中的db. seq和query. fasta复制到database文件夹,在DOS窗口切换到当前目录下(d:\blast\bin),输入命令:formatdb.exe –i database\db.seq –p F
此时database文件夹下生成几个新的文件。

扩展名为nin, nsq和nhr的三个文件分别是新建的库索引(indices)、序列(sequences)和头(header)文件。

如果你的数据库是蛋白质序列,这三个文件的扩展名将分别是*.pin, *.psq和*.phr:
输入如下命令:
blastall.exe –p blastn -i database\query.fasta -d database\db.seq -o out.txt
运行结束,在bin文件夹下出现一个新文件out.txt:
附加题:(由于电脑配置问题,线上blast只做了前十条序列)。

NCBI本地Blast 安装方法

NCBI本地Blast 安装方法

IN HOUSE LOCAL BLAST SEARCHTo get started you need the blastall.exe and formatdb.exe (From NCBI). The rest of the perl and batch programs you might need to change the path of the directories they are pointing to or the blast option they use, could be downloaded from:/SGMD/software/blast/Blast.htmFor the programs to work withou t modifying the paths, the whole folder “Blast.zip” should be unzipped to a folder "Blast"moved under the “C:” directory.For questions or comments please contact: Imed Ben Chouikhabchouikh@I. Step one: Blasting1) Download the database that you want to blast against, for example the NT database from NCBI. If you want to use a local database, store all the sequences in a text file. The file provided by NCBI is a zipped (nt.gz) file so you have to unzip it.2) At the DOS prompt (which you can get to from windows by choosing: Start, Run, then typing: command), run formatdb.exe to create a local database from that text file or the downloaded database.Usage:formatdb –t databasename–i inputfile –p FExamples:1) formatdb –t nt–i nt –p F2)formatdb –t snc–i inputfile –p Fdatabasename is the name you want to give to your databaseinputfile is the name of the text file that contains your sequences or the name of the database that you downloaded from GenBank (technically also a text file of sequences). More about formatdb.exe information and command options can be found here:/IEB/ToolBox/C_DOC/lxr/source/doc/formatdb.txt3) Open the file BlastList.pl (using Notepad or your favorite text editor)Make the small changes as instructed in the file then save it.These are the only two changes that should be made to run the program.4) Run BlastList.pl as follows:c:> cd Blastc:\>Blast\perl BlastList.plThe file BlastList.pl automatically creates a batch file “DosBlast.bat” depending on the list of the sequence to be blasted.5) Run DosBlast.batc:\>Blast\ DosBlast.batDosBlast.bat is the actual file that does the blast search.II. Step two: Extracting data from blast results6) Move all the resulting ".txt" files to BlastOut7) Go to the directory BlastOutc:\>Blast\ cd BlastOut8) Run Hits.plc:\>Blast\BlastOut\perl Hits.plThat will move the files that returned no hits to a different directory9) Run DataExt.plc:\>Blast\BlastOut\perl DataExt.plThe output will be written to the file Blasted.txt.With Excel open (using tab delimited) the file Blasted.txt.It contains a summary of the blast results that you can save, edit, etc.LIST OF PROGRAMS:The required programs are available in this directory but here is the code for four of them in case you wish to make some modifications:1)BlastList.bat2)DosBlast.bat3)Hits.pl4)DataExt.pl============================BlastList.bat========================= #!/usr/local/bin/perl## file: BlastList.pl#### Imed Ben Chouikha#### 04/24/03#### This files creates a batch file "DosBlast.bat" based on## the list of ".seq" sequence files.## The file "DosBlast.Bat" runs separetly. (For more information see "ReadMe.doc")#### send comments to: bchouikh@# CHANGES TO MAKE# 1) Change "SCN_seq.fas" (in the first line of the program) with the name of the local# database you are Blasting against:# 2) eliminate (only if needed) anything other than the sequence files in the# "unless" statement (below, in the middle of the code).$DBNAME = "SCN_seq.fas"; ###### Replace "SCN_seq.fas" with local Database name$dirtoget="C:/Blast";opendir(IMD, $dirtoget) || die("Cannot open directory");# delete the old "DosBlast.bat" file that contains the list of sequences# to be blasted$dosfile = "DosBlast.bat";unlink($dosfile);# Get the list of the new sequence files to blast@thefiles= readdir(IMD);closedir(IMD);# Create a new file "DosBlast.bat"open(OUT,">DosBlast.bat") || die "cannot open file for writing: $!";foreach $f (@thefiles){####### Add to the list below everything other that the sequence files####### Here is the Unless statement:unless ( ($f eq ".") || ($f eq "..") || ($f eq "DosBlast.bat") || ($f eq "BlastList.pl") || ($f eq $DBNAME)||($f eq "BlastOut") || ($f eq "blastall.exe") || ($f eq "formatdb.exe")||($f eq "formatdb.log")|| ($f eq "ReadMe.doc")){@myarray = split(/\./,$f); # Old file name$extension =".txt"; # This is the new file extension@newname=@myarray[0].$extension;print(OUT "blastall -p blastn -d $DBNAME -i $f -o @newname -v 0 -b 1\n");} # end of unless} # end of foreach============================DosBlast.bat=========================# Changed this file to be automatically generated. So you do not have to worry about it# it contains lines of the form# blastall -p blastn -d $DBNAME -i $f -o @newname -v 0 -b 1# where $DBNAME is the Database name, $f and @newname are the input and output names# read from the directory by BlastList.pl=============================================================== ============================Hits.pl==============================#!/usr/local/bin/perl#### file Hits.pl#### Imed Ben Chouikha#### 04/24/03#### This files moves all the files that returned "No Hits" to the directory called "NoHits"## and deletes them from the current directory#### Send comments to: bchouikh@$dirtoget="C:/Blast/BlastOut";opendir(IMD, $dirtoget) || die("Cannot open directory");@thefiles= readdir(IMD);#closedir(IMD);## loop over the filesforeach $f (@thefiles){unless ( ($f eq ".") || ($f eq "..") || ($f eq "Blasted.txt") || ($f eq "DataExt.pl")||($f eq "NoHits") || ($f eq "Hits.pl")){open(IN, $f) || die "cannot open file for reading: $!";#open(OUT,">nohitlist.txt") || die "cannot open file for writing: $!";$nohit = "No Hits Found";$count = 0;while($lines = <IN>){chop($lines);if ($lines =~ /$nohit/){$count += 1;}else{$count = $count;}$lines += 1;} # end of while loopif ($count >= 1){close(IN);$odir="NoHits";opendir(IMD1, $odir) || die("Cannot open directory");rename($f, "$odir/$f");closedir(IMD1);#unlink($f);}else {$count = $count;}} # end of unless} # end of foreach===========================DataExt.pl============================ #!/usr/local/bin/perl#### file: DataExt.pl#### Imed Ben Chouikha#### 04/24/03#### This file extracts the E-values, best hits, and other values from the Blast result.#### send comments to: bchouikh@$dirtoget="C:/Blast/BlastOut";opendir(IMD, $dirtoget) || die("Cannot open directory");@thefiles= readdir(IMD);closedir(IMD);## loop over the filesopen(OUT,">Blasted.txt") || die "cannot open file for writing: $!";foreach $f (@thefiles){unless ( ($f eq ".") || ($f eq "..") || ($f eq "Blasted.txt") || ($f eq "DataExt.pl")||($f eq "NoHits") || ($f eq "Hits.pl")){open(IN, $f) || die "cannot open file for reading: $!";$besthit = 0;$scorecount = 0;$line0 = "";while($lines = <IN>){if ($besthit < 1) { # main while loopchop($lines);if ($lines =~ />/){$name = $lines;}elsif($lines =~ /Length =/){$length=$lines;if ($line0 =~ />/){$secondname = $secondname;}else{$secondname = $line0;}}elsif($lines =~ /Score = /){$score = $lines;}elsif($lines =~ /Identities = /){$identities = $lines;}elsif($lines =~ /Strand = /){$strand = $lines;print ( OUT "$f $name $secondname \t $length \t $score \t $identities \t $stand \n");$besthit += 1;}else{$lines = $lines;}$line0 = $lines;$lines +=1;}else{$lines +=1;}} # end of while loop} # end of unless} # end of foreach。

Windows系统下本地blast

Windows系统下本地blast

TSA:
Transcriptome Shotgun Assembly
blastn -help
blastn –query sesametest.txt –db sesameESTdb –out 002.txt
打开 002.txt 文件,查看本次blastn 结果。
对sesametest.txt 运行blastn 搜索 sesameNTdb 数据库
指一种很直接的数量关系,部分相同或
相似的百分比或其它一些合适的度量。

比如,A序列和B序列的相似性是80%, 这是个量化的关系,可进行局部比较。
3
生物序列的同源性(不可量化)
同源性(homology):

指从一些数据中推断出的两个基因或蛋白质
序列具而共同祖先的结论,属于质的判断。

即在A和B的关系上,只有是同源序列,或
3.查询序列可能是某功能基因的同源基因 „
9
两种版本的Blast比较(一)

网络版本 包括NCBI在内很多网站提供在线blast服务。
优点:使用方便,容易操作,数据库同步更新。 缺点:不利于操作大批量数据,不能构建自己的 数据库。
10



两种版本的Blast比较(二)

单机版
通过NCBI的ftp站点获得,有适合不同平台的版本(包 括linux,win,dos等)。
开发的一个基于序列相似性的数据库搜索程序。

BLAST是“基本局部对比搜索工具” (Basic Local Alignment Search Tool)的缩写。

BLAST是一套在蛋白质数据库或DNA数据库中进行 相似性比较的分析工具。
2
生物序列的相似性(可量化)

新版blast本地化构建+数据库下载+序列间的相似性检索

新版blast本地化构建+数据库下载+序列间的相似性检索

新版blast本地化构建+数据库下载+序列间的相似性检索Ethnobotany前面记录了blast-2.2.23-ia32-win32的本地化构建及相似性检索,NCBI新近对blast程序做了一些修改推出了blast+,这里结合网上资料、blast+的user manual对blast+的本地化构建及使用作一引荐。

1blast+的本地化构建链接到:ftp:///blast/executables/blast+/LATEST下载ncbi-blast-2.2.23+-ia32-win32.tar.gz(绿色版),解压到d盘,并将文件夹更名为blast(我习惯这样做,因为在dos中写命令时方便),这样就安装完毕了,blast下具2个文件即bin 和doc。

2 数据库下载2.1法1:直接从NCBI下载subject序列去掉txt的扩展名做成数据库即*db,然后将query 序列的txt扩展名掉做成查询文件*in。

(格式必须是fasta,名字可以自己随便命名)2.2法2:从NCBI中的ftp库下载所需要的某一个库或几个库,其链接为ftp:///blast/db/2.3法3:利用新版blast自带的update_blastdb.pl进行下载,这需要安装perl程序。

2.3.1 perl程序的下载和安装可google“Perl for Windows”获得,也可直接按此连接/releases.html下载并,安装到任何盘均可。

2.3.2运行update_blastdb.pl进行下载2.3.2.1开始>运行>cmd+确认>进入dos系统>输入以下命令打开bin文件夹。

2.3.2.2接着输入下述命令回车查看操作帮助(这一步可以不做,不妨碍后续操作)2.3.2.3还可输入下述命令回车查看NCBI中的库(无需登录NCBI你就可以看到你所需要的库)2.3.2.4以下载载体库(vector)为例演示如何下载库。

本地化blast及应用测试

本地化blast及应用测试
1、格式化数据库.............................................................................................................9 2、蛋白序列比对蛋白数据库.......................................................................................10 3、核酸序列比对核酸数据库.......................................................................................10 4、核酸序列比对蛋白数据库.......................................................................................11 3.4、结果解释........................................................................................................................12 四、应用测试.................................................................................................................................14
本地化 blast 及应用测试
113040目录
本地化blast及应用测试 ...................................................................................................................1 一、简介...........................................................................................................................................2 二.安装...........................................................................................................................................2

用Perl实现在Windows下本地化运行BLAST

用Perl实现在Windows下本地化运行BLAST

用Perl 实现在W indows 下本地化运行BLAST范彦辉,陶士珩(西北农林科技大学生物信息学研究中心,陕西杨凌712100)摘要:通过编写Perl 脚本实现BLAST 的本地化运行,使不懂编程的人也能在windows 下进行自己的BLAST 。

关键词:BLAST Perl 序列比对中图分类号:TP316 文献标识码:A 文章编号:1672-5565(2008)-04-178-04收稿日期:2007-10-19;修回日期:2008-01-08作者简介:范彦辉(19-),男,河南信阳,硕士研究生,生物信息学,yanhuifan @ 3通讯作者:陶士珩(19-),男,教授,博士生导师,生物信息学,shihengt @Run stand -alone B LAST on Windows using Perl scriptFAN Y an -hui ,T AO Shi -heng3(Bioinformatics center ,Northwest A &F Univer sity ,Yangling Shanxi 712100,China )Abstract :T o run stand -alone BLAST on windows operating system ,a Perl script was written to help those who know little about programming language.K ey Words :BLAST Perl Sequence alignment1 软件安装1.1 Perl 在windows 操作系统下的安装Perl 是Practical Extraction Report Language (实用析取报表语言)的缩写,他是由Larry Wall 最初设计编写的。

Perl 是被设计成跨平台运行的,可用于UNIX 、Linux 、M AC 和Windows 等环境下编程[1]。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

Blast本地化:window平台下blast软件的安装boyun发表于 2009-07-09 17:08 | 阅读 1 views
1.对于windows 2000/xp 用户,下载blast-
2.2.18-ia32-win32.exe安装文件
ftp:///blast/executables/LATEST/blast-
2.2.18-ia32-win32.exe
2.创建一个新目录,例如C:\blast,将下载的文件blast-2.2.18-ia32-win32.exe复制到该目录,双击这个文件,自解压产生bin、data、doc 三个目录,bin是程序目录,data是程序使用数据的目录,doc是文档目录。

表:bin目录中的程序
程序说明
bl2seq.exe进行两条序列比对
blastall.exe做普通的blast比对
blastclust.exe
blastpgp.exe
copymat.exe
fastacmd.exe通过gi号,接收号等,在数据库中检索序

formatdb.exe格式化数据库
formatrpsdb.exe
impala.exe
makemat.exe
megablast.exe megablast程序
rpsblast.exe
seedtop.exe
3.用文本编辑器创建一个ncbi.ini文件,文件包含下面内容:[NCBI]
Data="C:\blast\data\"
将ncbi.ini文件存放到系统的Windows 或者 WINNT目录。

4.将”C:\blast\bin”目录添加路径中(该步骤非必须,但会给以后的操作带来方便),方法:
1)右击我的电脑选择属性,选择高级,点击环境变量,
设置环境变量
2)系统变量中,选择Path,点击“编辑”,在变量值的后面添加“; C:\blast\bin”,点击确定
将安装路径添加到path
5.测试,打开dos窗口(点击开始,选择运行,打开的输入框中输
入“cmd”,确定),键入“blastall”,回车,如果安装正确,将显示blastall的所有参数说明。

安装测试
注意:
如果报错:“‘blastall’不是内部或外部命令,也不是可
运行的程序或批处理文件。

”,请检查环境变量设置,或者
切换到安装目录的bin目录下,再执行。

如果报错:“FATAL ERROR: FindPath failed.”,请检查
ncbi.ini文件。

相关文档
最新文档