基因家族生信分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

基因家族生信分析

一、什么是基因家族

概念:是来源于同一个祖先,有一个基因通过基因重复而产生两个或更多的拷

贝而构成的一组基因,他们在结构和功能上具有明显的相似性,编码相似的蛋白质产物。

划分:

按功能划分:把一些功能类似的基因聚类,形成一个家族。

按照序列相似程度划分:一般将同源的基因放在一起认为是一个家族。

1.常见基因家族:

WRKY基因家族:是植物前十大蛋白质基因家族之一,大量研究表明,WRKY 基因家族的许多成员参与调控植物的生长发育,形态建成与抗病虫。

NBS-LRR抗病基因家族:是植物中最大类抗病基因家族之一。

MADS-BOX基因家族:是植物体内的重要转录因子,它们广泛地调控着植物的生长、发育和生殖等过程。在植物中参与花器官的发育,开花时间的调节,在果实,根,茎,叶的发育中都起着重要的作用。

热激蛋白70家族(HSP70)是一类在植物中高度保守的分子伴侣蛋白,在细胞中协助蛋白质正确折叠。

二、基因家族分析流程:

●利用蛋白保守域结构提取号在Pfam数据库提取其隐马尔科夫模型矩

阵文件(*.hmm)

●在数据库(Ensemble 、JGI、NVBI)下载你所需要的物种的基因组数

据(*.fa,*.gff)

●在虚拟机中Bio-Linux中的hummsearch程序,用隐马尔科夫模型矩

阵文件在蛋白序列文件中搜索含有该保守结构域的蛋白

●将蛋白序列导入MEGA软件构建进化树(可以阐明成员之间系统进化

关系,从进化关系上揭示其多样性)

●利用MEME搜索蛋白质的保守结构域

利用MEME搜索基因家族成员的motif可以揭示基因家族在物种内的多样化及其功能,如果他们都含有相同的motif表明其功能具有

相似性,如果部分家族成员含有其他不同的motif,很可能这些成员有

其他特异功能,或者可以归分为一个亚族

●绘制基因染色体位置图

从*.gff文件中抽取我们搜索到的基因位置信息,_v2.0/在线绘

制基因染色体位置图

通过染色体位置分布,可以了解基因主要分布字哪条染色体上,及是

否能形成基因簇(被认为是通过重组与错配促进基因交流)

●基因结构分析

从gff文件中抽取基因的结构信息,绘制转录本结构图。

●计算串联重复基因的Ka,Ks

1.首先将筛选到的基因的cds序列进行多序列对比,筛选

identity > 75%,tength大于对比的两条序列中较长的那条的长

度的75%,将筛选到的基因分别用clustalw进行比对,比对结果

导入KsKs_Calculster计算Ka,Ks、

Ka/ks比,计算核苷酸的非同义替代(ka)与核苷酸的同义替代

(ks)的平均速率。

2.Ka/ks比值<1表明:通过纯化选择降低了氨基酸变化的速率;比

值=1表示中性选择;比值>1,表明这些基因可能已经收到积极选

择,有利于适应性遗传,这些受正向选择的基因将作为以后的研

究重点。

软件的安装

从图片中获得进入NCBI-blast官网复制blast-linux版本的链接

在Linux终端

1.blast的安装

#wget blast链接

#tar xvfz 文件名解压缩文件

# mv 解压缩文件/root/local/app

# mv 解压缩文件blast

# vi .bashrc

#在最后一行添加export $PATH=/root/local/app/blast/bin:$PATH 并保存退出#source .bashrc 运行

#blastp -version 查看是否安装成功。

2.hummer的安装

#yum install -y wget //安装wget

#wget hmmer源码链接

#tar -zxvf hmmer-3.2.1

# vi .bashrc

#(在最末端添加的语句) PATH=$PATH:~/biosoft/hmmer-

#yum install -y gcc

#./configure

#make

#make check

#make install

#which hmmsearch 查看是否安装成功。

3.perl的安装

#wget 源代码链接

# tar xvfz perl- 解压缩

#cd perl-5.28.1

#./configure

#make

#make install 安装完成。

3.bioperl 的安装

#wget -O - | bash

#perlbrew install-cpanm

#/root/perl5/perlbrew/bin/cpanm Bio::Perl

三、具体操作:

1.保守域结构分析

下载蛋白保守结构域文件、cds、cDNA、gff注释文件和隐马尔科夫矩阵模型。以拟南芥为例:

下载完成后,需要将文件传到Linux系统上进行分析:

打开虚拟机输入ip a将虚拟机IP连接到Xshell上,在Xshell上进行操作,将文件通过xftp(同样需要连接IP)传到Linux系统上,然后进行解压。

(一个命令解压多个文件:gunzip*.gz)

接下来用hummsearch寻找含有该蛋白保守结构域的蛋白及核酸序列

安装hummsearch

yum install -y wget //安装wget

#wget hmmer源码链接

#tar -zxvf hmmer-3.2.1

# vi .bashrc

#(在最末端添加的语句) PATH=$PATH:~/biosoft/hmmer-

#yum install -y gcc

#./configure

#make

#make check

#make install

#which hmmsearch 查看是否安装成功。

解压文件

移动到APP目录下面

在app目录下面新建文件夹 mkdir hmmer

将hmmer- mmove -v c:/hmmer-3.2.1 c:/hmmer

删除安装包

打开文字编辑器

vi ~/.bashrc

在文字编辑器里最后一行添加以上内容

安装好wget

如果make check出现错误百度用以下方法解决

出现complete安装完成

#source ~/.bashrc

#which hmmsearch

至此hmmer安装完成。

相关文档
最新文档