基因家族生信分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基因家族生信分析
一、什么是基因家族
概念:是来源于同一个祖先,有一个基因通过基因重复而产生两个或更多的拷
贝而构成的一组基因,他们在结构和功能上具有明显的相似性,编码相似的蛋白质产物。
划分:
按功能划分:把一些功能类似的基因聚类,形成一个家族。
按照序列相似程度划分:一般将同源的基因放在一起认为是一个家族。
1.常见基因家族:
WRKY基因家族:是植物前十大蛋白质基因家族之一,大量研究表明,WRKY 基因家族的许多成员参与调控植物的生长发育,形态建成与抗病虫。
NBS-LRR抗病基因家族:是植物中最大类抗病基因家族之一。
MADS-BOX基因家族:是植物体内的重要转录因子,它们广泛地调控着植物的生长、发育和生殖等过程。在植物中参与花器官的发育,开花时间的调节,在果实,根,茎,叶的发育中都起着重要的作用。
热激蛋白70家族(HSP70)是一类在植物中高度保守的分子伴侣蛋白,在细胞中协助蛋白质正确折叠。
二、基因家族分析流程:
●利用蛋白保守域结构提取号在Pfam数据库提取其隐马尔科夫模型矩
阵文件(*.hmm)
●在数据库(Ensemble 、JGI、NVBI)下载你所需要的物种的基因组数
据(*.fa,*.gff)
●在虚拟机中Bio-Linux中的hummsearch程序,用隐马尔科夫模型矩
阵文件在蛋白序列文件中搜索含有该保守结构域的蛋白
●将蛋白序列导入MEGA软件构建进化树(可以阐明成员之间系统进化
关系,从进化关系上揭示其多样性)
●利用MEME搜索蛋白质的保守结构域
利用MEME搜索基因家族成员的motif可以揭示基因家族在物种内的多样化及其功能,如果他们都含有相同的motif表明其功能具有
相似性,如果部分家族成员含有其他不同的motif,很可能这些成员有
其他特异功能,或者可以归分为一个亚族
●绘制基因染色体位置图
从*.gff文件中抽取我们搜索到的基因位置信息,_v2.0/在线绘
制基因染色体位置图
通过染色体位置分布,可以了解基因主要分布字哪条染色体上,及是
否能形成基因簇(被认为是通过重组与错配促进基因交流)
●基因结构分析
从gff文件中抽取基因的结构信息,绘制转录本结构图。
●计算串联重复基因的Ka,Ks
1.首先将筛选到的基因的cds序列进行多序列对比,筛选
identity > 75%,tength大于对比的两条序列中较长的那条的长
度的75%,将筛选到的基因分别用clustalw进行比对,比对结果
导入KsKs_Calculster计算Ka,Ks、
Ka/ks比,计算核苷酸的非同义替代(ka)与核苷酸的同义替代
(ks)的平均速率。
2.Ka/ks比值<1表明:通过纯化选择降低了氨基酸变化的速率;比
值=1表示中性选择;比值>1,表明这些基因可能已经收到积极选
择,有利于适应性遗传,这些受正向选择的基因将作为以后的研
究重点。
软件的安装
从图片中获得进入NCBI-blast官网复制blast-linux版本的链接
在Linux终端
1.blast的安装
#wget blast链接
#tar xvfz 文件名解压缩文件
# mv 解压缩文件/root/local/app
# mv 解压缩文件blast
# vi .bashrc
#在最后一行添加export $PATH=/root/local/app/blast/bin:$PATH 并保存退出#source .bashrc 运行
#blastp -version 查看是否安装成功。
2.hummer的安装
#yum install -y wget //安装wget
#wget hmmer源码链接
#tar -zxvf hmmer-3.2.1
# vi .bashrc
#(在最末端添加的语句) PATH=$PATH:~/biosoft/hmmer-
#yum install -y gcc
#./configure
#make
#make check
#make install
#which hmmsearch 查看是否安装成功。
3.perl的安装
#wget 源代码链接
# tar xvfz perl- 解压缩
#cd perl-5.28.1
#./configure
#make
#make install 安装完成。
3.bioperl 的安装
#wget -O - | bash
#perlbrew install-cpanm
#/root/perl5/perlbrew/bin/cpanm Bio::Perl
三、具体操作:
1.保守域结构分析
下载蛋白保守结构域文件、cds、cDNA、gff注释文件和隐马尔科夫矩阵模型。以拟南芥为例:
下载完成后,需要将文件传到Linux系统上进行分析:
打开虚拟机输入ip a将虚拟机IP连接到Xshell上,在Xshell上进行操作,将文件通过xftp(同样需要连接IP)传到Linux系统上,然后进行解压。
(一个命令解压多个文件:gunzip*.gz)
接下来用hummsearch寻找含有该蛋白保守结构域的蛋白及核酸序列
安装hummsearch
yum install -y wget //安装wget
#wget hmmer源码链接
#tar -zxvf hmmer-3.2.1
# vi .bashrc
#(在最末端添加的语句) PATH=$PATH:~/biosoft/hmmer-
#yum install -y gcc
#./configure
#make
#make check
#make install
#which hmmsearch 查看是否安装成功。
解压文件
移动到APP目录下面
在app目录下面新建文件夹 mkdir hmmer
将hmmer- mmove -v c:/hmmer-3.2.1 c:/hmmer
删除安装包
打开文字编辑器
vi ~/.bashrc
在文字编辑器里最后一行添加以上内容
安装好wget
如果make check出现错误百度用以下方法解决
出现complete安装完成
#source ~/.bashrc
#which hmmsearch
至此hmmer安装完成。