基因家族分析套路
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
近年来,测序价格的下降,导致越来越多的基因组完成了测序,在数据库中形成了大量的可用资源。如何利用这些资源呢?今天小编带你认识一下不测序也能发文章的思路--全基因组基因家族成员鉴定与分析(现在这一领域可是很热奥);
一、基本分析内容
⏹数据库检索与成员鉴定
⏹进化树构建
⏹保守domain和motif分析.
⏹基因结构分析.
⏹转录组或荧光定量表达分析.
二、数据库检索与成员鉴定
1、数据库检索
1)首先了解数据库用法,学会下载你要分析物种的基因组相关数据。一般也就是下面这些数据库了
⏹Brachypodiumdb:
⏹
⏹Rice Genome Annotation Project :.
⏹
⏹
⏹
2)已鉴定的家族成员获取。
如何获得其他物种已发表某个基因家族的所有成员呢,最简单的就是下载
该物种蛋白序列文件(可以从上述数据库中下载),然后按照文章中的ID,找
到对应成员。对于没有全基因组鉴定的,可以下列数据库中找:
a. NCBI: nucleotide and protein d
b.
2、比对工具。一般使用blast和hmmer,具体使用命令如下:
⏹Local BLAST
formatdb–i db.fas–p F/T;
blastall–p blastp(orelse) –i known.fas–d db.fas–m 8 –b 2(or else) e 1e-5 –o alignresult .txt.
-b:output two different members in subject sequences (db).
⏹Hmmer (hidden Markov Model) search. Thesame as PSI-BLAST in function. It h
as a higher sensitivity, but the speed islower.
Command:
3、过滤。
⏹Identity: 至少50%.
⏹Cover region: 也要超过50%或者蛋白结构域的长度.
⏹
⏹EST 支持
⏹ Blast and Hmmer同时检测到
4、通过上述操作获得某家族的所有成员
基因家族分析套路(二)
本次主要讲解在基因家族分析类文章中,进化部分分析的内容。主要是进化树的构建与分析。
一、构建进化树的基本步骤
1、多序列比对. Muscle program.
3、算法选择。三种. NJ, ML and BI.
4、软件选
二、具体步骤
2.1 多序列比对。一般采用muscle。因
为 MUSCLE is one of the best-performing multiple alignment programs according to published benchmark tests, with accuracy and speed that a re consistently better than CLUSTALW.
2.2 模型选择。
对于用蛋白序列构建进化树的可以采用下面命令:
java -Xmx250m -classpath path/ProtTest.jar prottest.ProtTest -i alig nmfile.phy.
运行结果如下图
注意:
1)“.Phy” format. Only allow ten charaters.注意名字不能重复相同。2)AIC: Akaike Information Criterion framework.
3)Gamma distribution parameter (G): gamma shape.
3)proportion of invariable sites: I.
2.3 构建进化树
2.3.1 意义:
a聚类分析。如亚家族分类。像MAPKKK基因家族通过进化树可以清楚分
为 MEKK, Raf and ZIK三个亚家族.
b亲缘关系鉴定。在进化树上位于同一支的往往暗示这亲缘关系很近
c 基因家族复制分析。研究基因家族复制事件(duplication events),两种复制事件类型常采用的标准:
Tandem duplication: Identity and cover region more than 70% and tight ly linked (Holub, 2001).
2.3.2 进化树。
一般ML树比较准确,但应结合方法,如NJ树,相互验证。
2.3.3 进化部分分析:KaKs计算
a. ParaAT: ParaAT.pl-h test.homologs -n test.cds -a test.pep -p proc –
f axt –k -o output
c.分歧时间计算:Divergenttime(T) calculation.
T=Ks/2λ. λ : mean 5.1-7.1×10-9 .
d. Ka/Ks意义:
Ka/Ks=1.中性进化。.
Ka/Ks<>
Ka/Ks>1.正选择。
Positively selected genes and produce fitness advantagemutations to ev olve new functions.
基因家族分析套路(三)
本节主要讲基因结构分析套路
1、Motif分析
使用软件MEME,命令如下: