基因家族生信分析

合集下载

水稻基因组序列的生物信息学分析

水稻基因组序列的生物信息学分析水稻是全球最重要的粮食作物之一，为了更好地理解水稻的基因组和基因功能，水稻基因组序列的生物信息学分析在近年来成为了研究的热点。

同时，水稻的基因组序列数据也为水稻育种和改良提供了更广泛的基础。

水稻基因组序列数据源对于生物信息学分析而言，首先需要收集数据。

水稻基因组序列的数据可以来源于GenBank、Ensembl Plants、Gramene等数据库，这些数据库中收录的水稻基因组数据具有较高的准确性和可靠性。

基因组注释基因组注释是指将序列上的信息以可识别的形式进行描述和标注，其中包括基因定位、基因结构、启动子区域、编码序列和非编码序列等。

水稻基因组注释早已有较为完善的结果，并且此外，大量的转录组数据也为基因功能识别和分析提供了更多的信息。

目前，水稻是全球拥有最齐全和全面的基因组注释和基因功能信息的农作物之一。

基因家族分析基因家族是指具有相似序列和保守功能的基因集合。

水稻基因组中大量的基因家族的分析对于理解水稻基因功能及其演化，以及水稻与其他物种基因组之间的关系具有关键作用。

例如NBS-LRR家族被广泛研究并被归属于水稻抗病基因家族之一。

基因家族的分析可以为水稻品种改良提供指导，从而增加其抗病性和生产力。

微卫星和SNP分析微卫星和单核苷酸多态性（SNP）是常见的分子标记方式，它们被普遍用于物种分类、进化和基因定位。

其中，微卫星序列在水稻中比较常见，并作为生物的DNA指纹来应用。

同时，SNP可以对现代育种和种质资源管理提供帮助。

微卫星和SNP分析可以用于水稻种质资源的变异程度评估和亲缘关系分析。

差异表达基因分析差异表达基因（DEGs）是指在不同生物学状态下，在两个或多个组织或物种中表达量不同的基因。

对于水稻而言，如未受到逆境处理的基因表达模式与受到逆境处理后的差异表达模式将会不同。

由于DEGs分析有助于识别水稻中与逆境响应相关的基因，因此可作为提高水稻逆境抗力的重要依据。

家族基因生信分析基本流程

家族基因生信分析基本流程下载温馨提示:该文档是我店铺精心编制而成，希望大家下载以后，能够帮助大家解决实际的问题。

文档下载后可定制随意修改，请根据实际需要进行相应的调整和使用，谢谢!并且，本店铺为大家提供各种各样类型的实用资料，如教育随笔、日记赏析、句子摘抄、古诗大全、经典美文、话题作文、工作总结、词语解析、文案摘录、其他资料等等，如想了解不同资料格式和写法，敬请关注!Download tips: This document is carefully compiled by theeditor. I hope that after you download them,they can help yousolve practical problems. The document can be customized andmodified after downloading,please adjust and use it according toactual needs, thank you!In addition, our shop provides you with various types ofpractical materials,such as educational essays, diaryappreciation,sentence excerpts,ancient poems,classic articles,topic composition,work summary,word parsing,copy excerpts,other materials and so on,want to know different data formats andwriting methods,please pay attention!《家族基因生信分析基本流程》一、准备工作阶段1. 确定研究目的：明确家族基因生信分析的目的，例如研究家族性疾病的遗传模式、寻找致病基因等。

亚洲棉CBL基因家族鉴定及生物信息学分析

棉花科学，２０２１，４３（２）：１４－２１前沿与创新亚洲棉ＣＢＬ基因家族鉴定及生物信息学分析杨秀，邓艳凤，肖水平，刘新稳，王涛，杨绍群（江西省棉花研究所／国家棉花产业技术体系鄱阳湖综合试验站，江西九江３３２１０５）收稿日期：２０２１０２１９基金项目：国家重点研发计划（２０１８ＹＦＤ０１００４０４）；国家重点研发计划（２０１６ＹＦＤ０１０１４１４）；江西省现代农业产业技术体系专项（ＪＸＡＲＳ２２）。

作者简介：杨秀（１９９１），女，研究实习员，硕士，从事棉花新品种选育与栽培研究工作，ｙａｎｇｘｉｕ０１１７＠１６３ｃｏｍ。

通信作者：杨绍群，农艺师，从事棉花新品种选育与栽培研究工作，５２３６３９５１５＠ｑｑｃｏｍ。

摘要：为了探究ＣＢＬ（钙调磷酸酶Ｂ亚基蛋白）基因参与棉花非生物胁迫响应。

利用生物信息学的方法对亚洲棉ＣＢＬ家族成员进行鉴定，并对其成员的理化性质、进化关系、基因结构、蛋白结构、染色体定位、顺式作用元件进行分析。

结果表明，在亚洲棉中获得２０个ＣＢＬ基因，该基因成员蛋白的理化性质差异不大，大多数ＣＢＬ基因成员的等电点为４～５５，ＣＢＬ蛋白中的氨基酸大部分为酸性；系统进化树分析得出两个组，ＧｒｏｕｐＩＩ包含的成员最多，ＧｒｏｕｐＩ中仅有ＧａＣＢＬ４１、ＧａＣＢＬ４２、ＧａＣＢＬ４３和ＧａＣＢＬ８共４个成员；结构域和保守基序分析发现所有的ＣＢＬ基因均含有至少一个ＥＦｈａｎｄ结构域，且同一类群中的大多数成员具有相似的ｍｏｔｉｆ；基因结构分析发现同一类群中外显子－内含子结构比较相似，不同组之间的基因结构差异较大。

染色体定位分析发现１８个ＣＢＬ基因被定位在１０条染色体上，而ＧａＣＢＬ２５和ＧａＣＢＬ２６不能定位到任何染色体上。

ＧａＣＢＬ家族基因成员启动子区域中均含有多个能够应答逆境和植物激素的顺式作用元件。

综上表明，亚洲棉各ＣＢＬ基因参与不同的生物学过程并发挥着不同的功能。

关键词：亚洲棉；ＣＢＬ；基因鉴定；生物信息分析中图分类号：Ｓ５６２０３５　文献标识码：Ａ　文章编号：２０９５－３１４３（２０２１）０２－００１４－０８ＤＯＩ：１０３９６９／ｊｉｓｓｎ２０９５－３１４３２０２１０２００２ＩｄｅｎｔｉｆｉｃａｔｉｏｎａｎｄＢｉｏｉｎｆｏｒｍａｔｉｃｓＡｎａｌｙｓｉｓｏｆＧＡＣＢＬＦａｍｉｌｙＧｅｎｅｉｎＧｏｓｓｙｐｉｕｍＡｒｂｏｒｅｔｕｍＹａｎｇＸｉｕ，ＤｅｎｇＹａｎｆｅｎｇ，ＸｉａｏＳｈｕｉｐｉｎｇ，ＬｉｕＸｉｎｗｅｎ，ＷａｎｇＴａｏ，ＹａｎｇＳｈａｏｑｕｎ（ＣｏｔｔｏｎＲｅｓｅａｒｃｈＩｎｓｔｉｔｕｔｅｏｆＪｉａｎｇｘｉＰｒｏｖｉｎｃｅ／ＰｏｙａｎｇＬａｋｅＣｏｍｐｒｅｈｅｎｓｉｖｅＥｘｐｅｒｉｍｅｎｔａｌＳｔａｔｉｏｎｏｆＮａｔｉｏｎａｌＣｏｔｔｏｎＩｎｄｕｓｔｒｉａｌＴｅｃｈｎｏｌｏｇｙＳｙｓｔｅｍ．，Ｊｉｕｊｉａｎｇ，Ｊｉａｎｇｘｉ３３２１０５，Ｃｈｉｎａ）Ａｂｓｔｒａｃｔ：ＩｎｏｒｄｅｒｔｏｅｘｐｌｏｒｅｔｈｅｉｎｖｏｌｖｅｍｅｎｔｏｆＣＢＬ（ｃａｌｃｉｎｅｕｒｉｎＢｓｕｂｕｎｉｔｐｒｏｔｅｉｎ）ｇｅｎｅｓｉｎａｂｉｏｔｉｃｓｔｒｅｓｓｒｅｓｐｏｎｓｅｉｎｃｏｔｔｏｎ．ＵｓｉｎｇｂｉｏｉｎｆｏｒｍａｔｉｃｓｍｅｔｈｏｄｓｔｏｉｄｅｎｔｉｆｙｔｈｅｍｅｍｂｅｒｓｏｆＧａＣＢＬｆａｍｉｌｙ，ａｎｄｔｈｅｐｈｙｓｉｃｏｃｈｅｍｉ·４１·《棉花科学》欢迎投稿，欢迎订阅！棉花科学２０２１年（第４３卷）第２期杨秀，等：亚洲棉ＣＢＬ基因家族鉴定及生物信息学分析ｃａｌｐｒｏｐｅｒｔｉｅｓ，ｅｖｏｌｕｔｉｏｎａｒｙｒｅｌａｔｉｏｎｓｈｉｐｓ，ｇｅｎｅｓｔｒｕｃｔｕｒｅ，ｐｒｏｔｅｉｎｓｔｒｕｃｔｕｒｅ，ｃｈｒｏｍｏｓｏｍｅｌｏｃａｔｉｏｎａｎｄｃｉｓ－ａｃｔｉｎｇｅｌｅｍｅｎｔｓｏｆｔｈｅｍｅｍｂｅｒｓｗｅｒｅａｎａｌｙｚｅｄ．Ｔｈｅｒｅｓｕｌｔｓｓｈｏｗｅｄｔｈａｔ２０ＣＢＬｇｅｎｅｓｗｅｒｅｏｂｔａｉｎｅｄｆｒｏｍＧ．ａｒｂｏｒｅｕｍ，ａｎｄｔｈｅｐｈｙｓｉｃａｌａｎｄｃｈｅｍｉｃａｌｐｒｏｐｅｒｔｉｅｓｏｆｔｈｅｉｒｍｅｍｂｅｒｐｒｏｔｅｉｎｓｗｅｒｅｎｏｔｓｉｇｎｉｆｉｃａｎｔｌｙｄｉｆｆｅｒｅｎｔ．ＴｈｅｉｓｏｅｌｅｃｔｒｉｃｐｏｉｎｔｓｏｆｍｏｓｔｍｅｍｂｅｒｓｏｆＧａＣＢＬｇｅｎｅｓｗｅｒｅｂｅｔｗｅｅｎ４ｔｏ５５，ｔｈａｔｍｏｓｔｏｆｔｈｅａｍｉｎｏａｃｉｄｓｉｎＧａＣＢＬｐｒｏｔｅｉｎｓｗｅｒｅａｃｉｄｉｃ．Ｐｈｙｌｏｇｅｎｅｔｉｃｔｒｅｅａｎａｌｙｓｉｓｏｆｔｗｏｇｒｏｕｐｓ，ＧｒｏｕｐＩＩｃｏｎｔａｉｎｅｄｔｈｅｍｏｓｔｍｅｍｂｅｒｓ，ｗｈｉｌｅＧｒｏｕｐＩｏｎｌｙｃｏｎｔａｉｎｅｄＧａＣＢＬ４１，ＧａＣＢＬ４２，ＧａＣＢＬ４３ａｎｄＧａＣＢＬ８．Ｔｈｒｏｕｇｈｄｏｍａｉｎａｎｄｃｏｎｓｅｒｖｅｄｍｏｔｉｆａｎａｌｙｓｉｓ，ｆｏｕｎｄｔｈａｔａｌｌＧａＣＢＬｇｅｎｅｓｃｏｎｔａｉｎａｔｌｅａｓｔｏｎｅＥＦｈａｎｄｄｏｍａｉｎ，ａｎｄｍｏｓｔｍｅｍｂｅｒｓｏｆｔｈｅｓａｍｅｇｒｏｕｐｈａｖｅｓｉｍｉｌａｒｍｏｔｉｆｓ．Ｔｈｅａｎａｌｙｓｉｓｏｆｇｅｎｅｓｔｒｕｃｔｕｒｅｆｏｕｎｄｔｈａｔｔｈｅｅｘｏｎｉｎｔｒｏｎｓｔｒｕｃｔｕｒｅｏｆｔｈｅｓａｍｅｇｒｏｕｐｗａｓｓｉｍｉｌａｒ，ａｎｄｔｈｅｄｉｆｆｅｒｅｎｃｅｏｆｇｅｎｅｓｔｒｕｃｔｕｒｅｂｅｔｗｅｅｎｄｉｆｆｅｒｅｎｔｇｒｏｕｐｓｗａｓｇｒｅａｔ．Ｃｈｒｏｍｏｓｏｍａｌｌｏｃａｔｉｏｎａｎａｌｙｓｉｓｒｅｖｅａｌｅｄｔｈａｔ１８ＧａＣＢＬｇｅｎｅｓｗｅｒｅｌｏｃａｔｅｄｏｎ１０ｃｈｒｏｍｏｓｏｍｅｓ，ｗｈｉｌｅＧａＣＢＬ２５ａｎｄＧａＣＢＬ２６ｃｏｕｌｄｎｏｔｂｅｌｏｃａｔｅｄｏｎａｎｙｃｈｒｏｍｏｓｏｍｅ．ＴｈｅｐｒｏｍｏｔｅｒｒｅｇｉｏｎｓｏｆｍｅｍｂｅｒｓｏｆｔｈｅＧａＣＢＬｆａｍｉｌｙｏｆｇｅｎｅｓｃｏｎｔａｉｎｓｅｖｅｒａｌｃｉｓａｃｔｉｎｇｅｌｅｍｅｎｔｓｔｈａｔｒｅｓｐｏｎｄｔｏｓｔｒｅｓｓａｎｄｐｌａｎｔｈｏｒｍｏｎｅｓ．Ｉｎｃｏｎｃｌｕｓｉｏｎ，ｄｉｆｆｅｒｅｎｔＧａＣＢＬｐａｒｔｉｃｉｐａｔｅｉｎｄｉｆｆｅｒｅｎｔｂｉｏｌｏｇｉｃａｌｐｒｏｃｅｓｓｅｓａｎｄｐｌａｙｄｉｆｆｅｒｅｎｔｆｕｎｃｔｉｏｎｓ．Ｋｅｙｗｏｒｄｓ：Ｇｏｓｓｙｐｉｕｍａｒｂｏｒｅｕｍ；ＣａｌｃｉｎｅｕｒｉｎＢｌｉｋｅｐｒｏｔｅｉｎｓ；Ｇｅｎｅｔｉｃｉｄｅｎｔｉｆｉｃａｔｉｏｎ；Ｂｉｏｉｎｆｏｒｍａｔｉｃｓａｎａｌｙｓｉｓ土壤盐碱化会引起离子毒性、高渗透胁迫和氧化等次生胁迫从而对植物造成危害［１］。

生物信息学中的基因家族分析方法研究

生物信息学中的基因家族分析方法研究生物信息学是近年来崛起的学科，是生命科学、计算机科学、数学等多学科的交叉领域。

生物信息学致力于将大量的生物数据，如基因序列、蛋白质序列、代谢物变化等，用数字化的方式进行存储、分析和解释。

生物信息学的应用范围很广，尤其是在基因领域中，其中基因家族分析方法更是受到了广泛关注。

基因家族是指在不同物种中起着相同或相似生理功能的基因序列，它们通常由相同的基因结构和序列组成，但具有不同的功能。

基因家族的发现和研究对生物学和医学领域具有十分重要的意义。

通过基因家族的分析，可以深入了解基因的功能、进化和分类等重要问题，找出与某些疾病相关的基因，有助于新药研发和疾病预防等。

基因家族的分析方法主要有两种：序列比对和聚类分析。

序列比对是指将两个或多个基因序列进行比较，找出相同部分和不同部分，以了解它们之间的关系。

聚类分析是将待研究的基因序列分为不同的族群（聚类），以便于分析每一族群之间的异同和进化关系。

序列比对方法是最常用的基因家族分析方法之一。

在序列比对中，需要选择适当的序列比对工具和算法来比对一组基因序列，以寻找相同的序列段来确定它们之间的关系。

其中，T-Coffee、MUSCLE 和 CLUSTALX 等是比较流行的基因序列比对工具。

有些比对工具采用局部比对（例如 BLAST），即只比对相似序列的局部区域，有些则采用全局比对（例如 Needleman-Wunsch 算法），即比对整个序列。

聚类分析方法分为层次聚类和非层次聚类两种。

在层次聚类中，先根据基因序列的相似性将它们分到一个个小组（或簇）中，再将相似的簇合并成更大的簇，直到所有基因都被分到同一个簇中。

常见的层次聚类算法有 UPGMA、NJ 和WPGMA 等。

在非层次聚类中，基因之间的相似性表示为一个距离矩阵，然后将相似的基因分为一组，形成基因簇。

常见的非层次聚类算法有 K-means、自组织映射和谱聚类等。

这些方法的应用和效果依赖于基因家族的大小和复杂度。

小麦miR164基因家族的生物信息学分析及靶基因预测

小麦miR164基因家族的生物信息学分析及靶基因预测武宁静;徐渴;曹慧雯;张树华;赵勇;杨学举【期刊名称】《中国科技论文在线精品论文》【年(卷),期】2024(17)1【摘要】miR164家族是植物中一类特有的保守小RNA分子,广泛参与植物的生长发育及各种逆境胁迫响应。

为了解小麦Tae-miR164基因家族成员的进化特征、表达模式及功能,对PmiREN数据库中Tae-miR164基因进行了生物信息学分析。

结果共鉴定到13个家族成员,成簇于小麦Chr1、Chr2和Chr6等3条染色体上。

序列比对发现Tae-miR164家族13个成员的成熟序列均为21 bp,且相似性较高,仅在5’端第21个核苷酸处存在差异,前体序列均能形成稳定的二级茎环结构,成熟的miRNA序列处于5’端臂上。

进化树分析表明,拟南芥、水稻、玉米、二穗短柄草、大麦、谷子、苜蓿、番茄和小麦中Tae-miR164家族成员主要分为4个分支。

靶基因预测表明,Tae-miR164基因家族成员对应的靶基因为NAC转录因子家族成员。

转录组数据分析表明,Tae-miR164a/b/c/d/e/f/g/h/i/m在小麦6个组织中均有表达,Tae-miR164j/k/l在花和籽粒中几乎不表达。

实时荧光定量PCR结果表明,低温(4℃)胁迫处理48 h的小麦茎基部中Tae-miR164家族成员呈明显上调的表达模式。

本研究为小麦Tae-miR164家族成员的功能鉴定奠定了理论基础。

【总页数】9页(P50-58)【作者】武宁静;徐渴;曹慧雯;张树华;赵勇;杨学举【作者单位】河北农业大学农学院【正文语种】中文【中图分类】S512【相关文献】1.油菜miR169基因家族的生物信息学分析及靶基因预测2.葡萄miR164家族生物信息学分析及靶基因预测3.植物发育相关miR828基因家族靶基因预测及生物信息学分析4.陆地棉miR156基因家族生物信息学分析及靶基因预测5.小麦中MIR160基因家族的生物信息学分析及靶基因鉴定因版权原因，仅展示原文概要，查看原文内容请购买。

杨树NRAMP_基因家族全基因组鉴定与生物信息学分析

中图分类号Ｓ７９２．１１文献标识码Ａ
文章编号０５１７－６６１１（２０２３）１４－００９０－０５
ｄｏｉ：１０．３９６９／ｊ．ｉｓｓｎ．０５１７－６６１１．２０２３．１４．０２２
开放科学（资源服务）标识码（ＯＳＩＤ）：
Ｇｅｎｏｍｅ⁃ｗｉｄｅＩｄｅｎｔｉｆｉｃａｔｉｏｎａｎｄＢｉｏｉｎｆｏｒｍａｔｉｃｓＡｎａｌｙｓｉｓｏｆＰｏｐｌａｒＮＲＡＭＰＧｅｎｅＦａｍｉｌｙ
镉和铁等有吸收和转运功能［４，１０－１２］。
植物在生长过程中，如遇重金属污染，过量的重金属会
ｓｉｓｔａｎｃｅ⁃ａｓｓｏｃｉａｔｅｄｍａｃｒｏｐｈａｇｅｐｒｏｔｅｉｎ，ＮＲＡＭＰ）是一类参与金
对植物细胞膜系统造成伤害，影响植物的生长发育。如镉胁
。ＮＲＡＭＰ蛋白属于一种具有典型膜
细胞的有丝分裂速度，使植物生长缓慢；锰虽然是植物必需
摘要为研究杨树自然抗性相关巨噬细胞蛋白（ＮＲＡＭＰ）家族成员的结构和功能，利用生物信息学方法，从杨树全基因组数据库中筛选
并鉴定ＮＲＡＭＰ家族基因序列，并对该家族成员的理化性质、二级结构、基因结构、保守基序、染色体定位、进化树和组织表达量进行分
析。结果表明：从杨树基因组中共鉴定出６个ＮＲＡＭＰ基因家族成员，编码的氨基酸数量差异较大，为５０３～１３１０，亚细胞定位表明其均
ＯｓＮＲＡＭＰ３、ＯｓＮＲＡＭＰ５、ＯｓＮＲＡＭＰ６和ＯｓＮＲＡＭＰ７对锌、锰、
严重，威胁生态系统，影响人类健康
［１］
。杨树适应性较强，广
根系发达，对毒性物质具有较强的耐性，对重金属具有较强
的富集及转运能力
［２］
。天然抗性相关巨噬蛋白（ｎａｔｕｒａｌｒｅ⁃

马铃薯SOD基因家族生信分析及其在块茎愈伤活性氧产生中的功能研究

马铃薯SOD基因家族生信分析及其在块茎愈伤活性氧产生中的功能研究马铃薯SOD基因家族生信分析及其在块茎愈伤活性氧产生中的功能研究引言马铃薯（Solanum tuberosum）是世界上最重要的主食作物之一，其块茎作为全球人类饮食中的主要营养来源之一。

然而，块茎在生长和发育过程中容易受到环境胁迫的影响，例如氧化应激。

活性氧（reactive oxygen species，ROS）是一种常见的氧化应激物质，过量的ROS可以导致细胞膜脂质过氧化、氧化蛋白和DNA损伤等。

在植物中，超氧化物歧化酶（superoxide dismutase，SOD）是抵御ROS的关键酶类。

本文旨在通过生信分析探讨马铃薯SOD基因家族在块茎愈伤过程中的调控功能。

I. 马铃薯SOD基因家族的鉴定和分析1. 数据获取与预处理从公共数据库（如NCBI）中获取马铃薯基因组和转录组的序列数据，并进行质量控制和预处理，如去除低质量序列和适当的过滤处理。

2. 马铃薯SOD基因家族的鉴定通过拓展和修改SOD基因家族保守Motif的方法，使用HMMER 软件对马铃薯基因组和转录组进行搜素和筛选，以鉴定马铃薯SOD基因家族成员。

3. 马铃薯SOD基因家族的生物信息学分析通过生物信息学工具对鉴定出的马铃薯SOD基因家族的基因结构、编码蛋白的理化性质以及亲缘关系进行分析，包括基因长度、氨基酸序列长度、等电点、亲缘关系树等。

II. 马铃薯SOD基因家族的表达模式分析1. 马铃薯SOD基因家族的表达谱分析通过对不同组织和发育阶段马铃薯样品中的转录组数据进行分析，了解马铃薯SOD基因家族在不同组织和发育阶段中的表达模式。

2. 马铃薯SOD基因家族的响应分析通过对抽提自不同胁迫处理和处理时间的马铃薯样品中的转录组数据进行分析，研究马铃薯SOD基因家族在氧化胁迫条件下的响应模式和基因调控网络。

III. 马铃薯SOD基因家族在块茎愈伤活性氧产生中的功能研究1. 块茎愈伤活性氧产生的定量分析使用荧光探针方法或化学试剂法测定马铃薯块茎在不同阶段和胁迫处理下的ROS含量，以了解块茎愈伤过程中活性氧的动态变化。

草莓MADS-box基因家族生物信息学分析

草莓MADSbox基因家族生物信息学分析摘要：通过生物信息学的方法，利用拟南芥、水稻的MADS-box基因对草莓MADS-box基因家族进行鉴定和分析，共得到83个草莓MADS-box候选基因，且MADS-box结构域高度保守。

进化分析表明，FvMADS1-FvMADS33可被细分为10个亚组，分别为AG、AGL12、AGL6、AGL2、SE、SVP、FLC、AP3、SOC1、AGL17；FvMADS34-FvMADS83可被细分为4个亚组，分别为Mα（22个成员）、Mβ（1个成员）、Mγ（17个成员）、Mδ（10个成员）。

关键词：草莓；MADS-box转录因子；基因家族；生物信息学S668.403文献标志码： A：1002-1302（2015）11-0021-05收稿日期：2014-12-22基金项目：中国教育学会学校文化研究分会“十二五”教育科研课题（编号：0613278A）。

作者简介：马明臻（1979—），女，山东寿光人，硕士，副教授，主要从事园艺植物栽培研究。

E-mail：[email protected]。

草莓因其浆果营养丰富、鲜红亮丽、酸甜可口、芳香多汁而深受消费者喜爱，我国是世界草莓第一生产大国，但产量水平仍不足发达国家的1/2[1-2]。

由于草莓存在高杂合性、多倍性等问题，使其常规育种周期长、工作量大、效率低。

近年来，随着分子生物学的兴起和发展，草莓生物技术育种获得了极大进步。

MADS-box 基因广泛参与植物花和果实的发育、成熟等多个过程。

开展草莓MADS-box转录因子的研究，有利于探索和解析草莓花、果实在发育成熟等生理过程中的调控机制，并能为生物技术育种提供有价值的信息。

MADS-box转录因子的N末端区域含有一段约为60个氨基酸残基的保守域，称为MADS-box 保守域，负责绑定目的基因中调控区域的CArG盒子（CC（A/T）6GG）[3]。

MADS-box基因家族成员可根据进化关系分为类型Ⅰ（Type Ⅰ）和类型Ⅱ（Type Ⅱ）[4]。

基因家族生信分析

基因家族生信分析一、什么是基因家族概念：是来源于同一个祖先，有一个基因通过基因重复而产生两个或更多的拷贝而构成的一组基因，他们在结构和功能上具有明显的相似性，编码相似的蛋白质产物。

划分：按功能划分：把一些功能类似的基因聚类，形成一个家族。

按照序列相似程度划分:一般将同源的基因放在一起认为是一个家族。

1.常见基因家族：WRKY基因家族：是植物前十大蛋白质基因家族之一，大量研究表明，WRKY 基因家族的许多成员参与调控植物的生长发育，形态建成与抗病虫。

NBS-LRR抗病基因家族：是植物中最大类抗病基因家族之一。

MADS-BOX基因家族：是植物体内的重要转录因子，它们广泛地调控着植物的生长、发育和生殖等过程。

在植物中参与花器官的发育，开花时间的调节，在果实，根，茎，叶的发育中都起着重要的作用。

热激蛋白70家族（HSP70）是一类在植物中高度保守的分子伴侣蛋白，在细胞中协助蛋白质正确折叠。

二、基因家族分析流程：●利用蛋白保守域结构提取号在Pfam数据库提取其隐马尔科夫模型矩阵文件（*.hmm）●在数据库（Ensemble 、JGI、NVBI）下载你所需要的物种的基因组数据（*.fa,*.gff）●在虚拟机中Bio-Linux中的hummsearch程序，用隐马尔科夫模型矩阵文件在蛋白序列文件中搜索含有该保守结构域的蛋白●将蛋白序列导入MEGA软件构建进化树（可以阐明成员之间系统进化关系，从进化关系上揭示其多样性）●利用MEME搜索蛋白质的保守结构域利用MEME搜索基因家族成员的motif可以揭示基因家族在物种内的多样化及其功能，如果他们都含有相同的motif表明其功能具有相似性，如果部分家族成员含有其他不同的motif,很可能这些成员有其他特异功能，或者可以归分为一个亚族●绘制基因染色体位置图从*.gff文件中抽取我们搜索到的基因位置信息，http://mg2c.iask.in/mg2c_v2.0/在线绘制基因染色体位置图通过染色体位置分布，可以了解基因主要分布字哪条染色体上，及是否能形成基因簇（被认为是通过重组与错配促进基因交流）●基因结构分析从gff文件中抽取基因的结构信息，绘制转录本结构图。

基因家族分析流程

基因家族分析流程基因家族分析是一种研究基因编码蛋白质相似性和功能的研究方法。

它主要使用序列比较来评估基因及其产物在相关物种之间的相似性和差异。

可以找出最相关的物种以及存在的演化关系，以及在这些物种中发挥功能的共有和不同的基因序列。

基因家族分析通常由以下4个步骤组成：1.序列提取：从基因组或蛋白质序列库中提取相应的序列；2.序列比较：采用同源结构分析软件（如BLAST，CLUSTALW）进行序列比较；3.分析：采用物种树分析、基因家族分析等算法分析序列比较结果；4.结论：根据分析结果得出最终结论。

基因家族分析流程用于研究蛋白质在不同物种中的相似性及其功能，并识别家族成员基因在乔木、蕨类植物和其他物种中的分布模式。

该研究方法既有助于建立物种的演化关系，又可以促进蛋白功能的预测。

常见的基因家族分析流程包括编码基因预测、基因组测序、序列比对分析、分子进化分析和基因家族分析等步骤。

第一步是编码基因预测，这个过程涉及基因组物种的序列比对，可以用同源结构分析软件来确定序列具有何种特征。

第二步是基因组测序，这一步骤需要使用排列系统来识别每个基因家族中的成员序列，以此确定内质网的结构，以便更准确地确定物种间的共性和差异。

第三步是序列比对分析，这个过程尤其关注两个物种之间具有共同特征的序列，这需要通过比较基因序列来评估演化过程，以及利用诸如BLAST等工具来检测物种间的关系。

第四步是分子进化分析，这个步骤涉及建立物种树，以帮助研究者更好地理解基因编码功能是如何从复杂物种中演化而来的。

最后一步是基因家族分析，基于物种树的评估，使用Markov模型和其他数学模型来标记基因家族，以此确定各自的属性和分布模式。

星星草脂氧合酶基因家族鉴定及生物信息学分析

星星草脂氧合酶基因家族鉴定及生物信息学分析冯慧婷李跃跃齐家兴李莹*（东北林业大学生命科学学院/东北盐碱植被恢复与重建教育部重点实验室，黑龙江哈尔滨150040）摘要星星草具有较强的耐盐碱特性，是改良土壤盐碱化的优良牧草。

脂氧合酶（lipoxygenase，LOXs）广泛存在于动植物中，催化多不饱和脂肪酸的双加氧反应，最终生成各种氧脂素，从而在植物生长发育、响应逆境胁迫中发挥重要的生物学功能。

目前，星星草中的LOXs家族基因仍未见报道。

本研究利用生物信息学方法对PutLOXs基因家族成员进行鉴定，并对其理化性质、亚细胞定位和系统进化进行了分析。

结果表明，星星草基因组中共有8个LOX基因，它们均具有lipoxygenase homology2（简称LH2）和lipoxygenase结构域，均不包含跨膜结构域，预测定位于细胞质或叶绿体。

系统发生分析表明PutLOXs蛋白分为9-LOX和13-LOX两个亚家族，并且与水稻和玉米这类单子叶植物的LOXs蛋白系统发生关系更近。

本研究将为后期深入分析星星草耐盐碱分子机制提供理论依据。

关键词脂氧合酶；基因家族；星星草；生物信息学分析中图分类号S562文献标识码A文章编号1007-5739（2024）03-0157-05DOI：10.3969/j.issn.1007-5739.2024.03.036开放科学（资源服务）标识码（OSID）：Identification and Bioinformatics Analysis of Lipoxygenase Gene Family inPuccinellia tenuifloraFENG Huiting LI Yueyue QI Jiaxing LI Ying*(School of Life Sciences,Northeast Forestry University/Key Laboratory of Northeast Saline-alkali Vegetation Restoration and Reconstruction,Ministry of Education,Harbin Heilongjiang150040) Abstract Puccinellia tenuiflora has strong salt-alkali resistance characteristics and is an excellent forage for improving soil salinization.Lipoxygenase(LOXs)is widely present in plants and animals,which catalyzes the double oxy-genation reaction of polyunsaturated fatty acids,ultimately generates various oxylipins,thereby plays an important biological role in plant growth and development and response to stress.At present,the LOXs family genes in Puccinellia tenuiflora have not been reported.This paper utilized bioinformatics methods to identify members of the PutLOXs gene family numbers and analyzed their physicochemical properties,subcellular localization,and phylogenetic evolution.The results showed that there were a total of8LOX genes in the genome of Puccinellia tenuiflora,all of which had lipoxy-genase homology2(LH2)and lipoxygenase domains,but did not contain transmembrane domains.They were predicted to be located in the cytoplasm or chloroplast.Phylogenetic analysis showed that PutLOXs proteins were divided into two subfamilies(9-LOX and13-LOX),and had a closer phylogenetic relationship with LOXs proteins in monocotyledonous plants such as rice and corn.This study will provide a theoretical basis for further analysis of the molecular mechanism of salt-alkali tolerance in Puccinellia tenuiflora.Keywords lipoxygenase(LOXs);gene family;Puccinellia tenuiflora;bioinformatics analysis脂氧合酶（lipoxygenase，LOXs）广泛分布于动、植物中，是一种具有非血红素铁作为活性中心的氧化还原酶[1]，它能够催化具有顺，顺-1，4戊二烯结构的多不饱和脂肪酸的双加氧反应，最终生成各种氧脂素（oxylipin），这个过程被称为脂氧合酶途径[1-3]。

小麦SUS基因家族鉴定与生物信息学分析

小麦SUS基因家族鉴定与生物信息学分析孔斌雪;李娜;马靖福;窦佳欣;陈涛;张沛沛;刘媛;杨德龙【期刊名称】《云南农业大学学报（自然科学版）》【年(卷),期】2024(39)1【摘要】【目的】对小麦蔗糖合成酶(sucrose synthase,SUS)基因家族进行鉴定和生物信息学分析,为探究小麦SUS(TaSUS)基因家族的作用机制提供理论参考。

【方法】采用生物信息学方法在小麦全基因组上鉴定TaSUS基因家族成员,并对其系统进化关系、染色体位置、基因结构、保守结构域、启动子顺式作用元件和基因表达模式进行分析。

【结果】在小麦基因组中共鉴定到分布于14条染色体上的24个TaSUS基因,可分为3个亚组。

TaSUS基因含有多个外显子,但部分基因缺失非翻译区结构。

TaSUS基因家族成员启动子区域包含45种顺式作用元件,涉及植物生长发育和逆境胁迫响应。

大多数TaSUS基因在小麦穗中显著表达,在叶、茎和根中的相对表达量较低。

【结论】研究结果有助于了解小麦SUS基因家族的进化,为后期小麦SUS基因家族的生物功能研究奠定理论基础。

【总页数】8页(P1-8)【作者】孔斌雪;李娜;马靖福;窦佳欣;陈涛;张沛沛;刘媛;杨德龙【作者单位】甘肃农业大学生命科学技术学院;省部共建干旱生境作物学国家重点实验室【正文语种】中文【中图分类】S512.101【相关文献】1.小麦KNOX基因家族鉴定与生物信息学分析2.小麦中MIR160基因家族的生物信息学分析及靶基因鉴定3.小麦锈菌蛋白激酶基因家族的鉴定与生物信息学分析4.无籽蜜柚蔗糖合成酶(SUS)和蔗糖转化酶(INV)基因家族生物信息学及表达分析因版权原因，仅展示原文概要，查看原文内容请购买。

生物信息学中的序列比对和基因家族研究

生物信息学中的序列比对和基因家族研究生物信息学是一门治理生物信息的学科，涉及到生物学、计算机科学、数学统计学等多个领域，为对生物体的基因组、蛋白质组、代谢组等高通量数据进行收集、处理和分析提供了有力的工具。

其中序列比对和基因家族研究是生物信息学中的两个重要研究方向，下面我们将重点论述这两个方向在生物信息学中的主要作用。

序列比对是生物信息学中最为基础的研究方法之一，其主要用于寻找序列之间的相似性和差异性。

在基因组测序和蛋白质组研究中，序列比对可以帮助我们确定相同物种或不同物种间基因的同源性关系，同时可以寻找同物种不同个体、不同组织甚至不同细胞状态下的DNA序列和蛋白质序列中的差异。

可以说，序列比对是高通量分析中必备的一项技术，其在不同领域中具有广泛的应用，如医学、农业、动物学和生态学等。

序列比对的主要算法包括全局比对、局部比对、基因组级比对和多序列比对等。

全局比对是序列比对中最为基础和最容易实现的算法之一，其可以解决全序列的比对问题，如基因组序列的比对，常用的算法有Needleman-Wunsch和Smith-Waterman等。

但是全局比对的方法在比对长序列或大量序列时时间和空间复杂度较高，运算时间过长，因此需要使用更加高效的算法，如局部比对和基因组级比对等。

局部比对是序列比对中另一种较常见的比对算法，其主要用于比对两个长度不同的序列，如DNA修复检查、基因的分子演化等。

常用的算法包括Smith-Waterman算法、Gotoh算法和BLAST算法等。

其中BLAST算法是基于BLAST软件开发的快速局部散列搜索算法，其主要特点是速度快、精度高和数据量大，在生物信息学中的基因鉴定和序列注释方面有着非常广泛的应用。

基因组级比对是序列比对中另一种重要算法，其主要用于比对两个基因组间的序列和基因结构。

它可以帮助我们确定基因组重组、插入和删除，间接地确定哪些基因序列是寄生或编码的，为在一个物种和物种间进行基因组比较研究提供了重要的手段。

生物信息学中的基因家族与进化分析

生物信息学中的基因家族与进化分析随着科学技术的不断发展，我们开始更加深入地研究生物世界，尤其是基因与DNA等方面的内容。

而生物信息学则可以说是基因与DNA研究的一个重要分支，旨在利用计算机和数学等工具分析和理解生物信息。

其中，基因家族以及进化分析便是生物信息学领域的两个重要研究内容。

基因家族是指在基因组中存在的一组类似或相同的基因，这些基因的相似性来自于它们的祖先。

基因家族可以分为两种类型，即单基因家族和跨基因家族。

单基因家族是指具有相近序列和功能的单个基因，例如血红蛋白基因家族；而跨基因家族则是指具有相同序列和相似结构，但在不同基因组位置上存在的基因，例如免疫球蛋白基因家族。

进化是生物学中的一个重要概念，也是生物信息学领域中的核心研究内容。

基因家族的进化研究是生物信息学中的一个重要研究内容之一，它可以揭示基因家族的来源、分布和演化历史等信息。

在进行基因家族的进化分析时，有两种常用的方法，分别是同源性分析和非同源性分析。

同源性分析通常基于基因序列的相似性来推断基因家族的演化历史，而非同源性分析则通过研究不同物种中存在相似序列或结构的基因来推断基因家族的演化历史。

同源性分析主要依据分子进化理论，通过电脑算法构建物种进化树或基因家族进化进程图，推断家族基因间的相似性类型、起源和演化史，以及家族间的动态关系等。

同源性分析中最常用的方法是多序列比对和同源性搜索。

多序列比对是将多个相关序列进行比对，找到最具代表性的序列，通过这些序列的比对可以得到基因家族中不同成员的相似性和差异性信息。

同源性搜索是将一个已知的序列与数据库中的其他序列进行比对，以发现同源区域。

非同源性分析则更多依据蛋白质的结构、功能等方面推断基因间的关系，例如序列相似性比较、三维结构预测等方法。

利用这些方法，可以揭示基因家族的多样性和复杂性，并且相对于同源性分析可以更加准确地研究不同物种之间的基因家族演化。

进化分析所揭示的基因家族演化历史可以对生物学的其他领域产生很大的影响。

玉米ACO基因家族生物信息学及表达模式分析

玉米ACO基因家族生物信息学及表达模式分析王程泽;张燕;付伟;贾京哲;董金皋;申珅;郝志敏【期刊名称】《中国农业科学》【年(卷),期】2024(57)7【摘要】【目的】对玉米1-氨基环丙烷-1-羧酸氧化酶ACO基因家族进行全基因组鉴定,分析其在玉米不同器官和不同发育时期以及响应外源激素和病菌侵染中的表达模式,为明确玉米ACO基因家族功能打下基础。

【方法】利用生物信息学方法,在玉米B73自交系基因组中鉴定ACO,对其基因结构、蛋白质理化性质、家族成员间的亲缘关系以及保守基序进行分析,利用实时荧光定量PCR(real-time fluorescence quantitative PCR,qRT-PCR)技术分析ZmACO基因家族的表达模式。

【结果】除ZmACO11外,ZmACO家族成员均具有Fe2+离子结合位点和底物抗坏血酸结合位点。

系统发育分析显示,ZmACO_(2)与ScACO在同一分支,亲缘关系较近,Bootstrap值达98。

基因表达分析表明,ZmACO_(2)、5、9、15、20、35在各发育时期均活跃表达,且在叶片中呈优势表达,因此选择上述6个基因进行下一步检测。

喷施乙烯利后,上述6个基因的表达均有所波动,其中ZmACO_(2)的表达量受影响较大,变化幅度在8倍左右。

在乙烯利处理的0—24 h内这6个基因的表达量存在波动,但在处理后24 h,6个基因的表达量均接近0。

水杨酸处理后,ZmACO5的表达量受影响较大,变化倍数在2倍左右。

其他基因的表达量在处理后24 h均接近0。

ZmACO9、35在3—12 h的表达量存在波动,ZmACO_(2)、15、20表达量呈下调趋势。

在响应生物胁迫方面,接种玉米大斑病菌(Setosphaeria turcica)后,ZmACO5、9的表达量变化幅度最大,在接种后第10天,这两个基因的表达量分别升至对照组的50和60倍。

接种玉米小斑病菌(Cochlibolus heterostrophus)后,ZmACO5的表达量变化幅度较大,变化倍数在40—90倍。

谷子ARF基因家族的鉴定与生物信息学分析

谷子ARF基因家族的鉴定与生物信息学分析赵艳1翁巧云1马海莲1宋晋辉1袁进成1王凌云1董志平2刘颖慧1*1 河北北方学院河北张家口0750002 河北省农林科学院谷子研究所河北石家庄050001摘要：生长素应答因子（auxin response factors，ARF）是一类可以结合在生长素应答基因启动子部位的转录因子，在植物的生长发育中起至关重要作用。

本研究以谷子为材料，从谷子中鉴定出24个ARF基因并命名为SiARFs。

利用生物信息学对谷子SiARFs基因的结构、染色体分布、基因倍增模式、系统进化以及基因的表达模式进行分析。

结果表明，SiARF基因家族在染色体上不均匀的分布，在除2号染色体外的其它染色体上都有该家族基因，基因的扩增模式为分散复制与片段复制。

SiARFs基因家族具有相对保守的结构，即包含一个保守的B3 DNA结构域，ARF结构域和Aux/IAA结构域，ARF蛋白的3D结构含有3个α螺旋和7个β折叠结构。

进化树分析表明谷子ARF蛋白和物种相近的高粱、玉米聚在一起。

大多数ARF基因在谷子根、茎、叶和穗中都有表达不同基因表达量有较大差异。

关键词：谷子；ARF；生物信息学分析；蛋白结构Genome-Wide Identification and Bioinformatics Analysis of ARF Gene Family inSetaria ItalicaAbstract: Auxin response factors (ARF) are important transcription factors that can regulate the expression of auxin genes and influence the plant growth. ARFs regulate the transcription of auxin-responsive genes through binding to their promoters. In this study, a total of 24 ARF genes are identified and analyzed and named SiARF. A comprehensive overview of the SiARFs is undertaken, including phylogenetic analysis, gene structures analysis, chromosome locations, conserved motifs of proteins and gene expression pattern analysis.Twenty-four setaria italica ARF genes are distributed in all setaria italica chromosomes except chromosome. Setaria italica ARF proteins share one B3 DNA binding domain, which consists of threeαhelixes and sevenβsheets. And some of these proteins have an Aux/IAA domain and ARF domain. In addition, setaria italica ARF proteins are compared with the proteins in other species in order to discover the evolution of ARF genes. Our results also show that the expression of SiARF genes is diverse in different tissues.Keywords: setaria italica; ARF; information analysis; protein structure通讯作者：刘颖慧，教授，研究方向为植物基因工程，email:leely519@资助项目：国家科技重大专项转“2014ZX0800909B”，十二五'农村领域国家科技计划项目“2011BAD06B01”，河北北方学院重大项目“ZD201305”生长素（Auxin）是发现最早、研究最多、在植物体内普遍存在的植物激素。

小麦TaHKT家族基因的生物信息学分析

麦类作物学报 2024,44(2):147-157J o u r n a l o fT r i t i c e a eC r o ps d o i :10.7606/j.i s s n .1009-1041.2024.02.02网络出版时间:2023-12-13网络出版地址:h t t ps ://l i n k .c n k i .n e t /u r l i d /61.1359.S .20231212.1500.008小麦T a H K T 家族基因的生物信息学分析收稿日期:2023-03-06 修回日期:2023-04-25基金项目:山东省重点研发计划项目(2022L Z G 001)第一作者E -m a i l :960412723@q q .c o m (苏瑞平)通讯作者E -m a i l :c h m _q i n y x @u jn .e d u .c n (秦余香)苏瑞平1,张宝1,王玉宁1,张淑娟2,秦余香1(1.济南大学生物科学与技术学院,山东济南250022;2.山东省农业科学院作物研究所,山东济南250131)摘要:高亲和性钾离子转运蛋白(h i g h -a f f i n i t y K +t r a n s po r t e r ,H K T )是植物体内一种非常重要的离子转运蛋白,具有运输N a +/K +的能力,在植物响应盐胁迫过程中发挥重要作用㊂为系统了解小麦T a H K T 家族基因,挖掘有效的小麦耐盐基因,本研究采用生物信息学的方法,对小麦T a H K T 家族基因进行了全基因组分析,鉴定了家族成员,构建了系统进化树,并对其跨膜结构域㊁染色体定位㊁基因结构㊁M o t i f ㊁上游顺式作用元件㊁共线性以及表达谱等进行了分析㊂结果鉴定出23个T a H K T 基因,其编码蛋白质长度为443~590a a,等电点范围8.2~10.4,跨膜结构域为6~8个㊂23个基因分布于小麦的2㊁4㊁6㊁7号染色体上,根据亲缘关系可将其分为3个亚族,同一亚族的成员具有较为相似的M o t i f 组成和基因结构㊂23个基因中,发现了4对串联重复基因,10对大片段复制基因,具有良好的共线性㊂顺式作用元件分析发现,大部分T a H K T 成员含有盐胁迫响应元件MY B ㊁G -b o x ㊁A B R E 和D R E ㊂表达谱分析发现,T a H K T 基因在小麦的16种组织中均有表达,在根㊁茎中的表达量较高,其中T r a e s C S 4D 02G 361300(I D ,下同)在根中的表达量最高㊂在盐胁迫处理后,不同成员对盐胁迫响应程度不同,T r a e s C S 7B 02G 318400在盐胁迫处理后表达量逐渐降低;T r a e s C S 2B 02G 451400和T r a e s C S 2D 02G 428200在盐胁迫处理后的表达量也明显降低;T r a e s C S 2B 02G 451800在根部几乎不表达,但在受到盐胁迫处理后表达量逐渐提高,推测它们在小麦抵御盐胁迫过程中发挥不同作用㊂关键词:小麦;T a H K T ;生物信息学;基因家族分析;盐胁迫中图分类号:S 512.1;S 330 文献标识码:A 文章编号:1009-1041(2024)02-0147-11B i o i n f o r m a t i cA n a l y s i s o f t h eT a H K TG e n eF a m i l yi n W h e a t S UR u i p i n g 1,Z H A N GB a o 1,W A N GY u n i n g 1,Z H A N GS h u j u a n 2,Q I NY u x i a n g1(1.S c h o o l o fB i o l o g i c a l S c i e n c e a n dT e c h n o l o g y ,U n i v e r s i t y o f J i n a n ,J i n a n ,S h a n g d o n g 250022,C h i n a ;2.C r o p Re s e a r c h I n s t i t u t e ,S h a n d o n g A c a d e m y o fA g r i c u l t u r a l S c i e n c e s ,J i n a n ,S h a n d o n g 250131,C h i n a )A b s t r a c t :T h eh i g h -a f f i n i t y K +t r a n s p o r t e r (H K T )i sav e r y i m p o r t a n ti o nt r a n s po r t e r p r o t e i ni n p l a n t s ,w i t h t h e a b i l i t y t o t r a n s p o r tN a +/K +,a n d p l a y s a c r u c i a l r o l e i n p l a n t r e s po n s e t o s a l t s t r e s s .I no r d e r t os y s t e m a t i c a l l y u n d e r s t a n dt h eT a H K T g e n e f a m i l y i n w h e a t a n de x pl o r ee f f e c t i v ew h e a t s a l t t o l e r a n c e r e l a t e d g e n e s ,i n t h i s s t u d y ,w e c o n d u c t e d a g e n o m e -w i d e a n a l y s i s o f t h i s g e n e f a m i l y ,i d e n t i f i e d t h em e m b e r s ,c o n s t r u c t e d a p h y l o g e n e t i c t r e e ,a n d a n a l yz e d t h e i r t r a n s m e m b r a n e s t r u c t u r a l d o m a i n s ,c h r o m o s o m a l l o c a l i z a t i o n ,g e n e s t r u c t u r e ,m o t i f ,u p s t r e a mc i s -a c t i n g el e m e n t s ,c o v a r i a n c e a n d e x p r e s s i o n p r o f i l e s a n a l y s i s .A s a r e s u l t ,23T a H K T g e n e f a m i l y me m b e r sh a v eb e e n i d e n t if i e d ,a l l o fw h i c h e n c o d e d p r o t e i n s r a ng i n g f r o m443t o 590a m i n o a c i d s i n l e n g th ,wi t h 8.2t o 10.4i s o e l e c -t r i c p o i n t s ,a n d 6t o 8t r a n s m e m b r a n ed o m a i n s .T a H K T g e n e sw e r ed i s t r i b u t e do nc h r o m o s o m e s 2,4,6a n d 7o fw h e a t a n d c o u l db e d i v i d e d i n t o t h r e e s u b f a m i l i e s a c c o r d i n g t o t h e i r g e n e t i c p h y l o g e n y,a n dm e m b e r s o f t h e s a m e s u b f a m i l y h a d r e l a t i v e l y s i m i l a rm o t i f c o m p o s i t i o n a n d g e n e s t r u c t u r e .F o u r p a i r s o f t a n d e mr e p e a t g e n e sa n d10p a i r so f l a r g e f r a g m e n td u pl i c a t i o n g e n e sw i t h g o o dc o v a r i a n c ew e r e f o u n da m o n g t h e23g e n e f a m i l y m e m b e r s.A n a l y s i so f c i s-a c t i n g e l e m e n t s r e v e a l e dt h a tm o s t g e n e f a m i l y m e m b e r s c o n t a i n e ds a l t s t r e s s r e s p o n s i v ec i s-e l e m e n t s:MY B,G-b o x,A B R Ea n dD R E.E x p r e s s i o n p r o f i l e a n a l y s i s r e v e a l e d t h a tT a H K T g e n e sw e r e e x p r e s s e d i n a l l16t i s s u e s o fw h e a t,e s-p e c i a l l y i n r o o t s a n ds t e m s.T r a e s C S4D02G361300s h o w e d t h eh i g h e s t e x p r e s s i o n i nt h e r o o t.A f t e r s a l t s t r e s s t r e a t m e n t,t h e e x p r e s s i o n p a t t e r n s o f d i f f e r e n t f a m i l y m e m b e r s d i f f e r e d.T h e e x p r e s s i o n o f T r a e s C S7B02G318400w a s g r a d u a l l y d e c r e a s e d;T r a e s C S2B02G451400a n d T r a e s C S2D02G428200 w e r e a l s os i g n i f i c a n t l y d e c r e a s e d;T r a e s C S2B02G451800w a sh a r d l y e x p r e s s e d i nr o o t s,b u t t h ee x-p r e s s i o n g r a d u a l l y i n c r e a s e d,i n d i c a t i n g t h e y m a y p l a y e s s e n t i a l r o l e s i nw h e a t t o l e r a n c e t o s a l t s t r e s s. K e y w o r d s:W h e a t;T a H K T;B i o i n f o r m a t i c s;G e n e f a m i l y a n a l y s i s;S a l t s t r e s s土壤盐渍化已经成为全球重大的农业问题,威胁着农业㊁粮食和资源安全[1-2]㊂盐胁迫会造成植物离子失衡和渗透胁迫,影响其光合作用㊁蛋白质㊁脂质合成等代谢系统,过度的盐碱化甚至导致植株死亡,显著降低作物产量[3-7]㊂小麦(T r i t i c-u ma e s t i v u m L.)是世界上近三分之一人口的主食,盐胁迫严重影响其产量㊂研究小麦耐盐相关基因,了解其响应盐胁迫的分子调控机制,对小麦耐盐优良种质资源的筛选与利用具有重要的意义㊂高盐度通常以高N a+含量为主,当N a+浓度达到某个阈值时,会引发离子毒性[8]㊂K+可以调节钠离子的转移和运输,细胞和整个植株的N a+和K+比例与植物耐盐性关系密切[9]㊂高亲和性钾离子转运蛋白(h i g h-a f f i n i t y K+t r a n s p o r t e r, H K T)是植物体内非常重要的离子转运蛋白,在植物体应对盐胁迫的过程中具有关键作用[10]㊂H K T蛋白属于钾转运蛋白T r K超家族成员,具有典型的T r k H保守结构域[11]㊂H K T蛋白一般都含有8个跨膜结构域和4个保守孔状P-L o o p,每2个跨膜结构域和1个P-L o o p组成1个M P M跨膜基序,因此H K T蛋白共含有4个M P M跨膜基序[12]㊂H K T蛋白可以分为H K T1和H K T2两类,因为结构不同其功能有一定差异[13]㊂H K T1只介导转运N a+;H K T2既可以进行N a+-K+的协同转运,也可以进行N a+或K+的单向转运[9,14]㊂植物中的H K T1蛋白主要定位于根中柱木质部薄壁细胞的质膜[15],可以使N a+从木质部转运至其周围的薄壁细胞中,限制N a+向地上部分运输,以此来调节植物体内的N a+/K+比,使植物的地上部分在盐胁迫下也能维持低钠高钾,从而保证植物光合作用等生理活动的正常进行[9,16]㊂目前,在小麦中已发现3个耐盐主效Q T L,分别为N a x1㊁N a x2和K n a1[17],N a x1和N a x2为来源于一粒小麦中的T mHK T1;4和T mHK T1;5,K n a1为T a HK T1;5-D(编码H K T8),但T mHK T1;5定位于5A L染色体组, T a HK T1;5定位在4D L染色体组[14,18]㊂它们均可将N a+从木质部转运到周围薄壁细胞中,以减少小麦地上部N a+的含量,使叶片中保持低N a+/K+比㊂研究发现,在敲除小麦基因T a H-K T2;1后,其组织细胞内的N a+浓度明显降低,说明降低H K T2;1表达量可以减少N a+的摄入量[19]㊂上述研究结果表明,H K T在小麦抵御盐胁迫过程中发挥了至关重要的作用㊂H K T广泛存在于高等植物中㊂目前,只对棉花和水稻的H K T基因家族进行了全基因组水平的系统分析[20],而在小麦中除了T a HK T2;1和T a HK T1;5外,鲜有对H K T家族基因中其他成员的报道,更没有对小麦H K T家族基因在全基因组水平上的系统分析㊂本研究拟采用生物信息学的方法,在全基因组水平对小麦T a H K T家族基因进行系统分析,为进一步研究小麦T a H K T 家族基因的功能及筛选小麦耐盐T a H K T基因提供参考㊂1材料与方法1.1数据来源从E n s e m b l P l a n t s数据库中下载小麦(T r i t i c u ma e s t i v u m)㊁水稻(O r y z as a t i v a)㊁玉米(Z e am a y s)㊁拟南芥(A r a b i d o p s i s t h a l i a n a)㊁葡萄(V i t i s v i n i f e r a)㊁蓖麻(R i c i n u s c o mm u n i s)㊁甘薯(I p o m o e ab a t a t a s)和木龙葵(S o l a n u m s c a-b r u m)的相关数据,主要包括全基因组序列㊁C D S 序列㊁全蛋白质序列以及基因组注释信息㊂结合所查阅的文献在N C B I上搜索小麦H K T8蛋白的氨基酸序列;将搜索到的序列提交到HMM数㊃841㊃麦类作物学报第44卷据库中,得到H K T家族的P f a m号:P F02386;在P f a m数据库中下载其隐马尔可夫模型㊂1.2小麦T a H K T家族基因的鉴定根据H K T家族的隐马尔可夫模型进行HMM搜索,并进行C l u s t a l W多序列比对,创建小麦T a H K T家族基因特异性的隐马尔可夫模型,进行二次HMM搜索,筛选出E值<0.001的基因,将其对应的蛋白序列提交至P f a m㊁N C B I 和S MA R T三大数据库中进行再次确认,去除不含H K T结构域或可信度较低的成员,得到最终确认的小麦T a H K T基因家族成员㊂1.3H K T家族成员系统进化分析利用MA G A7软件中的C l u s t a l W对小麦㊁水稻㊁玉米㊁拟南芥㊁葡萄㊁蓖麻㊁甘薯及木龙葵8个物种H K T蛋白序列进行多序列比对;选择邻位归并法(N e i g h b o r-J o i n i n g)构建系统进化树, B o o t s t r a p校验参数为1000次,通过在线网站e v o l v i e w对进化树进行美化[21]㊂1.4小麦T a H K T家族基因序列分析使用M E M E-v4.12.0进行M o t i f分析,利用T B t o o l s软件进行绘图;提取1.2中得到的家族成员外显子㊁内含子㊁C D S和U T R的位置信息,使用G S D S9绘制基因结构图[22]㊂使用p e r l脚本对小麦中T a HK T蛋白的长度㊁等电点及分子量进行预测;在网站E x P A S y-P r o t P a r a m对其不稳定指数㊁脂肪系数及总亲水性指数进行预测[23];在网站C E L L O进行亚细胞定位预测;在D e e p T MHMM进行跨膜结构域预测㊂1.5小麦T a H K T基因染色体定位及共线性分析提取小麦T a H K T基因在染色体上的位置信息和小麦染色体的长度信息,保存为f a i格式文件,将整理好的数据提交到MA P C h a r t绘制T a H K T基因定位到染色体上的图㊂利用M C S-c a n X,在默认参数下分析T a H K T在小麦基因组中的串联重复基因;利用T B t o o l s分析小麦基因组内及小麦与粗山羊草㊁四倍体硬粒小麦㊁水稻和玉米之间的共线性并用C i r c o s绘制共线性图谱㊂提取上述串联重复基因对的C D S序列,进行C l u s t a l W比对,并计算每一对串联重复基因的非同义替换率(K a)和同义替换率(K s)比值进行选择压力分析[24],K a/K s>1㊁=1和<1分别表示正向选择㊁中性选择和纯化选择㊂1.6小麦T a H K T基因上游顺式作用元件分析从小麦基因组序列中提取T a H K T基因上游1500b p的启动子序列,利用在线网站P l a n t-C A R E分析顺式作用元件[25],再用G S D S9在线网站进行绘图㊂1.7小麦T a H K T基因在不同组织及盐胁迫下的表达分析在E x p V I P网站得到小麦T a HK T基因在不同组织中的表达情况;在G e n ev e s t i g a t o r软件中添加已确定的小麦T a H K T基因的I D,并对数据进行S a l t S t r e s s筛选;查找中国春(C h i n e s e S p r i n g)和青麦6号(Q i n g m a i6)H K T基因在盐胁迫下的表达情况,在T B t o o l s中绘制表达热图㊂2结果与分析2.1小麦T a H K T家族基因分析在小麦基因组中共鉴定到了23个T a H K T 基因家族成员,23个T a H K T蛋白序列长度为443~590a a;相对分子量为48.5~64.6K D a;理论等电点为8.20~10.40,即23个T a H K T蛋白均为碱性;总亲水性指数为0.120~0.496,表明均是疏水性蛋白;不稳定指数为25.74~45.29,其中不稳定指数小于40的蛋白有9个,属于稳定蛋白(表1)㊂亚细胞定位预测分析发现,23个T a H K T蛋白全部定位于质膜上,说明其发挥作用的部位可能为细胞质膜㊂跨膜结构域分析表明(图1),除了T r a e s C S2B02G451700(基因I D号,下同)编码的蛋白具有6个跨膜结构域㊁T r a e s C S2D02G428300等4个基因编码的蛋白具有7个跨膜结构域外, T r a e s C S2B02G451800等大多数基因编码的蛋白具有8个跨膜结构域,符合H K T蛋白的典型特征㊂2.2H K T家族成员系统进化分析采用邻位归并法构建了小麦与水稻㊁玉米㊁拟南芥㊁葡萄㊁蓖麻㊁甘薯及木龙葵8个物种H K T 基因家族的系统进化树(图2)㊂将8个物种共计42个H K T基因分为5个亚家族,基因T r a e s C S2B02G451700和T r a e s C S2D02G428500位于b r a n c h5,二者间的自展值为100,表明它们的同源性较高;基因T r a e s C S7D02G411300㊁T r a e s C S7A02G418600和T r a e s C S7B02G318800都位于b r a n c h1的末端,表明它们在进化中的亲缘关系较近,二者间的自展值为100,说明该分支的可信度也极高㊂在b r a n c h5中小麦基因T r a e s-C S6B02G182600㊁T r a e s C S6D02G144500与水稻基因O s02t0175000位于同一分支,表明二者之㊃941㊃第2期苏瑞平等:小麦T a H K T家族基因的生物信息学分析表1小麦T a H K T基因家族成员的基本信息T a b l e1B a s i c i n f o r m a t i o no fw h e a t T a H K T g e n e f a m i l y基因号G e n e I D染色体C h r o m o s o m e 基因位置G e n ep o s i t i o n蛋白长度P r o t e i nl e n g t h/a a分子量M o l e c u l a rw e i g h t/k D a等电点p I不稳定指数I n s t a b i l i t yi n d e x脂肪系数A l i p h a t i ci n d e x总亲水性指数G R A V Y亚细胞定位S u b c e l l u l a rl o c a t i o nT r a e s C S2A02G4306002A683567466~68357850958264.610.2441.9199.020.186P T r a e s C S2B02G4513002B644549026~64455350356362.410.0843.94100.090.222P T r a e s C S2B02G4514002B644844360~64484821157863.39.8943.1396.710.198P T r a e s C S2B02G4516002B645302238~64530603359064.410.0242.3496.390.179P T r a e s C S2B02G4517002B645307235~64531041048154.19.7045.2997.920.120P T r a e s C S2B02G4518002B645470305~64547446955661.110.1141.20101.730.272P T r a e s C S2D02G4282002D540062509~54006691056362.210.4044.34102.380.269P T r a e s C S2D02G4283002D540161984~54016607844348.69.1841.68103.660.298P T r a e s C S2D02G4284002D540190217~54019638244548.58.2040.3296.850.218P T r a e s C S2D02G4285002D540197396~54020083745751.39.2342.3096.240.139P T r a e s C S4B02G3708004B656815048~65681744451857.59.2232.89102.660.409P T r a e s C S4B02G3760004B659664756~65966689350456.28.3034.40103.210.386P T r a e s C S4D02G3613004D507965542~50796782251657.38.9129.75103.620.353P T r a e s C S6B02G1826006B204450429~20445266953259.99.1625.74103.680.269P T r a e s C S6D02G1445006D115043730~11504610053259.98.8129.26103.700.289P T r a e s C S7A02G4182007A609549041~60955080545750.38.3239.52109.370.416P T r a e s C S7A02G4185007A610433701~61043620954460.19.0339.91112.960.490P T r a e s C S7A02G4186007A610438735~61044110750856.08.9642.35109.780.449P T r a e s C S7B02G3184007B568488183~56849059854460.28.8340.37111.580.496P T r a e s C S7B02G3187007B568645776~56864779954460.29.0740.05112.650.492P T r a e s C S7B02G3188007B568650957~56865282150856.19.2941.52114.350.490P T r a e s C S7D02G4112007D530102460~53010515553158.88.9137.92111.900.496P T r a e s C S7D02G4113007D530108294~53011021850856.08.8738.93111.100.453P G R A V Y:G r a n d a v e r a g e o f h y d r o p a t h i c i t y;P:P l a s m am e m b r a n e.间的亲缘关系极近,可能由共同祖先进化而来㊂B r a n c h3中包括拟南芥㊁葡萄㊁甘薯㊁蓖麻和木龙葵的HK T基因,它们单独作为一个分支,说明其与小麦㊁玉米和水稻的亲缘关系较远㊂2.3小麦T a H K T基因序列分析T a H K T基因结构分析表明,除T r a e s C S2B-02G451800和T r a e s C S2B02G451700分别具有2个和4个外显子外,其余基因均有3个外显子(图3A)㊂对T a H K T蛋白进行保守基序分析,共发现10个M o t i f(图3B),M o t i f6㊁M o t i f4和M o t i f 7以三联体形式出现在所有蛋白中,极为保守㊂T r a e s C S2A02G430600㊁T r a e s C S2D02G428200㊁T r a e s C S2B02G451400和T r a e s C S2B02G451300具有完全相同的M o t i f,推测其具有相同功能㊂2.4小麦T a H K T基因染色体定位及共线性分析23个T a H K T基因分布于小麦的第2㊁4㊁6㊁7同源群染色体上(图4),其中第2同源群染色体上的数量最多(10个),在2B㊁2D等染色体上还发现了由多个基因聚集形成的基因簇,它们可能来自共同的祖先,并具有相同或相似的功能㊂除基因T r a e s C S6B02G182600和T r a e s C S6D02G144500位于染色体6B和6D的短臂,其他基因均位于染色体长臂靠近染色体末端的位置㊂小麦T a H K T基因间共线性分析显示(图5),有10对共线性基因(大片段复制基因),且在2号和7号染色体上共线性较好,其中位于2号染色体上的T r a e s C S2A02G430600㊁T r a e s C S2D02G428200㊁T r a e s-C S2B02G451300是三联体基因㊂此外,还发现了4对串联重复基因,K a/K s值均小于1,推测受纯化选择作用(表2)㊂为了解T a H K T基因的进化关系,分别分析了二倍体粗山羊草和四倍体硬粒小麦与六倍体小㊃051㊃麦类作物学报第44卷A :T r a e s C S 2B 02G 451700;B :T r a e sC S 2D 02G 428300;C :T r a e s C S 2B 02G 451800.图1 T a H K T 部分基因编码蛋白跨膜结构域预测分析F i g .1 A n a l y s i s o f t h e t r a n s m e m b r a n e d o m a i n p r e d i c t i o no f t h eT a H K T g e n e -e n c o d i n gpr o t e i ns A :小麦T a H K T 家族基因进化树;B :8个物种H K T 家族基因进化树;T r a e s :小麦;O s :水稻;Z m :玉米;A T :拟南芥;AMY :葡萄;B A S :甘薯;A X A :蓖麻;A L O :木龙葵㊂A :P h y l o g e n e t i c t r e e o fT a H K T g e n e f a m i l y ;B :P h y l o g e n e t i c t r e e o f t h eH K T g e n e f a m i l y f r o me i g h t s pe c i e s ;T r a e s :T r i t i c u ma e s -t i v u m ;O s :O r y z a s a t i v a ;Z m :Z e am a y s ;A T :A r a b i d o p s i s t h a l i a n a ;AMY :V i t i s v i n if e r a ;B A S :I po m o e ab a t a t a s ;A X A :R i c i n u s c o mm u n i s ;A L O :S o l a n u ms c a b r u m .图2 H K T 基因家族系统进化树F i g .2 P h y l o g e n e t i c t r e e o fH K T g e n e f a m i l y㊃151㊃第2期苏瑞平等:小麦T a H K T 家族基因的生物信息学分析A :基因结构分析;B :M o t i f 分析㊂A :G e n e s t r u c t u r e a n a l y s i s ;B :M o t i f a n a l ys i s .图3 T a H K T 基因结构和M o t i f 分析F i g .3G e n e s t r u c t u r e a n dm o t i f a n a l ys i s o fT a H KT 图4 小麦T a H K T 基因染色体定位F i g.4 C h r o m o s o m e l o c a t i o no fT a H K T g e n e s i nw h e a t 麦共线性关系及小麦与水稻和玉米之间的共线性关系(图6)㊂分别在二倍体粗山羊草㊁四倍体硬粒小麦和六倍体小麦中发现6㊁15和23个H K T 基因,且在2㊁4㊁6㊁7同源群染色体上具有较好的共线性㊂相比玉米,小麦与水稻间的共线性关系更好,说明二者的同源性较高㊂2.5 小麦T a H K T 基因上游顺式作用元件分析对小麦T a H K T 基因启动子序列分析表明,其1.5k b 上游区域含有多种顺式作用元件㊂对其与盐胁迫相关的顺式作用元件进行分析发现(图7),基因T r a e s C S 2A 02G 430600㊁T r a e s C S 2B 02G 451400和T r a e s C S 4B 02G 370800同时具有盐胁迫相关的㊃251㊃麦类作物学报第44卷图5小麦T a H K T基因的共线性F i g.5C o l l i n e a r i t y o fT a H K T g e n e s i nw h e a t表2T a H K T串联复制基因T a b l e2T a n d e md u p l i c a t i o n g e n e s o fT a H K T串联重复基因T a n d e md u p l i c a t i o n g e n e s K a K s K a/K s T r a e s C S2B02G451400&T r a e s C S2B02G4513000.0508890.2759130.184439 T r a e s C S2D02G428300&T r a e s C S2D02G4282000.0381070.2317270.164448 T r a e s C S7A02G418500&T r a e s C S7A02G4186000.3607361.4552100.247892 T r a e s C S7D02G411300&T r a e s C S7D02G4112000.5808252.0790100.2793764种顺式作用元件:受高盐㊁干旱胁迫诱导的顺式作用元件MY B和D R E,参与光反应和盐胁迫的顺式调节元件G-b o x,参与脱落酸反应的顺式作用元件A B R E;基因T r a e s C S2B02G451600和T r a e s C S2D02G428400除具有MY B㊁G-b o x㊁A B R E外还含有参与防御和应激反应的顺式作用元件T C-r i c h㊂顺式作用元件MY B㊁G-b o x和A B R E往往同时出现在同一基因上,推测这些基因对盐胁迫有响应㊂2.6小麦T a H K T基因在不同组织及盐胁迫下的表达分析23个小麦T a HK T基因在所选的16种组织中均有表达(图8),但表达量存在明显差异,表明这些成员在功能上存在一定分化㊂基因T r a e s C S4D02G361300主要在根(r o o t s)㊁叶轴(r a c h i s)㊁花梗(p e d u n c l e)和胚根(r a d i c l e)中表达,在根中的表达量最高;基因T r a e s C S7B02G318400主要在根(r o o t s)㊁叶鞘(l e a f s h e a t h)和胚根(r a d i c l e)中表达;基因T r a e s C S2B02G451800在各个组织中的表达量均较低;基因T r a e s C S2B02G451700在各个组织中均有较高表达,在根中的表达量最低㊂利用鉴定到的小麦T a H K T基因的I D在G e n e v e s t i g a t o r软件中得到了中国春和青麦6号在盐胁迫(150mm o l㊃L-1N a C l)处理不同时间下T a H K T基因在根组织中的表达热图(图9)㊂在盐胁迫下,T a H K T基因在两个小麦品种根部的表达模式相似,但青麦6号总体表达量略高于中国春㊂基因T r a e s C S7B02G318400在盐胁迫处理后表达量逐渐降低;基因T r a e s C S2B02G451400和㊃351㊃第2期苏瑞平等:小麦T a H K T家族基因的生物信息学分析T T :二倍体粗山羊草;T A :六倍体小麦;A E G :四倍体硬粒小麦;Z M :玉米;O S:水稻㊂T T :A o g i l o p s t a u s c h i i ;T A :T t i t i c u ma e s t i v u m ;A E G :T r i t i c u md u r u m D e s f .;Z M :Z e am a y s ;O S :O r yz a s a t i v a .图6 小麦T a H K T 基因与其他物种之间的共线性关系F i g .6 C o l l i n e a r i t y b e t w e e nw h e a t T a H K T g e n e s a n do t h e r s pe c i es 顺式作用元件用不同的彩色方框表示㊂D i f f e r e n t c o l o r e db o x e s i n d i c a t e d i f f e r e n t c i s -a c t i n g el e m e n t s i n t h e s c a l e a t b o t t o m.图7 小麦T a H K T 基因启动子区域与盐胁迫相关的顺式作用元件F i g .7 C i s -a c t i n g e l e m e n t s r e l a t e d t o s a l t s t r e s s i n t h e p r o m o t e r r e gi o no fw h e a t T a H K T g e n e s T r a e s C S 2D 02G 428200在盐胁迫处理后的表达量也有明显降低;基因T r a e s C S 2B 02G 451800在根部几乎不表达,但在受到盐胁迫处理后表达量逐渐提高,且在24h 时达到峰值㊂这些受到盐胁迫处理后表达量发生明显变化的基因,可能在小麦对盐胁迫的响应中发挥重要作用㊂3 讨论本研究在小麦基因组中鉴定出23个T a H -K T 基因,与G a r c i a d e b l ás 等[26]根据水稻HK T ㊃451㊃麦类作物学报第44卷R a d :胚根;C o l :胚芽鞘;S a :茎轴;R :根;L e :叶舌;P :花梗;S p :小穗;A :芒;G :颖片;L :叶;S c :种皮;F :旗叶;S h :幼苗;S t :茎;R a :叶轴;L s:叶鞘㊂R a d :R a d i c l e ;C o l :C o l e o p t i l e ;S a :S t e ma x i s ;R :R o o t ;L e :L e a f l i g u l e ;P :P e d u n c l e ;S p :S pi i k e l e t s ;A :A w n s ;G :G l u m e s ;L :L e a f ;S c :S e e d c o a t ;F :F l a gl e a f ;S h :S h o o t s ;S t :S t e m ;R a :R a c h i s ;L s :L e a f s h e a t h .图8 小麦T a H K T 基因家族成员在16种组织中的表达热图F i g .8 R e l a t i v e e x pr e s s i o n p r o f i l e s o fT a H K T g e n e s i n16t i s s u es C S :中国春;QM :青麦6号;c o n :对照;N a C l :N a C l 胁迫㊂C S :C h i n e s eS p r i n g ;QM :Q i n gm a i 6;c o n :C o n t r o l ;N a C l :N a C l s t r e s s .图9 T a H K T 基因在盐胁迫下小麦根中的表达模式F i g .9 R e l a t i v e e x pr e s s i o n p a t t e r n s o fT a H K T g e n e s i nw h e a t r o o t s u n d e r s a l t s t r e s s 基因家族推测的小麦中可能含有18个甚至更多个H K T 基因相符㊂亚细胞定位和跨膜结构域分析表明,小麦H K T 蛋白均定位在质膜上,表明该蛋白在质膜上起作用,且大多数H K T 蛋白具有8个跨膜结构域,符合H K T 蛋白的典型特征㊂对T a H K T 蛋白进行保守基序分析发现,M o t i f 6㊁M o t i f 4和M o t i f 7以及M o t i f 1和M o t i f 3在所有基因家族成员中有规律地出现,它们可能是与该家族基因功能密切相关的结构;系统进化树分析发现,在进化树上分支较近的家族成员具有相同或相似的M o t i f 组成和基因结构,推测分支较近的成员之间具有相同或相似的功能㊂㊃551㊃第2期苏瑞平等:小麦T a H K T 家族基因的生物信息学分析通过共线性分析,在基因家族成员中找到了10对共线性基因,4对串联重复基因,其K a/K s 值均小于1,表明均受纯化选择作用㊂在小麦与粗山羊草和四倍体硬粒小麦的共线性分析时发现,该基因家族在其2㊁4㊁6㊁7号染色体上共线性较好;在水稻中发现8个H K T基因,在玉米中发现3个H K T基因,且都与小麦中的H K T基因具有共线性,推测它们可能由共同的祖先进化而来㊂启动子区域的顺式作用元件在调控应激相关基因的表达中起着重要作用,且能够增加植物对非生物和生物胁迫的耐受性㊂转录因子通过与基因启动子区域中的顺式作用元件的特异性结合参与多种植物过程,包括生长㊁发育和胁迫信号传导㊂MY B转录因子结合顺式作用元件参与植物对高盐和干旱胁迫的应答;A B R E是介导A B A 依赖性信号传导的典型顺式作用元件;D R E是受高盐㊁低温和干旱胁迫诱导的顺式作用元件;G-b o x为参与光反应和盐胁迫的顺式调节元件[27-29]㊂通过分析T a H K T基因的顺式作用元件,可以进一步了解其调控机理及其可能参与的生理过程㊂本研究发现,小麦T a H K T基因启动子区域含有多种顺式作用元件,包括MY B㊁A B R E㊁D R E等响应激素和逆境胁迫元件(高盐㊁干旱),表明小麦T a H K T基因在参与逆境胁迫中可能发挥重要作用,也说明T a H K T基因的表达受多种因素调控㊂对不同小麦品种㊁不同组织部位中T a H K T 基因表达模式进行分析,发现基因T r a e s C S4D02G361300在根中表达量最高,且含有响应盐胁迫的顺式作用元件MY B㊁G-b o x和A B R E,说明其在根中的高表达可能与抵御盐胁迫有关㊂不过,在盐胁迫处理后,其表达量没有明显变化,表明其可能只是组织特异性基因而非诱导表达型基因㊂将其氨基酸序列提交到N C B I比对,发现T r a e s C S4D02G361300为已在小麦中鉴定到的T a HK T8(T a HK T1;5-D)[14,30]㊂基因T r a e s C S2B02G451800在各个组织中的表达量均较低,但受N a C l诱导表达,同源比对分析发现,其是已克隆的小麦T a HK T7(T a HK T1;4)㊂T a HK T7和T a HK T8是小麦中的两个主效耐盐基因,可在盐渍化条件下降低小麦叶片中N a+的积累[31],在盐胁迫条件下提高硬粒小麦产量[32]㊂T r a e s C S7B02G318400在根和叶鞘中表达量较高,而在叶中表达量较低,受到盐胁迫后表达量降低,经比对发现,该基因为从小麦中发现的第一个H K T基因T a HK T1(T a HK T2;1)[33],是根系中的高亲和N a+转运系统㊂这些研究结果表明,通过全基因组水平的基因家族鉴定及表达谱分析,可以很好地筛选响应某种环境条件的靶基因,预测基因的功能㊂基因T r a e s C S2B02G451700在各个组织中均有较高表达,在根中的表达量较低, T r a e s C S2B02G451700等其他家族成员在N C B I 上的记录多为根据基因组序列自动计算分析预测得到的,有待进一步实验证实㊂总之,本研究结果可为进一步研究小麦T a HK T基因的功能和作用机制提供参考㊂参考文献:[1]MU K HO P A D H Y A Y R,S A R K A RB,J A T HS,e t a l.S o i l s a-l i n i t y u n d e r c l i m a t e c h a n g e:C h a l l e n g e s f o r s u s t a i n a b l e a g r i c u l-t u r e a n d f o o ds e c u r i t y[J].J o u r n a l o f E n v i r o n m e n t a lM a n-a g e m e n t,2021,280:111736.[2]L I JG,P U LJ,H A N M F,e t a l.S o i l s a l i n i z a t i o nr e s e a r c h i nC h i n a:A d v a n c e s a n d p r o s p e c t s[J].J o u r n a l o f G e o g r a p h i c a l S c i e n c e s,2014,24:943[3]胡涛,张鸽香,郑福超,等.植物盐胁迫响应的研究进展[J].分子植物育种,2018,16(9):3006.HU T,Z H A N GGX,Z H E N GFC,e t a l.R e s e a r c h p r o g r e s s i n p l a n ts a l ts t r e s sr e s p o n s e[J].M o l e c u l a r P l a n t B r e e d i n g, 2018,16(9):3006.[4]L I A N G W J,MA X L,WA N P,e ta l.P l a n ts a l t-t o l e r a n c e m e c h a n i s m:Ar e v i e w[J].B i o c h e m i c a la n d B i o p h y s i c a lR e-s e a r c hC o mm u n i c a t i o n s,2018,495(1):287.[5]K A T I Y A R-A G A RWA LS,Z HUJ,K I M K,e t a l.T h e p l a s m a m e m b r a n eN a+/H+a n t i p o r t e r S O S1i n t e r a c t sw i t hR C D1a n d f u n c t i o n s i no x i d a t i v es t r e s st o l e r a n c ei n A r a b i d o p s i s[J].P r o c e e d i n g s o f t h eN a t i o n a lA c a d e m y o f S c i e n c e s o f t h eU-n i t e dS t a t e s o f Am e r i c a,2006,103(49):18816.[6]Z H A OSS,Z H A N GQK,L I U M Y,e t a l.R e g u l a t i o n o f p l a n t r e s p o n s e s t o s a l t s t r e s s[J].I n t e r n a t i o n a l J o u r n a l o f M o l e c u-l a rS c i e n c e s,2021,22(9):4609.[7]T A N V E E R M,S H A H A N.A n i n s i g h t i n t o s a l t s t r e s s t o l e r-a n c em e c h a n i s m s o f C h e n o p o d i u m a lb u m[J].E n v i r o n m e n t a l Sc i e n c e a n dP o l l u t i o nR e s e a r c h,2017,24(19):16531. [8]H A U S E R F,H O R I E T.Ac o n s e r v ed p r i m a r y s a l t t o le r a n c e m e c h a n i s m m e d i a t e db y H K Tt r a n s p o r t e r s:A m e c h a n i s mf o r s o d i u me x c l u s i o n a n dm a i n t e n a n c e o f h ig hK(+)/N a(+)r a-t i o i n l e a v e sd u r i n g s a l i n i t y s t r e s s[J].P l a n t,C e l l&E n v i-r o n m e n t,2010,33(4):553.[9]HAMAMO T OS,H O R I E T,H A U S E RF,e t a l.H K Tt r a n s-p o r t e r sm e d i a t e s a l t s t r e s s r e s i s t a n c e i n p l a n t s:F r o ms t r u c t u r e a n d f u n c t i o n t o t h e f i e l d[J].C u r r e n tO p i n i o n i nB i o t e c h n o l o-g y,2015,32:113.[10]M I A N A,O OM E N RJFJ,I S A Y E N K O VS,e t a l.O v e r-e x-㊃651㊃麦类作物学报第44卷p r e s s i o no f a n N a+-a n dK+-p e r m e a b l e H K Tt r a n s p o r t e r i n b a r l e y i m p r o v e s s a l t t o l e r a n c e[J].T h eP l a n tJ o u r n a l:f o rC e l l a n d M o l e c u l a rB i o l o g y,2011,68(3):469.[11]C O R R A T GÉ-F A I L L I E C,J A B N O U N E M,Z I MM E R-MA N NS,e ta l.P o t a s s i u m a n ds o d i u mt r a n s p o r t i nn o n-a n i m a l c e l l s:T h eT r k/K t r/H K Tt r a n s p o r t e r f a m i l y[J].C e l l u l a r a n d M o l e c u l a rL i f eS c i e n c e s,2010,67(15):2530.[12]王甜甜,郝怀庆,冯雪,等.植物H K T蛋白耐盐机制研究进展[J].植物学报,2018,53(5):710.WA N G T T,HA O H Q,F E N G X,e t a l.R e s e a r c ha d v a n c e s i n t h ef u n c t i o no f t h eh i g h-a f f i n i t y K+t r a n s p o r t e r(H K T) p r o t e i n s a n d p l a n ts a l tt o l e r a n c e[J].C h i n e s e B u l l e t i no fB o t a n y,2018,53(5):710.[13]R I E D E L S B E R G E R J,M I L L E R J K,V A L D E B E N I T O-MA T U R A N A B,e ta l.P l a n t H K Tc h a n n e l s:A nu p d a t e d v i e wo ns t r u c t u r e,f u n c t i o na n d g e n e r e g u l a t i o n[J].I n t e r-n a t i o n a l J o u r n a l o f M o l e c u l a r S c i e n c e s,2021,22(4):1892.[14]B Y R TCS,X UB,K R I S HN A N M,e t a l.T h eN a(+)t r a n s-p o r t e r,T a H K T1;5-D,l i m i t ss h o o tN a(+)a c c u m u l a t i o n i n b r e a dw h e a t[J].T h eP l a n tJ o u r n a l:f o rC e l la n d M o l e c u-l a rB i o l o g y,2014,80(3):517.[15]Z HA N GSC,T O N GYX,L IYJ,e t a l.G e n o m e-w i d e i d e n t i-f i c a t i o no f t h e HK Tg e n e s i nf i v eR o s a c e a es p e c i e sa n de x-p r e s s i o na n a l y s i s o f HK T g e n e s i n r e s p o n s e t o s a l t-s t r e s s i nF r a g a r i av e s c a[J].G e n e s&G e n o m i c s,2019,41(3):326.[16]MU N N S R,T E S T E R M.M e c h a n i s m so fs a l i n i t y t o l e r a n c e [J].A n n u a lR e v i e wo f P l a n tB i o l o g y,2008,59:651.[17]L IH Y,X U GZ,Y A N GC,e t a l.G e n o m e-w i d e i d e n t i f i c a t i o na n de x p r e s s i o na n a l y s i so f H K Tt r a n s c r i p t i o nf a c t o ru n d e r s a l t s t r e s s i n n i n e p l a n t s p e c i e s[J].E c o t o x i c o l o g y a n dE n v i-r o n m e n t a l S a f e t y,2019,171:435.[18]D A V E A,A G A RWA L P,A G A RWA L P K.M e c h a n i s m o fh i g ha f f i n i t y p o t a s s i u m t r a n s p o r t e r(H K T)t o w a r d si m-p r o v e d c r o pp r o d u c t i v i t y i ns a l i n ea g r i c u l t u r a l l a n d s[J].3B i o t e c h,2022,12(2):51.[19]A R I Y A R A T HN A H C K,U L-H A Q T,C O L M E R T D,e ta l.C h a r a c t e r i z a t i o no f t h em u l t i g e n e f a m i l y T a H K T2;1i nb r e a dw h e a t a n d t h e r o l e o f g e n em e m b e r s i n p l a n tN a+a n d K+s t a t u s[J].B M CP l a n tB i o l o g y,2014,14(1):159.[20]M I S H R AS,S I N G HB,P A N D AK,e t a l.A s s o c i a t i o n o f S N Ph a p l o t y p e s o fH K T f a m i l y g e n e sw i t h s a l t t o l e r a n c e i n I n d i a n w i l d r i c e g e r m p l a s m[J].R i c e,2016,9(1):15. [21]Z HA N GJ,Q IY,WA N G L,e t a l.G e n o m i c c o m p a r i s o na n d p o p u l a t i o nd i v e r s i t y a n a l y s i s p r o v i d e i n s i g h t s i n t o t h e d o m e s-t i c a t i o n a n d i m p r o v e m e n t o f f l a x[J].i S c i e n c e,2020,23(4): 100967.[22]HU B,J I NJ,G U O A Y,e t a l.G S D S2.0:A nu p g r a d e d g e n ef e a t u r ev i s u a l i z a t i o n s e r v e r[J].B i o i n f o r m a t i c s,2015,31(8):1296.[23]W I L K I N S M R,G A S T E I G E R E,B A I R O C H A,e ta l.P r o-t e i n i d e n t i f i c a t i o na n da n a l y s i st o o l s i nt h eE x P A S y s e r v e r [J].M e t h o d s i nM o l e c u l a rB i o l o g y,1999,112:536. [24]Z HA N GZ,L I J,Z HA O X Q,e t a l.K a K s_C a l c u l a t o r:C a l c u-l a t i n g k a a n d k s t h r o u g hm o d e l s e l e c t i o n a n dm o d e l a v e r a g i n g [J].G e n o m i c s,P r o t e o m i c s&B i o i n f o r m a t i c s,2006,4(4): 259.[25]L E S C O T M,DÉH A I SP,T H I J SG,e t a l.P l a n t C A R E,ad a-t a b a s e o f p l a n t c i s-a c t i n g r e g u l a t o r y e l e m e n t s a n d a p o r t a l t o t o o l s f o r i n s i l i c o a n a l y s i s o f p r o m o t e r s e q u e n c e s[J].N u c l e i cA c i d sR e s e a r c h,2002,30(1):326.[26]G A R C I A D E B LÁSB,S E N N M E,B AÑU E L O S M A,e t a l. S o d i u m t r a n s p o r ta n d H K T t r a n s p o r t e r s:T h er i c e m o d e l [J].T h eP l a n t J o u r n a l,2003,34(6):789.[27]E R P E NL,D E V IHS,G R O S S E RJW,e t a l.P o t e n t i a l u s e o f t h eD R E B/E R F,MY B,N A Ca n d WR K Yt r a n s c r i p t i o nf a c-t o r s t o i m p r o v e a b i o t i c a n db i o t i c s t r e s s i nt r a n s g e n i c p l a n t s [J].P l a n t C e l l,T i s s u ea n d O r g a n C u l t u r e(P C T O C), 2018,132(1):1.[28]X UZS,N IZ Y,L I U L,e ta l.C h a r a c t e r i z a t i o no f t h eT a-A I D F a g e n e e n c o d i n g aC R T/D R E-b i n d i n g f a c t o r r e s p o n s i v e t o d r o u g h t,h i g h-s a l t,a n d c o l d s t r e s s i nw h e a t[J].M o l e c u l a rG e n e t i c s a n dG e n o m i c s,2008,280(6):507.[29]MU K H E R J E E K,C H O U D HU R Y A R,G U P T A B,e ta l.A nAB R E-b i n d i n g f a c t o r,O S B Z8,i sh i g h l y e x p r e s s e d i ns a l t t o l e r a n t c u l t i v a r s t h a n i n s a l t s e n s i t i v e c u l t i v a r s o f i n d i c a r i c e [J].B M CP l a n tB i o l o g y,2006,6:18.[30]S C H A C H T MA N D P,S C H R O E D E R JI.S t r u c t u r ea n d t r a n s p o r t m e c h a n i s m o fa h i g h-a f f i n i t y p o t a s s i u m u p t a k e t r a n s p o r t e r f r o mh i g h e r p l a n t s[J].N a t u r e,1994,370:656.[31]X U B,WA T E R SS,B Y R TCS,e t a l.S t r u c t u r a l v a r i a t i o n s i n w h e a tH K T1;5u n d e r p i n d i f f e r e n c e s i nN a+t r a n s p o r t c a p a c-i t y[J].C e l l u l a ra n d M o l e c u l a rL i f eS c i e n c e s,2018,75(6): 1135.[32]J AM E SR A,B L A K E C,B Y R T CS,e ta l.M a j o r g e n e s f o r N a+e x c l u s i o n,N a x1a n dN a x2(w h e a tH K T1;4a n dH K T1;5),d e c r e a s eN a+a c c u m u l a t i o n i nb r e a dw h e a t l e a v e su n d e r s a l i n e a n dw a t e r l o g g e dc o n d i t i o n s[J].J o u r n a lo f E x p e r i-m e n t a lB o t a n y,2011,62(8):2940.[33]MU N N SR,J AM E SR A,X U B,e t a l.W h e a t g r a i n y i e l do n s a l i n e s o i l s i s i m p r o v e d b y a n a n c e s t r a lN a+t r a n s p o r t e r g e n e [J].N a t u r eB i o t e c h n o l o g y,2012,30:363.㊃751㊃第2期苏瑞平等:小麦T a H K T家族基因的生物信息学分析。

椰子SUT基因家族的生物信息学及其表达分析

2 Coconut Research Institute, Chinese Academy of Tropical Agricultural Sciences, Wenchang, Hainan 571339, China)
Abstract Sucrose transporter is a very typical transmembrane transporter which plays an important role in the absorption and transport of sucrose. At present the functions and mechanisms of coconut sucrose transporters are not well documented. In order to give further insight to the coconut sucrose transporter family (CnSUTs), five members of CnSUTs (CnSUT1-CnSUT5) were comprehensively analyzed by using bioinformatics methods in relation to mainly the physical and chemical properties and homology of the proteins. The results showed that CnSUTs are mainly located on the plasma membrane and are typical hydrophobic membrane proteins, which have a GPH structural functional domain, highly conservative, with α -helix and random coil being the most important secondary structure elements, and their tertiary structures being very similar. These results might provide an important reference for exploring the functions of the CnSUTs protein family in sucrose absorption and transport in coconut. Keywords coconut ; sucrose transporter ; bioinformatics analysis

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

划分：按功能划分：把一些功能类似的基因聚类，形成一个家族。

按照序列相似程度划分:一般将同源的基因放在一起认为是一个家族。

NBS-LRR抗病基因家族：是植物中最大类抗病基因家族之一。

MADS-BOX基因家族：是植物体内的重要转录因子，它们广泛地调控着植物的生长、发育和生殖等过程。

在植物中参与花器官的发育，开花时间的调节，在果实，根，茎，叶的发育中都起着重要的作用。

热激蛋白70家族（HSP70）是一类在植物中高度保守的分子伴侣蛋白，在细胞中协助蛋白质正确折叠。

二、基因家族分析流程：●利用蛋白保守域结构提取号在Pfam数据库提取其隐马尔科夫模型矩阵文件（*.hmm）●在数据库（Ensemble 、JGI、NVBI）下载你所需要的物种的基因组数据（*.fa,*.gff）●在虚拟机中Bio-Linux中的hummsearch程序，用隐马尔科夫模型矩阵文件在蛋白序列文件中搜索含有该保守结构域的蛋白●将蛋白序列导入MEGA软件构建进化树（可以阐明成员之间系统进化关系，从进化关系上揭示其多样性）●利用MEME搜索蛋白质的保守结构域利用MEME搜索基因家族成员的motif可以揭示基因家族在物种内的多样化及其功能，如果他们都含有相同的motif表明其功能具有相似性，如果部分家族成员含有其他不同的motif,很可能这些成员有其他特异功能，或者可以归分为一个亚族●绘制基因染色体位置图从*.gff文件中抽取我们搜索到的基因位置信息，_v2.0/在线绘制基因染色体位置图通过染色体位置分布，可以了解基因主要分布字哪条染色体上，及是否能形成基因簇（被认为是通过重组与错配促进基因交流）●基因结构分析从gff文件中抽取基因的结构信息，绘制转录本结构图。

●计算串联重复基因的Ka,Ks1.首先将筛选到的基因的cds序列进行多序列对比，筛选identity > 75%，tength大于对比的两条序列中较长的那条的长度的75%，将筛选到的基因分别用clustalw进行比对，比对结果导入KsKs_Calculster计算Ka，Ks、Ka/ks比，计算核苷酸的非同义替代（ka）与核苷酸的同义替代（ks）的平均速率。

2.Ka/ks比值<1表明：通过纯化选择降低了氨基酸变化的速率；比值=1表示中性选择；比值>1,表明这些基因可能已经收到积极选择，有利于适应性遗传，这些受正向选择的基因将作为以后的研究重点。

软件的安装从图片中获得进入NCBI-blast官网复制blast-linux版本的链接在Linux终端1.blast的安装#wget blast链接#tar xvfz 文件名解压缩文件# mv 解压缩文件/root/local/app# mv 解压缩文件blast# vi .bashrc#在最后一行添加export $PATH=/root/local/app/blast/bin:$PATH 并保存退出#source .bashrc 运行#blastp -version 查看是否安装成功。

2．hummer的安装#yum install -y wget //安装wget#wget hmmer源码链接#tar -zxvf hmmer-3.2.1# vi .bashrc#(在最末端添加的语句) PATH=$PATH:~/biosoft/hmmer-#yum install -y gcc#./configure#make#make check#make install#which hmmsearch 查看是否安装成功。

3.perl的安装#wget 源代码链接# tar xvfz perl- 解压缩#cd perl-5.28.1#./configure#make#make install 安装完成。

3.bioperl 的安装#wget -O - | bash#perlbrew install-cpanm#/root/perl5/perlbrew/bin/cpanm Bio::Perl三、具体操作：1.保守域结构分析下载蛋白保守结构域文件、cds、cDNA、gff注释文件和隐马尔科夫矩阵模型。

以拟南芥为例：下载完成后，需要将文件传到Linux系统上进行分析：打开虚拟机输入ip a将虚拟机IP连接到Xshell上，在Xshell上进行操作，将文件通过xftp（同样需要连接IP）传到Linux系统上，然后进行解压。

(一个命令解压多个文件:gunzip*.gz)接下来用hummsearch寻找含有该蛋白保守结构域的蛋白及核酸序列安装hummsearchyum install -y wget //安装wget#wget hmmer源码链接#tar -zxvf hmmer-3.2.1# vi .bashrc#(在最末端添加的语句) PATH=$PATH:~/biosoft/hmmer-#yum install -y gcc#./configure#make#make check#make install#which hmmsearch 查看是否安装成功。

解压文件移动到APP目录下面在app目录下面新建文件夹 mkdir hmmer将hmmer- mmove -v c:/hmmer-3.2.1 c:/hmmer删除安装包打开文字编辑器vi ~/.bashrc在文字编辑器里最后一行添加以上内容安装好wget如果make check出现错误百度用以下方法解决出现complete安装完成#source ~/.bashrc#which hmmsearch至此hmmer安装完成。

虚拟机操作：1.导入下载好的文件；2.hmmsearch --cut_tc –domtblout NB-ARC.txt NB-ARC.hmm Arabidopsis_thaliana.TAIR10可以用editplus打开.txt文件3. perl domain_xulie.pl 结果文件.txt 蛋白序列文件domain.fa 1e-204.clustalw进行多序列比对，得到aln文件和dnd文件。

5.hmmbuild 拟南芥特异的hmm模型文件domain.aln6.hmmsearch –cut_tc –domtblout result.txt newhmm文件蛋白质序列文件7.在Excel中，根据特定的evalue进行筛选，并对第一列进行去重复，得到第一列去重复的id，保存为id.txt8. 用perl脚本根据id提取序列Per get_fa_by_id.pl id.txt 蛋白序列wenjain >结果输出文件可以根据的得到的序列文件进行后续的构建进化树、motif分析等。

2.搜索基因家族成员的MOTIF2.1 需要准备的文件1. 拟南芥NBS基因蛋白质序列2. 蛋白保守结构域的隐马尔科夫模型矩阵文件2.2 MOTIF的搜索使用meme软件命令：meme nbs_pep.fa -protein -oc nbs_motif -nostatus -maxsize 600000 -mor anr -nmotifs 10 -minw 6 -maxw 50搜索结果存放在nbs_motif文件夹中。

文件夹中的eps文件可以用AI打开编辑，可以另存为png或jpg格式，也可打开网页版，也可用tbtools软件打开，下载motif在基因上的位置信息。

3. 绘制基因在染色体上的位置图3.1 需要准备的文件1. 拟南芥NBS基因id2. 拟南芥的注释文件（gff3文件）3. 拟南芥基因组长度4.1在线绘图工具：MapGene2Chrom4.2 samtools faidx 拟南芥. 可得到拟南芥. 该文件包括各个染色体，染色体长度。

4.3 对基因的id文件在Excel中进行分列，去重复处理。

4.4 使用处理过的id文件，对拟南芥的注释文件进行筛选使用perl脚本得到基因在染色体上的位置。

命令：perl get_gene_gff.pl -in1 基因的id文件-in2 拟南芥gff3文件-out 新文件名称4.5 新文件存放的是基因在染色体上的位置4.6在在线文件MapGene2chrom 中，将基因在染色体上的位置信息文件复制到，input1框中，在input2中粘入samtools得到的fai文件。

4.绘制转录本的结构图4.1 需要准备的文件1. 拟南芥NBS基因转录本id（通过家族成员鉴定得到的蛋白id文件）2.拟南芥基因的注释文件（gtf文件）3.在线绘图工具：Gene Structure Display Server 2.0http：//4.2 具体方法1. 准备gtf文件：输入命令：gffread gff3注释文件-T -o 输出文件（gtf文件）2.editplus 打开gtf文件，去除”transcript:”3. 使用perl脚本提取拟南芥转录本结构信息：命令：perl get_gtf.pl -in1 拟南芥转录本id文件-in2 gtf文件-out 输出文件（nbs_gtf.txt）4.通过在线绘图工具，进行绘图。

5.筛选出串联重复基因5.1准备文件1.拟南芥NBS基因CDS序列串联重复基因筛选标准【（a）length of alignable sequence covers>75% of longergene,and(b) similarity of aligned regions >75%】参考文献：Extent of gene duplication in the genomes of Drosophila, nematode, and yeast.2.由于筛选时产生的文件较多，因此创建新的目录：mkdir 新目录3.用editplus 打开家族成员的id文件，对转录本id进行处理，使一个基因只拿一个转录本。

4.把id复制到Excel，首先排序处理，然后进行分列，然后以第一列删除重复值。

最后将第一列和第二列进行合并。

将处理好的id导入Linux。

5.使用perl脚本提取cds序列：命令：perl get_fa_by_id.pl id文件拟南芥cds 序列文件> cds.fa6.使用blast软件筛选串联重复基因6.1建立目标序列的数据库：makeblastdb -in cds.fa -dbtype nucl -title cds.fa 6.2 进行多序列比对：blastn -query cds.fa -db cds.fa -evalue 1e-20 -outfmt 9 -out result.txt6.3 用editplus打开6.4 得到cds序列的长度，使用samtools工具建立索引：命令：samtools faidx cds.fa6.5 用perl脚本对result.txt进行筛选，perl KAKS_SHAIXUAN.pl -in1 -in2 result.txt -out cleanresult.txt6.6 用editplus打开，将内容复制到Excel，在id后插入一列用公式：if （A1>B1,A1&B1,B1&A1）。