纤维素合成酶基因家族的生物信息学分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
目录
摘要 (1)
关键词 (1)
前言 (2)
1材料与方法 (4)
1.1获取氨基酸序列 (4)
1.2序列比对及进化树构建 (4)
2结果与分析 (4)
2.1 水稻纤维素合成酶基因家族组成 (4)
2.2纤维素合成酶各成员蛋白质序列的多重比对 (6)
2.3 纤维素合成酶成员的进化分析 (17)
3讨论 (20)
4参考文献 (20)
5致谢 (20)
水稻纤维素合成酶基因家族的生物信息学分析
作者: 吴赵指导老师:彭喜旭专业:生物科学
(湖南科技大学生命科学学院,湖南湘潭411201 )
摘要:本文利用DNAStar和MEGA软件对水稻纤维素合成酶基因家族进行生物信息学分析。
结果表明,水稻纤维素合成酶基因家族分为CesA(纤维素合成酶家族)和Csl(纤维素合成酶相似家族)两个家族,其中CesA有11个成员;Csl有34个成员,蛋白质序列对比和进化树分析表明,CesA家族可分3组,其中CesA7可以看出是第一组与第二组的过渡支。
Csl家族可以分为6组。
这些结果为纤维素合成酶基因家族成员的结构、功能分析和进化起源的探索提供了资料。
关键词:纤维素合成酶;基因家族;进化树;生物信息学;水稻
Bioinformatics analysis of cellulose synthase Gene family of rice
Major:Life Sciences
Author: Wu Zhao Director: Peng Xixu,
(School of Life Sciences of Hunan University of Science and Technology Xiangtan 411201,
Hunan)
Abstract :This article analyze the cellulose synthase gene family of rice by using the DNAStar and MEGA software, The results show that cellulose synthase gene family is formed by the cellulose synthase family which is make up of eleven members and the cellulose synthase-like family which including thirty-four members, By Protein sequence alignment and phylogenetic analysis,we know that the family of CesA can divided into three groups .the member CesA7 can be seen as the transition of the group one and group two ,The family of Csl can be divided into six groups, This results laiding a foundation on origin, evolution and function research of ccellulose synthase gene family.
Key words:cellulose synthase; gene family; evolution tree;Bioinformatics;rice
前言
纤维素是生物圈最丰富的有机质,占植物界碳素的50%以上,是植物的结构多糖,是它们的细胞壁主要成分。
纤维素是线形葡萄糖,残疾通过β(1→4)糖苷键连接的纤维二糖可看成是它的二糖单位。
它是在细胞质膜上的纤维素合成酶催化下合成的,此酶同时催化多条糖链的合成。
自然界中每年可产生约1 800亿t纤维素。
纤维素广泛分布于植物和大多数藻类中, 一些细菌、真菌甚至某些动物也能合成纤维素[1 ]。
纤维素在造纸、纺织、食品、林业、生物能源等工农业生产领域中有着广泛的经济和商业价值, 这使得它一直成为人们研究的热点。
纤维素的基本单位是吡喃式D2葡萄糖, 通过β(1, 4 )糖苷键相连[2 ]。
虽然纤维素合酶基因首先在木醋杆菌(Acetobacter xylinum)中被发现[3~ 5 ], 但近年来随着人类对石油、煤炭的大量需求及石油价格的飞速增长, 对植物纤维素合酶基因及其蛋白的研究显得更有价值。
要掌握纤维素合成酶基因的调控, 可以通过植物基因工程方式增加植物中的纤维素含量, 而同时相对减少木质素的含量[6], 这样可以充分减少由造纸工业带来的环境污染, 也可以更加充分地利用纤维素来造福于人类。
同时增加纤维素含量以改善其品质, 将会培育更适于造纸的新型树种。
纤维素是在细胞质膜上的纤维素合成酶催化下合成的,对纤维素合成酶(cellulose synthase,CESA)的了解可以更使纤维素的人工合成更具效率。
所有的CESA与CSl (cellulose-synthase-like protein,纤维素合成酶相似蛋白)蛋白都具有跨膜蛋白的特征, 在N端与C端具2个或多个跨膜区域中, 其中间为亲水胞内区, 相似性比较结果表明了CESA与CSl蛋白之间最大的同源性出现在中间胞内区。
有关研究结果表明, 高尔基体存在着大量的糖苷转移活性, 因此, 有许多研究者认为, 部分CSl蛋白可能位于高尔基体的膜上。
植物CESA 蛋白含有一个植物特异保守区和一个超变区(HVR ) ,N端含有2个锌指区, 紧跟着HVR区, 这是植物CESA蛋白所特有的结构特征[7 ]。
1999年,Delmer提出了一个纤维素合酶的三维结构模型, 即8 个跨膜结构域在细胞膜上形成一个“洞” , 正在合成的β(1→4)葡萄糖苷链经此“洞”到达细胞外形成细胞壁。
N 2端形成的蛋白间互作结构域位于胞内, 可以结合各种催化活性所需的因子。
纤维素合成酶基因的大小为315~515kb ,有9~13个内含子,转录的mRNA范围为310~315 kb ,编码的蛋白长约985~1088个氨基酸,序列同源性53 %~98 %。
其内含子和外显子的边界区域是高度保守的,基因结构的差异主要在于内含子的多少。
CESA基因家族目前有40多个基因。
公共数据库里收集了来自40多个不同植物的1400 多个相关序列,新的序列还在不断增加。
植物纤维素合酶是一个由36个单体组成的玫瑰状复合体,其单体主要由植物纤维素合酶(cellulose synthase, CesA)基因家族成员编码。
近年来的研究证明CesA1,CesA3,CesA6在初生细胞壁的合成中起着不可替代的作用,CesA4,CesA7,CesA8与次生细胞壁的形成有直接的关系。
而CesA2,CesA5,CesA9,CesA10的功能还不是很清楚。
类纤维素合酶(cellulose-synthase-like protein, Csl蛋白)家族共分CslA、CslF、CslC、CslD、CslE和CslH等6个家族。
Csl基因家族功能还处于探索阶段,目前只有少数的报道。
有研究表明Csl基因与半纤维素的合成有关;有文献指出在旱金莲花(Tropaeolum)中发现Csl与I 型初生细胞壁的半纤维素主要成分xyloglucan(XyG)的-1,4-glucan骨架合成有关,该基因与拟南芥CslC4高度同源。
而Burton等报道水稻CslF基因家族与细胞物细胞壁形成和生长发育中的重要作用,但绝大多数的Csl基因功能有待进一步研究。
近年来,科学家采用了ESTs(Expressed Sequence tags),cDNA微阵列,反向遗传学等技术手段,在拟南芥纤维素合酶基因的的定位、表达和功能的研究上取得了一定的进展,而在探索纤维素的合成对外界环境胁迫的反应方面研究较少。
因为纤维素合酶(CesA)多基因现象的存在, 所以它与存在的大量纤维素合酶相似蛋白(Csl)
构成了一个庞大的超基因家族。
目前CesA基因R 基因家族已有40多个基因, 并且在不断地增加着。
CesA 基因的长度大约在3.5~5.5 Kb之间, 含有9~13个内含子, 其内含子和外显子的边界区域是高度保守的, 基因结构的差异主要决定于内含子的多少。
CesA基因转录产物介于3.0~3.5Kb之间,编码的肽链长度约为985~1088个氨基酸。
CESA蛋白家族各成员的氨基酸数目大约在985~1088之间,它们之间的一致性为53%~98%; CesA包含了2个高变区, 即N端约有150个氨基酸残基,A区与B区(植物纤维素合成酶基因特有的保守区,A区有DX, …, XDXD,B区与酶的催化活性有关, 除含有一个保守的天冬氨酸残基外, 还有一个序列QXXRW )之间约有50个氨基酸[8]。
2000年, Richmond和Somerville以拟南芥基因(AtCes1)及棉花纤维素合酶多肽氨基酸序列为初始序列, 对拟南芥基因组DNA序列进行反复检测后发现, 至少有41个高度相关的基因或DNA
序列, 其中有10个纤维素合酶的编码基因被验证, 而其余的基因或DNA序列编码产物在结构上与AtCes 具有相似性, 但由于它们的功能目前还不清楚, 所以被命名为纤维素合酶相似蛋白。
依据序列结构特征的不同,Csl蛋白可分为6 个族: CslA、CslF、CslC、CslD、CslE和CslH。
现在对生物信息的分析都能从生物信息学提供的各种蛋白质以及基因数据库中获得大量资料,比较著名的如GenBank与PIR。
生物信息学是以计算机为工具对生物信息进行储存、检索和分析的科学。
它是当今生命科学和自然科学的重大前沿领域之一,同时也将是21世纪自然科学的核心领域之一。
其研究重点主要体现在基因组学(Genomics)和蛋白组学(Proteomics)两方面,具体说就是从核酸和蛋白质序列出发,分析序列中表达的结构功能的生物信息。
核心是基因组信息学,包括基因组信息的获取,处理,存储,分配和解释。
基因组信息学的关键是“读懂”基因组的核苷酸顺序,即全部基因在染色体上的确切位置以及各DNA片段的功能;发现了新基因信息之后进行蛋白质空间结构模拟和预测。
目前研究的主要方向有:序列比对,基因识别,基因重组,蛋白质结构的预测,基因表达,蛋白质反应的预测,以及建立进化论的模型。
分子进化是利用不同物种中同一基因序列的异同来研究生物的进化,构建进化树。
既可以用DNA 序列也可以用其编码的氨基酸序列来做,甚至于可通过相关蛋白质的结构比对来研究分子进化,其前
提假定是相似种族在基因上具有相似性。
通过比较可以在基因组层面上发现哪些是不同种族中共同的,哪些是不同的。
早期研究方法常采用外在的因素,如大小,肤色,肢体的数量等等作为进化的依据。
近年来较多模式生物基因组测序任务的完成,人们可从整个基因组的角度来研究分子进化。
在匹配不同种族的基因时,一般须处理三种情况:
Orthologous: 不同种族,相同功能的基因
Paralogous: 相同种族,不同功能的基因
Xenologs: 有机体间采用其他方式传递的基因,如被病毒注入的基因。
这一领域常采用的方法是构造进化树,通过基于特征(即DNA序列或蛋白质中的氨基酸的碱基的特定位置)和基于距离(对齐的分数)的方法和一些传统的聚类方法(如UPGMA)来实现。
目前,水稻基因组已测定,为水稻纤维素合成酶基因家族的蛋白质以及基因研究提供了一个数据平台。
本文通过对水稻纤维素合成酶基因家族分析,得到较为完整的纤维素合成酶基因家族数据,为纤维素合成酶基因家族的起源、进化和功能研究奠定基础。
1.材料与方法
1.1获取氨基酸序列
水稻纤维素合成酶基因家族的蛋白质序列是通过(.)获得的。
在左侧选中Community Annotation,点击Rice Gene Families在Rice Gene Families找到cellulose synthase gene family。
点击右侧show details分别查找cellulose synthase family和cellulose synthase-like family,分别统计各家族的成员名字;基因座;在染色体上的位置;外显子的数目;及其蛋白质序列。
其蛋白质序列可以先复制基因位置如LOC_Os01g54620,再在左侧选择Search Functions中的Locus Search,最后download其蛋白质序列。
其他序列按此步骤一一找出。
1.2 序列比对及进化树构建
1.2.1序列比对
cellulose synthase gene family的氨基酸序列比对用DNAStar(Lasergene)软件执行。
多重序列比对(MegAlign)
输入序列File(Enter Sequences):Add all
完成( Done)
查看(View):Aligenment report,
装饰定义options(New Decoration):shade black
1.2.2进化树的构建
在ClustalW运算的基础上,再用MEGA4软件形成进化树。
打开序列(Alignment):Alignment Exploer/CLUSTAL
创建新的序列 (Creat a new Alignment):OK
多序列比对(Align by ClustalW):OK
输出序列 (Data)(Export Alignment):MEGA Format
打开数据 (Open the data in MEGA):YES
输出解鞋带值(phylogeny)Bootstarp Test of phylogeny
2.结果与分析
2.1 水稻纤维素合成酶基因家族组成
搜索数据库()发现,水稻纤维素合成酶基因家族分为水稻纤维素合成酶基因家族(Cellulose Synthase Family)和水稻纤维素合成酶相似基因家族(Cellulose Synthase-like Family)两个基因家族,其中CESA家族有11个成员,CSL家族有34个成员,我们对其中的各个成员在染色体上的位置,外显子数目以及蛋白质以及基因登陆号做了具体的记录。
其中CESA家族各成员信息见表1,CSL家族各成员信息见表2。
表1 CESA家族成员信息
OsCESA chr Acc Pos(cm) extron PID LOC
1 5 AC135426 4.565—4.571 13 AAU44296 LOC_Os05g08370
2 3 AC135958 33.772—33.779 14 AAP21426 LOC_Os03g59340
3 7 AP005248 13.740—13.746 13 BAD3057
4 LOC_Os07g24190
4 1 AP003237 31.421—31.427 12 BAD97094 LOC_Os01g54620
5 3 AC10448735.170—35.17613AAD41140LOC_Os03g62090
6 7 AP0058248.495—8.50012BAC84511LOC_Os07g14850
7 10 AC02245717.190—17.1958AAK27814LOC_Os10g32980
8 7 AP003837 5.851—5.85714BAC57282LOC_Os07g10770
9 9 AP00557917.190—17.19510BAD33645LOC_Os09g25490
10 12 AC73176317.361—17.3622LOC_Os12g29300
11 6 AP00361223.776—23.7797BAD32845LOC_Os06g39970
表2 CSL家族成员信息
OsCSL extron chr ACC PID LOC POS(cM) C1 5 1 AP003377BAC10759LOC_Os01g56130 32.317-32.321 A1 9 2 AP005785BAD34025LOC_Os02g09930 5.151-5.158 E2 8 2 AP005113AAL25130LOC_Os02g49332 30.142-30.148 A6 9 2 AP005297BAD16122LOC_Os02g51060 31.222-31.226 A4 8 3 AC073556AAL84294LOC_Os03g07350 3.728-3.732 A5 10 3 AC084766AAL82530LOC_Os03g26044 14.923-14.929 C9 6 3 AC133450AAT85054LOC_Os03g56060 31.923-31.927 H2 7 4 AL606632CAD41009LOC_Os04g35020 21.109-21.113 H3 8 4 AL606632CAD41008LOC_Os04g35030 21.116-21.121 C7 5 5 AC108873AAT44138LOC_Os05g43530 25.238-25.242 D2 4 6 AP001552BAA93027LOC_Os06g02180 0.659-0.664 A3 12 6 AP003509BAD37274LOC_Os06g12460 6.757-6.761 D5 1 6 AP005449BAD61907LOC_Os06g22980 13.413-13.417 A9 9 6 AP008212BAD37742LOC_Os06g42020 25.230-25.234 C10 5 7 AP005309BAC56816LOC_Os07g03260 1.604-1.307 F9 3 7 AP005126BAC80027LOC_Os07g36610 21.900-21.907 F8 3 7 AP005126BAC65371LOC_Os07g36630 21.909-21.914 F2 2 7 AP004261BAC65378LOC_Os07g36690 21.969-21.972 F1 2 7 AP004261LOC_Os07g36700 21.988-21.990 F4 3 7 AP004261BAC83321LOC_Os07g36740 22.005-22.011 F3 3 7 AP004261BAC83322LOC_Os07g36750 22.014-22.018 A7 10 7 AP004260BAC79726LOC_Os07g43710 26.157-22.162 F6 3 8 AP004635BAC66734LOC_Os08g06380 3.543-3.549 C3 5 8 AP004013LOC_Os08g15420 9.382-9.386 D3 2 8 AP004459BAD01697LOC_Os08g25710 15.639-15.643
续表2
OsCSL extron chr ACC PID LOC POS(cM) A11118AP004666BAD09847LOC_Os08g3374021.075-21.083 C259AP005568BAD33623LOC_Os09g2590015.545-15.548 E179AP005759BAD46389LOC_Os09g3012018.306-18.313 E6 7 9 AP005759BAD46391LOC_Os09g3013018.314-18.320 H1910AC119148ABB47240LOC_Os10g2009010.018-10.023 F7210AC090441AAK91320LOC_Os10g2026010.109-10.116 A2910AC021893AAK98678LOC_Os10g2663013.824-13.829 D1210AC027037AAL58185LOC_Os10g4275022.990-22.994 D4212AL845342ABA99552LOC_Os12g3689022.569-22.573
Abbreviation:ACC为该成员的基因登陆号,PID为蛋白质登陆号,extron为外显子数目,chr为染色体,LOC为染色体的位置,Pos为在染色体上的长度。
从表1我们可以发现纤维素合成酶成员中有3个分布在7号染色体上,CESA10只有两个外显子,从表2可以看出CSL家族中有8个成员分布在7号染色体上,可以说7号染色体是纤维素合成酶超家族分布最密集的地方,整个D族外显子数目普遍较少,为1至4个,其中CSLD5没有内含子。
从整个家族上看11号染色体上没有纤维素合成酶基因家族的分布。
2.2纤维素合成酶各成员蛋白质序列的多重比对
将CESA家族中的11个成员与CSL家族中的34个成员的氨基酸序列用MEGA4软件进行多重序列比对,可以得到图1与图2。
从图2.1我们可以看出家族中分散分布了多个保守域,保守域同源性较高,保守域外同源性较低,其中CESA4与CESA11比较特殊,它们的氨基酸序列与其它成员有较大不同,CESA10的氨基酸序列最短只有244个氨基酸残基。
表明它们在进化路上与其它成员出现了分歧。
图1 CESA 家族成员蛋白质序列的多重比对
从图2我们可以看出,整个CSL 大家族中存在多个保守域,这些保守域的蛋白质序列决定了该酶的特定功能,我们可以看到各个大组(A ,C ,D ,E ,F ,H )它们的保守序列具有高度相似性,这表明它们在进化上的亲缘关系极其相近,此外我们可以发现整个H 组的序列较短。
图2 CSL家族成员蛋白质序列的多重比对
2.3纤维素合成酶成员的进化分析
为了了解纤维素合成酶基因家族系统发育的关系,我们根据预测得到的11个CESA的氨基酸序列和34个CSL氨基酸序列,用MEGA软件以邻接法构建系统发育树,可以发现CESA家族可以分为三组,其中CESA5,CESA3,CESA6,CESA9,CESA7可分为第一大组,CESA1,CESA2,CESA8可分为第二大组,其中CESA4,CESA11,CESA10比较特殊将其分为第三组,其中CESA7可以看出第一组与第二组的过渡。
详细信息见图3。
而CSL家族可以分为六大组;其中CSLF1,CSLF2,CSLF3,CSLF4,CSLF6,CSLF7,CSLF8,CSLF9为第一大组;CSLD1,CSLD2,CSLD3,CSLD4,CSLD5为第二大组;CSLH1,CSLH2,CSLH3为第三大组,CSLE1,CSLE2,CSLE6为第四大组,CSLC1,CSLC2,CSLC3,CSLC7,CSLC9,CSLC10为第五大组,CSLA1,CSLA2,CSLA3,CSLA4,CSLA5,CSLA6,CSLA7,CSLA9,CSLA11
为第六组。
其中CSLF6在进化上处在第一组与第二组的过渡支。
具体信息见图4。
OsCESA5 OsCESA3 OsCESA6 OsCESA9 OsCESA7 OsCESA1
OsCESA2 OsCESA8 OsCESA4 OsCESA11 OsCESA10
100
97
100
54
32
89
18
35
图3 水稻CESA 家族的系统发生树
Ⅰ
Ⅱ
Ⅲ
OsCSLF2 OsCSLF1 OsCSLF4 OsCSLF9 OsCSLF8 OsCSLF3 OsCSLF7 OsCSLF6 OsCSLD4
OsCSLD3 OsCSLD5 OsCSLD2 OsCSLD1 OsCSLH2
OsCSLH3 OsCSLH1 OsCSLE2
OsCSLE1 OsCSLE6 OsCSLC1 OsCSLC7 OsCSLC9
OsCSLC10 OsCSLC3
OsCSLC2 OsCSLA5 OsCSLA7
OsCSLA1 OsCSLA9 OsCSLA11
OsCSLA6 OsCSLA3 OsCSLA4 OsCSLA2
63
100
10075
96
94
13
62
75
53
99
79
49
62
99
99
65
92
61
65
76
36
97
100
92
54
35
14
85
29
6
图4 水稻CSL 家族的系统发生树
Ⅰ
Ⅴ
Ⅱ
Ⅲ
Ⅳ
Ⅵ
3讨论
利用生物信息学方法对基因进行分析,发现新线索和新规律,指导实验工作的设计,可避免实验的盲目性和不必要的重复。
在基因研究的相关文献报道中,生物信息学内容所占比例有越来越高的趋势。
特别是近年来水稻的蛋白质以及基因数据库免费开放,为cellulose synthase gene family的生物信息学分析提供了重要资料,相信在不久的将来人们将能更好的认识了解纤维素合成酶,并调控其在生物中的作用。
参考文献
[1]Englehardt J Sources. Industrial derivatives and commercial applications of cellulose[J]. Carbohydrase Eur,1995, 12: 5-14.
[2] Delmer D P. Cellulose biosynthesis: exciting times for a difficult field of study[J]. A new Rev Plant Physiology Plant Mol Biol, 1999, 50: 245-276.
[3] Saxena IM ,Brown RMJ. Identification of a second cellulose synthase gene (acsA) in Acetobacter xylinum [J]. Bacteriol, 1995, 177(18): 276- 283.
[4] Saxena IM, Lin FC, Brown RMJ. Identification of a new gene in an operon for cellulose biosynthesis in Acetobacter xylinum [J]. Plant Mol Biol, 1991, 16 (6): 947-954.
[5] Wong HC, Fear AL, Calhoon RD, et al. Genetic organization of the cellulose synthase operon in Aetobacter xylinum [J]. Proc Natl Acad Sci USA, 1990, 87(20) : 8130- 8134.
[6] Wei T, Aaron Nelson, Emmanuel Johnson. Increasing cellulose production and transgenic plant growth in forest tree species [J]. Journal of Forestry Research,2005, 16 (1): 67-72.
[7]魏建华, 宋艳茹. 植物纤维素合酶基因研究进展[J]. 植物学通报, 2002, 19 (6): 641- 649 .
[8]Richmond T A , Somerville C R. The cellulose synthase super family[J]. Plant Physiology, 2000, 124: 495- 498 .
致谢
本论文是在彭喜旭老师和王海华教授的悉心指导下完成的。
从论文的选题、设计、方案的制定实施到研究结果的分析整理以及论文的撰写,无不凝结着老师的心血与智慧。
引导我进入一个既陌生而又令人兴奋的生物信息学新领域—比较植物基因组与分子进化,当我遇到难题时,彭老师和王老师及时给予指导和解答,正是老师自始至终坚持不懈地指导和督促,使我得以顺利完成课题研究;在发表论文的撰写方面,面对我所罗列的一堆数据,是导师去粗撷英,亲力而为组织撰写,数易其稿,认真修改,才得以顺利定稿成文。
王老师和彭老师渊博的知识、开拓创新的学者风范、严谨求实的治学作风、宽容豁达的处世态度、对科学研究的执着追求和敬业精神,时刻激励着我并将使我受益终身。
在导师的传道授业解惑中,让我接受了生物信息学及分子生物学的教育,科学研究素养得到了很好的提高,在此,谨向导师致以崇高的敬意和衷心的感谢。
20。