热带爪蟾bHLH转录因子鉴定与进化分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
热带爪蟾bHLH转录因子鉴定与进化分析
刘武艺
【摘要】爪蟾是重要的生物医学模式动物.文章根据NCBI公布的热带爪蟾(Xenopus tropicalis)基因组数据,利用生物信息学方法提取和鉴定了爪蟾全基因组范围的碱性螺旋-环-螺旋(bHLH)基因信息,应用系统发生方法进行分类并做基因本
体论(Gene Ontology,GO)功能富集分布分析,以期从整体上探讨爪蟾bHLH转录
因子基因家族的分类及功能.结果表明,在热带爪蟾基因组数据库中发现了70个bHLH转录因子,其中69个可以分别归到6大组(A~F)的34个亚家族中,另一个为“孤儿因子”(Orphan)基因.GO富集分布统计发现有51个显著富集分布的GO
注释语句,其中转录调控活性、转录调控、DNA结合、RNA代谢过程调控、DNA
依赖的转录调控、转录和转录因子活性等出现频率很高,表明这些GO术语是爪蟾bHLH基因最常见的功能;许多bHLH转录因子在一些重要的发育或生理过程中
发挥调控作用,如肌肉组织和器官(横纹肌、骨骼肌、眼部和咽部肌肉)的分化和发育、消化系统发育、咽部和感觉器官的发育、碱基和核苷及核酸的代谢调控、生物合成过程调控、DNA结合和蛋白质异聚化活性等.另外,还有一些重要信号通路(Signaling pathway)的GO术语显著地富集.文章还对Hes转录因子家族做了进
化分析.这些结果为热带爪蟾bHLH基因的进一步研究打下了很好的基
础.%Xenopus is an important model animal for biomedicine researches. In order to probe into the classification and function of the basic helix-loop-helix (bHLH) transcription factor family, we conducted a genome-wide survey and identified 70 bHLH transcription factors using the Xenopus tropicalis genome project data in the study. Among these transcription factors, 69 bHLH transcription factors were classified into 6 large groups
composed of 34 sub-families and the remaining one was classified as
'orphan'. Results of Gene Ontology (GO) enrichment statistics showed 51 frequent GO annotation categories. Statistical analysis of the GO annotations showed that these 70 bHLH proteins tended to be fre-quently related to transcription regulator activity, regulation of transcription, DNA binding, regulation of RNA metabolic process, DNA-dependent regulation of transcription, transcription, and transcription factor activity, indicating that they were expected to be the most common GO categories of transcriptional factors. Moreover, a number of bHLH genes were revealed to play important regulation roles in special development and physiological processes, such as muscle tissue and organ (striated muscle, skeletal muscle, eye muscle, and pharyngeal muscle) differentiation and development, e.g., digestive system development, pharynx development and sensory organ development, regulation of nucleobase, nucleoside and nu-cleotide and nucleic acid metabolic process, regulation of biosynthetic process, DNA binding, and protein heterodimeriza-tion activity, etc. There were also some important signaling pathways in the significant GO categories. We made the evolutionary analysis of Hes transcription factor family as well. This preliminary result lays a solid foundation for further researches on X. Tropicalis.
【期刊名称】《遗传》
【年(卷),期】2012(034)001
【总页数】13页(P59-71)
【关键词】爪蟾;系统发生分析;转录因子;基因本体论
【作者】刘武艺
【作者单位】阜阳师范学院生命科学学院,阜阳236041;阜阳师范学院科研处,阜阳236041
【正文语种】中文
转录因子(Transcription factor)又称反式作用因子, 指能够与真核基因发生特异地相互作用并对转录有激活或抑制作用的DNA结合蛋白, 典型的转录因子含有DNA 结合区、转录调控区、寡聚化位点及核定位信号区等功能部分[1~5]。
有关转录因子结构和功能的研究是动植物分子生物学研究的前沿领域,转录因子因其所含 DNA 结合区域序列的不同而被划分为不同的蛋白家族[1~3]。
碱性螺旋-环-螺旋(basic helix-loop-helix, bHLH)转录因子是目前最大的转录因子家族之一, 并且被公认为在细胞增殖与分化、肌肉形成、神经元、肠和血、性别决定等遗传发育过程中具有重要作用[4~8], 许多课题组都对bHLH转录因子展开了研究。
首先报道的是鼠转录因子 E12和 E47[9], 后来的研究将动物 bHLH 转录因子划分为6大类(A-F), 这些大类共细分为45个亚类或亚家族[4,6,10,11]。
经过研究人员的不懈努力, 目前关于动物bHLH家族成员的分类、进化及功能分析均已积累大量资料, 并且已经基本弄清各家族组成及各成员的功能, 为深入探讨动物生长发育过程中的基因调控机制及基因相互作用的网络奠定了基础。
由于生物物种基因组测序和全基因组草图的绘制陆续完成, 越来越多转录因子被分析和鉴定出来,这就为从整体上研究某物种转录因子的功能和进化等重要问题提供了可能。
因此, 从全基因组角度研究某一类型的转录因子或调控因子具有重要的意义。
如今, 动物 bHLH转录因子家族已经在人、小鼠、大鼠、鸡、蚕、蜜蜂等许多
物种的基因组中被鉴定和研究[4~11,14~19]。
但是, 在热带爪蟾(Xenopus tropicalis)基因组中尚未进行有关的研究。
热带爪蟾和非洲爪蟾(Xenopus laevis)
均是重要的生物医学模式动物[20]。
目前, 热带爪蟾的基因组草图已经宣告完成[19,20], 而非洲爪蟾的基因组测序工作尚在进行中。
本文以前人提出的bHLH转录因子分类原则[10]和代表性 bHLH基序(Domains)为参考[6,11], 从热带爪蟾基因
组数据库鉴定出70个bHLH转录因子, 并进行基因本体论(Gene Ontology, GO)
术语的富集分析, 以期了解和探讨爪蟾基因组中 bHLH转录因子的分类及其功能。
根据Atchley等提出的bHLH转录因子分类原则和Ledent等定义的45个代表性bHLH基序[6,11] 为参考, 对热带爪蟾的基因组数据
(/genome/guide/frog/)进行基于序列同源性的TBLASTN搜索, 搜索的严谨值设为E<10。
同时, 我们也检索了蛙蟾类数据库Xenbase[20], 最后根据scaffold或基因克隆的编号、编码区、基因和蛋白获取号、序列比对结果等信息, 去除冗余序列,得到了最终采用的bHLH序列。
对上述分析中获得的可能的 bHLH蛋白序列,用ClustalX进行序列比对[21], 用GeneDoc做保守序列的分析和比较[22]。
系统树构建采用基于贝叶斯法的Mrbayes[23]和基于最大似然法的PHYML[24]软件。
其中, 贝叶斯法采用两个独
立的马科夫链(Markov Chain)抽样进行推断, 最后取 50%一致树作为最终的系统
发生树。
利用DAVID生物信息工具[25,26]进行GO注释的富集分析, 富集分布的显著性P
值和假阳性率(False positive rate, FDR)控制在0.05以下。
利用上述 bHLH代表性基序、TBLASTN和BLASTP算法及系统发生分析, 搜索鉴
定得到70条热带爪蟾的bHLH序列(表1, 图1)。
表1所示bHLH转录因子的名
称通过与人的同源序列(Homolog)系统发生树分析得到。
若一条人的bHLH因子
拥有两个以上热带爪蟾同源序列, 我们将分别标注为a、b、c或1、2、3等名称。
如人的MyoRa(musculin)在热带爪蟾基因组中发现有两个同源序列, 那么热带爪
蟾的相应的同源序列就会被命名为 MyoRa1和MyoRa2。
本研究发现, 搜索鉴定得到的 69个热带爪蟾bHLH转录因子可以被归类到 6个大组(A-F), 这 6大组分别拥有26、19、7、3、16和1个成员, 且这些转录因子又可以被细分为34个小的因子家族; 某些小家族, 如 ASCa、ASCb、Mist、Net、Delilah、MyoRb、PTFb、NSCL、TF4、AHR和Sim等家族的成员没有被发现, 另外发现的一个 bHLH转录因子是“孤儿因子”(Orphan)基因。
Orphan基因指
那些在系统发生分析中不能够归类到人和动物共有基因家族的基因, 最早由Ledent等[6]于2001年提出来。
这些基因也是 bHLH转录因子家族的成员, 但由
于序列与其他的bHLH转录因子家族成员差异比较大,因此暂命名为“Orphan”。
此外, 我们共鉴定出7个预测的bHLH蛋白, 即NP_001096226.1、NP_989390.1、NP_001096298.1、NP_001037951.1、NP_001107462.1、NP_001107508.1、NP_001120597.1(表 1, 图 1)。
这些 bHLH蛋白均是通过生物信息学方法在热带
爪蟾基因组中推断或预测得到的新转录因子。
它们是人类bHLH蛋白的同源蛋白, 在 NCBI数据库中有记录但尚未有详细的注释信息。
本研究所得的结果可作为热带爪蟾基因组数据库注释信息的有益补充。
一般地, DNA结合活性和蛋白质聚合活性、转录共激活是bHLH类因子的主要功
能活动。
除此之外, bHLH转录因子还有许多其他丰富的功能活性。
为进一步探讨
爪蟾bHLH转录因子家族的整体功能特点, 我们收集了这70个bHLH因子的基因本体论(GO)的功能注释信息。
其中, 51个超几何分布统计检验显著(P<0.05)的
GO注释语句显示于图 2中(对涉及不同数量基因的术语标记为不同的颜色), 这些GO语句分别表示一些重要的生物学过程、分子功能和信号通路(Pathway)信息,
如转录调控活性(GO:0030528)、转录调控(GO:0045449)、DNA结合
(GO:0003677)、RNA代谢过程调控(GO:0051252)、DNA依赖的转录调控
(GO:0006355)、转录(GO:0006350)和转录因子活性(GO:0003700)等出现的频率很高(标记为红色), 表明这些GO注释语句是爪蟾bHLH基因常见的功能。
从图 2
可见, 爪蟾 bHLH转录因子家族特有的 GO注释语句显示, 一些重要的发育过程或
生理过程, 如肌肉器官发育和肌肉组织发育、神经管发育、胚胎脊索发育、血小板、眼的发育和感官发育等出现的频率也较高。
表2显示为GO超几何分布显著富集
的详细功能注释(P<0.10, FDR<0.50)。
同时, GO术语富集分布分析也揭示存在热带爪蟾bHLH家族各大组特有的GO术语分类(因其数据复杂而未出示)。
现简述如下:A组主要是与肌肉组织发育(如横纹肌肌细胞分化和发育、骨骼肌纤维及肌肉
组织发育、眼部骨骼肌组织发育和咽部肌肉发育)、消化系统发生、咽部组织发育
和感觉器官发育等有关的GO术语; B组和C组则主要在转录、转录调控活性和转录调控等方面GO术语很多; D组和F组由于成员数量比较少, 在本研究中没有得
到有意思的GO术语; E组则拥有许多功能多样的转录调控 GO术语, 如正负方向
的转录调控、正负方向的RNA代谢过程调控、正负方向的RNA聚合酶II启动子
转录调控、正负方向的核酸转录调控、正负方向的碱基与核苷和核酸的代谢调控、正负方向的生物合成过程调控、DNA结合和蛋白质异聚化活性等等, 并且一些信
号通路(Signaling pathway)的术语也存在于E组中, 如Notch signaling pathway、TGF-beta signaling pathway和Notch signaling pathway。
为进一步了解bHLH转录因子在热带爪蟾及其他动物的基因组中的分布特点, 我们比较了脊椎动物和无脊椎动物bHLH基因数目及其小家族或亚家族分布(表3)。
从整体上看, 脊椎动物的 bHLH基因数明显比无脊椎动物的要多, 而且许多小家族
或亚家族, 如E12/E47、NeuroD、Atonal、Mesp、Twist、Paraxis、SCL、SRC、Myc、Mad、MITF、HIF、Emc、Hey和 Coe等家族在脊椎动物是多基因家族,
而在无脊椎动物则是单基因家族或寡基因家族。
在45个小基因家族中, 仅有10个家族在斑马鱼、鸡、小鼠和大鼠中是单基因的家族, 而文昌鱼(Branchiostoma
californiense)和大蛤蛏(Lottia gigantea)分别有33个和24个单基因家族; Delilah家族在脊椎动物和大蛤蛏“丢失”, 但在果蝇和文昌鱼中存在。
这种现象可以应用分子进化理论中基因的“出生与死亡模型”(Birth-and-death model)[26]来解释。
这里的基因进化的“出生与死亡模型”, 是 Nei等[26]根据免疫系统的两个多基因家族——主要组织不相容复合体(Major histocompatibility complex, MHC)和免疫球蛋白(Immunoglobulin, Ig)的系统发生分析后提出的一个假说。
该假说认为, 在MHC和 Ig两个多基因家族中, 新基因的产生可能起源于不断的基因重复过程(Repeated gene duplication), 由此得到的重复基因的两种命运[26], 即有些重复基因在基因组中能够存在很长的时间, 而另外一些重复基因则因为受到有害突变(Deleterious mutation)的影响而趋于灭绝;MHC和Ig两个多基因家族的进化分析结果更符合“出生与死亡模型”, 而不是先前常常被提及的“基因聚合进化模式”(Concerted evolution)[26]。
从以上分析可见, 各个物种都显示 H/E(spl)或Hes转录因子家族的成员比较多, 这一现象引起了我们的极大兴趣。
例如, 该家族在无脊椎动物中有11~12个成员, 而在已知的脊椎动物中有6~15个成员(表3)。
我们以斑马鱼的HEYL为外群(Out-group),利用系统发生分析的最大似然估计方法构建了人、小鼠、大鼠、斑马鱼、鸡和热带爪蟾Hes转录因子基因家族的蛋白质序列进化树(蛋白质序列, 图3)。
结果发现, 除人的 Hes4和热带爪蟾的 Hes6b之外,Hes基因家族各成员(Hes1、Hes2、Hes3、Hes5、Hes6和Hes7)均单独成枝, 即各个成员聚合在一起, 形成了自己在进化树上的特有分支。
这一现象说明, Hes基因家族的各个成员均有各自独立的进化起源和祖先基因, 这与Zheng等[19]报道的研究结果类似。
本研究从热带爪蟾的基因组数据库共搜索鉴定出70个bHLH转录因子。
相比较而言, 比人[11,14]、大鼠和小鼠[18]、斑马鱼[16]、鸡[17]等其他脊椎动物的bHLH 转录因子数量少, 但比无脊椎动物(如黑腹果蝇和蜜蜂等昆虫[6,15])和文昌鱼[14]的
bHLH转录因子数量要多。
究其原因, 一方面, 爪蟾和蛙类在物种进化树上比人、鼠、硬骨鱼和鸡等均低等些, 可能存在的转录因子数量相对较少; 另一方面, 更重要的原因是由于当前爪蟾(热带爪蟾)的基因组数据尚未完全测定并被注释清楚, 在热带爪蟾的基因组草图中仍存在许多空隙(Gap)需要进一步的精细测序和注释, 且已经测定的序列也要对其精细反复的研究、比对和核对, 从而得到完全注释的基因。
因此,本研究得到的bHLH转录因子可能只是爪蟾bHLH基因家族的一部分, 其数量还可以在日后的实验研究、精细测序和注释工作中得到补充和扩展, 尤其是那些未被注释或注释信息不全的基因很可能是新的bHLH转录因子家族成员。
本研究根据 Atchley等的 bHLH分类原则和Ledent等定义的代表性bHLH基序[6,11], 搜索和鉴定得到的70个bHLH转录因子的基序特征明显, 具有十分高的可信度。
其中, 7个是预测的新转录因子
(Hypothetical protein)是本研究发现并被注释的基因,这些新的转录因子基因需要做进一步的实验以深入研究其结构与功能。
本研究所发现和鉴定的70个热带爪蟾bHLH转录因子为构建相关转录因子调控网络奠定了基础。
本研究得到的69个bHLH转录因子可以被归类到6个大类分组, 这6大组又可以被细分为34个小家族, ASCa、ASCb、Mist、Net、Delilah、MyoRb、PTFb、NSCL、TF4、AHR和Sim等基因家族成员没有被发现; 另外一个bHLH转录因子为“孤儿因子”(Orphan)基因。
Orphan基因最早由 Ledent等[6]在2001年提出来。
这些基因也是bHLH转录因子家族的成员, 但由于序列与其他的 bHLH转录因子家族成员差异比较大, 因此暂命名为“Orphan”。
实际上, Orphan并非真正意义的“孤儿因子”, Ledent等[6]在2001年已提及, 不同的基因家族归类标准也会得到不同的“孤儿因子”。
例如, 黑腹果蝇的 Delilah基因, 在果蝇中可归类为广义的“NeuroD”基因家族成员之一, 但在人和其他非昆虫的动物基因中就是“孤儿”[6]。
从这个意义上说, 拟南芥(Thaliana)的大部分A大类的bHLH转录因子都
可以被归类为Orphan基因了。
此外, 基因本体论(GO)的功能注释信息分析显示有 51个统计显著富集分布的 GO 功能注释语句,并且各个高阶大组组内特异的显著富集分布的 GO功能注释语句, 这些注释语句为我们认识和了解模式生物热带爪蟾等爪蟾科动物bHLH转录因子的功能、分类和进化及基因调控网络等研究提供了有用的信息。
【相关文献】
[1] Boggon TJ, Shan WS, Santagata S, Myers SC, Shapiro L.Implication of tubby proteins as transcription factors by structure-based functional analysis. Science, 1999,286(5447): 2119–2125.
[2] Luscombe NM, Austin SE, Berman HM, Thornton JM. An overview of the structures of protein-DNA complexes.Genome Biol, 2000, 1(1): 1–37.
[3] Riechmann JL, Heard J, Martin G, Reuber L, Jiang CZ,Keddie J, Adam L, Pineda O, Ratcliffe OJ, Samaha RR,Creelman R, Pilgrim M, Broun P, Zhang JZ, Ghandehari D,Sherman BK, Yu GL. Arabidopsis transcription factors:genome-wide comparative analysis among eukaryotes.Science, 2000, 290(5499): 2105–2110.
[4] Atchley WR, Fitch WM. A natural classification of the basic helix-loop-helix class of transcription factors. Proc Natl Acad Sci USA, 1997, 94(10): 5172–5176.
[5] Massari ME, Murre C. Helix-loop-helix proteins: Regulators of transcription in eucaryotic organisms. Mol Cell Biol, 2000, 20(2):429–440.
[6] Ledent V, Vervoort M. The basic helix-loop-helix protein family: Comparative genomics and phylogenetic analysis.Genome Res, 2001, 11(5): 754–770.
[7] Stevens JD, Roalson EH, Skinner MK. Phylogenetic and expression analysis of the basic helix-loop-helix transcription factor gene family: genomic approach to cellular differentiation. Differentiation, 2008, 76(9): 1006–1022.
[8] Carretero-Paulet L, Galstyan A, Roig-Villanova I,Martínez-García JF, Bilbao-Castro JR, Robertson DL.Genome-Wide Classification and evolutionary analysis of the bHLH family of transcription factors in Arabidopsis,poplar, rice, moss, and algae. Plant Physiol, 2010, 153(3):1398–1412.
[9] Murre C, McCaw PS, Baltimore D. A new DNA binding and dimerization motif in immunoglobulin enhancer binding, Daughterless, MyoD and Myc proteins. Cell, 1989,
56(5): 777–783.
[10] Atchley WR, Terhalle W, Dress A. Positional dependence,cliques, and predictive motifs in the bHLH protein domain.J Mol Evol, 1999, 48(5): 501–516.
[11] Ledent V, Paquet O, Vervoort M. Phylogenetic analysis of the human basic helix-loop-helix proteins. Genome Biol,2002, 3(6): 301–3018.
[12] Toledo-Ortiz G, Huq E, Quail PH. The Arabidopsis basic/helix- loop-helix transcription factor family. Plant Cell,2003, 15(8): 1749–1770.
[13] Li J, Liu Q, Qiu MS, Pan YC, Li YX, Shi TL. Identification and analysis of the mouse basic/Helix-Loop-Helix transcription factor family. Biochem Biophys Res Commun,2006, 350(3): 648–656.
[14] Simionato E, Ledent V, Richards G, Thomas-Chollier M,Kerner P, Coornaert D, Degnan BM, Vervoort M. Origin and diversification of the basic helix-loop-helix gene family in metazoans: Insights from comparative genomics.BMC Evol Biol, 2007, 7: 33.
[15] Wang Y, Chen KP, Yao Q, Wang WB, Zhu Z. The basic helix-loop-helix transcription factor family in Bombyx mori. Dev Genes Evol, 2007, 217(10): 715–723.
[16] Wang Y, Chen KP, Yao Q, Zheng XD, Yang Z. Phylogenetic analysis of zebrafish basic helix-loop-helix transcription factors. J Mol Evol, 2009, 68(6): 629–640.
[17] Liu WY, Zhao CJ. Genome-wide identification and analysis of the chicken basic helix-loop-helix factors. Comp Funct Genomics, 2010: 682095.
[18] Zheng X, Wang Y, Yao Q, Yang Z, Chen K. A genome-wide survey on basic helix-loop-helix transcription factors in rat and mouse. Mamm Genome, 2009, 20(4):236–246. [19] Hellsten U, Harland RM, Gilchrist MJ, Hendrix D, Jurka J,Kapitonov V, Ovcharenko I, Putnam NH, Shu SQ, Taher L,Blitz IL, Blumberg B, Dichmann DS, Dubchak I, Amaya
E,Detter JC, Fletcher R, Gerhard DS, Goodstein D, Graves T,Grigoriev IV, Grimwood J, Kawashima T, Lindquist E,Lucas SM, Mead PE, Mitros T, Ogino H, Ohta Y, Poliakov AV, Pollet N, Robert J, Salamov A, Sater AK,Schmutz J, Terry A, Vize PD, Warren WC, Wells D, Wills A, Wilson RK, Zimmerman LB, Zorn AM, Grainger R,Grammer T, Khokha MK, Richardson PM, Rokhsar DS.The genome of the Western clawed frog Xenopus tropicalis. Science, 2010, 328(5978): 633–636.
[20] Bowes JB, Snyder KA, Segerdell E, Gibb R, Jarabek C,Noumen E, Pollet N, Vize PD. Xenbase: a Xenopus biology and genomics resource. Nucleic Acids Res, 2008, 36:D761–
D767.
[21] Thompson JD, Gibson TJ, Plewniak F, Jeanmougin F,Higgins DG. The ClustalX windows interface: flexible strategies for multiple sequence alignment aided by quality analysis tools. Nucleic Acids Res, 1997, 25(24): 4876–4882.
[22] Nicholas KB, Nicholas HB, Deerfield DW. GeneDoc:analysis and visualization of genetic variation. EMBNET News, 1997, 4: 14.
[23] Ronquist F, Huelsenbeck JP. MrBayes 3: Bayesian phylogenetic inference under mixed
models. Bioinformatics, 2003, 19(12):1572–1574.
[24] Guindon S, Gascuel O. A simple, fast, and accurate algorithm to estimate large phylogenies by maximum likelihood. Syst Biol, 2003, 52(5): 696–704.
[25] Dennis G Jr, Sherman BT, Hosack DA, Yang J, Gao W,Lane HC, Lempicki RA. DAVID: Database for annotation,visualization, and integrated discovery. Genome Biol,2003, 4(5): P3–last page.
[26] Huang DW, Sherman BT, Lempicki RA. Systematic and integrative analysis of large gene lists using DAVID bioinformatics resources. Nat Protocol, 2009, 4(1): 44–57. [27] Nei M, Gu X, Sitnikova T. Evolution by the birth-and-death process in multigene families of the vertebrate immune system. Proc Natl Acad Sci USA, 1997, 94(15): 7799–7806.。