薄片青冈叶绿体全基因组的特征及系统发育分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
栎属
(Quercus )
青冈亚属
(s ubgenus
Cyclobalanopsi )植物广泛分布于亚洲热带、亚热带地区,目前已知90~120种[1],因其木材硬度高、强度大、耐腐性好,在建筑、运动器材、造船等领域有着广泛的应用,具有较高的经济和生态价值。
此外,其壳斗和树皮中富含单宁,可用于制备栲胶,而种子则可以用于饲料、酿酒和工业淀粉的生产[2]。
薄片青冈(Quercus lamellosa )正式发表于1821年,由詹姆斯·爱德华·史密斯(James Edward Smith )在书中记录其果实具有多层重叠鳞片7~10个同心环,因壳斗苞环张开,而易同本亚属的其他种类相区别
[3-4]。
薄片青冈
为常绿高大乔木,高可达40m 以上,我国广西、云南和西藏等地均有分布,生于海拔1300~2500m 杂木林中[5]。
目前,对薄片青冈的分类研究目前主要集中于形态学和核基因方面,而对其分类地位和种间关系尚不明确[6]。
叶绿体(cp )是一种专门用于能量转换的独特细胞器,在藻类和高等植物中具有相对独立的遗传物质。
植物cp 含有独立的cp 基因组DNA ,主要是母体孤雌生殖[7-8]。
cp 基因组序列通常被用于物种分类、遗传进化和种群变异的DNA 条形码。
因此,相较于传统分类学研究方法,cp 基因组可以提供更多稳定的遗传信息用于系统发育关系和种内多样性的研究[9]。
随着第二代测序技术的快速发展,cp 基因组越来越多地被用于系统发育关系重建,自从2014年第一个栎属植物北方红栎(Quercus rubra )的cp 基因组被公布以来,迄今有30种栎属植物的cp 基因组已完成测序[10-12]。
本研究采用二代高通量测序技术对薄片青冈的cp 基因组进行测序,组装获得第一份薄片青冈cp 基因组序列。
通过注释对其结构和组成进行界定与分析,以及系统发育研究,旨在为青冈亚属植物的分子标记开发和系统发育研究提供一定参考。
1材料与方法
1.1
植物材料和DNA 测序
本研究材料采自于昆明植物园(云南省昆明市盘
收稿日期:2023-05-18
基金项目:华夏英才基金项目“米仓山自然保护区台湾水青冈种群更新机制研究”(463361)。
作者简介:李卜宇(1997—),女,重庆大足人,在读硕士,主要从事木本植物系统发育研究。
E-mail :****************。
*为通信作者,E-mail :***********************。
李卜宇,黄婷,陈晓丽,等.薄片青冈叶绿体全基因组的特征及系统发育分析[J ].南方农业,2023,17(23):1-7.
薄片青冈叶绿体全基因组的特征及系统发育分析
李卜宇,黄婷,陈晓丽,何佳怡,唐梦,张雪梅*
(西华师范大学生命科学学院,四川南充637009)
摘要栎属(Quercus )青冈亚属(subgenus Cyclobalanopsi )的薄片青冈(Quercus lamellosa ),是一种
具有较高经济和生态价值的高大乔木,可用于营造用材林、园林美化、水土保持等。
为有助于该物种的分子鉴定、遗传多样性和系统发育研究,开展了叶绿体基因组测序分析。
首次报道了薄片青冈叶绿体基因组全序列:整个叶绿体基因组长度为160928bp ,总GC 含量为37.97%;由大的单拷贝(LSC ,90276bp ),小的单拷贝(SSC ,18902bp )和一对反向重复(IRs ,每个25875bp )组成。
该基因组共预测到133个基因,其中包括8个核糖体RNA 基因、38个转移RNA 基因和87个蛋白质编码基因。
此
外,发现薄片青冈叶绿体基因组中高频密码子的第三个碱基偏向A/U ,且自然选择对薄片青冈叶绿体基因组密码子偏好性的影响较大。
共检测到113个简单重复序列(SSR )和38个长重复序列。
系统发育分析显示,薄片青冈最先从青冈亚属分支中分化出来,是青冈亚属植物中较为原始的物种。
关键词
栎属;薄片青冈;叶绿体基因组;系统发育分析
中图分类号:S718.43文献标志码:A DOI :10.19415/ki.1673-890x.2023.23.001
龙区蓝黑路132号),将采集到的薄片青冈新鲜叶片置于硅胶中干燥保存。
将其提交给上海派森诺生物科技
有限公司,进行文库构建和Illumina 测序。
TruSeqDNA 样品制备试剂盒(Illumina ,SanDiego ,CA ,USA )用于构建Illumina 双末端文库。
配对末端
(2×150bp )测序在Illumina NovaSeq 平台上进行,产生约8.6GB 的原始读序(Rawreads )。
对公司返回原始读序的使用fastq [13]去除质量低的read 后获得纯净读序(cleandata )用于后续分析。
1.2方法
1.2.1
cp 基因组组装和注释
使用getOrganelle [14]组装其过滤后的序列,以北美
红橡(Quercus rubra ,序列号JX970937)作为参考序列;再使用cpGAVAS2[15]对组装的cp 基因组进行注释;
最后使用geneious prime 2022[16]对注释后的cp 基因组进行手动校正,包括起始密码子和终止密码子的位置,以及内含子和外显子的边界,通过序列与相关物种的比较,确保注释结果的准确性。
最终得到的结果提交至美国国家生物信息中心(National Center for Biotechnology Information ,NCBI )数据库(登录号:ON497016)。
随后将注释文件上传至在线网站OGDRAW [15](https://chlorobox.mpimp-golm.mpg.de/OGDraw.html )得到薄片青冈cp 全基因组完整图谱(见图1)。
图1薄片青冈的叶绿体基因组图谱
1.2.2重复序列和SSR
使用在线软件REPuter[17](https:bibiserv.cebitec. uni-bielefeld)对薄片青冈cp基因组采用四种重复方式进行搜索:包括正向重复序列(F)、反向重复序列(R)、回文重复序列(P)及互补重复序列(C)。
参数设置为1000,最小重复长度设置为30,汉明距离设置为3(表示一对重复序列的相似度不能小于90%),其余参数均为默认。
SSR为特殊的简单重复序列,通过在线软件MISA[18](https:webblast. ipkgatersleben.de/misa/)分析。
其参数设置如下:单核苷酸、二核苷酸、三核苷酸、四核苷酸、五核苷酸和六核苷酸的最小重复数分别为10、5、4、3、3和3。
以上分析的所有重复都经过人工验证,并且删除了多余的结果。
1.2.3密码子的使用
使用geneious prime2022[16]提取编码基因(codingsequence,CDS)并筛选,得到52条大于300bp 且不重复,并且满足起始密码子为ATG的编码基因进行后续分析。
使用CodonW1.4.2程序对薄片青冈cp基因组中52条CDS序列的氨基酸使用频率、有效密码子数(Effective Number of Codon,ENC),以及密码子相对使用频率(Relative Synonymous Codon Usage,RSCU)进行统计和偏好性分析。
1.2.4薄片青冈与其近缘物种系统发育分析
为了确定薄片青冈在栎属植物中的进化地位,以
三棱栎(Trigonobalanus doichangensis)外类群,筛选中国栎属物种和薄片青冈共计21种的cp全基因组进行系统发育树的构建。
使用MAFFT软件进行序列比对,使用MEGA11.0[19]进行手工校正后采用最大似然法(maximum likelihood,ML)和邻接法(neighbor-joining Method,NJ)构建系统发育树,bootstrap值设置为1000,以此推断各节点的支持率。
2结果与分析
2.1基因组的特征
薄片青冈完整cp核苷酸序列范围为160928bp,具有在大多数陆地植物中发现的典型四分体结构。
包括一个90276bp的LSC区域和一个18902bp的SSC区域,由一对25875bp的IR区域隔开。
全基因组、LSC、SSC和IR中的GC含量分别为37.83%、34.82%、31.07%和42.71%;被子植物中常见的现象是IR区的GC含量明显高于LSC和SSC区,这是因为该区域存在rRNA基因[20]。
薄片青冈共有133个基因,包括编码基因87个、tRNA基因38个、rRNA基因8个;这些基因根据其不同的功能分为三组。
在这些基因中,15个基因含有一个内含子,3个基因(ycf3、clpP、rps12)有两个内含子。
trnK-UUU基因的内含子最长(2506bp),而matK基因位于其内含子中。
rps12基因是反式剪接基因,其5'端和重复的3'端分别位于LSC和IR区域(见图1、表1)。
表1薄片青冈的叶绿体基因组成
转录自我复制
光合作用
核糖体RNA基因
转运RNA基因
RNA聚合酶
光系统I
光系统Ⅱ
细胞色素b/f复合物
NADH-脱氢酶
ATP合成酶
二磷酸核酮糖羧化酶大亚基
基因
蛋白酶基因
成熟酶基因
rpl14;rpl16*;rpl2*(2);rpl20;rpl2;rpl23(2);rpl32;rpl33;rpl36
rps11;rps12;rps12**(2);rps14;rps;rps16*;rps18;rps19;rps2;rps3;rps4;rps7(2);rps8
rrn16S(2);rrn23S(2);rrn4.5S(2);rrn5S(2)
trnA-UGC*(2);trnC-GCA;trnD-GUC;trnE-UUC;trnF-GAA;trnG-GCC*;trnG-UCC;trnH-GUG;trnI-
CAU(2);trnI-GAU*(2);trnK-UUU*;trnL-CAA(2);trnL-UAA*;trnL-UAG;trnM-CAU;trnN-GUU(2);
trnP-UGG;trnQ-UUG;trnR-ACG(2);trnR-UCU;trnS-GGA(2);trnS-UGA;trnT-GGU(2);trnT-UGU;
trnV-GAC(2);trnV-UAC*;trnW-CCA;trnY-GUA;trnfM-CAU
rpoA;rpoB;rpoC1*;rpoC2
psaA;psaB;psaC;psaI;psaJ
psbA;psbB;psbC;psbD;psbE;psb
F;psbH;psbI;psbJ;psbK;psbL;psbM;psbN;psbT;psbZ
petA;petB*;petD*;petG;petL;petN
ndhA*;ndhB*(2);ndhC;ndhD;ndhE;ndhF;ndhG;ndhH;ndhI;ndhJ;ndhK
atpA;atpB;atpE;atpF*;atpH;atpI
rbcL
clpP**
matK
基因功能分类基因分组基因名称
2.2
重复序列和SSR
薄片青冈cp 基因组中共检测到38个散在重复序
列,包括15个正向重复序列(F )、22个回文重复序列(P )和1个反向重复序列(R ),而未发现互补重复序列(C )。
其中,21个重复为30~35bp ,10个重复为36~40bp ,6个重复为41~60bp ,1个重复超过60bp (为最长重复,达25875bp )。
这些重复序列中的大多数位于内含子和基因间隔区(IGS )中,少数位于外显子中。
此外,从重复片段大小来看,可以发现大部分序列长度集中在30~40bp 范围内,尤其是30~35bp (见图2)。
图2
薄片青冈叶绿素基因组的重复序列数量和类型
薄片青冈cp 基因组中共检测到113个SSR ,包含单碱基79个、二碱基15个、三碱基6个、四碱基9个、五碱基3个和六碱基1个。
单碱基重复类型绝大部分表现为A/T ,仅存在9个C/G 单碱基SSR (见表2)。
从基因的四分体结构分析,SSR 有85个位于LSC ,16个位于SSC ,12个位于IR 。
而从基因的编码区和非编码区的角度来看,79个位于基因间隔区,18
个位于内含子,16个位于外显子。
2.3
蛋白质编码基因中的密码子使用
薄片青冈cp 基因组的蛋白质编码序列中,UAA 终止密码子占总终止密码子(UAA 、UAG 和UGA )的近50%。
这一结果表明,薄片青冈的cp 基因组对终止密
码子UAA 的编码具有特殊的偏好。
RSCU 值大于1的密码子有32种,包括GCA (Ala )、UGU (Cys )、GAU (Asp )、GAA (Glu )UUU (Phe )和GGA (Gly )等(见图3)。
上述32个密码子中共有28个以A/U 碱基结
尾,说明高频密码子的第三个碱基偏向A/U 。
密码子第一个位置的平均GC 含量为46.14%,第二个位置为37.82%,第三个位置为29.96%,所有密码子为37.97%(见图4)。
由ENC-GC3关联分析可以看出,标准曲线下方汇集了大部分基因,这一结果说明自然选择对薄片青冈cp 基因组密码子偏好性的影响较大(见图5)。
2.4
系统发育推断
20个栎属植物和1个外类群的完整的cp 基因组被用来构建系统发育树,使用最大似然法(ML )和邻接法(NJ )构建系统发育树,其拓扑结构基本一致,且
获得强支持率(见图6)。
外类群三棱栎最先从发育树分化出来,其余20个栎属植物聚成两大支:青冈亚属
其他基因
未知功能基因
乙酰CoA 羧化酶的亚基
包膜蛋白基因C 型细胞色素合成翻译起始因子开放阅读框
accD cemA ccsA infA
ycf1(2);ycf2(2);ycf3**;ycf4
(续表1)
基因功能分类基因分组
基因名称注:(2)两次拷贝;*一个内含子;**两个内含子;#伪基因。
表2薄片青冈叶绿素基因组SSR 的数量和类型
名称A/T
G/C AT/TA
AG/GA CT/TC
TAA/TTA AGA/ATA TAT TAAA/AAAT TTCA/TATT
AATA/TTTA TTAA/TTAT GCAAT/CATTG
TTTTA TTTTAT 数量/个709
12123213222211类型单碱基单碱基二碱基二碱基二碱基三碱基三碱基三碱基四碱基四碱基四碱基四碱基五碱基五碱基六碱基
和栎亚属。
值得注意的是,薄片青冈最先从青冈亚属支分化出来,且未与其他青冈亚属物种聚为姐妹支,此结果与邓敏[6]使用RAD-seq (限制性位点相关DNA 测序)重建青冈亚属的系统发育结果一致。
图3
薄片青冈密码子的使用价值
6.0
5.0
4.0
3.0
2.0
1.0
R S C U
含量/%
60
50
40
30
22
GC1GC2GC3GC
图4
薄片青冈不同密码子的GC 含量
图5薄片青冈ENC-plot 分析
0.1000.300.200.500.40
0.700.600.80 1.00
0.90GC3
30
40
50
6070
E N
C
图6基于叶绿体基因组的薄片青冈系统进化和聚类分析
3结论与讨论
3.1结论
本研究对薄片青冈的cp基因组进行了全面的结构分析。
通过研究,获得了该物种的完整cp基因组序列,并对其进行了注释。
发现薄片青冈的cp基因组大小为160928bp,符合一般被子植物cp基因组范围,通过对cp基因组特征进行分析,研究结果表明薄片青冈植物的cp基因组在基因组结构、基因组成、基因顺序和GC含量等方面均是高度保守的。
薄片青冈的cp 基因组基本特征与其他青冈亚属植物相似,基因组特征分析为青冈亚属植物cp基因组提供了更多的认识,也为青冈亚属的cp基因组分化提供了一定的支持。
3.2讨论
不同生物使用密码子的偏好差异性很大,GC含量是造成密码子使用偏好的主要因素,且在基因组结构进化历程中扮演重要角色,它会影响热稳定性,复制、转录、翻译过程[21]。
有研究表明,密码子不同位置的GC含量有差异,而相对同义密码子使用(RSCU)可以代表使用同义密码子的相对概率,反映不同密码子的使用偏差[22]。
通过GC含量和RSCU分析,薄片青冈cp基因组的A/U碱基含量高,且在密码子第三位出现碱基A/U概率更大,这点与同为壳斗科的蒙古栎(Quercus mongolica)和槲栎(Quercus aliena)等植物cp基因组密码子使用偏好性一致[23]。
SSRs被广泛用于物种鉴定、种群遗传和系统发育分析中的遗传标记[24],薄片青冈鉴定出113个SSR,其中单核苷酸重复(A/T)占SSR数量的69.91%。
本研究中搜索薄片青冈长序列重复序列(长度大于30bp),检测到包括15个正向、22个回文和1个反向重复序列,而未发现互补重复序列;38对长重复序列,其中回文重复序列最为丰富。
4个重复序列主要集中在IR 和LSC区域,只有少数存在于SSC区域。
这些类型的SSR和长重复序列可作为研究薄片青冈及其近缘物种的遗传变异的分子标记。
这与壳斗科的檀子栎(Quercus baronii)和匙叶栎(Quercus dolicholepis)等植物cp基因组的重复序列分析一致[21]。
基于栎属植物形态的分类学研究,由于物种间的趋同进化和频繁的杂交而受到限制。
而绝大多数使用cp基因组的研究都获得了高分辨率和高支持度的系统发育树,即使是在那些具有系统发育挑战性的植物类群中[25-28]。
结合其他学者系统发育结果分析,薄片青冈位于青冈亚属支的基部,推测可能是栎亚属和青冈亚属的过渡物种,但我们还需要更多额外的数据来确定薄片青冈与相近类群准确关系的问题。
理想情况下,栎属植物的物种划分问题可以用基因组信息解决。
然而,目前研究表明cp基因组只是植物基因的一部分,我们期待着努力寻找一个,更确切地说是一套用于系统发育或种群推论基因方法来破解栎属植物进化的奥秘。
参考文献:
[1]KREMER A,HIPP A L.Oaks:an evolutionary
success story[J].New Phytologist,2020,226(4):
987-1011.
[2]GIL-PELEGRÍN E,PEGUERO-PINA J J,
SANCHO-KNAPIK D.Oaks and people:a long
journey together[J].Oaks Physiological Ecology.
Exploring the Functional Diversity of Genus
Quercus L..2017:1-11.
[3]周浙昆,孙航.西藏壳斗科订正[J].云南植物研究,
1996,18(2):211-225.
[4]GAMBLE J S.A Manual of Indian Trees[M].H.
Milford,Oxford University Press,1921. [5]中国科学院中国植物志编辑委员会.中国植物
志:第22卷[M].北京:科学出版社,1998. [6]邓敏.壳斗科栎属青冈亚属的形态解剖,分类,分
布及其系统演化[D].昆明:中国科学院昆明植物研
究所,2007.
[7]NEUHAUS H E,EMES M J.Nonphotosynthetic
metabolism in plastids[J].Annu Rev Plant Physiol
Plant Mol Biol,2000,51(51):111-140. [8]BENDICH A J.Why do chloroplasts and
mitochondria contain so many copies of their
genome?[J].BioEssays,1987,6(6):279-282. [9]XUAN L,LI Y,ZANG M,et plete
Chloroplast Genome Sequence and Phylogenetic
Analysis of Quercus acutissima[J].International
Journal of Molecular Sciences.2018,19(8):2443.
[10]ALEXANDER L W,WOESTE K E.Pyrosequencing
of the northern red oak(Quercus rubra L.)
chloroplast genome reveals high quality
polymorphisms for population management[J].Tree
Genetics&Genomes,2014,10(4):803-812. [11]JIANG X L,MOU H L,LUO C S,et al.The
complete chloroplast genome sequence of Quercus
chungii(Fagaceae)[J].Mitochondrial DNA Part B,
2021,6(7):1789-1790.
[12]WANG T R,WANG Z W,SONG Y G,et al.The
complete chloroplast genome sequence of Quercus
ningangensis and its phylogenetic implication[J].
Plant Fungal Syst,2021,66(2):155-165. [13]CHEN S,ZHOU Y,CHEN Y,et al.Fastp:an ultra-
fast all-in-one FASTQ preprocessor[J].
Bioinformatics,2018,34(17):884-890. [14]JIN J J,YU W B,YANG J B,et al.GetOrganelle:A
fast and versatile toolkit for accurate de novo
assembly of organelle genomes[J].Genome Biology,
2020,21(1):1-31.
[15]SHI L,CHEN H,JIANG M,et al.CPGAVAS2,an
integrated plastome sequence annotator and analyzer
[J].Nuclc Acids Research,2019,47(W1):65-73.
[16]KEARSE M,MOIR R,WILSON A,et al.Geneious
Basic:an integrated and extendable desktop
software platform for the organization and analysis of
sequence data[J].Bioinformatics,2012,28(12):
1647-1649.
[17]GU C,MA L,WU Z,et parative analyses of
chloroplast genomes from22Lythraceae species:
inferences for phylogenetic relationships and
genome evolution within Myrtales[J].BMC plant
biology.2019,19(1):1-19.
[18]BEIER S,THIEL T,MÜNCH T,et al.MISA-web:a
web server for microsatellite prediction[J].
Bioinformatics,2017,33(16):2583-2585. [19]TAMURA K,STECHER G,KUMAR S.MEGA11:
molecular evolutionary genetics analysis version11
[J].Molecular biology and evolution,2021,38(7):
3022-3027.[20]HE Y,XIAO H,DENG C,et al.The complete
chloroplast genome sequences of the medicinal
plant Pogostemon cablin[J].International Journal of
Molecular Sciences,2016,17(6):820. [21]杨颜慈.中国栎属植物和壳斗科主要属质体基因
组比较分析和系统发育研究[D].西安:西北大学,
2018.
[22]PARVATHY S T,UDAYASURIYAN V,BHADANA
V.Codon usage bias[J].Molecular Biology Reports,
2022,49(1):539-565.
[23]胡花蕾.四种柞树叶绿体基因组研究[D].沈阳:沈
阳农业大学,2020.
[24]FLANNERY M L,MITCHELL F,COYNE S,et al.
Plastid genome characterisation in Brassica and
Brassicaceae using a new set of nine SSRs[J].
Theoretical and Applied Genetics,2006,113:1221-
1231.
[25]FENG J,XIONG Y,SU X,et al.Analysis of complete
chloroplast genome:structure,phylogenetic
relationships of Galega orientalis and evolutionary
inference of Galegeae[J].Genes,2023,14(1):176.
[26]LI E,LIU K,DENG R,et al.Insights into the
phylogeny and chloroplast genome evolution of
Eriocaulon(Eriocaulaceae)[J].BMC Plant Biology,
2023,23(1):1-14.
[27]FENG J L,WU L W,WANG Q,et parison
Analysis Based on Complete Chloroplast Genomes
and Insights into Plastid Phylogenomic of Four Iris
Species[J].Biomed Research International,2022,
2022:2194021.
[28]LEE H R,KIM K A,KIM B Y,et al.The complete
chloroplast genome sequences of eight Orostachys
species:Comparative analysis and assessment of
phylogenetic relationships[J].Plos one,2022,17
(11):e0277486.
(责任编辑:丁志祥)。