丹参叶绿体基因组进化分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
共编码114个基因,蛋 白编码基因80个、 tRNA30个、rRNA4个 。 IR区6个蛋白编码基因、 7个tRNA基因以及4个 rRNA基因。 LSC区蛋白编码基因 61个、tRNA基因22个。 SSC区只有蛋白编码 基因12个和tRNA基因 1个。
丹参的叶绿体基因组共有18个基因含有内含子,其 中3个基因QclpP、rpsl2、yq/3)含有2个内含子(表 3-5)。值得注意的是A77W2是一个反式剪接基因,它 的5’端位于LSC区,3’端在两个IR区各有一个拷贝。 内含子最长,达2,522bp,包含基因
主要应用的测序平台
Roche 454 GS FLX Titanium 高通量测序仪 (美国Roche公司)
AB SOLiD 3 Plus高通量测序仪(美国ABI公 司)
IIIumina Hiseq2000高通量测序仪(IIIumina 公司)
主要软件
注释: DOGMA tRNA鉴定: DOGMA and tRNAscanSE 基因命名参考: ChloroplastDB 基因图谱构建: OGDRAW 密码子和GC含量分析: MEGA5 SNPs分析: BioScope
IR区收缩与扩张
IRb/SSC边界均延伸进入ycf1基因产生ycf1假基因 丹参及拟南芥的ycf1假基因和ndhF基因有重叠
IRa/SSC边界位于基因编码区 不同长度rps19假基因位于IRa/LSC
trnH基因均位于LSC区,距离IRa/SSC边界3到15bp
叶绿体蛋白编码基因变异分析
序列变异较大的 10 个基因是 ycf15、ycf1、 rpl32、matK、 clpP、ndhF、ccsA、rpsl5和accD。平均遗传距离最大的基因 是值为0.41 ;其次是值为0.28。基因位于LSC/IR边界区,其进 化速度较快。 序列变异较小的 10 个基因是 ndhB、rpl2、psbL、petG、rps7、 rpl23、psbN、psbF、psbZ和psbA。其中三个位于IR区rpl和 rps基因的平均遗传距离小于其他位于LSC或SSC区的rpl或rps 基因。
The Complete Chloroplast Genome Sequence of the
Medicinal Plant Salvia miltiorrhiza
研究内容
丹参的叶绿体基因组全长151,328bp, 编码114个,包含80个 蛋白编码、30个tRNA和4个rRNA基因。共检测到4对正向、3 对反向和7条串联重复序列。 比较基因组研究表明丹参与其他三个唇形目物种的叶绿体基 因组之间整体相似性较好,但基因间区的变异较大。 基于71个叶绿体蛋白编码基因的系统进化研究表明丹参在现 有叶绿体基因组公布的菊分支物种中与芝麻关系最近。
结果分析
基因组结构:丹参的叶绿体基因组序列长151,328bp,
呈典型的四段式结构,其中LSC区长82,695bp,SSC区长 17,555bp,两个IR区长25,539bp,GC含量38.0%,与已经报 道的菊分支其他物种GC含量相似。IR区的GC含量(43.1%) 明显高于LSC区(36.2%)和SSC区(32.0%),这主要由IR区 包含的四个高GC含量的rRNA(55.2%)基因所致。
比较基因组分析
选取唇形目中牛耳草、油橄榄 、芝麻三个物种与丹参叶绿体基 因组进行比较。丹参的叶绿体基因组长度最小,比牛耳草、油 橄榄和芝麻分别小了约2.2、4.6和2.0kb。 结果发现四条叶绿体基因组的IR区序列变异小于LSC和SSC区。 此外非编码区的序列变异总体高于编码区,基因间区的变异最大, 例如ndhD-ccsA、ndhI-ndhG、psbl-trnS、 trnH-pshA等。 4个rRNA基因序列最为保守,面rpl22、ycfl、ndhF、ccsA、 rps15和matK基因的编码区序列变异最大。
SSR分析
检测丹参叶绿体基因组中长度不小于8bp的SSR,并与菊分支其 他29个物种进行比较。 30个叶绿体基因组中,SSR的总数在145 到217之间,在丹参叶绿 体中共发现了166个SSR位点。且占主导地位的SSR种类多为单 碱基重复。 大多数的叶绿体基因组编码区序列占总长的一半左右,但编码 区所含的SSR比例却只占总数的23%-41%。所以非编码区的SSR 要比编码区丰富且SSR在整个基因组尺度上分布是不均一的。
基因组序列比对: MUMmer 正反向重复序列分析: REPuter 串联重复序列分析: Tandem Repeats Finder (TRF) v4.04 简单重复序列分析: MISA 蛋白编码基因序列比对: Kimura’s twoparameter (K2P) model 进化树构建: PAUP4.0b10
系统进化分析
基于71个共有蛋白编码基因的菊分支MP系统进化树
结论
丹参的叶绿体基因组同大多数已公布的被子植物叶绿体基因 组一样,由一对IR区分隔LSC和SSC区,呈典型的四段式结 构。含有4对正向、3对反向和7条串联重复序列,其中大部分 均位于基因间区和内含子序列,但也有一些位于tRNA和蛋 白编码区。 本研究基于71个叶绿体蛋白编码基因的系统进化分析表明丹 参在现有叶绿体基因组公布的菊分支物种中与芝麻关系最近。
叶绿体基因组的密码子使用情况后发现共有 2,806(10.6%)个密码子编码亮氨酸,是编码率最髙的 氨基酸;而只有292(1.1%)个密码子编码半腕氨酸,是 编码率最低的氨基酸。
重wk.baidu.com序列分析
4对同向重复序列、3对反向重复序列及7条串联重复序列。重复 序列的长度30-41bp之间。最长的两条串联重复序列位于ycf2基 因的蛋白编码区。 3对重复序列与tRNA基因有重叠,4条串联重复 序列分布于LSC的基因间隔区。