密码子偏好性分析 2
葫芦巴叶绿体基因组密码子偏好性分析
![葫芦巴叶绿体基因组密码子偏好性分析](https://img.taocdn.com/s3/m/82e011bdb9f67c1cfad6195f312b3169a451ea31.png)
第32卷 第2期V o l .32 No .2草 地 学 报A C T A A G R E S T I A S I N I C A2024年 2月F e b . 2024d o i :10.11733/j.i s s n .1007-0435.2024.02.007引用格式:杜明川,王伟,鲍海娟,等.葫芦巴叶绿体基因组密码子偏好性分析[J ].草地学报,2024,32(2):409-418D U M i n g -c h u a n ,WA N G W e i ,B A O H a i -j u a n ,e t a l .A n a l y s i so fC o d o nB i a s i nC h l o r o p l a s tG e n o m eo f T r i go n e l l a F o e n u m -gr a e c u m [J ].A c t aA g r e s t i aS i n i c a ,2024,32(2):409-418葫芦巴叶绿体基因组密码子偏好性分析杜明川1,王 伟2,鲍海娟1,格 措1,张 蕊1,王久利1,刘 晶*(1.青海民族大学生态环境与资源学院,青海省特色经济植物高值化利用重点实验室,青海民族大学药用植物资源学凯瑞研究生工作站,青海西宁810000;2.青海大学,青海西宁810000)摘要:为探究葫芦巴(T r i g o n e l l a f o e n u m -g r a e c u m L .)叶绿体基因组密码子的使用偏好性,利用C o d o n W 1.4.2和在线软件C U S P 对筛选到的50条蛋白质编码序列密码子进行分析㊂结果表明:葫芦巴叶绿体基因组密码子末位碱基以A /U 为主,G C 含量仅为26.25%㊂E N C 取值范围为35.05~53.66,且E N C 值>45的有20个,说明葫芦巴大部分基因编码序列的密码子偏性较强㊂R S C Uȡ1的密码子有30个,其中16个以U 结尾㊁13个以A 结尾㊂中性绘图分析㊁E N C -p l o t 分析及P R 2-p l o t 偏倚分析结果发现,葫芦巴叶绿体基因组密码子使用偏好性受到突变压力等多种因素的影响,主要因素为自然选择㊂最终筛选出G C U ,A G A ,C G U 等21个密码子为最优密码子㊂关键词:葫芦巴;叶绿体基因组;密码子偏好性;选择;最优密码子中图分类号S 681.9 文献标识码:A 文章编号:1007-0435(2024)02-0409-10A n a l y s i s o fC o d o nB i a s i nC h l o r o pl a s tG e n o m e o f T r i g o n e l l aF o e n u m -g r a e c u m D U M i n g -c h u a n 1,WA N G W e i 2,B A O H a i -j u a n 1,G EC u o 1,Z H A N G R u i 1,WA N GJ i u -l i 1,L I UJ i n g1*(1.C o l l e g e o fE c o l o g i c a l E n v i r o n m e n t a n dR e s o u r c e s ,Q i n g h a iM i n z uU n i v e r s i t y ,Q i n g h a i P r o v i n c i a lK e y L a b o r a t o r y o fH i gh v a l u e U t i l i z a t i o no fC h a r a c t e r i s t i cE c o n o m i cP l a n t s ,K a i r u iG r a d u a t eW o r k s t a t i o no fM e d i c i n a l P l a n tR e s o u r c e s o fQ i n g h a iM i n z u U n i v e r s i t y ,X i n i n g ,Q i n g h a i P r o v i n c e 810000,C h i n a ;2Q i n g h a iU n i v e r s i t y ,X i n i n g ,Q i n gh a i P r o v i n c e 810000,C h i n a )A b s t r a c t :I no r d e r t oe x p l o r e t h e c o d o nu s a g eb i a so f c h l o r o p l a s t g e n o m e i n T r i g o n e l l a f o e n u m -gr a e c u m ,C o d o n W1.4.2a n d o n l i n e s o f t w a r eC U S Pw e r e u s e d t o a n a l y z e t h e c o d o n s o f 50p r o t e i n c o d i n g s e q u e n c e s .T h e r e s u l t s s h o w e d t h a t t h eb a s e a t t h e e n do f t h e c h l o r o p l a s t g e n o m e c o d o no f T r i g o n e l l a f o e n u m -gr a e -c u m w a sm a i n l y A /U ,a n d t h eG Cc o n t e n tw a s o n l y 26.25%.T h eE N Cv a l u e r a n ge df r o m35.05t o 53.66,a n d t h e r ew e r e 20E N Cv a l u e s >45,i n d i c a t i ng th a t t h e c o d o nbi a s o fm o s t g e n e c o d i n g s e q u e n c e s o f T r i g o -n e l l a f o e n u m -gr a e c u m w a s s t r o n g .T h e r ew e r e 30c o d o n sw i t hR S C Uȡ1,o fw h i c h16e n dw i t hUa n d13e n dw i t hA.T h e r e s u l t s o f n e u t r a lm a p p i n g a n a l y s i s ,E N C -p l o t a n a l y s i s a n dP R 2-p l o t b i a s a n a l ys i s s h o w e d t h a t t h e c o d o nu s a g eb i a s o f t h e c h l o r o p l a s t g e n o m e o f T r i g o n e l l a f o e n u m -gr a e c u m w a s a f f e c t e db y m a n y f a c t o r s s u c ha sm u t a t i o n p r e s s u r e ,a n dt h em a i nf a c t o rw a sn a t u r a l s e l e c t i o n .F i n a l l y,21c o d o n ss u c ha s G C U ,A G A ,C G U w e r e s e l e c t e d a s t h e o pt i m a l c o d o n s .K e y w o r d s :F e n u g r e e k ;C h l o r o p l a s t g e n o m e ;C o d o nb i a s ;S e l e c t i o n ;O p t i m a l c o d o n s 收稿日期:2023-08-14;修回时间:2023-12-08基金项目:国家重点研发计划课题(2022Y F D 1602304)资助作者简介:杜明川(1996-),女,穿青人,贵州六盘水人,硕士研究生,主要从事药用植物种质资源开发与利用研究,E -m a i l :1321575830@q q .c o m ;*通信作者A u t h o r f o r c o r r e s p o n d e n c e ,E -m a i l :654138133@q q.c o m 葫芦巴(T r i g o n e l l a f o e n u m -gr a e c u m L .)为豆科葫芦巴属一年生草本植物,又名芸香草㊁香草㊁香苜蓿㊁芦巴子等,被称为希腊干草,是豆科最古老的药用植物之一㊂葫芦巴原产于西亚㊁南欧和地中海地区,汉朝时作为香料传入中国,目前在我国大部分地区均有不同程度的分布[1]㊂葫芦巴全株可入药,含氨基酸㊁黄酮类㊁生物碱类㊁甾体皂苷类等化学成分,具有抗菌㊁抗炎㊁抗氧化㊁降血糖㊁降血脂等功效[2]㊂此外,葫芦巴具有较高的饲用价值㊂前人研究发现,饲粮中添加0.10%葫芦巴提取物对断奶仔猪有诱食效果,能改善机体抗氧化功能㊁降低血糖水平和保护肾脏[3]㊂B e gu m 等[4]研究表明,饲料中添草地学报第32卷加葫芦巴籽提取物提高了断奶仔猪的生产性能,降低了粪便中的有毒气体排放㊂饲喂葫芦巴日粮改善了牛奶中功能性脂肪酸的分布,降低了胆固醇浓度,增加了功能性脂肪酸[5]㊂在热应激山羊的饲料中添加葫芦巴籽,可以提高山羊的产奶量,改善其抗氧化能力及血液学和生理指标[6]㊂黄羽肉鸡饲料中添加葫芦巴提取物,能够改善鸡肉风味,提升肉品质,增强抗应激能力[7]㊂叶绿体是植物重要的细胞器,为植物生命活动提供能量,同时拥有相对独立的遗传体系,可进行半保留复制[8-9]㊂上世纪60年代初,首先在烟草(N i c-o t i a n a t a b a c u m)和地钱(M a r c h a n t i a p o l y-m o r p h a)中获得叶绿体全基因组序列,目前已有超过1000种物种的叶绿体基因组全序列被公布[10-11]㊂相对于核基因组,叶绿体基因组具有大小适中㊁结构相对保守㊁简单重复序列(S i m p l e s e q u e n c e r e p e a t,S S R)位点丰富㊁碱基变异速率适中㊁易于提取纯化等优势,被广泛应用于植物起源㊁物种鉴定㊁系统发育进化等研究[12-14]㊂K i m等[15]研究发现,r p oB-r p oA(2)和y c f2-t r nL-C A A序列可作为越桔属(V a c c i n i u m)的D N A条形码㊂Z h a o等[16]利用叶绿体基因组对蝙蝠草(C h r i s t i a v e s p e r t i l i o n i s)进行比较和系统发育分析㊂H u a n g等[17]研究了须弥葛(H a y m o n d i a w a l l i c h i i)叶绿体全基因组及其在豆科中的系统发育关系,表明了须弥葛与粉葛(P u e r a r i a t h o m s o n i i)和野葛(P u e r a r i a l o b a t a(W i l l d.)O h w i)的亲缘关系较近㊂密码子是生命信息的基本遗传单位,在遗传信息表达的过程中,起到了纽带的作用[18]㊂自然界共存在64种密码子,除三种终止密码子外,即U A G, U A A和U G A,其余61种密码子编码20种氨基酸,除蛋氨酸(M e t)和色氨酸(T r p)外,其余氨基酸均对应2个及以上的同义密码子(S y n o n y m o u s c o d o n),即编码同一氨基酸的不同密码子[19]㊂在蛋白质的编码过程中,同义密码子的使用存在偏好性,称为密码子的使用偏好性[20]㊂同义密码子使用偏好性受到多种因素的影响,如自然选择㊁选择-突变-遗传漂变模型㊁基因的碱基组成㊁t R N A的丰度等因素[21-22]㊂研究某物种的密码子使用偏好性,设计外源基因表达载体时根据最优密码子进行优化,可以提高外源基因在叶绿体基因组中的表达量[23]㊂周宗梁等[24]根据水稻密码子使用偏好性对c r y1A h1基因进行优化,提高了C r y1A h蛋白平均表达量㊂韩岚等[25]根据植物密码子使用偏好性设计并人工合成了纳豆激酶基因s NK i,并在不同成熟时期的番茄果实中实现了瞬时表达㊂目前,已在蒜头果(M a l a n i a o l e i f e r a)[26]㊁安龙油果樟(S y n d i c l i s a n l u n g e n s i s)[21]㊁降香黄檀(D a l-b e r g i a o d o r i f e r a)[22]㊁白羊草(B o t h r i o c h l o a i s c h a e-m u m)[27]㊁厚壳红瘤果茶(C a m e l l i a r u b i t u b e r c u l a-t a)[28]等植物中开展了叶绿体基因组密码子偏好性的研究㊂但是在葫芦巴中的研究尚未见报道㊂本研究采用中性绘图㊁E N C-p l o t绘图及P R2-p l o t绘图等方法,分析了叶绿体葫芦巴基因组蛋白质编码区(C o d i n g D N As e q u e n c e,C D S)序列的碱基组成,以确定葫芦巴密码子使用偏好的主要影响因素,并确定了葫芦巴叶绿体基因组的最优密码子,旨为葫芦巴遗传改良和育种等研究提供科学的参考依据㊂1材料与方法1.1试验材料在N C B I数据库中下载葫芦巴叶绿体基因组序列(G e n b a n k登录号为:MN736956.1;h t t p s:// w w w.n c b i.n l m.n i h.g o v/n u c c o r e/MN736956.1),共获得到76条C D S序列㊂剔除重复基因㊁长度小于300b p㊁非A T G作为起始密码子㊁C D S内部存在终止密码子及终止密码子异常的序列后,获得50条蛋白编码区序列作为研究对象用于后续分析㊂1.2试验方法1.2.1密码子组成分析将筛选得到的50条C D S序列作为研究对象,使用C o d o n W1.4.2对葫芦巴叶绿体基因组的50条编码序列进行分析,获得各C D S序列的同义密码子相对使用度(R e l a t i v e s y n o n y m o u s c o d o nu s a g e,R S C U)和有效密码子数(E f f e c t i v en u m b e r o f c o d o n s,E N C),利用在线软件C U S P(h t t p://e m b o s s.t o u l o u s e.i n r a.f r/c g i-b i n/ e m b o s s/c u s p)分析密码子三个位置的G C含量(G C1,G C2,G C3)及G C平均含量(G C a l l),并运用S P S S和E X C E L软件对结果进行分析㊂E N C常被用来评估同义密码子使用偏好性程度,其取值范围在20~61之间,E N C值45为分界点,值越小偏倚性越强,值越大偏倚性越弱[22]㊂R S C U为某个密码子实际使用频率与理论频率的比值;R S C U =1,表明该密码子没有使用偏好性;R S C U>1,表明该密码子的使用频率高于预期,反之则表明该密码子出现的频率低于其他同义密码子[29]㊂014第2期杜明川等:葫芦巴叶绿体基因组密码子偏好性分析1.2.2中性绘图分析中性绘图被用来分析密码子使用偏好性的影响因素[30]㊂纵坐标为G C12含量(G C1与G C2平均值),G C3含量为横坐标,图中每一个散点代表一个基因㊂若回归系数接近于1,且图中所有散点均沿对角线分布,说明密码子的碱基组成相似,表示密码子偏好性主要受突变压力的影响㊂反之则表示其偏好性受选择压力的影响较大㊂结合S P S S对密码子碱基组成进行相关性分析,进一步判断影响葫芦巴叶绿体基因组密码子偏好性的主要因素,当G C12与G C3无相关性时,说明密码子前两位在碱基组成上与第三位存在较大差异,选择压力为偏好性的主要影响因素;反之,则说明突变压力对密码子使用偏性的影响较大[26]㊂1.2.3 E N C-p l o t绘图分析 E N C-p l o t图包括标准曲线及散点图㊂散点图分别以E N C和G C3为纵㊁横坐标;标准曲线的公式为E N C=2+G C3+ 29/[G C23+(1-G C3)2],其代表无选择压力存在时,基因的核酸序列决定密码子偏好性[17]㊂具体判断标准为图中散点与标准曲线的距离,两者距离较近则主要影响因素为碱基组成,反之主要影响因素为选择压力[31-32]㊂同时,需要结合E N C比值频数分布情况准确区分选择压力和中性突变对密码子偏好性的影响程度,以-0.05~0.05区间为界限[33]㊂1.2.4 P R2-p l o t绘图分析 P R2-p l o t绘图分析用于揭示核苷酸组成的影响因素,图的横㊁纵坐标分别为G3/(G3+C3)和A3/(A3+T3)㊂图的中心点表示A=T,C=G,代表密码子偏好性不受选择压力的影响,其余各点与中心点的矢量距离表示其偏倚方向和程度[34]㊂1.2.5最优密码子的确定将葫芦巴叶绿体基因组筛选后得到的基因序列的E N C值从高到低进行排序,并在最低值和最高值两端各选择10%基因,用于构建高低表达数据库,利用C o d o n W1.4.2计算R S C U值和ΔR S C U(高低表达数据库之间的差值),将满足ΔR S C Uȡ0.08,且R S C U>1的密码子确定为最优密码子[35]㊂2结果与分析2.1密码子的碱基组成对葫芦巴叶绿体基因组编码序列进行碱基组成分析(表1),G C1(密码子第一位碱基G C含量)㊁G C2(密码子第二位碱基G C含量)㊁G C3(密码子第三位碱基G C含量)的分布范围分别在28.57%~57.14%,28.52%~18.56%,28.57%~33.83%之间,G C含量在密码子的3个位置上的分布频率不同,且平均值为G C1(46.31%)>G C2(38.62%)>G C3(26.25%)㊂其中,G C a l l(密码子总G C含量)为37.06%,与G C2相差不大;G C3的平均值最小,选择压力最大,具有明显A/U偏向性㊂密码子数量主要分布在100~2000之间,r p s14数量最少,为101,y c f2数量最多,为2140㊂由表1可知,表示偏倚性强弱的E N C值的范围在33.02~53.66之间,平均值为44.12,有20个基因的E N C值大于45,表明葫芦巴叶绿体基因组密码子偏性较强㊂葫芦巴叶绿体基因组密码子各位置G C含量㊁密码子数(N)㊁E N C值相关性分析(表2)㊂结果表明G C a l l和G C1㊁G C2㊁G C3极显著相关,G C1和G C2呈极显著相关,但G C3与G C1㊁G C2显著性较差,说明葫芦巴密码子前两位的碱基组成相似,且与第3位存在较大差异㊂E N C与G C1相关性显著,与G C2无相关性,与G C3达极显著相关,表明E N C受密码子第1位和第3位碱基组成的影响㊂密码子数(N)与E N C相关系数为0.292,呈显著相关,说明密码子使用偏好性在一定程度上受基因编码序列长度影响㊂对葫芦巴叶绿体基因组整体的同义密码子相对使用度(R S C U)进行分析(图1),结果显示葫芦巴编码序列包含64种密码子㊂其中,编码I l e的密码子A U U数量最多,为919个,编码T e r的密码子U A G数量最少,仅有6个㊂葫芦巴叶绿体基因组密码子中有30个R S C Uȡ1,其中有29个以A/U结尾,占比97%,具有明显的A/U偏向性㊂2.2中性绘图分析中性图分析是用来解释自然选择和突变压力对密码子偏好性的影响程度㊂当回归系数接近1时,突变压力为主要影响因素,当回归系数接近0时,选择压力起到主要作用[36-37]㊂由图2可知,G C12与G C3回归系数为0.358,相关系数为0.1761,说明G C12和G C3之间的相关性很弱,表明葫芦巴叶绿体基因组密码子的前两位碱基与第3位在进化方式㊁碱基组成等方面存在差异,基因组中的G C含量高度保守,第3位的G C含量较低㊂葫芦巴叶绿体编码序列的基因,全部位于对角线上方,且大部分基因与对角线距离较远,仅有2个基因离对角线较近,涉及保守假设性叶绿体O R F和包膜膜蛋白两种功能㊂表明葫芦巴叶绿体基因组密码子偏好性以受自然选择的影响为主㊂114草 地 学 报第32卷表1 葫芦巴叶绿体基因组密码子的G C 组成特征T a b l e 1 G Cc o m p o s i t i o no f T r i g o n e l l a f o e n u m -gr a e c u m c h l o r o p l a s t g e n o m e c o d o n 基因功能G e n e f u n c t i o n基因G e n eC N G C 1/%G C 2/%G C 3/%G C a l l /%G C 12/%E N C 乙酰辅酶A 羧化酶A c e t y l -C o Ac a r b o x yl a s e a c c D53043.0232.0830.0035.0337.5543.83A T P 合成酶亚基S u b u n i t s o fA T Ps y n t h a s e a t pA 51154.6039.9224.2739.6047.2645.47a t pB 49655.8541.3326.0141.0648.5945.20a t p E 13448.5138.0626.8737.8143.2949.13a t p F 18544.3231.8930.8135.6838.1149.07a t pI 24847.5835.0825.4036.0241.3341.17细胞色素c 基因c -t y p e c y t o c h r o m e s yn t h e s i s g e n e c c s A32433.6435.8025.6231.6934.7243.21包膜膜蛋白E n v e l o pem e m b r a n e p r o t e i n c e m A 23034.7828.7029.1330.8731.7442.82蛋白酶P r o t e a s ec l p P 19657.1436.7329.0840.9946.9444.41成熟酶M a t u r a s e m a t K50736.8829.7824.2630.3133.3346.88N A D H 脱氢酶亚基S u b u n i t s o fN A D Hd e h y d r o ge n a s e n d h A 36440.3837.6420.8832.9739.0139.11n d h B 49341.3838.9528.4036.2440.1745.20n d h C 12143.8031.4024.7933.3337.6038.99n d h E 10241.1833.3327.4533.9937.2643.04n d h F 74536.3834.6320.4030.4735.5139.48n d h G 17742.3733.3323.7333.1537.8544.63n d h H 39451.5235.0322.3436.2943.2846.18n d h I 16741.9234.1318.5631.5438.0342.29n d h J 15949.6936.4825.7937.3243.0937.92n d h K 22542.6744.0024.8937.1943.3448.34细胞色素b /f 复合体亚基S u b u n i t s o f c y t o c h r o m eb /f c o m pl e x p e t A 32152.3435.8325.5537.9044.0947.17p e t B 21647.2241.6731.9440.2844.4543.15pe t D 16151.5538.5126.0938.7245.0342.02光合系统I 亚基S u b u n i t s of p h o t o s y s t e mI p s a A 75952.4442.8228.7241.3347.6346.56p s a B 73548.5742.8628.8440.0945.7246.64光合系统I I 亚基S u b u n i t s o f p h o t o s ys t e mI I p s b A 35449.7242.9432.4941.7146.3341.16p s b B 50955.6045.5826.9242.7050.5942.15ps b C 47453.1646.2028.6942.6949.6842.18p s b D 35452.2643.2232.2042.5647.7444.61R u B i s C O 酶大亚基L a r ge s u b u n i t of r u b i s c o r b c L47656.5143.2826.2642.0249.9043.92核糖体大亚基蛋白P r o t e i n s o f l a r ge r i b o s o m a l s u b u n i t r p l 1412347.1539.0219.5135.2343.0943.53r p l 1613652.2150.0026.4742.8951.1142.56r p l 227552.7347.6429.0943.1550.1953.66r p l 2012133.0637.1927.2732.5135.1342.62R N A 聚合酶亚基S u b u n i t s o fR N A p o l ym e r a s e r p o A 33443.4129.6422.4631.8436.5341.41r p o B 107149.3037.6326.4237.7843.4745.48r po C 168548.4737.5222.7736.2543.0043.81r p o C 2137743.2834.7924.6934.2539.0445.29核糖体小亚基蛋白P r o t e i n s o f s m a l l r i b o s o m a l s u b u n i tr p s 1113951.8053.2424.4643.1752.5244.11r p s 1212452.4248.3926.6142.4750.4145.44r p s 1410145.5447.5228.7140.5946.5342.59r p s 1812628.5734.9222.2228.5731.7535.02r p s 223743.4642.6224.4736.8543.0444.23r p s 321944.7534.2521.4633.4939.5043.24r p s 420250.9937.1321.7836.6344.0644.16r ps 715650.6446.1526.2841.0348.4046.25保守假设性叶绿体开放阅读框y c f 1176037.2228.5226.3130.6832.8746.02C o n s e r v e dh y p o t h e t i c a l c h l o r o pl a s tO R F y c f 2214040.9833.8333.8336.2137.4150.03y c f 316946.7538.4629.5938.2642.6145.05y c f420245.5441.5831.6839.6043.5645.51平均值A v e r a g e 407.2846.3138.6226.2537.0642.4644.12214第2期杜明川等:葫芦巴叶绿体基因组密码子偏好性分析表2 葫芦巴叶绿体基因组密码子中各参数的相关性分析T a b l e 2 C o r r e l a t i o na n a l y s i s o f p a r a m e t e r s i n T r i g o n e l l a f o e n u m -gr a e c u m c h l o r o p l a s t g e n o m e c o d o n 变量V a r i a t i o nG C 1G C 2G C 3G C a l l E N CG C 20.581**G C 30.1830.220G C a l l0.864**0.845**0.484**E N C0.279*0.1550.362**0.326*密码子数C o d o nn u m b e r (N )-0.119-0.2490.1830.292*0.292*注:**表示极显著相关(P <0.01);*表示显著相关(P <0.05)N o t e :**m e a n s a s i g n i f i c a n t c o r r e l a t i o n (P <0.01);*m e a n s a s i gn i f i c a n t c o r r e l a t i o n (P <0.05)图1 葫芦巴叶绿体基因组中各氨基酸的R S C U 分析F i g .1 R S C Ua n a l y s i s o f a m i n o a c i d s i n T r i g o n e l l a f o e n u m -gr a e c u m c h l o r o p l a s t g e n o me 图2 葫芦巴叶绿体基因组中性绘图分析F i g .2 N e u t r a l i t yp l o t a n a l y s i s o n c h l o r o p l a s t g e n o m e i n T r i g o n e l l a f o e n u m -gr a e c u m 2.3 E N C -pl o t 绘图分析E N C -p l o t 绘图分析(图3)表明G C 3值分布较为集中,仅有2个N A D H 脱氢酶亚基基因位于标准曲线上,涉及A T P 合成酶亚基㊁细胞色素c 基因㊁核糖体大亚基蛋白三种功能中的3个基因与标准曲线距离较近,大部分基因落在曲线下方较远的位置上㊂说明葫芦巴密码子偏好性的主要影响因素为选择压力㊂为进一步检验基因与标准曲线的距离,统计了314草 地 学 报第32卷葫芦巴叶绿体基因E N C 比值频数分布情况(表3),仅有9个基因分布在-0.05~0.05区间内;其余41个基因均分布在-0.05~0.05区间之外,占基因总数的82%,这部分基因距离标准曲线较远㊂进一步表明选择压力为葫芦巴密码子使用偏好性的主要影响因素,而突变压力的影响较弱㊂图3 葫芦巴叶绿体基因组E N C -pl o t 绘图分析F i g .3 E N C -p l o t a n a l y s i s o n c h l o r o p l a s t g e n o m e i n T r i g o n e l l a f o e n u m -gr a e c u m 表3 葫芦巴叶绿体基因E N C 比值频数分布T a b l e 3 E N Cr a t i oo f c h l o r o pl a s t g e n o m e i n T r i g o n e l l a f o e n u m -gr a e c u m 组段C l a s s r a n ge 组中值C l a s sm i dv a l u e 频数F r e q u e n c y n u m b e r 频率F r e q u e n c y-0.05~0.050.090.180.05~0.150.1270.540.15~0.250.2140.28合计T o t a l 501.002.4 P R 2-pl o t 绘图分析葫芦巴叶绿体基因组密码子偏倚分析如图4所示㊂P R 2平面图中4个区域的散点并非均匀分布,表明突变不是唯一影响因素㊂图中涉及R N A 聚合酶亚基和N A D H 脱氢酶亚基两种功能中的2个基因距离P R 2平面图的中心部位最近,表明其偏向程度较小,主要受到突变的影响㊂R u B i s C O 酶大亚基全部基因均落于P R 2平面图的右下方(即G 3>C 3,T 3>A 3)㊂而大部分基因,包括:乙酰辅酶A 羧化酶㊁光合系统I 亚基㊁细胞色素c 基因㊁包膜膜蛋白㊁成熟酶全部基因以及保守假设性叶绿体O R F ㊁核糖体小亚基蛋白㊁A T P 合成酶亚基㊁细胞色素b /f 复合体亚基㊁N A D H 脱氢酶亚基㊁光合系统I I 亚基㊁R N A 聚合酶亚基的部分基因均落于P R 2平面图的右下方,说明在碱基的使用频率方面G 3>C 3㊁T 3>A 3,且4个碱基的使用频率存在差异㊂综上,葫芦巴叶绿体基因组密码子偏好性除了受到选择压力的影响,同时还会受到突变压力的影响㊂2.5 最优密码子的确定运用C o d o n W1.4.2软件,构建葫芦巴叶绿体基因组的高低表达基因库,并计算两个基因库的R S C U 值,结果表明(表4),有G C U ,A G A 等21个密码子ΔR S C Uȡ0.08,且均为高表达优越密码子(表4中用*表示),其中8个以A 结尾,13个以U结尾㊂将R S C U 值ȡ1的密码子作为高频密码子,共32个㊂将同时满足R S C Uȡ1和ΔR S C Uȡ0.08的密码子作为最优密码子,最终确定了葫芦巴叶绿体基因组的21个最优密码子(G C U ,A G A ,C G U ,A A U ,G A U ,U G U ,C A A ,G A A ,G G U ,C A U ,A U A ,U U A ,A A A ,U U U ,C C U ,A G U ,U C U ,A C A ,A C U ,G U A ,G U U ),其中8个以A 结尾,13个以U 结尾㊂表明葫芦巴叶绿体基因组偏好使用A /U 结尾的密码子,这与G C 3和RS C U 分析结果一致㊂因此,在利用葫芦巴叶绿体基因工程设计外源基因载体时,选用以A /U 结尾的密码子可以提高外源基因的表达转化效率㊂414第2期杜明川等:葫芦巴叶绿体基因组密码子偏好性分析图4 葫芦巴叶绿体基因组P R 2-pl o t 分析F i g .4 P R 2-p l o t a n a l y s i s o n c h l o r o p l a s t g e n o m e i n T r i g o n e l l a f o e n u m -gr a e c u m 表4 葫芦巴叶绿体基因组最优密码子的确定T a b l e 4 D e t e r m i n a t i o no f o p t i m a l c o d o n s i n c h l o r o p l a s t g e n o m e o f T r i g o n e l l a f o e n u m -gr a e c u m 氨基酸A m i n o a c i d密码子C o d o n高表达基因H i g he x pr e s s i o n g e n e 低表达基因L o we x pr e s s i o n g e n e 数目N u m b e rR S C U 数目N u m b e rR S C U ΔR S C U A l aG C A 211.08291.16-0.08G C C70.36170.68-0.32G C G 70.36160.64-0.28G C U ***432.21381.520.69A r gA G A*182.00601.860.14A G G 60.67411.27-0.60C G A 101.11401.24-0.13C G C20.22110.34-0.12C G G 30.33190.59-0.26C G U***151.67230.710.96A s n A A C80.27430.46-0.19A A U *511.731451.540.19A s p G A C30.12290.32-0.20G A U*471.881501.680.20C y s U G C30.50120.73-0.23U G U*91.50211.270.23G l n C A A ***431.91771.390.52C A G20.09340.61-0.52G l u G A A *411.461201.330.13G A G 150.54600.67-0.13G l yG G A 401.70681.74-0.04G G C100.43170.44-0.01G G G 140.60300.77-0.17G G U*301.28411.050.23H i s C A C 10.10110.38-0.28C A U *201.90471.620.28I l eA U A *631.13771.000.13A U C260.47460.60-0.13A U U781.401071.400.00L y s A A A **611.741471.380.36514草地学报第32卷续表4氨基酸A m i n o a c i d密码子C o d o n高表达基因H i g he x p r e s s i o n g e n e低表达基因L o we x p r e s s i o n g e n e数目N u m b e r R S C U数目N u m b e r R S C UΔR S C UA A G90.26660.62-0.36L e u C U A260.81480.95-0.14C U C50.16240.47-0.31C U G40.12180.36-0.24C U U371.15591.16-0.01U U A***862.67831.641.03U U G351.09721.42-0.33 M e t A U G341.00461.000.00 P h e U U C240.39660.85-0.46 U U U**981.61891.150.46 P r o C C A161.14301.090.05C C C70.50200.73-0.23C C G50.36200.73-0.37C C U***282.00401.450.55S e r A G C40.1770.140.03A G U*321.32531.090.23U C A261.08681.40-0.32U C C130.54631.29-0.75U C G120.50260.53-0.03U C U***582.40751.540.86 T h r A C A*241.48501.400.08A C C40.25220.62-0.37A C G60.37170.48-0.11A C U**311.91541.510.40T r p U G G311.00331.000.00 T y r U A C120.32180.36-0.04 U A U621.68821.640.04 V a l G U A*301.43391.210.22G U C80.38180.56-0.18G U G60.29300.93-0.64G U U***401.90421.300.60注:*表示ΔR S C Uȡ0.08,**表示ΔR S C Uȡ0.30,***表示ΔR S C Uȡ0.50N o t e:*m e a n sΔR S C Uȡ0.08;**m e a n sΔR S C Uȡ0.30;***m e a n sΔR S C Uȡ0.503讨论3.1葫芦巴叶绿体基因密码子的特征密码子偏好性是指同义密码子的使用频率不同,这种现象普遍存在于植物体中,引起这种现象的原因有很多,其中碱基组成是最常见的因素[38]㊂中性进化理论认为碱基的第1位和第2位发生变化会引起编码氨基酸的改变,而第3位发生变化则不会使所编码的氨基酸发生改变,同时选择压力对密码子第3位碱基的影响较小,所以G C3可作为密码子偏好性分析的重要依据[39]㊂本研究中葫芦巴叶绿体基因组密码子的平均G C含量为37.06%,表明葫芦巴叶绿体更倾向于使用A/U密码子,这与高守舆等[27]对白羊草叶绿体基因组的研究结果一致㊂葫芦巴叶绿体基因组密码子第3位碱基G C含量较低,这一特征与紫花苜蓿(M e d i c a g o s a t i v a L.)[40]㊁秋茄(K a n d e l i ao b o v a t a S h e u e)[20]㊁厚壳红瘤果茶[28]等相同,符合 高等植物密码子倾向于使用A/ U结尾 的假设[41]㊂3.2葫芦巴叶绿体基因密码子偏好性的主要影响因素本研究中P R2-p l o t绘图分析结果表明突变压力不是影响葫芦巴叶绿体基因组密码子偏好性的唯一因素;中性绘图㊁E N C-p l o t分析表明在葫芦巴在进化过程中,葫芦巴密码子偏好性主要受自然选择的影响,受突变的影响较小,这主要是因为叶绿体是葫芦巴进行光合作用最重要细胞器,它可以将太阳能转化为化学能来维持葫芦巴正常生长所需要的物质[42],因此其基因演化主要会受到自然选择影响㊂这一结论与沙枣(E l a e a g n u s a n g u s t i f o l i a)[43]㊁睡614第2期杜明川等:葫芦巴叶绿体基因组密码子偏好性分析莲(N y m p h a e a t e t r a g o n a)[44]㊁籽粒苋(A m a r a n t h u s h y p o c h o n d r i a c u s)[45]等植物的密码子偏好性一致㊂而杨国锋等[34]对蒺藜苜蓿(M e d i c a g o t r u n c a t u l a)的研究表明其密码子偏好性主要受到突变的影响,在续晨等[46]的研究中,蝴蝶兰(P h a l a e n o p s i s)密码子使用偏好性受自然选择和碱基差异的共同影响㊂由此可以看出,植物密码子使用偏好性受多种因素影响,不同植物其影响因素有所差异㊂3.3葫芦巴叶绿体基因密码子偏好性的模式R S C U分析是一种根据相对密码子偏好性来分析基因表达水平的方法[47]㊂本研究采用高表达优越密码子方法确定葫芦巴叶绿体基因组最优密码子,共选出了21个最优密码子,8个以A结尾,13个以U结尾,由此可见葫芦巴叶绿体基因组中密码子偏好N N A㊁N N U型㊂这与前人在扁蓿豆(M e d i-c a g o r u t h e n i c a)[48]的研究结果一致,说明不同种属的植物,其密码子偏好性存在着一定的相似性㊂4结论自然选择是葫芦巴叶绿体基因组密码子偏好性主要的影响因素,但其他因素在一定程度上对其密码子偏性造成影响㊂同时,本研究确定了葫芦巴叶绿体基因组的21个最优密码子,研究结果为科学制定葫芦巴种质保存和更新策略提供理论依据和实践指导㊂参考文献[1] A L T U N T A SE,ÖZ GÖZE,T A S E RFÖ.S o m e p h y s i c a l p r o p-e r t i e s of f e n ug r e e k(T r i g o n e l l a f o e n u m-g r a c e u m L.)s e e d s[J].J o u r n a l o f F o o dE n g i n e e r i n g,2004,71(1):37-43[2]李建芳,周枫,张阳阳,等.S D E葫芦巴叶挥发性提取物G C-M S分析与抗氧化活性研究[J].食品研究与开发,2020,41(21):154-160[3]夏鑫,余曼荣,黄慧,等.葫芦巴渣及提取物对断奶仔猪生长性能㊁抗氧化功能和血清生化指标的影响[J].动物营养学报, 2020,32(3):1118-1126[4] B E G UM M,H O S S A I N M M,K I MIH.E f f e c t so f f e n u g r e e ks e e de x t r a c t s u p p l e m e n t a t i o no n g r o w t h p e r f o r m a n c e,n u t r i e n td i ge s t i b i l i t y,d i a r r h o e as c o r e s,b l o o d p r of i l e s,f a e c a lm i c r o f l o r aa n d f a e c a l n o x i o u s g a s e m i s s i o n i nw e a n l i n g p i g l e t s[J].J o u r n a lo f a n i m a l p h y s i o l o g y a n da n i m a l n u t r i t i o n,2016,100(6):1121-1129[5] S HA H A M,M I R SP.E f f e c to fd i e t a r y f e n u g r e e ks e e do nd a i r y c o w pe rf o r m a n c ea n d m i l kc h a r a c t e r i s t i c s[J].C a n a d i a nJ o u r n a l o fA n i m a l S c i e n c e,2004,84(4):725-729[6] E l-T A R A B A N Y,A K R AM,T E AMA,e t a l.I m p a c to f d i e t a r yf e n ug r e e k s e e d s o n l a c t a t i o n a l p e r f o r m a n c e a n d b l o o db i o ch e m-i c a la n d h e m a t o l o g i c a l p a r a m e t e r so fd a i r y g o a t su n d e rh o ts u m m e r c o n d i t i o n s[J].M l j e k a r s t v o,2018,68(3):214-223 [7]黄慧,郑柯,王霞,等.葫芦巴提取物对黄羽肉鸡屠宰性能㊁肉品质及抗氧化性能的影响[J].动物营养学报,2022,34(4): 2334-2346[8] WA N G X M,Z H O U T,B A IG Q,e t a l.C o m p l e t e c h l o r o p l a s tg e n o m es e q u e n c eo fF a g o p y r u m d i b o t r y s:G e n o m ef e a t u r e s,c o m p a r a t i v e a n a l y s i s a nd p h y l o ge n e t i c r e l a t i o n s h i p s[J].S c i e n-t i f i cR e p o r t s,2018,8(1):12379[9]邢少辰,L I U CJ.叶绿体基因组研究进展[J].生物化学与生物物理进展,2008(1):21-28[10]S H I N O Z A K IK,O HM E M,T A N A K A M,e t a l.T h e c o m p l e t en u c l e o t i d e s e q u e n c e o f t h e t o b a c c o c h l o r o p l a s t g e n o m e:i t s g e n e o r g a n i z a t i o na n de x p r e s s i o n[J].T h eE M B OJ o u r n a l,1986,5(9):2043-2049[11]O H Y AMA K,F U K U Z AWA H,K O H C H IT,e ta l.C h l o r o-p l a s t g e n e o r g a n i z a t i o nd e d u c e d f r o mc o m p l e t e s e q u e n c eo f l i v-e r w o r tM a r c h a n t i a p o l y m o r p h a c h l o r o p l a s tD N A[J].N a t u r e,1986,322(6079):572-574[12]王雪芹,宋卫武,高晓燕,等.芸香科植物叶绿体基因组结构和系统发育分析[J].分子植物育种,2023,21(5):1510-1520 [13]H E N R Y D,C H O U N-S E A L,M I N G Y,e t a l.C h l o r o p l a s t g e-n o m e s:d i v e r s i t y,e v o l u t i o n,a n da p p l i c a t i o n si n g e n e t i ce n g i-n e e r i n g[J].G e n o m eB i o l o g y,2016,17(1):13059 [14]李绪英,肖炳光,高玉龙,等.烟草叶绿体基因组和线粒体基因组S S R位点分析[J].西北植物学报,2011,31(12):2399-2405[15]K I M Y K,S H I NJ,O H D R,e ta l.C o m p a r a t i v eA n a l y s i so fC o m p l e t eC h l o r o p l a s tG e n o m eS e q u e n c e sa n dI n s e r t i o n-D e l e-t i o n(I n d e l)P o l y m o r p h i s m st o D i s t i n g u i s h F i v e V a c c i n i u m S p e c i e s[J].F o r e s t s,2020,11(9):927[16]Z H A O X L,Z HU Z M.C o m p a r a t i v eG e n o m i c s a n dP h y l o g e-n e t i cA n a l y s e s o fC h r i s t i av e s p e r t i l i o n i s a n dU r a r i o p s i sb r e v i s-s i m a i n t h eT r i b eD e s m o d i e a e(F a b a c e a e:P a p i l i o n o i d e a e)B a s e d o nC o m p l e t eC h l o r o p l a s tG e n o m e s[J].P l a n t s,2020,9(9): 1116[17]HU A N G XJ,X I A C L,Z H A O Y,e ta l.T h e f i r s tc o m p l e t ec h l o r o p l a s t g e n o m eo f H a y m o nd i aw a l l i c h i i(F a b a ce a e)a n di t s p h y l o g e n e t i ca n a l y s i s[J].M i t o c h o n d r i a lD N A.P a r tB-R e-s o u r c e s,2021,6(7):1865-1866[18]李显煌,杨生超,辛雅萱,等.灯盏花叶绿体基因组密码子偏好性分析[J].云南农业大学学报(自然科学),2021,36(3):384-392[19]莫冰棋,李艺,张骏骁,等.宽叶韭与峨眉韭系统发育及叶绿体基因组密码子偏好分析[J/O L].分子植物育种:1-19[2023-10-18][20]赵森,邓力华,陈芬.秋茄叶绿体基因组密码子使用偏好性分析[J].森林与环境学报,2020,40(5):534-541 [21]娄丽,袁丛军,陈锐,等.安龙油果樟叶绿体基因组密码子偏好性分析[J/O L].分子植物育种:1-17[2023-10-18]714草地学报第32卷[22]原晓龙,李云琴,张劲峰,等.降香黄檀叶绿体基因组密码子偏好性分析[J].广西植物,2021,41(4):622-630 [23]梁湘兰,覃逸明,孙晓波,等.藿香叶绿体基因组密码子偏好性分析[J].分子植物育种,2023,21(3):809-818 [24]周宗梁,林智敏,耿丽丽,等.水稻中c r y1A h1基因密码子优化方案的比较[J].生物工程学报,2012,28(10):1184-1194 [25]韩岚,王欢,王佳琪,等.密码子优化的纳豆激酶基因在番茄果实中的瞬时表达[J].内蒙古大学学报(自然科学版),2016,47(1):73-79[26]原晓龙,刘音,康洪梅,等.蒜头果叶绿体基因组密码子偏好性分析[J].西南林业大学学报(自然科学),2021,41(3):15-22 [27]高守舆,李钰莹,杨志青,等.白羊草叶绿体基因组密码子使用偏好性分析[J].草业学报,2023,32(7):85-95 [28]肖旭,赵紫涵,陆江桃,等.厚壳红瘤果茶叶绿体基因组特征及密码子偏好性分析[J].种子,2022,41(12):19-26[29]L I U HB,L U YZ,L A NBL,e t a l.C o d o n u s a g e b y c h l o r o p l a s tg e n e i sb i a s i n H e m i p t e l e ad a v i d i i[J].J o u r n a lo fG e n e t i c s,2020,99(1):32089527[30]李江平,秦政,国春策,等.抽筒竹叶绿体基因组的密码子偏好性分析[J].竹子学报,2019,38(2):79-87[31]S U E O K A N.N e a r h o m o g e n e i t y o f P R2-b i a s f i n g e r p r i n t s i n t h eh u m a n g e n o m e a n d t h e i r i m p l i c a t i o n s i n p h y l o-g e n e t i c a n a l y s e s[J].J o u r n a l o fM o l e c u l a rE v o l u t i o n,2001,53(4-5):469-476 [32]金刚,覃旭,龙凌云,等.剑麻叶绿体基因组编码序列密码子的使用特征[J].福建农林大学学报(自然科学版),2018,47(6): 705-710[33]N I EXJ,D E N GPC,F E N G K W,e t a l.C o m p a r a t i v e a n a l y s i so f c o d o nu s a g e p a t t e r n s i nc h l o r o p l a s t g e n o m e so f t h eA s t e r-a c e a e f a m i l y[J].P l a n t M o l e c u l a rB i o l o g y R e p o r t e r,2014,32(4):828-840[34]杨国锋,苏昆龙,赵怡然,等.蒺藜苜蓿叶绿体密码子偏好性分析[J].草业学报,2015,24(12):171-179[35]胡莎莎,罗洪,吴琦,等.苦荞叶绿体基因组密码子偏爱性分析[J].分子植物育种,2016,14(2):309-317[36]Z H A O YC,Z H E N G H,X U A Y,e t a l.A n a l y s i s o f c o d o nu s-a g eb i a s o f e n v e l o p e g l yc o p r o t e i n g e n e s i nn u c l e a r p o l y h ed r o s i sv i r u s(N P V)a n d i t sr e l a t i o nt oe v o l u t i o n.[J].B M C g e n o m-i c s,2016,17(1):1-10[37]B H A T T A C H A R Y Y A D,U D D I N A,D A SS,e ta l.M u t a t i o np r e s s u r ea n dn a t u r a ls e l e c t i o no nc o d o nu s a g ei nc h l o r o p l a s tg e n e s o f t w os p e c i e s i n P i s u m L.(F a b a c e a e:F a b o i d e a e)[J].M i t o c h o n d r i a lD N A.P a r tA,D N A m a p p i n g,s e q u e n c i n g,a n d a-n a l y s i s,2019,30(4):664-673[38]胡晓艳,许艳秋,韩有志,等.酸枣叶绿体基因组密码子使用偏性分析[J].森林与环境学报,2019,39(6):621-628[39]I N G V A R S S O NPK.G e n e e x p r e s s i o n a n d p r o t e i n l e n g t h i n f l u-e n c e c o d o nu s a g ea n dr a t e so fs e q u e n c ee v o l u t i o ni n P o p u l u s t r e m u l a[J].M o l e c u l a rB i o l o g y a n d E v o l u t i o n,2007,24(3): 836-844[40]孙志轩,敖平星,毕玉芬,等. 德钦 紫花苜蓿叶绿体基因组序列及特征分析[J].草地学报,2022,30(2):320-328[41]C AM P B L L W H,G OWR IG.C o d o nu s a g e i nh i g h e r p l a n t s,g r e e na l g a e,a n dc y a n o b a c t e r i a[J].P l a n t p h y s i o l o g y,1990,92(1):1-11[42]Y I N D M,WA N G Y,Z H A N G X G,e ta l.D e v e l o p m e n to fc h l o r o p l a s t g e n o m er e s o u r c e sf o r p e a n u t(A r a c h i sh y p o g a e aL.)a n do t h e r s p e c i e s o fA r a c h i s[J].S c i e n t i f i cR e p o r t s,2017, 7(1):11649[43]王婧,王天翼,王罗云,等.沙枣叶绿体全基因组序列及其使用密码子偏性分析[J].西北植物学报,2019,39(9):1559-1572 [44]毛立彦,黄秋伟,龙凌云,等.7种睡莲属植物叶绿体基因组密码子偏好性分析[J].西北林学院学报,2022,37(2):98-107 [45]冯瑞云,梅超,王慧杰,等.籽粒苋叶绿体基因组密码子偏好性分析[J].中国草地学报,2019,41(4):8-15[46]续晨,贲爱玲,蔡晓宁.蝴蝶兰叶绿体基因组密码子使用的相关分析[J].分子植物育种,2010,8(5):945-950 [47]唐晓芬,陈莉,马玉韬.密码子使用偏性量化方法研究综述[J].基因组学与应用生物学,2013,32(5):660-666 [48]田春育,武自念,李贤松,等.扁蓿豆叶绿体基因组密码子偏好性分析[J].草地学报,2021,29(12):2678-2684(责任编辑刘婷婷)814。
密码子偏好性
![密码子偏好性](https://img.taocdn.com/s3/m/52bce467af1ffc4ffe47ac94.png)
CAC (7.3)
CGC (14.0)
C
CUA (5.6)
CCA (9.1)
CAA (14.4)
CGA (4.8)
A
CUG (37.4)
CCG (14.5)
CAG (26.7)
CGG (7.9)
G
A
AUU (29.6)
ACU (13.1)
AAU (29.3)
AGU (13.2)
U
AUC (19.4)
ACC (18.9)
AAC (20.3)
AGC (14.3)
C
AUA (13.3)
ACA (15.1)
AAA (37.2)
AGA (7.1)
A
AUG (23.7)
ACG (13.6)
AAG (15.3)
AGG (4.0)
G
G
GUU (21.6)
GCU (18.9)
GAU (33.7)
GGU (23.7)
精氨酸
Arginine
Arg
R
CGU,CGC,CGA,CGG,AGA,AGG
天冬酰胺
Asparagine
Asn
N
AAU,AAC
天冬氨酸
Asparticacid
Asp
D
GAU,GAC
半胱氨酸
Cystine
Cys
C
UGU,UGC
谷氨酸
Glutamicacid
Glu
E
GAA,GAG
谷氨酰胺
Glutarnine
A
UUG (12.9)
UCG (4.4)
UAG (0.8)
UGG (13.2)
山楂属植物叶绿体基因组特征与密码子偏好性分析
![山楂属植物叶绿体基因组特征与密码子偏好性分析](https://img.taocdn.com/s3/m/8930ec57a31614791711cc7931b765ce05087a05.png)
江苏农业学报(JiangsuJ.ofAgr.Sci.)ꎬ2023ꎬ39(2):504 ̄517http://jsnyxb.jaas.ac.cn赵振宁ꎬ孙浩田ꎬ宋雨茹ꎬ等.山楂属植物叶绿体基因组特征与密码子偏好性分析[J].江苏农业学报ꎬ2023ꎬ39(2):504 ̄517.doi:10.3969/j.issn.1000 ̄4440.2023.02.024山楂属植物叶绿体基因组特征与密码子偏好性分析赵振宁1ꎬ㊀孙浩田2ꎬ㊀宋雨茹1ꎬ㊀余㊀潇3(1.西南林业大学林学院ꎬ云南昆明650224ꎻ2.西南林业大学生态与环境学院ꎬ云南昆明650224ꎻ3.湖北工程学院建筑学院ꎬ湖北孝感432000)收稿日期:2022 ̄10 ̄17基金项目:云南省第二次国家重点保护野生植物资源调查项目(09930 ̄216304)ꎻ2021年度云南省大学生创新创业国家级项目(202110677046)作者简介:赵振宁(2003-)ꎬ男ꎬ山东泰安人ꎬ本科ꎬ主要从事植物生物信息学研究ꎮ(E ̄mail)zzn1529370396@163.com通讯作者:余㊀潇ꎬ(E ̄mail)yuxiao19920215@163.com㊀㊀摘要:㊀为明确山楂属植物叶绿体基因组结构与编码蛋白质的基因密码子偏好性特征ꎬ本研究利用第二代高通量测序技术对云南山楂[Crataegusscabrifolia(Franch.)Rehd.]的叶绿体基因组进行测序㊁组装和注释ꎬ并对山楂属11个种植物的叶绿体基因组结构㊁遗传多样性以及密码子偏好性进行了分析ꎮ结果显示ꎬ山楂属植物的叶绿体基因组长度为159607~159875bpꎬG+C含量为36.6%~36 7%ꎬ为标准的四分体结构ꎬG+C含量和结构变异均保守ꎬ边界扩张收缩稳定ꎬ未发现基因组的倒置和重排现象ꎬ11个种植物的简单重复序列和离散重复序列的种类和数量存在一定的差异ꎮ综合中性绘图分析㊁有效密码子数分析(ENC ̄plot)㊁奇偶校验分析(PR2 ̄plot)和对应性(COA)分析的结果ꎬ发现山楂属植物叶绿体基因组密码子使用不但受到碱基突变的影响ꎬ还受到选择压力的深刻影响ꎮ对叶绿体基因组的最优密码子进行筛选ꎬ最优密码子数量为17~20个ꎬ其中C.kansuensis㊁C.oresbia㊁C.pinnatifida的最优密码子数量最多ꎬC.marshallii的最优密码子数量最少ꎬ分析它们的最优密码子数据发现ꎬ山楂属植物的最优密码子大多以A或U作为第三位碱基ꎮ基于CDS(蛋白质编码序列)和叶绿体全基因组构建的系统发育关系既具有一定的相似性ꎬ也存在一些差异ꎮ本研究结果为山楂属植物的系统发育研究和分子标记开发等工作提供了参考依据ꎮ关键词:㊀山楂属ꎻ叶绿体基因组ꎻ密码子偏好性ꎻ系统进化中图分类号:㊀S661.5㊀㊀㊀文献标识码:㊀A㊀㊀㊀文章编号:㊀1000 ̄4440(2023)02 ̄0504 ̄14ChloroplastgenomecharacteristicsandcodonusagebiasanalysisofCra ̄taegusL.ZHAOZhen ̄ning1ꎬ㊀SUNHao ̄tian2ꎬ㊀SONGYu ̄ru1ꎬ㊀YUXiao3(1.CollegeofForestryꎬSouthwestForestryUniversityꎬKunming650224ꎬChinaꎻ2.CollegeofEcologyandEnvironmentꎬSouthwestForestryUniversityꎬKunming650224ꎬChinaꎻ3.SchoolofArchitectureꎬHubeiEngineeringUniversityꎬXiaogan432000ꎬChina)㊀㊀Abstract:㊀InordertoclarifythechloroplastgenomestructureandcodonusagebiasofCrataegusꎬthisstudyusedthenext ̄generationsequencingtosequenceꎬassembleandannotatethechloroplastgenomeofCrataegusscabrifolia(Franch.)Re ̄hd.ꎬandanalyzedthechloroplastgenomestructureꎬgeneticdiversityandcodonpreferenceof11speciesofCrataegus.There ̄sultsshowedthatthelengthofchloroplastgenomewasbetween159607bpand159875bpꎬtheG+CcontentandstructuralvariationwereconservativeꎬtheG+Ccontentwasbetween36 6%and36 7%ꎬtheboundaryexpansionandcontractionwerestableꎬnoinversionandrearrangementofthegenomewerefoundꎬandthereweredifferencesinthetypeandnumberofsimplesequencerepeatsandinter ̄spersedrepeatedsequences.Basedontheresultsofneutral ̄ityplotanalysisꎬENC ̄plotꎬPR2 ̄plotandcorrespondenceanalysisꎬitwasfoundthatthechloroplastgenomecodonus ̄405ageinCrataeguswasnotonlyaffectedbybasemutationꎬbutalsobyselectivepressure.Theoptimalcodonsofthechloroplastgenomewerescreenedꎬandtheoptimalnumberofcodonswasbetween17and20.C.kansuensisꎬC.oresbiaꎬandC.pinnatifi ̄dahadthelargestnumberofoptimalcodonsꎬandC.marshalliihadtheleastnumberofoptimalcodons.TheanalysisoftheiroptimalcodondatarevealedthattheoptimalcodonsofCrataegusmostlyusedAorUasthethirdbase.Thephylogeneticrela ̄tionshipsconstructedbasedonproteincodingsequenceandcompletechloroplastgenomehadcertainsimilaritiesanddiffer ̄ences.TheresultsofthisstudycanprovideareferenceforthephylogeneticresearchandmolecularmarkerdevelopmentofCrataegus.Keywords:㊀CrataegusL.ꎻchloroplastgenomeꎻcodonusagebiasꎻsystemevolution㊀㊀山楂属(CrataegusL.)为蔷薇科中起源相对古老的属ꎬ多为小乔木或落叶灌木ꎬ主要分布于温带地区ꎮ山楂属植物有着非常高的经济价值ꎬ研究结果表明ꎬ山楂作为果树在中国的种植历史可追溯至汉代[1]ꎮ山楂的果实含有丰富的营养物质ꎬ具有健胃消食㊁抗菌消炎等功效ꎬ是一种优良的水果[2]ꎮ除了作为经济果树ꎬ山楂还是一类出色的园林景观植物和街道绿化树种ꎮ通常认为ꎬ山楂属中有18个种原产于中国ꎬ山楂属植物中广泛存在的无融合生殖和种间杂交现象使其外形特征发生了高度变异[3]ꎬ进而为山楂属植物的传统分类学鉴定造成困难ꎮ叶绿体是植物细胞中重要的细胞器之一ꎬ对于研究植物体的光合作用和生长发育具有非常重要的意义ꎮ叶绿体基因组是独立于核基因组的母系遗传ꎬ其核苷酸置换率与核基因组及线粒体基因组相比更适宜应用于多层次的系统发育研究[4]ꎮ随着第二代高通量测序技术的不断完善ꎬ针对叶绿体基因组的报道也逐渐增多ꎬ目前的研究结果表明ꎬ陆地高等植物的叶绿体基因组长度一般介于120~200kbꎬ包含大单拷贝区(LSC)㊁小单拷贝区(SSC)㊁反向重复区a(IRa)和反向重复区b(IRb)ꎮ密码子偏好性是指编码相同氨基酸的同义密码子频率存在差异[5]ꎬ这种现象普遍出现在所有原核生物和真核生物中[6]ꎮ一般来说ꎬ密码子使用模式能够反映基因组的起源和进化模式ꎬ不同的基因组有其独特的密码子使用偏好性ꎬ这也使得解释这种偏好性目前还存在一定的困难[7 ̄8]ꎮ山楂属植物具有出色的经济价值和科研价值ꎬ目前已有许多针对山楂属植物的相关研究ꎮ例如ꎬ有许多学者围绕山楂属植物的营养价值进行了相关研究ꎬ均发现其有着良好的营养价值和抗氧化活性[9 ̄12]ꎬ在分子层面ꎬ张枭等[13]利用SSR分子标记构建了部分山楂属植物的分子条形码ꎬ为山楂属植物的资源鉴定提供了分子层面的手段ꎬListon等[3]基于叶绿体基因组和257个核基因组对山楂属植物亚属间的杂交状况进行了评估ꎬ证实了杂交在山楂进化中的重要作用ꎮ具体到叶绿体基因组层面ꎬ近年来ꎬ针对山楂属植物叶绿体基因组的研究正逐渐被重视ꎬ部分山楂属植物的叶绿体基因组数据相继被发表在国家生物技术信息中心(NationalCenterforBiotechnologyInformationꎬNCBI)公共数据库中ꎬ也有学者对其叶绿体基因组进行了属内的比较分析[14 ̄15]ꎮ然而ꎬ目前针对山楂属植物叶绿体基因组特征和密码子偏好性的综合分析相对较少ꎮ本研究拟通过对云南山楂叶绿体基因组的测序㊁组装和注释ꎬ综合分析山楂属11个种的植物叶绿体基因组特征㊁密码子偏好性㊁最优密码子和系统发育关系ꎬ深入研究山楂属植物的叶绿体基因组特征ꎬ弥补目前对于山楂属植物密码子特征和偏好性研究的空白ꎮ本研究旨在为山楂属植物的叶绿体基因组特征㊁系统发育关系和密码子偏好性研究提供新的参考依据ꎬ以期为山楂属植物的育种和分子标记研究提供参考ꎮ1㊀材料与方法1.1㊀试验材料本研究所使用的新鲜植物叶片采集于云南省大理白族自治州洱源县罗平山(99ʎ52ᶄ19 15ᵡEꎬ25ʎ59ᶄ53 34ᵡNꎬ海拔2105m)ꎬ经西南林业大学标本馆树木学教研室李双智副教授鉴定为蔷薇科山楂属植物云南山楂[Crataegusscabrifolia(Franch.)Rehd.]ꎮ使用改良过的CTAB(十六烷基三甲基溴化铵)法[16]从使用硅胶干燥的叶片中提取DNAꎬ提取后的DNA送至天津诺禾致源生物科技有限公司进行叶绿体基因组测序ꎬ使用GetOrganelle软件[17]组装得到完整的叶绿体基因组ꎬ并使用拼接路径可视化软件Bandage[18]验证其成环性ꎮ以山楂[Crataeguspinnatifida(NC_065486)]叶绿体基因组为参考ꎬ使505赵振宁等:山楂属植物叶绿体基因组特征与密码子偏好性分析用CPGAVAS2在线工具(http://www.herbalgenom ̄ics.org/cpgavas/)[19]对云南山楂叶绿体基因组进行注释ꎬ并使用GeneiousPrime软件[20]对其进行手动调整ꎮ注释过的云南山楂叶绿体基因组上传到GenBank公共数据库ꎬ登录号为OP021659ꎬ其余10个山楂属植物叶绿体基因组下载于NCBI公共数据库(https://www.ncbi.nlm.nih.gov/)(表1)ꎮ表1㊀山楂属植物叶绿体基因组信息Table1㊀CompletechloroplastgenomesampleinformationofCra ̄taegus编号物种登录号长度(bp)1CrataegusmaximowicziiNC_0654851598752CrataeguskansuensisNC_0393741598653CrataegusoresbiaNC_0656711598514CrataeguschungtienensisNC_0656701598475CrataegusrhipidophyllaNC_0623451597866CrataegushupehensisNC_0541551597667CrataeguscuneataNC_0588961597308CrataegusmarshalliiMK9202931596609CrataeguspinnatifidaNC_06548615965610CrataegusscabrifoliaOP02165915963711CrataegusbretschneideriMW9633391596071.2㊀试验方法1.2.1㊀重复序列分析㊀简单重复序列(Simplese ̄quencerepeatꎬSSR)在植物叶绿体基因组中有着广泛分布ꎬ其作为一种重要的分子标记常被用作鉴定植物品种和构建DNA指纹图谱[21]ꎮ使用MISA ̄web(http://webblast.ipk ̄gatersleben.de/misa/)对山楂属植物简单重复序列的种类和数量进行在线分析[22]ꎬ将单核苷酸㊁二核苷酸㊁三核苷酸㊁四核苷酸㊁五核苷酸㊁六核苷酸参数分别设置为10㊁5㊁4㊁3㊁3㊁3ꎬ相邻SSR间的最小距离为100bpꎮ使用REPuter在线工具(https://bibiserv.ce ̄bitec.uni ̄bielefeld.de/reputer)分别鉴定11种山楂属植物的离散重复序列[23]ꎬ设置参数:海明距离(Hammingdistance)为3ꎬ鉴定类型选择正向重复序列(ForwardrepeatꎬF)㊁回文重复序列(PalindromicrepeatꎬP)㊁反向重复序列(ReverserepeatꎬR)和互补重复序列(ComplementrepeatꎬC)4种ꎬ最小重复长度30bpꎬ最大重复长度300bpꎮ1.2.2㊀边界扩张收缩分析㊀叶绿体基因组为环状结构ꎬ分为4个区域ꎬ分别为大单拷贝区(LSC)㊁小单拷贝区(SSC)㊁反向重复区a(IRa)和反向重复区b(IRb)ꎬ其中反向重复区相对比较保守ꎬ其收缩与扩张会影响叶绿体基因组G+C含量和基因组大小ꎬ边界扩展和收缩能够展现植物的遗传进化[24]ꎻ分析叶绿体基因组区域边界的信息ꎬ对揭示叶绿体基因组的结构差异和进化关系具有重要的参考价值[25]ꎮ使用在线工具CPJSdraw(http://cloud.genepioneer.com:9929)对注释过的山楂属植物叶绿体基因组边界可视化ꎬ分析其边界的扩张收缩情况ꎮ1.2.3㊀共线性比较分析㊀以山楂属11个种的植物叶绿体基因组为研究对象ꎬ利用MAUVE(http://darlinglab.org/mauve/mauve.html)工具对多重基因组的保守区域㊁局部共线性和基因组重排倒置现象进行鉴定ꎬ用以阐述山楂属植物的叶绿体在物种演化过程中发生的结构变异事件[26]ꎮ1.3㊀密码子偏好性分析1.3.1㊀密码子相关参数的计算㊀使用GeneiousPrime软件手动提取每个山楂属植物叶绿体基因组中的蛋白质编码序列(CodingsequenceꎬCDS)ꎬ由于编码长度较短的蛋白质的基因会使密码子偏好性的数据存在较大的估计误差ꎬ因此在统计密码子偏好性时ꎬ常去除长度在300bp以下的序列ꎬ从而避免产生统计误差[27]ꎬ本研究筛选了山楂属植物叶绿体基因组中具有代表性的48个CDSꎮ利用CUSP在线工具(http://www.Bioinformatics.nl/emboss ̄ex ̄plorer/)和CondonW1.4.2统计得到了叶绿体基因组的相对同义密码子使用度(RSCU)ꎬ密码子第一㊁第二和第三位的G+C含量(GC1㊁GC2㊁GC3)等一系列信息ꎮ1.3.2㊀中性绘图分析㊀使用GC1与GC2的平均值(GC12)与GC3作为数据绘制中性对比图ꎬ中性对比图可以用来检测密码子突变压力和选择压力的平衡ꎬ从而揭示GC12和GC3的关系[28]ꎮ在密码子偏好中性对比中ꎬ每个离散点表示1个基因ꎬ若GC12与GC3为中性ꎬ则这些点应位于对角线上ꎬ若不为中性ꎬ这些点应出现在横坐标的平行线上[29]ꎮ1.3.3㊀ENC ̄plot分析㊀有效密码子数分析(ENC ̄plot)用于分析密码子使用受到选择压力和突变压力的影响程度ꎬ根据各组基因密码子的GC3和有效密码子数(ENC)ꎬ首先计算出预期ENC(预期ENC=605江苏农业学报㊀2023年第39卷第2期GC3+2+29/[GC32+(1-GC3)2])ꎬ然后使用R语言绘制ENC ̄plot图ꎬ通过比较预期ENC与实际ENC得出突变压力和选择压力对密码子使用偏好性的影响程度[8]ꎮ1.3.4㊀PR2 ̄plot分析㊀奇偶校验分析(PR2 ̄plot)用于展现突变压力与选择压力对于密码子使用的影响程度ꎬ分析密码子第三位碱基的A㊁T㊁C㊁G含量(分别为A3㊁T3㊁C3㊁G3)ꎬ并分别以G3/(G3+C3)和A3/ (A3+T3)为横坐标和纵坐标进行PR2 ̄plot绘图ꎬ各个基因的密码子偏好性通过其与中心点的方向和矢量偏差表示ꎬ而图中中心点表示A=T和C=Gꎬ即此时基因的密码子使用无偏好性[30]ꎮ1.3.5㊀最优密码子确定㊀最优密码子表示基因组中使用频率最高的密码子ꎬ以ENC为首选标准ꎬ将48条叶绿体基因组按照ENC进行排序ꎬENC最高的5个基因组归为高表达基因组ꎬENC最低的5个基因组为低表达基因组ꎮ将同时满足高频[RSCU(同义密码子相对使用度)>1]和高表达[ΔRSCU(同义密码子相对使用度之差)ȡ0 08]的密码子作为最优密码子ꎮ1.3.6㊀对应性分析㊀使用CodonW1.4.2基于RSCU对山楂属11个种进行对应性分析ꎬ将山楂属这11个种所共有的48个编码蛋白质的基因组按照基因功能分为5种类型ꎬ通过分析其变异情况得到影响其密码子偏好性的主要影响因素ꎮ1.4㊀系统发育分析基于山楂属11个种构建叶绿体全基因组系统发育树和CDS系统发育树ꎮ先将山楂属11个种植物叶绿体全基因组和CDS通过MAFFTv.7软件进行比对[31]ꎬ比对结果通过trimAl[32]进行修饰ꎬ修改后的比对文件基于RAxMLv.8中的GTR+I+G模型ꎬ采用最大似然法进行系统发育分析[33]ꎬ设置1000次自展值重复ꎮ2㊀结果与分析2.1㊀叶绿体基因组结构山楂属植物叶绿体基因组呈现标准的四分体结构ꎬ分别为大单拷贝区㊁小单拷贝区㊁反向重复区a和反向重复区bꎬ叶绿体基因组全长为159607~159875bp(图1)ꎮLSC长度为87601~87874bpꎬSSC长度为19139~19312bpꎬ单个反向重复区长度为26347~26385bpꎮ各个种的G+C含量为36.6%~36 7%ꎬ基因总数为127~132个ꎬ其中rRNA数量均为8个ꎬtRNA数量除C.scabrifolia为36个外其余均为37个ꎬ编码蛋白质的基因数量为83~85个(表2)ꎮ综合来看ꎬ山楂属植物的叶绿体基因组G+C含量相近ꎬ基因种类和数量相近ꎬ未发现IR区丢失现象ꎬ叶绿体基因组长度变异较小ꎬ结构未发现明显差异ꎮ表2㊀山楂属植物叶绿体基因组结构信息Table2㊀ChloroplastgenomestructureinformationofCrataegusspecies物种㊀㊀㊀G+C含量(%)tRNA编码蛋白质的基因数量(个)基因总数(个)LSC长度(bp)SSC长度(bp)IR长度(bp)C.maximowiczii36.63785132878741923326384C.kansuensis36.63785132878151928226384C.oresbia36.63784132878191926426384C.chungtienensis36.63784132878151926426384C.rhipidophylla36.73783128877771924126384C.hupehensis36.63785132878521914426385C.cuneata36.63784129877781918426384C.marshallii36.63785132876981923226365C.pinnatifida36.73785132877491913926384C.scabrifolia36.73683127877301913926384C.bretschneideri36.63785131876011931226347LSC:大单拷贝区ꎻSSC:小单拷贝区ꎻIR:反向重复区ꎮ705赵振宁等:山楂属植物叶绿体基因组特征与密码子偏好性分析图1㊀山楂属植物叶绿体基因组图谱Fig.1㊀ChloroplastgenomemapofCrataegus2.1.1㊀重复序列分析㊀如图2A所示ꎬ在本研究中ꎬ单核苷酸㊁二核苷酸㊁四核苷酸和复合重复序列均在山楂属植物中被检测到ꎬ在本研究所选取的山楂属植物中ꎬ检测到的单核苷酸重复序列数量介于41~55ꎬ在各个种中单核苷酸重复序列数量均排第一位ꎬ而单核苷酸重复序列数量最多的物种为C.hupehensisꎬ最少的物种为C.marshalliiꎮ山楂属植物中二核苷酸重复序列数量总体差异不大ꎬC.oresbia被检测到的二核苷酸重复序列数量最少ꎬ为13个ꎬC.maximowiczii㊁C.kansuensis㊁C.cuneata㊁和C.bretschneideri数量最多ꎬ为15个ꎬ其余物种则为14个ꎮ三核苷酸重复序列仅在C.hupehensis㊁C.cuneata㊁C.marshallii㊁C.pinnatifi ̄da和C.scabrifolia中被检测到ꎬ四核苷酸重复序列数量为3~5个ꎬ各物种之间差异不大ꎮ五核苷酸重复序列仅在C.marshallii中被检测到ꎬ六核苷酸重复序列仅在C.cuneata和C.marshallii中被检测到ꎮ这一结805江苏农业学报㊀2023年第39卷第2期果说明山楂属植物的简单重复序列的类型和数量有部分相似之处ꎬ但总体来看也有一定的差异ꎮ使用REputer在线工具对11种山楂属植物叶绿体基因组的离散重复序列进行分析ꎬ统计结果如图2B所示ꎬ结果显示山楂属植物离散重复序列具有一定相似性ꎬ回文重复序列为23~28ꎬ正向重复序列为20~29ꎬ其中C.kansuensis的回文重复序列与反向重复序列的数量均为最多ꎬ而C.marshallii的2种重复序列的数量均为最少ꎮ反向重复序列为3~11个ꎬ其中C.kansuensis的反向重复序列数量远高于其他10个种ꎬ为11个ꎮ互补重复序列在C.hupehensis中检测到的数量最多ꎬ为5个ꎬ而在C.maximowiczii与C.bretschneideri中并未检测出互补重复序列ꎮ总的来说山楂属植物的离散重复序列存在着一定的差别ꎮ图A:简单重复序列ꎻ图B:离散重复序列ꎮ图A中ꎬP1㊁P2㊁P3㊁P4㊁P5㊁P6和c分别表示单核苷酸㊁二核苷酸㊁三核苷酸㊁四核苷酸㊁五核苷酸㊁六核苷酸和复合重复序列ꎻ图B中ꎬP:回文重复序列ꎻF:正向重复序列ꎻR:反向重复序列ꎻC:互补重复序列ꎮ图2㊀山楂属植物叶绿体基因组重复序列Fig.2㊀RepeatedsequenceofCrataegusspecieschloroplastgenome2.1.2㊀边界扩张收缩分析㊀对山楂属植物的边界扩张收缩分析结果(图3)表明ꎬ山楂属11个种植物的大单拷贝区与反向重复区b的边界(JLB)均位于rps19基因中ꎬ除C.marshallii和C.bretschnei ̄deri外ꎬ其余9个种的rps19基因均有120bp位于IRb区域中ꎻ反向重复区b与小单拷贝区的边界(JSB)均位于ndhF中ꎬ且ndhF位于IRb的长度均为12bpꎻJSA均存在于ycf1基因中ꎬ且均有1074bp位于IRa中ꎬrpl2为11个种植物的共有基因ꎬ均位于大单拷贝区与反向重复区a(JLA)的左侧ꎬ其中有9个种植物rpl2基因与JLA距离为190bpꎬ而C.marshallii和C.bretschneideri的rpl2基因与JLA的距离则发生了变异ꎬ与其余9个种植物略有不同ꎮ总的来说ꎬ山楂属植物的叶绿体基因组进化关系保守ꎬ结构差异较小ꎬ边界扩张收缩幅度较为稳定ꎬ只发生了较小的变异ꎮ2.1.3㊀共线性分析㊀使用Mauve软件ꎬ采用多重基因组比较法对山楂属11个种植物的叶绿体基因组进行共线性分析ꎬ山楂属植物叶绿体基因组结构与各个基因的排列顺序基本一致ꎬ共线性良好ꎬ未发现倒置和重排现象ꎬ叶绿体基因组之间具有高度相似性ꎮ2.2㊀密码子偏好性2.2.1㊀密码子组成分析㊀在研究密码子的使用偏好性时ꎬENC常用于评价物种密码子偏好性的大小ꎬ其值为20~61ꎬENC值越大表示密码子的偏好性越弱ꎮ一般认为ꎬENC值在35以下时可表明其密码子偏性现象较为显著[34]ꎮ由表3可知ꎬ山楂属11个种植物的叶绿体基因组平均ENC为46.61~47 55ꎬ均大于35ꎬ密码子偏好性较弱ꎬ密码子总G+C含量与第一㊁第二㊁第三位的G+C含量均小于50%ꎬ且呈现出GC1>GC2>GC3的趋势ꎬ说明山楂属植物的叶绿体基因组富含A和T2种碱基ꎬ且偏好于使用A㊁T作为密码子第三位结尾碱基ꎮ2.2.2㊀PR2 ̄plot绘图分析㊀若密码子的偏好性只受突变压力的影响ꎬ则A㊁T与C㊁G的使用频率应该是完全相等的ꎮ由图4可知ꎬ图中坐标点的分布并不均匀ꎬ可以明显看出ꎬ右侧的坐标点多于左侧ꎬ下方的坐标点多于上方ꎬ而分布于右下角区域的基因数量最多ꎬ说明山楂属植物叶绿体基因组密码子第三位碱基对于T的使用率大于Aꎬ对于G的使用率大于Cꎬ说明其密码子偏好性不只受到突变的影响ꎬ而是选择压力和突变压力共同作用的结果ꎮ905赵振宁等:山楂属植物叶绿体基因组特征与密码子偏好性分析JLB表示LSC与IRb的边界ꎬJSB表示SSC与IRb的边界ꎬJSA表示SSC与IRa的边界ꎬJLA表示LSC与IRa的边界ꎮLSC:大单拷贝区ꎻSSC:小单拷贝区ꎻIRa:反向重复区aꎻIRb:反向重复区b(IRb)ꎮ图3㊀山楂属植物叶绿体基因组边界Fig.3㊀ThechloroplastgenomeboundaryanalysisofCrataegusspecies015江苏农业学报㊀2023年第39卷第2期表3㊀山楂属植物叶绿体基因组密码子参数特征Table3㊀CondonfeaturesofchloroplastgenomesofCrataegusspecies物种㊀㊀㊀GC1(%)GC2(%)GC3(%)GCall(%)ENC(%)GC3s(%)C.maximowiczii45.8237.6929.1137.5546.6129.22C.kansuensis45.8437.7329.1337.6447.3229.21C.oresbia45.8637.7629.1237.5647.5529.23C.chungtienensis45.8837.7929.1537.5847.3029.22C.rhipidophylla45.8537.7829.1637.5546.9529.25C.hupehensis45.8837.7629.1937.6547.3729.30C.cuneata45.8437.7529.1837.6647.1229.33C.marshallii45.8137.7429.1737.6447.2829.25C.pinnatifida45.8337.7529.1537.6247.4329.26C.scabrifolia45.8637.8629.1637.6146.7529.24C.bretschneideri45.8737.7729.1237.5947.3229.28GC1㊁GC2㊁GC3分别表示密码子第一㊁第二㊁第三位碱基的G+C含量ꎻGCall表示密码子总的G+C含量ꎻENC表示有效密码子数ꎻGC3s表示同义密码子第三位的G+C含量ꎮ横坐标表示G㊁C碱基偏好性ꎬ纵坐标表示A㊁T碱基偏好性ꎮ图4㊀山楂属植物叶绿体基因组奇偶偏好性Fig.4㊀Parityrule2analysisofchloroplastgenomesfromCra ̄taegusspecies2.2.3㊀中性绘图分析㊀山楂属植物中性绘图分析见图5ꎬ各基因的GC3取值为20.74%~36 54%ꎬGC12的值则介于31.75%~53 96%ꎬ回归系数为0.364~0 388ꎬGC12与GC3的相关系数为0.324~0 525ꎬ双尾检验均未达到显著水平(P>0 05)ꎬGC12与GC3之间相关性不显著ꎬ选择压力对其密码子的偏好性具有显著影响ꎬ说明山楂属植物叶绿体基因组密码子的第一㊁第二位碱基与第三位碱基的组成相关性较弱ꎬ密码子受选择压力的影响较大ꎮ2.2.4㊀ENC ̄plot绘图分析㊀ENC ̄plot绘图能够揭示基因组密码子的ENC与GC3之间的联系ꎬ如图6所示ꎬ坐标点大多分布在标准ENC曲线下方ꎬ且大多与预期ENC差距很大ꎬ即大部分基因的实际ENC小于预期值ꎬ这部分基因主要受到自然选择的影响ꎮ仅有少数基因靠近标准曲线ꎬ即只有少数基因的密码子偏好性主要受到突变压力的影响ꎮ总的来说ꎬ在本研究中ꎬ自然选择压力是供试山楂属植物叶绿体基因组密码子偏好性的主要影响因素ꎮ2.2.5㊀山楂属植物最优密码子㊀对48个CDS基因按照ENC进行排序ꎬ根据高表达基因和低表达基因中密码子的RSCU和әRSCU来确定其最优密码子ꎬ筛选得到的最优密码子如表4所示ꎬ最优密码子数量介于17~20个ꎬC.kansuensis㊁C.oresbia㊁C.pinnatifida的最优密码子数量最多ꎬC.marshallii的最优密码子数量最少ꎬ分析它们的最优密码子数据可知ꎬ山楂属11个种植物的最优密码子都大多以A或U作为第三位碱基ꎬ说明其最优密码子偏向于使用A和U作为结尾ꎮ对其共有最优密码子进行分析ꎬ发现其共有最优密码子有13个ꎬ分别为GCA㊁GCU㊁AGA㊁CGA㊁UGU㊁CAA㊁UUA㊁UUU㊁AGU㊁UCU㊁ACA㊁UAU和GUUꎬ其中有6个以A作为末碱基ꎬ7个以U作为末位碱基ꎬ共有密码子的第三位碱基均为A和Uꎮ差异密码子有7个ꎬ分别为GAC㊁GAA㊁GGA㊁AUA㊁CUU㊁AAA和ACCꎬ存在差异的最优密码子中ꎬ有4个以A作为第三位碱基ꎬ2个以C作为末位碱基ꎬ1个以U作为末位碱基ꎮ分析山楂属11个种植物的最优密码子发现ꎬ不存在以G作为末位碱基的最优密码子ꎮ115赵振宁等:山楂属植物叶绿体基因组特征与密码子偏好性分析215江苏农业学报㊀2023年第39卷第2期A:C.maximowicziiꎻB:C.kansuensisꎻC:C.oresbiaꎻD:C.chungtienensisꎻE:C.rhipidophyllaꎻF:C.hupehensisꎻG:C.cuneataꎻH:C.marshalliiꎻI:C.pinnatifidaꎻJ:C.scabrifoliaꎻK:C.bretschneideriꎮGC3表示密码子第三位碱基的G+C含量ꎬG12表示密码子第一㊁第二位碱基的G+C含量的平均值ꎬR2表示决定系数ꎮ图5㊀山楂属植物叶绿体基因组中性绘图Fig.5㊀NeutralityplotanalysisofchloroplastgenomesfromCrataegusspecies表4㊀山楂属植物叶绿体基因组最优密码子Table4㊀TheoptimalcodonsofchloroplastgenomesofCrataegus物种最优密码子C.maximowicziiGCA㊁GCU㊁AGA㊁CGA㊁GAC㊁UGU㊁CAA㊁GAA㊁GGA㊁AUA㊁CUU㊁UUA㊁AAA㊁UUU㊁AGU㊁UCU㊁ACA㊁UAU㊁GUUC.kansuensisGCA㊁GCU㊁AGA㊁CGA㊁GAC㊁UGU㊁CAA㊁GAA㊁GGA㊁AUA㊁CUU㊁UUA㊁AAA㊁UUU㊁AGU㊁UCU㊁ACA㊁ACC㊁UAU㊁GUUC.oresbiaGCA㊁GCU㊁AGA㊁CGA㊁GAC㊁UGU㊁CAA㊁GAA㊁GGA㊁AUA㊁CUU㊁UUA㊁AAA㊁UUU㊁AGU㊁UCU㊁ACA㊁ACC㊁UAU㊁GUUC.chungtienensisGCA㊁GCU㊁AGA㊁CGA㊁GAC㊁UGU㊁CAA㊁GAA㊁GGA㊁AUA㊁CUU㊁UUA㊁UUU㊁AGU㊁UCU㊁ACA㊁ACC㊁UAU㊁GUUC.rhipidophyllaGCA㊁GCU㊁AGA㊁CGA㊁GAC㊁UGU㊁CAA㊁GAA㊁GGA㊁AUA㊁CUU㊁UUA㊁UUU㊁AGU㊁UCU㊁ACA㊁ACC㊁UAU㊁GUUC.hupehensisGCA㊁GCU㊁AGA㊁CGA㊁GAC㊁UGU㊁CAA㊁GAA㊁GGA㊁CUU㊁UUA㊁AAA㊁UUU㊁AGU㊁UCU㊁ACA㊁ACC㊁UAU㊁GUUC.cuneataGCA㊁GCU㊁AGA㊁CGA㊁GAC㊁UGU㊁CAA㊁GAA㊁GGA㊁AUA㊁UUA㊁AAA㊁UUU㊁AGU㊁UCU㊁ACA㊁ACC㊁UAU㊁GUUC.marshalliiGCA㊁GCU㊁AGA㊁CGA㊁GAC㊁UGU㊁CAA㊁CUU㊁UUA㊁AAA㊁UUU㊁AGU㊁UCU㊁ACA㊁ACC㊁UAU㊁GUUC.pinnatifidaGCA㊁GCU㊁AGA㊁CGA㊁GAC㊁UGU㊁CAA㊁GAA㊁GGA㊁AUA㊁CUU㊁UUA㊁AAA㊁UUU㊁AGU㊁UCU㊁ACA㊁ACC㊁UAU㊁GUUC.scabrifoliaGCA㊁GCU㊁AGA㊁CGA㊁UGU㊁CAA㊁GAA㊁AUA㊁CUU㊁UUA㊁AAA㊁UUU㊁AGU㊁UCU㊁ACA㊁ACC㊁UAU㊁GUUC.bretschneideriGCA㊁GCU㊁AGA㊁CGA㊁UGU㊁CAA㊁GAA㊁GGA㊁AUA㊁CUU㊁UUA㊁AAA㊁UUU㊁AGU㊁UCU㊁ACA㊁ACC㊁UAU㊁GUUA~K见图5注ꎮGC3表示密码子第三位碱基G+C含量ꎬENC表示有效密码子数ꎮ图6㊀ENC ̄plot分析Fig.6㊀AnalysisofENC ̄plot2.2.6㊀对应性分析㊀基于RSCU对山楂属植物叶绿体基因组48个共有CDS进行对应性分析ꎬ结果显示ꎬ其第一轴贡献率为11.69%~12 02%ꎬ第二轴贡献率为8.78%~8 94%ꎬ第三轴贡献率为8.22%~8 37%ꎬ第四轴贡献率为7.74%~8 02%ꎬ前四轴累计贡献率为36.71%~37 23%ꎬ第一轴对变异的贡献率与其他3个轴相差较大ꎬ为影响其变异的主要因素ꎮ为了深入分析其密码子偏好性特征ꎬ使用48个CDS的第一轴和第二轴建立平面坐标系ꎬ结果(图7)显示ꎬ山楂属11个种植物的CDS序列在平面中的分布相似性很高ꎬ均显示遗传系统相关基因与保守性开放阅读框的分布相对更加集中ꎬ说明这2类功能的基因内部存在相似的密码子使用偏好性ꎮ而其余3种功能的基因分布相对更加分散ꎬ说明这3种基因的密码子偏好性差异较大ꎮ2.3㊀系统发育分析对基于叶绿体CDS构建的系统进化树(图8A)与基于叶绿体全基因组构建的系统发育树(图8B)进行分析ꎬ结果显示ꎬ2种系统发育树具有很高的相似性ꎬC.kansuensis㊁C.oresbia㊁C.chungtienensis㊁C.bretschneideri㊁C.maximowiczii㊁C.rhipidophylla和C.marshallii在2种系统进化树中具有相同的系统发育位置ꎮ但2种系统发育树也显现出了一定的差异ꎬ基于叶绿体CDS构建的系统发育树显示C.sca ̄brifolia被单独归为一个远缘分支ꎬ显示其与另外10个种的亲缘关系较远ꎻ基于叶绿体全基因组序列构建的系统发育树(图8B)则将C.cuneata单独归为一个远缘分支ꎮ除此之外ꎬ基于叶绿体CDS构建的系统发育关系显示ꎬC.hupehensis与C.pinnatifida亲缘关系密切ꎬ聚为一类ꎬ而基于叶绿体全基因组构建的系统发育树则为C.hupehensis㊁C.pinnatifida和C.scabrifolia聚为一支ꎮ总的来说ꎬ叶绿体基因组的2种系统发育树展现出来的系统发育关系既存在着部分差异ꎬ也存在着一定的相似性ꎮ315赵振宁等:山楂属植物叶绿体基因组特征与密码子偏好性分析A~K见图5注ꎮAxis1表示第一向量轴ꎬAxis2表示第二向量轴ꎮ图7㊀基于RSCU的基因对应性分析Fig.7㊀GenecorrespondenceanalysisbasedonRSCU3㊀讨论与结论植物叶绿体全基因组长度大多为120~200kbꎬ包含植物体丰富的遗传学信息[35]ꎮ随着第二代高通量测序技术的发展和测序成本的降低ꎬ已有大量的叶绿体基因组数据被上传至GenBank公共数据A:基于叶绿体基因组CDS序列的系统进化树ꎻB:基于叶绿体全基因组序列的系统进化树ꎮ图8㊀基于CDS序列和叶绿体全基因组构建的山楂属物种系统发育树Fig.8㊀PhylogenetictreeofCrataegusconstructedbasedonCDSandcompletechloroplastgenome库ꎬ为植物的系统发育和分子标记研究提供了重要的参考ꎮ本研究对山楂属11个种的植物叶绿体基因组进行了系统发育与密码子偏好性分析ꎬ对于深入研究山楂属植物的进化关系具有一定的意义ꎮ本研究选取了山楂属11个种的植物叶绿体基因组进行分析ꎬ结果显示ꎬ山楂属植物的叶绿体基因组结构保守ꎬ叶绿体基因组长度变异较小ꎬ未发现任何基因组倒置和重排现象ꎬ这与悬钩子属植物叶绿体基因组的情况相似[36]ꎬ但在樟科植物的研究中发现ꎬIR区存在着部分基因重排现象[37]ꎬ这与本研究的结果存在一定的差异ꎮ重复序列包含植物体的重要进化信息ꎬ是控制植物体生长发育的重要部分ꎬ重复序列的差异会对植物的遗传发育产生重要影响[38]ꎬ对所选取的山楂属植物的离散重复序列进行分析ꎬ发现正向重复序列㊁回文重复序列㊁反向重复序列3种离散重复序列在山楂属11个种植物中均有分布ꎬ而互补重复序列在C.maximowiczii与C.bretschneideri中并未检测出ꎬ推断C.maximowiczii与C.bretschneideri在系统发育关系上可能存在着一定的相似性ꎬ这种推断与本研究中2种系统进化树展现的系统发育关系也相吻合ꎮ分子进化中性理论认为ꎬ基因的碱基突变对密码子的影响是中性的或近似中性的[39]ꎮ但如果基因组的密码子受到外界环境选择的影响ꎬ则会导致密码子的使用和碱基组成出现偏向性[40]ꎮ本研究中选取的山楂属植物叶绿体基因组密码子的GC12与GC3的相关系数为0.324~0 525ꎬ相关性均未达到显著水平(P>0 05)ꎬGC12与GC3之间相关性较弱ꎬ山楂属植物叶绿体基因组密码子的第一㊁第二位碱基与第3位碱基差异较大ꎬ说明选择压力对其密码子有着非常大的影响ꎬ而ENC ̄plot和PR2 ̄plot绘图分析结果也表明ꎬ山楂属植物叶绿体基因组的密码子受选择压力的影响较大ꎮ综合以上分析可以看出ꎬ本研究中的山楂属植物密码子使用受自然选择因素的影响远大于碱基突变ꎬ而影响密码子使用偏好性的主要因素在不同植物物种中也可能存在差异ꎮ对应性分析结果显示ꎬ遗传系统相关基因与保守性开放阅读框2种功能的基因呈现出相似的密码子使用偏性ꎬ而其余3种功能基因的密码子偏好性存在较大差异ꎬ推测这3种功能基因的密码子偏好性可能受到多种因素的共同影响ꎮ另外ꎬ本研究在山楂属11个物种中筛选得到17~20个最优密码子ꎬ在这11个物种中ꎬ均以A㊁U作为结尾的最优密码子数量最多ꎬ这一结果与乌头属植物[41]和睡莲属植物[42]的情况相似ꎮ分析其共有密码子发现ꎬ其共有最优密码子有13个ꎬ且均以A和U作为结尾ꎬ所有物种中均未发现以G作为末位碱基的最优密码子ꎮ最优密码子的筛选结果可以为后续山楂属植物的遗传育种工作提供重要的参考依据ꎮ基于CDS和叶绿体全基因组构建的2种系统。
密码子使用偏好性参数汇总
![密码子使用偏好性参数汇总](https://img.taocdn.com/s3/m/a341e3dc76a20029bd642dca.png)
研究密码子偏好性常用的参数1、相对同义密码子使用度(Relativ e Synonymous Codon Usage, RSCU )是指对于某一特定的密码子在编码对应氨基酸的同义密码子间的相对概率,它去除了氨基酸组成对密码子使用的影响。
如果密码子的使用没有偏好性,该密码子的RSCU值等于1,当某一密码子的RSCU值大于1时,代表该密码子为使用相对较多的密码子,反之亦然。
第i个氨基酸的第j个密码子的相对同义密码子使用度值的计算公式如下:公式中, X ij是编码第i个氨基酸的第j个密码子的出现次数, n i是编码第i个氨基酸的同义密码子的数量( 值为1~6) 。
研究中通常先利用高表达基因的RSCU值建立参考表格。
2、密码子适应指数(Codon Adaptation Index, CAI)可以根据已知高表达基因的序列来估计未知基因密码子使用的偏好性程度。
CAI的值在0~1之间, 如果越高则表明该基因的密码子使用偏好性越强。
CAI 值一般用来预测种内基因的表达水平( 但目前的研究发现对于单细胞生物比较适用, 而在哺乳动物中并不能用来表示基因表达水平), 又可以用来预测外源基因的表达水平。
w ij(The relative adaptiveness of a codon): 密码子相对适应度上式中RSCU imax、X imax分别指编码第i个氨基酸的使用频率最高的密码子的RSCU值和X值L是指基因中所使用的密码子数。
3、密码子偏好参数(Codon Preference Parameter, CPP)CPP的变化范围为0 ~ 18, 越接近18表示密码子被非随机使用的程度越高。
它对于基因编码区域总的碱基组成不敏感, 适于比较基因间或物种间密码子使用偏性的大小。
x ij是编码第i个氨基酸的第j个密码子的出现次数, n i是编码第i个氨基酸的同义密码子的数量( 值为2~6, n i= 1 的情况被排除)4、有效密码子数(Effective Number of Codon, ENC)ENC值的范围在20~ 61之间, 越靠近20偏性越强。
密码子偏好性分析..
![密码子偏好性分析..](https://img.taocdn.com/s3/m/f4fcd232ed630b1c59eeb532.png)
手段 ,通过比较核基因编码的核糖体蛋白和线粒体基 因编码的核糖体蛋白上密码子使用模式的差异来预测 未知蛋白的基因所在基因组位置。
(二)通过密码子使用偏好性的研究, 可以判定一些最优
密码子,针对这些密码子设计基因工程表达载体可以提高目 的基因的表达量 。 (三)利用密码子使用偏好性和某种功能的关联程度对某些 未知功能基因进行预测利用已知的密码子偏好知识对未知表 达水平 的 基 因 进行 判 定 初步判断该基因的表达水平高或 低。 (四)利用编码区和非编码区的基因组特征差异进行全基因 组扫描,发现新基因。 密码子使用偏性的影响因素:
其中,n表示这个密码子所代表的氨基酸的同义密码子种类数目(1<n6), 戈代表第i个密码子的出现次数。RSCU是衡量密码子偏性较直观的一个参数。
密码子适应指数( Codon adaption index , CAI ) 该指数以一组具高表达水平的基因为参考 , 测量某一个基因的密码子偏 好情况和这些高表达基因密码子偏好情况的接近程度 , 如果一个基因完 全使用高表达基因中所用的密码子 , 则其 C AI 值为 1 。目前这个指数已 被广泛用来预测基 因 的 表 达 水平。
进行查询
如只需要基因序列而不需要详细信息,则需点击TASTA
如需进行图文分析,则点击Graphics
计算同义密码子相对使用度(Relative synonymous codon
usage, RSCU) 在genebank中取出序列后,用codonw进行在线分析
结果如下:
利用cusp计算密码子Franction和Frequency。 Franction:各个密码子在编码该氨基酸的密码子中所占的比例。 Frequency:该密码子在编码总基因密码子中出现的频率。
《密码子偏好性分析》课件
![《密码子偏好性分析》课件](https://img.taocdn.com/s3/m/a614e04b03020740be1e650e52ea551810a6c9d0.png)
04
通过绘制ENC-GC3s曲线图,分析GC3s含量与密码子 偏好的关系。
密码子使用模式的影响因素
自然选择
自然选择是影响密码子使用模式的主要因素之一,适应环境变化 的基因会逐渐积累优势,导致密码子使用模式的改变。
基因表达水平
高表达的基因往往具有更加简练和一致的密码子使用模式,以降低 翻译过程中的能量消耗和错误率。
在本课件中,我们介绍了密码子偏好性分析的基本概念、 研究方法和应用,包括密码子使用频率的统计、差异分析 、进化分析和生物信息学软件的应用等。
通过案例分析和实际应用,我们展示了密码子偏好性分析 在基因表达调控、基因组进化和生物信息学研究中的应用 价值。
研究展望
01
02
03
04
随着新一代测序技术的发展 ,将会有更多的基因组和转 录组数据可供分析,这将为 密码子偏好性分析提供更多 的数据来源和应用场景。
《密码子偏好性分析 》ppt课件
目录
CONTENTS
• 密码子偏好性概述 • 密码子使用模式分析 • 密码子偏好性与基因表达水平的
关系 • 密码子偏好性与基因功能的关系
目录
CONTENTS
• 密码子偏好性与生物进化的关系 • 总结与展望
01
密码子偏好性概述
密码子偏好性的定义
密码子偏好性是指生物在基因表达过程中,对使 用不同密码子的倾向性。
计算不同基因或物种的Codon Usage Table(密码子 使用表),记录各个密码子的使用频率。
输标02入题
利用RSCU(Relative Synonymous Codon Usage )值来衡量密码子的偏好性,即将各个密码子的使用 频率标准化,消除氨基酸丰度的影响。
10种植物psy基因密码子使用偏好性分析
![10种植物psy基因密码子使用偏好性分析](https://img.taocdn.com/s3/m/679f6f19aeaad1f347933f46.png)
八氢 番 茄 红 素 合 成 酶 (PSY)是 植 物 类 胡 萝 卜素生物合成途 径 中 的 关 键 酶,对 于 番 茄 红 素 的 合成具有重要作用,犘犛犢 基因表达量高低显著调 控着植物类 胡 萝 卜 素 的 合 成 和 积 累[1],敲 除 番 茄 SlPSY1 基 因 导 致 番 茄 中 类 胡 萝 卜 素 缺 失 , [2] 犘犛犢 基因在烟草[3]、玉米 和 [4] 番 茄 中 超 表 达 提 高 了胡萝卜 素 含 量 和 其 他 次 级 代 谢 物。犘犛犢 基 因 不仅限制了类胡 萝 卜 素 的 生 物 合 成,而 且 在 非 生 物胁迫中也 起 到 作 用。比 如 脱 落 酸、茉 莉 酸 甲 酯 和盐胁迫 。 [57] 在香菜中,茉莉酸甲酯处理 后 导 致 犘犛犢 基因表达增强 。 [8]
1犇犻狊狋狉犻犫狌狋犻狅狀狅犳犲犳犳犲犮狋犻狏犲狀狌犿犫犲狉狅犳犮狅犱狅狀狊犈犖犆犪狀犱犌犆犮狅狀狋犲狀狋犪狋狋犺犻狉犱狊狔狀狅狀狔犿狅狌狊犮狅犱狅狀狆狅狊犻狋犻狅狀犌犆3狊犪狀犱狆犪狉犻狋狔犪狀犪犾狔狊犻狊狅犳犘犛犢犵犲狀犲狊犳狅狉狋犺犲狆犾犪狀狋狊狆犲犮犻犲狊组织图上的每个长方形表示对应于物种的密码子以列显示的rscu值以行显示eachsquareonselforganizingmaprepresentstherscuvalueofacodonshownincolumnscorrespondingtothespeciesshowninrows
收 稿 日 期 :20190730 修 回 日 期 :20191128 基 金 项 目 :国 家 自 然 科 学 基 金 (31860548);石 河 子 大 学 育 种 专 项 (kx0301)。 第 一 作 者 :李 慧 姬 ,女 ,硕 士 研 究 生 ,从 事 植 物 逆 境 相 关 功 能 基 因 研 究 。Email:929281557@qq.com 通 信 作 者 :吉 雪 花 ,女 ,博 士 ,副 教 授 ,主 要 从 事 蔬 菜 抗 逆 及 种 质 资 源 创 新 研 究 。Email:lilysnowjxh@163.com
密码子偏好性
![密码子偏好性](https://img.taocdn.com/s3/m/52bce467af1ffc4ffe47ac94.png)
W
UGG
酪氨酸
Tyrosine
Tyr
Y
UAU,UAC
缬氨酸
Valine
Val
V
GUU,GUC,GUA,GUG
起始密码子
AUG
终止密码子
UAG,UGA,UAA
CGA (6.2)
A
CUG (39.6)
CCG (6.9)
CAG (34.2)
CGG (11.4)
G
A
AUU (16.0)
ACU (13.1)
AAU (17.0)
AGU (12.1)
U
AUC (20.8)
ACC (18.9)
AAC (19.1)
AGC (19.5)
C
AUA (7.5)
ACA (15.1)
Methionine
Met
M
AUG
苯丙氨酸
Phenylalanine
Phe
F
UUU,UUC
脯氨酸
Proline
Pro
P
CCU,CCC,CCA,CCG
丝氨酸
Serine
Ser
S
UCU,UCC,UCA,UCG,AGU,AGC
苏氨酸
Threonine
Thr
T
ACU,ACC,ACA,ACG
色氨酸
Tryptophan
U
GUC (13.1)
GCC (21.6)
GAC (17.9)
GGC (20.6)
C
GUA (13.1)
GCA (23.0)
GAA (35.1)
GGA (13.6)
A
GUG (19.9)
GCG (21.1)
密码子偏性分析精品资料
![密码子偏性分析精品资料](https://img.taocdn.com/s3/m/3a52a0dcaeaad1f346933fb1.png)
2.1有效密码子数与GC含量
获得9676个CDS作为分析样本,经CodonW1.4.2软件分析获得全基因组共计9981条基因的4497467个密码子,密码子中不同位置GC含量不同,其中第2位的GC含量较低,为42%,第1位和第3位的GC含量差异较小,分别为57.8%和56.8%,GC平均含量为52.2%。
2.3相对同义密码子使用度
RSCU值反映的是密码子在编码同义氨基酸间的相对概率,当同义密码子对应氨基酸的使用频率相同,则相对密码子使用度就是1。当密码子的使用频率相对较高时则相对密码子使用度大于1(高频密码子),反之当密码子的使用频率相对较低时则相对密码子使用度小于1[9]。普通羊肚菌中RSCU值大于等于1的密码子总共35个,其中以G或C结尾的25个,占71.4%;以A或T结尾的10个,占28.6%(表1)。
1材料与方法
1.1标本
普通羊肚菌(M.conica)于2015年5月采自云南省昆明市禄劝县轿子山,标本经上海市农业科学院转基因环境安全评价实验室提取基因组DNA,交由上海派森诺生物公司测序,并将ITS序列提交到NCBI网站进行BLAST比对后鉴定为普通羊肚菌。
1.2CDS获得
将样品的基因组DNA构建采用C语言编写程序剔除序列长度小于300bp(氨基酸数量小于100)CDS作为分析样本[5]。
密码子偏性分析
摘要:
采用CodonW1.4.2软件和CUSP程序,以普通羊肚菌全基因组蛋白质编码序列为对象,解析了该菌的有效密码子数、密码子3个位点的GC含量、相对同义密码子使用度和高表达优越密码子。结果表明:普通羊肚菌全基因组密码子第2位密码子的GC含量明显低于第1位和第3位,第3位密码子与第1位含量差异不大,分别为57.8%和56.8%,RSCU值大于等于1的密码子总共35个,其中以G或C结尾的25个,占71.4%,确定了25个高表达优越密码子。
不同哺乳动物密码子偏性及聚类分析
![不同哺乳动物密码子偏性及聚类分析](https://img.taocdn.com/s3/m/59bf8a1f580216fc700afd61.png)
不同哺乳动物密码子偏性及聚类分析在雌性哺乳动物整个生殖周期过程中,卵母细胞只能来源于原始卵泡库[1]。
有研究表明,原始卵泡形成过程受激素、转录因子和相关通路的介导[2]。
生长分化因子9(growth differentiation factor 9,GDF9)作为转化生长因子β超家族成员之一,在卵泡的发育过程中有关键的调节作用[3]。
密码子是DNA或RNA的碱基序列与其编码蛋白序列之间的对应关系[4]。
编码相同氨基酸的密码子为同义密码子,在蛋白合成过程中,同义密码子的使用频率存在差异,且物种和基因对某一种或几种密码子的使用具有偏好性[5]。
对基因密码子偏好参数进行分析,能更好地理解和研究基因水平转移和基因家族分化的发生[6]。
因此对密码子偏好性的研究可在分子的角度为GDF9基因序列特征、分类和遗传进化规律提供重要信息。
前人相关研究表明,GDF9基因具有刺激颗粒细胞减数分裂、抑制素的生成作用[7],并影响卵泡发育和生殖功能[8]。
Wang等发现通过siRNA敲除GDF9后能抑制仓鼠原始卵泡的形成,但添加GDF9纯品培养卵巢会加速原始卵泡的形成[9]。
在人、啮齿类、牛、绵羊和有袋类动物卵巢卵母细胞中,GDF9基因特异性表达,但该基因在山羊卵母细胞和黄体中可同时表达[10-11]。
GDF9基因还能通过多个信号通路促进颗粒细胞增殖过程[12]。
马会明等通过RNA干扰使该基因表达沉默,也能抑制颗粒细胞增殖过程[13]。
这些研究通过探讨不同哺乳动物已被克隆的GDF9基因,并在卵巢卵母细胞中进行了相关表达分析,但未开展密码子使用偏性的研究,这不利于其异源表达和遗传转化等后续试验的进行。
GDF9基因密码子使用偏好性的研究能为该基因的分类和进化提供重要信息。
本研究利用CodonW软件分析不同哺乳?游?GDF9基因对密码子的使用情况,基于GDF9基因最小进化法和同义密码子相对使用度的欧式平方距离系数建立聚类关系,为GDF9基因功能的深入研究提供参考依据。
密码子偏好性分析 2
![密码子偏好性分析 2](https://img.taocdn.com/s3/m/52bf733cb90d6c85ec3ac6b9.png)
(一)基因序列碱基组成的偏好性
在不存在自然选择压力 的 情 况 下, 一定方向的突变压会影响序列本 身的碱基组成 ,而这一效应同时也会反映在同义密码子的第 3位上。这 样 的偏好性仅仅是反映了序列组成的特征,而与蛋白功能或表达水平无 关。
(二)弱的自然选择效应
对于所有密码子家族来讲,即使存在密码子偏好性,由于同义密码子并 不改变最终的蛋白产 物。所以对于那些频繁被使用的密码子的选择性被 认为是很弱的。但是这种弱的选择会体现在基因表达水平上。在高表达 的基因中,密码子使用偏好性要强过一 般表达的基因。
其中RSCUmax、是高表达参照基因中,每一个氨基酸里使用频率最高的密码子的相对同义密码子使用频率,L是基因中 密码子的个数
高 频 密 码 子与最优密码子
某一密码子相对同义密码子使用频率单值超过60% 或者超过该组同义密 码子平均占有频率的1.5 倍的密码子即为高频码子。 最后采用高表达优越密码子分析方法先,计算每个基因的密码子有效数 和相对同义密码子用法, 然后再根据各 Nc值确 定高表达和低表达样本 组,计算出这两个样本组中各个密码子各自的值,最后通过卡方检验确 定出高表达基因的优越密码子确定最优密码子。
由于密码子偏性的研究近年来一直是一个热点,因此研究的指标也出现 得很多,如可以衡量特定基因偏性大小的密码子偏爱指CBI(Morton1993) 和最优密码子使用频率 FOp(LavnerandKotlar2005),弥补了密码子的 相对嫡值的加Ew(Suzukietal.2004)等。多种多样的技术和方法促进了密 码子偏性的研究,但是也产生了一些的研究结果之间存在了的不一致, 特别是有些方法仅仅能运用于局限的物种或某些特定的基因中。因此在 使用这些新开发的方法时,必须了解每一种方法背后的假设和推论,才 能确保结果的正确性。
绵羊骨代谢相关基因VDR密码子偏好性分析
![绵羊骨代谢相关基因VDR密码子偏好性分析](https://img.taocdn.com/s3/m/4eb3e909f6ec4afe04a1b0717fd5360cba1a8dec.png)
及密码子偏好指数(
CBI)等参数进行统计 分 析,并 在 多 物 种 间 进 行 比 较,同 时 利 用 ENc
-P
l
o
t关 联 分 析 和 中 性 绘 图
等方法分析 VDR 基因密码子偏好性使用的主要影响因素,并 基 于 多 物 种 同 义 密 码 子 相 对 使 用 度 数 据 与 系 统 进 化
[]
VDR 基因 敲 除 小 鼠 品 系;
P
l
um 等 7 通 过 低 钙 喂 食
方 法 构 建 了 VD 缺 乏 大 鼠 模 型,利 用 切 除 卵 巢
(
OVX)的基 本 无 骨 吸 收 能 力 大 鼠 模 型 研 发 出 一 种
新型具有强化骨合 成 代 谢 活 性 的 1,
25(
OH)
2D3 类
ENc
-P
l
o
t绘
图和中性绘图分析显示,选择压力对 VDR 基因密码子偏好性的影响强 于 突 变 压 力。【结 论】以 G/C 结 尾 的 密 码 子
为 VDR 基因优势密码子,自然选择是导致其偏好性的主要 力 量,密 码 子 偏 好 使 用 存 在 物 种 特 异 性,并 与 物 种 亲 缘
关系进化存在关联性。
骼、肾脏及甲状旁腺等组织的调节作用,维持骨组织
矿物质平衡 [3]。众 所 周 知,骨 矿 盐 代 谢 失 衡 可 引 发
骨质疏松症、骨关 节 炎、椎 间 盘 退 变、骨 软 化 症 及 肌
肉减少症等多种骨代谢相关疾病。目前,
VDR 在动
物医学及动物遗 传 学 领 域 的 研 究 较 多,如 San
t
lr
e
l
a
t
edt
不同作物FAD2基因密码子偏好性分析
![不同作物FAD2基因密码子偏好性分析](https://img.taocdn.com/s3/m/db942a1a5f0e7cd184253697.png)
5 0 , 偏好性较弱 。玉米 、 水稻 、 高粱 、 油菜 、 亚麻 、 花生和拟南芥 的 D 2基因偏好 以 G或 C碱基结尾 的密码子 ,
Gu o Yu Pi n g,S h a n Ti a n Le i ,Yu a n Ya n Ch a o,S o n g Xi a nL i a ng ,S u n Xu e Z he n
( A g r o n o m y C o l l e g e o f S h a n d o n g A g r i c u l t u r a l U n i v e r s i t y / N a t i o n a l K e y L a b o r a t o r y f o C r o p B i o l o g y ,T a i a n 2 7 1 0 1 8 , C h i n a )
a s o f F A D 2 g e n e i n d i f f e r e n t c r o p s .T h e e f f e c t i v e n u mb e r o f c o d o n s( E N C)o f F A D 2 g e n e s i n g r a m i n e o u s
Ab s t r a c t I n t h i s s t u d y,t h e c o d o n u s a g e b i a s o f f a t t y a c i d d e s a t u r a s e g e n e ,F A D 2,f r o m 1 2 c r o p s p e - c i e s w a s a n ly a z e d b y s e v e r a l s o f t w a r e s .T h e r e s u l t s s h o we d t h a t t h e r e w e r e g r e a t d i f f e r e n c e s i n c o d o n u s a g e b i -
刺猬线粒体基因组密码子偏好性分析
![刺猬线粒体基因组密码子偏好性分析](https://img.taocdn.com/s3/m/d0a2040b842458fb770bf78a6529647d272834ed.png)
收稿日期:2023-05-05作者简介:韩君(1988—),男,黑龙江哈尔滨人,硕士,工程师,研究方向为生物信息学与多组学数据分析。
刺猬线粒体基因组密码子偏好性分析韩君(北京康仁堂药业有限公司,北京101301)摘要:为利用分子技术探究刺猬皮等组织作为中药使用的机制,促进远东刺猬分子进化研究。
以远东刺猬线粒体全基因组序列为材料,从中筛选出长度大于300bp 的非重复编码序列(CDS )12条,利用CodonW1.4.2、SPSS 25.0和Excel 2007等软件分析其密码子偏好性。
结果显示:密码子第3位的碱基平均GC 含量为24.30%;有效密码子数目(ENC )分布范围为31.83~50.67,平均值为43.37;相对同义密码子使用度(RSCU )值>1.00的密码子共有32个,偏好以碱基A 或U (T )结尾。
中性绘图分析结果显示,GC 1和GC 2的平均值(GC 12)与GC 3之间的相关系数为0.443;ENC-plot 分析结果显示,多数基因在标准曲线附近聚集;对应性分析结果表明,第1~4个向量轴的贡献率分别为35.64%、16.22%、10.26%和9.13%,同义密码子第3位的GC 含量(GC3s )、ENC 与第1向量轴(Axis1)呈显著正相关;密码子适应指数(CAI )与Axis1呈负相关,最终确定CUA 、AUA 、GUU 、UCU 、CCC 、ACA 、GCU 、CAU 、AAA 、GAA 、UGA 、CGC 、GGC 和GGA 为最优密码子。
通过优化远东刺猬线粒体基因组密码子以及应用分子手段进行深入研究,有助于探究远东刺猬组织入药机制。
关键词:远东刺猬;线粒体;密码子;偏好性;中药中图分类号:S862;R282文献标志码:A文章编号:1001-0084(2023)04-0031-07Codon Preference Analysis on MitochondrialGenome of Erinaceus amurensisHAN Jun(Beijing Tcmages Pharmaceutical Co.,Ltd.,Beijing 101301,China )Abstract:Using molecular technique to explore the mechanism of hedgehog hide and other tissues applied astraditional Chinese medicine,and promote molecular evolution of Erinaceus amurensis in the Far East,taking the complete mitochondrial genome sequence of Erinaceus amurensis as the material,12non-repeating coding sequences (CDS)with a length greater than 300bp were selected as the research objects in this study,and their codon preference was analyzed by using CodonW1.4.2,SPSS 25.0,Excel 2007and other software.The average GC content of the third codon was 24.30%;the number of effective codons (ENC)ranged from 31.83to 50.67,with an average value of 43.37;and the relative synonymous codon usage (RSCU)value of 32codons was greater than 1.00,and the preference ends with either A or U (T).According to neutral plot analysis,the correlation coefficientbetween the average value (GC 12)of GC 1,and GC 2and GC 3was 0.443.In addition,ENC-plot analysis also revealed that most genes cluster near the standard curve;besides,the corresponding analysis showed that the contribution rates of the 1-4vector axes were 35.64%,16.22%,10.26%and 9.13%,respectively;and the GC content of the third synonymous codon (GC3s )and ENC were significantly positively correlated with the first vector axis (Axis1).In addition,the codon adaptation index (CAI)was negatively correlated with Axis1.Hence,it could finally beDOI:10.20041/ki.slbl.2023.04.006猬科在我国共有5个属7个种。
原核表达密码子偏好 概述及解释说明
![原核表达密码子偏好 概述及解释说明](https://img.taocdn.com/s3/m/880c8f9ed05abe23482fb4daa58da0116c171f83.png)
原核表达密码子偏好概述及解释说明1. 引言1.1 概述原核表达密码子偏好是指原核生物在蛋白质合成过程中对编码氨基酸的密码子选择存在一定规律性。
密码子是由三个核苷酸组成的序列,用于编码不同的氨基酸。
在原核生物中,有些密码子被广泛使用,而其他密码子则较少使用。
这种密码子偏好现象引发了科学家们的兴趣,并且对研究人员揭示了一些有关遗传信息传递机制和生物进化的重要见解。
1.2 文章结构本文将以以下几个部分来描述原核表达密码子偏好。
首先,在第2部分中,我们将概述原核表达密码子偏好的基本概念和背景知识。
然后,在第3部分中,我们将解释说明影响原核表达密码子偏好的主要原因和机制。
接下来,在第4部分中,我们将通过实例分析具体介绍常见原核生物中的密码子偏好现象及其解释。
最后,在第5部分中,我们将总结原核表达密码子偏好的特点并展望该领域未来的研究方向。
1.3 目的本文旨在深入探讨原核表达密码子偏好的现象和机制,并通过实例分析加深对该领域的理解。
了解原核表达密码子偏好对我们揭示细胞功能和进化过程具有重要意义。
同时,本文也希望能够促进对密码子偏好研究领域的发展,为未来的研究提供新的思路和方向。
2. 原核表达密码子偏好概述:2.1 什么是原核表达密码子偏好原核生物中的基因编码信息通过密码子来进行转录和翻译,密码子是由三个核苷酸组成的序列,每个密码子对应着一个氨基酸。
然而,在同一种原核生物的基因组中,对于某些氨基酸来说,并非所有可能的密码子都被等概率地使用。
相反,原核生物存在一种选择性地使用某些密码子来编码特定氨基酸的现象,这就是原核表达密码子偏好。
2.2 密码子的定义和功能在DNA或RNA序列中,每三个连续的核苷酸被称为一个密码子。
根据遗传密码表,不同的密码子对应着不同的氨基酸,起到了翻译基因信息为蛋白质序列的作用。
2.3 原核生物中密码子使用的规律性原核生物在使用密码子时并非随机选择,而是存在一定程度上的规律性。
具体而言,原核生物中较为常见或者富集的密碼雙取决于其所编码氨基酸出现频率及其它影响因素。
新型冠状病毒(SARS-CoV-2)的密码子偏爱性分析
![新型冠状病毒(SARS-CoV-2)的密码子偏爱性分析](https://img.taocdn.com/s3/m/e72587541611cc7931b765ce0508763231127431.png)
㊀2021,37(1)中国人兽共患病学报C h i n e s e J o u r n a l o f Z o o n o s e sD O I :10.3969/j.i s s n .1002-2694.2020.00.186 新冠专题新型冠状病毒(S A R S GC o V G2)的密码子偏爱性分析尚方建1,2,石哲芳1,2,王㊀聪1,2,刘㊀奇1,2国家自然科学基金资助项目(N o .81660337,N o .81703573)㊁大理大学创新团队(N o .Z K L X 2019105)联合资助通讯作者:刘㊀奇,E m a i l :Q i l i u @a l i yu n .c o m ;O R C I D :0000G0003G4152G2561作者单位:1.云南省昆虫生物医药研发重点实验室(大理大学),大理㊀671000;2.大理大学基础医学院病原生物学综合实验室,大理㊀671000摘㊀要:目的㊀分析S A R S GC o V G2密码子使用的偏爱性及不同国家和地区流行株的密码子之间的聚类关系.方法㊀使用C o d o n W ㊁E M B O S S ㊁S i g m a P l o t 14.0㊁S P S S22.0等软件分析S A R S GC o V G2的密码子偏爱性及其影响因素,在此基础上对不同国家毒株的密码子偏爱性进行聚类分析.结果㊀S A R S GC o V G2的各蛋白E N C 值在26.60~57.81之间;密码子以A /U 结尾(R S C U>1),约占84.98%.A C A ㊁A C U ㊁A G A ㊁A U U ㊁C C U ㊁C U U ㊁G C U ㊁G G U ㊁G U U ㊁U C A ㊁U C U ㊁U U A 为多数基因共有的高频密码子,O R F 10基因没有偏爱密码子.E N C GP l o t ㊁中性分析㊁P R 2绘图分析显示,S A R S GC o V G2的各蛋白密码子使用偏爱性受不同因素影响,但是主要因素是自然选择,突变次之.基于密码子偏性的聚类分析发现,来源全球20多个国家和地区的S A R S GC o V G2密码子偏爱性有明显差异.部分蛋白的密码子偏爱性聚类分析显示,西班牙㊁法国㊁韩国㊁美国和越南等国家单独聚类.S 和O R F 1a b 的聚类分析显示,中国S A R S GC o V G2流行株与美国的流行株的密码子使用偏性分属不同聚类.结论㊀S A R S GC o V G2的密码子使用偏性在发生变化,目前主要受环境选择影响.这种改变可能是病毒的跨物种传播造成的,需对其加强动态监控,并对其密码子偏爱性改变的意义进行深入研究.关键词:S A R S GC o V G2;密码子偏爱性;聚类分析中图分类号:R 373.1㊀㊀㊀文献标识码:A ㊀㊀㊀文章编号:1002-2694(2021)01-0015-07A n a l y s i s o f S A R S GC o V G2c o d o nu s a ge p r ef e r e n c e S H A N GF a ng Gj i a n 1,2,S H I Z h e Gf a n g 1,2,WA N GC o n g 1,2,L I U Q i 1,2(1.Y u n n a nP r o v i n c i a lK e y L a b o r a t o r y o f E n t o m o l o g i c a lB i o p h a r m a c e u t i c a lR&D (D a l iU n i v e r s i t y ),D a l i 671000,C h i n a ;2.I n t e g r a t e dL a b o f P a t h o l o g y B i o l o g y ,C o l l e g e o f B a s i cM e d i c a l ,D a l iU n i v e r s i t y ,D a l i 671000,C h i n a )A b s t r a c t :T h i sw o r k a i m e d t o r e s e a r c h t h e c o d o nu s a g e p r e f e r e n c e o f S A R S GC o V G2a n d t h e c o d o n c l u s t e r i n g r e l a t i o n s h i p of e p i d e m i c s t r a i n s i n d i f f e r e n t c o u n t r i e s .C o d o n W ,E M B O S S ,S ig m a P l o t 14.0a n dS P S S 22.0w e r e u s e d t o a n a l y z e th e c o d o n u s a g e p r e f e r e n c e o f S A R S GC o V G2a n d t h ec o d o nc l u s t e ri n g r e l a t i o n s h i p o f e p i d e m i cs t r a i n s i nd i f f e r e n t c o u n t r i e s .T h eE N Cv a l u eo f S A R S GC o V G2w a s f o u n d t ob e b e t w e e n 26.60a n d 57.81.A p p r o x i m a t e l y 84.98%o f t h e c o d o n p r e f e r e n c e i n v o l v e d c o d o n s e n d i n gw i t hA /U.A C A ,A C U ,A G A ,A U U ,C C U ,C U U ,G C U ,G G U ,G U U ,U C A ,U C U ,U U A w e r e t h e h i g h Gf r e q u e n c y co d o n s u s e d i nm o s t p r o t e i n s ,a n dO R F 10h a dn oh i g h Gf r e q u e n c y c o d o n s .E N C GP l o t ,n e u t r a l i t y a n dP R 2a n a l y s e s s h o w e d t h a t t h e c o Gd o nu s a g e p r e f e r e n c e o f S A R S GC o V G2w a s a f f e c t e db y d i f f e r e n t f a c t o r s .T h em a i n f a c t o rw a s n a t u r a l s e l e c t i o n ,f o l l o w e db y mu Gt a t i o n .A c c o r d i n g t oc l u s t e ra n a l y s i s ,t h ec o d o n p r e f e r e n c eo fS A R S GC o V G2i n20c o u n t r i e sh a sc h a n g e ds i g n i f i c a n t l y .S p a i n ,F r a n c e ,S o u t hK o r e a ,t h eU n i t e dS t a t e s ,a n dV i e t n a mc l u s t e r e d s e p a r a t e l y .C l u s t e r a n a l y s i s o f S a n dO R F 1a b i n d i c a t e d t h a t t h e u s a g e b i a s o f S A R S GC o V G2s t r a i n s i nC h i n a a n d i n t h eU n i t e dS t a t e s b e l o n g e d t o d i f f e r e n t c l u s t e r s .T h u s ,t h em a i n f a c t o r a f f e c t Gi n g t h e c o d o nu s a g e p r e f e r e n c eo fS A R S GC o V G2i sn a t u r a l s e l e c t i o n .T h e c o d o nu s a g e p r e f e r e n c eo fS A R S GC o V G2h a sc h a n g e d s i g n i f i c a n t l y ,p o s s i b l y b e c a u s eo fc r o s s Gs p e c i e st r a n s m i s s i o n .D y n a m i c m o n i t o r i n g o fS A R S GC o V G2c o d o n u s a ge m u s tb e s t r e n g t h e n e d ,a n df u r t h e r s t u d y t h e s ig n i f i c a n c e o f c o d o n ch a n ge s i sn e e d e d .K e yw o r d s :S A R S GC o V G2;c o d o n p r e f e r e n c e ;c l u s t e r a n a l y s i s S u p p o r t e db y t h eN a t i o n a lN a t u r a l S c i e n c eF o u n d a t i o n o f C h i Gn a (N o .81660337,N o .81703573)a n dD a l iU n i v e r s i t y I n n o v a Gt i o nT e a m (N o .Z K L X 2019105)C o r r e s p o n d i n g a u t h o r :L i uQ i ,E m a i l :Q i l i u @a l i yu n .c o m 51㊀㊀2019年12月,中国武汉报道了一种由新型冠状病毒(2019Gn C o V)导致的肺炎流行,随后该病毒在全球各地陆续发现.国际病毒分类委员会(I n t e rGn a t i o n a lC o mm i t t e eo n T a x o n o m y o fV i r u s e s,I CGT V)将该病毒命名为严重急性呼吸综合征冠状病毒2(S e v e r ea c u t er e s p i r a t o r y s y n d r o m ec o r o n a v i r u s 2,S A R SGC o VG2)[1].同时,世界卫生组织(WHO)将该病毒引起的肺炎命名为C O V I DG19(C o r o n a v i rGu sD i s e a s e2019)[2].截止2020年7月,作为第7种能感染人类的冠状病毒,S A R SGC o VG2已经导致全世界15581009人确诊感染,累计导致635173人死亡,死亡率4.07%[3].在蛋白质编码过程中,某一物种或某一基因通常倾向于使用一种或几种特定的同义密码子,这种现象被称为同义密码子的使用偏爱性(S y n o n y m o u s c o d o n c s a g e b i a s)[4G5].特异性的核酸偏倚与病毒的致病性有关,可增强其复制能力以及逃避适应性免疫[6].因此,研究密码子使用模式的差异,有助于提供病毒进化的证据,丰富理解病毒与宿主相互之间的关系[7].因此,本研究分析了S A R SGC o VG2影响密码子使用偏性的因素,并在密码子偏爱性的基础上,分析来源于全球20多个国家和地区的S A R SGC o VG2的进化关系.从而了解S A R SGC o VG2的基因动态变化,为其预防和监控提供新的依据.1㊀材料与方法1.1㊀材料1.1.1㊀材料序列来源㊀本研究选用S A R SGC o VG2的基因编码序列C D S均来源于N C B I(h t t p s:// p u b m e d.n c b i.n l m.n i h.g o v/).截止至2020年3月末,共下载931条序列,宿主均来源于人.经过筛选,用于国家和地区分析的分别是:澳大利亚7条㊁巴西1条㊁中国95条㊁哥伦比亚1条㊁芬兰1条㊁法国1条㊁希腊4条㊁印度4条㊁伊朗17条㊁以色列2条㊁伊拉克1条㊁秘鲁1条㊁南非1条㊁菲律宾1条㊁韩国4条㊁西班牙24条㊁意大利7条㊁日本3条㊁马来西亚3条㊁尼日利亚1条㊁巴基斯坦3条㊁泰国2条㊁土耳其1条㊁美国722条㊁越南6条㊁瑞典1条㊁中国台湾3条.1.1.2㊀软件㊀E M B O S S(h t t p://e m b o s s.t o u l o u s e.i n r a.f r/?t d s o u r c e t a g=s_p c q q_a i o m s g)子程序C U S P计算各密码子F r e q u e n c y值,C o d o n W1.4.2用于计算密码子各位置的G C含量及有效密码子数(E f f e c t i v en u m b e ro fc o d o n s,E N C),使用S i g m aGP l o t14.0绘制E N CGP l o t,奇偶规则分析㊁中性分析, S P S SS t a t i s t i c s22.0绘制聚类分析.1.2㊀方㊀法1.2.1㊀有效密码子数E N C(E f f e c t i v e n u m b e r o f c oGd o n s)㊀E N C[8G9]被用来描述某个基因的密码子偏好程度,E N C的取值在20~61范围之间.20表示极端偏倚,即基因只使用每组同义密码子中的一个,61表示每个密码子均被使用,该值的大小与密码子使用偏性的强弱成负相关.当E N C>35,表示该基因密码子使用偏性弱,反之,则确定密码子偏性强.1.2.2㊀相对同义密码子使用度R S C U(R e l a t i v e s y n o n y m o u s c o d o nu s a g e)㊀R S C U[10]是指某一特定的密码子在编码对应氨基酸的同义密码子间的相对使用概率.其计算方法为某一密码子使用频率与其在无偏好性使用时预期频率之间的比值.若某一密码子的R S C U值=1,表示该密码子使用模式无偏好性;反之,提示该密码子使用存在偏好性.当R S C U>1时,表示该密码子为偏爱密码子;当R S C U值ȡ1.5,说明该密码子的使用频率高,被称为高频密码子.1.2.3㊀E N CGP l o t分析㊀E N CGP l o t关联分析以G C3s为自变量㊁E N C为因变量构建散点图,分析E N C和G C3s之间的相关性[11].同时,按照密码子使用偏性在只受突变压力影响而不受选择压力影响的条件下构建标准曲线.若代表该基因的点在标准曲线上及其附近,表明密码子使用偏性主要受突变影响而非选择压力影响;若代表基因的点落在标准曲线下方较远处,表明密码子组成主要受选择压力的影响.1.2.4㊀中性绘图分析㊀中性分析是衡量选择对密码子使用偏爱性影响强度的一种分析方法.该方法首先计算基因密码子第1㊁2位的G C含量的平均值(G C12)与第3位的G C含量(G C3s)[12].以G C3s 为自变量㊁G C12为因变量绘制散点图.代表基因的点分布于对角线上(斜率为1)或者附近,说明密码子的使用模式受突变的影响大;反之,散点形成曲线斜率越小甚至与横轴平行,表明基因在密码子使用模式受环境选择的影响大.1.2.5㊀P a r i t y R u l e2分析㊀P a r i t y R u l e2分析又称奇偶规则分析[13],是研究密码子碱基组成的一种方法.基因在不受突变和环境选择压力时,碱基内部组成是A=T㊁C=G.而现实中,由于受到基因突变和环境选择压力的影响,基因组编码序列中的G C使用含量常常不均等,尤其密码子的第3位明显偏离链内相等规则.该方法分析由4个同义密码61中国人兽共患病学报2021,37(1)子编码的氨基酸(丙氨酸㊁精氨酸㊁甘氨酸㊁亮氨酸㊁脯氨酸㊁丝氨酸㊁苏氨酸和缬氨酸),将G 3/(G 3+C 3)和A 3/(A 3+T 3)的计算结果绘制成图.坐标(0.5,0.5)代表P R 2原则(A =T ,C =G ).散点偏离中心的距离与位置表示该基因偏离规则的程度与方向.1.2.6㊀聚类分析㊀根据密码子F r e q u e n c y 计算值将来源全球20多个国家和地区的流行株进行分组,相似性较高的数据组归聚在同一组群,相似性较低或无相似性的数据组则单独聚为一类,分析S A R S GC o V G2密码子的进化关系.2㊀结㊀果2.1㊀有效密码子数目分析㊀S A R S GC o V G2基因组是由4个结构蛋白[S 蛋白(s p i k e g l y c o pr o t e i n )㊁E 蛋白(e n v e l o pe )㊁M 蛋白(m e m b r a n e )㊁N 蛋白(n u Gc l e o c a p s i d )]和8个非结构蛋白(O R F 1a ㊁O R F 1a b ㊁O R F 3a ㊁O R F 6㊁O R F 7a ㊁O R F 7b ㊁O R F 8b ㊁O R F 10)组成,它们的E N C 平均值见图1.S A R S GC o V G2的各蛋白的E N C 均值分布在26.60~57.81之间(47 93ʃ5.35).说明S A R S GC o V G2的各蛋白C D S 的密码子使用均存偏倚现象.其中,O R F 7b 基因的E N C 均值是26.60,低于35接近20,提示该蛋白基因的密码子有极强的偏爱性使用特征,且该蛋白被高度表达[14],推测其在感染过程中发挥重要的功能,应该引起我们的重视.图1㊀S A R S GC o V G2各蛋白E N C 值比较F i g .1㊀C o m pa r i s o n o f E N Cv a l u e s o f p r o t e i n s o f S A R S GC o V G22.2㊀S A R S GC o V G2的高频密码子与相对密码子使用度㊀R S C U 可直观的说明密码子使用偏好,结果见表1.S A R S GC o V G2的12种蛋白的偏爱使用密码子(R S C U>1)个数依次是27㊁24㊁25㊁16㊁27㊁26㊁24㊁20㊁24㊁12㊁28㊁0.S A R S GC o V G2的偏好密码子以A /U 结尾约占84.98%(215/253).多数蛋白(至少6种蛋白)共有的高频密码子有A C A ㊁A C U ㊁A G A ㊁A U U ㊁C C U ㊁C U U ㊁G C U ㊁G G U ㊁G U U ㊁U C A ㊁U C U ㊁U U A ,在基因工程中有助于提高基因组的表达量.O R F 10没有偏爱密码子,表明该基因的密码子没有使用偏性.表1㊀S A R S GC o V G2各蛋白相对同义密码子使用度(R S C U )T a b .1㊀S A R S GC o V G2p r o t e i n s s h o wa p r e f e r e n c e f o r s y n o n ym o u s c o d o n s A AC o d o n SMNO R F 1a b O R F 1a O R F 3a O R F 6O R F 7a O R F 7b O R F 8O R F 10P h e U U U 1.530.910.831.461.511.142.001.401.001.000.00U U C0.471.091.170.540.490.860.000.601.001.000.00L e uU U A 1.560.690.531.801.610.602.250.801.643.490.00U U G 1.110.691.891.041.201.800.000.400.551.250.01C U U 1.992.061.901.671.782.000.752.402.181.250.00C U C 0.671.030.750.550.541.001.500.800.000.000.02C U A0.500.860.410.690.620.201.500.400.550.000.03C U G 0.170.690.520.250.250.400.001.201.090.020.00I l eA U U 1.741.651.581.481.521.291.501.502.401.500.03A U C 0.550.900.780.500.530.710.300.380.601.500.00A U A 0.710.450.641.020.951.001.201.130.000.000.03M e t A U G 1.001.001.001.001.001.001.001.001.001.000.00V a lG U U 1.981.001.711.952.082.244.002.004.002.010.03G U C 0.870.000.930.540.460.480.000.500.000.000.00711期尚方建,等:新型冠状病毒(S A R S GC o V G2)的密码子偏爱性分析81中国人兽共患病学报2021,37(1)表1(续)A A C o d o n S M N O R F1a b O R F1a O R F3a O R F6O R F7a O R F7b O R F8O R F10G U A0.622.000.830.920.841.120.001.000.001.330.03G U G0.541.000.530.590.610.160.000.500.000.660.00S e r U C U2.240.801.042.032.000.823.002.570.001.280.00U C C0.731.200.820.360.431.091.500.000.000.650.00U C A1.581.201.851.681.672.181.502.566.002.140.00U C G0.120.400.150.070.100.000.000.010.000.650.00P r o C C U2.000.801.791.982.102.330.002.670.002.290.00C C C0.280.000.450.250.270.000.000.000.000.570.00C C A1.722.401.261.631.541.004.001.330.000.570.00C C G0.000.800.500.150.100.670.000.000.000.570.00T h r A C U1.811.542.091.761.832.174.001.204.001.600.00A C C0.410.920.520.360.380.330.000.000.000.000.00A C A1.650.921.001.701.651.000.002.800.002.400.00A C G0.120.620.390.180.140.500.000.000.000.000.00A l a G C U2.132.522.102.212.152.150.001.780.002.400.07G C C0.410.430.850.580.610.920.000.444.000.000.00G C A1.370.840.891.081.070.924.001.330.001.600.07G C G0.100.210.150.130.170.000.000.440.000.000.00T y r U A U1.480.890.681.241.150.941.000.802.001.710.04U A C0.521.111.320.760.851.061.001.200.000.290.04H i s C A U1.531.601.231.411.411.042.000.671.001.000.00C A C0.470.400.770.590.590.960.001.331.001.000.00G l n C A A1.481.001.311.361.281.161.331.602.001.000.00C A G0.521.000.690.640.720.840.670.400.001.000.00A s n A A U1.230.731.201.401.381.001.501.001.992.000.00A A C0.771.270.800.600.621.000.501.000.010.000.00L y s A A A1.251.141.311.291.261.271.501.710.002.000.00A A G0.750.860.690.710.740.730.500.290.000.000.00A s p G A U1.380.331.121.291.261.081.491.001.001.140.00G A C0.621.670.880.710.740.920.511.001.000.860.00G l u G A A1.421.711.601.461.471.820.401.002.001.330.00G A G0.580.290.400.540.530.181.601.000.000.670.00C y s U G U1.402.000.471.631.640.860.001.001.001.430.07U G C0.600.000.620.370.361.140.001.001.000.570.07T r p U G G1.001.001.001.001.001.001.000.001.001.000.00A r g C G U1.282.141.111.451.561.000.001.200.003.000.00C G C0.140.861.010.610.551.000.000.000.000.000.00C G A0.000.430.470.250.320.000.000.000.000.000.00C G G0.290.000.190.170.140.000.000.000.000.000.00S e r A G U1.031.601.411.571.561.360.000.000.001.280.00A G C0.300.800.740.300.230.550.000.860.000.000.00表1(续)A A C o d o n SMN O R F 1a b O R F 1a O R F 3a O R F 6O R F 7a O R F 7b O R F 8O R F 10A r g A G A 2.861.292.582.752.523.000.004.800.003.000.00A G G 1.431.290.640.760.921.006.000.000.000.000.00G l yG G U 2.301.431.512.552.612.000.001.000.002.400.14G G C0.730.861.150.610.640.860.002.000.000.000.14G G A 0.821.711.170.740.671.140.001.000.001.600.00G G G0.150.000.170.100.090.000.000.000.000.000.00㊀㊀注:A A 表示氨基酸;U A A ㊁U A G 和U G A 未列入表内.2.3㊀E N C GP l o t 分析㊀通过E N C GP l o t 分析可以进一步了解S A R S GC o V G2密码子使用偏性的影响因素.如图2所示,S A R S GC o V G2的多数蛋白位于标准曲线略下方,说明其密码子偏倚除了受突变因素的影响,选择压力的影响对其也十分重要.值得关注的是,O R F 10蛋白的基因位于标准曲线上,概率为99.6%(829/832),表明突变压力对该蛋白的密码子偏爱性的影响更为重要.571个O R F 7b 蛋白基因全部在距离标准曲线较远的下方,表明自然选择是塑造O R F 7b 蛋白的密码子使用方式的主要因素,而突变对该蛋白的作用极其微弱.图2㊀S A R S GC o V G2的各蛋白E N C GP l o t 分析F i g .2㊀E N C GP l o t a n a l ys i s o f e a c h p r o t e i no f S A R S GC o V G22.4㊀中性绘图分析㊀进一步分析影响S A R S GC o V G2密码子偏爱性的因素,如图3所示,S ㊁M ㊁N ㊁E 和O R F 1a b 蛋白的线性回归系数(R C )分别是0.3630㊁0.0900㊁3.4828㊁0.0348和0.2267,回归模型均有统计学意义(P <0.05).从结果中可见,选择压力对S ㊁M ㊁N ㊁E 和O R F 1a b 等蛋白基因的作用强于突变压力.2.5㊀P R 2分析㊀为了消除定向突变(排除2或6个同义密码子的氨基酸)对密码子偏倚的影响,绘制了图3㊀S A R S GC o V G2部分蛋白的中性绘图分析F i g .3㊀N e u t r a l p l o t a n a l y s i s o f p a r t i a l p r o t e i n c o d i n g ge n e s of S A R S GC o V G2P R 2分析,结果见图4.其中,所有C D S 密码子的第3位AʂU ㊁CʂG ,说明S A R S GC o V G2的密码子使用是不平等的.A 3/(A 3+T 3)<0.5的概率是99.9%(8279/8282),G 3/(G 3+C 3)<0.5的概率是80.0%(6625/8282).即密码子第3位T 的使用频率高于A ,C 的使用频率高于G .多数点位于y <0.5以下,图中显示左下方有5212个点,右下方有1656个点.提示该病毒的第3位密码子C /T 的使用频率较高,即嘧啶的使用频率高于嘌呤.在调控S A R S GC o V G2密码子偏好性的影响因素中,突变911期尚方建,等:新型冠状病毒(S A R S GC o V G2)的密码子偏爱性分析和自然选择对S A R S GC o V G2的调控同时起着积极的作用.图4㊀S A R S GC o V G2的各蛋白编码基因的P R 2分析F i g .4㊀P R 2a n a l y s i s o f e a c h p r o t e i nc o d i n g ge n e of S A R S GC o V G22.6㊀聚类分析㊀基于密码子偏爱性指标中各密码子使用频率(F r e q u e n c y ),将S A R S GC o V G2以国家和地区分组做聚类分析,分析来自全球20多个国家和地区的S A R S GC o V G2密码子偏爱性进化关系(图5).S 蛋白基因有两个聚集群,在第一个聚集群中,来源美国㊁以色列和希腊等国家的S A R S GC o V G2紧密聚集为一类,紧密聚集表明密码子使用偏爱性具有较高的相似性,而法国和秘鲁则单独聚为一类.O R F 1a b 蛋白基因中,来源美国的S A R S GC o V G2单独聚类.M 蛋白基因中,来源越南的单独聚类;N 和E 蛋白基因中,来源韩国的单独聚类.可见,S A R S GC o V G2的各蛋白基因密码子使用偏性在全球20多个国家和地区均有不同程度的聚类,提示S A R S GC o V G2的密码子在多个国家和地区的流行中逐步发生改变,这种改变可能与密码子的同义替换和传播路线有关.图5㊀S A R S GC o V G2的部分蛋白聚类分析F i g .5㊀C l u s t e r a n a l y s i s o f p a r t i a l pr o t e i n s o f S A R S GC o V G202中国人兽共患病学报2021,37(1)3㊀讨㊀论S A R SGC o VG2的出现给全球公共卫生带来了严峻的挑战,S A R SGC o VG2具有很强的传染性,通过直接接触和气溶胶等途径迅速传播[15].虽然疫情在中国得到有效控制,但是海外疫情仍十分严峻,研究S A R SGC o VG2的密码子偏爱性及其影响因素,对其监控㊁预防和病毒溯源等有着深远的意义.密码子偏倚的影响因素诸多,包括突变压力㊁环境选择㊁基因长度[16]㊁t R N A丰富度[17]㊁器官特异性[18]等.研究表明,密码子使用偏爱性弱的病毒更能适应各种具有不同密码子使用偏好的宿主[19].E N C结果显示,S A R SGC o VG2的密码子偏倚较弱,且密码子使用偏性不稳定,提示其在感染未知宿主方面仍有巨大潜能,这与M a h m o u d等[20]研究冠状病毒的论证相似.R S C U值提示S A R SGC o VG2的密码子多以A/U结尾.此外,总结各蛋白基因的高频密码子也有助于设计减毒疫苗和优化基因的表达量.E N CGP l o t分析㊁中性绘图分析和P R2分析显示,S A R SGC o VG2的密码子偏爱性同时受突变压力和自然选择的双重影响,且以自然选择为主,与田明明等[21]对人源S A R SGC o V的研究结果相似;而与F e r n a n d o早期研究认为S A R SGC o VG2的密码子使用主要受突变影响的结论不同[22].我们推测,自然选择成为影响S A R SGC o VG2密码子偏爱性的主要因素,这可能与其跨物种传播及近期快速在各地区㊁各种族人群之间的快速传播有关.来源全球20多个国家和地区的S A R SGC o VG2密码子偏爱性进化关系的聚类分析显示,韩国㊁越南㊁法国㊁秘鲁㊁美国和西班牙的S A R SGC o VG2的部分蛋白基因的密码子使用偏性与其他国家有明显差别,可能与病毒的本土起源及大量传播有关.本研究还发现,美国的S A R SGC o VG2毒株与中国地区的流行株密码子偏爱性差异较大,分属不同聚类,而与以色列和希腊等国家来源的S A R SGC o VG2密码子偏性有着较高的相似性,该结果提示美国S A R SGC o VG2流行毒株来源欧洲及亚洲其他国家.这也与J o s e p hR等的研究结论符合,即美国C O V I DG19疫情早期是由欧洲毒株传入所致,并在美国国内传播[23].综上所述,环境选择对S A R SGC o VG2多数蛋白基因的密码子的偏爱性起主要作用,但突变也具有积极的推动作用.S A R SGC o VG2在不同国家和种族之间的传播很可能是加速基因变异的诱因,这提示我们仍不能放松警惕,同时应加强对S A R SGC o VG2密码子偏爱性进化的检测和分析.利益冲突:无引用本文格式:尚方建,石哲芳,王聪,等.新型冠状病毒(S A R SGC o VG2)的密码子偏爱性分析[J].中国人兽共患病学报,2021,37(1):15G21,38.D O I:10.3969/j.i s s n.1002G2694.2020.00.186参考文献:[1]L a n J,G e J,Y u J,e t a l.S t r u c t u r e o f t h e S A R SGC o VG2s p i k e r eGc e p t o rGb i n d i n g d o m a i nb o u n d t o t h eA C E2r e c e p t o r[J].N a t u r e,2020,581(7807):215G220.D O I:10.1038/s41586G020G2180G5[2]D h a m aK,K h a nS,T i w a r i R,e t a l.C o r o n a v i r u sD i s e a s e2019GC O V I DG19[J].C l i n M i c r o b i o lR e v,2020,33(4):e00028G20.D O I:10.1128/C M R.00028G20[3]WH O.WH OC o r o n a v i r u sD i s e a s e(C O V I DG19)D a s h b o a r d[E B/ O L].(2020G07G25)[2020G7G25].h t t p s://c o v i d19.w h o.i n t/ [4]Q u a xT E,C l a a s s e n sN J,S o l l D,e t a l.C o d o nB i a s a s aM e a n s t o F i n eGT u n eG e n e E x p r e s s i o n[J].M o l C e l l,2015,59(2):149G161.D O I:10.1016/j.m o l c e l.2015.05.035[5]J i t o b a o m K,P h a k a r a t s a k u lS,S i r i h o n g t h o n g T,e ta l.C o d o n u s a g e s i m i l a r i t y b e t w e e nv i r a l a n ds o m eh o s t g e n e ss u g g e s t sa c o d o nGs p e c i f i c t r a n s l a t i o n a l r e g u l a t i o n[J].H e l i y o n,2020,6(5): e3915.D O I:10.1016/j.h e l i y o n.2020.e03915[6]V a b r e tN,B a i l l yGB e c h e tM,N a j b u r g V,e t a l.T h e b i a s e d n u c l eGo t i d e c o m p o s i t i o no fH I VG1t r i g g e r s t y p eI i n t e r f e r o nr e s p o n s e a n d c o r r e l a t e sw i t hs u b t y p eD i n c r e a s e d p a t h o g e n i c i t y[J].P L o S O n e,2012,7(4):e33502.D O I:10.1371/j o u r n a l.p o n e.0033502[7]B e r k h o u tB,v a n H e m e r tF.O nt h eb i a s e dn u c l e o t i d ec o m p o s iGt i o no ft h eh u m a nc o r o n a v i r u s R N A g e n o m e[J].V i r u s R e s,2015,202:41G47.D O I:10.1016/j.v i r u s r e s.2014.11.031[8]B e l a l o v I S,L u k a s h e vA N.C a u s e s a n d i m p l i c a t i o n s o f c o d o nu sGa g eb i a s i n R N A v i r u s e s[J].P L o S O n e,2013,8(2):e56642.D O I:10.1371/j o u r n a l.p o n e.0056642[9]J e n k i n sGM,H o l m e sE C.T h e e x t e n t o f c o d o nu s a g e b i a s i nh uGm a nR N A v i r u s e sa n di t se v o l u t i o n a r y o r i g i n[J].V i r u sR e s,2003,92(1):1G7.D O I:10.1016/s0168G1702(02)00309Gx [10]S h a r p P M,L iWH.C o d o nu s a g e i n r e g u l a t o r yg e n e s i nE s c h eGr i c h i a c o l i d o e s n o t r e f l e c t s e l e c t i o n f o r'r a r e'c o d o n s[J].N u c l e i cA c i d sR e s,1986,14(19):7737G7749.D O I:10.1093/n a r/14.19.7737[11]C h e n Y.Ac o m p a r i s o no f s y n o n y m o u sc o d o nu s a g eb i a s p a tGt e r n s i nD N Aa n dR N Av i r u s g e n o m e s:q u a n t i f y i n g t h e r e l a t i v ei m p o r t a n c e o fm u t a t i o n a l p r e s s u r e a n d n a t u r a l s e l e c t i o n[J].B iGo m e dR e s I n t,2013,2013:406342.D O I:10.1155/2013/406342[12]S u e o k aN.D i r e c t i o n a lm u t a t i o n p r e s s u r e a n dn e u t r a lm o l e c u l a re v o l u t i o n[J].P r o cN a t lA c a dS c iU S A,1988,85(8):2653G2657.D O I:10.1073/p n a s.85.8.2653[13]S u e o k a N.I n t r a s t r a n d p a r i t y r u l e so fD N A b a s ec o m p o s i t i o na n du s a g eb i a s e s o f s y n o n y m o u sc od o n s[J].JM o l E v o l,1995,40(3):318G325.D O I:10.1007/B F00163236(下转第38页)121期尚方建,等:新型冠状病毒(S A R SGC o VG2)的密码子偏爱性分析c h a l l e n g e[J].N a tC o mm u n,2020,11(1):4081.D O I:10.1038/s41467G020G17972G1[130]Z h uF C,G u a nX H,L i Y H,e t a l.I mm u n o g e n i c i t y a n d s a f e t y o f ar e c o m b i n a n ta d e n o v i r u s t y p eG5Gv e c t o r e dC O V I DG19v a cGc i n e i nh e a l t h y ad u l t sa ge d18y e a r so ro l d e r:ar a n d o m i s e d,d o u b l eGb l i n d,p l a ce b oGc o n t r o l l e d,p h a s e2t r i a l[J].L a n c e t,2020,396(10249):479G488.D O I:10.1016/S0140G6736(20)31605G6[131]陈薇,吴诗坡,侯利华,等.一种以人复制缺陷腺病毒为载体的重组新型冠状病毒疫苗[P].中国专利:202010193587.8,2020G06G02.[132]C h e n WH,S t r y c hU,H o t e z P J,e t a l.T h e S A R SGC o VG2v a cGc i n e p i p e l i n e:a n o v e r v i e w[J].C u r rT r o p M e dR e p,2020,3:1G4.D O I:10.1007/s40475G020G00201G6[133]v a n D o r e m a l e n N,L a m b eT,S p e n c e rA,e ta l.C h A d O x1n C o VG19v a c c i n e p r e v e n t sS A R SGC o VG2p n e u m o n i a i nr h e s u sm a c a q u e s[J].N a t u r e,2020,586(7830):578G582.D O I:10.1038/s41586G020G2608Gy[134]F o l e g a t t i P M,E w e rK J,A l e y P K,e t a l.S a f e t y a n d i mm u n oGg e n i c i t y o ft h e C h A d O x1n C o VG19v a c c i n ea g a i n s tS A R SGC o VG2:a p r e l i m i n a r y r e p o r to fa p h a s e1/2,s i n g l eGb l i n d,r a n d o m i s e d c o n t r o l l e dt r i a l[J].L a n c e t,2020,396(10249):467G478.D O I:10.1016/S0140G6736(20)31604G4[135]L o g u n o vD Y,D o l z h i k o v a I V,Z u b k o v aO V,e t a l.S a f e t y a n di mm u n o g e n i c i t y o f a n r A d26a n d r A d5v e c t o rGb a s e dh e t e r o l oGg o u s p r i m eGb o o s t C O V I DG19v a c c i n e i n t w o f o r m u l a t i o n s:t w oo p e n,n o nGr a n d o m i s e d p h a s e1/2s t u d i e sf r o m R u s s i a[J].L a n c e t,2020,396(10255):887G897.D O I:10.1016/S0140G6736(20)31866G3[136]K e e c hC,A l b e r tG,C h o I,e t a l.P h a s e1G2t r i a l o f aS A R SGC o VG2r e c o m b i n a n t s p i k e p r o t e i nn a n o p a r t i c l ev a c c i n e[J].NE n g l J M e d,2020,383(24):2320G2332.D O I:10.1056/N E JGM o a2026920收稿日期:2020G09G21㊀编辑:张智芳(上接第21页)[14]H eW,W a n g N,T a nJ,e t a l.C o m p r e h e n s i v e c o d o nu s a g e aGn a l y s i so f p o r c i n ed e l t a c o r o n a v i r u s[J].M o lP h y l o g e n e tE v o l,2019,141:106618.D O I:10.1016/j.y m p e v.2019.106618[15]Y a nY,S h i n W I,P a n g Y X,e t a l.T h e f i r s t75d a y so fn o v e l c o r o n a v i r u s(S A R SGC o VG2)o u t b r e a k:r e c e n ta d v a n c e s,p r eGv e n t i o n,a n d t r e a t m e n t[J].I n t JE n v i r o nR e sP u b l i cH e a l t h,2020,17(7):2323.D O I:10.3390/i j e r p h17072323[16]C h e n Y.Ac o m p a r i s o no f s y n o n y m o u sc o d o nu s a g eb i a s p a tGt e r n s i nD N Aa n dR N Av i r u s g e n o m e s:q u a n t i f y i n g t h e r e l a t i v e i m p o r t a n c e o fm u t a t i o n a l p r e s s u r e a n dn a t u r a l s e l e c t i o n[J].B iGo m e dR e s I n t,2013,2013:406342.D O I:10.1155/2013/406342[17]M o r i y a m aE N,P o w e l l J R.C o d o nu s a g eb i a s a n d t R N Aa b u nGd a n c e i n D r o s o p h i l a[J].J M o lE v o l,1997,45(5):514G523.D O I:10.1007/p l00006256[18]H o l m q u i s tG P,F i l i p s k i J.O r g a n i z a t i o no fm u t a t i o n s a l o n g t h e g e n o m e:a p r i m e d e t e r m i n a n t o f g e n o m e e v o l u t i o n[J].T r e n d sE c o l E v o l,1994,9(2):65G69.D O I:10.1016/0169G5347(94)90277G1[19]W a n g M,Z h a n g J,Z h o u J H,e t a l.A n a l y s i s o f c o d o nu s a g e i n b o v i n e v i r a l d i a r r h e av i r u s[J].A r c hV i r o l,2011,156(1):153G160.D O I:10.1007/s00705G010G0848G0[20]K a n d e e l M,I b r a h i m A,F a y e z M,e ta l.F r o m S A R Sa n d M E R SC o V s t oS A R SGC o VG2:m o v i n g t o w a r dm o r eb i a s e dc oGd o nu s a g e i n v i r a l s t r u c t u r a l a n dn o n s t r u c t u r a l g e n e s[J].JM e dV i r o l,2020,92(6):660G666.D O I:10.1002/j m v.25754[21]田明明,魏雪玲,杨兴,等.云南新现蝙蝠S A R S样冠状病毒密码子偏性及其聚类分析[J].中国人兽共患病学报,2018,34(12):1079G1086.D O I:10.3969/j.i s s n.1002G2694.2018.00.203[22]T o r tF L,C a s t e l l sM,C r i s t i n aJ.Ac o m p r e h e n s i v ea n a l y s i so f g e n o m ec o m p o s i t i o n a n d c o d o n u s a g e p a t t e r n s o fe m e r g i n g c o r o n a v i r u s e s[J].V i r u s R e s,2020,283:197976.D O I:10.1016/j.v i r u s r e s.2020.197976[23]F a u v e rJ R,P e t r o n e M E,H o d c r o f tE B,e ta l.C o a s tGt oGc o a s t s p r e a do f S A R SGC o VG2d u r i n g t h e e a r l y e p i d e m i c i n t h eU n i t e d S t a t e s[J].C e l l,2020,181(5):990G996.D O I:10.1016/j.c e l l.2020.04.021收稿日期:2020G07G27㊀编辑:张智芳83中国人兽共患病学报2021,37(1)。
大豆GmRAV基因的密码子偏好性分析
![大豆GmRAV基因的密码子偏好性分析](https://img.taocdn.com/s3/m/3fc85ad55022aaea998f0f84.png)
R V( e t B3V I转 录 因子 首 先 是 在 A R l e t A I/P ) ado 拟 南 芥 中被 克 隆 出来 的 ,含有 A 2E F B 两 种 P /R 与 3 D A结 合结 构 域 ” N I 豆 属于 光周期 敏感 的短 日照 。大 作 物 ,短 日照促进 其 开花 。据报道 ,在 大豆 中 ,虽 然短 日照 能够 强烈 诱导 大 豆叶 片 G R 基 因表达 , m AV
T M1 基 因抑 制 F E ) r的表 达从 而 抑 制 开花 。可见 , R V转 录 因 子 为短 日照 和 长 日照植 物 中光 周 期 开 A
花途 径 的 关键 抑 制 因子 。此外 ,有 报道 R V蛋 白 A 作为一 种转 录激 活物 ,定位在 细胞 核 中 ,能 够被病 原 、植 物激 素 以及 环境 压力所 诱 导 ,诱 导 防卫 基 因
1 材 料 与方 法
11 序 列来 源 .
不 同物 种 的基 因在 密 码 子 使 用 上 存 在 着 明显 的偏 好 性 ;不 同功 能 的 基 因其 密 码 子 使 用 偏 好 性 也 存 在 较 大 差 异 。分 析 密 码 子 的偏 好 性 对 于 外 源 基 因
大 豆 GR m AV转 录 因 子 ( e B n G n a k登 录 号
Unv ri , abn1 0 8 , i ; . o b a e e r si t , r e s r u ua nv ri, a i ies y H ri 0 1 Chn 2 S y e nR s a c I tue Not a t i l rl ie t H r n t 5 a h n t h Ag c t U sy b
第7 期
杨 春亮等 :大豆 G AV mR 基因的密码 子偏好性分析
密码子偏好性分析课件
![密码子偏好性分析课件](https://img.taocdn.com/s3/m/9e03c11b814d2b160b4e767f5acfa1c7aa008221.png)
现有的研究方法和技术还存在一 定的局限性,例如在数据采集、 处理和分析等方面,需要进一步
完善和改进。
研究的发展趋势与前景
随着基因组测序技术的不断发展,可以预见未来将有更多的物种基因组被测序,为 密码子偏好性研究提供更多的数据资源。
计算机科学和统计学的技术进步将为密码子偏好性研究提供更加高效和准确的分析 工具和方法,有助于揭示更深层次的规律和机制。
撰写报告
将分析过程、方法和结果写成报告,以供后续研究和参考。
03
密码子偏好性模型
建立模型
基于序列数据的统计模型
01
Hale Waihona Puke 利用序列数据,通过统计方法建立模型,分析密码子的使用偏
好。
基于基因组数据的机器学习模型
02
利用基因组数据,通过机器学习算法建立模型,预测密码子的
使用偏好。
基于生物信息的综合分析模型
03
数据分析
统计每个密码子的使用频率
根据计算方法得到的密码子使用频率数据进行排序和统计,得出 每个密码子的使用频率。
分析偏好性
对比不同种类生物的密码子使用频率数据,分析密码子的偏好性。
寻找热点密码子
根据统计分析结果,寻找热点密码子,即使用频率最高的密码子。
结果展示
制作图表
根据数据分析结果,制作条形图、饼图、柱状图等图表,直 观展示密码子的使用频率和偏好性。
其他因素
翻译后修饰
某些蛋白质在翻译后需要进行修饰,这种修饰可能会影响密码子的使用。
代谢途径
不同生物体具有不同的代谢途径,这可能会影响密码子的使用和偏好性的形成 。
05
密码子偏好性与蛋白质 表达
密码子使用与蛋白质表达关系
方格星虫线粒体全基因组密码子偏好性分析
![方格星虫线粒体全基因组密码子偏好性分析](https://img.taocdn.com/s3/m/ff387811b207e87101f69e3143323968011cf43f.png)
南方农业学报 Journal of Southern Agriculture 2023,54(9):2604-2613ISSN 2095-1191; CODEN NNXAABDOI:10.3969/j.issn.2095-1191.2023.09.011方格星虫线粒体全基因组密码子偏好性分析韩春丽,杨果豪,李天香,王健宇,熊忠萍,许尤厚,朱鹏,杨家林*,王鹏良*(北部湾大学海洋学院,广西钦州535011)摘要:【目的】探讨方格星虫线粒体基因组密码子偏好性,明确自然选择和基因突变对其密码子偏好性的作用,并充分利用密码子偏好性的特点,为方格星虫分子遗传改良提供科学依据。
【方法】根据方格星虫线粒体基因组序列,选取长度大于300 bp且以ATG开头的10个非重复基因序列为研究对象,运用CondonW 1.4.2分析方格星虫线粒体基因组密码子偏好性参数,通过中性绘图分析、ENC-plot分析、PR2-plot分析及对应分析明确方格星虫线粒体基因组密码子偏好性形成的主导因素,并依据高频密码子和高表达密码子筛选出方格星虫线粒体基因组最优密码子。
【结果】方格星虫线粒体基因组密码子的GC含量因位置而异,GC1、GC2和GC3的平均值分别为51.06%、40.19%和47.11%,GC 含量平均值为46.12%;ENC、CAI和CBI的平均值依次为50.022、0.150和-0.023;RSCU>1.00的同义密码子有31个,以A或C结尾的密码子占87.10%。
中性绘图分析结果表明,GC12与GC3无相关性,相关系数为0.05;ENC-plot分析结果表明,全部参试基因均位于标准曲线下方,说明方格星虫线粒体基因组密码子偏好性以自然选择为主导;PR2-plot分析结果表明,除ND6基因位于左侧x轴上外,其余9个参试基因全部分布在坐标系的第二象限;对应分析结果表明,前4轴的贡献率分别为23.86%、14.96%、12.21%和10.82%,在构建的平面坐标系内细胞色素C类基因分布相对集中,而NADH还原酶类基因分布较分散。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
最有密码子鉴定原则: 1,密码子的可变位点 (wobblebase)与细胞内浓度最高的tRNA的反义密 码子第一位互补; 2,tRNA的反密码子的可变位点为或5一梭甲基尿啼陡时相对于G更偏好 结尾为A的密码子; 3,反义密码子的可变位点为l(Inosine)时,更偏好结尾为U或C的密码子; 4,密码子若第一、二位均为A或U,则第三位更加偏好C。
(六)蛋白的疏水性水平以及氨基酸
保守性不同的基因编码序列其氨基酸含量有可能不同,一 方 面 ,稀有 氨基酸由于本身出现几率小,一旦使用某种密码子而其他密码子出现几 率更小;另 一 方 ,面对 于 比 较 保 守 的氨基酸不容易发生突变则其密 码子使用模式固定为序列本身组成。
研究方法
(一)研究指标
其中,n表示这个密码子所代表的氨基酸的同义密码子种类数目(1<n6), 戈代表第i个密码子的出现次数。RSCU是衡量密码子偏性较直观的一个参数。
密码子适应指数( Codon adaption index , CAI ) 该指数以一组具高表达水平的基因为参考 , 测量某一个基因的密码子偏 好情况和这些高表达基因密码子偏好情况的接近程度 , 如果一个基因完 全使用高表达基因中所用的密码子 , 则其 C AI 值为 1 。目前这个指数已 被广泛用来预测基 因 的 表 达 水平。
手段 ,通过比较核基因编码的核糖体蛋白和线粒体基 因编码的核糖体蛋白上密码子使用模式的差异来预测 未知蛋白的基因所在基因组位置。
(二)通过密码子使用偏好性的研究, 可以判定一些最优
密码子,针对这些密码子设计基因工程表达载体可以提高目 的基因的表达量 。 (三)利用密码子使用偏好性和某种功能的关联程度对某些 未知功能基因进行预测利用已知的密码子偏好知识对未知表 达水平 的 基 因 进行 判 定 初步判断该基因的表达水平高或 低。 (四)利用编码区和非编码区的基因组特征差异进行全基因 组扫描,发现新基因。 密码子使用偏性的影响因素:
如何在genebank中查找一基因的序列
(1)如果拥有基因accession号即可,在下拉按钮中选中Nucleotide, Search前输入accession号,直接会输出所需的基因序列。 (2)如果拥有基因ID号,也可以用ID号来查询,例如我们要查询一个ID 号为16151096 的基因
有效密码子数 ( Effective Number of Codon ,Nc)
C AI 测量的是某个基因所用的密码子与高表达基因所用密码子的接近程 度 。 和 C AI 不同 ,Nc测量的是某个基因的密码子偏好程度 , 如果一个 基因平均使用每一个密码子 ,则其 Nc 为 61 ,如果一个基因只使用每组同 义密码子中的一个 ,则其 Nc 为 20 。理论上讲 ,一个具有低 C AI 的基因 也可以同时具有低 Nc 值 ,换句话说 , 该基因具有较强的密码子偏好性 , 只不过其偏向的并不是高表达基因所用的密码子 。
由于密码子偏性的研究近年来一直是一个热点,因此研究的指标也出现 得很多,如可以衡量特定基因偏性大小的密码子偏爱指CBI(Morton1993) 和最优密码子使用频率 FOp(LavnerandKotlar2005),弥补了密码子的 相对嫡值的加Ew(Suzukietal.2004)等。多种多样的技术和方法促进了密 码子偏性的研究,但是也产生了一些的研究结果之间存在了的不一致, 特别是有些方法仅仅能运用于局限的物种或某些特定的基因中。因此在 使用这些新开发的方法时,必须了解每一种方法背后的假设和推论,才 能确保结果的正确性。
(三)tRNA丰度
(四)基因长度
(五)蛋白质的结构功能
基因密码子的使用与基因编码的蛋白的结构和功能有关 ,蛋白质的折叠 方式与序列之间存在一定的相关性 ,蛋白质的三级结构与密码子使用概 率有密切的关系。在不同物种中类型相同的基因具有相近的密码子使用 模式 。对于同一类型的基因由物种引起的同义密码子使用偏性的差异较 小。
计算公式:
ቤተ መጻሕፍቲ ባይዱ
其中p,表示密码子i的使用频率,n是所有密码子的数目
GC 和 GC3s G C 测量的是基因中 G 和 C 的含量 。G C 3s 则计算密码子第三个碱基 中出现 G 或 C 的频率 。一般认为这两个因素对基因的密码子选择有重 要影响。 GC content 不同物种GC含量变化很大 识别基因水平转移,判断外源基因 GC skew (G-C)/(G+C)% 预测细菌或古细菌复制起点
同义密码子(Synonymous Codons):编码同一氨基酸
的密码子。
在蛋白质编码过程中, 某一物种或某一基因通常倾向
于使用一种或几种特定的同义密码子, 这种现象称为 同义密码子的使用偏性(Synony mous Codon Usage Bias)
研究密码子使用偏性的意义: (一)作为预测真核生物核糖体在细胞内定位的一种
如图
分析结果如下:
结果如下:
同样,可计算出密码子适应指数:
Sequence: AY047586.1 CAI: 0.109
用chips计算出有效密码字数: # CHIPS codon usage statistics Nc = 48.082
计算同义密码子相对使用频率(relative frequency of synonymous codon,RFSC)
(一)基因序列碱基组成的偏好性
在不存在自然选择压力 的 情 况 下, 一定方向的突变压会影响序列本 身的碱基组成 ,而这一效应同时也会反映在同义密码子的第 3位上。这 样 的偏好性仅仅是反映了序列组成的特征,而与蛋白功能或表达水平无 关。
(二)弱的自然选择效应
对于所有密码子家族来讲,即使存在密码子偏好性,由于同义密码子并 不改变最终的蛋白产 物。所以对于那些频繁被使用的密码子的选择性被 认为是很弱的。但是这种弱的选择会体现在基因表达水平上。在高表达 的基因中,密码子使用偏好性要强过一 般表达的基因。
密码子偏好性分析
陈永红 孟如月
制
密码子是核酸携带信息和蛋白质携带信息间
对应的基本原则, 是生物体内信息传递的基本 环节。在生物的遗传密码中, 除色氨酸和甲硫 氨酸只有一个密码子外, 其余氨基酸都有一个 以上的简并密码子。对同一物种, 不同蛋白编 码密码子在基因中出现的频率不同; 就同一种 氨基酸而言, 编码该氨基酸的不同密码子的比 率在不同的蛋白中也有差异, 因此生物体基因 对简并密码子的选择具有一定的偏爱性。
其中RSCUmax、是高表达参照基因中,每一个氨基酸里使用频率最高的密码子的相对同义密码子使用频率,L是基因中 密码子的个数
高 频 密 码 子与最优密码子
某一密码子相对同义密码子使用频率单值超过60% 或者超过该组同义密 码子平均占有频率的1.5 倍的密码子即为高频码子。 最后采用高表达优越密码子分析方法先,计算每个基因的密码子有效数 和相对同义密码子用法, 然后再根据各 Nc值确 定高表达和低表达样本 组,计算出这两个样本组中各个密码子各自的值,最后通过卡方检验确 定出高表达基因的优越密码子确定最优密码子。
进行查询
如只需要基因序列而不需要详细信息,则需点击TASTA
如需进行图文分析,则点击Graphics
计算同义密码子相对使用度(Relative synonymous codon
usage, RSCU) 在genebank中取出序列后,用codonw进行在线分析
结果如下:
利用cusp计算密码子Franction和Frequency。 Franction:各个密码子在编码该氨基酸的密码子中所占的比例。 Frequency:该密码子在编码总基因密码子中出现的频率。
研究方法
基因样本的选择
GeneBank ( http: / /www.ncbi.nlm.nih.gov / ) 中获得,样本选择原 则: ①样本为全长蛋白质编码基因序列( CodonDNA sequence,CDS) ; ②CDS 长度大于 300bp; ③对于基因家族成员仍包含于分析样本内; ④不包括非研究类别基因序列;
反映的是在样本总数中各个密码子的使用频率,即某一密码子在样本中 的实际观察值与该密码子对应的氨基酸在样本中的实际观察值的比值。 用软件codonw(/)来计算。
同义密码子相对使用度(Relative synonymous codon usage, RSCU):它是 指对于某一特定的密码子,在编码对应氨基酸的同义密码子间的相对概率,去除 了氨基酸组成对密码子使用的影响。该值的计算方法为某一密码子所使用的频率 与其在无偏使用时预期频率之间的比值,如果密码子的使用没有偏好性,该密码 子的RSCU值等于1,当某一密码子的RSCU值大于1时,代表该密码子为使用相 对较多的密码子,反之亦然 。