蛋白质Cα原子接触数理论分析及modi

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

蛋白质Cα原子接触数统计分析及应用*
章社生, 范宁,何康,王星
(武汉理工大学统计系, 武汉430070)数字技术与应用
______________
*武汉理工大学自主创新研究基金资助(批准号)资助项目,
*国家自然科学基金(批准号)资助项目
作者简介:章社生,男,1955出生年,教授,博士,email: ;
联系地址:余家头联盟小区9-3-402,电话:
摘要
Cα是蛋白质分子中重要原子,是蛋白质折叠和设计中重要研究对象。

根据α-氨基酸和Cα原子的理化特性,本文研究蛋白质中Cα原子空间拓扑结构,引入Cα原子接触数的概念,讨论了蛋白中Cα原子数目比重、平均接触数以及平均接触数变化率。

发现在蛋白质中,多于65%Cα原子间距大于3个原子单位,间距在4-10之间时,平均接触数变化率波动大,且Cα原子分布不均匀。

关键字
蛋白质; Cα原子;接触数;数字特征;
The statistical analysis and application of the contact
number of Cα atoms
Zhang She-sheng、He Kang、Wang Xing、Fan Ning Department of Statistics, Wuhan University of Technology, Wuhan.430070 Financially supported by self-determined and innovative research funds of WUT (Grant No. )
The granted project of the National Natural Science Foundation of China (Grant No. )
Email:
Abstract
Cα plays an important role in protein, as well as in the study of protein folding and design. According to the physical and chemical properties of α-amino acid and Cα atoms, the study of Pr otein topology in Cα atoms is concerned in detail. With the introduction of the concept of contact number of Cα atoms, the atomic number proportion of Cα atoms in protein. The average contact number and average rate of change of contact number are discussed respectively. Consequently, the interatomic distance of more than 65% of Cα atoms is greater than 3 o A; also the average rate of
change of contact number fluctuates drastically within the distance between 4 to10
o A.
Additionally, the distribution of Cα atoms is fairly uneven.
Keyword
Protein; Cα atom s; contact number; digital features;
1、引言
虽然基因组规定了蛋白质的氨基酸序列,但是,蛋白质只有折叠成特定的空间构象才能具有相应的活性和相应的生物学功能,蛋白质结构构象多样性导致了不同的生物学功能。

研究蛋白质的结构,有助于了解蛋白质的作用,了解蛋白质如何行使其生物功能,认识蛋白质与蛋白之间的相互作用,这无论是对于生物学还是对于医学和药学,都是非常重要的。

目前,研究蛋白质结构普遍使用的是实验,理论分析和计算。

学者江凡[1]介绍了X射线晶体学、二维核磁共振(2D-NMR)和低温冷冻电镜等蛋白质空间结构的实验测定方法。

应用这些方法,已测定大量蛋白质空间结构,并以PBD等文件形式贮存在公共数据库中,免费供世界各地研究者使用。

文献[2]应用统计分析方法,利用数据挖掘中的数据分布拟合理论对生物科学领域中的蛋白质侧链空间结构进行统计分析。

以世界上广泛使用的生物分子三维结构数据库PDB为基础,利用残基侧链碳原子间距离的统计分析方法,通过正交试验设计和信息论中的熵函数等相关知识,给出了不同位置、不同氨基酸残基种类对侧链结构的影响. 文献[3-4]用统计和几何方法给出了氨基酸在蛋白质空间结构中的深度计算,并利用PDB数据库得到了不同氨基酸在蛋白质中的深度倾向性因子,并得到了这些倾向性因子与氨基酸的物理、化学综合特性的相关
性质。

文献[5]就蛋白质结构预测的方法和应用进行了综述,介绍了比较建模、折叠识别、从头计算等3种方法及其在结构基因组学研究、药物设计、蛋白质设计中的应用,并且对蛋白质结构预测存在的主要问题进行了讨论,指出了今后蛋白质结构预测研究重点在于优化比对算法和计分函数以及膜蛋白的结构预测. 文献[6]以“相对熵”作为优化函数, 仅用蛋白质主链上的两两连续的Cα原子间的距离信
息以及20 种氨基酸的接触势的一个扩展形式,提出了一个有效快速的折叠预测优化算法,对几个真实蛋白质做了算法测试,预测构象相对于它们天然结构的均方根偏差(RMSD) 为5~7a.u, a.u为原子单位,本文坐标和距离所用单位皆为原子单位,且省略书写单位符号a.u。

文献[6]的工作表明Cα原子在α-氨基酸中的重要作用决定着整体分子的性质与物理形态。

但文献[6]没有计算Cα原子的接触数及其数学特征。

文献[7-9]讨论了蛋白质的结构和性质,认为Cα是研究蛋白质的一个生不可缺少的原子,有必要进一步研究。

因而,应用数理统计方法,研究蛋白质中Cα构成的空间拓扑结构及其数字特征有助于蛋白质的折叠预测和设计。

本文将研究蛋白质中Cα原子,文中第二节在简述Cα原子在蛋白质中的化学性质的基础上,给出Cα接触数的定义;第三节讨论接触数的计算;第四节对接触数的计算结果进行分析。

2、Cα原子接触数理论分析
蛋白质二级结构指蛋白质分子中某一段肽链的局部空间结构,即该段肽链主链骨架原子的相对空间位置,并不涉及氨基酸残基侧链的构象。

而肽键平面是二级结构的基础,这些肽键存在于氨基酸之间。

因此我们深入分析α-氨基酸,并且对其组成成分Cα进行讨论。

2.1、α-氨基酸的分析
α-氨基酸是蛋白质的主要组分,是生物体中最重要的氨基酸。

蛋白质分子是由上百或更多的作为单体缩合而成的由20种α-氨基酸构成的多肽链组成的。

所谓α-氨基酸是指氨基连在羧酸的α位,-COOH和-NH2连接在同一个C原子上。

α-氨基酸的立体结构除甘氨酸外,Cα原子上所连结的4个基团都不相同,因此存在立体异构体,其绝对构型见图1。

每个氨基酸或其残基中羧酸根α位上的Cα原子直接与氢原子、氨基和侧链R基相连。

图1、α-氨基酸结构通式图
对于蛋白质分子的结构层次,蛋白多肽链往往不是一个完全伸展的链。

肽键因具双键成分而无旋转的自由,但它周围的每个Cα原子与相邻两个肽键中的氮和碳原子所形成的Cα-N和Cα-Cα单键都具有较大的回旋余地,从而一个多肽键可能存在于不计其数的构象或立体结构中,其中有些构象使未成键原子间形成较多较强的氢键并产生其他能使整个分子趋于稳定的相互作用。

2.2、Cα原子分析
Cα原子指的是对应残基上最接近羰基的碳原子,是主链骨架的组成原子。

在α-氨基酸中,如图2所示,“Cα”原子连接着4个不同类别的原子或基团:一个氨基、一个羧基、一个氢原子(略去氢原子)和一个条侧链。

图2、α-氨基酸结构示意图
2.3、Cα原子接触数概念
在一个蛋白质分子中,Cα原子被视为主链的关节,起到了 “桥梁”的作用。

然而Cα原子分布散布于整个分子空间(如图3)。

若想对化学键、转角等进行深入分析之前,必须先初步掌握该原子的分布情况、转角特点等。

为了方便问题研究,我们引入接触数的概念。

图3、肽键平面和Cα示意图
假设:
① 某个蛋白质分子包括N 个原子,其中有n 个Cα原子,记为CA1,CA2,…,CAn 。

② 所有的原子散布在蛋白质分子空间。

简化处理分子结构,选择以原子为基准的立体空间结构(不考虑其他的基团)。

接触数的定义:
对于第i 个Cα原子CAi ,坐标(x i ,y i ,z i )。

以CAi 为球心,r 为半径作一个球
Ω,统计Ω内部包含的Cα原子的个数(不包括CAi ),记为K i ,即球Ω内部除CAi 外包含有K i 个Cα原子。

则我们称K i 为CAi 原子的接触数(contact number)。


11n
i i K K n ==∑ 则K 为该蛋白质分子Cα原子的平均接触数。

显然,i K 及K 是关于r 的增函数(不是严格递增),表示为:
()()i i K K r K K r ==
3、接触数计算方法
3.1、数据预处理
(1)导入目标数据。

即打开已有的1653个蛋白质分子PDB 文件,选择每个分子中所有ATOM 的相应数据导入。

(2)提取与统计数据。

重点利用PDB 文件中原子(尤其是Cα原子)的信息。

3.2、 蛋白质平均接触数的计算
对某蛋白质分子,从已提取出来的数据中读取原子坐标信息。

(1)构造距离矩阵}{n n ij d D ⨯= 。

其中ij d 表示CAi 与CAj 之间的距离,即
ij d =(2)对于每一个Cα原子CAi ,以其为球心,求在半径为r 时,该原子的接触数()r K i 。

(){}
|,1,2,1,1,i ij K r card j d r j i i n =≤=-+…,?,
()A card 表示集合A 中元素的个数。

(3)计算该蛋白质分子Cα原子的平均接触数。

()()11n
i i K r K r n ==∑ (4)计算该蛋白质分子所有Cα原子接触数的方差:
()()()
211()n
i i Var r K r K r n ==-∑ (5)计算r 取不同值时,平均接触数()r K 以及接触数方差()r Var ,并绘制()r K ~r ,()r Var ~r 曲线。

(说明:从r=1开始,以1为步长增加,直到调整r 恰好将所有的Cα原子包括即结束)
4、数据结果分析
对1653个蛋白质PDB数据处理计算,将结果进行分析,得到以下的结论:
4.1、对所考察蛋白质的整体分析
(1)C原子数目百分比:
蛋白质分子由4个基本原子C,H,O,N组成。

在蛋白质中,Cα原子数量为蛋白质
中原子数量的百分比在6.599--15.76范围内,尤其集中在11%-14%范围,见图4;1653个蛋白质分子平均百分比为12.65%,所占比重不大。

图4、所考察蛋白分子中C原子所占百分比分布图
(2)平均接触数:
在相同的半径下,对所考察的全部蛋白质分子的平均接触数求均值,结果见
表1。

表1、所考察蛋白质在不同半径下平均接触数的均值
r 1 2 3 4 5 6 7 8 9 10 K 0.0039 0.0074 0.0041 2.0033 2.5300 5.3943 7.8155 9.4814 12.575 16.777
r 11 12 13 14 15 16 17 18 19 20 k 22.043 27.066 32.891 39.3 46.426 53.621 60.99 68.295 76.061 84.061
结合上表和图5,可以看出,在一个Cα原子的半径为3au的球空间内几乎
没有其他的Cα原子出现。

一般情况下,之间的间距是大于等于3au。

随着半径
增加,平均接触数也累积增加。

值得补充的是,这里只考察半径为20以下的情
况。

事实上蛋白分子中Cα原子数目有限,所以在r达到一定值后,平均接触数稳定为一个具体值。

进一步,通过绘制若干个蛋白质分子()r
K~r关系曲线,发现走势相近。

图5、所考察蛋白质在不同半径下平均接触数均值曲线图为了分析不同蛋白质中Cα原子分布的共性与差异,计算所考察蛋白质在各半径下接触数的方差。

结果见下表2:
表2、所考察蛋白质分子在不同半径下平均接触数方差
半径r=1 r=2 r=3 r=4 r=5 r=6 r=7 r=8 r=9 r=10 方差0.00 0.00 0.00 0.01 0.02 0.20 0.33 0.84 2.11 5.16
半径r=11 r=12 r=13 r=14 r=15 r=16 r=17 r=18 r=19 r=20 方差10.95 20.68 35.21 58.40 90.67 133.04 188.87 263.84 357.95 479.75 从上表中看出,半径在8以内,各蛋白质之间差异很小(平均接触数的方差在1以内);随着半径增大,差异慢慢体现出来,所考虑的半径越大,差异越显著。

这证明了不同的蛋白质分子具有共性与特性的事实。

(3)平均接触数变化率:
在这里我们引入接触数变化率的概念:接触数变化率k指的是单位空间体积
平均接触数变化大小。

定义为:
()()()033
()()
lim 43r K r r K r k r r r r π∆→+∆-=+∆- 为便于计算,离散化处理,取近似值:
()()()
33
(1)()
413K r K r k r r r π+-≈+- ()r k 主要反映C 原子在半径为r 的球面附近,单位体积包含的C 原子个数。

研究平均接触数变化率(图7),所考察整体蛋白分子的平均接触数变化率在波动中递减。

平均接触数变化率在半径3处为转折点。

即在半径0-3之间,几乎没有变化(为0);在半径3-4的同心球的过渡空间内,平均接触数骤升。

从半径为4的球面向半径为10的同心球面渐近时,出现较大的振荡。

然而在半径10以后的空间内,一致递减,直至Cα原子全部包含于球内。

图7、所考察的蛋白质在半径以步长1变化的平均接触数变化率曲线
进一步,为了深入分析半径在4到10之间变化率的波动情况,将步长缩小至0.5,通过图8,可以看出波动情况基本保持一致,保证其收敛性。

图8、所考察的蛋白质在半径以步长0.5变化的平均接触数变化率曲线
综合分析,蛋白质分子Cα原子的平均接触数变化率是先突增,进而在波动中缓慢减小至0。

通过k(r)可以侧面反映Cα原子分布不均。

该研究为预测蛋白质氨基酸的位置等物理性质提供依据;也从数学的角度定量化说明了蛋白质的结构组成。

通过定量的分析,利用结构规律统计方法,我们猜测一般蛋白质分子中存在相似的性质:分子中只有一定量的Cα原子;任意两个Cα原子存在一定间距;并且分布不均匀,不同单位体积内Cα原子密集程度不同。

4.2、对个体蛋白分子的分析
由于蛋白质总数多,结构各异,很难一一进行说明。

针对每一个蛋白质分子的特性区别,我们随机选择一些蛋白质分子详细分析。

具体算例:蛋白质分子
1EXS
在1EXS蛋白分子中,总共有1248个原子构成,其中有160个Cα原子,约占总原子数的12.74%。

作出1EXS分子在不同半径下接触数曲线图(图9),在半径r>3后,才会出现相邻的Cα,即该分子的一个Cα原子独立空间体积至少是半径为3的球空间。

这与由整体平均得到的结论是一致的。

在r=10到25左右,平均接触数增长迅速。

图9、1EXS分子不同半径下接触数曲线图
同理,从表3看出,Cα原子的附近与远处只有少数的Cα存在。

大致在r=45时,平均接触数达到饱和。

根据Cα原子是蛋白质肽链中主链的“骨节”,贯穿于始终,因此,我们推断该蛋白质分子的立体空间半径可能在50左右。

表3、1EXS分子不同半径下平均接触数取值表
r k r k r k r k r k
1 0 11 21.49 21 91.86 31 150.63 41 158.86
2 0 12 26.61 22 99.39 32 152.71 42 158.93
3 0 13 32.55 23 106.75 33 154.76 43 158.94
4 2.01 14 39.04 24 114.47 34 156.1 44 158.97
5 2.48 15 46.8 25 121.69 35 157.14 45 159
6 4.84 16 54.1
7 26 128.45 36 157.7
8 46 159
7 7.39 17 61.59 27 134.22 37 158.16 47 159
8 9.18 18 68.72 28 139.47 38 158.53 48 159
9 11.86 19 76.36 29 144.2 39 158.7 49 159
10 16.39 20 84.2 30 148 40 158.8 50 159
基于以上分析,得到半径3为出现接触数的分界点。

观察平均接触数变化率曲线(图10),其走势也与又整体平均得到的结果基本吻合(如图7)
Var~r曲线
图10、1EXS分子C平均接触数变化率图11、1EXS ()r
进一步研究该蛋白分子所有Cα原子接触数方差(图11),随着半径的增加,Cα原子之间接触数差异就会增加,离散程度明显;当半径增加到20后接触数差异又缩小(原因是此时r逐渐包括了该蛋白分子所有的Cα原子,各Cα原子接触数的差异逐渐变小)。

这验证了我们的推测——Cα原子的分布不均匀,不同的Cα原子有不同的特性,有些Cα原子附近没有多少Cα原子(接触数较小),而有些附近则有很多Cα原子(接触数较大)。

因此对于1EXS分子,半径20处可以作为研究Cα原子特征的参考方法。

5、总结与应用
在蛋白质空间结构研究进程中,二级空间结构的科学研究突破已较为成熟,可以利用数学知识、统计原理等理论,从不同的角度应用与改进。

针对α-氨基酸主链骨架的组成原子—Cα原子,我们引入接触数概念,定量与定性相结合,利用结构规律统计与计算机模拟手段,对1653个研究对象进行了处理分析,分别
K~r关系曲线、接触数变化率等进行了对蛋白质分子中Cα原子的接触数,()r
讨论。

通过信息收集整理探索,得到了较为满意的效果。

其中,在每个蛋白分子中Cα原子并不是大量存在,一般占所有原子数目的11%-15%。

然而任意一个Cα原子都不尽相同,各有各的表征性质。

一般的,每一个Cα原子都有自身专有“空间区域”,互不干扰且分布不均;大多数Cα原子的间距都在r=3以上。

同时根据平均接触数变化率波动较大,可以推测出Cα原
子较为密集的空间。

本文是关于生物、统计学科结合的研究,在数字表征、数据挖掘层面上,分析了二级结构α--氨基酸的关节Cα原子,为人工组合蛋白质提供了数字支持。

同时也对氨基酸理化特性指出了以Cα原子为基准的新方向。

本文下一步工作为:研究不同类别蛋白质和氨基酸中Cα原子的空间分布数学特征。

6、参考文献
[1] 江凡; 蛋白质空间结构的实验技术和理论方法; 物理, 2007(4), 272-279.
[2 王昕, 毛炳蔚, 王福伟, 张婧; 蛋白质空间结构的统计分析,山西大同大学学报(自然科学版), 2008,(5):3~8
[3] 沈世镒胡刚张华;氨基酸在蛋白质空间结构中的深度倾向性因子; 生物数学学报,2007,(7):305~310
[4] 沈世镒; 胡刚; 张华; 蛋白质空间形态特征分析与计算方法; 工程数学学报;
2006,(2):225~234.
[5] 宁正元; 林世强;蛋白质结构的预测及其应用;福建农林大学学报(自然科学版), 2006(3),308-313;
[6]卢本卓,王存新,王宝翰;用于真实蛋白质结构预测的一种新的优化方法;化学物理学报;2003(2), 117-121;
[7] E. Faraggi, Y. Yang, S. Zhang and Y. Zhou, Predicting continuous local structure and the effect of its substitution for secondary structure in fragment-free protein structure prediction[J], Structure, 2009,17:1515~1527.
[8] S. Liang, G. Wang, and Y. Zhou, Refining near-native protein-protein docking decoys by local re-sampling and energy minimization[J], Proteins, 2009, 76, 309~316.
[9] B. Xue, E. Faraggi, and Y. Zhou, Predicting residue-residue contact maps by a two-layer, integrated neural-network method[J], Proteins, 2009,76:176~183.。

相关文档
最新文档