基于盒维数原理计算蛋白质的分形维数
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
本文采用的模拟方法如下: 首先从 PDB 数据库中 搜索到目标蛋白质分子的结构文件[12], 将其分子中各 原子坐标记为 Pi(xi, yi, zi). 检测坐标值, 得到这些原子 坐标中的最大值 Amax=max(xmax, ymax, zmax)和最小值 Amin=min(xmin, ymin, zmin), 令 δt (t=0, 1, ..., n-1)为取定 尺码且:
摘要 蛋白质表面的粗糙性和内部结构的不规则性具有明显的分形特征. 依据直观的盒维数原理对 PDB 库中收录的典 型酶蛋白、球蛋白和膜蛋白共 72 种蛋白质的分形维数进行了简洁地模拟计算. 数据表明: 蛋白质的分形维数(Df)介于 1~3 之间; 分形方法可定量描述蛋白质分子结构的复杂性, 即 Df 值越大, 蛋白结构越复杂; Df 与残基数的不同步性证 明蛋白质分子并不是简单的肽段堆积, 而是存在特定的空间结构; 同功能酶蛋白具有相近的 Df 值表明分维是区别于各 种宏观参量而对蛋白质微观结构与功能进行表征的有用工具. 关键词 分形; 蛋白质; 盒维数; 模拟; 计算; 结构
δ
=
t
Amax- Amin t
(t=1, 2,", n)
(1)
生成 n 种不同的边长为 δt 的正方体盒子, 用来覆盖 整个坐标空间, 设第 n 个盒子中的原子个数为N(δt), 则 随着 δt 的不断减小, 得到一系列 δt 和相应的 N(δt), (t=0, 1, …, n-1). 采用最小二乘法对[logδt, logN(δt)]作 一元线性回归分析, 可得到该蛋白分子的盒维数 Df:
1F14
310
121.58 37.005 2.23402 5
L-lactate dehydrogenase Glyceraldehyde-3-phosphate dehydrogenase Class I alcohol dehydrogenases
1LLC
325
1B7G
340
1HSO
374
135.41 127.08 131.89
n −1
n-1
∑ ∑ Df= [log N (δt ) ⋅ logδt ] /
log
δ
2 t
(2)
i=0
i=0
模拟原理如图 1 所示. 上述模拟计算可利用 MATLAB 编程实现, 进而求得各种蛋白质分子的分形 维数.
图 1 基于盒维数原理计算蛋白质分形维数的示意图 Figure 1 Fractal calculation of proteins based on box dimension
1144
化学学报
Vol. 68, 2010
则的, 即蛋白质具有极强的局部与整体相似性, 这是明 显的分形特征, 属分形理论研究的范畴. 同时计算科学 的飞速发展, 为分形维数的模拟计算提供了可能, 部分 学者[1~3]通过蛋白质分子链长 L(M)与测量残基数 M 之 间的幂函数关系 L(M ) ∝ M 1-Df (Df 为链分形维数), 求 得许多蛋白质分子的分形维数, 结果大多介于 1~3 之 间[1~6]. 盒维数法也是较常用的计算分形维数的方法, 它因计算简便、形象直观, 应用极为广泛, 但当其用于 计算蛋白质的分维时, 几乎均需借助实验获得的图像再 经软件处理方能得到实验结果[7~9].
No. 11
彭 鑫等:基于盒维数原理计算蛋白质的分形维数
1145
Oxidoredutase Transferas Hydrolase
表 1 蛋白质分子分形结构盒维数模拟计算结果 Table 1 Calculated box dimension of proteins
Proteins
Accessible
蛋白质是生物体内各种生命活动的主要参与者. 为 体现不同的生理功能, 蛋白质的空间结构极为独特复 杂, 并在一定标度范围内表现出明显的分形(Fractal)特 征[1~3], 这是由其自身组成规律与结构特点所决定的, 例如: 从蛋白质的链结构分析, 其链段是一条弯曲的折
线, 而弯曲的形态不随观测尺度的变化而改变, 这是一 种统计意义上的相似性或称标度不变性, 属分形分析研 究的对象; 又如: 从蛋白质空间立体结构分析, 其分子 内具有各种不规则的“洞穴”、“缝隙”和“折皱”, 进 一步观测发现这些微观结构内部也是凹凸不平、极不规
2010 年第 68 卷 第 11 期, 1143~1147
·研究简报·
化学学报
ACTA CHIMICA SINICA
Vol. 68, 2010 No. 11, 1143~1147
基于盒维数原理计算蛋白质的分形维数
彭 鑫 a 张雨薇 a 齐 崴*,a,b 苏荣欣 a,b
吴少敏 a,b
何志敏 a,b
(a 天津大学化工学院化学工程研究所 天津 300072) (b 天津大学化学工程联合国家重点实验室 天津 300072)
1E9O
152
58.87 17.516 1.98686 2
Glutathione peroxidase
1GP1
198
72.70 24.343 2.08131 3
Catechol oxidase
1BT3
345
111.67 44.352 2.28239 4
L-3-hydroxyacyl-CoA dehydrogenase
本文根据分形理论中的盒维数原理对 PDB 库中收 录的多种酶蛋白、球蛋白和膜蛋白的分形维数进行纯模 拟计算, 并剖析分维与结构的关系, 相关工作可为蛋白 质结构与功能关系的研究提供有益参考和新的思路.
1 模拟原理
盒维数(Box Dimension)作为分形维数的一种, 比豪 斯多夫维数更容易计算, 是分形分析中较为直观实用的 一种, 实际应用中可形象地理解为在集合 F 中(可以是 面或体), 构造一些边长为 δ 的正方形(体)或称为盒子, 并用其去覆盖集合, 计算不同 δ 值的“盒子”和F相交 的个数 N(δ), 由 N(δ)与 δ 在双对数坐标系中直线的斜率 值可求得盒维数[10,11].
3 分析与讨论
3.1 维数范围 所得蛋白质的分形维数 Df ∈ (1,3) , 这和很多学者
的研究吻合. 如果将肽段视为一维线状结构, 那么二级 结构的维数一定大于 1, 但又无法达到二维平面的维数, 因此各种二级结构的维数处于 1~2 之间, 同理更高级 的空间结构具有比二级结构更大的维数, 但即使是空间 四级结构, 也无法形成充实的三维体系. 因此, 蛋白质 的分形维数 Df ∈ (1,3) . 3.2 维数规律
* E-mail: qiwei@tju.edu.cn Received September 4, 2009; revised December 2, 2009; accepted January 25, 2010. 国家自然科学基金(No. 20976125)、863(No. 2008AA10Z318)、教育部新世纪优秀人才(2008)和科学技术研究重点(No. 108031)资助项目.
Abstract Proteins with rough surfaces and irregular structures are characteristic of fractal nature. Fractal dimensions of a set of 72 proteins including typical enzyme, globulin and membrane protein selected from PDB database were calculated based on the principle of intuitive box dimension. The results showed that fractal dimensions of proteins were between 1 and 3, and the more complicated structure a protein has, the larger value of fractal dimension the protein is, so the fractal theory could be used to quantitatively describe the complexity of proteins structure. The discordance between fractal dimensions and the number of residues demonstrated that proteins not only were composed of peptide chains, but also had the specifically spatial structure. The close Df values of the enzymes with similar function indicated that Df , differed from a variety of macro-parameters, was a useful tool for the characterization of micro-structure and function of proteins. Keywords fractal; protein; box dimension; simulation; calculation; structure
The number of
Volume/ Fractal
PDB ID residues
surface area/ nm3
nm2
No. dimension Df
Reduced superoxide dismutase
1SXA
151
Leabharlann Baidu
59.75 17.714 1.93763 1
Superoxide dismutase
维数是对体系粗糙度的一种表征, 即维数越大体系 越粗糙[13~16]. 对于蛋白质而言, 分形维数 Df 越大, 该分 子将具有越复杂的空间结构. 在表 1 中牛血红蛋白 (Bovine Hemoglobin, 第 70 号)是相对较为复杂的生物大 分子, 具有四级结构, 因此其分形维数 Df 也是模拟结果 中极大的; 相反, 一些结构简单的蛋白分子, 其功能较 单一, 结构层次也较简单, 因此分形维数 Df 相对较小 (不大于 2), 如: 膜蛋白. 此外, 本文中 72 种蛋白质的平 均分形维数 Df 为 2.12, 接近于随机运动的分形维数 2[5,6].
42.027 2.14852 6 44.106 1.96111 7 48.404 2.18326 8
NADPH-FMN oxidoreductase
1BKJ
240
108.94 29.589 1.97909 9
CHO reductase
1C9W
315
117.01 43.484 2.28239 10
Ferric reductase Coenzyme F420H2:NADP+ Oxidoreductase Laccase
Fractal Analysis of Proteins Based on Box Dimension
Peng, Xina Zhang, Yuweia Qi, Wei*,a,b Su, Rongxina,b Wu, Shaomina,b He, Zhimina,b
(a Chemical Engineering Research Center, School of Chemical Engineering and Technology, Tianjin 300072) (b State Key Laboratory of Chemical Engineering, Tianjin University, Tianjin 300072)
(a) Bovine hemoglobin (1G08); (b) Human serum albumin (1A06)
2 模拟结果
选择 PDB 库中大量代表性酶和蛋白质的结构文件, 计算得到这些蛋白质分子的分形盒维数(表 1), 同时记 录该分子的 PDB ID, 残基数, 可及表面积和分子体积.
摘要 蛋白质表面的粗糙性和内部结构的不规则性具有明显的分形特征. 依据直观的盒维数原理对 PDB 库中收录的典 型酶蛋白、球蛋白和膜蛋白共 72 种蛋白质的分形维数进行了简洁地模拟计算. 数据表明: 蛋白质的分形维数(Df)介于 1~3 之间; 分形方法可定量描述蛋白质分子结构的复杂性, 即 Df 值越大, 蛋白结构越复杂; Df 与残基数的不同步性证 明蛋白质分子并不是简单的肽段堆积, 而是存在特定的空间结构; 同功能酶蛋白具有相近的 Df 值表明分维是区别于各 种宏观参量而对蛋白质微观结构与功能进行表征的有用工具. 关键词 分形; 蛋白质; 盒维数; 模拟; 计算; 结构
δ
=
t
Amax- Amin t
(t=1, 2,", n)
(1)
生成 n 种不同的边长为 δt 的正方体盒子, 用来覆盖 整个坐标空间, 设第 n 个盒子中的原子个数为N(δt), 则 随着 δt 的不断减小, 得到一系列 δt 和相应的 N(δt), (t=0, 1, …, n-1). 采用最小二乘法对[logδt, logN(δt)]作 一元线性回归分析, 可得到该蛋白分子的盒维数 Df:
1F14
310
121.58 37.005 2.23402 5
L-lactate dehydrogenase Glyceraldehyde-3-phosphate dehydrogenase Class I alcohol dehydrogenases
1LLC
325
1B7G
340
1HSO
374
135.41 127.08 131.89
n −1
n-1
∑ ∑ Df= [log N (δt ) ⋅ logδt ] /
log
δ
2 t
(2)
i=0
i=0
模拟原理如图 1 所示. 上述模拟计算可利用 MATLAB 编程实现, 进而求得各种蛋白质分子的分形 维数.
图 1 基于盒维数原理计算蛋白质分形维数的示意图 Figure 1 Fractal calculation of proteins based on box dimension
1144
化学学报
Vol. 68, 2010
则的, 即蛋白质具有极强的局部与整体相似性, 这是明 显的分形特征, 属分形理论研究的范畴. 同时计算科学 的飞速发展, 为分形维数的模拟计算提供了可能, 部分 学者[1~3]通过蛋白质分子链长 L(M)与测量残基数 M 之 间的幂函数关系 L(M ) ∝ M 1-Df (Df 为链分形维数), 求 得许多蛋白质分子的分形维数, 结果大多介于 1~3 之 间[1~6]. 盒维数法也是较常用的计算分形维数的方法, 它因计算简便、形象直观, 应用极为广泛, 但当其用于 计算蛋白质的分维时, 几乎均需借助实验获得的图像再 经软件处理方能得到实验结果[7~9].
No. 11
彭 鑫等:基于盒维数原理计算蛋白质的分形维数
1145
Oxidoredutase Transferas Hydrolase
表 1 蛋白质分子分形结构盒维数模拟计算结果 Table 1 Calculated box dimension of proteins
Proteins
Accessible
蛋白质是生物体内各种生命活动的主要参与者. 为 体现不同的生理功能, 蛋白质的空间结构极为独特复 杂, 并在一定标度范围内表现出明显的分形(Fractal)特 征[1~3], 这是由其自身组成规律与结构特点所决定的, 例如: 从蛋白质的链结构分析, 其链段是一条弯曲的折
线, 而弯曲的形态不随观测尺度的变化而改变, 这是一 种统计意义上的相似性或称标度不变性, 属分形分析研 究的对象; 又如: 从蛋白质空间立体结构分析, 其分子 内具有各种不规则的“洞穴”、“缝隙”和“折皱”, 进 一步观测发现这些微观结构内部也是凹凸不平、极不规
2010 年第 68 卷 第 11 期, 1143~1147
·研究简报·
化学学报
ACTA CHIMICA SINICA
Vol. 68, 2010 No. 11, 1143~1147
基于盒维数原理计算蛋白质的分形维数
彭 鑫 a 张雨薇 a 齐 崴*,a,b 苏荣欣 a,b
吴少敏 a,b
何志敏 a,b
(a 天津大学化工学院化学工程研究所 天津 300072) (b 天津大学化学工程联合国家重点实验室 天津 300072)
1E9O
152
58.87 17.516 1.98686 2
Glutathione peroxidase
1GP1
198
72.70 24.343 2.08131 3
Catechol oxidase
1BT3
345
111.67 44.352 2.28239 4
L-3-hydroxyacyl-CoA dehydrogenase
本文根据分形理论中的盒维数原理对 PDB 库中收 录的多种酶蛋白、球蛋白和膜蛋白的分形维数进行纯模 拟计算, 并剖析分维与结构的关系, 相关工作可为蛋白 质结构与功能关系的研究提供有益参考和新的思路.
1 模拟原理
盒维数(Box Dimension)作为分形维数的一种, 比豪 斯多夫维数更容易计算, 是分形分析中较为直观实用的 一种, 实际应用中可形象地理解为在集合 F 中(可以是 面或体), 构造一些边长为 δ 的正方形(体)或称为盒子, 并用其去覆盖集合, 计算不同 δ 值的“盒子”和F相交 的个数 N(δ), 由 N(δ)与 δ 在双对数坐标系中直线的斜率 值可求得盒维数[10,11].
3 分析与讨论
3.1 维数范围 所得蛋白质的分形维数 Df ∈ (1,3) , 这和很多学者
的研究吻合. 如果将肽段视为一维线状结构, 那么二级 结构的维数一定大于 1, 但又无法达到二维平面的维数, 因此各种二级结构的维数处于 1~2 之间, 同理更高级 的空间结构具有比二级结构更大的维数, 但即使是空间 四级结构, 也无法形成充实的三维体系. 因此, 蛋白质 的分形维数 Df ∈ (1,3) . 3.2 维数规律
* E-mail: qiwei@tju.edu.cn Received September 4, 2009; revised December 2, 2009; accepted January 25, 2010. 国家自然科学基金(No. 20976125)、863(No. 2008AA10Z318)、教育部新世纪优秀人才(2008)和科学技术研究重点(No. 108031)资助项目.
Abstract Proteins with rough surfaces and irregular structures are characteristic of fractal nature. Fractal dimensions of a set of 72 proteins including typical enzyme, globulin and membrane protein selected from PDB database were calculated based on the principle of intuitive box dimension. The results showed that fractal dimensions of proteins were between 1 and 3, and the more complicated structure a protein has, the larger value of fractal dimension the protein is, so the fractal theory could be used to quantitatively describe the complexity of proteins structure. The discordance between fractal dimensions and the number of residues demonstrated that proteins not only were composed of peptide chains, but also had the specifically spatial structure. The close Df values of the enzymes with similar function indicated that Df , differed from a variety of macro-parameters, was a useful tool for the characterization of micro-structure and function of proteins. Keywords fractal; protein; box dimension; simulation; calculation; structure
The number of
Volume/ Fractal
PDB ID residues
surface area/ nm3
nm2
No. dimension Df
Reduced superoxide dismutase
1SXA
151
Leabharlann Baidu
59.75 17.714 1.93763 1
Superoxide dismutase
维数是对体系粗糙度的一种表征, 即维数越大体系 越粗糙[13~16]. 对于蛋白质而言, 分形维数 Df 越大, 该分 子将具有越复杂的空间结构. 在表 1 中牛血红蛋白 (Bovine Hemoglobin, 第 70 号)是相对较为复杂的生物大 分子, 具有四级结构, 因此其分形维数 Df 也是模拟结果 中极大的; 相反, 一些结构简单的蛋白分子, 其功能较 单一, 结构层次也较简单, 因此分形维数 Df 相对较小 (不大于 2), 如: 膜蛋白. 此外, 本文中 72 种蛋白质的平 均分形维数 Df 为 2.12, 接近于随机运动的分形维数 2[5,6].
42.027 2.14852 6 44.106 1.96111 7 48.404 2.18326 8
NADPH-FMN oxidoreductase
1BKJ
240
108.94 29.589 1.97909 9
CHO reductase
1C9W
315
117.01 43.484 2.28239 10
Ferric reductase Coenzyme F420H2:NADP+ Oxidoreductase Laccase
Fractal Analysis of Proteins Based on Box Dimension
Peng, Xina Zhang, Yuweia Qi, Wei*,a,b Su, Rongxina,b Wu, Shaomina,b He, Zhimina,b
(a Chemical Engineering Research Center, School of Chemical Engineering and Technology, Tianjin 300072) (b State Key Laboratory of Chemical Engineering, Tianjin University, Tianjin 300072)
(a) Bovine hemoglobin (1G08); (b) Human serum albumin (1A06)
2 模拟结果
选择 PDB 库中大量代表性酶和蛋白质的结构文件, 计算得到这些蛋白质分子的分形盒维数(表 1), 同时记 录该分子的 PDB ID, 残基数, 可及表面积和分子体积.