gromacs文件介绍and一些杂知识

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

1 1gromacsGMX 各种文件格式详细可以查阅GROMACS 手册第5章第6小节以下为简要介绍。

CPT文件该文件为模拟断点文件check point.cpt。

该文件为模拟过程固定时间间隔产生保存模拟系统所有信息。

该文件一部分可以在能量文件.edr找到一部分可以在双精度轨迹文件.trr中找到。

如果模拟不幸因为外界条件中断如断电模拟人发脾气砸电脑等可以使用该文件重新在断点处开始模拟以节省模拟时间。

同时也可以依靠该断点文件开始并延长模拟计算见tpbconv。

EDR文件系统能量文件energy.edr。

该文件记录模拟输入文件中定义的能量组的各种相互作用能量等。

EPS 文件封装文件格式.eps并不是GROMACS自身文件格式可以当图片打开。

LINUX系统下一般已经有默认打开程序WINDOWS要安装其他打开程序可以GOOGLE以下。

GROMACS的DSSP和罗麽占陀罗图等通过xpm2ps处理后都是这个文件格式。

习惯就好。

G87文件分子坐标文件.g87。

该文件记录并只记录原子坐标和速度不含原子序号。

并只记录常压强模拟系统的盒子信息。

G96文件分子坐标文件.g96。

GROMOS96程序的分子坐标文件模拟程序以15.9的C语言格式写入精度较高但是会比较大。

包含有文件头时间步原子坐标原子速度以及盒子信息等。

GRO文件分子坐标文件.gro。

GROMACS的最主要分子坐标文件明白这个文件就基本明白使用GROMACS了。

该文件类型的各个文本列字数固定C语言的写入格式为
quot5d5s5s5d8.3f8.3f8.3f8.4f8.4f8.4fquot。

具体固定文本列有2 残基序号5位数残基名称5字母原子名称5字母原子序号5为数原子坐标三列XYZ坐标各8位数含3个小数位速度同坐标速度单位为nm/pskm/s。

ITP文件分子拓扑文件.itp。

被主拓扑文件.top 包含的分拓扑文件一般包含某个特定分子的类型。

于主拓扑文件区别有它不引用其他力场文件同时包含systemmolecule等拓扑字节。

M2P文件xpm2ps程序配置文件定义输出eps文件中颜色字体种类及大小等。

MDP文件GROMACS的模拟配置文件.mdp。

该文件所含定义较多各关键字的含义可以查阅GROMACS手册。

这是使用GROMACS进行分子动力学模拟最最最最10个最重要的文件no mdp文件no GROMACS模拟。

好好看书以明白各个关键字的含义。

因为它太重要所以不在此简要描述。

N2T文件原子名称及类型对照文件.n2t。

x2top程序可以按照原子名称得到该原子的原子类型力场参数N2T就是x2top程序扫描的数据库文件很小。

文件中文本行有原子名称原子类型原子电量原子质量该原子与其他原子成键距离等。

NDX文件原子索引文件.ndx。

该文件含原子的序号当使用make_ndx程序生成索引文件时可以定义不同的原子组每组名下即是该组所含各个原子的序号。

PDB文件分子坐标文件.pdb。

这个就不用说了说真的如果真没有听过这个文件类型的话看这篇文章有点浪费时间。

RTP文件残基力场参数文件.rtp。

该文件包含常见残基的力场信息3 包括残基所含原子成键种类等。

使用pdb2gmx处理PDB文件时程序按照PDB文件信息在RTP文件中寻找对应的残基力场信息。

TOP文件模拟系统的拓扑文件.top。

该文件就是所谓十分及其著名的系统拓扑文件啦其包含各个关键字都十分易懂一般其还包含引用其他力场文件include。

TOP文件一般由pdb2gmx产生grompp程序生成模拟TPR文件时使用。

TPR文件模拟打包文件.tpr。

该文件打包模拟需要各种信息包括模拟系统模拟控制等。

TRJ文件全精度轨迹文件.trj。

该文件包含模拟系统模拟各个时间下的原子坐标速度和受力等。

所含帧数频率由MDP文件控制文件较大。

TRR 文件以上同一般为默认格式。

由于所含信息多可以也EDR文件一起使用重新开始模拟程序。

XPM文件数据矩阵文件.xpm。

该文件矩阵中每个值即是矩阵点所表示的
物理量大小也可以是布尔值。

该文件其实就是二维图可以失踪xpm2ps转换为图片。

XTC文件模拟轨迹单精度文件.xtc。

单精度轨迹文件文件较TRR和TRJ小为常用分析文件。

包含模拟系统中原子坐标模拟时间和模拟盒子信息。

XVG文件二维图标文件.xvg。

二维画图工具xmgrace的默认文件可以使用xmgrace打开。

2Gromacs中几个特殊文件aminoacids.dat 该文件保存GMX默认的蛋白质和核算的默认残基名称。

如果计算过程要4 建立一个新的蛋白质或者核算残基可以将新的残基名称加到该文件中并增加文件第一个的整数即可。

有时候可以将该文件拷贝到当前工作文件夹进行编辑以不影响其他计算的命名GMX的文件搜索总是从当前目录开始的。

FF.dat GMX默认力场列表即pdb2gmx处理PDB文件时可以选择的立场列表。

增加新的力场可以编辑该文件并修改文件第一行的整数使其与力场种类熟目一致。

specbond.dat GMX处理特殊化学键的文件特殊化学键包括二硫键血红素铁原子于其他原子成键等。

该文件第一行指明特殊键对的数目第二行开始即为各个特殊键对的信息其中第一列为键对第一个残基的名称第二列为该残基成键原子的名称第三列为该原子可以成键的数目第四到第六列为成键另一个残基的信息第七列为该化学键的平衡长度此后两列为成键后残基的新名称。

vdwradii.dat 原子范德华半径数据库。

使用genbox 为系统添加水分子或者使用genion为系统添加离子时各个原子间的距离要大于两个原子范德华半径之和否则则为原子重叠3常见水分子模型进行分子动力学模拟水分子十分重要除非选择使用连续介质模型implictit water model。

水分子模型较多选择这些模型要结合使用的力场并参考别人已经的数据。

一下简单介绍几种常见的水分子模型希 5 望对了解它们有点帮助。

按照一般化学常识水分子由三个原子构成主要的参数应该有各个原子的质量电量氢氧键的长度以及H-O-H的键角。

没有错最简单的水分子模型就是这些参数都固定的刚性水分子模型。

如SPC模型和TIP3P模型。

这两种模型中原子质量和电量都在同一个质点上。

唯一不同的是TIP3P的H-O-H 键角比理论值109.47小为104.52度。

这两种水模型只有氧原子具有范德华作用系数氢原子的范德华系数为0。

以上两种模型有对应的改进模型SPC的改进模型为SPC/E 起主要改进其实就是使溶液系统的总能量乘以5.22 kJ/mol。

这样可以使SPC溶液属性更加接近实验值。

TIP3P在CHARMM力场中的改进是给氢原子一定的范德华系数这样做的结果的计算根据复杂。

很无奈因为结果好所以也没有办法。

由于真是情况下水分子的电量分布并不是完全在原子上的如氧原子的一部分负电量就在
H-O-H的对角线上还有两个电子对处在H-O化学键的延长线上。

为了得到更加真实的水分子模型四个粒子以上的模型就被应用到分子动力学模拟中。

其中最著名的有TIP4P模型。

该模型在三个原子中间H-O-H化学键的对角线上多了一个不含质量只带电量的点。

很多蛋白质模拟计算中TIP4P和OPLS力场结合使用都得到很好的效果。

以上提到水分子的氧原子在H-O化学键延长线上有两个电子对于是有的人就在这两处添加了两个只带电量的粒子。

2000年报道的TIP5P模型计算结果也很好。

还有一些牛人结合TIP4P和TIP5P要研制TIP6P很好很强大。

6 不得不说并不是模型的所含粒子越多越好。

粒子越多就算付出越大因为要计算的相互作用更多4力场“力场”请不要被“场”这个听起来像是十分高深的物理名词给吓坏了。

分子动力学模拟中使用的力场包含两个重要的部分1模拟粒子之间相互作用的方程即经典力学的相互作用力方程如库仑定律范德华作用方程等。

2方程的参数即各个不同粒子原子本身的参数如带点量等等。

可以想想模计算机模拟好多成键或者不成键的粒子的运动
总要让它们互相推推拉拉吧于是力场就是定义它们推推拉拉的方式按照物理定律。

力场类型一般分类为三种i全原子力场精确定义每一个原子的参数。

ii联合原子力场省略非极性氢原子同时把其参数整合到与他们成键的相邻原子上比如甲基只由一个碳原子表示。

iii粗颗粒力场进一步精简分子结构的力场参数种类比较多比如有讲蛋白侧链看作一个颗粒的力场或者甚至将整个氨基酸残基看成一个颗粒的力场等等。

一般来说力场的方程和参数是自成一个系统的所以一般不能在一个系统中使用两个力场的参数。

更具体的将同一个原子在力场一中的带电量与起在第二个力场中是不一样的化学键也一样。

一般来讲也不能特定修改力场中模一个原子的参数因为原子之间是互相交叠依赖比如未来保7 证整个氨基酸残基电量为0各个原子电量加和必须为0。

但是这并不是说一定不行相反的为了模拟一些不常见的分子经常需要根据已有的参数力场里面的其他论文等来构建新的分子参数。

具体方法可以参考Mr. Google等著名老师。

目前比较流行的力场有AMBER 包含好几个版本的力场为全原子力?CHARMM全原子力场是软件CHARMM的一部分GROMOSGROMOS软件使用的力场版本较多为联合原子力场OPLS包含全原子和联合原子力场两个版本粗颗粒力场种类较多没有固定版本或者种类一般根据研究需要开发。

5Gromacs重启模拟计算以前介绍过如果使用GMX 3.x 重新由于种种原因停止的模拟以下为GMX 4.x 下重启模拟的方法。

GMX 4.x 的模拟程序mdrun 较以往版本有不少不同。

在模拟过程中mdrun 按照mdp 文件在一定时间间隔保存一个断点文件checkpoint file .cpt文件该文件保存了该时刻模拟系统的所有物理量信息。

如果由于不可预见原因模拟中断则可以使用该文件重新在该时刻开始进行模拟。

重启模拟的命令如下------- mdrun -s topol.tpr -cpi state.cpt -append ------- 以上state.cpt文件为最新生产的断点文件mdrun 会保存另外一个断点8 文件state_prev.cpt为上一个时刻保存的断点文件双保险。

使用“-append quot 的作用是将模拟输出添加到已有文件中包括轨迹文件记录文件能量文件等相同帧的信息将被后生产的信息覆盖。

当然也可以继续像GMX 3.x 一样使用tpbconv生产新的tpr 文件继续模拟详细请参见旧文或手册。

6Gromacs多链模拟进行模拟计算时如果模拟分子由两条以上的链组成一般都要明确告诉模拟软件区分两条链。

模拟软件一般没有那么聪明除非明确定义否则它会把两条以上的化学链如肽链DNA其他聚酰胺等看成一条链。

在建立模拟文件是上一条链尾端会于下一条链头部加一个共价化学键如肽键。

由于该化学键一般很长开始模拟时系统就“爆炸”了。

AMBER软件在处理这样的问题的需要编辑原始的PDB文件在每一条链结尾处添加“TER”。

在GMX中这种做法行不通其实开发人员应该考虑这个问题。

解决的办法要在原始PDB文件中给每一条链添加链标识符如“A”“B”等等。

如果26个字母不够用那就使用数字1到9然后还可以使用特殊字符如quot“”“等等。

这样使用pdb2gmx 处理PDB文件的时候就会得到各个链的拓扑文件如topol_A.itptopol_B.itp等等并都被topol.top包含。

以上所述使用一个字符标识PDB 文件中不同的链是因为PDB文件只使用第22字符列作为链标识位两个字符以上不认。

即AAAB标识的链都被认为是A链。

那么如果拿到一个没有链标识符的PDB坐标文件或GRO文件该怎么办呢那么要先使用make_ndx将不同链的残基选作不同的分子组group 9 然后使用editconf将不同组输出成带链标识符的PDB文件命令如editconf -f File.pdb/File.gro -n indenx.ndx -o chian_A.pdb -lable A 以上可以等等A链以此类推得到不同的链的PDB文件。

最后将这些PDB文件组合成一个PDB文件再由
pdb2gmx处理即可。

甚是麻烦。

7GMX.5 eneconv GMX 分子模拟有一个非常重要的能量输出文件即edr 文件。

eneconv 就是对GMX 能量输出文件进行处理的程序。

一个模拟可以分对次进行于是得到很多edr 文件。

使用eneconv 的“ -f ” 参数然后把这些能量文件罗列出来那么就可以对这些能量文件进行合并输出一个完整的能量文件。

如果另个能量文件中有重复的模拟步骤那么后一个读入的能量文件将覆盖前一个文件。

也可以使用“-settime” 参数对每一个输入文件的开始时间进行设置以免互相覆盖。

如下就是一个程序运行例子eneconv -o fixed.edr -f .edr 即对当前目录下所有edr 文件进行合并然后输出为fixed.edr文件。

当用“ -f ” 参数读入单一一个能量edr 文件时也不是没有用可以和其他参数配合对能量文件进行编
辑如“ -dt ” 参数可以设定对原来能量文件进行规定时间间隔输出到新能量文件中“ -offset ” 参数设定写出输入能量文件的时间帧从哪一个模拟时间开始写入新的能量文件等。

这些参数还有上面说到的“-settime” 参数都可以一起使用加上“-b” 10 和“-e” 设定开始和结束读取模拟时间帧就能得到新的称心如意的新能量文件。

程序输入文件----------- -f: 输入能量文件即edr 文件。

-o: 输出文件也是edr 文件。

其他参数--------- -b: 设定从哪一个模拟时间帧对输入文件进行读取。

-e: 设定从哪一个模拟时间帧对输入文件结束读取。

-dt: 设定输出文件的模拟时间间隔比如“-dt 10” 表示每10ps 输出一次。

-offset: 设定从哪一个时间帧开始输出到新的能量文件中。

-settime: 交换式设定每一个输入文件在新输出文件中的开始时间。

-sort: 自动排序输入文件。

-scalefac: 11 该参数输入为一个实数程序会将能量文件中的每一个能量项乘以这一个实数。

-error: 如果输入文件中有错误程序自动退出。

注意新的输出文件中只有能量项是正确的用于统计的sigma 和E2 并没有更新所有需要使用其他工具如g_analysis 进行新的统计8GMX.4 editconf editconf 是GMX 最
重要的程序之一。

它的主要功能是对系统结构进行编辑同时它也把系统结构文件保存或者转换到不同的文件格式中如gro、g96、pdb 文件等。

在分子动力学模拟中通常给模拟系统添加一个模拟盒子周期性的盒子原子从这边出去了就从那边进来通俗吧。

editconf 使用“ -box ”、“ -d ” 和“ -angle ” 等参数对模拟系统的盒子进行设定。

在为系统设定盒子的时候“ -box ” 和“ -d ” 都把系统放置在盒子的中间除非editconf 明确使用另外一个参数“ -noc ”。

也就是not center 的意思啦。

使用“ -bt ” 参数editconf 可以设定使用盒子的类型。

editconf 支持以下几种盒子类型triclinic 斜方体、cubic正方体、dodecahedron 等边十二面体octahedron 等边八面体两头被剪切的那种即两个四面体放在一起切去方向相反的尖尖的两头同时保证所有的边长相等。

等边十二面体和等边八面体的体积分别是同“ 周期映像距离”的正方体体积的0.71 和0.77 倍越接近球形体积越小计算代价越小。

当使用立方体、等边十二面体或者等边八面体时“ -box ” 的参数可以只为一个实数值该数值即为边长。

“ -box ”参数也可以是三个实数结果为以这三个实数为边12 长的长方体如不指定“ -angle ”默认盒子矢量间夹角为90度。

参数“ -angle ” 只同参数“ -box ” 和参数“ -box ” 一起使用以指定盒子矢量间的夹角不能和参数“ -d ”用于指定系统原子到盒子边界的最小距离一起使用。

如果使用“ -n ” 或者“ -ndef ” 参数为程序指定一个索引文件则editconf 可以选择系统中某一个组计算盒子大小或者几何中心否则
整个系统都会被考虑在内。

参数“ -rotate” 用来旋转系统按照给定数值在该坐标系上进行旋转。

如“ -rotate 0 30 0 ”则表示将系统绕Y 轴顺时间方向旋转30 度。


数“ -princ ” 用来将系统或者系统某一部分固有坐标对齐到坐标轴上。

这样做可以缩小盒子的体积特别是当分子为一长条形状的时候。

但是分子在模拟过程中会平移或者转动所以使用的时候要特别小心。

扫描参数“ -scale ” 在其他参数被读入前可以扫描系统中各个原子的坐标与其他参数配合使用可以对系统中原子坐标进行修改以得到不同的系统性质。

如果“ -density ” 一起使用可以得到不同的系统密度这样做会改变系统盒子大小要特别小心。

使用该参数时如果输入为.gro 文件可能结果会不精确。

当“ -scale ” 参数为单一“ -1 ” 时输出的系统结果为该方向上的镜面映像当三个方向上的输入全部为“ -1 ”即“-scale -1 -1 -1”时系统的结果机构为原来结构的坐标原点对称映像。

在程序输出时可以只输出系统的某一个组或者某一个部分。

可以建立划分更为细致的索引文件这样可以进行细致的选择。

系统结构的周期性可以在程序中进行粗略去除但是必须保证结构文件中周期性盒子的信息绝对正确因为editconf 去除周期性的算法十分简单只是将原子坐标直接减去盒子边长。

当程序输出文件为.pdb 文件时可以使用“ -bf ” 参数为输出文件添加B-factor。

13 B-factor 要在一定的格式的文件中读取这个格式要求文件第一行为文件中所含
B-factor 数值个数文件第二行开始没行要有一个索引号然后就是该索引后面的
B-factor 值。

B-factor 默认是一个残基一个数值如果每一个原子有一直B-factor 值则要使用“ -atom ” 参数。

如果使用“ -legend ” 参数那么程序在结构文件中会生成一列CA 原子这些原子带有B-factor数字并从最小B-factor 值排列到最高便于可视化软件显示。

如果使用“ -mead ” 参数那么程序将输出一个被静电统计软件MEAD玻松-波尔兹曼方程求解软件使用的pdb 文件或者pqr 文件。

使用这个参数有一个前提条件就是输入文件必须是模拟打包文件如tpr 文件因为这样的文件包
含了力场参数。

这个输出pdb pqr 文件中B-factor 数值列为该行原子的范德华半径而occupancy 列则为该原子的电量。

“ -grasp ” 参数的作用很类似但是B-factor 列和occupancy 列的数值互换。

另外一个十分的有用的参数就是“ -label ” 参数它可以为pdb 文件加上一个链标记。

如果一个文件里面不同残基属于不同牧茨敲凑飧霾问 梢园镎庑┎谢 付 牧垂槭粽庋 坏 梢园镏 墒踊 诮 ⒛D庀低呈币彩 址奖恪?editconf 还可以修改结构文件的盒子类型比如以下就是立方体盒子修改成
一个等边八面体: editconf -f ltin.grogt -rotate 0 45 35.264 -bt octahedron -box ltveclengt -o ltout.grogt 其中ltveclengt 的数值为正方形变成乘于根号三除以二: asqrt3/2 。

14 程序输入文件------------- -f: 输入结构文件文件格式可以是gro、
g96、pdb、tpr、tpb 或者tpa。

-n: 索引文件。

-o: 输出文件文件格式为gro、g96 或者pdb 。

-mead: 输出文件MEAD程序的坐标文件包含力场参数。

-bf: B-factor 数值文件文件格式见上文。

其他参数--------- -w: 程序结束自动打开输出文件。

-ndef: 在索引文件的默认组中选择输出范围。

-bt: 指定盒子类型支持的盒子类型有triclinic斜方体、cubic正方体、dodecahedron等边十二面体或者octahedron等边八面体。

-box: 指定盒子三个矢径abc。

15 -angle: 盒子矢径间夹角默认都是90 度bcacab。

-d: 溶质分子蛋白核酸等到盒子边界的距离。

-c: 把溶质分子放在盒子中间“-box” 和“-d” 参数的默认参数。

-center: 为输出结构指定几何坐标中心默认为000。

-translate: 平移分子机构比如“-translate 0 0 2.5” 表示将分子结构向Z 轴正方向平移 2.5 纳米。

-rotate: 旋转分子结构见上文。

-princ: 对齐分子结构见上文。

-scale: 扫描分子结构“-scale 1 1 1” 表示在三个坐标方向上进行扫描。

-density: 指
定输出结构文件的分子密度。

-pbc: 处理结构文件的周期性。

-grasp: 16 将原子的力场参数存储在输出文件中见上文。

-rvdw: 给定默认原子的默认范德华半径。

该参.。

相关文档
最新文档