gromacs文件介绍and一些杂知识要点.pdf
《gromacs文件介绍and一些杂知识要点.pdf》由会员分享,可在线阅读,更多相关《gromacs文件介绍and一些杂知识要点.pdf(39页珍藏版)》请在三一文库上搜索。
1、1 (1)gromacs(GMX) 各种文件格式详细,可以查阅GROMACS 手册第 5 章第 6小节,以下为简要介绍。 CPT 文件 :该文件为模拟断点文件(check point,.cpt) 。该文件为模拟过 程固定时间间隔产生,保存模拟系统所有信息。该文件一部分可以在能量 文件( .edr)找到,一部分可以在双精度轨迹文件(.trr)中找到。如果模 拟不幸因为外界条件中断(如断电,模拟人发脾气砸电脑等),可以使用 该文件重新在断点处开始模拟,以节省模拟时间。 同时也可以依靠该断点 文件开始,并延长模拟计算(见tpbconv) 。 EDR文件 :系统能量文件(energy,.edr) 。该
2、文件记录模拟输入文件中 定义的能量组的各种相互作用能量等。 EPS 文件 :封装文件格式(.eps) ,并不是 GROMACS 自身文件格式,可 以当图片打开。 LINUX系统下一般已经有默认打开程序,WINDOWS 要 安装其他打开程序(可以GOOGLE 以下)。GROMACS 的 DSSP 和罗麽 占陀罗图等通过xpm2ps 处理后都是这个文件格式。习惯就好。 G87文件 :分子坐标文件(.g87) 。该文件记录并只记录原子坐标和速度, 不含原子序号。并只记录常压强模拟系统的盒子信息。 G96文件 :分子坐标文件(.g96) 。GROMOS96 程序的分子坐标文件,模 拟程序以 15.9的
3、 C 语言格式写入, 精度较高, 但是会比较大。 包含有文件 头,时间步,原子坐标,原子速度,以及盒子信息等。 GRO 文件 :分子坐标文件(.gro) 。GROMACS 的最主要分子坐标文件, 明白这个文件,就基本明白使用GROMACS 了。该文件类型的各个文本 列字数固定,C语言的写入格式为: “%5d%5s%5s%5d%8.3f%8.3f%8.3f%8.4f%8.4f%8.4f“。 具体固定文本列有: 残基序号, 5位数;残基名称,5字母;原子名称,5字母;原子序号,5 2 为数;原子坐标三列,X,Y ,Z 坐标各 8位数,含 3个小数位;速度同坐 标,速度单位为nm/ps(km/s)
4、。 ITP文件 :分子拓扑文件(.itp) 。被主拓扑文件(.top)包含的分拓扑文 件,一般包含某个特定分子的类型。于主拓扑文件区别有它不引用其他力 场文件,同时包含system,molecule 等拓扑字节。 M2P 文件 :xpm2ps 程序配置文件,定义输出eps 文件中颜色,字体种类 及大小等。 MDP 文件 :GROMACS 的模拟配置文件( .mdp) 。该文件所含定义较多, 各关键字的含义可以查阅GROMACS 手册。 (这是使用GROMACS 进行 分子动力学模拟最最最最(10个最)重要的文件,no mdp 文件, no GROMACS 模拟。好好看书,以明白各个关键字的含义
5、。因为它太重要, 所以不在此简要描述。 N2T 文件 :原子名称及类型对照文件(.n2t) 。x2top 程序可以按照原子名 称得到该原子的原子类型力场参数,N2T 就是 x2top 程序扫描的数据库, 文件很小。文件中文本行有原子名称,原子类型,原子电量,原子质量, 该原子与其他原子成键距离等。 NDX 文件 : 原子索引文件 (.ndx) 。 该文件含原子的序号, 当使用 make_ndx 程序生成索引文件时,可以定义不同的原子组,每组名下即是该组所含各 个原子的序号。 PDB 文件 :分子坐标文件(.pdb) 。这个就不用说了(说真的,如果真没 有听过这个文件类型的话,看这篇文章有点浪费
6、时间。) RTP 文件 :残基力场参数文件(.rtp) 。该文件包含常见残基的力场信息, 包括残基所含原子,成键种类等。使用pdb2gmx 处理 PDB 文件时,程序 按照 PDB 文件信息,在RTP 文件中寻找对应的残基力场信息。 3 TOP 文件 :模拟系统的拓扑文件(.top) 。该文件就是所谓十分及其著名 的系统拓扑文件啦, 其包含各个关键字都十分易懂;一般其还包含引用其 他力场文件( #include) 。TOP 文件一般由pdb2gmx 产生, grompp 程序生 成模拟 TPR 文件时使用。 TPR 文件 :模拟打包文件(.tpr) 。该文件打包模拟需要各种信息,包括 模拟系统
7、,模拟控制等。 TRJ 文件:全精度轨迹文件(.trj) 。该文件包含模拟系统模拟各个时间下 的原子坐标, 速度和受力等。 所含帧数频率由MDP 文件控制, 文件较大。 TRR 文件 :以上同,一般为默认格式。由于所含信息多,可以也EDR 文 件一起使用,重新开始模拟程序。 XPM文件 :数据矩阵文件(.xpm) 。该文件矩阵中每个值即是矩阵点所 表示的物理量大小(也可以是布尔值)。该文件其实就是二维图,可以失 踪 xpm2ps 转换为图片。 XTC 文件 :模拟轨迹单精度文件(.xtc) 。单精度轨迹文件,文件较TRR 和 TRJ 小,为常用分析文件。包含模拟系统中原子坐标,模拟时间,和 模
8、拟盒子信息。 XVG 文件 :二维图标文件(.xvg) 。二维画图工具xmgrace 的默认文件, 可以使用 xmgrace 打开。 (2)Gromacs 中几个特殊文件 aminoacids.dat 该文件保存GMX 默认的蛋白质和核算的默认残基名称。如果计算过程要 建立一个新的蛋白质或者核算残基,可以将新的残基名称加到该文件中, 并增加文件第一个的整数即可。有时候可以将该文件拷贝到当前工作文件 夹进行编辑,以不影响其他计算的命名(GMX 的文件搜索总是从当前目 4 录开始的。) FF.dat GMX 默认力场列表, 即 pdb2gmx 处理 PDB 文件时可以选择的立场列表。 增加新的力场
9、, 可以编辑该文件, 并修改文件第一行的整数,使其与力场 种类熟目一致。 specbond.dat GMX 处理特殊化学键的文件,特殊化学键包括二硫键,血红素铁原子于 其他原子成键等。 该文件第一行指明特殊键对的数目,第二行开始即为各 个特殊键对的信息, 其中第一列为键对第一个残基的名称,第二列为该残 基成键原子的名称, 第三列为该原子可以成键的数目,第四到第六列为成 键另一个残基的信息,第七列为该化学键的平衡长度,此后两列为成键后 残基的新名称。 vdwradii.dat 原子范德华半径数据库。 使用 genbox 为系统添加水分子, 或者使用 genion 为系统添加离子时,各个原子间的距
10、离要大于两个原子范德华半径之和, 否则则为原子重叠 (3)常见水分子模型 进行分子动力学模拟,水分子十分重要,除非选择使用连续介质模型 (implictit water model ) 。水分子模型较多,选择这些模型要结合使用的 力场,并参考别人已经的数据。一下简单介绍几种常见的水分子模型,希 望对了解它们有点帮助。 按照一般化学常识, 水分子由三个原子构成,主要的参数应该有各个原子 的质量,电量,氢氧键的长度以及H-O-H 的键角。没有错,最简单的水 分子模型就是这些参数都固定的刚性水分子模型。如SPC 模型和 TIP3P 5 模型。这两种模型中, 原子质量和电量都在同一个质点上。唯一不同的
11、是 TIP3P 的 H-O-H键角比理论值 109.47小,为 104.52度。这两种水模型只 有氧原子具有范德华作用系数,氢原子的范德华系数为0。 以上两种模型有对应的改进模型,SPC 的改进模型为SPC/E,起主要改 进其实就是使溶液系统的总能量乘以5.22 kJ/mol。这样可以使SPC 溶液 属性更加接近实验值。TIP3P 在 CHARMM力场中的改进是给氢原子一 定的范德华系数,这样做的结果的计算根据复杂。 。 (很无奈,因为结果 好,所以也没有办法。 ) 由于真是情况下水分子的电量分布并不是完全在原子上的,如氧原子的一 部分负电量就在H-O-H 的对角线上, 还有两个电子对处在H-
12、O 化学键的 延长线上。 为了得到更加真实的水分子模型,四个粒子以上的模型就被应 用到分子动力学模拟中。其中最著名的有TIP4P 模型。该模型在三个原 子中间, H-O-H化学键的对角线上多了一个不含质量,只带电量的点。 很多蛋白质模拟计算中,TIP4P 和 OPLS 力场结合使用都得到很好的效 果。 以上提到,水分子的氧原子在H-O 化学键延长线上有两个电子对,于是 有的人就在这两处添加了两个只带电量的粒子。2000年报道的TIP5P 模 型, 计算结果也很好。 还有一些牛人, 结合 TIP4P 和 TIP5P , 要研制 TIP6P , 很好很强大。 。 不得不说,并不是模型的所含粒子越多
13、越好。粒子越多,就算付出越大, 因为要计算的相互作用更多 (4)力场 “ 力场 ” ,请不要被 “ 场” 这个听起来像是十分高深的物理名词给吓坏了。 分子动力学模拟中使用的力场,包含两个重要的部分: 6 1)模拟粒子之间相互作用的方程(即经典力学的相互作用力方程如库仑 定律,范德华作用方程等)。 2)方程的参数(即各个不同粒子,原子本身的参数,如带点量等等)。 可以想想, 模计算机模拟好多成键或者不成键的粒子的运动,总要让它们 互相推推拉拉吧,于是力场就是定义它们推推拉拉的方式(按照物理定 律) 。 力场类型,一般分类为三种: i)全原子力场:精确定义每一个原子的参数。 ii)联合原子力场:省
14、略非极性氢原子,同时把其参数整合到与他们成键 的相邻原子上(比如甲基,只由一个碳原子表示)。 iii )粗颗粒力场:进一步精简分子结构的力场参数,种类比较多,比如有 讲蛋白侧链看作一个颗粒的力场,或者甚至将整个氨基酸残基看成一个颗 粒的力场等等。 一般来说力场的方程和参数是自成一个系统的,所以一般不能在一个系统 中使用两个力场的参数。更具体的将, 同一个原子在力场一中的带电量与 起在第二个力场中是不一样的,化学键也一样。 一般来讲, 也不能特定修 改力场中模一个原子的参数,因为原子之间是互相交叠依赖(比如未来保 证整个氨基酸残基电量为0,各个原子电量加和必须为0) 。但是,这并不 是说一定不行
15、, 相反的, 为了模拟一些不常见的分子,经常需要根据已有 的参数(力场里面的,其他论文等)来构建新的分子参数。具体方法可以 参考 Mr. Google 等著名老师。 目前比较流行的力场有: AMBER : 包含好几个版本的力场,为全原子力场; 7 CHARMM :全原子力场,是软件CHARMM的一部分; GROMOS :GROMOS软件使用的力场,版本较多,为联合原子力场; OPLS:包含全原子和联合原子力场两个版本; 粗颗粒力场: 种类较多, 没有固定版本或者种类,一般根据研究需要开发。 (5)Gromacs 重启模拟计算 以前介绍过如果使用GMX 3.x 重新由于种种原因停止的模拟,以下为
16、 GMX 4.x 下重启模拟的方法。 GMX 4.x 的模拟程序mdrun 较以往版本有不少不同。在模拟过程中, mdrun 按照mdp 文件在一定时间间隔保存一个断点文件(checkpoint file, .cpt 文件) ,该文件保存了该时刻模拟系统的所有物理量信息。如果由 于不可预见原因, 模拟中断, 则可以使用该文件重新在该时刻开始进行模 拟。 重启模拟的命令如下: - mdrun -s topol.tpr -cpi state.cpt -append - 以上 state.cpt 文件为最新生产的断点文件( mdrun 会保存另外一个断点 文件: state_prev.cpt,为上一
17、个时刻保存的断点文件,双保险。)使用 “ -append “ 的作用是将模拟输出添加到已有文件中,包括轨迹文件, 记录 文件,能量文件等,相同帧的信息将被后生产的信息覆盖。 当然,也可以继续像GMX 3.x 一样使用tpbconv 生产新的tpr 文件继续 模拟,详细请参见旧文或手册。 (6)Gromacs 多链模拟 进行模拟计算时, 如果模拟分子由两条以上的链组成,一般都要明确告诉 8 模拟软件区分两条链。模拟软件一般没有那么聪明,除非明确定义, 否则 它会把两条以上的化学链(如肽链,DNA ,其他聚酰胺等)看成一条链。 在建立模拟文件是,上一条链尾端会于下一条链头部加一个共价化学键 (如肽
18、键)。由于该化学键一般很长,开始模拟时系统就“ 爆炸 ” 了。 AMBER 软件在处理这样的问题的,需要编辑原始的PDB 文件,在每一 条链结尾处添加“ TER” 。在 GMX 中,这种做法行不通(其实开发人员应 该考虑这个问题) 。 解决的办法要在原始PDB 文件中给每一条链添加链标 识符,如 “A” ,“B” 等等。(如果 26 个字母不够用,那就使用数字1 到 9, 然后还可以使用特殊字符,如“$“ ,” ¥“ 等等) 。这样,使用pdb2gmx 处 理 PDB 文件的时候,就会得到各个链的拓扑文件,如topol_A.itp, topol_B.itp 等等,并都被topol.top 包含
19、。 以上所述使用一个字符标识PDB 文件中不同的链, 是因为 PDB 文件只使 用第 22 字符列作为链标识位,两个字符以上不认。(即 AA ,AB 标识的 链都被认为是A 链。 ) 那么如果拿到一个没有链标识符的PDB 坐标文件或GRO 文件, 该怎么办 呢?那么要先使用make_ndx 将不同链的残基选作不同的分子组(group) , 然后使用 editconf 将不同组输出成带链标识符的PDB 文件,命令如: editconf -f File.pdb(/File.gro) -n indenx.ndx -o chian_A.pdb -lable A (以上可以等等A 链,以此类推得到不同的
20、链的PDB 文件)。 最后将这些PDB 文件组合成一个PDB 文件,再由pdb2gmx 处理即可。 甚是麻烦。 。 (7)GMX.5 eneconv GMX 分子模拟, 有一个非常重要的能量输出文件,即 edr 文件。eneconv 就是对GMX 能量输出文件进行处理的程序。 9 一 个模拟可以分对次进行,于是得到很多edr 文件。使用eneconv 的 “ -f ” 参数,然后把这些能量文件罗列出来,那么就可以对这些能量文件 进行合并, 输出一个完整的能量文件。如果另个能量文件中有重复的模拟 步骤,那么后一个读入的能量文件将覆盖前一个文件。也可以使用 “ -settime” 参数对每一个输入
21、文件的开始时间进行设置,以免互相覆盖。 如下就是一个程序运行例子: + eneconv -o fixed.edr -f *.edr + 即对当前目录下所有edr 文件进行合并,然后输出为fixed.edr 文件。 当用 “ -f ” 参数读入单一一个能量edr 文件时,也不是没有用,可以和 其他参数配合,对能量文件进行编辑, 如 “ -dt ” 参数可以设定对原来能 量文件进行规定时间间隔输出到新能量文件中;“ -offset ” 参数设定写出 输入能量文件的时间帧(从哪一个模拟时间开始写入新的能量文件)等。 这些参数, 还有上面说到的“ -settime ” 参数,都可以一起使用, 加上 “
22、 -b” 和 “ -e” 设定开始和结束读取模拟时间帧,就能得到新的称心如意的新能 量文件。 程序输入文件: - -f: 输入能量文件,即edr 文件。 -o: 输出文件,也是edr 文件。 其他参数: 10 - -b: 设定从哪一个模拟时间帧对输入文件进行读取。 -e: 设定从哪一个模拟时间帧对输入文件结束读取。 -dt: 设定输出文件的模拟时间间隔,比如“ -dt 10 ” 表示每10ps 输出一次。 -offset: 设定从哪一个时间帧开始输出到新的能量文件中。 -settime: 交换式设定每一个输入文件在新输出文件中的开始时间。 -sort: 自动排序输入文件。 -scalefac:
23、 该参数输入为一个实数, 程序会将能量文件中的每一个能量项乘以这一个 实数。 -error: 如果输入文件中有错误,程序自动退出。 注意:新的输出文件中, 只有能量项是正确的,用于统计的sigma 和 E2 并没有更新,所有需要使用其他工具,如g_analysis 进行新的统计 (8)GMX.4 editconf editconf 是 GMX 最重要的程序之一。它的主要功能是对系统结构进行编辑,同 时它也把系统结构文件保存或者转换到不同的文件格式中,如gro、g96、pdb 文件 等。 11 在 分子动力学模拟中, 通常给模拟系统添加一个模拟盒子(周期性的盒子, 原子从 这边出去了, 就从那边
24、进来, 通俗吧) 。 editconf 使用 “ -box ”、“ -d ” 和 “ -angle ” 等参数对模拟系统的盒子进行设定。 在为系统设定盒子的时候, “ -box ” 和 “ -d ” 都 把系统放置在盒子的中间,除非editconf 明确使用另外一个参数“ -noc ” 。 (也就 是 not center 的意思啦。 ) 使 用 “ -bt ” 参数, editconf 可以设定使用盒子的类型。editconf 支持以下几种盒 子类型: triclinic(斜方体)、cubic(正方体)、dodecahedron (等边十二面体 ), octahedron (等边八面体,两头
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- gromacs 文件 介绍 and 一些 知识 要点
链接地址:https://www.31doc.com/p-5197062.html