第二节化学信息处理
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
e1
1
4
e2
e3
e4 e6
2
e5
3
图也可用矩阵表示:设G=<V,E>为无向图,令mij 等于顶点vi与边ej的关联次数,则称(mij)n*m为G的关 联矩阵,记为M(G)。
1 e1 4
e2
e3 e4 e6
2 e5 3
111000
M(G) =
0 0
1 0
1 0
1 0
1 1
0 1
100101
C C
C
C C
C
H
H
N
O
C
C
C
O
H
O
OH H2N
用图表示苯丙氨酸的结构
2、化合物结构的矩阵表示
(1)邻接矩阵(以乙醛为例)
(2)距离矩阵:表示了相应原子之间的距离:几何距离(用Å表示), 拓扑距离(两原子之间连接的键的个数)
(3)键矩阵:矩阵元素为相连接的两个原子之间的键级。 双键:2,三键:3。
(4)关联矩阵:是一个n×m的矩阵。 顶点(原子)作为列(n),边(化学键)作为行(m), 如果边在顶点内,则相应的元素置为1。
• 根据分子相似性原理,可以在数据库中搜寻与目标分子具有一定相似 性的分子,即相似性搜寻。
• 步骤: 1、目标选择 2、描述符选择和编码 3、相似性评价方法选择 4、搜寻语句的输入 5、相似性打分
四、互联网上的化学信息资源
(一)化学搜索引hemFinder,
——计算机绘制化学结构式 首先输入原子和键的骨架结构,原子数、电荷会自动变为上下 标 软件的模板中收集大量分子片段 可智能分析结构式,处理结构式的编码和变换 还可有附加功能,如自动命名、化学计算、光谱分析等
三维结构的转化
3D结晶结构参数转 入3D数据库
软件将2D化学结构迅速地转为3D模型
分子相似性分析方法
• 基于定性特征的和基于定量特征的。 • 对于两个化合物A和B,
a是A所具有而B不具有的特征数目 b是B所具有而A不具有的特征数目 c是两者共同的特征数目 d为两者都不具有的特征数目 c和d表示了化合物A和B之间的相似性 a和b表示了化合物A和B之间的多样性 所有的特征数目为n=a+b+c+d • 这样,可以建立一种直观的相似性评价方法:考察所有匹配的特征数目c+d在 所有特征数目(c+d)+(a+b)中所占的比例,即(c+d)/(a+b+c+d)。 这也被称作为简单匹配系数。 • 可以看出,A和B均不具有的特征并没有表达任何信息,所以,d可以从上面 的方法中删除,得到了Tanimoto相似度计算公式。
IUPAC
主要用于Beilstein 系统
不十分适合计算机的处理
SMILES(简化分子线性输入系统) 编码的基本原则
原子通常以大写元素符号表示(省略氢原子),芳香结构原
子则以小写表示。
相邻原子依次排放在一起,单键通常省略,双键和三键分别
以“=”和“#”表示,芳香键以“:”表示,也可省略。
分支部分放在括号内,环则打开,并赋予断开键两端的原子
MetaXchem….. (二)互联网上的化学数据库 1、文献数据库(CA、Medline) 2、化合物数据库(Gmelin, CSD) 3、综合数据库(Beilstein、PDB)
常用化合物数据库
FCD (Fine Chemicals Directory)—— MDL 维护。收载约90 000化合物和20 000化合物数据,包括化学系统名、俗称、分子 式、分子量、供应商、价格、CAS登录号、纯度等。可通过结构 式或其它任何数据检索
描述符的内容是由两方面决定的,一是化合物的分子表示,二是计 算描述符的算法。
分子描述的分类
分子表 示方法
0D
1D
描述符
原子数目 键数目 相对分子质量 分子性质 碎片数目
2D 拓扑描述符
3D 几何描述符
3D 表面性质 3D 网络性质 4D
示例
氢原子数目,杂原子数目,重原子数目 双键数目,三键数目,可旋转键数目 相对分子质量,平均相对分子质量 脂水分配系数 伯碳原子数目,叔碳原子数目;手性碳原子数目,羟基数目, 羧基数目;氢键供体数目,氢键受体数目 Zagreb指数,Wiener指数,Balaban J指数,连接指数,kappa 形状指数,2D自关联向量 分子偏心率,回转半径,3D Wiener指数, 3D Balaban 指数, WHIM 描述符,GETAWAY 描述符,3D 自关联向量 平均分子静电势,疏水势,氢键势 比较分子场分析 3D坐标+构象取样
数据库的化学相似性(chemical similarity) 适用于先导化合物优化
评价方法:通过计算分子的描述符,并比较化合物描述符的分析中,需要建立化合物结构和它们生 物活性或者理化性质的映射,分子描述符就是其中的一种映射。
作用:通常一个或多个描述符可以用来描述分子的结构、性质等, 如lgP在一定程度上反映了分子穿透细胞膜的能力;拓扑指数描述 了结构的复杂性。
化合物。
MDL ISIS化学数据库管理系统
ISIS系统提供了基于Oracle 数据库系统的各类化学信息 系统的管理和开发工具,可以同时管理化学结构、化学反 应、生物活性及谱图等多种化学信息。
ISIS已应用于全球超过80%的化学与制药企业,已成为事 实上的化学信息管理系统的工业标准。
ISIS (Integrated Scientific Information Management System)——MDL的综合性结构和反
三、分子相似性和多样性分析
分子相似性和多样性分析方法的原则:结构相似的分子有着相似的性质或 活性。
作用:在识别新的具有与已知化合物相同性质或活性的化合物时具有十分 重要的作用。
数据库的化学多样性(chemical diversity): 数量巨大的、结构不同的贮藏和检索系统——适用于先导化合物发现
特点 MDL公司提出的分子文件格式,应用最广泛的连接表格式 Tripos公司推出,包含一个或多个化合物。目前药物设计领域最流行的格式 Schodinger公司推出的一种文件格式,包含一个或多个化合物。 结构数据文件,MDLMolfile的扩展,包含一个或多个化合物。 反应数据文件,MDLMolfile的扩展,包含一个或多个反应。 应用最广泛的线性编码和文件格式 蛋白质数据文件,蛋白质和多聚核苷酸的3D结构信息文件 晶体信息文件格式,用于表示有机分子的3D结构 原子和分子物理数据,结构和光谱文件格式 化学标注语言;XML在化学上的扩展
ACD (Available Chemicals Directory) ——MDL维护。FCD数 据库加上可大批量供货的化学品信息。目前有25万个化合物
CSD(Cambridge Structure Database) —— 20多万个结晶的 3D结构实验数据及相关数据
常用数据库的网址
Ensemble Thomson PharmaSM 马丁代尔药典
基本存储 分子的元素组成、原子坐标、原子连接关系 其他存储 分子子结构信息,适用于生物大分子 原子电荷信息,调用时不必再计算 确定特定原子化学环境的原子类型信息
二、化合物数据库的生产和管理
目前有很多商业化合物数据库可以利用 MDL药物数据报告(MDDR)含有115000个类药性
化合物。 美国国家癌症研究所(NCI)数据库含有250000个
化学多样性的定量表达——Tanimoto系数
用化学空间中电荷和电势等描述符比较不同分子的性质
TC = c /(a+b+c)
a为A中基础片断的描述符的数 b为B中基础片断的描述符的数目 c为A和B中共有的基础片断的描述符的数目 相同分子TC = 1;分子没有共同描述符时TC = 0
相似性搜寻
或尖括号< >在该原子后标记出;
对大分子的原子,可使用缩写,如氨基酸可以用其三个字母缩写
形式表示。
(二)二维结构表示
1、图论基础和图的矩阵表示
一个简单的图由顶点(V)和边(E)组成,因此图被定义为一个三 元组<V,E,φ>, φ为映射函数。在下面一个简单的无向图中, V={1,2,3 ,4}, E={e1,e2,e3,e4, e5, e6}。
结
(SMILES编码)
结
构
构
O
二
分
维
OH 子
结
H2N
表
构
面
(一)一维结构表示
线性符号表示法
SLN
是SMILES的改进,除有机 小分子,还表示大分子,
聚合物和组合库。
Sybyl linear notation
ROSDAL
SMILES
1986年提出的简化的 分子线性输入系统
Simplified molecular input line entry system
(四)分子存储格式及其相互转换
文件格式 Molfile Mol2file Maestro SDfile RDfile SMILES PDB CIF JCAMP CML
扩展名 *.mol *.2mol *.mae *.sdf *.rdf *.smi *.pdb *.cif *.jdx, *.dx, *.cs *.cml
原子以其元素符号表示,氢原子也要显示; 单键省略,双键、三键和芳香键分别以“=” “#”和“:”表示; 分支也采用括号表示;环也打开,依靠环上一个预先定义好的具
有唯一编号的原子及@符号来识别,如环己烷表示为 C[15]H2CH2CH2CH2CH2CH2@15;
原子和键的属性(如电荷、立体化学性质等)可通过方括号[ ]
/ensemblesql/ensemblesql.asp 介绍处于不同研究阶段的活性化合物
第二节 化学信息处理
化学信息学
• 产生的背景 组合化学和高通量筛选,出现了巨大的信息,需要快速 收集、存储、分析和处理,随着信息技术向化学领域的 渗透,形成了新的交叉学科——化学信息学。
• 研究内容 化合物信息在计算机中的表示 化合物数据库的建立、使用和管理 化合物相似性、多样性及分子类药性分析 化合物定量构效关系
3、连接表
20世纪80年代开始,成为化合物在计算机中表示的最主要方法。 首先对每个原子进行编号并列表 然后在另一表格中列出键的信息, 键级用整数表示,1表示单键,2表示双键。
(三)三维结构表示
1、直接坐标法 用迪卡尔坐标直
接存储每个原子的三 维坐标(x,y,z)
2、内坐标法
• 每个原子位置以与其他原子间的3个相对位置关 系表示——相对距离、键角、二面角
Br\C=C/Br 或Br/C=C\Br
N[C@@H](C)C(=O)O
N[C@H](C)C(=O)O
• 苯丙氨酸
举例说明
O
OH H2N
NC(Cc1ccccc1)C(O)=O
OH
CN
C/C=C\C=\[C@@H](O)C#N
SMILES编码的立体化学信息表示
SLN编码(Sybyl线性标记法)的规则
化学信息学
Chemoinformatics,chemical informatics, Cheminformatics,chemi-informatics
• 利用计算机信息处理技术对化学分子结构和 相关信息进行管理的一种综合性技术和学科
• 应用化学信息学可促进化学信息的获取、转 化与共享
一、化学信息的表示方法 化学 分子
应管理软件
由三个主要模块组成: (1) 化学信息管理系统:ISIS/HOST——主服务器应用程序,进
行通讯连接,集中数据库数据并作处理 (2) 化学信息生成和管理软件:ISIS/BASE——用于生成局部数
据库及处理信息 (3) 化学画图软件:ISIS/DRAW——用于输入结构式和搜寻询问
条件
2D结构输入
以相同的数值。
双键“/”表示顺式,“\”表示反式。 原子顺时针排列用@表示,逆时针排列用@@表示。
甲烷 乙醇 氰化氢 环已烷 吡啶 异丁酸 反式二溴甲烷 顺式二溴甲烷 L-丙氨酸 D-丙氨酸
CH4 C2H5OH HCN
C CCO C#N
C6H12
C1CCCCC1
C5H5N
n1ccccc1
(CH3)2CHCO2H CC(C)C(=O)O Br/C=C/Br 或Br\C=C\Br
一维结构:化合物名称(俗名);线性符号表示法。 二维结构:原子用元素符号,键用短线,即化合物结构式。为平面结构。 三维结构:原子的空间位置、相互间距离、键角和二面角等。 分子表面:建立在三维结构基础上,能与分子的三维结构一一对应。
苯丙氨酸分子结构表征层次
一
三
维 NC(Cc1ccccc1)C(O)=O 维