北京大学 化学信息学 course(1)
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
键型(芳香环)
立体化学构型 电荷 同位素
3D-coordinates for atoms
OH
CH2 O H2N C H
OH
h
17
分子结构信息表达的内容
原子 原子间的连接
键型(芳香环)
立体化学构型 电荷 同位素
3D-coordinates for atoms
OH
CH2 O
+
H3N C H O
h
28
双键构型的表示 - ‘/’ ‘\’
F/C=C/F
F/C=C\F
h
29
手性表示 - @ or @@
从旋光中心沿字符串顺序观察, 逆时针为@,顺时针为@@
N[C@](C)(F)C(=O)O
h
30
氢原子表示
显式表示氢原子的四种情况: 1. 带电荷的氢, 如:质子 [H+] 2. 与其它氢相连的氢, 如:氢气 [H][H] 3. 氢桥 4. 同位素,如:重水, [2H]O[2H]
h
10
h
11
Human Alcohol Dehydrogenase (Adh1A)
分类: Oxidoreductase
简介: Molecule: Class I Alcohol Dehydrogenase 1, Subunit; Chain: A, B; Engineered: Yes
实验方法 : X-ray Diffraction
Nicholas J. Hrib, Norton P. Peet "Chemoinformatics: are we exploiting these new science?“
Drug Discovery Today 5 (11): 483-485, Nov. 2000
h
9
名词解释 - Cheminformatics
Ethene C=C Formaldehyde C=O Hydrogen Cyanide C#N Butadiene C=CC=C
h
25
分支 – 将支链放在括号中
branch : '(' <chain> ')' | '(' <chain> <branch> ')' | '(' <branch> <chain> ')' | '(' <chain> <branch>
h
18
分子结构信息表达的内容
原子 原子间的连接
键型(芳香环)
立体化学构型 电荷 同位素
3D-coordinates for atoms
OH
CH2 O H 2N 14 C H
OH
h
19
h
20
分子结构一维表示法 (Line Notation)
简介:
使用字符串表示分子结构
现有的几种表示法
IUPAC Medicinal Chemistry, IUPAC Computational
h
6
名词解释 - Chemometrics
化学统计学: 使用数理统计学的方法对化学信息(如有
机,分析和药物化学)进行分析,或进行化学实 验的设计和模拟
IUPAC Computational
h
7
名词解释 - Bio-informatics
h
37
ClogP的计算使用片断加和法 =(片断值+校正项) 片断值基于实验值,与片断的类型有关,如:极性基团、 卤素、离子、不饱和键 校正项描述不同片断间的相互作用,如:氢键等
h
38
http://www.daylight.com/
h
39
http://www.daylight.com/
h
40
分子结构信息的计算机存储和表达
h
4
相关名词辨析
http://www.genomicglossaries.com/content/c hemoinformatics_gloss.asp
h
5
名词解释 - Molecular Modeling
分子建模方法: 使用计算化学和图形显示技术研究分子结
构和性质,从而获得在给定环境下的分子三维结 构的近似表达
h
33
SMILES的正规化标记
c1ccccc1Oc2ccccc2(N) Nc1ccccc1Oc2ccccc2 Nc2ccccc2Oc1ccccc1 Nc1ccccc1Oc2ccccc2 O(c1ccccc1)(c2ccccc2N) Nc1ccccc1Oc2ccccc2
h
34
分子结构一维表示法 (Line Notation)
3D-coordinates for atoms
OH
CH2 O H2N C H
OH
h
15
分子结构信息表达的内容
原子 原子间的连接
键型
立体化学构型 电荷 同位素
3D-coordinates for atoms
OH
CH2 O H2N C H
OH
h
16
分子结构信息表达的内容
原子 原子间的连接
分子结构二维表示法
连接表 (Connection Table) 邻接矩阵 (Adjacency Table)
h
41
连接表 (Connection Table)
简介:计算机系统中主流结构表示方法 类型
“内部” CTs (内存)
程序处理
“外部” CTs (磁盘文件)
文件存储 数据交换
L-alanine
h
23
Atoms – 语法
atom : '[' <mass> symbol <chiral> <hcount> <sign<charge>> ']‘
双字母原子符号: Br (Upper/lower case) 原子的预定义价键:
B(3), C(4), N(3,5), O(2), P(3,5), S(2,4,6), F(1), Cl(1), Br(1), I(1)
h
42
“Redundant” Connection Table
13 O H
11
9
12
8
6 C H2
5
H2N 4C H
O
3
OH
1
1. O 1 2. C 0 3. O 0 4. C 1 5. N 2 6. C 2 7. C 0 8. C 1 9. C 1 10. C 0 11. C 1 12. C 1 13. O 1
h
31
芳香性
N1ccccc1 N1=CC=CC=C1
C1cc2cccccc2c1 C1=CC2=CC=CC=CC2=C1
h
32
一些例子
[O-][n+]1ccccc1 pyridine-N-oxide
O[C@H]1CCCC[C@H]1O cis-resorcinol
CC(C)NCC(O)COc1cccc2ccccc12 Propranolol – a beta-blocker
示例
h
44
benzene
WLViewer 3D
0
12 12 0 0 0 0 0 0 0 0 0
1.1202 0.0003 0.0002 C 0 0 0 0 0 0
1.8030 1.1835 -0.0005 C 0 0 0 0 0 0
3.1691 1.1839 -0.0004 C 0 0 0 0 0 0
大写的字母表示非芳香体系
示例:
Cl
Hydrochloric acid
S
H2S
[Fe++] Iron(II)cation
h
24
Bond - 语法
bond : <empty> | '-' | '=' | '#' | ‘.‘ ;
single | double | triple | disconnection
课程内容安排
第十一讲:Chemoinformatics
分子结构信息的计算机存储和表达 分子二维数据库和数据库检索技术
第十二讲:Cheminformatics
分子多样性和化合物筛选 三维结构的实验数据资源 基于三维结构的计算方法 化合物组合库 高通量虚拟筛选
h
1
化学信息学
第十一讲 Chemoinformatics
优点:
易于手工书写 结构紧凑
局限:
信息量小 对复杂分子的标记比较繁琐。 某些情况下,标记具有二义性。
h
35
分子结构一维表示法的应用
✓ 构造查询语言 ✓ 子结构匹配 ✓ 相似性搜索(结构指纹) ✓ 化合物组合库的压缩存储 ✓ 反应数据库
h
36
SMILES 应用示例
ClogP – 辛醇/水分配系数 实验方法 logP计算 – pH 7.0时的分配系数 数据库规模 >= 2,000,000化合物 工作站搜索速度>= 500,000/s
h
2
内容
相关名词辨析及化学信息学由来 分子结构信息的计算机存储和表达 分子二维数据库和数据库检索技术
h
3
名词解释 - Computational Chemistry
计算化学: 使用数学方法计算分子性质和模拟分子行为
的方法。并且包括合成设计、数据库搜索、组合 库操作等
(Hopfinger, 1981; Ugi et al., 1990). IUPAC Computational
生物信息学: 使用数理统计学的方法对化学信息(如有
机,分析和药物化学)进行分析,或进行化学实 验的设计和模拟
IUPAC Computational
h
8
名词解释 - Chemoinformatics
??: Chemoinformatics 是知识管理
(knowledge management)的有机组成部分
Wiswesser Line Notation (WLN) (Dialog)
Simplified Molecular Input Line System (SMILES/SMARTS) – (Daylight)
Representation of Structure Diagram Arranged Linearly (ROSDAL) - (Beilstein)
h
12
Human Alcohol Dehydrogenase (Adh1A)
h
13
分子结构信息的计算机存储和表达
如何使用计算机存储化学结构? 如何处理存储的结构信息? 计算机在Chemoinfomatics中的应用?
h
14
分子结构信息表达的内容
原子 原子间的连接
键型
立体化学构型 电荷 同位素
化学信息学: …结合化学合成、生物筛选及数据挖掘技术
指导药物发现和开发,… 用于合理的设计具有 类药性质的化合物,…构建用于虚拟高通量筛选 的智能化合物库,…研究以往的数据知道先导化 合物的优化
Cheminformatics: Intelligent Drug Discovery
May 28- 30, 2003 Philadelphia PA
<chain> ')'
SMILES: CCCC(C(=O)O)CCC
h
26
环定义 - 合环键用数字标出
h
27
其它定义
• 非连接关系 (disconnections):
• 同位素表示:
SMILES: [Na+].[O-]c1ccccc1
specified inside brackets. SMILES: [13CH4]
SMILES
OC(=O)C(N)CC1=CC=C(O)C=C1
h
21
分子结构一维表示法 (Line Notation)
Simplified Molecular Input Line Entry System (SMILES)
基于价键模型的标记法
Author: Dave Weininger (Daylight)
h
22
SMILE标记示例
C Methane C1CCCCC1 cyclohexane
O water
c1ccccc1 benzene
CC ethane
CO methanol
OC methanol
wenku.baidu.com
N[C@@H](C)C(=O)O
CCO ethanol
CC(=O)C O=C=O
acetone carbon dioxide
3.8522 0.0006 -0.0007 C 0 0 0 0 0 0
Sybyl Line Notation (SLN)(Tripos)
5
3
O
NH2
6
12 11
13
1
HO
CH
4
CH2
OH
89
ROSDAL
1O-2=3O,2-4-5N,4-6-7=-127,10-13O
SLN
OHC(=O)CH(NH2)CH2C[1]=CHCH =C(OH)CH=CH@1
WLN
QVYZ1R DQ
21
11
32
41
22
21
51
61
41
41
71
61
8 2 12 1
72
91
8 1 10 2
9 2 11 1 13 1
10 1 12 2
11 2
71
10 1
h
43
MDL Connection Table
数据交换的事实标准 衍生文件格式
Molfile (single molecule) SDfile (set of molecules and data) RGfile (Markush structure) Rxnfile (single reaction) RDfile (set of reactions with data)
立体化学构型 电荷 同位素
3D-coordinates for atoms
OH
CH2 O H2N C H
OH
h
17
分子结构信息表达的内容
原子 原子间的连接
键型(芳香环)
立体化学构型 电荷 同位素
3D-coordinates for atoms
OH
CH2 O
+
H3N C H O
h
28
双键构型的表示 - ‘/’ ‘\’
F/C=C/F
F/C=C\F
h
29
手性表示 - @ or @@
从旋光中心沿字符串顺序观察, 逆时针为@,顺时针为@@
N[C@](C)(F)C(=O)O
h
30
氢原子表示
显式表示氢原子的四种情况: 1. 带电荷的氢, 如:质子 [H+] 2. 与其它氢相连的氢, 如:氢气 [H][H] 3. 氢桥 4. 同位素,如:重水, [2H]O[2H]
h
10
h
11
Human Alcohol Dehydrogenase (Adh1A)
分类: Oxidoreductase
简介: Molecule: Class I Alcohol Dehydrogenase 1, Subunit; Chain: A, B; Engineered: Yes
实验方法 : X-ray Diffraction
Nicholas J. Hrib, Norton P. Peet "Chemoinformatics: are we exploiting these new science?“
Drug Discovery Today 5 (11): 483-485, Nov. 2000
h
9
名词解释 - Cheminformatics
Ethene C=C Formaldehyde C=O Hydrogen Cyanide C#N Butadiene C=CC=C
h
25
分支 – 将支链放在括号中
branch : '(' <chain> ')' | '(' <chain> <branch> ')' | '(' <branch> <chain> ')' | '(' <chain> <branch>
h
18
分子结构信息表达的内容
原子 原子间的连接
键型(芳香环)
立体化学构型 电荷 同位素
3D-coordinates for atoms
OH
CH2 O H 2N 14 C H
OH
h
19
h
20
分子结构一维表示法 (Line Notation)
简介:
使用字符串表示分子结构
现有的几种表示法
IUPAC Medicinal Chemistry, IUPAC Computational
h
6
名词解释 - Chemometrics
化学统计学: 使用数理统计学的方法对化学信息(如有
机,分析和药物化学)进行分析,或进行化学实 验的设计和模拟
IUPAC Computational
h
7
名词解释 - Bio-informatics
h
37
ClogP的计算使用片断加和法 =(片断值+校正项) 片断值基于实验值,与片断的类型有关,如:极性基团、 卤素、离子、不饱和键 校正项描述不同片断间的相互作用,如:氢键等
h
38
http://www.daylight.com/
h
39
http://www.daylight.com/
h
40
分子结构信息的计算机存储和表达
h
4
相关名词辨析
http://www.genomicglossaries.com/content/c hemoinformatics_gloss.asp
h
5
名词解释 - Molecular Modeling
分子建模方法: 使用计算化学和图形显示技术研究分子结
构和性质,从而获得在给定环境下的分子三维结 构的近似表达
h
33
SMILES的正规化标记
c1ccccc1Oc2ccccc2(N) Nc1ccccc1Oc2ccccc2 Nc2ccccc2Oc1ccccc1 Nc1ccccc1Oc2ccccc2 O(c1ccccc1)(c2ccccc2N) Nc1ccccc1Oc2ccccc2
h
34
分子结构一维表示法 (Line Notation)
3D-coordinates for atoms
OH
CH2 O H2N C H
OH
h
15
分子结构信息表达的内容
原子 原子间的连接
键型
立体化学构型 电荷 同位素
3D-coordinates for atoms
OH
CH2 O H2N C H
OH
h
16
分子结构信息表达的内容
原子 原子间的连接
分子结构二维表示法
连接表 (Connection Table) 邻接矩阵 (Adjacency Table)
h
41
连接表 (Connection Table)
简介:计算机系统中主流结构表示方法 类型
“内部” CTs (内存)
程序处理
“外部” CTs (磁盘文件)
文件存储 数据交换
L-alanine
h
23
Atoms – 语法
atom : '[' <mass> symbol <chiral> <hcount> <sign<charge>> ']‘
双字母原子符号: Br (Upper/lower case) 原子的预定义价键:
B(3), C(4), N(3,5), O(2), P(3,5), S(2,4,6), F(1), Cl(1), Br(1), I(1)
h
42
“Redundant” Connection Table
13 O H
11
9
12
8
6 C H2
5
H2N 4C H
O
3
OH
1
1. O 1 2. C 0 3. O 0 4. C 1 5. N 2 6. C 2 7. C 0 8. C 1 9. C 1 10. C 0 11. C 1 12. C 1 13. O 1
h
31
芳香性
N1ccccc1 N1=CC=CC=C1
C1cc2cccccc2c1 C1=CC2=CC=CC=CC2=C1
h
32
一些例子
[O-][n+]1ccccc1 pyridine-N-oxide
O[C@H]1CCCC[C@H]1O cis-resorcinol
CC(C)NCC(O)COc1cccc2ccccc12 Propranolol – a beta-blocker
示例
h
44
benzene
WLViewer 3D
0
12 12 0 0 0 0 0 0 0 0 0
1.1202 0.0003 0.0002 C 0 0 0 0 0 0
1.8030 1.1835 -0.0005 C 0 0 0 0 0 0
3.1691 1.1839 -0.0004 C 0 0 0 0 0 0
大写的字母表示非芳香体系
示例:
Cl
Hydrochloric acid
S
H2S
[Fe++] Iron(II)cation
h
24
Bond - 语法
bond : <empty> | '-' | '=' | '#' | ‘.‘ ;
single | double | triple | disconnection
课程内容安排
第十一讲:Chemoinformatics
分子结构信息的计算机存储和表达 分子二维数据库和数据库检索技术
第十二讲:Cheminformatics
分子多样性和化合物筛选 三维结构的实验数据资源 基于三维结构的计算方法 化合物组合库 高通量虚拟筛选
h
1
化学信息学
第十一讲 Chemoinformatics
优点:
易于手工书写 结构紧凑
局限:
信息量小 对复杂分子的标记比较繁琐。 某些情况下,标记具有二义性。
h
35
分子结构一维表示法的应用
✓ 构造查询语言 ✓ 子结构匹配 ✓ 相似性搜索(结构指纹) ✓ 化合物组合库的压缩存储 ✓ 反应数据库
h
36
SMILES 应用示例
ClogP – 辛醇/水分配系数 实验方法 logP计算 – pH 7.0时的分配系数 数据库规模 >= 2,000,000化合物 工作站搜索速度>= 500,000/s
h
2
内容
相关名词辨析及化学信息学由来 分子结构信息的计算机存储和表达 分子二维数据库和数据库检索技术
h
3
名词解释 - Computational Chemistry
计算化学: 使用数学方法计算分子性质和模拟分子行为
的方法。并且包括合成设计、数据库搜索、组合 库操作等
(Hopfinger, 1981; Ugi et al., 1990). IUPAC Computational
生物信息学: 使用数理统计学的方法对化学信息(如有
机,分析和药物化学)进行分析,或进行化学实 验的设计和模拟
IUPAC Computational
h
8
名词解释 - Chemoinformatics
??: Chemoinformatics 是知识管理
(knowledge management)的有机组成部分
Wiswesser Line Notation (WLN) (Dialog)
Simplified Molecular Input Line System (SMILES/SMARTS) – (Daylight)
Representation of Structure Diagram Arranged Linearly (ROSDAL) - (Beilstein)
h
12
Human Alcohol Dehydrogenase (Adh1A)
h
13
分子结构信息的计算机存储和表达
如何使用计算机存储化学结构? 如何处理存储的结构信息? 计算机在Chemoinfomatics中的应用?
h
14
分子结构信息表达的内容
原子 原子间的连接
键型
立体化学构型 电荷 同位素
化学信息学: …结合化学合成、生物筛选及数据挖掘技术
指导药物发现和开发,… 用于合理的设计具有 类药性质的化合物,…构建用于虚拟高通量筛选 的智能化合物库,…研究以往的数据知道先导化 合物的优化
Cheminformatics: Intelligent Drug Discovery
May 28- 30, 2003 Philadelphia PA
<chain> ')'
SMILES: CCCC(C(=O)O)CCC
h
26
环定义 - 合环键用数字标出
h
27
其它定义
• 非连接关系 (disconnections):
• 同位素表示:
SMILES: [Na+].[O-]c1ccccc1
specified inside brackets. SMILES: [13CH4]
SMILES
OC(=O)C(N)CC1=CC=C(O)C=C1
h
21
分子结构一维表示法 (Line Notation)
Simplified Molecular Input Line Entry System (SMILES)
基于价键模型的标记法
Author: Dave Weininger (Daylight)
h
22
SMILE标记示例
C Methane C1CCCCC1 cyclohexane
O water
c1ccccc1 benzene
CC ethane
CO methanol
OC methanol
wenku.baidu.com
N[C@@H](C)C(=O)O
CCO ethanol
CC(=O)C O=C=O
acetone carbon dioxide
3.8522 0.0006 -0.0007 C 0 0 0 0 0 0
Sybyl Line Notation (SLN)(Tripos)
5
3
O
NH2
6
12 11
13
1
HO
CH
4
CH2
OH
89
ROSDAL
1O-2=3O,2-4-5N,4-6-7=-127,10-13O
SLN
OHC(=O)CH(NH2)CH2C[1]=CHCH =C(OH)CH=CH@1
WLN
QVYZ1R DQ
21
11
32
41
22
21
51
61
41
41
71
61
8 2 12 1
72
91
8 1 10 2
9 2 11 1 13 1
10 1 12 2
11 2
71
10 1
h
43
MDL Connection Table
数据交换的事实标准 衍生文件格式
Molfile (single molecule) SDfile (set of molecules and data) RGfile (Markush structure) Rxnfile (single reaction) RDfile (set of reactions with data)