计算机辅助药物设计(CADD)-药物信息学

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
NPC: NCGC Pharmaceutical Collection, /npc/ SIDER: Side Effects Resource http://sideeffects.embl.de/
ACToR: /
CTD: /
• 实验评价ADMET缺点:代价大、周期长,一般在临床前研究阶段 才开始进行,且动物数据与人体数据并不完全一致。
• 计算机预测ADMET优点:代价低、速度快,可以在化合物合成之 前进行,也可以与先导物优化一起进行,这样可将理论上具有不 良ADMET性质的分子尽早排除,从而降低失败率。
Cl Cl
化学结构
C = (TP*TN - FN*FP) / (TP+FN)(TP+FP)(TN+FN)(TN+FP) Receiver Operating Characteristic (ROC)
ADMET研究概述
Tetrahymena pyriformis toxicity Cheng et al., Chemosphere, 2011, 82: 1636
9
化学信息学在药物设计中的主要应用
• 虚拟组合化学库的设计; • 化合物数据库的相似性分析与多样性分析; • 化合物数据库的类药性分析、ADMET性质预测; • 化合物数据库的虚拟筛选; • 。。。
分子类药性
基于对药物开发失败原因的分析,人们认识到药物代谢动力学和毒 性应该在药物开发尽可能早期被考虑。Pfizer公司的Lipinski通过对数千个 已知药物进行分析,总结出著名的“5倍律”(Rule of Five),于1997年 发表即受到业界的高度重视。“5倍律”认为,一个口服有效的药物应 该具备如下的性质:
/
/
表示
分子描述符
性质
建模
基于子结构模式识别的 ADMET预测方法
新方法:分子结构采用分子指纹进行表达;分子指纹与性质 之间采用机器学习方法建立预测模型。
优点:跳过分子描述符而直接从分子结构出发来预测分子性 质,提高了预测精度;采用信息增益技术识别关键子结构, 建立的模型具有可解释性;等等。
新型方法
• 用数据的似然度(likelihood)和假设(Hypothesis)的概率去预测新实例的 值
• 朴素Bayes方法(Naïve Bayes, NB)
• 基于实例的学习
• 最近邻方法(Nearest Neighbor)
• 神经网络(Neural Networks) • 支持向量机(Support Vector Machine) • 典型聚类方法:K-Means
890 / 1179 has human protein targets 390 Human Drug Target Proteins for Approved Drugs.
Wishart DS et al., Nucleic Acids Res. 2006 1;34 http://redpoll.pharmacy.ualberta.ca/drugbank/
分子量 500 logP值 5 氢键供体数目 5 氢键受体数目 10 以后又有人将其扩展到其它性质,如可旋转键数目 8,苯环数 目 4等。这些性质即为分子类药性。 子结构的“3倍律”。
为什么要研究ADMET?
Absorption Distribution Metabolism Excretion Toxicity
Toolbox development
P450 inhibitory promiscuity prediction. Cheng et al., J. Chem. Inf. Model, 2011, 51: 2482
生物信息学在药物设计中的应用
药物作用新靶标的发现与确证: 人体内靶标 病原体内靶标
/monkey.html
模型评价的指标体系
Statistical data
– True Positives (TP), False Positive (FP) – False Negatives (FN), True Negatives (TN) – Overall Prediction Accuracy (Q = (TP + TN)/(TP + FN + TN + FP)) – Sensitivity (SE = TP/(TP + FN)) – Specificity (SP = TN/(TN + FP)) – Matthews Correlation Coefficient
ADMET
ADMET是候选药物临床 研究失 败的主要原因(占60%)。
ADMET评估已成药物研 发的关 键,需尽早进行。
Nat. Rev. Drug Discov. 2003, 2, 192-204
药物开发失败原因分析
为什么要进行ADMET预测
• 由于ADMET涉及药物体内过程,因此评估非常困难。
IC50, Ki, logP, LD50...
生物活性、性质、毒性
ADMET预测的基本要求
• 要有大量可靠的实验数据供使用; • 要有合适的方式对分子结构进行表达; • 要有合适的建模方法及评价指标。
分子结构的表达
化学空间
苯丙氨酸
Phenylalanine
2-amino-3phenylpropanoic acid
化学信息学与生物信息学的关系
基因 蛋白质……………药物 先导化合物
生物信息学
化学信息学
系统生物学与网络药理学
系统生物学认为每个生物体都是一个整体,我们不能孤立 地研究各个蛋白、组织、器官等,而应该作为一个相互联 系的整体来研究。
随 着 系 统 生 物 学 的 快 速 发 展 , 网 络 药 理 学 ( Network Pharmacology)应运而生,从而改变了“一个基因 – 一种 药物 – 一种疾病”的单一药物发现模式。
将未知序列同数据库中的已知序列进行比较分析,可以预测未知序列的结构、性 质或功能,已成为生物学家一个强有力的研究手段。
化学信息学的研究已有较长的历史,比如1960年代出现的QSAR,但作为学科名 词1998年才首次出现。
与之相对的是生物信息学(Bioinformatics或Biological Informatics)。生 物信息学是随着人类基因组计划的实施而出现的,最初仅是指对基因组序列的 比较分析。但现在已发展到既对生物大分子的序列、也对生物大分子的结构、 构象进行研究。针对生物大分子结构、功能等的计算研究,叫做计算生物学 (Computational Biology)。
子结构驱动方法
分子结构
性质
表示
建模
// 结构描述符 //
分子结构的描述
子结构分子指纹定义
子结构分子指纹字典
– FP4 Fingerprint, 307 Substructures – MACCS Fingerprint, 166 Substructures
机器学习方法
• 决策树(Decision Tree) • 统计推理
Pubchem: / ChEMBL: https:///chembldb/ DrugBank: http://drugbank.ca/ STITCH: http://stitch.embl.de/ GEO: Gene expression omnibus /geo Connectivity Map: /cmap/
0.15
j 1
0.1
0.05
• 固H定(C条| t件j ) 熵n p(Ci | t j ) log2 p(Ci | t j )
0
i 1
识别关键子结构!
140 22 146 47 157 127 159 92 53 129
index ig
index
方法流程及步骤
1. 数据准备; 2. 数据读取; 3. 分子指纹表达; 4. 模式选择; 5. SVM建模; 6. 结果分析。
药物信息学初步
计算机辅助药物设计 Computer-Aided Drg Design药物信息学
• 药物信息学是有关药物研究和开发过程中所涉及的大量小分子、 大分子及其相互作用信息的学科。
• 药物信息学,简单说来就是化学信息学和生物信息学的加和。 • 也包括类药性、药物代谢动力学性质和毒性预测、药靶预测、高

Decision f (Molecule)
常规ADMET预测方法
• 分子结构采用分子描述符进行表达;分子描述符与性质之间采用 统计回归分析方法建立预测模型。
• 存在的问题:分子描述符是间接描述分子,具有计算繁杂、数据 可能不准确,数量众多而难以取舍,模型可解释性差等问题。
描述符驱动方法
分子结构
Cheng et al., Chin. J. Pestic. Sci. 2010, 12: 477
Database Development
ADMET Prediction
Substructure Pattern Recognition Shen et al., J. Chem. Inf. Model, 2010, 50: 1034
Combined Classifier. P450 inhibition prediction. Cheng et al., J. Chem. Inf. Model, 2011, 51: 996
Biodegradation Prediction Cheng et al., J. Chem. Inf. Model. 2012, 52: 655
蛋白质序列比较、分析;蛋白质结构相似性比较、同源蛋白的识 别。
蛋白质二级结构与三维结构的预测。
序列比对(sequence alignment)
序列比对指将两个或多个序列排列在一起,标明其相似之处。序列中可以插入间 隔(通常用短横线“-”表示)。对应的相同或相似的符号排列在同一列上。
这一方法常用于研究由共同祖先进化而来的序列,特别是如蛋白质序列或DNA序 列等生物序列。
内涵筛选及代谢模型等综合信息在新药发现和发展中的整合、分 析和应用。
化学信息学与生物信息学
化学信息学(Chemoinformatics,Chemical Informatics),简而言之,一切 与小分子化合物有关的计算机操作和运算都属于化学信息学的研究范畴,包括 小分子的结构、构象、能量、性质等,也包括小分子与大分子的相互作用,还 包括小分子的设计。
分子文件格式
• 小分子:Mol或SDF格式
• 应用最为广泛的连接表文件格式 • 由两部分组成:
“头文件块”和“连接表” • 包含单个不相连碎片的分子结构 • 每个分子间用一行“$$$$”分隔
• 小分子:SMILES格式
• 大分子:PDB格式
Mol 格式
Free Available Databases
O
OH NH2
数学向量
分子描述符
• 1D • 2D • 3D
分子指纹
• 散列函数 • 基于子结构字典
模型构建的方法
Cl Cl
分子结构
生物活性 理化性质 药代性质
毒性
✓QSA/P/TR
多元线性回归,MLR 主成份分析,PCA 偏最小二乘,PLS

✓机器学习
人工神经网络,ANN 决策树,Decision Tree 支持向量机,SVM
20
信息增益 (IG)技术确定关键子结构
• 信息熵 (System, C)
n
H ( C ) p(Ci ) log2 p(Ci ) i 1
• 信息增益 (Pattern, T)
IG(T ) H (C) H (C | T )
0.25
0.2
• 条件熵 m
H (C | T ) p(t j )H (C | t j )
因此,研究化合物-蛋白相互作用网络,既用于已知化合 物或药物的靶标识别,也可用于发现化合物的毒副作用, 或者已知药物的新用途,因而具有重要研究意义。
DrugBank Database
Drug-Target Network
DRUGS
TARGET PROTEINS
1179 FDA-approved small molecule & biotech drugs (different chemical entities)
相关文档
最新文档