CADD药物信息学基本知识
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
药物信息学初步
1药物信息学:
a药物信息学是有关药物研究和开发过程中所涉及的大量小分子、大分子及其相互作用信息的学科。
b药物信息学,简单说来就是化学信息学和生物信息学的加和。
c也包括类药性、药物代谢动力学性质和毒性预测、药靶预测、高内涵筛选及代谢模型等综合信息在新药发现和发展中的整合、分析和应用。
2化学信息学与生物信息学
•化学信息学(Chemoinformatics,Chemical Informatics),简而言之,一切与小分子化合物有关的计算机操作和运算都属于化学信息学的研究范畴,包括小分子的结构、构象、能量、性质等,也包括小分子与大分子的相互作用,还包括小分子的设计。
•化学信息学的研究已有较长的历史,比如1960年代出现的QSAR,但作为学科名词1998年才首次出现。
•与之相对的是生物信息学(Bioinformatics或Biological Informatics)。生物信息学是随着人类基因组计划的实施而出现的,最初仅是指对基因组序列的比较分析。但现在已发展到既对生物大分子的序列、也对生物大分子的结构、构象进行研究。针对生物大分子结构、功能等的计算研究,叫做计算生物学(Computational Biology)。
3 化学信息学在药物设计中的主要应用
●虚拟组合化学库的设计;
●化合物数据库的相似性分析与多样性分析;
●化合物数据库的类药性分析、ADMET性质预测;
●化合物数据库的虚拟筛选;
●。。。
4 为什么要进行ADMET预测
●ADMET是候选药物临床研究失败的主要原因(占60%)。
●ADMET评估已成药物研发的关键,需尽早进行。
●由于ADMET涉及药物体内过程,因此评估非常困难。
●实验评价ADMET缺点:代价大、周期长,一般在临床前研究阶段才开始进行,且动物数据与人体数据并
不完全一致。
●计算机预测ADMET优点:代价低、速度快,可以在化合物合成之前进行,也可以与先导物优化一起进行,
这样可将理论上具有不良ADMET性质的分子尽早排除,从而降低失败率。
5 ADMET预测的基本要求
●要有大量可靠的实验数据供使用;
●要有合适的方式对分子结构进行表达;
●要有合适的建模方法及评价指标。
6 常规ADMET预测方法
●分子结构采用分子描述符进行表达;分子描述符与性质之间采用统计回归分析方法建立预测模型。
●存在的问题:分子描述符是间接描述分子,具有计算繁杂、数据可能不准确,数量众多而难以取舍,模型
可解释性差等问题。
7 基于子结构模式识别的ADMET预测方法
●新方法:分子结构采用分子指纹进行表达;分子指纹与性质之间采用机器学习方法建立预测模型。
●优点:跳过分子描述符而直接从分子结构出发来预测分子性质,提高了预测精度;采用信息增益技术识别
关键子结构,建立的模型具有可解释性;等等。
8生物信息学在药物设计中的应用
●药物作用新靶标的发现与确证:
♦人体内靶标
♦病原体内靶标
●蛋白质序列比较、分析;蛋白质结构相似性比较、同源蛋白的识别。
●蛋白质二级结构与三维结构的预测。
9 序列比对(sequence alignment)
●序列比对指将两个或多个序列排列在一起,标明其相似之处。序列中可以插入间隔(通常用短横线“-”表示)。
对应的相同或相似的符号排列在同一列上。
●这一方法常用于研究由共同祖先进化而来的序列,特别是如蛋白质序列或DNA序列等生物序列。
●将未知序列同数据库中的已知序列进行比较分析,可以预测未知序列的结构、性质或功能,已成为生物学
家一个强有力的研究手段。
10 序列比对
同一性(Identity):两个蛋白质有一定数量的氨基酸在比对的位点上是相同的,例如:如果100个氨基酸残
基的蛋白质中50个位点相同,我们说它们50%相同。
相似性(Similarity):通常在某些位点上有一些氨基酸被另外一些化学物理特性相近的氨基酸所代替,这种
突变可称为保守突变。将保守突变的因素考虑在内,就可以定义各种打分方案(scoring schemes)对两序列的相似程度打分,所得分值即代表其相似的程度。
同源性(Homology):只有当两个蛋白质在进化关系上具有共同的祖先,才可称它们为同源的。
11 蛋白质结构的实验测定
●X-ray 晶体衍射
◆需要生长蛋白质晶体(这对一部分蛋白质几乎是不可能的,总之,不容易)
◆衍射图样能进行反傅立叶变换来表征电子密度(这有“相”的问题)
●核磁共振谱(NMR)
◆能提供距离约束,但很难发现对应的结构
◆只适用于相对较小的蛋白质
12 蛋白质二级结构预测
●由蛋白质二级结构统计分析得到的规则可用于全新蛋白质设计或者蛋白质突变体的设计;
●当序列同源性较低时,二级结构的确认有助于确定蛋白质间结构和功能的关系;
●在同源蛋白质模建中,二级结构预测有助于建立正确的序列比对关系;
●在基于二级结构片段堆积的三级结构预测中正确的二级结构预测是第一步;
●二级结构的预测有助于多维核磁共振中二级结构的指认,同时也有助于晶体结构的解析。
●基本依据:每一段相邻的氨基酸残基具有形成一定二级结构的倾向。
●因此二级结构预测需要通过统计和分析发现这些倾向或者规律,二级结构预测问题自然就成为模式分类和
识别问题。
●蛋白质二级结构的形成规律性比较强,所有蛋白质中约85%的氨基酸残基处于3种基本二级结构状态(α-helix,
β-sheet, βturn)。
●预测目标:判断每一个氨基酸残基是否处于3种之一的二级结构态。
13 蛋白质三维结构预测
●Ab initio预测:不依赖已知结构的同源相似物信息,直接预测一个序列对应的蛋白质三级结构(3D 构象)
●穿针引线法(Threading,folding recognition):通过研究同已知线段序列的吻合度得到结构信息
●同源(Homology)模建:根据序列同源性分析、调整已知结构进行结构预测
●第一种即从头预测的方法是采用分子力学和分子动力学的方法,根据物理化学的基本原理,直接从理论上
计算蛋白质分子的空间结构。
●第二、三种方法一般称之为基于知识的蛋白质结构预测方法,该方法的基本思想是通过对已知空间结构的
蛋白质进行研究和分析,找出蛋白质一级结构和空间结构之间的联系,总结出一定的规律并建立一些经验规则。
14 同源模建(Homology Modeling)
●基本假设:蛋白序列的同源性决定了蛋白三维结构的同源性,一个未知结构的蛋白质分子(目标蛋白)的三
维结构可以通过与其序列同源性较高且结构已知的蛋白质(参考结构)进行预测。
●一般来说,若模型蛋白序列(目标序列)与参考蛋白序列之间的同源性在50%以上,则通过参考蛋白准确
搭建出来的蛋白具有很高的准确性;若序列同源性在30%~50%之间,则通过参考蛋白准确搭建出来的蛋白具有较好的准确性;若序列同源性在30%以下,则通过同源模建的方法很难得到好的模建结构。
●同源模建法是一个比较成熟的方法,得到了广泛的应用,它能帮助我们了解蛋白质结构和功能之间的关系
以及帮助我们发现新药并改进药物的设计。
15 结构保守性分析