二维定量构效关系
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Molecular Structure
ACTIVITIES
Representation
Feature Selection & Mapping
Descriptors
Katiritzky, A. R. ; Lovanov, V . S .; Karelson, M. Chem. Soc. Rev. 1995, 24, 279-287.
向后剔除法(backward selection)
多元线性回归方程的作用
17:35
二维定量构效关系
二维定量构效关系
一
本世纪60年代以来,人们创制新药的难度越来 越大,传统的普遍筛选方法由于效率低,周期长, 与开发新药的要求不相适应。到了本世纪80年 代,随着分子生物学和计算机领域的迅速发展与 惊人成就,促进了开发新药技术路线的重大变革, 计算机辅助分子设计,在新药开发中起到越来越 重要的作用。 不同的药物,具有不同的结构,药效也不一样。 因此要进行分子设计,必须建立结构与活性的定 量 关 系 即 定 量 结 构 活 性 关 系 ( Quantitative Structure Activity Relationship, QSAR)。
QSAR Model Building
Pre dicte d
Interpretation , validati on And Prediction
x
x xx
x x x
Experim ent
回归分析在 QSAR中意义
概念
1、应变量( dependent variable) 2、自变量( independent variable)
回归分析根据因变量与自变量的关系可分为一元 回归分析和多元回归分析。一元回归分析只涉及 一个变量与另一个变量的关系,多元回归通常表 示一个变量与两个或更多个变量之间的关系。事 实上,因变量只受一个自变量影响的情况非常少 见,通常是几个自变量共同影响一个因变量。 多元线性回归是经典建模方法,可优化和预测同 源先导化合物活性,分析药物作用机理,推测受 体模型结构。其最大优点是可获得因果模型且物 理意义明确。
分子连接性指数反应了分子中各原子排列状况、 分支大小且与多种理化常数及生物活性相关,计 算也很方便;另外由于化合物的质谱与它的结构 有关,而化合物的药理活性与其结构有关,故可 用质谱的质荷比作为描述符;
其它参数
QSAR的分析方法
直观型
此外还有位置描述符、环境描述符、几何描述符、 对症描述符等等,有时为了尽可能地减少信息损 失,可同时并用几种描述符
“ The structure of a chemicals influences its preterits and biological activity” “ Similar compounds behave similarly”
定量构效关系是研究一组化合物的生物活性与其 结构特征之间的相互关系,结构特征以理化参数、 分子拓扑参数、量子化学指数和(或)结构碎片 指数来表示,用数理统计的方法进行数据回归分 析,并以数学模型表达和概括出量变规律。由于 数学模型的参数大多是由化合物的二维结构得出, 可以将这类定量构效关系研究称为2D—QSAR。
方程的显著性检验可用复相关系数取值R断定。 复相关系数R反映了因变量与所有自变量之间回 归关系密切的程度,检验R的显著性就是检验回 归方程的显著性。 因变量与自变量总体相关并不意味因变量与每个 自变量都显著相关,因此在多元回归分析中只对 复相关系数R作显著性检验是不够的,还需按上 述方法对偏回归系数作显著性检验。
回归分析
回归分析的作用
Data Matrix
descriptor1 descriptor2 descriptor3 - - - descriptor m x11 x21 x n1 x12 x22 x n2 x13 x23 x n3 x1m x2m x nm
Activity ln 1/C ln 1/C ln 1/C
目前,几乎所有探索化合物结构-活性关系的分 析方法都是以统计学为基础的。进行QSAR数据 分析,通常采用以下几种方法,这些方法都属于 化学计量学(Chemometrics)范畴
直观型,即对结构—活性关系进行似真推理 (Plausible reasoning)该方法是通过列表、作图等 技术,并采用逻辑推理理法来反映结构性质与生 物活性的关系 缺点是当有几种参数都与生物活性相关时就难于 区分,且,仅基于化合物的相似活泼性分析,而 不对活泼与不活泼化合物之间的元素差异进行分 析评价,有时也会出现错误的推论。
回归分析、多元统计分析是定量结构活性关系研 究中的基本数学方法。应用这些方法可以在化合 物的结构性质-活性之间建立回归方程;对未知 属性的化合物进行合理的分类;建立数学模式, 将化合物的结构信息与活性类别联系起来;预报 未知物的活性大小;寻找化合物活性变化趋势并 探索其产生的原因。
Statistical Analysis (Feature selection, regres sion)
2
17:35
Flow Chart of a QSAR model generation
Preparation of Input DATA (Retention value, Structures ) 3D Geometry Optimizati on (conformation, alignment)
逐步回归分析 向前引入法(forward selection) 向后剔除法(backward selection) 逐步引入-剔除法 (stepwise selection)
自变量由少到多一个一个引入回归方程。将 corr(y , xj)最大而又能拒绝H0者,最先引wk.baidu.com方 程,余此类推。至不能再拒绝H0为止。
3、一元线性回归 直线回归方程的模型是: yi=a+bxi 其中 (1) a是截距 (2) b是回归系数 (regression coefficient)(回归直线的斜率) 回归系数的统计学意义是:自变量每变化一个单位,应变 量 平均 变化的单位数.
一元回归分析和多元回归分析
尽管回归分析、多元分析在数学上都有严格的定 义和要求,尽管结构活性关系的研究对象是化合 物和生物体,情况复杂干扰因素多,所获取的数 据难以满足这些数学方法的前提条件,但是实践 表明回归分析、多元分析在非数学学科的QSAR 研究领域中的应用获得了极大的成功,为研究工 作的深入开展提供了巨大的推动力
R2
选择变量的方法
向前引入法(forward selection)
数据拟合后所得方程的好坏也可用R2和S两种统 计量来判断。R2是方程方差在数据方差中所占的 份数,R2 =1表示数据对方程完全适合,而R2 = 0.50表示数据中只有50%的方差可用方程解释。 补充统计量S,是观察值与方程预测值的标准偏 差。如果方程的S值较实际测定的标准偏差小, 表明数据拟合得较理想。
Calculation of Descriptors
Molecule 1 Molecule 2 Molecule n
回归分析,该方法是对一组数据进行最小二乘拟 合处理并建立函数关系的过程。当有几种性质可 能对活性有贡献时,可用多元回归来处理。拟合 函数的统计评价也是这种分析的一部分。该方法 包括常用的Free-Wilson方法和Hansch分析法等。
QSAR的发展简史
Quantitative Structure Activity Relationship (QSAR) Overview
1848年,Blake进行了硝酸铅和醋酸铅的毒性研究,指出 毒性起源于铅,为结构活性关系的首次研究 1930 Louis 以σ常数做为描述苯环上取代基的电子效应 之标度 1953 Taft 将Hammett观点扩展到脂肪族,并引进了空间 效应指数Es。它大为改进仅以σ常数所描述的线性关系 1960 Hansch 引入logP的概念,有效地解释了均相水溶 液系统的反应动力学行为,继而扩展到药物-受体作用的 多相反应系统,提出了疏水性参数概念 1962年 Hansch和 Fujita 等首先把 Hammett 常数对反应速 率或平衡影响的定量处理方法移植到处理生物活性与结 构的定量关系,首先确立了定量构效关系的研究方法。
虽然R是衡量总回归效果的重要标志,这里要强调的是R 值的大小与回归方 程中自变量 的个数n, 及因变量所 取 的观察值的个数k有关。 当n相对于k不很大时,会获得较大的R值,即容易产生 偶然相关。特别是当n=k+1时,即使k个自变量与因变 量Y完全不相关,亦必然有R=1的结果。 进行多元回归时要注意n与k的比例。一般认为n至少是k 的4倍或5倍以上,就是说1个自变量要求因变量有4~ 5 个观察值对应,以消除偶然相关的影晌。另外,需要注 意,由自变量预测因变量时,所用的数据不应超出建立 回归方程时数据范围,不能随意外推。
直到 20世纪 60年代,出现了 3个 QSAR模型,即 Hansch 分 析 (Hansch analysis) 、 Free-Wilson 模 型 (Free-Wilson model) 和 模 式 识 别 (Pattern recognition)。其中应用较广的是Hansch分析。
定量构效关系
化学描述变量可能是实测或计算的,也可是物化 参数和量化参数或图形参数。
理化参数描述符
分子片断描述符
分子连接性指数
理化参数描述符如logP、π、Es、MR等分别表 征疏水性、电性、空间效应、克分子折射率,这 一类描述符用的较多;
分子片断描述符将分子中某一特征片断,如原子 片断、环片断以及亚结构片断作为描述符代码, 由于分子片断描述符仅考虑彼此独立的分子片断, 而可能丢失分子结构内部各基团的排列位置与相 互联系的信息,而且表征一个化合物需要描述符 过多又不易解释,故常用分子连接性指数描述符;
散点图 奇异点( ouliers) 最小二乘法(least square, LS) 残差平方和(sum of squares for residuals)
3
17:35
复相关系数
R应注意的问题
R2确定系数: 简记为R2,即回归平方和SS回归与总离均差平 方和SS总的比例。 R2 = SS回归/ SS总 可用来定量评价在Y的总变异中,由 P个X变量 建立的线性回归方程所能解释的比例。
人们研究药物的中心问题是揭示药物的化学结构、 理化性质与生物活性之间的内在联系。19世纪中叶 就有人提出了它们的定量关系式: Ф=F(C) 式中 Ф和 C分别表示化合物的生物效应和结构性 质。 Meyer和 Overton的研究表明,一些化合物的脂 水分配系数与麻醉作用呈线性关系。
Hansh(1964)
线性回归与非线性回归
线性关系的判别
回归方程的建立
在回归分析中如果因变量与自变量之间存在着线 性关系,那么它们就是线性回归所研究的对象; 若因变量与自变量的关系不呈线性,那么就属非 线性回归研究范畴。
因变量与自变量之间是否存在线性关系,可通过 对回归系数进行t检验来断定。进行t检验后,如 果发现有的偏回归系数不显著,那么就要从回归 方程中删除这些没有明显作用的自变量,删除变 量时不可同时将几个不显著的自变量一起去掉, 应当先删去t值最小的一个变量,重新计算回归 方程,对新的回归方程的回归系数作检验,再删 去新方程中一个不显著的自变量,如此重复,直 到回归方程中所有的自变量都显著为止。
1
17:35
QSAR的数据
活性数据
化学描述变量
QSAR数据主要由两部分组成
– 生物活性 – 化学参量
活性数据又可称为应变量,由实验测定,可以是 连续的如y=pC,也可以是离散的如活性-非活性, 弱-中-强等。在QSAR中,应变量活性参数通常 以产生标准生物效应时药物的物质的量剂量或物 质的量浓度的负对数(log1/C)表示。而标准生物 效应则多采用剂量—效应曲线的敏感部位,如酶 抑制剂抑制50%专一结合的药物物质的量浓度 (IC50)、半数致死物质的量(LD50)以及产生50% 最大效应的药物物质的量浓度(ED50)等表示。