支持向量回归用于氨基酸描述符(doc 7页)
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
支持向量回归用于氨基酸描述符(doc 7页)
支持向量回归用于氨基酸描述符在肽QSAR建模中的性能评价
(黑体三号、居中)
应用化学2008级学号2008123 张明康(宋体小四号、居中)
任课教师印家健副教授(宋体小四号、居中)
摘要:(宋体小四号、加粗、顶格)采用支持向量回归方法用3个数据集来评价z-scales、c-scales、ISA-ECI、MS-WHIM、PRIN等5个氨基酸描述符在肽QSAR支持向量回归模型构建中的性能并对核函数进行选择,采用留一法交叉检验的结果显示径向基核函数要好于多项式核函数和线性核函数;在以径向基核函数的支持向量回归模型中表明z-scales的预测准确度要略优于其它描述符,且在同一描述符的情况下SVR的预测效果要好于其它线性方法,说明SVR在肽QSAR模型构建中是一个可行的方法。(中文用楷体小四号、英文用Times New Roman小四号、两端对齐)
关键词:(宋体小四号、加粗、顶格)肽,定量构效关系,核函数,支持向量回归,性能评价(楷体小四号、两端对齐)(关键词间,用逗号隔开)
多肽具有高活性、高选择性及副作用小的特点,是维持生命过程中必不可少的物质,目前已成为药物研究的热点之一。在多肽类似物的研究和开发中,定量构效关系(Quantitative structure-activity relationships,QSAR)是一个重要的理论计算方法和常用手段。所谓多肽QSAR,就是用数学模式来表达多肽类似物的化学结构信息与特定的
生物活性强度间的相互关系[1,2]。
多肽的化学结构描述符普遍采用氨基酸的结构描述参数去定量描述多肽的化学结构和性质,其基本思路是以多肽的最基本的结构信息——氨基酸序列为基础,对一系列多肽类似物中变化的氨基酸残基进行定量描述,并把氨基酸序列转换成结构描述符矩阵的一个向量[1,2]。目前在肽QSAR模型中常用的氨基酸描述符主要有:基于实验的z-scales[1]、基于理论计算的t-scales[3]、ISA(isotropic surface area)-ECI(electronic charge index)[4]、MS-WHIM scores[5]、PRIN[6]、c-scales[7]以及基于分子拓扑学的MHDV(molecular holographic distance vector)及其衍变的拓扑描述符[8-10]。
在多肽QSAR数学模型方面,文献中常用的有多元线性回归(multiple linear regression, MLR)[10]、主成分回归(principal component regression, PCR)[8]、偏最小二乘(partial least squares,PLS)[1,4,5]和遗传算法与偏最小二乘法相结合(genetic algorithm-partial least squares,G/PLS)等方法[7],但这些方法都是线性方法,且对高维、非线性、小样本问题的解析能力有限。
目前,支持向量机[12](support vector machine, SVM)已广泛的用于各学科领域[13-15],故我们尝试采用支持向量回归(support vector regression, SVR)[16]方法研究多肽QSAR 数学建模,分别用48个苦味二肽、58个ACE(angiotensin converting enzyme)抑制剂二肽和30个缓激肽增效剂五肽等作为数据集,采用留一法交叉检验来评价z-scales、c-scales、ISA-ECI、MS-WHIM、PRIN等5个氨基酸描述符在肽QSAR支持向量回归模型构建中的性能并对核函数进行选择,结果显示径向基核函数要好于多项式核函数和线性核函数;在以径向基核函数的支持向量回归模型中表明z-scales的预测准确度要略优于其它描述符,且在同一描述符的情况下SVR的预测效果要好于G/PLS和PLS等方法,说明SVR在肽QSAR模型构建中是一种可行的方法。(中文用宋体小四号、英文用Times New Roman小四号、段前缩进2个汉字,两端对齐)
1 支持向量回归算法[12,15,17]及其实现
(中文用宋体四号、英文用Times New Roman四号、加粗,顶格、两端对齐,序号后空1格,不用标点符号)近年来,有限样本情况下的机器学习理论研究逐渐成熟,形成了一个较完善的理论
体系—--统计学习理论[17]。支持向量机是Vapnik等人根据统计学习理论提出的一种新的模式识别方法,它是建立在统计学理论VC维(Vapnik-Chervonenks dimension)理论和结构风险最小原理(structural risk minimization inductive principle)基础上的,能较好地解决小样本、非线性、高维数等实际问题,并成功地解决了过拟合的控制问题,提高了算法的预报能力,并成功的应用于分类、函数逼近和时间序列预测等方面。而肽生物活性值的预测问题也可以看作是一种对活性值与其影响因子之间复杂的非线性函数关系的逼近问题,因此我们尝试将支持向量回归应用于肽活性值的预测建模并利用SVR方法来评价各氨基酸描述符在肽QSAR模型中的建模能力,以及分析多肽中各氨基酸性质对其活性值的影响。利用MATLAB语言及所带的优化工具箱可以很容易的实现上述算法。
2数据来源及处理
2.15个重要的氨基酸描述符(中文用宋体小四号、英文用Times New Roman小四号、加粗,顶格、两端对齐,序号间用圆点隔开,最后空1格,不再用标点符号)
利用SVR模型对氨基酸描述符作肽QSAR预测性能的评价,选用的5个氨基酸描述符见表1,其中code为20个天然氨基酸的单字母符。
(表格采用三线表)(表题:中文用宋体五号、英文用Times New Roman五号、加粗,居中,表序后空1格,不用标点符号)(英文表题:Times New Roman五号、加粗,居中,表序后空2格,不用标点符号)
表15个氨基酸描述
符的数值
Table1 numerical value of five amino acid
descriptors
CODE z-scales c-scales ISA-ECI MS-WHIM PRIN Z1 Z2 Z3 C1 C2 C3 1 2 1 2 3 1 2 3
A 0.07 -1.73 0.09 -10.86 -4.42 -0.92 62.93 0.05 -0.73 0.2 -0.62 -1.02 -7.99 0.77
R 2.88 2.52 -3.44 12.33 9.68 -7.55 52.98 1.69 -0.22 0.27 1.00 -8.43 10.18 0.78
N 3.22 1.45 0.84 -2.49 6.57 2.43 17.87 1.31 0.14 0.2 -0.66 -8.00 0.33 -2.46
D 3.64 1.13 2.36 -3.18 8.31 5.46 18.46 1.25 0.11 -1.00 -0.96 -10.27 -0.38 -2.71
C 0.71 -0.97 4.13 -7.06 1.25 2.63 78.51 0.15 -0.66 0.26 -0.27 5.73 -3.30 -8.14
Q 2.18 0.53 -1.14 1.84 6.98 0.35 19.53 1.36 0.3 1.00 -0.3 -7.40 2.52 -0.92
E 3.08 0.39 -0.07 0.92 8.88 4.44 30.19 1.31 0.24 -0.39 -0.04 -8.82 1.43 -1.35
G 2.23 -5.36 0.3 -14.99 -2.54 1.97 19.93 0.02 -0.31 -0.28 -0.75 -4.64 -10.72 1.75