含能材料构效关系分析和性能预估系统设计与实现
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Design and Implementation of Structure Property Relationships Analysis and Performance Prediction System for Energetic Materials
A thesis submitted to
Northwest University
in partial fulfillment of the requirements
for the degree of Master
in Software Engineering
By
Wu Qiaojuan
Supervisor: Zhao Hongan Professor
June 2018
摘要
摘要
含能材料作为火炸药、火箭的主要动力能源,在军事、航天以及民用方面都有着广泛的用途,促使我国科研工作者在含能材料研究领域做出更大的突破。
在传统的含能材料研究过程中想要获得性能更新的,往往需要经过大量复杂、繁琐和重复的实验,存在着效率低、成本大、劳动强度高、危险性强等诸多不利因素针对这一状况,采用数理统计分析算法对目前已公布的芳香类化合物性能与其分子结构关系的实验数据开展含能材料的性能与分子结构之间的构效关系分析研究,建立了相应的构效关系拟合模型,并据此模型设计实现了一套适用于芳香类化合物的构效关系分析及性能预测软件系统。
系统集成了燃烧热性能、撞击感度性能、生成焓性能与结构参数的构效关系的分析、性能预估、含能材料构效关系数据管理及模拟仿真等计算结果展示等。
为含能材料的计算机模拟仿真设计和新型同素异构体含能材料的性能预估及分子结构设计提供了软件工具,借此工具进行事先拟合仿真和数字模拟,将会有效减少实验次数、缩短开发周期及降低实验成本。
主要的研究工作内容如下:
(1)提出了一种改进的构效关系分析模型,该模型基于具有便于参数筛选的,支持对含能材料在燃烧热、撞击感度、生成焓性能与分子结构间的构效关系分析。
(2)基于含能材料构效关系分析成果逆向建立含能材料性能预估算法,经验证表明性能预测与文献值有较高的拟合度(达95%)。
(3)设计实现了含能材料分子构效关系分析及性能预估系统,满足含能材料设计、配方选材性能评价等需求。
关键词:含能材料,性能预估,拟合模型,构效关系分析
ABSTRACT
ABSTRACT
Energetic materials, as the main power source for explosives and rockets, have a widely use in military, aerospace, and civilian applications, prompting Chinese researchers to make further breakthroughs in the field of energetic materials research. In the process of researching traditional energetic materials, it is often required to undergo a large number of complex, cumbersome, and repeated experiments in order to obtain performance updates. There are many unfavorable factors such as low efficiency, high cost, high labor intensity, and high risk. In the current situation, the statistical data analysis algorithm was used to analyze the structure-activity relationship between the properties of energetic materials and the molecular structure of the experimental data of the relationship between the performance of aromatic compounds and their molecular structure. The corresponding structure-activity relationship was established. Based on this model, a set of structure-activity relationship analysis and performance prediction software system for aromatic compounds was designed and implemented. The system integrates the combustion thermal performance, impact sensitivity performance, structure-activity relationship analysis to generate the helium performance and structural parameters, performance prediction, and the display of calculation results for energy-efficient material structure-activity relationship data management and simulation. It provides software tools for the computer simulation design of energetic materials and the performance prediction and molecular structure design of novel allomeric energetic materials. The tools for pre-fitting simulation and digital simulation will effectively reduce the number of experiments, shorten the development cycle and reduce the cost of the experiment. The main research work is as follows:
(1)An improved structure-activity relationship analysis model is proposed. This model is based on convenient parameter selection and supports the analysis of the
西北大学专业硕士学位论文
structure-activity relationship between the heat of combustion, impact sensitivity, enthalpy formation performance, and molecular structure of energetic materials.
(2)Based on the analysis of the results of the structure-activity relationship of energetic materials, an algorithm for predicting the performance of energetic materials is established. It has been verified that the performance prediction and the literature values have a high degree of fitness (up to 95%).
(3)Design and implementation of molecular structure-activity relationship analysis and performance prediction system for energetic materials, to meet the needs of energetic material design, performance evaluation of formula selection.
Key words: energetic materials, performance prediction, fitting model,
structure-activity relationship analysis
目录
目录
ABSTRACT ................................................................................................... I V 第一章绪论 . (1)
1.1 研究背景及意义 (1)
1.2 国内外研究现状及展望 (2)
1.2.1 国内外研究现状 (2)
1.2.2 国内外研究展望 (5)
1.3 本文的主要研究内容 (6)
1.4 本文的组织结构 (6)
第二章数理统计分析算法理论 (9)
2.1 多元线性回归统计算法(multiple linear regression,MLR) (9)
2.1.1 线性回归统计算法 (9)
2.1.2 多元线性回归算法 (9)
2.1.3 多元线性回归模型的检验 (11)
2.1.4 残差分析 (12)
2.2 偏最小二乘法(partial least square,PLS) (12)
2.2.1 偏最小二乘法基本思想 (12)
2.2.2 偏最小二乘法回归分析建模步骤 (13)
2.2.3 最佳主成分的确定 (16)
2.3 BP神经网络算法(BP neural network,BPNN) (16)
2.3.1 算法的基本原理 (16)
2.3.2 算法的网络结构 (17)
2.3.3 算法学习过程 (18)
2.3.4 算法步骤 (20)
2.4 蚁群优化算法(ant colony optimization, ACO) (21)
2.4.1 算法基本思想 (21)
2.4.2 算法的流程和规则 (22)
西北大学专业硕士学位论文
2.4.3 算法的应用 (23)
2.5 统计算法的优缺点 (24)
2.6 本章小结 (25)
第三章含能材料性能与结构参数关系模型研究 (27)
3.1 分子燃烧热与分子结构关系模型研究 (27)
3.1.1 分子结构参数选择 (27)
3.1.2 参数模型的建立 (29)
3.1.3 检验分子燃烧热模型 (30)
3.1.4 分子燃烧热模型分析 (31)
3.2 分子撞击感度与分子结构关系模型研究 (33)
3.2.1 分子结构参数选择 (33)
3.2.2 参数模型的建立 (34)
3.2.3 检验分子撞击感度模型 (36)
3.2.4 预估分子撞击感度 (39)
3.3 分子生成焓与分子结构关系研究 (39)
3.3.1 分子结构参数选择 (40)
3.3.2 参数模型的建立 (42)
3.3.3 预估分子生成焓 (43)
3.4 本章小结 (45)
第四章含能材料构效关系分析及预估系统架构设计 (47)
4.1 需求分析 (47)
4.2 系统的总体设计 (47)
4.2.1 系统架构设计 (47)
4.2.2 功能模块设计 (48)
4.3 系统主要功能模块流程设计 (50)
4.4 系统数据库设计 (51)
4.4.1 数据库概念设计 (51)
4.4.2 数据库表设计 (53)
目录
4.5 本章小结 (56)
第五章系统程序设计与实现 (57)
5.1 开发环境 (57)
5.2 功能实现 (57)
5.2.1 系统登录界面 (57)
5.2.2 性能构效分析模块 (59)
5.2.3 预估性能模块 (61)
5.2.4 系统数据的管理 (63)
5.3 数据安全管理措施 (66)
5.4 本章小结 (67)
第六章实验结果分析 (69)
6.1 构效分析模块结果分析 (69)
6.2 预估模块结果分析 (70)
6.3 本章小结 (70)
总结与展望 (71)
本文工作总结 (71)
未来工作展望 (72)
附录一含能材料燃烧热样本数据 (73)
附录二含能材料撞击感度样本数据 (78)
附录三含能材料生成焓样本数据 (83)
参考文献 (85)
致谢 (89)
攻读硕士学位期间取得的科研成果 (91)
作者简介 (93)
第一章绪论
第一章绪论
1.1 研究背景及意义
自进入20世纪90年代,世界格局的变化以及军事、航天、工业的发展,含能材料作为主要的动力和能量来源,发挥了不可替代的重要作用[1,2]。
在恶劣的战争环境中,武器系统所使用的炸药、弹药必须在复杂的环境中保持性能稳定可靠,防止造成不必要的牺牲。
近些年,研究能抵抗各种极端条件的火炸药成为火炸药技术发展的方向,并要求火炸药杀伤力强、高燃烧热、低撞击感度、耐热性强、高能量生成焓等。
对含能材料的高性能要求,使得对含能材料的研究这项任务尤为重要。
含能材料在反应时具有高的燃烧热和生成焓,说明此化合物的能量性能高,是我们追求的研究方向。
同时含能材料在生产、储存、运输和使用时,受到外界环境带来的撞击、温度的不确定性、湿度的影响,都有可能使火药对周围带来破坏,所以,在规定的贮存期内经受环境条件的变化,保持其理化性质几乎不变,具有一定的安定性,撞击感度的研究是近年来研究的热点课题。
同时,含能材料的耐热性的研究,使得含能材料能在高温下保持性质稳定,有利于军事、航天事业的发展。
针对上述问题,如果能通过分子结构对含能材料性能进行较准确地预估,那么,在后期的研究中就能大大减少研究的工作量,反过来也可以通过含能材料性能对分子结构进行优化设计。
在这个过程中,完全靠实验来解决含能分子设计合成、性能预估必定会使工作周期长、劳动强度大、也会增加危险事故的发生几率。
还需要进行理论计算。
基于以上的背景介绍,本论文研究的意义如下:
(1)含能材料在实验的过程中具有一定的危险性,若可以采用某种理论分析计算代替或部分代替实验,可以避免危险或降低危险程度,免于伤害事故的发生;其次,实验结果容易受到外界环境和人为因素的干扰,且实验的重复性差,成本高,效率低等不利因素影响。
采用计算机与实验相结合的方法,相对容易知道什么样的结构具有什么样的性能,也就是采用构效关系分析、预测新含能材料的性能,可能
西北大学专业硕士学位论文
减少了大量的反复实验,节省人力财力,提高经济效益。
(2)本文将结合含能材料领域关于含能材料构效关系的研究成果和数理统计分析算法理论,开展针对含能材料构效分析计算建模方法研究。
具体的研究思想和方法是利用偏最小二乘法、多元线性回归、BP 神经网络对芳香族类含能材料的分子燃烧热、撞击感度、生成焓和分子结构参数之间的关系,开展相应的构效关系,计算机分析建模方法研究,并在此基础设计实现一套适用于芳香族化合物构效关系分析及其性能预估的计算机软件系统。
(3)使用开发的构效分析及预估系统对芳香族化合物的性能预测得到的结果与实验样本的真实值进行对比,误差较小。
本文的研究成果将会对新型含能材料的设计与合成工作有一定的理论参考价值。
(4)在含能材料方面的研究方法,经过改进、优化,还可以应用在化学、生物、材料学等学科。
1.2 国内外研究现状及展望
1.2.1 国内外研究现状
(1)含能材料燃烧热的研究进展
郭绍俊在研究有机化合物的燃烧热和其分子结构的关系时,引进电负性参数对有机物燃烧热进行计算 [3]。
彭昌军在研究烷烃的标准燃烧热与分子结构参数的关系时,提出基于图论的观
点,结果表明,采用方程e x x b x a c +-+=∆︒︒︒︒
)(H '''计算的总的相对平均误差小于
0.04%,提出一种从分子结构预测烷烃标准燃烧热的新方法[4,5]。
王克强等人,根据分子结构的特点,提出基团键贡献法,其是一种根据分子结构参数信息预测气态烷烃燃烧热,结果表明,此方法对306 种气态烷烃燃烧热进行计算,计算值与实验值十分接近, 平均误差0.045%,同年,也用此方法对306种液态烷烃计算燃烧热,计算值与实验值十分接近,平均误差为0.047%[6]。
孙关中、彭津研究了含氮有机物的各种官能团的结构参数,并将计算结果与《防火手册》和国内外有关文献中已知燃烧热的含氮有机物CnHmOpNg 进行对照比较,
第一章 绪论
结果表明,提出的求算方法误差小,实用性较强[7,8]。
曹洪印、将军成和潘勇以基于Xu 指数的原子类型AI 指数作为分子结构描述符,选取了80个液态烃作为样本,采用人工神经网络和多元线性回归方法,对样本的燃烧热进行定量结构-性质相关性建模和预测研究[9,10,11]。
基于Xu 指数作为分子结构描述符所建立的多元线性回归拟合模型,拟合模型相关系数为99.9%,对相对误差为0.637%,模型预测值与实验值的一致性令人满意。
曹洪印、将军成和潘勇选取并计算了1481种分子结构参数的基础上,使用偏最小二乘法及蚁群优化算法对分子结构参数进行优化筛选, 最终确定了 4 个分子结构参数,选取424 种烃类物质作为实验样本,对物质的燃烧热进行了QSPR 构效研究,建立了一个使用4个 参数作为自变量的燃烧热预测模型[12,13]。
张朋等人通过Chem Office 8.0计算了32种烃类化合物的10个量子化学参数,并采用SPSS13.0统计学软件建立了烃类化合物燃烧热的最佳预测方程[14]。
结果表明,统计学软件建立的方程与化合物的燃烧热和分子的碳氢含量及密度有很好的拟合,预测效果良好。
(2)含能材料撞击感度的研究进展
19世纪末20世纪初,一些西方国家对含能材料的撞击感度开始研究,主要在欧、美以及日本地区[15]。
20世纪50年代,中国的科技工作者,开始研究高能炸药,经过不懈的努力,在“高能炸药”的研究上获得了巨大突破,还创新出了激光脉冲法、小圆筒试验等方法。
Kamlet 等人,在研究脂肪族和芳香族炸药的)(lg %50h 与OB 100的关系时,发现存在线性相关关系,即撞击感度值与结构参数是线性相关的[16,17]。
在炸药的感度和分子结构关系研究方面,科研工作者程新路等人对几种化合物的衍生物用量子力学从头算法进行了研究[18]。
肖鹤鸣及其作者,在硝基化合物的分子轨道理论中提出采用分子轨道计算方法对苯的硝基衍生物进行系统研究,发现同素异构体中存在的分子最弱键与含能材料的撞击感度存在着线性关系,那么,将双原子之间的相互能作为判别炸药的撞击感度或热安定性相对大小的依据是合情合理的[19,20]。
董洁对含硝基类炸药的分子结构分析,对最简单的三原子水分子的二聚体的相
西北大学专业硕士学位论文
互作用进行研究,希望通过此研究,对炸药分子间的相互作用的研究有所启发,并以键离解能作为参数,研究其与炸药感度的关系[21]。
王睿、蒋军成等人建立的定量结构-性质相关模型的相关系数和标准偏差分别为0.907和0.1713,交叉验证相关系数及均方根误差分别为0.941和0.1869,模型具有较高的可靠性、相关度和预测能力[22,23]。
对模型分析表明,原子的E-state 指数是影响撞击感度的重要因素,其与硝基类化合物的撞击感度有较好的相关性。
杜军良、舒远杰、周阳等人对37种硝基芳烃化合物进行了+31l -B3LYP/6-DFT P),G(d 水平全优化计算,据所得量子化学参数建立了硝基芳烃化合物撞击感度的定量结构-性质关系(QSPR)模型[24,25]。
文章用SPSSVl3.0软件建立了芳香族炸药的撞击感度的QSPR 模型,其相关系数为0.94,调整相关系数为0.86,我们所建立的QSPR 模型为设计钝感炸药提供了一定的指导作用。
袁方强主要通过两种方法对硝基类含能材料的撞击感度进行研究[26]。
一种是将分子的拓扑结构进行分解,由若干小的单元组成,用单元的数量进行感度的预测,另一种是将Gaussian 程序设计的化学描述符作为自变量,根据编写的程序,进行硝基类含能材料感度的预测。
钱博文对多硝基含能材料撞击感度的QSPR 研究表明,所建模型的相关系数分别为85.4%和97.4%,均方根误差分别为0.195和0.071[27]。
通过比较GA-ANN 模型和GA-MLR 模型,发现GA-ANN 模型的性能较优一点,说明多硝基含能材料的分子结构和撞击感度的构效关系是非线性的。
与文献比较发现,所建的两个模型均优于已有文献模型。
(3)含能材料生成焓的研究现状
Mole S.J 等人结合了六种密度泛函理论(DFT )方法,将能量转换为等价的简单原子,在实验时,对于确定生成焓的烃,计算值和实际值之间均方根偏差范围为1-6KJ*mol 28。
王贵昌、潘荫明等人采用从实验中获取的一套基团对生成焓的贡献值,由于实验数据的有限性,直接对预估的生成焓误差较大,本文用分子力学法解决了这个问题[29]。
李良超、董葵娜利用分子结构参数对烷烃衍生物的生成焓建立构效关系分析模
第一章绪论
型,相关系数达到99.9%,其预估值和实际值非常接近,相对误差小于1%。
对分子参数的选择上,简单、明了、方便应用,是进行定量构效关系研究的可行方法[30]。
Gharagheizi F提出基于定量结构-性质关系技术化合物的标准生成焓,采用多元线性回归的遗传算法来对分子描述符进行筛选,使用选定的分子描述符建立前馈神经网络来预测生成焓[31]。
田德余、王晓轩等人通过键参法给硝基类含能材料的分子结构中的化学键进行编码,采用多元线性回归法对其键参法标记的结构和生成焓进行回归拟合模型的建立,计算结果表明,此拟合模型能较好的表示键参数和生成焓之间的线性关系,预估值和实际值的相对误差在10%以内[32]。
王明良、田德余等人采用人工神经网络对高氮化合物的生成焓与其分子结构参数进行了研究,建立的回归模型拟合度达99.8%,相对误差在10%以内,采用此模型预测精度高[33]。
袁汝明、傅钢等人采用高斯六年计算一系列偶记小分子的构型和热化学性质,还通过原子化学反应计算其标准生成焓,该实验促进了理论与实验的结合,学习了相关软件的使用[34]。
冯雪艳采用偏最小二乘法对分子结构参数和化合物的生成焓性能进行构效关系研究,结果表明,运用偏最小二乘法可以提高生成焓的预估精度[2]。
1.2.2 国内外研究展望
国内外近年来对含能材料的研究还在进行中,虽然经历了这么久的科学研究,因为这类研究的复杂性,危险性,研究工作者们还没有完全搞清楚含能材料性能与分子结构之间的构效关系,所以不能对含能材料构效关系下定一个结论。
采用不同的研究方法,研究的结果就会有差别,到底哪一种更有效呢,还需要研究工作者们进一步的通过实验进行验证分析。
本文主要在含能材料的燃烧热、撞击感度、生成焓这三个性质上进行了研究,对研究现状按照发展的时间顺序进行了介绍,反映了含能材料的研究进展情况一直都是循序渐进的。
研究者们将研究点放在了分子层面,从分子结构体内部研究构效关系,从传统的做实验转化成了与计算机相结合的方式进行实验,实验过程更加便捷、节约时间,同时也为我们在研究中更加准确的对构效关系进行分析。
在含能材
西北大学专业硕士学位论文
料的研究领域,通过与计算机的结合,为此在化学、国防等领域的应用实现现代化打下坚实的基础。
1.3 本文的主要研究内容
本文主要通过偏最小二乘法、多元线性回归、BP神经网络及蚁群算法,主要对烃类化合物和芳香族化合物的分子结构参数和性质进行构效关系分析,并建立函数模型,应用模型对某含能材料进行性能预估,与实验值进行比较,分析模型的准确性,并进行优化,尽可能的减小误差,使得理论计算与实验值基本吻合。
具体研究内容如下:
(1)对含能材料的分子结构进行分析,采用蚁群优化算法对分子结构参数进行筛选,筛选出主要的分子结构参数。
(2)对含能材料的燃烧热与分子结构参数通过多元线性回归方法进行构效关系分析建模;对含能材料的撞击感度和分子结构参数通过偏最小二乘法进行构效关系分析建模;对含能材料的生成焓和分子结构参数通过BP神经网络进行构效关系分析建模;对拟合模型的模型相关度及进行判定,并进行优化。
(3)通过构建的模型,建立分子构效关系分析系统,用系统对含能材料的性能进行预估,并针对存在的同分异构体也能区分性能上的差异。
(4)对上述过程实现可视化编程,设计与实现含能材料构效关系分析和预估软件系统。
1.4 本文的组织结构
第一章:绪论。
介绍与含能材料构效研究相关的背景,对研究进展、主要的研究内容、论文的组织结构。
第二章:数理统计分析算法基本理论知识。
介绍多元线性回归统计算法、偏最小二乘法、BP神经网络和蚁群算法的理论、步骤及流程[35]。
第三章:运用第二章提到的数理统计分析方法,对含能化合物的燃烧热、撞击感度、生成焓和分子结构参数进行构效关系建立相应的拟合模型。
并对拟合模型的
第一章绪论
模型相关系数进行测定,拟合度都在95%以上。
第四章:含能材料构效关系系统的设计。
主要介绍了系统的开发环境、设计原理、设计流程、功能模块设计、数据库概念设计、数据库表设计。
第五章:含能材料构效关系系统的软件实现。
前台页面主要实现了使用数据库表,获取数据库中的数据进行拟合模型的建立,后台页面主要实现了对数据库表的增删改查,两者之间形成良好的吻合,共同组成分析及预估系统。
第六章:对含能材料构效关系系统的功能模块进行展示,对系统的拟合模型进行结果分析。
西北大学专业硕士学位论文
第二章 数理统计分析算法理论
第二章 数理统计分析算法理论
含能材料构效关系就是研究分子结构参数与其性能之间的关系,建立相应的拟合模型,从而用来预估含能化合物的性能,并对含能化合物的分子设计提供帮助。
含能材料的构效关系分析已经成为国内外学者研究的热点课题,那么在这个过程中,相关的研究方法是必不可少的。
2.1 多元线性回归统计算法(multiple linear regression ,MLR )
2.1.1 线性回归统计算法
多元线性回归通常用于解决含有两个或两个以上的自变量和因变量之间的线性问题[36]。
在含能材料构效关系的研究中采用此方法建模获得了满意的拟合模型。
2.1.2 多元线性回归算法
当因变量与多个自变量存在线性关系时,一般采用MLR 方法。
MLR 是将问题转化成求多自变量和因变量线性关系的方法[37]。
多元线性回归算法流程图如图2.1所示:
其数学模型如式2.1所示:
i mi m i i i e x x x +++++=ββββ 22110y
(2.1)
式2.1中,0β是常数项,),,3,2,1(i m i =β为待估计回归系数,i β反映了第i 个自变量i X 对因变量Y 线性影响的程度[38];e 表示回归估计值与真实值之间的误差。
多元线性回归的一般形式如式2.2所示:
mi m i i i x x x ββββ++++= 22110y ˆ (2.2)
式2.2中i y
ˆ是因变量y 的估计值或预测值,采用矩阵形式求解每个待估计回归系数值,如下式2.3所示:
Y X X T T 1)X (ˆ-=β
(2.3)
西北大学专业硕士学位论文
将式2.3代入式2.2中,得到预测值i y
ˆ。
图2.1 多元线性回归模型流程图
得到回归系数β值后,代入式2.4,求得未知因变量Y ,如式2.5所示:
βˆˆun un
X Y = (2.5) 模型参数的误差平方和如式2.6所示:
第二章 数理统计分析算法理论
2
221102)]([)ˆ(Q ∑∑++++-=-=m m i i i x x x y y y ββββ (2.6) Q 反映了回归模型的误差大小,越小越好。
2.1.3 多元线性回归模型的检验
针对不同的问题,做不同的分析,无论是采用多元线性回归模型还是一元线性回归模型。
在建立了函数模型之后,应用最小二乘法得到参数的估计值,对函数模型进行模型相关度检验,以便进行合适的修改或重新建模,尽可能的达到满意的拟合度模型[39]。
(1)样本数据点拟合程度的测定
无论是一元线性回归还是多元线性回归,拟合程度的测定都和决定系数2r 相关,决定系数2r 与因变量、因变量的预估值、因变量的平均值相关,2r 的计算如式2.7所示:
∑--=222
)()ˆ(r y y y y (2.7) 上式2.7中,y 为实际值,y ̂为预估值,y ̅为平均值,102<<r ,当决定系数2r 的值越趋近于1,表示因变量与自变量的线性关系明显,函数模型对样本数据点的拟合程度越强。
(2)回归方程拟合度检验
标准误差S 决定了多元回归模型的拟合度, S 值如式2.8所示:
1)(S 12
--=∑=n x x n i i
(2.8)
上式2.8中,n 表示样本个数,x 表示样本均值,)(n i ,,2,1
i x =为总实验样本,当S 越小,多元线性回归方程的拟合程度越高,反之,越低。
(3)回归方程显著性检验
常常采用F 统计量的值来度量回归方程的显著性,能够反映自变量和因变量的线性关系是否密切,F 的计算公式如2.9所示:
)
1()
1()
1()ˆ()ˆ(2
2
22
---=----=
∑∑k n r k
r k n y
y k
y y
F
(2.9)
上式2.9中,y 表示实际值,y
ˆ表示预估值,y 表示平均值,n 表示样本个数,k 为模型中的参数个数。
在式2.9中,对F 统计量的计算、给定的显著水平α以及得到的临界值αF ,若F 统计量值大于临界值αF ,则回归方程的回归效果显著,反之,不显著。
2.1.4 残差分析
一个函数模型经过2.1.3节的模型检验,结果显示通过,但还不能说明该模型的拟合度高,需要对拟合模型进行残差分析,度量模型的相关度。
残差的基本思想:残差ε有零均值和常值方差,ε遵从)N(0,~2σε分布,是线性回归拟合模型ε的估计值,反过来利用ε考察回归拟合模型的合理性。
若样本中某些点的位置远离其他数据,明显的存在较大的误差,那么这个实验数据就是异常值。
出现异常值的主要原因,一是在对数据进拟合建模时,发现某些数据的位置及其的不可信,二是,在计算或抄录时,观察错误,致使某些样本点远离其他数据,产生异常,降低了模型的拟合度,因此要删除这些异常的位置上的数据,提高模型拟合度。
2.2 偏最小二乘法(partial least square ,PLS )
2.2.1 偏最小二乘法基本思想
最小二乘回归方法是在工程技术与经济管理研究中应用到,但随着工程问题复杂度的提高,最小二乘法已不足以解决问题的要求,在这个发展趋势下,偏最小二乘回归法受到工作者的青睐。
偏最小二乘法通过简单的方法求得一些准确度不定量的值,不同于普通的多元线性回归方法,PLS 一般用于数据建模时,对因变量进行提取主成分,对数据进行一定的筛选和整合,利用主成分进行回归建模。
偏最小二乘法是多元统计分析算法的提升版,实现了数据结构简化、回归建模以及两组变量之间的相关性分析[40,42,43,43]。