数学建模回归分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
由F分布有
称为相关系数。对给定的显著水平a 其中r称为相关系数。对给定的显著水平a ,有置信 水平为1 从而F 水平为1-a 的临界值 ,从而F检验法 的检验准则为: 的检验准则为:当 时,拒绝 ;否则就接受
(b)t检验法 当成立时, 当成立时,由T分布的定义有
因此,对于给定的显著水平a ,用T统计量检验 , 因此,对于给定的显著水平a 有置信水平为1 有置信水平为1-a 的临界值 ,从而t检验法的检验准则为: 从而t检验法的检验准则为: 当 时,拒绝 ;否则就接受
y 的预测值为
的无偏估计, 的无偏估计,即
的回归值
。它是
的置信水平为1 给定显著水平 , 的置信水平为1- 的预测区间 ,其中 为
由上式可知, 越小, 由上式可知,剩余标准差 越小,预测区间越 预测值越精确; 小,预测值越精确;对于给定的样本观测值和置信 水平而言, 预测精度就越高。 水平而言, 越靠近 时,预测精度就越高。
1、回归方程的显著性检验 在实际问题中, 在实际问题中,因变量y 与自变量x之间是否 有线性关系(1.1)只是一种假设, (1.1)只是一种假设 有线性关系(1.1)只是一种假设,在求出回归方程 之后, 之后,还必须对这种回归方程同实际观测数据拟 合的效果进行检验。 合的效果进行检验。 (1.1)可知 β 越大, 可知, 由(1.1)可知, 1 越大,y 随x变化的趋势就 β 越明显;反之, 越小, 越明显;反之,1 越小,y 随x变化的趋势就越不 明显。 =0时 明显。特别当 β1 =0时,则认为y 与x之间不存在线 性关系, 之间有线性关系。 性关系,当 β1 ≠ 0 时,则认为y与x之间有线性关系。 因此, 因此,问题归结为对假设 进行检验。 进行检验。
(b)控制 (b)控制 的值以1 若要 的值以1的概率落在 之内, 指定区间( 指定区间(c,d)之内,变量x应控制在什么范围内 的问题就是所谓的控制问题。 的问题就是所谓的控制问题。它是预测问题的反 问题。 问题。 只要控制x满足以下两不等式 这要求 若方程 分别有解a,b,则(a,b)就是所求的x的控制区间。
五 回归分析的Matlab实现 回归分析的 实现
Matlab统计工具箱中提供了一些回归分析的命令, Matlab统计工具箱中提供了一些回归分析的命令, 统计工具箱中提供了一些回归分析的命令 现介绍如下。 现介绍如下。 1、多元线性回归 多元线性回归的命令是regress regress, 多元线性回归的命令是regress,此命令也可用于 一元线性回归。其格式为: 一元线性回归。其格式为: 确定回归系数的点估计,用命令: (1)确定回归系数的点估计,用命令: b=regress(Y,X)。 b=regress(Y,X)。 求回归系数的点估计和区间估计, (2)求回归系数的点估计和区间估计,并检验回归 模型,用命令: 模型,用命令: [b,bint, rint,stats]=regress(Y, alpha)。 [b,bint,r,rint,stats]=regress(Y,X,alpha)。 画出残差及其置信区间,用命令: (3)画出残差及其置信区间,用命令: rcoplot( rint) rcoplot(r,rint)。
回归分析
山东建筑大学 贺长伟
引言
回归分析是处理很难用一种精确方法表示出 来的变量之间关系的一种数学方法, 来的变量之间关系的一种数学方法,它是最常用 的数理统计方法,能解决预测、控制、 的数理统计方法,能解决预测、控制、生产工艺 优化等问题。 优化等问题。它在工农业生产和科学研究各个领 域中均有广泛的应用。 域中均有广泛的应用。 回归分析一般分为线性回归分析和非线性回 归分析。 归分析。本节着重介绍线性回归分析的基本结论 及其在Matlab中的相应命令。线性回归分析是两 及其在Matlab中的相应命令。 Matlab中的相应命令 类回归分析中较简单的一类, 类回归分析中较简单的一类,也是应用较多的一 类。
四、逐步线性回归分析
逐步线性回归分析方法就是一种自动从大量可供 选择的变量中选择那些对建立回归方程比较重要的变 量的方法, 量的方法,它是在多元线性回归基础上派生的一种算 法技巧,详可参阅相应的文献。 法技巧,详可参阅相应的文献。 其基本思路为:从一个自变量开始, 其基本思路为:从一个自变量开始,视自变量对 y 作用的显著程度,从大到小依次逐个引入回归方程。 作用的显著程度,从大到小依次逐个引入回归方程。 当引入的自变量由于后面自变量的引入而变得不显著 要将其剔除掉 剔除掉。 时,要将其剔除掉。引入一个自变量或从回归方程中 剔除一个自变量,为逐步回归的一步。对于每一步, 剔除一个自变量,为逐步回归的一步。对于每一步, 值检验, 都要进行y 值检验,以确保每次引入新的显著性变量 作用显著的变量。 前回归方程中只包含对y 作用显著的变量。这个过程 反复进行,直至即无不显著的变量从回归方程中剔除, 反复进行,直至即无不显著的变量从回归方程中剔除, 又无显著变量可引入回归方程止。 又无显著变量可引入回归方程止。
于是我们得到一元线性回归模型为 (1.2) 称为回归 称为回归
未知, 其中 σ 未知,固定的未知参数 系数, 称为回归变量 回归变量。 系数,自变量x称为回归变量。 (1.1)式两边同时取期望得 式两边同时取期望得: (1.1)式两边同时取期望得: 称为y 的回归直线方程。 对x的回归直线方程。 在该模型下, 在该模型下,第i个观测值可 以看作样本(这些样本相互独立但不同分布, 以看作样本(这些样本相互独立但不同分布, i = 1,2, ,n)的实际抽样值,即样本值。 1,2,…, 的实际抽样值,即样本值。
2、预测与控制 当检验结果拒绝了: 当检验结果拒绝了: ,接下来的问题是如 进行预测和控制。 何利用回归方程 进行预测和控制。 预测就是对固定的 控制就是通 预测就是对固定的x值预测相应的y 值,控制就是通 的值, 的值控制在制定的范围内。 过控制x的值,以便把y 的值控制在制定的范围内。 (a)预测 (a)预测 满足模型(1.2) (1.2)。 设y 与x满足模型(1.2)。令 表示x的某个固 定值, 定值,且 相互独立, 假设 相互独立,则 的预测值和预 测区间如下。 测区间如下。
可线性化的一元非线性回归(曲线回归) 二 可线性化的一元非线性回归(曲线回归)
在工程技术中, 在工程技术中,自变量x与因变量y 之间有时 呈现出非线性(或曲线)关系, 呈现出非线性(或曲线)关系,这是通常出现两 种情况:一种是呈现多项式的关系, 种情况:一种是呈现多项式的关系,这种情况通 过变量替换可化为多元线性回归问题给予解决; 过变量替换可化为多元线性回归问题给予解决; 另一种是呈现出其它非线性关系,通过变量替换 另一种是呈现出其它非线性关系, 可化为一元线性回归问题给予解决。 可化为一元线性回归问题给予解决。 若匹配曲线(经验公式) 若匹配曲线(经验公式)为含参量a,b的非线 性曲线,采用的办法是通过变量替换 变量替换把 性曲线,采用的办法是通过变量替换把非线性回 归化为线性回归。 归化为线性回归。通常匹配的含参量a,b的非线性 曲线有以下六类,具体的替换方法如下: 曲线有以下六类,具体的替换方法如下:
假设: 假设: 被拒绝,则回归显著,认为y 被拒绝,则回归显著, 之间存在线性关系, 与x之间存在线性关系,所求的线性回归方程有意 否则回归不显著, 义;否则回归不显著,y与x的关系不能用一元线 性回归模型来描述,所得的回归方程也无意义。 性回归模型来描述,所得的回归方程也无意义。 此时,可能有如下几种情况: 此时,可能有如下几种情况: 没有显著影响,此时应丢掉变量x (1)x对y没有显著影响,此时应丢掉变量x; 有显著影响, (2)x对y 有显著影响,但这种影响不能用线性关 系来表示,应该用非线性回归; 系来表示,应该用非线性回归; 之外,还有其他不可忽略的变量对y (3)除x之外,还有其他不可忽略的变量对y 有显 著影响,从而削弱了x对y 的影响。此时应用 著影响,从而削弱了x 的影响。 多元线性回归模型。因此,在接受H0 多元线性回归模型。因此,在接受H0 的同 需要进一步查明原因以便分别处理。 时,需要进一步查明原因以便分别处理。
检验方法:(a)F检验法 检验方法:(a :( 对样本方差
进wk.baidu.com分解, 进行分解,有
上式中的 是由实际观测值没有落在回归直线上 引起的(否则为零), 是由回归直线引起的。 引起的(否则为零),U 是由回归直线引起的。因 越大, 就越小, 此,U 越大, 就越小,表示y 与x的线性关系就越 显著;否则, 越小, 就越大, 显著;否则,U 越小, 就越大,表示y 与x的线性 关系就越不显著。 关系就越不显著。这样我们就找到了一种判别回归 直线拟合程度好坏的方法: /s接近于 接近于1 直线拟合程度好坏的方法:如果U /s接近于1,即 U / 较大时,则对拟合效果感到满意。 较大时,则对拟合效果感到满意。
一 一元线性回归分析
针对一组(二维) 针对一组(二维)数据 互不相同), ),其最简单的数据拟合形式为 (其中 xi 互不相同),其最简单的数据拟合形式为 寻求直线 ,使 在最小二乘 准则下与所有数据点最为接近。 准则下与所有数据点最为接近。 但由于随机观测误差的存在, 但由于随机观测误差的存在,满足上述数据点 的直线应该是 (1.1) ε 是准确的, 是两个未知参数, 其中x, y是准确的, 是两个未知参数, 是均 值为零的随机观测误差,具有不可观测性, 值为零的随机观测误差,具有不可观测性, 可以合理地假设这种观测误差服从正态分布。
一元线性回归分析的主要任务是 一元线性回归分析的主要任务是: 主要任务 a.用实验值(样本值) 作点估计; a.用实验值(样本值)对 用实验值 作点估计; b.对回归系数 作假设检验; b.对回归系数 作假设检验; c.在 作预测, 作区间估计。 c.在 处对y 作预测,并对y作区间估计。 1、 回归参数 估计 组独立观测值: 假设有n组独立观测值: (1.2)有 由(1.2)有
则 (1.3) 1.3)
其中
相互独立。 相互独立。记
称 为偏离真实直线的偏差平方和。 为偏离真实直线的偏差平方和。由最 小二乘法得到的估计 称为 的最小二 乘估计, 乘估计,其中
(经验)回归方程为 经验) (1.4) )
这样我们得到 其中
的无偏估计 服从正态分布
,
2 模型的假设、预测、控制 模型的假设、预测、
1 双曲线 作变量替换 2 幂函数曲线 两边取常用对数: 两边取常用对数: 代换 则幂函 数曲线方程就变成直线方程 注:对于非线性回归问题的Matlab实现问题,一 对于非线性回归问题的Matlab实现问题, Matlab实现问题 种方法是化为相应的线性模型实现, 种方法是化为相应的线性模型实现,另种方法是 直接应用Matlab中相应的命令,其结果是一致的。 Matlab中相应的命令 直接应用Matlab中相应的命令,其结果是一致的。 ,再作 得
三 多元线性回归分析
一般地,在实际问题中影响应变量y 的自变量往 一般地, 往不止一个, 。通 往不止一个,不妨设有k 个为 过观测得到一组( +1维 过观测得到一组(k +1维)相互独立的试验观测 数据 , +1。 其中n > k +1。假设变量y 与变量 之间有线性关系: 之间有线性关系: (1.5) 是随机变量, 其中 ε 是随机变量,一般假设 则观测数据满足 (1.6)
其中 机变量。 机变量。令
互不相关且均是与 同分布的随
ε
则(1.6)可简写为 (1.6)可简写为 +1)矩阵 矩阵, 其中X 为已知的n*(k +1)矩阵,称为回归设计矩 阵或资料矩阵, 维观察值列向量, 阵或资料矩阵,Y 是n维观察值列向量, 为k +1 维未知的列向量, 维未知的列向量,ε是满足 维随机列向量. 的n维随机列向量.
一般称 (1.7) 线性回归模型(高斯—马尔科夫线性模型 马尔科夫线性模型) 为k 线性回归模型(高斯 马尔科夫线性模型) (1.7)取数学期望得到 对(1.7)取数学期望得到
称为线性回归方程。 称为线性回归方程。
对线性模型所要考虑的主要问题是: 对线性模型所要考虑的主要问题是: (i)用实验观测数据对未知参数 做点估计和假设检验, 做点估计和假设检验,从而建立因变量y 和自 之间的线性关系; 变量 之间的线性关系; (ii)在 ii) 处对y 的值作预测和 控制, 作区间估计。 控制,并对y 作区间估计。本部分总是假设 n > k +1。 +1。 具体方法略) (具体方法略)