回归分析基本原理精讲
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
回归分析基本原理
目录
第1节回归分析概述 (2)
第2节多元回归分析基本原理 (2)
第3节回归分析预测在测绘中的基础应用 (7)
3.1回归分析预测步骤 (7)
3.2 一元线性回归分析应用 (8)
3.3 多元线性回归分析应用 (8)
3.4 基于Matlab的回归分析应用 (8)
第4节非线性回归分析 (8)
4.1 非线性函数形式的确定与线性转换 (8)
4.2 多面函数拟合法 (9)
4.3 基于正交函数系的拟合法 (9)
第1节 回归分析概述
在我们现实生活中,处于同一个过程的变量往往是相互依赖和制约的,这二者的关系可以分为两种形式:一种是确定性的关系(譬如可以用一个直线方程来表示),另一种是不确定的,虽然有关系,但是关系的表现形式却是不确定的,依赖于实际的情形,不能用一个精确的函数表达。
举个例子来说:人的血压y 与年龄x 的关系,人的年龄越大血压就会越高,但是相同年龄的人,血压未必相同。
也就是说血压y 与x 是有关系的,但是二者的关系无法用一个确定的函数表示。
血压y 的取值是可观测的,但是却是不确定的,在回归分析中,这种变量称为不可控变量。
在线性方程里自变量与因变量相对应,不可控变量也就是自变量。
由此引入回归分析的概念:研究一个随机变量(不可控变量)与一个或者几个可控变量之间相互关系的统计方法,就是回归分析。
只有一个自变量的回归分析,成为一元回归分析;有多个自变量的回归分析,称为多元回归分析。
回归分析无非是求不可控变量与可控变量之间的关系因子,无论是一元的还是多元目的都是一样的。
回归分析的主要内容有:
如何确定因变量与自变量之间的回归模型;
如果根据样本观测数据估计并检验回归模型及其未知参数;
判别影响因变量的重要自变量;
根据已经知道的值来估计和预测因变量的条件平均值并给出预测精度等。
通常在数据挖掘里面或者信息检索里面我们的应用无非是根据一系列训练样本(已观测样本)来预测一个未知的不可控变量的值。
第2节 多元回归分析基本原理
多元线性回归分析是利用多元线性回归模型进行分析的一种方法。
多元线性回归模型表示一种地理现象与另外多种地理现象的依存关系,这时另外多种地理现象共同对一种地理现象产生影响,作为影响其分布与发展的重要因素。
设变量y 与变量m x x x ,,,21 具有统计关系,则称y 为影响因变量或因变量,
m x x x ,,,21 为自变量或预报变量。
所谓多元线性回归模型是指这些自变量对y 的
影响是线性的,即
e x x x y m m +++++=ββββ 22110 (1)
其中,m ββββ ,,,210是与m x x x ,,,21 无关的未知参数,称y 为对自变量
m x x x ,,,21 的线性回归函数。
e 为随机误差,一般包括非重要自变量的省略、人
为随机行为、数学模型欠妥、归并误差、测量误差。
采用最小二乘法对上式中的待估计回归系数m ββββ ,,,210进行估计,求得β值后,即可利用多元线性回归模型进行预测了。
1、多元线性回归模型的表示
记n 组样本观测值为),,,,(21im i i i x x x y ,n i ,,2,1 =,代入(1)式,则有
n i e x x x y i im m i i i ,2,1,22110=+++++=ββββ
展开,即得
⎪⎪⎩⎪⎪⎨⎧+++++=+++++=+++++=n
nm m n n n m m m m e x x x y e x x x y e x x x y ββββββββββββ 2211022222211021112211101 (2) 其中,n e e e ,,,21 相互独立,且),0(~2δN e i ,n i ,,2,1 =,这个模型称为多元线性回归模型。
令
⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡=n y y y y 21,⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡=nm n n m m x x x x x x x x x A 212222*********,⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡=m ββββ 10,⎥⎥⎥⎥⎦
⎤⎢⎢⎢⎢⎣⎡=n e e e e 21 则上述函数模型可用矩阵形式表示为
⎭
⎬⎫+=),0(~2I N e e A y δβ (3) 可归纳总结为高斯-马尔可夫模型。
2、线性回归模型参数β的估值β
ˆ计算 线性回归模型中的回归参数可通过变量的样本数据(观测数据)来估计,用最小二乘法可获得回归参数的最优无偏估计值。
记β的估计量T m
)ˆ,,ˆ,ˆ,ˆ(ˆ210βββββ =,故y 的估计量 βˆˆA y
= 参数估计的关键是求得观测值的改正数e ˆ,而满足方程e A y +=β的e
ˆ有无限组,其中只有一组改正数的平方和为最小,这组最小改正数正是我们需要的,这种以改正数平方和为最小得到参数唯一解的准则,称为最小二乘准则,其表达式
为min ˆˆ=e e
T ,下面利用最小二乘准则对高斯-马尔可夫模型进行参数估计。
令估计值y
ˆ与原观测量y 的差值为e ˆ,则有误差方程 y A y y e
-=-=βˆˆˆ 按照最小二乘估计准则,有
min )ˆ()ˆ(ˆˆ=--=y y y y e e
T T 为了得到参数估计值,构造函数
)ˆ()ˆ(ˆˆy A y A e e
T T --==ββψ 求ψ对β
ˆ的偏导数,令其为零,即可满足最小的条件 0)ˆ(ˆ=-=∂∂A y A T ββ
ψ (4) 根据列矩阵对列矩阵求导的性质,若Y Z Z Y F T T ==,则对X 的导数为
dX
dY Z dX dZ Y dX Y Z d dX Z Y d dX dF T T T T +===)()( 对(4)式求导过程为
令)ˆ(,)ˆ(y A Z y A Y T -=-=ββ
,则 β
ββββββψˆ)ˆ()ˆ(ˆ)ˆ()ˆ(ˆ∂-∂-+∂-∂-=∂∂y A y A y A y A T T A y A T )ˆ(2-=β
即得
0)ˆ(=-A y A T β
展开,有
0)ˆ(=-A y A T T T β
0ˆ=-A y A A T T T β
等式两边再次转置,得
0ˆ=-y A A A T T β
y A A A T T =β
ˆ,此为法方程 即可求得β
ˆ的最小二乘估计值 y A A A T T 1)(ˆ-=β
y 的最小二乘估计量y
ˆ为 y A A A A y
T T 1)(ˆ-= 多元线性回归模型标准差(中误差)的计算公式为
1
ˆˆ1)ˆ(ˆ2
--=---=∑m n e e m n y y T i i σ
[备注]:自由度=样本个数-样本数据受约束条件的个数,即df=n-k (df 自由度,n 样本个数,k 约束条件个数),n-1是通常的计算方法,更准确的讲应该是n-k ,n 表示“处理”的数量,k 表示实际需要计算的参数的数量。
(多余观测数=总观测数-必要观测数)
计算了多元线性回归方程之后,为了将它用于解决实际预测问题,还必须进行数学检验。
多元线性回归分析的数学检验,包括回归方程和回归系数的显著性检验。
3、回归模型(即方程)的显著性检验
设原假设为0H :021====m βββ ,备选假设为1H :i β,m i ,,2,1 =,不全为零。
构建F 统计量
)1()ˆ()ˆ(122----=--=∑∑m n y
y m y y m n SSE m SSR F i i 式中:∑-2)ˆ(y y i 为回归平方和(regression sum of squares ,SSR ),其自由
度为m ;∑-2)ˆ(y y i 为残差平方和(residual sum of squares ,SSE ),其自由度为
1--m n 。
利用上式计算出F 值后,再利用F 分布表进行检验。
给定显著性水平α,在F 分布表中查出自由度为m 和1--m n 的值αF ,如果F ≥αF ,则说明y 与m x x x ,,,21 的线性相关密切;反之,则说明两者线性关系不密切。
备注: 把y 的n 个观测值之间的差异,用观测值i y 与其平均值y 的偏差平方和来表示,称为总离差平方和(total deviation sum of squares ,SST )。
21)(∑=-=n
i i y y SST
4、回归系数的显著性检验
设原假设为0H :0=i β,备选假设为1H :0≠i β,m i ,,2,1 =。
构建统计量
i i S t i ββˆ= 其中σβˆ)ˆ(ii i i c Var S ==是回归系数i
βˆ的标准差,ii c 是1)(-A A T 中第1+i 个对角线元素。
t 值应该有m 个,
对每一个m i ,,2,1 =可以计算一个t 值。
给定显著性水平α,确定临界值)1(--m n t α。
若i t β≥)1(2--m n t α,则拒绝原假设0H ,接受备选假设,即总体回归系数0≠i β。
5、多元线性回归模型的精度
多元线性回归模型精度可以利用残差(剩余)标准差来衡量。
1
ˆˆ1)ˆ(ˆ2
--=---=∑m n e e m n y y T i i σ σ
ˆ越小,则用回归方程预测y 越精确;反之亦然。
6、回归模型的预报方程
线性回归模型的预报方程为
m
m x x x y ββββˆˆˆˆˆ22110++++= 预报就是给自变量某一特定值pm p p x x x ,,,21 ,对因变量值p y 进行估计,求得的p y
ˆ作为p y 的预报值。
即 pm
m p p p x x x y ββββˆˆˆˆˆ22110++++= 用p y
ˆ预报p y ,其预报误差为p e ,显然p y 与p y ˆ互相独立,且有 0)ˆ()ˆ(=-=p p p y y E e
E ))(11()ˆ()()ˆ(12T ps s T s ps p p p A A A A n
y D y D e D -++=+=σ 此即为预报精度计算公式。
构造t 分布统计量
)(ˆˆp p p e y y t σ
-= 式中,)(ˆp e σ
为)ˆ(p e D 的均方根值,给定显著性水平α,预报值p y 的置信区间为
)(ˆˆ)(ˆˆ22p p p p p e t y y e t y
σσαα+<<-
第3节回归分析预测在测绘中的基础应用
3.1回归分析预测步骤
回归分析预测法,是在分析自变量和因变量之间相关关系的基础上,建立变量之间的回归方程,并将回归方程作为预测模型,根据自变量在预测期的数量变化来预测因变量关系大多表现为相关关系。
回归分析预测法有多种类型。
依据相关关系中自变量的个数不同分类,可分为一元回归分析预测法和多元回归分析预测法。
在一元回归分析预测法中,自变量只有一个,而在多元回归分析预测法中,自变量有两个以上。
依据自变量和因变量之间的相关关系不同,可分为线性回归预测和非线性回归预测。
回归分析预测法的步骤
1、根据预测目标,确定自变量和因变量
明确预测的具体目标,也就确定了因变量。
如预测具体目标是下一年度的销售量,那么销售量Y就是因变量。
通过市场调查和查阅资料,寻找与预测目标的相关影响因素,即自变量,并从中选出主要的影响因素。
2、建立回归预测模型,计算回归参数
依据自变量和因变量的历史统计资料进行计算,在此基础上建立回归分析方程,即回归分析预测模型。
3、进行相关分析
回归分析是对具有因果关系的影响因素(自变量)和预测对象(因变量)所进行的数理统计分析处理。
只有当变量与因变量确实存在某种关系时,建立的回归方程才有意义。
因此,作为自变量的因素与作为因变量的预测对象是否有关,相关程度如何,以及判断这种相关程度的把握性多大,就成为进行回归分析必须要解决的问题。
进行相关分析,一般要求出相关关系,以相关系数的大小来判断自变量和因变量的相关的程度。
4、检验回归预测模型,计算预测误差
回归预测模型是否可用于实际预测,取决于对回归预测模型的检验和对预测误差的计算。
回归方程只有通过各种检验,且预测误差较小,才能将回归方程作为预测模型进行预测。
5、计算并确定预测值
利用回归预测模型计算预测值,并对预测值进行综合分析,确定最后预测值。
应用回归预测法时应注意的问题
应用回归预测法时应首先确定变量之间是否存在相关关系。
如果变量之间不存在相关关系,对这些变量应用回归预测法就会得出错误的结果。
正确应用回归分析预测时应注意:
①用定性分析判断现象之间的依存关系;
②避免回归预测的任意外推;
③应用合适的数据资料;
3.2 一元线性回归分析应用
3.3 多元线性回归分析应用
3.4 基于Matlab的回归分析应用
第4节非线性回归分析
4.1 非线性函数形式的确定与线性转换
一、直接代换模型
二、间接代换模型
4.2 多面函数拟合法
4.3 基于正交函数系的拟合法总结。