逐步回归分析(教材)

合集下载

逐步回归分析

逐步回归分析

该方法的特点是:自变量一旦被剔除,就不再进入 模型,
(1)建立全部自变量x1,x2,…,xm对因变
量y的回归方程,对方程中m个自变量的回归系 数b1,b2,…,bm进行F检验,相应的F值记
为:F

1 1
, F , , F
1 2
1 m

1 Fk11 min F11 , F21 , , Fm ,取最小值
该方法在前进法的基础上,引进后退法的思想。 即对每一个自变量随着其对回归方程贡献的变化, 随时地引入或剔除模型,使得最终回归方程中的 变量对y的影响都是显著的,而回归方程外的变 量对y的影响都是不显著的,该方法即通常所说 的逐步回归法。
设y是因变量,x1,x2,…,xm是所有自变量,
yi,xi1,xi2,…,xim(i=1,2,…,n)是独 立抽取的n组样本。设自变量被选进模型的显著 性水平为 1 ,被剔除模型的显著性水平为 2 , 且 0 1 2 1 。
1 k1
(3)分别将自变量组
x1 , x, x1 , x, …, 2 3

x1 , xm 与因变量y建立二元回归方程,计算回
归方程中x2,x3,…,xm的回归系数检验统计
量F,记为:
F
2 2
2 , F32 , , Fm ,取其最大值


F max F , F , , F ,若 F F进 F 1,n 2 1
(1) s mm
s (1) s k1 y (1 s my) s
(1) 1y (1) 2y
其中 s ij
1
s k1i 当i k1,j k1 s k1k1 s ik1 s k1 j 当i k1,j k1 s ij s k1k1 1 当i j k 1 s k1k1 s ik1 当i k1,j k1 s k1k1

实用统计学—11.逐步回归分析

实用统计学—11.逐步回归分析

从未解释变差 (残差平方和)角度考虑, 图中 ||e||2是中心化 数据 y 对所有自变量 (x2, ·, xk )回归的未解释变差(残差 · · 平方和), ||e*||2是中心化数据 y 对自变量x3, ·, xk (剔除了 · · x2 )回归的未解释变差 (残差平方和).由勾股定理, 得||e*||2 - ||e||2 = ||e(2) ||2. ||e(2) ||2就是未解释变差的增加部分, 也就 是变量 x2 的偏解释变差V2 .
2
( n k )V k / Q
与统计量 Fj = (n-k)Vj / Q 完全相同.
2、逐步回归法
逐步回归法的基本思想: 在考虑 Y 对已知的一群变量( X2, ·,Xk )回归时, 从变量X2, · · ·,Xk中, 逐步选出对已解释变差的贡献 (也就是偏解释变差) · · 最大的变量,进入回归方程. 而对已解释变差的贡献大小的判 别依据, 就是包含了偏解释变差的 F 统计量Fj. 统计量Fj 的 值 fj 最大的 xj , 先进入方程; 最后一个进入方程的自变量 xj , 也应当满足: 统计量的值 fj 的显著性概率 p 小于等于选定的 显著性水平 (即, 要求其系数 j 显著异于 0). 逐步回归法也可以按照反过来的顺序进行. 先把 Y 对所有 的自变量 X2, ·,Xk 回归, 然后逐步把 fj 最小的 xj 剔除出方程. · · 所有剔除出方程的 xj , 在剔除时, 其统计量的值 fj 的显著性概 率 p 大于选定的显著性水平 (即, 要求其系数j 与 0 没有显 著性差异).
从 2 (n-k)分布)相互独立.
ˆ2 若再记: V )Vj / Q 服从F ( 1, n-k) 分布.
把 Fj 的显著性概率 p 与置信度水平 比较, 就可以判断 一个变量 xj 是否应当成为自变量:

第一讲 逐步回归分析讲解

第一讲   逐步回归分析讲解

2 1 4 2
A(0)

1
1.5
3
4

4
3
10
5

0.5 0.5 2 1
A(1)

0.5
1
1 3

2
1 2 1
1.5-1×0.5=1 3-1×2=1 4-1×1=3
0.5-0.5×(-0.5)=0.75 2-0.5×1=1.5 1-0.5×3=2.5
SS
1b1

SP12 b2

SP13b3

SP1y
SP21b1 SS 2b2 SP23b3 SP2 y
SP31b1 SP32b2 SS 3b3 SP3y
2b1 1b2 4b3 2 1b1 1.5b2 3b3 4 4b1 3b2 10b3 5
x5
y,%
68.6
70.9
62.2
66.7
57.3
60.5
56.7
60.5
58.0
58.9
x
17.2
13.3
10.3
64.4
62.5
63.4
s
4.1
3.8
4.4
7.0
5.6
3.8
一、计算相关系数阵
1、计算各变量的平均数(为表1—1) 设自变量x1,x2,…,xm与依变量y存在线性关系,m元线性回归 方程为:
由x估测y的估计值 yˆ 的直线回归方程: yˆ =a+bx
第一节 逐步回归分析的基本方法
逐步回归分析的基本方法可以通过一个实例介绍其分析步骤。 例1 为考察舍内干球温度(x1)、湿球温度(x2)、露点温度(x3)、相对湿 度(x4)及舒适度指数(x5)对罗曼蛋鸡产蛋率(y)的影响。随机抽测12个位点 各64只鸡在56—67周令的平均周产蛋率如表1—1。

逐步回归分析教材

逐步回归分析教材

第6节逐步回归分析逐步回归分析实质上就是建立最优的多元线性回归方程,显然既实用而应用又最广泛。

6.1逐步回归分析概述1 概念逐步回归模型是以已知地理数据序列为基础,根据多元回归分析法和求解求逆紧凑变换法及双检验法而建立的能够反映地理要素之间变化关系的最优回归模型。

逐步回归分析是指在多元线性回归分析中,利用求解求逆紧奏变换法和双检验法,来研究和建立最优回归方程的并用于地理分析和地理决策的多元线性回归分析。

它实质上就是多元线性回归分析的基础上派生出一种研究和建立最优多元线性回归方程的算法技巧。

主要含义如下:1)逐步回归分析的理论基础是多元线性回归分析法;2)逐步回归分析的算法技巧是求解求逆紧奏变换法;3)逐步回归分析的方法技巧是双检验法,即引进和剔除检验法;4)逐步回归分析的核心任务是建立最优回归方程;5)逐步回归分析的主要作用是降维。

主要用途:主要用于因果关系分析、聚类分析、区域规划、综合评价等等。

2 最优回归模型1)概念最优回归模型是指仅包含对因变量有显著影响的自变量的回归方程。

逐步回归分析就是解决如何建立最优回归方程的问题。

2)最优回归模型的含义 最优回归模型的含义有两点: (1)自变量个数自变量个数要尽可能多,因为通过筛选自变量的办法,选取自变量的个数越多,回归平方和越大,剩余平方和越小,则回归分析效果就越好,这也是提高回归模型分析效果的重要条件。

(2)自变量显著性自变量对因变量y 有显著影响,建立最优回归模型的目的主要是用于预测和分析,自然要求自变量个数尽可能少,且对因变量y 有显著影响。

若自变量个数越多,一方面预测计算量大,另一方面因n 固定,所以Q S k n Q→--1增大,即造成剩余标准差增大,故要求自变量个数要适中。

且引入和剔除自变量时都要进行显著性检验,使之达到最优化状态,所以此回归方程又称为优化模型。

3 最优回归模型的选择方法最优回归模型的选择方法是一种经验性发展方法,主要有以下四种:(1)组合优选法组合优选法是指从变量组合而建立的所有回归方程中选取最优着。

回归分析(3)多元逐步回归29页PPT

回归分析(3)多元逐步回归29页PPT
谢谢!
21、要知道对好事的称颂过于夸大,也会招来人们的反感轻蔑和嫉妒。——培根 22、业精于勤,荒于嬉;行成于思,毁于随。——韩愈
23、一切节省,归根到底都归结为时间的节省。——马克思 24、意志命运往往背道而驰,决心到最后会全部推倒。——莎士比亚
25、ห้องสมุดไป่ตู้习是劳动,是充满思想的劳动。——乌申斯基
回归分析(3)多元逐步回归
6、法律的基础有两个,而且只有两个……公平和实用。——伯克 7、有两种和平的暴力,那就是法律和礼节。——歌德
8、法律就是秩序,有好的法律才有好的秩序。——亚里士多德 9、上帝把法律和公平凑合在一起,可是人类却把它拆开。——查·科尔顿 10、一切法律都是无用的,因为好人用不着它们,而坏人又不会因为它们而变得规矩起来。——德谟耶克斯

自变量的选择与逐步回归实用回归分析ppt课件

自变量的选择与逐步回归实用回归分析ppt课件

§5.2 所有子集回归
准则2 赤池信息量AIC达到最小
设回归模型的似然函数为L(θ,x), θ的维数为p,x为样本,在 回归分析中样本为y=(y1,y2,…yn)′,则AIC定义为:
AIC=-2lnL(θˆ L ,x)+2p 其中θˆ L 是θ的极大似然估计,p 是未知参数的个数。
§5.2 所有子集回归
βˆ p (Xp X p )-1 Xpy
ˆ
2 p
n
1 p
1 SSEp
§5.1 自变量选择对估计和预测的影响
二、自变量选择对预测的影响
关于自变量选择对预测的影响可以分成两种情况: 第一种情况是全模型正确而误用了选模型; 第二种情况是选模型正确而误用了全模型式。
§5.1 自变量选择对估计和预测的影响
(一)全模型正确而误用选模型的情况
性质 1. 在 xj与 xp+1, …,xm的相关系数不全为 0 时,选模型回归系数的 最小二乘估计是全模型相应参数的有偏估计,即
E(ˆ jp ) jp j (j=1,2, …,p)。
§5.1 自变量选择对估计和预测的影响
(一)全模型正确而误用选模型的情况 性质 2. 选模型的的预测是有偏的。 给定新自变量值x0p (x01, x02,, x0m ) ,因变量新值为 y0=β0+β1x01+β2x02+…+βmx0m+ε0 用选模型的预测值为
(ˆ 0p ,ˆ 1p ,,ˆ pp )
全模型的最小二乘参数估计为βˆ m (ˆ 0m ,ˆ 1m ,,ˆ mm )
这条性质说明 D(ˆ jp ) D(ˆ jm ), j 0,1,, p 。
§5.1 自变量选择对估计和预测的影响
(一)全模型正确而误用选模型的情况

第六章 逐步回归分析

第六章 逐步回归分析

我们所引入的影响因素,在许多情况下,其意义是彼此重复 我们所引入的影响因素,在许多情况下, 的或是密切相关的。 的或是密切相关的。 在数学模型中表现为为此因素的“共线性” 在数学模型中表现为为此因素的“共线性”;在实际意义上 表明这些因素有些可以互相代表。 表明这些因素有些可以互相代表。 但在考虑因素时,往往不能事先加以分析, 但在考虑因素时,往往不能事先加以分析,而为了避免漏掉 有显著影响的因子,所以在初选因子时往往考虑的面较广, 对y有显著影响的因子,所以在初选因子时往往考虑的面较广, 拟定的因子也比较多,有时可达几十个, 拟定的因子也比较多,有时可达几十个,就可能全部作为重 要因素引入了预测模型。 要因素引入了预测模型。 因此,造成某些因素在作检验时表现出不显著, 因此,造成某些因素在作检验时表现出不显著,进而也影响 了预测模型的应用效果。 了预测模型的应用效果。 能不能在引进因素之前加以检验, 能不能在引进因素之前加以检验,使引入的因素都具有显著 意义,并使各因素间的意义不互相重复。 意义,并使各因素间的意义不互相重复。即如何在这许多因 子中,选出对y影响最大的一些因子,从而建立对这批地理数 子中,选出对y影响最大的一些因子, 据称之为“最优”线性回归方程, 据称之为“最优”线性回归方程,就正是本章所要讨论和解 决的问题。先采取全部引入要素建立方程,然后根据统计检 决的问题。先采取全部引入要素建立方程, 一步剔除一个次要因素,重新计算回归系数, 验,一步剔除一个次要因素,重新计算回归系数,并进行再 检验。反过来,根据相关系数的大小, 检验。反过来,根据相关系数的大小,逐个地把变量引入方 程进行计算。逐步回归克服了上述缺点。 程进行计算。逐步回归克服了上述缺点。
第六章
地理系统要素的逐步回归分析
教学目标与基本要求:掌握逐步回归的基本思路, 教学目标与基本要求:掌握逐步回归的基本思路, 了解建立逐步回归分析的数学模型, 了解建立逐步回归分析的数学模型,掌握逐步回归 分析的步骤. 分析的步骤.能运用逐步回归方法在地理学中进行 简单的分析应用 教学重点:最优回归方程的选择, 教学重点:最优回归方程的选择, 引入变量与剔 除变量的依据, 逐步回归分析数学模型, 除变量的依据, 逐步回归分析数学模型, 逐步回 归的基本公式, 归的基本公式, 逐步回归的计算步骤 教学难点:最优回归方程的选择, 教学难点:最优回归方程的选择,如何引入变量与 剔除变量, 剔除变量, 逐步回归的计算步骤

逐步回归和通径分析 ppt课件

逐步回归和通径分析 ppt课件

表1 表14-1资料四元线性回归和偏回归系数的假设检验
9
逐步回归 通径分析
(2)建立m-1元线性回归方程:
表2表明,三元线性回归方程 和三个自变量的偏回归系数均 极显著或者显著,因此不需要 再作自变量的剔除。
表2 表14-1资料三元线性回归和偏回归系数的假设检验
最优线性回归方程:
y=-46.9663+2.013139x1+0.674643x2+7.830227x3
x1
y
x2
x3
e
16
逐步回归 通径分析 通径分析的假设检验
回归方程的检验
通径系数的检验
17
逐步回归 通径分析
y a b 1 x 1 b 2 x 2 … b m x m e (1)
对(1)进行标准化变换,令:
y y y SS y
x i
xi xi SS i
标准化变量的m元线性回归方程为:
(2)自变量的个数最少
一方面对因变量起显著作用的自变量都选进回归 方程,另一方面对因变量作用不显著的自变量都剔除 回归方程,选择一个最佳的变量组合。
5
逐步回归 通径分析
逐步剔除法 主要步骤逐:步剔除法
(1)从包含全部p个自变量组合的回归方程中逐个
检验回归系数,剔除对因变量作用不显著的自变量
方;(法2)对剔除后剩下的q个自变量建立对因变量的多
通径部分q1 ; 还有
x1 与
x2; x1与x3的间接通径 r13 q3
和 1r2
q 2
部分。
通式: ① xi 对 y 的直接通径 xi y ② xi 对 y 的间接通径 xi xj y
15
逐步回归 通径分析

SAS第三十三课逐步回归分析

SAS第三十三课逐步回归分析

第三十三课 逐步回归分析一、 逐步回归分析在一个多元线性回归模型中,并不是所有的自变量都与因变量有显著关系,有时有些自变量的作用可以忽略。

这就产生了怎样从大量可能有关的自变量中挑选出对因变量有显著影响的部分自变量的问题。

在可能自变量的整个集合有40到60个,甚至更多的自变量的那些情况下,使用“最优”子集算法可能并不行得通。

那么,逐步产生回归模型要含有的X 变量子集的自动搜索方法,可能是有效的。

逐步回归方法可能是应用最广泛的自动搜索方法。

这是在求适度“好”的自变量子集时,同所有可能回归的方法比较,为节省计算工作量而产生的。

本质上说,这种方法在每一步增加或剔除一个X 变量时,产生一系列回归模型。

增加或剔除一个X 变量的准则,可以等价地用误差平方和缩减量、偏相关系数或F 统计量来表示。

无疑选择自变量要靠有关专业知识,但是作为起参谋作用的数学工具,往往是不容轻视的。

通常在多元线性模型中,我们首先从有关专业角度选择有关的为数众多的因子,然后用数学方法从中选择适当的子集。

本节介绍的逐步回归法就是人们在实际问题中常用的,并且行之有效的方法。

逐步回归的基本思想是,将变量一个一个引入,引入变量的条件是偏回归平方和经检验是显著的,同时每引入一个新变量后,对已选入的变量要进行逐个检验,将不显著变量剔除,这样保证最后所得的变量子集中的所有变量都是显著的。

这样经若干步以后便得“最优”变量子集。

逐步回归是这样一种方法,使用它时每一步只有一个单独的回归因子引进或从当前的回归模型中剔除。

Efroymoson (1966)编的程序中,有两个F 水平,记作F in 和F out ,在每一步时,只有一个回归因子,比如说X i ,如果剔除它可能引起RSS 的减少不超过残差均方MSE (即ESS/(N-k-1))的F out 倍,则将它剔除;这就是在当前的回归模型中,用来检验 βi =0的F 比=MSE x x x RSS x x x x RSS i i i /)),,(),,,((121121--- 是小于或等于F out 。

回归分析多元逐步回归

回归分析多元逐步回归
§ 2.5 多元逐步回归算法原理
多元回归模型首先将实际问题所提取的全部变量引 入方程,然后再根据变量的显著性检验把方程中不重 要的变量逐一剔除,建立新方程。
缺点:(1)首先在实际问题中,要提取合 适的变量来建立回归方程本身不是一件很容易 的事情,变量间可能存在高度的相互依赖性会 给回归系数的估计带来不合理的解释;
有更大的回归平方和。
§2.5.1 逐步回归算法的形成思路
如此继续下去,假设已经进行到 l 1 步,那第 l 步
是在未选的变量中选出这样一个变量,它与已选入回 归方程的变量组成 元回归方程,比其他余下的任何
一个变量组成的l 元回归方程,有更大的回归平方和。
逐步回归不仅考虑到按贡献大小逐一挑选重要变量, 而且还考虑到较早选入回归方程的某些变量,有可能 随着其后一些变量的选入而失去原有的重要性,这样 的变量也应当及时从回归方程中剔除,使回归方程中 始终只保留重要的变量。
计量
F2i
Vi ( x1 , x2 ,, xl ) / 1 Q( x1,, xl ) /(n l 1)
~
F (1, n l 1)
i 1,2,, l
来检验方程中哪个自变量 可被考虑剔除出方程。
F
对于给定的水平 ,查 分布表得临界
值F (1, n l 1) F出 。 如果F2i F出 ,则 xi 应从方程中剔除; 如果 F2i F出 ,则 xi 不应从方程中剔除。 同样需要说明的是,实际问题可能有多个
(2)其次变量的一次性引入方程,易导致计 算量增大,运算效率降低,精度不够等问题。
§ 2.5 多元逐步回归算法原理
为了得到一个稳健的、可靠的回归模 型,这就需要给出一种方法,使得能从 影响 y 的因素中自动根据某种准则将y 对

SAS第三十三课逐步回归分析

SAS第三十三课逐步回归分析

第三十三课逐步回归分析逐步回归分析在一个多元线性回归模型中,并不是所有的自变量都与因变量有显著关系,有时有些自变量的作用可以忽略。

这就产生了怎样从大量可能有关的自变量中挑选出对因变量有显著影响的部分自变量的问题。

在可能自变量的整个集合有40到60个,甚至更多的自变量的那些情况下,使用“最优” 子集算法可能并不行得通。

那么,逐步产生回归模型要含有的X 变量子集的自动搜索方法,可能是有效的。

逐步回归方法可能是应用最广泛的自动搜索方法。

这是在求适度“好”的自变量子集时,同所有可能回归的方法比较,为节省计算工作量而产生的。

本质上说,这种方法在每一步增加或剔除一个X 变量时,产生一系列回归模型。

增加或剔除一个X 变量的准则,可以等价地用误差平方和缩减量、偏相关系数或F 统计量来表示。

无疑选择自变量要靠有关专业知识,但是作为起参谋作用的数学工具,往往是不容轻视的。

通常在多元线性模型中,我们首先从有关专业角度选择有关的为数众多的因子,然后用数学方法从中选择适当的子集。

本节介绍的逐步回归法就是人们在实际问题中常用的,并且行之有效的方法。

逐步回归的基本思想是,将变量一个一个引入,引入变量的条件是偏回归平方和经检验是显著的,同时每引入一个新变量后,对已选入的变量要进行逐个检验,将不显著变量剔除,这样保证最后所得的变量子集中的所有变量都是显著的。

这样经若干步以后便得“最优”变量子集。

逐步回归是这样一种方法,使用它时每一步只有一个单独的回归因子引进或从当前的回归模型中剔除。

Efroymoson (1966)编的程序中,有两个F水平,记作F in和F out,在每一步时,只有一个回归因子,比如说X i,如果剔除它可能引起RSS 的减少不超过残差均方MSE(即ESS/(N-k-1))的F out倍,则将它剔除;这就是在当前的回归模型中,用来检验i=0 的F 比= (RSS(x1, x2 , x i 1,x i) RSS(x1,x2, x i 1)) / MSE是小于或等于F out。

逐步回归分析

逐步回归分析
先做散点图(Graphs ->Scatter->Simple):weight(X)、 mpg(Y),看每加仑汽油行驶里程数mpg(Y)随着汽车自重 weight(X)的增加而减少的关系,也发现是曲线关系
建立若干曲线模型(可试着选用所有模型Models)
Analyze->Regression-> Curve Estimation Dependent: mpg Independent: weight Models: 全选(除了最后一个逻辑回归) 选Plot models:输出模型图形 比较有用的结果:各种模型的Adjusted R2,并比较哪个大,结果
19.55prevexp+154.698jobtime+539.64edcu
10.2 曲线估计(Curve Estimation)
对于一元回归,
若散点图的趋
势不呈线性分
布,可以利用
曲线估计方便
地进行线性拟 合(liner)、二 次拟合 (Quadratic)、 三次拟合 (Cubic)等。 采用哪种拟合
方式主要取决
于各种拟合模
型对数据的充 分描述(看修 正Adjusted R2 -->1)
不同模型的表示
模型名称
回归方程
相应的线性回归方程
Linear(线性) Quadratic(二次) Compound(复合) Growth(生长) Logarithmic(对数) Cubic(三次) S Exponential(指数) Inverse(逆) Power(幂) Logistic(逻辑)
我们只讲前面3个简单的(一般教科书的讲法)
10.1 线性回归(Liner)
一元线性回归方程: y=a+bx
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第6节逐步回归分析逐步回归分析实质上就是建立最优的多元线性回归方程,显然既实用而应用又最广泛。

6.1逐步回归分析概述1 概念逐步回归模型是以已知地理数据序列为基础,根据多元回归分析法和求解求逆紧凑变换法及双检验法而建立的能够反映地理要素之间变化关系的最优回归模型。

逐步回归分析是指在多元线性回归分析中,利用求解求逆紧奏变换法和双检验法,来研究和建立最优回归方程的并用于地理分析和地理决策的多元线性回归分析。

它实质上就是多元线性回归分析的基础上派生出一种研究和建立最优多元线性回归方程的算法技巧。

主要含义如下: 1)逐步回归分析的理论基础是多元线性回归分析法;2)逐步回归分析的算法技巧是求解求逆紧奏变换法;3)逐步回归分析的方法技巧是双检验法,即引进和剔除检验法; 4)逐步回归分析的核心任务是建立最优回归方程;5)逐步回归分析的主要作用是降维。

主要用途:主要用于因果关系分析、聚类分析、区域规划、综合评价等等。

2 最优回归模型1)概念最优回归模型是指仅包含对因变量有显著影响的自变量的回归方程。

逐步回归分析就是解决如何建立最优回归方程的问题。

2)最优回归模型的含义 最优回归模型的含义有两点: (1)自变量个数自变量个数要尽可能多,因为通过筛选自变量的办法,选取自变量的个数越多,回归平方和越大,剩余平方和越小,则回归分析效果就越好,这也是提高回归模型分析效果的重要条件。

(2)自变量显著性自变量对因变量y 有显著影响,建立最优回归模型的目的主要是用于预测和分析,自然要求自变量个数尽可能少,且对因变量y 有显著影响。

若自变量个数越多,一方面预测计算量大,另一方面因n 固定,所以Q S k n Q→--1增大,即造成剩余标准差增大,故要求自变量个数要适中。

且引入和剔除自变量时都要进行显著性检验,使之达到最优化状态,所以此回归方程又称为优化模型。

3 最优回归模型的选择方法最优回归模型的选择方法是一种经验性发展方法,主要有以下四种:(1)组合优选法组合优选法是指从变量组合而建立的所有回归方程中选取最优着。

其具体过程是:(1)建立变量组合的所有回归方程(2)优选回归方程首先对每一个方程及自变量均作显著性检验,优选原则:自变量全部显著,剩余标准差较小,既可选得最优回归方程。

2)剔除优选法剔除优选法适指从包含全部自变量的回归方程中逐个剔除不显著自变量而求得最优回归方程的优选方法。

其具体过程是:(1)建立多元回归方程(2)优选回归方程剔除自变量的原则是先求取偏回归平方和最小者并作显著性检验,若不显著则剔除。

终止原则是直至不显著自变量剔除完为至,而仅保留对因变量y有显著影响的自变量。

3)引入优选法引入优选法是指将所有自变量经显著性检验而逐个引入对因变量有显著影响的自变量的优选方法。

其具体过程是:(1)建立一元回归方程(2)优选回归方程引入原则是偏相关系数绝对值最大者,引入后并进行显著性检验,若显著则继续引进自变量,直至再无显著自变量引进为止。

4)逐步回归分析法逐步回归分析法是指运用回归分析原理采用双检验原则,逐步引入和剔除自变量而建立最优回归方程的优选方法。

具体含义是:(1)每步有二个过程 即引进变量和剔除变量,且引进变量和剔除变量均需作F 检验后方可继续进行,故又称为双重检验回归分析法。

(2)引入变量 引入变量的原则是未引进变量中偏回归平方和最大者并经F 显著性检验,若显著则引进,否则终止。

(3)剔除变量 剔除原则是在引进的自变量中偏回归平方和最小者,并经F 检验不显著,则剔除。

(4)终止条件 即最优条件,再无显著自变量引进,也没有不显著自变量可以剔除,这也是最优回归方程的实质。

由此可知,它并没新的理论,只是多元回归分析基础上派生出的一种算法技巧。

现在就来介绍逐步回归分析的具体建模原理和方法步骤。

6.2逐步回归分析的数学模型逐步回归分析的数学模型是指仅包含对因变量Y 有显著影响自变量的多元线性回归方程。

为了利于变换求算和上机计算,将对其变量进行重新编号并对原始数据进行标准化处理。

6.2.1 变量重新编号 1 新编号数学模型令k x y αα=,自变量个数为k-1,则其数学模型为:113322110...--+++++=k k k x x x x x αααααβββββ式中,α=1,2,3,… ,n n :样本个数 其中:∑-=2)(k k x x S α∑-=2)ˆ(k k U x xS α ∑-=-=2)ˆ(k k U Q xx S S S α j x 的偏回归平方和为:jjj Uc b S ='k x :为k x α的算术平均值 j b :j x 的偏回归系数jj c :为逆矩阵1-L 对角线对应元素 2 回归数学模型新编号的回归数学模型为:113322110...ˆ--+++++=k k k x b x b x b x b b x6.2.2 标准化数学模型标准化回归数学模型是指将原始数据进行标准化处理后而建立的回归数学模型,即实质上是每个原始数据减去平均值后再除以离差平方和的方根。

1 标准化回归数学模型 令 jjj j S x x z -=αα j=1,2,3,… ,k其中: ∑==nj j x n x 11αα∑-==2)(j jjj j x x l S α!为离差平方和的方根注意:j j j j j j S S l l ,,,2它们之间的区别,即离差平方和,离差平方和的方根,方差,标准差。

则回归数学模型为:113322110...ˆ--'++'+'+'+'=k k k z z z z zαααααβββββ 2 标准化回归数学模型的正规方程组标准化回归数学模型正规方程组的一般形式为:()()()()()()()()()()()()()()()()()()()()()()()()⎪⎪⎪⎪⎩⎪⎪⎪⎪⎨⎧='++'+'+'+'='++'+'+'+'='++'+'+'+'='++'+'+'+'='++'+'+'+'∑∑∑∑∑∑∑∑∑∑∑∑∑∑∑∑∑∑∑∑∑∑∑∑∑∑∑∑∑---------------k k k k k k k k kk k kk k kk k k k k z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z z n αααααααααααααααααααααααααααααααααααααααααααααβββββββββββββββββββββββββ112131321211101311332323213103211233222212102111133122112101113322110.............................................................................................................................................................. 因为,0)(=-=∑∑jj j S x x z αα , j i ji j j i ij i r S S x x x x z =--=∑∑))((αα所以上述正规方程组可变为:⎪⎪⎪⎪⎩⎪⎪⎪⎪⎨⎧='++'+'+'+='++'+'+'+='++'+'+'+='++'+'+'+=+++++'-------------k k k k k k k k kk k k k k k k k r r r r r r r r r r r r r r r rr r r r n 11113312211113113333232131211232322212111113132121110...0.................................................................0...0...000...000βββββββββββββββββ这样,数据标准化处理后的估计值0,并令,则可得数据标准化处理后的回归方程数学模型的正规方程组的一般形式为:⎪⎪⎪⎩⎪⎪⎪⎨⎧='++'+'+'='++'+'+'='++'+'+'='++'+'+'-------------k k k k k k k k k k k kk k k k k r r r r r r r r r r r r r r r r r r r r 1111331221111311333323213121123232221211111313212111........................................................................ββββββββββββββββ这样,数据标准化后0β'的估计值应为0,并j j d ='β令,则可得:⎪⎪⎪⎩⎪⎪⎪⎨⎧=++++=++++=++++=++++-------------k k k k k k k k k k k kk k k k k r d r d r d r d r r d r d r d r d r r d r d r d r d r r d r d r d r d r 1111331221111311333323213121123232221211111313212111........................................................................其中:⎪⎪⎪⎪⎪⎭⎫⎝⎛=------112111122221111211.....................k k k k k k r r r r r r r r R 称为相关系数矩阵。

⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎣⎡=-k k k k r r r B 121解此方程组,即可求出1321,,,,-k d d d d ,故可得标准化后的回归模型为:112211...ˆ--+++=k k k z d z d z d z标准化的回归模型的矩阵形式:⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎣⎡------------=------------1112221111113223211311112222211211111221211111111k k k n n n k k k k k k k k k S x x S x x S x x S x x S x x S x x S x x S x x S x x S x x S x x S x x X⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎣⎡----=k k nk k k k k k kkk k S x x S x x S x x S x x Y 321⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡=⎥⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎢⎣⎡='=------Rnr r r r r r r r rn X X A k k k k k k 000000001121111222211112116.2.3 标准化前后回归模型的关系 1标准化前后的回归模型 1)标准化前后回归模型为:113322110...ˆ--+++++=k k k x b x b x b x b b x2)标准化后回归模型为:112211...ˆ--+++=k k k z d z d z d z2 标准化前后的偏回归系数标准化前后偏回归系数的关系可从变化过程反演得知: 令jjj j S x x z -=代入标准化前的回归模型可得:111122221111...ˆ-----++-+-=-k k k k k k k S x x d S x x d S x x d S x x 整理后得:111222111111222111)(ˆ------++++----=k k k k k k k k k k k k k k x d S Sx d S S x d S S x d S Sx d S S x d S S x x113322110...ˆ--+++++=k k k x b x b x b x b b x将上式与标准化前的回归模型作比较,由待定系数法可知标准化前后回归模型的偏回归系数的关系为:∑-=-==110k j jj k j jkj x b x b d S S b j=1,2,3,…k-1于是,只要求出j d ,即可求出j b ,今后仅讨论标准化后的回归模型。

相关文档
最新文档