第五章 回归分析
数值计算05-回归分析
ˆ 的置信区间为 [0.6047,0.834]; 1
r =0.9282,
2
F=180.9531,
p=0.0000
p<0.05, 可知回归模型 y=-16.073+0.7194x 成立.
3、残差分析,作残差图: rcoplot(r,rint) 从残差图可以看出,除第二个数据外,其余数据的残 差离零点均较近,且残差的置信区间均包含零点,这说明 回归模型 y=-16.073+0.7194x能较好的符合原始数据,而 第二个数据可视为异常点. 4、预测及作图: z=b(1)+b(2)*x plot(x,Y,'k+',x,z,'r')
数值计算 第五章 回归分析
Galton公式:
y 33.73 0.516x
其中x 表示父亲身高, y 表示成年儿子的身高 (单位:英寸,1英寸=2.54厘米)。
y(cm) 160.07 168.23 173.39 178.55 x(cm) 150 160 170 180
183.71
188.87 194.03
190
200 210
回归分析的内容
回归分析在一组数据的基础上研究这样几个问题: (i)建立因变量y与自变量x 1, x2 ,… , xm 之间的回归 模型(经验公式); (ii)对回归模型的可信度进行检验; (iii)判断每个自变量x i(i=1,2,…,m) 对y 的影响是否 显著; (iv)诊断回归模型是否适合这组数据; (v)利用回归模型对y 进行预报或控制。
一元回归的Matlab实现
1、确定回归系数的点估计值:b=regress( Y, X ) 2、求回归系数的点估计和区间估计、并检验回归模型: [b, bint,r,rint,stats]=regress(Y,X,alpha) 3、画出残差及其置信区间:rcoplot(r,rint)
第五章-假设检验与回归分析
件,得到拒绝域;
步骤 4:明确或计算样本均值 x ,得到U 变量的观测值 u x 0 n 0
若观测值 u 落入拒绝域,则拒绝零假设 H 0 ,即接受备择假设 H1 ,
否则不能拒绝零假设 H 0 。
第五章 假设检验与回归分析 例1、 已知某面粉自动装袋机包装面粉,每袋面粉重量 Xkg
服从正态分布 N(25,0.02) ,长期实践表明方差 2 比较稳定,从
第五章 假设检验与回归分析
U 检验的步骤:
步骤 1:提出零假设 H 0 : 0 与备择假设 H1 ;
步骤 2:明确所给正态总体标准差 0 值、样本容量 n 的
值,当零假设 H 0 成立时,构造变量
U X 0 n ~ N(0,1) 0
第五章 假设检验与回归分析
步骤 3:由所给检验水平 的值查标准正态分布表求出对应 的双侧分位数 u 的值或上侧分位数 u 的值,构造小概率事
u
2
0.05, u 1.96 ,
2
第五章 假设检验与回归分析
x 0 n
12.5 12 1 100
5 u
2
1.96
故拒绝 H0 ,即认为产品平均质量有显著变化。
小结与提问:
理解假设检验的基本原理、概念;掌握假设检验的步骤。
课外作业:
P249 习题五 5.01, 5.02,5.03。
0.10,再在表中第一列找到自由度 m n 1 7 1 6 ,
其纵横交叉处的数值即为对应的 t 分布双侧分位数 t 1.943
2
,使得概率等式
PT 1.943 0.10
成立。这说明事件 T 1.943是一个小概率事件,于是得到
拒绝域
t 1.943
第五章 假设检验与回归分析
回归分析法
1
§5-1 一元线性回归
一、什么叫回归分析
(一)两种不同类型的变量关系、函数与相关
简单的说,回归分析就是一种处理变量与变量之间关系的 数学方法。 例:自由落体运动中,物体下落的距离S与所需时间t之间,有 如下关系
S
1 2 gt 2
(0 t T )
2
变量S的值随t而定,这就是说,如果t给了固定值, 那么S的值就完全确定了 这种关系就是所谓的函数关系或确定性关系
(二)相关系数检验法
由U ( yi y ) U [(a bxi ) (a b x )]2
2 i=1 N i=1 N ^ _ N _
b ( xi x) 2
2 i=1
_
代入 Lyy [( yi yi ) ( yi y )]2整理后可得
i=1
23
相关系数临界值表 n-2 0.05
1 2 3 4 5 6 7 8 9 10
0.01
1.000 0.990 0.959 0.917 0.874 0.834 0.798 0.765 0.735 0.708
n-2 0.05
11 12 13 14 15 16 17 18 19 20
0.01
0.684 0.661 0.641 0.623 0.606 0.590 0.575 0.561 0.549 0.537
6
设y* a bx是平面上的一条任意直线,(xi , yi )(i 1,2, ..., N )是变量x,y的一组观测数据。 那么,对于每一个xi,在直线y* a bx上确可以确定一 个yi a bxi的值,yi 与xi处实际观测值yi的差: yi yi yi (a bx) 就刻画了yi与直线偏离度
空间分析原理与应用:第五章 空间回归分析
来自表2-1总体的两个随机样本
两个独立样本的回归线
总体回归线与样本回归线
Y
.Y1
需 求 量
. e1
u1
Yˆi b1 b2 Xi
.Yˆ1
EY | X B1 B2 Xi
A
..un Yn . en
Yˆn
0
X1 价格
Xn
X
5.2.6 “线性”回归的特殊含义
解释变量线性与参数线性
1. 解释变量线性 非线性举例:
y
y
000.5yy 0.5y 0 y
1 2 3 4 5
000...555yyy334
2 y
1
0.5y 5
0.5y 5
0.5y 4
(3 1)
式(3 1)表示变量y *用其他区域的y进行解释的线性关系,可写成:
y Cy
(3 2)
其中,是需要估计的回归参数,反映了样本数据内在的空间
模式的有效描述,因此需要引入能够描述空间自相关和空 间非平稳性的项,克服回归模型的缺陷。 • 空间关系的描述需要借助空间权重(邻接)矩阵。
空间邻接矩阵为:
0 1 0 0 0
1 0 0 0 0
W 0 0 0 1 1
(8)
0 0 1 0 1
0 0 1 1 0
行标准化为:
0 1 0 0 0
1 0 0 0 0
5.2.2 总体回归函数
例子:不同家庭收入水平下的学生数学SAT成绩
家庭年收入与数学S.A.T分数
总体回归函数PRF
E(Y | X i ) B1 B2 X i
(2-1)
Y的条件期望,可简写为E(Y)
B1和B2是参数(parameters),也称回归系数 (regression coefficients)。
计量经济学第五章
2024/10/15
15
用Eviews的多重共线性对策
Quick/Estimate Equation的对话框中
对数法: 直接输入log(Y) c log(X1) log(X2)… 或 差分法: 输入Y-Y(-1) C X1-X1(-1) X2-X2(-1)… 但差分常常会丢失一些信息,运用时应慎重。
则表明多重共线性存在。
11
对策:
• 去掉关系不大的变量,但应注意遗漏变量问题; • 重新建立模型(差分或对数处理); • 利用事先掌握的信息变换模型;
(如:Cobb-Douglas函数中K与L之间存在多 重
共线性,且它们的系数之和等于1) • 增加样本数.
12
用Eviews的多重共线性检验1
相关系数法 首先同时选择所有的自变量; 然后双击-出现选择栏时点击 Open Group/View/Correlations; 观察各自变量之间的大小。
即选择Quick/Estimate Equation后写入 v_hat c xi x2i x3i…
• 命令scalar LM=@regobs*@R² --Enter 双击LM时,在下边出现LM值./或直接计算。
10
二、多重共线性的检验及对策
诊断方法
• 系数估计值的符号不对; • 参数估计值不稳定; • R2很大,但重要的自变量 t 值很低; • 自变量之间呈高度相关(正负0.8~0.9)
• 首先估计出一般方程 • View/Coefficient Tests/Redundant
Variables-Likelihood Ratio • 出现对话框时,写入删除变量名--OK • 对比删除前后的AIC与SC信息值,信息
值小的结论是应采纳的。
第五章相关分析与回归分析
第五章相关分析与回归分析相关分析(Correlation Analysis)和回归分析(Regression Analysis)都是统计学中常用的数据分析方法,用于研究两个或多个变量之间的关系。
相关分析主要用于衡量变量之间的线性关系强度和方向,回归分析则是基于相关分析的基础上建立数学模型来预测或解释因变量的方法。
相关分析是一种用于研究两个变量之间关系强度和方向的统计方法。
相关系数是用来衡量两个变量之间相关关系强度的指标,其取值范围为[-1,1]。
当相关系数为正时,表示两个变量呈正相关,即随着一个变量增加,另一个变量也增加;当相关系数为负时,表示两个变量呈负相关,即随着一个变量增加,另一个变量减少;当相关系数接近于0时,表示两个变量之间关系弱或不存在。
常用的相关系数有皮尔逊相关系数(Pearson correlation coefficient)、斯皮尔曼相关系数(Spearman’s rank correlati on coefficient)和肯德尔相关系数(Kendall’s rank correlation coefficient)等。
皮尔逊相关系数适用于两个变量均为连续型的情况,斯皮尔曼和肯德尔相关系数则适用于至少一个变量为顺序型或等距型的情况。
回归分析是一种建立数学模型来预测或解释因变量的方法。
在回归分析中,通常将一个或多个自变量与一个因变量建立数学关系,然后通过该关系来预测或解释因变量。
回归分析可以分为简单回归分析和多元回归分析两种。
简单回归分析是指只有一个自变量和一个因变量之间的分析。
该方法主要用于研究一个自变量对因变量的影响,通过拟合一条直线来描述自变量和因变量之间的线性关系。
简单回归分析的核心是最小二乘法,即通过最小化误差平方和来确定最佳拟合直线。
多元回归分析是指有多个自变量和一个因变量之间的分析。
该方法主要用于研究多个自变量对因变量的影响,并建立一个多元线性回归模型来描述它们之间的关系。
第5章回归分析
价格X 5.0 5.2 5.8 6.4 7.0 7.0 8.0 8.3 8.7 9.0 10.0 11 消费量Y 4.0 5.0 3.6 3.8 3.0 3.5 2.9 3.1 2.9 2.2 2.5 2.6
5.2 一元线性回归
15
一元线性回归实例
例: 某种商品与家庭平均消费量的关系(续) 在坐标轴上做出价格与消费量的相关关系。
• 子女的身高与父亲及母亲的身高之间的关系。
• 农田粮食的产量与施肥量之间的关系。 • 商品的销售量与广告费之间的关系。
5.1 回归分析的基本概念
8
回归分析的步骤 • 确定变量。寻找与预测目标的相关影响因素,即自变量,并从中选出主要的影响 因素。 • 建立预测模型。依据自变量和因变量的历史统计资料进行计算,在此基础上建立 回归分析预测模型。 • 进行相关分析。作为自变量的因素与作为因变量的预测对象是否有关,相关程度 如何,以及判断这种相关程度的把握性多大,就成为进行回归分析必须要解决的 问题。进行相关分析,一般要求出相关关系,以相关系数的大小来判断自变量和 因变量的相关程度。 • 计算预测误差。回归预测模型是否可用于实际预测,取决于对回归预测模型的检 验和对预测误差的计算。 • 确定预测值。利用回归预测模型计算预测值,并对预测值进行综合分析,确定最 后的预测值。
最小二乘法的原理就是,找到一组 aˆ ,bˆ 。使所有点的实际测量值 yi 与预测值 yˆi 的偏差的平方和最小。
残差平方和(Residual Sum of Squares,RSS):
n
n
Q(aˆ,bˆ) (yi -yˆi )2 ( yi - aˆ - bˆxi )2
i=1
i=1
即,找到一组 aˆ ,bˆ 使RSS的值最小。
第五章假设检验与回归分析
第五章假设检验与回归分析本章主要介绍了假设检验和回归分析两种统计方法。
一、假设检验假设检验是通过收集样本数据来对总体参数的假设进行推断的一种统计方法。
假设检验的步骤如下:1.建立原假设和备择假设:原假设是需要进行检验的参数的假设值,备择假设是对原假设的一种否定或补充。
通常将备择假设设置为我们要验证的假设。
2.收集样本数据:根据样本数据进行统计分析,并计算出检验统计量。
3.确定显著性水平:显著性水平是拒绝原假设的最大错误概率,通常取0.05或0.014.计算拒绝域的临界值:根据显著性水平和自由度,在统计表中查找检验统计量的临界值。
5.比较检验统计量和临界值:如果检验统计量落在拒绝域内,则拒绝原假设,否则接受原假设。
二、回归分析回归分析是一种用于研究两个或多个变量之间关系的统计方法。
它可以用来建立一个变量对另一个变量的预测模型。
回归分析的步骤如下:1.收集数据:根据需要收集自变量和因变量的数据。
2.建立模型:选择适当的回归模型,将自变量和因变量进行数学表达。
3.估计参数:使用最小二乘法等方法,对模型参数进行估计。
4.检验模型:通过检验模型的显著性水平,确定模型是否合理。
5.利用模型:使用估计的模型来进行预测和分析。
回归分析可以分为简单线性回归和多元线性回归两种。
简单线性回归是指只有一个自变量和一个因变量之间的关系,多元线性回归是指有多个自变量和一个因变量之间的关系。
回归分析的应用非常广泛,可以用于市场营销、财务管理、经济预测等领域。
通过回归分析,可以找到影响因变量的主要因素,并对未来的变化进行预测。
总之,假设检验和回归分析是统计学中两种重要的方法。
假设检验用于对总体参数的假设进行验证,回归分析用于研究变量之间的关系。
这两种方法在实际应用中具有广泛的价值。
空间分析原理与应用:第五章 空间回归分析
5.2.2 总体回归函数
例子:不同家庭收入水平下的学生数学SAT成绩
家庭年收入与数学S.A.T分数
总体回归函数PRF
E(Y | X i ) B1 B2 X i
(2-1)
Y的条件期望,可简写为E(Y)
B1和B2是参数(parameters),也称回归系数 (regression coefficients)。
ui
.....................
ui
ui
uj
.............................
uj
.
. . ..
........................
uj
a)
b)
c)
无自相关假定表明随机扰动项ui是纯随机的。
• 自相关的性质:
自相关:在时间(如在时间序列数据中)或者空间 (如在横截面数据中)按顺序所列观察值序列
假定3.3 给定Xi,随机扰动项的期望为零。即
Eu | X i 0
假定3.4 同方差假定,即
Varui 2
假定3.5 无自相关假定,即
cov
u i
,u
j
0
i j
假定3.6 回归模型是正确设定的。即实证分析的
模型不存在设定误差或设定错误。
扰动项的条件分布
同方差和异方差的对比
自相关
例如:中国的国内生产总值与印度的人口之间具 有较强的相关性(相关系数较高),因为二者都以较 快的速度增长,但显然二者之间不具有因果关系。
回归分析的应用
(1)通过已知变量的值来估计应变量的均值 (2)根据经济理论建立适当的假设并对其进行检 验 (3)根据自变量的值对应变量的均值进行预测 (4)上述多个目标的综合
课件-数理统计与多元统计 第五章 回归分析 5.3-5误差方差的估计
9
lxy ( xi x)( yi y) 2995 i 1
9
9
lxx ( xi x)2 6000, l yy ( yi y)2 1533.38
i 1
i 1
bˆ0
y bˆ1 x
11.6,bˆ1
l xy l xx
0.499167
即得经验回归方程: yˆ 11.6 0.499167x
被估计的回归方程所解释的变差数量,即当
自变量个数增加时,会使预测误差变小,从
而减少SSE,此时SSR变大,R2会变大,可 能因此而高估R2造成误读。因此实际中常用 修正的复决定系数(adjusted multiple cofficient of determinnation) :
Ra2
1
(1
R2 )( n
xi/0C
0
10
20
30
40
yi/mg 14.0 17.5 21.2 26.1 29.2
xi/0C
50
60
70
80
yi/mg 33.3 40.0 48.0 54.8
试估计回归参数b0,b1, σ2,给出经验回归方程:
yˆ bˆ0 bˆ1x
12
解:由数据计算:
1 9
19
x 9 i1 xi 40, y 9 i1 yi 31.56667
H0 : b1 b2 L bp 0 的假设检验步骤:
i) 提出假设: H0 : b1 b2 L bp 0
ii)给定显著性水平α=?,样本容量n=?,p=?
iii) 选择检验统计量,当H0真时:
F SSR / p ~ F ( p, n p 1) SSE / (n p 1)
iv) H0的拒绝域为:
社会科学研究方法回归分析
2014年4月29日12时48分
第6页
社会科学研究方法
二、一元线性回归模型的参数估计
• 回归模型中的参数a与b 在一般情况下都是未知数,必 须根据样本数据( x,y )来估计。 • 确定参数 与 值的原则是要使得样本的回归直线同观察 值的拟合状态最好,即要使得偏差最小。为此,可以 采普通最小二乘法(Ordinary Least Square,OLS) 来解决这个问题。 • 估计值和观察值之间的偏差
y 30391 .69 66.13x
2014年4月29日12时48分
第12页
社会科学研究方法
三、总离差的分解
残差可表示如下:
ˆi ei yi y
试验得到的数据 上式可改写成: 回归直线对应的数据
ˆi ( yi y) ( y ˆi y) ei yi y
移项得:
S XX xi x S XY SYY
Y
y n
i
2
1 x n
2 i
x
i
2
1 xi x yi y xi yi n 2 2 1 2 yi y yi yi n
x y
i i
2014年4月29日12时48分 第20页
社会科学研究方法
-1≤ r ≤1 r > 0,正相关;r = 1 为完全正相关 r < 0,负相关;r = -1 为完全负相关 |r| 越大,两变量相关越密切 正相关:0< r ≤1
2014年4月29日12时48分
第21页
社会科学研究方法
负相关:-1 ≤ r < 0
第5章 多元回归分析OLS的渐进性
Yt β 0 β 1 X 1t β 2 X 2t ..质或大样本性质
1.一致性
• OLS估计量在假定MLR1-MLR4下是无偏的, 但在时间序列回归中会失去无偏性 • 当n→∞时估计量接近于真实值
推导OLS的不一致性
• 如果误差与任何一个自变量相关,那么 OLS就是有偏而又不一致的估计 • β 的不一致性(渐进偏误)为
• 对于OLS的不一致性,根据定义这个问题 不会随着在样本中增加更多的观测而消失, 更多的观测只会使这个问题变得更糟
2.渐进正态和大样本推断
• 仅有一致性不足以进行参数假设检验 • 在经典线性模型假定MLR.1---MLR.6下,抽 样分布是正态的:t、F分布的基础 • OLS估计量的正态性 总体中误差u分布的 正态性 y分布的正态性 • 现实中存在很多y不是正态分布,是否放弃t 统计量?
• 定理5.2,去掉了正态性假定MLR.6,对误 差分布唯一的限定是有限方差 • 标准正态分布在式5.7中出现的方式与tn-k-1 不同,随着自由度的增加, tn-k-1趋近于正 态分布,因此如下写法也是合理的
• 进行t检验和构造置信区间与在经典线性模 型的假定下是一样的,n>30
其他大样本检验:拉格朗日乘数统计量
• 依赖于大样本条件下使得F统计量有效的假 定,无需正态性假设
3.OLS的渐进有效性
• 在k个回归元的情形中,将OLS的一阶条件推广, 可以得到一类一致估计量
第五章 试验数据的回归分析
令
ˆ k yk yk yk (b0 bxk ) yk b0 bxk
( yk b0 bxk ) 2
k 1 2 k k 1 N N
称 k 为残差。 令Q
称Q为剩余平方和,它反映了 y k 偏离 ˆ
显然,对于不同的回归系数 b 拟合最好。
k
5.2 一元线性回归分析
10
ˆ ˆ ˆ 对于 ( yk yk )( yk y ) ( yk yk )(b0 bxk y ) ˆ ˆ (b0 y ) ( yk yk ) b ( yk yk ) xk
k k k k
(由正规方程组可知) 0
所以SST可以分解为两部分:
1
第五章 试验数据的回归分析
5.1 变量与变量之间的关系
变量与变量之间存在下面两种关系:
1、函数关系
变量之间存在一种确定性关系,当给定一个或几个变量值后, 另一个变量有确定值。
例如圆的面积S和半径R之间存在这样一种函数关系:S
2、相关关系
R 2
变量间存在密切的但又完全确定的关系,当给定一个或几个变
性回归方程。 设变量
x1 , x2 , xm , y 有N组试验数据:
x1k , x2 k , xmk , yk (k 1,2,, N )( N m)
下面的任务就是采用最小二乘法求其多元线性回归方程。
17
5.3 多元线性回归分析
将自变量
x1k , x2 k ,, xmk 代入回归方程中,得到:
SST
k
( yk y )2
k
2 yk
1 ( N
k
线性回归分析
第五节 多元线性回归分析
一、多元线性回归分析概述
多元线性回归模型
y 0 1x1 2x2 L mxm
式中β0 β1 β2 … βm 为〔偏〕回归系数 多元线性回归方程
由x预测y时,y有一定的误差,其标准误差为:
sy se
1 1 x x 2
n SSx
因此由x预测y时,y 的95%置信区间为:
yˆ t0.05 sy
实例: 由x预测y的预测区间
第一步:计算当x=2500时, y 的点估计值:
yˆ 190.955 0.094868 2500 428.125
实例:t 检验
dfe n 2 10 2 8, t0.05 2.306,t0.01 3.355 | t | 18.14 t0.01 3.355
结论:回归关系极显著,可得线性回归方程
yˆ 190.955 0.094868x
用光照强度来预测净光合强度是合理的。
第四节 预测值的置信区间
C(i+1)(i+1)为矩阵(X’X)-1的(i+1)(i+1)元素 Q 为误差平方和,自由度:df=n-m-1
第五节 多元线性回归分析
2、回归系数的假设检验
2〕F检验 原假设 H0 :βi=0
统计量为: F
Ui
bi2 / c(i1)(i1)
Q / n m 1 Q / n m 1
其中:Ui 为xi对y的回归平方和,Q 为误差平方和 C(i+1)(i+1)为矩阵(X’X)-1的(i+1)(i+1)元素 自由度:df1 = 1 df2 = n-m-1
第五章 相关和回归分析
第五章相关分析和回归分析5.1有人研究了黏虫孵化历期平均温度(x,℃)与历期天数(y,d)之间关系,试验资料如下表,试求黏虫孵化历期平均温度(x,℃)与历期天数(y,d)的简单相关系数。
并建立孵化历期平均温度(x,℃)与历期天数(y,d)之间的一元线性回归方程(要求给出检验结果并描述)。
表5.1 黏虫孵化历期平均温度与历期天数资料5.2 下表为某县1960-1971年的1月份雨量(x1,mm)、3月上旬平均温度(x2,℃)、3月中旬平均温度(x3,℃)、2月份雨量(x4,mm)和第一代三化螟蛾高峰期(y,以4月30日为0)的测定结果。
试计算1月份雨量(x1,mm)、3月上旬平均温度(x2,℃)分别与第一代三化螟蛾高峰期(y)的偏相关系数。
5.3 下表为观测的七个不同高度的风速资料,试建立风速随高度变化的曲线方程。
并确定最合理的是什么样的曲线类型(要求写出曲线方程)。
表5.3 观测的不同高度的风速资料5.4根据多年的大豆分期播种资料,建立大豆产量(y)与生育期降水量(x i)之间的多元线性回归方程。
表5.4 大豆不同生育期降水量与产量数据产量(kg/ha)y生育期降水量(mm)播种-出苗x1出苗-第三叶x2第三叶-开花x3开花-结荚x4结荚-成熟x53982 52 132 180 219 206 3397 25 132 198 201 206 2915 29 170 149 190 202 2142 25 207 111 192 204 1874 43 167 188 111 205 1934 40 85 216 64 189 1692 4 107 192 64 194 1532 18 46 138 165 301 1203 15 49 149 153 299 1200 32 30 137 233 248 1168 7 112 168 158 225 1160 0 111 181 145 225 887 14 104 199 138 208 1124 22 34 26 50 156 927 22 35 25 50 156 870 9 33 25 50 154 979 16 28 22 50 156 924 32 12 37 30 154 1071 33 13 52 20 149 1056 29 15 50 20 149 1124 1 14 50 20 149 924 3 12 50 20 149 1374 11 34 30 8 1635.5根据表5.2的数据试应用逐步回归方法求预报第一代三化螟蛾高峰期的最优线性回归方程(要求给出方程和系数的检验结果)。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第五章回归分析§1.回归分析的数学模型1.1.线性统计模型1.线性回归方程从一个简单的例子谈起。
个人的消费水平Y与他的收入水平X间的关系,大体上可以描述:收入水平高,一般消费水平也高。
但Y 和X绝不是简单的线性关系,这从常识便能判别;而且也不是一种确定的数学关系,两个收入水平完全一样的个人,他们的消费水平可能有很大的差异。
比较合理的看法是:个人的消费水平Y是一个随机变量,从平均的意义上看,应与收入水平成正比。
因此,我们可以给出以下模型:Y = b0 + b1X +ε (1)其中b0,b1是待定常数,ε是随机变量,且有E(ε)=0,这样就能保证E(Y) = b0 + b1X (2)即从平均意义上Y和X线性相关。
等式(2)称为变量Y对于变量X的线性回归方程。
一般情况下,一个随机变量Y与变量X1,X2,…,X p有关系Y = b0 + b1X1 + b2X2 + … + b p X p +ε (3)随机变量ε的期望E(ε)=0,即有:E(Y) = b0+ b1X1 + b2X2+ … + b p X p (4)从平均意义上,Y与X1,X2,…,X p呈线性关系。
(4)式称为变量Y对于变量X1,X2,…,X p的线性回归方程,p=1时,称方程是一元的;p≥2时,称方程是多元的;b0,b1,…,b p称为回归系数。
2.统计模型的假设设变量Y与X1,X2,…,X p之间有关系(3),对(X1,X2,…,X p,Y)做n 次观察,得到一个容量为n的样本:(x i1,x i2, …,x i p,y i)i=1,2,…,n,按(4)式给出的关系,这些样本观察值应有:y1= b0+ b1x11+ b2x12 + … + b p x1p+ε1y2= b0+ b1x21+ b2x22 + … + b p x2p+ε2 (5) …………………………………y n= b0+ b1x n1+ b2x n2 + … + b p x n p+εn其中的εi, i=1,2,…,n是随机误差,出于数学上推导的需要,假设:1)E(εi)=0,i=1,2,…,n.即观察结果没有系统误差;2)Var(εi)=σ2,i=1,2,…,n.这个性质叫做方差齐性;⎪⎪⎪⎪⎪⎭⎫⎝⎛=np n p p x x x x x x X12211111113)Cov(εi εj )=0,i ≠j.由假设1),它等价于随机误差项互相不相关。
3.矩阵表示以上模型与假设,可以用矩阵表示。
用矩阵表示有利于数学推导以及结果的表示。
记向量Y,b,ε和矩阵X 分别为: Y=(y 1, y 2, … , y n )ˊ b=(b 0, b 1, … , b p )ˊ ε=(ε1,ε2,…,εn )ˊ模型(5)的矩阵表示便是Y = Xb + ε (6) 假设1)—3)便是E(ε) = 0 Var(ε) = σ2I 其中I 是n 级单位矩阵。
)ˆ,,ˆ,ˆ(ˆ10'=pb b b b .,,2,1,ˆˆˆˆˆ22110n i x b x b x b b y ipp i i i =++++=∑=-=n i i i yy Q 12)ˆ(Y X X X b''=-1)(ˆ1.2.回归系数的最小二乘估计对于回归方程(4),有两个明显的问题要解决:1)回归系数如何确定?这基本上是一个参数估计问题;2)当回归系数估计出结果后,回归方程能在多大程度上代表变量Y 与X 1,X 2,…,X p 的真实关系,也就是所谓回归方程的显著性检验问题。
先解决回归系数的估计问题。
设b=(b 0,b 1,…,b p )T的估计为 估计值最小二乘估计应使最小,据此,经数学推导可得这就是参数b 的最小二乘估计,其中的逆矩阵(X ˊX)-1称为信息矩阵,用C=(c ij ),i,j=0,1,2,…,n 表示。
它在以后的估计与检验中经常用到。
pp x b x b x b b y ˆˆˆˆˆ22110++++= n i x b x b x b b y ipp i i i ,,2,1,ˆˆˆˆˆ22110 =++++=()()()212121ˆˆ∑∑∑===-+-=-n i ini i in i iyyyyyy()21)(∑=-=n i iyyTSS Total ni x b x b x b b y i ip p i i i ,,2,1,22110 =+++++=ε1.3.回归方程的显著性检验 1.复相关系数 (1)平方和分解公式 设由样本得到的回归方程是由此得到的y i 的估计值便是数学上可以证明以下的“平方和分解公式”误差项ε是不可直接观察到的,它只能从yi -yi 的估计值中估计出来。
εi 称为残差。
我们记()21ˆ)(Re ∑=-=ni i iyyESS sidual ()21ˆ)(Re ∑=-=n i iyyRSS gression RSSESS RSS R+=2其中Total 为平方总和(TSS ),Residual 为残差平方和(ESS ),Regression 为回归平方和(RSS )。
(2)复相关系数平方和分解公式给出: TSS = ESS + RSS其中的TSS 完全由样本观察值决定,在取定一组样本后,它是一个常量。
ESS 是观察值与估计值的误差平方和,表示回归直线的拟合误差,ESS 越小(RSS 的值就越大),回归直线的拟合质量就越好;反之,ESS 越大(RSS 就越小),回归直线的拟合质量就越差。
所以,RSS 的大小或RSS/TSS 的大小,就成了衡量回归方程好坏的尺度。
记:称它的算术平方根R 为复相关系数(恰好是Pearson 相关系数的绝对值)。
这是一个从直观上判断回归方程拟合好坏的尺度,有0≤R ≤1,显然R 值越大,回归方程拟合越好。
)1/(/--=p n ESS p RSS F 1)1(.222----=p n R p R RAdj (3)R 2的校正值(Adjusted R Square)由于多元线性回归方程的复相关系数R 有随着自变量个数p 增加而增大的趋势,为了准确反映模型的拟合程度,引入校正的判决系数,即R 2的校正值。
这是一个更精确的R 2估计值,它的计算公式是2.假设检验回归方程拟合的好坏(也称显著与否)可以进行假设检验。
假设为:H 0:b 1=b 2=…=b p =0 (意为:回归方程不显著) H 1:H 0不对用F 检验,统计量为:其中,p 为自变量的个数。
若H 0为真,则F ~F (p, n-p-1),检验临界域由 P(F >f α)=α 确定。
1.4.回归系数的显著性检验 1.检验的意义pi c b Q iii i ,,2,1,ˆ2==∆回归系数的显著性检验的目的是检验自变量对因变量作用的显著程度,从而剔除回归方程中那些对因变量作用不显著的变量,简化回归方程。
2.偏回归平方和 (1)偏回归平方和的意义在平方和分解公式中,已经得到:回归平方和RSS 是回归方程拟合好坏的一个衡量尺度。
设RSS 是由包含全部自变量的回归方程所计算的回归平方和,而RSS (i )是剔除了自变量X i 后,所得的回归方程计算而得的回归平方和。
差:△Q i = RSS - RSS (i )表示在变量X i 被剔除后,回归平方和减少了多少。
显然,△Q i 越大,说明变量X i 越重要。
△Q i 称为变量X i 的偏回归平方和。
(2)计算公式3.假设检验回归系数的显著性检验,假设为: H 0:b j =0(即变量X j 不显著) H 1:b j ≠ 0 检验统计量为jj j j c b t σˆˆ=若H 0为真,便有t j ~t(n-p-1),检验的临界域由 P(│t │>t α)=α 确定。
1.5.回归方程的诊断1.共线性(Collinearity )诊断1)共线性的含义 p(≥2)元线性回归方程p p X b X b X b b Y ˆˆˆˆˆ22110++++=中,如果自变量X 1,X 2,…,X p 也构成一个显著的线性模型。
换言之:存在一个自变量,不妨设它是X 1,如果用X 1作因变量,对于剩下的自变量X 2,…,X p 构成一个显著的p-1元线性回归方程:pp Xc X c c X +++= 2201ˆ2)变量X j 的容限(Tolerance )设2jR 是以自变量X j 为因变量,与其他 p -1个自变量构成的p -1元线性回归方程的判决系数,称21)(jj R X Tol -=为变量X j 的容限。
它是判断回归方程共线性的重要指标。
显然有:1)(0≤≤j X Tol 。
并且:Tol (X j ) 的值越小,自变量X j 的共线性越显著。
2.残差分析 1)残差残差(Residual )指实际观察值与预测值之差:n i Y Y e ii i ,...,2,1,ˆ=-=残差向量:Y X X X X I Y Y e n ])([ˆ1''-=-=- (1)残差的均值为零,即有:0)(=e E。
(2)残差的协方差矩阵 ])([)(12X X X X I e D n''-=-σ 2)Durbin-Watson 统计量∑∑==--=n t tn t t t e e e d 12221)(当n 充分大时,)ˆ1(2ρ-≈d ,其中的ρˆ是残差序列的一阶自相关系数的估计。
可见此时的d 值大约在区间[0, 4]之内,而当d =2时,可判定残差序列独立。
§2.命令Regression 初步 2.1.线性回归分析命令使用1.命令调用 Statistics → Regression → Linear 2.Linear Regression 对话框的使用Dependent 是因变量框,Independent 是自变量框。
在使用的时候,只需要将因变量、自变量输入各自的框中。
Method 是方法选择框,包括有Enter(直接进入)、Stepwise(逐步回归)、Remove(移出)、Backward(向后剔除)和Forward(向前剔除)五种建立回归方程的方法。
系统默认的是Enter法。
点击系统将按照直接进入法进行回归分析。
下面详细说明对话框中各部分的功能和使用方法。
【Independent框】:用于选入回归分析的自变量。
【Method下拉列表】:用于选择对自变量的选入方法,有Enter (强行进入法)、Stepwise(逐步法)、Remove(强制剔除法)、Backward (向后法)、Forward(向前法)五种。
该选项对当前Independent 框中的所有变量均有效。
【Selection Variable框】:选入一个筛选变量,并利用右侧的Rules钮建立一个选择条件,这样,只有满足该条件的记录才会进入回归分析。