多元线性回归和非线性回归

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
多元线性回归
多元线性回归模型
(multiple linear regression model)
1.
2.
3.
一个因变量与两个及两个以上自变量的回归 描述因变量 y 如何依赖于自变量 x1 , x2 ,…, xp 和误差项 的方程,称为多元回归模型 涉及 p 个自变量的多元回归模型可表示为
y x x x 0 1 1 2 2 p p
线性关系检验
1.
提出假设


H0:b1b2bp=0 线性关系不显著 H1:b1,b2, bp至少有一个不等于0
2 ˆ y y i i 1 n
2. 计算检验统计量F
SSR p F n SSE ( n p 1 )
p
~ F ( p ,n p 1 ) 2 ˆ y y ( n p 1 ) i
线性关系检验
(回归方程显著性检验)
1. 2. 3.
检验因变量与所有自变量之间的线性关系是 否显著 也被称为总体的显著性检验 检 验 方 法 是 将 回 归 均 方 (MSR) 同 残 差 均 方 (MSE)加以比较,应用 F 检验来分析二者之 间的差别是否显著

如果是显著的,因变量与自变量之间存在线性 关系 如果不显著,因变量与自变量之间不存在线性 关系
ˆ ˆ ˆ ˆ ˆ y b b x b x b x 0 1 1 2 2 p p

ˆ, ˆ, ˆ, ˆ是 b , b , b , , b b , b 0 1 2 p 0 b 1 b 2 p
估计值 ˆ 是 y 的估计值 y
参数的最小二乘法
1. 使因变量的观察值与估计值之间的离差平方和 ˆ, ˆ, ˆ, ˆ 。即 b b , b 达到最小来求得 b 0 1 2 p
回归系数的检验 (步骤)
1.
提出假设

H0: bi = 0 (自变量 xi 与 因变量 y 没有线性关系) H1: bi 0 (自变量 xi 与 因变量 y有线性关系)
2.
计算检验的统计量 t
t
ˆ b i Sb ˆ
i
~t(n p1 )
3. 确定显著性水平,并进行决策

t>t2,拒绝H0; t<t2,不拒绝H0
对多元回归,总方差同样可分解成如下形式
SST SSE SSR
则决定系数为
(12.6)
R
2

yˆ i yi
i1 i1 n
n
y y
2 2
SSE SST
(12.7)

SSR SST
1
多重决定系数反映样本回归方程的拟合好坏程度,R 愈
2 大,说明样本回归方程拟合得愈好。显然, 0R . 而 1
a. Dependent Variable: y
参数的最小二乘法
y 4 1 2 2 9 0 1 2 5 . 7 0 2 x 2 6 . 7 4 1 x 5 . 8 7 8 x 9 5 . 6 6 8 x 1 2 3 4 4 2 . 2 8 8 x 1 1 . 7 2 4 x 1 8 7 . 5 3 2 x 5 0 . 2 8 0 x 5 8 . 0 8 2 x 5 6 7 8 9 8 1 . 7 2 6 x 4 6 . 7 9 1 x 5 4 . 8 1 7 x 4 1 . 1 2 3 x 1 0 1 1 1 2 1 3
多元线性回归方程
(multiple linear regression equation)
1.
2.
描述因变量 y 的平均值或期望值如何依赖于自变量 x1, x2 ,…,xp的方程 多元线性回归方程的形式为

E( y ) = b0+ b1 x1 + b2 x2 +…+ bk xp
b1,b2,,bp称为偏回归系数


需要注意的是,这一回归方程并不理想,回归 系数的意义不好解释,这里只是作为多元线性回归 参数估计的一例,后边我们还要进一步完善这一模 型的建立
线性回归方程的某些注意点
1 样本决定系数 2 估计标准误差
一、多重样本决定系数(multiple coefficient of determination)
i 1
3. 确定显著性水平和分子自由度p、分母自由度np-1找出临界值F 4. 作出决策:若F>F ,拒绝H0
方差分析表
前面的这些计算结果可以列成表格的形式,称为方差分析表. 方差分析表
方差来源 平方和 回归 残差 总和 SSR SSE SST 自由度 p 方差 SSR / p F 值
回归系数的推断
(置信区间)

回归系数在 (1-)% 置信水平下的置信区 间为
ˆ b ( n p 1 ) s ˆ i t 2 b
i



回归系数的 抽样标准差
sb ˆ
i
se
x x
i
2
对回归系数的检验:

例1 spss计算出的 b 和P值
C o ef f i ci e n tsa Unstandardized Coefficients B Std. Error -4122901 5612697.85 -25.702 10.068 26.742 17.374 -5.878 61.983 -95.668 53.414 -42.288 88.078 11.724 74.489 -187.532 273.188 50.280 14.018 -58.082 187.596 -81.726 43.642 46.791 23.185 54.817 39.303 41.123 14.674 Standardized Coefficients Beta -.329 .208 -.012 -.281 -.074 .014 -.044 .678 -.047 -.302 .423 .449 .273
SSR /p SSE /( n p 1 )
F
F ( p ,n p 1 )
n - p - 1 SSE /(n - p - 1) n-1 -
对例1回归方程的检验:
A N O Vb A Sum of Model Squares df Mean Square F Sig. 1 Regression 8.78E+016 6.753E+015 13 84.258 .000a Residual 1.36E+015 8.015E+013 17 Total 8.92E+016 30 a.Predictors: (Constant), x13, x7, x2, x9, x6, x1, x8, x12 b.Dependent Variable: y
•用spss软件计算的回归系数如下:
C oe ff ic i en tsa Unstandardized Coefficients B Std. Error -4122901 5612697.85 -25.702 10.068 26.742 17.374 -5.878 61.983 -95.668 53.414 -42.288 88.078 11.724 74.489 -187.532 273.188 50.280 14.018 -58.082 187.596 -81.726 43.642 46.791 23.185 54.817 39.303 41.123 14.674
回归系数表
Model 1
Standardized Coefficients Beta -.329 .208 -.012 -.281 -.074 .014 -.044 .678 -.047 -.302 .423 .449 .273
(Constant) x1 x2 x3 x4 x5 x6 x7 x8 x9 x10 x11 x12 x13
回归参数的估计
估计的多元线性回归的方程
(estimated multiple linear regression equation)
1.
2. 3.
ˆ ,b ˆ ,b ˆ, ˆ 估计回归方程 ,b 用样本统计量 b 0 1 2 p 中的 参数 b 时得到的方程 , b , b , , b 0 1 2 p 由最小二乘法求得 一般形式为
bi 表示假定其他变量不变,当 xi 每变动一个单 位时,y 的平均变动值
二元线性回归方程
考虑二元线性回归模型
y b b x b b x 0 1 1 2 2
1. b 1 表示 x 2 保持不变时, x 1 每变动一个单位时 E ( y ) 的相应变化量.
t -.735 -2.553 1.539 -.095 -1.791 -.480 .157 -.686 3.587 -.310 -1.873 2.018 1.395 2.802
Sig. .473 .021 .142 .926 .091 .637 .877 .502 .002 .761 .078 .060 .181 .012
x1
表中的Sig即为显著性P值,由P值=0.000(近似值) 可知回归方程十分显著。即可以以99.9%以上的概率断 言所有自变量全体对因变量产生显著线性影响。
回归系数显著性检验
1.
线性关系检验通过后,对各个回归系数有选择地进 行一次或多次检验
2.
3.
对每一个自变量都要单独进行检验
应用 t 检验统计量
n n i 1 i 1
2 2 ˆ ˆ ˆ ˆ) ˆ Q ( b , b , b , , b ( y y ) e 最小 0 1 2 p i i i
2. 求解各回归参数的标准方程如下
Q 0 ˆ b0 b0 b 0 Q 0 b ˆ i i bi b
b bb b
b0 ,b1,b2 ,,bp是参数 是被称为误差项的随机变量 y 是x1,,x2 , ,xp 的线性函数加上误差项 包含在y里面但不能被p个自变量的线性关系 所解释的变异性
多元线性回归模型
(基本假定)




1. 解释变量x1,x2,…,xp是确定性变量.不是 随机变量,且要求样本容量的个数应大于解释变 量的个数。 2. 误 差 项 ε 是 一 个 期 望 值 为 0 的 随 机 变 量 , 即 E()=0 3. 对于自变量x1,x2,…,xp的所有值,的方差 2都相同 4. 误差项 ε 是一个服从正态分布的随机变量,即 ε~N(0,2),且相互独立
由于样本多重判定系数的分母 SST 对给定的样本数据是不 变的,而 SSR 与引进回归方程的自变量个数有关.因此,应对
R

作调整,调整的样本多重判定系数为
R2 1
2 ˆ ( y y ) i i /( n p 1) i 1 2 ( y y ) /( n 1) i i 1 2 n
(i 1 , 2, ,p)
参数的最小二乘法
(例题分析)
例1 生产总值是衡量一个国家地区经济发展的重要 指标,影响一个国家或地区生产总值的因素包括 资本、资源、科技、劳动力、进出口、国家基础 设施建设等方面的因素。本例研究财政支出对生 产总值的影响。 《中国统计年鉴》把财政支出划分为31个组成 部分,本例只选取其中的13个重要支出项。
x 2. b 2 表示 x 1 保持不变时, 2 每变动一个单位时 E ( y )
的相应变化量.
二元线性回归方程的直观解释
二元线性回归模型 y
y b b x b x 0 1 1 2 2
(观察到的y)
b0
回归面
}
i
x2 (x1,x2) x1
E ( y ) b b x b x 0 1 1 2 2

SSR R SST
2 ˆ ( y y ) i 2 ( y y ) i i 1 i 1 n
n
,x ,x 称 y 关于 x 1 2, p 的样本复相关系数,R 的大小可以
反映作为一个整体的 x ,x ,x 1 2, p与 y 的线性相关的密切 程度.
修正多重决定系数(adjusted multiple coefficient of determination)
n
n 1 1 (1 R ) n p 1
(12.8)
估计标准误差 Sy
1. 2. 3.
对误差项的标准差 的一个估计值 衡量多元回归方程的拟合优度 计算公式为
ˆ y y
i 1 i i n 2
S e
SSE MSE np 1 np 1
回归方程显著性检验
相关文档
最新文档