多重线性回归与相关优秀课件
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
多重线性回归与相 关
content
第一节 第二节 第三节 第四节 第五节
多重线性回归的概念与统计推断 假设检验及其评价 复相关系数与偏相关系数 自变量筛选 多元线性回归的应用与注意事项
▪ 目的:作出以多个自变量估计应变量的多元
线性回归方程。
▪ 资料:应变量为定量指标;自变量全部或大
部分为定量指标,若有少量定性或等级指标 需作转换。
▪ 用途:解释和预报。更精确 ▪ 意义:由于事物间的联系常常是多方面的,
一个应变量的变化可能受到其它多个自变量 的影响,如糖尿病人的血糖变化可能受胰岛 素、糖化血红蛋白、血清总胆固醇、甘油三 脂等多种生化指标的影响。
第一节 多重线性回归的概念 与统计推断
一、数据与多元线性回归模型
• 变量:应变量 1 个,自变量k 个,共 k+1 个。
b 0 Y (b 1 X 1 b 2 X 2 b kX k)
lij
(XiXi)(XjXj)
XiXj
Xi Xj , i,j=1,2,,k n
ljY
(XjXj)(YY)
XjY
Xj
Y ,
n
j1,2 ,k
统计软件包
Yˆ 0.14166 0.00011619X1 0.00449X2 0.00000655X3 0.03468X4
Q ( Y Y ˆ ) 2 [ Y ( b 0 b 1 X 1 b 2 X 2 b k X k ) ] 2
求偏导数(一阶)
原理
最小二乘法
l11b1 l12b2 l21b1 l22b2 lk1b1 lk 2b2
l1kbk l1Y l2kbk l2Y
lkkbk lkY
表13-2显示,P <0.0001,拒绝H0。说明从整体 上而言,用这四个自变量构成的回归方程解释 空气中NO浓度的变化是有统计学意义的。
偏回归系数的t检验
偏回归系数的t检验是在回归方程具 有统计学意义的情况下,检验某个总体 偏回归系数等于零的假设,以判断是否相 应的那个自变量对回归确有贡献
t bi
风速 一氧化 车流 (X4) 氮(Y) (X1)
0.45 0.50 1.50 0.40 0.90 0.80 1.80 0.60 1.70 0.65 0.40 2.00
0.066 0.076 0.001 0.170 0.156 0.120 0.040 0.120 0.100 0.129 0.135 0.099
变异来源 自由度 SS
MS
F
P
总变异
n-1
SS 总
回归
k
SS 回
SS 回 /k
MS 回/MS 残
残差
n-k-1 SS 残 SS 残 /(n-k-1)
变异来源 自由度 SS
MS
回归模型
4
0.06396 0.01599
F
17.59
P
<.0001
残差
19
0.01727 0.00090903
总变异
23
0.08123
• 样本含量:n
• 数据格式见表13-1
• 回归模型一般形式:
Y i 0 1 x 1 i 2 x 2 i . .k .x k ii
上式表示数据中应变量 Y 可以近似地表示为自变量
X1, X 2, , X k 的线性函数。
0 为常数项, 1, 2, , k 为偏回归系数,表示在其它自变
量保持不变时,
bi S bi
利用SAS对例13-1的四个偏回归系数进行t检验与 标准化偏回归系数的结果如表13-3所示。
变量 自由度 回归系数
标准误
截距 X1 X2 X3 X4
1
-0.14166
0.06916
X
增加或减少一个单位时
j
Y
的平均变化
量,e 是去除 k 个自变量对 Y 影响后的随机误差(残差)。
多元回归分析数据格式
例号 X1
X2
…
Xk
Y
1
X11
X12
…
X1k
Y1
2
X21
X22
…
X2k
Y2
┇
┇
┇
…
┇
┇
n
Xn1
Xn2
…
Xnk
Yn
条件
(1)Y 与 X1, X 2, , X k 之间具有线性关系。 (2)各例观测值Yi (i 1,2,,n) 相互独立。 (3)残差 e~N(0, 2 )且各自变量与应变量 Y 具有相同方差, 并服从正态分布。
948 1440 1084 1844 1116 1656 1536 960 1784 1496 1060 1436
气温 (X2)
22.5 21.5 28.5 26.0 35.0 20.0 23.0 24.8 23.3 27.0 26.0 28.0
气湿 (X3)
69 79 59 73 92 83 57 67 83 65 58 68
风速 (X4)
2.00 2.40 3.00 1.00 2.80 1.45 1.50 1.50 0.90 0.65 1.83 2.00
一氧化 氮(Y)
0.005 0.011 0.003 0.140 0.039 0.059 0.087 0.039 0.222 0.145 0.029 0.099
(1)求偏回归系数 b0 ,b1,b2 , , bk
车流 (X1)
1300 1444 786 1652 1756 1754 1200 1500 1200 1476 1820 1436
气温 (X2)
20.0 23.0 26.5 23.0 29.5 30.0 22.5 21.8 27.0 27.0 22.0 28.0
气湿 (X3)
80 57 64 84 72 76 69 77 58 65 83 68
第二节 假设检验及其评价
(一)对回归方程
1. 方差分析法:
H0 : 1 2 k 0 , H1 : 各(j j=1,2,,k)不全为 0,
0.05
SS总 SS回 SS残
F
SS回 / k SS残 (/ n k
1)
ຫໍສະໝຸດ Baidu
MS回 MS残
F~F(k,nk1)
多元线性回归方差分析表 ( 0.05)
建立回归方程(样本)
一
般 步
Y ˆ b 0 b 1 X 1 b 2X 2 b kX k
骤
(2)检验并评价回归方程 及各自变量的作用大小
二、多元线性回归方程的建立
样本估计而得的多重线性回归方程
y ˆ b 0 b 1 x 1 b 2 x 2 . .b .kx k
bj为自变量Xj 的偏回归系数(partial regression coefficient),是βj的估计值,表示当方程中其他自变量 保持常量时,自变量Xj变化一个计量单位,反应变量Y的平 均值变化的单位数。
content
第一节 第二节 第三节 第四节 第五节
多重线性回归的概念与统计推断 假设检验及其评价 复相关系数与偏相关系数 自变量筛选 多元线性回归的应用与注意事项
▪ 目的:作出以多个自变量估计应变量的多元
线性回归方程。
▪ 资料:应变量为定量指标;自变量全部或大
部分为定量指标,若有少量定性或等级指标 需作转换。
▪ 用途:解释和预报。更精确 ▪ 意义:由于事物间的联系常常是多方面的,
一个应变量的变化可能受到其它多个自变量 的影响,如糖尿病人的血糖变化可能受胰岛 素、糖化血红蛋白、血清总胆固醇、甘油三 脂等多种生化指标的影响。
第一节 多重线性回归的概念 与统计推断
一、数据与多元线性回归模型
• 变量:应变量 1 个,自变量k 个,共 k+1 个。
b 0 Y (b 1 X 1 b 2 X 2 b kX k)
lij
(XiXi)(XjXj)
XiXj
Xi Xj , i,j=1,2,,k n
ljY
(XjXj)(YY)
XjY
Xj
Y ,
n
j1,2 ,k
统计软件包
Yˆ 0.14166 0.00011619X1 0.00449X2 0.00000655X3 0.03468X4
Q ( Y Y ˆ ) 2 [ Y ( b 0 b 1 X 1 b 2 X 2 b k X k ) ] 2
求偏导数(一阶)
原理
最小二乘法
l11b1 l12b2 l21b1 l22b2 lk1b1 lk 2b2
l1kbk l1Y l2kbk l2Y
lkkbk lkY
表13-2显示,P <0.0001,拒绝H0。说明从整体 上而言,用这四个自变量构成的回归方程解释 空气中NO浓度的变化是有统计学意义的。
偏回归系数的t检验
偏回归系数的t检验是在回归方程具 有统计学意义的情况下,检验某个总体 偏回归系数等于零的假设,以判断是否相 应的那个自变量对回归确有贡献
t bi
风速 一氧化 车流 (X4) 氮(Y) (X1)
0.45 0.50 1.50 0.40 0.90 0.80 1.80 0.60 1.70 0.65 0.40 2.00
0.066 0.076 0.001 0.170 0.156 0.120 0.040 0.120 0.100 0.129 0.135 0.099
变异来源 自由度 SS
MS
F
P
总变异
n-1
SS 总
回归
k
SS 回
SS 回 /k
MS 回/MS 残
残差
n-k-1 SS 残 SS 残 /(n-k-1)
变异来源 自由度 SS
MS
回归模型
4
0.06396 0.01599
F
17.59
P
<.0001
残差
19
0.01727 0.00090903
总变异
23
0.08123
• 样本含量:n
• 数据格式见表13-1
• 回归模型一般形式:
Y i 0 1 x 1 i 2 x 2 i . .k .x k ii
上式表示数据中应变量 Y 可以近似地表示为自变量
X1, X 2, , X k 的线性函数。
0 为常数项, 1, 2, , k 为偏回归系数,表示在其它自变
量保持不变时,
bi S bi
利用SAS对例13-1的四个偏回归系数进行t检验与 标准化偏回归系数的结果如表13-3所示。
变量 自由度 回归系数
标准误
截距 X1 X2 X3 X4
1
-0.14166
0.06916
X
增加或减少一个单位时
j
Y
的平均变化
量,e 是去除 k 个自变量对 Y 影响后的随机误差(残差)。
多元回归分析数据格式
例号 X1
X2
…
Xk
Y
1
X11
X12
…
X1k
Y1
2
X21
X22
…
X2k
Y2
┇
┇
┇
…
┇
┇
n
Xn1
Xn2
…
Xnk
Yn
条件
(1)Y 与 X1, X 2, , X k 之间具有线性关系。 (2)各例观测值Yi (i 1,2,,n) 相互独立。 (3)残差 e~N(0, 2 )且各自变量与应变量 Y 具有相同方差, 并服从正态分布。
948 1440 1084 1844 1116 1656 1536 960 1784 1496 1060 1436
气温 (X2)
22.5 21.5 28.5 26.0 35.0 20.0 23.0 24.8 23.3 27.0 26.0 28.0
气湿 (X3)
69 79 59 73 92 83 57 67 83 65 58 68
风速 (X4)
2.00 2.40 3.00 1.00 2.80 1.45 1.50 1.50 0.90 0.65 1.83 2.00
一氧化 氮(Y)
0.005 0.011 0.003 0.140 0.039 0.059 0.087 0.039 0.222 0.145 0.029 0.099
(1)求偏回归系数 b0 ,b1,b2 , , bk
车流 (X1)
1300 1444 786 1652 1756 1754 1200 1500 1200 1476 1820 1436
气温 (X2)
20.0 23.0 26.5 23.0 29.5 30.0 22.5 21.8 27.0 27.0 22.0 28.0
气湿 (X3)
80 57 64 84 72 76 69 77 58 65 83 68
第二节 假设检验及其评价
(一)对回归方程
1. 方差分析法:
H0 : 1 2 k 0 , H1 : 各(j j=1,2,,k)不全为 0,
0.05
SS总 SS回 SS残
F
SS回 / k SS残 (/ n k
1)
ຫໍສະໝຸດ Baidu
MS回 MS残
F~F(k,nk1)
多元线性回归方差分析表 ( 0.05)
建立回归方程(样本)
一
般 步
Y ˆ b 0 b 1 X 1 b 2X 2 b kX k
骤
(2)检验并评价回归方程 及各自变量的作用大小
二、多元线性回归方程的建立
样本估计而得的多重线性回归方程
y ˆ b 0 b 1 x 1 b 2 x 2 . .b .kx k
bj为自变量Xj 的偏回归系数(partial regression coefficient),是βj的估计值,表示当方程中其他自变量 保持常量时,自变量Xj变化一个计量单位,反应变量Y的平 均值变化的单位数。