简单线性回归分析2
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
)
lXY lXX
a Y bX
03:56
24
b=0.1584,a=-0.1353
Yˆ 0.1353 0.1584X
03:56
25
回归直线的有关性质
(1) 直线通过均点 ( X ,Y )
(2) 各点到该回归线纵向距离平方和较到其它任何直线小。
(Y Yˆ)2 [Yˆ a bX ]2
03:56
残 差 0.0282 22 0.0013
总变异 0.0812 23
R2=SS回归/SS总=0.0530/0.0812=0.6527 说明在空气中NO浓度总变异的65.27%与车流量有关。
03:56
48
二、简单线性回归模型
两变量关系的定量描述 统计推断 统计应用
统计预测
Y 的均值的区间估计:总体回归线的95%置信带(相应X 取值水平下,) ;
回归模型 (regression model):
描述变量之间的依存关系的函数。
简单线性回归(simple linear regression):
模型中只包含两个有“依存关系”的变量,一个变量随 另外一个变量的变化而变化,且呈直线变化趋势,称之 为简单线性回归。
03:56
9
例如,舒张压和血清胆固醇的依存性
统计推断 通过假设检验推断NO平均浓度是否随着车 流量变化而变化;
统计应用 利用模型进行统计预测或控制。
03:56
13
两变量关系的定量描述
散点图 简单线性回归方程 回归系数的计算——回归系数的最小二乘估计 线性回归分析的前提条件
03:56
14
1. 散点图
0.25
0.2
NO浓度/×10-6
正态 (normal)假定是指线性模型的误差项服从正态 分布 。
等方差(equal variance)是指在自变量X 取值范围内, 不论X 取什么值,Y 都具有相同的方差。
03:56
28
图10-2 回归模型前提假设立体示意图
03:56
29
二、简单线性回归模型
两变量关系的定量描述 统计推断
0.15
0.1
0.05
0
0.75
1
1.25
1.5
1.75
2
车流量/千辆
主要考察三点:
是否有线性趋势
是否存在异常点。 是否需要分层分析
03:56
15
2. 简单线性回归方程
NO浓度/×10-6
0.25
0.2
0.15
0.1
0.05
0
0.75
1
1.25
1.5
1.75
2
车流量/千辆
Y|X X
03:56
500
10 78
316
胆固醇
03:56
10
解释变量与反应变量
解释变量(explanatory variable):
又称自变量(independent variable) :能独立自由变 化的变量,可以是随机变量,也可以是人为控制或选 择的变量;一般用X 表示
反应变量(response variable):
0
0.75
1
1.25
1.5
1.75
2
车流量/千辆
03:56
22
最小二乘原则:残差平方和最小。
03:56
23
3. 回归系数的最小二乘估计
求出回归系数α和β的估计值,使得残差平方和达到最小。
即,使得Q (Y Yˆ)2达到最小,应用微积分求
极值的方法可得
b
(
X
X )(Y Y (X X )2
个体Y 预测值的区间估计。
统计控制
03:56
49
样本
Y的平均
Y
给定X 时Y 的平均 (Y的条件均数)
Y
总体
Y |X
03:56
50
剩余标准差、条件标准误、条件标准差
sY ,X
1 ( X X )2
s sY ,X Y
n
( X X )2
抽样误差
1 ( X X )2
Y t / 2,n2 s Y t / 2,n2 sY ,X Y
6.5
6.0
5.5
5.0
11
12
13
14
15
16
03:56
20
(Yˆ Y )2 的意义
残差平方和 (residual sum of squares). 综合表示点距直线的距离。
03:56
21
NO浓度/×10-6
0.25
0.2 y = 0.1584x - 0.1353
0.15
0.1
0.05
回归模型的假设检验(model test) 回归系数的假设检验(parameter test) 总体回归系数的区间估计 回归效果的评价指标——决定系数
03:56
30
1. 检验回归模型是否成立(model test) ——方差分析
03:56
31
总变异的分解 (Y Y )2 (Y Y )2 (Y Y )2
16
α的意义
Y|X X
截距(intercept, constant) X=0 时,Y 的平均值 α的单位与Y 的相同 当X 可能取0时, α才有实际意义。
03:56
17
Y|X X
β的意义
总体回归系数(regression coefficient),直线的斜率(Slope) X 每增加(或减少)一个单位,Y 平均改变β个单位。
26
4. 线性回归分析的前提条件(LINE)
线性 (linear) 独立 (independent) 正态 (normal) 等方差(equal variance)
03:56
27
线性(linear)指反应变量Y 的总体平均值与自变量X 呈线性关系。
独立(independent)指任意两个观察值互相独立。
例101为研究大气污染物一氧化氮no的浓度是否受到汽车流量的影响选择24个工业水平相近城市的一个交通点统计单位时间过往的汽车数千辆同时在低空相同高度测定了该时间段空气中一氧化氮no的浓度106数据如表101所示
例10-1 为研究大气污染物一氧化氮(NO)的浓度是否受 到汽车流量的影响,选择24个工业水平相近城市的一 个交通点,统计单位时间过往的汽车数(千辆),同时 在低空相同高度测定了该时间段空气中一氧化氮(NO) 的浓度(×10-6),数据如表10-1所示。
sb
sY ,X
n
(Xi X )2
i 1
sY ,X
n
(Yˆi Yi )2
i 1
n2
03:56
42
例 10-1 中, b=0.1584, SY ,X ,
Sb=0.0246, 代入公式,
0.1584 tb 0.0246 6.432
自由度=24-2=22。 查 t 界值表得 P<0.0001。
残差平方和,反映自变量X 以外因素对Y 的变异的 影响,也就是在Y 的总变异中无法用Y 与X 的回归 关系解释的那部分变异。
03:56
36
(Y Y )2 (Y Y )2 (Y Y)2
SS总 SS回 SS残
总 = 回 + 残
总=n -1 回 1 残 n2
F SS回 /回 MS回 SS残 / 残 MS残
03:56
4
简单线性回归分析
03:56
5
目的要求
掌握线性回归的基本概念、回归系数的含义及假设检验; 熟悉回归方程的最小二乘原则; 熟悉回归系数的计算方法和回归模型的前提假设; 熟悉总体回归线的95%置信带与个体预测值Y 的区间估计; 了解应用线性回归分析进行统计控制; 了解统计内容的报告与中英文表达。
残 差 0.0282 22 0.0013
总变异 0.0812 23
03:56
39
2. 检验总体回归系数是否为零(parameter test)
——t 检验
03:56
40
总体回归系数β的假设检验
H0: β=0, H1:β≠0
α=0.05
03:56
41
b0 tb Sb
H0成立时, 该统计量应服从 v =n-2的t 分布, 其中Sb 为b 的标准误
03:56
43
对于简单线性回归分析
对回归方程的假设检验的方差分析与对回归系数 假设检验的t 检验是等价的。
t2 F
相关系数的假设检验与回归系数的假设检验是等 价的。
tr tb
03:56
44
3.总体回归系数β的区间估计
b t / 2,n2Sb
0.1584 2.074 0.0246 (0.1074, 0.2095)
03:56
45
b越大,X 对Y 的影响就越大
100
y = 5.2655x + 1.6554
90
R2 = 0.905
80
70
60
50
40
30
20
y = 2x + 3
10
R2 = 1
0
0
2
4
6
8
10
12
14
16
18
回归系数越大只能说明Y 随X 的变化越快,并不能表明X 对Y 的影响的大小。
03:56
46
03:56
6
简单线性回归分析
基本概念 简单线性回归模型 结果报告 案例辨析 常见疑问与小结
03:56
7
一、基本概念
回归分析与简单线性回归 解释变量与反应变量
03:56
8
回归分析 (regression analysis):
研究一个变量与另一个或一组变量之间 依存性或依存关 系的一种统计分析方法。
4. 回归效果的评价指标——决定系数
定义为回归平方和与总平方和之比,记为R2,
R2 SS回归 SS总
无量纲,取值在0到1之间;
Y 的总变异中回归关系所能解释的百分比;
拟合优度指标;
当两变量都为随机变量时,决定系数等于相关系数的平 方。
03:56
47
变异来源 SS df MS
F
P
回 归 0.0530 1 0.0530 41.376 <0.0001
β>0,Y 与X 呈同向线性变化趋势; β<0,Y 与X 呈反向线性变化趋势; β=0,Y 与X 无线性回归关系,但不表明没有其他关系。 β的单位为 (Y 的单位 /X的单位)
03:56
18
Y|X X
Yˆ a bX
Yˆ 为 Y|X 估计值
称 Y Yˆ 为残差
03:56
19
Yˆ Y的意义:点到直线的纵向距离。
又称为因变量(dependent variable):非独立的、受 其他变量影响的变量,一般用Y 表示。
03:56
11
二、简单线性回归模型
03:56
12
例10-1中,假如只考虑NO浓度与车流量的关系,以 NO浓度为因变量,车流量为自变量,采用回归分析 通常要达到以下三个目的:
统计描述 应用回归方程定量描述两个变量间的关系;
blXY blXY 0
03:56
34
SS总: (Y Y )2
Y 的离均差平方和,表示因变量Y的总变异
SS回 : (Y Y )2
回归平方和,表示当自变量X 引入模型后所引起的 变化,反映了在Y 的总变异中可以用Y 与X 的线性 关系解释的那部分变异。
03:56
35
SS残 : (Y Y )2
n
( X X )2
1 ( X X )2
sY sY .X
编号 舒张压 胆固醇
两变量之间的依存性
( id ) ( y ) ( x )
1 80
307
y = 0.1779x + 26.622
110
2 75
259
100
3 90
341
90
舒张压
4 70
237
5 75
254
6 105
416
80 70
7 70
267
60
8 85
320
50
9 88
374
200
300
400
Y Yˆ
(X ,Y )
Yˆ
Y Y
Yˆ Y
Y
X
图10-3 Y的总变异分解示意图
03:56
32
(Y Y )2 (Y Y Yˆ Y )2 [(Y Y )2 (Y Y )2 2(Y Y )(Yˆ Y )] (Y Y )2 (Y Y )2 2 (Y Y )(Yˆ Y )
0.25
0.2
0.15
0.1
0.05
0
0.75
1
1.25
1.5
1.75
2
车流量/千辆
03:56
3
解析:
目的:在于通过探讨车流量与NO浓度的关系,为控制 空气污染提供依据。
一个变量的变化(如空气中NO浓度)如何受到另外一 个变量(如车流量)变化的制约。
这些问题在统计学中采用回归模型(regression model) 来进行分析。
03:56
37
回归模型的假设检验
H0:总体回归方程不成立或总体中自变量X 对因 变量Y 没有贡献;
H1:总体回归方程成立或总体中自变量X 对因变 量Y 有贡献;
α=0.05
03:56
38
在H0成立时,
F
SS回 /回 SS残 / 残
MS回 MS残
~
F回 ,残
变异来源 SS df MS
F
P
回 归 0.0530 1 0.0530 41.376 <0.0001
03:56
33
(Y Y )(Yˆ Y ) [Y (a bX )])(a bX Y ) (Y a bX )(Y bX bX Y ) (Y Y bX bX )(bX bX ) b[(Y Y ) b(X X )](X X ) b (Y Y )( X X ) b2 (X X )2
03:56
1
一氧化氮(Y)
0.066 0.076 0.001 0.170 0.156 0.120 0.040 0.120 0.100
车流量(X1) 1.300 1.444 0.786 1.652 1.756 1.754 1.200 1.500 1.200
0.099
1.436
03:56
2
NO浓度/×10-6