简单线性回归
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
LINE
三、回归方程参数(a、b)的计算
5500
5000
基 4500 础 代 谢 4000
3500
3000
30
35
40
45
50
55
60
65
70
75
体重
求回归方程的原则
最小二乘法原则:使各散点到直线的纵向距离(残差)的平方
和最小。即使 Y Yˆ 2 最小。
n
Q ei2 i 1 n (Yi Yˆi )2 i 1 n Yi a bXi 2 i 1
线性回归方程的一般表达式:
Yˆ a bX
a:截距(intercept),直线与Y轴交点的纵坐标 b:斜率(slope),回归系数(regression coefficient)
b 的统计学意义是:
X 每增加(减)一个单位,Y 平均改变b个单位
二、线性回归分析适用条件
• X与Y之间呈线性关系(Linear) • 个体观察值之间独立(Independent) • 给定X时,对应的Y服从正态分布(Normal Distribution) • 不同的X所对应Y的方差相等(Equal Variance)
(Y Y )2 (Y Yˆ)2 (Yˆ Y )2
SS总 SS剩 SS回
总= 剩+回
几个平方和的含义
SS总 即 (Y Y )2 ,为 Y 的离均差平方
和,表示未考虑 X 与Y 的回归关系时Y 的 总变异。
SS 回= (Yˆ Y )2 ,为回归平方和(regression sum of squares),
b t ,n2 Sb
4、决定系数
回归平方和与总离均差平方和之比
R2= SS回 SS总
• 它反映了回归的贡献的相对程度,即在Y的 总变异中回归关系所能解释的比例
• 实际用决定系数来反映回归的实际效果
五、线性回归的应用
1、描述两个变量之间的线性依存的数量关系 2、统计预测,通过X预测估计Y的取值
(1)Y的总体均数的置信区间
由于 X 与 Y 的直线关系而使Y 变异减小的部分,即总变异中, 可以用 X 解释的部分。SS 回越大,回归效果越好。
SS 剩=(Y Yˆ)2 ,为剩余平方和(residual sum of squares), X 对Y 的线性影响之外的一切因素对 Y 的变异,即总变异中, 无法用 X 解释的部分。SS 剩越小,回归效果越好。
2、t 检验
公式
t b 0 = b ,υ=n-2
Sb
Sb
Sb为回归系数的标准误
Sb=
SY .X
X X 2
sYX
Y Yˆ 2 n2
SY.X为Y的剩余标准差,即扣除X的影响后Y 的变异大小。
t 检验
H0:β=0
H1:β≠0
α=0.05
sYX
Y Yˆ 2 165,1311
n2
61.4229
a Y b X 63232.9 61.4229 777.2
14
14
1106.7864
得到的回归方程为:
Yˆ 1106 .7864 61.4229 X
四、线性回归方程的假设检验
需要检验总体回归方程是否成立! b≠0原因:① 由于抽样误差引起,总体回
归系数β=0 ② 存在回归关系,总体回归
Sb
165.1311 4.881 1144.5771
t 61.4229 12.584 14 2 12
4.881
查t界值表,t 0.001(12) =4.318,所以p<0.001,拒 绝H0,可以认为体重与基础代谢之间存在线 性回归关系
3、总体回归系数的可信区间
利用上述对回归系数的t检验,可以得到β的1α双侧可信区间为
系数β ≠0
假设检验方法: 方差分析(F检验)、t 检验
1、方差分析
P(X ,Y )实测点
Y
(Y Yˆ)剩余部分
总情况(Y Y )
(Yˆ Y )回归部分
Y
Y Y Y Yˆ Yˆ Y
X
Y的离均差平方和的分解
(Y Y ) (Y Yˆ) (Yˆ Y )
两边平方后求和
数理统计可以证明 2(Y Yˆ)(Yˆ Y ) 0
SYp SY X
1 1 n
(X p X )2 (X X )2
3、统计控制,利用回归方程进行逆估计
五、进行线性回归分析的注意事项
1、资料要求:Y服从正态分布,X没有要求 2、做回归分析要有实际意义,一般Y为结果
变量,X为原因变量 3、须对回归系数进行假设检验 4、使用回归方程计算估计值时,不可以把估
3. r b lXX lYY
4.用回归解释相关 决定系数(coefficient of determination)
r2
l
2 XY
l
2 XY
l XX
源自文库 SS回
lXX lYY
lYY
SS总
给定 X X0 时,总体均数Y|X0 的(1 )可信区间为
Yˆp t S / 2,n2 Yˆp
SYˆp SY X
1 (X p X )2
n
(Xi X )2
(2)个体Y值的预测区间
当X取某个固定值时,对应的Y也存在一定 的波动范围,个体Y值的预测区间(相当 于参考值范围)可以用下式求
Yˆp t / 2, SYp
计范围扩大到自变量的取值范围以外。
六、直线回归与相关的区别与联系
区别 1、含义:
相关表示双向的相互关系 回归表示单向的依存变化数量关系
2、资料要求不同
相关:双变量正态分布 回归:Y正态分布
3、 r与b的计算公式、取值范围和单位不同
b一般有度量单位;r没有度量单位
联系:
1.方向一致: r 与 b 的正负号一致。 2.假设检验等价: tr=tb
12
4560.6
59.7
4970.6
62.8
13
4874.4
62.1
5359.7
67.3
14
5029.2
61.5
绘制散点图
5500
5000
基 4500 础 代 谢 4000
3500
线性回归直线
3000
30
35
40
45
50
55
60
65
70
75
体重
图 14名中年健康妇女的基础代谢与体重的散点图
线性回归分析:用一条直线(即直线方程)来描 述两个变量间依存变化的数量关系,得出的直 线方程称为线性回归方程。
简单线性回归
一、线性回归的基本概念
两变量间的数量关系
确定性关系是指两变量间的关系是函数关系。已知一个变 量的值,另一个变量的值可以通过这种函数关系精确计 算出来。 例如圆周长与半径:c=2πr
非确定性关系是指两变量在宏观上存在关系,但并未精确 到可以用函数关系来表达 例如身高与体重的关系
实例
在某地一项膳食调查中,随机抽取14名40-60岁的健康 妇女,测得每人的基础代谢与体重数据,见下表,据此数 据如何判断这两项指标之间有无关联?
表
编号 1 2 3 4 5 6 7
14 名中年健康妇女的基础代谢与体重的测量值
基础代谢 体重
编号 基础代谢 体重
4175.6
50.7
8
3970.6
48.6
4435.0
53.7
9
3983.2
44.6
3460.2
37.1
10
5050.1
58.6
4020.8
51.7
11
5355.5
71.0
3987.4
47.8
根据求极值方法可得到a、b的值
b
( X X )(Y Y (X X )2
)
XY X 2
X Y / X 2 / n
n
lXY lXX
a Y bX
根据前面的计算有
(x x)2 1144.5771 (x x)(y y) 70303.2329
b
(x x)(y (x x)2
y)
70303.2329 1144.5771
其自由度分别为
总 n 1
回 1 残 n2
如果两变量间总体回归关系确实存在,回归的贡献就 要大于随机误差,大到何种程度时可以认为具有统计意义, 可计算统计量F:
F
SS回 SS残
回 残
MS回 MS残
,
回
1,
残
n2
MS回 为回归均方 MS残 为残差均方。 F 服从自由度为回、 残 的 F 分布。
三、回归方程参数(a、b)的计算
5500
5000
基 4500 础 代 谢 4000
3500
3000
30
35
40
45
50
55
60
65
70
75
体重
求回归方程的原则
最小二乘法原则:使各散点到直线的纵向距离(残差)的平方
和最小。即使 Y Yˆ 2 最小。
n
Q ei2 i 1 n (Yi Yˆi )2 i 1 n Yi a bXi 2 i 1
线性回归方程的一般表达式:
Yˆ a bX
a:截距(intercept),直线与Y轴交点的纵坐标 b:斜率(slope),回归系数(regression coefficient)
b 的统计学意义是:
X 每增加(减)一个单位,Y 平均改变b个单位
二、线性回归分析适用条件
• X与Y之间呈线性关系(Linear) • 个体观察值之间独立(Independent) • 给定X时,对应的Y服从正态分布(Normal Distribution) • 不同的X所对应Y的方差相等(Equal Variance)
(Y Y )2 (Y Yˆ)2 (Yˆ Y )2
SS总 SS剩 SS回
总= 剩+回
几个平方和的含义
SS总 即 (Y Y )2 ,为 Y 的离均差平方
和,表示未考虑 X 与Y 的回归关系时Y 的 总变异。
SS 回= (Yˆ Y )2 ,为回归平方和(regression sum of squares),
b t ,n2 Sb
4、决定系数
回归平方和与总离均差平方和之比
R2= SS回 SS总
• 它反映了回归的贡献的相对程度,即在Y的 总变异中回归关系所能解释的比例
• 实际用决定系数来反映回归的实际效果
五、线性回归的应用
1、描述两个变量之间的线性依存的数量关系 2、统计预测,通过X预测估计Y的取值
(1)Y的总体均数的置信区间
由于 X 与 Y 的直线关系而使Y 变异减小的部分,即总变异中, 可以用 X 解释的部分。SS 回越大,回归效果越好。
SS 剩=(Y Yˆ)2 ,为剩余平方和(residual sum of squares), X 对Y 的线性影响之外的一切因素对 Y 的变异,即总变异中, 无法用 X 解释的部分。SS 剩越小,回归效果越好。
2、t 检验
公式
t b 0 = b ,υ=n-2
Sb
Sb
Sb为回归系数的标准误
Sb=
SY .X
X X 2
sYX
Y Yˆ 2 n2
SY.X为Y的剩余标准差,即扣除X的影响后Y 的变异大小。
t 检验
H0:β=0
H1:β≠0
α=0.05
sYX
Y Yˆ 2 165,1311
n2
61.4229
a Y b X 63232.9 61.4229 777.2
14
14
1106.7864
得到的回归方程为:
Yˆ 1106 .7864 61.4229 X
四、线性回归方程的假设检验
需要检验总体回归方程是否成立! b≠0原因:① 由于抽样误差引起,总体回
归系数β=0 ② 存在回归关系,总体回归
Sb
165.1311 4.881 1144.5771
t 61.4229 12.584 14 2 12
4.881
查t界值表,t 0.001(12) =4.318,所以p<0.001,拒 绝H0,可以认为体重与基础代谢之间存在线 性回归关系
3、总体回归系数的可信区间
利用上述对回归系数的t检验,可以得到β的1α双侧可信区间为
系数β ≠0
假设检验方法: 方差分析(F检验)、t 检验
1、方差分析
P(X ,Y )实测点
Y
(Y Yˆ)剩余部分
总情况(Y Y )
(Yˆ Y )回归部分
Y
Y Y Y Yˆ Yˆ Y
X
Y的离均差平方和的分解
(Y Y ) (Y Yˆ) (Yˆ Y )
两边平方后求和
数理统计可以证明 2(Y Yˆ)(Yˆ Y ) 0
SYp SY X
1 1 n
(X p X )2 (X X )2
3、统计控制,利用回归方程进行逆估计
五、进行线性回归分析的注意事项
1、资料要求:Y服从正态分布,X没有要求 2、做回归分析要有实际意义,一般Y为结果
变量,X为原因变量 3、须对回归系数进行假设检验 4、使用回归方程计算估计值时,不可以把估
3. r b lXX lYY
4.用回归解释相关 决定系数(coefficient of determination)
r2
l
2 XY
l
2 XY
l XX
源自文库 SS回
lXX lYY
lYY
SS总
给定 X X0 时,总体均数Y|X0 的(1 )可信区间为
Yˆp t S / 2,n2 Yˆp
SYˆp SY X
1 (X p X )2
n
(Xi X )2
(2)个体Y值的预测区间
当X取某个固定值时,对应的Y也存在一定 的波动范围,个体Y值的预测区间(相当 于参考值范围)可以用下式求
Yˆp t / 2, SYp
计范围扩大到自变量的取值范围以外。
六、直线回归与相关的区别与联系
区别 1、含义:
相关表示双向的相互关系 回归表示单向的依存变化数量关系
2、资料要求不同
相关:双变量正态分布 回归:Y正态分布
3、 r与b的计算公式、取值范围和单位不同
b一般有度量单位;r没有度量单位
联系:
1.方向一致: r 与 b 的正负号一致。 2.假设检验等价: tr=tb
12
4560.6
59.7
4970.6
62.8
13
4874.4
62.1
5359.7
67.3
14
5029.2
61.5
绘制散点图
5500
5000
基 4500 础 代 谢 4000
3500
线性回归直线
3000
30
35
40
45
50
55
60
65
70
75
体重
图 14名中年健康妇女的基础代谢与体重的散点图
线性回归分析:用一条直线(即直线方程)来描 述两个变量间依存变化的数量关系,得出的直 线方程称为线性回归方程。
简单线性回归
一、线性回归的基本概念
两变量间的数量关系
确定性关系是指两变量间的关系是函数关系。已知一个变 量的值,另一个变量的值可以通过这种函数关系精确计 算出来。 例如圆周长与半径:c=2πr
非确定性关系是指两变量在宏观上存在关系,但并未精确 到可以用函数关系来表达 例如身高与体重的关系
实例
在某地一项膳食调查中,随机抽取14名40-60岁的健康 妇女,测得每人的基础代谢与体重数据,见下表,据此数 据如何判断这两项指标之间有无关联?
表
编号 1 2 3 4 5 6 7
14 名中年健康妇女的基础代谢与体重的测量值
基础代谢 体重
编号 基础代谢 体重
4175.6
50.7
8
3970.6
48.6
4435.0
53.7
9
3983.2
44.6
3460.2
37.1
10
5050.1
58.6
4020.8
51.7
11
5355.5
71.0
3987.4
47.8
根据求极值方法可得到a、b的值
b
( X X )(Y Y (X X )2
)
XY X 2
X Y / X 2 / n
n
lXY lXX
a Y bX
根据前面的计算有
(x x)2 1144.5771 (x x)(y y) 70303.2329
b
(x x)(y (x x)2
y)
70303.2329 1144.5771
其自由度分别为
总 n 1
回 1 残 n2
如果两变量间总体回归关系确实存在,回归的贡献就 要大于随机误差,大到何种程度时可以认为具有统计意义, 可计算统计量F:
F
SS回 SS残
回 残
MS回 MS残
,
回
1,
残
n2
MS回 为回归均方 MS残 为残差均方。 F 服从自由度为回、 残 的 F 分布。