简单线性回归

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

No. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 X 1.1 1.2 1.0 0.9 1.2 1.1 0.9 0.6 1.0 0.9 1.1 0.9 1.1 1.0 0.7 Y 14 13 15 15 13 14 16 17 14 16 15 16 14 15 17
在定量描述健康人凝血酶浓度(X)与凝 血时间(Y)数据的数量上的依存关系时,将 凝 血 酶 浓 度 称 为 自 变 量 (independent
上述三个平方和,各有其相应的自由度 ,并有如下的关系:
总 回 残 ,总 n 1,回 1 , 残 n 2
以上分解可见,不考虑回归时,随机误 差是 Y 的总变异 SS总 ;而考虑回归以后,由 于回归的贡献使原来的随机误差减小为SS残 。
如果两变量间总体回归关系确实存在,回 归的贡献就要大于随机误差,大到何种程度 时可以认为具有统计意义,可计算统计量F:
简单、基本——直线回归、直线相关
历史背景:
英国人类学家 F.Galton首次在《自然遗传》 一书中,提出并阐明了“相关”和“相关系数” 两个概念,为相关论奠定了基础。其后,他和英 国统计学家 Karl Pearson对上千个家庭的身高、 臂长、拃长(伸开大拇指与中指两端的最大长度)
做了测量,发现:
(Y Y ) 2 (Yˆ Y ) 2 (Y Yˆ) 2
数理统计可证明:å (Yˆ -Y )(Y - Yˆ) = 0
上式用符号表示为
SS总 SS回 SS残
式中
SS总 即 (Y Y)2 ,为Y 的离均差平方
和,表示未考虑X 与Y 的回归关系时Y 的 总变异。
SS回 即(Yˆ Y)2 ,为回归平方和。由于特定样本的
总体回归系数 的可信区间
利用上述对回归系数的t检验,可以 得到β的1-α双侧可信区间为
bt,n2Sb
本 例 b=-6.9802, 自 由 度 =13 , t0.05,13=2.16,Sb=0.78655, 代入公式 (12-7)得参数β的95%置信区间为
6.980 2.12 60.78655
=(-8.6791 ~ -5.2813)
始,可在自变量实测范围内远端取易于读 数的 值代入回归方程得到一个点的坐标, 连接此点与点( , )也可X 绘出Y 回归直线。
总体回归系数β的的统计推断
样本回归系数b的标准误
sb
s y.x
n
(Xi X )2
i1
sy.x
n
(Yˆi Yi )2
i 1
n2
sy.x
3.249170.249940.49994 13
线性回归的概念及其统计描述
直线回归的概念
目的:研究因变量Y对自变量X的数量依 存关系。
特点:统计关系。 X值和Y的均数的关系, 不同于一般数学上的X 和Y的函数关系
为了直观地说明直线回归的概念,以15
名健康人凝血酶浓度(X)与凝血时间(Y)
数据(表12-1)进行回归分析,得到图 12-1所示散点图(scatter plot)
反映其抽样误差大小的标准误为
SYˆp SY X
1 n
(X p X )2 (Xi X )2
给定 X X 0 时,总体均数 Y |X0 的(1 )可信区间为
Yˆ0 t/2, SYˆ0
例12-1中,第一观测值X1=1.1,
15
S y.x
0.4994,(Xi i1
X)2
0.404,X 0.98
variable),用 X 表示;凝血时间称为因变 量(dependent variable),用 Y 表示
由图12-1可见,凝血时间随凝血酶浓度的增加而减低 且呈直线趋势,但并非所有点子恰好全都在一直线上,此 与两变量间严格的直线函数关系不同,称为直线回归 (linear regression),其方程叫直线回归方程,以区别 严格意义的直线方程。回归是回归分析中最基本、最简单 的一种,故又称简单回归。
儿子身高(Y,英寸)与父亲身高(X, 英寸)存在线性关
系:Yˆ 33.73 0.516 X 。
也即高个子父代的子代在成年之后的身高平均来 说不是更高,而是稍矮于其父代水平,而矮个子父代的子 代的平均身高不是更矮,而是稍高于其父代水平。Galton 将这种趋向于种族稳定的现象称之“回归”
“回归”已成为表示变量之间某种数量依 存关系的统计学术语,相关并且衍生出“回归 方程”“回归系数”等统计学概念。如研究 糖尿病人血糖与其胰岛素水平的关系,研究 儿童年龄与体重的关系等。
1.方差分析
理解回归中方差分析的基本思想, 需要对应变量Y 的离均差平方和 lYY 作分 解(如图所示)。
Y的离均差, 总变异
残差
回归的 变异
图中,任意一点 P 的纵坐标被回归直线Yˆ 与均数 Y 截成三个线段,其中:Y Y (Yˆ Y ) (Y Yˆ) 。由于 P 点是散点图中任取的一点,将全部数据点都按上法 处理,并将等式两端平方后再求和则有
Y均值的95%CI
下限
上限
1
1.1
14 14.0957
0.1599
13.7502
14.4412
2
1.2
13 13.3977
0.2159
12.9313
13.8641
3
1.0
15 14.7937
0.1300
14.5128
15.0747
4
0.9
15 15.4917
0.1436
15.1815
15.8020
解题步骤
1.由原始数据及散点图观察两变 量间是否有直线趋势
2.计算 X 、Y 的均数 X 、Y ,离均 差平方和 l XX 、 lYY 与离均差积和 l XY 。
3、计算有关指标的值 4、计算回归系数和截距 5、列出回归方程
绘制回归直线
此直线必然通过点( ,X )且Y 与纵坐标轴相交于
截距a 。如果散点图没有从坐标系原点开
SS残 即 (Y Yˆ)2 ,为残差平方和。它反应除
了 X 对Y 的线性影响之外的一切因素对 Y 的变 异的作用,也就是在总平方和中无法用X 解释 的部分,表示考虑回归之后Y 真正的随机误差。 在散点图中,各实测点离回归直线越近,SS残 也 就越小,说明直线回归的估计误差越小,回归 的作用越明显。
注意到此区间不包括 0,可按 0.05
水准同样得到总体回归系数不为 0 的结论,
即用区间估计回答相同 时的假设检验问题。
第二 节 线性回归的应用(估计和预测)
1.总体均数 Y|X 的可信区间(总体
回归线的 95%置信带)
给定 X 的数值 X 0 ,由样本回归 方 程 算 出 的 Yˆ0 只 是 相 应 总 体 均 数 Y | X 0 的一个点估计。 Yˆ0 会因样本而 异, 存在抽样误差。
➢ b>0,直线从左下方走向右上方,Y 随 X 增大而增大; ➢ b<0,直线从左上方走向右下方,Y 随 X 增大而减小; ➢ b=0,表示直线与 X 轴平行,X 与Y 无直线关系
b 的统计学意义是:X 每增加(减) 一个单位,Y 平均改变b个单位
回归模型的前提假设
线性回归模型的前提条件是:
线性(linear) 独立(independent) 正态(normal) 等方差(equal variance)
公式(12-2)称为样本回归方程,它 是对两变量总体间线性关系的一个估计。 根据散点图我们可以假定,对于 X 各个取 值,相应Y 的总体均数 Y|X 在一条直线上
(图 12-2),表示为 Y|X X
回归参数的估计 ——最小二乘原则
➢ 残差(residual)或剩余值,即实测值Y与假定
回归线上的估计值 Yˆ 的纵向距离 Y Yˆ 。
除了图中所示两变量呈直线关系外,一 般还假定每个 X 对应 Y 的总体为正态分布, 各个正态分布的总体方差相等且各次观测 相互独立。这样,公式(12-2)中的 Yˆ 实际 上是 X 所对应 Y 的总体均数 Y |X 的一个样本 估计值,称为回归方程 的预测值(predicted value),而 a 、 b 分别为 和 的样本估计。
代入
(12.8)式获得第一观测点X1对应的Yˆ1 的
标准误为
Sy ˆ1
0.499 914 (1.10.9)8 2 0.1599 15 0.404
Y的总体均数的95%置信区间为
14.0957±(2.16)(0.1599)=(13.7502,14.4412)
对象
实测值 实测 预测值均
X
值Y 值
均值的标 准误
式中 F
SS回 SS残
回 残
MS回 MS残


1,

n2
MS回 为回归均方 MS残 为残差均方。 F 服从自由度为回、 残 的F 分布。
SS回
blXY
l
2 XY
lXX b2lXX
t 检验
对 0 这一假设是否成立还可进行如下 t检验
tb
b0 Sb

n
2
Sb
SY X lXX
SY X
SS残 n2
lXY
(X
X
)(Y
ห้องสมุดไป่ตู้
Y
)
XY
(
X
)( n
Y
)
本例:n=15 ΣX=14.7 ΣX2=14.81
ΣY=224 ΣXY=216.7 ΣY2=3368
216.7(14.7)(224)
b
15 14.81(14.7)2
6.98020
15
a224 (6.980 )12.4 70 2.1 77393
15
15
Y ˆ2.7 173 6.9 93 8X 02
简单线性回归模型
Yi Xi i
样本线回归方程
Yˆ a bX (12 1)
Y ˆ 为各X处Y的总体均数的估计。
1.a 为回归直线在 Y 轴上的截距 ➢ a > 0,表示直线与纵轴的交点在
原点的上方 ➢ a < 0,则交点在原点的下方 ➢ a = 0,则回归直线通过原点
2. b为回归系数,即直线的斜率
(1)方差分析
H0 : 0 ,即凝血酶浓度与凝血时间)之间无直线关系 H1 : 0 ,即凝血酶浓度与凝血时间数据之间有直线关 系
0.05
方差分析表
变异来源 自由度 SS MS F P
总变异 回归 残差
1 1 、2 6 ,查F 界值表,得 P 0.01 。按 0.05 水准拒绝 H0 ,接受H1 ,可以认为尿肌酐含量与年龄之间有直线关系。
简单线性回归
此处添加副标题内容
简单线性回归
本章内容
第一节 简单线性回归 第二节 线性回归的应用 第三节 残差分析 第四节 非线性回归
第一节 简单线性回归
双变量计量资料:每个个体有两个变量值 总体:无限或有限对变量值 样本:从总体随机抽取的n对变量值 (X1,Y1), (X2,Y2), …, (Xn,Yn) 目的:研究X和Y的数量关系 方法:回归与相关
sb
sy.x
0.499940.78655
n
(Xi X)2
0.404
i1
回归方程的假设检验
建立样本直线回归方程,只是完成 了统计分析中两变量关系的统计描述, 研究者还须回答它所来自的总体的直线 回归关系是否确实存在,即是否对总体
有 0 ?
无论 X 如何取值, Y |X 总在一条水平线上,即 0 ,总体直线回归方程并不成立,意即 Y 与 X 无 直线关系,此时 Y|X Y 。然而在一次随机抽样中, 如果所得样本为实心园点所示,则会得到一个并不 等于 0 的样本回归系数 b 。 b 与 0 相差到多大可以 认为具有统计学意义?可用方差分析或与其等价 的 t 检验来回答这一问题。
(2)t 检验
参数β的意义是:若自变量X增加一个单位,反因变量Y的平 均值便增加β
b
tb Sb
tb
6.980 208.87 0.78655
13 ,查 t 界值表,得 P 0.001。按 0.05
水准,拒绝 H0 ,接受 H1。
注意:
F t ,即直线回归中对回归系 数的 t 检验与 F 检验等价,类似于两 样本均数比较可以作 t 检验亦可作方 差分析。
均数Y Y 是固定的,所以这部分变异由 Yˆi 的大小不同引起。
当 X 被引入回归以后,正是由于Xi 的不同导致了 Yˆi a bXi 不同,所以SS回 反映了在 Y 的总变异中可以用 X 与 Y 的直线关系解释的那部分变异。
b 离 0 越远,X 对 Y 的影响越大,SS回 就越大,说明 回归效果越好。
➢ 求解a、b实际上就是“合理地”找到一条能 最好地代表数据点分布趋势的直线。
原则:最小二乘法(least sum of squares),即可 保证各实测点至直线的纵向距离的平方和最小
回归参数的估计方法
b lXY ( X X )(Y Y )
lXX
(X X )2
aYbX
式中 lXY 为 X 与 Y 的离均差乘积和:
相关文档
最新文档