简单回归分析(1)

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

变 异 来 源
SS
df
M S
回 归 4318227.72
1 4318227.72
残 差 327219.30
12
27268.27
总 变 异 4645447.01
13
F
158.36
P
< 0.05
h
45
(二) t 检验
tb
b0 Sb
lXX (XX)2
Sb
S Y X l XX
SYX
SS残 n2
h
46
❖H0:β=0 H1:β≠0
❖ 1.方差分析 F=MS组间/MS组内
❖α=0.05
❖选择合适的假设检验
❖ 2.t检验
方法,计算统计量
❖计算概率值P ❖做出推论:统计学结
tb
b
sb
论和专业结论
h
36
1.方差分析
❖ 理解回归中方差分析的基本思想,需要对应 变量Y的离均差平方和做分解。
h
37
Y的离均差, 总变异
上面的相关关系分析不能提供给我们需要的答案。 这些要用线性回归的方法来解决。
h
10
❖ (1) 当我们知道了两个变量之间有直线相关关系, 并且一个变量的变化会引起另一个变量的变化,这 时,如果它们之间存在准确、严格的关系,它们的 变化可用函数方程来表示,叫它们是函数关系,它 们之间的关系式叫函数方程。
h
19
独立(independent)
❖ (2)每个个体观察值之间相互独立,如果该条 件不满足,名义上有n个个体的资料,实际 上提供的信息却没有这么多,导致回归估 计值不够准确和精确;
❖ 解决办法:利用专业知识。
h
20
正态性(nomal)
❖ 线性模型的误差项服从正态分布,如果该条 件不成立,在正态分布假设下对总体回归系 数的假设检验和置信区间估计的结论均无意 义。
❖ 三、查表,得P值, ❖ 已知ν1=ν回= 1,ν2=ν残= n-2=12,查F界
值表得F =4.75,今求得F = 158.361>4.75, 则P<0.05
❖ 四、做统计推断
❖ 按α=0.05水准拒绝H0,差异有统计学意义。
可认为体重与基础代谢之间有线性回归关系。
h
44
表 12-2 线 性 回 归 的 方 差 分 析 表
❖ (2)但在实际生活当中,由于其它因素的干扰, 许多双变量之间的关系并不是严格的函数关系,不 能用函数方程反映,为了区别于两变量间的函数方 程,我们称这种关系式为线性回归方程,这种关系 为线性回归.
h
11
一、线性回归的概念及其统计描述
❖ 目的:研究应变量Y和自变量X的数量依存关 系,建立一个方程式,从而可由X变量的大小 推算出Y变量的估计值。
Ig G 浓 度 (IU /m l)X
12345
沉 淀 环 直 径 (m m )Y 4 .0 5 .5 6 .2 7 .7 8 .5
h
17
二、 线性回归模型的适用条件
h
18
线性(linear)
❖ 指反应变量Y的总体平均值与自变量X呈 线性关系。
❖ 解决办法:绘制散点图或残差图。观察 散点的形态来判断线性假设是否成立。
h
33
h
34
❖ 无论X如何取值,总体Y总在一条水平线上, 即ß =0,总体直线回归方程不成立。然而在
一次随机抽样中,如果所得样本为实心圆点
所示,则会得到一个并不等于0的回归系数。 ß和0相差多大可以认为具有统计学意义,可 用方差分析和t检验来回答这一问题。
h
35
回归系数的假设检验
当变量Y服从正态分布时,回归系数的统计学检验 可用t检验,也可用方差分析
归方程是否成立。
h
41
❖ 例12-2 试对例11-1资料的样本回归方程作 假设检验(用方差分析)。
h
42
检验步骤:
一、建立假设检验,确定检验水准
❖ H0: β= 0 即基础代谢与体重之间无线性回归关系 ❖ H1: β≠0 即基础代谢与体重之间有线性回归关系 ❖ α= 0.05
二、计算检验统计量
S总 S (Y Y)2464 .05142417
1 由样本数据计算如下统计量:
n
Xi
XYi
Y
b i1 n
2
Xi X
i1
b
n i1
X iYi
n i1
X i n
n i 1
Yi
n i1
X
2 i
n
2
X i
i1
n
aYbX
h
31
n
(Xi X)(Yi Y)
b i1 n
61.4229
(Xi X)2
i1
a Y b X 63.9 2 6.3 4 12 2 7 2.2 7 9 1 71 .70 8
S b :样本回归系数b的标准误
Sb
Sy,x
n
2
Xi X
i1
n Yi Yˆi 2
Sy,x
i1
n2
h
47
❖例12-3 试对例11-1资料的样本回归方程作
假设检验(用t 检验)。

SYX
S残 S n2
327.2291 69 126.15311 1 42
Sb
SYX lXX
16.1531 14.8810 114.54771
tb
b Sb
61.422912.584 4.881
❖ 由 ,1查2 t界值表得
,今求得 t0.05/2,122.179 tb=12.584>
2.179,则P<0.05,按α=0.05水准拒绝H0,差异
14
14
得回归方程为:
Y ˆ11.70 9 6 6.4 1X 2
h
32
四、总体回归系数 ß 的统计推断
❖ 建立了样本回归方程,只是完成了统计分
析中两变量关系的统计描述,研究者还必须
回答它所来自的总体的直线回归关系是否确 实存在,即是否对总体有 ß ≠ 0。
❖ 我们知道,即使X、Y的总体回归系数β为零, 由于抽样误差的存在,样本回归系数b也不一 定为零。因此需作总体回归系数β是否为零的 假设检验,可用方差分析或 t 检验。
h
3
“回归”一词的来由
❖ “回归”一词最早由Golton在一项有关父亲 与儿子身高的研究中提出,他发现儿子身高 (y,英寸)和父亲(x,英寸)身高存在线性关系:
❖ Y=33.73+0.516X
身材高大的父亲 儿子的身高
身材矮小的父亲
回归
人群的平均身高
h
4
后来人们借助“回归”一词来描述通 过自变量的数值预测反应变量的平均水平。 “回归”已成为表示变量之间某种数量依 存关系的统计学术语,并且衍生出“回归 方程”和“回归系数”等统计学概念。
YabX
Y :是由自变量X推算应变量Y的估计值
(读作Y hat) a:是回归直线在Y轴上的截距,即X=0时的Y值;
b: 为样本的回归系数,即回归直线的斜率,表示 当X变动一个单位时,Y平均变动b个单位。
h
14
5800
基 础 代 (谢K J / d ay )
5300
4800
4300
3800
3300
2800
Y|X X
h
23
三、回归参数的估计
(一)回归参数估计的最小二乘法原则; (二) 回归参数的估计方法
h
25
(一)回归参数估计的最小二乘法原则;
h
26
要使 YabX是 最适合的直线, 必须满足下列条件:
❖ (1)直线上方各点离回归线的距离(以平行于Y轴 计算)之和与直线下方各点离回归线的距离之和 绝对值相等,但方向相反,因此:
1,以此研究沉淀环直径(Y)如何依存IgG浓度(X)
的变化规律。数据的散点图见图12-2,散点的分布 具有线性趋势, 我们称为I型回归。
❖ (2)前述健康妇女的体重(X)与基础代谢(Y) 两者都是随机变化的,那里Y 关于X的回归称为II型
回归。
h
16
表 1 2 -1 不 同 Ig G 浓 度 下 的 沉 淀 环 直 径 数 据
h
6
第一节 简单线性回归
h
7
左图的相关系数就没有右图的大,相关系数反映了散点的疏密。
h
8
左图中当X每增加一个单位时,Y平均 增加的较多,而在右图中当X增加一个 单位时Y平均增加的少。即左图中X的变 动对Y值得影响要比右图中大,这一信 息是相关分析所无法传达的,需要回归 分析来研究。
h
9
❖在上一章中,对14名40~60岁的健康妇女的体重
h
27
❖ (2)此直线是使得误差平方和 yy2 为 最理小论值值的直之y线差,的即平因方变和量取的最实小际值观。察值y与
h
28
每一个x值
实际的y值
估计的 y 值
yy误差
误差越小越好
理论上 yy 0
yy 2 误差平方和为最小值
最小二乘法
h
29
h
30
(二)回归参数的估计方法
例12-1 计算例11-1的基础代谢(Y)关于体重 (X)的线性回归方程。
h
22
若把上述线性回归模型的适用条件的四个关键英语单词 的首写字母连在一起,恰好为“LINE”,便于记忆。模 型的线性、正态性以及方差齐性可用图11-3表示。
❖ 样本回归方程 Ya是b对X两变量总体间线性关系的
一个估计。根据散点图我们可以假定:对于X各个 取值,相应Y的总体均数µyIx在一条直线上,表示为。
❖ 特点:统计关系。X和Y的均数的关系,不同 于一般数学上X和Y的函数关系。
h
12
反应变量(Y)依赖于另一自变量(X)简单线性回归 模型表述为:
Y|X X
Y :为第i个个体的反应变量值
X :为其自变量值
α :为回归直线的截距参数 β :为回归直线的斜率参数
h
13
由样本数据建立的有关Y依X变化的回归方程:
例如:研究糖尿病病人血糖和其胰岛素 水平的关系,研究儿童体重和年龄的关系。
h
5
为了通过可测或易测的变量对未知或难测或不可测量 的状态进行估计,可以借助回归分析。
❖ 容易测得的指标(如身高、体重、肺活量)
估计 ❖ 相对难测的指标
❖ (如心室血输出量、用药剂量、体循环总血量)
❖ 通过对产妇的尿雌三醇含量的检测来估计腹中胎儿体 重,以便采取必要的措施降低生产过程的难ห้องสมุดไป่ตู้风险。
(X)与基础代谢(Y)数据计算了相关系r数0(.964 ), 定量地描述了变量X与Y间的线性关联性。现在试用 回归分析的方法,从预测的角度来描述基础代谢(Y) 如何依存体重(X)的变化而变化的规律性。
❖(1)如果我们知道了一名健康妇女的基础代谢,能推断出
体重是多少吗?
(2)体重可能在什么范围内呢?
(3)基础代谢(X)每增加1单位,体重(Y)变化多少呢?
❖ 解决办法:残差的直方图、正态概率图来考 察这一条件是否成立。
h
21
方差相等(equal variance)
❖ 指在自变量X取值范围内,不论X取什么值, Y都具有相同的方差。
❖ 如果这一条件不满足,回归参数的估计有偏 性,置信区间估计及检验的结论均无效。
❖ 解决办法:采用散点图或残差的散点图判断 等方差性。
残差
h
38
❖ 任意点p(X,Y)离过 Y 的水平线的距离可
分成两段:
❖ 第一段长度为 Y Y,ˆ 是p点与回归直线的纵向 距离,即前述的实测值Y与其估计值之差,称
为残差(residual)。 ❖ 第二段长度为( Yˆ Y),是估计值与均数之
差。它的大小与回归系数b有关, 越b 大,
Yˆ 也Y 越大;反之亦然。
S残 S (YY ˆ)232.7 22 91 69 2
S 回 S S 总 S S 残 S 46 .0 4 1 3 52 2 4 .2 1 7 4 9 4 2 7 6 3 1 .7 2 1 9 1 85 2
FM回 S4318.721257195.3861h
43
M残 S 272.267847
第十一章
简单线性回归
h
1
本章内容
❖ 线性回归; ❖ 线性回归的应用 ❖ 残差分析; ❖ 非线性回归。
h
2
❖ 双变量计量资料:每个个体有两个变量值; ❖ 总体:无限和有限对变量值; ❖ 样本:从总体随机抽取的n对变量值;
(X1,Y1),(X2,Y2),(X3,Y3),…(Xn,Yn) ❖ 目的:研究X和Y的数量关系; ❖ 方法:回归
30
35
40
45
50
55
60
65
70
75
体 重 (kg)
图12-1 14例中老年健康妇女的基础代谢与体重的回归直线
h
15
❖ (1)在实际应用中,线性回归中的自变量还可以是 能够精确测量和严密控制的量,但因变量Y必须是随 机变化的。
❖ 例如某研究者应用单向环状免疫扩散法,在固定IgG 浓度下测得琼脂免疫板上沉淀环直径的数据见表12-
h
39
经数学推导可得下式:
( Y Y ) 2 ( Y ˆ Y ) 2 ( Y Y ˆ ) 2
S总 SS回 SS残 S
❖ SS 总为Y的离均差平方和,反映在回归之前,Y
的变异 ;
❖ SS 残为回归之后残差平方和。
❖SS总S正S残是回归的贡献,记为 ,SS称回 为回归平方
和。反映在Y的总变异中由于X与Y的直线关
系而使Y的总变异减少的部分,即在Y的总变
异中可以用X解释的部分, 越SS 回大,说明回归
效果越好。
h
40
H0:β= 0,H1:β≠0
总 n1
回 1
残n2
总回残
MS回
SS回 回
MS 残
SS残

F MS 回 MS 残
求得F值后查F界值表(附表3.1)得到P值,并按α水准作
出总体回归系数β是否为零的结论,即推断X与Y的总体回
相关文档
最新文档