(完整版)直线回归分析直线回归分析介绍的相关

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第十四章直线回归分析
第十三章介绍的相关系数可用来说明两变量之间相伴随而呈线性变化的趋势和关联强度,并不能用其中一个变量来预测另一个变量的值。

在实际工作中,研究者常常需要通过易测的变量对另一难测的变量进行估测,如用腰围、臀围、体重指数(BMI)等简易体脂参数来估测腹腔内脂肪含量,此时可采用回归分析。

本章仅介绍最简单的直线回归分析。

第一节直线回归方程的建立
一、直线回归的概念
直线回归(linear regression)方法可用来研究两个连续型变量之间数量上的线性依存关系,也称简单回归(simple regression)。

在回归分析中估测的随机变量称为因变量(dependent variable)或反应变量(response variable),常用y表示;y所依存的变量称为自变量(independent variable)或解释变量(explanatory variable),常用x表示。

例14.1 某研究欲探讨男性腰围与腹腔内脂肪面积的关系,对20名男性志愿受试者测量其腰围(cm),并采用磁共振成像法测量其腹腔内脂肪面积(cm2),结果如表14.1所示。

试建立腹腔内脂肪面积(y)和腰围(x)的直线回归方程。

表14.1 20名男性志愿受试者腰围和腹腔内脂肪面积的测量值
编号腰围(cm) 腹腔内脂肪面积(cm2)
1 81.3 69.8
2 85.6 61.2
3 85.9 80.3
4 87.8 75.5
5 79.0 75.7
6 82.5 85.4
7 95.2 102.5
8 96.1 99.6
9 94.4 97.8
10 90.6 100.9
11 93.5 108.2
12 103.8 129.0
13 97.5 110.4
14 98.3 123.3
15 99.7 105.5
16 87.2 83.1
17 84.1 72.0
18 88.0 100.0
19 101.0 105.0
20 88.3 127.7
以腰围为横坐标,腹腔内脂肪面积为纵坐标绘制散点图,如图14.1所示,可见散点大致呈直线趋势。

图14.1 两变量直线回归关系散点图
即假设有一条潜在的直线可用来刻画两变量之间的关系,这样的直线称为回归直线。

通常用yˆ来表示回归直线上各点的纵坐标,其数值是当x取某一值时因变量y的平均估计值。

与单变量问题类似,由于个体观察值不一定总等于其均数,所以散点图中各点不会恰好都在回归直线上,故两变量的直线关系并非是一一对应的函数关系。

描述yˆ随x的变化而变化的方程称为直线回归方程(linear regression equation),也称为直线回归模型,可表示为
ˆ(14.1)
=
bx
y+
a
式中,a为回归直线的截距(intercept)或常数项,表示x等于0时,y的平均估计值;b为回归直线的斜率(slope)或回归系数(regression coefficient),表示x改变一
个单位时y 的平均改变量。

0>b ,表示回归直线从左下方走向右上方,即y 随x 增大而增大;0<b ,表示回归直线从左上方走向右下方,即y 随x 增大而减小;
0=b ,表示回归直线平行于x 轴,即y 与x 无线性依存关系。

由此可见,直线回归就是通过回归系数与自变量的线性组合来描述因变量的均数是如何随自变量的改变而变化。

二、回归方程的估计
(一) 回归方程估计的最小二乘法
从散点图来看,不同的a 和b 对应于不同的直线,求解a 、b 实际上就是如何能合理地找到一条能最好的代表数据点分布趋势的直线,使得每个实测值i y 与
这条“理想”的回归直线的估计值ˆi y
最接近。

由于各点的(ˆi i y y -)有正有负,故通常取(ˆi i y y
-)平方和最小,统计学上将各点距回归直线的纵向距离平方和最小这一原则称为最小二乘法(least square method)。

(二) 回归系数的估计方法
按照最小二乘法,当2ˆ()i i y y -∑取得最小值时所对应a 和b 的计算公式如下:
2
()()
()xy xx
l x x y y b l x x --∑=
=
-∑
(14.2) a y bx =- (14.3)
式中xy l 为x 与y 的离均差交叉乘积和,简称离均差积和,可按公式(14.4)计算:
∑∑∑∑-
=--=n
y x xy y y x x l xy )
)(())(( (14.4) 下面以例14.1资料说明建立直线回归方程的具体步骤。

1.绘制两变量之间的散点图,如图14.1所示,观察到二者存在直线趋势,故可进行直线回归分析。

2.由样本数据计算如下统计量:
90.990x =,95.645y =
22()/950.778xx l x x n =-=∑∑
22()/7293.650yy l y y n =-=∑∑
()/2006.649xy l xy x y n =-=∑∑∑
3.计算回归系数b 及截距a
由式(14.2)可得,
2006.649
2.11053950.778
xy xx
l b l =
=
=
由式(14.3)可得,
95.645 2.1105390.99096.39212a y bx =-=-⨯=-
4.得回归方程为:
ˆ96.39212 2.11053y
x =-+ 在x 的实测值范围内,任取相距较远且易读数的两个x 值,代入方程得到两
个y
ˆ值,连接两点即可绘制回归直线。

本例x 分别取值79和88,得到y ˆ分别为70.340和89.335,连接点(79, 70.340)和(88, 89.335)即得回归直线。

第二节 直线回归的统计推断
一、总体回归系数β的假设检验
类似单变量问题中常需用样本均数对总体均数进行推断,在得到样本回归方程后,研究者还需推断相应总体中这种回归关系是否确实存在,也即推断y 的总体条件均数是否随x 的变化而呈线性变化。

总体回归方程形式如下:
i i i x y i x y εβαεμ++=+=| (14.5)
式中,α和β是前述a 和b 所对应的总体参数;x y |μ为对应于各x 值的y 的总体均数,即总体条件均数;i ε为误差项或残差。

由式(14.5)可见,当总体回归系数0=β时,y 的总体均数为常数α,此时两变量无直线回归关系,但由于抽样误差的存在,样本回归系数不一定为零,故推断总体中两变量是否存在回归关系,还须对总体回归系数β是否等于0进行统计推断。

(一) 方差分析
理解回归中方差分析的基本思想,需要对应变量y 的离均差平方和作分解,如图14.2所示。

图14.2 应变量的离均差平方和分解示意图
图14.2中,任意一点P 的纵坐标被回归直线与均数y 截成三段,其中:
ˆˆ()()y y y
y y y -=-+-。

由于点P 是散点图中任取的一点,若将全部数据点都按上法处理,并将等式两端平方后再求和则有:
222ˆˆ()()()y y y
y y y -=-+-∑∑∑ (14.6) 上式也可表示为:
残回总SS SS SS += (14.7)
总SS 即∑-2)(y y ,称为总离均差平方和,即不考虑y 与x 的回归关系时y 的
总变异。

回SS 即∑-2)ˆ(y y
,称为回归平方和。

在其成分(y y -ˆ)中,由于无论回归关系如何,特定样本的均数y 不变,故此部分变异是由于直线上y
ˆ的不同造成的,而y
ˆ的不同正是由于假设两变量存在回归关系bx a y +=ˆ所导致的。

因此回SS 反映了在y 的总变异中由于y 与x 的回归关系而使y 的总变异减少的部分,也即在y 的总变异中可以用y 与x 的回归关系所解释的部分。

回SS 越大,说明回归效果越好。

残SS 即∑-2)ˆ(y
y ,称为残差平方和。

它反映了除x 对y 的回归关系影响之外的一切因素对y 的变异的作用,也即在总平方和中无法用回归关系解释的部分,表示考虑回归关系之后y 的随机误差。

在散点图中,各实测点离回归直线越近,
残SS 越小,说明直线回归的估计误差越小。

上述3个平方和相应的自由度ν之间的关系为:
P
1-=n 总ν,1=回ν,2-=n 残ν, (14.8)
残回总ννν+= (14.9)
由式(14.7)及式(14.9)离均差平方和及其自由度的分解可见,当0β=时,更可能出现较小的回SS 和较大的残SS (极端情况为残SS =总SS ,而回SS =0,回归线与横坐标平行);而0β≠时,更可能得到较大的回SS 和较小的残SS (极端情况为
回SS =总SS ,而残SS =0,所有数据点都在回归线上)。

故相对于随机误差残SS 而言,
回归的变异回SS 越大,越有理由认为0β≠,或者可认为不考虑回归时,随机误差是y 的总变异总SS ,而考虑回归后,由于回归的贡献使原来的随机误差减小为
残SS 。

如果两变量间总体回归关系确实存在,回归的贡献应大于随机误差,大到
何种程度时可以认为具有统计学意义,可根据回SS 与残SS 的关系构造F 统计量,对回归系数进行假设检验:
//MS SS F MS SS νν=
=
回回回残
残残
(14.10)
式中,回MS 为回归均方,残MS 为残差均方。

在0H 为0=β的假设下,统计量F 服从自由度为ν回、ν残的F 分布。

实际计算时,也可以利用公式(14.11)直接求得回SS :
2
2xy xy xx xx SS bl l l b l ===回 (14.11)
例14.2 试用方差分析对例14.1资料的样本回归方程作假设检验。

(1) 建立检验假设,确定检验水准
0H :0β=,即腹腔内脂肪面积与腰围之间无直线回归关系 1H :0β≠,即腹腔内脂肪面积与腰围之间有直线回归关系
=0.05α
(2) 计算检验统计量
2()7293.650yy SS y y l =-==∑总
由式(14.11)可得,24235.086xx SS b l ==回 由式(14.7)可得,3058.564SS SS SS =-=残总回
由式(14.10)可得,/4235.086/1
24.924/3058.564/18
MS SS F MS SS νν=
===回回回残残残 (3) 确定P 值,作出统计推断
11νν==回,2218n νν==-=残,查
F 界值表(附表4),
12(,)0.01(1,18)8.28F F ανν==,得0.01P <。

按=0.05α水准拒绝0H ,回归方程有统计
学意义,可以认为腹腔内脂肪面积与腰围之间有直线回归关系。

上述计算结果可列成方差分析表,如表14.2所示。

表14.2 直线回归的方差分析表
变异来源 SS ν
MS F P
回归 4235.086 1 4235.086 24.924 0.01<
残差 3058.564 18 169.920
总变异
7293.650
19
(二) t 检验
b b
b t S -=
, 2n ν=- (14.12) xx
x y b l S S ⋅=
(14.13)
2
-=
⋅n SS S x y 残 (14.14)
式中,b S 为样本回归系数b 的标准误;x y S ⋅为剩余标准差(residual standard deviation),是指扣除x 对y 的影响后,y 对于回归直线的离散程度。

例14.3 试用t 检验对例14.1资料的样本回归方程作假设检验。

检验假设同例14.2。

由式(14.14)
13.03535y x S ⋅=== 由式(14.13)
0.42275b S S ==
=
由式(14.12) 2.11053 4.99240.42275
b b b t S =
== 由218n ν=-=,查t 界值表(附表3),得0.001P <,按=0.05α水准拒绝0H ,
回归方程有统计学意义。

结论同例14.2。

由例14.1 4.9924b t ===。

因此,对同一资料作总体回归系数β是否为0的假设检验,方差分析和t 检验是一致的,且F t b =。

二、总体回归系数β的置信区间
由例14.1计算得到的样本回归系数 2.11053b =,只是总体回归系数β的一个点估计值。

类似于总体均数的置信区间的估计,β的双侧(1)α-置信区间可由公式(14.15)计算:
/2,(2)n b b t S α-± (14.15)
式中,b S 为样本回归系数b 的标准误;/2,(2)n t α-是自由度2-=n ν的双侧t 界值。

例14.4 试估计例14.1资料的总体回归系数β的95%置信区间。

由例14.1、例14.3得 2.11053b =,0.42275b S =,18ν=,查t 界值表(附表3)得0.05/2,18 2.101t =。

按式(14.15)求得β的95%置信区间为:
(2.11053 2.1010.42275,2.11053 2.1010.42275)(1.222,2.999)-⨯+⨯=
该区间不包括0,按=0.05α水准同样可得到总体回归系数不为0的结论,即用区间估计回答假设检验的问题。

三、决定系数
回归平方和SS 回与总离均差平方和SS 总之比称为决定系数(coefficient of determination),记为2R 。

2SS R SS =
回总
(14.16)
2R 取值在0到1之间,无单位。

它反映了回归贡献的相对程度,即在应变量y 的总变异中用y 与x 回归关系所能解释的比例。

在实际应用中,常用决定系数来反映回归的实际效果。

如例14.1,2R =0.581,说明男性的腰围信息可以解释其腹腔内脂肪面积变异的58.1%,还有剩余41.9%的信息需通过腰围以外的其它因素来加以解释。

决定系数除了作为反映回归拟合效果的统计量,还可用来对回归拟合效果作假设检验。

此拟合优度检验等价于对总体回归系数的假设检验,检验统计量为:
2
2
//(1)/(2)SS MS R F SS MS R n νν===--回回回残残残
(14.17)第三节 直
线回归分析的应用
一、应变量总体条件均数的置信区间
给定数值p x ,由样本回归方程算出的p p bx a y
+=ˆ只是总体条件均数p x y |μ的一个点估计值。

由于存在抽样误差,p y
ˆ会因样本而异,反映其抽样误差大小的标准误可按公式(14.18)计算:
xx
p x
y y l x x n S S p 2
ˆ)(1-+=⋅ (14.18) 式中,x y S ⋅由式(14.14)计算,其条件总体均数p x y |μ的双侧(1)α-置信区间为:
p y n p S t y ˆ)2(,2/ˆ-±α (14.19)
例14.1中,观测值181.3x =,13.03535y x S ⋅=,950.778xx l =,90.990x =,
代入式(14.18)获得第一观测点1x 对应的y
ˆ的标准误为
ˆ13.03535 5.0276y y S S ⋅==⨯= 当置信度为95%时,
0.05/2,18 2.101t =,11ˆ96.39212 2.1105375.19397y x =-+=,代入式(14.19)可得:
75.19397±2.101×5.0276=(64.63, 85.76)
用同样的方式,可计算出对应于所有x 值的y 的总体均数的95%置信区间,以x 为横坐标,y 为纵坐标,将置信区间的上下限分别连起来形成的两条弧形线间的区域,称为回归直线的置信带(confidence band),见图14.3中离回归直线较近的两条弧线所确定的区域。

图14.3 总体均数|y x μ的置信区间和个体y 值的预测区间
当x x p =时,应变量总体均数的标准误达到最小值n S x y /⋅,其对应的置信带最窄。

p x 离x 越远,其标准误越大,对应的置信带越宽。

二、应变量个体y 值的预测区间
利用回归方程进行统计预测,就是将自变量代入回归方程中,对应变量的个体值进行估计。

给定数值p x ,对应的个体y 预测值也存在一个波动范围,其标准差|p y x S 可按公式(14.20)计算:
|p y x y S S ⋅= (14.20) 因此,p x x =时个体y 值的双侧(1)α-预测区间为
/2,|ˆp p y x y
t S αν± (14.21) 应注意的是,当p x x =时,其条件总体均数的置信区间与个体y 值的预测区间其含义是不同的:前者表示在固定的p x 处,反复抽样100次,可算出100个相应y 的总体均数的置信区间,有100(1)α⨯-个置信区间包含总体均数;而后者表示预测值的取值范围,即在固定的p x 处,随机抽取100个个体,平均将有
100(1)α⨯-个个体值在求出的范围内。

仍然以观测点数据181.3x =为例,利用上例计算结果,该点预测值y 的标准差为
腹腔内脂肪面积 (c m 2
1|13.0353513.9713y x y S S ⋅==⨯= 代入式(14.21),得第一数据点y 值的95%预测区间为
75.19397±2.101×13.9713=(45.84, 104.55)
用同样的方法,可计算出所有x 值对应的y 值的95%预测区间,以x 为横坐标,y 为纵坐标,将预测区间的上下限分别连起来形成的两条弧形线间的区域,称为y 值的预测带,见图14.3中离回归直线较远的两条弧线所确定的区域。

同样,y 值的预测带也是中间窄、两头宽,在x x p =处最窄。

第四节 直线回归分析需注意的问题
一、回归分析前应绘制散点图
除了从专业角度考虑两变量之间可能的关系,观察散点图也能给出很重要的提示,因此回归分析的第一步就是绘制散点图。

只有散点图呈现直线趋势时,两变量呈直线回归关系的假定才是有据可依的。

当变量间散点呈现明显的曲线关系时,若采用简单直线回归分析,即使得到有统计学意义的直线方程也是不恰当的。

图中明显远离主体数据的观测点,称之为离群点(outlier),这些点很可能对正确评价两变量间关系有较大影响。

对离群点的识别与处理需要从专业知识和现有数据两方面来考虑,结果可能是现有回归模型的假设错误,需要改变模型形式,也可能是抽样误差造成的一次偶然结果,甚至是过失误差。

需要强调的是,实际工作中不能通过简单剔除离群值的方式来提高拟合效果,只有认真核对原始数据,并检查其原因,才可谨慎剔除或采用其他估计方法,如加权回归等。

二、用残差图考察模型假设条件
直线回归模型通常采用最小二乘法来估计回归系数,并在此基础上作进一步推断。

其应用条件为:因变量与自变量关系为线性、误差服从正态分布、各观测值独立等。

如果实际数据在不满足假设的情况下进行直线回归分析,将影响回归系数估计的精度与假设检验的P 值,以至于可能得到专业上无法解释的结论。

对这些假设条件的检查较为简单有效的方法是考察回归模型的残差图(residual plot)。

残差图是以现有模型求出的各点残差i e 即(ˆi i y y
-)作为纵坐标,相应的预测值ˆi y 或者自变量取值i x 作为横坐标来绘制的。

如果数据符合模型的基本假定,残
差与回归预测值的散点图应均匀分布在直线ˆ0i i y y
-=两侧,如图14.4(a)为较为理想的残差图,说明此数据用于拟合直线回归方程是较恰当的。

图14.4(b)为某农药厂工人的工龄x 与全血胆碱酯酶活性y 进行直线回归分析得到的残差图,可以看出其中一个点的残差绝对值相对其它点明显大很多。

仔细检查这一数据,发现样品发生了溶血,从而严重影响测定结果,因此该点为过失误差导致的离群点,可以考虑删除或改用其它可减小离群点影响的回归分析方法。

图14.4(c)为1~3岁儿童年龄x 与其锡克氏反应阳性率y 经直线回归得到的残差图,图中的残差与回归预测值呈曲线关系,提示在目前的直线回归模型中加入自变量的二次项将改善拟合效果。

图14.4(d)为女童年龄x 与舒张压y 之间直线回归的残差图,图中的残差呈喇叭口形状,说明误差的方差不齐,应考虑采用加权回归等方法。

图14.4(e)表示残差之间不独立的情况,可以看到残差与各个观测的测量时间之间存在较强的相关,也不适用直线回归方法处理。

ˆy
ˆy ˆy ˆy 时间 (a) (b) (c) (d) (e) 图14.4 残差示意图
三、结果的解释及正确应用
反映自变量对应变量数量上影响大小的统计量是回归系数,而不是假设检验的P 值。

P 值越小只能说明越有理由认为变量间的直线回归关系存在,而不能说明影响越大或关系越强。

另外,直线回归用于预测时,其适用范围一般不应超出样本中自变量的取值范围,在正常范围内求得的预测值称为内插(interpolation),而超过自变量取值范围所得预测值称为外推(extrapolation)。

若无充足理由证明超出自变量取值范围之外两变量间仍呈直线回归关系,应尽量避免不合理的外推。

第五节 直线回归与直线相关分析的区别与联系
一、区别
1. 资料要求 直线相关分析要求x 、y 服从双变量正态分布,二者无主次之分;直线回归分析要求在给定某个x 值时y 服从正态分布,y 的均数随x 变化而变化,而x 是可以精确测量和严格控制的变量。

2. 应用 说明两变量间的相互关系用直线相关分析,此时两变量的关系是平等的;而说明两变量的数量依存关系用直线回归分析,表明y 如何依赖于x 而变化。

3. 意义 相关系数r 说明具有直线关系的两变量间相互关系的方向与密切程度;回归系数b 表示x 每改变一个单位所引起的y 的平均改变量。

4. 计算公式
xy r l =,xx xy l l b /=。

5. 取值范围 11≤≤-r ,∞<<∞-b 。

6. 单位 r 没有单位,b 有单位。

二、联系
1. 对于服从双变量正态分布的同一组数据,既可作直线相关分析又可作直线回归分析,计算出的b 与r 正负号一致。

2. 相关系数与回归系数的假设检验等价,即对于同一样本,r b t t =。

由于相关系数的假设检验可以方便地查表得到P 值,所以可用相关系数的假设检验来回答回归系数的假设检验问题。

3. 对于服从双变量正态分布的同一组资料,其相关系数r 和回归系数b 可以相互换算:x y
bS r S =。

4. 用回归可以解释相关。

决定系数2/R SS SS =回总,为相关系数的平方。


反映了回归贡献的相对程度,即在y 的总变异中能用y 与x 的回归关系所能解释的比例。

故当SS 总固定时,SS 回的大小决定了相关的密切程度。

SS 回越接近SS 总,则相关系数和决定系数都越接近1,说明引入回归效果越好。

小 结
1. 直线回归是研究两个连续型变量之间数量上的线性依存关系的方法,常用于预测和危险因素筛选等问题的研究。

的总
2. 直线回归要求个体观察值间相互独立、不同x取值条件下各误差项
i
体方差相等且服从正态分布、变量间关系为线性,这些条件可通过对残差的分析做出判断。

3. 应用直线回归分析时,首先须从专业上进行变量的选择,应用前需绘制散点图观察变量间是否有线性趋势,直观地检查模型的基本假设条件。

4. 应用直线回归进行预测时,一般以自变量x的取值范围为限,若无充足理由证明超出自变量范围之外两变量仍呈直线关系,应尽量避免不合理的外推。

5. 应用时需注意直线回归与相关的区别与联系。

(王彤)。

相关文档
最新文档