直线回归分析直线回归分析介绍的相关
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第十四章直线回归分析
第十三章介绍的相关系数可用来说明两变量之间相伴随而呈线性变化的趋势和关联强度,并不能用其中一个变量来预测另一个变量的值。在实际工作中,研究者常常需要通过易测的变量对另一难测的变量进行估测,如用腰围、臀围、体重指数(BMI)等简易体脂参数来估测腹腔内脂肪含量,此时可采用回归分析。本章仅介绍最简单的直线回归分析。
第一节直线回归方程的建立
一、直线回归的概念
直线回归(linear regression)方法可用来研究两个连续型变量之间数量上的线性依存关系,也称简单回归(simple regression)。
在回归分析中估测的随机变量称为因变量(dependent variable)或反应变量(response variable),常用y表示;y所依存的变量称为自变量(independent variable)或解释变量(explanatory variable),常用x表示。
例14.1 某研究欲探讨男性腰围与腹腔内脂肪面积的关系,对20名男性志愿受试者测量其腰围(cm),并采用磁共振成像法测量其腹腔内脂肪面积(cm2),结果如表14.1所示。试建立腹腔内脂肪面积(y)和腰围(x)的直线回归方程。
表14.1 20名男性志愿受试者腰围和腹腔内脂肪面积的测量值
编号腰围(cm) 腹腔内脂肪面积(cm2)
1 81.3 69.8
2 85.6 61.2
3 85.9 80.3
4 87.8 75.5
5 79.0 75.7
6 82.5 85.4
7 95.2 102.5
8 96.1 99.6
9 94.4 97.8
10 90.6 100.9
11 93.5 108.2
12 103.8 129.0
13 97.5 110.4
14 98.3 123.3
15 99.7 105.5
16 87.2 83.1
17 84.1 72.0
18 88.0 100.0
19 101.0 105.0
20 88.3 127.7
以腰围为横坐标,腹腔内脂肪面积为纵坐标绘制散点图,如图14.1所示,可见散点大致呈直线趋势。
图14.1 两变量直线回归关系散点图
即假设有一条潜在的直线可用来刻画两变量之间的关系,这样的直线称为回归直线。通常用yˆ来表示回归直线上各点的纵坐标,其数值是当x取某一值时因变量y的平均估计值。与单变量问题类似,由于个体观察值不一定总等于其均数,所以散点图中各点不会恰好都在回归直线上,故两变量的直线关系并非是一一对应的函数关系。描述yˆ随x的变化而变化的方程称为直线回归方程(linear regression equation),也称为直线回归模型,可表示为
ˆ(14.1)
=
bx
y+
a
式中,a为回归直线的截距(intercept)或常数项,表示x等于0时,y的平均估计值;b为回归直线的斜率(slope)或回归系数(regression coefficient),表示x改变一
个单位时y 的平均改变量。0>b ,表示回归直线从左下方走向右上方,即y 随x 增大而增大;0
0=b ,表示回归直线平行于x 轴,即y 与x 无线性依存关系。由此可见,直线回归就是通过回归系数与自变量的线性组合来描述因变量的均数是如何随自变量的改变而变化。
二、回归方程的估计
(一) 回归方程估计的最小二乘法
从散点图来看,不同的a 和b 对应于不同的直线,求解a 、b 实际上就是如何能合理地找到一条能最好的代表数据点分布趋势的直线,使得每个实测值i y 与
这条“理想”的回归直线的估计值ˆi y
最接近。由于各点的(ˆi i y y -)有正有负,故通常取(ˆi i y y
-)平方和最小,统计学上将各点距回归直线的纵向距离平方和最小这一原则称为最小二乘法(least square method)。
(二) 回归系数的估计方法
按照最小二乘法,当2ˆ()i i y y -∑取得最小值时所对应a 和b 的计算公式如下:
2
()()
()xy xx
l x x y y b l x x --∑=
=
-∑
(14.2) a y bx =- (14.3)
式中xy l 为x 与y 的离均差交叉乘积和,简称离均差积和,可按公式(14.4)计算:
∑∑∑∑-
=--=n
y x xy y y x x l xy )
)(())(( (14.4) 下面以例14.1资料说明建立直线回归方程的具体步骤。
1.绘制两变量之间的散点图,如图14.1所示,观察到二者存在直线趋势,故可进行直线回归分析。
2.由样本数据计算如下统计量:
90.990x ,95.645y
22()/950.778xx l x x n =-=∑∑
22()/7293.650yy l y y n =-=∑∑
()/2006.649xy l xy x y n =-=∑∑∑
3.计算回归系数b 及截距a
由式(14.2)可得,
2006.649
2.11053950.778
xy xx
l b l =
=
=
由式(14.3)可得,
95.645 2.1105390.99096.39212a y bx =-=-⨯=-
4.得回归方程为:
ˆ96.39212 2.11053y
x =-+ 在x 的实测值范围内,任取相距较远且易读数的两个x 值,代入方程得到两
个y
ˆ值,连接两点即可绘制回归直线。本例x 分别取值79和88,得到y ˆ分别为70.340和89.335,连接点(79, 70.340)和(88, 89.335)即得回归直线。
第二节 直线回归的统计推断
一、总体回归系数β的假设检验
类似单变量问题中常需用样本均数对总体均数进行推断,在得到样本回归方程后,研究者还需推断相应总体中这种回归关系是否确实存在,也即推断y 的总体条件均数是否随x 的变化而呈线性变化。总体回归方程形式如下:
i i i x y i x y εβαεμ++=+=| (14.5)
式中,α和β是前述a 和b 所对应的总体参数;x y |μ为对应于各x 值的y 的总体均数,即总体条件均数;i ε为误差项或残差。
由式(14.5)可见,当总体回归系数0=β时,y 的总体均数为常数α,此时两变量无直线回归关系,但由于抽样误差的存在,样本回归系数不一定为零,故推断总体中两变量是否存在回归关系,还须对总体回归系数β是否等于0进行统计推断。
(一) 方差分析
理解回归中方差分析的基本思想,需要对应变量y 的离均差平方和作分解,如图14.2所示。