[医学]中国医科大学医学统计学 直线回归分析

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

105 腰围 (cm)
如上图所示,可见散点大致呈直线趋势。
即假设有一条潜在的直线可用来刻画两变量之间的关 系,这样的直线称为回归直线。
通常用 yˆ 来表示回归直线上各点的纵坐标,其数值是
当 x 取某一值时因变量 y 的总体均数的估计值。
在数学上,描述因变量(y)依赖于另一自变量(x)的变化 而变化的方程称为直线回归方程,也称为直线回归模 型,表述为:
表 20名男性志愿受试者腰围和腹腔内脂肪面积的测量值
为直观理解男性腰围与腹腔内脂肪面积的关系,以 腰围为横轴,腹腔内脂肪面积为纵轴,描出20对数 据散点图如图14.1。
腹腔内脂肪面积 (cm2)
Βιβλιοθήκη Baidu
130
120
110
100
90
80
70
60
75
80
85
90
95
100
图14.1 两变量直线回归关系散点图
>0,表示 y 随 x 增大而增大;
b
YX
b<0,表示 Yy 随 Xx 增大而减小;
b=0,表示直线与轴平行,即Yy 与 Xx 无直线关系。
a>0
a=0
a<0
b的统计学意义 x增(减)一个单位,y 平均改变b个单位。 说明存在回归关系的两变量间依存变化的数量关系。
二、回归方程的估计
各实测点到该回归线的纵向距离平方和较到其它任何 直线者为小。
yy ˆ2 y a b x 2
(二) 回归系数的估计方法 例 现以例14.1资料说明建立直线回归方程的具体步骤。 1. 绘制两变量间的散点图,如图14.1所示,观察到二者
存在直线趋势,故可进行直线回归分析。 2. 由样本数据计算如下统计量
称预测因子(predictor),常用x表示。
第一节 直线回归方程的建立
一、直线回归的概念
本章重点介绍两个连续性变量之间的线性依存关系的统 计方法,简称线性回归(linear regression)。
例14.1 某研究欲探讨男性腰围与腹腔内脂肪面积的关系, 对20名男性志愿受试者测量其腰围(cm),并采用磁共振 成像法测量其腹腔内脂肪面积(cm2),结果如表14.1所示。 试建立腹腔内脂肪面积( y )和腰围( x )的直线回归方程。
例如,我们可以用身高、体重、肺活量的这些容易测 量的指标来估计心室输出量、体循环总血量等相对难 测的指标。
我们把被估计或预测的变量称为因变量(dependent variable),或称反应变量(response variable),常用 y 表示; y 所依存的变量称为自变量(independent variable),或称解释变量(explanatory variable),或
n i 1

x
i


n
i1
n
n
2
y
i



2 .1 1 0 5 3
n i 1
x
2 i


xi
i 1
n

4. 求回归截距α。
aybx
1819.82.110531912.996.39212
20
20
5. 最小二乘原则下的回归方程。
y ˆ 9 6 .3 9 2 1 2 2 .1 1 0 5 3 x
yx x
其中, y为个体的因变量值,x为其自变量值,为回 归直线的截距参数,为回归直线的斜率参数,又称回 归系数。
通常情况下,研究者只能获取一定数量的样本数据, 用该样本数据建立的有关 y 依 x 变化的线性表达式称 为回归方程,记为:
yˆ abx 其中,
a与b分别为前一模型参数与的估计;
中国医科大学医学 统计学 直线回归
分析
为了研究父亲与成年儿子身高之间的关系,卡尔.皮尔逊 测量了1078对父子的身高。把1078对数字表示在坐标上, 如图。
例如儿子的身高与父亲的身高有着某种依存关系,可以用 回归分析的方法去研究这种关系,即把两个变量间的数 量依存关系用函数形式表示出来,用一个或多个变量去 推测另一个变量的估计值和波动范围,这就是回归分析。
n
b
( xi x)( yi y)
i 1 n

(xi x)2
l xy l xx
i 1
a y bx
y - yˆ 的意义
y yˆ 残差绝对值: 实测点到直线的纵向距离。
6.5
6.0
5.5
5.0
11
12
13
14
15
16
回归直线的有关性质
直线通过点 x , y
我们希望得到a和b的适宜值,能使所有n个数据点的
残差平方和达到最小值,则称这一对a和b为和的
最小二乘估计(LSE)。上述使回归残差平方和最小的 策略称为最小二乘原则。即要求:
Y Y ˆ2 Y a b X 2 为 最 小
根据数学上的最小二乘法原理,导出 a 和 b 的算式如下:
yˆ是与x对应的y的总体均数的估计值。 以x为横坐标,yˆ为纵坐标,上述回归方程在直角坐标系 中的图形是一条直线,斜率为b,截距为a。
直线回归参数的含义
a :回归直线在轴上的截距。
a>0,表示直线与纵轴的交点在原点的上方; a<0,则交点在原点的下方; a=0,则回归直线通过原点;
b :回归系数,即直线的斜率。
第二节 直线回归的统计推断
一、总体回归系数β的假设检验 在简单回归模型中,参数β的意义是: 若自变量x增加一个单位,反应变量y的平均值便增加β。 如果β=0,说明y与x之间并不存在线性关系;反之, β≠0,说明y与x之间存在线性关系。 从β=0的总体中抽样,计算出的样本回归系数 b 很可能 不为零。所以需对样本回归系数 b 进行假设检验。
n20
x1819.8,x2166534.38 y1912.9, y2190252.97, xy176061.42
3. 求回归系数b。
n
( x i x )( yi y )
b i1 n
(xi x )2
i 1

n i 1
xi yi

(一) 回归方程估计的最小二乘原则
参数α和β一般只能通过用样本数据来估计。
当x取值为xi时,y的平均值的估计值 yˆ i 应为a b xi 而
实际观察值是yi。两者之差为残差,即:
i yi yˆi yi (a bxi )
(i 1, 2, n)
其中,(xi, yi),i=1, 2, , n为已知的样本数据。
相关文档
最新文档