医学统计学 简单回归分析
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
10.1 什么是回归?
1. 线性回归分析 linear regression analysis
:研究一个变量和另外一些变量间线性数量关系的 统计分析方法。
简单线性回归 simple linear regression
:模型中只包含两个有“依存关系”的变量,一
分
个变量随另一个变量的变化而变化,且呈直线变
类
化趋势,叫~。
多重线性回归 muptiple linear regression
:涉及多个变量(自变量、解释变量)时称~。
父亲和他儿子的身高:
调查了1087对父子:
1.父代的总均数=68英寸 子代的总均数=69英寸
2.高个子的父代:72英寸 而它子代:71英寸
矮个子的父代:64英寸 而它子代:67英寸
表11-1 14名健康中年妇女的基础代谢与体重的测量值
编号
1 2 3 4 5 6 7
基础代谢 (kg/d)
4175.6 4435.0 3460.2 4020.8 3987.4 4970.6 5359.7
体重 (kg)
50.7 53.7 37.1 51.7 47.8 62.8 67.3
编号
8 9 10 11 12 13 14
Yˆ a bx
➢ 称 Yˆ 为Y 的预测值;其意义为固定 x,Y 的
总体均数 μ Y∣X 的估计值。
➢ a与b分别为回归模型参数α和β的估计值。
以样本数据,可算出α和β的估计值a 和 b。后在 直角坐标系以X为横坐标,Y 为纵坐标作图,图 形是一条直线,斜率为b,截距为a。
5800
5300
基础代谢(kJ/d)
第十二章 简单回归分析
统计推断的两个主要内容:
参数估计和假设检验
t 检验 方差分析 卡方检验 秩和检验
指标变量之间关系 相关分析
回归分析
简单回归分析
1.1 线性回归的概念及其统计描述 1.2 线性回归模型的适用条件 1.3 回归参数的估计 1.4 总体回归系数β的统计推断 1.5 线性回归的应用
基础代谢 (kg/d)
3970.6 3983.2 5050.1 5355.5 4560.6 4874.4 5029.2
体重 (kg)
48.6 44.6 58.6 71.0 59.7 62.1 61.5
基础代谢(kJ/d)
由散点图看基础代谢与体重可能是直线关系
5800 5300 4800 4300 3800 3300 2800
II型回归 :因变量(Y)和自变量(X)都是随机
变化的,叫Y 关于X 的II型回归。
表12-1 不同IgG浓度下的沉淀环数据
IgG浓度(IU/ml)X
12Βιβλιοθήκη 345沉淀环直径(mm)Y 4.0
5.5 6.2 7.7
8.5
小结:回归分析(Regression analysis)
1. 从一组样本数据出发,确定变量之间的数学关 系式;
矮个子父子 高个子父子
线性回归(linear regression )又称简单回归
(simple regression ) :讨论两个变量间的数量依存关
系的统计方法,即研究一个变量如何随另一个变量变化 的常用方法。
两个变量:
因变量dependent variable 反应变量 response variable
4800
4300
Yˆ a bx
3800
3300
2800 30 35 40 45 50 55 60 65 70 75
体重(kg)
利用回归方程,只要给定一个40-60岁的健康妇女的 体重值,就可估计出该个体的基础代谢值Y的平均值Yˆ 。
基础代谢(kJ/d)
线性回归关系的特点:
5800 5300 4800 4300 3800 3300 2800
2. 对这些关系式的可信程度进行各种统计检验, 并从影响某一特定变量的诸多变量中找出具有 统计学意义的变量;
3. 利用所求的关系式,根据一个或几个变量的取 值来预测或控制另一个特定变量的取值,并给 出这种预测或控制的精确程度。
二、线性回归模型的适用条件
line
linear 线性
independent 独立性
normal 正态性
equal variance 等方差性
因变量Y 的总 体平均值与 自变量X呈线
30 35 40 45 50 55 60 65 70 75
体重(kg)
图11-1 14名健康中年妇女的基础代谢与体重的散点图
散点图显示年龄组的基础代谢的样本均数与体重 几乎在一条直线上,略有些偏离直线的点可以理解 为样本均数的抽样误差所致,因此可以假定固定基
础代谢的总体均数μ Y∣X与体重X 的关系可能是直线
30 35 40 45 50 55 60 65 70 75
体重(kg)
变量间关系不能用函数关系精确表达 一个变量的取值不能由另一个变量唯一确定。 当变量 X 取某个值时,变量Y取值可能有几个。 各观测点分布在直线周围
误差与残差
Y x Y Y|X 称为随机误差
ˆ
Y
) Y
Y
a
bx
关系,即有:
回归直线的截距参数 (intercept)
μ = Y∣X α+βX
回归直线的斜率参数(slope) 又称回归系数(regression coefficient)
上述直线方程称为线性回归模型 linear regression model
通常情况下,研究者只能获得一定数量的样本数 据,用样本数据建立的有关Y依从X变化的线性表达 式称为回归方程(regression equation),记为:
称为残差(residual)
根据上述,直线回归分析要求资料满足固定X, 则Y 服从正态分布等价于残差服从正态分布。
直线回归原理示意图:
所以如果固定X,Y 服从正态分布,其 散点图呈直线带状分布
线性回归的分类:
I 型回归 :因变量(Y)是随机变化的,但自变量
(X)可以不随机 ,当它是能够精确测量和严密控制 的量时,叫Y 关于X 的I型回归。
:非独立的、受其它变量影响的变量,常用 “Y”表示。
自变量 independent variable或预测因子 predictor 或 解释变量explanatory variable
:能独立自由变化的变量,常用“X”表示。
例11-1:对14名40-60岁健康妇女的基础代谢(Y) 与体重(X)的相关系数r =0.964,现问基础代谢 (Y)是如何依存体重(X)变化而变化的?