医学统计学课件:直线回归分析(研究生)-推荐)

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
这些变量间的关系具有随机性的一种“趋势”, 即:自变量x在一定的范围内取不同的值,因变量y 随x的变化呈现一定的趋势,常用回归与相关分析
2020/12/4
6
最先提出“回归”一词的是英国生物统计学家S. F. Galton(1887)。
父高子亦高
但高个子父代所生儿子的平均身高低于父代的 平均身高
矮个子父代所生儿子的平均身高高于父代的平 均身高
★两种检验方法之间的关系: t F
2020/12/4
22
表13-1 13名8岁健康男童的体重与心脏横径测量值
2020/12/4
编号 1 2 3 4 5 6 7 8 9 10 11 12 13
体重(kg) 25.5 19.5 24.0 20.5 25.0 22.0 21.5 23.5 26.5 23.5 22.0 20.0 28.0
10
y
y2
b
y1
x x1
x
y y2 y1 b0 bx 1 b0 bx
2020/12/4
b0 bx b b0 bx
b
11
➢ 回归系数b和截距b0的计算 b是根据最小二乘法原理(各实测点至直
线的纵向距离的平方和最小 )求得的
b
(X
X )(Y Y (X X )2
)
2020/12/4
19
SS总 SS回 SS残
ν总 = ν回 + ν残
相应的自由度分别为:
ν总= n-1 ν回= 1(自变量的个数) ν残= n-2
❖ 统计量的构造:F SS回 回 MS回 SS残 残 MS 残
2020/12/4
20
❖ SS总、SS回和SS残的计算:
SS总 (Y Y )2 lyy
y
SS总 SS回 SS残
x
17
三个平方和的意义
SS总 (Y Y )2
y 的总离均差平方和(total sum of squares), 表示未考虑x与y的回归关系时,一组y值之间的
总变异。
SS回 (Yˆ Y )2
回归平方和(regression sum of squares),
指当自变量x引入回归方程后,由于x值的不同而
儿子的平均身高向男子身高的总体均数“回归 ”
2020/12/4
7
一、概述
➢ 直线回归的概念
又称简单回归,用于研究一个变量随另一个变 量变化而变化的依存关系(回归关系),从而预 测或控制未知变量的一种统计分析方法,通过拟 合线性方程来描述两变量间的回归关系
➢ 应用条件
要求因变量Y呈正态分布 自变量X是可以精确测量和控制的变量
引起的 yˆ b0 之bx间的不同,它反映在y的总变
异中,可以用x与y的线性关系解释的那部分变异。
SS回越大,回归效果越好。
2020/12/4
18
SS残 (Y Yˆ)2
亦称剩余平方和(residual sum of squares), SS 剩。考虑回归之后y的随机误差,是x 对y 的线性 影响之外的一切因素对y的变异,即总变异中无法 用x解释的部分。 SS残即SS剩越小,回归效果越好。
2020/12/4
8
y
y x0
2020/12/4
x0
x
9
➢直线回归方程式
Yˆ 来自百度文库b0 bX
上式中, Yˆ为Y 的估计值,读作‘Y的回归值’
b0 为截距(x等于0时相应y的估计值) b 为样本回归系数 (直线的斜率)
(其统计学意义是X 每增加/ 减小
1个单位,Y 平均改变b个单位)
2020/12/4
直线回归分析
2020/12/4
1
变量之间的关系 ➢确定性关系 ➢非确定性关系
2020/12/4
2
确定性关系
设有两个变量x和y ,变量y随变量x一起变化,并完 全依赖于x ,当变量x取某个数值时, y依确定的关系 取相应的值,则称y是x的函数,记为y = f (x),这种 关系是函数关系
y
•y和x 是一一对应的关系 •由(x,y)确定的散点
(X X )2
lXX
➢对回归系数b 进行假设检验:
方差分析 t检验
2020/12/4
14
方差分析
• 因变量y 的取值大小不同,y 取值的这种波 动称为变异。变异来源于两个方面:
– 由于自变量x 的取值不同造成的 – 除x 以外的其他因素(如x对y的非线性影响、测
量误差等)的影响
2020/12/4
l XY l XX
其中,lXY 为X 和Y 的离均差积和 lXX 为X 的离均差平方和
2020/12/4
b0 Y bX
12
lXX
X 2 ( X )2 n
l XY
XY
(
X )(Y )
n
2020/12/4
13
二、直线回归分析的基本步骤
➢绘制散点图
➢计算回归系数b
b
( X X )(Y Y ) lXY
2020/12/4
4
• 分析两个变量间的不确定关系常用回归及 相关分析的统计方法。
– 回归分析 适用于分析变量间的因果关系;用一个自变量 的值来估计另一个应变量的值。
– 相关分析 用于分析两变量间相互联系的密切程度及相关 方向。
2020/12/4
5
在医学科学研究中常遇见如下问题:
➢ 年龄与血压(舒张压) ➢ 身高与体重 ➢ 药物剂量与动物死亡率 ➢ 环境介质中污染物浓度与污染源的距离
SS回 (Yˆ Y )2 blxy lx2y / lxx
SS残 (Y Yˆ)2 SS总 SS回
2020/12/4
21
t 检验
b0 t
Sb
Sb
SY . X l XX
SY .X
(Y Yˆ )2
SS残
n2
n2
n2
其中,Sb 为回归系数b的标准误
SY.X 为剩余标准差
表示应变量y在扣除自变量x的线性影响后的离散程 度,反映实际观察值在回归直线周围的分散状况
15
• 对一个具体的观测值来说,变异的大小可
以通过该实际观测值与其均值之差 y y
来表示
x和y的线性关系引起的变异 yˆ y
y的变异
yy
误差引起的变异 y yˆ
2020/12/4
16
y
2020/12/4
p
y y yˆ y y yˆ
y yˆ
y y yˆ y y y2 yˆ y2 y yˆ2
在一条直线上 例如:圆周长与半径的关系
2020/12/4
x
C 2R
3
非确定性关系
y
变量间关系不能用函数关 系精确表达
一个变量的取值不能由另 一个变量唯一确定
当变量x取某个值时,变 量y的取值可能有几个
各观测点分布在直线周围
x
X:自变量(independent variable)如体重
Y:因变量(dependent variable)如体表面积
相关文档
最新文档