医学统计学 多元线性回归 多因素统计分析方法

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

直线回归分析的步骤
1、用原始数据绘制散点图(确保呈直线趋势) 2、求a和b (如果呈直线关系)(用SPSS统计软件)
3、对回归系数b作假设检验
(方法:a. F检验 b. t检验
1组数据可尝试配合多
种回归模型(直线、曲
线),然后比较哪个模
) 型更好。
4、判断回归方程的效果(回归方程估计的精度指标)
F 17.612 18.195 18.506
8.970 8.970 16.890 17.638 18.139 16.890 16.890 16.890
df1 1 1 1 2 2 1 1 1 1 1 1
df2 31 31 31 30 30 31 31 31 31 31 31
Si g. .000 .000 .000 .001 .001 .000 .000 .000 .000 .000 .000
★简单线性回归的大部分内容可直接引用于多元回 归,因其基本概念得意义是一样的。

直线回归复习
直线回归分析:分析两个变量间的数量关系,目的 是用一个变量推算另一个变量 (建立回归方程)
研究两个变量间的线性关系,称直线回归 (linear regression)。这是回归分析中,最简单 的一种。 如由x推算y,则:
1、直线性:x和y必需呈直线趋势(Linear),且Y必 须是随机变量,X可以是计量、计数、等级资料。
2、独立性:各观测点相互独立,即任意两个观测 点的残差的协方差为0。(Independent) 3、正态性:残差服从正态分布。(Normality) 4、方差齐性:残差的大小不随变量取值水平的改 变而改变。(Equal variance, or homogeneity)

由于生物间存在变异, 故两相关变量之间的关系具 有某种不确定性,如同性别、 同年龄的人,其肺活量与体 重有关,肺活量随体重的增 加而增加,但体重相同的人 其肺活量并不一定相等。

第九章 双变量线性回归与相关 例9-1 20名15岁健康男童的身高体重资料
b2
-.088 -.088
The independent variable is x1.
回归方程为: yˆ 18.662 1.633xLeabharlann b3 .000
直线回归分析步骤小结
1、分析是否符合LINE条件: ⑴绘制散点图;⑵学生化残差图;⑶P-P图。 2、求回归方程:全模型(所有的回归方程都求) 3、回归效果判断:(哪种回归方程最好?确定 系数最大、最熟悉、最简单的模型) 4、结论:有无回归关系,列出回归方程。
3
4
7
8
11
8、指数模型:
yˆ b0 eb1x
9、逆模型: yˆ b0 b1 / x
10、幂模型: yˆ b0 xb1
11、Logistic模型: yˆ 1/ 1/ u b0 b1 x

例 14-1

药物
治疗例数
有效例数
有效率/%
A药
100
95
95.0
B药
100
80
86.0
X2=10.286, P=0.001
同病型不同药物比较:
每张表都 只比较一
个因素
药物 A药 B药
轻型两种药物治疗高血压的疗效比较
治疗例数
有效例数
有效率/%
50
48
96.0
50
36
72.0
X2=10.714, P=0.001
药物 A药 B药
重型两种药物治疗高血压的疗效比较
治疗例数
有效例数
有效率/%
50
49
98.0
50
44
88.0
X2=3.840, P=0.05
同药物不同性别比较:
说明性别对 疗效也有影
响!
A药物治疗高血压疗效的男女比较
病型
治疗例数
有效例数
有效率/%

50
48
96.0

50
49
98.0
X2=0.344, P=0.558

函数关系(影响因素是唯一的)
1. 是一一对应的确定关系 2. 设有两个变量 x 和 y ,变量
y 随变量 x 一起变化,并完 全依赖于 x ,当变量 x 取某 个数值时, y 依确定的关系 取相应的值 3. 各观测点落在一条线上
在同一电路中,导体中的电流跟导体两端的电压成正比,跟导体的 电阻阻值成反比,这就是欧姆定律,基本公式是I=U/R。
Parameter Estimates
Eq ua ti on L i ne a r L og a rith mi c Inverse Quadratic Cu bi c Compound Power S Growth Exponential L og i sti c
R Square .362 .370 .374 .374 .374 .353 .363 .369 .353 .353 .353
第一节 多重线性回归分析
(Multiple Linear Regression)
★多元线性回归是简单线性回归的直接推广,其包 含一个因变量和二个或二个以上的自变量。
★简单线性回归是研究一个因变量(Y)和一个自变 量(X)之间数量上相互依存的线性关系。而多元线 性回归是研究一个因变量(Y)和多个自变量(Xi) 之间数量上相互依存的线性关系。
病型 男 女
B药物治疗高血压疗效的男女比较
治疗例数
有效例数
有效率/%
50
36
72.0
50
44
88.0
X2=4.000, P=0.046
两种药物治疗高血压的疗效比较
药物 A药 B药
治疗例数 100(轻70,重30) 100(轻35,重65)
有效例数 95 80
有效率/% 95.0 86.0
⑴拆分两两比较(轻重分别比较)
Constant 18.662 -67.498 97.549 -32.543 -32.543 28.271 5.937 4.768 3.342 28.271 .035
b1 1.633 39.548 -937.183 5.915 5.915 1.030
.715 -17.007
.029 .029 .971
多因素分析方法的选择
(取决于结果变量的类型)
结果变量的类型 结果变量的举例 多变量分析的类型
连续 二分类 二分类事件 结果出现时间
血压、体重、体温 是否死亡、是否患病
多元线性回归 多元logistic回归
死亡时间、疾病复发时间 Cox模型
(摘自:姚晨译《多变量分析—临床使用指南》)
按应用来分类
1、因素筛选:多重线性回归、logistic回归、 Cox模型 2、预测预报:多重线性回归、logistic回归、 Cox模型、判别分析 3、分类:聚类分析(样本聚类、指标聚类) 4、多指标综合:主成分分析、因子分析
刘桂芬主编《医学统计学》P218:例题14-1 33名5-8岁健康男童身高与体表面积的关系

全模型的结果
决定系数
Model Summary and Parameter Estimates
P值
Dependent Variable: y
Model Summary
结果
B因素
X因素 (未知因素)
D因素
C因素 (已知因素)
第十四章 多重线性回归 (Multiple Linear Regression)
分析一个因变量(dependent variable) 与多个自变量(independent variable)的数 量关系的方法,称多重线性回归(多元回 归分析)。
药物
疗效



理 因

病情
其他因 素
临床药物疗效研究
混杂因素 患者的状况(性别、年龄
X2
X1
药物
Y
疗效
病情 X3
举 例

X5
理 因

X4
其他因 素

何为单因素分析? 分析时只涉及一个研究因素(指 标)的分析方法。
例:治疗高血压病。疗效指标:舒张压。
比较两种药物对治疗高血压的疗效:药物 (一个因素)
1、取得原始资料容易:
单因素分析必须要有严格的实验设计来 排除非实验因素对结果的影响(控制干扰因 素),达到组间均衡可比。(累,伤财)
多因素分析可同时分析几个或几十个因 素,把干扰因素当作研究因素。(化敌为友)
2、可从整体分析结果:既可以分析单独作 用,又可以分析各因素的交互作用。
X因素
A因素
X因素
1、线性模型: yˆ b0 bx 2、二次模型yˆ b0 b1x b2x2
3、复合模型: yˆ b0b1x 4、生长模型: yˆ eb0b1x
5、对数模型:yˆ b0 b1 lnx 6、三次模型:yˆ b0 b1x b2 x2 b3x3
1
2
5
6
7、S型曲线:

9
10
eb0b1/ x
如何处理?方法有三 ⑵标准化
⑶多因素分析
如果同时分析病情、药 物与疗效的关系,或病 情与药物之间、药物与 药物之间有无交互作用?
Y-有效=1 无效=0 A药-用=1 不用=0 B药-用=1 不用=0 病情-轻=1 重=2
AB两药的交互作用
单因素分析:t检验、卡方检验等 ——睁只眼闭多只眼!! ——累人的方法!!(严格的设计)
双变量:身高与体重
研究目的:1、身高与体重有无关系?什么样的关系
X
2、能否用身高推算体重?

第九章 双变量线性回归与相关 例9-1 20名15岁健康男童的身高体重资料
不在一条直线上, 但呈直线趋势
X

直线回归应用条件(LINE):
(降维,指标化多为少)
5、多个Y与多个X的相关关系:典型相关分析
多因素分析的定义:
①是研究多个相依因素(变量)之间的 关系的统计分析方法(黄正南《医用多因素 分析》)。
②是一种用于制定不同原因对某一事件 或结果相对作用大小的统计学工具(姚晨译 《多变量分析—临床使用指南》)。
与单因素、双因素分析比较 多因素分析的优点
b 为回归系数, 即直线的斜率(其实就是 反映x对Y影响)。
b>0
a
x

直线回归复习
求方程: yˆ a bx 或 yˆ b0 bx
b0 和b1方法:最小二乘法:使各实测点距
回归直线的纵向距离的平方和 y yˆ2 最小。
y yˆ 残差,或剩余
如果各实测点落在直线上, 表 示估计值与实测值完全相同。
多因素统计分析方法
多因素分析概述
在医学、生物学中,许多现象的发生、 发展和变化是多种因素在一定条件下相互影 响、相互制约而产生的共同结果。
疾病的发生:致病源、环境条件、机体状况 疾病的诊断:症状、体症、检验结果 疾病的预后:病情、病程、治疗、机体状况
药物临床疗效研究
混杂因
患者的状况(性别、年龄 素
要解决上述问题,必须采用多因素分析的方法。
医学统计学的发展
空间:单因素 多因素 时间:随机过程(时间序列)
常用的多因素分析方法:多元方差分析、 多重线性回归、协方差分析、判别分析、 聚类分析、主成分分析、因子分析、典型 相关分析、logistic回归分析、Cox回归分 析等。
多元方差分析:包括第十章:析因设计、 交叉设计的方差分析等。
两种药物治疗高血压的疗效比较
药物 治疗例数 有效例数 有效率/%
A药
100
B药
100
95
95.0
86
86.0
单独分析药物之间的效果有无差别:单因 素分析(必须假设其他影响因素相同)
比较病情、两种药物对治疗高血压的疗效: (两个因素)
可按单因素分析,也可按多因素分析!
该表只 比较一 个因素
两种药物治疗高血压的疗效比较(轻型重型合计)
以上条件缩写为:LINE。如果只作因素筛选,不作 预测,条件3、4可适当放宽。

直线回归复习
直线回归分析对资料的要求
Y—必须是呈正态分布的随机变量。
可以是非随机变量:年龄、药物浓度或 剂量—Ⅰ型回归
X 也可以是随机变量:身高、体重、血清
胆固醇的含量,血红蛋白的含量—Ⅱ 型回归
⑴剩余标准差( Sy.x):越小,回归方程的精度越高。
⑵残差(residual):越小,回归方程的效果越好。
⑶决定系数(r2):越接近于1,效果越好。

SPSS曲线估计
线性模型
对数模型
幂模型
二次模型
指数模型
S型曲线

SPSS曲线估计
X称自变量(independent variable) Y称因变量(dependent variable)

直线回归复习
由X推算Y的直线回归方程一般表达式
yˆ a bx 或 yˆ b0 b1x
a(或b0)称为截距,
pronounced ‘Y hat’
y
相关文档
最新文档