常用多变量统计分析方法简介

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
一、多重线性回归 二、Logistic回归 三、Cox比例风险回归 四、其他常用多变量统计方法
5
Multivariate linear regression
概念: 多重线性回归分析也称复线性回归分析(multiple linear regression analysis),它研究一组自变量如何直接影响一个 因变量。
9
应用条件:
多元线性回归模型应满足以下条件:
(1) Y 与 X 1 , X 2 , X m 之间具有线性关系;
(2)各观测值Y j j 1,2,,n 之间相互独立; (3)残差 服从均数为 0、方差为 2 的正态分布,
它等价于对于任意一组自变量 X 1 , X 2 , X m ,应
变量Y 均服从正态分布且方差齐。
注意:虽然模型要求因变量是连续数值变量,但对自变量的类型不限。若 自变量是分类变量,特别是无序分类变量,要转化为亚变量才能分析。对 于自变量是分类变量的情形,可以应用广义线性回归模型分析。
10
二、多元线性回归分析的步骤
(一)估计各项参数,建立多元线性回归方程模型 (二)对整个模型进行假设检验,模型有意义的前提下,再分 别对各偏回归系数进行假设检验。 (三)计算相应指标,对模型的拟合效果进行评价。
12
例16.1
27名糖尿病患者的血 清总胆固醇(x1)、 甘油三酯(x2)、空 腹胰岛素(x3)、糖 化血红蛋白(x4)、 空腹血糖(y)的测量 值列于表中,试建立 血糖与其它几项指标 关系的多元线性回归 方程。
13
各变量的离均差矩阵
14
求解后得 b1 0.1424 , b2 0.3515 , b3 0.2706 , b4 0.6382
11
(一)模型的参数估计
方程中参数的估计可用最小二乘法求得,
也就是求出能使估计值Yˆ 和实际观察值
Y 的误差平方和Q (Y Yˆ)2 为最小值
的一组回归系数b1 ,b2 ,bm 值。
求回归系数 b1 ,b2 ,bm 的方法
是求解正规方程组(normal equations):
b1l11 b2l12 bml1m l1y
常用多变量统计分析方法简介
1
多变量统计分析方法概述
多变量统计方法是运用数理统计的方法来研究多变量 问题的理论和方法,它是单变量统计统计方法的推广,是研 究多个随机变量之间相互依赖关系以及内在统计规律性的一 门统计学分支学科。
近年来,多变量统计方法已广泛应用到医学研究的各个领 域。医学现象涉及到的变量不止一个,而是多个变量,且这些 变量间又存在一定的联系,需要处理多个变量的观测数据。
3
回归分析的分类
一个 因变 量y
连续型因变量 (y) --- 线性回归分析 分类型因变量 (y) ---Logistic 回归分析 生存时间因变量 (t) ---生存风险回归分析 时间序列因变量 (t) ---时间序列分析
多个因变量 (y1,y2,…yk)
路径分析 结构方程模型分析
4
多变量统计分析方法概述
自变量(independent variable)是指独立自由的变量,用向量X表示; 因变量(dependent variable)是指非独立的、受其它变量影响的变量, 用向量Y表示;由于模型仅涉及一个因变量,所以多元线性回归分析也 称单变量线性回归分析(univariate linear regression analysis)
= 5.9433
线性回归方程模型为:
Yˆ 5.9433 0.1424X1 0.3515X 2 0.2706X3 0.6382X 4 15
(二)对模型及偏回归系数的假设检验 1、对模型的假设检验—F检验 2、对偏回归系数的假设检验—F检验和t 检验 3、标准化偏回归系数
6
一个变量的变化直接与另一组变量的变化有关:
如:
➢人的体重与身高、胸围
➢血压值与年龄、性别、劳动强度、饮食习惯、吸烟 状况、家族史
➢糖尿病人的血糖与胰岛素、糖化血红蛋白、血清总 胆固醇、甘油三脂
➢射频治疗仪定向治疗脑肿瘤过程中,脑皮质的毁损 半径与辐射的温度、照射的时间
7
一、多元线性回归方程模型
假定因变量Y与自变量 X1 , X 2 , X m 间存在如下关系:
Y 0 1X1 2 X 2 m X m
式中,0 是常数项, 1 , 2 , m 称为偏回归系数(partial
regression coefficient)。 i i 1,2,m 的含义为在其它
自变量保持不变的条件下,自变量 X i 改变一个单位时因变
2
多变量统计分析方法概述
对于多变量医学问题,如果用单变量统计方法就要对 多方面分别进行分析,而一次分析一个方面,同时忽视了各方 面之间存在的相关性,这样会丢失很多信息,分析的结果不能 客观全面地反映情况。
多变量统计方法不仅能够研究多个变量之间的相互关系以 及揭示这些变量之间内在的变化规律,而且能够使复杂的 指标简单化,并对研究对象进行分类和简化。
各变量均值分别为: X1 5.8126 , X 2 2.8407 , X 3 6.1467 , X 4 9.1185 ,Y 11.9259 , 则常数项:
b0 11.9259 0.1424 5.8126 0.3515 2.8407 0.2706 6.1467 0.6382 9.1185
b1l21
b2l22
bml2m
l2y
b1lm1 b2lm2 bmlmHale Waihona Puke Baidu lmy
方程组中: lij l ji (Xi Xi )(X j X j ) Xi X j [(Xi )(X j )]/ n liy (Xi Xi )(Y Y ) XiY [(Xi )(Y)]/ n
常数项 b0 Y b1X1 b2 X2 ... bm Xm
量Y 的平均改变量。 为随机误差,又称残差(residual),
它表示 Y 的变化中不能由自变量 X i i 1,2,m 解释的部
分。
8
只有一个自变量时,回归的结果为二维平面上的一条直线;而有两个自变量 时,回归的结果为三维空间的一个平面;有更多自变量时,回归的结果则是 在三维以上空间的“超平面”,无法用直观图形表达。
相关文档
最新文档