常用多变量统计分析方法简介
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
是求解正规方程组(normal equations) :
b1l11 b2 l12 bm l1m l1 y b1l 21 b2 l 22 bm l 2m l 2 y b l b l b l l m mm my 1 m1 2 m 2
注意:虽然模型要求因变量是连续数值变量,但对自变量的类型不限。若 自变量是分类变量,特别是无序分类变量,要转化为亚变量才能分析。对 于自变量是分类变量的情形,可以应用广义线性回归模型分析。
10
二、多元线性回归分析的步骤
(一)估计各项参数,建立多元线性回归方程模型
(二)对整个模型进行假设检验,模型有意义的前提下,再分
别对各偏回归系数进行假设检验。
(三)计算相应指标,对模型的拟合效果进行评价。
11
(一)模型的参数估计
方程中参数的Fra Baidu bibliotek计可用最小二乘法求得,
求回归系数 b1 ,b2 ,bm 的方法
ˆ 和实际观察值 也就是求出能使估计值 Y
ˆ ) 2 为最小值 Y 的误差平方和 Q (Y Y
的一组回归系数 b1 ,b2 ,bm 值。
各变量均值分别为:
X 1 5.8126, X 2 2.8407, X 3 6.1467, X 4 9.1185, Y 11.9259,
则常数项: b0 11.9259 0.1424 5.8126 0.3515 2.8407 0.2706 6.1467 0.6382 9.1185 = 5.9433
3
回归分析的分类
连续型因变量 (y) --- 线性回归分析 一个 因变 量y 分类型因变量 (y) ---Logistic 回归分析 生存时间因变量 (t) ---生存风险回归分析 时间序列因变量 (t) ---时间序列分析 多个因变量 (y1,y2,…yk) 路径分析 结构方程模型分析
4
多变量统计分析方法概述
6
一个变量的变化直接与另一组变量的变化有关:
人的体重与身高、胸围
如:
血压值与年龄、性别、劳动强度、饮食习惯、吸烟
状况、家族史 糖尿病人的血糖与胰岛素、糖化血红蛋白、血清总 胆固醇、甘油三脂 射频治疗仪定向治疗脑肿瘤过程中,脑皮质的毁损 半径与辐射的温度、照射的时间
7
一、多元线性回归方程模型
方程组中: lij l ji ( X i X i )(X j X j ) X i X j [(X i )(X j )]/ n
liy ( X i X i )(Y Y ) X iY [(X i )(Y )]/ n
常数项 b0 Y b1 X1 b2 X 2 ... bm X m
自变量保持不变的条件下,自变量 X i 改变一个单位时因变 量Y 的平均改变量。 为随机误差,又称残差(residual), 它表示 Y 的变化中不能由自变量 X i i 1,2,m 解释的部 分。
8
只有一个自变量时,回归的结果为二维平面上的一条直线;而有两个自变量 时,回归的结果为三维空间的一个平面;有更多自变量时,回归的结果则是 在三维以上空间的“超平面”,无法用直观图形表达。
常用多变量统计分析方法简介
1
多变量统计分析方法概述
多变量统计方法是运用数理统计的方法来研究多变量 问题的理论和方法,它是单变量统计统计方法的推广,是研
究多个随机变量之间相互依赖关系以及内在统计规律性的一
门统计学分支学科。 近年来,多变量统计方法已广泛应用到医学研究的各个 领域。医学现象涉及到的变量不止一个,而是多个变量,且这 些变量间又存在一定的联系,需要处理多个变量的观测数据。
一、多重线性回归 二、Logistic回归 三、Cox比例风险回归 四、其他常用多变量统计方法
5
Multivariate linear regression
概念: 多重线性回归分析也称复线性回归分析( multiple linear regression analysis),它研究一组自变量如何直接影响一个 因变量。
2
多变量统计分析方法概述
对于多变量医学问题,如果用单变量统计方法就要对 多方面分别进行分析,而一次分析一个方面,同时忽视了各
方面之间存在的相关性,这样会丢失很多信息,分析的结果
不能客观全面地反映情况。 多变量统计方法不仅能够研究多个变量之间的相互关 系以及揭示这些变量之间内在的变化规律,而且能够使复 杂的指标简单化,并对研究对象进行分类和简化。
假定因变量Y与自变量 X 1 , X 2 , X m 间存在如下关系:
Y 0 1 X 1 2 X 2 m X m
式中, 0 是常数项, , , 称为偏回归系数(partial 1 2 m regression coefficient)。 i i 1,2,m 的含义为在其它
自变量(independent variable)是指独立自由的变量,用向量X表示; 因变量(dependent variable)是指非独立的、受其它变量影响的变量, 用向量Y表示;由于模型仅涉及一个因变量,所以多元线性回归分析也 称单变量线性回归分析(univariate linear regression analysis)
9
应用条件:
多元线性回归模型应满足以下条件:
(1) Y 与 X 1 , X 2 , X m 之间具有线性关系; (2)各观测值 Y j j 1,2,, n 之间相互独立; (3)残差 服从均数为 0、方差为 2 的正态分布, 它等价于对于任意一组自变量 X 1 , X 2 , X m ,应 变量 Y 均服从正态分布且方差齐。
12
例16.1
27名糖尿病患者的血
清总胆固醇(x1)、 甘油三酯(x2)、空
腹胰岛素(x3)、糖
化血红蛋白(x4)、 空腹血糖(y)的测量
值列于表中,试建立
血糖与其它几项指标 关系的多元线性回归
方程。
13
各变量的离均差矩阵
14
求解后得 b1 0.1424, b2 0.3515, b3 0.2706, b4 0.6382