13-多重线性回归分析(7年制).
13.Logistc回归分析
Wald检验的统计量为
z b0 Sb
2 ( b )2 Sb
v 1
可以证明,在 H0成立的条件下,如果样本量较大, z近似地服从标准正态分布 N(0, 1) , 2 近似地 服从自由度为1的 2 分布。
(二)回归系数的区间估计 当样本含量较大时, 已知总体回归系数 的抽样分布近似地服从正态分布, 根据正态分布理论,总
n
1 1 Yi
[1 e ] [1 1 e ] i1
(
0
1
X 1i
...
P
X
i p
)
1Yi
(
0
1
X 1i
...
P
X
i p
)
称为似然函数(1ikelihood function),记为 。 L(0, 1,..., p )
ln L(0 , 1,..., p )
体回归系数β 的(1-α )置信区间为 ,则OR 的估计值为 eb ,(1- α) 置信区间为
e(b z / 2Sb )
例l8-2 针对例l8-1资料,建立 与 关系的1ogistic回归方程,并对大肠癌患者5年生存状态进行预 测。
本例因 (Dure's分期)为无序多分类变量资料,以最高值为参照水平,产生3个哑变量(表18-2),故 最终方程中自变量数增至9个。基于SAS的输出结果如表18-3 所示 。
由于因变量 Y为二分类变量, 不满足线性回归分析条件, 首先对π进行数据变换:
logit() ln( ) ln(Odds) 1
这个变换将取值在0-1间的 π 值转换为值域在(- ∞ ,+ ∞ )的 logit()值
应用统计学多重线性回归模型
2020年8月3日星期一
重庆交通大学管理学院
08:19:10
残差分析
❖ 残差种类 非标准化残差(原始残差) 标准化残差(Pearson残差) 学生化残差 剔除残差 学生化剔除残差
2020年8月3日星期一
重庆交通大学管理学院
08:19:10
残差分析
❖ 模型适用条件的检验-因变量与自变量之间存在线性 关系的检验(以例1为例:年龄)
初步分析: 与简单线性回归相类似,先绘制散点图,以便在进行回 归分析之前了解各变量之间是否存在线性关系。本例有 两个自变量与一个反应变量,绘制散点图矩阵,如下。
2020年8月3日星期一
重庆交通大学管理学院
08:19:08
简单分析实例-初步分析
❖ 绘制散点图矩阵
2020年8月3日星期一
重庆交通大学管理学院
模型的进一步诊断与修正
❖ 多重共线性的识别
多重共线性:是指自变量间存在相关关系,即一个自变量可以用其他 一个或几个自变量的线性表达式进行表示。有以下表现形式:
整个模型的方差分析结果为P<,但各自变量的偏回归系数的统计学 结果却为P> ;
专业上认为应该有统计学意义的自变量检验结果却无统计学意义; 自变量的偏回归系数取值大小甚至符号明显与实际情况违背,难以 解释; 增加或删除一条记录或一个自变量,偏回归系数发生很大变化。
2020年8月3日星期一
重庆交通大学管理学院
08:19:11
残差分析
❖ 模型适用条件的检验-方差齐性的检验
2020年8月3日星期一
重庆交通大学管理学院
08:19:11
残差分析
❖ 模型适用条件的检验-正态性的检验
2020年8月3日星期一
数学建模——线性回归分析82页PPT
2019/11/15
zhaoswallow
2
表1 各机组出力方案 (单位:兆瓦,记作MW)
方案\机组 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
1
2
3
4
5
6
7
8
120
73
180
80
125
125
81.1
90
133.02 73
180
80
125
125
81.1
90
3 -144.25 -145.14 -144.92 -146.91 -145.92 -143.84 -144.07 -143.16 -143.49 -152.26 -147.08 -149.33 -145.82 -144.18 -144.03 -144.32
4 119.09 118.63 118.7 117.72 118.13 118.43 118.82 117.24 117.96 129.58 122.85 125.75 121.16 119.12 119.31 118.84
5 135.44 135.37 135.33 135.41 135.41 136.72 136.02 139.66 137.98 132.04 134.21 133.28 134.75 135.57 135.97 135.06
6 157.69 160.76 159.98 166.81 163.64 157.22 157.5 156.59 156.96 153.6 156.23 155.09 156.77 157.2 156.31 158.26
ˆ0
ˆ1 xi )2
min
0 ,1
(最新整理)多重线性回归分析
40
三、分析步骤
• 2.4.3 逐步回归法(STEPWISE) 当回归方程选入自变量后,又像后退法那样,
根据F统计量和P值按sls水平踢除无统计学意义的 各自变量,依次类推。
这样直到没有自变量可入选,也没有自变量 可被踢除或入选的自变量就是刚被剔除的自变量 时,则停止逐步筛选过程。
2021/7/26
假设检验; 对自变量进行共线性诊断,对观测值进行异常
值诊断; 结合统计学知识和专业知识,对回归方程进行
合理的解释,并加以应用。
2021/7/26
12
三、分析步骤
• 2. 具体步骤 • 2.1 回归参数估计
多重线性回归分析的参数估计,常采用最小 二乘法(OLS)进行。
参数估计值为:
ˆ XX-1 XY
x3
1
3.76741 1.50330
x4
1
4.06703 1.58690
x5
1
4.80679 1.34487
x6
1
0.14286 0.82343
t Value
-4.90 1.61 -1.39 2.51 2.56 3.57 0.17
Pr > |t|
<.0001 0.1194 0.1761 0.0188 0.0165 0.0014 0.8636
机误差项。
2021/7/26
7
二、基本原理
• 2.1 原理简介 多重线性回归模型中包含多个自变量,它们
同时对因变量Y 发生作用。
若要考察一个自变量对Y 的影响,就必须假 设其他自变量保持不变。
2021/7/26
8
二、基本原理
• 2.1 原理简介 因此,多重线性回归模型中的回归系数为偏
医学统计学 多元线性回归 多因素统计分析方法
病型 男 女
B药物治疗高血压疗效的男女比较
治疗例数
有效例数
有效率/%
50
36
72.0
50
44
88.0
X2=4.000, P=0.046
两种药物治疗高血压的疗效比较
药物 A药 B药
治疗例数 100(轻70,重30) 100(轻35,重65)
有效例数 95 80
有效率/% 95.0 86.0
⑴拆分两两比较(轻重分别比较)
b2
-.088 -.088
The independent variable is x1.
回归方程为: yˆ 18.662 1.633x
b3 .000
直线回归分析步骤小结
1、分析是否符合LINE条件: ⑴绘制散点图;⑵学生化残差图;⑶P-P图。 2、求回归方程:全模型(所有的回归方程都求) 3、回归效果判断:(哪种回归方程最好?确定 系数最大、最熟悉、最简单的模型) 4、结论:有无回归关系,列出回归方程。
1、直线性:x和y必需呈直线趋势(Linear),且Y必 须是随机变量,X可以是计量、计数、等级资料。
2、独立性:各观测点相互独立,即任意两个观测 点的残差的协方差为0。(Independent) 3、正态性:残差服从正态分布。(Normality) 4、方差齐性:残差的大小不随变量取值水平的改 变而改变。(Equal variance, or homogeneity)
要解决上述问题,必须采用多因素分析的方法。
医学统计学的发展
空间:单因素 多因素 时间:随机过程(时间序列)
常用的多因素分析方法:多元方差分析、 多重线性回归、协方差分析、判别分析、 聚类分析、主成分分析、因子分析、典型 相关分析、logistic回归分析、Cox回归分 析等。
第5章多元线性回归分析1
样本,可表示为
Y 1 1 2 X 2 1 3 X 3 1 ... k X k 1 u 1
Y 2 1 2 X 2 2 3 X 3 2 ... k X k 2 u 2
Y n 1 2 X 2 n 3 X 3 n ... k X k n u n
相关系数,即全部自变量参与回归的总体相
关系数,Rmxi 为去掉xi 的复相关系数。可见
部分相关系数的平方是在总体拟合效果中扣 除了其他变量综合拟合效果之后剩余部分。
15
16
多元线性回归模型
●多元线性回归模型及古典假定 ●多元线性回归模型的估计 ●多元线性回归模型的检验
17
§5.1多元线性回归模型及古典假定
j 个解释变量的单位变动对应变量平均值的影响。
20
多元线性回归
指对各个回归系数而言是“线性”的,对变量则 可是线性的,也可是非线性的 例如:生产函数
YALKu
取自然对数
l n Y ln A l n L l n K l n u
21
多元总体回归函数
Y 的总体条件均值表示为多个解释变量的函数
因为 Xe=0 ,则正规方程为:
XXβˆ =XY
32
OLS估计式
由正规方程 多元回归中 二元回归中
XXβˆ =XY ( X X ) k k 是 满 秩 矩 阵 ,其 逆 存 在
βˆ=(XX)-1XY
ˆ1Y-β ˆ2X2-β ˆ3X3
ˆ2(
yix2 i)( x3 2 i)-( yix3 i)( x2 ix3 i) ( x2 2 i)( x3 2 i)-( x2 ix3 i)2
第六讲-常用多因素回归分析方法简介
一氧化氮 车流量 气温 气湿 风速 (Y ) ( X1 ) ( X 2 ) ( X 3 ) ( X 4 ) 0.005 0.011 0.003 0.140 0.039 0.059 0.087 0.039 0.222 0.145 0.029 0.099 0.948 1.440 1.084 1.844 1.116 1.656 1.536 0.960 1.784 1.496 1.060 1.436 22.5 21.5 28.5 26.0 35.0 20.0 23.0 24.8 23.3 27.0 26.0 28.0 69 79 59 73 92 83 57 67 83 65 58 68 2.00 2.40 3.00 1.00 2.80 1.45 1.50 1.50 0.90 0.65 1.83 2.00
筛选的统计学标准
• 残差平方和(SS残差)缩小或确定系数(R2)增大
• 残差的均方(MS残差)缩小或调整确定系数(Rad2) 增大 • Cp统计量缩小 • 赤池信息准则(Akaike’s information criterion, AIC)
• 贝叶斯信息量(Bayesian information criterion, BIC)
• 量纲不同的两个自变量的偏回归系数可否直接比较?
• 不能!需计算标准化偏回归系数b’i(standardized
partial regression coefficient) 自变量标准化变换(P195,公式11-3)
2013/9/4 常用多因素回归分析方法 - 多重线性回归 11
1.3回归系数的估计
2 ad
优点:方程中增加对因变量贡献很小或没贡献的自 变量时,调整的确定系数不会增大,还可能变小。 R2=0.79 Rad2=0.74
数学建模——线性回归分析-82页PPT精选文档
2019/11/16
zhaoswallow
5
16
166.88
141.4
-144.34
118.67
134.67
159.28
17
164.07
143.03
-140.97
118.75
133.75
158.83
18
164.27
142.29
-142.15
118.85
134.27
158.37
19
164.57
141.44
9
根据表1和表2围绕方案0的1--32组实验数 据,可以列出关于未知数的32个方程的方程 组,利用SAS或Matlab编程求解方程组,得
2019/11/16
zhaoswallow
10
为了确定li和x1,L , x8之间是否有线性关系, 还需要根据样本值运用假设检验来判断, 以确定求得的回归方程是否有价值。
129.63 73
180
80
125
125
81.1
90
158.77 73
180
80
125
125
81.1
90
145.32 73
180
80
125
125
81.1
90
120
78.596 180
80
125
125
81.1
90
120
75.45
180
80
125
125
81.1
90
120
90.487 180
80
125
125
141.58 125
81.1
90
多重线性回归
x1
x2
2.989 1.292
4.647
F0.05,(1,37)=4.11
23
评价回归方程的标准
• 复相关系数 • 校正复相关系数 • 剩余标准差
24
复相关系数
(multiple correlation coefficient)
• 0≤R≤1
R R2 SS回归 SS总
• R反映的是因变量与所有自变量的总的相关关 系,当方程中自变量个数增加时,R总是增加的。 当只有一个因变量y与一个自变量x时,R就等 于y与x的简单相关系数之绝对值:R= | ryx |。
SS (n k 1) 剩余
1
20
例20-1
总胆固醇和甘油三酯对空腹血糖的影响
• 模型检验结果
A NOVAb
Model 1
R egre ssio n R esidua l To t al
Sum of Sq ua re s
4. 2 81 10 . 293 14 . 574
df 2
37 39
Mean Square 2. 1 40 . 27 8
1 R2
1 MS误差 MS总
26
剩余标准差
• 剩余标准差 小则估计值与实测值接近,反 之则估计值与实测值相差较大,它是反映回 归方程精度的指标
s y,x1x2 xk
n
yi yˆi 2
i 1
n m 1
SS剩余 n m 1
MS剩余
27
自变量的筛选
• 全面分析法 • 前进法 • 后退法 • 逐步回归法
P3=0.223
• Y与x2 , x5
P4=0.635
• 选入X3 方程中有二个变量
•
卫生统计学第八版李晓松第十三章 多重回归分析简介
第一节 多重线性回归
(四)多重线性回归用途及注意事项
1.多重线性回归的用途
(1)影响因素分析。 (2)估计与预测。
...
p xp
y=1发生的概率记为 ,y=0的概率为1- ;0 为常数项,
1, 2 ,..., p 为logistic回归系数。
第二节 logistic回归
2. logistic回归系数的流行病学意义 logistic回归模型的回归系数具有特殊含义,其解释可与流行病 学中的优势比(odds ratio,OR )联系起来:
年龄
x2 2 4 4 4 4 … 4 3 4 3 1
文化程度
x3 2 4 1 2 1 … 2 1 2 1 1
社会医 疗保障
x4 1 1 1 1 1 … 1 1 1 1 1
自感疾病 最近医疗点 年人均
严重程度 距离
收入
x5
x6
x7
2
0
1
3
0
4
2
0
1
2
0
4
1
1
3
…
…
…
2
0
4
2
0
4
2
0
3
1
0
3
2
0
3
城乡 类型
第一节 多重线性回归
变量筛选结果
变量
截距 体重x1 胸围x2
自由度 偏回归系数 标准误
1
-4.908
多因素线性回归分析
Y ~ N ( x, ) 2 Y ~ N ( , ) 2 Y ~ N ( , )
2
多重线性回归模型介绍
28
多重线性回归方程
设有m个自变量为 X1, X 2 , , X m ,亦称协变量, 应变量为Y,则描述Y的总体均数与m个自变 量 X1 , X 2 , , X m 之间的线性关系可以用下列的 多重线性回归方程 Y 0 1 X1 m X m 其中0为常数项,亦称截距,1,2,…, m称为偏回归系数。
回归系数=糖尿病组均数-健康组均数=1.74 t=4.28, P<0.001,95%可信区间为 (0.9063416,2.573658),与t检验结果完全相同
24
成组t检验由单因素线性回归实现原理
因为回归方程为
Y x
Y是固定X时的Y总体均数,所以X=0时, 健康人群的总体均数为 Y , X=1时, 糖尿病人群的总体均数为 Y 因此 糖尿病人群总体均数与健康人群的总体均数 之差为 ,因此检验两个总体均数相等的 问题就是检验回归系数 0 的问题。
6
画散点图考查身高与年龄的分布关系
130
120
110
y
100
90 3 4 5 x 6 7 8
Y的离散程度与X没有关系,并且散点呈直线带
7
画散点图考查身高总体均数与年龄的关系
年龄组的身高样本均数与年龄的散点图
8
由散点图确定身高总体均数与年龄 可能是直线关系
年龄组的身高样本均数与年龄的散点图显示 年龄组的身高样本均数与年龄几乎在一条直 线上,略有些偏离直线的点可以理解为样本 均数的抽样误差所致(因为样本均数一般不 等于总体均数),因此可以假定固定年龄的 身高总体均数 Y | x 与年龄x的关系可能是 直线关系,即假定:
13 现况调查的统计分析策略——如何开展多因素线性回归分析(1)
13 现况调查的统计分析策略——如何开展多因素线性回归分析(1)多因素线性回归,也叫多重线性回归。
一般情况下,统计分析只有在进行了多因素回归之后,才说自变量是影响因素,更准确地说是独立的影响因素,而单因素只能探讨相关性,或者探索因果关联性的可能性。
多因素线性回归介绍相对简单线性回归(又称单因素线性回归),多因素线性回归,常用的说法包括多重线性回归、多变量线性回归,还有个常用但是不太正确的说法是多元线性回归。
公式如下:对于样本,对于总体,其中,bk、、βk:在多重线性回归中,被称之为偏回归系数(即部分回归系数),表示每个自变量都对y部分的产生了影响。
意义与简单线性回归结果相似,反映的是x对y的影响力,是当x每改变一个观测单位时所引起y的改变量。
ϵ为残差,无法解释的变异部分。
多因素线性回归,参与了更多的自变量来解释y的变异,因此一般残差能控制在较低水平。
线性回归总的条件如下:自变量x和应变量y理论上一般应有因果关系。
结局y是定量变量。
各x与y存在着线性关系。
此外,还有正态性、独立性方差齐性的条件。
案例分析例1:研究究高血压患者血压与性别、年龄、身高、体重等变量的关系,随机测量了32名40岁以上的血压y、年龄X1、体重指数X2、性别X3,试建立多重线性回归方程。
线性回归分析SPSS分析入口:分析-回归-线性①血压是结果变量,放入因变量②年龄、性别和体重指数是原因变量,放入自变量③选项可以计算预测值和残差多因素线性回归分析的结果(1)模型总体评价的调整R^2模型拟合优度情况的检验,结果显示,决定系数(调整R2值)为0.775,说明对真实世界模拟度还算不错。
(2)模型总体评价的方差分析回归模型的假设检验结果,显示F=36.542,P<0.001,说明所建立的回归模型是有统计学意义的,至少有一个自变量的回归系数不为0。
(3)线性回归方程及其回归系数的评价:对于本结果,①回归系数b值,统计学上称为偏回归系数回归系数b值,统计学上称为偏回归系数②回归系数的抽样误差,即标准误③Beta值,它是标准化b值,标准化回归系数。
12多重线性回归分析(研)
AIC越小越好
(二)逐步选择法
1. 前进法(forward selection) 2. 后退法(backward elimination) 3. 逐步回归法(stepwise regression)
➢ 向前引入法:由一个自变量开始,每次引入一个 有统计学意义的自变量,由少到多,直到无自变 量可以引入为止。此法建立的方程有时不够精炼
➢ 逐步筛选法:取上述两种方法的优点,引入和剔 除交替进行,直到无变量可以引入,同时也无自 变量可以剔除为止。目前比较常用
SPSS操作
Analyze→Regression→Linear Dependent :Y Independent(s):X1、X2、X3 Method:Stepwise OK
(一)回归方程的方差分析
H0:所有回归系数为0 H1:至少有一个回归系数不为0
ANO VbA
Mo d el
Su m o f Squ ares d f Mean Squ are F
1
Reg re2ss6i6o4n4 8 4 .4 9 4
838 8 16 1 .49 8 1 9 .0 2 6
Resid u a7l4 6 89 0 .50 6
X2
3 8. 55 0
1 3. 34 6
.444 2.889
X3
104.585
7 4. 36 1
.260 1.406
a. Dep en den t Variab le: Y
第5章 回归分析与相关分析(2)-多元线性回归分析
第二篇回归分析与相关分析第5章多元线性回归分析在现实地理系统中,任何事物的变化都是多种因素影响的结果,一因多果、一果多因、多果多因的情况比比皆是。
以全球变化为例,过去一直以为地球气候变暖是由于二氧化碳的温室效应造成,但近年来有人指出水蒸汽是更重要的影响因素,二氧化碳只不过是一个“帮凶”。
如果这种观点成立,则气候变暖至少有两个原因:水蒸汽和二氧化碳。
为了处理诸如此类一果多因的因果关系问题,我们需要掌握多元线性回归知识。
至于多果多因的情况,需要借助典型相关分析或者多元多重线性回归分析技术。
多元线性回归的最小二乘拟合思路与一元线性回归相似,但有关数学过程要复杂得多。
对于一元线性回归,F 检验、t检验都与相关系数检验等价;对应多元线性回归,F检验、t检验与相关系数检验没有关系,而且相关系数分析要麻烦多了。
为了简明起见,本章着重讲述二元线性回归分析。
至于三元以上,基本原理可以依此类推。
§5.1 因果关系与基本模型5.1.1 因果关系对于我们上一章讲到的实例,山上积雪深度影响山下灌溉面积。
如果灌溉面积单纯取决于山上的积雪量,这个问题就比较简单,它们之间构成通常意义的简单因果关系——一因一果关系。
在这种情况下进行回归分析、建立数学模型是有意义的。
另一类现象就是诸如街头的裙子和身边的蚊子之类,它们属于共同反应(common response),或者叫做共变反映,建立回归模型没有统计意义。
但是,这并不是说,研究共变现象就没有任何科学意义。
共同反应属于一因多果的问题,探查共同反应的现象有助于我们揭示事物发生的原因。
举个简单的例子,如果在某个山区发源了两条河流,分别流向不同的海洋。
两条河流不会相互影响。
如果在某段时期下游的观测记录表明两条河流的水位同时持续上涨,那就说明一个问题,河流发源的山区下雨或者积雪融化。
这类问题在地理研究中比比皆是。
由于地球的万事万物或多或少都要受到天体的影响,一些原本相对独立的地理事物表面上形成了数据的相关关系,深究之后才发现它们共同的根源在于天文因素。
Python回归分析五部曲(二)—多重线性回归
Python 回归分析五部曲(⼆)—多重线性回归基础铺垫多重线性回归(Multiple Linear Regression )研究⼀个因变量与多个⾃变量间线性关系的⽅法在实际⼯作中,因变量的变化往往受⼏个重要因素的影响,此时就需要⽤2个或2个以上的影响因素作为⾃变量来解释因变量的变化,这就是多重线性回归;多重线性回归模型1.模型2.模型关键词解析偏回归系数多重线性模型中包含多个⾃变量,它们同时对因变量y 发⽣作⽤,如果要考察⼀个⾃变量对因变量y 的影响,就必须假设其他⾃变量保持不变;因此,多重线性模型中的回归系数称为偏回归系数,偏回归系数β_1是指在其他⾃变量保持不变的情况下,⾃变量x_1每变动⼀个单位,引起的因变量y 的平均变化;β_2到β_n 依次类推;回顾-回归分析步骤根据预测⽬标,确定⾃变量和因变量绘制散点图,确定回归模型类型估计模型参数,建⽴回归模型对回归模型进⾏检验利⽤回归模型进⾏预测案例实操-⾦融场景下⾯,jacky 通过⼀个⾦融场景的案例,开始我们的分享:某⾦融公司打算新开⼀类⾦融产品,现有9个⾦融产品的数据,包括⽤户购买⾦融产品的综合年化利率,以及公司收取⽤户的佣⾦(⼿续费);如下表所⽰,产品利率为11%,佣⾦为50,我们需要预测这款⾦融产品的销售额产品编号百分⽐利率抽取⽤户佣⾦⾦融产品销售额19755002730370372037545302705603606721379y =α+++...++eβ1x 1β2x 2βn x n 数据分析部落公众号:shujudata⽅程式中:y −因变量−第n 个⾃变量x n α−常数项(回归直线在y 轴上的截距)−第n 个偏回归系数βn e −随机误差785044086203009960510101150?产品编号百分⽐利率抽取⽤户佣⾦⾦融产品销售额import pandasdata = pandas.read_csv('file:///Users/apple/Desktop/jacky_1.csv',encoding='GBK')第⼀步 确定变量根据预测⽬标,确定⾃变量和因变量因变量:销售额⾃变量:利率、佣⾦第⼆步 确定类型绘制散点图,确定回归模型类型从散点图和相关系数结果表可以看出,产品利率和销售额是强正相关;佣⾦与销售额是强负相关;因此,我们可以使⽤多重线性模型来解决这个问题;我们对⾃变量和因变量绘制散点图,因为需要绘制多个变量两两之间的散点图,在这⾥介绍⼀个更先进的绘图⽅法scatter_matrix :我们把⾃变量和因变量从data 中选取出来,然后设置好对应的参数。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
【案例解析】
资料类型:定量资料 目的:了解糖尿病患者体内脂联素水平与BMI、
病程DY、瘦素LEP、空腹血糖FPG等因素的依 存关系;即多个自变量与一个因变量的关系。
多重线性回归
13.1.1 数据与模型
多重线性回归分析 muttiple linear regression
:研究的是多个自变量如何直接影响一个因变量。 即用回归方程的方式定量地描述一个因变量Y 和多个
测或控制另一个特定变量的取值,并给出这种预测或 控制的精确程度。
多重线性回归分析
13.1 多重线性回归的概念及其统计描述 13.2 多重线性回归的假设检验 13.3 复相关系数与偏相关系数 13.4 自变量筛选 13.5 多重线性回归的应用及注意事项
13.1 多重线性回归的概念 及其统计描述
例13.1 为了研究有关糖尿病患者体内脂联素水平的影响因素, 某医师测定了30名患者的BMI(kg/m2)、病程DY(年)、瘦素LEP (ng/ml)、空腹血糖FPG(mmol/L)及脂联素ADI(ng/ml)水平,数据如
表示在方程中其它自变量固定不变的情况下,Xj每增 加或减少一个计量单位,反应变量Y的平均变化 bi 个单 位。
13.1.2偏回归系数的估计
问题:对患者体内脂联素水平,哪个因素作用的大一点, 哪个小一些?
Yˆ b0 b1 X1 b2 X 2 ... bp X p
回归系数的标准化:
为了估计模型中的未知参数,需要从总体中随 机抽取一个样本,从而求得样本回归方程:
Yˆ b0 b1X1 b2 X2 ... bp X p
Yˆ是反应变量Y的总体平均值Y
X1,X 2,...,
的估计值
XP
b0:截距参数,常数项;是总体参数β0 的估计值。
bi:变量Xj的偏回归系数(partial regression coefficient), 是总体参数βi 的估计值
自变量X1、 X2、 X3、… 、Xn 之间 的线性依存关系。
分 一元 线性回归:仅涉及1个因变量、反应变量。
类
多元线性回归 multivariate linear regression
:涉及多个因变量、反应变量时称~。
如何定量地描述两者的关系:
基本目的
用 1 个以上的自变量X,它们的数据来估计反应变量 Y,即脂联素水平及其变异性的统计学分析方法。
第十三章
多重线性回归与相关
李琳琳 博士 公卫学院统计教研室A510
生物医学研究领域中多因素相互作用现象非常普遍
身高:不仅受到遗传因素的影响,而且还受到营 养状况、体育锻炼情况、居住环境因素的作用;
血压:除了与年龄有关外,还与家族史、饮食习 惯、劳动强度等因素有关;
生存质量:受生理、心理、社会关系、环境等多 因素的影响。
1.自变量数据的标准化: 2.求标准化偏回归系数:
X
' i
Xi Xi Si
用标准化的数据进行回归模型的拟合,算出它的方程,
此时所获得的偏回归系数b’,叫~。
b’无单位,可用来比较各个自变量对反应变量的贡献大小
比较:
未标准化的回归系数(偏回归系数):用来构 建回归方程,即方程中各自变量的斜率。
指任意两 个观察值 互相独立
在一定范围内任 在一定范围内,
意给定各个X值, 对应于不同X值,
则反应变量Y服 Y总体变异保持
从正态分布
不变
11.2.2.2 回归参数的估计: 最小二乘估计
least square estimation
两个自变量时,回 归平面示意图
用最小二乘法拟合直线,使得反应变量观测值Yi与回归 方程求得估计值 Yˆ 之间的残差(样本点到直线的垂直距离)
标准化的回归系数:用于综合评价各解释变量 对因变量Y的贡献大小,标准化的回归系数越 大,说明X对Y 的影响幅度越大。
线性回归分析的前题条件
line
linear 线性
independent 独立性
normal 正态性
equal variance 等方差性
反应变量Y 的 总体平均值与 自变量组合之 间呈线性关系
估计参数:β0、 β1、 β2、…、 βP 回归方程的假设检验
最小二乘法 F 检验
回归系数 β的假设检验
t 检验
列出回归方程 Yˆ b0 b1X1 b2 X 2 ... bp X p
回归方程的统计应用
所以,拟合X1、X2 、X3 、X4关于患者脂联素水平的 多重线性回归方程,得:
假设检验
回归方程的假设检验(model test):
目的:检验求得的回归方程在总体中是
否成立,即是否至少有一个βi≠ 0;
方法:单因素方差分析。
平方和达到最小。
由于自变量的增加计算量加大我们只 有借助计算机统计软件来完成
本例题的回归方程如下:
Yˆ 58.1991.030X1 0.132X2 0.811X3 0.579X4
问题:我们能不能根据回归方程下结论?
1性回归分析的基本步骤:
多重线性回归分析
回归分析的主要目的:
就是研究固定自变量X的情况下,因变量Y的总 体均数与X之间的回归关系;即:
从一组样本数据出发,确定变量之间的回归关系式; 对这些关系式的可信程度进行各种统计检验,并从影
响因变量的诸多变量中找出具有统计学意义的变量;
利用所求的关系式,根据一个或几个变量的取值来预
数模:Y X1, X2,...,X n 0 1X1 2 X2 ... p X p
β0:截距参数,是常数项。 βi:变量Xj的总体偏回归系数(partial regression coefficient)
表示在其它自变量固定不变的情况下,Xj每增加或减少一个 计量单位,反应变量Y的平均变化 βi 个单位,或说所引起应变 量Y的平均改变量为βi个单位。
Yˆ 58.1991.030X1 0.132X2 0.811X3 0.579X4
还需要解决的三个问题:
就总体而言,这种回归关系是否存在?即总体回归方程 是否成立?
回归方程的效果如何?也即这四个变量能解释反应变量 Y的百分比是多少?
四个自变量是否对反应变量Y的影响都有意义?
统计推断——假设检验