统计学11 多元线性回归分析课件

合集下载

多元线性回归与相关(共30张PPT)

 多元线性回归与相关(共30张PPT)

❖ 根据矩阵行列式性质,矩阵行列式的值等于
其特征根的连乘积。因此,当行列式| X'X|≈0
时,至少有一个特征根为零,反过来,可以
证明矩阵至少有一个特征根近似为零时,X的
列向量必存在多重共线性,同样也可证明 X ' X
有多少个特征根近似为零矩阵X就有多少个多
重共线性。根据条件数 K i
, m
i
其中 m为最
❖ 首先给出引入变量的显著性水平和剔除变量的显著性水平,然后 筛选变量。
回归变量的选择与逐步回归
回归变量的选择与逐步回归
❖ 逐步回归分析的实施过程是每一步都要对已引入回归方程的变量计算其 偏回归平方和(即贡献),然后选一个偏回归平方和最小的变量,在预 先给定的水平下进行显著性检验,如果显著则该变量不必从回归方程中 剔除,这时方程中其它的几个变量也都不需要剔除(因为其它的几个变 量的偏回归平方和都大于最小的一个更不需要剔除)。相反,如果不显 著,则该变量要剔除,然后按偏回归平方和由小到大地依次对方程中其 它变量进行检验。将对影响不显著的变量全部剔除,保留的都是显著的 。接着再对未引人回归方程中的变量分别计算其偏回归平方和,并选其 中偏回归平方和最大的一个变量,同样在给定水平下作显著性检验,如 果显著则将该变量引入回归方程,这一过程一直继续下去,直到在回归 方程中的变量都不能剔除而又无新变量可以引入时为止,这时逐步回归 过程结束。
多重共线性检验
❖ 检查和解决自变量之间的多重共线性,多多 元线性回归分析来说是很必要和重要的一个 步骤,常用的共线性诊断方法包括:
❖ 直观的判断方法 ❖ 方差扩大因子法(VIF) ❖ 特征根判定法
直观的判断方法
❖ 在自变量 的相关系数矩阵中,有某些自变量 的相关系数值比较大。

多元线性回归

多元线性回归

多元线性回归简介多元线性回归是一种统计分析方法,用于预测一个因变量与多个自变量之间的关系。

该方法适用于具有多个自变量和一个因变量之间的线性关系的数据集。

多元线性回归建立了一个多元线性模型,通过对多个自变量进行加权求和来预测因变量的值。

它基于最小二乘法,通过最小化预测值与实际观测值之间的差异来找到最佳拟合线。

在多元线性回归中,自变量可以是连续变量、二进制变量或分类变量。

因变量通常是连续的,可以预测数值型变量的值,也可以用于分类问题中。

数学原理多元线性回归的数学原理基于线性代数和统计学。

假设有n个自变量和一个因变量,可以将多元线性回归模型表示为:多元线性回归公式其中,y表示因变量的值,β0表示截距,β1, β2, …, βn表示自变量的系数,x1, x2, …, xn表示自变量的取值。

通过使用最小二乘法,可以最小化残差的平方和来计算最佳拟合线的系数。

残差是预测值与实际观测值之间的差异。

模型评估在构建多元线性回归模型后,需要对模型进行评估,以确定模型的效果和拟合优度。

常用的模型评估指标包括均方误差(Mean Squared Error, MSE)、决定系数(Coefficient of Determination, R2)和F统计量等。

•均方误差(MSE)是指预测值与实际观测值之间差异的平方和的均值。

MSE越接近于0,说明模型的预测效果越好。

•决定系数(R2)是指模型解释因变量变异性的比例。

R2的取值范围是0到1,越接近1表示模型对数据的解释能力越好。

•F统计量是用于比较两个模型之间的差异是否显著。

F统计量越大,说明模型的解释能力越好。

实例应用下面通过一个实例来说明多元线性回归的应用。

假设我们想要预测一个学生的学术成绩(因变量)与以下自变量之间的关系:学习时间、睡眠时间和饮食状况。

我们收集了100个学生的数据。

首先,我们需要对数据进行预处理,包括处理缺失值、异常值和标准化数据等。

然后,我们使用多元线性回归模型进行建模。

多元线性回归分析课件优秀课件

多元线性回归分析课件优秀课件
根着据自s变y.x量1x2的…x增p大加小而判减断少方,程但优当劣增时加的一优些点无:统一计般学随 意义的自变量后,剩余标准差反而增大。 根据复相关系数R来判断,但只反映密切程度,不 反应方向
根据sy.x1x2…xp大小判断方程优劣时的优点: 一般随着自变量的增加而减少,但当增加 一些无统计学意义的自变量后,剩余标准 差反而增大。
(normality) 4.方差齐性(homogeneity or equal variance)
简称为LINE
PAN.sav数据库是某地29名13岁男童的体重x (kg) 和肺 活量y(L)资料,试建立体重与肺活量的直线回归方程。
SPSS程序:Analyze Regression Linear,打开对 话框,把肺活量y放入应变量栏中,体重x放入自变 量栏中。
2
1.538 15.642
Res idual 2.557
26
.098
T otal 5.634
28
a.Predictors: (Constant), 身 高 , 体 重
b.Dependent Variable: 肺 活 量
Sig. .000a
衡量回归方程的标准
建立回归方程时要求:既要尽可能提高拟合 的精度,又要尽可能使模型简单。 常用的衡量方程“优劣”的标准有:
1、决定系数(R2); 2、复相关系数R 3、调整决定系数(R2adj); 4、剩余标准差(sy.x1x2…xp)。 5、赤池信息准则(AIC) 6、Cp统计量
根据R2大小判断方程优劣时的缺点是:变量最多 的方程最好,即使所增加的变量无统计学意义。
根学意据意义R义的2a的 变dj 变 量大量 进小进 入判入方断方程方程,程,优R2劣aRd2j时反adj的而增优减加点少;:。当当无有统统计计学

多元线性回归课件

多元线性回归课件
多元线性回归课件
在这个多元线性回归课件中,我们将详细介绍多元线性回归的概念、应用场 景以及模型训练和评估方法。一起来探索多元线性回归的奥秘吧!
什么是多元线性回归
多元线性回归是一种统计模型,用于分析多个自变量与因变量之间的关系。它可以帮助我们理解多个因素对目 标变量的影响,并进行预测和解释。
为什么要使用多元线性回归
2
特征选择
选择对目标变量有显著影响的特征,减少冗余信息,提高模型的解释能力。
3
数据分割
将数据集划分为训练集和测试集,用于模型的训练和评估。
模型训练
模型建立
选择适当的多元线性 回归模型,确定自变 量的权重系数。
损失函数
选择合适的损失函数, 衡量模型的预测误差。
梯度下降算法
使用梯度下降算法优 化模型参数,逐步减 小损失函数。
医学研究
多元线性回归可以帮助分析疾病风险因素,进行 疾病预防和治疗方案的制定。
市场营销
多元线性回归可以预测产品销量,帮助制定营销 策略和定价策略。
社会科学
多元线性回归可以帮助研究社会行为、心理因素 等对人群群体影响的相关规律。
数据预处理
1
数据清洗
通过处理缺失值、异常值和重复值等,确保数据的准确性和完整性。
正规方程法
使用正规方程法求解 模型参数,避免迭代 优化算法。
模型评估
1
均方误差
2
衡量模型对目标变量的预测精度,越小
越好。
3
R2 分数
4
衡量模型对目标变量变异性的解释能力, 越接近1越好。
平均绝对误差
衡量模型对目标变量的预测误差,越小 越好。
均方根误差
衡量模型对目标变量的预测准确度,越 小越好。

第11章__Logistic回归分析

第11章__Logistic回归分析

概述
• 线性回归模型和广义线性回归模型要求因变量是
连续的正态分布变量,且自变量和因变量呈线性 关系。当因变量是分类型变量时,且自变量与因 变量没有线性关系时,线性回归模型的假设条件 遭到破坏。这时,最好的回归模型是Logistic回归 模型,它对因变量的分布没有要求,从数学角度 看,Logistic回归模型非常巧妙地避开了分类型变 量的分布问题,补充完善了线性回归模型和广义 线性回归模型的缺陷。从医学研究角度看, Logistic回归模型解决了一大批实际应用问题,对 医学的发展起着举足轻重的作用。
非条件Logistic回归
• 分析因变量y取某个值的概率P与自变量x的关系,就是寻
找一个连续函数,使得当x变化时,它对应的函数值P不超 出[0,1]范围。数学上这样的函数是存在且不唯一的, Logistic回归模型就是满足这种要求的函数之一。与线性 回归分析相似,Logistic回归分析的基本原理就是利用一 组数据拟合一个Logistic回归模型,然后借助这个模型揭 示总体中若干个自变量与一个因变量取某个值的概率之间 的关系。具体地说,Logistic回归分析可以从统计意义上 估计出在其它自变量固定不变的情况下,每个自变量对因 变量取某个值的概率的数值影响大小。 Logistic回归模型有条件与非条件之分,前者适用于配对 病例对照资料的分析,后者适用于队列研究或非配对的病 例-对照研究成组资料的分析。
不同年龄组内服用避孕药的比例
——————————————————————————
年龄
服OC
不服OC
合计
——————————————————————————
〈40 ≥40
38(0.31) 25(0.12)
85 183
123 208

《回归分析 》课件

《回归分析 》课件
参数显著性检验
通过t检验或z检验等方法,检验模型中各个参数的显著性,以确定 哪些参数对模型有显著影响。
拟合优度检验
通过残差分析、R方值等方法,检验模型的拟合优度,以评估模型是 否能够很好地描述数据。
非线性回归模型的预测
预测的重要性
非线性回归模型的预测可以帮助我们了解未来趋势和进行 决策。
预测的步骤
线性回归模型是一种预测模型,用于描述因变 量和自变量之间的线性关系。
线性回归模型的公式
Y = β0 + β1X1 + β2X2 + ... + βpXp + ε
线性回归模型的适用范围
适用于因变量和自变量之间存在线性关系的情况。
线性回归模型的参数估计
最小二乘法
最小二乘法是一种常用的参数估计方法,通过最小化预测值与实 际值之间的平方误差来估计参数。
最大似然估计法
最大似然估计法是一种基于概率的参数估计方法,通过最大化似 然函数来估计参数。
梯度下降法
梯度下降法是一种迭代优化算法,通过不断迭代更新参数来最小 化损失函数。
线性回归模型的假设检验
线性假设检验
检验自变量与因变量之间是否存在线性关系 。
参数显著性检验
检验模型中的每个参数是否显著不为零。
残差分析
岭回归和套索回归
使用岭回归和套索回归等方法来处理多重共线性问题。
THANKS
感谢观看
04
回归分析的应用场景
经济学
研究经济指标之间的关系,如GDP与消费、 投资之间的关系。
市场营销
预测产品销量、客户行为等,帮助制定营销 策略。
生物统计学
研究生物学特征与疾病、健康状况之间的关 系。

《多元线性回归分析》PPT课件

《多元线性回归分析》PPT课件

的线性关系而使因变量Y 变异减小的部分;
SS回归 b1l1Y b2l2Y bmlmY biliy
SS剩余 表示剩余平方和,说明除自变量外,其它随机因素
对 Y 变异的影响。 SS剩余 SS总 SS回归
整理ppt
14
各变量的离差矩阵
b1 0.1424 , b2 0.3515 , b3 0.2706 , b4 0.6382
Y 的误差平方和Q (Y Yˆ)2 为最小值
的一组回归系数b1 ,b2 ,bm 值。
求回归系数 b1 ,b2 ,bm 的方法
是求解正规方程组(normal equations):
b1l11 b2l12 bml1m l1y
b1l21
b2l22
bml2m
l2y
b1lm1 b2lm2 bmlmm lmy
整理ppt
28
2.决定系数
决定系数(coefficient of determination)表示回归平 方和占总平方和的比例,反映各自变量对因变量回 归贡献的大小,用 R2 表示。 R2 SS回归
SS总
R2 无单位,取值在 0~1 之间。值越大,说明回归平 方和在总平方和中所占的比重越大,剩余平方和所占 比例越小,回归效果越好。
partial
regression
coefficient)。标准偏回归系数
b
' i

注 意
偏回归系数之间的关系为:
b
' i
=
bi
lii l yy
= bi
si sy
标准偏回归系数绝对值的大小,可用以衡量自变量对
因变量贡献的大小,即说明各自变量在多元回归方程
中的重要性。

回归分析法PPT课件

回归分析法PPT课件

线性回归模型的参数估计
最小二乘法
通过最小化误差平方和的方法来估计 模型参数。
最大似然估计
通过最大化似然函数的方法来估计模 型参数。
参数估计的步骤
包括数据收集、模型设定、参数初值、 迭代计算等步骤。
参数估计的注意事项
包括异常值处理、多重共线性、自变 量间的交互作用等。
线性回归模型的假设检验
假设检验的基本原理
回归分析法的历史与发展
总结词
回归分析法自19世纪末诞生以来,经历 了多个发展阶段,不断完善和改进。
VS
详细描述
19世纪末,英国统计学家Francis Galton 在研究遗传学时提出了回归分析法的概念 。后来,统计学家R.A. Fisher对其进行了 改进和发展,提出了线性回归分析和方差 分析的方法。随着计算机技术的发展,回 归分析法的应用越来越广泛,并出现了多 种新的回归模型和技术,如多元回归、岭 回归、套索回归等。
回归分析法的应用场景
总结词
回归分析法广泛应用于各个领域,如经济学、金融学、生物学、医学等。
详细描述
在经济学中,回归分析法用于研究影响经济发展的各种因素,如GDP、消费、投资等;在金融学中,回归分析法 用于股票价格、收益率等金融变量的预测;在生物学和医学中,回归分析法用于研究疾病发生、药物疗效等因素 与结果之间的关系。
梯度下降法
基于目标函数对参数的偏导数, 通过不断更新参数值来最小化目 标函数,实现参数的迭代优化。
非线性回归模型的假设检验
1 2
模型检验
对非线性回归模型的适用性和有效性进行检验, 包括残差分析、正态性检验、异方差性检验等。
参数检验
通过t检验、z检验等方法对非线性回归模型的参 数进行假设检验,以验证参数的显著性和可信度。

多元线性回归分析 ppt课件

多元线性回归分析 ppt课件
Y ˆ b 0 b 1 X 1 b 2 X 2 b m X m
2.对回归方程及各Xj作假设检验。
8
二、多元线性回归方程的建立
9
Y
Y ˆ abX
X
Y ˆ b0b1X1
10
Y ˆ b0b1X1
b(XX)(YY)lXY aYbX
(XX)2
lXX
b1
l1Y l 11
l11 b1 l1Y
b0 Yb1X1
13
Y ˆ b 0 b 1 X 1 b 2 X 2 b m X m
l 1 b 1 1 l 1 b 2 2 l 1 m b m l 1 Y l2b 1 1 l2b 2 2 l2 m b m l2 Y l m 1 b 1 l m 2 b 2 l m b m m l mY
第15章
多元线性回归分析
Multiple Linear Regression Analysis
流行病学与卫生统计学系
Email:
1
讲课内容
第一节 多元线性回归(重点) 第二节 自变量选择方法(重点) 第三节 多元线性回归的应用及注
意事项
2
第一节 多元线性回归
一、多元线性回归模型
3
表 15-2 27 名糖尿病人的血糖及有关变量的测量结果
在其它自变量保持不变时,Xj增加或减少 一个单位时Y的平均变化量。
e 去除m个自变量对Y影响后的随机误差。
6
多元线性回归模型应用条件:
1.Y与X1,X2, ,Xm之间具有线性关系; 2.各个Yi间相互独立; 3.e服从均数为0、方差为2的正态分布。
7
多元线性回归分析步骤:
1.根据样本数据求得模型参数估计值:
序号 i
总胆固醇 甘油三酯

多元线性回归分析正式优秀课件

多元线性回归分析正式优秀课件
l1 b 1 1 l1 b 2 2 l1 m b m l1 Y l2b 1 1l2b 22 l2 m b m l2Y lm 1 b 1 lm 2 b 2 lm b m m lmY
b 0 Y ( b 1 X 1 b 2 X 2 b m X m )
用最小二乘法解正规方程组, 使残差平方和Q最小。
11.2
2
3.79
1.64
7.32
6.9
8.8
3
6.02
3.56
6.95
10.8
12.3
27
3.84
1.20
6.45
9.6
10.4
66.010367.360-583.952331.368677.6962
67.3601872.364-89.492296.728869.8025
lij -53.952-39.4923950.31-5076.38-61342.434
多元线性回归分析 正式
讲课内容
第一节 多元线性回归(重点) 第二节 自变量选择方法(重点) 第三节 多元线性回归的应用及注
意事项
第一节 多元线性回归
一、多元线性回归模型
表 15-2 27 名糖尿病人的血糖及有关变量的测量结果
序号 i
总胆固醇 甘油三酯
(mmol/L) (mmol/L)
X1
X2
胰岛素 糖化血红蛋白 血糖
SS残 SS总 SS回
F
SS 残
SS回 /( n
/m m
1)
MS MS
回 残
表 15-3 多元线性回归方差分析表
变异来源 自由度 SS
MS
FP
总变异 n-1 SS 总
回归
m
SS 回

11多元(重)线性回归精品PPT课件

11多元(重)线性回归精品PPT课件

编号
收缩压 年龄
(ID)
Y
X1
17
145
49
18
142
46
19
135
57
20
142
56
21
150
56
22
144
58
23
137
53
24
132
50
25
149
54
26
132
48
27
120
43
28
126
43
29
161
63
30
170
63
31
152
62
32
164
65
吸烟
X2
1 1 0 0 1 0 0 0 1 1 0 1 0 1 0 0
多元(重)线性回归
例子
人的体重与身高、胸围 血压值与年龄、性别、劳动强度、饮食习惯、
吸烟状况、家族史 糖尿病人的血糖与胰岛素、糖化血红蛋白、
血清总胆固醇、甘油三脂 射频治疗仪定向治疗脑肿瘤过程中,脑皮质
的毁损半径与辐射的温度、与照射的时间
32例40岁以上男性的年龄、吸烟、 体 重指数与收缩压
0.7967
Adj R-Sq (校正决定系数) 0.7749
Dependent Mean 应变量Y 的均值=144.43750
剩余标准差( Root MSE )
S Y|12...p (YYˆ)2 /(np1)
SS残(np1) MS残 46.044886.78564
反映了回归方程的精度,其值越小说明回归效果越好
2. 逐步选择法
1. 前进法(forward selection) 2. 后退法(backward elimination) 3. 逐步回归法(stepwise regression)

多元线性回归与多元逐步回归

多元线性回归与多元逐步回归

P 0.000
由表11-4可知,F=21.54,P<0.05。从而,拒绝H0,可以认为β1和 β2不全为0,即所求回归方程有统计学意义。
15
2.偏回归系数的检验
(1)F 检验
H 0 : j 0;H1 : j 0 j=1,2,…,k
Fj=
U /1 SS残差 ( / n
k
1)
Fj服从F(1 ,n - k - 1)分布
Y2
3
X13
X23
……
Xk3
Y3
……
……
n
X1n
X2n
……
Xkn
Yn
5

一 、多元线性回归方程 (multiple linear regression equation)
Yˆ b0 b1X1 b2 X2 bk Xk
bj为偏回归系数(partial regression coefficient)
第十一章 多元线性回归与多元逐步回归 (Multiple Linear Regression
and Multiple Stepwise Regression)
华中科技大学同济医学院 尹 平
1
例子
儿童身高与年龄、性别的关系
肺活量与年龄、性别、身高、体重 以及胸围的呼吸差等因素的关系
多元线性回归
一个应变量与多个自变量间的关系
一般可将 F 值定在 为0.05、0.10或0.20水平上。对于
回归方程的选入和剔除水平往往选择
选入≤剔除。
选择不同的F 值(或水平),其回归方程的结果可能不 一致,一般可选不同的F 值(或值) 作调试。至于何种 结果是正确的,必须结合医学的实际意义来确定。
26
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
coefficient),表示当方程中其他自变量保持不变时,自变量Xj 变化一个单位,反应变量Y平均变化的单位数;
3、多重线性回归的前提条件:
① 线性 ② 独立性 ③ 正态性 ④ 方差齐性
LINE
参数估计
最小二乘法
基本原理是:利用观察或收集到的因变量和自变 量的一组数据建立一个因变量关于自变量的线性 函数模型,使得这个模型的估计值和观察值之间 的离差平方和尽可能地小,即残差平方和最小。
……
3.37 1.20 8.61 6.45
糖化血 红蛋白(%)
X4
8.2 6.9 10.8 8.3 7.5 13.6 8.5
……
9.8 10.5 6.4 9.6
血糖 (mmol/L)
Y
11.2 8.8 12.3 11.6 13.4 18.3 11.1
13.2 20.0 13.3 10.4
2、多重线性回归模型
♦ 局限性:不一定能保证“最优”(后续变量的引入会使得先进入 方程的自变量变得不重要)。
③ Backward:向后剔除法
♦ 首先建立包含所有p个自变量的全模型,然后逐个计算出剔除某一变 量后仅包含p-1个自变量的p个模型,同时计算剔除变量后所致残差 平方和增量的F值,然后将p个F值的最小值与预先指定的剔除临界 Fout相比较,若最小的F<Fout,则将最小F值所对应的自变量从模型 中剔除;然后在选中的含p-1个自变量的模型基础上,重复以上剔除 自变量的计算、比较、剔除过程。每次循环剔除一个对模型贡献最 可忽略的变量。如此反复,直到再没有任何变量的F值低于Fout为 止。
多重线性回归分析
(Multiple Linear Regression)
123
多重线性回归模型是直线回归的扩展和延伸,其基本原理 和直线回归相同。
内容提要
§ 1 多重线性回归模型简介 § 2 多重线性回归模型的参数估计 § 3 多重线性回归模型的假设检验 § 4 衡量模型优劣的标准 § 5 自变量的筛选 § 6 多重线性回归模型的应用 § 7 注意事项
Coefficientsa
Unstandardized Coefficients
Standardized Coefficients
Model
1
(Constant)
总胆固醇
甘油三酯
胰岛素
糖化血红蛋白
B 5.943 .142 .351 -.271 .638
a. Dependent Variable: 血糖
♦ 是选择变量的有效方法。
前进法、后退法、逐步回归法的侧重点不
同。
当自变量之间不存在简单线性相关关系时,三种方法计算结果 是一致的。 当自变量之间存在简单线性相关关系时,前进法侧重于向模型 中引入单独作用较强的变量,后退法侧重于引入联合作用较强 的变量,逐步回归法则介于两者之间。
Std. Error 2.829 .366 .204 .121 .243
Beta
.078 .309 -.339 .398
t 2.101 .390 1.721 -2.229 2.623
Sig. .047 .701 .099 .036 .016
衡量模型优劣的标准
1. 复相关系数 2. 确定系数 3. 调整确定系数 4. 剩余标准差
糖糖的的变变化化是是有有统统计计学学意意,检验某个总体偏 回归系数等于0的假设,以判断是否相应的自 变量对回归方程有贡献。
H0:βi = 0 H1:βi ≠ 0
α=0.05
计算检验统计量:
tbi
=
bi Sbi
Sbi:第i个偏回归系数的标准误
假设检验
1. 整体回归效应(即回归方程)的假设 检验(方差分析)
2. 偏回归系数(即各自变量)的假设检
验(t 检验)
1、整体回归效应的假设检验
H0:β0 = β1 = β2 = β4 = 0 H1:回归方程有意义 α =0.05
方法:方差分析
ANOVAb
Model
Sum of Squares df Mean Square F
复相关系数R:表示模型中所有自变量与反应变量
之间线性相关的密切程度。实际上是实测值与估计值y hat 的 简 单 相 关 系 数 。 取 值 范 围 为 ( 0 , 1 ) , 没 有 负 值。是确定系数的算术平方根,即
R = SSR SST
缺点:增加无统计学意义的自变量,R值仍增大。
当回归方程中包含有很多自变量,即使 其中有一些自变量对解释变量变异的贡 献很小,随着回归方程的自变量的增 加,R表现为只增不减。这是复相关系 数的缺点。
Model Summary
Model 1
R .775a
R Square .601
Adjusted R Square .528
Std. Error of the Estimate
2.0095
a. Predictors: (Constant), 糖化血红蛋白, 甘油三酯, 胰岛素, 总胆固醇
1、复相关系数
Std. Error 2.829 .366 .204 .121 .243
Beta
.078 .309 -.339 .398
a. Dependent Variable: 血糖
t 2.101 .390 1.721 -2.229 2.623
Sig. .047 .701 .099 .036 .016
问题: 各自变量对反应变量的影响强度怎么比较?
自变量筛选
为确保回归方程包含所有对反应变量有较大影响的自 变量,而把对反应变量关系不大或可有可无的自变量 排除在方程之外,应该进行自变量的选择。 回归模型的正确选择在根本上依赖于专业知识。
1. 自变量筛选的标准与原则 2. 自变量筛选的常用方法
1、自变量筛选的标准与原则
① 残差平方和SSE缩小与确定系数增大 ② 残差均方缩小与调整确定系数增大 ③ Cp统计量
Sig.
1
Regression S13S3R.711
υ回归4
33.428
8.278
.000a
Residual Total
S8S8E.841 S22S2T.552
υ残差22 υ总26
4.038
a. Predictors: (Constant), 糖化血红蛋白, 甘油三酯, 胰岛素, 总胆固醇
FF==MMSS回回归归
2、确定系数
复相关系数的平方称为确定系数或决定系数,记 为R2,用以反映线性回归模型能在多大程度上解 释反应变量Y的变异性。
R2 = SSR SST
检验回归方程整体意义的方差分析表
变异来源 自由度 SS
MS
F
P
回归
4 0.06396 0.01599 17.59 <0.0001
残差
19 0.01727 0.00090903
总变异 23 0.08123
R2=0.06396/0.08123=0.7874
确定系数的取值范围为0≤R2≤1。直接反映了 回归方程中所有自变量解释了反应变量总变异 的百分比。其值越接近于1,表示回归模型的拟 合效果越好。
3、调整的确定系数
调整的R2:记为
Ra2
=
R2

k(1− R2 ) n − k −1
优优点点::对对回回归归方方程程中中自自变变量量个个数数实实 施施惩惩罚罚,,较较大大的的kk会会使使RR22降降低低。。
4、剩余标准差
♦ 是误差均方MSE的算术平方根,就是残差 的标准差。
♦ 反映了用建立的模型去预测因变量时的精 度。其值越小,说明模型拟合的效果越 好。
♦ 优点:同调整的确定系数
因为k个自变量都具有各自的计量单位以及不
同的变异度,所以不能直接用普通偏回归系 数的数值大小来反映方程中各个自变量对反
应变量Y的贡献大小。
怎么办?
对原始数据进行标准化变换:
X
* i
=
Xi − Xi Si
用标准化的数据进行回归模型的拟合,得到的 回归系数,称为标准化偏回归系数。
意义:通常在有统计学意义的前提下,该系数
Std. Error 2.829 .366 .204 .121 .243
Beta
.078 .309 -.339 .398
a. Dependent Variable: 血糖
t 2.101 .390 1.721 -2.229 2.623
Sig. .047 .701 .099 .036 .016
问题: 各自变量对反应变量的影响强度怎么比较?
X1
5.68 3.79 6.02 4.85 4.60 6.05 4.90 …… 7.98 11.54 5.84 3.84
甘油三脂 (mmol/L)
X2
1.90 1.64 3.56 1.07 2.32 0.64 8.50
……
7.92 10.89 0.92 1.20
胰岛素 (μU/ml)
X3
4.53 7.32 6.95 5.88 4.05 1.42 12.60
2、自变量筛选的常用方法
① 所有可能自变量子集选择 ② Forward:前进法(向前选择法) ③ Backward:后退法(向后剔除法) ④ Stepwise:逐步回归法
无论采用何种选择自变量的方法,都需要对不同的自变量 子集进行比较,计算量很大。Æ 借助统计软件
① 所有可能自变量子集选择
♦ p个变量,所有可能的自变量子集有2p个。 ♦ 根据某种变量的选择准则,通过比较各子
♦ 特点:考虑了自变量的组合作用,选中的自变量数目一般会比前进 法多;当自变量数目较多或某些自变量高度相关时,可能得不出正 确的结果,前进法可以自动去掉高度相关的自变量。
④ 逐步选择法
♦ 是在前述两种方法基础上进行双向筛选的过程,本质上 前进法。即在逐步选择的过程中,把经F检验有意义的变 量引入方程后,又在对已在方程中的自变量进行一次关 于剔除的F检验,保留有统计学意义的变量,而剔除无统 计学意义的变量。反复进行引入、剔除过程,直到既没 有变量被引入,也没有变量被剔除为止。
相关文档
最新文档