多重线性回归
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
心理统计学
二、 多重线性回归SPSS实现
心理统计学
2.1 操作讲解
单击Analyze/Regression/Linear打开线性回 归分析主对话框,选择分析。
定义不同的 分析模块
被解释变量
心理统计学
对样本数据筛 选,只对符合 条件数据分析
加权最小 二乘法回 归分析
解释变量
解释变量筛选方法
选择一个变量作样本 数据点的标志变量, 该变量值将标在回归 分析的输出图形中
3)确定P值,作出ቤተ መጻሕፍቲ ባይዱ断结论
接受原假设即回归系数全为0,回归方程无效; 接受备择假设,即回归系数不全为0,自变量与 因变量的关系用线性关系表示有统计学意义。
1.5.2 回归系数的显著性检验
心理统计学
检验的是回归方程中每个解释变量与被解释变量 之间是否存在显著的线性关系。 检验步骤: 1)建立检验假设,确定检验水准
心理统计学
第二步:选择低密度脂蛋白中的胆固醇含量进 入因变量框,选择栽脂蛋白A、栽脂蛋白B、栽 脂蛋白E、栽脂蛋白C进入自变量框
心理统计学
第三步:设置统计量对话框,选项如下图,单 击确定返回;
心理统计学
第三步:设置统计量对话框,选项如下图,单 击确定返回;
心理统计学
第四步:设置图形对话框,选项如下图,单击 确定返回;初步操作完成。
统计量 图形 保存
其它选项
心理统计学
统计量对话框
心理统计学
统计量对话框
心理统计学
统计量对话框
心理统计学
心理统计学
图形对话框
表示被解释变量 标准化预测值 标准化残差 剔除残差 调整预测值 学生化残差 学生化剔除残差
心理统计学
图形对话框
上一组坐标 的变量名
绘制散点图
心理统计学
下一组坐标 的变量名
心理统计学
1.5.4 回归方程的拟合优度检验 检验回归方程对样本数据的代表程度。计算的统 计量称为复相关系数R或确定系数R2。
复相关系数R衡量模型中所有自变量与因变量的线 性相关程度,在心理研究中R>0.4即可 。 确定系数R2表示因变量的总变异中可由回归模型 中自变量解释的部分所占的比例,R2越大越好。
二、 多重线性回归SPSS实现
心理统计学
例1 有学者认为血清中低密度脂蛋白增高和高 密度脂蛋白降低是引起动脉硬化的一个重要原 因。现测量30名怀疑患有动脉硬化的就诊患者 的栽脂蛋白A、栽脂蛋白B、栽脂蛋白E、栽脂 蛋白C、低密度脂蛋白中的胆固醇、高密度脂 蛋白中的胆固醇含量,资料见data12-1。分别 求出低、高密度脂蛋白中的胆固醇含量对栽脂 蛋白A、栽脂蛋白B、栽脂蛋白E、栽脂蛋白C 的回归方程。
绘制标准化残差图
直方图 正态概率P-P图
依次绘制因变量 和各自变量残差 的散点图
心理统计学
保存对话框
心理统计学
保存对话框 保存预测值选项
心理统计学
保存非标准化预测值 保存标准化预测值 保存调整的预测值 保存预测值的均值标准误差
保存对话框
心理统计学
保存对话框
条件均数的 置信区间
设置预测区间
心理统计学
Variables Remov ed
Method
. Enter
a. All requested v ariables entered.
b. Dependent Variab le: 低 密 度 脂 蛋 白 (mg/dl)
结果解释。
输 入 / 移 去 的 变 量b
模型 1
输入的变量
载脂蛋白 C(mg/dl), 载脂蛋白 A(mg/dl), 载脂蛋白 B(mg/dl), 载 E(m脂g/蛋dl白)a
23.930
Durbin-W atso n 2.451
a. Predictors: (Co nstan t), 载 脂 蛋 白 C(mg/dl), 载 脂 蛋 白 A(mg/dl), 载 脂 蛋 白 B(mg/dl), 载 脂 蛋 白 E(mg/dl)
b. Dependent Variable: 低 密 度 脂 蛋 白 (mg/dl)
Model Dimension Eigenv alue
Index
(C o nstant)
1
1
4.855
1.000
.00
2
8.085E-02
7.749
.01
3
4.381E-02
10.527
.00
4
1.484E-02
18.086
.01
5
5.706E-03
29.169
.98
a. Dependent Variab le: 低 密 度 脂 蛋 白 (mg/dl)
心理统计学
第四步:设置图形对话框,选项如下图,单击 确定返回;初步操作完成。
结果解释。
心理统计学
Variables Entered/Removedb
Model 1
Variables Entered 载脂 蛋白
C (mg /d l), 载脂 蛋白
A (mg /d l), 载脂 蛋白
B(mg/dl), 载 脂 蛋 白a E(mg/dl)
检验被解释变量和所有解释变量全体之间线性关 系是否显著,即用线性模型来描述它们之间的关 系是否恰当。
检验步骤:
1)建立检验假设,确定检验水准
H0:各个偏回归系数同时为0; H1:各个偏回归系数不全为0。α=0.05
心理统计学
2)计算统计量
F
SS回 / m
SS残 /(n m 1)
F ( m ,nm 1)
b. Dependent Variable: 低 密 度 脂 蛋 白 (mg/dl)
A NO V Ab
模型
平方和
1
回归 18530.408
df
均方
4 4632.602
F 8.090
显著性 .000a
残差 14316.258
25 572.650
合计 32846.667
29
a. 预测变量:(常量), 载脂蛋白C(mg/dl), 载脂蛋白A(mg/dl), 载脂蛋白 B(mg/dl), 载脂蛋白E(mg/dl)。
心理统计学
2.2.1 建立数据文件
心理统计学
2.2.2 操作步骤
心理统计学
第一步:单击Analyze/Regression/Linear打 开线性回归分析主对话框,选择分析。
心理统计学
第二步:选择低密度脂蛋白中的胆固醇含量进 入因变量框,选择栽脂蛋白A、栽脂蛋白B、栽 脂蛋白E、栽脂蛋白C进入自变量框
H0:某一回归系数为0; H1:某一回归系数不为0。α=0.05
2)计算t 统计量
3)确定P值,作出推断结论
1.5.3 残差分析
心理统计学
残差是指实际样本值与回归方程计算所得的预测 值之差。如果回归方程能较好地反映被解释变量 的特征和变化规律,那么残差序列应不包含明显 的规律和趋势。
残差分析主要任务:残差是否服从均值为0的正态 分布、是否为方差齐性、残差序列是否独立、借 助残差探测样本中的异常值。
的理论概率α 值 为标准判定变量 是否进入或剔除 回归方程。
表示若某一自变 量的偏F统计量的 概率值P小于0.05 则该自变量进入 回归方程。
表示若某一自变 量的偏F统计量的 概率值P大于0.10 则该自变量剔除 回归方程。
心理统计学
设置变量筛选标准和缺省值处理方回法归方话程框中是
否包含常数项
缺失值处理方式 凡是有缺失值的数据都不分析 不分析进入模型变量有缺失值的记录 用该变量的均数替代缺失值
t -.017 1.181 4.699 -.045 -3.119
显著性 .986 .249 .000 .965 .005
共线性统计量
容差
VIF
.898
1.114
.756
1.323
.546
1.832
.696
1.437
Collinear ity Diagnosticsa
心理统计学
C o nd itio n
1.325
.282
载 脂 蛋 白 E(mg/dl) 载 脂 蛋 白 C(mg/dl)
-.124 -2.385
2.783 .765
a. Dependent Variable: 低 密 度 脂 蛋 白 (mg/dl)
Standardized C o effic ients
Beta
.165 .714 -.008 -.494
1.2 多重回归分析的数据格式
心理统计学
心理统计学
1.3 多重线性回归的数学模型
Yˆ b0 b1X1 b2 X2 bm Xm
回归常数 偏回归系数 1.4 多重线性回归的应用条件 线性、独立、正态、齐性。
1.5 多重回归方程的检验与评价
心理统计学
1.5.1 回归方程的显著性检验
表示标准化预 测值的变化值
在多重回归中,表示不考虑 该观察值后协方差矩阵与含 该观察值协方差矩阵的比率
保存结果到新文件,默
保存对话框 认在当前数据文件中生
成新变量
心理统计学
新变量保存到新数据文件中
心理统计学
心理统计学
设置变量筛选标准和缺省值处理方法话框
解释变量进入或剔 除回归方程的标准
表示以偏F统计 量
标准误
-.829 47.773
载脂蛋白A(mg/dl)
.233
.197
载脂蛋白B(mg/dl)
1.325
.282
载脂蛋白E(mg/dl)
-.124
2.783
载脂蛋白C(mg/dl) -2.385
.765
a. 因变量: 低密度脂蛋白(mg/dl)
标准化系 数 Beta
.165 .714 -.008 -.494
b. 因变量: 低密度脂蛋白(mg/dl)
心理统计学
Coeff icientsa
Unstandardized C o effic ients
Model
B
Std. Error
1
(C o nstant)
-.829
47.773
载 脂 蛋 白 A(mg/dl)
.233
.197
载 脂 蛋 白 B(mg/dl)
个体y值的 置信区间
设置置信度
保存对话框
设置残差选项, 用于模型诊断
心理统计学
原始残差 标准化残差 采用t变换产生的残差,即学生化残差 剔除残差,可发现可疑的强影响点
学生化剔除残差
保存对话框
心理统计学
设置诊断影响点 的统计量选项
表示不考虑该观察值 后回归系数的变化值
标准化的回归 系数变化值
表示不考虑该观察值 后预测值的变化值
移去的变量 .
方法 输入
a. 已输入所有请求的变量。
b. 因变量: 低密度脂蛋白(mg/dl)
心理统计学
心理统计学
Model Summar yb
Mo d el 1
R
R Square
.751a
.564
A d ju sted R Square
.494
Std. Error of the Estimate
自变量筛选方法选项
心理统计学
不做筛选自变量全部进入模型 逐步法,由Options对话框设置筛选标准 强制剔除法 后退法 前进法
2.2 实例操作讲解
心理统计学
例1 有学者认为血清中低密度脂蛋白增高和高 密度脂蛋白降低是引起动脉硬化的一个重要原 因。现测量30名怀疑患有动脉硬化的就诊患者 的栽脂蛋白A、栽脂蛋白B、栽脂蛋白E、栽脂 蛋白C、低密度脂蛋白中的胆固醇、高密度脂 蛋白中的胆固醇含量,资料见data12-1。分别 求出低、高密度脂蛋白中的胆固醇含量对栽脂 蛋白A、栽脂蛋白B、栽脂蛋白E、栽脂蛋白C 的回归方程。
模型摘要b
模型 1
R .751a
R方
调整的 R 方 估计的标准差 Durbin-Watson
.564
.494
23.930
2.451
a. 预测变量:(常量), 载脂蛋白C(mg/dl), 载脂蛋白A(mg/dl), 载脂蛋白 B(mg/dl), 载脂蛋白E(mg/dl)。
b. 因变量: 低密度脂蛋白(mg/dl)
心理统计学
A NOVAb
Mo d el
1
Reg ressio n
Sum of Squar es 18530.41
df
Mean Square
4
4632.602
F 8.090
Sig. .000a
Residual
14316.26
25
572.650
Total
32846.67
29
a. Predicto rs: (Co nstant), 载 脂 蛋 白 C(mg/dl), 载 脂 蛋 白 A(mg/dl), 载 脂 蛋 白 B(mg/dl), 载 脂 蛋 白 E(mg/dl)
t -.017 1.181 4.699 -.045 -3.119
Sig. .986 .249 .000 .965 .005
Collinearity Statistics
Tolerance
VIF
.898
1.114
.756
1.323
.546
1.832
.696
1.437
系 数a
非标准化系数
模型
1
(常量)
B
心理统计学
第十章 多重线性回归
10.1 多重线性回归
主要内容
一、多重线性回归的知识回顾 二、多重线性回归软件实现
心理统计学
一、多重线性回归分析的知识回顾
1.1 多重回归分析的一般步骤 1、确定回归方程中的解释变量和被解释变量 2、确定回归模型 3、建立回归方程 4、对回归方程进行检验 5、利用回归方程进行预测