心理学研究方法-多元回归分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
上-把ZPRED放入Y,把ZRESID放入X轴—— OK
第十一页,共41页。
原始回归方程Y=0.0498X+0.441 标准化回归方程Zy=0.881Zx
β = (δy/ δx)*r =(0.41989/7.426)*0.881=0.04981 α= μy- βμx =3.1027-0.04981*53.43=0.441
回归分析的步骤
2、考察数据的分布,进行必要的预处理。 3、进行直线回归,选入变量进入计算。
回归方程是否显著 偏回归系数显著 根据决定系数,校正决定系数判断拟合得好不好。决定最优方

第二十五页,共41页。
回归分析的步骤
4、残差分析,分析两方面:
✓ 残差是否独立:用durbin-watson进行分析(取值0<d<4)。如果 独立,则d约等于2。如果相邻两点的残差为正相关,d<2。当相 邻两点的残差为负相关时,d>2。
非标准化偏回归系数
b1=B1*(sy/sx1)
第二十页,共41页。
多元回归的样本量要求
多元回归模型的样本量要求
根据经验,希望样本量在自变量数的20倍以上。
比如:有5个自变量,则样本量应该在100以上,少 于此数可能会出现检验效能不足的问题
第二十一页,共41页。
多元线性回归的条件
同一元线性回归的条件
一元线性回归步骤
先探索数据,判断是否整态、极端值
画散点图(画出散点图后,双击图,右键选 add fit line at total tool)
Analyze-regression-把肺活量放入因变量 dependent-体重放入自变量independent
Statistics-默认的-residuals-durin waston save ——distance –勾上Cook’s和leverage值 Plots-histogram 和 normal probability plot勾
一元预测和某多一元个线变量性。回归的差别在于自变量 的个数 • 例如:儿童的体重和年龄,都与身高存在线性关系,
当已知体重和年龄时,对身高进行预测。
第四页,共41页。
一元线性回归
第五页,共41页。
一元线性回归方程(使用原始数据计算的回归方程)




Y是因变量,X是自变量,alpha和beta是待求的参数。
在问卷调查中用得多
包括线性和非线性、一元和多元回归分析
第三页,共41页。
一元和多元线性回归
一元线性回归:在两个变量具有线性关系的 基础上,建立预测方程式。用一个变量预测 另一个变量。
• 如儿童的身高和体重存在线性相关,当得知身高时, 预测被试的体重范围。
多元线性回归:多个变量都与一个变量存在 相关关系,建立用预测方程式。用多个变量
程 自由进入变量用forward、backward和stepwise方
法放入方程
第三十页,共41页。
Enter法
第三十一页,共41页。
逐步回归法(可以得出更优的方程)
第三十二页,共41页。
决定系数的变化量
第三十三页,共41页。
回归方程的显著性检验
保留的变量,因为回归系数和偏回归系数显著
删除的变量,因为标准化回归系数不 显著
leverage值(杠杆值):当值>3倍均数,均数 为(自变量个数+1)/N
画散点图:最后把cook距离值和leverage杠杆 值分别作为X和Y轴画散点图,方便判断。
强影响点处理
• 判断原因,考虑是否删除
第九页,共41页。
一元线性回归例子
建立体重和肺活量的回归方程(用练习1的 数据)
第十页,共41页。
✓ 残差是否正态:采用残差图显示(勾选Histogram和Normal probability plot就行)。
✓ 残差的方差齐性:以标准化预测值(ZPRED)为横轴,标准化 残差(ZRESID)为纵轴做散点图。若散点随机分布,且绝大部分在 2倍标准差以内,则最好,表明没有相关。如最左图最好。中间 图随着x值,残差越来越大。最右图,残差非正态。
第十五页,共41页。
残差的正态性
对比直方图和正态曲线的相似性,是否是 中间高,两头低。P-P图的点是不是接近对 角线。
第十六页,共41页。
残差齐性
第十七页,共41页。
多元回归
第十八页,共41页。
多元回归方程
偏回归系数:当其他变量不变时,xi每改变一个 单位,所预测的y的平均变化量。受到自变量的单

β = (δy/ δx)*r,称为非标准化回归系数
现 形
α= μy- βμx

标准化回归方程(使用标准化的数据计算的回归方程)
ZY=BZx B = (δZy/ δZx)*r=1*r=r,称为标准化回归系数
第六页,共41页。
回归分析的一般过程
1、提出假设的回归模型,确定自变量和因 变量。自变量是现实中容易测量的,而因 变量是难测量的,如幸福感、自我效能感 等
内容
基础概念 一元线性回归
一元回归方程、线性回归条件 步骤 强影响点判断
多元线性回归
1、回归方程、线性回归条件 2、线性回归步骤 3、评价方程的优度 4、强影响点判断 5、多重共线性的判断
第一页,共41页。
基础概念
第二页,共41页。
回归
什么是回归?
变量间存在相关关系时,也就具备了建立预测 关系的基础。在相关变量见建立预测方程式的 统计学方法叫做回归分析。
R值越接近于1,表明y与所有x之间的线性关系越 密切。
第三十八页,共41页。
对强影响点的诊断和处理
同一元线性回归
第三十九页,共41页。
多重共线性(conlinerarity diagnostics)
判断方法 相关系数矩阵:当相关系数>0.8,代表共线性越大。 容忍度(tolerance):最大值为1。当值越小, 代表共线性越大。 特征值(eigenvalue):表示该因子所解释变量 的方差。如果很多变量的特征值<1,表示共线性。
第二十六页,共41页。
回归分析的步骤
残差是否正态:画图来评价
1、残差直方图:标准化残差为x轴,标准化残差频数为Y轴。与正 态曲线比较,是否拟合。
2、残差p-p图:累积残差观测分布为x轴,期望分布为Y轴。如果 符合的话数据会和理论的直线(对角线)重合。
第二十七页,共41页。
回归分析的步骤
5、根据散点图,对强影响点进行判断和对多重共 线性进行判断(自变量之间不能有强相关。)最 后两幅图是有强影响点。需要判断是否数据出错, 出错则删掉。
第二十二页,共41页。
回归分析的5个步骤
第二十三页,共41页。
回归分析的步骤
1、做出散点图,观察变量间的趋势(是否线性)。 这些图是用来观察是否是线性趋势。如果不是线性, 可能考虑其他对变量进行预处理,或用曲线回归
注意:是否是曲线关系,或者强影响点造成的线性,或者极端 值)
第二十四页,共41页。
校正的决定系数:
随着自变量的增加,R2自然就会随之增加。所以R2是一个受自变量 个数与样本规模影响的系数,一般的常规是1:10为好。当这个比例 小于1:5时,R2倾向于高估实际的拟合优度。为了避免这种情形,常 用校正的R2代替。
第十四页,共41页。
回归方程显著:说明X与Y 有显著的线性关 系。用该方程表示X与Y之间的关系是可靠 的。如果不显著,则不能用回归方程表示X 与Y 之间的关系。
偏回归系数的显著性检验
判断指定的某个自变量的回归系数是否显著。显著的话,代表与 残差相比,该x变量对y的贡献是显著的。
根据回归系数显著、偏回归系数显著、校正的决 定系数判断最优方程。
第三十七页,共41页。
复相关系数R 值域在[0,1],是因变量y与所有自变量之间的多元
线性相关程度的度量。
第十二页,共41页。
测定系数
判断因变量Y是独 立的
回归方程的显著 性检验
ቤተ መጻሕፍቲ ባይዱ第十三页,共41页。
回归方程的系数、 标准化回归系数、 回归系数的显著性 检验
决定系数
决定系数R2
值域在[0,1],越接近于1,表明方程的自变量对y 的解释能力越强。
当变量的关系是线性关系时,R2越大,说明回 归方程拟合数据越好,共变越多。
第二十八页,共41页。
步骤同一元回归
补充步骤 在statistic勾上R square change,part and partial correlation(半偏相关和偏 相关),conlinerarity diagnostics(共线性判断)
第二十九页,共41页。
分层回归方法
Enter:强制进入 Forward:前向选择法 Backward:反向删除法 Stepwise:逐步回归,最常用 把需要控制的变量用这种方法强制enter法放入方
自变量的任何一个线性组合因变量y的方差均相同把zpred放入y轴把zresid放入x轴做图画散点图画出散点图后双击图右键选addfitlinetotaltoolanalyzeregression把肺活量放入因变量dependent体重放入自变量independentstatistics默认的residualsdurinwastonsavedistance勾上cooks和leverage值plotshistogram和normalprobabilityplot勾上把zpred放入y把zresid放入x轴ok3102700498153430441原始回归方程y00498x0441标准化回归方程zy0881zx测定系数判断因变量y是独立的回归方程的显著性检验回归方程的系数标准化回归系数回归系数的显著性检验校正的决定系数
处理办法 增加样本量
主成分分析
第四十页,共41页。
谢谢!
第四十一页,共41页。
位影响。因此可以用标准化回归系数。
标准化偏回归系数:可以用来比较哪个自变量 是影响y的主要因素,哪个是次要因素(即哪个自 变量对y的影响更多)。
第十九页,共41页。
回归系数计算
标准化偏回归系数(假如有两个自变量) B1=(r1y-r2y*r12)/(1-r212) B2=(r2y-r1y*r12)/(1-r212)
2、估计回归是线性还是非线性,用散点图 判断。如果是线性则用线性回归。(必须做)
3、建立回归方程 4、回归方程的有效性检验,测定系数和回
归系数
第七页,共41页。
一元线性回归的条件
1、线性趋势(用散点图检测)
2、独立性:因变量y的取值相互独立,残 差独立。
用durbin-watson计算,值在0-4。如果残差间 相互独立,则取值在2附近。D小于2说明相邻 误差存在负相关。大于2,说明存在正相关
第三十四页,共41页。
第三十五页,共41页。
多重共线 性判断
回归方程的解释能力
回归方程的显著性检验 偏回归系数的显著性检验 决定系数R2,校正决定系数R2 复相关系数R
第三十六页,共41页。
回归方程的解释能力
回归方程的显著性检验
当显著时,便可以认为回归方程中至少有一个回归系数是显著的, 但是并不一定多有的回归系数都是显著的。
3、正态性:自变量的任何一个线性组合, 因变量y都服从正态分布,残差正态(直方 图和PP图)。
4、方差齐性:自变量的任何一个线性组合 ,因变量y的方差均相同(把ZPRED放入Y轴,把
ZRESID放入X轴做图) 第八页,共41页。
注意的问题
强影响点判断(极端值的判断)
Cook’s distance:当值>1,表明是特别大的 极端值。
相关文档
最新文档