张厚粲 第十章回归分析
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
简单地观测。
(2)若散点图的趋势大概呈线性关系,可以建立线性方程,
若不呈线性分布,可建立其它方程模型,并比较R2 (-->1)
来确定一种最佳方程式(曲线估计) (3)选定某种方法,计算a与b。 (4)将求得的ab值代入方程,得到回归模型 多元线性回归一般采用逐步回归方法-Stepwise
二、多元线性回归方程
1 2 2 s n X ( X ) n
r
n X ( ( X) n Y Y)
2 2 2 2
n XY X Y
n XY X Y nsX nsY
b
n XY X Y n X ( X)
2 2
n XY X Y n2s 2
量时,逐步回归过程结束。
四、回归系数与相关系数的关系
r>0 b> 0 r<0 b<0 r=0 b=0
一元线性回归方程的可能形态
为正
为负
为 0
r
2 2 2 n X 2 ( X ) n Y ( Y )
n XY X Y
b
n XY X Y
2 n X 2 ( X )
SST SSR SYX N 2
三、决定系数(R2)
当R2越接近1时,表示相关的方程式参考价值 越高;相反,越接近0时,表示参考价值越低。这 是在一元回归分析中的情况。但从本质上说决定 系数和回归系数没有关系,就像标准差和标准误 差在本质上没有关系一样。
SSR r (Y Y ) SST
和。SSE
Y ●
ˆ Y
Y
SST (Y Y ) Y
2 2
( Y )
2
N 2 ( X ) 2 2 2 ˆ Y ) b ( X SSR (Y ) N SSE SST SSE
dfT N 1 dfE N 2 dfR dfT dfE 1 SSR MS R dfR SSE MS E dfE MS R F MS E
2.回归系数
(1)因变量y对自变量x的变化率,即x每增加一个单位时,y 相应要增加或减少的单位数。 (2)回归方程式中的一个重要常数。因为每一个回归方程 式都有各自的回归系数,而每一个相关表内都有两个回归方程式,
所以该相关表中,会有两个回归系数。回归系数bxy,意指x在y上
的回归系数。同样,回归系数byx,是从y估计x的回归系数。决定 拟合线的过程,也就是决定斜率b的过程。 (3)是回归直线的斜率,即当自变量X变动一个单位时,其 因变量Y的估计值变动的单位数。
x
y
102
27
96
26
97
25
102
28
91
27
158
36
54
19
83
26
123
31
106
31
129
34
138
38
81
27
92
28
64
20
b
n xy x y n x x
2 2
15 44632 1516 423 0.1802 2 15 163654 1516
SYX
N 2
SYX
2 ˆ (Y Y )
N 2
SST SSR N 2
2 2
ˆ ˆ ( Y Y ) ( Y Y ) ( Y Y )
2
SST
2
SSR
2
SSE
2
ˆ ˆ ( Y Y ) ( Y Y ) ( Y Y ) SSE MS E SSE dfE SST SSR
(4)相关系数与回归系数: 回归系数大于零则相关系 数大于零;回归系数小于零则相关系数小于零 (它们的取 值符号相同)
(5)回归系数:由回归方程求导数得到,
所以, 回归系数>0,回归方程曲线单调递增;
回归系数<0,回归方程曲线单调递减;
回归系数=0,回归方程求最值(最大值、最小值)
3.一元线性回归模型的确定 (1)一般先做散点图(Graphs ->Scatter->Simple),以便进行
Y=b0+b1x1+b2x2+…+bnxn
– b0为常数项 – b1、b2、…、bn称为y对应于x1、x2、…、xn的偏回归系数 – 用Adjusted R2调整判定系数判定一个多元线性回归方程 的拟合程度:用来说明用自变量解释因变量变异的程度 (所占比例)
三、回归模型建立方法
(一)一元线性回归(简单线性回归) 1.平均数方法 2.最小二乘法
r bYX
n XY X Y nsX nsY sY r sX
2 bn2 s X bsX nsX nsY sY
四、线性回归的基本假设
1.线性关系假设
2.正态性假设
3.独立性假设
Y值独立,X造成的误差独立
4.误差等分散性假设
X误差,变异量相等
第三节 回归模型的检验与估计
一、回归模型的有效性检验(显著性检验)
– Weight Estimation:加权估计 – 2-Stage Least squares:二段最小平方法
– Optimal Scaling 最优编码回归
四、回归分析与相关分析
1. 概念:回归分析是指对具有相关关系的现象,根
据其相关的形态,选择一个合适的数学模型,近
似地表示变量之间平均变化关系的统计方法。
对原已引入回归方程的变量,逐个检验他们的偏回归平方和。如果由
于引入新的变量而使得已进入方程的变量变为不显著时,则及时从偏 回归方程中剔除。在引入了两个自变量以后,便开始考虑是否有需要 剔除的变量。只有当回归方程中的所有自变量对Y都有显著影响而不 需要剔除时,在考虑从未选入方程的自变量中,挑选对Y有显著影响 的新的变量进入方程。不论引入还是剔除一个变量都称为一步。不断 重复这一过程,直至无法剔除已引入的变量,也无法再引入新的自变
(3)在相关分析中,所有的变量都必须是随机变量;而在
回归分析中,自变量是给定的,因变量才是随机的。
3.回归分析与相关分析的联系 (1)相关分析是回归分析的基础和前提。如果缺少对现象之
间的相关关系作判断,就不能作回归分析,即使勉强做了,
有时也没有实际意义。 (2)回归分析是相关分析的深入和继续。相关分析仅仅说明 现象之间是否具有关系,它们之间的关系密切程度如何。只 有通过回归分析,建立了回归方程,才能从数量上反映变量 之间的联系形式,才可进行相应的回归预测,使相关分析具 有实际意义。
利用求得的关系式进行预测和控制
二、回归分析的模型
• 按是否线性分:线性回归模型和非线性回归模型
• 按自变量个数分:简单的一元回归,多元回归 • 基本的步骤:利用SPSS得到模型关系式,是否是我们所要 的,要看回归方程的显著性检验(F检验)和回归系数b的 显著性检验(t检验),还要看拟合程度R2 (相关系数的平方,一 元回归用R Square,多元回归用Adjusted R Square)
三、回归分析的过程
• 在回归过程中包括: – Liner:线性回归 – Curve Estimation:曲线估计 – Binary Logistic: 二分变量逻辑回归
– Multinomial Logistic:多分变量逻辑回归
– Ordinal 序回归 – Probit:概率单位回归
– Nonlinear:非线性回归
(一)F检验
ˆ ˆ ( Y Y ) ( Y Y ) ( Y Y )
2 2
2
总平方和 回归平方和 误差平方和
SST SSR SSE
(Y Y )
2
所有Y值的总平方和
2 回归直线表示的线性关系解释的那 ˆ (Y Y ) 部分离差平方和。SSR
2 ˆ (Y Y ) 回归直线无法解释的哪个离差平方
《心理统计学与SPSS》
第十章 回归分析
心理咨询中心 班永飞
第一节 回归分析的基本概念
一、回归分析的概念
• 寻求有关联(相关)的变量之间的关系
• 主要内容:
从一组样本数据出发,确定这些变量间的定量关系式
对这些关系式的可信度进行各种统计检验
从影响某一变量的诸多变量中,判断哪些变量的影响
显著,哪些不显著
第二节 线性回归(Liner)
一、回归模型
(一)一元线性回归方程 - a称为截距 – b为回归直线的斜率(回归系数) – 用R2判定系数判定一个线性回归直线的拟合程度:用来 说明用自变量解释因变量变异的程度(所占比例)。
回归系数的统计学意义是:自变量每变化一个单位,应
变量平均变化的单位数。(X变化一个单位,Y将变化b个 单位。)
i 1 2 ( X X ) i 1 n
n
b
n XY X Y n X ( X)
2 2
a Y bX
例:根据下表15个居民的人均月食品支出与人均月收入的
数值,建立月收入(x)与月食品支出(y)的线性回归方程。
编 号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
MSR是否显著大于MSE 显著:线性关系显著、回归方程显著、回 归方程成立、存在线性关系
对回归方程进行方差分析
二、回归系数的显著性检验( t 检验) 假设H0:Beta(β)=0
b t ( H 0 : 0) SEb
2 SYX SEb 2 ( X X ) 2 ˆ (Y Y )
2
ˆ ( Y Y )
2
• R2=70%
423 1516 a y bx 0.1802 9.9878 15 15
ˆ 9.9878 0.1802x y
(二)多元回归(逐步回归)
• 对全部的自变量x1,x2,...,xp,按它们对Y贡献的大小进行比较,
并通过F检验法,选择偏回归平方和显著的变量进入回归方程,每一 步只引入一个变量,同时建立一个偏回归方程。当一个变量被引入后,
总体一元线性 回归方程:
ˆ EY X Y
样本一元线性回归方程:
ˆ a bx y
E (Y )
ˆ X Y
截距 斜率
X
一元线性回归方程的可能形态
为正
Βιβλιοθήκη Baidu
为负
为 0
基本数学要求:
ˆ 0 y y ˆ ) min (y y
2
b
( X X )(Y Y )
2.回归分析与相关分析的区别
(1)在相关分析中,两个变量之间的关系是对等的,不存
在自变量和因变量的划分问题;在回归分析中,变量之 间的关系是不对等的,讨论的是因果关系。 (2)在相关分析中,根据两个变量只能计算一个相关系数 来反映变量之间相关程度的大小。而在回归分析中,对
于互为因果的两个变量 ,有可能存在两个回归方程。