spss第五讲回归分析
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(
bˆ
和
0
bˆ
1 的计算公式)
根据最小二乘法,可得求解
bˆ
和
0
bˆ
1
的
公式如下:
bˆ0
(三) 回归直线的拟合优度
一、变差 1、因变量 y 的取值是不同的,y 取值的这种波动称为变
差。变差来源于两个方面
由于自变量 x 的取值不同造成的 除 x 以外的其他因素(如x对y的非线性影响、测量误差等)
回归分析的过程
在回归过程中包括:
Liner:线性回归 Curve Estimation:曲线估计
Binary Logistic: 二分变量逻辑回归 Multinomial Logistic:多分变量逻辑回归; Ordinal 序回归;Probit:概率单位回归; Nonlinear:非线性回归; Weight Estimation:加权估计; 2-Stage Least squares:二段最小平方法; Optimal Scaling 最优编码回归 我们只讲前面2个简单的(一般教科书的讲法)
sbˆ1
se
xi x2
bˆ1的估计的标
回归系数的检验和推断
(检验步骤)
1. 提出假设
H0: b1 = 0 (没有线性关系) H1: b1 0 (有线性关系)
2. 计算检验的统计量
t bˆ1 ~ t(n 2)
sbˆ1
3. 确定显著性水平,计算出统计量的P值,并
做出决策
独立性。独立性意味着对于一个特定的 x 值,
它所对应的ε与其他 x 值所对应的ε不相关;对于一 个特定的 x 值,它所对应的 y 值与其他 x 所对应的 y 值也不相关
估计的回归方程
(estimated regression equation)
1. 总体回归参数β0和β1是未知源自文库,必须利用样本数 据去估计
( p1)
第一部分 回归分析
什么是回归分析?
1、重点考察一个特定的变量(因变量),而 把其他变量(自变量)看作是影响这一变 量的因素,并通过适当的数学模型将变 量间的关系表达出来
2、利用样本数据建立模型的估计方程 3、对模型进行显著性检验 4、进而通过一个或几个自变量的取值来估
计或预测因变量的取值
P<,拒绝H0,表明自变量是影响因变量的一个显
著因素
回归系数的检验和推断
(b1和b0的置信区间)
1. b1在1- 置信水平下的置信区间为
bˆ1 ±t 2 (n 2)
se
n
(xi x)2
i 1
2. b0在1- 置信水平下的置信区间为
bˆ0 ±t 2 (n 2)se
1 (x)
第二部分 线性回归
线性回归分为一元线性回归和多元线性回归。 一、一元线性回归:
1、涉及一个自变量的回归
2、因变量y与自变量x之间为线性关系
被预测或被解释的变量称为因变量(dependent variable),
用y表示
用来预测或用来解释因变量的一个或多个变量称为自变量
(independent variable),用x表示
n
y yˆ 2
i
s i1
i
SSE MSE
e
n k 1
n k 1
(四) 显著性检验
线性关系的检验 1、检验自变量与因变量之间的线性关系是否显著; 2、将回归均方(MSR)同残差均方(MSE)加以比较,
应用F检验来分析二者之间的差别是否显著
回归均方(MSR):回归平方和SSR除以相应的 自由度(自变量的个数k)
注意!
置信区间和预测区间
y
yˆ bˆ0 bˆ1x
x
x
xp
用残差证实模型的假定
回归模型中假定ε期望值为0,方差相等且 服从正态分布的一个随机统计量。但是如果关 于ε的假定不成立的话,那么随后所做的检验、 估计、预测也许不成立。所有需要进行残差分 析确定ε的假定是否成立。 用残差证实模型的假定主要包括: 检验方差齐性 检验正态性
3 、误差项 满足条件
误差项 满足条件
正态性。 是一个服从正态分布的随机变量,
且期望值为0,即 ~N(0 , 2 ) 。对于一个给定的 x 值,y 的期望值为E(y)=b0+ b1x
方差齐性。对于所有的 x 值, 的方差一个特定
的值,的方差也都等于 2 都相同。同样,一个特定 的x 值, y 的方差也都等于2
回归分析的模型
一、分类 按是否线性分:线性回归模型和非线性回归模型 按自变量个数分:简单的一元回归和多元回归
二、基本的步骤
利用SPSS得到模型关系式,是否是我们所要的? 要看回归方程的显著性检验(F检验)
回归系数b的显著性检验(T检验)
拟合程度R2
(注:相关系数的平方,一元回归用R Square,多元回归 用Adjusted R Square)
1 r022 1 r122
r02 r03.2r13.2
1 r023.2 1 r32.2
r0i.12L
(i 1)(i 1)L
p
r0i.12L
(i1)(i1)L ( p1) r0 p.12L ( p1)rip.12L (i1)(i1)L 1 r02p.12L ( p1) 1 ri2p.12L (i1)(i1)L ( p1)
一、检验方差齐性
残差(residual)
1、因变量的观测值与根据估计的回归方程求 出的预测值之差,用e表示
ei yi yˆi
2、反映了用估计的回归方程去预测而引起的 误差
3、可用于确定有关误差项的假定是否成立 4、用于检测有影响的观测值
i 1
i 1
i 1
{ { {
总平方和 (SST)
回归平方和 (SSR)
残差平方和 (SSE)
SST = SSR + SSE
误差平方和的分解
(三个平方和的意义)
1、总平方和(SST—total sum of squares)
反映因变量的 n 个观察值与其均值的总误差
2 、 回 归 平 方 和 (SSR—sum of squares of regression)
b0 和 b1 称为模
型的参数
误差项 是随机
变量
注:线性部分反映了由于x的变化而引起的y的变
化;误差项反映了除x和y之间的线性关系之
外的随机因素对y的影响,它是不能由x和y之 间的线性关系所解释的变异性。
一元线性回归模型(基本假定)
1、因变量x与自变量y之间具有线性 关系
2、在重复抽样中,自变量x的取值 是固定的,即假定x是非随机的
的影响
2、对一个具体的观测值来说,变差的大小可以通过该 实际观测值与其均值之差y y 来表示
误差分解图
y
(xi , yi )
y yˆ
yy
yˆ y
yˆ bˆ0 bˆ1x
y
x
误差平方和的分解 (误差平方和的关系)
n
n
n
yi y 2 yˆi y 2 yi yˆi 2
判定系数R2
(coefficient of determination)
回归平方和占总误差平方和的比例
n
R 2
SSR SST
yˆi y 2
i 1 n
yi y 2
i 1
1、反映回归直线的拟合程度 2、取值范围在 [ 0 , 1 ] 之间
3、R2 1,说明回归方程拟合的越好; R2 0,说明回归方程拟合的越差
(二) 参数的最小二乘估计
德国科学家Karl Gauss(1777—1855)提出用最 小化图中垂直方向的误差平方和来估计参数
使因变量的观察值与估计值之间的误差平方和
达到最小来求得bˆ0和 bˆ1的方法。即
n
n
(yi yˆ)2 (yi bˆ0 bˆ1xi )2 最小
多元线性回归一般采用逐步回归方法-Stepwise。
(一) 一元线性回归模型
(linear regression model)
1、描述因变量 y 如何依赖于自变量 x 和误差项 的方程称为回归模型
2、一元线性回归模型可表示为
y = b0 b1 x
Y是x 的线性函数
(部分)加上误差项
4、决定系数平方根等于相关系数
估计标准误差
(standard error of estimate)
1、实际观察值与回归估计值误差平方和的均方根 2、反映实际观察值在回归直线周围的分散状况 3、对误差项的标准差的估计,是在排除了x对y的
线性影响后,y随机波动大小的一个估计量 4、反映用估计的回归方程预测y时预测误差的大小 5、计算公式为(k为自变量个数)
3、因变量与自变量之间的关系用一个线性方程来表示
线性回归的过程
一元线性回归模型确定过程 一、做散点图(Graphs ->Scatter->Simple)
目的是为了以便进行简单地观测(如: Salary与Salbegin的关系)。 二、建立方程 若散点图的趋势大概呈线性关系,可以建立线性方 程,若不呈线性分布,可建立其它方程模型,并比较R2 (-->1)来确定一种最佳方程式(曲线估计)。
2. E(y0) 在1-置信水平下的置信区间为
yˆ0 t 2 (n 2)se
1
n
x0 x2
n
xi x2
i 1
式中:se为估计标准误差
个别值的预测区间
1. 利用估计的回归方程,对于自变量 x 的一个给定值 x0 ,求出因变量 y 的一个个别值的估计区间,这一
区间称为预测区间(prediction interval) 2. y0在1-置信水平下的预测区间为
2. 用样本统计量 bˆ0和 bˆ1代替回归方程中的未知参
数β0和β1 ,就得到了估计的回归方程
3. 一元线性回归中估计的回归方程为
yˆ bˆ0 bˆ1x
其中:bˆ0是估计的回归直线在 y 轴上的截距,bˆ1是直线的
斜率,它表示对于一个给定的 x 的值, yˆ 是 y 的估计值,
也表示 x 每变动一个单位时, y 的平均变动值
4. 采用t检验
回归系数的检验和推断
(样本统计量 的分布)
1.
bˆ
是
1
根
据
最
小
二
乘
法
求
出
的
样
本
统
计
量
,
它
有
自
己的分布
2. bˆ1的分布具有如下性质 分布形式:正态分布
数学期望:E ( bˆ1 ) b 1
标准差:
bˆ1
xi x2
由于
准差
未知,需用其估计量se来代替得到
n
n
(xi x)2
i1
(五)利用回归方程进行预测
1. 平均值的置信区间 2. 个别值的预测区间
区间估计 平均值的置信区间
1. 利用估计的回归方程,对于自变量 x 的一个给定 值 x0 ,求出因变量 y 的平均值的估计区间 ,这
一估计区间称为置信区间(confidence interval)
i1
i1
注:用最小二乘法拟合的直线来代表x与y之间的 关系与实际数据的误差比其他任何直线都小。
Karl Gauss的最小化图
y
(xn , yn)
(x2 , y2)
(x1 , y1)
ei = yi^-yi
(xi , yi)
yˆ bˆ0 bˆ1x
x
参数的最小二乘估计
第五讲 回归分析、线性回归和曲线估计
第一部分 回归分析 第二部分 线性回归 第三部分 曲线估计
第一部分 第十讲回顾
在对其他变量的影响进行控制 的条件下,衡量多个变量中某两个 变量之间的线性相关程度的指标称 为偏相关系数。
偏相关分析的公式表达
r01.2
r01.23
r01 r02r12
反映自变量 x 的变化对因变量 y 取值变化的影响, 或者说,是由于 x 与 y 之间的线性关系引起的 y 的取值变化,也称为可解释的平方和
3、残差平方和(SSE—sum of squares of error)
反映除 x 以外的其他因素对 y 取值的影响,也称 为不可解释的平方和或剩余平方和
由度n-2求统计量的P值(一元)
4. 作出决策:若P<,拒绝H0。表明两个变量之间
的线性关系显著
回归系数的检验和推断
1. 检验 x 与 y 之间是否具有线性关系,或者说 ,检验自变量 x 对因变量 y 的影响是否显著
2.
理论基础是回归系数
bˆ
的抽样分布
1
3. 在一元线性回归中,等价于线性关系的显著性 检验
残差均方(MSE):残差平方和SSE除以相应的 自由度(n-k-1)
线性关系的检验
(检验的步骤)
1. 提出假设
H0:b1=0 线性关系不显著
2. 计算检验统计量F F SSR 1 MSR ~ F(1, n k 1) SSE (n k 1) MSE
3. 确定显著性水平,并根据分子自由度1和分母自