简单线性相关(一元线性回归分析)
一元线性回归分析
C=α+βy + µ
其中, µ是随机误差项。 是随机误差项。 其中, 是随机误差项 根据该方程, 的值, 根据该方程,每给定一个收入 y 的值,消 并不是唯一确定的, 费C并不是唯一确定的,而是有许多值, 并不是唯一确定的 而是有许多值, 他们的概率分布与µ的概率分布相同 的概率分布相同。 他们的概率分布与 的概率分布相同。 线性回归模型的特征: 线性回归模型的特征: 有随机误差项! 有随机误差项!
21
说
明
一、严格地说,只有通过了线性关系的检验,才 严格地说,只有通过了线性关系的检验, 能进行回归参数显著性的检验。 能进行回归参数显著性的检验。 有些教科书在介绍回归参数的检验时没有考虑线 性关系的检验,这是不正确的。 性关系的检验,这是不正确的。因为当变量之间 的关系没有通过线性检验时, 的关系没有通过线性检验时,进行回归参数显著 性的检验是没有意义的。 性的检验是没有意义的。 在一元线性回归分析中, 二、在一元线性回归分析中,即只有一个解释变 量时,这两种检验是统一的。 量时,这两种检验是统一的。但在多元回归分析 这两种检验的意义是不同的。 中,这两种检验的意义是不同的。 为了说明该问题, 为了说明该问题,我们在本章中依然把两种检验 分开论述。 分开论述。
13
为了达到上述目的, 为了达到上述目的,我们直观上会采 用以下准则: 用以下准则: 选择这样的SRF,使得: 选择这样的 ,使得:
残差和∑ ε i = ∑ ( yi − yi )尽可能小! ˆ
但这个直观上的准则是否是一个很好 的准则呢?我们通过以下图示说明: 的准则呢?我们通过以下图示说明:
14
12
ˆx i + ε i yi = α + β ˆ ˆ 即:y i = y i + ε i ˆ ∴ ε i = yi − yi
一元线性回归分析
回归分析(一元)一、实验目的掌握回归分析的步骤及操作。
二、相关理论知识1.回归分析的步骤: 首先,进行相关分析。
具体应先从定性角度分析变量之间有无相关关系;若存在相关关系,在借助散点图,相关系数等方式,进一步确定相关关系的类型及相关程度,为建立回归模型提供依据。
接下来,以相关分析为基础,进行回归分析。
2.流程框架3.一元线性回归模型的基本形式为:i i i X Y μββ++=10 n i ,,2,1 =4.参数估计方法:最小二乘法最小二乘法通过使残差项的平方和最小来估计参数0β和1β。
即∑2i e 最小。
求出0β、1β的估计值为:21)())((i i i i i i X X Y Y X X -∑--∑=∧β,i i X Y 10∧∧-=ββ三、实验内容及要求1、实验内容:(1)散点图、相关系数; (2)参数估计及结果解读; 2、实验要求:掌握相关分析及回归分析的操作及结果解读四、操作指导(一)相关分析 1.散点图绘制利用我国1978年——2001年国内生产总值和最终消费支出的数据。
经济学的理论可以证明,国内生产总值和最终消费支出之间存在关联。
在此基础上,绘制散点图。
第一步,同时选中x ,y 两个序列,点击右键,选择open 级联菜单as group 。
(注意:在选中两个序列时,先选择哪个,打开组后哪个就在前面,作图时默认它就是横轴的变量)第二步,在group窗口,点击view下拉菜单,选择graph——scatter,点确定。
见图1图1表明两者具有很强的线性相关关系。
2.简单相关系数的计算在group窗口选择view下拉菜单中的covariance analysis,将correlation选中,同时将covariance复选框中的√去掉。
然后确定,即可得x和y的简单相关系数矩阵,见图2:图2结果显示x和y之间的简单相关系数为0.999373,两者之间存在高度正线性相关关系。
可建立一元线性回归模型。
一元线性回归
由此可推测:当火灾发生地离最近的消 防 站 为 10km 时 , 火 灾 损 失 大 致 在
ˆ y 10.279 49.19 59.369(千元) 当火 ;
灾发生地离最近的消防站为 2km 时,火灾损 失大致在 20.117(千元)
三、0,1的性质
1, 线性
1
(x x ) y
为 y 关于 x 的一元线性经验回归方程 (简称为回归直
ˆ 线方程) 0 为截距, 1 为经验回归直线的斜率。 , ˆ
引进矩阵的形式:
y1 1 x1 1 0 y2 1 x2 2 设 y , X , , 1 y 1 x n n n
变量之间具有密切关联 而又不能由一个或某一些变 量唯一确定另外一个变量的 关系称为变量之间的相关关 系.
y
y f ( x)
y
Y f (X )
0
(a) 函数关系
x
0
(b) 统计关系
x
种类
正相关 负相关
一元相关 多元相关
线性相关 曲线相关
y
y
y
y
正相关
x
负相关
x
曲线相关
x
不相关
x
例 2 城镇居民的收入与消费支出之间有很大的关 联,居民的收入提高了,消费也随之潇洒,但居民的 收入不能完全确定消费,人们的消费支出受到不同年 龄段的消费习惯的影响,也受到不同消费理念的影响。 因此居民的收入 x 与消费支出 y 就呈现出某种不确定 性。 我们将上海市城镇居民可支配收入与支出的数据 (1985 年~2002 年)用散点图表示,可以发现居民的 收入 x 与消费支出 y 基本上呈现线性关系,但并不完 全在一条直线上。 附数据与图形。
第9章 一元线性回归分析
9.1.2相关关系的类型
从涉及的变量数量看
简单相关 多重相关(复相关)
从变量相关关系的表现形式看
线性相关——散点图接近一条直线(左图) 非线性相关——散点图接近一条曲线(右图)
25 20 15 10 5 0 0 2 4 6 8 10 12
11.2
11
10.8 10.6 10.4 10.2 10
若在定距变量分布不满足正态性的条件,可将定距变 量降级为定序变量
如要研究考试中学生交卷的名次是否与成绩有关,
交卷名次与考试名次之间的关系
交卷名 次
1 2 3 4
5
6
7
8
9
10
11
12
考试成 绩
94 74 74 60 68 86 92 60 78 74
78
64
参阅《统计学在经济和管理中的应用》
2 i i 2 i i
__
^
__
^
2
总离差平方和
回归平方和
残差平方和
判定系数定义:
r
2
(Y Y ) (Y Y )
i i
^
2 2
判定系数的特点
判定系数是非负的统计量; 判定系数取值范围: 0 r 2 在一元线性回归中,判定系数在数值上是
独立性意味着对于一个特定的 x 值,它所对应的ε与其他 x 值所对应的ε不相关 对于一个特定的 x 值,它所对应的 y 值与其他 x 所对应的 y 值也不相关
回归方程
描述因变量y的期望值如何依赖于自变量x的方程称为回归方程。
E( y) b0 b1 x
估计的回归方程
(estimated regression equation)
第15讲 一元线性回归分析
n
i 1
2
2 2 ˆ ˆ 2b yi y xi x b xi x i 1 i 1
i 1
n
i 1
n
ˆS /S ˆ b ˆ2 S S bS ˆ . b S yy 2bS xy xx xy xx yy xy
例2 求例1中误差方差的无偏估计。
采用最小二乘法估计参数a和b,并不需要事先知道Y与x之间 一定具有相关关系,即使是平面图上一堆完全杂乱无章的散 点,也可以用公式求出回归方程。因此μ(x)是否为x的线性函 数,一要根据专业知识和实践来判断,二要根据实际观察得 到的数据用假设检验方法来判断。
即要检验假设 H0 : b 0, H1 : b 0, 若原假设被拒绝,说明回归效果是显著的,否则, 若接受原假设,说明Y与x不是线性关系,回归方程 无意义。回归效果不显著的原因可能有以下几种:
将每对观察值( xi , yi )在直角坐标系中描出它相应的点 (称为散点图),可以粗略看出 ( x)的形式。
基本思想
(x, Y)
回归分析 回归方程
采集样本信息 ( xi, yi )
散点图
回归方程参数估计、显著性检验
对现实进行预测与控制
一元回归分析:只有一个自变量的回归分析 多元回归分析:多于一个自变量的回归分析
x1 x2 x3
xi
xn
整理得 na ( xi )b yi ,
( xi )a ( xi )b xi yi .——正规方程组
2 i 1 i 1 i 1
n
i 1
n
i 1
n
na ( xi )b yi ,
i 1 i 1
n
n
一元线性回归分析
总体回归函数
·y i4
y01x
样本回归
·y i 3
yˆ0ˆ1x 函数
yi0
· y i0 0 1 x i E y x x i
·y ·y
i i
2 1
0
2019/11/13
xi 朱晋
x
16
• 回归函数(PRF)说明被解释变量Y的平均状态
(总体条件期望)随解释变量X变化的规律。
2100 1900 1700 1500
Y 1300 1100 900 700 500 0
2019/11/13
500
1000
1500
2000
ቤተ መጻሕፍቲ ባይዱ
2500
3000
X
朱晋
14
在给定解释变量Xi 条件下被解释变量Yi Y的期望轨迹称为 总体回归线(population regression line),或更一般地称为总
yi 01xiui
• 利用样本观察值找出参数 0 和 1的估计值,
得到样本回归模型:
yˆi ˆ0ˆ1xi
• 检验估计值的性质,并利用样本回归模
型分析被解释变量的总体平均规律。
2019/11/13
朱晋
8
• 由于变量间关系的随机性,回归分析关心的是根据 解释变量的已知或给定值,考察被解释变量的总体
2019/11/13
朱晋
20
• 3、总体线性回归模型(2.1.3)的基本假设有:
• 1、随机误差项的均值为零 Eui0
• 2、随机误差项各分量的方差相等(等方差)
D u i V u ia u 2 r ,i 1 ,2 , ,n
• 3、随机误差项在不同样本点之间是独立的,
一元线性回归分析PPT课件
拟合程度评价
拟合程度是指样本观测值聚集在样本回归线周围的紧
密程度. ( Y t Y ) ( Y ˆ t Y ) ( Y t Y ˆ t)
n
n
n
(Y t Y )2 (Y ˆt Y )2 (Y t Y ˆ)2
t 1
t 1
t 1
n
(Yt Y)2 :总离差平方和,记为SST;
t1
n
第8页/共40页
例
食品序号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
求和
脂肪Xt 4 6 6 8 19 11 12 12 26 21 11 16 14 9 9 5
热量Yt 110 120 120 164 430 192 175 236 429 318 249 281 160 147 210 120
第1页/共40页
回归分析的分类
一个自变量
一元回归
回归分析
两个及以上自变量
多元回归
线性 回归
非线性 回归
线性 回归
非线性 回归
第2页/共40页
一元线性回归模型
(一)总体回归函数
Yt=0+1Xt+ut
ut是随机误差项,又称随机干扰项,它是一个特殊的 随机变量,反映未列入方程式的其他各种因素对Y的 影响。
(ˆ1t(n2)Sˆ1)
2
第15页/共40页
回归分析的Excel实现
“工具”->“数据分析”->“回归”
第16页/共40页
ˆ 0
S ˆ 0
ˆ 1
S ˆ 1
(ˆ0t(n2)Sˆ0)
2
(ˆ1t(n2)Sˆ1)
2
第17页/共40页
简单线性回归
注意: 这里将样本回归线看成总体回归线的近似替代
则
样本回归函数的随机形式/样本回归模型:
同样地,样本回归函数也有如下的随机形式: Yi Yˆi ˆi ˆ0 ˆ1 X i ei
式中,ei 称为(样本)残差(或剩余)项(residual),代表
回归函数在坐标系中用图形表示出来就 是回归线。它表示了应变量和解释变量 之间的平均关系。
回归线图示
概率密度函数 f(Yi)
Y
x1 xi Xk
PRF
X
注意:
一般地,在重复抽样中解释变量被假定 为固定的。所以回归分析中,解释变量 一般当作非随机变量处理。
1.4 总体回归函数
由于变量间关系的随机性,回归分析关心的是 根据解释变量的已知或给定值,考察被解释变量的总 体均值,即当解释变量取某个确定值时,与之统计相 关的被解释变量所有可能出现的对应值的平均值。
1.3.1 回归分析 是对一个应变量对若干解释变量依存 关系的研究; 其目的是:由固定的解释变量去估计 和预测应变量的平均值等。
1.3.2 回归函数、回归线
应变量Y的条件期望E(Y/X i )随着解释变量 X的变化而有规律地变化。把这种变化关 系用函数表示出来,就是回归函数:
E(Y/X i ) f(X i )
列入模型的那些次要因素的综合影响。
由中心极限定理μ服从的均值
不妨假设
m
rj 1
j 1
则有
m
rj zj Z j 1
因此,由中心极限定理,无论Zj原来的分布形式如何,只要它们 相互独立,m足够大,就会有μ趋于正态分布。
而且正态分布简单易用,且数理统计学中研究的成果很多,可以 借鉴。
一元线性回归
一元线性回归
一、回归分析的基本思想 二、一元线性回归的数学模型 三、可化为一元线性回归的问题 四、小结
一、回归分析的基本思想
确定性关系 变量之间的关系 相 关 关 系
S πr 2
身高和体重
确定性关系 相关关系
相关关系的特征是:变量之间的关系很难用一 种精确的方法表示出来.
确定性关系和相关关系的联系
n
xi x
2 ( x x ) j j 1 n
var( y ) i
2
2
2 ( x x ) j j 1 n
1 xi x ˆ 0 y 1 x ( x ) yi n lxx
1 xi x ˆ Var ( 0 ) x lxx n
由于存在测量误差等原因,确定性关系在实际 问题中往往通过相关关系表示出来;另一方面,当对 事物内部规律了解得更加深刻时,相关关系也有可 能转化为确定性关系. 回归分析——处理变量之间的相关关系的一 种数学方法,它是最常用的数理统计方法.
回 归 分 析
线性回归分析
非线性回归分析
一元线性回归分析
多元线性回归分析 β1 = Nhomakorabea(x
i=1 n
n
i
x )( yi y ) ,
2 ( x x ) i i=1
β0 = y β1 x,
1 n 1 n 其中 x xi , y yi . n i 1 n i 1
记
l xx = ( xi x )2 ,
i=1
n
l yy = ( yi y )2 ,
2 x x x 2 2 i ˆ ˆ ˆ cov(y , 1 ) x cov(1 , 1 ) x nlxx l xx l xx
一元线性回归分析
9--36
判定系数与回归估计标准差的计算
根据前述计算公式计算判定系数与回归估计标准差 ,需先根据样本回归方程计算出 X 的各观测值 xi 对 应的回归估计值 yi ,计算过程比较繁琐。
借助于 EXCEL 的“回归”分析工具可轻松得到其数 值。显示在 EXCEL 的回归输出结果的第一部分
判定系数( R Square )
也称为可解释的平方和。
3. 残差平方和( SSE 、 Q )
反映除 x 以外的其他因素对 y 取值的影 响,
9--29
可决系数(判定系数 r2 或
R2 )
1. 可决系数 = 回归平方和占总离差平方和的
比例
r2
SSR SST
ቤተ መጻሕፍቲ ባይዱ
回归平方和 总离差平方和
1
残差平方和 总离差平方和
综合度量回归方程对样本观测值拟合优度, 衡量变量之间的相关程度。
称为古典线性回归模型。
9--12
2. 样本回归方程( SRF )
实际中只能通过样本信息去估计总体回归方程的参 数。
一
元
线
性回归的
yˆi ˆ
样
本ˆx回i
归
方
a
程
的形
bxi
式
:
ˆ a, ˆ b 是样本回归方程的截距和斜率
yˆ ; i 是与 xi 相对应的 Y 的条件均值的估计 ; 9--13
样本回归方程与总体回归方程之关系
i 1
n2
�n ( yi yˆi ) 2
i 1
n2
9--34
回归估计标准差的作用
1. 反映实际观察值在回归直线周围的分散状 况;反映因变量各实际值与其回归估计值之
线性回归分析
r 2 SSR / SST 1 SSE / SST L2xy Lxx Lyy
❖
两个变量之间线性相关的强弱可以用相关系数r(Correlation
coefficient)度量。
❖ 相关系数(样本中 x与y的线性关系强度)计算公式如下:
❖ 统计学检验,它是利用统计学中的抽样理论来检验样本 回归方程的可靠性,具体又可分为拟合程度评价和显著 性检验。
1、拟合程度的评价
❖ 拟合程度,是指样本观察值聚集在估计回归线周围的紧密 程度。
❖ 评价拟合程度最常用的方法是测定系数或判定系数。 ❖ 对于任何观察值y总有:( y y) ( yˆ y) ( y yˆ)
当根据样本研究二个自变量x1,x2与y的关系时,则有
估计二元回归方程: yˆ b0 b1x1 b2 x2
求估计回归方程中的参数,可运用标准方程如下:
L11b1+L12b2=L1y
L12b1+L22b2=L2y b0 y b1 x1 b2 x2
例6:根据表中数据拟合因变量的二元线性回归方程。
21040
x2
4 36 64 64 144 256 400 400 484 676
2528
练习3:以下是采集到的有关女子游泳运动员的身高(英寸)和体
重(磅)的数据: a、用身高作自变量,画出散点图 b、根据散点图表明两变量之间存在什么关系? c、试着画一条穿过这些数据的直线,来近似身高和体重之间的关 系
测定系数与相关系数之间的区别
第一,二者的应用场合不同。当我们只对测量两个变量之间线性关系的 强度感兴趣时,采用相关系数;当我们想要确定最小二乘直线模型同数据符 合的程度时,应用测定系数。
一元回归分析
二、一元回归分析
相关分析与回归分析的研究目标和研究方法是有明 显区别的。从研究目的上看,相关分析是用一定的数量 指标度量变量间相互联系的方向和程度,通过抽象的相 关系数来反映变量之间相关关系的程度;而回归分析是 要寻求变量间联系的数学形式,建立的回归方程反映的 是变量之间的具体变动关系,而不是抽象的系数。根据 回归方程,利用自变量的给定值可以估计或推算出因变 量的数值。
存关系的研究,用适当的数学模型去近似地表达或估计变量
之间的平均变化关系,其目标是要根据已知或固定的自变量
的数值去估计因变量的总体平均值。
二、一元回归分析
2 相关分析与回归分析的联系和区别 .
相关分析和回归分析是互相补充、密切联 系的。相关分析需要回归分析来表明数量关系的 具体表现形式,而回归分析则应该建立在相关分 析的基础上。只有依靠相关分析,对现象的数量 变化规律判明具有密切相关关系后,再进行回归 分析,求其相关的具体表现形式,这样才具有实 际意义。
二、一元回归分析
3. 样本回归函数
通常总体包含的单位数很多,无法掌 握所有单位的数值,故总体回归函数实际 上是未知的,我们能做到的就是对应于自 变量X的选定水平,对因变量Y的某些样本 进行观测,然后通过对样本观测获得的信 息去估计总体回归函数。
二、一元回归分析
以例8-5中100个家庭的 可支配收入与消费支出为例, 假设从100个家庭的总体中各 随机抽取10个家庭进行观测, 形成了两个随机样本,可将两 个随机样本的数据绘制成散点 图,如图8-9所示。
二、一元回归分析
1 回归的概念 .
“回归”一词是由英国生物学家高尔顿(Galton)在遗
传学研究中首先提出的。他发现相对于一定身高的父母,子
女的平均身高有朝向人类平均身高移动或回归的趋势。这就
一元线性回归的基本步骤
一元线性回归的基本步骤一元线性回归分析的基本步骤如下:•1、散点图判断变量关系(简单线性);2、求相关系数及线性验证;3、求回归系数,建立回归方程;4、回归方程检验;5、参数的区间估计;6、预测;•••请点击输入图片描述•一、什么是回归分析法“回归分析”是解析“注目变量”和“因于变量”并明确两者关系的统计方法。
此时,我们把因子变量称为“说明变量”,把注目变量称为“目标变量址(被说明变量)”。
清楚了回归分析的目的后,下面我们以回归分析预测法的步骤来说明什么是回归分析法:回归分析是对具有因果关系的影响因素(自变量)和预测对象(因变量)所进行的数理统计分析处理。
只有当变量与因变量确实存在某种关系时,建立的回归方程才有意义。
因此,作为自变量的因素与作为因变量的预测对象是否有关,相关程度如何,以及判断这种相关程度的把握性多大,就成为进行回归分析必须要解决的问题。
进行相关分析,一般要求出相关关系,以相关系数的大小来判断自变量和因变量的相关的程度。
二、回归分析的目的回归分析的目的大致可分为两种:第一,“预测”。
预测目标变量,求解目标变量y和说明变量(x1,x2,…)的方程。
y=a0+b1x1+b2x2+…+bkxk+误差(方程A)把方程A叫做(多元)回归方程或者(多元)回归模型。
a0是y截距,b1,b2,…,bk是回归系数。
当k=l时,只有1个说明变量,叫做一元回归方程。
根据最小平方法求解最小误差平方和,非求出y截距和回归系数。
若求解回归方程.分别代入x1,x2,…xk的数值,预测y的值。
第二,“因子分析”。
因子分析是根据回归分析结果,得出各个自变量对目标变量产生的影响,因此,需要求出各个自变量的影响程度。
希望初学者在阅读接下来的文章之前,首先学习一元回归分析、相关分析、多元回归分析、数量化理论I等知识。
根据最小平方法,使用Excel求解y=a+bx中的a和b。
第二节一元线性回归分析
第二节一元线性回归分析本节主要内容:回归是分析变量之间关系类型的方法,按照变量之间的关系,回归分析分为:线性回归分析和非线性回归分析。
本节研究的是线性回归,即如何通过统计模型反映两个变量之间的线性依存关系.回归分析的主要内容:1.从样本数据出发,确定变量之间的数学关系式;2.估计回归模型参数;3.对确定的关系式进行各种统计检验,并从影响某一特定变量的诸多变量中找出影响显著的变量。
一、一元线性回归模型:一元线性模型是指两个变量x、y之间的直线因果关系。
理论回归模型:理论回归模型中的参数是未知的,但是在观察中我们通常用样本观察值估计参数值,通常用分别表示的估计值,即称回归估计模型:回归估计模型:二、模型参数估计:用最小二乘法估计:【例3】实测某地四周岁至十一岁女孩的七个年龄组的平均身高(单位:厘米)如下表所示某地女孩身高的实测数据建立身高与年龄的线性回归方程。
根据上面公式求出b0=80。
84,b1=4。
68。
三.回归系数的含义(2)回归方程中的两个回归系数,其中b0为回归直线的启动值,在相关图上变现为x=0时,纵轴上的一个点,称为y截距;b1是回归直线的斜率,它是自变量(x)每变动一个单位量时,因变量(y)的平均变化量。
(3)回归系数b1的取值有正负号。
如果b1为正值,则表示两个变量为正相关关系,如果b1为负值,则表示两个变量为负相关关系。
[例题·判断题]回归系数b的符号与相关系数r的符号,可以相同也可以不同.( )答案:错误解析:回归系数b的符号与相关系数r的符号是相同的=a+bx,b<0,则x与y之间的相关系数( )[例题·判断题]在回归直线yca。
r=0 b.r=1 c。
0<r〈1 d.—1<r〈0答案:d解析:b〈0,则x与y之间的相关系数为负即—1〈r〈0[例题·单选题]回归系数和相关系数的符号是一致的,其符号均可用来判断现象( )a。
线性相关还是非线性相关 b.正相关还是负相关c。
简单线性相关(一元线性回归分析)
第十三讲简单线性相关(一元线性回归分析)对于两个或更多变量之间的关系,相关分析考虑的只是变量之间是否相关、相关的程度,而回归分析关心的问题是:变量之间的因果关系如何。
回归分析是处理一个或多个自变量与因变量间线性因果关系的统计方法。
如婚姻状况与子女生育数量,相关分析可以求出两者的相关强度以及是否具有统计学意义,但不对谁决定谁作出预设,即可以相互解释,回归分析则必须预先假定谁是因谁是果,谁明确谁为因与谁为果的前提下展开进一步的分析。
一、一元线性回归模型及其对变量的要求(一)一元线性回归模型1、一元线性回归模型示例两个变量之间的真实关系一般可以用以下方程来表示:Y=A+BX+方程中的 A 、B 是待定的常数,称为模型系数,是残差,是以X预测Y 产生的误差。
两个变量之间拟合的直线是:y a bxy 是y的拟合值或预测值,它是在X 条件下 Y 条件均值的估计a 、b 是回归直线的系数,是总体真实直线距,当自变量的值为0 时,因变量的值。
A、B 的估计值, a 即 constant 是截b 称为回归系数,指在其他所有的因素不变时,每一单位自变量的变化引起的因变量的变化。
可以对回归方程进行标准化,得到标准回归方程:y x为标准回归系数,表示其他变量不变时,自变量变化一个标准差单位( Z XjXj),因变量 Y 的标准差的平均变化。
S j由于标准化消除了原来自变量不同的测量单位,标准回归系数之间是可以比较的,绝对值的大小代表了对因变量作用的大小,反映自变量对Y 的重要性。
(二)对变量的要求:回归分析的假定条件回归分析对变量的要求是:自变量可以是随机变量,也可以是非随机变量。
自变量 X 值的测量可以认为是没有误差的,或者说误差可以忽略不计。
回归分析对于因变量有较多的要求,这些要求与其它的因素一起,构成了回归分析的基本条件:独立、线性、正态、等方差。
(三)数据要求模型中要求一个因变量,一个或多个自变量(一元时为 1 个自变量)。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第十三讲简单线性相关(一元线性回归分析)对于两个或更多变量之间的关系,相关分析考虑的只是变量之间是否相关、相关的程度,而回归分析关心的问题是:变量之间的因果关系如何。
回归分析是处理一个或多个自变量与因变量间线性因果关系的统计方法。
如婚姻状况与子女生育数量,相关分析可以求出两者的相关强度以及是否具有统计学意义,但不对谁决定谁作出预设,即可以相互解释,回归分析则必须预先假定谁是因谁是果,谁明确谁为因与谁为果的前提下展开进一步的分析。
一、一元线性回归模型及其对变量的要求(一)一元线性回归模型1、一元线性回归模型示例两个变量之间的真实关系一般可以用以下方程来表示:Y=A+BX+方程中的 A 、B 是待定的常数,称为模型系数,是残差,是以X预测Y 产生的误差。
两个变量之间拟合的直线是:y a bxy 是y的拟合值或预测值,它是在X 条件下 Y 条件均值的估计a 、b 是回归直线的系数,是总体真实直线距,当自变量的值为0 时,因变量的值。
A、B 的估计值, a 即 constant 是截b 称为回归系数,指在其他所有的因素不变时,每一单位自变量的变化引起的因变量的变化。
可以对回归方程进行标准化,得到标准回归方程:y x为标准回归系数,表示其他变量不变时,自变量变化一个标准差单位( Z XjXj),因变量 Y 的标准差的平均变化。
S j由于标准化消除了原来自变量不同的测量单位,标准回归系数之间是可以比较的,绝对值的大小代表了对因变量作用的大小,反映自变量对Y 的重要性。
(二)对变量的要求:回归分析的假定条件回归分析对变量的要求是:自变量可以是随机变量,也可以是非随机变量。
自变量 X 值的测量可以认为是没有误差的,或者说误差可以忽略不计。
回归分析对于因变量有较多的要求,这些要求与其它的因素一起,构成了回归分析的基本条件:独立、线性、正态、等方差。
(三)数据要求模型中要求一个因变量,一个或多个自变量(一元时为 1 个自变量)。
因变量:要求间距测度,即定距变量。
自变量:间距测度(或虚拟变量)。
二、在对话框中做一元线性回归模型例 1:试用一元线性回归模型,分析大专及以上人口占 6 岁及以上人口的比例( edudazh)与人均国内生产总值(agdp)之间的关系。
本例使用的数据为st2004.sav,操作步骤及其解释如下:(一)对两个变量进行描述性分析在进行回归分析以前,一个比较好的习惯是看一下两个变量的均值、标准差、最大值、最小值和正态分布情况,观察数据的质量、缺少值和异常值等,缺少值和异常值经常对线性回归分析产生重要影响。
最简单的,我们可以先做出散点图,观察变量之间的趋势及其特征。
通过散点图,考察是否存在线性关系,如果不是,看是否通过变量处理使得能够进行回归分析。
如果进行了变量转换,那么应当重新绘制散点图,以确保在变量转换以后,线性趋势依然存在。
打开 st2004.sav数据→单击 Graphs→ Scatter→ 打开Scatterplot对话框→单击Simple→ 单击Define→打开Simple Scatterplot对话框→点选 agdp 到 Y Axis框→ 点选edudazh到X Aaxis框内→ 单击OK 按钮→在 SPSS的 Output 窗口输出所需图形。
图 12-1大专及以上人口占 6 岁及以上人口比例与人均国内生产总值的散点图60000.00 2004年人均国内生产总值(元)50000.0040000.0030000.0020000.0010000.000.000.00 5.00 10.00 15.00 20.002 0 0 4 年大专及以上人口占6 岁及以上人口的比例%判断:线性趋势较明显。
(二) SPSS线性回归主对话框介绍打开线性回归主对话框的操作方法是:在 st2004.sav 数据界面上单击 Analyze → Regression →Linear →打开Linear Regression主对话框图 12-2 Linear Regression命令位置图 12-3 Linear Regression主对话框Linear Regression主对话框的功能有:1、选择因变量Dependent 框:放置因变量,一次只能放一个因变量。
本例点选agdp 进入Dependent 框。
2、选择自变量Independent 框:放置自变量,可以放置多个自变量。
本例点选 edudazh 进入 Independent 框。
3、对自变量进行分组Block 按钮组:由 Previous 和 Next 两个按钮组成,用来对自变量框中的自变量进行分组,在多元回归时会用到。
4、变量进入方式Method 框:Enter :一元回归时,只选择这种方法,强行进入。
所有变量依次进入。
Stepwise :逐步回归,将所有满足条件的都进入方程,不满足的剔除。
Remove:强行移出法,这一方法必须在这一组自变量在前面一步已经纳入到回归时才用,否则没有可以剔除的。
Backward:自后消除法,将满足剔除标准的剔除Forward :向前加入法,所有满足进入回归方程的变量都可以进入。
在一元回归时,只用Enter 即可。
本例选择变量进入的方式为Enter 。
5、选择筛选变量Selection Variable框:选入一个筛选变量,并利用右侧的Rules 建立条件,这样,只有满足这个条件的记录才会进入回归分析,当然,我们也可以用 Data 菜单中的 Select Case过程来做,效果相同。
6、个案标签Case Labels选择一个变量,其取值作为每条记录的标签,最典型的是使用记录 ID 个案号的变量。
7、加权最小二乘法计算WLS Weight框;利用该按钮可进行加权最小二乘法的计算。
选入权重变量进入该框即可。
使用条件:当应变量的变异程度具有某种趋势,即不是等方差时,通过加权,进行分析,是一种有偏估计。
8、选择统计量Statistics框:可以选择回归系数、残差诊断、模型拟合度等多种回归分析非常重要的统计量,在下文将详细介绍。
9、输出图形Plots 框:可输出多种用于检验回归分析假定条件的图形,在下文将将详细介绍。
10、保存回归分析结果Save 框:可以把回归分析的结果存起来,然后用得到的残差、预测值等做进一步的分析。
单击图12-3 中的 Save按钮,打开 Linear Regression的 Save 对话框(见图 12-4),研究者可以根据自己的需要进行选择。
图 12-4 Linear Regression的 Save对话框图 12-4 中:可以保持的回归分析结果主要有:Predicated values:各种预测值 .#U nstandardized 保存模型对因变量的原始预测值 .#S tandardized:保存进行标准化后的预测值,均数 0,方差 1.#A djusted:保存调整后的残差。
#S.E. #of mean predictions:保存预测值的标准差 .Residuals:残差。
#U nstandardized :保存非标准化的残差,#S tandardized:保存进行标准化后的残差#S tudentlized:保存学生化残差#D eleted:它保存被排除进入相关系数计算的观察量的残差,是因变量与预测值之间的差值,通过它可以发现可疑的强影响点#S tudentlized Deleted:对上一个预测值进行 t 变换Distances:用来测量数据点离拟合模型距离的指标#Mahalanobis:个案值离样本平均值的距离,如果某个个案多个自变量出现大的这种距离,可以认为它是离群值#Cook’s 表示去除这个个案后,模型的残差会发生多大的变化,一般认为如果这个值大于 1,则有离群值或强影响点#L everage values:用来测量数据点的影响强度,如中心杠杠值的变动范围是 0――― (N-1)/NInfluence statistics:用来判断强影响点的统计量#D fBeta : Difference in Beta 去除某个观测值后回归系数的变化#s tandardized DfBeta 标准化的 DfBeta 值,当它大于 1/Sqrt(N)时,该点为强影响点,#DfFit. : Difference in fit value去除这个观测值后预测值的变化值#C ovariance ratio 去除这个观测值后,斜方差阵与包含全部观测值的斜方差阵的比率,如果绝对值大于 3*P/N ,这个观测值为强影响点或离群值。
11、置信水平和缺少值处理方式选择Options 框:当自变量进入方式采取逐步回归时,打开Options 对话框可以设定选择变量进入的和剔除的条件。
可以对缺少值的处理方式进行选择。
(三)回归分析统计量选择单击图 12- 3 中的 Statistics按钮,打开一个Linear Regression的Statistics对话框(见图 12-5),研究者可以根据自己的需要进行选择。
图 12-5 Linear Regression的 Statistics对话框1、回归系数及其基本含义图 12-5 中的 Regression Coefficients,提供了关于回归系数的三种选项。
Estimates 选项:点选后可输出回归方程中关于回归系数的基本情况,输出的数值有: B 值、 Beta 、 t 值、 t 值的双尾检验。
来看例 1 关于“大专及以上人口占 6 岁及以上人口比例与人均国内生产总值”线性回归方程的回归系数(见表 12- 1)。
表 13- 1 Coefficie n ts aUnstandardized StandardizedCoefficients CoefficientsModel B Std. Error Beta t Sig.1 (Constant) 218.567 2241.576 .098 .9232004年大专及以上人口占6岁及以2221.355 307.195 .802 7.231 .000上人口的比例%a.Dependent Variable: 2004年人均国内生产总值(元)2、置信区间点选图 12-5 中的 Confidence intervals ,可以求得回归系数的95%置信区间,在置信度 95%时,置信区间为:b j t/ 2s j , b j t/ 2s j式中 s j为样本标准差, b j为回归系数。
来看例 1 关于“大专及以上人口占 6 岁及以上人口比例与人均国内生产总值”线性回归方程的回归系数(见表 12-2)。
a表13-2回归系数及置信区间Unstandardized StandardizedCoefficients Coefficients 95% Confidence Interval for B Model B Std. Error Beta t Sig. Lower Bound Upper Bound1 (Constant) 218.6 2241.576 .098 .923 -4365.971 4803.1052004年大专及以上人口占 6岁及以2221 307.195 .802 7.231 .000 1593.071 2849.639上人口的比例%a. Dependent Variable: 2004年人均国内生产总值(元)表13-2给出了回归系数 B的 95%的置信区间,置信区间的下限为 1593.071 ,上限为 2849.639 。