第七讲 相关分析与回归分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

回归分析

回归分析是研究两个变量或多个变量之间因果关系的统计 方法。 基本思想:在进行相关分析的基础上,对确定具有相关关 系的两个或多个变量之间数量变化的一般关系进行测定, 确定一个合适的数学模型,以便从已知量来推断未知量。

相关分析与回归分析的区别

相关分析研究的变量之间关系是对等的,回归分析研究的 变量有解释和被解释之分; 相关分析研究的是随机变量,回归分析被解释变量是随机 变量,而解释变量非随机; 相关分析不能指出变量间相互关系的具体形式,回归分析 可以通过一个数学表达式来确定变量之间相关情况的具体 形式。
dU<DW<4-dU:随机扰动项不存在序列相关;
dL<DW<dU或者4-dU<DW<4-dL:不能确定是否存在序列相 关。
正相关
不相关
负相关

如果残差序列存在自相关,说明回归方程没能充分说明被 解释变量的变化规律,还留有一些规律性没有被解释,也 就是方程中遗漏了一些较为重要的的解释变量;或者,变 量存在滞后性;或者,回归模型选择不合适。

f ij Eij Eij
2
)

该检验的原假设为:两变量相互独立。
举例:列联表分析
案例6.1 双变量相关分析

案例6.1.sav的资料给出了杭州市2006年市区分月统计的平 均温度和日照时数。试据此分析平均温度和日照时数的相 关性。
偏相关分析

很多情况下,需要进行相关分析的变量的取值会同时受到 其他变量的影响,这时候就需要把其他变量控制住,然后 输出控制其他变量影响后的相关系数。SPSS的偏相关分析 (Partial)过程就是为解决这一问题而设计的。 控制变量个数为一时,偏相关系数称为一阶偏相关,为2则 是二阶偏相关。
DW检验。(零假设:总体的自相关系数ρ与0无显著差异。)

当随机扰动项存在序列相关时,进行Durbin-Watson检验:
2 ( e e ) i i 1 i 2 2 e i i 2 n n
DW

0<DW<dL:随机扰动项存在一阶正序列相关; 4-dL<DW<4:随机扰动项存在一阶负序列相关;
案例6.3 距离分析

SPSS的距离分析 (Distances) 也属于相关分析的范畴,其 基本功能是对样本观测值之间差异性或者相似程度进行度 量,从而对数据形成一个初步的了解。这种分析方法主要 应用在分析之前对数据背后的专业知识不够充分了解,进 行探索性研究的情形。

案例6.3.sav的资料给出了沈阳、大连和鞍山2006年各月的 平均气温情况。试用距离分析方法研究这三个地区月平均 气温的相似程度。
第七讲 相关分析与线性回归分析
内容概要

概述 相关分析 偏相关分析 回归分析 曲线估计
概述

相关分析和回归分析都是分析客观事物之间相关性的数量 分析方法。 相互关系:函数关系与统计关系 统计关系:不完全确定的随机关系,当一个或几个相互联 系的变量取一定值时,与其相对应的另一个变量取值虽不 确定,但会按照某种规律在一定范围内变化。 线性相关:正/负
方差比例:几个不同解释变量,某个特征根能够解释的方 差比例超过50%,则认为存在较强共线性。
案例6.4 简单线性回归分析

菲利普斯曲线表明,失业率和通货膨胀率之间存在着替代 关系。下面的资料给出了我国 1998-2007 年的通货膨胀率 和城镇登记失业率。试用简单回归分析方法研究这种替代 关系在我国是否存在。

非线性相关
相关分析-散点图

将数据以点的形式画在直角平面上。

基本操作:

图形-旧对话框-散点/点状
相关系数
1.
两个步骤: 计算样本相关系数r;
相关系数 取值范围 r=0 |r|<0.3 |r|=0.3~0.5 |r|=0.5~0.8 低度相关 显著相关 |r|>0.8 高度相关 |r|=1 完全相关
^
0
差。
ei 是 y i 与其拟合值 y 之间的离差,称为残 是 0 的估计值, i
^
线性回归建立在以下基本假设之上

2 对于所有的i,存在: i ~ N (0, )(i 1,2,n)
不同的随机扰动项之间不存在序列相关,即: Cov( s , t ) 0(s t ) 解释变量是非随机的,与随机扰动项不相关 K个解释变量不存在共线性

ˆ ˆ x ˆ x ˆ x ) ˆi yi ( 残差: ei yi y 0 1 1i 2 2i p pi
残差序列:多个ei 出发点:如果回归方程能较好地反映被解释变量的特征和 变化规律,那么残差序列中应不包含明显的规律性和趋势 性。
(1)残差均值为0的正态性分析; (2)残差的独立性分析: 绘制残差序列的序列图; 计算残差的自相关系数;
(3)异方差(heteroscedasticity )分析:总体回归函数中 的随机误差项满足同方差性 ,即它们都有相同的方差。如果这 一假定不满足,则称线性回归模型存在异方差性。

两种方式: ① 绘制残差图(p193图) ② 等级相关分析(得到残差序列后对其取绝对值,分别计 算出残差和解释变量的秩,最后计算Spearman等级相 关系数,进行等级相关分析。)

线性回归模型的检验
拟合优度评价
一级检验 统计学检验 显著性检验 序列相关检验 二级检验 经济计量学检验 异方差检验
1)模型拟合优度评价

是指样本观测值聚集在样本回归线周围的紧密程度,也反 应了回归方程对被解释变量的解释程度。 SST=SSR+SSE(总变差,解释变差,剩余变差) 可决系数:R2=SSR/SST=1-SSE/SST(一元线性回归方程)


服从自由度为n-2的t分布。
定序变量的相关分析-Spearman

ui和vi分别表示变量 x和 y的秩变量,用di=ui-vi表示第i个样 n 本对应于两变量的秩之差。 2 Spearman秩相关公式:
rs 1 6 d i
i 1 2

n( n 1)
两变量正相关,秩变化有同步性,r趋向于1;


调整的可决系数: R 2 1 SSE /(n k 1) (多元线性回归方 SST /(n 1) 程) ① 解释变量增多时,SSE减少,R2增加;
② 有重要“贡献”的解释变量出现。
2)回归方程整体显著性检验

包含回归方程的显著性检验和回归系数的显著性检验两个部 分。 回归方程的显著性检验:检验线性关系是否显著

定类变量的相关分析

卡方检验离散变量的相关性,称为列联表分析。 用多行多列纵横交错形成一个表体。
Eij

ni. n. j n
Eij为联合观察频数;ni.为第i行观察频数之和,n.j为第j列观 察频数之和。 Pearson 卡方统计量:
2 (
i 1 j 1 s t

两变量完全正线性相关, u i 和 v i 相等, r=1; 完全负相关, ui+vi=n+1,r=-1;
检验系数,原假设为:两变量不相关。 小样本,服从Spearman分布;大样本,z r n 1 服从标 准正态分布。

定序变量的相关分析-Kendall秩相关系数

设在v1后面有R1个秩大于v1,v2后面有R2个秩大于v2,.....在 vn-1后面有Rn-1个秩大于vn-1,令



一般步骤: 1. 确定回归方程中的解释变量和被解释变量 2. 确定回归模型 3. 建立回归方程 4. 对回归方程进行各种检验 5. 利用回归方程进行预测
线性回归

数学模型: yi 0 1 xi1 2 xi 2 k xik i 使用最小二乘法对模型中的回归系数进行估计,得到样本 ^ ^ ^ ^ 回归函数:yi 0 1 xi1 2 xi 2 k xik ei
R R1 R2 Rn1

显然,变量x和y相关性越强,则R越大。

Kendall秩相关系数:
rk 4R 1 n(n 1)
举例—kendall秩相关系数

假如我们设一组 8人的身高和体重在那里 A的人是最高的, 第三重,等等:

注意,A最高,但体重排名为 3 ,比体重排名为 4,5,6,7,8 的重,贡献5 个同序对,即AB,AE,AF,AG,AH。同理,我们发现B、C、D、 E、F、G、H分别贡献4、5、4、3、1、0、0个同序对,因此, R = 5 + 4 + 5 + 4 + 3 + 1 + 0 + 0 = 22. 因而rk=(88/56)-1=0.57。
相关程度 无相关 微弱相关
2.
对样本来自的两总体是否存在显著线性关系进行推断。 提出零假设,即两总体无线性相关性;
选择检验统计量;
计算检验统计量的观测值和对应的概率p值; 决策

相关系数的分类

Pearson简单相关系数(皮尔逊):用来度量正态分布的定 距变量间的线性相关关系,Pearson 简单相关系数不能用 于度量变量之间的非线性关系 Spearman 秩相关系数 ( 斯皮尔曼 ) :采用非参数检验方法 来度量定序变量间的线性相关关系,由于数据为非定距 变量,因此不能直接采用原始数据,而是利用数据的秩 Kendallτ秩相关系数(肯德尔):采用非参数检验方法来 度量定序变量间的线性相关关系


(2)变量的多重共线性问题: 指各个解释变量之间存在线性相关关系的现象。 容忍度: Tol 1 R2

j j

VIFj 方差膨胀因子:
1 1 R2 j
,大于10时,存在多重共线性
max j
Condition _ Index j 条件指数:
,在10以下,多重共线性比 较弱,大于100时,存在严重的多重共线性。


步骤:
1. 2.
计算样本的偏相关系数 对样本来自两总体是否存在显著净相关进行推断:
提出零假设:两总体的偏相关系数与零无显著差异;
选择检验统计量t;
计算检验统计量的观测值和对应的概率p值; 决策。
案例6.2

案例6.2.sav的资料给出了随机抽取的山东省某学校的 12名 学生的 IQ值、语文成绩和数学成绩。因为语文成绩和数学 成绩都受 IQ 的影响,所以试用偏相关分析研究学生语文成 绩和数学成绩的相关关系。
3)回归系数的显著性检验
(1)建立原假设:

H 0 : j 0( j 1,2,k ) ,即第j个回归系数不显著;
H1 : j 0, ( j 1,2,k ) ,即第j个回归系数显著。
(2)构造t统计量: (3)计算t统计量和对应的p值 (4)对比p值和ɑ。
4)残差分析
5)多元回归分析的其他问题
(1)变量的筛选问题:

向前筛选 — 解释变量不断进入回归方程的过程,最高线性 相关系数的变量最先进入; 向后筛选 —变量不断剔除出回归方程的过程,先全部引入, 把最不显著的一个或多个变量剔除; 逐步筛选 — 向前和向后的综合,在引入变量的每个阶段提 供剔除不显著变量的机会。


连续变量的相关分析

2 Pearson简单相关系数:其中 xy 为协方差, x , y 为标准 n 差。 2 ( xi x)( yi y) n
xy r x y
来自百度文库
i 1
(x
i 1
n
i
x)
2
(y
i 1
n

i
y)2
xi x yi y 1 ( )( ) n i 1 S x Sy
x和y是对称的,说明x与y的相关系数等同于y和x和相关系数; 简单相关系数是无量纲的; x和y做线性变换后可能改变相关系数的符号,但不会改变值; 只能度量线性关系,不能度量非线性关系的。

对相关关系的显著性进行检验,该检验原假设是:两总体 相关系数等于0。 t统计量:t
r n2 1 r 2

(1)建立原假设: H 0 : 1 2 k 0

, 即回归方程整体不显著;
SSR/ ( k - 1) SSE/(n - k)
H1 : j 不全等于 0, ( j 1,2,k ) ,即回归方程整体显著。
(2)构造F统计量:F = MSR/MSE = (3)计算F统计量和对应的p值 (4)对比p值和ɑ。
相关文档
最新文档