第8章 相关分析
第8章 相关分析-2. 离散相关

第8章 相关分析2. 离散相关与离散序列的卷积运算一样,离散序列的相关运算也可以分为线性相关和循环相关两种类型。
2.1 基本定义线性相互关的计算对应公式(8-1)的离散化形式,计算离散序列][n x 和][n y 的线性互相关,可得:∑+∞-∞=+⋅=i xy n i y i x n r ][][][ (8-6)对有限长度的离散序列][n x ,1,1,0-=L n 、][n y ,1,1,0-=P n ,且二者的长度分别为L 和P 。
那么,有如下公式成立:∑--=+⋅=nP i xy n i y i x n r 10][][][ (8-7)当P n i ≥+时,0][=+n i y ,所以公式(8-7)中的求和上限为n P --1。
因为序列][n r xy 下标n 的取值范围为:11-≤≤-P n M ,所以与线性卷积的长度一样,序列][n x 和][n y 的线性互相关序列的最大长度也是1-+P L 。
与离散Fourier 变换的相关特性对应的是循环相关(或称圆周相关),循环互相关的定义已在第二章中出现过,笔者在下面重新书写一遍。
∑-=+⋅=10])[(][][N i N xy n i y i x n r (8-8)其中,N n i )(+表示)(n i +除以N 的余数,][n r xy 下标n 的取值范围为:2/2/N n N <≤-。
可以利用循环相关来计算两个序列的线性相关,只是要对原有序列进行补零处理。
把长度为L 的序列][n x 和长度为P 的序列][n y 补零后拓展序列长度为N 的新序列][n x 和][n y ,只要满足1-+≥P L N ,两个新序列的循环相关就等同于原有两个序列的线性相关。
与连续函数的互相关函数一样,互相关序列][n r xy 既不是偶序列,也不是奇序列,但满足等式:][][n N r n r yx xy -=。
2.2 快速算法计算两个长度相等的序列的循环相关时,如果直接采用公式(8-8)的定义,计算量是非常大的,尤其在N 较大的情况下。
统计学 第8章 相关与回归分析

2
-1 1 0 -1 -2 0 1 -2
4
1 1 0 1 4 0 1 4 20
6 * 20 r 1 2 1 0.8788 2 n(n 1) 10 * (10 1)
6 d 2
8.3
8.3.1 8.3.2 8.3.3 8.3.4 8.3.5
一元线性回归
一元线性回归模型 参数的最小二乘估计 回归直线的拟合优度 显著性检验 利用回归方程进行预测
共计
325
462 77
445 89
707 101
685 137
1043 149
E(Y|X) 65
Y
X=X1时Y 的分布
X=X2时Y 的分布 X=X3时Y 的分布
b0
X=X1时的E(Y)
b0+ b 1X
X=X2时的E(Y) X=X3时的E(Y)
X1=80
X2=100
X3=120
X
总体回归函数
(population regression function)
相关系数的显著性检验
(检验的步骤)
1. 检验两个变量之间是否存在线性相关关系 2. 利用样本的相关系数对总体相关系数进行 检验 3. 采用R.A.Fisher提出的 t 检验 4. 检验的步骤为
提出假设:H0: ;H1: 0
n2 计算检验的统计量: tr ~ t (n 2) 2 1 r 确定显著性水平,并作出决策
2
2
或化简为 r
n x x n y y
2 2 2
n xy x y
2
例 产品产量与单位成本相关系数
产 月 量 份 x 1 2 2 3 3 4 4 3 5 4 6 5 合 21 计 单位 成本 y 73 72 71 73 69 68
第八章 相关分析与回归分析

下一页
返回本节首页
19
③在数据区域中输入B2:C11,选择“系列产 生在—列”,如下图所示,单击“下一步” 按钮。
上一页
第8章 回归分析
下一页
返回本节首页
20
④打开“图例”页面,取消图例,省略标题,如 下图所示。
上一页
第8章 回归分析
下一页
返回本节首页
21
⑤单击“完成”按钮,便得到XY散点图如下图 所示。
n 8, x 36.4, x 207.54 , y 104214 y 880, . xy 4544 6
2 2
r
n xy x y n x2 x 2 n y2 y 2 8 4544 6 36.4 880 .
第8章 回归分析
40
(二)回归分析的种类: 1、按自变量 x 的多少,分为一元回归和多 元回归; 2、按 y 与 x 关系的形式,分为线性回归和 非线性回归。
第8章 回归分析
41
二、一元线性回归分析
x y 62 86 80 110 115 132 135 160
42
(一)一元线性回归方程:
2、非线性相关:当一个变量变动时, 另一个变量也相应发生变动,但这种变 动是不均等的。
第8章 回归分析
9
㈢根据相关关系的方向 1、正相关:两个变量间的变化方向一 致,都是增长趋势或下降趋势。 2、负相关:两个变量变化趋势相反。
上一页
第8章 回归分析
下一页
返回本节首页
10
(四)根据相关关系的程度 1、完全相关:两个变量之间呈函数关系 2、不相关:两个变量彼此互不影响,其 数量的变化各自独立
第8章相关回归分析

※相关关系和函数关系有区别也有联系: 1、实际现象中,函数关系往往通过相关关系表现 出来。 2、在研究相关关系时,常常使用函数关系的形式 来表现,它是相关分析的工具。
(二)相关关系的种类 1、按相关关系涉及的因素多少划分 (1)一元(单)相关:两个因素之间的相关。 (2)多元(复)相关:三个及三个以上因素之间
2、相关系数的计算: (1)基本计算公式(“积差法”公式)
r
2 xy
xy
式中:r 相关系数
自变量x数列的标准差 x
自变量y数列的标准差 y
2 xy
两个变量数列的协方差
由
(x x)2
x
n
y
( y y)2 n
2 xy
(x
x )( y
y)
n
相关系数的基本计算公式可变化为:
r
2xy x y
3、回归分析的种类 (1)按自变量的多少分
①简单(一元)回归:自变量只有一个 。 [例] y = a+bx 一元回归方程
②复(多元)回归:自变量为2个或2个以上。 [例] y=0+ 1x1+ 2x2+…+ nxn
(2)按回归方程式的特征分 ①线性回归:因变量为自变量的线性函数。 [例] y = a+bx 一元线性回归方程※ ②非线性回归:因变量为自变量的非线性函数。
3、相关系数的特点及应用
(1)相关系数的取值范围为:r 1 1 r 1 (2)当γ为正值时,两变量呈正相关;当γ为负值 时,两变量呈负相关。 (3)相关系数γ的绝对值愈大,表示两变量之间 相关程度愈密切; γ=﹢1为完全正相关; γ=﹣1为 完全负相关。 (4)相关系数γ的绝对值愈小,愈接近0,表示两 变量之间相关程度愈低,当 γ=0时,两变量完全没 有直线相关。
第八章 相关与回归分析

相关系数的特点:
相关系数的取值在-1与1之间。 相关系数的取值在之间。 =0时 表明X 没有线性相关关系。 当r=0时,表明X与Y没有线性相关关系。 表明X 当 时,表明X与Y存在一定的线性相关关 系; 表明X 为正相关; 若 表明X与Y 为正相关; 表明X 为负相关。 若 表明X与Y 为负相关。 表明X 完全线性相关; 当 时,表明X与Y完全线性相关; r=1, 完全正相关; 若r=1,称X与Y完全正相关; r=完全负相关。 若r=-1,称X与Y完全负相关
25 20 15 10 5 0 0 2 4 6 8 10 12
11.2 11 10.8 10.6 10.4 10.2 10 0 5 10
相关关系的类型
25
● 从变量相关关系变化的方向 方向看 方向 正相关——变量同方向变化 正相关 负相关——变量反方向变化 负相关 ● 从变量相关的程度看 完全相关 不完全相关 不相关
x
最小二乘法 ˆ ˆ (α 和 β 的计算公式)
根据最小二乘法, 根据最小二乘法,可得求解 和 的公式如下
最小二乘估计的性质 ——高斯 马尔可夫定理 高斯—马尔可夫定理 前提: 在基本假定满足时
最小二乘估计是因变量的线性函数 线性函数 最小二乘估计是无偏估计 无偏估计,即 无偏估计 在所有的线性无偏估计中,回归系数的最小二 乘估计的方差最小 方差最小。 方差最小
结论:
回归系数的最小二乘估计是最佳线性无偏估计 最佳线性无偏估计
四、简单线性回归模型的检验
回归模型的检验包括: 回归模型的检验包括: 理论意义检验: 理论意义检验:主要涉及参数估计值的符号和取 值区间,检验它们与实质性科学的理论以及人们 的实践经验是否相符。 一级检验: 一级检验:又称统计学检验,利用统计学的抽样 理论来检验样本回归方程的可靠性,具体分为拟 合优度检验和显著性检验。 二级检验: 二级检验:又称计量经济学检验,它是对标准线 性回归模型的假设条件是否满足进行检验,包括 自相关检验、异方差检验、多重共线性检验等。
第8章 相关分析

第8章 相关分析相关分析(Correlations)是研究两个变量间。
或一个变量与多个变量间,或多个变量两两变量间,或两组变量间,或多个变量组与组之间密切程度的一种常用统计学方法。
变量间的密切程度常用相关系数(Correlation Coefficients)或统计量描述。
SAS /Win(v8)系统非编程有如下5种相关量度(Correlation Measure)。
(1)Pearson product-moment correlation ,皮尔逊积矩相关分析。
(2)Spearman coefficients ,斯皮尔曼相关系数s r(3)Cronbach ’coefficient alpha ,克龙巴哈系数α(4)Kendall ’s tan –b coefficient ,肯德尔b τ系数。
(5)Hoeffding ’s D statistic ,霍夫丁D 统计量。
同时将输出变量的简单统计量(Simple Statistics),相关系数(Correlation Coefficients),相应的P 值与图形(P1ots)等。
8-1皮尔逊积矩相关分析[例8-1] 已知5-6岁儿童体检数据的指标为编号(1x ),性别(2x ),月龄(3x ),体重(4x ,kg),身高(5x ,cm),坐高(6x ,cm),胸围(7x ,cm),头围(8x ,cm),左眼视力(9x )与右眼视力(10x ),并已建立SAS 数据集SASUSER.child 。
试对体重(4x )与身高(5x )做皮尔逊(Pearson)相关分析。
(1)进入SAS /Win(V8)系统,单击So1utions->Analysis->Analyst ,进入分析家窗口。
(2)单击File->open By SAS Name->Sasuser->Child->OK ,调入SAS 数据集SASUSER.child(3)单击statistics->Descriptive->correlations ,得到图8-1所示对话框。
第八章 方差分析与相关分析

第八章方差分析与相关分析一.方差分析1.基本概念方差分析的概念:比较组间方差是否可以用组内方差来进行解释,从而判断若干组样本是否来自同一总体。
方差分析,又称为ANOVA(Analysis Of Variance)分析。
方差分析可以一次检验多组样本,避免了t检验一次只能比较两组的缺陷。
方差分析只能反映出各组样本中存在着差异,但具体是哪一组样本存在差异,无法进行判定。
考察下列例子:某厂使用四种不同颜色对产品进行包装,经过在五个城市的试销,获得销售数据如下(单观察数据的列平均值,列平均值的差异反映出不同颜色包装的销售业绩差异。
此时,需要判断这种差异与同一颜色包装在不同城市间的差异相比,是否显著。
如果不显著,则这种2.方差分析原理计算观察值的组间方差和组内方差,并计算两者的比值,如果该比值比较小,说明组间方差与组内方差比较接近,组间方差可以用组内方差来解释,从而说明组间差异不存在。
●●建立原假设“H0:各组平均数相等”●●构造统计量“F=组间方差/组内方差”●●在计算组间方差时,使用自由度为(r-1),计算组内方差时,使用自由度为(n-r)。
●●F满足第一自由度为(r-1),第二自由度为(n-r)的F分布。
●●查表,若F值大于0.05临界值,则拒绝原假设,认为各组平均数存在差异。
根据方差计算的原理,生成方差分析表如下:其中:组间离差平方和 SSA (Sum of Squares for factor A) =39.084误差项离差平方和 SSE (Sum of Squares for Error) =76.8455总离差平方和 SST (Sum of Squares for Total)=115.9295P-value值为0.000466,小于0.05,所以拒绝原假设。
3.双因素方差分析观察下列销售数据,欲了解包装方式和销售地区是否对于销售业绩有影响,涉及到双因素的方差分析。
此时需分别计算SSA、SSB与SSE之间的比值是否超过临界值。
第八章相关分析与回归分析

x
2 ( x x )
n
、x的标准差 y
2 ( y y )
n
2 2
、y标准差
( x x)( y y ) ( x x)( y y ) 即r 或r n ( x x) ( y y )
x y
《统计基础》
协方差的意义
①、显示x与y是正相关还是负相关 协方差为负,是负相关, 协方差为正,是正相关。 ②、协方差显示x与y相关程度的大小 当相关点在四个象限呈散乱的分布,相关程度很低 当相关点分布在x与y的平均值线上时,表示不相关 当相关点靠近一直线,表示相关关系密切 当相关点全部落在一直线,表示完全相关
二、相关分析和回归分析的区别与联系
《统计基础》
三、简单线性回归方程:
1、简单线性方程式:yc a bx 2、变量y不仅受x的影响,还受其他随机因素的影 响,因此通过相关图,可以直观地发现各个相关点 并不都落在一条直线上,而是在直线上下波动,只 呈现线性相关的趋势。 3、我们试图在相关图的散点中引出一条模拟的回 归直线,以表明两变量x与y的关系,称为估计回归 线,回归方程: yc a bx yc 为y的估计值 a—纵轴截距 b—回归系数,代表自变量增加一个单位时因变量的 平均增加值。
《统计基础》
4、计算a、b值
当实际值y与估计值 yc 的离差平方和为最小值时, 则此直线为最优的理想直线。 即: Q y y 2 y a bx2 最小值
得方程: na b x y .......... ....... a x b x xy
《统计基础》
6、回归分析和相关分析的特点:
回归分析是研究两变量之间的因果关系,所以 必须通过定性分析来确定哪个是自变量,哪个是因 变量。 回归分析是研究两变量具有因果关系的数学形式 回归分析中回归系数有2个(区分自变量、因变量) 相关分析中相关系数有1个(不区分自变量、因变 量)对于回归方程进行预测估计时,只能根据x估 计 yc ,不能根据 yc 估计x
[课件]第八章 直线回归与相关分析PPT
![[课件]第八章 直线回归与相关分析PPT](https://img.taocdn.com/s3/m/48735145f5335a8102d2207a.png)
(2)F检验:
U 176 . 4 F ( n 2 ) ( 5 2 ) 4 . 96 Q 106 . 6
因为 F , 4 . 96 F 10 . 13 0 . 05 ( 1 , 3 ) .05 。说明小白鼠体重和日龄间 所以, p 0 的直线关系不显著。
相关分析(correlation analysis)3
研究“一因一果”,即一个自变量与一个依 变量的回归分析称为一元回归分析;
直线回归分析 曲线回归分析
研究“多因一果”,即多个自变量与一个依 变量的回归分析称为多元回归分析。
多元线性回归分析
多元非线性回归分析
第二节:直线回归
Linear Regression
回归和相关分析结果仅适用于自变量的试验取值 范围。
9
2. 进行直线回归分析时应符合的基本条件 (基本假定) (1)x是没有误差的固定变量;而y是随机 变量,具有随机误差。 (2)x的任一值都对应着一个y的总体,且 呈正态分布。
(3)随机误差是相互独立的,且呈正态分
布。
10
对两个变量间的线性关系的显著性进行检验时, 采用的方法是 F 检验或 t 检验。 直线回归中,只有一个自变量,所以回归平方和 的自由度为1,离回归平方和的自由度为n-2 。 1. 计算回归平方和U和离回归平方和Q:
序号 日龄 x 体重 y 1 6 12 2 9 17 3 12 22 4 15 25 5 18 29
13
(一)求回归方程: (1)由观测值计算6个一级数据
n 5
x 6 9 12 15 18 60 x 6 9 12 15 18 810
第八章 相关分析与回归分析习题答案

第八章 相关分析与回归分析习题参考答案一、名词解释函数关系:函数关系亦称确定性关系,是指变量(现象)之间存在的严格确定的依存关系。
在这种关系中,当一个或几个相互联系的变量取一定的数值时,必定有另一个且只有一个变量有确定的值与之对应。
相关关系:是指变量(现象)之间存在着非严格、不确定的依存关系。
在这种关系中,当一个或几个相互联系的变量取一定的数值时,可以有另一变量的若干数值与之相对应。
这种关系不能用完全确定的函数来表示。
相关分析:相关分析主要是研究两个或者两个以上随机变量之间相互依存关系的方向和密切程度的方法,直线相关用相关系数表示,曲线相关用相关指数表示,多元相关用复相关系数表示。
回归分析:回归分析是研究某一随机变量关于另一个(或多个)非随机变量之间数量关系变动趋势的方法。
其目的在于根据已知非随机变量来估计和预测随机变量的总体均值。
单相关:单相关是指仅涉及两个变量的相关关系。
复相关:复相关是指一个变量对两个或者两个以上其他变量的相关关系。
正相关:正相关是指两个变量的变化方向是一致的,当一个变量的值增加(或减少)时,另一变量的值也随之增加(或减少)。
负相关:负相关是指两个变量的变化方向相反,即当一个变量的值增加(或减少)时,另一个变量的值会随之减少(或增加)。
线性相关:如果相关的两个变量对应值在直角坐标系中的散点图近似呈一条直线,则称为线性相关。
非线性相关:如果相关的两个变量对应值在直角坐标系中的散点图近似呈现出某种曲线形式,则为非线性相关。
相关系数:相关系数是衡量变量之间线性相关密切程度及相关方向的统计分析指标。
取值在-1到1之间。
两个变量之间的简单样本相关系数的计算公式为:()()niix x y y r --∑二、单项选择1.B;2.D;3.D;4.C;5.A;6.D 。
三、判断题(正确的打“√”,错误的打“×”) 1.×; 2.×; 3.√; 4.×; 5.×; 6.×; 7.×; 8.√. 四、简答题1、什么是相关关系?相关关系与函数关系有什么区别?答:相关关系,是指变量(现象)之间存在着非严格、不确定的依存关系。
第8章 相关与回归分析

4、在相关关系中,变量之间是平等关系,不存在自变量和因变量。 、在相关关系中,变量之间是平等关系,不存在自变量和因变量。
而在回归分析中必须明确划分自变量和因变量。 而在回归分析中必须明确划分自变量和因变量。
8-9
统计学
STATISTICS
8.2 简单线性相关与回归分析
8 - 10
STATISTICS
8-5
统计学
STATISTICS
(三)从变量相关关系变化的方向看 从变量相关关系变化的方向看 变化的方向 正相关: A 正相关:变量同方向变化 , 即同增同减 (A) 同增同减 负相关:变量反方向变化, 负相关:变量反方向变化, 即一增一减 (B) B 一增一减 从变量相关的程度 相关的程度看 (四)从变量相关的程度看
完全相关 (B) 不完全相关 (A) 不相关 (C)
8-6
25 20 15 10 5 0 0 2 4 6 8 10 12
25 20 15 10 5 0 0 2 4 6 8 10 12
C
35 30 25 20 15 10 5 0 0 5 10 15
统计学
STATISTICS
三、回归分析
回归一词的由来: 回归一词的由来:
8 - 13
见第218页例题 页例题 见第 页例
统计学
STATISTICS
相关系数的特点: 相关系数的特点:
1、r 的取值范围是 − 1 ≤ r ≤ 1 。 、 2、r<0时,β<0 为负相关;r>0时, β>0 为正相关。 为负相关; 为正相关。 、 时 时 3、|r|=1,为完全相关。r =1,为完全正相关;r = -1, 、 ,为完全相关。 ,为完全正相关; , 为完全负正相关。 为完全负正相关。 4、r = 0,不存在线性相关。 、 线性相关。 ,不存在线性相关 5、|r|越趋于 表示两变量线性关系越密切;|r|越趋于 、 越趋于 表示两变量线性关系越密切; 越趋于 越趋于1表示两变量线性关系越密切 越趋于0 表示两变量线性关系越不密切。 表示两变量线性关系越不密切。 线性关系越不密切 6、r是一个随机变量。 、 是一个随机变量 是一个随机变量。
第8章 相关分析

8.3.2 偏相关分析的步骤
利用偏相关系数进行变量间关系分析,通常需要完成以下两大步骤: 1. 计算样本的偏相关系数 使用样本数据计算样本的偏相关系数,它反映了两变量间净相关的程度强弱。 在分析变量 x1和y 之间的净相关时,当控制了x2 和 y之间的一阶偏相关系数定义为:
精通SPSS统计分析
2. 对样本来自的两总体是否存在显著的净相关进行推断
精通SPSS统计分析
8.2 二元定距变量的相关分析
二元定距变量的相关分析概念
散点图 二元定距变量的相关分析应用实例
精通SPSS统计分析
8.2.1 二元定距变量的相关分析概念
定距变量又称为间隔变量,它的取值之间可以比较大小,可以用加减法计 算出差异的大小,如,收入、成绩、身高等变量都是典型的定距变量。
1. 对连续变量的样本进行距离相关分 析 对连续变量的样本进行距离相关分析时,常用的统计量有以下几种: (1)欧氏距离 (2)欧氏距离平方 (3)Chebychev距离 (4)Block距离 (5)Minkowski距离 (6)Customized距离
精通SPSS统计分析
2. 对顺序或名义变量的样本进行Байду номын сангаас离相关分析
8.4.1 距离分析的概念
距离分析可用于同一变量内部各个取值间,以考察其相互接近程度;也可以用于 变量间,以考察预测值对实际值的拟合优度。 距离分析的结果可以用于其他分析过程,如因子分析、聚类分析等,有助于分析 复杂的数据集合。
8.4.2 距离分析的计算公式
在不相似性测量的距离分析中,根据不同类型的变量,采用不同的统计量进行计 算。
对顺序或名义变量的样本(x,y )进行距离相关分析时,常用的统计量有如下 几种: (1) Chi-square measure (2)Phi-square measure
统计学原理第8章相关与回归分析[精]
![统计学原理第8章相关与回归分析[精]](https://img.taocdn.com/s3/m/3898d2394a7302768e9939a6.png)
估计标准误差就是因变量的估计值yc与实际值y之间差异 公 的平均程度。记为Syx,它的基本公式为:
式
或
式中,Syx表示估计标准误差;下标yx表示y依x的回归方程; y是因变量的实际值;yc是因变量的估计值。
例8.4以例8.1的资料计算估计标准误差。
步骤: 1.设计一张计算表,将已知x的值代入回归方程求出对应的yc的值 2.计算离差y-yc并加以平方求和 3.求出估计标准误差Syx。
数关系。
当r=0时,表示x与y完全没有线性相关。
当0<|r|<1时,表示x与y存在着一定的线性相关。一般分四个
等级,判断标准如下:
若0<|r|<0.3,则称x与y为微弱相关;
若0.3<|r|<0.5, 则称x与y为低度相关;
若0.5<|r|<0.8, 则称x与y为显著相关;
若0.8<|r|<1, 则称x与y为高度相关。
8.3.2简单直线回归方程
a, b是待定参数 利用最小二乘法 得到a,b求值,再反解得到方程式
建立回归直线的过程:列计算表,求出∑xy,∑x2,∑y2,x,y; 计算Lxy,Lxx和Lyy的值;求出b和a的值并写出方程
例 8.2某工厂某产品的产量与单位成本资料见表8.2,试 求单位成本依产量的回归直线方程。
★ 填空题 (1) 现象之间的相关关系,从相关因素的个数看,可分为()和();从相关的形式
的两个回归方程。() (9) 估计标准误差指的就是因变量的估计值yc与实际值y之间的平均误差程度。() (10) 在任何相关条件下,都可以用相关系数r说明变量之间相关的密切程度。() (11) 若变量x与y的相关系数r1=-0.8,变量p与q的相关系数r2=-0.92,由于r1>r2,
第8章 相关与回归分析

8.1.1 相关关系
(3)相关分析:对于现象间是否存在相关关系、相
关关系的表现形式以及相关密切程度的分析,称为
相关分析。 2.相关关系的种类
完全相关时 是函数关系
(1)按相关关系的形式不同分:线性相关与非线性 相关
(2)按相关关系的方向不同分:正相关与负相关
(3)按相关关系涉及变量(因素)的多少分:单相 关与复相关
下图中,钢产量与吨钢利润之间存在明显的正相 关,相关形式基本呈直线形式。
相关表和相关图,只适合用来考察两个现象之间 的相关关系,不能用于考察多个变量间的相关关系。
作业1:要求手写截图,包含题目、名字、学号
1. 相关分析是研究现象(事物)间是否存在______ , 相关 关系的______以及相关___ ___的分析。 2.变量间的关系一般分为几种?分别描述这几种关系。 3.相关关系的分类: 按相关关系的形式分为: ______与_____ ; 按相关关系的方向分为: ______与_____ ; 按相关关系的密切程度分: _____ 、 _____与_____。 4.可通过______与______方法来描述与直观判断相关关系
• 概念
因素(因子),指所要检验的对象。
水平:因子在实验中的不同状态或因素的具体表现称为水平。不同 水平可看作不同组(类)。 单因素方差分析:在实验中变化的因素只有一个。 多因素方差分析:在实验中变化的因素有两个或以上。
双因素方差分析,两个变化的因素即两个分类自变量A、B对某个
数值型因变量的影响。
• 单因素方差分 无交互作用的方差分析和有交互作用的方差分析。
8.1.2直线相关系数
1.直线相关系数的计算
直线相关系数通常采用积差法公式计算,由英国统计学
第8章 相关关系分析

∴b =
L xy L xx
11 .935 = ≈ 0 .2755 , 43 .315
10 .2 54 .2 a = y − bx = − 0 .2755 × ≈ − 0 .5918 8 8 ∴ 可得回归方程: y = − 0 .5918 + 0 .2755 x
18
∧
参数a=-0.5922的经济含义: 的经济含义: 参数 的经济含义 表明当国民生产总值为0时 表明当国民生产总值为 时,财政收入为负的 0.5922亿元(借钱财政) 亿元( 亿元 借钱财政) 回归系数b=0.2756的经济含义: 的经济含义: 回归系数 的经济含义 国民生产总值每增加1亿元, 国民生产总值每增加 亿元,财政收入将增加 亿元 0.2756亿元 亿元
∧
∧
∑ ( x − x )( y − y ) ∑ ( x − x)
2
16
例:某地区近8年的国民生产总值与财政收入的资料 某地区近 年的国民生产总值与财政收入的资料 如下(单位:亿元)( 如下(单位:亿元)(抽样获得):
国民生产 总值 财政收入 3.6 0.4 3.5 0.5 5.0 0.7 6.4 1.1 8.3 1.6 8.9 1.8 9.0 9.5 1.9 2.2
α=0.05。试:(1)建立回归方程;(2)求国民生产总值达 建立回归方程; 求国民生产总值达 。 建立回归方程 10亿元时财政收入的预测区间。 亿元时财政收入的预测区间。 亿元时财政收入的预测区间 解:1)通过散点图可知两者呈直线相关 )
2)通过计算可得: x = 54 .2, x 2 = 410 .52, xy = 81 .04, ∑ ∑ ∑
( y − y ) = 0 , ∑ ( y − y ) 2 = min ∑ a = y − b x n ∑ xy − ∑ x ∑ y = ⇒ b = 2 2 n ∑ x − (∑ x ) = ∑ xy − n x y = L xy L xx x 2 − n( x) 2 ∑
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第 8 章 相关分析8.1 相关分析的理论与方法社会经济现象总体数量上所存在的依存关系有两种不同的类型,一种是函数关系,一种是相关关系。
函数关系是指当某一变量的数值确定之后,另一个变量的数值也完全随之而确定了。
例如电路中的欧姆定律表述了电压、电阻和电流之间的关系:电压=电流×电阻,若已知其中两个变量的值,则另一个变量的值就被唯一确定了。
相关关系是不完全确定的随机关系。
在相关关系的情况下,当一个或几个相互联系的变量取一定的值时,与之相应的另一变量的值虽然不确定,但它仍然按某种规律在一定的范围内变化。
例如,商品需求与商品价格之间的关系、投资额与国民收入之间的关系、得病率与性别的关系等等。
按照数据度量尺度的不同,相关分析的方法也不同。
连续变量之间的相关性常用Pearson 简单相关系数来测定;定序变量的相关性常用Spearman 秩相关系数或Kendall 秩相关系数来测定;而定类变量的相关分析则要使用列联表分析方法。
8.1.1 连续变量的相关分析1. Pearson 简单相关系数对于像投资额、国民收入等连续变量之间的相关性分析常用Pearson 简单相关系数来测定,其基本公式如下:2xyx yr σσσ=其中,2xy σ 为变量x 和的协方差,y x σ和y σ分别为变量x 和的标准差。
y Pearson 简单相关系数有如下的特征:r1r ≤ ,r 越大表示两变量相关性越强,r 越小表示两变量相关性越弱 0r =时,表示两变量不存在线性相关关系 1r =时,表示两变量完全正相关1r =−时,表示两变量完全负相关2. Pearson 简单相关系数的检验在实际分析中,相关系数大都是利用样本数据计算的,因而带有一定的随机性,因此也需要对相关关系的显著性进行检验,该检验的原假设为两总体相关系数等于0。
数学上可以证明,在原假设得到满足的条件下,有下面的t 统计量:t =该统计量服从自由度为的t 分布。
2n −8.1.2 定序变量的相关分析对于定序变量的相关性分析,例如分析勤奋程度与成就高低的关系、信用等级与贷款收回情况的关系等等都不能用简单相关系数来测定,而要用秩相关的非参数方法来实现,即不使用变量的原始数据,而使用原始数据的秩来计算相关系数。
1. Spearman 秩相关系数假设有容量为n 的由x 和两个变量构成的随机样本。
分别计算每个观测关于变量y x 和的秩变量和,用y i u i v (1,)=L ,2i n i i d u v i =−表示第i 个样本对应于两变量的秩之差,则Spearman 秩相关系数的公式如下:)1(61212−−=∑=n n d r ni i s与Pearson 简单相关系数一样,Spearman 秩相关系数的取值也处于-1和1之间。
显然,和之间的差别越大,则就越大。
若所有的和都相等,则,。
i u i v 21n i i d =∑i u i v 210ni i d ==∑1s r =计算出Spearman 秩相关系数后,要对该系数进行检验,此时的原假设为:两变量不相关。
在满足原假设的前提下,若是小样本,则服从Spearman 分布;在大样本下,统计量s r sr z r =近似服从标准正态分布。
2. Kendall 秩相关系数Kendall 秩相关系数与Spearman 秩相关系数类似,都是利用变量的秩进行计算,只是计算方式不同。
首先计算每个观测关于变量x 和的秩变量u 和v ,将n 个观测按变量y x 的升序排序,则n 个观测关于变量x 和的秩如下:y x 的秩变量u : 1 2 …… ny 的秩变量: ……v 1v 2v n v 设在的后面有1v 1R 个秩大于,在的后面有1v 2v 2R 个秩大于,……,在后面有2v 1n v −1n R −个秩大于,令1n v −12n 1R R R R −=+++L显然,变量x 和y 相关性越强,则R 越大。
Kendall 秩相关系数按如下公式求得:41(1)k Rr n n =−−同样,Kendall 秩相关系数的绝对值不超过1。
为了说清楚变量之间具有联系的理由,也应对Kendall 秩相关系数进行显著性检验。
此时的原假设同样为两变量不相关。
在满足原假设的前提下,若是小样本,则服从Kendall 分布;在大样本下,统计量kr z =近似服从标准正态分布。
8.1.3 定类变量的相关分析在7.2节我们曾介绍了利用2χ统计量对单一随机样本的分布进行检验的方法。
卡方检验还有一个重要的用途就是对离散变量的相关性进行检验,这种方法有时也叫作“列联表分析”。
列联表是多行多列纵横交错所形成的一个表体。
我们以例子说明列联表的形式以及如何将定类变量的相关性检验化为列联表并进行检验分析的程序。
抽样调查某地区500名待业人员,这些人员中文化程度为高中及以上的有104人(男44人),初中的有96人(男36人),小学及以下的有300人(男140人)。
试检验此调查结果能否说明待业人员中的文化程度与性别是相互独立的。
根据调查结果,我们可将数据整理成列联表:表 8-1 待业人员文化程度与性别列联表列联表的单元格中,上面的数字给出样本关于两变量的联合观察频数;下面括号内的数值为对应的联合期望频数,计算方法为:..i jij n n E n×=其中,ij E 为第一个变量取第个取值,第二个变量取第i j 个变量时的联合观察频数,为第i 行的观察频数之和,.i n .j n 为第j 列的观察频数之和,为样本容量。
n 例如,性别为男且文化程度为高中及以上所对应的期望频数为:1122010446500E ×==,其它各个单元格对应的期望频数也按同样方法计算得到。
统计量来检验两变量的相关性。
在得出对应的期望频数后,我们就可以应用Pearson 2χ该检验的原假设为:两变量相互独立。
构造的统计量为:22(ij ij E χ11s ti j ijf E ==−=∑∑其中,和分别为两个离散变量取值的个数,s t ij f 为第一个变量取第个取值,第二个变量取第i j 个变量时的联合期望频数。
在原假设成立的条件下,该统计量服从一个自由度为(1)(s t −−的1)2χ分布。
8.2 连续变量相关分析实例8.2.1 SPSS 操作步骤,常常利用资产收益率、净资产收益率、每股净收益和托宾Q 值四个指标来衡量公司经营绩效。
本节将利用SPSS 对这四个指标的相关性进行检验。
四个变量都是连续在上市公司财务分析中1. 选择菜单项Analyze →Correlate →Bivariate ,打开Bivariate Correlations 对话框,如图 8-1。
将待分析的四个衡量公司绩效的指标移入右边的Variables 列表框中。
2. 在Correlation Coefficients 选项栏中选择适当的相关系数。
三个选项分别是Pearson 简单相关系数、Kendall 秩相关系数和Spearman 秩相关系数。
本例中待分析的变量都是连续型数据,因此应该选择Pearson 简单相关系数,但为了便于比较,这里将两个非参数相关系数也选上。
3. 在Test of Significance 选项栏中选择在相关系数检验时使用双侧检验(Two-Tailed )还是单侧检验(One-Tailed )。
4. 如果选中Flag significant correlations ,则在相关系数检验中用星号标注通过显著性检验的相关系数。
图 8-1 Bivariate Correlations 对话框5. 单击Options 按钮,打开。
Statistics 选项栏用于选择是否待分的样本协差阵(Means and ns ),这是多元统计分析中Options 子对话框,如图 8-2在结果输出窗口中输出析变量standard deviations)和样本叉积离差阵(Cross-product deviatio两个这两个变量中带有缺失值的观测删除,即如果一个观测在正非常重要的样本统计量矩阵。
Missing Values 选项栏用于设置缺失值的处理方法。
Exclude case pairwise 表示在计算两个变量的协方差或相关系数时,只把在进行相关系数计算的变量中没有缺失值,则即使其它变量中有缺失值,也不影响它参与计算;Exclude case listwise 表示如果某个观测的所有分析变量中只要由一个带有缺失值,则这个观测就不参与分析。
图 8-2 Options 子对话框6. 在主对话框中单击OK 按钮,执行命令。
8.2.相关系数、相关检验t 统计量对应的2 实例结果分析表 8-2给出了Pearson 简单p 值、叉积离差阵和协差阵。
相关系数右上角有两个星号表示相关系数在0.01的显著性水平下显著。
从表中可以看出,每股在收益、净资产收益率和总资产收益率三个指标之间的相关系数都0.8以上,对应的p 值都接近于0,表示三个指标具有较强的正相关关系,而托宾Q 值与其他三个变量之间的相关性较弱。
表 8-2 Pearson 简单相关分析表 8-3给出Kendall秩相关系数和Spearman秩相关系数两种非参数相关分析结果。
从表中可以看出,使用非参数方法得出了与Pearson简单相关分析基本一致的结果。
表 8-3 Kendall秩相关分析和Spearman秩相关分析8.3 离散变量相关分析实例8.3.1 SPSS 操作步骤离散变量相关分析常用的方法是列联表分析法。
以补钙产品市场调查数据为例。
1. 选择菜单项Analyze →Descriptive Statistics →Crosstabs ,打开Crosstabs 对话框,如图 8-3。
将两个需要分析相关性的离散变量分别移入Rows 列表框和Columns 列表框。
如果要分析多于两个变量的相关性,则可以将其余变量移入Layer 列表框中,则SPSS 将构筑多维列联表来分析多个变量之间的相关性。
这里我们首先分析消费者对补钙产品的购买欲望(g3)是否与性别(gender )显著相关,所以,将这两个变量分别移入Rows 列表框和Columns 列表框。
2. 选择Display clustered bar charts 复选框,绘制交叉分组下的频数分布条形图,通过该图形可以直观地观察两变量的相关性。
,而仅给出相关分析的检验统计量。
这里不选择该选项xtract 按钮的用途参考7.2节。
3. Suppress tables 表示不输出列联表。
4. E图 8-3 Crosstabs对话框5. 单击Statistics按钮,打开Statistics子对话框,如图 8-4。
该对话框用于指定相关分析的方法以及使用的统计量。