第5讲 相关分析与相关系数
第五章 相关关系
第五章相关分析第一节相关的意义一、相关的概念相关分析是分析事物之间相互联系的一种手段。
1、从性质角度考虑事物间的联系因果关系:一种现象是另一种现象的因,而另一种现象是这种现象的果。
努力学习是学习成绩好的因,学习成绩好是努力学习的果。
共变关系:表面看来有联系的两种事物都与第三种现象有关,这两种事物间的关系就是共变关系。
如春天出生的婴儿与春天栽种的小树,就其高度而言,表面上看来都在增长,好像有关,其实这二者都是受时间因素的影响,它们本身之间并没有直接的关系。
相关关系:两类现象在发展变化的方向及大小方面存在一定的关系。
如:学生入学成绩与进校一年后的学业成绩;各种成绩之间;中学成绩与大学成绩;智商与学业成绩;教育投资与教育带来的发展;自我价值感与学业成绩、经济条件;运动员的赛前焦虑与比赛成绩、临近比赛的时间;动机强度与工作效率等之间的关系都属于相关关系。
2、相关的种类(1)方向上——正相关、负相关和零相关正相关指一列变量由大而小或由小而大变化时,另一列变量亦由大而小或由小而大的变化,即两列变量是同方向变化的,属“同增共减”的关系。
负相关指一列变量由大而小或由小而大的变化,另一列变量却反由小而大或由大而小的变化,即两列变量的变化方向是相反的,属“此增彼减”的关系。
零相关又称无相关,是一列变量由大而小或由小而大变化时,另一列变量则或大或小的变化,即两列变量的变化看不出一定的趋势,甚至毫无关系。
(2)形状——直线相关和曲线相关直线相关指两列变量中的一列变量在增加时,另一列变量随之而增加;或一列变量在增加,另一列变量却相应地减少,形成一种直线关系。
两列变量的变化在坐标轴上绘制散点图时形成的是长轴或椭圆形图形。
曲线相关指两列相伴随变化的变量,未能形成直线关系。
两列变量的变化莫测在坐标轴上绘制散点图时形成的是成弯月状或曲线形图形。
(3)相关程度——完全相关、强相关、弱相关和无相关完全相关指两列变量的关系是一一对应、完全确定的关系。
第五章 相关系数
=9.48
将以上数值代入公式(4.1)
r N x Y
xy =
285 .1 =0.56 10 5.34 9.48
所以,语文测验成绩与英语测验成绩之间的相关系数 r=0.56。
2、用原始观测值求r 利用基本公式求r,麻烦且结果不够精确。 可用原始观测值直接求r,公式为: X Y XY N (5.3) r X Y X N Y N 或者
2 2 2 2
r
N X 2 ( X ) 2 N Y 2 ( Y ) 2
N XY X Y
(5.4)
式中 , 、Y分别为两变量的观测值, X
N为观测值的对数
实际上,这两个公式是由公式(5.1)推导出来的。 X , Y Y , x X X , 把 X N N (Y Y ) 2 (X X ) 和 ,以及 代入公 y Y Y
不完全相关:由两列变量成对的观测值的坐标
点不在一条直线上,呈椭圆形。 零相关:指两变量间没有相关关系,即当一 变量变化时,另一变量不显示出变化倾向, 或即使有变化,也无一定规律。
不完全正相关
不完全负相关
零相关
从散布图的形状,我们可以大 约地看出变量间相关程度的强弱、 方向或性质,但并不能得知其相关 的确切程度。 为精确了解变量间的相关程度, 还需进行进一步的统计分析,求出 描述变量间相关程度的量数,即相 关系数。
r N X 2 ( X 2 ) N Y 2 ( Y ) 2 (5.5) N X Y X Y
式中, X 是 X 变量各数值与其估计平均数
之差; Y 是
Y 变量各数值与其估计平均数之差。
练习:以上述资料为例,假定X变量的估计平均数 为70,Y变量的估计平均数为72,计算相关系数.
相关分析
第七章相关分析任何事物的存在都不是孤立的,而是相互联系、相互制约的。
在医学领域中,身高与体重、体温与脉搏、年龄与血压等都存在一定的联系。
说明客观事物相互间关系的密切程度并用适当的统计指标表示出来,这个过程就是相关分析。
值得注意,事物之间有相关,不一定是因果关系,也可能仅是伴随关系。
但如果事物之间有因果关系,则两者必然相关。
由变量相依关系的特点,变量之间的依存关系可分为两大类型:(1)确定性关系——函数关系,例如圆面积S=πr2, y=e x+x2等。
(2)确定性关系——相关关系,例如人的血压y与年龄x之间的关系等。
以往我们讨论过的许多数学学科,如分析几何、代数等都是研究变量之间确定性关系的,但非确定性关系在自然界和我们熟知的教育领域中大量存在,例如学习成绩与智力因素或与非智力因素之间,数学成绩与物理成绩之间,性别与学习成绩之间等,都存在某种相互联系,相互制约的依存关系,这种关系不是那种严格的函数关系,而是一种非确定性的关系。
相关关系和函数关系也有联系:由于观察和测量中会产生误差,函数关系往往通过相关关系表现出来,变量间相关关系非常密切时,通常又呈现出某种函数关系趋势。
相关的种类按不同的分类标准,相关关系有多种分类1、简单相关和复相关简单相关——两个变量之间的相关关系按涉及变量的多少分复相关——一个变量与两个及以上个变量之间的相关关系2、线性相关和非线性相关线性相关(直线相关)按变量关系的表现形态,相关关系可分为非线性相关(曲线相关)3、正相关和负相关按变量数值变化方向的总趋势,相关关系可分为正相关、负相关正相关——两个变量变化方向的趋势相同(见教材P2,图1-2左)负相关——两个变量变化方向的趋势相反(见教材P2,图1-2右)4、完全相关、高度相关、低度相关和不相关按两变量联系的紧密程度分,相关关系可分为完全相关、高度相关、低度相关和不相关(零相关)相关分析的主要内容研究两个或两个以上变量之间是否存在相关关系,如果存在相关关系,其相关的性质和程度如何,这个过程在统计学上称为相关分析,相关分析的主要内容包括:1、确定变量之间有无相关关系存在,以及相关关系呈现的形态。
相关分析及检验、相关系数
一、 如何用 SPSS 求相关系数
spearman(斯伯曼/斯皮尔曼)相关系数 斯皮尔曼等级相关是根据等级资料研究两个变量间相关关系的方法。 它是依 据两列成对等级的各对等级数之差来进行计算的,所以又称为“等级差数法”斯 皮尔曼等级相关对数据条件的要求没有积差相关系数严格, 只要两个变量的观测 值是成对的等级评定资料, 或者是由连续变量观测资料转化得到的等级资料,不 论两个变量的总体分布形态、 样本容量的大小如何,都可以用斯皮尔曼等级相关 来进行研究 Kendall's 相关系数 肯德尔(Kendall)W 系数又称和谐系数,是表示多列等级变量相关程度的 一种方法。适用这种方法的数据资料一般是采用等级评定的方法收集的,即让 K 个评委(被试)评定 N 件事物,或 1 个评委(被试)先后 K 次评定 N 件事物。 等级评定法每个评价者对 N 件事物排出一个等级顺序,最小的等级序数为 1,最 大的为 N,若并列等级时,则平分共同应该占据的等级,如平时所说的两个并列 第一名,他们应该占据 1,2 名,所以它们的等级应是 1.5,又如一个第一名,两 个并列第二名,三个并列第三名,则它们对应的等级应该是 1,2.5,2.5,5,5,5, 这里 2.5 是 2,3 的平均,5 是 4,5,6 的平均。 肯德尔(Kendall)U 系数 又称一致性系数, 是表示多列等级变量相关程度的一种方法。该方法同样适 用于让 K 个评委(被试)评定 N 件事物,或 1 个评委(被试)先后 K 次评定 N 件事物所得的数据资料, 只不过评定时采用对偶评定的方法,即每一次评定都要 将 N 个事物两两比较,评定结果如下表所示,表格中空白位(阴影部分可以不 管)填入的数据为:若 i 比 j 好记 1,若 i 比 j 差记 0,两者相同则记 0.5。一共 将得到 K 张这样的表格,将这 K 张表格重叠起来,对应位置的数据累加起来作 为最后进行计算的数据,这些数据记为γij 。 在 SPSS 软件相关分析中,pearson(皮尔逊),kendall (肯德尔) 和 spearman (斯伯曼/斯皮尔曼)三种相关分析方法有什么异同 首先看两个变量是否是正态分布 是,则 analyze-correlate-bivariate 中选择 pearson 相关系数, 否,则要选 spearman 相关系数或 Kendall 相关系数。 如果显著相关,输出结果会有*号显示,只要 sig 的 P 值大于 0.05 就是显 著相关。如果是负值则是负相关。
SPSS交流——相关分析与相关系数
SPSS交流——相关分析与相关系数2010-06-14 16:20:41| 分类:spss统计| 标签:|字号大中小订阅相关分析是描述两变量间是否有线性关系的分析方法,用相关系数r来描述。
相关关系的特征体现在两个方面,一个是方向(是正相关、负相关还是零相关?),另一个是强度(到底密切的程度有多大)。
如果x,y变化的方向一致,就是正相关,如身高与体重的关系,r>0;负相关:如果x,y变化的方向相反,就是负相关,如吸烟与肺功能的关系,r<0。
一、相关关系的判定ü |r|>0.95 存在显著性相关;ü |r|≥0.8 高度相关;ü 0.5≤|r|<0.8 中度相关;ü 0.3≤|r|<0.5 低度相关;ü |r|<0.3 关系极弱,认为不相关ü r=0无线性相关:。
如果变量Y与X间是函数关系,则r=1或r=-1;如果变量Y与X间是统计关系,则-1<r<1。
二、常用的相关系数2.1 Pearson相关系数亦称积差相关系数(coefficient of product-moment correlation),用r表示样本相关系数,P表示总体相关系数。
它是说明有直线关系的两变量间,相关关系密切程度和相关方向的统计指标。
计算公式:注意事项:ü变量是正态分布,没有奇异值噪音。
所以做相关性分析之前要去除可能的奇异值,而且如果不是正态分布,可以通过取对数来近似获得。
ü另外,对于某些数据样本,考查两个变量之间的相关性,按照某类属性将样本分割,分别考查,或许会获取更有价值的知识。
2.2 Spearman相关系数又称秩相关系数、等级相关系数,或顺序相关系数,是利用两变量的秩次大小作线性相关分析,具体是将两要素的样本值按数据的大小顺序排列位次,以各要素样本值的位次代替实际数据而求得的一种统计量。
Spearman对原始变量的分布不作要求,属于非参数统计方法,适用范围要广些。
第五章 相关分析作业(试题及答案)
第五章相关分析一、判断题二、1.若变量X的值增加时,变量Y的值也增加,说明X与Y之间存在正相关关系;若变量X的值减少时,Y变量的值也减少,说明X与Y之间存在负相关关系。
()三、2.回归系数和相关系数都可以用来判断现象之间相关的密切程度()四、3.回归系数既可以用来判断两个变量相关的方向,也可以用来说明两个变量相关的密切程度。
()五、4.计算相关系数的两个变量,要求一个是随机变量,另一个是可控制的量。
()六、5.完全相关即是函数关系,其相关系数为±1。
()1七、1.2.3.4.5.6.7.8.9.22. A.r=0 B.|r|=1C.-1<r<1 D.0<r<123.每一吨铸铁成本(元)倚铸件废品率(%)变动的回归方程为:y c=56+8x,这意味着()24. A.废品率每增加1%,成本每吨增加64元 B.废品率每增加1%,成本每吨增加8%25. C.废品率每增加1%,成本每吨增加8元 D.废品率每增加1%,则每吨成本为561、B2、A3、A4、C5、B6、C7、C8、D9、B10、C.八、多项选择题1.测定现象之间有无相关关系的方法有()2.A、对现象做定性分析B、编制相关表C、绘制相关图D.计算相关系数E、计算估计标准3.下列属于负相关的现象有()4.A、商品流转的规模愈大,流通费用水平越低B、流通费用率随商品销售额的增加而减少5.C、国内生产总值随投资额的增加而增长D、生产单位产品所耗工时随劳动生产率的提高而减少E、产品产量随工人劳动生产率的提高而增加6.变量x值按一定数量增加时,变量y也按一定数量随之增加,反之亦然,则x和y之间存在()7.A、正相关关系B、直线相关关系C、负相关关系D、曲线相关关系8.E、非线性相关关系9.直线回归方程y c=a+bx中的b称为回归系数,回归系数的作用是()10.A、确定两变量之间因果的数量关系B、确定两变量的相关方向C、确定两变量相关的密切程度D、确定因变量的实际值与估计值的变异程度11.E确定当自变量增加一个单位时,因变量的平均增加量12.设产品的单位成本(元)对产量(百件)的直线回归方程为y c=76-1.85x,这表示()1九、1.2.3.4.5.6.7.8.1、1≤r<06、十、1.一种不完全的依存关系。
SPSS5-相关与回归分析
在回归方程中包括常项 缺失值的处理方式
用均值代替缺失值
一、线性回归分析( Linear Regression)
2、一元线性回归:
示例1:教材P260数据:20章_数据1.sav
识字量对阅读能力的影响有多大?
步骤:
(1)依据散点图检验线性关系 (2)操作过程:Analyze-Regression-Linear (3)结果输出观察重点:
二、双变量相关分析(Bivariate)
示例1:大学生人格(神经质、内外向程度) 与心理健康(SCL-90总分)之间有无相关?
SPSS操作:
1、绘制散点图,判定两变aphs-Scatter
2、打开Bivarite Correlations主对话框
偏相关分析的思想:控制其它变量的变化,即在剔 除其它变量影响的情况下,计算两变量之间的相 关关系。
两个变量间的线性相关关系,用偏相关系数表示。 应用条件:均为连续性变量。
Partial Correlations 对话框
分析变量
显著性检验 显示实际的显著性水平
控制变量
Options 对话框
均值及标准差 零阶相关矩阵(即:Pearson相关矩阵)
Model 1
Regression Residual Total
Sum of Squares 1845.333 899.634 2744.967
a. Predictors: (Constant), 识 字 量
b. Dependent Var iable: 阅 读 能力
ANOV Ab
df 1
28 29
解释回归平方和在总平方各中所占的比率,即解释回 归效果, r2=0.672,则表示因变量(阅读能力)的 变异中有67.2%是由自变量(识字量)而引起的。
相关分析
相关分析1 相关关系内涵1.1 相关关系的概念无论是在自然界还是社会经济领域,一种现象与另一种现象之间往往存在着依存关系,当我们用变量来反映这些现象的特征时,便表现为变量之间的依存关系。
如某种商品的销售额(y )与销售量(x )之间的关系、商品销售额(y )与广告费支出(x )之间的关系以及粮食亩产量(y )与施肥量(1x )、降雨量(2x ) 、温度(3x )之间的关系等。
统计学的主要研究对象是随机变量,在多个变量的时候,至少有一个变量是随机变量,因此我们对变量之间关系的分析是随机变量之间的关系或随机变量与确定变量之间的关系。
变量之间的依存关系可以分为两种:一是函数关系,指变量之间保持的严格的依存关系。
其主要特征是它的确定性,即对一个变量的每一个值,另一个变量都具有惟一确定的值与之相对应。
变量之间的函数关系通常可以用函数式确切地表示出来。
如圆的面积(S)与半径之间的关系可表示为S = 2R ,当圆的半径R 的值取定后,其圆的面积也随之确定。
二是相关关系,如果我们所研究的事物或现象之间,存在着一定的数量关系,即当一个或几个相互联系的变量取一定数值时,与之相对应的另一变量的值虽然不能一一确定,但按某种规律在一定的范围内变化。
我们把变量之间的这种不稳定、不精确的变化关系称为相关关系。
例如人的身高与体重这两个变量,一般而言是相互依存的,但它们并不表现为确定的函数的关系。
因为制约这两个变量的还有其他因素,如遗传因素、营养状况和运动水平等,以至于同一身高的人可以有不同的体重,同一体重的人又表现出不同身高。
变量间的这种不严格的依存关系就构成了相关与回归分析的对象。
在复杂的社会系统中,各种事物或现象之间的联系大多体现为相关关系,而不是函数关系,这主要是由于影响一个变量的因素很多,而其中一些因素还没有被人们所完全认识和掌握,或是处于已经认识但对其产生的影响还不能完全控制和测量。
另外,有些因素尽管可以控制和测量,但在操作过程中或多或少都会有误差,所有这些偶然因素的综合作用导致了变量之间的不确定性。
05心理统计学-第五章 相关关系
③两数据类型均为连续数据(即等距/比率数据)。
④两变量呈直线相关(先用散点图预测) 。
第二节 积差相关
▪ 二、基本计算公式 P113
➢ 1、运用标准差与离均差
xy
r NsX sY
,其中
x X X ,y Y Y
xy
可改写为 r
x2 y2
第二节 积差相关
▪ 二、基本计算公式
➢ 2、运用标准分数(Z分数)
▪ 一、概念与适用资料 (X X )(Y Y )
又称“积矩”相关。
N
[补充]:r2(决定系数/测定系数)具有消减预测误
差比例的含义。 P372
➢ 适用资料 [诸多条件缺一不可!]
①(大样本的)成对数据(表现为两组数据存在一一对
应关系) ,每对数据相互独立。
②正态双变量(即两总体服从正态分布或渐近正态的单 峰分布) [样本咋样就不管了]。
直接做因果判断。(通常难以区分出共变关系/虚假相关)
第一节 相关、相关系数与散点图
▪ 一、什么是相关
➢ 专题讨论:相关分析完全不能得出因果关系吗?
P107、148
回答:从理论和大多数实际操作来讲的确如此。
➢1)单凭相关无法判断何为因、何为果。 ➢2)很有可能存在其他变量共同作用于这两个变量。 ➢但排除了这两种情况的显著高相关可间接得出因果关
系。
第一节 相关、相关系数与散点图
▪ 一、什么是相关
➢ 2、相关的类别:
首先分为直线相关和曲线相关(根据散点图估计)
➢针对直线相关,从变化情况可划分为:正相关(及完 全正相关)、负相关(及完全负相关)、零相关(即两变量 之间无相关)。 (各种相关均可先根据散点图做初步估计)
[结合P110的图5-2、图5-3]
第5章 相关分析和回归分析作业答案(1)
第5章相关分析和回归分析作业答案1.当变量x按一定数值变化时,变量y也近似地按固定数值变化,这表明变量x和变量y之间存在着( 3 )①完全相关关系②复相关关系③直线相关关系④没有相关关系2.单位产品成本与其产量的相关:单位产品成本与单位产品原材料消耗量的相关( 2 )①前者是正相关,后者是负相关②前者是负相关,后者是正相关③两者都是正相关④两者都是负相关3.相关系数r的取值范围( 2 )①-∞<r<+∞②-1≤r≤+1③-I<r<1 ④0≤r≤+14.当所有观测值都落在回归直线y=a+bx上,则x 与y之间的相关系数( 4 )①r=O.②r=1 ③r=-1 ④IrI=15.相关分析与回归分析,在是否需要确定自变量和因变量的问题上( 1 )①前者无须确定,后者需要确定②前者需要确定,后者勿需确定③两者均需确定④两者都无需确定6.—元线性回归模型的参数有( 2 )①一个②两个③三个④三个以上7.直线相关系数的绝对值接近1时,说明两变量相关关系的密切程度是( 1 )①完全相关②微弱相关③无线性相关④高度相关8.年劳动生产率x(千元)和工人工资y(元)之间的回归方程为y=10+7Ox,这意味着年劳动生产率每提高1千元时,工人工资平均( 1 )①增加70元②减少70元③增加80元④减少80元9.下面的几个式子中,错误的是( 1,3 )①y=-40-1.6x r=0.89 (说明:正相关,x前面的系数应该为正值)②y=-5-3.8x r=-0.94③y=36-2.4x r=0.96④y=-36+3.8x r=0.9810.相关系数r与回归系数b的关系可以表达为( 1 )①r=b*σx/σy ②r=b*③r=b* ④r=b*11.下列关系中,属于正相关关系的有( 1 )①合理限度内,施肥量和平均单产量之间的关系②产品产量与单位产品成本之间的关系③商品的流通费用与销售利润之间的关系.④流通费用率与商品销售量之间的关系12.直线相关分析与直线回归分析的联系表现为( 1 )①相关分析是回归分析的基础②回归分析是相关分析的基础③相关分析是回归分析的深入④相关分析与回归分析互为条件13.如果估计标准误差Sy=O,则表明( 1 )①全部观测值和回归值都相等②回归值等于Y 、③全部观测值与回归值的离差之和为零④全部观测值都落在回归直线上14.进行相关分析,要求相关的两个变量( 1 )。
第五章相关分析解读
适用范围: (1)K个评价者对n个事物或n件作品进行等级评价,这样可以
得到K列从1到n的等级资料 (2)一个评价者先后K次评价n个事物或n件作品,同样也可得
到K列从1到n的等级资料
(二)计算方法 1. 无相同等级的情况
2. 有相同等级时W的计算 L为每组出现相同名次的次数
某校进行文艺比赛,7个评委对6个班级的评定等级结果 如下表,问这7个评委的评分是否具有一致性?
班级 N=6
12
评价者 K=7
3
4
5
67
1
3
4
5
3
4
3
4
2
6
5
6
5
5
6
6
3
5
6
4
6
6
5
5
4
1
1
2
2
3
1
1
5
2
条件也不一样。
第二节 积差相关
一、积差相关的概念及适用范围(P112)
概念:当两列变量都是正态连续变量,且两者之间呈 线性关系时,描述其相关程度用积差相关,它是研究 两列变量间直线相关最基本和最常用的方法。
适用范围:(1)每对数据相互独立 (2)两列变量各自总体的分布都是正态分布
,或者服从的分布接近正态的单峰分布 (3)两列相关的变量是连续的变量 (4)两列变量之间的关系是直线性相关
相关散布图:
是以两变量的一个变量为横坐标,另一变量为纵坐标, 通过两变量在平面直角坐标系中分布情况来描述两变量 间相关关系的图形。又称散点图。
《统计心理学》第5章+相关关系
5.2.2 协方差
• 协方差(covariance)是两个变量离均差乘积 的平均数。协方差越大,表示X、Y两列变 量的线性关系越强。
• 用符号COV表示。
COV
X
X Y
Y
xy
(5.1)
N
N
x、y——两个变量的离均差
x X X y Y Y
为什么协方差表示一致性程度?
NsX sY
N ( X X )2 (Y Y )2
N
N
被试 听觉X 1 174.1 2 136.4 3 118.3 4 178.1 5 186.3 6 135.2
…… 30 133.4 31 147 合计 5027.7
视觉Y 177.5 167.4 116.7 130.9 199.1 198.3
62
60
60 62 64 66 68 70 72 74 76 78 80
父亲的身高(英尺)
• 相关系数用于描述双变量相互之间的关系。
• 所谓双变量,是对于一个变量X的每一个观 测值X1,X2,……,Xn,同时有另一个变量Y的 相应观测值Y1,Y2,……,Yn与之对应。
• 例如,每个人的身高和体重是对应的。
Y
Y
X 散点图A
X 散点图B
哪个图中,XY的一致性程度高?
Y Ymax
Y
Ymin
Xmin X Xmax X
Y
Xi X
Yi
( X i ,Yi )
Y
Yi Y
X Xi
X
(Xi X )(Yi Y)
表示该点与平均数构成的矩 形的面积
Y
Yi
Байду номын сангаас
第五章相关系数.
n n2 1 12
N3 N y CY 12
2
n n2 1 12
例5-3 现有10人的视、听两种感觉通道的反应时,数据 见下表,问视、听觉反应时是否具有一致性?
被试 听反应时 视反应时 RX RY D=RX-RY D2 1 172 179 7 5 2 4 2 140 162 2 2 0 0 3 152 153 5 1 4 16 4 187 189 8 8 0 0 5 139 181 1 6 -5 25 6 195 220 9 10 -1 1 7 212 210 10 9 -1 1 8 164 182 6 7 -1 1 9 149 178 4 4 0 0 10 146 170 3 3 0 0 55 55 48 合计
• 注:介绍EXCEL中的FISHER及FISHERIVN函数
例5-2 下表是来自同一总体的三个样本的相关 关系,求平均相关关系。 Ri ni-3 样本 ni 1 50 0.419 47 2 264 0.390 261 3 37 0.425 34 342 合计 Zi 0.448 0.412 0.454 (ni-3)Zi 21.056 107.532 15.024 144.024
第一节 相关、相关系数与散点图
一、什么是相关
事物之间的相互关系 (1)因果关系:一种现象是另一种现象的原因,而另 一种现象是结果。数学上的函数关系。 (2)共变关系:表面上看来有联系的两种事物都与第 三种现象有关。草、小树与季节(时间)。 (3)相关关系:两类现象在发展变化的方向与大小方 面存在一定的关系。不能确定这两类现象之间哪个是因, 哪个是果;也有理由认为这两者并不存在共变关系。 具有相关关系的两种现象之间的关系是比较复杂的, 甚至可能包含有暂时的尚未认识的因果关系以及共变关系 在内。 Nhomakorabea
第五讲 双变量相关分析
对称或 不对称
〔0,1〕
众数
不对称
〔-1,1〕
变量值的 分布比例
对称或不 对称
不对称
〔-1,1〕 〔-1,1〕
变量值 顺序
变量值 顺序
不对称 〔0,1〕
均值
定距-定距
积距相关系数 (Pearson’s r)
对称或 不对称
〔-1,1〕
均值
第一节 平均值分析
表5—3 按性别分组的描述性统计量
HB
SEX 1 2 Total
Mean 12.6529 10.1095 11.4448
血红R蛋ep白ort* 性别
N 21 19 40
Std. Deviation
2.0531 1.6989 2.2690
Variance 4.215 2.886 5.148
Sum 265.71 192.08 457.79
HB * SEX
Eta
Eta Squared
.567
.321
表5—6是eta统计量表,η统计量表明因变 量和自变量之间联系的强度,0.567的值处 于中等水平,η2是因变量中不同组间差异所 解释的方差比,是组间平方和与总平方和之 比,即由64.5256除以 200.787得到。
表5—7 按年龄分组的方差分析表
表5—4 按年龄分组的描述统计量
HB
AGE 16 17 18 Total
Mean 11.2921 10.5380 12.1450 11.4448
血红Re蛋p or白t * 年龄
N 14 10 16 40
Std. Deviation
2.4649
1.9421
2.1827
第5章 回归分析与相关分析(2)-多元线性回归分析
第二篇回归分析与相关分析第5章多元线性回归分析在现实地理系统中,任何事物的变化都是多种因素影响的结果,一因多果、一果多因、多果多因的情况比比皆是。
以全球变化为例,过去一直以为地球气候变暖是由于二氧化碳的温室效应造成,但近年来有人指出水蒸汽是更重要的影响因素,二氧化碳只不过是一个“帮凶”。
如果这种观点成立,则气候变暖至少有两个原因:水蒸汽和二氧化碳。
为了处理诸如此类一果多因的因果关系问题,我们需要掌握多元线性回归知识。
至于多果多因的情况,需要借助典型相关分析或者多元多重线性回归分析技术。
多元线性回归的最小二乘拟合思路与一元线性回归相似,但有关数学过程要复杂得多。
对于一元线性回归,F 检验、t检验都与相关系数检验等价;对应多元线性回归,F检验、t检验与相关系数检验没有关系,而且相关系数分析要麻烦多了。
为了简明起见,本章着重讲述二元线性回归分析。
至于三元以上,基本原理可以依此类推。
§5.1 因果关系与基本模型5.1.1 因果关系对于我们上一章讲到的实例,山上积雪深度影响山下灌溉面积。
如果灌溉面积单纯取决于山上的积雪量,这个问题就比较简单,它们之间构成通常意义的简单因果关系——一因一果关系。
在这种情况下进行回归分析、建立数学模型是有意义的。
另一类现象就是诸如街头的裙子和身边的蚊子之类,它们属于共同反应(common response),或者叫做共变反映,建立回归模型没有统计意义。
但是,这并不是说,研究共变现象就没有任何科学意义。
共同反应属于一因多果的问题,探查共同反应的现象有助于我们揭示事物发生的原因。
举个简单的例子,如果在某个山区发源了两条河流,分别流向不同的海洋。
两条河流不会相互影响。
如果在某段时期下游的观测记录表明两条河流的水位同时持续上涨,那就说明一个问题,河流发源的山区下雨或者积雪融化。
这类问题在地理研究中比比皆是。
由于地球的万事万物或多或少都要受到天体的影响,一些原本相对独立的地理事物表面上形成了数据的相关关系,深究之后才发现它们共同的根源在于天文因素。
第5讲相关分析与相关系数
第5讲相关分析与相关系数相关分析,也被称为相关性分析,是统计学中一种用于评估两个或多个变量之间关系的方法。
通过相关分析,我们可以了解两个变量之间是否存在其中一种关联,以及关联的强度和方向。
相关系数是用来度量两个变量之间相关性的指标。
常用的相关系数有皮尔逊相关系数、斯皮尔曼相关系数和刻度相关系数。
皮尔逊相关系数是衡量两个连续变量之间线性关系强度和方向的常用指标。
它的取值范围介于-1和1之间,其中-1表示完全的负相关,0表示无相关,1表示完全的正相关。
计算皮尔逊相关系数的方法是通过两个变量的协方差除以它们的标准差的乘积。
斯皮尔曼相关系数是用于衡量两个有序变量之间相关性的指标。
它不要求变量之间服从线性关系,而是通过对两个变量的排序来计算相关系数。
斯皮尔曼相关系数的取值范围也是-1到1之间,其中-1表示完全的负相关,0表示无相关,1表示完全的正相关。
刻度相关系数(Kendall's tau)是衡量两个有序变量之间相关性的非参数指标,适用于样本量较小或变量不满足正态分布的情况。
刻度相关系数的取值范围也是-1到1之间,其中-1表示完全的负相关,0表示无相关,1表示完全的正相关。
在进行相关分析时,首先要对变量之间的关系进行可视化。
常用的方法是绘制散点图来展示变量之间的关系。
如果散点图呈现一种线性的趋势,即随着一个变量的增加,另一个变量也随之增加(或减少),那么这两个变量之间很可能存在线性相关。
如果散点图呈现一种曲线的趋势,那么这两个变量之间可能存在非线性相关。
如果散点图呈现一种随机分布的形式,那么这两个变量之间可能没有相关性。
然后使用相关系数来度量变量之间的相关性。
通过计算相关系数的值,我们可以判断变量之间的相关性强弱及方向。
但是需要注意的是,相关系数只能反映变量之间的线性关系,对于非线性关系可能无法准确度量。
相关分析在实际应用中有着广泛的应用。
例如,在市场调研中,我们可以通过相关分析来评估两个市场指标之间的关系,以及它们对销售量的影响。
相关分析
四分相关和φ相关: 四分相关和φ相关:ψ系数与 Crammer’s V系数 Crammer s V系数
ϕ= χ2
N
V= N (K − 1)
χ2
ψ:[0,1],绝对值越大, ψ:[0,1],绝对值越大,相关越 绝对值越大 强
(四)品质相关
• SPSS中 SPSS中
列联相关: 列联相关:列联系数
χ2 C= 2 N+χ
SPSS操作 操作
• 相关分析 (Analyze/Correlate/Bivariate ) • 斯皮尔曼系数(Spearman rho) 斯皮尔曼系数( ) • 肯德尔τ系数(Kendall's tau_b) 系数( )
任务三
三个班级学生的期中考试成绩见“ 例 1 三个班级学生的期中考试成绩见 “ 学 生期中考试成绩”文件,试分析: 生期中考试成绩”文件,试分析: (3)物理成绩和学生性别之间是否存在关 系 , 即物理成绩是不是受男女生性别 的影响, 的影响 , 是不是男生的物理成绩比女 生要优异? 生要优异?
(四)品质相关
• 研究两列品质变量间的相互关系 • 分类——变量的性质和分类数目 变量的性质和分类数目 分类 不同
四分相关: 四分相关:人为二分称名变量 原数据连续且呈正态分布) (原数据连续且呈正态分布) 相关: φ相关:真正二分称名变量 列联相关: 列联相关:二分以上称名变量
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第五讲 相关分析一、 “相关”的意义(一)相关现象教育工作者常发觉,许多教育现象之间或教育行为之间存在着一定的相互联系。
例如,在学习行为上,隐约地表现出这么一些特点:学生的数学成绩和物理成绩之间关系密切,似乎许多数学成绩优秀的学生在物理科目上的成绩大多也是优秀的,许多数学水平中等的学生在物理科目上的学习水平大多数也是中等的,许多数学成绩较差的学生物理科目上的学习成绩大多也是较差的。
这说明数学成绩和物理成绩之间存在一种“ 水涨船高、水落船低 ”的互相关联的趋势。
当然,并不是所有事物之间都有这么一种相同的明显的关联趋势。
比如,数学成绩与语文成绩之间或语文成绩与化学成绩之间,其相互关联的趋势就不是那么明显可察。
而另外一些教育现象,例如对学习材料的复习次数与遗忘量之间的关系,其遗忘量在一定范围内随着复习次数的增加而减小。
可见,行为变量或现象之间存在着种种不同模式不同程度的联系。
(二)、相关的直观意义——散点图分析正相关与负相关—— 如果相互关联着的两变量,一个增大另一个也随之增大,一个减小另一个也随之减小,变化方向一致,就称两变量之间有正相关。
如果相互关联着的两变量,一个增大另一个反而减小,变化方向相反,就称叫两变量之间有负相关。
直线性相关与曲线相关——直线性相关是所有关联模式中最简单的一种,有关联的两个变量各自以大体均等的速度变化着。
若以平面坐标散点图来理解,直线性相关意指:两个变量的成对观测数据在平面直角坐标系上描点构成的散点图分布的教点会环绕在某一条直线附近。
直线性相关的含义,是以平面坐标散点图来理解,我们还可以从相关散点图的几何分布形态来认识相关的强度与方向,如果散点图形杂乱无章,没有显示出向某个方向延伸的情形,则说明相关程度很低;如果散点图分布形成一个边界不规则的椭圆,则说明两个变量存在中等程度的相关;若这里的椭圆越扁长,则相关程度越高。
至于相关的方向,则可以通过散点椭圆图形的长轴所在直线的斜率来判断。
从左下方往右上方延伸的情形是正相关;从左上方往右下方延伸的情形是负相关。
这样,我们可以从散点图的分布情况,初步判断两个变量之间的相关情况。
二、相关的计算及分析(一)、(积差)相关系数r定义,设两个现象有如下两组观测值1212:,,,:,,,n nX x x x Y y y y称 12211()()()()nii i nniii i XX Y Y r XX Y Y ===--=--∑∑∑ 为“X 与Y 的相关系数”相关系数用r 表示,r 在-1和+1之间取值。
相关系数r 的绝对值大小(即),表示两个变量之间的直线相关强度;相关系数r 的正负号,表示相关的方向,分别是正相关和负相关;若相关系数r =0,称零线性相关,简称零相关;相关系数 =1时,表示两个变量是完全相关,这时,两个变量之间的关系成了确定性的函数关系,这种情况在行为科学与社会科学中是极少存在的。
一般说来,若观测数据的个数足够多的话,计算出来的相关系数r 就会更真实地反映客观事物之间的本来面目。
当0.7<1,称为高度相关;当0.4时,称为中等相关;当0.2时,称为低度相关;当时,称极低相关或接近零相关。
由于事物之间联系的复杂性,在实际研究中,通过统计方法确定出来的相关系数r 即使是高度相关, 我们在解释相关系数的时候,还要结合具体变量的性质特点和有关专业知识进行。
两个高度相关的变量,它们之间可能具有明显的因果关系;也可能只具有部分因果关系;还可能没有直接的因果关系,其数量上的相互关联,只是它们共同受到其他第三个变量所支配的结果。
除此之外,相关系数r 接近零,这只是表示这两个变量不存在明显的直线性相关模式,但不能肯定地说这两个变量之间就没有规律性的联系。
通过散点图我们有时会发现,两个变量之间存在明显的某种曲线性相关,但计算直线性相关系数时,其r 值往往接近零。
对于这一点,读者应该有所认识。
在统计学教科书中,除非特别说明,直线性相关一般情况下就称相关; 直线性相关系数就称相关系数。
相关系数的计算方法多种多样,这里主要介绍:积差相关、等级相关和点双列相关。
这些相关分析方法在行为科学研究以及在教育与心理测量研究中有广泛的应用。
【例1】练习(用“统计计算器”)算出某学生X (数学)与Y (语文)成绩之间的相关系数(表1):学生号 01 74 82 5476 6724 6068 02 71 75 5041 5626 5325 03 80 81 6800 6561 6480 04 85 89 7225 7921 7565 05 76 82 5776 6724 6232 06 77 89 5929 7921 6853 07778859297744677608 68 84 4624 7056571209 74 80 5476 6400 592010 74 87 5476 7569 6438756 837 57352 70245 63369 说明该系数的含义。
(答:0.48)(二)、等级相关的概念及基本公式针对两列顺序变量数据之间的相关问题,英国心理学家与统计学家斯皮尔曼(C.E.Spearman)在皮尔逊积差相关法思想的基础上,导出了等级相关的计算方法。
等级相关是根据两列顺序变量数据中各对等级数据的差数来计算相关系数的方法。
对于连续变量的数据,必要时可分别把两列数据按大小顺序赋给名次等级,进而采用等级相关法计算相关系数。
等级相关系数的基本计算公式如下:r R=式中:r R是等级相关的记号;n是成对观测数据的数量;D是成对的等级数据的差数,简称等级差数;是所有等级差数的平方和。
(答:0.6667)【例2】表2:等级相关系数计算示例学生演讲比赛名次作文比赛名次等级差数D差数平方010203040506 153726321847-232-1-2-14941410708 4856-1214/ / / 28【例3】两位教育专家对5篇论文进行独自评价,各自对这5篇论文排出名次顺序,其结果见表2中第2栏和第3栏有关数据。
试问这两位教育专家在评价优秀论文时,他们评价意见一致性如何?[分析解答] 一般说来,要研究两位专家的评判标准或评价意见的一致性程度,可以通过相关分析的方法。
由于这里的评价意见最终是以排定的名次出现的,故要用等级相关法。
具体计算仿照上例,其结果如表3。
据此求得:可见这两位专家对5篇论文的评价意见一致性很差。
表3 等级相关系数计算示例2论文编号评委甲() 评委乙()D01020304052541343125-223-1-24491420关于Spearman等级相关系数计算中出现“相同等级”时的处理方法:把相同等级处理成算术平均数;或者在把相同等级处理成算术平均数的同时,对另一变量的对应等级也处理成算术平均数。
(三)、点双列相关相关的概念及基本公式在研究一些教育问题时,我们常遇到两个变量中的一个是连续变量,另一个是二分类的称名变量,并且要求分析它们之间的相关连带关系的情况。
【例4】某研究人员取得 14位学生参加国际中学生奥林区克数学竞赛地区选拔赛的成绩,其数据如表3所示,试问性别和数学能力之间有连带关系吗?表4: 14名学生参加奥林区克数学选拔赛成绩一览表学生代号 A B C D E F G H I J K L M N性别男男男男男男男男男女女女女女数学成绩69 40 30 43 61 57 48 65 33 44 60 40 23 30 这里的性别变量是称名变量,是名副其实的二分类称名变量,而数学成绩是连续变量数据。
对这样类型的两列数据,怎样研究变量之间的相关呢?显然,前面介绍的方法都不适用为此,我们介绍一种新的相关分析法,即点双列相关。
1、点双列相关适用范围及基本公式点双列相关适用于双变量数据,例如有一列数据是连续变量数据,如体重、身高以及许多测验与考试的分数;包括一列数据是二分类的称名变量数据,如性别(分男与女)、态度(分赞成和不赞成)、学习经历(分有与无)、考试结果(分合格与不合格)、题目解答(分答对与答错)等数据。
点双列相关的基本公式为:式中:是点双列相关系数的符号;p是二分类数据中某类事物所占的比例;q是二分类数据中另一类事物所占的比例,;是p类事物的连续变量数据的平均数;是q类事物的连续变量数据的平均数;是全部连续变量数据的标准差。
2、点双列相关系数计算根据上述点双列相关的基本公式,可从已知数据出发,分步进行计算。
【例3】根据本节表4-7的有关数据,研究一下数学能力与性别之间有多大的关联。
[分析解答] 采用点双列相关法来研究教学能力和性别之间的相关情况,可按公式,由表中的数据资料分步计算。
(1)在14名学生中有9名男生和5名女生,若用p表示男生的人数比例,q表示女生的人数比例,则有:(2)把14名学生的数学比赛成绩按男生和女生分成两部分,第一部分即p部分是9名男生的数学成绩,第二部分即q部分是5名女生的数学成绩,并分别计算这两部分数据的平均数。
男生成绩:69,40,30,43,61,57,48,65,33女生成绩:44,60,40,23,30=(3)计算14名学生的数学成绩的标准差Sx。
为此,根据第二章中标准差的公式,表中的数据通过计算可得下列各值:=(4)把上述各值代入公式,求得点双列相关系数为:注:这个计算结果是错的!应为0.35.因此,从本研究的数据来看,奥林匹克数学竞赛地区选拔赛的数学成绩与学生性别之间存在中等程度的相关。
具体地讲,从男生组和女生组的平均分数来比较,似乎男生的数学平均分数较明显地高于女生的数学平均分数。
当然,计算点双列相关第数也可以设计一张表格来完成上述各个数量的计算。
同学不妨利用这种计算格式来完成后面的有关练习题。
特别应提到的是,若用数字“1”和“0”分别表示二分类称名变量数据中的男生和女生,或选择题的答对与答错反应,再应用积差相关系数公式或等级相关公式来计算,其计算结果相同。
原来,点双列相关公式就是按照积差相关的思路推导出来的,因而,点双列相关是积差相关的特殊应用。
在这种特殊情形下,不论积差相关系数也好,点双列相关系数也好,正负相关的意义对结果的解释都要结合具体问题情况来进行解释。