第九章 相关分析与Correlate过程
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
析方法。 – 3、把握相关关系的方向与密切程度。 – 4、预测变量间的变化、评价测量量具的信
度和效度及项目的区分度等。
§9.1.1 相关关系的分类
• 相关关系的分类:
– 按强度分:
• 完全相关:变量之间存在函数关系。例,圆的周长,
L=2 r 。
• 高度相关(强相关):变量之间近似存在函数关系。 例,我国家庭收入与支出的关系。
§9.2 Correlate过程
• 在Analyze+Correlate下的三个子菜单:
1、Bivariate--相关分析,计算指定的两个变量间的相关
关系,可选择Pearson相关、Spearman和Kendall 相关;同 时对相关系数进行检验,检验的零假设为:相关系数为0( 不相关)。给出相关系数为0的概率。
• 相关分析的目的:通过具体的数量描述 ,呈现出研究变量之间相互关系的密切 程度及其变化规律,探求相互关系的研 究模式,以利于统计预测和推断,为作 出正确决策提供参考依据。
相关分析的作用(P172)
• 相关分析的作用是多方面的,具体概括 为:
– 1、判断变量之间有无联系。 – 2、确定选择相关关系的表现形式及相关分
§9.1.3 相关系数的分类
• 两个变量的相关系数的计算方法有:(P173,2)
– Pearson简单线性相关系数:是衡量两个定距变量(连续变 量)关系的线性关系。利用两组秩次测量两个变量间相关 程度。如:身高和体重、国民收入和居民储蓄存款等。
– Spearman等级相关系数:考察两个变量中至少一个为定序 变量时的相关关系,利用两组秩次测量两个变量间相关程 度。它适合有序数据或不满足正态分布假设的等间距数据 。如:学历与收入之间的关系。
– Options按钮:见图7-2
• Statistics:有两个统计量输出的选项。只有选择了Pearson相 关分析方法时才可选择。
– Means and standard deviations:要求计算并输出均值与标准差。 – Cross-product deviations and covariances:要求计算并输出叉积离差
§9.2 Correlate过程
– Test of Significance:显著性检验选项。
• Two-tailed:双尾t检验,当事先不知道相关方向(正相关还 是负相关)时选择此项。
• One-tailed:单尾t检验,如果事先知道相关方向可选此项。
– Flag significant correlations:要求在输出结果中,相关 系数右上方使用“*”表示显著性水平为0.05,用 “**”表示显著性水平为0.01。
两之间的相关系数不为零,即具有相关性。从相关系数 的值可以得出相关的方向。 根据结果表,显示月平均家庭收入和租住的房子离市中心 距离间存在负相关关系。
§9.2.2 偏相关分析
• 简单相关分析在一些情况下无法较为真实准确 地反映事物之间的相关关系。
• 如:在研究某农场春季早稻产量与平均降雨量 、平均温度之间的关系时,产量和平均降雨量 之间的关系中实际还包含了平均温度对产量的 影响。同时平均降雨量对平均温度也会产生影 响。在这种情况下,单纯计算简单相关系数, 显然不能准确地反映事物之间的相关关系,而 需要在剔除其他相关因素影响的条件下计算相 关系数。偏相关分析正是用来解决这个问题的 。
• |r|>0.8:强相关;|r|<0.3:弱相关,可视为 不相关
• 注意:
–相关系数只是一个比率值,并不具备与相关 变量相同的测量单位。
–相关系数r受变量取值区间大小及样本数目的 影响较大,一般计算相关的成对数据的数目 不应少于30对。
–来自于不同群体且不同质的事物的相关系数 不能进行比较。
–对于不同类型的数据,计算相关系数的方法 也不相同。
• 函数关系:一个变量的值能够在其他变量取值确定的 情况下,按某种函数关系唯一确定。如圆面积和圆半 径,销售量和销售额。
• 相关关系(统计关系):变量直接存在某种关系,但 一个变量的值不能由另一个变量的值唯一确定。如收 入和消费,身高和遗传。
相关关系不象函数关系那么直接,但普遍存在 ,且有强有弱。
相关分析的目的
相关系数
相关系数r属于[-1,+1]。
• 若0<r≤1,表明变量之间存在正相关关系,即两个变
量的相随变动方向相同;
• 若-1≤r<0,表明变量之间存在负相关关系,即两个变
量的相随变动方向相反。
• r=1:完全正相关;r=-1:完全负相关;这
两种情况说明变量之间存在函数关系。
• r=0:无线性关系,但不能排除变量之间存在 其他非线性关系的可能。
–单击菜单“Analyze”中的“Correlate”的 “Partial”选项,弹出如P180,图7-4.
§9.2 Correlate过程
• 偏相关分析结果表: • 类似见P183,表7-8,7-9. • 结果显示:在控制变量“有三居室的住宅月租金”的条
件下,变量“月平均家庭收入”与“离市中心距离”的 偏相关系数为0.614,其sig.=0.059>0.05,其结论与简 单相关系数不同。
第九章 相关分析与Correlate过程
-教材第七章
§9.1 相关分析概念和方法
相关分析是研究变量间密切程度并用适当的统计
指标表示出来的一种常用统计方法。即是研究现象 之间是否存在某种依存关系,并对具体有依存关系 的现象探讨其相关方向以及相关程度,是研究随机 变量之间的相关关系的一种统计方法。
变量之间的关系归纳起来可分为两种类型:
矩阵和协方差矩阵。
• Missing Values:缺失值处理方法。
§9.2 Correlate过程
• 该例中由于三个变量都是定量变量,故对它们 进行相关分析时,应计算Pearson简单相关系数 。
• 结果分析:
–类似于 P178,表7-3 描述统计结果表。
–类似于P178,表7-4 相关分析结果表。 三个Sig.值均小于所给定的显著性水平,从而可以得出两
§9.2.2 偏相关分析
• 偏相关分析:是指当两个变量同时与第三个 变量相关时,将第三个变量的影响剔除,只 分析另外两个变量之间相关程度的过程。。
• 偏相关分析的工具是计算偏相关系数r12. • 对于例9.1的数据进行偏相关分析。对“月平
均家庭收入”与“离市中心距离”的相关分 析。 • 其SPSS软件实现操作:
• 距离相关分析是:对观测量之间或变量之间 相似或不相似的程度的一种测量。
• 距离相关分析可用于同一变量内部各个取值 间,以考察其相互接近程度;也可用于变量 间,以考察预测值对实际值的拟合优度。
• 距离相关分析的结果给出的不是常用的P值 ,而是各变量或记录之间的距离大小,以供 用户自行判断相似性。
距离相关分析根据统计量不同分为以下两种:
§9.1.2 描述相关关系的方法
• 相关关系的描述方法有:
–散点图:将数据以点的形式绘制在直角平面上,比较直观 ,可用来发现变量间的关系和可能的趋势。
• 散点图在进行相关分析时较为粗略。
–相关系数:以精确的相关系数体系变量间的线性关系程度 。
• 如果相关系数是根据总体全部数据计算的,称为总体相关系数,记 为ρ;
2、Partial -- 偏相关分析,计算两个变量间在控制了其
他变量的影响下的相关关系,对相关系数也进行检验,检 验的零假设为:相关系数为0
3、Distance-- 相似性测度,对变量或观测量进行相似
性或不相似性测度
§9.2 简单相关分析的SPSS操作
• 例:在一项关于城市租房的研究中,调查了11个小区的 情况,资料如下表所示:
• 不相似性测量:通过计算样本之间或变量之 间的距离来表示。
• 相似性测量:通过计算Pearson相关系数或 Cosine相关来表示。
距离相关分析根据分析对象不同,分为:
• 样本见分析:样本和样本之间的距离相关分 析。
• 变量间分析:变量和变量之间的距离相关分 析。
SPSS实现距离相关分析:
• 单击菜单“Analyze”中的“Correlate”的 “Distances”选项,弹出如P185,图7-6.
– 从变量关系的形态分:
• 线性相关:所有点聚集在某一条直线附近。 • 曲线相关:所有点聚集在某一条曲线附近。
– 从变量数目分:
• 单相关关系:两个变量之间的关联。 • 多重相关(复相关):三个或三个以上变量之间的关系。
• 极端相关:
– 零相关:不相关。Βιβλιοθήκη Baidu
– 完全相关:所有点全部落在某一条直线上。分为完全正相关 和完全负相关。
§9.1.4 偏相关系数
• 简单相关分析计算两个变量间的相关系数,分 析两个变量间线性关系的程度。往往因为第三 个变量的作用,使相关系数不能够真正反映两 个变量间的线性程度。
• 偏相关系数:在控制了其他变量的影响下计算 两变量的相关系数。如控制年龄和工作经验的 影响,估计工资收入与受教育水平之间的相关 关系。
• 如果相关系数是根据样本数据计算而来的,则称为样本相关系数, 记为r。
• 一般的,在统计学中用样本相关系数r来推断总体相关系数。
• 相关系数只是较好地度量了两变量间的线性相关程度 ,不能描述非线性关系。是按积差方法计算,以两变 量与各自平均值的离差为基础,通过两个离差相乘来 反映两变量之间相关程度。
• 弱相关:变量间有关系但不明显。例,近年来我国耕 种面积与产量。
• 零相关:变量间不存在任何关系。例某班学生的学习 成绩与年龄。
§9.1.1 相关关系的分类
• 相关关系的分类:
– 从相关变量方向分:
• 正相关:变量变化的方向一致,即变量同时增加或减少。 • 负相关:变量变化的方向相反,即变量间一个增加,另一个却减少
小区编号
月平均家庭收入/元
离市中心距离/km
有三居室的住宅月租金/元
1
3400
7.5
1500
2
3700
6.3
1600
3
3900
5.0
1800
4
4200
3.6
2200
5
4100
4.5
2000
6
4500
4.8
2050
7
4000
3.8
2300
8
5200
4.0
2500
9
6200
3.3
3000
10
6800
3.0
9.2.3 距离分析
• 简单相关分析和偏相关分析都对所分析 的数据背景有一定程度的了解。
• 但在实际中有时会遇到:在分析前对数 据所代表的专业背景知识尚不充分,就 需要先对各个指标或者实例的差异性、 相似程度进行考察,先对数据有一个初 步了解,然后再根据结果考虑如何进行 深入分析。
9.2.3 距离分析
在该对话框中:
Correlation Coefficients:列出相关分析类型。 Pearson:为通常所指的相关系数(r)。 Kendell’s tau-b:为非参数资料的相关系数, Spearman:为非正态分布资料的相关系数。
若参与分析的变量是连续变量,选择Kendall’s tau-b或 Spearman相关,则系统自动对连续变量的值先求秩,再 计算其秩分数间的相关系数。
– Kendall秩相关系数:与等级相关一样,考察两个变量中至 少一个为定序变量的相关关系。分析时考虑了结点(秩次 相同的)影响。
相关分析的类型
• 根据研究的目的不同,或变量的类型不 同,采用不同的相关分析方法。
• 常用的相关分析方法有: • 简单相关分析(Bivariate) • 偏相关分析(Partial) • 距离分析(Distances)
• 偏相关系数更能反映两个变量间的本质联系, 故常用于多元线性回归分析之中,以便分析自 变量的共线性是否排除。
§9.1.5 相关系数的检验
• 为了判断r对ρ的代表性大小,需要对相关系数 进行假设检验。
–(1)首先假设总体相关性为零,即H0为两总体无 显著的线性相关关系。
–(2)其次,计算相应的统计量,并得到对应的相 伴概率值Sig.,如果Sig.小于或等于指定的显著性 水平,则拒绝H0,认为两总体存在显著的线性相关 关系;否则,不能拒绝H0,以为两总体不存在显著 的线性相关关系。
3200
11
7300
4.1
2800
• 试对月平均家庭收入、离市中心距离和有三居室住宅月 租金三个变量进行相关分析。
§9.2 Correlate过程
• SPSS统计分析过程: 1、建立数据文件eg91.sav。 2、单击菜单“Analyze”中的“Correlate”的
“Bivariate”选项,弹出如P175,图7-1.
• 该图中可选择检验变量(Variables)、分 析类型(Compute Distances)、测度类型 (Measure)。
度和效度及项目的区分度等。
§9.1.1 相关关系的分类
• 相关关系的分类:
– 按强度分:
• 完全相关:变量之间存在函数关系。例,圆的周长,
L=2 r 。
• 高度相关(强相关):变量之间近似存在函数关系。 例,我国家庭收入与支出的关系。
§9.2 Correlate过程
• 在Analyze+Correlate下的三个子菜单:
1、Bivariate--相关分析,计算指定的两个变量间的相关
关系,可选择Pearson相关、Spearman和Kendall 相关;同 时对相关系数进行检验,检验的零假设为:相关系数为0( 不相关)。给出相关系数为0的概率。
• 相关分析的目的:通过具体的数量描述 ,呈现出研究变量之间相互关系的密切 程度及其变化规律,探求相互关系的研 究模式,以利于统计预测和推断,为作 出正确决策提供参考依据。
相关分析的作用(P172)
• 相关分析的作用是多方面的,具体概括 为:
– 1、判断变量之间有无联系。 – 2、确定选择相关关系的表现形式及相关分
§9.1.3 相关系数的分类
• 两个变量的相关系数的计算方法有:(P173,2)
– Pearson简单线性相关系数:是衡量两个定距变量(连续变 量)关系的线性关系。利用两组秩次测量两个变量间相关 程度。如:身高和体重、国民收入和居民储蓄存款等。
– Spearman等级相关系数:考察两个变量中至少一个为定序 变量时的相关关系,利用两组秩次测量两个变量间相关程 度。它适合有序数据或不满足正态分布假设的等间距数据 。如:学历与收入之间的关系。
– Options按钮:见图7-2
• Statistics:有两个统计量输出的选项。只有选择了Pearson相 关分析方法时才可选择。
– Means and standard deviations:要求计算并输出均值与标准差。 – Cross-product deviations and covariances:要求计算并输出叉积离差
§9.2 Correlate过程
– Test of Significance:显著性检验选项。
• Two-tailed:双尾t检验,当事先不知道相关方向(正相关还 是负相关)时选择此项。
• One-tailed:单尾t检验,如果事先知道相关方向可选此项。
– Flag significant correlations:要求在输出结果中,相关 系数右上方使用“*”表示显著性水平为0.05,用 “**”表示显著性水平为0.01。
两之间的相关系数不为零,即具有相关性。从相关系数 的值可以得出相关的方向。 根据结果表,显示月平均家庭收入和租住的房子离市中心 距离间存在负相关关系。
§9.2.2 偏相关分析
• 简单相关分析在一些情况下无法较为真实准确 地反映事物之间的相关关系。
• 如:在研究某农场春季早稻产量与平均降雨量 、平均温度之间的关系时,产量和平均降雨量 之间的关系中实际还包含了平均温度对产量的 影响。同时平均降雨量对平均温度也会产生影 响。在这种情况下,单纯计算简单相关系数, 显然不能准确地反映事物之间的相关关系,而 需要在剔除其他相关因素影响的条件下计算相 关系数。偏相关分析正是用来解决这个问题的 。
• |r|>0.8:强相关;|r|<0.3:弱相关,可视为 不相关
• 注意:
–相关系数只是一个比率值,并不具备与相关 变量相同的测量单位。
–相关系数r受变量取值区间大小及样本数目的 影响较大,一般计算相关的成对数据的数目 不应少于30对。
–来自于不同群体且不同质的事物的相关系数 不能进行比较。
–对于不同类型的数据,计算相关系数的方法 也不相同。
• 函数关系:一个变量的值能够在其他变量取值确定的 情况下,按某种函数关系唯一确定。如圆面积和圆半 径,销售量和销售额。
• 相关关系(统计关系):变量直接存在某种关系,但 一个变量的值不能由另一个变量的值唯一确定。如收 入和消费,身高和遗传。
相关关系不象函数关系那么直接,但普遍存在 ,且有强有弱。
相关分析的目的
相关系数
相关系数r属于[-1,+1]。
• 若0<r≤1,表明变量之间存在正相关关系,即两个变
量的相随变动方向相同;
• 若-1≤r<0,表明变量之间存在负相关关系,即两个变
量的相随变动方向相反。
• r=1:完全正相关;r=-1:完全负相关;这
两种情况说明变量之间存在函数关系。
• r=0:无线性关系,但不能排除变量之间存在 其他非线性关系的可能。
–单击菜单“Analyze”中的“Correlate”的 “Partial”选项,弹出如P180,图7-4.
§9.2 Correlate过程
• 偏相关分析结果表: • 类似见P183,表7-8,7-9. • 结果显示:在控制变量“有三居室的住宅月租金”的条
件下,变量“月平均家庭收入”与“离市中心距离”的 偏相关系数为0.614,其sig.=0.059>0.05,其结论与简 单相关系数不同。
第九章 相关分析与Correlate过程
-教材第七章
§9.1 相关分析概念和方法
相关分析是研究变量间密切程度并用适当的统计
指标表示出来的一种常用统计方法。即是研究现象 之间是否存在某种依存关系,并对具体有依存关系 的现象探讨其相关方向以及相关程度,是研究随机 变量之间的相关关系的一种统计方法。
变量之间的关系归纳起来可分为两种类型:
矩阵和协方差矩阵。
• Missing Values:缺失值处理方法。
§9.2 Correlate过程
• 该例中由于三个变量都是定量变量,故对它们 进行相关分析时,应计算Pearson简单相关系数 。
• 结果分析:
–类似于 P178,表7-3 描述统计结果表。
–类似于P178,表7-4 相关分析结果表。 三个Sig.值均小于所给定的显著性水平,从而可以得出两
§9.2.2 偏相关分析
• 偏相关分析:是指当两个变量同时与第三个 变量相关时,将第三个变量的影响剔除,只 分析另外两个变量之间相关程度的过程。。
• 偏相关分析的工具是计算偏相关系数r12. • 对于例9.1的数据进行偏相关分析。对“月平
均家庭收入”与“离市中心距离”的相关分 析。 • 其SPSS软件实现操作:
• 距离相关分析是:对观测量之间或变量之间 相似或不相似的程度的一种测量。
• 距离相关分析可用于同一变量内部各个取值 间,以考察其相互接近程度;也可用于变量 间,以考察预测值对实际值的拟合优度。
• 距离相关分析的结果给出的不是常用的P值 ,而是各变量或记录之间的距离大小,以供 用户自行判断相似性。
距离相关分析根据统计量不同分为以下两种:
§9.1.2 描述相关关系的方法
• 相关关系的描述方法有:
–散点图:将数据以点的形式绘制在直角平面上,比较直观 ,可用来发现变量间的关系和可能的趋势。
• 散点图在进行相关分析时较为粗略。
–相关系数:以精确的相关系数体系变量间的线性关系程度 。
• 如果相关系数是根据总体全部数据计算的,称为总体相关系数,记 为ρ;
2、Partial -- 偏相关分析,计算两个变量间在控制了其
他变量的影响下的相关关系,对相关系数也进行检验,检 验的零假设为:相关系数为0
3、Distance-- 相似性测度,对变量或观测量进行相似
性或不相似性测度
§9.2 简单相关分析的SPSS操作
• 例:在一项关于城市租房的研究中,调查了11个小区的 情况,资料如下表所示:
• 不相似性测量:通过计算样本之间或变量之 间的距离来表示。
• 相似性测量:通过计算Pearson相关系数或 Cosine相关来表示。
距离相关分析根据分析对象不同,分为:
• 样本见分析:样本和样本之间的距离相关分 析。
• 变量间分析:变量和变量之间的距离相关分 析。
SPSS实现距离相关分析:
• 单击菜单“Analyze”中的“Correlate”的 “Distances”选项,弹出如P185,图7-6.
– 从变量关系的形态分:
• 线性相关:所有点聚集在某一条直线附近。 • 曲线相关:所有点聚集在某一条曲线附近。
– 从变量数目分:
• 单相关关系:两个变量之间的关联。 • 多重相关(复相关):三个或三个以上变量之间的关系。
• 极端相关:
– 零相关:不相关。Βιβλιοθήκη Baidu
– 完全相关:所有点全部落在某一条直线上。分为完全正相关 和完全负相关。
§9.1.4 偏相关系数
• 简单相关分析计算两个变量间的相关系数,分 析两个变量间线性关系的程度。往往因为第三 个变量的作用,使相关系数不能够真正反映两 个变量间的线性程度。
• 偏相关系数:在控制了其他变量的影响下计算 两变量的相关系数。如控制年龄和工作经验的 影响,估计工资收入与受教育水平之间的相关 关系。
• 如果相关系数是根据样本数据计算而来的,则称为样本相关系数, 记为r。
• 一般的,在统计学中用样本相关系数r来推断总体相关系数。
• 相关系数只是较好地度量了两变量间的线性相关程度 ,不能描述非线性关系。是按积差方法计算,以两变 量与各自平均值的离差为基础,通过两个离差相乘来 反映两变量之间相关程度。
• 弱相关:变量间有关系但不明显。例,近年来我国耕 种面积与产量。
• 零相关:变量间不存在任何关系。例某班学生的学习 成绩与年龄。
§9.1.1 相关关系的分类
• 相关关系的分类:
– 从相关变量方向分:
• 正相关:变量变化的方向一致,即变量同时增加或减少。 • 负相关:变量变化的方向相反,即变量间一个增加,另一个却减少
小区编号
月平均家庭收入/元
离市中心距离/km
有三居室的住宅月租金/元
1
3400
7.5
1500
2
3700
6.3
1600
3
3900
5.0
1800
4
4200
3.6
2200
5
4100
4.5
2000
6
4500
4.8
2050
7
4000
3.8
2300
8
5200
4.0
2500
9
6200
3.3
3000
10
6800
3.0
9.2.3 距离分析
• 简单相关分析和偏相关分析都对所分析 的数据背景有一定程度的了解。
• 但在实际中有时会遇到:在分析前对数 据所代表的专业背景知识尚不充分,就 需要先对各个指标或者实例的差异性、 相似程度进行考察,先对数据有一个初 步了解,然后再根据结果考虑如何进行 深入分析。
9.2.3 距离分析
在该对话框中:
Correlation Coefficients:列出相关分析类型。 Pearson:为通常所指的相关系数(r)。 Kendell’s tau-b:为非参数资料的相关系数, Spearman:为非正态分布资料的相关系数。
若参与分析的变量是连续变量,选择Kendall’s tau-b或 Spearman相关,则系统自动对连续变量的值先求秩,再 计算其秩分数间的相关系数。
– Kendall秩相关系数:与等级相关一样,考察两个变量中至 少一个为定序变量的相关关系。分析时考虑了结点(秩次 相同的)影响。
相关分析的类型
• 根据研究的目的不同,或变量的类型不 同,采用不同的相关分析方法。
• 常用的相关分析方法有: • 简单相关分析(Bivariate) • 偏相关分析(Partial) • 距离分析(Distances)
• 偏相关系数更能反映两个变量间的本质联系, 故常用于多元线性回归分析之中,以便分析自 变量的共线性是否排除。
§9.1.5 相关系数的检验
• 为了判断r对ρ的代表性大小,需要对相关系数 进行假设检验。
–(1)首先假设总体相关性为零,即H0为两总体无 显著的线性相关关系。
–(2)其次,计算相应的统计量,并得到对应的相 伴概率值Sig.,如果Sig.小于或等于指定的显著性 水平,则拒绝H0,认为两总体存在显著的线性相关 关系;否则,不能拒绝H0,以为两总体不存在显著 的线性相关关系。
3200
11
7300
4.1
2800
• 试对月平均家庭收入、离市中心距离和有三居室住宅月 租金三个变量进行相关分析。
§9.2 Correlate过程
• SPSS统计分析过程: 1、建立数据文件eg91.sav。 2、单击菜单“Analyze”中的“Correlate”的
“Bivariate”选项,弹出如P175,图7-1.
• 该图中可选择检验变量(Variables)、分 析类型(Compute Distances)、测度类型 (Measure)。