第11讲 散点图、相关系数
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
相关:一个变量的取值部分取决于另一个变量,数据点围绕分布在一条直线(或曲线)上
不相关:两个变量的数据点分布很分散,无任何规律
Sh2a02n1g/4h/4ai University of International Business and Ecnomics
7
一、相关的概念
2. 相关关系的分类 (2)按相关的表现形式分为:
强负线性相关:
一个变量x增加,导致另一个变量y明显减少,说明x是影响变量y的主要因素
弱负线性相关:
一个变量x增加,导致另一个变量y减少,但不明显,说明x是影响变量y的因素, 但不是唯一(主要)的影响因素
Sh2a02n1g/4h/4ai University of International Business and Ecnomics
Sh2a02n1g/4h/4ai University of International Business and Ecnomics
22
三、二元变量分析
3. SPSS操作及案例分析
操作步骤
Graphs→ Legacy Dialogs → Scatter/Dot… 数据文件:8-Bivariate_age.sav
20
三、二元变量分析
3. SPSS操作及案例分析
例一:为了研究某项职业技能和员工年龄之间的
关系,对员工进行职业技能测试,得到有关上述两变量 的数据表。(8-Bivariate_age.sav)
现以年龄作为自变量x,职业技能测试得分为 因变量y,以两变量数据为依据,绘制散点图分析两变量 之间的相关关系。
Kendallτ秩相关系数(肯德和谐系数、一致性系数)
采用非参数检验方法来度量定序变量间的线性相关关系
看
多用于计算评价者的评定一致性
备
注
Sh2a02n1g/4h/4ai University of International Business and Ecnomics
页
16
二、相关分析的方法
4. 利用相关系数进行变量之间线性关系的分析 利用相关系数进行变量之间线性关系的分析分两步:
从散点图中可以看出,点的分布比较分散,在拟合线上或周围的点分布较少, 说明两变量之间相关程度较弱。
从拟合线的趋势来看,职业技能和员工年龄之间之间有一定的相关关系,而且 是随着年龄的增加,职业技能测试得分会随之上升,但上升幅度较小。
所以上述两变量之间具有较弱正相关的关系。
通过对散点图的编辑,可以添加拟合线
2
第11讲
散点图、相关系数
Sh2a02n1g/4h/4ai University of International Business and Ecnomics
3
相关概念
Sh2a02n1g/4h/4ai University of International Business and Ecnomics
常用的散点图类型 简单散点图 重叠散点图 矩阵散点图 三维散点图 单点散点图
Sh2a02n1g/4h/4ai University of International Business and Ecnomics
23
三、二元变量分析
3. SPSS操作及案例分析
散点图的其他应用 (1)在散点图中设置散点标记。
Sh2a02n1g/4h/4ai University of International Business and Ecnomics
12
相关分析的方法
Sh2a02n1g/4h/4ai University of International Business and Ecnomics
13
二、相关分析的方法
10
一、相关的概念
4. 相关分析的概念
相关分析是描述两个或两个以上变量间关系密切程度的统计方法,可有效 地揭示事物之间相关关系的强弱程度。
5. 相关分析的方法
图形(散点图):常用的一种直观的分析方法,将样本数据点绘制在二维 平面或三维空间上,根据这些数据点的分布特征,能够直观地研究变量间的统 计关系以及它们的强弱程度和数据对的可能走向。
如:家庭收入与家庭消费支出之间是否相关 商品销售价格与商品销售额之间是否相关 客户满意度与商业企业综合竞争力之间是否相关 广告投入和销售额之间是否相关
可以结合单变量方差分析理解
Sh2a02n1g/4h/4ai University of International Business and Ecnomics
17
二、相关分析的方法
5. 根据概率P进行解释
检验统计量的概率p值小于给定的显著性水平α值(0.05),拒绝零假设,认 为总体相关。
若检验统计量的概率p值大于给定的显著性水平α值(0.05),接受零假设, 认为总体不相关。
通常认为α<0.05,认为总体相关; α<0.01,认为总体显著(较强)相关。
Sh2a02n1g/4h/4ai University of International Business and Ecnomics
9
一、相关的概念
3. 线性相关的四种相关关系
强正线性相关:
一个变量x增加,导致另一个变量y明显增加,说明x是影响变量y的主要因素
弱正线性相关:
一个变量x增加,导致另一个变量y增加,但不明显,说明x是影响变量y的因素, 但不是唯一(主要)的影响因素
注:在实际应用中,变量间相关性的研究应注意将绘制散点图与计算相关系数的 方法相结合。仅根据散点图或相关系数都无法准确反映变量间的相关性,两者的 结合运用是必要的。
Sh2a02n1g/4h/4ai University of International Business and Ecnomics
18
二元变量分析
上节回顾
方差分析
分析分类变量对因变量的影响是否显著及其程度
单因素方差分析 多因素方差分析 协方差分析
Sh2a02n1g/4h/4ai University of International Business and Ecnomics
1
方差分析
单因素方差 分析 多因素方差 分析
控制变量数量 (类别变量) 1
Sh2a02n1g/4h/4ai University of International Business and Ecnomics
线性相关:两个变量之间的关系近似地表现为一条直线 非线性相关:两个变量之间的关系近似地表现为一条曲线
Sh2a02n1g/4h/4ai University of International Business and Ecnomics
8
一、相关的概念
2. 相关关系的分类 (3)按相关的方向分为:
正相关:一个变量增加(减少),导致另一个变量增加(减少) 负相关:一个变量增加(减少),导致另一个变量减少(增加)
4
一、相关的概念
1. 变量之间关系的概念
客观世界中,事物之间存在相互依存、相互制约、相互影响的关 系。用于描述事物数量特征的变量之间也存在一定的关系。
这些关系分为两种: (1)函数关系:变量之间的一一对应的关系,当自变量x取一定值 时,因变量y依据函数关系取唯一的值。 如:在单价确定时,销售量与销售额之间的关系:y=f(x)
>= 1
协方差分析 >= 1
协变量数量 因变量数ห้องสมุดไป่ตู้ 相同点 (定距变量) (定距变量)
1
1. 正态分布检验
2. 方差齐性检验
1
3. F统计量 4. 假设检验的四
个过程
1
1
不同点
存在变量之 间的交互作 用 排除协变量 的影响之后 进行方差分 析
Sh2a02n1g/4h/4ai University of International Business and Ecnomics
(1)利用样本数据计算样本相关系数r; (2)利用样本推测总体是否存在显著的线性关系。
由于存在抽样的随机性以及样本数量较少等原因,通常样本相关系数不能直接反映样 本是否存在显著的线性相关关系,需要通过假设检验的方式对样本的总体进行统计推测。
推测步骤:
(1)提出零假设H0:两总体线性不相关(或相关系数与0无显著性差异)
Sh2a02n1g/4h/4ai University of International Business and Ecnomics
19
三、二元变量分析
1. 概念
二元变量分析(Bivariate)是研究和分析两个变量之间相关程度的统计方法。
2. 应用
很多时候都是通过两个变量进行相关分析,所以二元变量分析应用十分 广泛。
1. 散点图
散点图是相关分析过程中常用的一种直观的分析方法; 将样本数据点绘制在二维平面或三维空间上,根据数据点的分布特征,直观的研 究变量之间的统计关系以及强弱程度。
(a)
(b)
(c)
(d)
就两个变量而言,如果变量之间的关系近似地表现为一条直线,则称为线性相
关,如图(a)和(b);
如果变量之间的关系近似地表现为一条曲线,则称为非线性相关或曲线相关, 如图(c);
数值(相关系数):变量间关系的密切程度常以一个数量性指标描述,这 个指标称相关系数
r=0.8
Sh2a02n1g/4h/4ai University of International Business and Ecnomics
11
一、相关的概念
SPSS提供了三种相关分析的方法
二元变量分析( Bivariate ): 偏相关分析( Partial ): 距离相关分析( Distances ):
注意:通过散点图只是初步分析两变量之间的相关关系
通常用散点图描述相关关系的表达方式:
完全相关
较强(正/负)相关 较弱(正/负)相关 不相关
Sh2a02n1g/4h/4ai University of International Business and Ecnomics
21
三、二元变量分析
3. SPSS操作及案例分析 结果分析:
15
二、相关分析的方法
3. 相关系数的分类
Pearson简单相关系数(皮尔逊)
用来度量正态分布的定距变量间的线性相关关系 Pearson简单相关系数要求变量来自的总体 分布正态
Spearman秩相关系数(斯皮尔曼)
采用非参数检验方法来度量定序变量间的线性相关关系 不要求总体正态分布 由于数据为非定距变量,因此不能直接采用原始数据,而是利用数据的秩
销售额=价格 * 销售量
圆的面积与圆的半径之间的关系: 圆面积=3.14 * 半径^2
Sh2a02n1g/4h/4ai University of International Business and Ecnomics
5
一、相关的概念
1. 关系的概念
(2)相关关系:如果变量之间存在密切的关系,但又不能由一个或 几个变量的值确定另一个变量的值,当自变量x取一定值时,因变量y 的值可能有多个,这种变量之间的非一一对应的、不确定的关系,称 之为相关关系。
如:子女身高与父母身高之间的关系 证券指数与利率之间的关系
Sh2a02n1g/4h/4ai University of International Business and Ecnomics
6
一、相关的概念
2. 相关关系的分类
就是函数关系
(1)按相关的程度分为:
完全相关:一个变量的取值完全取决于另一个变量,数据点落在一条直线(或曲线)上
(2)选择检验统计量:对不同变量采用不同的相关系数,同时也采用不同的检验统计量
(3)计算统计量的观测值和对应的概率p值;
(4)对总体的相关性进行推断
注:显著的相关性并不能导出任何因果结论。
Sh2a02n1g/4h/4ai University of International Business and Ecnomics
下表中是通过相关系数来描述相关程度
相关系数 r=0 |r|<0.3 |r|=0.3~0.5 |r|=0.5~0.8 |r|>0.8
|r|=1
取值范围
相关程度 无相关 微弱相关 低度相关 显著相关 高度相关 完全相关
不同类型的变量采用不同的相关系数指标,但取值范围和含义都是相同的
Sh2a02n1g/4h/4ai University of International Business and Ecnomics
如果两个变量的观测点很分散,无任何规律,则表示变量之间没有相关关系, 如图(d) 。
Sh2a02n1g/4h/4ai University of International Business and Ecnomics
14
二、相关分析的方法
2. 相关系数
散点图能够直观地反映变量之间的关系,但不精确。 相关系数以数值的方式精确地反映了变量之间线性关系的强弱程度。 相关系数通过正、负表示相关的方向,相关系数r的取值在-1~+1之间: