第六讲 相关分析[1]
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
要点小结
了解相关分析的目的 掌握和熟悉散点图的绘制方法步骤 掌握和熟悉计算相关系数的操作步骤,并能够 读懂分析结果 了解偏相关分析的目的 掌握和熟悉偏相关分析的操作步骤,并能够读 懂分析结果 掌握和熟悉交叉列联表分析的操作步骤,并能 够读懂分析结果
9
已分析家庭收入与计划购房面积之间的相关性。 直观感觉这种相关性会受到家庭常住人口数影 响。为此可将家庭常住人口数作为控制变量, 对家庭收入与计划购房面积作偏相关分析
偏相关分析——举例
操作演示
偏相关分析——举例
5
2013-4-15
偏相关分析——举例
分析结果
课堂练习2
利用住房状况调查.sav,将现住面积作为 控制变量,对家庭收入与计划购房面积作 偏相关分析
弱负相关
不相关
绘制散点图——举例
操作演示
绘制散点图——举例
2
2013-4-15
绘制散点图——举例
在Set Markers by框中指定分组变量,表示按 该变量的不同取值将样本数据分成若干组,并 在一张图上分别以不同颜色表示 在Label Cases by中指定标记变量,表示将标 记变量的各值标记在散点图的相应点的旁边 在Panel by框中指定分类变量,分别绘制该变 量不同取值下的多张散点图
编制交叉列联表 分析两两变量间是否存在一定的相关性
分析的目的
不仅要了解单变量的分布特征,还要分析多 个变量不同取值下的分布,掌握多变量的联 合分布特征,进而分析变量之间的相互影响 和关系
工资收入为“低”水平的“青年”样本有400人
交叉分组下的频数分析
极端情况下的年龄和工资收入的交叉列联表
绘制散点图
绘制散点图是将数据以点的形式画在直角 平面上,通过观察散点图能够直观地发现 变量间的统计关系以及它们的强弱程度和 数据对的可能走向
绘制散点图——举例
利用住房状况问卷调查数据,分析家庭收 入与打算购买的住房面积之间存在怎样的 统计关系
强正相关
强负相关
不相关
住房状况调查.sav
弱正相关
绘制散点图——举例
简单散点图
课堂练习1
利用住房状况调查.sav ,分析家庭收入 与打算购买的住房面积之间存在怎样的统 计关系
计算相关系数
利用相关系数进行变量间线性关系的分析通常 需要完成以下两个步骤
不同性别的被调查者数据分别在不同的散点 图中 不同文化程度的被调查者数据用不同颜色表 示在同一张散点图中
70%上周没有逃课,30%上周至少一次逃课 样本中的60名女生当中,只有16.7%(10人)逃课 样本中的40名男生当中,有50%(20人)逃课
P ij P i. P .j
在列联表中,具体转化为:若两变量无关,则 两变量中条件概率应等于各自边缘的概率乘积。 反之,则两变量有关,或,两变量不独立。
r>0表示两变量存在正的线性相关关系;r<0表示两 变量存在负的线性相关关系 r=1表示两变量存在完全正相关关系;r=-1表示两 变量存在完全负相关关系 r=0表示两变量不存在线性相关关系 |r|>0.8表示两变量有较强的线性相关关系; |r|<0.3表示两变量之间的线性相关关系较弱
Y=PX(Y表示销售额,P表示单价,X表示销售量)
Βιβλιοθήκη Baidu
函数关系 统计关系
统计关系
统计关系指的是两事物之间一种非一一对应的 关系,即当一个变量x取一定值时,另一个变量 y无法依据确定的函数取唯一确定的值
统计关系
线性相关关系
正线性相关关系
两个变量线性的相随变动方向相同
例如:子女身高与父母身高之间的关系
相关系数的种类
Pearson简单相关系数是用来度量定距型 变量间的线性相关系数
如:收入与储蓄,身高与体重,工龄与收入 等等
相关系数的种类
Spearman等级相关系数用来度量定序型变 量间的线性相关关系 Kendallτ 相关系数采用非参数检验方法 度量定序型变量间的线性相关关系
计算相关系数——举例
在常住人口数作为控制变量的条件下,家庭收入与 计划购房面积间的偏相关系数为0.335
交叉分组下的频数分析
交叉分组下的频数分析又称列联表分析, 有两大基本任务
交叉分组下的频数分析
极端情况下的年龄和工资收入的交叉列联表
从样本数据可以推测年龄越小工资收入越低 年龄与工资收入正相关
工资收入 低 中 0 500 0 高 0 0 600 年龄段 青 中 老 400 0 0
负线性相关关系
两个变量线性的相随变动方向相反
非线性相关关系
如果一个变量发生变动,另外的变量也随之变动, 但是,其观察值分布近似的在一条曲线上,则变量 之间的相关关系为非线性相关或曲线相关
1
2013-4-15
相关分析
相关分析是一种简单易行的测度事物间统 计关系的有效工具 绘制散点图和计算相关系数是相关分析最 常用的工具,二者相互结合能够达到较为 理想的分析效果
4
2013-4-15
相关分析结果的解释
拒绝两个总体零相关并不一定意味着两个 总体存在强相关。拒绝零相关与存在弱相 关之间是不矛盾的 相关系数上的三个星号(***)表示α 为 0.001时拒绝原假设,两个星号(**)表 示α 为0.01时拒绝原假设,一个星号(* )表示α 为0.05时拒绝原假设
总数 70 30 100 总数 70 30 100 χ 2=12.7 P<0.001
8
2013-4-15
卡方检验结果
Pearson X2为12.698,概率P值为0.000小于α ( 0.05),观测值与期望值有显著差异,可以推 断性别与是否逃课相关
课堂练习3
利用住房状况调查.sav,分析性别与住房 满意是否相关?
利用住房状况问卷调查数据,计算家庭收 入与打算购买的住房面积之间的相关系数
Pearson简单相关系数
计算相关系数——举例
计算相关系数——举例
相关系数计算结果
家庭收入与计划面积间的简单相关系数为0.323,说 明两者之间存在正的弱的相关关系,其相关系数检 验的概率P值(0.000)小于显著性水平α (0.05) 和显著性水平α (0.01),应拒绝原假设,认为两 个总体不是零相关
计算样本相关系数r 对样本来自的两总体是否存在显著的线性关系 进行推断
相关系数的特点
相关系数r的取值在-1~+1之间
推断总体线性关系
由于存在随机抽样和样本数量较少等原因,通 常样本相关系数不能直接用来说明样本来自的 总体是否具有显著的线性相关性,而需要通过 假设检验的方式对样本来自的总体是否存在显 著的线性相关关系进行统计推断。基本步骤是:
偏相关分析
偏相关分析也称净相关分析,它在控制其他变 量线性影响的条件下分析两变量间的线性关系, 所采用的工具是偏相关系数 控制变量个数为1时,偏相关系数称一阶偏相关; 当控制两个变量时,偏相关系数称为二阶偏相 关;当控制变量的个数为0时,偏相关系数称为 零阶偏相关,也就是简单相关系数
偏相关分析——举例
偏相关分析
简单相关系数研究两变量间线性相关性,若还 存在其他因素影响,其往往夸大变量间的相关 性,不是两变量间线性相关强弱的真实体现
例如,研究商品的需求量、价格和消费者收入之间 的线性关系时,需求量和价格的相关关系实际还包 含了消费者收入对价格和商品需求量的影响。此时 ,单纯利用简单相关系数来评价变量间的相关性是 不准确的,需要在剔除其他相关因素影响的条件下 计算变量间的相关
2013-4-15
统计分析与SPSS应用
丁婉玲 wld@szu.edu.cn
第六讲 相关分析
丁婉玲 wld@szu.edu.cn
相关分析
相关分析是分析客观事物之间关系的数量 分析方法 客观事物之间的关系
函数关系
函数关系指的是两事物之间的一种一一对应关 系,即当一个变量x取一定值时,另一个变量y 可以依据确定的函数取唯一确定的值
交叉分组下的频数分析——举例 性别与是否逃课是否存在相关关系?
从样本数据可以推测年龄越小工资收入越高 年龄与工资收入负相关
工资收入 低 年龄段 青 中 老 0 0 400 中 0 500 0 高 600 0 0
例如:是否可以推断男生更容易逃课? 抽样调查数据如表 性别 是否 人数 在4个班中一共随机 逃课
提出原假设,即两总体无显著的线性关系 选择检验统计量,即不同的相关系数 计算检验统计量的观测值和对应的概率值 决策:概率P值与显著性水平α 的关系
3
2013-4-15
相关系数的种类
对不同类型的变量应采用不同的相关系数 来度量,常用的相关系数主要有Pearson 简单相关系数、Spearman等级相关系数和 Kendallτ 相关系数等
卡方检验
卡方的表达式:X
观测值 未逃课 逃课 总数 期望值 未逃课 逃课 总数 (观测值-期望值)2/期望值 未逃课 逃课 男生 20 20 40 男生 28 12 40 男生 2.29 5.33
2
卡方检验
j i
(O
ij
E E
ij
ij
)
2
女生 50 10 60 女生 42 18 60 女生 1.52 3.56
调查了100个学生,其 中40名男生,60名女生 性别:1=男,0=女; 是否逃课:0=没有, 1=至少一次逃课
1 2 3 4
0 0 1 1
0 1 0 1
50 10 20 20
工资收入为“低”水平的“老年”样本有400人
6
2013-4-15
交叉分组下的频数分析——举例 操作演示——加权个案
交叉分组下的频数分析——举例 操作演示——交叉列联表
请问:可以推断男生逃课率更高吗?(或 者说性别与逃课有关系吗?)
7
2013-4-15
交叉分组下的频数分析结果
观测值 因变量
卡方检验——期望频数
条件百分比 自变量
边缘百分比
卡方检验——期望频数
期望值
卡方检验
若性别与是否逃课无关,观测值与期望值 无显著差异。反之,期望值与观察值的 差距越大,说明两变量越不独立,也就 越相关 卡方的取值在0~∞之间。卡方值越大,关 联性越强。在SPSS中,有Pearson X2和相 似比卡方(Likelihood Ratio X2 )两种
交叉分组下的频数分析——举例
观测值
分析结果
因变量 行百分比 : 50/60=0.833 列百分比 : 50/70=0.714 总百分比 : 50/100=0.5
自变量
分析结果
样本中
卡方检验
卡方测量用来考察两变量是否独立(无关) 其原理是:若两变量无关,则两变量中联合事 件发生的概率应等于各自独立发生的概率乘积