第四章 分析数据间的相关性
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
ห้องสมุดไป่ตู้
❖ 列联表示例
获不获得学分与性别是有关系的,男生获得学分的可能更大一些
❖ 列联表示例
获得 未获得 合计
公共选修课
男
女
合计
30
10
30
10
60
20
专业选修课 男
40 获得 40 未获得 80 合计
女 5 15 20
合计
10
15
30
45
40
60
获不获得学分与性别是不相关的???
4.4 相关的可靠性检验
❖ (3)图形点大致呈某种曲线形态,表明数据间存在非线 性相关
❖ (4)所有点大致落在一条直线周围,表明数据间有线性 相关性。
实践
❖ 1999年31个省市自治区个人购买商品住房住宅面 积与商品住宅销售额的数据,现要求利用散点图法 分析个人购买商品住房住宅面积与商品住宅销售额 之间的相关性。
❖ (2)数值分析法 图形能够直观展现数据间的相关关系,但并不精确。 简单相关系数通过数字准确描述数据间线性相关的方 向和强弱程度。
❖ 简单相关系数
简单相关系数取值范围[-1,1] 简单相关系数>0,表示两个数据正线性相关 简单相关系数<0,表示两个数据负线性相关 简单相关系数=0,表示两个数据不存在线性相关 简单相关系数>0.8,表示两个数据相关性很强 简单相关系数<0.3,表示两个数据相关性较弱
求简单相关系数的方法: (1)简单相关系数可通过函数Correl或Pearson实现 (2)“数据分析”中相关系数命令
5000000 4500000 4000000 3500000 3000000 2500000 2000000 1500000 1000000
500000 0
0
500
1000
1500
❖ (1)若所有点落在一条直线上,说明数据间是线性相关, 是函数关系,不是统计关系。
❖ (2)所有点杂乱无章,从形态上看不出任何特征和规律, 表明数据间不相关
不相关。 (2)计算差距。计算当前相关系数与所提假设成立之间的
差距。 (3)决策。若差距足够小,则当前的假设成立。若差距较
大,说明提出的假设是站不住脚的。 统计中国,通常的把握程度为0.95,0.90,0.99
❖ 相关系数的差距
n2 r
1 r2
❖ 0.95把握度下的差距 TINV函数:TINV(probability,degrees_freedom), probability为1-把握程度; degrees_freedom为n-1
(3)决策。若差距足够小,则当前的假设成立。若差距较 大,说明提出的假设是站不住脚的。 统计中,通常的把握程度为0.95,0.90,0.99
❖ 计算差距
2
f0 fe 2 fe
f 0 为列联表每个单元格中的实际频数 f 为列联表每个单元格中的期望频数
e
实践
❖ 对性别与受高等教育程度之间的相关性进行可靠 性检验。
实践
❖ 个人购买商品住在面积与商品住宅销售额之间的相关性 进行可靠性检验。
1)求差距 2)求95%决策标准 3)求99%决策标准 4)比较与结论
(2)品质型数据相关的可靠性检验
❖ 卡方分析的主要步骤:
(1)首先提出两总体是否相关的假设,通常假设行变量总 体与列变量总体不相关。
(2)计算差距。计算目前列联表中的频数数据所呈现的实 际相关性与行列变量总体不相关之间的差距有多少
第四章 分析数据间的相关性
世间万物总是存在不同程度的联系
函数关系
统计关系
例:正方形体积与边长,年龄与身高,父 母身高与孩子身高,身高与体重,考试成 绩与学习时间,学历与收入,收入与幸福 感,物品价格与质量
❖ 线性相关
Y 正线性相关
负线性相关 X
非线性相关
Y
X
4.2两数值型数据间的相关性
❖ (1)图形分析法 散点图是统计关系分析中最常用的图形工具,它将数 据以点的形式画在直角平面上,它将一组数据作为纵轴, 将另一组数据作为纵轴,事物对象的每个个体以点的形 式出现。
可靠性研究的就是分析样本数据所体现的相关或 不相关在总体数据间是否依然存在
假设检验的基本原理
显著性水平
显著性水平α是当原假设正确却被拒绝的概率 通常人们取0.05或0.01 这表明,当做出接受原假设的决定时,其正确的
可能性(概率)为95%或99%
(1)数值型数据相关的可靠性检验
❖ 数值型数据相关的可靠性检验步骤如下: (1)首先提出两总体是否相关的假设,通常假设是两总体
方法一:利用卡方分析
1)计算 fe
2)计算 2 3)计算 CHIINV 4)比较及结论
❖ 方法二:利用Chitest函数
(1)假设性别与高等教育程度无关,得到期望频数区域。 (2)利用Chitest函数,求得chitest (实际频数,期望频数)
的值,该值代表假设成立的概率。 (3)若该概率为小概率事件,则认为假设不成立,反之,
则成立。
实践
实验内容 (一)随机抽取由10名大学生组成的样本,研究他们在高
中与大学的英语成绩得出下表结果:(单位:分)
试测定其相关程度。
(二)下面是几家百货商店销售额和利润率的资料:
实践
❖ 1999年31个省市自治区个人购买商品住房住宅面 积与商品住宅销售额的数据,现要求函数和“数据 分析”命令分析个人购买商品住房住宅面积与商品 住宅销售额之间的相关性。
❖ 思考:是否容易受到极端值的影响? “练习”sheet中求两组的相关性
4.3两品质数据间的相关性
分析性别跟职称是否相关?学历与收入是否相关?
❖ 总体与样本
常常存在这样的情况,我们所观察的只是部分或有限的个体, 而需要判断的总体对象范围却是大量的,甚至是无限的。比如 说为了考察某公司生产的一批电脑芯片的质量,需要了解芯片 使用寿命这一指标。我们关心的是这一整批芯片的质量,但由 于各种原因,只能抽取其中的一小部分进行测试。这时,这一 整批芯片的质量和被抽取出来的那一部分的质量就构成了“整 体”和“部分”的关系了。
(1)图形分析法 复式柱形图是柱形图 的扩展,主要用于对 事物两个或多个特征 的分类对比。
**实践
❖ (2)数值分析法---列联表
❖ 在该图基础上进一步计算一些简单的百分比。 **分别按行与按列对上表进行分析。
实践
❖ 给定的性别与受教育程度数据进行相关性分析, 做出他们的列联表。 请进行分析,并得出结论
❖ 列联表示例
获不获得学分与性别是有关系的,男生获得学分的可能更大一些
❖ 列联表示例
获得 未获得 合计
公共选修课
男
女
合计
30
10
30
10
60
20
专业选修课 男
40 获得 40 未获得 80 合计
女 5 15 20
合计
10
15
30
45
40
60
获不获得学分与性别是不相关的???
4.4 相关的可靠性检验
❖ (3)图形点大致呈某种曲线形态,表明数据间存在非线 性相关
❖ (4)所有点大致落在一条直线周围,表明数据间有线性 相关性。
实践
❖ 1999年31个省市自治区个人购买商品住房住宅面 积与商品住宅销售额的数据,现要求利用散点图法 分析个人购买商品住房住宅面积与商品住宅销售额 之间的相关性。
❖ (2)数值分析法 图形能够直观展现数据间的相关关系,但并不精确。 简单相关系数通过数字准确描述数据间线性相关的方 向和强弱程度。
❖ 简单相关系数
简单相关系数取值范围[-1,1] 简单相关系数>0,表示两个数据正线性相关 简单相关系数<0,表示两个数据负线性相关 简单相关系数=0,表示两个数据不存在线性相关 简单相关系数>0.8,表示两个数据相关性很强 简单相关系数<0.3,表示两个数据相关性较弱
求简单相关系数的方法: (1)简单相关系数可通过函数Correl或Pearson实现 (2)“数据分析”中相关系数命令
5000000 4500000 4000000 3500000 3000000 2500000 2000000 1500000 1000000
500000 0
0
500
1000
1500
❖ (1)若所有点落在一条直线上,说明数据间是线性相关, 是函数关系,不是统计关系。
❖ (2)所有点杂乱无章,从形态上看不出任何特征和规律, 表明数据间不相关
不相关。 (2)计算差距。计算当前相关系数与所提假设成立之间的
差距。 (3)决策。若差距足够小,则当前的假设成立。若差距较
大,说明提出的假设是站不住脚的。 统计中国,通常的把握程度为0.95,0.90,0.99
❖ 相关系数的差距
n2 r
1 r2
❖ 0.95把握度下的差距 TINV函数:TINV(probability,degrees_freedom), probability为1-把握程度; degrees_freedom为n-1
(3)决策。若差距足够小,则当前的假设成立。若差距较 大,说明提出的假设是站不住脚的。 统计中,通常的把握程度为0.95,0.90,0.99
❖ 计算差距
2
f0 fe 2 fe
f 0 为列联表每个单元格中的实际频数 f 为列联表每个单元格中的期望频数
e
实践
❖ 对性别与受高等教育程度之间的相关性进行可靠 性检验。
实践
❖ 个人购买商品住在面积与商品住宅销售额之间的相关性 进行可靠性检验。
1)求差距 2)求95%决策标准 3)求99%决策标准 4)比较与结论
(2)品质型数据相关的可靠性检验
❖ 卡方分析的主要步骤:
(1)首先提出两总体是否相关的假设,通常假设行变量总 体与列变量总体不相关。
(2)计算差距。计算目前列联表中的频数数据所呈现的实 际相关性与行列变量总体不相关之间的差距有多少
第四章 分析数据间的相关性
世间万物总是存在不同程度的联系
函数关系
统计关系
例:正方形体积与边长,年龄与身高,父 母身高与孩子身高,身高与体重,考试成 绩与学习时间,学历与收入,收入与幸福 感,物品价格与质量
❖ 线性相关
Y 正线性相关
负线性相关 X
非线性相关
Y
X
4.2两数值型数据间的相关性
❖ (1)图形分析法 散点图是统计关系分析中最常用的图形工具,它将数 据以点的形式画在直角平面上,它将一组数据作为纵轴, 将另一组数据作为纵轴,事物对象的每个个体以点的形 式出现。
可靠性研究的就是分析样本数据所体现的相关或 不相关在总体数据间是否依然存在
假设检验的基本原理
显著性水平
显著性水平α是当原假设正确却被拒绝的概率 通常人们取0.05或0.01 这表明,当做出接受原假设的决定时,其正确的
可能性(概率)为95%或99%
(1)数值型数据相关的可靠性检验
❖ 数值型数据相关的可靠性检验步骤如下: (1)首先提出两总体是否相关的假设,通常假设是两总体
方法一:利用卡方分析
1)计算 fe
2)计算 2 3)计算 CHIINV 4)比较及结论
❖ 方法二:利用Chitest函数
(1)假设性别与高等教育程度无关,得到期望频数区域。 (2)利用Chitest函数,求得chitest (实际频数,期望频数)
的值,该值代表假设成立的概率。 (3)若该概率为小概率事件,则认为假设不成立,反之,
则成立。
实践
实验内容 (一)随机抽取由10名大学生组成的样本,研究他们在高
中与大学的英语成绩得出下表结果:(单位:分)
试测定其相关程度。
(二)下面是几家百货商店销售额和利润率的资料:
实践
❖ 1999年31个省市自治区个人购买商品住房住宅面 积与商品住宅销售额的数据,现要求函数和“数据 分析”命令分析个人购买商品住房住宅面积与商品 住宅销售额之间的相关性。
❖ 思考:是否容易受到极端值的影响? “练习”sheet中求两组的相关性
4.3两品质数据间的相关性
分析性别跟职称是否相关?学历与收入是否相关?
❖ 总体与样本
常常存在这样的情况,我们所观察的只是部分或有限的个体, 而需要判断的总体对象范围却是大量的,甚至是无限的。比如 说为了考察某公司生产的一批电脑芯片的质量,需要了解芯片 使用寿命这一指标。我们关心的是这一整批芯片的质量,但由 于各种原因,只能抽取其中的一小部分进行测试。这时,这一 整批芯片的质量和被抽取出来的那一部分的质量就构成了“整 体”和“部分”的关系了。
(1)图形分析法 复式柱形图是柱形图 的扩展,主要用于对 事物两个或多个特征 的分类对比。
**实践
❖ (2)数值分析法---列联表
❖ 在该图基础上进一步计算一些简单的百分比。 **分别按行与按列对上表进行分析。
实践
❖ 给定的性别与受教育程度数据进行相关性分析, 做出他们的列联表。 请进行分析,并得出结论