独立性检验25703ppt课件

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
78172148987491 这个值是不是很大呢?
在H0成立的情,况 统下 计学家估算出率 如下概
PK2 6.635 0.01.
2
即在 H0成立的情K2况 的下 值大 6.6于 3的 5 概率近0.0似 , 1 于 非常小。 个小概率K 事 的件 观。 测 56.6值3远 5 远大 6.6于 3, 5 所以我们有理
为了使不同样本容量 数的 据有统一的评判标 , 准
我们构造一个随机变 (卡量方统计量)
K2
a
nadbc2 bc da cb
d
1
其中n abcd为样本容量 .
作用:检验两个变量是否有关系
若H0成立 ,即"吸烟与肺癌没 ",则 有 K2应 关该 系很 . 小 计算K得 2的观测值为
k9965777549422092956.63,2
P(k≥k0) k0
0.50 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001 0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828
解:根据题目所给数据得到如下列联表: 患心脏病 不患心脏病 总计
秃顶
214
不秃顶
451
总计
665
175
389
597
1048
772
1437
(1)等高条形图
图2
可以看出秃顶样本中患心脏病的频率明显高于不秃顶样本中患心脏病的 频率.因此可以认为秃顶与患心脏病有关系.
(2)根据列联表中的数据,得到
K2
n(adbc)2
(ab)(cd)(ac)(bd)
患心脏病 不患心脏 总计 病
P(K2 ≥k0) 0.50
k0
0.445
0.40 0.708
0.25 1.323
0.15 0.10 2.072 2.706
0.05 3.841
0.025 5.024
0.010 6.635
0.005 7.879
0.001 10.828
K2的观测值为k
如果 k k0 , 就以 (1P(K2k0) )10 % 0的把握认为X与Y有系”;
别对应不同的颜色,这就是等高条形图.
(2)等高条形图和表格相比,更能直观地反映出两个分类变量间是否相互影响,常用
等高条形图展示列联表数据的频率特征.
(3)观察等高条形图发现相差很大,就判断两个分类变量之间有关系.
结论是否可靠?
表1-9 吸烟与肺癌联列表
不患肺癌
不吸烟
a
吸烟
c
患肺癌 b d
总计 a+b c+d
1分类变量: 变量的不同“值”表示个体所属的不同类别,像这样的变量称为
源自文库分类变量。
像表3-7这样列出的两个分类变量的频数表,称 为调查吸为烟列是联否表对患。肺有影响,某种瘤研究所随机地调查了9965
人,得到如下结果(单位:人)
表3-7 吸烟与肺癌列联表
不患肺癌
患肺癌
总计
不吸烟
7775
42
7817
吸烟
而这种判断有可能出错,出错的概率不超过 P(K2 k0) 。
对独立性检验思想的理解:
独立性检验的基本思想类似于数学中的反证法.先假设“两个分 类变量没有关系”成立,计算随机变量K2的值,如果K2值很大, 说明假设不合理.K2越大,两个分类变量有关系的可能性越大.
判断两个分类变量是否相关的研究方法:
2099
49
2148
总计
9874
91
9965
那么吸烟是否对患肺癌有影响?
在不吸烟者中患肺癌的比重是
0.0054
在吸烟者中患肺癌的比重是
0.0228
结论:吸烟群体和不吸烟群体患肺癌的可能性存在差异,
吸烟者患肺癌的可能性大。
等高条形图
结论:吸烟更容易引发肺癌
不患病 比例
患病 比例
2.列联表 (1)定义:列出的两个分类变量的频数表,称为列联表.
•3.2独立性检验基本思想的 •初步应用
学习目标
目标解读
1.了解分类变量的意义.
1.重点是2×2列联
2.了解2×2列联表的意义. 表的意义及随机
3.了解随机变量K2的意义. 变量K2的计算与
4.通过对典型案例分析,了 应用.
解独立性检验的基本思想和 2.难点是独立性
方法.
检验的基本思想.
问题引入
(2)2×2列联表:假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},
其样本频数列联表(称为2×2列联表)为:
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
3. 等高条形图
总计 a+c b+d a+b+c+d
(1)定义:将列联表中的数据用高度相同的两个条形图表示出来,其中两列的数据分
(1)感性认识:先通过列联表或等高条形图观察两个量之间是否 存在相关关系; (2)理性认识:再假设两个量之间相互独立,然后研究这种假设 发生的概率,如果概率很小(小于10%),则说明这种假设不可靠, 从而可以得出两个量之间有相关关系!
典型例题
例1 在某医院,因为患心脏病而住院的665名男性病人中,有 214人秃顶;而另外772名不是因为患心脏病而住院的男性病人 中有175人秃顶。 (1)利用图形判断秃顶与患心脏病是否有关系? (2)能否在犯错概率不超0.01的前提下,认为秃顶与患心脏病 有关系?
总计
a+c
b+d
a+b+c+d
假设H0:吸烟与患肺癌没有关系
用A表示不吸烟,用B表示不患肺癌,则H等价于吸烟与患肺癌独立 P(AB)=P(A)P(B),
aabac,其中 nabcd为样本, 容量 nn n
即abcdaabac,即 adbc
因此 ,|adbc|越小 ,说明吸烟与患关 肺系 癌越 ;之弱 间 |adbc|越大 ,说明吸烟与患关 肺系 癌越 .之强 间
定说明“H0假 ”设 是不成立的与 ,患 即肺 吸癌 烟有关种 系判 。而 断的出错概不 0.0会 , 1 超 或过 者9说 9%的 有把握判断它。 俩有
独立性检验定义:
利用随机变量 K 2 来判断两个分类变量有关系的方法。
独立检验步骤:
(1) 列出2X2列联表
(2)计算 K 2 的观测值k;
(3)查对临界值,作出判断。 卡方临界值表:
问题1:以下两组变量在取不同的值时的区别 (1)体重、身高、学生的学习成绩 (2)性别、国籍、宗教信仰、是否吸烟、是否患病
答:1中每个变量取不同“值”时,表示不同个体, 2中变量每取不同“值”表示个体所属不同的类别
问题2:吸烟是否与患肺癌有关系? 性别是否对于喜欢数学课程有影响?
本节课就是要学习独立性检验思想在分析分类变量之间关系中的应用。
相关文档
最新文档