8.4列联表独立性检验

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

再冷的石头,坐上三年也会暖 !
通过图形直观判断两个分类变量是否相关: 1、列联表 2、三维柱形图
不吸烟 吸烟 总计 不患肺癌 7775 2099 9874 患肺癌 42 49 91 总计 7817 2148 9965
3、二维条形图
8000 7000 6000 不患肺癌 患肺癌
5000
4000
不吸烟 不患肺癌 患肺癌
3000 2000 1000
吸烟
0 从三维柱形图能清晰看出 各个频数的相对大小。
不吸烟
吸烟
从二维条形图能看出,吸烟者中 患肺癌的比例高于不患肺癌的比例。
课题:选修2-3 8.4独立性检验
再冷的石头,坐上三年也会暖 !
4、等高条形图
1 0.9
0.8
患肺癌 比例
0.7
0.6
0.5
0.4
0.3
0.2
不患肺癌 比例 不吸烟
课题:选修2-3 8.4独立性检验
再冷的石头,坐上三年也会暖 !
判断 H 0是否成立的规则
如果 k 6.635 ,就判断 H 0 不成立,即认为吸烟与 患肺癌有关系;否则,就判断 H 0 成立,即认为吸烟 与患肺癌有关系。
H0 在该规则下,把结论“H 0 成立”错判成“ P( K 2 6.635) 0.01, 成立”的概率不会差过 即有99%的把握认为 H 0不成立。
秃顶 不秃顶 总计 患心脏病 214 451 665 不患心脏病 175 597 772 总计 389 1048 1437
根据联表1-13中的数据,得到
2 1437 (214 597 175 451) 2 K 16.373 6.635. 389 1048 665 772
研究两个变量的相关关系:
定量变量——回归分析(画散点图、相关系数r、 变量 相关指数R 2、残差分析) 分类变量—— 独立性检验
本节研究的是两个分类变量的独立性检验问题。
课题:选修2-3 8.4独立性检验
再冷的石头,坐上三年也会暖 !
探究
列联表
为了调查吸烟是否对肺癌有影响,某肿瘤研究所随机 地调查了9965人,得到如下结果(单位:人)
k0
0.455
K 2 10.828
0.1%把握认为A与B无关
1%把握认为A与B无关
99.9%把握认A与B有关 99%把握认为A与B有关 90%把握认为A与B有关
K 2 6.635
K 2 2.706
K 2 2.706
10%把握认为A与B无关
没有充分的依据显示A与B有关,但也不能显示A与B无关
例1 在某医院,因为患心脏病而住院的665名男性病人中,有214 人秃顶;而另外 772名不是因为患心脏病而住院的男性病人中有 175人秃顶。分别利用图形和独立性检验方法判断秃顶与患心脏 病是否有关系?你所得的结论在什么范围内有效? 解:根据题目所给数据得到如下列联表:
秃顶 不秃顶 总计
患心脏病 600 500 400 300 200 100 0 214 175 451
课题:选修2-3 8.4独立性检验
再冷的石头,坐上三年也会暖 !
两种变量:
定量变量:体重、身高、温度、考试成绩等等。 变量 分类变量:性别、是否吸烟、是否患肺癌、 宗教信仰、国籍等等。
在日常生活中,我们常常关心分类变量之间是否有关系: 例如,吸烟是否与患肺癌有关系? 性别是否对于喜欢数学课程有影响?等等。
再冷的石头,坐上三年也会暖 !
独立性检验
2 n ( ad bc ) 随机变量-----卡方统计量 K 2 , (a b)(c d )(a c)(b d )
临界值表
P(K2 k0 ) 0.50
0.40 0.708
其中n a b c d为样本容量。
0.25 1.323 0.15 2.072 0.10 2.706 0.05 3.841 0.025 5.024 0.010 6.635 0.005 7.879 0.001 10.828
课题:选修2-3 8.4独立性检验
再冷的石头,坐上三年也会暖 !
8.4 列联表独立性分析案例
课题:选修2-3 8.4独立性检验
再冷的石头,坐上三年也会暖 !
问题: 数学家庞加莱每天都从一家面包店
买一块1000g 的面包,并记录下买回的面 包的实际质量。一年后,这位数学家发 现,所记录数据的均值为 950g 。于是庞 加莱推断这家面包店的面包分量不足。 • 假设“面包份量足”,则一年购买面包的质量数据 的平均值应该不少于1000g ; • “这个平均值不大于950g”是一个与假设“面包份量 足”矛盾的小概率事件; • 这个小概率事件的发生使庞加莱得出推断结果。
课题:选修2-3 8.4独立性检验
再冷的石头,坐上三年也会暖 !
一:假设检验问题的原理
假设检验问题由两个互斥的假设构成,其 中一个叫做原假设,用 H0 表示;另一个叫做备 择假设,用H1表示。 例如,在前面的例子中, 原假设为: H0:面包份量足, 备择假设为: H1:面包份量不足。 这个假设检验问题可以表达为:

独立性检验的定义
上面这种利用随机变量K2来确定在多大程度上 可以认为“两个分类变量有关系”的方法,称为两 个分类变量的独立性检验。
课题:选修2-3 8.4独立性检验
再冷的石头,坐上三年也会暖 !
具体作法是:
(1)根据实际问题需要的可信程度确定临界值 k0;
(2)利用公式(1),由观测数据计算得到随机变量 K 2 的观测值; (3)如果 k k0 ,就以 (1 P( K k0 )) 100%的把握认为“X 与Y有关系”;否则就说样本观测数据没有提供“X与Y有关系” 的充分证据。 在实际应用中,要在获取样本数据之前通过下表确定临界值:
解:设H0:感冒与是否使用该血清没有关系。
1000258 284 242 216 2 K 7.075 474 526 500 500 因当H0成立时,K2≥6.635的概率约为0.01,故有99%的把握认 为该血清能起到预防感冒的作用。
2
课题:选修2-3 8.4独立性检验
0.10
再冷的石头,坐上三年也会暖 !
反证法原理与假设检验原理 反证法原理:
在一个已知假设 下,如果推出一 个矛盾,就证明 了这个假设不成 立。
假设检验原理:
在一个已知假设 下,如果一个与 该假设矛盾的小 概率事件发生, 就推断这个假设 不成立。
课题:选修2-3 8.4独立性检验
再冷的石头,坐上三年也会暖 !
第四步:查对临界值表,作出判断。
P(k≥k0) 0.50 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001 k0 0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828
课题:选修2-3 8.4独立性检验
H0:面包份量足 ←→ H1:面包份量不足
课题:选修2-3 8.4独立性检验
再冷的石头,坐上三年也会暖 !
二:求解假设检验问题
考虑假设检验问题: H0:面包分量足 ←→ H1:面包分量不足 求解思路:
1. 在H0成立的条件下,构造与H0矛盾的小概 率事件; 2. 如果样本使得这个小概率事件发生,就能 以一定把握断言H1成立;否则,断言没有 发现样本数据与H0相矛盾的证据。
2
P(K2 k0 ) 0.50
k0 k0
0.40 0.25 0.15 0.455 0.708 1.323 2.072 0.025 0.010 0.005 3.841 5.024 6.635 7.879
0.10 2.706 0.001 10.828
P(K2 k0 ) 0.05
课题:选修2-3 8.4独立性检验
( 2)
那么这个值到底能告诉我们什么呢?
课题:选修2-3 8.4独立性检验
再冷的石头,坐上三年也会暖 !
在H0成立的情况下,统计学家估算出如下的概率
即在 H0 成立的情况下, K2 的值大于 6.635 的概率非常小,近似 于0.01。
P( K 2 6.635) 0.01.
(2)
也就是说,在H0成立的情况下,对随机变量 K2进行多次观 测,观测值超过6.635的频率约为0.01。
2 2
其中n a b c d为样本容量。
根据表3-7中的数据,利用公式(1)计算得到K2的观测值为:
若 H0成立,即“吸烟与患肺癌没有关系”,则K2应很小。
9965(7775 49 42 2099) k 56.632 7817 2148 9874 91
2
患心脏病 214 451 665
患其他病 597
不患心脏病 175 597 772
总计 389 1048 1437
患其他病
秃头 不秃头
患心脏病
相应的三维柱形图如图所 示, 比较来说 ,底面副对 角线上两个 柱体高度的乘 积要大一些 ,因此可以在 某种程度上认为“秃顶与 患心脏病有关”。
课题:选修2-3 8.4独立性检验
课题:选修2-3 8.4独立性检验
再冷的石头,坐上三年也会暖 !
6、独立性检验的步骤
第一步:H0: 吸烟和患病之间没有关系 第二步:列出2×2列联表
患病
吸烟 不吸烟 总计 a c a+c
2
不患病
b d b+d
2
பைடு நூலகம்总计
a+b c+d a+b+c+d
第三步:计算
n(ad bc) K (a c)(b d )( a b)(c d )
吸烟与肺癌列联表
不患肺癌 患肺癌 总计
不吸烟
吸烟 总计
7775
2099 9874
42
49 91
7817
2148 9965
在不吸烟者中患肺癌的比重是 0.54% 在吸烟者中患肺癌的比重是 2.28%
说明:吸烟者和不吸烟者患肺癌的可能性存在差异,吸烟者患 肺癌的可能性大。
课题:选修2-3 8.4独立性检验
不吸烟
0.1
0
吸烟
吸烟
等高条形图更清晰地表达了两种情况下患肺癌的比例。
课题:选修2-3 8.4独立性检验
再冷的石头,坐上三年也会暖 !
独立性检验
为了使不同样本容量的数据有统一的评判标准,基于上述分 析,我们构造一个随机变量-----卡方统计量
n(ad bc) K , (1) (a b)(c d )(a c)(b d )
思考
如果K 2 6.635,就断定H0不成立,这种判断出错的可能性有多大 ?
答:判断出错的概率为0.01。
9965(7775 49 42 2099)2 现在观测值k 56.632太大了, 7817 2148 9874 91 在H 0成立的情况下能够出现这样的观测值的概率不超过0.01, 因此我们有99%的把握认为H 0不成立,即有99%的把握认为“吸烟 与患肺癌有关系”。
再冷的石头,坐上三年也会暖 !
例4:为研究不同的给药方式(口服与注射)和药的效果(有效 与无效)是否有关,进行了相应的抽样调查,调查的结果列 在表中,根据所选择的193个病人的数据,能否作出药的效果 和给药方式有关的结论?
有效
口服 注射 58 64
无效
40 31
合计
98 95
合计
122
71
193
P(k≥k0) 0.50 0.40 0.25 0.15
再冷的石头,坐上三年也会暖 !
例1 在某医院,因为患心脏病而住院的665名男性病人中,有214 人秃顶;而另外 772名不是因为患心脏病而住院的男性病人中有 175人秃顶。分别利用图形和独立性检验方法判断秃顶与患心脏 病是否有关系?你所得的结论在什么范围内有效? 解:根据题目所给数据得到如下列联表:
试画出列联表的条形图,并通过图形判断这种血清能否起到预 防感冒的作用?并进行独立性检验。
P(k≥k0) 0.50 0.40 0.25 0.15 k0 0.10 0.05 0.025 0.010 0.005 0.001 0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828
所以有99%的把握认为“秃顶患心脏病有关”。
课题:选修2-3 8.4独立性检验
再冷的石头,坐上三年也会暖 !
例 3. 在 500 人身上试验某种血清预防感冒作用,把他们一年中的 感冒记录与另外 500 名未用血清的人的感冒记录作比较,结果如 表所示。 未感冒 感冒 合计
使用血清 未使用血清 合计 252 224 476 248 276 524 500 500 1000
相关文档
最新文档