独立性检验介绍
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
系”这一结论成立的可信度为约为99.9%.
人有了知识,就会具备各种分析能力, 明辨是非的能力。 所以我们要勤恳读书,广泛阅读, 古人说“书中自有黄金屋。 ”通过阅读科技书籍,我们能丰富知识, 培养逻辑思维能力; 通过阅读文学作品,我们能提高文学鉴赏水平, 培养文学情趣; 通过阅读报刊,我们能增长见识,扩大自己的知识面。 有许多书籍还能培养我们的道德情操, 给我们巨大的精神力量, 鼓舞我们前进。
独立性检验基本的思想类似反证法
(1)假设结论不成立,即“两个分类变量没有关系”.
(2)在此假设下随机变量 K2 应该很能小,如果由观测数据 计算得到K2的观测值k很大,则在一定程度上说明假设 不合理. (3)根据随机变量K2的含义,可以通过 评价该假设不合理的程度,由实际计算出的, 说明假设合理的程度为99.9%,即“两个分类变量有关
• 这个小概率事件的发生使庞加莱得出推断结果。
一:假设检验问题的原理
假设检验问题由两个互斥的假设构成,其中一个 叫做原假设,用H0表示;另一个叫做备择假设, 用H1表示。
例如,在前面的例子中, 原假设为: H0:面包分量足, 备择假设为 H1:面包分量不足。 这个假设检验问题可以表达为: H0:面包分量足 ←→ H1:面包分量不足
这种变量的不同取“值”表示个体所属的不 同类别,这类变量称为分类变量
分类变量在现实生活中是大量存在的,如是 否吸烟,是否患肺癌,宗教信仰,国别,年龄, 出生月份等等。
利用随机变量K2来确定在多大程度上可以认为” 两个分类变量有关系”的方法称为两个分类变 量的独立性检验.(为假设检验的特例)
列联表
为了调查吸烟是否对肺癌有影响,某肿瘤研究所随机 地调查了9965人,得到如下结果(单位:人)
(n ad bc)2
x1
a
b
a+b
(a b)(c d)(a c)(b d) x2
c
d
c+d
P(k2 ≥ m)
总计
a+c
b+d
a+b+c+d
1系23)));如如如果果果PPP(((mmm>>>761..086.738952))8==)=00..000.0105表0表1示表示有示有9有999%9.的95适 b.把%9、的%用握c的把、认把观握d为握不认测”认为小数X为与”于”据YX”与X5有a与Y、关”Y有”系有关;关系;
独立性检验
不吸烟 吸烟 总计
吸烟与肺癌列联表
不患肺癌 患肺癌
7775
42
2099
49
9874
91
总计 7817 2148 9965
通过公式计算
K 2 9965(7775 49 42 2099)2 56.632 7817 2148987491
独立性检验
已知在 H0成立的情况下, P(K 2 6.635) 0.01 即在H0 成立的情况下,K2 大于6.635概率非常 小,近似为0.01 现在的K2=56.632的观测值远大于6.635
0 秃顶
不秃顶
患其他病 患心脏病
患心脏病 患其他病
例2.为考察高中生性别与是否喜欢数学
课程之间的关系,在某城市的某校高中生 中随机抽取300名学生,得到如下列联表:
性别与喜欢数学课程列联表
喜欢数学课程 不喜欢数学课程 总计
男
37 a
b
85
122
女
35 c
d 143
178
总计
72
228
300
由表中数据计算得 K2 ≈4.513 ,高中生的 性别与是否喜欢数学课程之间是否有关系? 为什么? 解:P96
背景分析
条形图
柱形图
列联表
分类变量之间关系
独立性检验
例1.在某医院,因为患心脏病而住院的665
名男性病人中,有214人秃顶,而另外源自文库72名
不是因为患心脏病而住院的男性病人中有
175人秃顶.分别利用图形和独立性检验方
法判断是否有关?你所得的结论在什么范围
内有效?
600
500
400
300 200 100
4)如果P(m>5.024)= 0.025表示有97.5%的把握认为”X与Y”有关系;
5)如果P(m>3.841)= 0.05表示有95%的把握认为”X与Y”有关系;
6)如果P(m>2.706)= 0.010表示有90%的把握认为”X与Y”有关系; 7)如果m≤2.706),就认为没有充分的证据显示”X与Y”有关系;
引入一个随机变量
K2 =
n(ad - bc)2
(a + b)(c + d)(a + c)(b + d)
作为检验在多大程度上可以认为“两个变量 有关系”的标准 。
设有两个分类变量X和Y它们的值域分别为{x1,x2}和 {y1,y2}其样本频数列表(称为2×2列联表) 为
2×2列联表
y1
y2
总计
K2
用 A 表示“不吸烟”, B 表示程“度不如患何肺?癌”
则等价于H0:“吸吸烟烟”和与患“肺患癌肺之癌间”没独有立关,系即A与B独立
等价于 P(AB)= P(A)P(B)
吸烟与肺癌列联表
不患肺癌
患肺癌
总计
不吸烟
a
b
a+b
吸烟
c
d
c+d
总计
a+c
b+d
a+b+c+d
P(A)≈ a + b ,P(B)≈ a + c ,P(AB)≈ a
二:求解假设检验问题
考虑假设检验问题: H0:面包分量足 ←→ H1:面包分量不足 求解思路:
1. 在H0成立的条件下,构造与H0矛盾的小概 率事件;
2. 如果样本使得这个小概率事件发生,就能 以一定把握断言H1成立;否则,断言没有 发现样本数据与H0相矛盾的证据。
1.分类变量
三:二个概念
对于性别变量,取值为:男、女
8000 7000 6000 5000 4000 3000 2000 1000
0
不患肺癌
患肺癌
三维柱 状图
吸烟 不吸烟
不吸烟 吸烟
2) 通过图形直观判断两个分类变量是否相关:
9000 8000 7000 6000 5000 4000 3000 2000 1000
0
不吸烟
吸烟
二维条 形图
患肺癌 不患肺癌
问题: 数学家庞加莱每天都从一家
面包店买一块1000g 的面包,并记 录下买回的面包的实际质量。一年 后,这位数学家发现,所记录数据 的均值为950g。于是庞加莱推断这 家面包店的面包分量不足。
• 假设“面包分量足”,则一年购买面包的质量 数据的平均值应该不少于1000g ;
• “这个平均值不大于950g”是一个与假设“面包 分量足”矛盾的小概率事件;
3)通过图形直观判断两个分类变量是否相关:
患肺癌
100% 90%
比例
80%
70%
60% 50% 40%
患肺癌 不患肺癌
30%
20%
不患肺癌
10% 0%
比例
不吸烟
吸烟
独立性检验
通过数据和图表分析,得到 结论是:吸烟与患肺癌有关
H0: 吸烟和患肺癌之间没有关系 ←→ H1: 吸烟和患
肺癌之间有关系
结论的可靠
吸烟与肺癌列联表
不患肺癌 患肺癌 总计
不吸烟 7775
42
7817
吸烟 2099
49
2148
总计
9874
91
9965
在不吸烟者中患肺癌的比重是 0.54% 在吸烟者中患肺癌的比重是 2.28%
说明:吸烟者和不吸烟者患肺癌的可能性存在差异,
吸烟者患肺癌的可能性大
1)通过图形直观判断两个分类变量是否相关:
n
n
n
其中n = a + b + c + d
a ≈ a + b×a + c nn n
a≈c, a+b c+d
ac+d≈ca + b,
ad bc
独立性检验
ad bc 0.
ad - bc 越小,说明吸烟与患肺癌之间的关系越弱,
ad - bc 越大,说明吸烟与患肺癌之间的关系越强
人有了知识,就会具备各种分析能力, 明辨是非的能力。 所以我们要勤恳读书,广泛阅读, 古人说“书中自有黄金屋。 ”通过阅读科技书籍,我们能丰富知识, 培养逻辑思维能力; 通过阅读文学作品,我们能提高文学鉴赏水平, 培养文学情趣; 通过阅读报刊,我们能增长见识,扩大自己的知识面。 有许多书籍还能培养我们的道德情操, 给我们巨大的精神力量, 鼓舞我们前进。
独立性检验基本的思想类似反证法
(1)假设结论不成立,即“两个分类变量没有关系”.
(2)在此假设下随机变量 K2 应该很能小,如果由观测数据 计算得到K2的观测值k很大,则在一定程度上说明假设 不合理. (3)根据随机变量K2的含义,可以通过 评价该假设不合理的程度,由实际计算出的, 说明假设合理的程度为99.9%,即“两个分类变量有关
• 这个小概率事件的发生使庞加莱得出推断结果。
一:假设检验问题的原理
假设检验问题由两个互斥的假设构成,其中一个 叫做原假设,用H0表示;另一个叫做备择假设, 用H1表示。
例如,在前面的例子中, 原假设为: H0:面包分量足, 备择假设为 H1:面包分量不足。 这个假设检验问题可以表达为: H0:面包分量足 ←→ H1:面包分量不足
这种变量的不同取“值”表示个体所属的不 同类别,这类变量称为分类变量
分类变量在现实生活中是大量存在的,如是 否吸烟,是否患肺癌,宗教信仰,国别,年龄, 出生月份等等。
利用随机变量K2来确定在多大程度上可以认为” 两个分类变量有关系”的方法称为两个分类变 量的独立性检验.(为假设检验的特例)
列联表
为了调查吸烟是否对肺癌有影响,某肿瘤研究所随机 地调查了9965人,得到如下结果(单位:人)
(n ad bc)2
x1
a
b
a+b
(a b)(c d)(a c)(b d) x2
c
d
c+d
P(k2 ≥ m)
总计
a+c
b+d
a+b+c+d
1系23)));如如如果果果PPP(((mmm>>>761..086.738952))8==)=00..000.0105表0表1示表示有示有9有999%9.的95适 b.把%9、的%用握c的把、认把观握d为握不认测”认为小数X为与”于”据YX”与X5有a与Y、关”Y有”系有关;关系;
独立性检验
不吸烟 吸烟 总计
吸烟与肺癌列联表
不患肺癌 患肺癌
7775
42
2099
49
9874
91
总计 7817 2148 9965
通过公式计算
K 2 9965(7775 49 42 2099)2 56.632 7817 2148987491
独立性检验
已知在 H0成立的情况下, P(K 2 6.635) 0.01 即在H0 成立的情况下,K2 大于6.635概率非常 小,近似为0.01 现在的K2=56.632的观测值远大于6.635
0 秃顶
不秃顶
患其他病 患心脏病
患心脏病 患其他病
例2.为考察高中生性别与是否喜欢数学
课程之间的关系,在某城市的某校高中生 中随机抽取300名学生,得到如下列联表:
性别与喜欢数学课程列联表
喜欢数学课程 不喜欢数学课程 总计
男
37 a
b
85
122
女
35 c
d 143
178
总计
72
228
300
由表中数据计算得 K2 ≈4.513 ,高中生的 性别与是否喜欢数学课程之间是否有关系? 为什么? 解:P96
背景分析
条形图
柱形图
列联表
分类变量之间关系
独立性检验
例1.在某医院,因为患心脏病而住院的665
名男性病人中,有214人秃顶,而另外源自文库72名
不是因为患心脏病而住院的男性病人中有
175人秃顶.分别利用图形和独立性检验方
法判断是否有关?你所得的结论在什么范围
内有效?
600
500
400
300 200 100
4)如果P(m>5.024)= 0.025表示有97.5%的把握认为”X与Y”有关系;
5)如果P(m>3.841)= 0.05表示有95%的把握认为”X与Y”有关系;
6)如果P(m>2.706)= 0.010表示有90%的把握认为”X与Y”有关系; 7)如果m≤2.706),就认为没有充分的证据显示”X与Y”有关系;
引入一个随机变量
K2 =
n(ad - bc)2
(a + b)(c + d)(a + c)(b + d)
作为检验在多大程度上可以认为“两个变量 有关系”的标准 。
设有两个分类变量X和Y它们的值域分别为{x1,x2}和 {y1,y2}其样本频数列表(称为2×2列联表) 为
2×2列联表
y1
y2
总计
K2
用 A 表示“不吸烟”, B 表示程“度不如患何肺?癌”
则等价于H0:“吸吸烟烟”和与患“肺患癌肺之癌间”没独有立关,系即A与B独立
等价于 P(AB)= P(A)P(B)
吸烟与肺癌列联表
不患肺癌
患肺癌
总计
不吸烟
a
b
a+b
吸烟
c
d
c+d
总计
a+c
b+d
a+b+c+d
P(A)≈ a + b ,P(B)≈ a + c ,P(AB)≈ a
二:求解假设检验问题
考虑假设检验问题: H0:面包分量足 ←→ H1:面包分量不足 求解思路:
1. 在H0成立的条件下,构造与H0矛盾的小概 率事件;
2. 如果样本使得这个小概率事件发生,就能 以一定把握断言H1成立;否则,断言没有 发现样本数据与H0相矛盾的证据。
1.分类变量
三:二个概念
对于性别变量,取值为:男、女
8000 7000 6000 5000 4000 3000 2000 1000
0
不患肺癌
患肺癌
三维柱 状图
吸烟 不吸烟
不吸烟 吸烟
2) 通过图形直观判断两个分类变量是否相关:
9000 8000 7000 6000 5000 4000 3000 2000 1000
0
不吸烟
吸烟
二维条 形图
患肺癌 不患肺癌
问题: 数学家庞加莱每天都从一家
面包店买一块1000g 的面包,并记 录下买回的面包的实际质量。一年 后,这位数学家发现,所记录数据 的均值为950g。于是庞加莱推断这 家面包店的面包分量不足。
• 假设“面包分量足”,则一年购买面包的质量 数据的平均值应该不少于1000g ;
• “这个平均值不大于950g”是一个与假设“面包 分量足”矛盾的小概率事件;
3)通过图形直观判断两个分类变量是否相关:
患肺癌
100% 90%
比例
80%
70%
60% 50% 40%
患肺癌 不患肺癌
30%
20%
不患肺癌
10% 0%
比例
不吸烟
吸烟
独立性检验
通过数据和图表分析,得到 结论是:吸烟与患肺癌有关
H0: 吸烟和患肺癌之间没有关系 ←→ H1: 吸烟和患
肺癌之间有关系
结论的可靠
吸烟与肺癌列联表
不患肺癌 患肺癌 总计
不吸烟 7775
42
7817
吸烟 2099
49
2148
总计
9874
91
9965
在不吸烟者中患肺癌的比重是 0.54% 在吸烟者中患肺癌的比重是 2.28%
说明:吸烟者和不吸烟者患肺癌的可能性存在差异,
吸烟者患肺癌的可能性大
1)通过图形直观判断两个分类变量是否相关:
n
n
n
其中n = a + b + c + d
a ≈ a + b×a + c nn n
a≈c, a+b c+d
ac+d≈ca + b,
ad bc
独立性检验
ad bc 0.
ad - bc 越小,说明吸烟与患肺癌之间的关系越弱,
ad - bc 越大,说明吸烟与患肺癌之间的关系越强