选修1-2.1.2独立性检验
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
若要推断的结论为H1:”X与Y有关系”,可用如下方法: 1、频率比较法:根据列联表。 2、图形分析法:通过等高条形图。
3.独立性检验法 步骤:
(1)列出列联表, (2)假设 两分类变量没有关系, (3)计算K2观测值k, (4)查临界值表,作出判断(两分类变量有关 系的程度).
例题解析: 例1 春节期间,“厉行节约,反对浪费”之风悄然吹开, 某市随机询问100名性别不同的居民是否能做到“光 盘”行动, (1)完成如下列联表。 (2)有多大的把握认为居民能否做到“光盘”与性 别有关系? (3)能否在犯错误的概率不超过0.010的前提下认为 居民能否做到“光盘”与性别有关系?
3、某班主任对全班50名学生作了一次调查得下表,由表中数据得到 K2的观测值 k ≈ 5.059,于是__________(能或不能)在犯错误的概率不超过0.01的前提下认为喜欢玩电脑游戏与认为作业多有关系。
2.某单位餐厅的固定餐椅经常有损坏,于是该单位领导决定在餐 厅墙壁上张贴文明标语,并对文明标语张贴前后餐椅的损坏情况作
不患肺癌 不吸烟 吸烟 总计 7775 2099 9874 患肺癌 42 49 91 总计 7817 2148 9965
与表格相比, 等高条形图能 更直观地反映 出相关数据的 总体状况 列联表:两个 分类变量的频 数表 (四行四列)
那么吸烟是否对患肺癌有影响? 在不吸烟者中患肺癌的比例是 0.54% 在吸烟者中患肺癌的比例是 2.28% 因此,直观上得到结论:
男 女 总计 喜欢数学课程 37 35 72 不喜欢数学课程 85 143 228 总计 122 178 300
由表中数据计算K2的观测值k 4.513.在多大程度上可以认 为高中生的性别与是否喜欢数学课程之间有关系?为什么?
练习:1性别与喜欢数学课
男 女 总计
喜欢数学课程 37 35 72
不喜欢数学课程 85 143 228
P( K 6.635) 0.01
2
5.059 6.635
练习4、在吸烟和患肺癌这两个分类变量的计算中, 下列说法正确的是 (C) A、若K2的观测值k=6.635,我们在犯错的概率不超 过0.010的前提下认为吸烟与患肺癌有关系,那么在 100个吸烟的人中必有99人患有肺病 B、从独立性检验可知有99%的把握认为吸烟与患肺 癌有关系时,我们说某人吸烟,那么他有99%的可能 患有肺病 C、若从统计量中求出有5%的可能性使得推断出现 错误,是指有95%的把握认为吸烟与患肺病有关系 D、以上三种说法都不正确 解析:因为统计结果只是说明事件发生的概率大 小,具体到一个个体不一定发生。
P K 6.635 0.010
2
即在H0成立的情况下,K2的值大于6.635的概率非常小, 近似于0.010。 现在的观测值56.632远大于6.635,即假设成立的概率 为0.010,是小概率事件,所以有理由断定H0不成立, 即认为“吸烟与患肺癌有关系”。但这种判断会犯错 误,犯错误的概率不会超过0.010 。即有99%的把握认 为“吸烟与患肺癌有关”。
有关系"
思考: 你能从上述探究过程中总结出判断两个分类变量有关 系的思路吗? 一般地, 假设有两个分类变量X 和Y , 它们的取值分别为
{x1 , x2 }和{ y1 , y2 }, 其样本频数列联表(称为2 2列联表)为 : y2 y1 总计 x1 a b a+b x2 c d c+d
总计 a+c b+d a+b+c+d
总计 122 178 300
解:假设高中生的性别与是否喜欢数学课程之间 没关系. 由k 4.513>3.841
这就意味着“性别与是否喜欢数学课程之间有关系”这一结论 错误的可能性约为0.05,即有95%的把握认为“性别与是否喜 欢数学课程之间有关系”.
2.某单位餐厅的固定餐椅经常有损坏,于是该单位领导决定在餐
0.02总计 0.01 5 55 0 5.02 4 6.63 45 5 0.00 5 7.87 9 0.001 10.82 8
100
假设“性别与是否做到光盘之间没有关系”
2 100 ( 45 15 30 10 ) 2 K 3.03 6.635 75 25 55 45
a b c d a c b d
n ad bc
2
(1)
其中n a b c d 为样本容量
若H0成立,即“吸烟与患肺癌没有关系”,则 K 应 该很小。
2
接下来,我们就利用卡方统计量K2来判断探究中“吸 烟与患肺癌有关”的可靠程度。 例:现在,根据表1-7中的数据
不能在犯错误的概率不超过0.010的前提下认为居 民能否做到“光盘”与性别有关系 在犯错误的概率不超过0.010的前提下认为 居民能否做到“光盘”与性别没有关系
P( K 6.635) 0.010
2
练习:1
性别与喜欢数学课
为考察高中生的性别与是否喜欢数学课程之间的关系,
在某城市的某校高中生中随机抽取300名学生,得到如下 联表:
ab
cd
a c d c a b ad bc 0
结论:|ad-bc|越小,说明吸烟与患肺癌之间关系越弱; |ad-bc|越大,说明吸烟与患肺癌之间关系越强;
为了使不同样本容量的数据有统一的评判标准,基于 上述分析,我们构造一个随机变量(卡方统计量)
2
K
吸烟者和不吸烟者患肺癌的可能性存在差异。
等高条形图
100% 80% 60% 40% 20% 0%
0.54%
2.28%
患病比例
不患肺癌 患肺癌
不患病比例
不吸烟
吸烟
上面我们通过分析数据和图形,得到的直观印象是“吸 烟和患肺癌有关”。这一直觉来自于观测数据,即样本。 问题是我们有多大的把握认为“吸烟和患肺癌有关” 我们假设 H0:吸烟与患肺癌没有关系
厅墙壁上张贴文明标语,并对文明标语张贴前后餐椅的损坏情况作
了一个统计,具体数据如下: 损坏餐 椅数 39 29 68 未损坏餐 椅数 157 167 324 总计
文明标语张贴前
文明标语张贴后 总计
196
196 392
由表中数据计算K2约等于1.78.
你认为在餐厅墙壁上张贴文明标语对 减少餐椅损坏数有效果吗
课题引入:
在现实中,我们会遇到类似下面的问题: 肺癌是严重威胁人类生命的一种疾病,吸烟 与患肺癌有关系吗? 性别对是否喜欢数学课程有影响吗?
1.2
独立性检验的基本思想及其初步应用
对于性别变量,其取值为男和女两种。 这种变量的 不同“值”表示个体所属的不同类别,像这样的变 量称为“分类变量”。在现实生活中,分类变量是 大量存在的,例如是否吸烟,宗教信仰,国籍……
吸烟有害健康!
正常人的肺
吸烟者的肺
独立性检验法 步骤:
(1)列出列联表, (2)假设 两分类变量没有关系, (3)计算K2观测值k, (4)查临界值表,作出判断(两分类变量有关 系的程度).
看看能推出什么样的结论。
为了研究的一般性,在列联表1-7中中用字母代替数字: 不吸烟 吸烟 总计 不患肺癌 a c a+c 患肺癌 b d b+d 总计 a+b c+d a+b+c+d
不吸烟 吸烟 总计
不患肺癌 a c a+c
患肺癌 b d b+d
总计 a+b c+d a+b+c+d
如果”吸烟与患肺癌没有关系”,则在吸烟样本中不 患肺癌的比例应该与不吸烟样本中相应的比例差不多 , 即a c
0.02总计 0.01 5 55 0 5.02 4 6.63 45 5 0.00 5 7.87 9 0.001 10.82 8
100
假设“Байду номын сангаас别与是否做到光盘之间没有关系”
2 100 ( 45 15 30 10 ) 2 K 3.03 2.706 75 25 55 45
日常生活中,我们常常关心两个分类变量之间是否 有关系,例如吸烟是否与患肺癌有关系?性别是否 对于喜欢数学课程有影响等等。
在统计学中,独立性检验是检验 两个分类变量是否有关系的一种 统计方法。
探究: 为调查吸烟是否对患肺癌有影响,某肿瘤研究所随机 地调查了9965人,得到如下结果(单位:人)
表1-7 吸烟与患肺癌列联表
P( K 2.706) 0.10
2
有90%的把握认为居民能否做到“光盘”与性别 有关。
“光盘”与性别列联表 做不到光盘 做到光盘 0.40 0.25 0.15 0.10 0.05 P( K 2 k0 ) 0.50 45 10 男 0.45 0.70 1.32 2.07 2.70 3.84 k0 5女 8 3 30 2 6 15 1 75 25 总计
“光盘”与性别列联表 男 女 总计 做不到光盘 做到光盘 45 10 30 15 75 25 总计 55 45 100
“光盘”与性别列联表 做不到光盘 做到光盘 0.40 0.25 0.15 0.10 0.05 P( K 2 k0 ) 0.50 45 10 男 0.45 0.70 1.32 2.07 2.70 3.84 k0 5女 8 3 30 2 6 15 1 75 25 总计
0.01 0 6.63 5
0.00 5 7.87 9
0.001 10.82 8
k0
(1)如果k 10.828, 就有99.9%的把握认为" X 与Y 有关系" (2)如果k 7.879, 就有99.5%的把握认为" X 与Y 有关系" (3)如果k 6.635, 就有99%的把握认为" X 与Y 有关系" (4)如果k 5.024, 就有97.5%的把握认为" X 与Y 有关系" (5)如果k 3.841, 就有95%的把握认为" X 与Y 有关系" (6)如果k 2.706, 就有90%的把握认为" X 与Y 有关系" (7)如果k 2.706, 就认为没有充分的证据显示 " X 与Y
了一个统计,具体数据如下: 损坏餐 椅数 39
29
文明标语张贴前 文明标语张贴后
未损坏餐 椅数 157
167
总计 196 196
总计
68
324
392
3、某班主任对全班 50 名学生作了 一次调查得下表,由表中数据得到 2 K 的观测值 k ≈ 5.059,于是 不能 ________( 能或不能)在犯错误的 概率不超过 0.01 的前提下认为喜 欢玩电脑游戏与认为作业多有关系。
“光盘”与性别列联表 做不到光盘 做到光盘 45 15 75 总计 55 100
男 女 总计
例题解析:
例1 春节期间,“厉行节约,反对浪费”之风悄然吹开, 某市随机询问100名性别不同的居民是否能做到“光盘” 行动, (1)完成如下列联表。 (2)有多大的把握认为居民能否做到“光盘”与性 别有关系? (3)能否在犯错误的概率不超过0.010的前提下认为居 民能否做到“光盘”与性别有关系?
不患肺癌 不吸烟 吸烟 总计 7775 2099 9874 患肺癌 42 49 91 总计 7817 2148 9965
利用公式(1)计算得K2的观测值为:
9965 7775 49 42 2099 k 56.632 7817 2148 9874 91
2
在H0成立的情况下,统计学家估算出如下的概率:
上面这种利用随机变量K2来确定在多大程度上可以认 为“两个分类变量有关系”的方法称为两个分类变量 的独立性检验。
临界值表:
P ( K k0 )
2
0.50 0.45 5
0.40 0.70 8
0.25 1.32 3
0.15 2.07 2
0.10 2.70 6
0.05 3.84 1
0.02 5 5.02 4