高中数学 1.2 独立性检验的基本思想及其初步应用课件 新人教A版选修12[1]
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第十六页,共36页。
• 3.利用独立性检验来考虑两个分类变量X和Y 是否(shì fǒu)有关系时,通过查阅临界值表来 确定断言“X与Y有关系”的可信度,如果k> 5.024,那么就推断“X和Y有关系”,这种推 断犯错误的概率不超过( )
• A.0.25 B.0.75
• C.0.025 D.0.975
第八页,共36页。
• 2.2×2列联表 • ①定义(dìngyì):两个分类变频量数的(pí_n_sh_ù_)表______
称为列联表.
• ②2×2列联表
• 一般地,假设两个分类变量X和Y,它们的取 值分别为____{x_1,__x2}___ 和____{y_1_,_y2_}__ ,其样 本频数列联表(也称为2×2列联表)为下表.
第五页,共36页。
• 重点:理解独立性检验(jiǎnyàn)的基本思想及 实施步骤.
• 难点:独立性检验(jiǎnyàn)基本思想的理解及 应用.
第六页,共36页。
• 独立性检验(jiǎnyàn)的基本思想 • 思维导航 • 日常生活及生产、科研中,经常需要考虑某
个量的变化是否由某种因素引起,与这种因 素的相关程度(chéngdù)有多大?怎样判断呢?
[解析] 由aa+ +221==b73 ,得ab= =5524 .
第十五页,共36页。
• 2.对于分类变量X与Y的随机变量K2的观测值k,下列(xiàliè) 说法正确的是( )
• A.k越大,推断“X与Y有关系”,犯错误的概率越大 • B.k越小,推断“X与Y有关系”,犯错误的概率越大 • C.k越接近于0,推断“X与Y无关”,犯错误的概率越大 • D.k越大,推断“X与Y无关”,犯错误的概率越小 • [答案] B
第十页,共36页。
• 4.独立性检验 • (1)定义:利用随机变量K2来判断
(pàndu“两à个n分)_类_(_fē_n l_èi_)变_量_有__关_系_”__________的方法 称为独立性检验.
nad-bc2
• (2)K2=____a_+_b__c+__d_a_+_c__b_+_d_ ____,其中n =a+b+c+d.
例为3484≈0.86.显然 0.46 与 0.86 差距较大,这说明色盲与性别有
关系.
• [方法规律总结] 日常生活中,两个分类变量 (biànliàng)之间的关系常用百分比来说明.
第二十一页,共36页。
• 甲、乙两校体育(tǐyù)达标抽样测试,其数据 见下表:
• 两校体育(tǐyù)达标情况抽检
从发生交通事故的司机中抽取 2 000 名司机作随
机样本,根据他们血液中是否含有酒精以及他们是否对事故负
有责任将数据整理如下:
有责任 无责任 总计
有酒精
650
150
800
无酒精
700
500
1 200
总计
1 350
650
2 000
试分析血液中含有酒精与对事故负有责任是否有关系.
第二十四页,共36页。
• [解析] 作等高条形图如下,图中阴影部分表 示有酒精负责任与无酒精负责任的比例,从 图中可以(kěyǐ)看出,两者差距较大,由此我 们可以(kěyǐ)在某种程度上认为“血液中含有 酒精与对事故负有责任”有关系.
统计(tǒngjì)案例
第一章
第一页,共36页。
1.2 独立性检验的基本思想(sīxiǎng) 及其初步应用
第一章
第二页,共36页。
1 自主预习学案 2 典例探究学案 3 巩固提高学案
第三页,共36页。
自主预习学案
第四页,共36页。
• 通过对案例的探究,了解独立性检验的基本 思想(sīxiǎng)、方法及初步应用.
本地 外地 合计 去年 1 407 2 842 4 249 今年 1 331 2 065 3 396 合计 2 738 4 907 7 645 • 能否在犯错误的概率不超过0.01的前提下认为 票价上浮后游客人数与所处地区有关系?
第三十三页,共36页。
[解析] 按照独立性检验的基本步骤,假设票价上浮后游 客人数与所处地区没有关系.
为了研究色盲与性别的关系,调查了 1 000 人,
调查结果如下表所示:
男
女
正常
442
514
色盲
38
6
根据上述数据,试利用列联表来说明色盲与性别是否有关.
第二十页,共36页。
[解析] 利用上述数据可以得到列联表为:
男
女
合计
正常
442
514
956
色盲
38
6
44
合计
480
520
1 000
则正常人中男性的比例为494526≈0.46;色盲的人中男性的比
第十二页,共36页。
• 判断方法是:如果k≥ k0,就认为“两个分类变量有 关系”;否则就认为“两个分类变量没有关 系”.按照上述规则,把“两个分类变量没有关系” 错误地判断为“两个分类变量有关系”的概率为 ____P_(K_2≥_k0)___.
• 一般地,在独立性检验中,当K2>__3_.8_4_1 _____时, 有95%的把握(bǎwò)说事件A与B有关;当 K2>_____6.6_35____时;有99%的把握(bǎwò)说事件A 与B有关;当K23≤.8_41_________时,认为事件A与B是 无关的.
第十三页,共36页。
• 牛刀小试(niú dāo xiǎo shì)
• 1.下表是一个2×2列联表:
y1
y2
x1
a 21
x2
2 25
总计 b 46
• 则表中a、b处的值分别为(
总计 73 27 100 )
• A.94,96
B.52,50
• C.52,54 D.54,52
• [答案] C
第十四页,共36页。
第二十八页,共36页。
• 独立性检验(jiǎnyàn)的应用
在 500 人身上试验某种血清预防感冒的作用,把 他们一年中的感冒记录与另外 500 名未用血清的人的感冒记录 作比较,结果如表所示.问:能否在犯错误的概率不超过 1% 的前提下认为该种血清能起到预防感冒的作用.
未感冒
使用血清 258
未使用血清 216
合计
474
感冒 242 284 526
合计 500 500 1 000
第二十九页,共36页。
[解析] 假设感冒与是否使用该种血清没有关系. 由列联表中的数据,求得 K2 的观测值为 k=1 0004×742×585×262×845-002×425×002162≈7.075. ∵k=7.075≥6.635, 查表得 P(K2≥6.635)=0.01, 故我们在犯错误的概率不超过 1%的前提下,即有 99%的 把握认为该种血清能起到预防感冒的作用.
第三十页,共36页。
[方法规律总结] 独立性检验的步骤: 第一步,确定分类变量,获取样本频数,得到列联表. 第二步,根据实际问题的需要确定容许推断“两个分类变 量有关系”犯错误概率的上界 α,然后查表确定临界值 k0. 第三步,利用公式 K2=a+bcn+add-ab+cc2b+d计算随机 变量 K2 的观测值 k0.
成绩优秀和不优秀统计后,得到如下的列联表
班级与成绩列联表
优秀
不优秀
总计
甲班
10
35
45
乙班
7
38
45
总计
17
73
90
试问能有多大把握认为“成绩与班级有关系”?
第三十五页,共36页。
[错解] 由公式得:K2=90×17×107×3×7-453×5×45382=56.86, 56.86>6.635 所以有 99%的把握认为“成绩与班级有关 系”.
第三十一页,共36页。
• 第四步,作出判断. • 如果k≥k0,就推断“X与Y有关系”,这种推
断犯错误的概率不超过α,否则就认为在犯错 误的概率不超过α的前提下不能推断“X与Y的 关系”,或者在样本数据中没有(méi yǒu)发 现足够证据支持结论“X与Y有关系”.
第三十二页,共36页。
• “十一”黄金周前某地的一旅游景点票价上浮, 黄金周过后,统计(tǒngjì)本地与外地来的游 客人数,与去年同期相比,结果如下:
第十一页,共36页。
• (3)独立性检验的基本思想 • 要判断两个分类变量是否相关及关系的强弱,需要
确定一个评判规则和标准.随机变量K2和其临界值k. 就是评判的标准. • 首先假设两个分类变量没有关系,在该假设成立的 条件下随机变量K2的值应该很___小___,如果由观测 数据计算得到的K2的观测值k很__大___,则在一定程 度上说明假设不合理,即认为“两个分类变量有关 系”;如果观测值k很__小__,则说明在样本 (yàngběn)数据中没有发现足够证据拒绝“两个分类 变心情紧张 332
考前心情不紧张 94
总计
426
性格外向 213 381 594
总计 545 475 1 020
第二十七页,共36页。
• 相应的等高条形图如图所示:
• 图中阴影部分表示考前心情紧张与考前心情 不紧张中性格内向的比例(bǐlì),从图中可以看 出考前紧张的样本中性格内向占的比例(bǐlì)比 考前心情不紧张样本中性格内向占的比例(bǐlì) 高,可以认为考前紧张与性格类型有关.
• [答案] C
• [解析] 通过查表确定临界值k.当k>k0= 5.024时,推断“X与Y”有关系这种推断犯错 误的概率不超过0.025.
第十七页,共36页。
• 4.为了探究电离辐射的剂量与人体的受损程度是否 有关,用两种不同剂量的电离辐射照射小白鼠.在照 射后14天内的结果如下表所示:
死亡 存活 合计
x1 x2 总计
y1 a c a+c
y2 b d b+d
第九页,共36页。
总计 a+b c+d a+b+c+d
3.等高条形图 (1)等高条形图与表格相比,更能直观地反映出两个分类变 量 间 是 否互_相__(_hù__x_iā_n_g_)影_ ,响 常 用 等 高 条 形 图 展 示 列 联 表 数 据 的 频_率__(p_í_n_lǜ_)_特__征. (2)观察等高条形图发现a+a b和c+c d相差很大,就判断两个 分类变量之间有_关__系__(_gu_ā_n_x_ì.)
第七页,共36页。
• 新知导学 • 1.分类变量 • 分类变量也称为属性变量或定性变量,分类
变量的取值是离散的,其不同的取值仅表示 个体所属(suǒ不sh同ǔ()b的ù tó_n_ɡ)_类_别______,除了起分 类作用外,无其他含义,有时也把分类变量 的不同取值用数字表示,但这些数字区分只(q起ūfēn) _______作用,无数值意义.
甲校 乙校 合计
达标人 未达标人
数
数
48
62
52
38
100
100
第二十二页,共36页。
合计
110 90 200
• 若要考察体育达标情况与学校是否有关系最 适宜的统计(tǒngjì)方法是( )
• A.回归分析
B.独立性检验
• C.相关系数
D.平均值
• [答案] B
第二十三页,共36页。
• 等高条形图的应用(yìngyòng)
因为 K2 的观测值 k= 7 6454×24194×073×39260×652-73288×424×90173312≈30.35>6.635. 所以在犯错误的概率不超过 0.01 的前提下认为票价上浮后 游客人数与所处地区有关系.
第三十四页,共36页。
准确掌握公式中的参数含义
有甲、乙两个班级进行一门考试,按照学生考试
第一种剂量 14 11 25
第二种剂量 6
19 25
合计
20 30 50
• 进行统计分析时的统计假设(jiǎshè)是________.
• [答案] 假设(jiǎshè)电离辐射的剂量与人体受损程度 无关.
第十八页,共36页。
典例探究学案
第十九页,共36页。
• 两个(liǎnɡ ɡè)分类变量关系的
第二十五页,共36页。
[方法规律总结] 通过等高条形图可以粗略地直观判断两 个分类变量是否有关系,一般地,在等高条形图中,a+a b与c+c d 相差越大,两个分类变量有关系的可能性就越大.
第二十六页,共36页。
• 某学校(xuéxiào)对高三学生作了一项调查发现:在平时的模拟考试 中,性格内向的学生426人中有332人在考前心情紧张,性格外向的 学生594人中有213人在考前心情紧张,作出等高条形图,利用图形 判断考前心情紧张与性格类别是否有关系.
• [辨析] 由于(yóuyú)对2×2列联表中a,b,c, d的位置不清楚,在代入公式时代错了数值导 致计算结果的错误.
[正解] K2=90×17×107×3×384-5×7×45352=0.653, 0.653<3.841, 所以没有充分证据认为成绩与班级有关.
• 3.利用独立性检验来考虑两个分类变量X和Y 是否(shì fǒu)有关系时,通过查阅临界值表来 确定断言“X与Y有关系”的可信度,如果k> 5.024,那么就推断“X和Y有关系”,这种推 断犯错误的概率不超过( )
• A.0.25 B.0.75
• C.0.025 D.0.975
第八页,共36页。
• 2.2×2列联表 • ①定义(dìngyì):两个分类变频量数的(pí_n_sh_ù_)表______
称为列联表.
• ②2×2列联表
• 一般地,假设两个分类变量X和Y,它们的取 值分别为____{x_1,__x2}___ 和____{y_1_,_y2_}__ ,其样 本频数列联表(也称为2×2列联表)为下表.
第五页,共36页。
• 重点:理解独立性检验(jiǎnyàn)的基本思想及 实施步骤.
• 难点:独立性检验(jiǎnyàn)基本思想的理解及 应用.
第六页,共36页。
• 独立性检验(jiǎnyàn)的基本思想 • 思维导航 • 日常生活及生产、科研中,经常需要考虑某
个量的变化是否由某种因素引起,与这种因 素的相关程度(chéngdù)有多大?怎样判断呢?
[解析] 由aa+ +221==b73 ,得ab= =5524 .
第十五页,共36页。
• 2.对于分类变量X与Y的随机变量K2的观测值k,下列(xiàliè) 说法正确的是( )
• A.k越大,推断“X与Y有关系”,犯错误的概率越大 • B.k越小,推断“X与Y有关系”,犯错误的概率越大 • C.k越接近于0,推断“X与Y无关”,犯错误的概率越大 • D.k越大,推断“X与Y无关”,犯错误的概率越小 • [答案] B
第十页,共36页。
• 4.独立性检验 • (1)定义:利用随机变量K2来判断
(pàndu“两à个n分)_类_(_fē_n l_èi_)变_量_有__关_系_”__________的方法 称为独立性检验.
nad-bc2
• (2)K2=____a_+_b__c+__d_a_+_c__b_+_d_ ____,其中n =a+b+c+d.
例为3484≈0.86.显然 0.46 与 0.86 差距较大,这说明色盲与性别有
关系.
• [方法规律总结] 日常生活中,两个分类变量 (biànliàng)之间的关系常用百分比来说明.
第二十一页,共36页。
• 甲、乙两校体育(tǐyù)达标抽样测试,其数据 见下表:
• 两校体育(tǐyù)达标情况抽检
从发生交通事故的司机中抽取 2 000 名司机作随
机样本,根据他们血液中是否含有酒精以及他们是否对事故负
有责任将数据整理如下:
有责任 无责任 总计
有酒精
650
150
800
无酒精
700
500
1 200
总计
1 350
650
2 000
试分析血液中含有酒精与对事故负有责任是否有关系.
第二十四页,共36页。
• [解析] 作等高条形图如下,图中阴影部分表 示有酒精负责任与无酒精负责任的比例,从 图中可以(kěyǐ)看出,两者差距较大,由此我 们可以(kěyǐ)在某种程度上认为“血液中含有 酒精与对事故负有责任”有关系.
统计(tǒngjì)案例
第一章
第一页,共36页。
1.2 独立性检验的基本思想(sīxiǎng) 及其初步应用
第一章
第二页,共36页。
1 自主预习学案 2 典例探究学案 3 巩固提高学案
第三页,共36页。
自主预习学案
第四页,共36页。
• 通过对案例的探究,了解独立性检验的基本 思想(sīxiǎng)、方法及初步应用.
本地 外地 合计 去年 1 407 2 842 4 249 今年 1 331 2 065 3 396 合计 2 738 4 907 7 645 • 能否在犯错误的概率不超过0.01的前提下认为 票价上浮后游客人数与所处地区有关系?
第三十三页,共36页。
[解析] 按照独立性检验的基本步骤,假设票价上浮后游 客人数与所处地区没有关系.
为了研究色盲与性别的关系,调查了 1 000 人,
调查结果如下表所示:
男
女
正常
442
514
色盲
38
6
根据上述数据,试利用列联表来说明色盲与性别是否有关.
第二十页,共36页。
[解析] 利用上述数据可以得到列联表为:
男
女
合计
正常
442
514
956
色盲
38
6
44
合计
480
520
1 000
则正常人中男性的比例为494526≈0.46;色盲的人中男性的比
第十二页,共36页。
• 判断方法是:如果k≥ k0,就认为“两个分类变量有 关系”;否则就认为“两个分类变量没有关 系”.按照上述规则,把“两个分类变量没有关系” 错误地判断为“两个分类变量有关系”的概率为 ____P_(K_2≥_k0)___.
• 一般地,在独立性检验中,当K2>__3_.8_4_1 _____时, 有95%的把握(bǎwò)说事件A与B有关;当 K2>_____6.6_35____时;有99%的把握(bǎwò)说事件A 与B有关;当K23≤.8_41_________时,认为事件A与B是 无关的.
第十三页,共36页。
• 牛刀小试(niú dāo xiǎo shì)
• 1.下表是一个2×2列联表:
y1
y2
x1
a 21
x2
2 25
总计 b 46
• 则表中a、b处的值分别为(
总计 73 27 100 )
• A.94,96
B.52,50
• C.52,54 D.54,52
• [答案] C
第十四页,共36页。
第二十八页,共36页。
• 独立性检验(jiǎnyàn)的应用
在 500 人身上试验某种血清预防感冒的作用,把 他们一年中的感冒记录与另外 500 名未用血清的人的感冒记录 作比较,结果如表所示.问:能否在犯错误的概率不超过 1% 的前提下认为该种血清能起到预防感冒的作用.
未感冒
使用血清 258
未使用血清 216
合计
474
感冒 242 284 526
合计 500 500 1 000
第二十九页,共36页。
[解析] 假设感冒与是否使用该种血清没有关系. 由列联表中的数据,求得 K2 的观测值为 k=1 0004×742×585×262×845-002×425×002162≈7.075. ∵k=7.075≥6.635, 查表得 P(K2≥6.635)=0.01, 故我们在犯错误的概率不超过 1%的前提下,即有 99%的 把握认为该种血清能起到预防感冒的作用.
第三十页,共36页。
[方法规律总结] 独立性检验的步骤: 第一步,确定分类变量,获取样本频数,得到列联表. 第二步,根据实际问题的需要确定容许推断“两个分类变 量有关系”犯错误概率的上界 α,然后查表确定临界值 k0. 第三步,利用公式 K2=a+bcn+add-ab+cc2b+d计算随机 变量 K2 的观测值 k0.
成绩优秀和不优秀统计后,得到如下的列联表
班级与成绩列联表
优秀
不优秀
总计
甲班
10
35
45
乙班
7
38
45
总计
17
73
90
试问能有多大把握认为“成绩与班级有关系”?
第三十五页,共36页。
[错解] 由公式得:K2=90×17×107×3×7-453×5×45382=56.86, 56.86>6.635 所以有 99%的把握认为“成绩与班级有关 系”.
第三十一页,共36页。
• 第四步,作出判断. • 如果k≥k0,就推断“X与Y有关系”,这种推
断犯错误的概率不超过α,否则就认为在犯错 误的概率不超过α的前提下不能推断“X与Y的 关系”,或者在样本数据中没有(méi yǒu)发 现足够证据支持结论“X与Y有关系”.
第三十二页,共36页。
• “十一”黄金周前某地的一旅游景点票价上浮, 黄金周过后,统计(tǒngjì)本地与外地来的游 客人数,与去年同期相比,结果如下:
第十一页,共36页。
• (3)独立性检验的基本思想 • 要判断两个分类变量是否相关及关系的强弱,需要
确定一个评判规则和标准.随机变量K2和其临界值k. 就是评判的标准. • 首先假设两个分类变量没有关系,在该假设成立的 条件下随机变量K2的值应该很___小___,如果由观测 数据计算得到的K2的观测值k很__大___,则在一定程 度上说明假设不合理,即认为“两个分类变量有关 系”;如果观测值k很__小__,则说明在样本 (yàngběn)数据中没有发现足够证据拒绝“两个分类 变心情紧张 332
考前心情不紧张 94
总计
426
性格外向 213 381 594
总计 545 475 1 020
第二十七页,共36页。
• 相应的等高条形图如图所示:
• 图中阴影部分表示考前心情紧张与考前心情 不紧张中性格内向的比例(bǐlì),从图中可以看 出考前紧张的样本中性格内向占的比例(bǐlì)比 考前心情不紧张样本中性格内向占的比例(bǐlì) 高,可以认为考前紧张与性格类型有关.
• [答案] C
• [解析] 通过查表确定临界值k.当k>k0= 5.024时,推断“X与Y”有关系这种推断犯错 误的概率不超过0.025.
第十七页,共36页。
• 4.为了探究电离辐射的剂量与人体的受损程度是否 有关,用两种不同剂量的电离辐射照射小白鼠.在照 射后14天内的结果如下表所示:
死亡 存活 合计
x1 x2 总计
y1 a c a+c
y2 b d b+d
第九页,共36页。
总计 a+b c+d a+b+c+d
3.等高条形图 (1)等高条形图与表格相比,更能直观地反映出两个分类变 量 间 是 否互_相__(_hù__x_iā_n_g_)影_ ,响 常 用 等 高 条 形 图 展 示 列 联 表 数 据 的 频_率__(p_í_n_lǜ_)_特__征. (2)观察等高条形图发现a+a b和c+c d相差很大,就判断两个 分类变量之间有_关__系__(_gu_ā_n_x_ì.)
第七页,共36页。
• 新知导学 • 1.分类变量 • 分类变量也称为属性变量或定性变量,分类
变量的取值是离散的,其不同的取值仅表示 个体所属(suǒ不sh同ǔ()b的ù tó_n_ɡ)_类_别______,除了起分 类作用外,无其他含义,有时也把分类变量 的不同取值用数字表示,但这些数字区分只(q起ūfēn) _______作用,无数值意义.
甲校 乙校 合计
达标人 未达标人
数
数
48
62
52
38
100
100
第二十二页,共36页。
合计
110 90 200
• 若要考察体育达标情况与学校是否有关系最 适宜的统计(tǒngjì)方法是( )
• A.回归分析
B.独立性检验
• C.相关系数
D.平均值
• [答案] B
第二十三页,共36页。
• 等高条形图的应用(yìngyòng)
因为 K2 的观测值 k= 7 6454×24194×073×39260×652-73288×424×90173312≈30.35>6.635. 所以在犯错误的概率不超过 0.01 的前提下认为票价上浮后 游客人数与所处地区有关系.
第三十四页,共36页。
准确掌握公式中的参数含义
有甲、乙两个班级进行一门考试,按照学生考试
第一种剂量 14 11 25
第二种剂量 6
19 25
合计
20 30 50
• 进行统计分析时的统计假设(jiǎshè)是________.
• [答案] 假设(jiǎshè)电离辐射的剂量与人体受损程度 无关.
第十八页,共36页。
典例探究学案
第十九页,共36页。
• 两个(liǎnɡ ɡè)分类变量关系的
第二十五页,共36页。
[方法规律总结] 通过等高条形图可以粗略地直观判断两 个分类变量是否有关系,一般地,在等高条形图中,a+a b与c+c d 相差越大,两个分类变量有关系的可能性就越大.
第二十六页,共36页。
• 某学校(xuéxiào)对高三学生作了一项调查发现:在平时的模拟考试 中,性格内向的学生426人中有332人在考前心情紧张,性格外向的 学生594人中有213人在考前心情紧张,作出等高条形图,利用图形 判断考前心情紧张与性格类别是否有关系.
• [辨析] 由于(yóuyú)对2×2列联表中a,b,c, d的位置不清楚,在代入公式时代错了数值导 致计算结果的错误.
[正解] K2=90×17×107×3×384-5×7×45352=0.653, 0.653<3.841, 所以没有充分证据认为成绩与班级有关.