3.2独立性检验的基本思想及其初步应用 PPT课件
合集下载
独立性检验的基本思想及其初步应用 PPTPPT课件
相应的三维柱形图如图所示,比较来说,
600
500 451
400
300
175
பைடு நூலகம்214
200
底面副对角线上两个柱体高度的乘积要 大一些,因此可以在某种程度上认为 “秃顶与患心脏病有关”.
(i)在三维柱形图中,主对角线上两个柱形高度的乘积 ad与副对角线上的两个柱形高度的乘积bc相差越大, H1成立的可能性就越大.
(具ii)有在Y二=维y1的条个形体图所中占,的可比以例估计a 满a b足,条也件可X=以x估1的计c个满体足中条
件X=x2的个体中具有Y=y1的个体所占的比例 c d ,两 个比例的值相差越大,H1成立的可能性就越大.
即 ac a (c d ) c (a b ) a d b c 0 a bc d
|ad-bc|越小,说明吸烟与患肺癌之间关系越弱; |ad-bc|越大,说明吸烟与患肺癌之间关系越强.
为了使不同样本容量的数据有统一的评判标准,基于 上述分析,我们构造一个随机变量
K2
n(adbc)2
(1)
(ab)(cd)(ac)(bd)
一般地,假设有两个分类变量X和Y,它们的可能取值
分 别 为 {x1,x2} 和 {y1,y2}, 其 样 本 频 数 列 联 表 ( 称 为 2x2列联表)为:
若要判断结论为:H1:“X与Y有关系”,可按如下步 骤判断H1成立的可能性:
1.通过三维柱形图和二维条形图,可以初略地判断两个 分类变量是否有关系,但是这种判断无法精确地给出所 得结论的可靠程度.
利用独立性检验来考察两个分类变量是否有关系,能 较精确地给出这种判断的可靠程度. 具体作法是:
(1)根据实际问题需要的可信程度确定临界值k0;
独立性检验的基本思想及其初步应用高中数学人教A版选修PPT课件
a ≈ a + b×a + c nn n
其中n = a + b + c + d为样本容量,即
(a+b+c+d)a (a+b)(a+c),
即ad bc
因此|ad-bc|越小,说明吸烟与患肺癌之间关系越弱; |ad-bc|越大,说明吸烟与患肺癌之间关系越强。
18
独立性检验
为了使不同样本容量的数据有统一的评判标准,基于上述分
甲生产线 97 3
100
乙生产线 95 5
100
总计
192 8
200
10
100 90 80 70 60 50 40 30 20 10 0 合格
不合格
合格
不合格
甲生产线 乙生产线
甲生产线 乙生产线
0
100
200
300
11
1 . 2×2 列 联 表 是 传 统 的 调 查 研 究 中 最 常 用的方法之一,用于研究两个变量之间相 互独立还是存在某种关联性,它适用于分 析两个变量之间的关系.
k
0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828
(1)如果k 10.828,就有99.9%的把握认为" X与Y有关系"
(2)如果k 7.879,就有99.5%的把握认为" X与Y有关系"
(3)如果k 6.635,就有99%的把握认为" X与Y有关系"
不成立,即有99%的把握认为“吸烟
0
与患肺癌有关系”。
20
判断H 0是否成立的规则
如果 k 6.635 ,就判断 H0 不成立,即认为吸烟与
3.2独立性检验的基本思想及其初步应用 课件(人教A版选修2-3)
3. 独立性检验临界值表
P(K2 ≥k 0 ) k0
0.50 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001
0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828
想一想:在K2运算时,在判断变量相关时,若K2的观测值k= 56.632,则P(K2≥6.635)≈0.01和P(K2≥10.828)≈0.001, 哪种说法是正确的? 提示 两种说法均正确.
兴趣不浓厚的
总计
86
73
103
95
189
判断学生的数学成绩好坏与对学习数学的兴趣是否有关?
解 由公式得 K 的观测值
解 由公式得 K 的观测值 86×103×95×94
2
189× 64×73-22×30 k189 = ×64×73-22×302 ≈38.459. 86 × 103 × 95 × 94 k= ≈38.459.
想一想:如何理解分类变量?
提示
(1)这里的“变量”和“值”都应作为“广义”的变量和值
来理解.例如:对于性别变量,其取值有“男”和“女”两 种,这里的“变量”指的是“性别”,这里的“值”指的是“男”
或“女”.因此,这里说的“变量”和“值”不一定是取具体的
数值. (2)分类变量是大量存在的.例如:吸烟变量有吸烟与不 吸烟两种类别,而国籍变量则有多种类别.
2.独立性检验 利用随机变量K2来判断“两个分类变量有关系”的方法 定义 称为独立性检验
公式
n ad-bc2 a+bc+da+c b+d K2=_______________________ 其中n=___________ a+b+c+d
3.2独立性检验的基本思想及其应用.ppt
已知在 H 0成立的情况下,
2
P( K 6.635) 的情况下, 6.635概率非常小, 近似为0.01,是个小概率事件。
现在的K 2 =56.632的值远大于6.635,所以有 理由判定 H 0 不成立,即认为“吸烟与患病有 关系”,但这种判断会犯错误,犯错误的概 率不会超过0.01 故在犯错误的概率不超过0.01的前提下断定 吸烟与患病有关 即有99%的把握认为 H 0不成立。
男生 女生 合计
关心 182 176 358
不关心 18 24 42
2
合计 200 200 400
解:设H0:学生对国家大事关心与否与性别没有关系。
400182 24 18 176 k 0.9577<2.706 358 42 200 200 因当H0成立时,K2≥0. 9577的概率大于10%,故不能否定假设 H0,即不能作出学生是否关心国家大事于性别有关的结论。
不吸烟 吸烟 总计
吸烟与肺癌列联表 不患肺癌 患肺癌 7775 42
2099 9874 49 91
总计 7817
2148 9965
在不吸烟者中患肺癌的比重是 0.54% 2.28% 在吸烟者中患肺癌的比重是
说明:吸烟者和不吸烟者患肺癌的可能性存在差异, 吸烟者患肺癌的可能性大
等高条形图展示列联表数据的频率特征
具体作法是:
(1)根据实际问题需要的可信程度确定临界值 k0;
(2)利用公式(1),由观测数据计算得到随机变量 K 2 观测值k;
(3)如果 k k0,就以 (1 P( K 2 k0 )) 100% 的把握认为“X 与Y有关系”;否则就说样本观测数据没有提供“X与Y有关系” 的充分证据。 在实际应用中,要在获取样本数据之前通过下表确定临界值:
高中数学人教A版选修2-3课件:3.2独立性检验的基本思想及其初步应用
x
).
问题导学
当堂检测
一、用列联表和等高条形图分析两变量间的关系
活动与探究 问题 1:怎样从列联表判断两个分类变量有无关系? 提示:|ad-bc|越小,说明两个分类变量 x,y 之间的关系越弱;|ad-bc|越 大,说明 x,y 之间的关系越强.
x
问题 2:等高条形图对分析两个分类变量是否有关系,有何帮助? 提示:通过画等高条形图,我们可以通过观察两个变量的比例关系, 直观判断两个变量是否有关系.
问题导学
当堂检测
(1)利用列联表直接计算 分类变量之间有关系.
������ ������ 和 ,如果两者相差很大,就判断两个 ������+������ ������+������
(2)在等高条形图中展示列联表数据的频率特征,比较图中两个深 色条的高可以发现两者频率不一样而得出结论 ,这种直观判断的不足 之处在于不能给出推断“两个分类变量有关系”犯错误的概率.
问题导学
当堂检测
相应的等高条形图如图所示.
图中两个深色条的高分别表示甲在生产现场和甲不在生产现场样 本中次品数的频率.从图中可以看出,甲不在生产现场样本中次品数的 频率明显高于甲在生产现场样本中次品数的频率 .因此可以认为质量 监督员甲在不在生产现场与产品质量好坏有关系 .
问题导学
当堂检测
迁移与应用 某学校对高三学生作了一项调查发现:在平时的模拟考试中,性格 内向的学生 426 人中有 332 人在考前心情紧张,性格外向的学生 594 人 中有 213 人在考前心情紧张,作出等高条形图,利用图形判断考前心情 紧张与性格类别是否有关系. 解:作列联表如下:
2
其中 n=a+b+c+d 为样本容量.
).
问题导学
当堂检测
一、用列联表和等高条形图分析两变量间的关系
活动与探究 问题 1:怎样从列联表判断两个分类变量有无关系? 提示:|ad-bc|越小,说明两个分类变量 x,y 之间的关系越弱;|ad-bc|越 大,说明 x,y 之间的关系越强.
x
问题 2:等高条形图对分析两个分类变量是否有关系,有何帮助? 提示:通过画等高条形图,我们可以通过观察两个变量的比例关系, 直观判断两个变量是否有关系.
问题导学
当堂检测
(1)利用列联表直接计算 分类变量之间有关系.
������ ������ 和 ,如果两者相差很大,就判断两个 ������+������ ������+������
(2)在等高条形图中展示列联表数据的频率特征,比较图中两个深 色条的高可以发现两者频率不一样而得出结论 ,这种直观判断的不足 之处在于不能给出推断“两个分类变量有关系”犯错误的概率.
问题导学
当堂检测
相应的等高条形图如图所示.
图中两个深色条的高分别表示甲在生产现场和甲不在生产现场样 本中次品数的频率.从图中可以看出,甲不在生产现场样本中次品数的 频率明显高于甲在生产现场样本中次品数的频率 .因此可以认为质量 监督员甲在不在生产现场与产品质量好坏有关系 .
问题导学
当堂检测
迁移与应用 某学校对高三学生作了一项调查发现:在平时的模拟考试中,性格 内向的学生 426 人中有 332 人在考前心情紧张,性格外向的学生 594 人 中有 213 人在考前心情紧张,作出等高条形图,利用图形判断考前心情 紧张与性格类别是否有关系. 解:作列联表如下:
2
其中 n=a+b+c+d 为样本容量.
3.2独立性检验的基本思想及其初步应用(修改)ppt课件
对于性别变量,其取值为男和女两种.这种变量 的不同“值”表示个体所属的不同类别,像这样的变 量称为 分类变量 .
分类变量在现实生活中是大量存在的,如是否吸烟, 是否患肺癌,宗教信仰,国别,年龄,出生月份等.
整理ppt
3
对分类变量的理解
(1)分类变量的取值一定是离散的,而且不同的取值 仅表示个体所属的类别,如性别变量,只取男、女 两个值,商品的等级变量只取一级、二级、三级等.
不吸烟
a
b
a+b
吸烟
c
d
c+d
总计
a+c
b+d a+b+c+d
思考4:(1)在表3-8中,事件AB发生的频数是什么? a
(2)事件A发生的频数是什么? ab
(3)事件B发生的频数是什么? ac
(4)P(AB)、P(A)、P(B)分别是什么?它们之间有什么关系?
(5)|ad-bc|越小,说明什么问题?|ad-bc|越大,说明什么问题?
③判断k的值的大小,即k是不是一个小概率 事件,从而确定X与Y有关的程度或无关系.
整理ppt
17
问题1:如何判断K2的观测值k是大还是小呢?
这仅需确定一个正数k0,当k≥k0时就认为K2的观测 值k大.此时相应于的判断规则为:如果k≥k0 ,就 认为“两个分类变量之间有关系”;否则就认为 “两个分类变量之间没有关系”.
c+d
b+d a+b+c+d
若要推断的论述为Hl:X与Y有关系,可以按如下步
骤判断结论Hl 成立的可能整理性pp:t
20
若要推断的论述为Hl:X与Y有关系,可以按如下步 骤判断结论Hl 成立的可能性:
分类变量在现实生活中是大量存在的,如是否吸烟, 是否患肺癌,宗教信仰,国别,年龄,出生月份等.
整理ppt
3
对分类变量的理解
(1)分类变量的取值一定是离散的,而且不同的取值 仅表示个体所属的类别,如性别变量,只取男、女 两个值,商品的等级变量只取一级、二级、三级等.
不吸烟
a
b
a+b
吸烟
c
d
c+d
总计
a+c
b+d a+b+c+d
思考4:(1)在表3-8中,事件AB发生的频数是什么? a
(2)事件A发生的频数是什么? ab
(3)事件B发生的频数是什么? ac
(4)P(AB)、P(A)、P(B)分别是什么?它们之间有什么关系?
(5)|ad-bc|越小,说明什么问题?|ad-bc|越大,说明什么问题?
③判断k的值的大小,即k是不是一个小概率 事件,从而确定X与Y有关的程度或无关系.
整理ppt
17
问题1:如何判断K2的观测值k是大还是小呢?
这仅需确定一个正数k0,当k≥k0时就认为K2的观测 值k大.此时相应于的判断规则为:如果k≥k0 ,就 认为“两个分类变量之间有关系”;否则就认为 “两个分类变量之间没有关系”.
c+d
b+d a+b+c+d
若要推断的论述为Hl:X与Y有关系,可以按如下步
骤判断结论Hl 成立的可能整理性pp:t
20
若要推断的论述为Hl:X与Y有关系,可以按如下步 骤判断结论Hl 成立的可能性:
高二数学人选修课件第三章独立性检验的基本思想及其初步应用
Fisher确切概率法
定义
Fisher确切概率法是一种基于超几何分布的假设检验方法,用于检验两个分类变量之间 的独立性。
原理
Fisher确切概率法通过计算所有可能的表格排列组合中,比观察结果更极端或同样极端 的表格出现的概率之和,从而得到检验统计量的精确分布,并据此进行假设检验。
应用场景
适用于样本量较小或列联表中有格子期望频数过小的情况,此时卡方检验可能不再适用 。
自由度
在独立性检验中,自由度通常等于(行数-1)*(列 数-1),用于调整卡方统计量的分布。
显著性水平
用于判断拒绝原假设的可靠程度,通常取0.05或 0.01。
独立性检验的意义
80%
判断分类变量是否独立
通过独立性检验,可以判断两个 分类变量是否独立,从而进一步 分析它们之间的关系。
100%
为后续分析提供基础
05
实例分析:独立性检验的应用
实例一:医学研究中基因与疾病关联性的分析
01
02
03
04
研究目的
探讨特定基因与某种疾病之间 的关联性,为疾病的预防、诊 断和治疗提供依据。
数据收集
收集大量患者的基因数据和疾 病信息,以及健康人群的基因 数据作为对照。
独立性检验
利用独立性检验的方法,分析 基因与疾病之间是否存在统计 学上的显著关联。
结果解读
如果检验结果显示产品满意度与品牌忠诚度之间 存在显著关联,则企业可以针对提高产品满意度 来增强消费者的品牌忠诚度。
实例三
研究目的
数据收集
探讨教育水平与职业成功之间的关系,为 教育政策制定和职业规划提供依据。
收集大量个体的教育水平数据和职业成功 指标(如收入、职位等),以及可能影响 职业成功的其他因素数据。
人教版高中数学选修2-3课件:3.2 独立性检验的基本思想及其初步应用(共38张PPT)
P(K2≥k0) 0.05 0.025 0.010 0.005 0.001
例如:
k0
3.841 5.024 6.635 7.879 10.828
①如果k≥10.828,就有99.9%的把握认为“X与Y有关系”;
②如果k≥7.879,就有99.5%的把握认为“X与Y有关系”;
③如果k≥6.635,就有99%的把握认为“X与Y有关系”;
≈7.8.
备课素材
附表:P(K2≥k0) k0
0.050 3.841
0.010 6.635
0.001 10.828
参照附表,得到的正确结论是 (A ) A.有99%以上的把握认为“爱好该项运动与性别有关” B.有99%以上的把握认为“爱好该项运动与性别无关” C.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关” D.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”
表(称为2×2列联表)为
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计 a+c
b+d a+b+c+d
若要推断的论述为H1:“X与Y有关系”,则可以按如下步骤判断H1成立的可能性:
预习探究
预习探究
P(K2≥k0) 0.50 0.40 0.25 0.15 0.10
k0
0.455 0.708 1.323 2.072 2.706
考点类析
考点一 两分类变量之间关联关系的定性分析
例1 为考察某种药物预防某种疾病的效果,进行了一 项动物试验,得到如下列联表:
服用药 未服用药
独立性检验PPT课件
用“假设检验”解决此问题
Page 3
请看下面的表格
表(一)
表(二)
Page 4
(一)反证法思想
结论如下:
︱ad – bc ︱越小,说明吸 烟与患肺癌之间的关系越 弱。
︱ad – bc ︱越大,说明吸 烟与患肺癌之间的关系越 强。
Page 5
(二)统一的评判标准
一般认为,小概率事件在一次 试验中不会发生,据此原则, 如果在某种假设下小概率事件 在一次试验中发生了,则认为 此假设不成立。(即H0不成立)
谢 谢 !ຫໍສະໝຸດ Page 6表(三) K2检验的临界值表
Page 7
(三) 假设检验的基本步骤:
(1)假设H0:两个分类变量没有关系; (2)求K2的观测值k; (3)⒈给定显著性水平α ,查表(三)定出临界值k0,与k进行 比较;⒉未给定显著性水平α,根据实际问题的需要确定容 许推断“两个分类变量有关系”犯错误概率的上界α,然后查 表(三)确定临界值k0 与k进行比较;
(4)若k≥k0,则拒绝H0,认为两个分类变量有关系; 若k<k0, 则接受H0,认为两个分类变量没有关系。
Page 8
小结: 反证法原理与假设检验原理
反证法原理
在一个已知假 设下,如果推 出一个矛盾, 就证明了这个 假设不成立。
Page 9
假设检验原理
在一个已知假设 下,如果推出一 个小概率事件发 生,则推断这个 假设不成立的可 能性很大。
1.2 独立性检验的基本 思想及其初步应用
樊永丽
樊永丽
-
1
有一个颠扑不破的真理,那就是当我 们不能确定什么是真的时候,我们就
应该去探求什么是最可能的。 ----------笛卡尔
Page 3
请看下面的表格
表(一)
表(二)
Page 4
(一)反证法思想
结论如下:
︱ad – bc ︱越小,说明吸 烟与患肺癌之间的关系越 弱。
︱ad – bc ︱越大,说明吸 烟与患肺癌之间的关系越 强。
Page 5
(二)统一的评判标准
一般认为,小概率事件在一次 试验中不会发生,据此原则, 如果在某种假设下小概率事件 在一次试验中发生了,则认为 此假设不成立。(即H0不成立)
谢 谢 !ຫໍສະໝຸດ Page 6表(三) K2检验的临界值表
Page 7
(三) 假设检验的基本步骤:
(1)假设H0:两个分类变量没有关系; (2)求K2的观测值k; (3)⒈给定显著性水平α ,查表(三)定出临界值k0,与k进行 比较;⒉未给定显著性水平α,根据实际问题的需要确定容 许推断“两个分类变量有关系”犯错误概率的上界α,然后查 表(三)确定临界值k0 与k进行比较;
(4)若k≥k0,则拒绝H0,认为两个分类变量有关系; 若k<k0, 则接受H0,认为两个分类变量没有关系。
Page 8
小结: 反证法原理与假设检验原理
反证法原理
在一个已知假 设下,如果推 出一个矛盾, 就证明了这个 假设不成立。
Page 9
假设检验原理
在一个已知假设 下,如果推出一 个小概率事件发 生,则推断这个 假设不成立的可 能性很大。
1.2 独立性检验的基本 思想及其初步应用
樊永丽
樊永丽
-
1
有一个颠扑不破的真理,那就是当我 们不能确定什么是真的时候,我们就
应该去探求什么是最可能的。 ----------笛卡尔
独立性检验的基本思想及初步应用【公开课教学PPT课件】
总计
喜欢(A1)
154 234 494
不喜欢(A2)
340 193 427
总计
533 388 921
问题六:在喜欢该节目和性别的例子中,请根据卡方
的值,并结合临界值表,说说你得到了什么结论
和启发?
2 52.441
P( 2 k) 0.50 0.40 0.5 0.15 0.10 0.05 0.025 0.010 0.005 0.001
喜欢参加体育锻炼 不喜欢参加体育锻炼
男
197
48
女
135
120
试问:高中生是否喜欢参加体育锻炼和性别之间有关系吗?
P( 2 k) 0.50 0.40 0.5 0.15 0.10 0.05 0.025 0.010 0.005 0.001 k 0.445 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828
2 10.828 的概率只有千分之一,这是一个小概率事件, 几乎不可能发生.
如果根据某次统计数据出现了 2 10.828 —— 一个几 乎不可能发生的小概率事件发生了,说明A与B相互独立 这一假设成立的可能性非常小——只有0.1%,即就是说 我们有1-0.1%=99.9%的把握判定A与B有关联.当然我们做 出A与B有关联这样的判断也会出错,但出错的概率不超 过0.1% .我们把这种检验方法称为假设检验法。
总计
我们假设喜欢该节目与性别是独立的,即性别不影响是否喜 欢该节目.男根生据(B直1)观经验1,54我们把男生34中0 喜欢该节5目33的人所占
百分比,与女生女(生B2中) 喜欢该23节4 目的人所1占93百分比作比38较8 .也就意
味着,无论喜欢与否,喜欢的人所占百分比应是基本一样的.
喜欢(A1)
154 234 494
不喜欢(A2)
340 193 427
总计
533 388 921
问题六:在喜欢该节目和性别的例子中,请根据卡方
的值,并结合临界值表,说说你得到了什么结论
和启发?
2 52.441
P( 2 k) 0.50 0.40 0.5 0.15 0.10 0.05 0.025 0.010 0.005 0.001
喜欢参加体育锻炼 不喜欢参加体育锻炼
男
197
48
女
135
120
试问:高中生是否喜欢参加体育锻炼和性别之间有关系吗?
P( 2 k) 0.50 0.40 0.5 0.15 0.10 0.05 0.025 0.010 0.005 0.001 k 0.445 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828
2 10.828 的概率只有千分之一,这是一个小概率事件, 几乎不可能发生.
如果根据某次统计数据出现了 2 10.828 —— 一个几 乎不可能发生的小概率事件发生了,说明A与B相互独立 这一假设成立的可能性非常小——只有0.1%,即就是说 我们有1-0.1%=99.9%的把握判定A与B有关联.当然我们做 出A与B有关联这样的判断也会出错,但出错的概率不超 过0.1% .我们把这种检验方法称为假设检验法。
总计
我们假设喜欢该节目与性别是独立的,即性别不影响是否喜 欢该节目.男根生据(B直1)观经验1,54我们把男生34中0 喜欢该节5目33的人所占
百分比,与女生女(生B2中) 喜欢该23节4 目的人所1占93百分比作比38较8 .也就意
味着,无论喜欢与否,喜欢的人所占百分比应是基本一样的.
3.2_独立性检验的基本思想及其初步应用
例2.在研究某种新药对小白兔的防治效果时,得到下表 数据:
未用新药 用新药
总计
存活数 101 129 230
死亡数 38 20 58
总计 139 149 288
试分析新药对防治小白兔是否有效?
k
288 101 20 38 129 139 149 230 58
2
8.658 7.879
(1).根据实际问题的需要确定容许推断“两个 分类变量有关系”犯错误概率得上界 ,但是这 种判断不精确. (2)在二维条形图中,两个比例的值相差越大, H1成立的可能变量是否有关系, 并且能较精确地给出这种判断的可靠程度.
具体做法是: 根据观测数据计算由
K
因此|ad-bc|越小,说明吸烟与患肺癌之间关系越弱; |ad-bc|越大,说明吸烟与患肺癌之间关系越强;
为了使不同样本容量的数据有统一的评判标准, 基于上述分析,我们构造一个随机变量:
K
2
a b c d a c b d
n ad bc
2
其中n a b c d为样本容量
等高条形图
100% 90% 80% 70% 60% 50% 40% 30% 20% 10% 0% 不吸烟 吸烟
患肺癌 不患肺癌
上面我们通过分析数据和图形,得到的直观印象 是吸烟和患肺癌有关,那么事实是否真的如此呢?
能够以多大的把握认为”吸烟与患肺癌有关”,假设 H0:吸烟与患肺癌没有关系,看看能推出什么结论
2
56.632
这个值到地告诉我们什么呢?
统计学家经过研究发现,在H0成立的情况下:
P K 6.635 0.01
2
K=56.632,远远大于6.635,所以有理由断定吸 烟与患肺癌有关系。这种判断犯错误的概率 不超过0.01。
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
例1.在某医院,因为患心脏病而住院的665名男性病人 中,有214人秃顶,而另外772名不是因为患心脏病而住 院的男性病人中有175人秃顶.分别利用图形和独立性检 验方法判断是否有关?你所得的结论在什么范围内有效?
秃顶 不秃顶
总计
患心脏病 214 451 665
不患心脏病 175 597 772
总计 389 1048 1437
设“取出的2个样本混凝土耐久性都达标”为事件A,它的 对立事件A为“取出的2个样本至少有1个混凝土耐久性不达 标”,包含(A1,B),(A2,B),(A3,B),(A4,B),(A5,B), 共5种可能.
2.(2011·揭阳一模)某食品厂为了检查甲乙两条自动包装 流水线的生产情况,随机在这两条流水线上各抽取40件产品 作为样本称出它们的重量(单位:克),重量值落在(495,510] 的产品为合格品,否则为不合格品.表1是甲流水线样本频数 分布表,图1是乙流水线样本的频率分布直方图.
参考数据:
P(k2≥k) 0.10
0.050 0.025 0.010 0.001
k
2.706 3.841 5.024 6.635 10.828
解析:(1)提出假设H0:使用淡化海砂与混凝土耐久性 是否达标无关.
根据表中数据,求得K2的观测值
∴能在犯错误的概率不超过1%的前提下,认为使用淡化海
砂与混凝土耐久性是否达标有关.
所以根据列联表的数据,可以有 97.5 %的把握认为该学校15至16周 岁的男生的身高和体重之间有关系。
1.(2013·深圳二模)2013年3月14
CCTV 财经
频道报道了某地建筑市场存在违规使用未经淡化海砂的现象.
为了研究使用淡化海砂与混凝土耐久性是否达标有关,某大
学实验室随机抽取了60个样本,得到了相关数据如下表:
7 13
20
独立性检验临界值表:
P(K2≥k0) 0.025 0.010 0.005 0.001
k0
5.024 6.635 7.879 10.828
独立性检验随机变量
K 2 值的计算公式:K 2
(a
n(ad bc)2 b)(c d )(a c)(b
d)
偏高 不偏高
合计
超重 不超重
4
1
3 12
乙样本合格品的频率为 3460=0.9,
据此可估计从甲流水线任取1件产品,该产品恰好是合格 品的概率为0.75.从乙流水线任取1件产品,该产品恰好是合格 品的概率为0.9.
(3)2×2列联表如下:
合格品 不合格品
合计
甲流水线 a=30 c=10 40
乙流水线 b=36 d=4 40
合计 66 14
(3)由以上统计数据完成下面2×2列联表,能否在犯错误 的概率不超过0.1的前提下认为产品的包装质量与两条自动包 装流水线的选择有关?
甲流水线 乙流水线
合计
合格品 a=
b=
不合格品 c=
d=
合计
n=
附:下面的临界值表供参考:
p(K2≥k) 0.15 0.10 0.05 0.025 0.010 0.005 0.001
产品重量/克 (490,495] (495,500] (500,505] (505,510] (510,515]
频数 6 8 14 8 4
表1 甲流水线样本频数分布表
(1)根据上表数据作出甲流水线样本的频率分布直方图;
(2)若以频率作为概率,试估计从两条流水线分别任取1 件产品,该产品恰好是合格品的概率分别是多少;
k
2.072 2.706 3.841 5.024 6.635 7.879 10.828
(参考公式:K2=a+bcn+add-ab+cc2b+d,其中 n =a+b+c+d)
Hale Waihona Puke 解析:(1)甲流水线样本的频率分布直方图如下:
(2)由表1知甲样本中合格品数为8+14+8=30,由图1知 乙样本中合格品数为(0.06+0.09+0.03)×5×40=36,故甲样 本合格品的频率为 3400=0.75,
研究两个变量的相关关系:
定量变量——回归分析(画散点图、相关系数r、
变量
相关指数R 2、残差分析)
分类变量—— 独立性检验
本节研究的是两个分类变量的独立性检验问题。
分类变量
为了调查吸烟是否对肺癌有影响,某肿瘤研究所随 机地调查了9965人,得到如下结果(单位:人)
吸烟与肺癌列联表
列
不患肺癌 患肺癌 总计
关”
课堂练习 2.某研究小组为了研究中学生的身体发育情况,在某学校随
机抽出 20 名 15 至 16 周岁的男生,将他们的身高和体重制成 2×2 的列
联表,根据列联表的数据,可以有
%的把握认为该学校 15
至 16 周岁的男生的身高和体重之间有关系。
超重 不超重 合计
偏高
4
1
5
不偏高
3 12
15
合计
7 13
合计 5 15 20
独立性检验临界值表:
P(K2≥k0) 0.025 0.010 0.005 0.001
k0
5.024 6.635 7.879 10.828
由独立性检验随机变量 K 2 值的计算公式得:
K
2
a
n ad bc2 bc da cb
d
20412 132 5.934
515 713
K 2 10.828
K 2 6.635 K 2 2.706
0.1%把握认为A与B无关
1%把握认为A与B无关
10%把握认为A与B无关
99.9%把握认A与B有关 99%把握认为A与B有关 90%把握认为A与B有关
独立性检验
H0:假设吸烟和患肺癌没有关系
临界值表
P(K2 k0 ) 0.50
k0 0.455
0.40 0.708
0.25 1.323
0.15 2.072
0.10 0.05 0.025 0.010 0.005 0.001 2.706 3.841 5.024 6.635 7.879 10.828
P(K 2 6.635) 0.01
即似在为0H.00成1 立的情况下,K2 大于6.635概率非常小,近
100% 90% 80% 70% 60% 50% 40% 30% 20% 10% 0%
不吸烟
吸烟
等高条 形图
患肺癌 不患肺癌
在不吸烟者中患肺癌的比重是 0.54% 在吸烟者中患肺癌的比重是 2.28%
独立性检验
H0:假设吸烟和患肺癌没有关系
则a c ab cd
即ad bc 0
ad - bc 越小,说明吸烟与患肺癌之间的关系越弱,
在秃顶中患心脏病的比重是 55.01%
在不秃顶中患心脏病的比重是 43.03%
例1.在某医院,因为患心脏病而住院的665名男性病人 中,有214人秃顶,而另外772名不是因为患心脏病而住 院的男性病人中有175人秃顶.分别利用图形和独立性检 验方法判断是否有关?你所得的结论在什么范围内有效?
秃顶 不秃顶 总计
6.635 10.828
参照附表,得到的正确结论是( A )
A.有 99%以上的把握认为“爱好该项运动与性别有关”
B.有 99%以上的把握认为“爱好该项运动与性别无关”
C.在犯错误的概率不超过 0.1%的前提下,认为 “爱好该项运动与性别有
关”
D.在犯错误的概率不超过 0.1%的前提下,认为 “爱好该项运动与性别无
独立性检验
H0:假设吸烟和患肺癌没有关系
吸烟与肺癌列联表
不患肺癌 患肺癌 总计
不吸烟 7775
42
7817
吸烟
2099
49
2148
总计
9874
91
9965
k 2 9965(7775 49 2099 42)2 56.632
7817 2148 9874 91
随机变量-----卡方统计量 K 2
男
女
总计
爱好
40
20
60
不爱好
20
总计
60
30
50
50
110
由K2
n(ad bc)2
(a d )(c d )(a c)(b d )
附表:
算得, K 2
110 (40 30 20 20)2
7.8
60 50 60 50
p(K 2 k)
0.050
0.010
0.001
k
3.841
患心脏病 214 451 665
不患心脏病 175 597 772
总计 389 1048 1437
根据联表的数据,得到
k 2 1437(214 597 175 451)2 16.373 6.635
389 1048 665 772
所以有99%的把握认为“秃顶与患心脏病有关”。
课堂练习 1:通过随机询问 110 名性别不同的大学生是否爱好某项运动,得到 如下的列联表:
3.2独立性检验的 基本思想及其初 步应用
高二数学 选修2-3
第三章 统计案例
两种变量:
定量变量:体重、身高、温度、考试成绩等等。
变量 分类变量:性别、是否吸烟、是否患肺癌、
宗教信仰、国籍等等。
在日常生活中,我们常常关心分类变量之间是否有关系:
例如,吸烟是否与患肺癌有关系? 性别是否对于喜欢数学课程有影响?等等。
(2)用分层抽样的方法在使用淡化海砂的样本中抽取6个,
其中应抽取“混凝土耐久性达标”的为 25 ×6=5,“混凝土
耐久性不达标”的为6-5=1
30
“混凝土耐久性达标记”为A1,A2,A3,A4,A5”;“混凝土耐久性 不达标”的记为B.