独立性检验
人教版高中数学选择性必修第三册8-3-2独立性检验
3.在独立性检验中,统计量 χ2 有两个临界值:3.841 和 6.635;当 χ2≥3.841 时,有 95%的把握说明两个事件有关,当 χ2≥6.635 时,有 99%的把握说明两个事 件相关,当 χ2< 3.841 时,认为两个事件无关.在一项调查某种药是否对心脏病有 治疗作用时,共调查了 3 000 人,经计算得 χ2=9.56,根据这一数据分析,认为此 药物与心脏病之间( C )
男
4 16 20
女
12 20 32
总计
16 36 52
表3
性别
智商 偏高 正常 总计
男
8 12 20
女
8 24 32
总计
16 36 52
表4
性别
阅读量 丰富 不丰富 总计
男ห้องสมุดไป่ตู้
14
6
20
女
2
30 32
总计
16 36 52
A.成绩
B.视力
C.智商
D.阅读量
[思路分析] 根据数据求出 χ2,再比较大小.
[解析] 表 1 中,a=6,b=14,c=10,d=22,a+b=20,c+d=32,a+c =16,b+d=36,n=52,
水平二:借助 χ2 公式,解决独立性检验的简单实际问题.(逻辑推理)
课前篇·自主预习 检测篇·达标小练
课堂篇·互动学习 课时作业
课前篇·自主预习
知识点 独立性检验
1.利用随机变量 χ2 的取值推断分类变量 X 和 Y 是否独立的方法称为 χ2 独立性 检验,读作“卡方独立性检验”,简称 独立性检验 .
(4)如果 χ2≥xα,就推断“两个分类变量有关系”,这种推断犯错误的概率不超 过 α,否则就认为在犯错误的概率不超过 α 的前提下不能推断“两个分类变量有关 系”.
独立性检验
两个分类变量的相关关系的分析:通过图形直观判断两 个分类变量是否相关;独立性检验.
1、①列出两个分类变量的频数表,称为列联表,利用频数 分析分类变量的关系. 一 般 地 , 假 设 有 两 个 分 类 变 量 X 和 Y, 它 们 的 取 值 分 别 为 {x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为:
解:根据题目所给数据得到如下列联表:
患心脏病 不患心脏病
秃顶
214
175
不秃顶 451
597
总计
665
772
根据列联表中的数据,得到:
总计 389 1048 1437
K 2 1 4 3 7 (2 1 4 5 9 7 1 7 5 4 5 1 )2 1 6 .3 7 3 6 .6 3 5 . 3 8 9 1 0 4 8 6 6 5 7 7 2
理 文 合计 有兴趣 138 73 211 无兴趣 98 52 150
合计 236 125 361
代入公式得 K2 的观测值 k=3612×36×13182×5×522-117×3×159082≈1.871×10-4. ∵1 871×10-4<2.706,故可以认为学生选报文、理科与对 外语的兴趣无关.
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计 a+c b+d a+b+c+d ②等高条形图展示列联表数据的频率特征.
为调查吸烟是否对患肺癌有影响,某肿瘤研究所随机 地调查了9965人,得到如下结果(单位:人): 吸烟与患肺癌列联表(列出两个分类变量的频数表):
《独立性检验》
《独立性检验》一、内容与内容解析《独立性检验》为新课标教材中新增加的内容. 虽然本节是新增内容,理论比较复杂,教学时间也不长(1-2课时),但由于它贴近实际生活,在整个高中数学中,地位不可小视.在近几年各省新课标高考试题中,本节内容屡屡出现,而且多以解答题的形式呈现,其重要性可见一斑.该内容是前面学生在《数学3》(必修)中的统计知识的进一步应用,并与本册课本前面提到的事件的独立性一节关系紧密,此外还涉及到与《数学2-2》(选修)中讲到的“反证法”类似的思想.本小节的知识内容如右图。
“独立性检验”是在考察两个分类变量之间是否具有相关性的背景下提出的,因此教材上首先提到了分类变量的概念,并给出了考察两个分类变量之间是否相关的一种简单的思路,即借助等高条形图的方法,随后引出相对更精确地解决办法——独立性检验。
独立性检验的思想,建立在统计思想、假设检验思想(小概率事件在一次试验中几乎不可能发生)等基础之上,通常按照如下步骤对数据进行处理:明确问题→确定犯错误概率的上界α及2K 的临界值0k →收集数据→整理数据→制列联表→计算统计量2K 的观测值k →比较观测值k 与临界值0k 并给出结论.本节的重点内容是通过实例让学生体会独立性检验的基本思想,掌握独立性检验的一般步骤.二、目标与目标解析本节课的教学目标是主要有:1.理解分类变量(也称属性变量或定性变量)的含义,体会两个分类变量之间可能具有相关性;2.通过对典型案例(吸烟和患肺癌有关吗?)的探究,了解独立性检验(只要求2×2列联表)的基本思想、方法、步骤及应用。
3.鼓励学生体验用多种方法(等高条形图法与独立性检验法)解决同一问题,并对各种方法进行比较。
4.让学生对统计方法有更深刻的认识,体会统计方法应用的广泛性,进一步体会科学的严谨性(如统计可能犯错误,原因可能是收集的数据样本容量小或样本采集不合理,也可能是理论上的漏洞,如在一次实验中,我们假设小概率事件不发生,这一点本身就值得质疑). 其中第2条是重点目标,也是《课程标准》中明确指出的教学要求之一. 三、教学问题诊断分析基于对学生已有数学水平的分析,在本节新学内容时,有以下几点是初学者不易理解或掌握的:1.2K 的结构比较奇怪,来的也比较突然,学生可能会提出疑问.关于这个问题的处理,要首先利用好前面对“比例”或者两个分类变量“独立”的分析。
《独立性检验的基本思想及其初步应用》PPT课件
0.05 3.841
0.025 5.024
0.010 0.005 6.635 7.879
0.001 10.828
K2的观测值为k
如果 k k0,就以 (1 P(K 2 k0 )) 100%的把握
认为“X与Y有关系”;而这种判断有可能出错,出
错的概率不会超过 P(K 2 k0 )。
7
例如 :
1如果k 10.828,就有99.9%把握认为" X与Y有
❖ 试用你所学过的知识进行分析,能否在犯错 误的概率不超过0.005的前提下,认为“喜欢 体育还是文娱与性别有关系”?
体育 文娱 总计
男生 21 23 44
女生 6 29 35
总计 27 52 79
16
[思路探索] 可用数据计算 K2,再确定其中的具体关系. 解 判断方法如下: 假设 H0“喜欢体育还是喜欢文娱与性别没有关系”,若 H0 成立, 则 K2 应该很小. ∵a=21,b=23,c=6,d=29,n=79, ∴k=a+bcn+add-ab+cc2b+d =21+237×9×6+212×9×29-212+3×66×223+29≈8.106.
12
例4:为研究不同的给药方式(口服与注射)和药的效果(有效 与无效)是否有关,进行了相应的抽样调查,调查的结果列 在表中,根据所选择的193个病人的数据,能否作出药的效果 和给药方式有关的结论?
口服 注射 合计
有效 58 64 122
无效 40 31 71
合计 98 95 193
P(k≥k0) 0.50 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001 k0 0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828
统计学中的独立性检验
统计学中的独立性检验统计学中的独立性检验(Test of Independence)是一种常用的统计方法,用于研究两个或多个分类变量之间是否存在相互独立的关系。
通过对随机抽样数据进行分析,可以判断不同变量之间是否有关联,并衡量关联的强度。
本文将介绍独立性检验的基本原理、常用的检验方法以及实际应用。
一、独立性检验的基本原理独立性检验的基本原理是基于统计学中的卡方检验(Chi-Square Test)。
卡方检验是一种非参数检验方法,用于比较观察值频数与期望频数之间的差异。
在独立性检验中,我们首先建立一个原假设,即所研究的两个或多个变量之间不存在关联,然后通过计算卡方统计量来判断观察值与期望值之间的差异是否显著。
二、常用的独立性检验方法1. 皮尔逊卡方检验(Pearson's Chi-Square Test):这是最常见的独立性检验方法,适用于有两个以上分类变量的情况。
它基于观察频数和期望频数之间的差异,计算出一个卡方统计量,并根据卡方分布表给出显著性水平。
2. Fisher精确检验(Fisher's Exact Test):当样本量较小或者某些期望频数很小的情况下,皮尔逊卡方检验可能存在一定的偏差。
在这种情况下,可以使用Fisher精确检验来代替皮尔逊卡方检验,得到更准确的结果。
3. McNemar检验:适用于配对数据比较的独立性检验,例如一个样本在两个时间点上的观察结果。
三、独立性检验的实际应用独立性检验在各个领域都有广泛的应用,以下是几个常见的实际应用场景:1. 医学研究:独立性检验可以用于研究某种药物治疗方法是否具有显著的疗效,或者判断不同年龄组和性别之间是否存在患病率的差异。
2. 教育领域:独立性检验可用于研究学生成绩与家庭背景、教育水平之间是否存在关联。
3. 市场调研:在市场调研中,可以通过独立性检验来分析不同年龄、性别、收入水平等因素对消费者购买习惯的影响。
4. 社会科学研究:独立性检验可以帮助社会科学研究人员探索个体特征与社会行为之间的关系,例如政治倾向与不同年龄群体之间的关联性等。
高中数学选修课件第一章:独立性检验
注意事项与误区提示
在进行独立性检验前,需要确保样本 的随机性和代表性,以避免因样本偏 差导致结果失真。
需要注意的是,独立性检验只能判断 两个变量之间是否存在统计上的独立 性,并不能说明它们之间是否存在因 果关系或其他形式的关联。
在解读结果时,需要注意概率值(p 值)或临界值表的具体含义和适用条 件,避免误用或滥用。
高中数学选修课件第一 章:独立性检验
汇报人:XX 20XX-01-30
contents
目录
• 独立性检验基本概念 • 独立性检验基本思想解读 • 独立性检验方法介绍及应用场景分析 • 独立性检验结果解读与注意事项 • 独立性检验在统计学中地位和作用 • 高中数学选修课程中其他相关知识点回
顾与拓展
01
在实际应用中,还需要结合其他统计 方法和专业知识进行综合分析和判断 。
05
独立性检验在统计学中地位和作用
独立性检验在统计学中地位
独立性检验是统计学 中一种重要的假设检 验方法。
在数据分析、市场调 研、医学研究等领域 具有广泛应用。
它用于判断两个或多 个分类变量之间是否 相互独立。
独立性检验对后续统计分析影响
高中数学选修课程中其他相关知识点梳理
排列组合与二项式定理
回顾排列组合的基本概念、计算公式及应用,掌握二项式定理的展开式及通项公式的应 用。
概率与统计的综合应用
梳理概率与统计在高中数学选修课程中的综合应用,如概率与统计在解决实际问题中的 结合,以及概率与统计在其他数学知识点中的交叉应用等。
数学建模与数学探究
独立性检验的基本思想
通过抽样调查获取数据,根据样本数据来判断两个分类变量 是否独立。
独立性检验的方法
通常采用列联表的形式整理数据,然后计算相关统计量的值 (如χ²值),并根据统计量的值及给定的显著性水平作出判 断。
独立性检验
一.随机抽样1.随机抽样:满足每个个体被抽到的机会是均等的抽样,共有三种经常采用的随机抽样方法:⑴简单随机抽样:从元素个数为N 的总体中不放回地抽取容量为n 的样本,如果每一次抽取时总体中的各个个体有相同的可能性被抽到,这种抽样方法叫做简单随机抽样. 抽出办法:①抽签法:用纸片或小球分别标号后抽签的方法.②随机数表法:随机数表是使用计算器或计算机的应用程序生成随机数的功能生成的一张数表.表中每一位置出现各个数字的可能性相同. 随机数表法是对样本进行编号后,按照一定的规律从随机数表中读数,并取出相应的样本的方法.简单随机抽样是最简单、最基本的抽样方法.⑵系统抽样:将总体分成均衡的若干部分,然后按照预先制定的规则,从每一部分抽取一个个体,得到所需要的样本的抽样方法.抽出办法:从元素个数为N 的总体中抽取容量为n 的样本,如果总体容量能被样本容量整除,设Nk n=,先对总体进行编号,号码从1到N ,再从数字1到k 中随机抽取一个数s 作为起始数,然后顺次抽取第2(1)s k s k s n k +++-,,,个数,这样就得到容量为n 的样本.如果总体容量不能被样本容量整除,可随机地从总体中剔除余数,然后再按系统抽样方法进行抽样.系统抽样适用于大规模的抽样调查,由于抽样间隔相等,又被称为等距抽样.⑶分层抽样:当总体有明显差别的几部分组成时,要反映总体情况,常采用分层抽样,使总体中各个个体按某种特征分成若干个互不重叠的几部分,每一部分叫做层,在各层中按层在总体中所占比例进行简单随机抽样,这种抽样方法叫做分层抽样.分层抽样的样本具有较强的代表性,而且各层抽样时,可灵活选用不同的抽样方法,应用广泛.2.简单随机抽样必须具备下列特点:⑴简单随机抽样要求被抽取的样本的总体个数N 是有限的. ⑵简单随机样本数n 小于等于样本总体的个数N . ⑶简单随机样本是从总体中逐个抽取的. ⑷简单随机抽样是一种不放回的抽样.⑸简单随机抽样的每个个体入样的可能性均为nN.3.系统抽样时,当总体个数N 恰好是样本容量n 的整数倍时,取Nk n=;若Nn不是整数时,先从总体中随机地剔除几个个体,使得总体中剩余的个体数能被样本容量n 整除.因为每个个体被剔除的机会相等,因而整个抽样过程中每个个体被抽取的机会仍知识内容板块五.独立性检验然相等,为N n.二.频率直方图列出样本数据的频率分布表和频率分布直方图的步骤:①计算极差:找出数据的最大值与最小值,计算它们的差;②决定组距与组数:取组距,用极差组距决定组数;③决定分点:决定起点,进行分组;④列频率分布直方图:对落入各小组的数据累计,算出各小数的频数,除以样本容量,得到各小组的频率.⑤绘制频率分布直方图:以数据的值为横坐标,以频率组距的值为纵坐标绘制直方图,知小长方形的面积=组距×频率组距=频率.频率分布折线图:将频率分布直方图各个长方形上边的中点用线段连接起来,就得到频率分布折线图,一般把折线图画成与横轴相连,所以横轴左右两端点没有实际意义.总体密度曲线:样本容量不断增大时,所分组数不断增加,分组的组距不断缩小,频率分布直方图可以用一条光滑曲线()y f x =来描绘,这条光滑曲线就叫做总体密度曲线.总体密度曲线精确地反映了一个总体在各个区域内取值的规律.三.茎叶图制作茎叶图的步骤:①将数据分为“茎”、“叶”两部分;②将最大茎与最小茎之间的数字按大小顺序排成一列,并画上竖线作为分隔线; ③将各个数据的“叶”在分界线的一侧对应茎处同行列出.四.统计数据的数字特征用样本平均数估计总体平均数;用样本标准差估计总体标准差. 数据的离散程序可以用极差、方差或标准差来描述.极差又叫全距,是一组数据的最大值和最小值之差,反映一组数据的变动幅度; 样本方差描述了一组数据平均数波动的大小,样本的标准差是方差的算术平方根. 一般地,设样本的元素为12n x x x ,,,样本的平均数为x , 定义样本方差为222212()()()n x x x x x x s n-+-++-=,样本标准差s =简化公式:22222121[()]n s x x x nx n=+++-.五.独立性检验1.两个变量之间的关系;常见的有两类:一类是确定性的函数关系;另一类是变量间存在关系,但又不具备函数关系所要求的确定性,它们的关系是带有一定随机性的.当一个变量取值一定时,另一个变量的取值带有一定随机性的两个变量之间的关系叫做相关关系. 2.散点图:将样本中的n 个数据点()(12)i i x y i n =,,,,描在平面直角坐标系中,就得到了散点图.散点图形象地反映了各个数据的密切程度,根据散点图的分布趋势可以直观地判断分析两个变量的关系. 3.如果当一个变量的值变大时,另一个变量的值也在变大,则这种相关称为正相关;此时,散点图中的点在从左下角到右上角的区域.反之,一个变量的值变大时,另一个变量的值由大变小,这种相关称为负相关.此时,散点图中的点在从左上角到右下角的区域.散点图可以判断两个变量之间有没有相关关系. 4.统计假设:如果事件A 与B 独立,这时应该有()()()P AB P A P B =,用字母0H 表示此式,即0:()()()H P AB P A P B =,称之为统计假设. 5.2χ(读作“卡方”)统计量:统计学中有一个非常有用的统计量,它的表达式为22112212211212()n n n n n n n n n χ++++-=,用它的大小可以用来决定是否拒绝原来的统计假设0H .如果2χ的值较大,就拒绝0H ,即认为A 与B 是有关的.2χ统计量的两个临界值:3.841、6.635;当2 3.841χ>时,有95%的把握说事件A 与B 有关;当2 6.635χ>时,有99%的把握说事件A 与B 有关;当2 3.841χ≤时,认为事件A 与B 是无关的.独立性检验的基本思想与反证法类似,由结论不成立时推出有利于结论成立的小概率事件发生,而小概率事件在一次试验中通常是不会发生的,所以认为结论在很大程度上是成立的. 1.独立性检验的步骤:统计假设:0H ;列出22⨯联表;计算2χ统计量;查对临界值表,作出判断.2.几个临界值:222()0.10( 3.841)0.05( 6.635)0.01P P P χχχ≈≈≈≥2.706,≥,≥.22⨯联表的独立性检验:如果对于某个群体有两种状态,对于每种状态又有两个情况,这样排成一张22⨯的表,如下:如果有调查得来的四个数据11122122n 4个数据来检验上述的两种状态A 与B 是否有关,就称之为22⨯联表的独立性检验.六.回归分析1.回归分析:对于具有相关关系的两个变量进行统计分析的方法叫做回归分析,即回归分析就是寻找相关关系中这种非确定关系的某种确定性. 回归直线:如果散点图中的各点都大致分布在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线. 2.最小二乘法:记回归直线方程为:ˆya bx =+,称为变量Y 对变量x 的回归直线方程,其中ab ,叫做回归系数.ˆy是为了区分Y 的实际值y ,当x 取值i x 时,变量Y 的相应观察值为i y ,而直线上对应于i x 的纵坐标是ˆi i ya bx =+. 设x Y ,的一组观察值为()i i x y ,,12i n =,,,,且回归直线方程为ˆy a bx =+, 当x 取值i x 时,Y 的相应观察值为i y ,差ˆ(12)i i y y i n -=,,,刻画了实际观察值i y 与回归直线上相应点的纵坐标之间的偏离程度,称这些值为离差.我们希望这n 个离差构成的总离差越小越好,这样才能使所找的直线很贴近已知点. 记21()ni i i Q y a bx ==--∑,回归直线就是所有直线中Q 取最小值的那条.这种使“离差平方和为最小”的方法,叫做最小二乘法.用最小二乘法求回归系数a b ,有如下的公式: 1221ˆni ii nii x ynxy bxnx ==-=-∑∑,ˆˆay bx =-,其中a b ,上方加“^”,表示是由观察值按最小二乘法求得的回归系数.3.线性回归模型:将用于估计y 值的线性函数a bx +作为确定性函数;y 的实际值与估计值之间的误差记为ε,称之为随机误差;将y a bx ε=++称为线性回归模型. 产生随机误差的主要原因有:①所用的确定性函数不恰当即模型近似引起的误差; ②忽略了某些因素的影响,通常这些影响都比较小; ③由于测量工具等原因,存在观测误差. 4.线性回归系数的最佳估计值:利用最小二乘法可以得到ˆˆa b ,的计算公式为 1122211()()()()nnii iii i nniii i xx y y x ynx yb xx xn x ====---==--∑∑∑∑,ˆˆay bx =-,其中11n i i x x n ==∑,11ni i y y n ==∑ 由此得到的直线ˆˆya bx =+就称为回归直线,此直线方程即为线性回归方程.其中ˆa ,b 分别为a ,b 的估计值,ˆa称为回归截距,b 称为回归系数,ˆy 称为回归值. 5.相关系数:()()nniii ix x yy x ynxyr ---==∑∑6.相关系数r 的性质: ⑴||1r ≤;⑵||r 越接近于1,x y ,的线性相关程度越强; ⑶||r 越接近于0,x y ,的线性相关程度越弱.可见,一条回归直线有多大的预测功能,和变量间的相关系数密切相关. 7.转化思想:根据专业知识或散点图,对某些特殊的非线性关系,选择适当的变量代换,把非线性方程转化为线性回归方程,从而确定未知参数. 8.一些备案 ①回归(regression )一词的来历:“回归”这个词英国统计学家Francils Galton 提出来的.1889年,他在研究祖先与后代的身高之间的关系时发现,身材较高的父母,他们的孩子也较高,但这些孩子的平均身高并没有他们父母的平均身高高;身材较矮的父母,他们的孩子也较矮,但这些孩子的平均身高却比他们父母的平均身高高.Galton 把这种后代的身高向中间值靠近的趋势称为“回归现象”.后来,人们把由一个变量的变化去推测另一个变量的变化的方法称为回归分析.②回归系数的推导过程:22222[()]222i i i i i i i i Q y a bx y a y na b x y ab x b x =--=-+-++∑∑∑∑∑∑ 22222()2i i i i i i na a b x y b x b x y y =+-+-+∑∑∑∑∑, 把上式看成a 的二次函数,2a 的系数0n >,因此当2()2i i i ib x y y b x a n n --=-=∑∑∑∑时取最小值.同理,把Q 的展开式按b 的降幂排列,看成b 的二次函数,当2i iiix y a xb x-=∑∑∑时取最小值.解得:12221()()()ni iii i niii x ynxyx x y y b x x xnx==---==--∑∑∑∑,a y bx =-, 其中1i y y n =∑,1i x x n=∑是样本平均数. 9. 对相关系数r 进行相关性检验的步骤: ①提出统计假设0H :变量x y ,不具有线性相关关系;②如果以95%的把握作出推断,那么可以根据10.950.05-=与2n -(n 是样本容量)在相关性检验的临界值表中查出一个r 的临界值0.05r (其中10.950.05-=称为检验水平); ③计算样本相关系数r ;④作出统计推断:若0.05||r r >,则否定0H ,表明有95%的把握认为变量y 与x 之间具有线性相关关系;若0.05||r r ≤,则没有理由拒绝0H ,即就目前数据而言,没有充分理由认为变量y 与x 之间具有线性相关关系. 说明:⑴对相关系数r 进行显著性检验,一般取检验水平0.05α=,即可靠程度为95%.⑵这里的r 指的是线性相关系数,r 的绝对值很小,只是说明线性相关程度低,不一定不相关,可能是非线性相关的某种关系.⑶这里的r 是对抽样数据而言的.有时即使||1r =,两者也不一定是线性相关的.故在统计分析时,不能就数据论数据,要结合实际情况进行合理解释.题型一 独立性检验【例1】 对变量X 与Y 的卡方统计量2χ的值,说法正确的是( )A .2χ越大,“X 与Y 有关系”可信程度越小;B .2χ越小,“X 与Y 有关系”可信程度越小;C .2χ越接近0,“X 与Y 无关”程度越小;D .2χ越大,“X 与Y 无关”程度越大.【例2】 若由一个22⨯列联表中的数据计算得2 4.013χ=,那么有 把握认为两个变量有关系.典例分析【例3】 若由一个22⨯列联表中的数据计算得24395χ=.,那么确认两个变量有关系的把握性有( )A .90%B .95%C .99%D .99.5%【例4】 提出统计假设0H ,计算出2χ的值,则拒绝0H 的是( )A .27.331χ=B .2 2.9χ=C .20.8χ=D .2 1.9χ=【例5】 给出假设0H ,下列结论中不能接受0H 的是( )A .2 2.535χ=B .27.723χ=C .210.321χ=D .220.125χ=【例6】 某高校食堂随机调查了一些学生是否因距离远近而选择食堂就餐的情况,经计算得到2 4.932χ=.所以判定距离远近与选择食堂有关系,那么这种判断出错的可能性为多少?【例7】 某班主任对全班50名学生进行了作业量的调查,数据如下表:A .99%B .95%C . 90%D .无充分根据【例8】 下表中给出了某周内中学生是否喝过酒的随机调查结果,若要使结论的可靠性不低于95%,根据所调查的数据,能否作出该周内中学生是否喝过酒与性别有关的结论?【例9】 在一次恶劣气候的飞机航程中,调查了男女乘客在飞机上晕机的情况:男乘客晕机的有24人,不晕机的有31人;女乘客晕机的有8人,不晕机的有26人.请你根据所给数据判断是否在恶劣气候飞行中,男人比女人更容易晕机.【例10】为研究不同的给药方式(口服或注射)和药的效果(有效与无效)是否有关,进行了相应的抽样调查,调查结果如表所示.根据所选择的193个病人的数据,能否作出药的效果与给药方式有关的结论?【例11】考察棉花种子经过处理跟生病之间的关系得到如下表数据:【例12】气管炎是一种常见的呼吸道疾病,医药研究人员对两种中草药治疗慢性气管炎的疗效进行对比,所得数据如表所示.问它们的疗效有无差异(可靠性不低于99%)?【例13】 在对人们的休闲方式的一次调查中,共调查了124人,其中女性70人,男性54人.女性中有43人主要的休闲方式是看电视,另外27人主要的休闲方式是运动;男性中有21人主要的休闲方式是看电视,另外33人主要的休闲方式是运动.⑴根据以上数据建立一个22⨯的联表;⑵判断性别与休闲方式是否有关系.【例14】 (2010课标全国卷Ⅰ高考)为调查某地区老年人是否需要志愿者提供帮助,用简单随机抽样方法从该地区调查了500位老年人,结果如下:⑵能否有99%的把握认为该地区的老年人是否需要志愿者提供帮助与性别有关? ⑶根据⑵的结论,能否提出更好的调查方法来估计该地区的老年人中,需要志愿者提供帮助的老年人的比例?说明理由.附:22()()()()()n ad bc K a b c d a c b d -=++++【例15】 某校高三年级在一次全年级的大型考试中,数学优秀的有360人,非优秀的有880人.数学成绩优秀和非优秀的学生中,物理、化学、总分也为优秀的人数如下表所示,则数学成绩优秀与物理、化学、总分也优秀哪个关系较大?【例16】 (2010辽宁高考)为了比较注射A ,B 两种药物后产生的皮肤疱疹的面积,选200只家兔做试验,将这200只家兔随机地分成两组,每组100只,其中一组注射药物A ,另一组注射药物B .⑴甲、乙是200只家兔中的2只,求甲、乙分在不同组的概率;⑵下表1和表2分别是注射药物A 和B 后的试验结果.(疱疹面积单位:2mm ) 表1:注射药物A 后皮肤疱疹面积的频数分布表频率疱疹面积图Ⅰ注射药物A 后皮肤疱疹面积的频率分布直方图 图Ⅱ注射药物B 后皮肤疱疹面积的频率分布直方图(ⅱ)完成下面22⨯列联表,并回答能否有99.9%的把握认为“注射药物A 后的疱疹面积与注射药物B 后的疱疹面积有差异”. 表3:附:2K ()()()()a b c d a c b d =++++【例17】 (2009辽宁20)某企业有两个分厂生产某种零件,按规定内径尺寸(单位:mm )的值落在[)29.9430.06,的零件为优质品.从两个分厂生产的零件中个抽出500件,量其内径尺寸,的结果如下表:⑵由于以上统计数据填下面22⨯列联表,并问是否有99%的把握认为“两个分厂生产的零件的质量有差异”.频率疱疹面积。
8.3.2独立性检验 课件—高二下数学人教A版(2019)选择性必修第三册
P( x )
2
临界值xα
的方法称为χ2独立性检验,
读作“卡方独立性检验”,
简称独立性检验.
概率值α越小,临界值xα越大.
这种利用χ2的取值推断分类变量X和Y是否独立的方法称为χ2独立
性检验,读作“卡方独立性检验”,简称独立性检验.
犯错误的
概率
例2: 依据小概率值α=0.1的χ2独立性检验,分析例1中的抽样数据,
甲校
乙校
合计
你认为“两校学生的数
学成绩优秀率存在差异”
这一结论是否有可能是
错误的?
因此,需要找到一种更为合理的推断方法,希望能对出现错误
判断的概率有一定的控制或估算。
本节课给到一个方法:独立性检验
独立性检验是一种“概率反证法”。依据是小概率原理(在一次实
验中几乎不可能发生)
找到了,假设不成立,嫌
疑人有罪。
例4 :为研究吸烟是否与肺癌有关,某肿瘤研究所采取有放回简单随机
抽样的方法,调查了9965人,得到成对样本观测数据的分类统计结果,
如下表所示. 依据小概率值α=0.001的独立性检验,分析吸烟是否会增加
患肺癌的风险.
解:零假设为H0: 吸烟与患肺癌之间
无关联,由表中数据可得
9965(7775 49 42 2099)
数学成绩
不优秀
优秀
合计
甲校
乙校
合计
解:零假设为H0:分类变量X与Y相互独立,即两校学生的数学成绩优
秀率无差异根据表中的数据,计算得到
2
88
(33
7
10
38)
2
0.837 2.706 x0.1
独立性检验课件
独立性检验课件独立性检验课件独立性检验是统计学中一种常用的方法,用于确定两个或多个分类变量之间是否存在关联或独立性。
在实际应用中,独立性检验可以帮助我们了解两个变量之间的关系,从而为决策和预测提供依据。
本课件将介绍独立性检验的基本概念、常见方法和实际应用。
一、独立性检验的基本概念独立性检验是一种用于检验两个或多个分类变量之间是否存在关联的统计方法。
在独立性检验中,我们通常使用卡方检验来判断两个变量之间的关系。
卡方检验是一种非参数检验方法,不需要对数据的分布做出假设。
在进行独立性检验之前,我们首先需要明确两个变量的测量尺度,通常可以分为名义尺度和有序尺度。
名义尺度的变量是分类变量,没有顺序关系,例如性别、地区等;有序尺度的变量是有一定顺序关系的分类变量,例如教育程度、收入水平等。
二、常见的独立性检验方法1. 卡方检验卡方检验是一种常用的独立性检验方法,用于判断两个分类变量之间是否存在关联。
卡方检验的原理是比较实际观察值与理论期望值之间的差异,通过计算卡方统计量来判断差异是否显著。
卡方检验的步骤包括:建立原假设和备择假设、计算卡方统计量、确定临界值和拒绝域、比较计算值与临界值。
如果计算值大于临界值,则拒绝原假设,认为两个变量之间存在关联。
2. Fisher精确检验Fisher精确检验是一种用于小样本独立性检验的方法,适用于样本量较小或理论期望值较低的情况。
Fisher精确检验通过计算超几何分布的概率来判断两个变量之间的关系。
Fisher精确检验的步骤包括:建立原假设和备择假设、计算超几何分布的概率、确定显著性水平和拒绝域、比较计算值与临界值。
如果计算值小于临界值,则拒绝原假设,认为两个变量之间存在关联。
三、独立性检验的实际应用独立性检验在实际应用中具有广泛的应用价值。
以下是一些常见的实际应用场景:1. 市场调研市场调研是企业决策的重要环节,独立性检验可以帮助企业了解不同市场细分之间的关系。
例如,一家手机厂商想要了解不同性别消费者对手机品牌的偏好是否存在差异,可以通过独立性检验来判断两个变量之间是否存在关联。
独立性检验(课件)高二数学(人教A版2019选修第三册)
|ad-bc|越大,说明玩电脑游戏与注意力集中之间的关系越强.
为了使不同样本容量的数据有统一的评判标准,我们构造一个随
机变量
n(ad-bc)2 χ2=
(a+b)(c+d)(a+c)(b+d)
这种利用χ2的取值推断分类变量X和Y是否独立的方法称为χ2独立性 检验,读作卡方独立性检验,简称独立性检验.
若H0成立,即玩电脑游戏与注意力集中没有关系,则χ2应该 很小;若H0不成立,即玩电脑游戏与注意力集中有关系,则χ2应 该很大.那么,究竟χ2大到什么程度,可以推断H0不成立呢?
2 88(33 7 10 38)2
43 45 7117
α
0.1 0.05 0.01 0.005
xα 2.706 3.841 6.635 7.879
学校
甲校(X=0) 乙校(X=1)
合计
数学成绩
不优秀(Y=0) 优秀(Y=1)
33
10
38
7
71
17
0.001 10.828
合计
43 45 88
0.837 2.706 x0.1.
于不同的小概率值α的检验规则,对应不同的临界值x0,其与χ2的大小关 系可能不同,相当于检验的标准发生变化,因此结论可能会不同.
3. 为考察某种药物A对预防疾病B的效果,进行了动物试验,根据105个有
放回简单随机样本的数据,得到如下列联表: 依据α=0.05的独立性检验,分析药物A对
药物A
疾病B 未患病 患病
解:根据题意,可得
xα 2.706 3.841 6.635 7.879 10.828
2 4.881 3.841 x0.05 .
根据小概率值α=0.05的χ2独立性检验,推断H0不成立,即认为两种疗 法的效果有差异,该推断犯错误的概率不超过0.05.
独立性检验
不
独立性检验的定义
上面这种利用随机变量K 上面这种利用随机变量 2来确定在多大程度上 可以认为“两个分类变量有关系”的方法, 可以认为“两个分类变量有关系”的方法,称为两 个分类变量的独立性检验 独立性检验。 个分类变量的独立性检验。
独立性检验的基本思想(类似反证法) 独立性检验的基本思想(类似反证法) 反证法
研究两个变量的相关关系:
定量变量——回归分析(画散点图、相关系数r ——回归分析 定量变量——回归分析(画散点图、相关系数r、 相关指数R 残差分析) 变量 相关指数R 2、残差分析) 分类变量—— 独立性检验 分类变量——
本节研究的是两个分类变量的独立性检验问题。
探究
列联表
为了调查吸烟是否对肺癌有影响, 为了调查吸烟是否对肺癌有影响,某肿瘤研究所随机 地调查了9965 9965人 得到如下结果(单位: 地调查了9965人,得到如下结果(单位:人)
二:求解假设检验问题
考虑假设检验问题: 考虑假设检验问题: H0:面包分量足 ←→ H1:面包分量不足 求解思路: 求解思路: 1. 在H0成立的条件下,构造与 0矛盾的小概 成立的条件下,构造与H 率事件; 率事件; 2. 如果样本使得这个小概率事件发生,就能 如果样本使得这个小概率事件发生, 以一定把握断言H 成立;否则, 以一定把握断言 1成立;否则,断言没有 发现样本数据与H 相矛盾的证据。 发现样本数据与 0相矛盾的证据。
的观测值k是大还是小呢 是大还是小呢? 怎样判断K2的观测值 是大还是小呢?
这仅需要确定一个正数 k0 ,当 k ≥ k0 时就认为K2的观测 的判断规则为: 值 k大。此时相应于 k0 的判断规则为: 大
0
就认为“两个分类变量之间有关系” 如果 k ≥ k0 ,就认为“两个分类变量之间有关系”;否则 就认为“两个分类变量之间没有关系” ----临界值 就认为“两个分类变量之间没有关系”。 临界值 k
第五章 第二次课 第二节独立性检验
第五章 第二节独立性检验独立性检验的定义又叫列联表(contigency table )χ2检验,它是研究两个或两个以上因子彼此之间是独立还是相互影响的一类统计方法。
2×2 列联表的独立性检验设A ,B 是一个随机试验中的两个事件,其中A 可能出现r1 、r2个结果,B 可能出现c1、c2个结果,两因子相互作用形成4格数,分别以O11 、O12 、O21 、O22表示,下表是2×2列联表的一般形式检验步骤1.提出无效假设H0 :事件A 和事件B 无关, 同时给出HA :事件A 和事件B 有关联关系;2.给出显著水平α3.依据H0 ,可以推算出理论数,计算χ2值4.确定自由度,df=(r-1)(c-1),进行推断。
给药方式与给药效果的2×2列联表H 0 H A H 0 H A1.H0 :给药方式与给药效果相互独立。
HA :给药方式与给药效果有关联。
2.给出显著水平α=0.053.根据H0,运用概率乘法法则:事件A 与事件B 同时出现的概率为:P(AB)=P(A)P(B) 口服与有效同时出现的理论频率=口服频率×有效频率,即P(AB)=P(A)P(B)=98/193 ×122/193理论频数Ei =理论频率×总数= (98/193 ×122/193) ×193 =(98 × 122)/193=61.95即Eij =Ri ×Cj/T=行总数×列总数/总数E11= R1 × C1/T=61.95 E12= R1 × C2/T=36.05 E21= R2 × C1/T=60.05 E22= R2 × C2/T=34.95 给药方式与给药效果的2×2列联表计算χ2值:由于df=(r-1)(c-1)=(2-1)(2-1)=1,故所计算的χ2值需进行连续性矫正:4.P >0.05,应接受T/22×c列联表的独立性检验由于例:检测甲、乙、丙三种农药对烟蚜的毒杀效果,结果如下,使分析这三种农药对烟蚜的毒杀效果是否一致?三种农药毒杀烟蚜的死亡情况1. H0 :对烟蚜毒杀效果与农药无关,农药类型间互相独立;HA :二者有关2.取显著水平α=0.053.统计数的计算χ值的计算:(4)查χ2值表,进行推断查χ2表,当df=(2-1)(3-1)=2时,χ20.05 =5.99,现实得χ2=7.694>χ20.05 ,则拒绝H0 ,接受HA ,说明三种农药对烟蚜的毒杀效果不一致。
独立性检验(专业版)
有多大把握可以认为手机与学习有关?
,其中
2.为探究高中生的性别与数学兴趣之间的关系,在某校高中生中随机抽取300名学生进行统计,得到男生122人,喜欢数学的37人,女生178人,喜欢数学的35人,请分析:可以有多大把握认为性别与数学兴趣有关?
参考公式:K2=,其中n=a+b+c+d
P(k2≥k0)0.150.100.050.0250.0100.0050.001
k0 2.072 2.706 3.841 5.024 6.6357.87910.828
3.某校为评估新教改对教学影响,挑选了水平相当的两个平行班进行对比实验.甲班采用创新教法,乙班仍采用传统教法,一段时间后进行水平测试,成
绩结果全部落在[60,100]区间内(满分100分),并绘
制频率分布直方图如图,两个班人数均为60人,成绩
80分及以上为优良,根据以上信息填好2×2联表,并
判断出有多大的把握认为学生成绩优良与班级有关?
4.为了解某市心肺疾病是否与性别有关,在某医院随机的对入院50人进行了问卷调查得到了如下的列联表,已知全部50人中随机抽取1人,抽到患心肺疾病的人的概率为3/
5.
(1)将右侧列联表补充完整;
(2)是否在犯错率0.5%情况下认为患心肺病与性别有关?
患心肺疾病不患心肺疾病合计男5
女10
合计50。
独立性检验
【解析】 (1)列联表如下:
看电视 运动 总计
男性
21
33
54
女性
43
27
70
总计
64
60 124
(2)法一:作等高条形图 通过等高条形图可以判断性别与休闲方式有关系
法二:提出统计假设 H0:性别与休闲方式没有关系,根据表 中数据,由公式得 K2 的观测值为 k≈6.201 2>3.841.
检查两组工人的皮肤炎患病人数如下:
防护服种类 阳性例数 阴性例数 总计
新
5
70
75
旧
10
18
28
总计
15
88
103
问这种新防护服对预防工人职业性皮肤炎是否有效?并说
明你的理由.(注:显阴性即未患皮肤炎)
【思路】 解答本题可先结合列联表作出等高条形图并进行 定性分析,再利用随机变量 K2 的值进行定量分析.
果如下表所示:
死亡 存活 合计
第一种剂量 14
11
25
第二种剂量 6
19
25
合计
20 30
50
进行统计分析时的统计假设是____________________.
答案 假设电离辐射的剂量与人体受损程度无关
5.在研究某种药物对“H7N9”病毒的治疗效果时,进行动物 试验,得到以下数据,对 150 只动物服用药物,其中 132 只动物 存活,18 只动物死亡,对照组 150 只动物进行常规治疗,其中 114 只动物存活,36 只动物死亡.
(1)根据以上数据建立一个 2×2 列联表. (2)试问该种药物以治疗“H7N9”病毒是否有效?
独立性检验
(2011 宁夏)某种产品的质量以其质量指标值衡量,质量指标
值越大表明质量越好,且质量指标值大于或等于 102 的产品为
优质品, 现用两种新配方 (分别称为 A 配方和 B 配方) 做试验,
各生产了 100 件这种产品,并测量了每件产品的质量指标值, 得到下面试验结果:
(Ⅰ)分别估计用 A 配方,B 配方生产的产品的优质品率; (Ⅱ)已知用 B 配方生成的一件产品的利润 y(单位:元)与其质量指标 值 t 的关系式为
X 的分布列为 X -2 2 4 P 0.04 0.54 0.42
X 的数学期望值 EX=-2× 0.04+2× 0.54+4× 0.42=2.68
(3)查表比较K2与临界值的大小关系,作统计判断.
某班主任对全班50名学生学习积极性和对待班级 工作的态度进行了调查,统计数据如下表所示: 不太主动 参加班级 工作 7 19 25 25 合计
积极参加 班级工作 学习积极性高 学习积极性一般 18 6
合计
24
26
50
试运用独立性检验的思想方法分析:学生的学习积极性
的产品的优质品率的估计值为 0.3。 由试验结果知,用 B 配方生产的产品中优质
32 10 0.42 品的频率为 100 ,所以用
B 配方生产的产品
的优质品率的估计值为 0.42
(Ⅱ)用 B 配方生产的 100 件产品中,其质量指标值落入
区间 90,94 , 94,102 , 102,110 的频率分别为 0.04,,054,0.42,因 此 X 的可能值为-2,2,4 P(X=-2)=0.04, 即 P(X=2)=0.54, P(X=4)=0.42,
当K2≤2.706时,则认为事件A与B
8.3.2独立性检验(解析版)
独立性检验【学习目标】1.了解独立性检验的基本思想、方法及其简单应用2.理解判断两个分类变量是否有关系的常用方法、独立性检验中K2的含义及其实施步骤【自主学习】知识点独立性检验(1)定义:利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验.(2)K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d.(3)独立性检验的具体做法①根据实际问题的需要确定容许推断“两个分类变量有关系”犯错误概率的上界α,然后查表确定临界值k0.②利用公式计算随机变量K2的观测值k.③如果k≥k0,就推断“X与Y有关系”,这种推断犯错误的概率不超过α,否则就认为在犯错误的概率不超过α的前提下不能推断“X与Y有关系”,或者在样本数据中没有发现足够证据支持结论“X与Y有关系”.【合作探究】探究一 有关“相关的检验”【例1】某校对学生课外活动进行调查,结果整理成下表:用你所学过的知识进行分析,能否在犯错误的概率不超过0.005的前提下,认为“喜欢体育还是文娱与性别有关系”?解 判断方法如下:假设H 0“喜欢体育还是喜欢文娱与性别没有关系”,若H 0成立,则K 2应该很小. ∵a =21,b =23,c =6,d =29,n =79, ∴K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )=79×(21×29-23×6)244×35×27×52≈8.106.且P (K 2≥7.879)≈0.005即我们得到的K 2的观测值k ≈8.106超过7.879,这就意味着:“喜欢体育还是文娱与性别没有关系”这一结论成立的可能性小于0.005,即在犯错误的概率不超过0.005的前提下认为“喜欢体育还是喜欢文娱与性别有关”.归纳总结:(1)利用K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )求出K 2的观测值k 的值.再利用临界值的大小来判断假设是否成立.(2)解题时应注意准确代数与计算,不可错用公式,准确进行比较与判断.【练习1】为研究学生的数学成绩与对学习数学的兴趣是否有关,对某年级学生作调查得到如下数据:判断学生的数学成绩好坏与对学习数学的兴趣是否有关? 解 由公式得K 2的观测值k =189×(64×73-22×30)286×103×95×94≈38.459.∵38.459>10.828,∴有99.9%的把握说学生学习数学的兴趣与数学成绩是有关的.探究二 有关“无关的检验”【例2】为了探究学生选报文、理科是否与对外语的兴趣有关,某同学调查了361名高二在校学生,调查结果如下:理科对外语有兴趣的有138人,无兴趣的有98人,文科对外语有兴趣的有73人,无兴趣的有52人.分析学生选报文、理科与对外语的兴趣是否有关? 解 列出2×2列联表代入公式得K 2的观测值k =361×(138×52-73×98)2236×125×211×150≈1.871×10-4.∵1.871×10-4<2.706,∴可以认为学生选报文、理科与对外语的兴趣无关.归纳总结:运用独立性检验的方法:(1)列出2×2列联表,根据公式计算K 2的观测值k . (2)比较k 与k 0的大小作出结论.【练习2】第16届亚运会于2010年11月12日至27日在中国广州进行,为了搞好接待工作,组委会招募了16名男志愿者和14名女志愿者,调查发现,男、女志愿者中分别有10人和6人喜爱运动,其余人不喜爱运动. (1)根据以上数据完成以下2×2列联表:(2)根据列联表的独立性检验,能否在犯错误的概率不超过0.10的前提下认为性别与喜爱运动有关? 解 (1)(2)假设是否喜爱运动与性别无关,由已知数据可求得: K 2=30×(10×8-6×6)2(10+6)(6+8)(10+6)(6+8)≈1.157 5<2.706,因此,在犯错误的概率不超过0.10的前提下不能判断喜爱运动与性别有关.探究三 独立性检验的基本思想【例3】某企业有两个分厂生产某种零件,按规定内径尺寸(单位:mm)的值落在(29.94,30.06)的零件为优质品.从两个分厂生产的零件中各抽出500件,量其内径尺寸,结果如下表: 甲厂乙厂(1)试分别估计两个分厂生产的零件的优质品率;(2)由以上统计数据填下面2×2列联表,并问是否有99%的把握认为“两个分厂生产的零件的质量有差异”.附:K 2=n (ad -bc )(a +b )(c +d )(a +c )(b +d ),解 (1)甲厂抽查的产品中有360件优质品,从而甲厂生产的零件的优质品率估计为360500=72%;乙厂抽查的产品中有320件优质品,从而乙厂生产的零件的优质品率估计为320500=64%.(2)K 2=1 000×(360×180-320×140)2500×500×680×320≈7.353>6.635,所以有99%的把握认为“两个分厂生产的零件的质量有差异”.归纳总结:(1)解答此类题目的关键在于正确利用K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )计算k 的值,再用它与临界值k 0的大小作比较来判断假设检验是否成立,从而使问题得到解决.(2)此类题目规律性强,解题比较格式化,填表计算分析比较即可,要熟悉其计算流程,不难理解掌握.【练习3】下表是某地区的一种传染病与饮用水的调查表:(1)这种传染病是否与饮用水的卫生程度有关,请说明理由;(2)若饮用干净水得病5人,不得病50人,饮用不干净水得病9人,不得病22人.按此样本数据分析这种疾病是否与饮用水有关,并比较两种样本在反映总体时的差异.解 (1)假设H 0:传染病与饮用水无关.把表中数据代入公式得:K 2的观测值k =830×(52×218-466×94)2146×684×518×312≈54.21,∵54.21>10.828,所以拒绝H 0.因此我们有99.9%的把握认为该地区这种传染病与饮用不干净水有关. (2)依题意得2×2列联表:此时,K 2的观测值k =86×(5×22-50×9)14×72×55×31≈5.785.由于5.785>5.024,所以我们有97.5%的把握认为该种疾病与饮用不干净水有关.两个样本都能统计得到传染病与饮用不干净水有关这一相同结论,但(1)中我们有99.9%的把握肯定结论的正确性,(2)中我们只有97.5%的把握肯定.课后作业A组基础题一、选择题1.经过对K2的统计量的研究,得到了若干个临界值,当K2的观测值k>3.841时,我们() A.在犯错误的概率不超过0.05的前提下可认为X与Y有关B.在犯错误的概率不超过0.05的前提下可认为X与Y无关C.在犯错误的概率不超过0.01的前提下可认为X与Y有关D.没有充分理由说明事件X与Y有关系【答案】A2.用独立性检验来考察两个分类变量x与y是否有关系,当统计量K2的观测值() A.越大,“x与y有关系”成立的可能性越小B.越大,“x与y有关系”成立的可能性越大C.越小,“x与y没有关系”成立的可能性越小D.与“x与y有关系”成立的可能性无关【答案】B3.在一个2×2列联表中,由其数据计算得K2的观测值k=7.097,则这两个变量间有关系的可能性为()A.99% B.99.5%C.99.9% D.无关系【答案】A解析K2的观测值6.635<k<7.879,所以有99%的把握认为两个变量有关系.4.对两个分类变量A,B的下列说法中正确的个数为()①A与B无关,即A与B互不影响;②A与B关系越密切,则K2的值就越大;③K2的大小是判定A与B是否相关的唯一依据A.0 B.1 C.2 D.3【答案】B解析①正确,A与B无关即A与B相互独立;②不正确,K2的值的大小只是用来检验A 与B是否相互独立;③不正确,例如借助三维柱形图、二维条形图等.故选B.5.考察棉花种子经过处理跟生病之间的关系得到下表数据:根据以上数据,可得出()A.种子是否经过处理跟是否生病有关B.种子是否经过处理跟是否生病无关C.种子是否经过处理决定是否生病D.以上都是错误的【答案】B解析由K2=407×(32×213-61×101)293×314×133×274≈0.164<2.706,即没有把握认为种子是否经过处理跟是否生病有关. 二、填空题 6.根据下表计算:K 2的观测值k ≈________(保留3位小数). 【答案】 4.514解析 k =300×(37×143-85×35)2122×178×72×228≈4.514.7.如果K 2的观测值为6.645,可以认为“x 与y 无关”的可信度是________. 【答案】 1%解析 查表可知可信度为1%.8.为了解高中生作文成绩与课外阅读量之间的关系,某研究机构随机抽取了60名高中生,通过问卷调查,得到以下数据:由以上数据,计算得到K 2的观测值k ≈9.643,根据临界值表,有________把握认为课外阅读量大与作文成绩优秀有关. 【答案】 99.5%解析根据临界值表,9.643>7.879,在犯错误的概率不超过0.005的前提下,认为课外阅读量大与作文成绩优秀有关,即有99.5%的把握认为课外阅读量大与作文成绩优秀有关.9.为研究某新药的疗效,给50名患者服用此药,跟踪调查后得下表中的数据:设H0:服用此药的效果与患者的性别无关,则K2的观测值k≈________(小数点后保留三位有效数字),从而得出结论:服用此药的效果与患者的性别有关,这种判断出错的可能性为________.【答案】 4.8825%解析由公式计算得K2的观测值k≈4.882,∵k>3.841,∴我们有95%的把握认为服用此药的效果与患者的性别有关,从而有5%的可能性出错.三、解答题10.高中流行这样一句话“文科就怕数学不好,理科就怕英语不好”.下表是一次针对高三文科学生的调查所得数据,试问:在出错概率不超过0.025的前提下,能否判断“文科学生总成绩不好与数学成绩不好有关系”?解依题意,计算随机变量K2的观测值:k =913×(478×24-399×12)2490×423×877×36≈6.233>5.024,所以在出错概率不超过0.025的前提下,可以判断“文科学生总成绩不好与数学成绩不好有关系”.11.吃零食是中学生中普遍存在的现象,吃零食对学生身体发育有诸多不利影响,影响学生的健康成长.下表是性别与吃零食的列联表:请问喜欢吃零食与性别是否有关?解K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),把相关数据代入公式,得 K 2的观测值k =85×(5×28-40×12)217×68×45×40≈4.722>3.841.因此,在犯错误的概率不超过0.05的前提下,可以认为“喜欢吃零食与性别有关”. 12.在某校对有心理障碍学生进行测试得到如下列联表:试说明在这三种心理障碍中哪一种与性别关系最大?解 对于题中三种心理障碍分别构造三个随机变量K 21,K 22,K 23.其观测值分别为k 1,k 2,k 3.由表中数据列出焦虑是否与性别有关的2×2列联表可得k 1=110×(5×60-25×20)30×80×25×85≈0.863<2.706,同理,k 2=110×(10×70-20×10)230×80×20×90≈6.366>5.024,k 3=110×(15×30-15×50)230×80×65×45≈1.410<2.706.因此,在犯错误的概率不超过0.025的前提下,认为说谎与性别有关,没有充分的证据显示焦虑、懒惰与性别有关.B组能力提升一、选择题1.千百年来,我国劳动人民在生产实践中根据云的形状、走向、速度、厚度、颜色等的变化,总结了丰富的“看云识天气”的经验,并将这些经验编成谚语,如“天上钩钩云,地上雨淋淋”“日落云里走,雨在半夜后”……小波同学为了验证“日落云里走,雨在半夜后”,观察了所在地区A的100天日落和夜晚天气,得到如下2×2列联表:0010并计算得到219.05K≈,下列小波对地区A天气判断不正确的是()A. 夜晚下雨的概率约为1 2B. 未出现“日落云里走”夜晚下雨的概率约为5 14C. 有99.9%的把握认为“‘日落云里走’是否出现”与“当晚是否下雨”有关D. 出现“日落云里走”,有99.9%的把握认为夜晚会下雨【答案】:D【分析】把频率看作概率,即可判断,A B的正误;根据独立性检验可判断,C D的正误,即得【答案】.【详解】由题意,把频率看作概率可得:夜晚下雨的概率约为252511002+=,故A正确;未出现“日落云里走”夜晚下雨的概率约为255254514=+,故B正确;由219.0510.828K≈>,根据临界值表,可得有99.9%的把握认为“‘日落云里走’是否出现”与“当晚是否下雨”有关,故C正确;故D错误.故选:D.2.为了判断英语词汇量与阅读水平是否相互独立,某语言培训机构随机抽取了100位英语学习者进行调查,经过计算2K的观测值为7,根据这一数据分析,下列说法正确的()附:A. 有99%以上的把握认为英语词汇量与阅读水平无关B. 有99.5%以上的把握认为英语词汇量与阅读水平有关C. 有99.9%以上的把握认为英语词汇量与阅读水平有关D. 在犯错误的概率不超过1%的前提下,可以认为英语词汇量与阅读水平有关 【答案】:D 【分析】由题意()26.6350.01P K ≥=,由独立性检验的原理即可得解.【详解】由题意27K =,()26.6350.01P K ≥=,所以在犯错误的概率不超过1%的前提下,可以认为英语词汇量与阅读水平有关,有99%的把握认为英语词汇量与阅读水平有关. 故选:D.3.通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的22⨯列联表:由22()()()()()n ad bc a b c d a c b d χ-=++++算得,22110(40302020)7.860506050χ⨯⨯-⨯=≈⨯⨯⨯.附表:参照附表,得到的正确结论是()A. 在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”;B. 在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”;C. 有99%以上的把握认为“爱好该项运动与性别有关”;D. 有99%以上的把握认为“爱好该项运动与性别无关”.【答案】:C【分析】根据给定的2K的值,结合附表,即可得到结论.【详解】由22110(40302020)7.8 6.63560506050χ⨯⨯-⨯=≈>⨯⨯⨯,所以有99%以上的把握认为“爱好该项运动与性别有关.故选:C.4.在一次独立性检验中得到如下列联表:若这两个分类变量A和B没有关系,则a的可能值是() A. 200 B. 720C. 100D. 180【答案】:B 【分析】令2k 的观测值为零,解方程即得解.【详解】当a =720时,k =0,易知此时两个分类变量没有关系. 故【答案】为B5.(多选题)针对时下的“抖音热”,某校团委对“学生性别和喜欢抖音是否有关”作了一次调查,其中被调查的男女生人数相同,男生喜欢抖音的人数占男生人数的45,女生喜欢抖音的人数占女生人数35,若有95%的把握认为是否喜欢抖音和性别有关则调查人数中男生可能有( )人 附表:附:()()()()()22n ad bc K a b c d a c b d -=++++ A. 25 B. 45C. 60D. 75【答案】:BC 【分析】设男生的人数为()5n n N*∈,列出22⨯列联表,计算出2K 的观测值,结合题中条件可得出关于n 的不等式,解出n 的取值范围,即可得出男生人数的可能值.【详解】设男生的人数为()5n n N*∈,根据题意列出22⨯列联表如下表所示:则()221042310557321n n n n n n K n n n n ⨯⨯-⨯==⨯⨯⨯,由于有95%的把握认为是否喜欢抖音和性别有关,则23.841 6.632K ≤<,即103.841 6.63221n≤<,得8.066113.9272n ≤<, n N *∈,则n 的可能取值有9、10、11、12,因此,调查人数中男生人数的可能值为45或60. 故选:BC. 二、填空题6.某手机运营商为了拓展业务,现对该手机使用潜在客户进行调查,随机抽取国内国外潜在用户代表各100名,调查用户对是否使用该手机的态度,得到如图所示的等高条形图.根据等高图,______(填“有”或“没有”)99.5%以上的把握认为持乐观态度和国内外差异有关.(参考公式与数据:()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++)()20P K k ≥0.05 0.01 0.005 0.001 0k3.841 6.635 7.879 10.828【答案】:有依题意,可知国内代表乐观人数60人,不乐观人数40人,国外乐观人数40人,不乐观人数60人,总计乐观人数100人,不乐观人数100人,所以,而,所以有99.5%以上的把握认为持乐观态度和国内外差异有关.7.给给给给给给给 给线性回归方程y bx a =+必过点(),x y ;给相关系数r 越小,表明两个变量相关性越弱; ()22200606040408100100100100K ⨯-⨯==⨯⨯⨯87.879>给相关指数2R 越接近1,表明回归的效果越好;给在一个2×2列联表中,由计算得2K 的观测值k =13.079,则有99%以上的把握认为这两个变量之间没有关系;给设有一个线性回归方程35y x =-,则变量x 增加一个单位时,y 平均增加5个单位. 其中正确的说法有 (填序号).【答案】:给给对于给,应该是相关系数r 的绝对值越小,表明两个变量相关性越弱.所以它是错误的.对于给,应该是有99%以上的把握认为这两个变量之间有关系.对于给,应该是变量x 增加一个单位时,y 平均减少5个单位.故填给给.三、解答题8.随着现代教育技术的不断发展,我市部分学校开办智慧班教学,某校从甲乙两智慧班各随机抽取45名学生,调查两个班学生对智慧课堂的评价:“满意”与“不满意”,调查中发现甲班评价“满意”的学生人数比乙班评价“满意”的学生人数多9人,根据调查情况制成如下图所示的2×2列联表:(1)完成2×2列联表,并判断能否有97.5%的把握认为评价与班级有关系?(2)从甲乙两班调查评价为“不满意”的学生中按照分层抽样的方法随机抽取7人,现从这7人中选派3人到校外参加智慧课堂研究活动,求其中至少有2人选自乙班学生的概率. 附:22()()()()()n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.【答案】:(1)表格见解析,有97.5%的把握认为评价与班级有关系;(2)67. 【分析】 (1)首先根据题意填写22⨯列联表,再计算2 5.031 5.024=>K 即可得到结论.(2)首先根据题意得到甲班选取2人,乙班选取5人,再计算概率即可.【详解】(1)完成列联表如下:2290(3915306)=5.031 5.024********⨯-⨯=>⨯⨯⨯K . 所以有97.5%的把握认为评价与班级有关系.(2)抽样比17213==,甲班选取2人,乙班选取5人,则1232553767C C CpC+==.9.盲盒里面通常装的是动漫、影视作品的周边,或者设计师单独设计出来的玩偶.由于盒子上没有标注,购买者只有打开才会知道自己买到了什么,因此这种惊喜吸引了众多年轻人,形成了“盲盒经济”.某款盲盒内可能装有某一套玩偶的A、B、C三种样式,且每个盲盒只装一个.(1)若每个盲盒装有A、B、C三种样式玩偶的概率相同.某同学已经有了A样式的玩偶,若他再购买两个这款盲盒,恰好能收集齐这三种样式的概率是多少?(2)某销售网点为调查该款盲盒的受欢迎程度,随机发放了200份问卷,并全部收回.经统计,有30%的人购买了该款盲盒,在这些购买者当中,女生占23;而在未购买者当中,男生女生各占50%.请根据以上信息填写下表,并分析是否有95%的把握认为购买该款盲盒与性别有关?参考公式:()()()()()22n ad bca b c d a c b dχ-=++++,其中n a b c d=+++.参考数据:(3)该销售网点已经售卖该款盲盒6周,并记录了销售情况,如下表:由于电脑故障,第二周数据现已丢失,该销售网点负责人决定用第4、5、6周的数据求线性回归方程,再用第1、3周数据进行检验.①请用4、5、6周的数据求出y关于x的线性回归方程y bx a=+;(注:()()()1122211n ni i i ii in ni ii ix x y y x y nx ybx x x nx====---==--∑∑∑∑,a y bx=-)②若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2盒,则认为得到的线性回归方程是可靠的,试问①中所得的线性回归方程是否可靠?③如果通过②的检验得到的回归直线方程可靠,我们可以认为第2周卖出的盒数误差也不超过2盒,请你求出第2周卖出的盒数的可能取值;如果不可靠,请你设计一个估计第2周卖出的盒数的方案.【答案】:(1)29;(2)表格见解析,有95%把握认为购买该款盲盒与性别有关;(3)给2.514.5y x=+;给是可靠的;给第2周卖出的盒数的可能值为18、19、20、21.【分析】(1)用列举法写出所有基本事件,再从中找出满足要求的基本事件,用古典概型的公式即可求得结果;(2)通过计算,完成列联表,再计算出观测值2 4.714k ≈,比表中0.05所对应的数据3.841大,故得出结论“有95%把握认为购买该款盲盒与性别有关”;(3)给将第4、5、6周的数据代入公式,计算出b 和a ,写出回归直线方程;给将第1、3周的数据代入给所求出的回归直线方程进行检验,该方程可靠;给将2x =代入给所求出的回归直线方程,解得19.5y =,根据可靠性的要求,以及该应用题的实际要求,得出第2周卖出的盒数的可能取值.【详解】解:(1)由题意,基本事件空间为{}(,),(,),(,),(,),(,),(,),(,),(,),(,)A A A B A C B A B B B C C A C B C C Ω=,其中基本事件的个数为9,设事件D 为:“他恰好能收集齐这三种样式”,则()(){},,,D B C C B =,其中基本事件的个数为2, 则他恰好能收集齐这三种样式的概率29P =; (2)22200(40702070) 4.7141109060140k ⨯-⨯=≈⨯⨯⨯, 又因为4.714 3.841>,故有95%把握认为“购买该款盲盒与性别有关”;(3)给由数据,求得5x =,27y =,由公式求得 222(45)(2527)(55)(2627)(65)(3027)5(45)(55)(65)2b --+--+--==-+-+-, 527514.52a =-⨯=, 所以y 关于x 的线性回归方程为 2.514.5y x =+;给当1x =时, 2.5114.517y =⨯+=,17162-<,同样,当3x =时, 2.5314.522y =⨯+=,22232-<,所以,所得到的线性回归方程是可靠的;给由给可知回归直线方程可靠,2x =时 2.5214.519.5y =⨯+=,设第二周卖出的盒数为()n n N ∈,则19.52n -≤,≤≤,n17.521.5给n能取18、19、20、21,即第2周卖出的盒数的可能值为18、19、20、21.【点睛】本题考查了古典概型的概率计算,独立性检验的实际应用,线性回归直线方程的求解及实际应用问题,综合性较强.10.阿基米德是古希腊伟大的哲学家、数学家、物理学家,对几何学、力学等学科作出过卓越贡献.为调查中学生对这一伟大科学家的了解程度,某调查小组随机抽取了某市的100名高中生,请他们列举阿基米德的成就,把能列举阿基米德成就不少于3项的称为“比较了解”,少于三项的称为“不太了解”.他们的调查结果如下:(1)完成如下2×2列联表,并判断是否有99%的把握认为,了解阿基米德与选择文理科有关?(2)在抽取的100名高中生中,按照文理科采用分层抽样的方法抽取10人的样本. (i )求抽取的文科生和理科生的人数;(ii )从10人的样本中随机抽取3人,用X 表示这3人中文科生的人数,求X 的分布列和数学期望.参考数据:22()()()()()n ad bc k a b c d a c b d -=++++,n a b c d =+++. 【答案】:(1)见解析;(2) (i )文科生3人,理科生7人 (ii )见解析【分析】(1)写出列联表后可计算2K ,根据预测值表可得没有99%的把握认为,了解阿基米德与选择文理科有关.(2)(i )文科生与理科生的比为310,据此可计算出文科生和理科生的人数. (ii )利用超几何分布可计算X 的分布列及其数学期望.【详解】解:(1)依题意填写列联表如下:计算222()100(42182812) 3.382 6.635()()()()30705446n ad bc K a b c d a c b d -⨯-⨯==≈<++++⨯⨯⨯, ∴没有99%的把握认为,了解阿基米德与选择文理科有关.(2)(i )抽取的文科生人数是30103100⨯=(人),理科生人数是70107100⨯=(人). (ii )X 的可能取值为0,1,2,3,则0337310C C 7(0)C 24P X ===⋅, 1237310C C 21(1)C 40P X ===⋅, 17213307(2)40C C P X C ⋅===, 3037310C C 1(3)C 120P X ===⋅. 其分布列为所以72171369()01232440401204010E X =⨯+⨯+⨯+⨯==.31。
独立性检验
^ 1 n ^2 1 ^i=yi-bxi-a,其中σ = ^ ^,b)(n>2) -y e= Q(a n-2i i n-2 =1 ^
x 2 4 5 6 8 y 30 40 60 50 70
有如下的两个线性模型: ^ ①y=6.5x+17.5; ^ ②y=7x+17. 试比较哪一个拟合效果更好.
[解析]
^ 由①可得 yi-yi 与 yi- y 的关系如下表: ^ yi-yi -0.5 -3.5 10 -6.5 0.5 yi- y -20 -10 10 0 20
探究
为调查吸烟是否对患肺 癌有影响,某
肿瘤研究所随机地调查 9 965人, 得到如下 了 结果 (单位 : 人) :
表 3 7 吸烟与患肺癌列联表
不患肺癌 患肺癌 不吸烟 吸烟 总计 7775 2099 9874 42 49 91
总计 7817 2148 9965
那么吸烟是否对患肺癌 有影响?
在2 , n越大, 近似程度越高在实际应用中通常 中 . , 要求a, b, c, d都不小于 . 5 思考 如果K 2 6.635, 就断定H0不成立 这种判 ,
断出错的可能性有多大 ? 现在观测值k 56.632远远大于6.635, 在H0 成立
的条件下,由 2式可知能够出现这样的观测值的 概率不超过 0.01. 因此我们有99% 的把握认为H0 不成立, 即有99%的把握认为" 吸烟与肺癌有关系".
8000 7000 6000 5000 4000 3000 2000 1000 0 不患肺癌
独立性检验的方法
独立性检验的方法
独立性检验是用来判断两个变量之间是否存在关联或者依赖关系的统计方法。
常见的独立性检验方法有以下几种:
1. 卡方检验(Chi-square test):用于检验两个分类变量之间的独立性。
它将观察到的频数与期望频数进行比较,判断是否存在显著的差异。
2. Fisher精确检验(Fisher's exact test):在小样本数据中使用的一种精确方法,用于检验两个分类变量之间的独立性。
该方法不依赖于样本的分布假设,适用于小样本和稀有事件的情况。
3. 独立样本t检验(Independent samples t-test):用于检验两个组的均值是否存在显著差异。
这种方法适用于两个互不相关的样本。
4. 方差分析(Analysis of Variance, ANOVA):用于检验多个组之间均值的差异是否显著。
ANOVA分为单因素和多因素两种,前者适用于一个自变量,后者适用于多个自变量的情况。
5. 斯皮尔曼相关系数(Spearman's rank correlation coefficient):用于衡量两个变量之间的非线性关系。
斯皮尔曼相关系数是一种非参数的方法,适用于顺序变量或非正态分布的变量。
以上是常见的几种独立性检验方法,不同的方法适用于不同的情况和变量类型。
在进行独立性检验时,需要根据实际情况选择合适的方法进行分析。
独立性检验的基本思想及其初步应用》
独立性检验的基本思想及其初步应用》生更加直观地理解两个分类变量之间的关系。
问题2:根据三维柱形图和二维条形图,你能否看出吸烟者和不吸烟者患肺癌的比例有何不同?二、独立性检验的基本思想1、独立性检验的基本思想:独立性检验是用来检验两个分类变量是否有关系的一种统计方法。
如果两个分类变量是独立的,那么它们之间是没有关系的;如果两个分类变量不独立,则它们之间是有关系的。
2、独立性检验的步骤:1)列出列联表;2)计算期望频数;3)计算卡方值;4)查表得出显著性水平;5)判断两个分类变量是否有关系。
三、K2检验的计算公式1、K2检验的计算公式:K2=∑(Oi-Ei)²/Ei其中,Oi为观察频数,Ei为期望频数。
2、K2检验的含义:K2检验的值越大,观察频数与期望频数的差距越大,两个分类变量之间的关系就越显著。
四、独立性检验的应用举例1、应用举例:1)医学研究:调查吸烟是否对患肺癌有影响;2)社会调查:调查男女是否对某一品牌的喜好程度有影响;3)市场调查:调查年龄与消费金额是否有关系。
2、独立性检验的应用:通过独立性检验,可以判断两个分类变量是否有关系,从而为我们提供科学的依据,进行合理的决策。
教学反思:本节课通过生动的例子和图表,引入了独立性检验的基本概念和思想。
通过对K2检验公式的介绍,让学生了解了如何计算卡方值。
同时,通过应用举例,让学生了解了独立性检验的实际应用。
在教学过程中,教师注重启发学生的思维,让学生在合作探究中主动掌握知识,达到了预期的教学目标。
练1、在某医院,665名男性病人中,214人秃顶,而在772名非心脏病男性病人中,175人秃顶。
能否以99%的置信度认为“秃顶与患心脏病”有关系?思考1、为调查某地区老年人是否需要志愿者提供帮助,用简单随机抽样方法从该地区调查了500位老年人,结果如下:性别。
是否需要志愿者需要。
不需要男性。
30.170女性。
373.271)估计该地区老年人中需要志愿者提供帮助的比例;2)能否以99%的置信度认为该地区的老年人是否需要志愿者提供帮助与性别有关系?思考2、某研究小组为了研究中学生的身体发育情况,在某学校随机抽出20名15至16周岁的男生,将他们的身高和体重制成2×2列联表,根据列联表的数据,能否以95%的置信度认为该学校15至16周岁的男生的身高和体重之间有关系?课后作业:课本第18页第1题和第2题。
独立性检验
1.定性变量与定量变量: 2.2×2 列联表:
二、独立性检验的简介: 三、检验独立性的方法:
1.频率法: 2.等高条形图法: 3.卡方检验:
(1)卡方检验简述: (2)操作步骤及三个细节: (3)书写格式:
概率与统计简述
样本
抽样
估计 推断
总体
回归分析 分布列及期望 相关分析
概率 计数
超几何分布与二项分布的关联
以下三种情况,按照二项分布来处理
频率代概率 总数一大批 抽取要放回 二项分布也
四大分布之间的关联图
正态分布
连续 二项分布 N →+∞ 超几何分布
(总数充分大) n=1
0—1分布
当
M N
1 10
1 100
,实际操作时,用二项分布近似来代替
正态分布的性质
1.对称性
f (x) , (x)
法3:相关系数 r 法 (参《必修3》P:92~93) 法4:关系式法:
主要是利用回归方程…… 法5:数表法:
主要观察是否具有单调性……
法3:相关系数 r ——衡量变量之间相关程度的指标
(1)计算公式:r
(2)性质:
n
(xi x)( yi y)
i1
n
n
(xi x)2 ( yi y)2
1
( x )2
e 2 2
2
2.渐近性
正态曲线是钟型 指数二次组合体
3.最大值 4.面积为1
要求概率求面积 左小右大总为 1 均值中众对称轴 比较方差武大郎 前数期望后方差 平方去π同上母
5.期望为μ,方差为δ2
小概率事件原理
一般的,当P(A)≤0.05(或0.01)时 可以认为在一次试验中事件A几乎是不可能发生的 但在多次重复试验中几乎是必然发生的
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
§1.2独立性检验的基本思想及其初步应用
课前热身
1.2×2列联表
(1)分类变量的定义
变量的不同“值”表示__________,像这样的变量称作分类变量.
(2)2×2列联表的定义
一般地取两个分类变量X和Y,它们的值域分别为__________和__________,其样本频数列联表(也称2×2列联表)为下表:
2.二维条形图
在二维条形图中,可以估计满足条件X=x1的个体中具有Y=y1的个体所占比例__________,也可以估计满足X=x2的个体中具有Y=y1的个体所占比例为__________,两个比例的值相差越大,则两分类变量有关系的可靠程度越大.
3.K2统计量
为了消除样本量|ad-bc|的影响,统计学中引入下面的量K2=_____________________________________________________,
其中n=__________为样本容量.
4.独立性检验的定义及实施步骤
(1)独立性检验的定义
利用随机变量K2来确定是否能以给定把握认为“________________”的方法,称为两个分类变量的独立性检验.
(2)判断“__________________________”的方法有列联表法、__________及K2公式的计算.
名师讲解
一般地,假设两个分类变量X和Y,它们的值域分别为{x1,x2}和{y1,y2},其样本频数列联表(也称为2×2列联表)为下表:
若要推断的论述为H1:“X与Y有关系”.
可以按如下步骤判断H1成立的可能性.
(1)通过二维条形图,可以粗略地判断两个分类变量是否有关系,但是这种判断无法精确地给出所得结论的可靠程度.
在二维条形图中,可以估计满足条件X=x1的个体中具有Y=y1的个体所占比例为a
a+b
,
也可以估计满足条件X=x2的个体中具有Y=y1的个体所占的比例为c
c+d
,两个比例的值相差越大,H1成立的可能性就越大.
(2)可以利用独立性检验来考察两个分类变量是否有关系,并且能较精确地给出这种判断的可靠程度,具体的做法是:
根据数据代入公式K2=n(ad-bc)2
(a+b)(c+d)(a+c)(b+d)
求出随机变量K2的观测值k,其值越大,说明X与Y有关系的可能性越大,当得到的观测数据a、b、c、d都不小于5时,可以得到以下结论用于确定X与Y的可信程度:
①如果k>10.828,有99.9%的把握认为X与Y有关系.
②如果k>7.879,就有99.5%的把握认为X与Y有关系.
③如果k>6.635,就有99%的把握认为X与Y有关系.
④如果k>5.024,就有97.5%的把握认为X与Y有关系.
⑤如果k>3.841,就有95%的把握认为X与Y有关系.
⑥如果k>2.706,就有90%的把握认为X与Y有关系.
⑦如果k≤2.706,就认为没有充分的证据显示X与Y有关系.
典例剖析
题型一概念辨析
例1在吸烟与患肺病这两个分类变量的计算中,下列说法正确的是()
A.如果K2的观测值为k=6.635,我们有99%的把握认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99人患有肺病
B.从独立性检验可知有99%的把握认为吸烟与患肺病有关系时,我们说某人吸烟,那么他有99%的可能患有肺病
C.若从统计量中求出有95%的把握认为吸烟与患肺病有关系,是指有5%的可能性使得推理出现错误
D.以上三种说法都不正确
误区警示题中所说的“有99%的把握认为吸烟与患肺病有关”是指统计上的关系,而不是因果关系,也不能认为99%是指某人患有肺病的概率.
变式训练1下列说法正确的个数为()
①对事件A与B的检验无关,说明两事件互不影响;
②事件A与事件B关系越密切,K2的值就越大;
③K2的大小是判断事件A与B是否相关的唯一数据;
④若判断两事件A与B相关,则A发生B一定发生.
A.1B.2C.3D.4
例2打鼾不仅影响别人休息,而且可能与患某种疾病有关.下表是一次调查所得的数据,试问:每晚都打鼾与患心脏病有关吗?用图表分析.
变式训练2在500人身上试验某种血清预防感冒的作用,把一年中的记录与另外500个未用血清的人作比较,结果如下:
题型三利用K2公式进行独立性检验
例3在研究某种新措施对猪白痢的防治效果问题时,得到以下数据:
试问新措施对防治猪白痢是否有效果?
分析对于新措施对防治猪白痢是否有效果?可以计算K2的值与临界值进行比较,作出判断.
规律技巧虽然二维条形图也能判断新措施对防治猪白痢是否有效果,但不能给出它们关系这一结论的可靠程度,因而我们常用K2公式解答问题.
变式训练3调查者询问了72名大学生在购买食品时是否观看营养说明得到下表所示的数据,从表中数据分析看不看说明书与大学生的性别之间有没有关系.
题型四独立性检验的应用
例4下表是某地区的一种传染病与饮用水的调查表:
(1)这种传染病是否与饮用水的卫生程度有关,请说明理由;
(2)若饮用干净水得病5人,不得病50人,饮用不干净水得病9人,不得病22人.按此样本数据分析这种疾病是否与饮用水有关,并比较两种样本在反映总体时的差异.
变式训练4现有两种治疗运动员膝关节损伤的药方,为了比较两药方的疗效收集的数据如下表:
(2)哪种药方疗效好?
技能演练
基础强化
1.下列关于K2的说法正确的是()
A.K2在任何相互独立问题中都可以用来检验有关还是无关
B.K2的值越大,两个事件的相关性越大
C.K2是用来判断两个分类变量是否有关系的随机变量,只对于两个分类变量适合D.K2的观测值的计算公式为
K2=n(ad-bc)
(a+b)(c+d)(a+c)(b+d)
2.下面是一个2×2列联表
则表中a
A.94、96B.52、50 C.52、54 D.54、52 3.观察下列各图,其中两个分类变量x,y之间关系最强的是()
4.考察棉花种子经过处理跟生病之间的关系得到如下表数据:
A .种子经过处理跟是否生病有关
B .种子经过处理跟是否生病无关
C .种子是否经过处理决定是否生病
D .以上都是错误的 5.分类变量x 和y 的列联表如下,则( )
A.ad -bc C .(ad -bc )2越大,说明x 与y 的关系越强 D .(ad -bc )2越小,说明x 与y 的关系越强 6.某班主任对全班50名学生进行了作业量多少的调查,数据如下表:
A .99%
B .95%
C .90%
D .无充分依据
7.某高校“统计初步”课程的教师随机调查了选该课的一些学生情况,具体数据如下表:
k =50(13×20-10×7)220×30×23×27≈4.844,因为k >3.841,所以确定主修统计专业与性别有关系,
那么这种判断出错的可能性为__________.
8.某大学在研究性别与职称(分正教授,副教授)之间是否有关系,你认为应该收集的数据是__________.
能力提升
9.利用独立性检验来考虑两个分类变量X和Y是否有关系时,通过查阅下表来确定断言“X 和Y有关系”的可信度.如果k>5.024,那么就有把握认为“X和Y有关系”的百分比为__________.
10
11.在对人们休闲方式的一次调查中,共调查了124人,其中女性70人,男性54人,女性中有43人主要的休闲方式是看电视,另外27人主要的休闲方式是运动;男性中有21人主要的休闲方式是看电视,另外33人主要的休闲方式是运动,你能否判断性别与休闲方式是否有关系?
品味高考
12.(2010·新课标)为了调查某地区老年人是否需要志愿者提供帮助,用简单随机抽样方法从该地区调查了500位老年人,结果如下:
(1)
(2)能否有99%的把握认为该地区的老年人是否需要志愿者提供帮助与性别有关;
(3)根据(2)的结论,能否提出更好的调查方法来估计该地区的老年人中,需要志愿者提
供帮助的老年人的比例?说明理由?
附:
K 2
=n (ad -bc )2
(a +b )(c +d )(a +c )(b +d )。