独立性检验
原创1:1.1独立性检验
( 2 ≥ 0 ) 的把握认为“两个分类变量之间有关系”,或者样本观测数
据没有提供“两个分类变量之间有关系”的充分证据。
总结四:
判断两个分类变量是否相关的一般步骤:
一般地,假设有两个分类变量和,它们的值域分别为{ 1 , 2 }和
2、可以利用独立性检验来考察两个分类变量是否有关系,并且能较
精确地给出这种判断的可靠程度。
具体作法是:
(1)根据实际问题需要的可信程度确定临界值 ;
(2)利用公式(),由观测数据计算得到随机变量 2 的观测值;
(3)如果 ≥ ,就以 (1 − ( 2 ≥ 0 )) × 100%的把握认为“与有关系”;否
一:自学
两种变量:
定量变量:体重身高、温度、考试成绩等等
ቊ
分类变量:性别、是否吸烟、是否患肺癌、宗教信仰、国籍等等
在日常生活中,我们常常关心分类变量之间是否有关系:
例如,吸烟是否与患肺癌有关系?
性别是否对于喜欢数学课程有影响?等等。
研究两个变量的相关关系:
定量变量— — 回归分析(画散点图、相关系数、
根据表3-7中的数据,利用公式(1)计算得到K2的观测值为:
( × − × )2
=
≈ .
× × ×
那么这个值到底能告诉我们什么呢?
在H0成立的情况下,统计学家估算出如下的概率
P( K 2 6.635) 0.01.
没有发现反对 的充分证据。
(3)根据随机变量K2的含义,可以通过评价该假设不合理的程度,由实际计
算出的,说明假设合理的程度为99%,即“两个分类变量有关系”这一结论
条件期望与独立性检验
条件期望与独立性检验
在统计学中,条件期望和独立性检验是两个重要的概念,它们在分析数据和做出推断时起着至关重要的作用。
条件期望
条件期望是指在给定某个条件下另一个随机变量的期望。
具体地说,对于两个随机变量 X 和 Y,给定 Y 的某个取值 y,X 在给定 Y=y 的条件下的期望就是条件期望。
条件期望通常表示为 E(X|Y=y)。
条件期望在实际应用中有着广泛的用途。
例如,在回归分析中,条件期望可以帮助我们理解自变量和因变量之间的关系。
另外,在统计推断中,条件期望也经常用于估计参数和做出预测。
独立性检验
独立性检验是用来检验两个随机变量是否相互独立的方法。
在统计学中,独立性通常指的是两个随机变量的联合概率分布等于它们各自的边际概率分布的乘积。
简而言之,如果两个随机变量 X 和 Y 是独立的,那么它们之间不存在任何关联。
在实际问题中,我们经常需要通过独立性检验来验证数据之间的关系。
例如,在医学研究中,我们可能需要检验某种药物对疾病症状的影响是否独立于患者的年龄。
通过独立性检验,我们可以得出是否存在相关性的结论。
结论
条件期望和独立性检验作为统计学中的两个重要概念,为我们理解数据和做出推断提供了有力的工具。
通过对条件期望和独立性的理解,我们可以更深入地分析数据,并做出准确的结论。
在实际应用中,这两个概念的运用将有助于我们解决各种问题,提高决策的准确性和科学性。
独立性检验
8000 7000 6000 5000 4000 3000 2000 1000
0
不患肺癌
患肺癌
三维柱形图
吸烟 不吸烟
不吸烟 吸烟
2)通过图形直观判断两个分类变量是否相关:
9000 8000 7000 6000 5000 4000 3000 2000 1000
0
不吸烟
二维条形图
患肺癌 不患肺癌
吸烟
3)通过图形直观判断两个分类变量是否相关: 等高条形图
5)如果P(m>3.841)= 0.05表示有95%的把握认为”X与Y”有关系;
6)如果P(m>2.706)= 0.10表示有90%的把握认为”X与Y”有关系; 7)如果P(m≤2.706),就认为没有充分的证据显示”X与Y”有关系;
判断 是否成立的规则
如果 k 6.635 ,就判断 H0 不成立,即认为吸烟与
不吸烟 吸烟 总计
不患肺癌 7775 2099 9874
患肺癌 42 49 91
总计 7817 2148 9965
在不吸烟者中患肺癌的比重是 0.54% 在吸烟者中患肺癌的比重是 2.28%
上述结论能说明吸烟与患肺癌有关吗?能有多大把握 认为吸烟与患肺癌有关呢?
1)通过图形直观判断两个分类变量是否相关:
ad - bc 越大,说明吸烟与患肺癌之间的关系越强
为了使不同样本容量的数据有统一的评判标准,
我们构造了一个随机变量:
K2 =
n(ad - bc)2
(a + b)(c + d)(a + c)(b + d)
作为检验在多大程度上可以认为“两个变量有关系” 的标准 。
设有两个分类变量X和Y它们的值域分别为{x1,x2}和 {y1,y2}其样本频数列表(称为2×2列联表)为
独立性检验
两个分类变量的相关关系的分析:通过图形直观判断两 个分类变量是否相关;独立性检验.
1、①列出两个分类变量的频数表,称为列联表,利用频数 分析分类变量的关系. 一 般 地 , 假 设 有 两 个 分 类 变 量 X 和 Y, 它 们 的 取 值 分 别 为 {x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为:
解:根据题目所给数据得到如下列联表:
患心脏病 不患心脏病
秃顶
214
175
不秃顶 451
597
总计
665
772
根据列联表中的数据,得到:
总计 389 1048 1437
K 2 1 4 3 7 (2 1 4 5 9 7 1 7 5 4 5 1 )2 1 6 .3 7 3 6 .6 3 5 . 3 8 9 1 0 4 8 6 6 5 7 7 2
理 文 合计 有兴趣 138 73 211 无兴趣 98 52 150
合计 236 125 361
代入公式得 K2 的观测值 k=3612×36×13182×5×522-117×3×159082≈1.871×10-4. ∵1 871×10-4<2.706,故可以认为学生选报文、理科与对 外语的兴趣无关.
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计 a+c b+d a+b+c+d ②等高条形图展示列联表数据的频率特征.
为调查吸烟是否对患肺癌有影响,某肿瘤研究所随机 地调查了9965人,得到如下结果(单位:人): 吸烟与患肺癌列联表(列出两个分类变量的频数表):
《独立性检验》
《独立性检验》一、内容与内容解析《独立性检验》为新课标教材中新增加的内容. 虽然本节是新增内容,理论比较复杂,教学时间也不长(1-2课时),但由于它贴近实际生活,在整个高中数学中,地位不可小视.在近几年各省新课标高考试题中,本节内容屡屡出现,而且多以解答题的形式呈现,其重要性可见一斑.该内容是前面学生在《数学3》(必修)中的统计知识的进一步应用,并与本册课本前面提到的事件的独立性一节关系紧密,此外还涉及到与《数学2-2》(选修)中讲到的“反证法”类似的思想.本小节的知识内容如右图。
“独立性检验”是在考察两个分类变量之间是否具有相关性的背景下提出的,因此教材上首先提到了分类变量的概念,并给出了考察两个分类变量之间是否相关的一种简单的思路,即借助等高条形图的方法,随后引出相对更精确地解决办法——独立性检验。
独立性检验的思想,建立在统计思想、假设检验思想(小概率事件在一次试验中几乎不可能发生)等基础之上,通常按照如下步骤对数据进行处理:明确问题→确定犯错误概率的上界α及2K 的临界值0k →收集数据→整理数据→制列联表→计算统计量2K 的观测值k →比较观测值k 与临界值0k 并给出结论.本节的重点内容是通过实例让学生体会独立性检验的基本思想,掌握独立性检验的一般步骤.二、目标与目标解析本节课的教学目标是主要有:1.理解分类变量(也称属性变量或定性变量)的含义,体会两个分类变量之间可能具有相关性;2.通过对典型案例(吸烟和患肺癌有关吗?)的探究,了解独立性检验(只要求2×2列联表)的基本思想、方法、步骤及应用。
3.鼓励学生体验用多种方法(等高条形图法与独立性检验法)解决同一问题,并对各种方法进行比较。
4.让学生对统计方法有更深刻的认识,体会统计方法应用的广泛性,进一步体会科学的严谨性(如统计可能犯错误,原因可能是收集的数据样本容量小或样本采集不合理,也可能是理论上的漏洞,如在一次实验中,我们假设小概率事件不发生,这一点本身就值得质疑). 其中第2条是重点目标,也是《课程标准》中明确指出的教学要求之一. 三、教学问题诊断分析基于对学生已有数学水平的分析,在本节新学内容时,有以下几点是初学者不易理解或掌握的:1.2K 的结构比较奇怪,来的也比较突然,学生可能会提出疑问.关于这个问题的处理,要首先利用好前面对“比例”或者两个分类变量“独立”的分析。
统计学中的独立性检验
统计学中的独立性检验统计学中的独立性检验(Test of Independence)是一种常用的统计方法,用于研究两个或多个分类变量之间是否存在相互独立的关系。
通过对随机抽样数据进行分析,可以判断不同变量之间是否有关联,并衡量关联的强度。
本文将介绍独立性检验的基本原理、常用的检验方法以及实际应用。
一、独立性检验的基本原理独立性检验的基本原理是基于统计学中的卡方检验(Chi-Square Test)。
卡方检验是一种非参数检验方法,用于比较观察值频数与期望频数之间的差异。
在独立性检验中,我们首先建立一个原假设,即所研究的两个或多个变量之间不存在关联,然后通过计算卡方统计量来判断观察值与期望值之间的差异是否显著。
二、常用的独立性检验方法1. 皮尔逊卡方检验(Pearson's Chi-Square Test):这是最常见的独立性检验方法,适用于有两个以上分类变量的情况。
它基于观察频数和期望频数之间的差异,计算出一个卡方统计量,并根据卡方分布表给出显著性水平。
2. Fisher精确检验(Fisher's Exact Test):当样本量较小或者某些期望频数很小的情况下,皮尔逊卡方检验可能存在一定的偏差。
在这种情况下,可以使用Fisher精确检验来代替皮尔逊卡方检验,得到更准确的结果。
3. McNemar检验:适用于配对数据比较的独立性检验,例如一个样本在两个时间点上的观察结果。
三、独立性检验的实际应用独立性检验在各个领域都有广泛的应用,以下是几个常见的实际应用场景:1. 医学研究:独立性检验可以用于研究某种药物治疗方法是否具有显著的疗效,或者判断不同年龄组和性别之间是否存在患病率的差异。
2. 教育领域:独立性检验可用于研究学生成绩与家庭背景、教育水平之间是否存在关联。
3. 市场调研:在市场调研中,可以通过独立性检验来分析不同年龄、性别、收入水平等因素对消费者购买习惯的影响。
4. 社会科学研究:独立性检验可以帮助社会科学研究人员探索个体特征与社会行为之间的关系,例如政治倾向与不同年龄群体之间的关联性等。
独立性检验
一.随机抽样1.随机抽样:满足每个个体被抽到的机会是均等的抽样,共有三种经常采用的随机抽样方法:⑴简单随机抽样:从元素个数为N 的总体中不放回地抽取容量为n 的样本,如果每一次抽取时总体中的各个个体有相同的可能性被抽到,这种抽样方法叫做简单随机抽样. 抽出办法:①抽签法:用纸片或小球分别标号后抽签的方法.②随机数表法:随机数表是使用计算器或计算机的应用程序生成随机数的功能生成的一张数表.表中每一位置出现各个数字的可能性相同. 随机数表法是对样本进行编号后,按照一定的规律从随机数表中读数,并取出相应的样本的方法.简单随机抽样是最简单、最基本的抽样方法.⑵系统抽样:将总体分成均衡的若干部分,然后按照预先制定的规则,从每一部分抽取一个个体,得到所需要的样本的抽样方法.抽出办法:从元素个数为N 的总体中抽取容量为n 的样本,如果总体容量能被样本容量整除,设Nk n=,先对总体进行编号,号码从1到N ,再从数字1到k 中随机抽取一个数s 作为起始数,然后顺次抽取第2(1)s k s k s n k +++-,,,个数,这样就得到容量为n 的样本.如果总体容量不能被样本容量整除,可随机地从总体中剔除余数,然后再按系统抽样方法进行抽样.系统抽样适用于大规模的抽样调查,由于抽样间隔相等,又被称为等距抽样.⑶分层抽样:当总体有明显差别的几部分组成时,要反映总体情况,常采用分层抽样,使总体中各个个体按某种特征分成若干个互不重叠的几部分,每一部分叫做层,在各层中按层在总体中所占比例进行简单随机抽样,这种抽样方法叫做分层抽样.分层抽样的样本具有较强的代表性,而且各层抽样时,可灵活选用不同的抽样方法,应用广泛.2.简单随机抽样必须具备下列特点:⑴简单随机抽样要求被抽取的样本的总体个数N 是有限的. ⑵简单随机样本数n 小于等于样本总体的个数N . ⑶简单随机样本是从总体中逐个抽取的. ⑷简单随机抽样是一种不放回的抽样.⑸简单随机抽样的每个个体入样的可能性均为nN.3.系统抽样时,当总体个数N 恰好是样本容量n 的整数倍时,取Nk n=;若Nn不是整数时,先从总体中随机地剔除几个个体,使得总体中剩余的个体数能被样本容量n 整除.因为每个个体被剔除的机会相等,因而整个抽样过程中每个个体被抽取的机会仍知识内容板块五.独立性检验然相等,为N n.二.频率直方图列出样本数据的频率分布表和频率分布直方图的步骤:①计算极差:找出数据的最大值与最小值,计算它们的差;②决定组距与组数:取组距,用极差组距决定组数;③决定分点:决定起点,进行分组;④列频率分布直方图:对落入各小组的数据累计,算出各小数的频数,除以样本容量,得到各小组的频率.⑤绘制频率分布直方图:以数据的值为横坐标,以频率组距的值为纵坐标绘制直方图,知小长方形的面积=组距×频率组距=频率.频率分布折线图:将频率分布直方图各个长方形上边的中点用线段连接起来,就得到频率分布折线图,一般把折线图画成与横轴相连,所以横轴左右两端点没有实际意义.总体密度曲线:样本容量不断增大时,所分组数不断增加,分组的组距不断缩小,频率分布直方图可以用一条光滑曲线()y f x =来描绘,这条光滑曲线就叫做总体密度曲线.总体密度曲线精确地反映了一个总体在各个区域内取值的规律.三.茎叶图制作茎叶图的步骤:①将数据分为“茎”、“叶”两部分;②将最大茎与最小茎之间的数字按大小顺序排成一列,并画上竖线作为分隔线; ③将各个数据的“叶”在分界线的一侧对应茎处同行列出.四.统计数据的数字特征用样本平均数估计总体平均数;用样本标准差估计总体标准差. 数据的离散程序可以用极差、方差或标准差来描述.极差又叫全距,是一组数据的最大值和最小值之差,反映一组数据的变动幅度; 样本方差描述了一组数据平均数波动的大小,样本的标准差是方差的算术平方根. 一般地,设样本的元素为12n x x x ,,,样本的平均数为x , 定义样本方差为222212()()()n x x x x x x s n-+-++-=,样本标准差s =简化公式:22222121[()]n s x x x nx n=+++-.五.独立性检验1.两个变量之间的关系;常见的有两类:一类是确定性的函数关系;另一类是变量间存在关系,但又不具备函数关系所要求的确定性,它们的关系是带有一定随机性的.当一个变量取值一定时,另一个变量的取值带有一定随机性的两个变量之间的关系叫做相关关系. 2.散点图:将样本中的n 个数据点()(12)i i x y i n =,,,,描在平面直角坐标系中,就得到了散点图.散点图形象地反映了各个数据的密切程度,根据散点图的分布趋势可以直观地判断分析两个变量的关系. 3.如果当一个变量的值变大时,另一个变量的值也在变大,则这种相关称为正相关;此时,散点图中的点在从左下角到右上角的区域.反之,一个变量的值变大时,另一个变量的值由大变小,这种相关称为负相关.此时,散点图中的点在从左上角到右下角的区域.散点图可以判断两个变量之间有没有相关关系. 4.统计假设:如果事件A 与B 独立,这时应该有()()()P AB P A P B =,用字母0H 表示此式,即0:()()()H P AB P A P B =,称之为统计假设. 5.2χ(读作“卡方”)统计量:统计学中有一个非常有用的统计量,它的表达式为22112212211212()n n n n n n n n n χ++++-=,用它的大小可以用来决定是否拒绝原来的统计假设0H .如果2χ的值较大,就拒绝0H ,即认为A 与B 是有关的.2χ统计量的两个临界值:3.841、6.635;当2 3.841χ>时,有95%的把握说事件A 与B 有关;当2 6.635χ>时,有99%的把握说事件A 与B 有关;当2 3.841χ≤时,认为事件A 与B 是无关的.独立性检验的基本思想与反证法类似,由结论不成立时推出有利于结论成立的小概率事件发生,而小概率事件在一次试验中通常是不会发生的,所以认为结论在很大程度上是成立的. 1.独立性检验的步骤:统计假设:0H ;列出22⨯联表;计算2χ统计量;查对临界值表,作出判断.2.几个临界值:222()0.10( 3.841)0.05( 6.635)0.01P P P χχχ≈≈≈≥2.706,≥,≥.22⨯联表的独立性检验:如果对于某个群体有两种状态,对于每种状态又有两个情况,这样排成一张22⨯的表,如下:如果有调查得来的四个数据11122122n 4个数据来检验上述的两种状态A 与B 是否有关,就称之为22⨯联表的独立性检验.六.回归分析1.回归分析:对于具有相关关系的两个变量进行统计分析的方法叫做回归分析,即回归分析就是寻找相关关系中这种非确定关系的某种确定性. 回归直线:如果散点图中的各点都大致分布在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线. 2.最小二乘法:记回归直线方程为:ˆya bx =+,称为变量Y 对变量x 的回归直线方程,其中ab ,叫做回归系数.ˆy是为了区分Y 的实际值y ,当x 取值i x 时,变量Y 的相应观察值为i y ,而直线上对应于i x 的纵坐标是ˆi i ya bx =+. 设x Y ,的一组观察值为()i i x y ,,12i n =,,,,且回归直线方程为ˆy a bx =+, 当x 取值i x 时,Y 的相应观察值为i y ,差ˆ(12)i i y y i n -=,,,刻画了实际观察值i y 与回归直线上相应点的纵坐标之间的偏离程度,称这些值为离差.我们希望这n 个离差构成的总离差越小越好,这样才能使所找的直线很贴近已知点. 记21()ni i i Q y a bx ==--∑,回归直线就是所有直线中Q 取最小值的那条.这种使“离差平方和为最小”的方法,叫做最小二乘法.用最小二乘法求回归系数a b ,有如下的公式: 1221ˆni ii nii x ynxy bxnx ==-=-∑∑,ˆˆay bx =-,其中a b ,上方加“^”,表示是由观察值按最小二乘法求得的回归系数.3.线性回归模型:将用于估计y 值的线性函数a bx +作为确定性函数;y 的实际值与估计值之间的误差记为ε,称之为随机误差;将y a bx ε=++称为线性回归模型. 产生随机误差的主要原因有:①所用的确定性函数不恰当即模型近似引起的误差; ②忽略了某些因素的影响,通常这些影响都比较小; ③由于测量工具等原因,存在观测误差. 4.线性回归系数的最佳估计值:利用最小二乘法可以得到ˆˆa b ,的计算公式为 1122211()()()()nnii iii i nniii i xx y y x ynx yb xx xn x ====---==--∑∑∑∑,ˆˆay bx =-,其中11n i i x x n ==∑,11ni i y y n ==∑ 由此得到的直线ˆˆya bx =+就称为回归直线,此直线方程即为线性回归方程.其中ˆa ,b 分别为a ,b 的估计值,ˆa称为回归截距,b 称为回归系数,ˆy 称为回归值. 5.相关系数:()()nniii ix x yy x ynxyr ---==∑∑6.相关系数r 的性质: ⑴||1r ≤;⑵||r 越接近于1,x y ,的线性相关程度越强; ⑶||r 越接近于0,x y ,的线性相关程度越弱.可见,一条回归直线有多大的预测功能,和变量间的相关系数密切相关. 7.转化思想:根据专业知识或散点图,对某些特殊的非线性关系,选择适当的变量代换,把非线性方程转化为线性回归方程,从而确定未知参数. 8.一些备案 ①回归(regression )一词的来历:“回归”这个词英国统计学家Francils Galton 提出来的.1889年,他在研究祖先与后代的身高之间的关系时发现,身材较高的父母,他们的孩子也较高,但这些孩子的平均身高并没有他们父母的平均身高高;身材较矮的父母,他们的孩子也较矮,但这些孩子的平均身高却比他们父母的平均身高高.Galton 把这种后代的身高向中间值靠近的趋势称为“回归现象”.后来,人们把由一个变量的变化去推测另一个变量的变化的方法称为回归分析.②回归系数的推导过程:22222[()]222i i i i i i i i Q y a bx y a y na b x y ab x b x =--=-+-++∑∑∑∑∑∑ 22222()2i i i i i i na a b x y b x b x y y =+-+-+∑∑∑∑∑, 把上式看成a 的二次函数,2a 的系数0n >,因此当2()2i i i ib x y y b x a n n --=-=∑∑∑∑时取最小值.同理,把Q 的展开式按b 的降幂排列,看成b 的二次函数,当2i iiix y a xb x-=∑∑∑时取最小值.解得:12221()()()ni iii i niii x ynxyx x y y b x x xnx==---==--∑∑∑∑,a y bx =-, 其中1i y y n =∑,1i x x n=∑是样本平均数. 9. 对相关系数r 进行相关性检验的步骤: ①提出统计假设0H :变量x y ,不具有线性相关关系;②如果以95%的把握作出推断,那么可以根据10.950.05-=与2n -(n 是样本容量)在相关性检验的临界值表中查出一个r 的临界值0.05r (其中10.950.05-=称为检验水平); ③计算样本相关系数r ;④作出统计推断:若0.05||r r >,则否定0H ,表明有95%的把握认为变量y 与x 之间具有线性相关关系;若0.05||r r ≤,则没有理由拒绝0H ,即就目前数据而言,没有充分理由认为变量y 与x 之间具有线性相关关系. 说明:⑴对相关系数r 进行显著性检验,一般取检验水平0.05α=,即可靠程度为95%.⑵这里的r 指的是线性相关系数,r 的绝对值很小,只是说明线性相关程度低,不一定不相关,可能是非线性相关的某种关系.⑶这里的r 是对抽样数据而言的.有时即使||1r =,两者也不一定是线性相关的.故在统计分析时,不能就数据论数据,要结合实际情况进行合理解释.题型一 独立性检验【例1】 对变量X 与Y 的卡方统计量2χ的值,说法正确的是( )A .2χ越大,“X 与Y 有关系”可信程度越小;B .2χ越小,“X 与Y 有关系”可信程度越小;C .2χ越接近0,“X 与Y 无关”程度越小;D .2χ越大,“X 与Y 无关”程度越大.【例2】 若由一个22⨯列联表中的数据计算得2 4.013χ=,那么有 把握认为两个变量有关系.典例分析【例3】 若由一个22⨯列联表中的数据计算得24395χ=.,那么确认两个变量有关系的把握性有( )A .90%B .95%C .99%D .99.5%【例4】 提出统计假设0H ,计算出2χ的值,则拒绝0H 的是( )A .27.331χ=B .2 2.9χ=C .20.8χ=D .2 1.9χ=【例5】 给出假设0H ,下列结论中不能接受0H 的是( )A .2 2.535χ=B .27.723χ=C .210.321χ=D .220.125χ=【例6】 某高校食堂随机调查了一些学生是否因距离远近而选择食堂就餐的情况,经计算得到2 4.932χ=.所以判定距离远近与选择食堂有关系,那么这种判断出错的可能性为多少?【例7】 某班主任对全班50名学生进行了作业量的调查,数据如下表:A .99%B .95%C . 90%D .无充分根据【例8】 下表中给出了某周内中学生是否喝过酒的随机调查结果,若要使结论的可靠性不低于95%,根据所调查的数据,能否作出该周内中学生是否喝过酒与性别有关的结论?【例9】 在一次恶劣气候的飞机航程中,调查了男女乘客在飞机上晕机的情况:男乘客晕机的有24人,不晕机的有31人;女乘客晕机的有8人,不晕机的有26人.请你根据所给数据判断是否在恶劣气候飞行中,男人比女人更容易晕机.【例10】为研究不同的给药方式(口服或注射)和药的效果(有效与无效)是否有关,进行了相应的抽样调查,调查结果如表所示.根据所选择的193个病人的数据,能否作出药的效果与给药方式有关的结论?【例11】考察棉花种子经过处理跟生病之间的关系得到如下表数据:【例12】气管炎是一种常见的呼吸道疾病,医药研究人员对两种中草药治疗慢性气管炎的疗效进行对比,所得数据如表所示.问它们的疗效有无差异(可靠性不低于99%)?【例13】 在对人们的休闲方式的一次调查中,共调查了124人,其中女性70人,男性54人.女性中有43人主要的休闲方式是看电视,另外27人主要的休闲方式是运动;男性中有21人主要的休闲方式是看电视,另外33人主要的休闲方式是运动.⑴根据以上数据建立一个22⨯的联表;⑵判断性别与休闲方式是否有关系.【例14】 (2010课标全国卷Ⅰ高考)为调查某地区老年人是否需要志愿者提供帮助,用简单随机抽样方法从该地区调查了500位老年人,结果如下:⑵能否有99%的把握认为该地区的老年人是否需要志愿者提供帮助与性别有关? ⑶根据⑵的结论,能否提出更好的调查方法来估计该地区的老年人中,需要志愿者提供帮助的老年人的比例?说明理由.附:22()()()()()n ad bc K a b c d a c b d -=++++【例15】 某校高三年级在一次全年级的大型考试中,数学优秀的有360人,非优秀的有880人.数学成绩优秀和非优秀的学生中,物理、化学、总分也为优秀的人数如下表所示,则数学成绩优秀与物理、化学、总分也优秀哪个关系较大?【例16】 (2010辽宁高考)为了比较注射A ,B 两种药物后产生的皮肤疱疹的面积,选200只家兔做试验,将这200只家兔随机地分成两组,每组100只,其中一组注射药物A ,另一组注射药物B .⑴甲、乙是200只家兔中的2只,求甲、乙分在不同组的概率;⑵下表1和表2分别是注射药物A 和B 后的试验结果.(疱疹面积单位:2mm ) 表1:注射药物A 后皮肤疱疹面积的频数分布表频率疱疹面积图Ⅰ注射药物A 后皮肤疱疹面积的频率分布直方图 图Ⅱ注射药物B 后皮肤疱疹面积的频率分布直方图(ⅱ)完成下面22⨯列联表,并回答能否有99.9%的把握认为“注射药物A 后的疱疹面积与注射药物B 后的疱疹面积有差异”. 表3:附:2K ()()()()a b c d a c b d =++++【例17】 (2009辽宁20)某企业有两个分厂生产某种零件,按规定内径尺寸(单位:mm )的值落在[)29.9430.06,的零件为优质品.从两个分厂生产的零件中个抽出500件,量其内径尺寸,的结果如下表:⑵由于以上统计数据填下面22⨯列联表,并问是否有99%的把握认为“两个分厂生产的零件的质量有差异”.频率疱疹面积。
8.3.2独立性检验 课件—高二下数学人教A版(2019)选择性必修第三册
P( x )
2
临界值xα
的方法称为χ2独立性检验,
读作“卡方独立性检验”,
简称独立性检验.
概率值α越小,临界值xα越大.
这种利用χ2的取值推断分类变量X和Y是否独立的方法称为χ2独立
性检验,读作“卡方独立性检验”,简称独立性检验.
犯错误的
概率
例2: 依据小概率值α=0.1的χ2独立性检验,分析例1中的抽样数据,
甲校
乙校
合计
你认为“两校学生的数
学成绩优秀率存在差异”
这一结论是否有可能是
错误的?
因此,需要找到一种更为合理的推断方法,希望能对出现错误
判断的概率有一定的控制或估算。
本节课给到一个方法:独立性检验
独立性检验是一种“概率反证法”。依据是小概率原理(在一次实
验中几乎不可能发生)
找到了,假设不成立,嫌
疑人有罪。
例4 :为研究吸烟是否与肺癌有关,某肿瘤研究所采取有放回简单随机
抽样的方法,调查了9965人,得到成对样本观测数据的分类统计结果,
如下表所示. 依据小概率值α=0.001的独立性检验,分析吸烟是否会增加
患肺癌的风险.
解:零假设为H0: 吸烟与患肺癌之间
无关联,由表中数据可得
9965(7775 49 42 2099)
数学成绩
不优秀
优秀
合计
甲校
乙校
合计
解:零假设为H0:分类变量X与Y相互独立,即两校学生的数学成绩优
秀率无差异根据表中的数据,计算得到
2
88
(33
7
10
38)
2
0.837 2.706 x0.1
独立性检验(课件)高二数学(人教A版2019选修第三册)
|ad-bc|越大,说明玩电脑游戏与注意力集中之间的关系越强.
为了使不同样本容量的数据有统一的评判标准,我们构造一个随
机变量
n(ad-bc)2 χ2=
(a+b)(c+d)(a+c)(b+d)
这种利用χ2的取值推断分类变量X和Y是否独立的方法称为χ2独立性 检验,读作卡方独立性检验,简称独立性检验.
若H0成立,即玩电脑游戏与注意力集中没有关系,则χ2应该 很小;若H0不成立,即玩电脑游戏与注意力集中有关系,则χ2应 该很大.那么,究竟χ2大到什么程度,可以推断H0不成立呢?
2 88(33 7 10 38)2
43 45 7117
α
0.1 0.05 0.01 0.005
xα 2.706 3.841 6.635 7.879
学校
甲校(X=0) 乙校(X=1)
合计
数学成绩
不优秀(Y=0) 优秀(Y=1)
33
10
38
7
71
17
0.001 10.828
合计
43 45 88
0.837 2.706 x0.1.
于不同的小概率值α的检验规则,对应不同的临界值x0,其与χ2的大小关 系可能不同,相当于检验的标准发生变化,因此结论可能会不同.
3. 为考察某种药物A对预防疾病B的效果,进行了动物试验,根据105个有
放回简单随机样本的数据,得到如下列联表: 依据α=0.05的独立性检验,分析药物A对
药物A
疾病B 未患病 患病
解:根据题意,可得
xα 2.706 3.841 6.635 7.879 10.828
2 4.881 3.841 x0.05 .
根据小概率值α=0.05的χ2独立性检验,推断H0不成立,即认为两种疗 法的效果有差异,该推断犯错误的概率不超过0.05.
第五章 第二次课 第二节独立性检验
第五章 第二节独立性检验独立性检验的定义又叫列联表(contigency table )χ2检验,它是研究两个或两个以上因子彼此之间是独立还是相互影响的一类统计方法。
2×2 列联表的独立性检验设A ,B 是一个随机试验中的两个事件,其中A 可能出现r1 、r2个结果,B 可能出现c1、c2个结果,两因子相互作用形成4格数,分别以O11 、O12 、O21 、O22表示,下表是2×2列联表的一般形式检验步骤1.提出无效假设H0 :事件A 和事件B 无关, 同时给出HA :事件A 和事件B 有关联关系;2.给出显著水平α3.依据H0 ,可以推算出理论数,计算χ2值4.确定自由度,df=(r-1)(c-1),进行推断。
给药方式与给药效果的2×2列联表H 0 H A H 0 H A1.H0 :给药方式与给药效果相互独立。
HA :给药方式与给药效果有关联。
2.给出显著水平α=0.053.根据H0,运用概率乘法法则:事件A 与事件B 同时出现的概率为:P(AB)=P(A)P(B) 口服与有效同时出现的理论频率=口服频率×有效频率,即P(AB)=P(A)P(B)=98/193 ×122/193理论频数Ei =理论频率×总数= (98/193 ×122/193) ×193 =(98 × 122)/193=61.95即Eij =Ri ×Cj/T=行总数×列总数/总数E11= R1 × C1/T=61.95 E12= R1 × C2/T=36.05 E21= R2 × C1/T=60.05 E22= R2 × C2/T=34.95 给药方式与给药效果的2×2列联表计算χ2值:由于df=(r-1)(c-1)=(2-1)(2-1)=1,故所计算的χ2值需进行连续性矫正:4.P >0.05,应接受T/22×c列联表的独立性检验由于例:检测甲、乙、丙三种农药对烟蚜的毒杀效果,结果如下,使分析这三种农药对烟蚜的毒杀效果是否一致?三种农药毒杀烟蚜的死亡情况1. H0 :对烟蚜毒杀效果与农药无关,农药类型间互相独立;HA :二者有关2.取显著水平α=0.053.统计数的计算χ值的计算:(4)查χ2值表,进行推断查χ2表,当df=(2-1)(3-1)=2时,χ20.05 =5.99,现实得χ2=7.694>χ20.05 ,则拒绝H0 ,接受HA ,说明三种农药对烟蚜的毒杀效果不一致。
独立性检验的困难、对策与价值
独立性检验的困难、对策与价值独立性检验是数据分析中常用的一种检验,用于确定两个变量是否彼此独立。
其中,一个变量被称为自变量,另一个变量为因变量。
该检验的结果可以告诉我们两个变量之间的相关性。
然而,独立性检验也存在一些困难和挑战,需要采取相应的对策和方法解决。
本文将探讨独立性检验的困难、对策和价值。
独立性检验的困难独立性检验的主要困难在于数据的收集和整理。
数据的质量是进行独立性检验的基础。
如果数据存在缺失或错误的情况,就会影响到检验的结果。
此外,如果数据集的规模较小,检验的结果可能不够准确。
因此,数据的采集和整理是进行独立性检验的关键。
另一个困难是如何选择合适的检验方法。
独立性检验有多种方法,如卡方检验、Fisher确切性检验、Z检验等。
不同的检验方法有不同的前提条件和适用范围。
因此,选择合适的检验方法需要考虑数据的分布和样本量等因素。
最后,独立性检验中还需要考虑到样本的分层和分组。
如果样本被分成多个层次或组别,就需要采用相应的分层独立性检验或多元独立性检验方法。
这样可以更加全面地分析样本的相关性,但也增加了计算和分析的复杂性。
独立性检验的对策为了克服独立性检验的困难,我们可以采取以下对策:首先,需要确保数据的准确性和完整性。
在进行独立性检验之前,应该对数据进行清理和预处理,包括去除异常值、缺失值以及不符合逻辑的值,以保证数据的质量。
其次,选择合适的检验方法。
在选择检验方法时,应该根据数据的类型和样本量等因素,选择适合的方法。
此外,还应该考虑检验方法的优缺点,以及不同方法的适用范围和前提条件。
最后,对于分层或分组的样本,需要采用相应的方法进行分析。
这些方法可以更好地研究样本的相关性,但需要更复杂的计算和分析过程。
独立性检验的价值独立性检验在数据分析中具有重要的价值。
首先,它可以帮助我们了解两个变量之间的相关性。
例如,在医学研究中,可以通过独立性检验来确定某个因素是否与一种疾病有关。
这样可以为疾病治疗和预防提供科学依据。
独立性检验
(2011 宁夏)某种产品的质量以其质量指标值衡量,质量指标
值越大表明质量越好,且质量指标值大于或等于 102 的产品为
优质品, 现用两种新配方 (分别称为 A 配方和 B 配方) 做试验,
各生产了 100 件这种产品,并测量了每件产品的质量指标值, 得到下面试验结果:
(Ⅰ)分别估计用 A 配方,B 配方生产的产品的优质品率; (Ⅱ)已知用 B 配方生成的一件产品的利润 y(单位:元)与其质量指标 值 t 的关系式为
X 的分布列为 X -2 2 4 P 0.04 0.54 0.42
X 的数学期望值 EX=-2× 0.04+2× 0.54+4× 0.42=2.68
(3)查表比较K2与临界值的大小关系,作统计判断.
某班主任对全班50名学生学习积极性和对待班级 工作的态度进行了调查,统计数据如下表所示: 不太主动 参加班级 工作 7 19 25 25 合计
积极参加 班级工作 学习积极性高 学习积极性一般 18 6
合计
24
26
50
试运用独立性检验的思想方法分析:学生的学习积极性
的产品的优质品率的估计值为 0.3。 由试验结果知,用 B 配方生产的产品中优质
32 10 0.42 品的频率为 100 ,所以用
B 配方生产的产品
的优质品率的估计值为 0.42
(Ⅱ)用 B 配方生产的 100 件产品中,其质量指标值落入
区间 90,94 , 94,102 , 102,110 的频率分别为 0.04,,054,0.42,因 此 X 的可能值为-2,2,4 P(X=-2)=0.04, 即 P(X=2)=0.54, P(X=4)=0.42,
当K2≤2.706时,则认为事件A与B
8.3.2独立性检验(解析版)
独立性检验【学习目标】1.了解独立性检验的基本思想、方法及其简单应用2.理解判断两个分类变量是否有关系的常用方法、独立性检验中K2的含义及其实施步骤【自主学习】知识点独立性检验(1)定义:利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验.(2)K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d.(3)独立性检验的具体做法①根据实际问题的需要确定容许推断“两个分类变量有关系”犯错误概率的上界α,然后查表确定临界值k0.②利用公式计算随机变量K2的观测值k.③如果k≥k0,就推断“X与Y有关系”,这种推断犯错误的概率不超过α,否则就认为在犯错误的概率不超过α的前提下不能推断“X与Y有关系”,或者在样本数据中没有发现足够证据支持结论“X与Y有关系”.【合作探究】探究一 有关“相关的检验”【例1】某校对学生课外活动进行调查,结果整理成下表:用你所学过的知识进行分析,能否在犯错误的概率不超过0.005的前提下,认为“喜欢体育还是文娱与性别有关系”?解 判断方法如下:假设H 0“喜欢体育还是喜欢文娱与性别没有关系”,若H 0成立,则K 2应该很小. ∵a =21,b =23,c =6,d =29,n =79, ∴K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )=79×(21×29-23×6)244×35×27×52≈8.106.且P (K 2≥7.879)≈0.005即我们得到的K 2的观测值k ≈8.106超过7.879,这就意味着:“喜欢体育还是文娱与性别没有关系”这一结论成立的可能性小于0.005,即在犯错误的概率不超过0.005的前提下认为“喜欢体育还是喜欢文娱与性别有关”.归纳总结:(1)利用K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )求出K 2的观测值k 的值.再利用临界值的大小来判断假设是否成立.(2)解题时应注意准确代数与计算,不可错用公式,准确进行比较与判断.【练习1】为研究学生的数学成绩与对学习数学的兴趣是否有关,对某年级学生作调查得到如下数据:判断学生的数学成绩好坏与对学习数学的兴趣是否有关? 解 由公式得K 2的观测值k =189×(64×73-22×30)286×103×95×94≈38.459.∵38.459>10.828,∴有99.9%的把握说学生学习数学的兴趣与数学成绩是有关的.探究二 有关“无关的检验”【例2】为了探究学生选报文、理科是否与对外语的兴趣有关,某同学调查了361名高二在校学生,调查结果如下:理科对外语有兴趣的有138人,无兴趣的有98人,文科对外语有兴趣的有73人,无兴趣的有52人.分析学生选报文、理科与对外语的兴趣是否有关? 解 列出2×2列联表代入公式得K 2的观测值k =361×(138×52-73×98)2236×125×211×150≈1.871×10-4.∵1.871×10-4<2.706,∴可以认为学生选报文、理科与对外语的兴趣无关.归纳总结:运用独立性检验的方法:(1)列出2×2列联表,根据公式计算K 2的观测值k . (2)比较k 与k 0的大小作出结论.【练习2】第16届亚运会于2010年11月12日至27日在中国广州进行,为了搞好接待工作,组委会招募了16名男志愿者和14名女志愿者,调查发现,男、女志愿者中分别有10人和6人喜爱运动,其余人不喜爱运动. (1)根据以上数据完成以下2×2列联表:(2)根据列联表的独立性检验,能否在犯错误的概率不超过0.10的前提下认为性别与喜爱运动有关? 解 (1)(2)假设是否喜爱运动与性别无关,由已知数据可求得: K 2=30×(10×8-6×6)2(10+6)(6+8)(10+6)(6+8)≈1.157 5<2.706,因此,在犯错误的概率不超过0.10的前提下不能判断喜爱运动与性别有关.探究三 独立性检验的基本思想【例3】某企业有两个分厂生产某种零件,按规定内径尺寸(单位:mm)的值落在(29.94,30.06)的零件为优质品.从两个分厂生产的零件中各抽出500件,量其内径尺寸,结果如下表: 甲厂乙厂(1)试分别估计两个分厂生产的零件的优质品率;(2)由以上统计数据填下面2×2列联表,并问是否有99%的把握认为“两个分厂生产的零件的质量有差异”.附:K 2=n (ad -bc )(a +b )(c +d )(a +c )(b +d ),解 (1)甲厂抽查的产品中有360件优质品,从而甲厂生产的零件的优质品率估计为360500=72%;乙厂抽查的产品中有320件优质品,从而乙厂生产的零件的优质品率估计为320500=64%.(2)K 2=1 000×(360×180-320×140)2500×500×680×320≈7.353>6.635,所以有99%的把握认为“两个分厂生产的零件的质量有差异”.归纳总结:(1)解答此类题目的关键在于正确利用K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )计算k 的值,再用它与临界值k 0的大小作比较来判断假设检验是否成立,从而使问题得到解决.(2)此类题目规律性强,解题比较格式化,填表计算分析比较即可,要熟悉其计算流程,不难理解掌握.【练习3】下表是某地区的一种传染病与饮用水的调查表:(1)这种传染病是否与饮用水的卫生程度有关,请说明理由;(2)若饮用干净水得病5人,不得病50人,饮用不干净水得病9人,不得病22人.按此样本数据分析这种疾病是否与饮用水有关,并比较两种样本在反映总体时的差异.解 (1)假设H 0:传染病与饮用水无关.把表中数据代入公式得:K 2的观测值k =830×(52×218-466×94)2146×684×518×312≈54.21,∵54.21>10.828,所以拒绝H 0.因此我们有99.9%的把握认为该地区这种传染病与饮用不干净水有关. (2)依题意得2×2列联表:此时,K 2的观测值k =86×(5×22-50×9)14×72×55×31≈5.785.由于5.785>5.024,所以我们有97.5%的把握认为该种疾病与饮用不干净水有关.两个样本都能统计得到传染病与饮用不干净水有关这一相同结论,但(1)中我们有99.9%的把握肯定结论的正确性,(2)中我们只有97.5%的把握肯定.课后作业A组基础题一、选择题1.经过对K2的统计量的研究,得到了若干个临界值,当K2的观测值k>3.841时,我们() A.在犯错误的概率不超过0.05的前提下可认为X与Y有关B.在犯错误的概率不超过0.05的前提下可认为X与Y无关C.在犯错误的概率不超过0.01的前提下可认为X与Y有关D.没有充分理由说明事件X与Y有关系【答案】A2.用独立性检验来考察两个分类变量x与y是否有关系,当统计量K2的观测值() A.越大,“x与y有关系”成立的可能性越小B.越大,“x与y有关系”成立的可能性越大C.越小,“x与y没有关系”成立的可能性越小D.与“x与y有关系”成立的可能性无关【答案】B3.在一个2×2列联表中,由其数据计算得K2的观测值k=7.097,则这两个变量间有关系的可能性为()A.99% B.99.5%C.99.9% D.无关系【答案】A解析K2的观测值6.635<k<7.879,所以有99%的把握认为两个变量有关系.4.对两个分类变量A,B的下列说法中正确的个数为()①A与B无关,即A与B互不影响;②A与B关系越密切,则K2的值就越大;③K2的大小是判定A与B是否相关的唯一依据A.0 B.1 C.2 D.3【答案】B解析①正确,A与B无关即A与B相互独立;②不正确,K2的值的大小只是用来检验A 与B是否相互独立;③不正确,例如借助三维柱形图、二维条形图等.故选B.5.考察棉花种子经过处理跟生病之间的关系得到下表数据:根据以上数据,可得出()A.种子是否经过处理跟是否生病有关B.种子是否经过处理跟是否生病无关C.种子是否经过处理决定是否生病D.以上都是错误的【答案】B解析由K2=407×(32×213-61×101)293×314×133×274≈0.164<2.706,即没有把握认为种子是否经过处理跟是否生病有关. 二、填空题 6.根据下表计算:K 2的观测值k ≈________(保留3位小数). 【答案】 4.514解析 k =300×(37×143-85×35)2122×178×72×228≈4.514.7.如果K 2的观测值为6.645,可以认为“x 与y 无关”的可信度是________. 【答案】 1%解析 查表可知可信度为1%.8.为了解高中生作文成绩与课外阅读量之间的关系,某研究机构随机抽取了60名高中生,通过问卷调查,得到以下数据:由以上数据,计算得到K 2的观测值k ≈9.643,根据临界值表,有________把握认为课外阅读量大与作文成绩优秀有关. 【答案】 99.5%解析根据临界值表,9.643>7.879,在犯错误的概率不超过0.005的前提下,认为课外阅读量大与作文成绩优秀有关,即有99.5%的把握认为课外阅读量大与作文成绩优秀有关.9.为研究某新药的疗效,给50名患者服用此药,跟踪调查后得下表中的数据:设H0:服用此药的效果与患者的性别无关,则K2的观测值k≈________(小数点后保留三位有效数字),从而得出结论:服用此药的效果与患者的性别有关,这种判断出错的可能性为________.【答案】 4.8825%解析由公式计算得K2的观测值k≈4.882,∵k>3.841,∴我们有95%的把握认为服用此药的效果与患者的性别有关,从而有5%的可能性出错.三、解答题10.高中流行这样一句话“文科就怕数学不好,理科就怕英语不好”.下表是一次针对高三文科学生的调查所得数据,试问:在出错概率不超过0.025的前提下,能否判断“文科学生总成绩不好与数学成绩不好有关系”?解依题意,计算随机变量K2的观测值:k =913×(478×24-399×12)2490×423×877×36≈6.233>5.024,所以在出错概率不超过0.025的前提下,可以判断“文科学生总成绩不好与数学成绩不好有关系”.11.吃零食是中学生中普遍存在的现象,吃零食对学生身体发育有诸多不利影响,影响学生的健康成长.下表是性别与吃零食的列联表:请问喜欢吃零食与性别是否有关?解K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),把相关数据代入公式,得 K 2的观测值k =85×(5×28-40×12)217×68×45×40≈4.722>3.841.因此,在犯错误的概率不超过0.05的前提下,可以认为“喜欢吃零食与性别有关”. 12.在某校对有心理障碍学生进行测试得到如下列联表:试说明在这三种心理障碍中哪一种与性别关系最大?解 对于题中三种心理障碍分别构造三个随机变量K 21,K 22,K 23.其观测值分别为k 1,k 2,k 3.由表中数据列出焦虑是否与性别有关的2×2列联表可得k 1=110×(5×60-25×20)30×80×25×85≈0.863<2.706,同理,k 2=110×(10×70-20×10)230×80×20×90≈6.366>5.024,k 3=110×(15×30-15×50)230×80×65×45≈1.410<2.706.因此,在犯错误的概率不超过0.025的前提下,认为说谎与性别有关,没有充分的证据显示焦虑、懒惰与性别有关.B组能力提升一、选择题1.千百年来,我国劳动人民在生产实践中根据云的形状、走向、速度、厚度、颜色等的变化,总结了丰富的“看云识天气”的经验,并将这些经验编成谚语,如“天上钩钩云,地上雨淋淋”“日落云里走,雨在半夜后”……小波同学为了验证“日落云里走,雨在半夜后”,观察了所在地区A的100天日落和夜晚天气,得到如下2×2列联表:0010并计算得到219.05K≈,下列小波对地区A天气判断不正确的是()A. 夜晚下雨的概率约为1 2B. 未出现“日落云里走”夜晚下雨的概率约为5 14C. 有99.9%的把握认为“‘日落云里走’是否出现”与“当晚是否下雨”有关D. 出现“日落云里走”,有99.9%的把握认为夜晚会下雨【答案】:D【分析】把频率看作概率,即可判断,A B的正误;根据独立性检验可判断,C D的正误,即得【答案】.【详解】由题意,把频率看作概率可得:夜晚下雨的概率约为252511002+=,故A正确;未出现“日落云里走”夜晚下雨的概率约为255254514=+,故B正确;由219.0510.828K≈>,根据临界值表,可得有99.9%的把握认为“‘日落云里走’是否出现”与“当晚是否下雨”有关,故C正确;故D错误.故选:D.2.为了判断英语词汇量与阅读水平是否相互独立,某语言培训机构随机抽取了100位英语学习者进行调查,经过计算2K的观测值为7,根据这一数据分析,下列说法正确的()附:A. 有99%以上的把握认为英语词汇量与阅读水平无关B. 有99.5%以上的把握认为英语词汇量与阅读水平有关C. 有99.9%以上的把握认为英语词汇量与阅读水平有关D. 在犯错误的概率不超过1%的前提下,可以认为英语词汇量与阅读水平有关 【答案】:D 【分析】由题意()26.6350.01P K ≥=,由独立性检验的原理即可得解.【详解】由题意27K =,()26.6350.01P K ≥=,所以在犯错误的概率不超过1%的前提下,可以认为英语词汇量与阅读水平有关,有99%的把握认为英语词汇量与阅读水平有关. 故选:D.3.通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的22⨯列联表:由22()()()()()n ad bc a b c d a c b d χ-=++++算得,22110(40302020)7.860506050χ⨯⨯-⨯=≈⨯⨯⨯.附表:参照附表,得到的正确结论是()A. 在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”;B. 在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”;C. 有99%以上的把握认为“爱好该项运动与性别有关”;D. 有99%以上的把握认为“爱好该项运动与性别无关”.【答案】:C【分析】根据给定的2K的值,结合附表,即可得到结论.【详解】由22110(40302020)7.8 6.63560506050χ⨯⨯-⨯=≈>⨯⨯⨯,所以有99%以上的把握认为“爱好该项运动与性别有关.故选:C.4.在一次独立性检验中得到如下列联表:若这两个分类变量A和B没有关系,则a的可能值是() A. 200 B. 720C. 100D. 180【答案】:B 【分析】令2k 的观测值为零,解方程即得解.【详解】当a =720时,k =0,易知此时两个分类变量没有关系. 故【答案】为B5.(多选题)针对时下的“抖音热”,某校团委对“学生性别和喜欢抖音是否有关”作了一次调查,其中被调查的男女生人数相同,男生喜欢抖音的人数占男生人数的45,女生喜欢抖音的人数占女生人数35,若有95%的把握认为是否喜欢抖音和性别有关则调查人数中男生可能有( )人 附表:附:()()()()()22n ad bc K a b c d a c b d -=++++ A. 25 B. 45C. 60D. 75【答案】:BC 【分析】设男生的人数为()5n n N*∈,列出22⨯列联表,计算出2K 的观测值,结合题中条件可得出关于n 的不等式,解出n 的取值范围,即可得出男生人数的可能值.【详解】设男生的人数为()5n n N*∈,根据题意列出22⨯列联表如下表所示:则()221042310557321n n n n n n K n n n n ⨯⨯-⨯==⨯⨯⨯,由于有95%的把握认为是否喜欢抖音和性别有关,则23.841 6.632K ≤<,即103.841 6.63221n≤<,得8.066113.9272n ≤<, n N *∈,则n 的可能取值有9、10、11、12,因此,调查人数中男生人数的可能值为45或60. 故选:BC. 二、填空题6.某手机运营商为了拓展业务,现对该手机使用潜在客户进行调查,随机抽取国内国外潜在用户代表各100名,调查用户对是否使用该手机的态度,得到如图所示的等高条形图.根据等高图,______(填“有”或“没有”)99.5%以上的把握认为持乐观态度和国内外差异有关.(参考公式与数据:()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++)()20P K k ≥0.05 0.01 0.005 0.001 0k3.841 6.635 7.879 10.828【答案】:有依题意,可知国内代表乐观人数60人,不乐观人数40人,国外乐观人数40人,不乐观人数60人,总计乐观人数100人,不乐观人数100人,所以,而,所以有99.5%以上的把握认为持乐观态度和国内外差异有关.7.给给给给给给给 给线性回归方程y bx a =+必过点(),x y ;给相关系数r 越小,表明两个变量相关性越弱; ()22200606040408100100100100K ⨯-⨯==⨯⨯⨯87.879>给相关指数2R 越接近1,表明回归的效果越好;给在一个2×2列联表中,由计算得2K 的观测值k =13.079,则有99%以上的把握认为这两个变量之间没有关系;给设有一个线性回归方程35y x =-,则变量x 增加一个单位时,y 平均增加5个单位. 其中正确的说法有 (填序号).【答案】:给给对于给,应该是相关系数r 的绝对值越小,表明两个变量相关性越弱.所以它是错误的.对于给,应该是有99%以上的把握认为这两个变量之间有关系.对于给,应该是变量x 增加一个单位时,y 平均减少5个单位.故填给给.三、解答题8.随着现代教育技术的不断发展,我市部分学校开办智慧班教学,某校从甲乙两智慧班各随机抽取45名学生,调查两个班学生对智慧课堂的评价:“满意”与“不满意”,调查中发现甲班评价“满意”的学生人数比乙班评价“满意”的学生人数多9人,根据调查情况制成如下图所示的2×2列联表:(1)完成2×2列联表,并判断能否有97.5%的把握认为评价与班级有关系?(2)从甲乙两班调查评价为“不满意”的学生中按照分层抽样的方法随机抽取7人,现从这7人中选派3人到校外参加智慧课堂研究活动,求其中至少有2人选自乙班学生的概率. 附:22()()()()()n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.【答案】:(1)表格见解析,有97.5%的把握认为评价与班级有关系;(2)67. 【分析】 (1)首先根据题意填写22⨯列联表,再计算2 5.031 5.024=>K 即可得到结论.(2)首先根据题意得到甲班选取2人,乙班选取5人,再计算概率即可.【详解】(1)完成列联表如下:2290(3915306)=5.031 5.024********⨯-⨯=>⨯⨯⨯K . 所以有97.5%的把握认为评价与班级有关系.(2)抽样比17213==,甲班选取2人,乙班选取5人,则1232553767C C CpC+==.9.盲盒里面通常装的是动漫、影视作品的周边,或者设计师单独设计出来的玩偶.由于盒子上没有标注,购买者只有打开才会知道自己买到了什么,因此这种惊喜吸引了众多年轻人,形成了“盲盒经济”.某款盲盒内可能装有某一套玩偶的A、B、C三种样式,且每个盲盒只装一个.(1)若每个盲盒装有A、B、C三种样式玩偶的概率相同.某同学已经有了A样式的玩偶,若他再购买两个这款盲盒,恰好能收集齐这三种样式的概率是多少?(2)某销售网点为调查该款盲盒的受欢迎程度,随机发放了200份问卷,并全部收回.经统计,有30%的人购买了该款盲盒,在这些购买者当中,女生占23;而在未购买者当中,男生女生各占50%.请根据以上信息填写下表,并分析是否有95%的把握认为购买该款盲盒与性别有关?参考公式:()()()()()22n ad bca b c d a c b dχ-=++++,其中n a b c d=+++.参考数据:(3)该销售网点已经售卖该款盲盒6周,并记录了销售情况,如下表:由于电脑故障,第二周数据现已丢失,该销售网点负责人决定用第4、5、6周的数据求线性回归方程,再用第1、3周数据进行检验.①请用4、5、6周的数据求出y关于x的线性回归方程y bx a=+;(注:()()()1122211n ni i i ii in ni ii ix x y y x y nx ybx x x nx====---==--∑∑∑∑,a y bx=-)②若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2盒,则认为得到的线性回归方程是可靠的,试问①中所得的线性回归方程是否可靠?③如果通过②的检验得到的回归直线方程可靠,我们可以认为第2周卖出的盒数误差也不超过2盒,请你求出第2周卖出的盒数的可能取值;如果不可靠,请你设计一个估计第2周卖出的盒数的方案.【答案】:(1)29;(2)表格见解析,有95%把握认为购买该款盲盒与性别有关;(3)给2.514.5y x=+;给是可靠的;给第2周卖出的盒数的可能值为18、19、20、21.【分析】(1)用列举法写出所有基本事件,再从中找出满足要求的基本事件,用古典概型的公式即可求得结果;(2)通过计算,完成列联表,再计算出观测值2 4.714k ≈,比表中0.05所对应的数据3.841大,故得出结论“有95%把握认为购买该款盲盒与性别有关”;(3)给将第4、5、6周的数据代入公式,计算出b 和a ,写出回归直线方程;给将第1、3周的数据代入给所求出的回归直线方程进行检验,该方程可靠;给将2x =代入给所求出的回归直线方程,解得19.5y =,根据可靠性的要求,以及该应用题的实际要求,得出第2周卖出的盒数的可能取值.【详解】解:(1)由题意,基本事件空间为{}(,),(,),(,),(,),(,),(,),(,),(,),(,)A A A B A C B A B B B C C A C B C C Ω=,其中基本事件的个数为9,设事件D 为:“他恰好能收集齐这三种样式”,则()(){},,,D B C C B =,其中基本事件的个数为2, 则他恰好能收集齐这三种样式的概率29P =; (2)22200(40702070) 4.7141109060140k ⨯-⨯=≈⨯⨯⨯, 又因为4.714 3.841>,故有95%把握认为“购买该款盲盒与性别有关”;(3)给由数据,求得5x =,27y =,由公式求得 222(45)(2527)(55)(2627)(65)(3027)5(45)(55)(65)2b --+--+--==-+-+-, 527514.52a =-⨯=, 所以y 关于x 的线性回归方程为 2.514.5y x =+;给当1x =时, 2.5114.517y =⨯+=,17162-<,同样,当3x =时, 2.5314.522y =⨯+=,22232-<,所以,所得到的线性回归方程是可靠的;给由给可知回归直线方程可靠,2x =时 2.5214.519.5y =⨯+=,设第二周卖出的盒数为()n n N ∈,则19.52n -≤,≤≤,n17.521.5给n能取18、19、20、21,即第2周卖出的盒数的可能值为18、19、20、21.【点睛】本题考查了古典概型的概率计算,独立性检验的实际应用,线性回归直线方程的求解及实际应用问题,综合性较强.10.阿基米德是古希腊伟大的哲学家、数学家、物理学家,对几何学、力学等学科作出过卓越贡献.为调查中学生对这一伟大科学家的了解程度,某调查小组随机抽取了某市的100名高中生,请他们列举阿基米德的成就,把能列举阿基米德成就不少于3项的称为“比较了解”,少于三项的称为“不太了解”.他们的调查结果如下:(1)完成如下2×2列联表,并判断是否有99%的把握认为,了解阿基米德与选择文理科有关?(2)在抽取的100名高中生中,按照文理科采用分层抽样的方法抽取10人的样本. (i )求抽取的文科生和理科生的人数;(ii )从10人的样本中随机抽取3人,用X 表示这3人中文科生的人数,求X 的分布列和数学期望.参考数据:22()()()()()n ad bc k a b c d a c b d -=++++,n a b c d =+++. 【答案】:(1)见解析;(2) (i )文科生3人,理科生7人 (ii )见解析【分析】(1)写出列联表后可计算2K ,根据预测值表可得没有99%的把握认为,了解阿基米德与选择文理科有关.(2)(i )文科生与理科生的比为310,据此可计算出文科生和理科生的人数. (ii )利用超几何分布可计算X 的分布列及其数学期望.【详解】解:(1)依题意填写列联表如下:计算222()100(42182812) 3.382 6.635()()()()30705446n ad bc K a b c d a c b d -⨯-⨯==≈<++++⨯⨯⨯, ∴没有99%的把握认为,了解阿基米德与选择文理科有关.(2)(i )抽取的文科生人数是30103100⨯=(人),理科生人数是70107100⨯=(人). (ii )X 的可能取值为0,1,2,3,则0337310C C 7(0)C 24P X ===⋅, 1237310C C 21(1)C 40P X ===⋅, 17213307(2)40C C P X C ⋅===, 3037310C C 1(3)C 120P X ===⋅. 其分布列为所以72171369()01232440401204010E X =⨯+⨯+⨯+⨯==.31。
独立性检验
合计
甲
24
6
30
乙
12
18
30
合计
36
24
60
零假设为H0:加工零件的质量与甲、乙无关. 则 χ2=a+bcn+add-ab+cc2b+d
=60×30×243×0×183-6×6×24122=10>6.635=x0.01,
根据小概率值α=0.01的独立性检验,我们推断H0不成立.即认为加工零 件的质量与甲、乙有关.
解 2×2列联表如表所示:
教师年龄 老教师
对新课程教学模式
赞同
不赞同
10
10
合计 20
青年教师
Hale Waihona Puke 24630合计
34
16
50
(2)试根据小概率值α=0.01的独立性检验,分析对新课程教学模式的赞 同情况与教师年龄是否有关系.
解 零假设为H0:对新课程教学模式的赞同情况与教师年龄无关. 由公式得 χ2=50×34×101×6×6-202×4×30102≈4.963<6.635=x0.01, 根据小概率值α=0.01的独立性检验,没有充分证据推断H0不成立,即 认为对新课程教学模式的赞同情况与教师年龄无关.
无关”
√D.在犯错误的概率不超过0.5%的前提下,认为“经常使用手机与数学学习成绩
有关”
解析 零假设为H0:经常使用手机与数学学习成绩无关, 由题中数据可得,χ2=50252×0×251×5-305××21002=235≈8.333>7.879=x0.005,
根据小概率值α=0.005的独立性检验,我们推断H0不成立,即在犯错误 的概率不超过0.5%的前提下,认为“经常使用手机与数学学习成绩有关”.
16-17版:1.1 独立性检验(创新设计)
9
规律方法 利用 χ2=nn11n22-n12n212,准确代数与 n1+n2+n+1n+2
计算,求出 χ2 的值.
1.1 独立性检验
10
跟踪演练1 已知列联表:药物效果与动物试验列联表
患病 未患病 合计 服用药 10 45 55 未服药 20 30 50 总计 30 75 105
则χ2≈__6_.1_0_9__.(结果保留3位小数) 105×10×30-20×452
当堂训练,体验成功
1234
1.当χ2>3.841时,认为事件A与事件B( A ) A.有95%的把握有关 B.有99%的把握有关 C.没有理由说它们有关 D.不确定
1.1 独立性检验
22
1234
2.为了考察中学生的性别与是否喜欢数学课程之间的关系,在某 校中学生中随机抽取了300名学生,得到如下列联表:
第一章——
1.1 独立性检验
[学习目标] 1.理解列联表的意义,会根据列联表中数据大致判断 两个变量是否独立. 2.理解统计量χ2的意义和独立性检验的基本思想.
栏目索引
CONTENTS PAGE
1 预习导学 2 课堂讲义 3 当堂检测
挑战自我,点点落实 重点难点,个个击破 当堂训练,体验成功
预习导学
1.1 独立性检验
17
解 列出2×2列联表
理 文 合计 有兴趣 138 73 211 无兴趣 98 52 150 总计 236 125 361
361×138×52-73×982 代入公式得 χ2= 236×125×211×150 ≈1.871×10-4. ∵1.871×10-4≤3.841,可以认为学生选报文、理科与对外语的兴 趣无关.
解 由公式得:χ2= 86×103×95×94 ≈38.459. ∵38.459>6.635,∴有99%的把握说,学生学习数学的 兴趣与数学成绩是有关的.
考点43 独立性检验
统计案例了解独立性检验(只要求2×2列联表)的基本思想、方法及其简单应用,并能解决一些实际问题.1.22⨯列联表设X ,Y 为两个变量,它们的取值分别为12{}x x ,和12{}y y ,,其样本频数列联表(22⨯列联表)如下:1y2y总计1x a b a +b 2xc d c +d总计a +cb +da b c d +++2.独立性检验利用随机变量2K (也可表示为2χ)2()()()()()n ad bc a b c d a c b d -=++++(其中n a b c d =+++为样本容量)来判断“两个变量有关系”的方法称为独立性检验. 3.独立性检验的一般步骤(1)根据样本数据列出22⨯列联表;(2)计算随机变量2K 的观测值k ,查下表确定临界值k 0:20()P K k ≥ 0.500.40 0.25 0.15 0.100 0.050 0.025 0.010 0.005 0.0010k0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828(3)如果0k k ≥,就推断“X 与Y 有关系”,这种推断犯错误的概率不超过()20P K k ≥;否则,就认为在犯错误的概率不超过()20P K k ≥的前提下不能推断“X 与Y 有关系”.【注意】(1)通常认为 2.706k ≤时,样本数据就没有充分的证据显示“X 与Y 有关系”.(2)独立性检验得出的结论是带有概率性质的,只能说结论成立的概率有多大,而不能完全肯定一个结论,因此才出现了临界值表,在分析问题时一定要注意这点,不可对某个问题下确定性结论,否则就可能对统计计算的结果作出错误的解释.(3)独立性检验是对两个变量有关系的可信程度的判断,而不是对其是否有关系的判断.考向一两类变量相关性的判断已知分类变量的数据,判断两类变量的相关性.可依据数据及公式计算2K,然后作出判断.典例 1 利用独立性检验来考查两个分类变量X和Y是否有关系时,通过查阅下表来确定“X和Y有关k>,那么就有把握认为“X和Y有关系”的百分比为系”的可信度.如果 5.024()2>0.500.400.250.150.100.050.0250.0100.0050.001 P K kK0.4550.708 1.323 2.072 2.706 3.84 5.024 6.6357.87910.828 A.25%B.75%C.2.5%D.97.5%【答案】D【名师点睛】本题考查独立性检验的应用,属于基础题,根据所给的观测值,与所给的临界值表中的数据进行比较,而在观测值表中对应于5.024的是0.025,从而得到结果.典例2 有人发现,多看电视容易使人变冷漠,下表是一个调査机构对此现象的调查结果:附表:()2P K k > 0.05 0.025 0.010 0.005 0.001K 3.84 5.024 6.635 7.879 10.828则认为多看手机与人冷漠有关系的把握大约为 A .99.9%B .97.5%C .95%D .90%【答案】A【名师点睛】本题主要考查独立性检验,意在考查学生对该知识的掌握水平和解决实际问题的能力.把所给的数据代入求独立性检验的观测值的公式,求出观测值,把观测值同独立性检验的临界值表进行比较,得到所求的值大于10.828,得到有99.9%的把握认为看电视与人变冷漠有关系.1.为了解高中生作文成绩与课外阅读量之间的关系,某研究机构随机抽取60名高中生做问卷调查,得到以下数据:作文成绩优秀 作文成绩一般 总计课外阅读量较大 22 10 32 课外阅读量一般8 20 28 总计303060由以上数据,计算得到2K 的观测值9.643k ≈,根据临界值表,以下说法正确的是 附:P (K 2≥k 0) 0.50 0.40 0.25 0.15 0.10 0.05 0.05 0.010 0.005k 00.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879A .在样本数据中没有发现足够证据支持结论“作文成绩优秀与课外阅读量大有关”B .在犯错误的概率不超过0.001的前提下,认为作文成绩优秀与课外阅读量大有关C .在犯错误的概率不超过0.05的前提下,认为作文成绩优秀与课外阅读量大有关D .在犯错误的概率不超过0.005的前提下,认为作文成绩优秀与课外阅读量大有关考向二 独立性检验与概率统计的综合独立性检验是一种统计案例,是高考命题的一个热点,多以解答题的形式出现,试题难度不大,多为中档题,高考中经常是将独立性检验与概率统计相综合进行命题,解题关键是根据独立性检验的一般步骤,作出判断,再根据概率统计的相关知识求解问题.典例3 某中学对高三甲、乙两个同类班级进行“加强‘语文阅读理解’训练对提高‘数学应用题’得分率作用”的试验,其中甲班为试验班(加强语文阅读理解训练),乙班为对比班(常规教学,无额外训练),在试验前的测试中,甲、乙两班学生在数学应用题上的得分率基本一致,试验结束后,统计几次数学应用题测试的平均成绩(均取整数)如下表所示:现规定平均成绩在80分以上(不含80分)的为优秀. (1)试分别估计两个班级的优秀率;(2)由以上统计数据填写下面22⨯列联表,并问是否有75%的把握认为“加强‘语文阅读理解’训练对提高‘数学应用题’得分率”有帮助?参考公式及数据:22()()()()()n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.20()P K k ≥ 0.400.25 0.15 0.100 0.050 0.025 0.010k0.708 1.323 2.072 2.706 3.841 5.024 6.635【答案】(1)甲、乙两班的优秀率分别为60%和50%;(2)列联表见解析,没有75%的把握认为“加强‘语文阅读理解’训练对提高‘数学应用题’得分率”有帮助.(2)22⨯列联表如下:因为22100(30252025)1001.010 1.3235050554599K⨯⨯-⨯==≈<⨯⨯⨯,所以由参考数据知,没有75%的把握认为“加强‘语文阅读理解’训练对提高‘数学应用题’得分率”有帮助.2.高中生在被问及“家,朋友聚集的地方,个人空间”三个场所中“感到最幸福的场所在哪里?”这个问题时,从中国某城市的高中生中随机抽取了55人,从美国某城市的高中生中随机抽取了45人进行答题.中国高中生答题情况是:选择家的占25、朋友聚集的地方占310、个人空间占310.美国高中生答题情况是:朋友聚集的地方占35、家占15、个人空间占15.如下表:在家里最幸福在其他场所幸福合计中国高中生美国高中生合计(1)请将22⨯列联表补充完整,试判断能否有95%的把握认为“恋家”与否与国别有关;(2)从被调查的不“恋家”的美国学生中,用分层抽样的方法选出4人接受进一步调查,再从4人中随机抽取2人到中国交流学习,求2人中含有在“个人空间”感到幸福的学生的概率.附:()()()()()22n ad bcka b c d a c b d-=++++,其中n a b c d=+++.()2P k k≥0.050 0.025 0.010 0.001k 3.841 5.024 6.635 10.8281.观察如图所示的等高条形图,其中最有把握认为两个分类变量x,y之间有关系的是A.B.C.D.2.在研究打酣与患心脏病之间的关系中,通过收集数据、整理分析数据得“打酣与患心脏病有关”的结论,并且有99%以上的把握认为这个结论是成立的.下列说法中正确的是A.100个心脏病患者中至少有99人打酣B.1个人患心脏病,那么这个人有99%的概率打酣C.在100个心脏病患者中一定有打酣的人D.在100个心脏病患者中可能一个打酣的人都没有3.已知两个统计案例如下:①为了探究患肺炎与吸烟的关系,调查了339名50岁以上的人,调查结果如下表:患肺炎未患肺炎总计②为了解某地母亲与女儿身高的关系,随机测得10对母女的身高如下表:则对这些数据的处理所应用的统计方法是 A .①回归分析,②取平均值B .①独立性检验,②回归分析C .①回归分析,②独立性检验D .①独立性检验,②取平均值4.某村庄对该村内50名老年人、年轻人每年是否体检的情况进行了调查,统计数据如表所示:已知抽取的老年人、年轻人各25名.则完成上面的列联表数据错误的是 A .18a =B .19b =C .50c d +=D .1f e -=5.为了解某班学生喜爱打篮球是否与性别有关,对本班50人进行了问卷调查得到了下表:参考公式:22()()()()()n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.临界值表:根据表中的数据你认为喜爱打篮球与性别之间有关系的把握是 A .97.5% B .99% C .99.5%D .99.9%6.为了普及环保知识,增强环保意识,某大学从理工类专业的A 班和文史类专业的B 班各抽取20名同学参加环保知识测试.统计得到成绩与专业的列联表:附:参考公式及数据: (1)统计量:22()()()()()n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.(2)独立性检验的临界值表:则下列说法正确的是A .有99%的把握认为环保知识测试成绩与专业有关B .有99%的把握认为环保知识测试成绩与专业无关C .有95%的把握认为环保知识测试成绩与专业有关D .有95%的把握认为环保知识测试成绩与专业无关 7.假设有两个分类变量X 和Y 的22⨯列联表为:对同一样本,以下数据能说明X 与Y 有关系的可能性最大的一组为 A .5,35b d == B .15,25b d == C .20,20b d ==D .30,10b d ==参考公式:22()()()()()n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.8.某学校为判断高三学生选修文科是否与性别有关,现随机抽取50名学生,得到如下22⨯列联表:根据表中数据得到,已知()23.8410.05P K ≥≈,()2 5.0240.025P K ≥≈.现作出结论“选修文科与性别相关”,估计这种判断出错的可能性约为A .97.5%B .95%C .2.5%D .5%9.某学校为了制定治理学校门口上学、放学期间家长接送孩子乱停车现象的措施,对全校学生家长进行了问卷调查.根据从中随机抽取的50份调查问卷,得到了如下的列联表:则认为“是否同意限定区域停车与家长的性别有关”的把握约为__________. 附:()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.10.已知下列命题:①在线性回归模型中,相关指数2R 表示解释变量x 对于预报变量y 的贡献率,2R 越接近于1,表示回归效果越好;②两个变量相关性越强,则相关系数的绝对值就越接近于1;③在回归直线方程0.52y x ∧=-+中,当解释变量x 每增加一个单位时,预报变量y ∧平均减少0.5个单位;④对分类变量X 与Y ,它们的随机变量2K 的观测值k 来说, k 越小,“X 与Y 有关系”的把握程度越大.其中正确命题的序号是__________.11.一则“清华大学要求从2017级学生开始,游泳达到一定标准才能毕业”的消息在体育界和教育界引起了巨大反响.其实,已有不少高校将游泳列为必修内容.某中学拟在高一下学期开设游泳选修课,为了了解高一学生喜欢游泳是否与性别有关,该学校对100名高一新生进行了问卷调查,得到如下22⨯列联表:已知在这100人中随机抽取1人,抽到喜欢游泳的学生的概率为35.(1)请将上述列联表22⨯补充完整,并判断是否可以在犯错误的概率不超过0.001的前提下认为喜欢游泳与性别有关.(2)已知在被调查的学生中有6名来自高一(1)班,其中4名喜欢游泳,现从这6名学生中随机抽取2人,求恰有1人喜欢游泳的概率.附:()()()()()22=n ad bcKa b c d a c b d-++++12.随着资本市场的强势进入,互联网共享单车“忽如一夜春风来”,遍布了一二线城市的大街小巷.为了解共享单车在A市的使用情况,某调查机构借助网络进行了问卷调查,并从参与调查的网友中抽取了200人进行抽样分析,得到表格:(单位:人)(1)根据以上数据,能否在犯错误的概率不超过0.15的前提下认为A市使用共享单车情况与年龄有关?(2)现从所抽取的30岁以上的网友中利用分层抽样的方法再抽取5人.(i)分别求这5人中经常使用、偶尔或不用共享单车的人数;(ii)从这5人中,再随机选出2人赠送一件礼品,求选出的2人中至少有1人经常使用共享单车的概率.参考公式:()()()()()22n ad bcKa b c d a c b d-=++++,其中n a b c d=+++.参考数据:1.(2017年高考新课标Ⅱ卷)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg ), 其频率分布直方图如下:(1)记A 表示事件“旧养殖法的箱产量低于50 kg”,估计A 的概率;(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关;箱产量<50 kg箱产量≥50 kg旧养殖法 新养殖法(3)根据箱产量的频率分布直方图,对这两种养殖方法的优劣进行比较. 附:P () 0.050 0.010 0.001k3.841 6.635 10.82822()()()()()n ad bc K a b c d a c b d -=++++.2.(2018年高考新课标Ⅲ卷)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人.第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由;(2)求40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m和不超过m 的工人数填入下面的列联表:超过m不超过m第一种生产方式第二种生产方式(3)根据(2)中的列联表,能否有99%的把握认为两种生产方式的效率有差异?附:()()()()()22n ad bcKa b c d a c b d-=++++,()2P K k≥0.0500.0100.001k 3.841 6.63510.8281.【答案】D【解析】因为根据临界值表,9.643>7.879,所以在犯错误的概率不超过0.005的前提下,认为作文成绩优秀与课外阅读量大有关.故选D.【名师点睛】本题考查卡方含义,考查基本求解能力.根据临界值表,确定犯错误的概率即可. 2.【答案】(1)见解析;(2)12.【解析】(1)由已知得:在家里最幸福在其他场所幸福合计中国高中生22 33 55美国高中生9 36 45合计31 69 100∴()22100223693331695545K⨯⨯-⨯=⨯⨯⨯1001134.628 3.8413123⨯⨯=≈>⨯,∴有95%的把握认为“恋家”与否与国别有关.【思路点拨】(1)根据题意填写列联表,计算观测值2K,对照临界值表得出结论;变式拓展(2)用分层抽样方法抽出4人,其中在“朋友聚焦的地方”感到幸福的有3人,在“个人空间”感到幸福的有1人,分别设为123,,,a a a b ,再设“含有在‘个人空间’感到幸福的学生”为事件A ,求出基本事件数,即可求得概率值.1.【答案】D【解析】在等高条形图中,x 1,x 2所占比例相差越大,分类变量x ,y 有关系的把握越大. 故答案为D【名师点睛】(1)本题主要考查通过等高条形图判断两个分类变量是否有关系,意在考查学生对该知识的掌握水平和分析推理能力.(2)在等高条形图中,如果两个分类变量所占的比例差距越大,则说明两个分类变量有关系的把握越大. 2.【答案】D【名师点睛】独立性检验得出的结论是带有概率性质的,只能说结论成立的概率有多大,而不能完全肯定一个结论,因此才出现了临界值表,在分析问题时一定要注意这点,不可对某个问题下确定性结论,否则就可能对统计计算的结果作出错误的解释. 3.【答案】B【解析】常用独立性检验研究两个分类变量之间是否有关系,常用回归分析研究两个具有相关关系的变量的相关程度,综上可知选B. 4.【答案】D【解析】因为725,625,6,7,50,50a c b d a e b f c d e f +==+==+=+=+=+=, 所以18,19,50,24,26,2a b c d e f f e ==+===-=. 故选D.【名师点睛】本题考查列联表有关概念,考查基本求解能力.先根据列联表列方程组,解得a ,b ,c ,d ,e ,f 再判断各选项. 5.【答案】A考点冲关【解析】由已知可得222()50(2510105) 6.3492()()()()35153020n ad bc K a b c d a c b d -⨯⨯-⨯==≈++++⨯⨯⨯, 由临界值表可知2( 5.024)0.025P K ≥=,所以根据表中的数据可以认为喜爱打篮球与性别之间有关系的把握是97.5%,故选A. 6.【答案】C【解析】因为2240(141376)202021 4.91192K ⨯⨯-⨯=⨯⨯⨯≈,所以3.841<K 2<6.635,所以有95%的把握认为环保知识测试成绩与专业有关. 7.【答案】D8.【答案】D【解析】由题意得2 4.844 3.841K ≈>,而()23.8410.05P K ≥≈,这种判断出错的可能性约为5%,故选D. 9.【答案】99.5% 【解析】因为K 2=()2502015-51025253020⨯⨯⨯⨯⨯⨯ ≈8.333,且P (K 2≥7.789)=0.005=0.5%.所以,我们有99.5%的把握认为是否同意限定区域停车与家长的性别有关.故答案为99.5%.【名师点睛】本题考查独立性检验知识,考查学生的计算能力,考查学生分析解决问题的能力,属于中档题.利用公式求得K 2,与临界值比较,即可得到结论. 10.【答案】①②③11.【答案】(1)列联表见解析,可以;(2)815. 【解析】(1)根据条件可知喜欢游泳的人数为3100605⨯=人. 完成22⨯列联表:喜欢游泳 不喜欢游泳 合计 男生 40 10 50 女生 20 30 50 合计6040100根据表中数据,计算()221004030201016.66710.82860405050K ⨯-⨯=≈>⨯⨯⨯所以可以在犯错误的概率不超过0.001的前提下认为喜欢游泳与性别有关.(2)设“恰有一人喜欢游泳”为事件A ,设4名喜欢游泳的学生为1234,,,a a a a ,不喜欢游泳的学生为12,b b ,基本事件总数有15种:1213141112,,,,,a a a a a a a b a b 23242122343132414212,,,,,,,,,a a a a a b a b a a a b a b a b a b b b ,其中恰有一人喜欢游泳的基本事件有8种:1112212231324142,,,,,,,a b a b a b a b a b a b a b a b ,所以()815P A =. 【名师点睛】本题考查了独立性检验与运算求解能力,同时考查通过列举法求概率的应用,属于中档题.(1)根据题意计算喜欢游泳的学生人数,求出女生、男生多少人,完善列联表,再计算观测值2K ,对照临界值表即可得出结论;(2)设“恰有一人喜欢游泳”为事件A ,设4名喜欢游泳的学生为1234,,,a a a a ,不喜欢游泳的学生为12,b b ,通过列举法即可得到答案.12.【答案】(1)能在犯错误的概率不超过0.15的前提下认为A 市使用共享单车情况与年龄有关;(2)(i )经常使用共享单车的有3人,偶尔或不用共享单车的有2人;(ii )910.(2)(i )依题意可知,所抽取的5名30岁以上的网友中,经常使用共享单车的有6053100⨯=(人),偶尔或不用共享单车的有4052100⨯=(人). (ii )设这5人中,经常使用共享单车的3人分别记为a ,b ,c ;偶尔或不用共享单车的2人分别记为d ,e .则从5人中选出2人的所有可能结果为:(),a b ,(),a c ,(),a d ,(),a e ,(),b c ,(),b d ,(),b e ,(),c d ,(),c e ,(),d e ,共10种.其中没有1人经常使用共享单车的可能结果为:(),d e ,共1种, 故选出的2人中至少有1人经常使用共享单车的概率1911010P =-=. 1.【答案】(1)0.62;(2)列联表见解析,有99%的把握认为箱产量与养殖方法有关;(3)新养殖法优于旧直通高考养殖法.【解析】(1)旧养殖法的箱产量低于50 kg的频率为(0.012+0.014+0.024+0.034+0.040)×5=0.62.因此,事件A的概率估计值为0.62.(2)根据箱产量的频率分布直方图得列联表箱产量<50 kg 箱产量≥50 kg旧养殖法62 38新养殖法34 66K2=2 2006266343815.705 10010096104⨯⨯-⨯⨯⨯⨯()≈.由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关.(3)箱产量的频率分布直方图表明:新养殖法的箱产量平均值(或中位数)在50 kg到55 kg之间,旧养殖法的箱产量平均值(或中位数)在45 kg到50 kg之间,且新养殖法的箱产量分布集中程度较旧养殖法的箱产量分布集中程度高,因此,可以认为新养殖法的箱产量较高且稳定,从而新养殖法优于旧养殖法.【名师点睛】(1)频率分布直方图中小长方形面积等于对应概率,所有小长方形面积之和为1.(2)频率分布直方图中均值等于组中值与对应概率乘积的和.(3)均值大小代表水平高低,方差大小代表稳定性.2.【答案】(1)第二种生产方式的效率更高,理由见解析;(2)见解析;(3)能.(iv)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布,又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少,因此第二种生产方式的效率更高.以上给出了4种理由,考生答出其中任意一种或其他合理理由均可得分.(2)由茎叶图知7981802m+==.列联表如下:超过m不超过m第一种生产方式15 5第二种生产方式 5 15。
独立性检验OK
独立性检验1.独立性检验基本思想:(1)假设0H :患病与吸烟没有关系.(近似的判断方法:设na b c d=+++,如果0H 成立,则在吸烟的人中患病的比例与不吸烟的人中患病的比例应差不多,由此可得a c a bc d≈++,即()()0a c d c a b a d b c +≈+⇒-≈,因此,||a d b c -越小,患病与吸烟之间的关系越弱,否则,关系越强.) 设na b c d =+++,在假设0H 成立的条件下,可以通过求 “吸烟且患病”、“吸烟但未患病”、“不吸烟但患病”、“不吸烟且未患病”的概率(观测频率),将各种人群的估计人数用,,,,a b c d n表示出来.例如:“吸烟且患病”的估计人数为()a b a c n P A B n n n ++⨯≈⨯⨯;“吸烟但未患病” 的估计人数为()a b b dn P A B n n n ++⨯≈⨯⨯;“不吸烟但患病”的估计人数为()c d a cn P AB n n n ++⨯≈⨯⨯;“不吸烟且未患病”的估计人数为()c d b dn P A B n nn++⨯≈⨯⨯.如果实际观测值与假设求得的估计值相差不大,就可以认为所给数据(观测值)不能否定假设0H .否则,应认为假设0H 不能接受,即可作出与假设0H 相反的结论.(2)卡方统计量:为了消除样本对上式的影响,通常用卡方统计量(χ22()-=∑观测值预期值预期值)来进行估计.卡方χ2统计量公式:χ222a b a c a b b d a n b n n n n n a b a c a b b d n n n n n n++++⎛⎫⎛⎫-⨯⨯-⨯⨯ ⎪⎪⎝⎭⎝⎭=+++++⨯⨯⨯⨯22c d a c c d b d c n d n n n n n c d a c c d b d n n n nn n++++⎛⎫⎛⎫-⨯⨯-⨯⨯ ⎪⎪⎝⎭⎝⎭++++++⨯⨯⨯⨯()()()()()2n a d b c a b c d a c b d -=++++(其中na b c d=+++)由此若0H 成立,即患病与吸烟没有关系,则χ2的值应该很小.把37,183,21,274a b c d ====代入计算得χ211.8634=,统计学中有明确的结论,在0H 成立的情况下,随机事件“2 6.635χ≥”发生的概率约为0.01,即2( 6.635)0.01P χ≥≈,也就是说,在0H 成立的情况下,对统计量χ2进行多次观测,观测值超过6.635的频率约为0.01.由此,我们有99%的把握认为0H 不成立,即有99%的把握认为“患病与吸烟有关系”.像以上这种用2χ统计量研究吸烟与患呼吸道疾病是否有关等问题的方法称为独立性检验.2.独立性检验的一般步骤:一般地,对于两个研究对象Ⅰ和Ⅱ,Ⅰ有两类取值:类A 和类B (如吸烟与不吸烟),Ⅱ也有两类取值:类1和类2(如患呼吸道疾病与不患呼吸第一步,提出假设0H :两个分类变量Ⅰ和Ⅱ没有关系; 第二步,根据2×2列联表和公式计算χ2统计量;第三步,查对课本中临界值表,作出判断.)在假设0H 下统计量χ2应该很小,如果由观测数据计算得到χ2的观测值很大,则在一定程度上说明假设不合理(即统计量χ2越大,“两个分类变量有关系”的可能性就越大).对于两个分类变量:如果k²>6.635,就约有99%的把握认为“x与y”有关系;α=0.01如果k²>5.024,就约有97.5%的把握认为“x与y”有关系;α=0.025如果k²>3.814,就约有95%的把握认为“x与y”有关系α=0.05如果k²>2.076,就约有90%的把握认为“x与y”有关系α=0.1如果k²≤2.076,就认为没有充分的证据显示“x与y”有关系诊断练习1.下面是一个2×2列联表:则表中a、b().A.94、96 B.52、50 C.52、60 D.54、52 2.下列关于等高条形图的叙述正确的是().A.从等高条形图中可以精确地判断两个分类变量是否有关系B.从等高条形图中可以看出两个变量频数的相对大小C.从等高条形图可以粗略地看出两个分类变量是否有关系D.以上说法都不对3.关于分类变量x与y的随机变量K2的观测值k,下列说法正确的是().A.k的值越大,“X和Y有关系”可信程度越小B.k的值越小,“X和Y有关系”可信程度越小C.k的值越接近于0,“X和Y无关”程度越小D.k的值越大,“X和Y无关”程度越大4.若由一个2×2列联表中的数据计算得k=4.013,那么在犯错误的概率不超过________的前提下认为两个变量之间有关系.5.为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:已知P(K2≥k=50×(13×20-10×7)2≈4.844.则认为选修文科与性别有关系出错的可能性约23×27×20×30为________.6.高中流行这样一句话“文科就怕数学不好,理科就怕英语不好”.下表是一次针对高三文科学生的调查所得的数据,试问:文科学生总成绩不好与数学成绩不好有关系吗?7.某班主任对全班50名学生进行了作业量的调查,数据如表().A.0.01 B.0.005 C.0.025 D.0.0018.利用独立性检验来考察两个分类变量X和Y是否有关系时,通过查阅下表来确定“X与Y有关系”的可信程度.如果k≥5.024,那么就有把握认为“X与Y有关系”的百分比为().9.某卫生机构对366人进行健康体检,有阳性家族史者糖尿病发病的有16例,不发病的有93例,有阴性家族史者糖尿病发病的有17例,不发病的有240例,认为糖尿病患者与遗传有关系的概率为________.10.某医疗研究所为了检验某种血清预防感冒的作用,把500名使用血清的人与另外500名未用血清的人一年中的感冒记录作比较,提出假设H0:“这种血清不能起到预防感冒的作用”,利用2×2列联表计算得k≈3.918,经查对临界值表知P(K2≥3.841)≈0.05.对此,四名同学作出了以下的判断:p:有95%的把握认为“这种血清能起到预防感冒的作用”;q:若某人未使用该血清,那么他在一年中有95%的可能性得感冒;r:这种血清预防感冒的有效率为95%;s:这种血清预防感冒的有效率为5%.则下列结论中,正确结论的序号是________(把你认为正确的命题序号都填上).①p∧非q;②非p∧q;③(非p∧非q)∧(r∨s);④(p∨非r)∧(非q∨s).11.高二(1)班班主任对全班50名学生进行了有关作业量多少的调查,得到如下列联表:12.(创新拓展)第16届亚运会于2010年11月12日至27日在中国广州进行,为了搞好接待工作,组委会招幕了16名男志愿者和14名女志愿者,调查发现,男、女志愿者中分别有10人和6人喜爱运动,其余人不喜爱运动.(1)根据以上数据完成以下2×2列联表:(2)性别与喜爱运动有关?。
独立性检验的基本思想及初步应用教案
独立性检验的基本思想及初步应用教案教学目标:1. 了解独立性检验的基本思想及应用;2. 学会使用独立性检验进行数据分析;3. 能够解释独立性检验的结果及意义。
教学内容:一、独立性检验的基本思想1. 引入独立性检验的概念;2. 解释独立性检验的目的;3. 阐述独立性检验的基本步骤。
二、独立性检验的初步应用1. 介绍独立性检验的应用场景;2. 展示独立性检验的实际案例;3. 引导学生通过独立性检验分析数据。
三、独立性检验的计算方法1. 介绍独立性检验的计算方法;2. 解释卡方统计量的含义;3. 演示如何计算卡方统计量及p值。
四、独立性检验的结果解释1. 解释独立性检验的结果;2. 讲解如何判断假设检验的结果;3. 强调独立性检验的局限性。
五、独立性检验的实践操作1. 引导学生使用统计软件进行独立性检验;2. 分析实际数据,展示独立性检验的操作过程;教学方法:1. 采用案例教学法,结合实际数据进行分析;2. 利用统计软件进行独立性检验的演示;3. 引导学生进行小组讨论,分享学习心得。
教学评估:1. 课后作业:要求学生独立完成独立性检验的练习题;2. 课堂问答:提问学生关于独立性检验的概念及应用;3. 小组报告:评估学生在小组讨论中的表现及成果。
教学资源:1. 独立性检验的教学案例及数据;2. 统计软件及相关教学视频;3. 独立性检验的练习题及答案。
六、独立性检验的拓展应用1. 介绍独立性检验在其他领域的应用;2. 分析不同领域中独立性检验的实际案例;3. 引导学生探讨独立性检验的潜在拓展方向。
七、独立性检验的优缺点分析1. 阐述独立性检验的优点;2. 讨论独立性检验的局限性;3. 比较独立性检验与其他统计方法的差异。
八、独立性检验在实际研究中的应用案例1. 分享独立性检验在实际研究中的经典案例;2. 分析案例中独立性检验的使用方法和结果;3. 引导学生从案例中学习独立性检验的应用技巧。
九、独立性检验的敏感性分析1. 介绍独立性检验的敏感性分析概念;2. 解释敏感性分析在独立性检验中的作用;3. 演示如何进行独立性检验的敏感性分析。
独立性检验
1.定性变量与定量变量: 2.2×2 列联表:
二、独立性检验的简介: 三、检验独立性的方法:
1.频率法: 2.等高条形图法: 3.卡方检验:
(1)卡方检验简述: (2)操作步骤及三个细节: (3)书写格式:
概率与统计简述
样本
抽样
估计 推断
总体
回归分析 分布列及期望 相关分析
概率 计数
超几何分布与二项分布的关联
以下三种情况,按照二项分布来处理
频率代概率 总数一大批 抽取要放回 二项分布也
四大分布之间的关联图
正态分布
连续 二项分布 N →+∞ 超几何分布
(总数充分大) n=1
0—1分布
当
M N
1 10
1 100
,实际操作时,用二项分布近似来代替
正态分布的性质
1.对称性
f (x) , (x)
法3:相关系数 r 法 (参《必修3》P:92~93) 法4:关系式法:
主要是利用回归方程…… 法5:数表法:
主要观察是否具有单调性……
法3:相关系数 r ——衡量变量之间相关程度的指标
(1)计算公式:r
(2)性质:
n
(xi x)( yi y)
i1
n
n
(xi x)2 ( yi y)2
1
( x )2
e 2 2
2
2.渐近性
正态曲线是钟型 指数二次组合体
3.最大值 4.面积为1
要求概率求面积 左小右大总为 1 均值中众对称轴 比较方差武大郎 前数期望后方差 平方去π同上母
5.期望为μ,方差为δ2
小概率事件原理
一般的,当P(A)≤0.05(或0.01)时 可以认为在一次试验中事件A几乎是不可能发生的 但在多次重复试验中几乎是必然发生的
3.2 独立性检验、独立性检验
[思每一
类变量都有两个不同的取值,然后算出相应的数据,列表 即可.
[精解详析]
根据题目所给的数据作出如下的列联表: 色盲
性别
患色盲
不患色盲
男
女 [一点通]
38
6
442
514
分清类别是作列联表的关键步骤,对所
给数据要明确属于那一类.
1.下面是一个2×2列联表,则表中a,b处的值分别为( y1 x1 x2 总计 A.32,40 C.74,82 答案:A a 8 b y2 21 25 46 B.42,50 D.64,72 总计 53 33
因为 9.967>6.635,所以有 99%的把握认为该地区的老年 人是否需要志愿者提供帮助与性别有关. [一点通] 这类问题的解决方法为先确定a,b,c,d,
n的值并求出χ2的值,再与临界值相比较,作出判断,解题
时注意正确运用公式,代入数据准确计算.
3.在一个2×2列联表中,通过数据计算χ2=8.325,则这两
2 n ad - bc 2.求出 χ2= . a+ca+bb+dc+d
3.判断是否有关联,得出事件有关的可能性大小.
95%的把握认为主修统计专业与性别有关.
答案:4.844 95%
5.某聋哑研究机构对聋、哑关系进行抽样调查,在耳聋 的657人中有416人哑,而另外不聋的680人中有249人 哑,你能运用这组数据得出相应的结论吗? 解:根据题目所给数据得到如下列联表: 是否哑 哑 416 不哑 241 总计 657
是否聋
聋
不聋
总计
249
665
431
672
680
1 337
根据列联表中的数据得到:
2 1 337 × 416 × 431 - 249 × 241 χ2= ≈95.29>6.635. 657×680×665×672
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
法.先假设“两个分类变量没有关系”成立,计 算随机变量K2的值,如果K2值很大,说明假设不 合理.K2越大,两个分类变量有关系的可能性越
大判.断两个分类变量是否相关的研究方法:
(1)感性认识:先通过列联表或等高条形图观察 两个量之间是否存在相关关系;
(2)理性认识:再假设两个量之间相互独立,然 后研究这种假设发生的概率,如果概率很小(小于 10%),则说明这种假设不可靠,从而可以得出 两个量之间有相关关系!
学习目标
目标解读
1.了解分类变量的意 义.
2.了解2×2列联表的 意义.
3.了解随机变量K2的
意义. 4.通过对典型案例分
析,了解独立性检验 的基本思想和方法.
1.重点是2×2 列联表的意 义及随机变
量K2的计算
与应用. 2.难点是独
立性检验的 基本思想.
问题引入
问题1:以下两组变量在取不同的值时的区别 (1)体重、身高、学生的学习成绩 (2)性别、国籍、宗教信仰、是否吸烟、是否患 病 答:1中每个变量取不同“值”时,表示
典型例题
例1 在某医院,因为患心脏病而住院的665名男 性病人中,有214人秃顶;而另外772名不是因为 患心脏病而住院的男性病人中有175人秃顶。 (1)利用图形判断秃顶与患心脏病是否有关系? (2)能否在犯错概率不超0.01的前提下,认为 秃顶与患心脏病有关系?
P(k≥k0) 0.50 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001 k0 0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828
PK2 6.635 0.01.
2
即在H0成立的情况下K 2的值大于6.635的概率近似于0.01,非常小。是 个小概率事件。K的观测值56.635远远大于6.635,所以我们有理由断
定说明“假设H0”是不成立的,即吸烟与患肺癌有关系。而这种判 断的出错概不会超过0.01,或者说有99%的把握判断它俩有关系。
(2)根据列联表中的数据,得到 秃顶 214 175 389
K2
1.323
2.07 2
2.706 3.841 5.02 4
如果k k0 , (就1以P(K 2 k0 )) 100%
X与Y有系”;
P(K 2 k0)
而这种判断有可能出错,出错的概率不超过
0.01 0.005 0.001 0
6.63 7.879 10.82
5
8
的把握认为
。
对独立性检验思想的理解:
不同个体, 问题2:吸烟2是中否变与量患每肺取癌不有同关“系值?”表示个
体所属不同性的别类是别否对于喜欢数学课程有影 响本?节课就是要学习独立性检验思想在分析分类变量
之间关系中的应用。 1分类变量:
变量的不同“值”表示个体所属的不同类别, 像这样的变量称为分类变量。
像表3-7这样列出的两个分类变量 为调查的吸频烟数是否表对,患称肺为有列影联响表,某。种瘤研究所随
能性存在差异,吸烟者患肺癌的可能性大。
等高条形图
不患病 比例
患病 比例
结论:吸烟更容易引发肺癌
2.列联表 (1)定义:列出的两个分类变量的频数表,称为列联表.
(2)2×2列联表:假设有两个分类变量X和Y,它们的取值分别为 {x1,x2}和{y1,y2},
其样本频数列联表(称为2×2列联表)为:
y1 y2
关系.
结论是否可靠?
表1-9 吸烟与肺癌联列表
不患肺癌
不吸烟
a
吸烟
c
患肺癌 b d
总计 a+b c+d
总计
a+c
b+d a+b+c+d
假设H0:吸烟与患肺癌没有关系
用A表示不吸烟,用B表示不患肺癌,则H等价于吸烟与患肺癌独
立 P(aAB)a=P(bA)Pa(B)c,,其中n a b c d为样本容量, nn n
即a b c d a a ba c,即ad bc
因此,| ad bc | 越小,说明吸烟与患肺癌之间关系越弱; | ad bc | 越大,说明吸烟与患肺癌之间关系越强.
为了使不同样本容量的数据有统一的评判标准,
我们构造一个随机变量(卡方统计量)
K
2
a
nad bc d
bc2 a cb
机地调查了9965人,得到如下结果(单位:人)
表3-7 吸烟与肺癌列联表
不7775
42
7817
吸烟
2099
49
2148
总计
9874
91
9965
那么吸烟是否对患肺癌有影响?
在不吸烟者中患肺癌的比重是 0.0054
在吸烟者中患肺癌的比重是 0.0228
结论:吸烟群体和不吸烟群体患肺癌的可
总计
x1 a b
a+b
x2 c d
c+d
3. 等高条形图总计 a+c b+d a+b+c+ (1)定义:将列联表中的数据用高度相d 同的两个条形图表示出来,
其中两列的数据分 别对应不同的颜色,这就是等高条形图. (2)等高条形图和表格相比,更能直观地反映出两个分类变量间
是否相互影响,常用等高条形图展示列联表数据的频率特征. (3)观察等高条形图发现相差很大,就判断两个分类变量之间有
独立性检验定义:
利用随机变K量2
有独关立系检的验方步法骤。:
来判断两个分类变量
(1) 列出2X2列联
表(2)计算K 2
的观测值k;
(3)查对临界值,作出
卡方临界判值断表。:
P(K2 0.50 0.40 0.25 0.15 0.10 0.05 0.02
≥kk0)
5
0
0.445 0.70
K2的观测值8 为k
:根据题目所给数据得到如下列联表:
秃顶
患心脏 不患心 病 脏病
214 175
总计 389
不秃顶 451 597 1048
总计 665 772 1437
(1)等高条形图
图2
可以看出秃顶样本中患心脏病的频率明显高于不秃顶 样本中患心脏病的频率.因此可以认为秃顶与患心脏病 有关系.
患心脏 不患心 总计 病 脏病
d
1
其中n a b c d为样本容量.
作用:检验两个变量是否有关系
若H0成立,即"吸烟与肺癌没有关系",则K 2应该很小. 计算得K 2的观测值为
k 9965 7775 49 42 20992 56.632,
7817 2148987491
这个值是不是很大呢?
在H0成立的情况下,统计学家估算出如下概率