列联表独立性分析案例共32页
8.4列联表独立性分析案例课件-湘教版数学选修2-3
列联表
为了调查吸烟是否患呼吸道疾病有影响,某医疗研究 所随机地调查了515人,得到如下结果(单位:人)
吸烟与呼吸道疾病列联表
患病 不患病 总计
吸烟
37
183
220
不吸烟
21274Fra bibliotek295
总计
58
457
515
在不吸烟者中患呼吸道疾病的比重是 7.12% 在吸烟者中患呼吸道疾病的比重是 16.82%
用 统计量研究这类问题的方法称为独立性检验。
一般地,对于两个研究对象Ⅰ和Ⅱ,Ⅰ有两类 取值,即类A和B(如吸烟与不吸烟);Ⅱ也有两类 取值,即类1和2(如患病与不患病)。于是得到 下列联表所示的抽样数据:
类1 类2
总计
类A
a
b
a+b
类B
c
d
c+d
总计
a+c
b+d
a+b+c+d
要推断“Ⅰ和Ⅱ有关系”,可按下面的步骤进行:
患病 不患病 总计
吸烟
37
183
220
不吸烟 21
274
295
总计
58
457
515
通过公式计算
独立性检验
已知在 H0成立的情况下,
即在H0 成立的情况下, 2大于6.635概率非常小, 近似为0.01 现在的 2=11.8634的观测值远大于6.635, 出现这样的观测值的概率不超过0.01。 故有99%的把握认为H0不成立,即有99%的把 握认为“患呼吸道疾病与吸烟有关系”。
列联表独立性分析案例
某医疗机构为了了解呼吸道疾病与吸烟是否 有关,进行了一次抽样调查,共调查了515个 成年人,其中吸烟者220人,不吸烟者295人, 调查结果是:吸烟的220 人中37人患呼吸道 疾病, 183人不患呼吸道疾病;不吸烟的295 人中21人患呼吸道疾病, 274人不患呼吸道 疾病。
列联表与独立性检验 课件
n
n
反之,当这些量的取值较大时,就可以推断 H0 不成立.
显然,分别考虑③中的四个差的绝对值很困难. 我们需要找到一个既 合理又能够计算分布的统计量,来推断 H0 是否成立. 这里,我们将四个 差的绝对值取平方后分别除以相应的期望值再求和,得到如下的统计量:
2
a
(a
b) (a n
c)
2
(a b)(a c)
下表给出了独立性检验中5个常用的小概率值和相应的临界值.
α
0.1 0.05 0.01 0.005 0.001
xα
2.706 3.841 6.635 7.879 10.828
例如,对于小概率值 α 0.05 3.841 时,我们认为 X 和 Y 不独立,该推断犯错误的 概率不超过0.05;
根据小概率事件在一次试验中不大可能发生的规律,上面的想法可以 通过一个与 H0 相矛盾的小概率事件来实现. 在假定 H0 的条件下,对于有 放回简单随机抽样,当样本容量 n 充分大时,统计学家得到了 2 的近似 分布.
忽略 2 的实际分布与该近似分布的误差后,对于任何小概率值 α,可
以找到相应的正实数 xα,使得下面关系成立:
率分别为 33 0.7674 和 10 0.2326 ;乙校学生中数学成绩不优秀和数学
43
43
成绩优秀的频率分别为 38 0.8444 和 7 0.1556 .依据频率稳定于概率
45
45
的原理,我们可以推断,如果从甲校和乙校各随机选取一名学生,那么甲
校学生数学成绩优秀的概率大于乙校学生数学成绩优秀的概率. 因此可以
(2)当 2 x 0.05 3.841 时,我们认为 X 和 Y 独立.
认为两校学生的数学成绩优秀率存在差异.
学案3:§8.3 列联表与独立性检验
§8.3列联表与独立性检验学习目标1.通过实例,理解2×2列联表的统计意义.2.通过实例,了解2×2列联表独立性检验及其应用.知识梳理知识点一分类变量为了表述方便,我们经常会使用一种特殊的随机变量,以区别不同的现象或性质,这类随机变量称为分类变量.分类变量的取值可以用表示.知识点二2×2列联表1.2×2列联表给出了成对分类变量数据的.2.定义一对分类变量X和Y,我们整理数据如下表所示:知识点三独立性检验1.定义:利用χ2的取值推断分类变量X和Y的方法称为χ2独立性检验,读作“卡方独立性检验”.简称独立性检验.2.χ2=,其中n=a+b+c+d.3.独立性检验解决实际问题的主要环节(1)提出零假设H0:X和Y相互独立,并给出在问题中的解释.(2)根据抽样数据整理出2×2列联表,计算χ2的值,并与临界值xα比较.(3)根据检验规则得出推断结论.(4)在X和Y不独立的情况下,根据需要,通过比较相应的频率,分析X和Y间的影响规律.思考独立性检验与反证法的思想类似,那么独立性检验是反证法吗?题型探究探究一等高堆积条形图的应用例1.研究人员选取170名青年男女大学生,对他们进行一种心理测验.发现60名女生对该心理测验中的最后一个题目的反应是:作肯定的有18名,否定的有42名.110名男生在相同的题目上作肯定的有22名,否定的有88名.试判断性别与态度之间是否有关系.反思感悟等高堆积条形图的优劣点(1)优点:较直观地展示了aa+b与cc+d的差异性.(2)劣点:不能给出推断“两个分类变量有关系”犯错误的概率.跟踪训练1.为了解铅中毒病人与尿棕色素为阳性是否有关系,分别对病人组和对照组的尿液作尿棕色素定性检查,结果如下:试画出列联表的等高条形图,分析铅中毒病人和对照组的尿棕色素阳性数有无差别,铅中毒病人与尿棕色素为阳性是否有关系?探究二由χ2进行独立性检验命题角度1有关“相关的检验”例2.在某医院,因为患心脏病而住院的665名男性病人中,有214人秃顶;而另外772名不是因为患心脏病而住院的男性病人中,有175人秃顶.根据以上数据判断男性病人的秃顶与患心脏病是否有关系?反思感悟用χ2进行“相关的检验”步骤(1)零假设:即先假设两变量间没关系.(2)计算χ2:套用χ2的公式求得χ2值.(3)查临界值:结合所给小概率值α查得相应的临界值xα.(4)下结论:比较χ2与xα的大小,并作出结论.跟踪训练2.某矿石粉厂当生产一种矿石粉时,在数天内即有部分工人患职业性皮肤炎,在生产季节开始,随机抽取75名车间工人穿上新防护服,其余仍穿原用的防护服,生产进行一个月后,检查两组工人的皮肤炎患病人数如下:命题角度2有关“无关的检验”例3.为了研究学生选报文、理科是否与对外语的兴趣有关,某同学调查了361名高一在校生,调查结果如下:理科对外语有兴趣的有138人,无兴趣的有98人,文科对外语有兴趣的有73人,无兴趣的有52人.试分析学生选报文、理科与对外语的兴趣是否有关?反思感悟独立性检验解决实际问题的主要环节(1)提出零假设H0:X和Y相互独立,并给出在问题中的解释.(2)根据抽样数据整理出2×2列联表,计算χ2的值,并与临界值xα比较.(3)根据检验规则得出推断结论.(4)在X和Y不独立的情况下,根据需要,通过比较相应的频率,分析X和Y间的影响规律.跟踪训练3.考察棉花种子处理情况跟生病之间的关系得到下表数据:根据以上数据,可得出(A.种子是否经过处理跟生病有关B.种子是否经过处理跟生病无关C.种子是否经过处理决定是否生病D.以上都是错误的课堂小结1.知识清单:(1)分类变量.(2)2×2列联表.(3)等高堆积条形图.(4)独立性检验,χ2公式.2.方法归纳:数形结合.3.常见误区:对独立性检验的原理不理解,导致不会用χ2分析问题.随堂自测1.已知变量X和Y的列联表如下,则()A.ad-bc越小,说明B.ad-bc越大,说明X与Y的关系越强C.(ad-bc)2越大,说明X与Y的关系越强D.(ad-bc)2越接近于0,说明X与Y的关系越强2.想要检验是否参加体育运动是不是与性别有关,应该检验()A.男性喜欢参加体育运动B.女性不喜欢参加体育运动C.喜欢参加体育运动与性别有关D.喜欢参加体育运动与性别无关3.在2×2列联表中,若每个数据变为原来的2倍,则χ2的值变为原来的________倍.4.下列说法正确的是________.(填序号)①对事件A 与B 的检验无关,即两个事件互不影响;②事件A 与B 关系越密切,χ2就越大;③χ2的大小是判断事件A 与B 是否相关的唯一数据;④若判定两事件A 与B 有关,则A 发生B 一定发生.5.为了判断高中三年级学生选修文科是否与性别有关,现随机抽取50名学生,得到如下2×2列联表:已知P (χ2≥3.841)≈0.05,P (χ2≥5.024)≈0.025,根据表中数据得到χ2=50×(13×20-10×7)223×27×20×30≈4.844.则有__________的把握认为选修文科与性别有关.6.在2×2列联表中,两个比值a a +b 与________相差越大,两个分类变量有关系的可能性越大.7.某大学餐饮中心为了解新生的饮食习惯,在全校一年级学生中进行了抽样调查,调查结果如下表所示:方面有差异”.参考答案知识梳理知识点一 分类变量 实数知识点二2×2列联表1.交叉分类频数知识点三独立性检验1.是否独立2.n(ad-bc)2(a+b)(c+d)(a+c)(b+d)思考答案不是.因为反证法不会出错,而独立性检验依据的是小概率事件几乎不发生.题型探究例1.解:根据题目所给数据建立如下列联表:相应的等高条形图如图所示.比较来看,女生中肯定的人数比要高于男生中肯定的人数比,因此可以在某种程度上认为性别与态度之间有关.跟踪训练1.解:等高条形图如图所示:其中两个浅色条的高分别代表铅中毒病人和对照组样本中尿棕色素为阳性的频率.由图可以直观地看出铅中毒病人与对照组相比,尿棕色素为阳性的频率差异明显,因此铅中毒病人与尿棕色素为阳性有关系.例2.解:提出假设H 0:男性病人的秃顶与患心脏病没有关系.根据题中所给数据得到如下2×2列联表:根据列联表中的数据可以求得χ2=1 437×(214×597-175×451)389×1 048×665×772≈16.373.因为当H 0成立时,χ2≥10.828的概率约为0.001,而这里χ2≈16.373>10.828,所以有99.9%的把握认为,男性病人的秃顶与患心脏病有关系.跟踪训练2.解:提出假设H 0:新防护服对预防皮肤炎没有明显效果.根据列联表中的数据可求得χ2=103×(5×18-70×10)275×28×15×88≈13.826.因为H 0成立时,χ2≥10.828的概率约为0.001,而这里χ2≈13.826>10.828,所以我们有99.9%的把握说新防护服比旧防护服对预防工人患职业性皮肤炎有效.例3.解:问题是判断学生选报文、理科是否与对外语的兴趣有关.列出2×2列联表如下:由公式得K 2的观测值k =361×(138×52-73×98)2236×125×211×150≈1.871×10-4.因为1.871×10-4<2.706,故可以认为学生选报文、理科与对外语的兴趣无关. 跟踪训练3.【答案】B 【解析】由χ2=407×(32×213-61×101)293×314×133×274≈0.164<2.706=x 0.1,即没有把握认为种子是否经过处理跟生病有关. 当堂检测 1.【答案】C 【解析】χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )(其中n =a +b +c +d ),若(ad -bc )2越大,则χ2越大,说明X 与Y 的关系越强. 2.【答案】D【解析】独立性检验假设有反证法的意味,应假设两类变量(而非变量属性)无关,这时的χ2应该很小,如果χ2很大,则可以否定假设,如果χ2很小,则不能够肯定或者否定假设.3.【解析】由公式χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)中所有值变为原来的2倍,得(χ2)′=2n(2a·2d-2b·2c)2(2a+2b)(2c+2d)(2a+2c)(2b+2d)=2χ2,故χ2也变为原来的2倍.【答案】24.【解析】对于①,事件A与B的检验无关,只是说两事件的相关性较小,并不一定两事件互不影响,故①错.②是正确的.对于③,判断A与B是否相关的方式很多,可以用列联表,也可以借助于概率运算,故③错.对于④,两事件A与B有关,说明两者同时发生的可能性相对来说较大,但并不是A发生B一定发生,故④错.【答案】②5.【答案】95%6.【解析】根据2×2列联表可知,比值aa+b与cc+d相差越大,则|ad-bc|就越大,那么两个分类变量有关系的可能性就越大.【答案】cc+d7.解:将2×2列联表中的数据代入公式计算,得χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)=100×(60×10-20×10)280×20×70×30=10021≈4.762.因为4.762>3.841,所以有95%的把握认为“南方学生和北方学生在选用甜品的饮食习惯方面有差异”.。
列联表独立性分析案例
未感冒 使用血清 未使用血清 合计 258 216 474
感冒 242 284 526
2
合计 500 500 1000
解:设H0:感冒与是否使用该血清没有关系。
1000 258 284 242 216 2 c 7 .075 474 526 500 500 因当H0成立时,χ2≥6.635的概率约为0.01,故有99%的把握认 为该血清能起到预防感冒的作用。
2
99.9%把握认 为A与B有关
99%把握认 为A与B有关 90%把握认 10%把握认为 2 c 2.706 为A与B有关 A与B无关 没有充分的依据显示A与B有关 2 c 2.706 ,但也不能显示A与B无关
2
1%把握为A与B c 6.635 无关
独立性检验 解:H0: 吸烟和患病之间没有关系 患病 不患病 总计
其中X表示“是否吸烟”,Y表示“是否患肺癌 ”。
X Y 吸烟 ( A) 不吸烟( A ) 总计 患病( B ) a c a+c 不患病( B ) b d b+d 总计 a+b c+d n
称类似的表格为列联表; 称X,Y为两个因素,称“吸烟”和“不吸烟”为X的两个水平 称“患肺癌”和“不患肺癌”为Y的两个水平
39 可见,在 54个吸烟的人中有 39人患肺癌,患者占 72.22 % 54 21 在不吸烟的 46人中,有 21人患肺癌烟者中患肺癌的 比例高出
通过数据和图表分析,得到结论是:吸烟与患病有关
结论的可靠 程度如何?
独立性检验
步骤:
2
合计 98 95 193
解:设H0:药的效果与给药方式没有关系。
2
193 58 31 64 40 c 1 .3896 <2.072 122 71 98 95 因当H0成立时,χ2≥1.3896的概率大于15%,故不能否定假设 H0,即不能作出药的效果与给药方式有关的结论。
高中数学第8章统计与概率8.4列联表独立性分析案例讲义含解析湘教版选修2_304163154.doc
8.4列联表独立性分析案例[读教材·填要点]1.列联表一般地,对于两个因素X和Y,X的两个水平取值:A和A(如吸烟和不吸烟),Y也有两个水平取值:B和B(如患肺癌和不患肺癌),我们得到下表中的抽样数据,这个表格称为2×2列联表.2.χ2公式χ2=n ad-bc2a +b c+d a+c b+d.3.独立性检验的概念用随机变量χ2研究两变量是否有关的方法称为独立性检验.4.独立性检验的步骤要判断“X与Y有关系”,可按下面的步骤进行:(1)提出假设H0:X与Y无关;(2)根据2×2列联表及χ2公式,计算χ2的值;(3)查对临界值,作出判断.其中临界值如表所示:表示在H0成立的情况下,事件“χ2≥x0”发生的概率.5.变量独立性判断的依据(1)如果χ2>10.828时,就有99.9%的把握认为“X与Y有关系”;(2)如果χ2>6.635时,就有99%的把握认为“X与Y有关系”;(3)如果χ2>2.706时,就有90%的把握认为“X与Y有关系”;(4)如果χ2≤2.706时,就认为没有充分的证据显示“X与Y有关系”,但也不能作出结论“H0成立”,即X与Y没有关系.[小问题·大思维]1.利用χ2进行独立性分析,估计值的准确度与样本容量有关吗?提示:利用χ2进行独立性分析,可以对推断的正确性的概率作出估计,样本容量n越大,这个估计值越准确.如果抽取的样本容量很小,那么利用χ2进行独立性检验的结果就不具有可靠性.2.在χ2运算后,得到χ2的值为29.78,在判断因素相关时,P(χ2≥6.64)≈0.01和P(χ2≥7.88)≈0.005,哪种说法是正确的?提示:两种说法均正确.P(χ2≥6.64)≈0.01的含义是在犯错误的概率不超过0.01的前提下认为两因素相关;而P(χ2≥7.88)≈0.005的含义是在犯错误的概率不超过0.005的前提下认为两因素相关.[例1]数据:[解] 由列联表中的数据,得χ2的值为χ2=5-2254×1 379×54×1 579≈68.033>6.635.因此,有99%的把握认为每一晚打鼾与患心脏病有关系.解决一般的独立性分析问题,首先由所给2×2列联表确定a,b,c,d,a+b+c+d 的值,然后代入随机变量的计算公式求出观测值χ2,将χ2与临界值x0进行对比,确定有多大的把握认为两个分类变量有关系.1.某大型企业人力资源部为了研究企业员工工作积极性和对待企业改革态度的关系,经过调查得到如下列联表:系?解:由列联表中的数据,得 χ2=-294×95×86×103≈10.759>6.635,∴有99%的把握认为工作态度与支持企业改革之间有关系.[例2] (1)(2)若饮用干净水得病5人,不得病50人,饮用不干净水得病9人,不得病22人.按此样本数据分析这种疾病是否与饮用水有关,并比较两种样本在反映总体时的差异.[解] (1)假设H 0:传染病与饮用水无关.把表中数据代入公式,得χ2=-2146×684×518×312≈54.21,因为当H 0成立时,χ2≥10.828的概率约为0.001,所以我们有99.9%的把握认为该地区这种传染病与饮用不干净水有关.(2)依题意得2×2列联表:此时,χ2=-214×72×55×31≈5.785.由于5.785>2.706,所以我们有90%的把握认为该种疾病与饮用不干净水有关.两个样本都能统计得到传染病与饮用不干净水有关这一相同结论,但(1)中我们有99.9%的把握肯定结论的正确性,(2)中我们只有90%的把握肯定.独立性分析的步骤:要推断“X与Y是否有关”可按下面的步骤进行:①提出统计假设H0:X与Y无关;②根据2×2列联表与χ2计算公式计算出χ2的值;③根据两个临界值,作出判断.2.为了探究学生选报文、理科是否与对外语的兴趣有关,某同学调查了361名高二在校学生,调查结果如下:理科对外语有兴趣的有138人,无兴趣的有98人,文科对外语有兴趣的有73人,无兴趣的有52人.是否有90%的把握认为“学生选报文、理科与对外语的兴趣有关”?解:根据题目所给的数据得到如下列联表:χ2=-2211×150×236×125≈1.871×10-4.因为1.871×10-4<2.706,所以没有90%的把握认为“学生选报文、理科与对外语的兴趣有关”.[例3] 为了比较注射A,B两种药物后产生的皮肤疱疹的面积,选200只家兔做试验,将这200只家兔随机地分成两组,每组100只,其中一组注射药物A,另一组注射药物B.下表1和表2分别是注射药物A和药物B后的试验结果.(疱疹面积单位:mm2) 表1:注射药物A后皮肤疱疹面积的频数分布表表2:注射药物B 后皮肤疱疹面积的频数分布表完成下面2×2列联表,并回答是否有99%的把握认为“注射药物A 后的疱疹面积与注射药物B 后的疱疹面积有差异”.表3:[解]χ2=-2100×100×105×95≈24.56>6.635.因此,有99%的把握认为“注射药物A 后的疱疹面积与注射药物B 后的疱疹面积有差异”.在绘制列联表时,应对问题中的不同数据分成不同的类别,然后列表.要注意列联表中各行、各列中数据的意义及书写格式.3.已知某班n 名同学的数学测试成绩(单位:分,满分100分)的频率分布直方图如图所示,其中a ,b ,c 成等差数列,且成绩在[90,100]内的有6人.(1)求n 的值;(2)规定60分以下为不及格,若不及格的人中女生有4人,而及格的人中,男生比女生少4人,借助独立性检验分析是否有90%的把握认为“本次测试的及格情况与性别有关”?附:χ2=a +bc +d a +cb +d解:(1)依题意得⎩⎪⎨⎪⎧+0.025+c +2b +a =1,2b =a +c ,解得b =0.01.因为成绩在[90,100]内的有6人, 所以n =60.01×10=60.(2)由于2b =a +c ,而b =0.01,可得a +c =0.02,则不及格的人数为0.02×10×60=12,及格的人数为60-12=48,设及格的人中,女生有x 人,则男生有x -4人, 于是x +x -4=48,解得x =26,故及格的人中,女生有26人,男生有22人. 于是本次测试的及格情况与性别的2×2列联表如下:结合列联表计算可得χ2=30×30×48×12=1.667<2.706,故没有90%的把握认为“本次测试的及格情况与性别有关”.性别与患色盲是否有关?你所得到的结论在什么范围内有效?[解] 由题意作2×2列联表如下:法一:由列联表中数据可知,在调查的男人中,患色盲的比例是38480≈7.917%,女人中患色盲的比例为6520≈1.154%,由于两者差距较大,因而我们可以认为性别与患色盲是有关系的.法二:由列联表中所给的数据可知,a=38,b=442,c=6,d=514,a+b=480,c+d=520,a+c=44,b+d=956,n=1 000,代入公式得χ2=-2480×520×44×956≈27.1.由于χ2≈27.1>6.635,所以我们有99%的把握即在犯错误不超过0.01的前提下认为性别与患色盲有关系.这个结论只对所调查的480名男人和520名女人有效.1.下面是2×2列联表:则表中a,b的值分别为A.94,96 B.52,50C.52,54 D.54,52解析:选C ∵a+21=73,∴a=52.又∵a+2=b,∴b=54.2.下列关于χ2的说法中正确的是( )A.χ2在任何相互独立问题中都可以用于检验是否相关B.χ2的值越大,两个事件的相关性越大C.χ2是用来判断两个相互独立事件相关与否的一个统计量,它可以用来判断两个事件是否相关这一类问题D.χ2=n ad-bca +b c+d a+c b+d答案:C3.对于因素X与Y的随机变量χ2的值,下列说法正确的是( )A.χ2越大,“X与Y有关系”的可信程度越小B.χ2越小,“X与Y有关系”的可信程度越小C.χ2越接近于0,“X与Y没有关系”的可信程度越小D.χ2越大,“X与Y没有关系”的可信程度越大解析:选B χ2越大,“X与Y没有关系”的可信程度越小,则“X与Y有关系”的可信程度越大.即χ2越小,“X与Y有关系”的可信程度越小.4.若由一个2×2列联表中的数据计算得χ2的观测值为4.013,那么在犯错误的概率不超过________的前提下,认为两个变量之间有关系.解析:因为4.013>3.841,所以在犯错误的概率不超过0.05的前提下,认为两个变量之间有关系.答案:0.055.某矿石粉厂当生产一种矿石粉时,在数天内即有部分工人患职业性皮肤炎,在生产季节开始,随机抽取75名车间工人穿上新防护服,其余仍穿原用的防护服,生产进行一个月后,检查两组工人的皮肤炎患病人数如下:解析:χ2=-275×28×15×88≈13.826>6.635.故有99%的把握说,新防护服比旧防护服对预防工人职业性皮炎有效.答案:99%6.为了解某班学生喜爱打篮球是否与性别有关,对本班50人进行了问卷调查得到了如下的列联表:已知在全部50人中随机抽取1人抽到爱打篮球的学生的概率为35.(1)请将上面的列联表补充完整;(2)是否有99%的把握认为喜爱打篮球与性别有关;请说明理由. 附参考公式:χ2=n ad -bc 2a +bc +d a +cb +d,其中n =a +b +c +d .解:(1)列联表补充如下:(2)∵χ2=-230×20×25×25≈8.333>6.635,∴有99%的把握认为喜爱打篮球与性别有关.一、选择题1.有两个因素X 与Y 的一组数据,由其列联表计算得χ2≈4.523,则认为X 与Y 有关系是错误的可信度为( )A .95%B .90%C .5%D .10%解析:选C ∵χ2≥3.841.∴X 与Y 有关系的概率为95%,∴X 与Y 有关系错误的可信度为5%.2.通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:计算得,χ2=-260×50×60×50≈7.8.附表:A.在犯错误的概率不超过0.1% 的前提下,认为“爱好该项运动与性别有关”B.在犯错误的概率不超过0.1% 的前提下,认为“爱好该项运动与性别无关”C.有99%以上的把握认为“爱好该项运动与性别有关”D.有99%以上的把握认为“爱好该项运动与性别无关”解析:选C 根据独立性分析的思想方法,正确选项为C.3.某高校“统计初步”课程的老师随机调查了选该课的一些学生情况,具体数据如下表:为了分析主修统计中的数据,得到χ2=-223×27×20×30≈4.84,所以断定主修统计专业与性别有关系,这种判断出错的可能性为( )A.0.025 B.0.05C.0.975 D.0.95解析:选B ∵χ2≈4.84>3.841,所以我们有95%的把握认为主修统计专业与性别无关,即判断出错的可能性为0.05.4.已知P(x2≥2.706)=0.10,两个因素X和Y,取值分别为{x1,x2}和{y1,y2},其样本频数分别是a=10,b=21,c+d=35.若在犯错误的概率不超过0.1的前提下,认为X与Y有关系,则c等于( )A.5 B.6C.7 D.8解析:选A 经分析,c=5.二、填空题5.班级与成绩2×2列联表:表中数据m,n,p,解析:m=10+7=17,n=35+38=73,p=7+38=45,q=m+n=90.答案:17,73,45,906.在吸烟与患肺病是否相关的判断中,有下面的说法:①若χ2>6.64,则在犯错误的概率不超过0.01的前提下,认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99人患有肺病;②从独立性分析可知在犯错误的概率不超过0.01的前提下,认为吸烟与患肺病有关系时,若某人吸烟,则他有99%的可能患有肺病;③从独立性分析可知在犯错误的概率不超过0.05的前提下,认为吸烟与患肺病有关系时,是指有5%的可能性使得推断错误.其中说法正确的是________.解析:χ2是检验吸烟与患肺病相关程度的量,是相关关系,而不是确定关系,是反映有关和无关的概率,故说法①不正确;说法②中对“确定容许推断犯错误概率的上界”理解错误;说明③正确.答案:③7.统计推断,当________时,在犯错误的概率不超过0.05的前提下认为事件A与B 有关;当________时,认为没有充分的证据显示事件A与B是有关的.解析:当k>3.841时,就有在犯错误的概率不超过0.05的前提下认为事件A与B有关,当k<2.706时认为没有充分的证据显示事件A与B是有关的.答案:k>3.841 k<2.7068.某电视台在一次对收看文艺节目和新闻节目观众的抽样调查中,随机抽取了100名电视观众,相关的数据如下表所示:由表中数据直观分析,收看新闻节目的观众是否与年龄有关:________(填“是”或“否”).解析:因为在20至40岁的58名观众中有18名观众收看新闻节目,而大于40岁的42名观众中有27名观众收看新闻节目,即ba +b =1858,dc +d =2742,两者相差较大,所以,经直观分析,收看新闻节目的观众与年龄是有关的.答案:是 三、解答题9.某市对该市一重点中学2018年高考上线情况进行统计,随机抽查得到表格:解:对于上述四个科目,分别构造四个随机变量 χ21,χ22,χ23,χ24. 由表中数据可以得到: 语文:χ21=-2201×43×204×40=7.294>6.64,数学:χ22=-2201×43×201×43=30.008>6.64,英语:χ23=-2201×43×200×44=24.155>6.64,综合科目: χ24=-2201×43×201×43=17.264>6.64.所以有99%的把握认为语文、数学、英语、综合科目上线与总分上线有关系,数学上线与总分上线关系最大.10.一次对人们休闲方式的调查中共调查了124人,其中女性70人,男性54人,女性中有43人主要的休闲方式是看电视,另外27人主要的休闲方式是运动;男性中有21人主要的休闲方式是看电视,另外33人主要的休闲方式是运动.(1)根据以上数据建立一个2×2列联表;(2)能否在犯错误的概率不超过0.05的前提下认为性别与休闲方式有关系? 解:(1)2×2列联表如下:(2)χ2=-270×54×64×60≈6.201.因为6.201>3.841,所以有理由认为假设休闲方式与性别无关是不合理的,即在犯错误的概率不超过0.05的前提下认为休闲方式与性别有关.精美句子1、善思则能“从无字句处读书”。
8.4列联表独立性分析案例课件-湘教版数学选修2-3
X
Y 有效
口服
58
无效 40
合计 98
注射
64
31
95
合计
122
71
193
解:设H0:药的效果与给药方式没有关系
<3.841
练习巩固:
1. 在吸烟与患肺病这两个分类变量的计算中,下列说法正确 的是( )
x0 0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828
得到原结论成立的可信程度 故有 的把握认为X与Y相关
x0 0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828
X Y 喜欢数学课程 不喜欢数学课程
男
15
35
总计 50
女
4
46
50
总计
19
81
100
例2、某项实验,在100次实验中,成功率只有10%,进行技术 改造后,又进行了100次实验.试问:若要有97.5%以上的把握 认为“技术改造有明显效果”,实验的成功率至少为多少? (设 P( 2 5) 0.025 )
40
3700% 2650%
30 2500%
20 341005%%
患肺癌患肺癌 不患肺不癌吸患肺烟癌
不吸烟
2100% 10 105%
不吸烟
从各个三频维数柱的形相图0对能0大清0% 小楚肺条不不吸癌形吸烟的图烟 比、例等高高于条不形患图肺能癌看的出比,例吸烟
独立假性设检验
《4.3 列联表独立性分析案例》课件-优质公开课-湘教选修1-2精品
事件A与B有关;当χ2≤3.841时,认为事件A与B是无关的.
课前探究学习
课堂讲练互动
3.反证法原理与独立性检验原理的比较
反证法原理 —— 在假设 H0 下,如果推出一个矛盾,就证
明了H0不成立. 独立性检验原理 ——在假设 H0 下,如果出现一个与 H0 相 矛盾的小概率事件,就推断 H0 不成立,且该推断犯错误 的概率不超过小概率.
4.3 列联表独立性分析案例
【课标要求】 1.通过典型案例的探究,了解独立性检验(只要求2×2列联 表)的基本思想、方法及其简单应用.
2.本节的重点和难点是独立性检验的思想、方法及其初步
应用.
课前探究学习
课堂讲练互动
自学导引 1.在 2× 2 列联表中,χ2 统计量的计算公式为 nad-bc2 a+bc+da+cb+d 2 χ= , n= a+b+c+d .
389 1 048
总
计
665
772
1 437
根据列联表中的数据,得到
2 1 437 × 214 × 597 - 175 × 451 χ2= ≈16.373>6.635. 389×1 048×665×772
课前探究学习 课堂讲练互动
名师点睛 1.两个事件A与B独立的含义 如果事件A与B的发生彼此互不影响,或者影响可以忽略 不计,就可以认为它们是独立的.如果把事件A,B同时 发生记作AB,那么就有P(AB)=P(A)P(B),此时还有P( A B)=P( A )P(B),P(A B )=P(A)P( B ),P( A P( A )P( B ). B )=
解
将问题中的数据写成2×2列联表:
患A疾病 服用该药品 不服用该药品 合计 5 18 23 不患A疾病 100 400 500 合计 105 418 523
第3节 第2课时 列联表与独立性检验--2025高中数学一轮复习课件基础版(新高考新教材)
关键点:准确代入数值求出χ2,明确与哪个临界值比较大小.
2
(
-
)
附:χ2=(+)(+)(+)(+).
α
xα
0.1
2.706
0.05
3.841
0.01
6.635
审题指导:(1)直接根据均值定义求解.
(2)①根据中位数的定义求得m=23.4,从而求得列联表;②利用独立性检验
(1)计算试验组的样本平均数.
(2)①求40只小白鼠体重的增加量的中位数m,再分别统计两样本中小于m
与不小于m的数据的个数,完成如下列联表.
<m
取值范围
≥m
对照组
试验组
突破口:易知中位数是从小到大排序后第20位与第21位数据的平均数.故第
20位数据为23.2,第21位数据为23.6.
②依据小概率α=0.05的独立性检验,能否认为小白鼠在高浓度臭氧环境中
2
2×(0.8×0.7-0.3×0.2)
50
2
可得 χ =
= 99 .
1.1×0.9××
50×100
2 50
当 n=100 时,χ = 99 = 99 >50>10.828=x0.001,依据
α=0.001 的独立性检验,
我们推断 H0 不成立,即认为喜欢登山和性别有关,故③正确;
0.01
6.635
C.250
0.005
7.879
D.300
0.001
10.828
解析 设被调查的男、女学生总数量为n(n∈N*),根据题意可得出2×2列联
表,如下表所示:
性别
2019年高中数学第8章统计与概率8.4列联表独立性分析案例讲义(含解析)湘教版
8.4列联表独立性分析案例[读教材·填要点]1.列联表一般地,对于两个因素X和Y,X的两个水平取值:A和A(如吸烟和不吸烟),Y也有两个水平取值:B和B(如患肺癌和不患肺癌),我们得到下表中的抽样数据,这个表格称为2×2列联表.2.χ2公式χ2=n ad-bc2a +b c+d a+c b+d.3.独立性检验的概念用随机变量χ2研究两变量是否有关的方法称为独立性检验.4.独立性检验的步骤要判断“X与Y有关系”,可按下面的步骤进行:(1)提出假设H0:X与Y无关;(2)根据2×2列联表及χ2公式,计算χ2的值;(3)查对临界值,作出判断.其中临界值如表所示:表示在H0成立的情况下,事件“χ2≥x0”发生的概率.5.变量独立性判断的依据(1)如果χ2>10.828时,就有99.9%的把握认为“X与Y有关系”;(2)如果χ2>6.635时,就有99%的把握认为“X与Y有关系”;(3)如果χ2>2.706时,就有90%的把握认为“X与Y有关系”;(4)如果χ2≤2.706时,就认为没有充分的证据显示“X与Y有关系”,但也不能作出结论“H0成立”,即X与Y没有关系.[小问题·大思维]1.利用χ2进行独立性分析,估计值的准确度与样本容量有关吗?提示:利用χ2进行独立性分析,可以对推断的正确性的概率作出估计,样本容量n越大,这个估计值越准确.如果抽取的样本容量很小,那么利用χ2进行独立性检验的结果就不具有可靠性.2.在χ2运算后,得到χ2的值为29.78,在判断因素相关时,P(χ2≥6.64)≈0.01和P(χ2≥7.88)≈0.005,哪种说法是正确的?提示:两种说法均正确.P(χ2≥6.64)≈0.01的含义是在犯错误的概率不超过0.01的前提下认为两因素相关;而P(χ2≥7.88)≈0.005的含义是在犯错误的概率不超过0.005的前提下认为两因素相关.[例1]数据:[解] 由列联表中的数据,得χ2的值为χ2=-2254×1 379×54×1 579≈68.033>6.635.因此,有99%的把握认为每一晚打鼾与患心脏病有关系.解决一般的独立性分析问题,首先由所给2×2列联表确定a,b,c,d,a+b+c+d 的值,然后代入随机变量的计算公式求出观测值χ2,将χ2与临界值x0进行对比,确定有多大的把握认为两个分类变量有关系.1.某大型企业人力资源部为了研究企业员工工作积极性和对待企业改革态度的关系,经过调查得到如下列联表:系?解:由列联表中的数据,得 χ2=-294×95×86×103≈10.759>6.635,∴有99%的把握认为工作态度与支持企业改革之间有关系.[例2] (1)(2)若饮用干净水得病5人,不得病50人,饮用不干净水得病9人,不得病22人.按此样本数据分析这种疾病是否与饮用水有关,并比较两种样本在反映总体时的差异.[解] (1)假设H 0:传染病与饮用水无关.把表中数据代入公式,得χ2=-2146×684×518×312≈54.21,因为当H 0成立时,χ2≥10.828的概率约为0.001,所以我们有99.9%的把握认为该地区这种传染病与饮用不干净水有关.(2)依题意得2×2列联表:此时,χ2=-214×72×55×31≈5.785.由于5.785>2.706,所以我们有90%的把握认为该种疾病与饮用不干净水有关.两个样本都能统计得到传染病与饮用不干净水有关这一相同结论,但(1)中我们有99.9%的把握肯定结论的正确性,(2)中我们只有90%的把握肯定.独立性分析的步骤:要推断“X与Y是否有关”可按下面的步骤进行:①提出统计假设H0:X与Y无关;②根据2×2列联表与χ2计算公式计算出χ2的值;③根据两个临界值,作出判断.2.为了探究学生选报文、理科是否与对外语的兴趣有关,某同学调查了361名高二在校学生,调查结果如下:理科对外语有兴趣的有138人,无兴趣的有98人,文科对外语有兴趣的有73人,无兴趣的有52人.是否有90%的把握认为“学生选报文、理科与对外语的兴趣有关”?解:根据题目所给的数据得到如下列联表:χ2=-2211×150×236×125≈1.871×10-4.因为1.871×10-4<2.706,所以没有90%的把握认为“学生选报文、理科与对外语的兴趣有关”.[例3] 为了比较注射A,B两种药物后产生的皮肤疱疹的面积,选200只家兔做试验,将这200只家兔随机地分成两组,每组100只,其中一组注射药物A,另一组注射药物B.下表1和表2分别是注射药物A和药物B后的试验结果.(疱疹面积单位:mm2) 表1:注射药物A后皮肤疱疹面积的频数分布表表2:注射药物B 后皮肤疱疹面积的频数分布表完成下面2×2列联表,并回答是否有99%的把握认为“注射药物A 后的疱疹面积与注射药物B 后的疱疹面积有差异”.表3:[解]χ2=-2100×100×105×95≈24.56>6.635.因此,有99%的把握认为“注射药物A 后的疱疹面积与注射药物B 后的疱疹面积有差异”.在绘制列联表时,应对问题中的不同数据分成不同的类别,然后列表.要注意列联表中各行、各列中数据的意义及书写格式.3.已知某班n 名同学的数学测试成绩(单位:分,满分100分)的频率分布直方图如图所示,其中a ,b ,c 成等差数列,且成绩在[90,100]内的有6人.(1)求n 的值;(2)规定60分以下为不及格,若不及格的人中女生有4人,而及格的人中,男生比女生少4人,借助独立性检验分析是否有90%的把握认为“本次测试的及格情况与性别有关”?附:χ2=a +bc +d a +cb +d解:(1)依题意得⎩⎪⎨⎪⎧+0.025+c +2b +a =1,2b =a +c ,解得b =0.01.因为成绩在[90,100]内的有6人, 所以n =60.01×10=60.(2)由于2b =a +c ,而b =0.01,可得a +c =0.02,则不及格的人数为0.02×10×60=12,及格的人数为60-12=48,设及格的人中,女生有x 人,则男生有x -4人, 于是x +x -4=48,解得x =26,故及格的人中,女生有26人,男生有22人. 于是本次测试的及格情况与性别的2×2列联表如下:结合列联表计算可得χ2=30×30×48×12=1.667<2.706,故没有90%的把握认为“本次测试的及格情况与性别有关”.性别与患色盲是否有关?你所得到的结论在什么范围内有效?[解] 由题意作2×2列联表如下:法一:由列联表中数据可知,在调查的男人中,患色盲的比例是38480≈7.917%,女人中患色盲的比例为6520≈1.154%,由于两者差距较大,因而我们可以认为性别与患色盲是有关系的.法二:由列联表中所给的数据可知,a=38,b=442,c=6,d=514,a+b=480,c+d=520,a+c=44,b+d=956,n=1 000,代入公式得χ2=-2480×520×44×956≈27.1.由于χ2≈27.1>6.635,所以我们有99%的把握即在犯错误不超过0.01的前提下认为性别与患色盲有关系.这个结论只对所调查的480名男人和520名女人有效.1.下面是2×2列联表:则表中a,b的值分别为A.94,96 B.52,50C.52,54 D.54,52解析:选C ∵a+21=73,∴a=52.又∵a+2=b,∴b=54.2.下列关于χ2的说法中正确的是( )A.χ2在任何相互独立问题中都可以用于检验是否相关B.χ2的值越大,两个事件的相关性越大C.χ2是用来判断两个相互独立事件相关与否的一个统计量,它可以用来判断两个事件是否相关这一类问题D.χ2=n ad-bca +b c+d a+c b+d答案:C3.对于因素X与Y的随机变量χ2的值,下列说法正确的是( )A.χ2越大,“X与Y有关系”的可信程度越小B.χ2越小,“X与Y有关系”的可信程度越小C.χ2越接近于0,“X与Y没有关系”的可信程度越小D.χ2越大,“X与Y没有关系”的可信程度越大解析:选B χ2越大,“X与Y没有关系”的可信程度越小,则“X与Y有关系”的可信程度越大.即χ2越小,“X与Y有关系”的可信程度越小.4.若由一个2×2列联表中的数据计算得χ2的观测值为4.013,那么在犯错误的概率不超过________的前提下,认为两个变量之间有关系.解析:因为4.013>3.841,所以在犯错误的概率不超过0.05的前提下,认为两个变量之间有关系.答案:0.055.某矿石粉厂当生产一种矿石粉时,在数天内即有部分工人患职业性皮肤炎,在生产季节开始,随机抽取75名车间工人穿上新防护服,其余仍穿原用的防护服,生产进行一个月后,检查两组工人的皮肤炎患病人数如下:解析:χ2=-275×28×15×88≈13.826>6.635.故有99%的把握说,新防护服比旧防护服对预防工人职业性皮炎有效.答案:99%6.为了解某班学生喜爱打篮球是否与性别有关,对本班50人进行了问卷调查得到了如下的列联表:已知在全部50人中随机抽取1人抽到爱打篮球的学生的概率为35.(1)请将上面的列联表补充完整;(2)是否有99%的把握认为喜爱打篮球与性别有关;请说明理由. 附参考公式:χ2=n ad -bc 2a +bc +d a +cb +d,其中n =a +b +c +d .解:(1)列联表补充如下:(2)∵χ2=-230×20×25×25≈8.333>6.635,∴有99%的把握认为喜爱打篮球与性别有关.一、选择题1.有两个因素X 与Y 的一组数据,由其列联表计算得χ2≈4.523,则认为X 与Y 有关系是错误的可信度为( )A .95%B .90%C .5%D .10%解析:选C ∵χ2≥3.841.∴X 与Y 有关系的概率为95%,∴X 与Y 有关系错误的可信度为5%.2.通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:计算得,χ2=-260×50×60×50≈7.8.附表:A.在犯错误的概率不超过0.1% 的前提下,认为“爱好该项运动与性别有关”B.在犯错误的概率不超过0.1% 的前提下,认为“爱好该项运动与性别无关”C.有99%以上的把握认为“爱好该项运动与性别有关”D.有99%以上的把握认为“爱好该项运动与性别无关”解析:选C 根据独立性分析的思想方法,正确选项为C.3.某高校“统计初步”课程的老师随机调查了选该课的一些学生情况,具体数据如下表:为了分析主修统计中的数据,得到χ2=-223×27×20×30≈4.84,所以断定主修统计专业与性别有关系,这种判断出错的可能性为( )A.0.025 B.0.05C.0.975 D.0.95解析:选B ∵χ2≈4.84>3.841,所以我们有95%的把握认为主修统计专业与性别无关,即判断出错的可能性为0.05.4.已知P(x2≥2.706)=0.10,两个因素X和Y,取值分别为{x1,x2}和{y1,y2},其样本频数分别是a=10,b=21,c+d=35.若在犯错误的概率不超过0.1的前提下,认为X与Y有关系,则c等于( )A.5 B.6C.7 D.8解析:选A 经分析,c=5.二、填空题5.班级与成绩2×2列联表:表中数据m,n,p,解析:m=10+7=17,n=35+38=73,p=7+38=45,q=m+n=90.答案:17,73,45,906.在吸烟与患肺病是否相关的判断中,有下面的说法:①若χ2>6.64,则在犯错误的概率不超过0.01的前提下,认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99人患有肺病;②从独立性分析可知在犯错误的概率不超过0.01的前提下,认为吸烟与患肺病有关系时,若某人吸烟,则他有99%的可能患有肺病;③从独立性分析可知在犯错误的概率不超过0.05的前提下,认为吸烟与患肺病有关系时,是指有5%的可能性使得推断错误.其中说法正确的是________.解析:χ2是检验吸烟与患肺病相关程度的量,是相关关系,而不是确定关系,是反映有关和无关的概率,故说法①不正确;说法②中对“确定容许推断犯错误概率的上界”理解错误;说明③正确.答案:③7.统计推断,当________时,在犯错误的概率不超过0.05的前提下认为事件A与B 有关;当________时,认为没有充分的证据显示事件A与B是有关的.解析:当k>3.841时,就有在犯错误的概率不超过0.05的前提下认为事件A与B有关,当k<2.706时认为没有充分的证据显示事件A与B是有关的.答案:k>3.841 k<2.7068.某电视台在一次对收看文艺节目和新闻节目观众的抽样调查中,随机抽取了100名电视观众,相关的数据如下表所示:由表中数据直观分析,收看新闻节目的观众是否与年龄有关:________(填“是”或“否”).解析:因为在20至40岁的58名观众中有18名观众收看新闻节目,而大于40岁的42名观众中有27名观众收看新闻节目,即ba +b =1858,dc +d =2742,两者相差较大,所以,经直观分析,收看新闻节目的观众与年龄是有关的.答案:是 三、解答题9.某市对该市一重点中学2018年高考上线情况进行统计,随机抽查得到表格:解:对于上述四个科目,分别构造四个随机变量 χ21,χ22,χ23,χ24. 由表中数据可以得到: 语文:χ21=-2201×43×204×40=7.294>6.64,数学:χ22=-2201×43×201×43=30.008>6.64,英语:χ23=-2201×43×200×44=24.155>6.64,综合科目: χ24=-2201×43×201×43=17.264>6.64.所以有99%的把握认为语文、数学、英语、综合科目上线与总分上线有关系,数学上线与总分上线关系最大.10.一次对人们休闲方式的调查中共调查了124人,其中女性70人,男性54人,女性中有43人主要的休闲方式是看电视,另外27人主要的休闲方式是运动;男性中有21人主要的休闲方式是看电视,另外33人主要的休闲方式是运动.(1)根据以上数据建立一个2×2列联表;(2)能否在犯错误的概率不超过0.05的前提下认为性别与休闲方式有关系? 解:(1)2×2列联表如下:(2)χ2=-270×54×64×60≈6.201.因为6.201>3.841,所以有理由认为假设休闲方式与性别无关是不合理的,即在犯错误的概率不超过0.05的前提下认为休闲方式与性别有关.。
5.5 列联表中独立性的检验
要求:定义变量
medicine(药物:呋喃、甲氰)、result(效果:愈合、未愈合) count(频数)
给出列联表检验结果
或删去理论频数太小的行,列。
最小理论频数=最小行合计频数﹒最小列合计频数/总频数 3.多个总体率比较的卡方检验,若结论为拒绝原假设, 只能认为总体率之间不全等,不能说明任意两个总体率 有无差别,需做多重比较。
例:
判断患鼻咽癌与血型有无关系
分类
患癌者 健康人 合计
A型血
64 125 189
B型血
86 138 224
双向无序列联表:两个分类变量分类标志无数值大小 与先后顺序之分。
疗法 疗效 治愈 32 76 108 未愈 46 50 96 合计
不加牛黄 加牛黄 合计
78 126 204
设不加牛黄组治愈总体率为
,加牛黄组治愈总体率为 “疗法”与“疗效”独立
检验
即
H0:X与Y独立(即两组总体率相同)
实际频数Oij与理论频数Eij的差异是随机误差, 用 Pearson卡方统计量反映实际Oij与理论Eij吻合程度
O型血
130 210 340
AB型血
20 26 46
合计
300 499 799
第一行合计数,第四列合计数最小,最小理论频数
300 46 E14 17.27 5 799 H0:“患癌”与“血型”独立,H1:“患癌”与“血型”
不独立
2
642 862 N( 1) 799 i , j 1 Oi O j 300 189 300 224
不加牛黄 32 加牛黄 76 合计 108
疗效
治愈 46 50 9“疗法”与“疗效”独立(即两组治愈率相同 ) N=204>40
8.4列联表独立性分析案例
课本例题 P 86
总结独立性检验的一般步骤:
(1)假设两个分类变量没有关系; (2)根据列联表和公式计算出K2的观测值; (3)把K2的值与临界值比较,确定X与Y有关的程度或无关 系.
【例 2 】 在吸烟与患肺癌这两个变量的独立性检验的
计算中,下列说法正确的是 ________ .
①若K2>6.635,则我们有99%的把握认为吸烟与患肺癌 有关系,即在100个吸烟的人中必有99人患有肺癌; ②由独立性检验可知,当有 99% 的把握认为吸烟与患肺 癌有关系时,我们说某人吸烟,那么他有99%的可能患 有肺癌; ③从统计量中求出有 95% 的把握认为吸烟与患肺癌有关 系,是指有5%的可能性使得判断出现错误.
变式训练 对电视节目单上的某一节目,部分观众
的态度如下表:
完全同意 反对 合计
男人
女人 合计
14
29 43
26
34 60
4063 103源自问能否在判错率为0.05的条件下认为观看这个电视节目 的观众与性别有关?
假设观看这个电视节目的观众与性别无关
解
2 103 × 14 × 34 - 29 × 26 由公式得 χ2= ≈1.224.因为 43×60×63×40
解:(1)根据题目所给数据得到如下列联表:
患心脏病 患其他病 总计
秃顶 不秃顶
总计
解:(1)根据题目所给数据得到如下列联表:
患心脏病 患其他病 秃顶 不秃顶 总计 214 451 665 175 597 772 总计 389 1 048 1 437
(2)根据列联表中的数据,得到
因此,在犯错误的概率不超过0.01的前提下, 认为秃顶与患心脏病有关系.
课堂练习
4.有两个分类变量X与Y的一组数据,由其列联表 计算得K2≈4.523,则认为X与Y有关系是错误的 可信度为( ) A.95% B.90% C.5% D.10%
跟我学一步步学Minitab (33)独立性检验(用列联表分析)20200427
分析的例子 可以进一步进行分析
若吸烟和咳嗽无关, 这 个 值 应 该 是 80 , 而实际是100
这个卡方贡献最大
100大于80.说明吸烟 导致咳嗽的人更多了
今天就谈到这,欢迎大家交流!
100
700
100
1800
200
行和 1200 800 2000
分析目的:确定吸烟和咳嗽是否有关系?
分析例子
确定两个因子是否有关联;列联表;采取χ2 检验法
原假设(H0):因子A和B独立 备择假设(H1):因子A和B不独 立 求p值,若p<0.05,则认为有关联
分析例子 在Minitab工作表上,整理好数据
独立性检验(用列联表分析) 独立性检验(用列联表分析)
大家好!今天我们谈谈:“如何利用Minitab进行独立性检验”;我们用列联表的方式进行分析
列联表(contingency table) 列联表是观测数据按两个或更多属性(定性变量)分类时所列出的频数表 由两个以上的变量进行交叉分类的频数分布表
列联表(contingency table) 列联表主要作用 分析基本问题:观察各属性之间是否独立 各个属性是否有明显差异
Minitab选项表中,选择统计>表格>卡方检验(工作表中的双向表)
分析的例子 在弹出的选项中,按如下吸烟没有显示,获得结果中,分别用“1”和“2”显示
分析的例子 对获得的分析结果进行解释
p=0.002 , 小 于 0.05;拒绝原假设
拒绝原假设,认为原假设不 成立,备选假设成立。认为A 和B不独立。也就是吸烟和咳 嗽有关系
什么是独立性检验(chi square test)
根据次数资料判断两类因子彼此相关或相互独立的假设检验
列联表与独立性检验课件-高二下学期数学人教A版(2019)选择性必修第三册
A.94,72
B.52,50
C.52,74
解析:a=73-21=52,b=a+22=52+22=74.
D.74,52
3.为考察某种新型流感疫苗对该流感的预防作用,把1 000名注射疫苗的
人与另外1 000名未注射疫苗的人半年的感冒记录做比较,提出假设H 0 :
“这种疫苗不能起到预防该流感的作用”,并计算得P(χ2≥6.635)≈0.01,
赛会制:所有球队集中在同一个地方比赛,分两个阶段进行,每个阶段采用循
环赛,分主场比赛和客场比赛,积分排名前8的球队进入季后赛.下表是A队在
常规赛60场比赛中的比赛结果记录表.
单位:场
阶段
比赛场数
主场场数
获胜场数
主场获胜场数
第一阶段
30
15
20
10
第二阶段
30
15
25
15
(1)根据表中数据,完成下面2×2列联表:
在考前心情紧张.作出等高堆积条形图,利用图形判断考前心情紧张与性格
类型是否有关系.
解:列出列联表如下.
单位:人
考前心情
性格
合计
内向
外向
紧张
332
213
545
不紧张
94
381
475
合计
426
594
1 020
相应的等高堆积条形图如图所示.
图中阴影部分表示考前心情紧张与考前心情不紧张的学生中性格内向的
+
反映出两个分类变量间是否相互影响,但是此方法较粗略.
即时训练1-1:观察下列各图,其中两个分类变量x,y之间关系最强的是(
解析:在四幅图中,D图中两个深色条的高相差最明显,说明两个分类变量
数据分析—列联表与独立性检验
xα越大.
链教材·夯基固本 聚焦知识
(3)独立性判断 基于小概率值α的检验规则是: 当χ2≥xα时,我们就推断H0不成立,即认为X和Y___不__独__立___,该推断犯错误的概率 不超过___α__; 当χ2<xα时,我们没有充分证据推断H0不成立,可以认为X和Y___独__立___. 这种利用χ2的取值推断分类变量X和Y是否独立的方法称为χ2独立性检验,读作“卡 方独立性检验”,简称独立性检验.
研题型·通法悟道 举题说法
变式 (2023·全国甲卷文)一项试验旨在研究臭氧效应,试验方案如下:选40只小
白鼠,随机地将其中20只分配到试验组,另外20只分配到对照组,试验组的小白鼠 饲养在高浓度臭氧环境,对照组的小白鼠饲养在正常环境,一段时间后统计每只小 白鼠体重的增加量(单位:g).试验结果如下: 对照组的小白鼠体重的增加量从小到大排序为
研题型·通法悟道 举题说法
(2)①求40只小白鼠体重的增加量的中位数m,再分别统计两样本中小于m与不小于m 的数据的个数,完成如下列联表.
对照组 试验组
<m
≥m
研题型·通法悟道 举题说法
【解答】 依题意,可知这 40 只小鼠体重的中位数是将两组数据合在一起,从小到大
排后第 20 个与第 21 个数据的平均数,第 20 个数据为 23.2,第 21 个数据为 23.6,所
研题型·通法悟道 举题说法
(1)计算试验组的样本平均数. 【解答】 试验组的样本平均数为210×(7.8+9.2+11.4+12.4+13.2+15.5+16.5+18.0 +18.8+19.2+19.8+20.2+21.6+22.8+23.6+23.9+25.1+28.2+32.3+36.5)=32906 =19.8.