3.2 独立性检验

合集下载

数学高二-选修2素材 3.2独立性检验是如何判断两个事件是否相互独立的

数学高二-选修2素材 3.2独立性检验是如何判断两个事件是否相互独立的

3.2 独立性检验是如何判断两个事件是否相互独立的独立性检验的基本思想类似于反证法.要确认“两个分类变量有关系”这一结论成立的可信程度,首先假设结论不成立,即假设结论“两个分类变量没有关系”成立,在该假设下构造的随机变量2χ应该很小.如果由观测数据计算得到的2χ的观测值很大,则在一定程度上说明假设不合理.根据随机变量2χ的含义,可以通过概率式评价该假设不合理的程度,由实际计算的2χ>6.635,说明假设不合理的程度约为99%,即“两个分类变量有关系”这一结论成立的可信程度约为99%.当2χ≤3.841时,认为两个分类变量是无关的.对于两事件而言即相互独立.1.两个事件独立的判定例1: 为了研究不同的给药方式(口服与注射)和药的效果(有效与无效)是否有关,进行了相应的抽样调查,调查结果列表如下:根据193个病人的数据,能否作出药的效果与给药方式有关的结论?请说明理由.解:提出假设H0:药的效果与给药方式无关系.根据列联表中的数据,得χ2=2193(58314064)122719895-⨯-⨯⨯⨯⨯≈1.3896<2.072.当H0成立时,χ2>1.3896的概率大于15%,这个概率比较大,所以根据目前的调查数据,不能否定假设H0,即不能作出药的效果与给药方式有关的结论.注意:这是一个由列联表来验证的独立性检验问题,其结论是没有关系的假设成立.并且应该注意上述结论是对所有口服药物与注射药物的实验人而言的,绝不要误以为对被跟踪的193个跟踪研究对象成立.例2:调查某医院某段时间内婴儿出生的时间与性别的关系,得到下面的数据表.试问能以多大把握认为婴儿的性别与出生时间有关系.分析:利用表中的数据通过公式计算出2χ统计量,可以用它的取值大小来推断独立性是否成立.解:由公式()841.368892.35732345531826248922<≈⨯⨯⨯⨯-⨯⨯=χ 故婴儿的性别与出生时间是相互独立的(也可以说没有充分证据显示婴儿的性别与出生时间有关).2.两个事件不独立的判定例3:在某医院,因为患心脏病而住院的665名男性病人中,有214人秃顶,而另外772名不是因为患心脏病而住院的男性病人中有175人秃顶.利用独立性检验方法判断秃顶与患心脏病是否有关系?你所得的结论在什么范围内有效?分析:列出22⨯列联表,利用公式求出2χ与两个临界值3.841与6.635比较大小得适当范围.解:根据题目所给数据得到如下表所示: 秃顶与患心脏病列联表由公式,得:()635.6373.167726651048389451175597214143722>≈⨯⨯⨯⨯-⨯⨯=χ所以有99%的把握认为“秃顶与患心脏病有关”.说明:因为这组数据来自住院的病人,因此所得到的结论适合住院的病人群体.例4.某班主任对全班50名学生进行了作业量多少的调查,喜欢玩电脑游戏的同学认为作业多的有18人,认为作业不多的有9人,不喜欢玩电脑游戏的同学认为作业多的有8人,认为作业不多的有15人,则认为喜欢玩电脑游戏与认为作业量的多少有关系的把握大约是多少?解:2x =059.523272426)981518(502=⨯⨯⨯⨯-⨯, ()024.52>x P =0.025, 有97.5%的把握认为喜欢玩电脑游戏与认为作业多有关系.。

3.2《独立性检验》

3.2《独立性检验》

(这是“反证法”采用的假 设)
1. ad bc 越小说明吸烟与患肺癌之间关系越弱; 2. ad bc 越大说明吸烟与患肺癌之间关系越强;
这就是用数量来刻画“有关”程度的一种 方法
为了使不同样本容量的数据有一个统一的标准,我们构造一个随机变量K 2,
2 n ( ad bc ) k2的观测值为 K ,其中n=a+b+c+d为样本容量 (a b)(c d )(a c)(b d )
在假设H0成立的前提下,K 2的观测值k应该比较小。
当k很小时,H0成立的理由很充分,即没有足够的理由拒绝H0成立。 k很大时,说明没有充分的证据说明H0成立。 “假设H ”成立的概率
k大小的“标准”是什么呢?
P(K 2 k0 ) 0.50
0.40 0.708 0.25 1.323
0
临界值表
0.10 2.706
k0
在吸烟与患肺病这两个分类变量的计算中,下列说法正确
的是( c

A、若K的观测值为k=6.635,我们有99%的把握认为吸烟与患 肺病有关系,那么在100个吸烟的人中必有99个患肺病 B、从独立性检验可知有99%的把握认为吸烟与患肺病有关 系时,我们说某人吸烟,那么他有99%的可能患肺病
C、若从统计量中求出有95%的把握认为吸烟与患肺病有关
9965(7775 49 42 2099)2 K 的观测值为 k 56.632 7817 2148 9874 91
2
根据临界值表可知P( K 2 10.828) 0.001 只有0.1%的理由说明H0成立,所以有99.9%的理由判断H0不成立, 所以吸烟与患癌症有关系。
这种判断可能有错误,但是犯错误的概率不会超过0.001,这 是个小概率事件,我们有99.9%的把握认为“吸烟与患癌症有 关系”

高中数学必修2-3第三章3.2独立性检验的基本思想及其初步应用讲解

高中数学必修2-3第三章3.2独立性检验的基本思想及其初步应用讲解

3.2独立性检验的基本思想及其初步应用1.问题导航(1)分类变量的概念是什么?什么是列联表?什么是2×2列联表?(2)等高条形图的优点是什么?如何利用等高条形图判断两个变量之间的关系?(3)独立性检验的概念是什么?怎样进行独立性检验?2.例题导读例1是利用等高条形图和K2值的计算判断秃顶与患心脏病是否有关,请试做教材P97练习.1.分类变量和列联表(1)分类变量变量的不同“值”表示个体所属的_______不同类别,像这样的变量称为分类变量.(2)列联表①定义:列出的两个分类变量的_______频数表称为列联表.②2×2列联表一般地,假设有两个分类变量X和Y,它们的取值分别为_______{x1,x2_______}和_______{y1,y2.2.等高条形图(1)等高条形图与表格相比,更能直观地反映出两个分类变量间是否_______相互影响,常用等高条形图展示列联表数据的_______频率特征.(2)观察等高条形图发现aa+b和cc+d相差很大,就判断两个分类变量之间_______有关系.3.独立性检验(1)定义利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验.(2)K2=_______n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d为样本容量.(3)独立性检验的具体做法①根据实际问题的需要确定容许推断“两个分类变量有关系”犯错误概率的上界α,然后查表确定_______临界值k0.②利用公式计算随机变量K2的_______观测值k.③如果_______k≥k0,就推断“X与Y有关系”,这种推断犯错误的概率不超过α,否则,就认为在_______犯错误的概率不超过α的前提下不能推断“X与Y有关系”,或者在样本数据中_______没有发现足够证据支持结论“X与Y有关系”.1.判断(对的打“√”,错的打“×”)(1)列联表中的数据是两个分类变量的频数.()(2)事件A与B的独立性检验无关,即两个事件互不影响.()(3)K2的大小是判断事件A与B是否相关的统计量.()答案:(1)√(2)×(3)√2.在研究两个分类变量之间是否有关时,可以粗略地判断两个分类变量是否有关的是()A.散点图B.等高条形图C.2×2列联表D.以上均不对答案:B3.分类变量X和则下列说法中正确的是()A.ad-bc越小,说明X与Y关系越弱B.ad-bc越大,说明X与Y关系越强C.(ad-bc)2越大,说明X与Y关系越强D.(ad-bc)2越接近于0,说明X与Y关系越强答案:C4.若由一个2×2列联表中的数据计算K2的观测值k=4.013,那么在犯错误的概率不超过________的前提下认为两个变量有关系.答案:0.05详析独立性检验(1)独立性检验是对两个分类变量有关系的可信程度的判断,而不是对其是否有关系的判断.独立性检验的结论只能是有多大的把握认为两个分类变量有关系,而不能是两个分类变量一定有关系或没有关系.(2)列联表中的数据是样本数据,它只是总体的代表,具有随机性,因此,独立性检验得出的结论是带有概率性质的,只能说结论成立的概率有多大,而不能完全肯定一个结论.(3)独立性检验原理:在假设H0下,如果出现一个与H0相矛盾的小概率事件,就推断H0不成立,且该推断犯错误的概率不超过这个小概率.等高条形图的应用(2015·青岛高二检测)某学校对高三学生作了一项调查发现:在平时的模拟考试中,性格内向的学生426人中332人在考前心情紧张,性格外向的学生594人中有213人在考前心情紧张,作出等高条形图,利用图形判断考前心情紧张与性格类别是否有关系.[解]作列联表如下:相应的等高条形图如图所示:图中阴影部分表示考前心情紧张与考前心情不紧张中性格内向的比例,从图中可以看出考前心情紧张的样本中性格内向占的比例比考前心情不紧张样本中性格内向占的比例大,可以认为考前紧张与性格类别有关.利用等高条形图判断两个分类变量是否相关的步骤1.(1)观察下列各图,其中两个分类变量X,Y之间关系最强的是()解析:选D.在四幅图中,D图中两个阴影条的高度相差最明显,说明两个分类变量之间的关系最强.(2)在一次恶劣气候的飞行航程中,调查男女乘客在机上晕机的情况如下表所示,据此解:由数据的列联表可以得到等高条形图为:从图中可以发现男性中晕机的频率与女性中晕机的频率相差较大,故我们认为性别和是否晕机有关系,且在恶劣气候飞行中男性比女性更容易晕机.独立性检验(2014·高考辽宁卷节选)某大学餐饮中心为了解新生的饮食习惯,在全校一年级学根据表中数据,问是否有95%的把握认为“南方学生和北方学生在选用甜品的饮食习惯方面有差异”.[解]将2×2列联表中的数据代入公式计算,得K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)=100×(60×10-20×10)2 70×30×80×20=10021≈4.762.因为4.762>3.841,所以有95%的把握认为“南方学生和北方学生在选用甜品的饮食习惯方面有差异”.解决独立性检验问题的基本步骤:(1)根据已知的数据作出列联表.(2)作出相应的等高条形图,可以利用图形做出相应判断.(3)求K2的观测值.(4)判断可能性:与临界值比较,得出事件有关的可能性大小.2.(1)为了探究学生选报文、理科是否与对外语的兴趣有关,某同学调查了361名高二在校学生,调查结果如下:理科对外语有兴趣的有138人,无兴趣的有98人,文科对外语有兴趣的有73人,无兴趣的有52人.分析学生选报文、理科与对外语的兴趣是否有关?解:列出2×2列联表代入公式得K 2的观测值k =361×(138×52-73×98)2236×125×211×150≈1.871×10-4.∵1.871×10-4<2.706,∴可以认为学生选报文、理科与对外语的兴趣无关. (2)①这种传染病是否与饮用水的卫生程度有关,请说明理由;②若饮用干净水得病5人,不得病50人,饮用不干净水得病9人,不得病22人.按此样本数据分析这种疾病是否与饮用水有关,并比较两种样本在反映总体时的差异.解:①假设H 0:传染病与饮用水无关,把表中数据代入公式得K 2=830×(52×218-466×94)2146×684×518×312≈54.21,∵54.21>10.828,所以拒绝H 0.因此我们有99.9%的把握认为该地区这种传染病与饮用不干净水有关. ②依题意得2×2列联表:此时,K 2的观测值k =86×(5×22-50×9)214×72×55×31≈5.785.由于5.785>5.024,所以我们有97.5%的把握认为该种疾病与饮用不干净水有关.两个样本都能统计得到传染病与饮用不干净水有关这一相同结论,但①中我们有99.9%的把握肯定结论的正确性.②中我们只有97.5%的把握肯定.(本题满分12分)调查某医院某段时间内婴儿出生的时间与性别的关系,得到下面的数据:出生时间在晚上的男婴为24人,女婴为8人;出生时间在白天的男婴为31人,女婴为26人.(1)将下面的2×2(2)能否在犯错误的概率不超过0.1的前提下认为婴儿性别与出生时间有关系? [解] (1)4分(2)由所给数据计算K 2的观测值 k =89×(24×26-31×8)255×34×32×57≈3.689>2.706.8分根据临界值表知P (K 2≥2.706)≈0.10.9分因此在犯错误的概率不超过0.1的前提下认为婴儿的性别与出生的时间有关系.12分 [规范与警示] (1)解答过程中的表格经常因为不认真仔细,把数据填写错误,会直接导致总计出错,也会导致k值求错,另外在利用公式求K2的观测值时经常因为公式用错,数据代入计算错误,而使得独立性检验出错.(2)在解答独立性检验题目中,数据有时比较多,一定不要混淆,要分辨清楚,否则会影响解题的下一步,如本例2×2列联表中数据极易混淆.(3)计算中,有时公式复杂,要记忆准确,同时计算不能失误,如K2的公式很复杂,计算中也不要粗心.1.对于分类变量X与Y的随机变量K2的观测值k,下列说法正确的是()A.k越大,“X与Y有关系”的可信程度越小B.k越小,“X与Y有关系”的可信程度越小C.k越接近于0,“X与Y没有关系”的可信程度越小D.k越大,“X与Y没有关系”的可信程度越大解析:选B.k越大,“X与Y没有关系”的可信程度越小,则“X与Y有关系”的可信程度越大,k越小,“X与Y有关系”的可信程度越小.2.下面是调查某地区男女中学生喜欢理科的等高条形图,阴影部分表示喜欢理科的百分比,从图中可以看出()A.性别与喜欢理科无关B.女生中喜欢理科的比为80%C.男生比女生喜欢理科的可能性大些D.男生不喜欢理科的比为60%解析:选C.由图知女生中喜欢理科的比为20%,男生不喜欢理科的比为40%,故B、D 不正确.由图知,男生比女生喜欢理科的可能性大些.3.某电视台在一次对收看文艺节目和新闻节目观众的抽样调查中,随机抽取了100名由表中数据直观分析,收看新闻节目的观众与年龄________.(填“有关”或“无关”) 解析:因为在20至40岁的58名观众中有18名观众收看新闻节目,而大于40岁的42名观众中有27名观众收看新闻节目,即b a +b =1858,d c +d =2742,两者相差较大,所以,经直观分析,收看新闻节目的观众与年龄有关.答案:有关4.高中流行这样一句话“文科就怕数学不好,理科就怕英语不好”.下表是一次针对高三文科学生的调查所得的数据.(1)计算a ,(2)文科学生总成绩不好与数学成绩不好有关系吗? 解:(1)由478+a =490,得a =12. 由a +24=c ,得c =12+24=36. 由b +c =913,得b =913-36=877. (2)计算随机变量K 2的观测值:k =913×(478×24-399×12)2490×423×877×36≈6.233>5.024,∵P (k ≥5.024)≈0.025,∴在犯错误的概率不超过0.025的前提下,认为文科学生总成绩不好与数学成绩不好有关系.[A.基础达标]1.下面是2×2则表中a ,b 的值分别为A .94,72 B .52,50 C .52,74 D .74,52 解析:选C.根据列联表的特点,可知:⎩⎪⎨⎪⎧a +21=73,a +22=b ,解得⎩⎪⎨⎪⎧a =52,b =74. 2.下列关于等高条形图的叙述正确的是( )A .从等高条形图中可以精确地判断两个分类变量是否有关系B .从等高条形图中可以看出两个变量频数的相对大小C .从等高条形图中可以粗略地看出两个分类变量是否有关系D .以上说法都不对解析:选C.在等高条形图中仅能粗略判断两个分类变量的关系,故A 错.在等高条形图中仅能够找出频率,无法找出频数,故B 错.3.在研究打鼾与患心脏病之间的关系中,通过收集数据、整理分析数据得到“打鼾与患心脏病有关”的结论,并且在犯错误的概率不超过0.01的前提下认为这个结论是成立的.下列说法中正确的是( )A .100个心脏病患者中至少有99人打鼾B .1个人患心脏病,则这个人有99%的概率打鼾C .100个心脏病患者中一定有打鼾的人D .100个心脏病患者中可能一个打鼾的人都没有解析:选D.这是独立性检验,犯错误的概率在不超过0.01的前提下认为“打鼾与患心脏病有关”.这只是一个概率,即打鼾与患心脏病有关的可能性为99%.根据概率的意义可知答案应选D.4.为了解高中生作文成绩与课外阅读量之间的关系,某研究机构随机抽取了60名高中由以上数据,计算得到K 的观测值k ≈9.643,根据临界值表,以下说法正确的是( ) A .没有充足的理由认为课外阅读量大与作文成绩优秀有关 B .有0.5%的把握认为课外阅读量大与作文成绩优秀有关 C .有99.9%的把握认为课外阅读量大与作文成绩优秀有关D.有99.5%的把握认为课外阅读量大与作文成绩优秀有关解析:选D.根据临界值表,9.643>7.879,在犯错误的概率不超过0.005的前提下,认为课外阅读量大与作文成绩优秀有关,即有99.5%的把握认为课外阅读量大与作文成绩优秀有关.5.对两个分类变量A、B的下列说法中正确的个数为()①A与B无关,即A与B互不影响;②A与B关系越密切,则K2的值就越大;③K2的大小是判定A与B是否相关的唯一依据A.1 B.2C.3 D.0解析:选A.①正确,A与B无关即A与B相互独立;②不正确,K2的值的大小只是用来检验A与B是否相互独立;③不正确,也可借助等高条形图等.故选A.6.独立性检验所采用的思路是:要研究X,Y两个分类变量彼此相关,首先假设这两个分类变量彼此________,在此假设下构造随机变量K2.如果K2的观测值较大,那么在一定程度上说明假设________.解析:独立性检验的前提是假设两个分类变量无关系,然后通过随机变量K2的观测值来判断假设是否成立.答案:无关系不成立7.在吸烟与患肺病是否相关的判断中,有下面的说法:①若K2的观测值k>6.635,则在犯错误的概率不超过0.01的前提下,认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99人患有肺病;②从独立性检验可知在犯错误的概率不超过0.01的前提下,认为吸烟与患肺病有关系时,若某人吸烟,则他有99%的可能患有肺病;③从独立性检验可知在犯错误的概率不超过0.05的前提下,认为吸烟与患肺病有关系时,是指有5%的可能性使得推断错误.其中说法正确的是________.解析:K2是检验吸烟与患肺病相关程度的量,是相关关系,而不是确定关系,是反映有关和无关的概率,故说法①不正确;说法②中对“确定容许推断犯错误概率的上界”理解错误;说法③正确.答案:③8根据上述数据分析,我们得出的K 的观测值k 约为________. 解析:由公式可计算得k =102×(27×29-34×12)239×63×61×41≈2.334.答案:2.3349.某生产线上,质量监督员甲在生产现场时,990件产品中有合格品982件,次品8件;不在生产现场时,510件产品中有合格品493件,次品17件.试利用列联表和等高条形图判断监督员甲在不在生产现场对产品质量好坏有无影响.解:根据题目所给数据得如下2×2列联表:∵ad -bc =982×17-8×493=12 750,|ad -bc |比较大,说明甲在不在生产现场与产品质量好坏有关系.相应的等高条形图如图所示.图中两个阴影部分的高分别表示甲在生产现场和甲不在生产现场时样品中次品数的频率.从图中可以看出,甲不在生产现场时样本中次品数的频率明显高于甲在生产现场时样本中次品数的频率.因此可以认为质量监督员甲在不在生产现场与产品质量好坏有关系.10.研究人员选取170名青年男女大学生作为样本,对他们进行一种心理测验,发现60名女生对该心理测验中的最后一个题目的反应是:作肯定的有22名,作否定的有38名;110名男生在相同的题目上作肯定的有22名,作否定的有88名,问:性别与态度之间是否存在某种关系?试用独立性检验的方法判断.解:根据题意,得如下2×2列联表:根据列联表中的数据,得k=170×(22×38-22×88)2110×60×44×126≈5.622>5.024,所以可以在犯错误的概率不超过0.025的前提下认为“性别与态度有关”.[B.能力提升]1.假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其2×2列联表如下:对于以下数据,对同一样本能说明X与Y有关的可能性最大的一组为()A.a=5,b=4,c=3,d=2B.a=5,b=3,c=4,d=2C.a=2,b=3,c=4,d=5D.a=2,b=3,c=5,d=4解析:选D.对于A,|ad-bc|=|10-12|=2;对于B,|ad-bc|=|10-12|=2;对于C,|ad-bc|=|10-12|=2;对于D,|ad-bc|=|8-15|=7.2.有两个分类变量X,Y,其一组的列联表如下所示,其中a,15-a均为大于50.05的前提下认为X,Y有关,则a 的值为( )A .8B .9C .8,9D .6,8解析:选 C.根据公式,得K 2的观测值k =65×[a (30+a )-(15-a )(20-a )]220×45×15×50=13×(13a -60)220×45×3×2>3.841,根据a >5且15-a >5,a ∈Z ,求得a =8,9满足题意.3.某高校“统计初步”课程的教师随机调查了选该课的一些学生情况,具体数据如下表:K 2的观测值:k =50×(13×20-10×7)223×27×20×30≈4.844>3.841.因此,判定主修统计专业与性别有关系,那么这种判断出错的概率为________. 解析:根据k >3.841,可判断在犯错误的概率不超过0.05的前提下,认为主修统计专业与性别有关系.故出错的概率为0.05.答案:0.054试说明心理障碍与性别的关系:________. 解析:由表可知,a =10,b =20,c =10,d =70,a +b =30,c +d =80,a +c =20,b +d =90,n =110,ad =700,bc =200, 把以上数值代入K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )=110×(700-200)230×80×20×90≈6.365 7.因为6.365 7>5.024,所以在犯错误的概率不超过0.025的前提下认为心理障碍与性别有关系.答案:在犯错误的概率不超过0.025的前提下认为心理障碍与性别有关系5.某学生对其30位亲属的饮食习惯进行了一次调查,并用茎叶图表示30人的饮食指数,如图所示.(说明:图中饮食指数低于70的人,饮食以蔬菜为主;饮食指数大于等于70的人,饮食以肉类为主.)(1)根据茎叶图,帮助这位同学说明其30位亲属的饮食习惯; (2)(3)能否在犯错误的概率不超过0.010的前提下认为“其亲属的饮食习惯与年龄有关”?并写出简要分析.解:(1)30位亲属中50岁以上的人饮食多以蔬菜为主,50岁以下的人饮食多以肉类为主.(2)列联表如表所示:(3)K 2=30×(4×2-8×16)212×18×20×10=10>6.635,所以在犯错误的概率不超过0.010的前提下认为“其亲属的饮食习惯与年龄有关”. 6.为调查某地区老年人是否需要志愿者提供帮助,用简单随机抽样方法从该地区调查了500(1)估计该地区老年人中,需要志愿者提供帮助的老年人的比例;(2)能否在犯错误的概率不超过0.010的前提下认为该地区的老年人是否需要志愿者提供帮助与性别有关?(3)根据(2)的结论,能否提出更好的调查方法来估计该地区的老年人中,需要志愿者提供帮助的老年人的比例?说明理由.附:K 2=n (ad -bc )(a +b )(c +d )(a +c )(b +d ).解:(1)调查的500位老年人中有70位需要志愿者提供帮助,因此该地区老年人中,需要帮助的老年人的比例的估计值为70500×100%=14%.(2)K 2的观测值k =500×(40×270-30×160)2200×300×70×430≈9.967.由于9.967>6.635,所以在犯错误的概率不超过0.010的前提下认为该地区的老年人是否需要帮助与性别有关.(3)由(2)的结论知,该地区老年人是否需要帮助与性别有关,并且从样本数据能看出该地区男性老年人与女性老年人中需要帮助的比例有明显差异,因此在调查时,先确定该地区老年人中男、女的比例,再把老年人分成男、女两层并采用分层抽样方法比采用简单随机抽样方法更好.。

3.2 独立性检验

3.2 独立性检验

•(2)在实际问题中要记住以下几个常用值: •①k>6.635有99%的把握认为“X与Y有关系”; •②k>3.841有95%的把握认为“X与Y有关系”; •③k>2.706有90%的把握认为“X与Y有关系”; •④k≤2.706就认为没有充分证据显示“X与Y有关系”. •(3)反证法原理与独立性检验原理的比较 •反证法原理:在假设H0下,如果推出一个矛盾,就证明了H0 不成立. •独立性检验原理:在假设H0下,如果出现一个与H0相矛盾的 小概率事件,就推断H0不成立,且该推断犯错误的概率不超 过这个小概率.

频数
乙厂
29 71 85 159 76 62 18
[29.86,[29.90,[29.94, [29.98, [30.02, [30.06, [30.10, 分组 29.90) 29.94) 29.98) 30.02) 30.06) 30.10) 30.14)


(1)试分别估计两个分厂生产的零件的优质品率; (2)由以上统计数据填下面2×2列联表,并问是否有99% 的把握认为“两个分厂生产的零件的质量有差异”. 甲厂 优质品 非优质品 总 计 乙厂 总计
解 判断方法如下: 假设 H0“喜欢体育还是喜欢文娱与性别没有关系”,若 H0 成立,则 K2 应该很小. ∵a=21,b=23,c=6,d=29,n=79, nad-bc2 ∴k= a+bc+da+cb+d 79×21×29-23×62 = ≈8.106. 21+23×6+29×21+6×23+29
总计 94 95 189
判断学生的数学成绩好坏与对学习数学的 兴趣是否有关?

由公式得 K2 的观测值
189×64×73-22×302 k= ≈38.459. 86×103×95×94 ∵38.459>10.828, ∴有 99.9%的把握说学生学习数学的兴趣与数学成绩是有 关的.

第三章--统计案例-3.2-独立性检验的基本思想及其初步应用

第三章--统计案例-3.2-独立性检验的基本思想及其初步应用

解:由列联表中的数据,得 K2 的观测值为 1 633×30×1 355-224×242 k= ≈68.033>10.828. 254×1 379×54×1 579 因此,在犯错误的概率不超过 0.001 的前提下,认为每 一晚都打鼾与患心脏病有关.
为了调查某生产线上,某质量监督员甲对产
品质量好坏有无影响,现统计数据如下:质量监督员在现 场时,990件产品中合格品为 982 件,次品数为 8 件,甲不 在现场时,510件产品中合格品为493件,次品数为17件, 试分别用列联表、等高条形图、假设检验的方法对数据进
的方法来判断色盲与性别是否有关?你所得的结论在什么
范围内有效? 解:根据题目所给的数据作出如下的列联表: 色盲 不色盲 合计
男 女 合计
38 6 44
442 514 956
480 520 1 000
根据列联表作出相应的等高条形图,如图所示:
38 从等高条形图来看在男人中患色盲的比例480比在女人
38 6 6 中患色盲的比例520要大,其差值为480-520 ≈0.068,差
位统一,图形准确,但它不能给我们两个分类变量有关或
无关的精确的判断,若要作出精确的判断,可以进行独立 性检验的有关计算.
本题应首先作出调查数据的列联表,再根据列联表画
出等高条形图,并进行分析,ห้องสมุดไป่ตู้后利用独立性检验作出判 断.
在调查 480 名男士中有 38 名患有色盲, 520名女士中有6名患有色盲,分别利用图形和独立性检验


③如果 k≥k0 ,就推断“X与Y有关系”,这种推断
犯错误的概率不超过α;否则,就认为在犯错误的概 率不超过α的前提下不能推断“X与Y有关系”,或者 在样本数据中没有发现足够证据支持结论“X与Y有 关系”.

3.2独立性检验的基本思想及其应用

3.2独立性检验的基本思想及其应用
3.2 独立性检验的基本思想及其应用
导语
对于性别变量,其取值为男和女两种。这种变 量的不同“值”表示个体所属的不同类别,像这样 的变量称为分类变量。在现实生活中,分类变量是 大量存在的,例如是否吸烟、宗教信仰、国籍等等。
导语
对于性别变量,其取值为男和女两种。这种变 量的不同“值”表示个体所属的不同类别,像这样 的变量称为分类变量。在现实生活中,分类变量是 大量存在的,例如是否吸烟、宗教信仰、国籍等等。
复方江剪刀草 胆黄片 合计
有效 184 91 275
无效 61 9 70
合计 245 100 345
解:设H0:两种中草药的治疗效果没有差异。
K 2 345184 9 61 912 11.098
275 70 245100
因当H0成立时,χ2≥10.828的概率为0.001,故有99.9%的把握 认为,两种药物的疗效有差异。
比例

0.6
0.5
0.4
患肺癌
0.3
比例
0.2
0.1
0
不不吸吸烟烟
吸吸烟烟
其中两个浅色条的高分别表示不吸烟和吸烟样本中不患肺癌的 频率;两个深色条的高分别表示不吸烟和吸烟样本中患肺癌的频率.
比较图中两个深色条的高可以发现,在吸烟样本中患肺癌的频 率要高一些,因此直观上可以认为吸烟更容易引发肺癌.
上面我们通过分析数据和图形,得到的直观印象是吸烟和 患肺癌有关,那么这种判断是否可靠呢?这就需要通过统计 分析回答这个问题.
在日常生活中,我们常常关心两个分类变量之 间是否有关系。例如吸烟与患肺癌是否有关系?性 别是否对喜欢数学课程有影响?等等。
探究
为研究吸烟是否对肺癌有影响,某肿瘤研究所随 机地调查了9965人,得到如下结果(单位:人)

3.2高二数学独立性检验

3.2高二数学独立性检验
程度如何?
吸烟与肺癌列联表 不患肺癌 患肺癌 a b c a+c d b+d
不吸烟 吸烟 总计
总计 a+b c+d a+b+c+d
n(ad - bc) K = (a + b)(c + d)(a + c)(b + d)
2
2
作为检验在多大程度上可以认为“两个变量 有关系”的标准 。
独立性检验
不吸烟 吸烟 总计 通过公式计算 吸烟与肺癌列联表 不患肺癌 患肺癌 7775 42 2099 49 9874 91
总计 7817 2148 9965
9965(7775 49 42 2099) K 56.632 7817 2148 9874 91
2 2

独立性检验
已知在 H 0成立的情况下,
P( K 6.635) 0.01
2
即在 H 0 成立的情况下,K2 大于6.635概率非常 小,近似为0.01 现在的K2=56.632的观测值远大于6.635
独立性检验基本的思想类似反证法
(1)假设结论不成立,即“两个分类变量没有关系”.
(2)在此假设下随机变量 K2 应该很能小,如果由观测数据
计算得到K2的观测值k很大,则在一定程度上说明假设
不合理.
(3)根据随机变量K2的含义,可以通过 评价该假设不合理的程度,由实际计算出的, 说明假设合理的程度为99.9%,即“两个分类变量有关 系”这一结论成立的可信度为约为99.9%.
3)通过图形直观判断两个分类变量是否相关:
等高条 形图
100% 90% 80% 70% 60% 50% 40% 30% 20% 10% 0% 不吸烟 吸烟

3.2独立性检验

3.2独立性检验

在三维柱形图中,主对角线上两个柱形高 度的乘积与副对角线上两个柱形高度的 乘积相差越大,X与Y有关的可能性越大.
在二维条形图中, 满足条件X的个体中具有 Y的个体所占的比例: a/(a+b), 与满足条件Y 的个体中具有X的个体所占的比例: c/(c+d) 相差越大,X与Y有关的可能性越大.
2.怎样能够比较精确的判断两个分类变量 是否有关?
. 8000 . 7000 . 6000 . 5000 . 4000 . 3000 . 2000 . 1000
不吸烟
不患肺癌 患肺癌
吸烟
.1 .0.9 .0.8 .0.7 .0.6 .0.5 .0.4 .0.3 .0.2 .0.1
不吸烟
吸烟
不患肺癌 患肺癌
1.怎样通过三维柱形图和二维条形图判断 两个分类变量是否有关?
214
不秃头 451
总计
665
175
389
597 1048
772 1437
600
500
400
300
200
100 0 患心脏病
患其他病
不秃头 秃头
秃头 不秃头
K2
n(ad bc)2
16.373 6.635
(a b)(c d )(a c)(b d )
所以有99%的把握认为:秃头与患心脏病有关系
2.706
(a b)(c d )(a c)(b d )
时,就有90%的把握认为:X与Y有关系
一般地,当 K 2
n(c)(b d )
时,就认为没有充分的证据显示:X与Y有关系
秃头顶与心脏病的列联表
患心脏病 患其他病 总计
秃头
(1) 列列联表.

人教版高中数学选修2-3课件:3.2 独立性检验的基本思想及其初步应用(共38张PPT)

人教版高中数学选修2-3课件:3.2 独立性检验的基本思想及其初步应用(共38张PPT)

P(K2≥k0) 0.05 0.025 0.010 0.005 0.001
例如:
k0
3.841 5.024 6.635 7.879 10.828
①如果k≥10.828,就有99.9%的把握认为“X与Y有关系”;
②如果k≥7.879,就有99.5%的把握认为“X与Y有关系”;
③如果k≥6.635,就有99%的把握认为“X与Y有关系”;
≈7.8.
备课素材
附表:P(K2≥k0) k0
0.050 3.841
0.010 6.635
0.001 10.828
参照附表,得到的正确结论是 (A ) A.有99%以上的把握认为“爱好该项运动与性别有关” B.有99%以上的把握认为“爱好该项运动与性别无关” C.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关” D.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”
表(称为2×2列联表)为
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计 a+c
b+d a+b+c+d
若要推断的论述为H1:“X与Y有关系”,则可以按如下步骤判断H1成立的可能性:
预习探究
预习探究
P(K2≥k0) 0.50 0.40 0.25 0.15 0.10
k0
0.455 0.708 1.323 2.072 2.706
考点类析
考点一 两分类变量之间关联关系的定性分析
例1 为考察某种药物预防某种疾病的效果,进行了一 项动物试验,得到如下列联表:
服用药 未服用药

8.3.2独立性检验(解析版)

8.3.2独立性检验(解析版)

独立性检验【学习目标】1.了解独立性检验的基本思想、方法及其简单应用2.理解判断两个分类变量是否有关系的常用方法、独立性检验中K2的含义及其实施步骤【自主学习】知识点独立性检验(1)定义:利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验.(2)K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d.(3)独立性检验的具体做法①根据实际问题的需要确定容许推断“两个分类变量有关系”犯错误概率的上界α,然后查表确定临界值k0.②利用公式计算随机变量K2的观测值k.③如果k≥k0,就推断“X与Y有关系”,这种推断犯错误的概率不超过α,否则就认为在犯错误的概率不超过α的前提下不能推断“X与Y有关系”,或者在样本数据中没有发现足够证据支持结论“X与Y有关系”.【合作探究】探究一 有关“相关的检验”【例1】某校对学生课外活动进行调查,结果整理成下表:用你所学过的知识进行分析,能否在犯错误的概率不超过0.005的前提下,认为“喜欢体育还是文娱与性别有关系”?解 判断方法如下:假设H 0“喜欢体育还是喜欢文娱与性别没有关系”,若H 0成立,则K 2应该很小. ∵a =21,b =23,c =6,d =29,n =79, ∴K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )=79×(21×29-23×6)244×35×27×52≈8.106.且P (K 2≥7.879)≈0.005即我们得到的K 2的观测值k ≈8.106超过7.879,这就意味着:“喜欢体育还是文娱与性别没有关系”这一结论成立的可能性小于0.005,即在犯错误的概率不超过0.005的前提下认为“喜欢体育还是喜欢文娱与性别有关”.归纳总结:(1)利用K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )求出K 2的观测值k 的值.再利用临界值的大小来判断假设是否成立.(2)解题时应注意准确代数与计算,不可错用公式,准确进行比较与判断.【练习1】为研究学生的数学成绩与对学习数学的兴趣是否有关,对某年级学生作调查得到如下数据:判断学生的数学成绩好坏与对学习数学的兴趣是否有关? 解 由公式得K 2的观测值k =189×(64×73-22×30)286×103×95×94≈38.459.∵38.459>10.828,∴有99.9%的把握说学生学习数学的兴趣与数学成绩是有关的.探究二 有关“无关的检验”【例2】为了探究学生选报文、理科是否与对外语的兴趣有关,某同学调查了361名高二在校学生,调查结果如下:理科对外语有兴趣的有138人,无兴趣的有98人,文科对外语有兴趣的有73人,无兴趣的有52人.分析学生选报文、理科与对外语的兴趣是否有关? 解 列出2×2列联表代入公式得K 2的观测值k =361×(138×52-73×98)2236×125×211×150≈1.871×10-4.∵1.871×10-4<2.706,∴可以认为学生选报文、理科与对外语的兴趣无关.归纳总结:运用独立性检验的方法:(1)列出2×2列联表,根据公式计算K 2的观测值k . (2)比较k 与k 0的大小作出结论.【练习2】第16届亚运会于2010年11月12日至27日在中国广州进行,为了搞好接待工作,组委会招募了16名男志愿者和14名女志愿者,调查发现,男、女志愿者中分别有10人和6人喜爱运动,其余人不喜爱运动. (1)根据以上数据完成以下2×2列联表:(2)根据列联表的独立性检验,能否在犯错误的概率不超过0.10的前提下认为性别与喜爱运动有关? 解 (1)(2)假设是否喜爱运动与性别无关,由已知数据可求得: K 2=30×(10×8-6×6)2(10+6)(6+8)(10+6)(6+8)≈1.157 5<2.706,因此,在犯错误的概率不超过0.10的前提下不能判断喜爱运动与性别有关.探究三 独立性检验的基本思想【例3】某企业有两个分厂生产某种零件,按规定内径尺寸(单位:mm)的值落在(29.94,30.06)的零件为优质品.从两个分厂生产的零件中各抽出500件,量其内径尺寸,结果如下表: 甲厂乙厂(1)试分别估计两个分厂生产的零件的优质品率;(2)由以上统计数据填下面2×2列联表,并问是否有99%的把握认为“两个分厂生产的零件的质量有差异”.附:K 2=n (ad -bc )(a +b )(c +d )(a +c )(b +d ),解 (1)甲厂抽查的产品中有360件优质品,从而甲厂生产的零件的优质品率估计为360500=72%;乙厂抽查的产品中有320件优质品,从而乙厂生产的零件的优质品率估计为320500=64%.(2)K 2=1 000×(360×180-320×140)2500×500×680×320≈7.353>6.635,所以有99%的把握认为“两个分厂生产的零件的质量有差异”.归纳总结:(1)解答此类题目的关键在于正确利用K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )计算k 的值,再用它与临界值k 0的大小作比较来判断假设检验是否成立,从而使问题得到解决.(2)此类题目规律性强,解题比较格式化,填表计算分析比较即可,要熟悉其计算流程,不难理解掌握.【练习3】下表是某地区的一种传染病与饮用水的调查表:(1)这种传染病是否与饮用水的卫生程度有关,请说明理由;(2)若饮用干净水得病5人,不得病50人,饮用不干净水得病9人,不得病22人.按此样本数据分析这种疾病是否与饮用水有关,并比较两种样本在反映总体时的差异.解 (1)假设H 0:传染病与饮用水无关.把表中数据代入公式得:K 2的观测值k =830×(52×218-466×94)2146×684×518×312≈54.21,∵54.21>10.828,所以拒绝H 0.因此我们有99.9%的把握认为该地区这种传染病与饮用不干净水有关. (2)依题意得2×2列联表:此时,K 2的观测值k =86×(5×22-50×9)14×72×55×31≈5.785.由于5.785>5.024,所以我们有97.5%的把握认为该种疾病与饮用不干净水有关.两个样本都能统计得到传染病与饮用不干净水有关这一相同结论,但(1)中我们有99.9%的把握肯定结论的正确性,(2)中我们只有97.5%的把握肯定.课后作业A组基础题一、选择题1.经过对K2的统计量的研究,得到了若干个临界值,当K2的观测值k>3.841时,我们() A.在犯错误的概率不超过0.05的前提下可认为X与Y有关B.在犯错误的概率不超过0.05的前提下可认为X与Y无关C.在犯错误的概率不超过0.01的前提下可认为X与Y有关D.没有充分理由说明事件X与Y有关系【答案】A2.用独立性检验来考察两个分类变量x与y是否有关系,当统计量K2的观测值() A.越大,“x与y有关系”成立的可能性越小B.越大,“x与y有关系”成立的可能性越大C.越小,“x与y没有关系”成立的可能性越小D.与“x与y有关系”成立的可能性无关【答案】B3.在一个2×2列联表中,由其数据计算得K2的观测值k=7.097,则这两个变量间有关系的可能性为()A.99% B.99.5%C.99.9% D.无关系【答案】A解析K2的观测值6.635<k<7.879,所以有99%的把握认为两个变量有关系.4.对两个分类变量A,B的下列说法中正确的个数为()①A与B无关,即A与B互不影响;②A与B关系越密切,则K2的值就越大;③K2的大小是判定A与B是否相关的唯一依据A.0 B.1 C.2 D.3【答案】B解析①正确,A与B无关即A与B相互独立;②不正确,K2的值的大小只是用来检验A 与B是否相互独立;③不正确,例如借助三维柱形图、二维条形图等.故选B.5.考察棉花种子经过处理跟生病之间的关系得到下表数据:根据以上数据,可得出()A.种子是否经过处理跟是否生病有关B.种子是否经过处理跟是否生病无关C.种子是否经过处理决定是否生病D.以上都是错误的【答案】B解析由K2=407×(32×213-61×101)293×314×133×274≈0.164<2.706,即没有把握认为种子是否经过处理跟是否生病有关. 二、填空题 6.根据下表计算:K 2的观测值k ≈________(保留3位小数). 【答案】 4.514解析 k =300×(37×143-85×35)2122×178×72×228≈4.514.7.如果K 2的观测值为6.645,可以认为“x 与y 无关”的可信度是________. 【答案】 1%解析 查表可知可信度为1%.8.为了解高中生作文成绩与课外阅读量之间的关系,某研究机构随机抽取了60名高中生,通过问卷调查,得到以下数据:由以上数据,计算得到K 2的观测值k ≈9.643,根据临界值表,有________把握认为课外阅读量大与作文成绩优秀有关. 【答案】 99.5%解析根据临界值表,9.643>7.879,在犯错误的概率不超过0.005的前提下,认为课外阅读量大与作文成绩优秀有关,即有99.5%的把握认为课外阅读量大与作文成绩优秀有关.9.为研究某新药的疗效,给50名患者服用此药,跟踪调查后得下表中的数据:设H0:服用此药的效果与患者的性别无关,则K2的观测值k≈________(小数点后保留三位有效数字),从而得出结论:服用此药的效果与患者的性别有关,这种判断出错的可能性为________.【答案】 4.8825%解析由公式计算得K2的观测值k≈4.882,∵k>3.841,∴我们有95%的把握认为服用此药的效果与患者的性别有关,从而有5%的可能性出错.三、解答题10.高中流行这样一句话“文科就怕数学不好,理科就怕英语不好”.下表是一次针对高三文科学生的调查所得数据,试问:在出错概率不超过0.025的前提下,能否判断“文科学生总成绩不好与数学成绩不好有关系”?解依题意,计算随机变量K2的观测值:k =913×(478×24-399×12)2490×423×877×36≈6.233>5.024,所以在出错概率不超过0.025的前提下,可以判断“文科学生总成绩不好与数学成绩不好有关系”.11.吃零食是中学生中普遍存在的现象,吃零食对学生身体发育有诸多不利影响,影响学生的健康成长.下表是性别与吃零食的列联表:请问喜欢吃零食与性别是否有关?解K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),把相关数据代入公式,得 K 2的观测值k =85×(5×28-40×12)217×68×45×40≈4.722>3.841.因此,在犯错误的概率不超过0.05的前提下,可以认为“喜欢吃零食与性别有关”. 12.在某校对有心理障碍学生进行测试得到如下列联表:试说明在这三种心理障碍中哪一种与性别关系最大?解 对于题中三种心理障碍分别构造三个随机变量K 21,K 22,K 23.其观测值分别为k 1,k 2,k 3.由表中数据列出焦虑是否与性别有关的2×2列联表可得k 1=110×(5×60-25×20)30×80×25×85≈0.863<2.706,同理,k 2=110×(10×70-20×10)230×80×20×90≈6.366>5.024,k 3=110×(15×30-15×50)230×80×65×45≈1.410<2.706.因此,在犯错误的概率不超过0.025的前提下,认为说谎与性别有关,没有充分的证据显示焦虑、懒惰与性别有关.B组能力提升一、选择题1.千百年来,我国劳动人民在生产实践中根据云的形状、走向、速度、厚度、颜色等的变化,总结了丰富的“看云识天气”的经验,并将这些经验编成谚语,如“天上钩钩云,地上雨淋淋”“日落云里走,雨在半夜后”……小波同学为了验证“日落云里走,雨在半夜后”,观察了所在地区A的100天日落和夜晚天气,得到如下2×2列联表:0010并计算得到219.05K≈,下列小波对地区A天气判断不正确的是()A. 夜晚下雨的概率约为1 2B. 未出现“日落云里走”夜晚下雨的概率约为5 14C. 有99.9%的把握认为“‘日落云里走’是否出现”与“当晚是否下雨”有关D. 出现“日落云里走”,有99.9%的把握认为夜晚会下雨【答案】:D【分析】把频率看作概率,即可判断,A B的正误;根据独立性检验可判断,C D的正误,即得【答案】.【详解】由题意,把频率看作概率可得:夜晚下雨的概率约为252511002+=,故A正确;未出现“日落云里走”夜晚下雨的概率约为255254514=+,故B正确;由219.0510.828K≈>,根据临界值表,可得有99.9%的把握认为“‘日落云里走’是否出现”与“当晚是否下雨”有关,故C正确;故D错误.故选:D.2.为了判断英语词汇量与阅读水平是否相互独立,某语言培训机构随机抽取了100位英语学习者进行调查,经过计算2K的观测值为7,根据这一数据分析,下列说法正确的()附:A. 有99%以上的把握认为英语词汇量与阅读水平无关B. 有99.5%以上的把握认为英语词汇量与阅读水平有关C. 有99.9%以上的把握认为英语词汇量与阅读水平有关D. 在犯错误的概率不超过1%的前提下,可以认为英语词汇量与阅读水平有关 【答案】:D 【分析】由题意()26.6350.01P K ≥=,由独立性检验的原理即可得解.【详解】由题意27K =,()26.6350.01P K ≥=,所以在犯错误的概率不超过1%的前提下,可以认为英语词汇量与阅读水平有关,有99%的把握认为英语词汇量与阅读水平有关. 故选:D.3.通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的22⨯列联表:由22()()()()()n ad bc a b c d a c b d χ-=++++算得,22110(40302020)7.860506050χ⨯⨯-⨯=≈⨯⨯⨯.附表:参照附表,得到的正确结论是()A. 在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”;B. 在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”;C. 有99%以上的把握认为“爱好该项运动与性别有关”;D. 有99%以上的把握认为“爱好该项运动与性别无关”.【答案】:C【分析】根据给定的2K的值,结合附表,即可得到结论.【详解】由22110(40302020)7.8 6.63560506050χ⨯⨯-⨯=≈>⨯⨯⨯,所以有99%以上的把握认为“爱好该项运动与性别有关.故选:C.4.在一次独立性检验中得到如下列联表:若这两个分类变量A和B没有关系,则a的可能值是() A. 200 B. 720C. 100D. 180【答案】:B 【分析】令2k 的观测值为零,解方程即得解.【详解】当a =720时,k =0,易知此时两个分类变量没有关系. 故【答案】为B5.(多选题)针对时下的“抖音热”,某校团委对“学生性别和喜欢抖音是否有关”作了一次调查,其中被调查的男女生人数相同,男生喜欢抖音的人数占男生人数的45,女生喜欢抖音的人数占女生人数35,若有95%的把握认为是否喜欢抖音和性别有关则调查人数中男生可能有( )人 附表:附:()()()()()22n ad bc K a b c d a c b d -=++++ A. 25 B. 45C. 60D. 75【答案】:BC 【分析】设男生的人数为()5n n N*∈,列出22⨯列联表,计算出2K 的观测值,结合题中条件可得出关于n 的不等式,解出n 的取值范围,即可得出男生人数的可能值.【详解】设男生的人数为()5n n N*∈,根据题意列出22⨯列联表如下表所示:则()221042310557321n n n n n n K n n n n ⨯⨯-⨯==⨯⨯⨯,由于有95%的把握认为是否喜欢抖音和性别有关,则23.841 6.632K ≤<,即103.841 6.63221n≤<,得8.066113.9272n ≤<, n N *∈,则n 的可能取值有9、10、11、12,因此,调查人数中男生人数的可能值为45或60. 故选:BC. 二、填空题6.某手机运营商为了拓展业务,现对该手机使用潜在客户进行调查,随机抽取国内国外潜在用户代表各100名,调查用户对是否使用该手机的态度,得到如图所示的等高条形图.根据等高图,______(填“有”或“没有”)99.5%以上的把握认为持乐观态度和国内外差异有关.(参考公式与数据:()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++)()20P K k ≥0.05 0.01 0.005 0.001 0k3.841 6.635 7.879 10.828【答案】:有依题意,可知国内代表乐观人数60人,不乐观人数40人,国外乐观人数40人,不乐观人数60人,总计乐观人数100人,不乐观人数100人,所以,而,所以有99.5%以上的把握认为持乐观态度和国内外差异有关.7.给给给给给给给 给线性回归方程y bx a =+必过点(),x y ;给相关系数r 越小,表明两个变量相关性越弱; ()22200606040408100100100100K ⨯-⨯==⨯⨯⨯87.879>给相关指数2R 越接近1,表明回归的效果越好;给在一个2×2列联表中,由计算得2K 的观测值k =13.079,则有99%以上的把握认为这两个变量之间没有关系;给设有一个线性回归方程35y x =-,则变量x 增加一个单位时,y 平均增加5个单位. 其中正确的说法有 (填序号).【答案】:给给对于给,应该是相关系数r 的绝对值越小,表明两个变量相关性越弱.所以它是错误的.对于给,应该是有99%以上的把握认为这两个变量之间有关系.对于给,应该是变量x 增加一个单位时,y 平均减少5个单位.故填给给.三、解答题8.随着现代教育技术的不断发展,我市部分学校开办智慧班教学,某校从甲乙两智慧班各随机抽取45名学生,调查两个班学生对智慧课堂的评价:“满意”与“不满意”,调查中发现甲班评价“满意”的学生人数比乙班评价“满意”的学生人数多9人,根据调查情况制成如下图所示的2×2列联表:(1)完成2×2列联表,并判断能否有97.5%的把握认为评价与班级有关系?(2)从甲乙两班调查评价为“不满意”的学生中按照分层抽样的方法随机抽取7人,现从这7人中选派3人到校外参加智慧课堂研究活动,求其中至少有2人选自乙班学生的概率. 附:22()()()()()n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.【答案】:(1)表格见解析,有97.5%的把握认为评价与班级有关系;(2)67. 【分析】 (1)首先根据题意填写22⨯列联表,再计算2 5.031 5.024=>K 即可得到结论.(2)首先根据题意得到甲班选取2人,乙班选取5人,再计算概率即可.【详解】(1)完成列联表如下:2290(3915306)=5.031 5.024********⨯-⨯=>⨯⨯⨯K . 所以有97.5%的把握认为评价与班级有关系.(2)抽样比17213==,甲班选取2人,乙班选取5人,则1232553767C C CpC+==.9.盲盒里面通常装的是动漫、影视作品的周边,或者设计师单独设计出来的玩偶.由于盒子上没有标注,购买者只有打开才会知道自己买到了什么,因此这种惊喜吸引了众多年轻人,形成了“盲盒经济”.某款盲盒内可能装有某一套玩偶的A、B、C三种样式,且每个盲盒只装一个.(1)若每个盲盒装有A、B、C三种样式玩偶的概率相同.某同学已经有了A样式的玩偶,若他再购买两个这款盲盒,恰好能收集齐这三种样式的概率是多少?(2)某销售网点为调查该款盲盒的受欢迎程度,随机发放了200份问卷,并全部收回.经统计,有30%的人购买了该款盲盒,在这些购买者当中,女生占23;而在未购买者当中,男生女生各占50%.请根据以上信息填写下表,并分析是否有95%的把握认为购买该款盲盒与性别有关?参考公式:()()()()()22n ad bca b c d a c b dχ-=++++,其中n a b c d=+++.参考数据:(3)该销售网点已经售卖该款盲盒6周,并记录了销售情况,如下表:由于电脑故障,第二周数据现已丢失,该销售网点负责人决定用第4、5、6周的数据求线性回归方程,再用第1、3周数据进行检验.①请用4、5、6周的数据求出y关于x的线性回归方程y bx a=+;(注:()()()1122211n ni i i ii in ni ii ix x y y x y nx ybx x x nx====---==--∑∑∑∑,a y bx=-)②若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2盒,则认为得到的线性回归方程是可靠的,试问①中所得的线性回归方程是否可靠?③如果通过②的检验得到的回归直线方程可靠,我们可以认为第2周卖出的盒数误差也不超过2盒,请你求出第2周卖出的盒数的可能取值;如果不可靠,请你设计一个估计第2周卖出的盒数的方案.【答案】:(1)29;(2)表格见解析,有95%把握认为购买该款盲盒与性别有关;(3)给2.514.5y x=+;给是可靠的;给第2周卖出的盒数的可能值为18、19、20、21.【分析】(1)用列举法写出所有基本事件,再从中找出满足要求的基本事件,用古典概型的公式即可求得结果;(2)通过计算,完成列联表,再计算出观测值2 4.714k ≈,比表中0.05所对应的数据3.841大,故得出结论“有95%把握认为购买该款盲盒与性别有关”;(3)给将第4、5、6周的数据代入公式,计算出b 和a ,写出回归直线方程;给将第1、3周的数据代入给所求出的回归直线方程进行检验,该方程可靠;给将2x =代入给所求出的回归直线方程,解得19.5y =,根据可靠性的要求,以及该应用题的实际要求,得出第2周卖出的盒数的可能取值.【详解】解:(1)由题意,基本事件空间为{}(,),(,),(,),(,),(,),(,),(,),(,),(,)A A A B A C B A B B B C C A C B C C Ω=,其中基本事件的个数为9,设事件D 为:“他恰好能收集齐这三种样式”,则()(){},,,D B C C B =,其中基本事件的个数为2, 则他恰好能收集齐这三种样式的概率29P =; (2)22200(40702070) 4.7141109060140k ⨯-⨯=≈⨯⨯⨯, 又因为4.714 3.841>,故有95%把握认为“购买该款盲盒与性别有关”;(3)给由数据,求得5x =,27y =,由公式求得 222(45)(2527)(55)(2627)(65)(3027)5(45)(55)(65)2b --+--+--==-+-+-, 527514.52a =-⨯=, 所以y 关于x 的线性回归方程为 2.514.5y x =+;给当1x =时, 2.5114.517y =⨯+=,17162-<,同样,当3x =时, 2.5314.522y =⨯+=,22232-<,所以,所得到的线性回归方程是可靠的;给由给可知回归直线方程可靠,2x =时 2.5214.519.5y =⨯+=,设第二周卖出的盒数为()n n N ∈,则19.52n -≤,≤≤,n17.521.5给n能取18、19、20、21,即第2周卖出的盒数的可能值为18、19、20、21.【点睛】本题考查了古典概型的概率计算,独立性检验的实际应用,线性回归直线方程的求解及实际应用问题,综合性较强.10.阿基米德是古希腊伟大的哲学家、数学家、物理学家,对几何学、力学等学科作出过卓越贡献.为调查中学生对这一伟大科学家的了解程度,某调查小组随机抽取了某市的100名高中生,请他们列举阿基米德的成就,把能列举阿基米德成就不少于3项的称为“比较了解”,少于三项的称为“不太了解”.他们的调查结果如下:(1)完成如下2×2列联表,并判断是否有99%的把握认为,了解阿基米德与选择文理科有关?(2)在抽取的100名高中生中,按照文理科采用分层抽样的方法抽取10人的样本. (i )求抽取的文科生和理科生的人数;(ii )从10人的样本中随机抽取3人,用X 表示这3人中文科生的人数,求X 的分布列和数学期望.参考数据:22()()()()()n ad bc k a b c d a c b d -=++++,n a b c d =+++. 【答案】:(1)见解析;(2) (i )文科生3人,理科生7人 (ii )见解析【分析】(1)写出列联表后可计算2K ,根据预测值表可得没有99%的把握认为,了解阿基米德与选择文理科有关.(2)(i )文科生与理科生的比为310,据此可计算出文科生和理科生的人数. (ii )利用超几何分布可计算X 的分布列及其数学期望.【详解】解:(1)依题意填写列联表如下:计算222()100(42182812) 3.382 6.635()()()()30705446n ad bc K a b c d a c b d -⨯-⨯==≈<++++⨯⨯⨯, ∴没有99%的把握认为,了解阿基米德与选择文理科有关.(2)(i )抽取的文科生人数是30103100⨯=(人),理科生人数是70107100⨯=(人). (ii )X 的可能取值为0,1,2,3,则0337310C C 7(0)C 24P X ===⋅, 1237310C C 21(1)C 40P X ===⋅, 17213307(2)40C C P X C ⋅===, 3037310C C 1(3)C 120P X ===⋅. 其分布列为所以72171369()01232440401204010E X =⨯+⨯+⨯+⨯==.31。

3.2独立性检验

3.2独立性检验

3.2独立性检验的基本思想及其初步应用学习目标:1.通过对实际问题的分析探究,了解独立性检验(只要求2×2列联表)的基本方法2.了解随机变量K²的含义学习重点:会根据K²公式求出k的值.并结合临界值作出统计推断.学习过程:一.2×2列联表1.分类变量:变量的不同“值”表示个体所属的不同类别的变量称为分类变量.2.列联表:分类变量的汇总统计表(频数表). 一般我们只研究每个分类变量只取两个值,这样的列联表称为2×2列联表.问题1:由以上列联表,我们估计吸烟是否对患肺癌有影响?①在不吸烟者中患肺癌的比例为________;②在吸烟者中患肺癌的比例为________.问题2:我们能够从多大程度上认为吸烟与患肺癌之间有关系呢?二:独立性检验(即判断两个变量是否相关,把握性有多大)合计不吸烟 a b a+b吸烟 c d c+d合计a+c b+d a+b+c+d1.()()()()()22)n ad bck n a b c da b c d a c b d-==+++++++构造随机变量其中(作为检验在多大程度上可以认为“两个变量有关系”的标准。

2.进行检验变量A与B是否相关的步骤如下:(1) 求K22则有的把握说事件例:2 3.841K≥时,有的把握说事件A与B有关;当2K<时,认为事件A与B无关.2 6.635K≥时,有的把握说事件A与B有关;当2K<时,认为事件A与B无关.练习:1.某高校“统计初步”课程的教师随机调查了该课的一些学生情况,具体数据如下表得到844.42=K,所以断定有_____的把握说主修统计专业与性别有关。

2、.某班主任对全班50名学生进行了作业量多少的调查,数据如下表:则认为喜欢玩游戏与认为作业量多少有关系的把握大约为( )A. 99%B. 95%C. 90%D.无充分依据。

3.2 独立性检验、独立性检验

3.2 独立性检验、独立性检验

[思每一
类变量都有两个不同的取值,然后算出相应的数据,列表 即可.
[精解详析]
根据题目所给的数据作出如下的列联表: 色盲
性别
患色盲
不患色盲

女 [一点通]
38
6
442
514
分清类别是作列联表的关键步骤,对所
给数据要明确属于那一类.
1.下面是一个2×2列联表,则表中a,b处的值分别为( y1 x1 x2 总计 A.32,40 C.74,82 答案:A a 8 b y2 21 25 46 B.42,50 D.64,72 总计 53 33
因为 9.967>6.635,所以有 99%的把握认为该地区的老年 人是否需要志愿者提供帮助与性别有关. [一点通] 这类问题的解决方法为先确定a,b,c,d,
n的值并求出χ2的值,再与临界值相比较,作出判断,解题
时注意正确运用公式,代入数据准确计算.
3.在一个2×2列联表中,通过数据计算χ2=8.325,则这两
2 n ad - bc 2.求出 χ2= . a+ca+bb+dc+d
3.判断是否有关联,得出事件有关的可能性大小.
95%的把握认为主修统计专业与性别有关.
答案:4.844 95%
5.某聋哑研究机构对聋、哑关系进行抽样调查,在耳聋 的657人中有416人哑,而另外不聋的680人中有249人 哑,你能运用这组数据得出相应的结论吗? 解:根据题目所给数据得到如下列联表: 是否哑 哑 416 不哑 241 总计 657
是否聋

不聋
总计
249
665
431
672
680
1 337
根据列联表中的数据得到:
2 1 337 × 416 × 431 - 249 × 241 χ2= ≈95.29>6.635. 657×680×665×672

数学:3.2《独立性检验》课件(新人教A版选修2-3)

数学:3.2《独立性检验》课件(新人教A版选修2-3)
吸烟 不吸烟 总计 患病 a c a+c 不患病 b d b+d 总计 a+b c+d a+b+c+d
第三步:引入一个随机变量:卡方统计量

2
a b c d a c b d
其中n a b c d
n ad bc
2
第四步:查对临界值表,作出判断。
复方江剪刀草 胆黄片 合计
有效 184 91 275
无效 61 9 70
2
合计 245 100 345
解:设H0:两种中草药的治疗效果没有差异。
345184 9 61 91 2 11.098 275 70 245 100
因当H0成立时,χ2≥10.828的概率为0.001,故有99.9%的把握 认为,两种药物的疗效有差异。
怎样描述实际观测值与估计值的差异呢? 统计学中采用
(观测值 预期值)2 用卡方统计量: 2 预期值 来刻画实际观测值与估计值的差异.
ab ac 2 ab bd 2 (a n ) (b n ) n n n n 2 ab ac ab bd n n n n n n cd ac 2 cd bd 2 (c n ) (d n ) n n n n cd ac cd bd n n n n n n
反证法原理与假设检验原理 反证法原理:
在一个已知假设 下,如果推出一 个矛盾,就证明 了这个假设不成 立。
假设检验原理:
在一个已知假设 下,如果一个与 该假设矛盾的小 概率事件发生, 就推断这个假设 不成立。
例1.在500人身上试验某种血清预防感冒作用,把他们 P(χ≥x0) 0.50 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001 一年中的感冒记录与另外500名未用血清的人的感冒记 x0 0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828 录作比较,结果如表所示。问:该种血清能否起到预防 感冒的作用? 未感冒 感冒 合计

8.3.2 独立性检验

8.3.2 独立性检验
• A与B相互独立(简称为独立)的充要条件是
P( AB) P( A) P(B)
抽象简化列联表
X=0
Y=0
X=0,Y=0
Y=1
X=0,Y=1
X=1 X=1,Y=0 X=1,Y=1
前方高能
• 如何判断{x=1}与{y=1}是否有关联呢? • {x=0}与{x=1}独立, {y=0}与{y=1}独立
8.3.2 独立性检验
问题引入
2×2 列联表
随机事件 频率的稳定性
两个分类变量 是否有关联
用频率推断两个分类变量是否独立有什么缺点? • 频率具有随机性,与概率之间存在差异 • 样本容量较小时,犯错误的概率较大
问题回溯
• 有没有更合理的推断方法,同时也希望对出现的错误推 断的概率一定的控制或估算?
x0.1
根据小概率值α=0.1的卡方独立性检验,
没有允分证据推断H0不成立,因此可以认为H0成立,
即认为两校的数学成绩优秀率没有差异.
思考:例1和例2都是基于同一组数据的分析, 但却得出了不同的结论,你能说明其中的原因吗?
例1事实上是根据两个频率的差异进行推断的,没 有考虑随机性的影响。但事实上,即便两个样本来自同 一个总体,也会因为随机性使得频率产生差异,因此需 要用概率的方法进行推断,由于样本具有随机性,依据 频率所作的推断可能会犯错误.
49
9874
91
合计
7817 2148 9965
解:零假设H0:吸烟与患肺癌之间无关联
2
9965 (7775 49 42 2099)2 7817 2148 9874 91
56.632 10.828
x0.001
根据小概率值α=0.001的卡方独立性检验,推断H0不成立, 因此可以吸烟与患肺癌之间有关联,

人教版数学选择性必修三8.3.2独立性检验课件

人教版数学选择性必修三8.3.2独立性检验课件
超过4小时
合计
男生
女生
合计
45
30
75
165
60
225
210
90
300
每周平均体育运动时间
不超过4小时
每周平均体育运动时间
超过4小时
合计
男生
女生
合计
45
30
75
165
60
225
210
90
300
零假设为H0:该校学生的每周平均体育运动时间与性别无关.
结合列联表可算得
300× 45×60−30×165 2
(10,12].估计该校学生每周平均体育运动时间超过4小时的概率.
(3)在样本数据中,有60位女生的每周平均体育运动时间超过4小时,请完成
每周平均体育运动时间与性别的列联表,并判断是否认为“该校学生的每周
平均体育运动时间与性别有关”.
附:
α
0.100
0.050
0.010
0.005

2.706
3.841
≈1.871×10-4.
∵1.871×10-4<2.706=x0.1,
根据小概率值α=0.1的χ2独立性检验,没有充分证据推断H0不成立,
即选报文、理科与对外语的兴趣无关.
总结提升
独立性检验的关注点
在2×2列联表中,如果两个分类变量没有关系,
则应满足ad-bc≈0,因此|ad-bc|越小,关系越弱;
合计
数学优秀
267
93
360
数学非优秀
99
781
880
合计
366
将表中数据代入公式,得
874
1240
32

独立性检验

独立性检验

不喜爱
30 50
总计
76 70
总计
66
80
146
2 146 (46 50 30 20) 2 15.021 6.635 76 70 66 80
所以有99%以上的把握认为喜爱古典音乐与青年的
性别有关。
例2.容易生气的人更有可能患 患心脏病 不患心脏病 心脏病吗?某机构随机调查了 27 606 易怒 2796人,右表给出了调查的结 不易怒 53 2110 果。 试问:容易生气的人是否更有可能患心脏病?
b ab bd n n n
d cd bd n n n
A1,B2独立 A2,B2独立
d cd bd n n n
a ab ac n n n
c cd ac n n n
当上面的值较大时,变量A,B不独立。
当这些量多大时才能说 明变量间不独立呢?我们能 不能选择一个量,用它的大 小来检验变量之间是否独立 呢?
频率估计概率
患肺癌B1 吸 烟A1 49/9965=0.49% 未患肺癌B2 2099/9965=21.06% 总计 2148/9965=21.55%
不吸烟A2
总计
42/9965=0.42%
0.91%
7775/9965=78.02%
99.08%
7817/9965=78.44%
1
既吸烟又患肺癌的人的频率是0.49%,吸烟的人的频率是21.55%, 患肺癌的人的频率为0.91%,显然21.55%*0.91%=0.2%不等于 0.49%,可以说明患肺癌与吸烟有关
2 193 (58 31 40 64) 2 1.3896 2.706 122 71 98 95

北师大版高中数学选修2-3课件3.2独立性检验

北师大版高中数学选修2-3课件3.2独立性检验

学习目标导航 基础知识梳理 重点难点突破 典型例题剖析 随堂练习巩固
(1)这类问题的解决方法为先确定 a,b,c,d,n 的值并求出 χ2 的值,并与 临界值相比较,注意正确运用公式,准确代入数据. (2)当 χ2>3.841 时,有 95%的把握认为两个变量有关;当 χ2>6.635 时,有 99% 的把握认为两个变量有关. (3)当 χ2<2.706 时,一般认为没有充分证据显示两个变量有关.
对于教材中得到的结论“有 99%以上的把握认为吸烟与患肺癌是有关 的”,有的同学是这样理解的:100 个抽烟的人中,有 99 个患有肺癌.请问这样 理解是否正确?
剖析:不正确. 首先要区别“事件发生的概率”与“独立性检验中 X 与 Y 有关联的概 率”. (1)事件发生的概率.例如袋中有 100 个球,其中 99 个白球,1 个黑球,随 机取一个球,则取到白球的概率为 99%. (2)两个变量 X 与 Y 有关联的概率.例如教材中吸烟与患肺癌之间有关 联的概率为 99%,并非指吸烟者中有 99%的人患肺癌,而是指我们有 99%的 把握认为吸烟与患肺癌有关系,(而在吸烟者中,只有 2.82%的人患肺癌)我 们得到的结论是:吸烟者与不吸烟者患肺癌的可能性存在差异,这里所说的 “吸烟与患肺癌有关联”是指统计上的关系,而非因果关系,至于吸烟者患不 患肺癌,应该由医学检查来确定,而非统计学上的事了.所以题中的理解是错 误的.
学习目标导航 基础知识梳理 重点难点突破 典型例题剖析 随堂练习巩固
题型 独立性检验的应用
【例 1】 在调查的 480 名男人中有 38 名患有色盲,520 名女人中有 6 名患 有色盲,用独立性检验的方法来判断色盲与性别是否有关.
分析:本题应首先作出调查数据的列联表,再利用独立性检验作出判断. 解:根据题目所给的数据作出如下的列联表:
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

(3)两个临界值:3.841与6.635.
经过对χ2统计量分布的研究,已经得到了 两个临界值:3.841与6.635。
当根据具体的数据算出的χ2>3.841时,有 95%的把握说事件A与事件B有关; 当χ2>6.635时,有99%的把握说事件A与事 件B有关; 当χ2<3.841时,认为事件A与事件B无关;
对于人力资源部的研究项目,根据上述数 据能得出什么结论?
解:这是一个2×2列联表的独立性检验问 题,由公式
189(54 63 32 40) 2 2 10.759 94 95 86 103
因为10.759>6.635,所以有99%的把握说: 员工“工作积极”与“积极支持企业改革” 是有关的。可以认为企业的全体员工对待 企业改革的态度与其工作积极性是有关的。
也应该比较小。 (2)卡方统计量: 为了消除样本对上式的影响,通常用卡方 2 2 (观测值 预期值) )来进行估 统计量(χ 预期值 计.
卡方χ2统计量公式:

2
n n11n22 n12 n21 n1 n 2 n1n2
2
用它的大小可以决定是否拒绝原来的统计 假设H0,如果算出的χ2值较大,就拒绝 H0,也就是拒绝“事件A与事件B无关”, 从而就认为它们是有关的了
因为1.780<3.841,我们没有理由说“心脏 搭桥手术”与“又发生过心脏病”有关, 可以认为病人又发作心脏病与否跟他做过 何种手术无关。
3.某大型企业人力资源部为了研究企业员 工工作积极性和对待企业改革态度的关系, 随机抽取了189名员工进行调查,所得的数 据如下表所示:
工作积极 工作一般 合计 积极支持企业 改革 54 32 86 不太赞成企业 改革 40 63 103 合计 94 95 189
因为3.689<3.841,我们没有理由说晕机与 否跟男女性别有关。尽管这次航班中男性 晕机的比例比女性晕机的比例高,但我们 不能认为在恶劣气候飞行中男性比女性更 任意晕机。
在日常生活中,我们常常关心分类变量之间是否有关系: 例如,吸烟是否与患肺癌有关系? 性别是否对于喜欢数学课程有影响?等等。
研究两个变量的相关关系:
定量变量——回归分析(画散点图、相关系数r、 变量 相关指数R 2、残差分析) 分类变量—— 独立性检验
本节研究的是两个分类变量的独立性检验问题。
1.某医疗机构为了了解患慢性支气管炎 与吸烟是否有关,进行了一次抽样调查, 共调查了339名50岁以上的人,其中吸烟 者205人,不吸烟者134人.调查结果是: 吸烟的205人中有43人患呼吸道疾病(简 称患病),162人未患呼吸道疾病(简称 未患病);不吸烟的134人中有13人患病, 121人未患病.问题:根据这些数据能否 断定“患慢性支气管炎与吸烟有关”?
象以上这种用χ2统计量研究吸烟与患呼 吸道疾病是否有关等问题的方法称为独立 性检验. 对于例1,最理想的解决办法是向所有的 50岁以上的人作调查,然后对所得的数据 进行统计处理,但这花费的代价太大,实 际上也是行不通的。339个人相对于全体50 岁以上的人,只是一小部分回忆一下数学 必修3中学过的总体与样本的关系,
类类 类
Ⅱ 类1 Ⅰ 类A 类B 合计 n11 n21 n+1 类2 n12 n22 n+2 合计 n1+ n2+ n
推断“Ⅰ和Ⅱ有关系”的步骤为:
第一步,提出假设H0:两个分类变量Ⅰ和
Ⅱ没有关系;
第二步,根据2×2列联表和公式计算χ2统 计量; 第三步,比对两个临界值,作出判断.
2: 对196个接受心脏搭桥手术的病人和 196个接受血管清障手术的病人进行3年跟 踪研究,调查他们是否又发作过心脏病, 调查结果如下表所示:
P( AB) P( A) P( B)
P( AB ) P( A) P( B )
P( AB ) P( A) P( B )
根据概率的统计定义,上面提到的众多事 件的概率都可以用相应的频率来估计。 例如 P(AB)的估计为
n1 n1 P(A)的估计为 n ,P(B)的估计为 n ,…… n1 n1 n11 于是 与 应该很接近,……。 n n n n11 n1 n1 2 n12 n1 n2 2 n21 n2 n1 2 或者说 ( ) , ( n n n ) , ( ) n n n n n n
心脏搭桥手术 血管清障手术 合计 又发作过心脏 病 39 29 68 未发作过心 脏病 157 167 324 合计 196 196 392
试根据上述数据比较两种手术对病人又发 作心脏病的影响有没有差别。
解:这是一个2×2列联表的独立性检验问 题,由公式
392(39 167 29 157) 2 2 1.780 68 324 196 196
问题:由上述结论能否得出患病与吸烟有 关?把握有多大? (1)假设:患病与吸烟没有关系. 若将表中“观测值”用字母表示,则得下 列2×2列联表: 未患病 患病(B) 合计
B A
不吸烟(
吸烟A 不吸烟 A 合计
n11 n21 n+1
(B ) n12 n22 n&n
近似的判断方法: 设n=n11+n21+n12+n22,如果H0成立,则在 吸烟的人中患病的比例与不吸烟的人中患 病的比例应差不多,由此可得,
4.在一次恶劣气候的飞行航程中调查男女 乘客在机上晕机的情况如下表所示,根据 此资料你是否认为在恶劣气候飞行中男性 比女性更任意晕机?
晕机 男性 24 不晕机 31 合计 55
女性 合计
8 32
26 57
34 89
解:这是一个2×2列联表的独立性检验问 题,由公式
89(24 26 8 31) 2 2 3.689 55 34 32 57
(1)为了研究这个问题,将上述数据用 下表来表示:
患病 未患病 合计
吸烟 不吸烟 合计
43 13 56
162 121 283
205 134 339
(2)估计吸烟者与不吸烟者患病的可能性 差异: 43 20.1% 的人患病, 在吸烟的人中,有
205
13 9.7%的人患病. 在不吸烟的人中,有 134
n11 n21 n11 n12 n21 n22
即n11(n21+n22)≈n21(n11+n12)n11n22- n21n12≈0,因此,|n11n22-n21n12|越小,患 病与吸烟之间的关系越弱,否则,关系越 强.
上面的话的意思是指事件A与B独立, 这时应该有P(AB)=P(A)P(B)成立, 我们用H0表示上式,即H0:P(AB)=P(A) P(B). 并称之为统计假设,当H0成立时, 下面的三个式子也成立:
3. 1 独立性检验
问题: 数学家庞加莱每天都从一家面包店
买一块1000g 的面包,并记录下买回的面 包的实际质量。一年后,这位数学家发 现,所记录数据的均值为950g。于是庞 加莱推断这家面包店的面包分量不足。 • 假设“面包份量足”,则一年购买面包的质量数据 的平均值应该不少于1000g ; • “这个平均值不大于950g”是一个与假设“面包份量 足”矛盾的小概率事件; • 这个小概率事件的发生使庞加莱得出推断结果。
当用样本平均数,样本标准差去估计总体的 相应的数字特征时,由于抽样的随机性,结 果并不惟一。现在的情况类似,我们用部分 对全体作推断,推断可能正确,也可能错误, 例如我们知道,不少的中老年烟民的身体很 好,没有患慢性支气管炎;而又有很多的从 不吸烟的中老年人体质很差,患有慢性支气 管炎。如果抽取的339个调查对象中很多人 来自上述两个群体,
一:假设检验问题的原理
假设检验问题由两个互斥的假设构成,其 中一个叫做原假设,用H0 表示;另一个叫做备 择假设,用H1表示。 例如,在前面的例子中, 原假设为: H0:面包份量足,
备择假设为: H1:面包份量不足。
这个假设检验问题可以表达为:
H0:面包份量足 ←→ H1:面包份量不足
二:求解假设检验问题
因为7.469>6.635,所以我们有99%的把握 说:50岁以上的人患慢性支气管炎与吸烟 有关。
独立性检验的一般步骤: 一般地,对于两个研究对象Ⅰ和Ⅱ,Ⅰ有 两类取值:类A和类B(如吸烟与不吸烟), Ⅱ也有两类取值:类1和类2(如患呼吸道 疾病与不患呼吸道疾病),得到如下表所 示:
B A 1 2
试想会得出什么结论吧。我们说有95% (或99%)的把握说事件A与事件B有关, 是指推断犯错误的可能性为5%(或1%), 这也是常常说成是“有95%(或99%)的 概率”,其含义是一样的。
解:由公式
339 (43 121 162 13) 2 2 7.469 205 134 56 283
( n22 n2 n2 2 ) n n n
n11 n
应该比较小 .
从而
n n n n21 n2 n1 2 n11 n1 n1 2 n12 n1 n2 2 ( 22 2 2 ) 2 ( ) ( ) ( ) n n n n n n n n n n n n n2 n2 n2 n1 n1 n2 n1 n1 n n n n n n n n
考虑假设检验问题: H0:面包分量足 ←→ H1:面包分量不足 求解思路分析:
1. 在H0成立的条件下,构造与H0矛盾的小概 率事件; 2. 如果样本使得这个小概率事件发生,就能 以一定把握断言H1成立;否则,断言没有 发现样本数据与H0相矛盾的证据。
两种变量:
定量变量:体重、身高、温度、考试成绩等等。 变量 分类变量:性别、是否吸烟、是否患肺癌、 宗教信仰、国籍等等。
相关文档
最新文档