高中数学 第三章 统计案例 3.1 独立性检验 卡方检验素材 苏教版选修2-3
高中数学第三章统计案例3.1独立性检验学案苏教版选修2-3(2021年整理)
2018版高中数学第三章统计案例3.1 独立性检验学案苏教版选修2-3 编辑整理:尊敬的读者朋友们:这里是精品文档编辑中心,本文档内容是由我和我的同事精心编辑整理后发布的,发布之前我们对文中内容进行仔细校对,但是难免会有疏漏的地方,但是任然希望(2018版高中数学第三章统计案例3.1 独立性检验学案苏教版选修2-3)的内容能够给您的工作和学习带来便利。
同时也真诚的希望收到您的建议和反馈,这将是我们进步的源泉,前进的动力。
本文可编辑可修改,如果觉得对您有帮助请收藏以便随时查阅,最后祝您生活愉快业绩进步,以下为2018版高中数学第三章统计案例3.1 独立性检验学案苏教版选修2-3的全部内容。
3.1 独立性检验学习目标1。
了解2×2列联表的意义。
2。
了解统计量χ2的意义。
3。
通过对典型案例分析,了解独立性检验的基本思想和方法.知识点一2×2列联表思考山东省教育厅大力推行素质教育,增加了高中生的课外活动时间,某校调查了学生的课外活动方式,结果整理成下表:体育文娱合计男生210230440女生60290350合计270520790如何判定“喜欢体育还是文娱与性别是否有联系”?梳理(1)2×2列联表的定义对于两个研究对象Ⅰ和Ⅱ,Ⅰ有两类取值,即类A和类B;Ⅱ也有两类取值,即类1和类2。
我们得到如下列联表所示的抽样数据:Ⅱ类1类2合计Ⅰ类A a b类B c d合计a+b+c+d(2)χ2统计量的求法公式χ2=错误!.知识点二独立性检验独立性检验的概念用χ2统计量研究两变量是否有关的方法称为独立性检验.知识点三独立性检验的步骤1.独立性检验的步骤要判断“Ⅰ与Ⅱ有关系”,可按下面的步骤进行:(1)提出假设H0:__________________;(2)根据2×2列联表及χ2公式,计算________的值;(3)查对临界值,作出判断.其中临界值如表所示:P(χ2≥x0)0。
数学选修23第三章统计案例教案
第三章统计案例§独立性检验〔1〕1.某医疗机构为了了解呼吸道疾病与吸烟是否有关,进行了一次抽样调查,共调查了515个成年人,其中吸烟者220人,不吸烟者295人.调查结果是:吸烟的220人中有37人患呼吸道疾病〔简称患病〕,183人未患呼吸道疾病〔简称未患病〕;不吸烟的295人中有21人患病,274人未患病.问题:根据这些数据能否断定“患呼吸道疾病与吸烟有关〞?为了研究这个问题,〔1〕引导学生将上述数据用下表来表示:患病未患病合计吸烟37183220不吸烟21274295合计58457515一.建构数学1.独立性检验:〔1〕假设H0:患病与吸烟没有关系.假设将表中“观测值〞用字母表示,那么得下表:患病未患病合计吸烟a b a b不吸烟c d c d合计ac b d ab cd如果实际观测值与假设求得的估计值相差不大,就可以认为所给数据〔观测值〕不能否认假设H0.否那么,应认为假设H0不能接受,即可作出与假设H0相反的结论.〔2〕卡方统计量:为了消除样本对上式的影响,通常用卡方统计量〔2(观测值预期值)2χ〕来进行估计.预期值2卡方χ统计量公式:2χ2nad bc〔其中n a b c d〕a b c d a c b d由此假设H0成立,即患病与吸烟没有关系,那么2183,c21,d274代入计算得χ的值应该很小.把a37,b2H0成立的情况下,随机事件“2〞χ,统计学中有明确的结论,在发生的概率约为,即P(26.635)2,也就是说,在H0成立的情况下,对统计量χ进行屡次观测,观测值超过的频率约为.由此,我们有99%的把握认为H0不成立,即有99%的把握认为“患病与吸烟有关系〞.2象以上这种用统计量研究吸烟与患呼吸道疾病是否有关等问题的方法称为独立性检验.2.独立性检验的一般步骤:一般地,对于两个研究对象Ⅰ和Ⅱ,Ⅰ有两类取值:类A和类B〔如吸烟与不吸烟〕,Ⅱ也有两类取值:类1和类2〔如患呼吸道疾病与不患呼吸道疾病〕,得到如下表所示:Ⅱ类1类2合计类A a b a bⅠc d c d类B合计ac bd ab cd 推断“Ⅰ和Ⅱ有关系〞的步骤为:第一步,提出假设H0:两个分类变量Ⅰ和Ⅱ没有关系;第二步,根据2×2列联表和公式计算χ2统计量;第三步,查对课本中临界值表,作出判断.3.独立性检验与反证法:反证法原理:在一个假设下,如果推出一个矛盾,就证明了这个假设不成立;独立性检验〔假设检验〕原理:在一个假设下,如果一个与该假设矛盾的小概率事件发生,就推断这个假设不成立.四.数学运用1.例题:例1.在500人身上试验某种血清预防感冒的作用,把他们一年中的感冒记录与另外500名未用血清的人的感冒记录作比拟,结果如表所示.问:该种血清能否起到预防感冒的作用?未感冒感冒合计使用血清258242500未使用血清216284500合计4745261000分析:在使用该种血清的人中,有24248.4%的人患过感冒;在没有使用该种血清的人中,有28456.8%的500500人患过感冒,使用过血清的人与没有使用过血清的人的患病率相差较大.从直观上来看,使用过血清的人与没有使用过血清的人的患感冒的可能性存在差异.解:提出假设H0:感冒与是否使用该种血清没有关系.由列联表中的数据,求得21000(258284242216)2474526500500∵当H0成立时,2的概率约为,∴我们有99%的把握认为:该种血清能起到预防感冒的作用.例2.为研究不同的给药方式〔口服或注射〕和药的效果〔有效与无效〕是否有关,进行了相应的抽样调查,调查结果如表所示.根据所选择的193个病人的数据,能否作出药的效果与给药方式有关的结论?有效无效合计口服584098注射643195合计12271193分析:在口服的病人中,有586459%的人有效;在注射的病人中,有67%的人有效.从直观上来看,口服9895与注射的病人的用药效果的有效率有一定的差异,能否认为用药效果与用药方式一定有关呢?下面用独立性检验的方法加以说明.解:提出假设H0:药的效果与给药方式没有关系.由列联表中的数据,求得2193(58314064)2122719895当H0成立时,2的概率大于15%,这个概率比拟大,所以根据目前的调查数据,不能否认假设H0,即不能作出药的效果与给药方式有关的结论.说明:如果观测值2,那么就认为没有充分的证据显示“Ⅰ与Ⅱ有关系〞,但也不能作出结论“H0成立〞,即Ⅰ与Ⅱ没有关系.§独立性检验〔2〕二.数学运用1.练习题:1.在对人们的休闲方式的一次调查中,共调查了124人,其中女性70人,男性54人。
最新2020高中数学 第3章 统计案例 3.1 独立性检验教学案 苏教版选修2-3
3.1 独立性检验1.2×2列联表的定义对于两个研究对象Ⅰ和Ⅱ,Ⅰ有两类取值,即类A和类B;Ⅱ也有两类取值,即类1和类2.这些取值可用下面的2×2列联表表示.2.χ2统计量的求法公式χ2=n(ad-bc)2(a+c)(b+d)(a+b)(c+d).3.独立性检验的概念用统计量χ2研究两变量是否有关的方法称为独立性检验.4.独立性检验的步骤要判断“Ⅰ与Ⅱ有关系”,可按下面的步骤进行:(1)提出假设H0:Ⅰ与Ⅱ没有关系;(2)根据2×2列联表及χ2公式,计算χ2的值;(3)查对临界值,作出判断.其中临界值如表所示:P(χ2≥x0)0.50 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001χ00.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.82 8表示在H0成立的情况下,事件“χ≥x0”发生的概率.5.变量独立性判断的依据(1)如果χ2>10.828时,那么有99.9%的把握认为“Ⅰ与Ⅱ有关系”;(2)如果χ2>6.635时,那么有99%的把握认为“Ⅰ与Ⅱ有关系”;(3)如果χ2>2.706时,那么有90%的把握认为“Ⅰ与Ⅱ有关系”;(4)如果χ2≤2.706时,那么就认为没有充分的证据显示“Ⅰ与Ⅱ有关系”,但也不能作出结论“H0成立”,即Ⅰ与Ⅱ没有关系.1.在2×2列联表中,通常要求a,b,c,d的值均不小于5.2.表中|ad-bc|越小,Ⅰ与Ⅱ关系越弱;|ad-bc|越大,Ⅰ与Ⅱ关系越强.同时要记准表中a,b,c,d四个数据是交叉相乘然后再作差取绝对值,一定不要乘错.3.表中类A与类B,以及类1与类2的关系:对于对象Ⅰ来说,类A与类B是对立的,也就是说类A发生,类B一定不发生,类A不发生,则类B一定发生;同样对于对象Ⅱ来说,类1与类2的关系也是如此.[例1] 在一项有关医疗保健的社会调查中,发现调查的男性为530人,女性为670人,其中男性中喜欢吃甜食的为117人,女性中喜欢吃甜食的为492人,请作出性别与喜欢吃甜食的列联表.[思路点拨] 在2×2列联表中,共有两类变量,每一类变量都有两个不同的取值,然后找出相应的数据,列表即可.[精解详析] 作列联表如下:喜欢甜食不喜欢甜食合计男117413530女492178670合计609591 1 200[一点通] 分清类别是列联表的作表关键步骤.表中排成两行两列的数据是调查得来的结果.1.下面是2×2y1y2合计x1 a 2173x222527合计 b 46则表中a,b的值分别为________,________.解析:∵a+21=73,∴a=52.又∵a+2=b,∴b=54.答案:52 542.某学校对高三学生作一项调查后发现:在平时的模拟考试中,性格内向的426名学生中有332名在考前心情紧张,性格外向的594名学生中在考前心情紧张的有213人 .作出2×2列联表.性格内向 性格外向 合计 考前心情紧张 332 213 545 考前心情不紧张94 381 475 合计4265941 020[例2] 下表是某地区的一种传染病与饮用水的调查表:得病 不得病 合计 干净水 52 466 518 不干净水 94 218 312 合计146684830(1)这种传染病是否与饮用水的卫生程度有关,请说明理由;(2)若饮用干净水得病5人,不得病50人,饮用不干净水得病9人,不得病22人.按此样本数据分析这种疾病是否与饮用水有关,并比较两种样本在反映总体时的差异.[思路点拨] (1)根据表中的信息计算χ2的值,并根据临界值表来分析相关性的大小,对于(2)要列出2×2列联表,方法同(1).[精解详析] (1)假设H 0:传染病与饮用水无关.把表中数据代入公式,得χ2=830×(52×218-466×94)2146×684×518×312≈54.21,因为当H 0成立时,χ2≥10.828的概率约为0.001,所以我们有99.9%的把握认为该地区这种传染病与饮用不干净水有关. (2)依题意得2×2列联表:得病 不得病 合计 干净水 5 50 55 不干净水 9 22 31 合计147286此时,χ2=86×(5×22-50×9)214×72×55×31≈5.785.由于5.785>2.706,所以我们有90%的把握认为该种疾病与饮用不干净水有关.两个样本都能统计得到传染病与饮用不干净水有关这一相同结论,但(1)中我们有99.9%的把握肯定结论的正确性,(2)中我们只有90%的把握肯定.[一点通] 解决独立性检验问题的基本步骤是:①指出相关数据,作列联表;②求χ2的值;③判断可能性,注意与临界值作比较,得出事件有关的可能性大小.3.某保健药品,在广告中宣传:“在服用该药品的105人中有100人未患A 疾病”.经调查发现,在不使用该药品的418人中仅有18人患A 疾病,请用所学知识分析该药品对患A 疾病是否有效?解:依题意得2×2的列联表:患病 不患病 合计 使用 5 100 105 不使用 18 400 418 合计23500523要判断该药品对患A 疾病是否有效,即进行独立性检验提出假设H 0:该药品对患A 疾病没有效.根据列联表中的数据可以求得χ2=523×(5×400-100×18)223×500×418×105≈0.041 45<0.455,而查表可知P (χ2≥0.455)≈0.5,故没有充分的理由认为该保健药品对预防A 疾病有效.4.在国家未实施西部开发战略前,一新闻单位在应届大学毕业生中随机抽取1 000人问卷,只有80人志愿加入西部建设.而国家实施西部开发战略后,随机抽取1 200名应届大学毕业生问卷,有400人志愿加入国家西部建设.实施西部开发战略是否对应届大学毕业生的选择产生了影响?志愿者 非志愿者 合计 开发战略公布前 80 920 1 000 开发战略公布后400 800 1 200 合计4801 7202 200提出假设H 0:实施西部开发战略的公布对应届大学毕业生的选择没有产生影响,根据列联表中的数据,可以求得χ2=2 200×(80×800-920×400)2480×1 720×1 000×1 200≈205.22.因为当H 0成立时,χ2≥10.828的概率约为0.001,所以有99.9%的所握认为西部开发战略的实施对应届大学毕业生的选择产生了影响.独立性检验的基本思想与反证法的思想比较反证法 独立性检验要证明结论A要确认“两个对象有关系”在A 不成立的前提下进行推理 假设该结论不成立,即假设结论“两个对象没有关系”成立,在该假设下计算χ2推出矛盾意味着结论A 成立由观测数据计算得到的χ2的观测值很大,则在一定可信程度上说明假设不合理 没有找到矛盾,不能对A 下任何结论,即反根据随机变量χ2的含义,可以通过概率P (χ2证法不成立≥x0)的大小来评价该假设不合理的程度有多大,从而得出“两个对象有关系” 这一结论成立的可信程度有多大课下能力提升(十八)一、填空题1.在一项打鼾与患心脏病的调查中,共调查了1 671人,经过计算χ2=27.63,根据这一数据分析,我们有理由认为打鼾与患心脏病是________的.(有关,无关) 解析:由χ2值可判断有关.答案:有关2.若两个研究对象X和Y的列联表为:y1y2x1515x24010则X与Y之间有关系的概率约为________.解析:因为χ2=(5+15+40+10)×(5×10-40×15)2(5+15)×(40+10)×(5+40)×(15+10)≈18.8,查表知P(χ2≥10.828)≈0.001.答案:99.9%3.在吸烟与患肺病这两个对象的独立性检验的计算中,下列说法正确的是________.(填序号)①若χ2=6.635,则我们认为有99%的把握认为吸烟与患肺病有关系.那么在100个吸烟的人中必有99人患肺病.②从独立性检验的计算中求有99%的把握认为吸烟与患肺病有关系时,我们认为如果某人吸烟,那么他有99%的可能患肺病.③若从统计量中求出有95%的把握认为吸烟与患肺病有关系,是指有5%的可能性使得推断出现错误.④以上三种说法都不正确.解析:由独立性检验的意义可知,③正确.答案:③4.调查者询问了72名男女大学生在购买食品时是否观看营养说明得到如下2×2列联表:看营养说明不看营养说明总计男大学生28836从表中数据分析大学生的性别与看不看营养说明之间的关系是________.(填“有关”或“无关”)解析:提出假设H 0:大学生的性别与看不看营养说明无关,由题目中的数据可计算χ2=72×(28×20-16×8)244×28×36×36≈8.42,因为当H 0成立时,P (χ2≥7.879)≈0.005,这里的χ2≈8.42>7.879,所以我们有99.5%的把握认为大学生的性别与看不看营养说明有关.答案:有关5.有人发现,多看电视容易使人变冷漠,下表是一个调查机构对此现象的调查结果:则由表可知大约有解析:由公式得χ2=168×(68×38-42×20)2110×58×88×80≈11.377>10.828,所以我们有99.9%的把握说,多看电视与人变冷漠有关.答案:99.9% 二、解答题6.为研究学生的数学成绩与对学习数学的兴趣是否有关,对某年级学生作调查,得到如下数据:学生的数学成绩好坏与对学习数学的兴趣是否有关?解析:提出假设H 0:学生数学成绩的好坏与对学习数学的兴趣无关.由公式得χ2的值为χ2=189×(64×73-22×30)286×103×95×94≈38.459.∵当H 0成立时,χ2≥10.828的概率约为0.001,而这里χ2≈38.459>10.828,∴有99.9%的把握认为学生数学成绩的好坏与对学习数学的兴趣是有关的.7.考察小麦种子经过灭菌与否跟发生黑穗病的关系,经试验观察,得到数据如下列联表.试按照原试验目的作统计推断.解:提出假设H 0:种子是否灭菌与有无黑穗病无关.由公式得,χ2=460×(26×200-184×50)2210×250×76×384≈4.804.由于4.804>3.841,即当H 0成立时,χ2>3.841的概率约为0.05,所以我们有95%的把握认为种子是否灭菌与有无黑穗病是有关系的.8.为了调查某生产线上质量监督员甲是否在生产现场对产品质量好坏有无影响,现统计数据如下:甲在生产现场时,990件产品中有合格品982件,次品8件;甲不在生产现场时,510件产品中有合格品493件,次品17件.试用独立性检验的方法分析监督员甲是否在生产现场对产品质量好坏有无影响.解:2×2列联表如下提出假设H 0根据χ2公式得χ2=1 500(982×17-493×8)2990×510×1 475×25≈13.097.因为H 0成立时,χ2>10.828的概率约为0.001,而这里χ2≈13.097>10.828,所以有99.9%的把握认为质量监督员甲是否在生产现场与产品质量的好坏有关系.。
高中数学第3章统计案例3.1独立性检验课件新人教B版选修2_3
例2 某校订学生课外活动进行调查,结果整理成下表:
用你所学过的知识进行分析,能否在犯错误的概率不超过
0.01的前提下,认为“喜欢体育还是文娱与性别有关系”?
男生 女生 总计
体育 21 6 27
文娱 23 29 52
合计 44 35 79
解 判断方法如下: 假设H0“喜欢体育还是喜欢文娱与性别没有关系”,若H0 成立,则χ2应该很小. ∵n11=21,n12=23,n21=6,n22=29,n=79,
跟踪演练1 已知列联表:药物效果与动物实验列联表
患病 未患病 合计
服用药 10
45
55
未服药 20 总计 30
30
50
75
105
则χ2≈________.(结果保留3位小数)
105×10×30-20×452 解析 χ2= 30×75×55×50 ≈6.109. 答案 6.109
要点二 有关“相关的检验”
第三章——
3.1 独立性检验
[学习目标] 1.理解列联表的意义,会根据列联表中数据大致判断两个变 量是否独立. 2.理解统计量χ2的意义和独立性检验的基本思想.
1 预习导学 2 课堂讲义 3 当堂检测
挑战自我,点点落实 重点难点,个个击破 当堂训练,体验成功
[知识链接] 1.什么是列联表,它有什么作用? 答 一般地,对于两个研究对象Ⅰ和Ⅱ,Ⅰ有两类取值类A 和类B,Ⅱ也有两类取值类1和类2,得如下列联表中的抽样 数据:
理
文
合计
有兴趣
138
73
211
无兴趣
98
52
150
总计
236
125
361
代入公式得
361×138×52-73×982 χ2= 236×125×211×150 ≈1.871×10-4. ∵1.871×10-4≤3.841,可以认为学生选报文、理科与对外 语的兴趣无关.
【优文档】数学:《独立性检验》课件(苏教版选修)PPT
,调查结果是:吸烟的220人中37人患病, 183人不患病;
37/220≈16.82% 21/295 ≈ 7.12%
上述结论能说明吸烟与患病有关吗?能有多大把 握认为吸烟与患病有关呢?
为便于研究,用字母代替数据,得2×2列联表
吸烟 不吸烟
总计
患病 a c a+c
不患病 b d
b+d
总计 a+b c+d a+b+c+d
如果“吸烟与患病没有关系””,则在吸烟者中不患病
2
n n
nn
nabac
n a b bd
nn
nn
(c n c d a c)2 (d nc d bd )2
n n
nn
n c d a c
nc d bd
化 简 2得n n (an d b)2 c
n
n
(ac)b (d)a (b)c (d)
若H0成立,即“吸烟与患病没有关系””,则χ2应很小
独立性检验
列出2×2列联表
设n=a+b+c+d
患病 不患病 总计 为样本量 H0成立可能性只有1%,因此我们有99%的把握认为H0不成立,即有99%的把握认为“吸烟与患病有关系”
在H0成立的情况下,统计学家估算出如下的概率:
吸烟 a b a+b 某医疗机构为了了解呼吸道疾病与吸烟是否有关,进行了一次抽样调查,共调查了515个成年人,其中吸烟者220人,不吸烟者295人
这种利用随机变量 2来确定在多大程度上
可以认为“两个分类变量有关系”的方法称为 两个分类变量的独立性检验.
独立性检验的思想类似于数学上的反证法. 要确认“两个分类变量有关系”这一结论成立, 首先假设该结论不成立,即假设结论“两个分类 变量没有关系”成立.
高中数学 第三章 统计案例 3.1 独立性检验 假设检验(h
假设检验(hypothesis testing)方法演变:t检验、z检验、F检验、卡方检验,方差分析( ANOVA)➢概述假设检验是分析数据的一种方法。
回答此类问题:“随机发生的事件的概率是多少?”另一方面的问题是:“我们从数据中发现的结果是真的吗?”当问题是有关大的总体而只能得到总体的一个样本时用假设检验。
这种方法被用来回答在质量改进中一系列重要的问题,如“我们在过程中所做的改变对产出创造了有意义的差别吗?”或”顾客对场地A的满意度是不是比其他场地高?”最常用的检验是:z检验、t检验、F检验、卡方(χ2)检验和方差分析。
这些检验和其他的检验都是基于均值、方差、比例及其他统计量所形成的具有常见模式的频率分布。
最有名的分布就是正态分布,它是:检验的基础。
t检验、F检验和卡方(χ2)检验是基于t分布、F分布和卡方分布。
➢适用场合·想知道一组或更多组数据的平均值、比例、方差或其他特征时;·当结论是基于更大总体中所取得的样本时。
例如:·想确定一个过程的均值或方差有否改变;·想确定很多数据集的均值或方差是否不同:·想确定两组不同的数据集的比例是否不同;·想确定真正的比例、均值或方差是否和一个定值相等(或大于或小于)。
➢实施步骤假设检验的步骤由三部分组成:理解要解决的问题并安排检验(以下步骤1~3);数字计算通常由计算机完成(步骤4和步骤5);应用数值结果到实际问题中(步骤6)。
虽然计算机能处理数字,但理解假没检验隐含的观念对第1部分和第3部分至关重要。
如果第一次接触假设检验,那么从看“注意事项”中的术语和定义开始。
这些定义解释了假设检验的慨念,然后再回来看这个步骤。
本书不可能详细地涉及假设检验。
这个步骤是个综述和快速参考。
要得到更多的信息,查阅统计学参考书或请教统计学家。
1确定要从数据中获得的结论。
选择适当的检验方法。
用哪种检验取决于检验的目的和数据的种类。
苏教版选修2-3高中数学3.1《独立性检验》ppt课件
变式训练3 网络对现代人的生活影响较大,尤其 对青少年,为了解网络对中学生学习成绩的影响, 某地区教育主管部门从辖区初中生中随机抽取了 1000 人 调 查 , 发 现 其 中 经 常 上 网 的 有 200 人 , 这 200人中有80人期末考试不及格,而另外800人中 有120人不及格,问:中学生经常上网是否影响学 习,为什么?
4000×1820×240-180×17602 2000×2000×3580×420
≈9.577
>
6.635,
所以我们有 99%的把握认为学生是否关心国家大事与
性别有关.
(3)依题意男、女生人数分别是250人和200人,男生 中关心国家大事的人数为235人,女生中关心国家大 事的人数为170人; 列出2×2列联表如下:
2.独立性检验 (1)定义:我们用随机变量 χ2 来确定在多大程度上 可以认为“两个分类变量有关系”的方法称为两
个分类变量的独立性检验. (2)公式:χ2=a+bnc+add- ab+cc2b+d (3)步骤:①提出假设 H0:_Ⅰ__与__Ⅱ__没__有__关__系____; ②根据 2×2 列联表及 χ2 公式,计算的__χ2__值;
方法感悟
1.画列联表时要把两个分类变量分别作为第一行 和第一列,把数据填在相应的交叉点上,最右面一 列为对行的合计,最下面一行为对列的合计. 2.对卡方公式要从结构上结合列联表记忆,分母 分别是四个合计的积,分子是列联表主对角线之积 与副对角线之积的差的平方再乘样本容量.注意: 一是不要漏乘了样本容量,二是用公式时要细心计 算,防止出错.
【规范解答】 根据题目所给数据列出下列表格:
态度 性别
男生 女生 合计
肯定
22 18 40
高中数学苏教版选修2-3:3.1 独立性检验
遇上你是缘分,愿您生活愉快,身
7
体健康,学业有成,金榜题名!
[精解详析] 作列联表如下:
喜欢甜食 不喜欢甜食 合计
男
117
413
530
女
492
178
670
合计 609
591 1 200
[一点通] 分清类别是列联表的作表关键步骤.表中排成两行 两列的数据是调查得来的结果.
遇上你是缘分,愿您生活愉快,身
遇上你是缘分,愿您生活愉快,身
17
体健康,学业有成,金榜题名!
4.在国家未实施西部开发战略前,一新闻单位在应届大学毕业
生中随机抽取 1 000 人问卷,只有 80 人志愿加入西部建设.而
国家实施西部开发战略后,随机抽取 1 200 名应届大学毕业生
问卷,有 400 人志愿加入国家西部建设.实施西部开发战略
考前心情不紧张 94
381 475
合计
426
594 1 020
遇上你是缘分,愿您生活愉快,身
10
体健康,学业有成,金榜题名!
[例 2] 下表是某地区的一种传染病与饮用水的调查表:
得病 不得病 合计
干净水 52 466 518
不干净水 94 218 312
合计 146 684 830
(1)这种传染病是否与饮用水的卫生程度有关,请说明理由;
遇上你是缘分,愿您生活愉快,身
19
体健康,学业有成,金榜题名!
独立性检验的基本思想与反证法的思想比较
反证法
独立性检验
要证明结论 A
要确认“两个对象有关系”
假设该结论不成立,即假设结论 在 A 不成立的前
“两个对象没有关系”成立,在该 提下进行推理
高中数学 第三章 统计案例 3.1 独立性检验学案 苏教版
3.1 独立性检验1.了解独立性检验的概念,会判断独立性检验事件.2.能列出2×2列联表,会求χ2(卡方统计量的值).3.能够利用临界值,作出正确的判断.(重点)4.应用独立性检验分析实际问题.(难点)[基础·初探]教材整理1 2×2列联表的意义阅读教材P91~P94“例1”以上部分,完成下列问题一般地,对于两个研究对象Ⅰ和Ⅱ,Ⅰ有两类取值,即类A和类B(如吸烟与不吸烟);Ⅱ也有两类取值,即类1和类2(如患呼吸道疾病和未患呼吸道疾病).我们得到如下表所示的抽样数据:列联表,2×2列联表经常用来判断Ⅰ和Ⅱ之间是否有关系.下面是一个2×2列联表:则表中a,b【解析】∵a+21=73,∴a=52.又b=a+8=52+8=60.【答案】52,60教材整理2 独立性检验阅读教材P93~P94“例1”以上部分完成下列各题.1.独立性检验2×2列联表中的数据是样本数据,它只是总体的代表,具有随机性,结果并不唯一.因此,由某个样本得到的推断有可能正确,也有可能错误.为了使不同样本量的数据有统一的评判标准,统计学中引入下面的量(称为卡方统计量):χ2=n ad-bc2a +b c+d a+c b+d(*),其中n=a+b+c+d为样本容量.用χ2统计量研究这类问题的方法称为独立性检验(test of independence).2.独立性检验的基本步骤要推断“Ⅰ与Ⅱ有关系”,可按下面的步骤进行:(1)提出假设H0:Ⅰ与Ⅱ没有关系;(2)根据2×2列联表与公式(*)计算χ2的值;(3)查对临界值(如下表),作出判断.1.关于分类变量x与y的随机变量χ2的观测值k,下列说法正确的是________.(填序号)(1)k的值越大,“X和Y有关系”可信程度越小;(2)k的值越小,“X和Y有关系”可信程度越小;(3)k的值越接近于0,“X和Y无关”程度越小;(4)k的值越大,“X和Y无关”程度越大.【解析】k的值越大,X和Y有关系的可能性就越大,也就意味着X和Y无关系的可能性就越小.【答案】(2)2.式子|ad-bc|越大,χ2的值就越________.(填“大”或“小”)【解析】由χ2的表达式知|ad-bc|越大,(ad-bc)2就越大,χ2就越大.【答案】大[质疑·手记]预习完成后,请将你的疑问记录,并与“小伙伴们”探讨交流:疑问1:解惑:疑问2:解惑:疑问3:解惑:[小组合作型]670人,发现其中男性中喜欢吃甜食的为117人,女性中喜欢吃甜食的为492人,请作出性别与喜欢吃甜食的列联表.【精彩点拨】分成两类,找出不同类情况下的两个数据再列表.【自主解答】作2×2列联表如下:1.分清类别是作列联表的关键.2.表中排成两行两列的数据是调查得来的结果.3.选取数据时,要求表中的四个数据a,b,c,d都要不小于5,以保证检验结果的可信度.[再练一题]1.某电视公司为了研究体育迷是否与性别有关,在调查的100人中,体育迷75人,其中女生30人,非体育迷25人,其中男生15人,请作出性别与体育迷的列联表.【解】生产季节开始,随机抽取75名车间工人穿上新防护服,其余仍穿原用的防护服,生产进行一个月后,检查两组工人的皮肤炎患病人数如下:【精彩点拨】 通过有关数据的计算,作出相应的判断.【自主解答】 提出假设H 0:新防护服对预防皮肤炎没有明显效果. 根据列联表中的数据可求得 χ2=-275×28×15×88≈13.826.因为H 0成立时,χ2≥10.828的概率约为0.001,而这里χ2≈13.826>10.828,所以我们有99.9%的把握说新防护服比旧防护服对预防工人患职业性皮肤炎有效.根据2×2列联表,利用公式n ad -bc 2a +bc +d a +cb +d计算χ2的值,再与临界值比较,作出判断.[再练一题]2.在某医院,因为患心脏病而住院的665名男性病人中,有214人秃顶;而另外772名不是因为患心脏病而住院的男性病人中,有175人秃顶.根据以上数据判断男性病人的秃顶与患心脏病是否有关系?【解】提出假设H0:男性病人的秃顶与患心脏病没有关系.根据题中所给数据得到如下2×2列联表:χ2=-2389×1 048×665×772≈16.373.因为当H0成立时,χ2≥10.828的概率约为0.001,而这里χ2≈16.373>10.828,所以有99.9%的把握认为,男性病人的秃顶与患心脏病有关系.[探究共研型]探究1【提示】利用χ2进行独立性检验,可以对推断的正确性的概率作出估计,样本容量n越大,这个估计值越准确,如果抽取的样本容量很小,那么利用χ2进行独立性检验的结果就不具有可靠性.探究2 在χ2运算后,得到χ2的值为29.78,在判断变量相关时,P(χ2≥6.635)≈0.01和P(χ2≥7.879)≈0.005,哪种说法是正确的?【提示】两种说法均正确.P(χ2≥6.635)≈0.01的含义是在犯错误的概率不超过0.01的前提下认为两个变量相关;而P(χ2≥7.879)≈0.005的含义是在犯错误的概率不超过0.005的前提下认为两个变量相关.为了调查某生产线上质量监督员甲对产品质量好坏有无影响,现统计数据如下:甲在生产现场时,990件产品中有合格品982件,次品8件;甲不在生产现场时,510件产品中有合格品493件,次品17件.试分别用列联表、独立性检验的方法分析监督员甲对产品质量好坏有无影响.能否在犯错误的概率不超过0.001的前提下,认为质量监督员甲是否在生产现场与产品质量有关?【精彩点拨】解答本题可先列出2×2列联表,然后具体分析.【自主解答】(1)2×2列联表如下:为“质量监督员甲是否在生产现场与产品质量有关系”.(2)由2×2列联表中数据,计算得到χ2的观测值为χ2=-2990×510×1 475×25≈13.097>10.828,因此在犯错误的概率不超过0.001的前提下,认为质量监督员甲是否在生产现场与产品质量有关.判断两个变量是否有关的三种方法[再练一题]3.调查某医院某段时间内婴儿出生的时间与性别的关系,得到下面的数据:出生时间在晚上的男婴为24人,女婴为8人;出生时间在白天的男婴为31人,女婴为26人.(1)将下面的2×2列联表补充完整;【解】(1)(2)χ2=-255×34×32×57≈3.689>2.706.根据临界值表知P (χ2≥2.706)≈0.10.因此在犯错误的概率不超过0.10的前提下认为婴儿的性别与出生时间有关系.[构建·体系]1.在2×2列联表中,若每个数据变为原来的2倍,则χ2的值变为原来的________倍. 【解析】 由公式χ2=n ad -bc 2a +bc +d a +cb +d 中所有值变为原来的2倍, 得(χ2)′=2na ·2d -2b ·2c2a +2bc +2d a +2cb +2d=2χ2,故χ2也变为原来的2倍. 【答案】 22.下列说法正确的是________.(填序号)①对事件A 与B 的检验无关,即两个事件互不影响;②事件A 与B 关系越密切,χ2就越大;③χ2的大小是判断事件A 与B 是否相关的唯一数据;④若判定两事件A 与B 有关,则A 发生B 一定发生.【解析】 对于①,事件A 与B 的检验无关,只是说两事件的相关性较小,并不一定两事件互不影响,故①错.②是正确的.对于③,判断A 与B 是否相关的方式很多,可以用列联表,也可以借助于概率运算,故③错.对于④,两事件A 与B 有关,说明两者同时发生的可能性相对来说较大,但并不是A 发生B 一定发生,故④错.【答案】 ②3.为了判断高中三年级学生选修文科是否与性别有关,现随机抽取50名学生,得到如下2×2列联表:已χ2=-223×27×20×30≈4.844.则有__________的把握认为选修文科与性别有关. 【答案】 95%4.在2×2列联表中,两个比值aa +b与________相差越大,两个分类变量有关系的可能性越大. 【导学号:29440066】【解析】 根据2×2列联表可知,比值aa +b 与cc +d相差越大,则|ad -bc |就越大,那么两个分类变量有关系的可能性就越大.【答案】cc +d5.(2014·辽宁高考节选)某大学餐饮中心为了解新生的饮食习惯,在全校一年级学生中进行了抽样调查,调查结果如下表所示:方面有差异”.【解】 将2×2列联表中的数据代入公式计算,得 χ2=n ad -bc 2a +bc +d a +cb +d=-280×20×70×30=10021≈4.762. 因为4.762>3.841,所以有95%的把握认为“南方学生和北方学生在选用甜品的饮食习惯方面有差异”.我还有这些不足:(1)(2)我的课下提升方案:(1)(2)学业分层测评(建议用时:45分钟)[学业达标]一、填空题1.为了检验两个事件A与B是否相关,经计算得χ2=3.850,我们有________的把握认为事件A与B相关.【答案】95%2.(2016·连云港月考)为了考查高中生的性别与是否喜欢数学课程之间的关系,某市在该辖区内的高中学生中随机地抽取300名学生进行调查,得到表中数据:【解析】由χ2=-2142×158×82×218≈4.512.【答案】 4.5123.通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:由χ2=a +bc +d a +cb +d算得,χ2=-260×50×60×50≈7.822.附表:①有99%以上的把握认为“爱好该项运动与性别有关”; ②有99%以上的把握认为“爱好该项运动与性别无关”;③在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”; ④在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”. 【解析】 由附表可得知当χ2≥6.635时,有P =1-P =0.99,当χ2≥10.828时,有P =1-P =0.999,而此时的χ2≈7.822.显然有0.99<P <0.999,故可以得到有99%以上的把握认为“爱好该项运动与性别有关”.【答案】 ①4.某电视台在一次对收看文艺节目和新闻节目观众的抽样调查中,随机抽取了100名电视观众,相关的数据如下表所示:填“是”或“否”)【解析】 因为在20至40岁的58名观众中有18名观众收看新闻节目,而大于40岁的42名观众中有27名观众收看新闻节目,即ba +b =1858,dc +d =2742,两者相差较大,所以经直观分析,收看新闻节目的观众与年龄是有关的.【答案】 是5.为了评价某个电视栏目的改革效果,在改革前后分别从某居民点抽取了1 000位居民进行调查,经过计算得χ2≈4.358,根据这一数据分析,下列说法正确的是________.①有95%的人认为该栏目优秀;②有95%的人认为该栏目是否优秀与改革有关系;③在犯错误的概率不超过0.05的前提下认为该电视栏目是否优秀与改革有关系;④没有理由认为该电视栏目是否优秀与改革有关系.参考数据如表:电视栏目是否优秀与改革有关系.【答案】③6.在一项打鼾与患心脏病的调查中,共调查了10 671人,经过计算χ2=27.63.根据这一数据分析,我们有理由认为打鼾与患心脏病是________的(填“有关”或“无关”).【解析】∵χ2=27.63>10.828,∴有99.9%的把握认为“打鼾与患心脏病是有关的.【答案】有关7.为研究某新药的疗效,给50名患者服用此药,跟踪调查后得下表中的数据:设H0药的效果与患者的性别有关,这种判断出错的可能性为______.【导学号:29440067】【解析】由公式计算得χ2≈4.882>3.841,所以有95%的把握认为服用此药的效果与患者的性别有关,从而有5%的可能性出错.【答案】 4.882 5%8.为大力提倡“厉行节约,反对浪费”,某市通过随机询问100名性别不同的居民是否能做到“光盘”行动,得到如下的列联表:附:χ2=a+b c+d a+c b+d.参照附表,得到的正确结论的序号是__________.①在犯错误的概率不超过1%的前提下,认为“该市居民能否做到‘光盘’与性别有关”;②在犯错误的概率不超过1%的前提下,认为“该市居民能否做到‘光盘’与性别无关”;③有90%以上的把握认为“该市居民能否做到‘光盘’与性别有关”;④有90%以上的把握认为“该市居民能否做到‘光盘’与性别无关”.【解析】根据列联表中的数据得到χ2=-255×45×75×25≈3.03>2.706.所以有90%以上的把握认为“该市民能否做到‘光盘’与性别有关”,故选③.【答案】③二、解答题9.某中学高二班主任对本班50名学生学习积极性和对待班级工作的态度进行长期的调查,得到的统计数据如下表所示:【解】根据列联表中的数据得到χ2=-225×25×24×26≈11.538>10.828,即有99.9%的把握认为学习的积极性与对待班级工作的态度有关.10.为研究学生对国家大事的关心与否与性别是否有关,在学生中随机抽样调查,结果如下:(1)(2)扩大样本容量,将表中每个数据扩大为原来的10倍,然后作出判断分析;(3)从某中学随机抽取450名学生,其中男,女生数量之比为5∶4,通过问卷调查发现男生关心国家大事的百分率为94%,而女生关心国家大事的百分率为85%,请根据这些数据,判断该中学的学生是否关心国家大事与性别的关系.【解】(1)提出假设H0:学生对国家大事的关心与否与性别无关.由公式可得χ2=-2200×200×358×42≈0.958.因为χ2≈0.958<2.706,所以我们没有理由认为学生是否关心国家大事与性别有关(当然也不能肯定无关).(2)χ2=-22 000×2 000×3 580×420≈9.577>6.635,所以我们有99%的把握认为是否关心国家大事与性别有关.(3)依题意得,男、女生人数分别是250人和200人,男生中关心国家大事的人数为235人,女生中关心国家大事的人数为170人.列出2×2列联表如下:由表中数据,得χ2=250×200×405×45=10>6.635,所以我们有99%的把握认为该中学的学生是否关心国家大事与性别有关.[能力提升]1.(2016·苏州月考)2016年10月8日为我国第十九个高血压日,主题是“在家测量您的血压”.某社区医疗服务部门为了考察该社区患高血压病是否与食盐摄入量有关,对该社区的1 633人进行了跟踪调查,得出以下数据:计算χ2,量有关系.【解析】χ2=-2254×1 379×1 573×60≈80.155>10.828.故有99.9%的把握认为患高血压病与食盐的摄入量有关系.【答案】80.155 99.9%2.(2016·徐州期中)在吸烟与患肺病是否相关的判断中,有下面的说法:①若χ2>6.635,则在犯错误的概率不超过0.01的前提下,认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99人患有肺病;②从独立性检验可知在犯错误的概率不超过0.01的前提下,认为吸烟与患肺病有关系,若某人吸烟,则他有99%的可能患有肺病;③从独立性检验可知在犯错误的概率不超过0.05的前提下,认为吸烟与患肺病有关系时,是指有5%的可能性使得推断错误.其中说法正确的是________.【解析】χ2是检验吸烟与患肺病相关程度的量,而不是确定关系,是反映有关和无关的概率,故①不正确,②中对“确定容许推断犯错误概率的上界”理解错误;③正确.【答案】③3.下列关于χ2的说法中,正确的有________(填序号).①χ2的值越大,两个分类变量的相关性越大;②χ2的计算公式是χ2=n ad-bca +b c+d a+c b+d;③若求出χ2=4>3.841,则有95%的把握认为两个分类变量有关系,即有5%的可能性使得“两个分类变量有关系”的推断出现错误;④独立性检验就是选取一个假设H0条件下的小概率事件,若在一次试验中该事件发生了,这是与实际推断相抵触的“不合理”现象,则作出拒绝H0的推断.【解析】对于①,χ2的值越大,只能说明我们有更大的把握认为二者有关系,却不能判断相关性大小,故①错;对于②,(ad-bc)应为(ad-bc)2,故②错;③④对.【答案】③④4.有两个分类变量X与Y,其一组观测值如下2×2列联表所示:其中a,15Y之间有关系.【解】 查表可知:要使有90%的把握认为X 与Y 之间有关系,则χ2≥2.706, 而χ2=n ad -bc 2a+bc +d a +cb +d=65×[a +a -15-a -a220×45×15×50=a -250×45×60=a -290×60.∵χ2≥2.706, ∴a -290×60≥2.706,即(13a -60)2≥1 124,∴13a -60≥33.5或13a -60≤-33.5, ∴a ≥7.2或a ≤2.又∵⎩⎪⎨⎪⎧a >5,15-a >5,∴5<a <10且a ∈Z . ∴a =8或9.∴当a =8或9时,有90%的把握认为X 与Y 之间有关系.。
(压轴题)高中数学高中数学选修2-3第三章《统计案例》测试(包含答案解析)(3)
一、选择题1.已知x 与y 之间的几组数据如下表: x 1 2 3 4 y1mn4参考公式:线性回归方程y bx a =+,其中()()()121niii nii x x y y b x x ==--=-∑∑,a y bx =-;相关系数()()()()12211niii nniii i x x y y r x x y y ===--=--∑∑∑.上表数据中y 的平均值为2.5,若某同学对m 赋了三个值分别为1.5,2,2.5得到三条线性回归直线方程分别为11y b x a =+,22y b x a =+,33y b x a =+,对应的相关系数分别为1r ,2r ,3r ,下列结论中错误..的是( ) A .三条回归直线有共同交点 B .相关系数中,2r 最大 C .12b b >D .12a a >2.以模型kx y ce =去拟合一组数据时,为了求出回归方程,设ln z y =,其变换后得到线性回归方程0.53z x =+,则c =( ) A .3B .3eC .0.5D .0.5e3.某商品销售量y (件)与销售价格x (元/件)负相关,则其回归方程可能是A .10200ˆyx =-+ B .10200ˆyx =+ C .10200ˆyx =-- D .10200ˆyx =- 4.设导弹发射的事故率为0.01,若发射10次,其出事故的次数为ξ,则下列结论正确的是 ( ) A .0.1E ξ=B .•01D ξ=C .10()0.01?0.99k k P k ξ-==D .1010()0.99?0.01k k kP k C ξ-==5.某研究型学习小组调查研究学生使用智能手机对学习的影响.部分统计数据如下表:附表:经计算2K 的观测值10k =,则下列选项正确的是( ) A .有99.5%的把握认为使用智能手机对学习有影响 B .有99.5%的把握认为使用智能手机对学习无影响 C .有99.9%的把握认为使用智能手机对学习有影响 D .有99.9%的把握认为使用智能手机对学习无影响 6.下列命题中正确命题的个数是(1)对分类变量X 与Y 的随机变量2K 的观测值k 来说,k 越小,判断“X 与Y 有关系”的把握越大;(2)若将一组样本数据中的每个数据都加上同一个常数后,则样本的方差不变; (3)在残差图,残差点分布的带状区域的宽度越狭窄,其模型拟合的精度越高; (4)设随机变量ξ服从正态分布()0,1N ; 若()1P p ξ>=,则()1102P p ξ-<<=-( ) A .4B .3C .2D .17.在独立性检验中,统计量2χ有三个临界值:2.706、3.841和6.635,在一项打鼾与患心脏病的调查中,共调查了1000人,经计算的2χ=18.87,根据这一数据分析,认为打鼾与患心脏病之间 ( )A .有95%的把握认为两者无关B .约有95%的打鼾者患心脏病C .有99%的把握认为两者有关D .约有99%的打鼾者患心脏病8.对于独立性检验,下列说法正确的是( ) A .K 2>3.841时,有95%的把握说事件A 与B 无关 B .K 2>6.635时,有99%的把握说事件A 与B 有关 C .K 2≤3.841时,有95%的把握说事件A 与B 有关 D .K 2>6.635时,有99%的把握说事件A 与B 无关9.利用独立性检验来考虑两个分类变量X 和Y 是否有关系时,通过查阅临界值表来确定推断“X 与Y 有关系”的可信度,如果k >5.024,那么就推断“X 和Y 有关系”,这种推断犯错误的概率不超过( ) A .0.25 B .0.75 C .0.025 D .0.97510.已知,x y 的取值如下表:( )x0 1, 2 3 4 y11.33.25.68.9若依据表中数据所画的散点图中,所有样本点()(,)1,2,3,4,5i i x y i =都在曲线212y x a =+附近波动,则a =( ) A .1B .12C .13D .12-11.通过随机询问2016名性别不同的大学生是否爱好某项运动,得到2 6.023K =,则根据这一数据查阅表,则有把握认为“爱好该项运动与性别有关”的可信程度是( )A .90%B .95%C .97.5%D .99.5%12.下列说法:①将一组数据中的每个数据都乘以同一个非零常数a 后,标准差也变为原来的a 倍; ②设有一个回归方程35y x =-,变量x 增加1个单位时,y 平均减少5个单位; ③线性相关系数r 越大,两个变量的线性相关性越强;反之,线性相关性越弱;④在某项测量中,测量结果ξ服从正态分布()()21,0N σσ>,若ξ位于区域()0,1的概率为0.4,则ξ位于区域()1,+∞内的概率为0.6⑤利用统计量2χ来判断“两个事件,X Y 的关系”时,算出的2χ值越大,判断“X 与Y 有关”的把握就越大 其中正确的个数是 A .1B .2C .3D .4二、填空题13.在一次独立试验中,有200人按性别和是否色弱分类如下表(单位:人)你能在犯错误的概率不超过_____的前提下认为“是否色弱与性别有关”?14.某中学为了调研学生的数学成绩和物理成绩是否有关系,随机抽取了189名学生进行调查,调查结果如下:在数学成绩较好的94名学生中,有54名学生的物理成绩较好,有40名学生的物理成绩较差;在成绩较差的95名学生中,有32名学生的物理成绩较好,有63名学生的物理成绩较差.根据以上的调查结果,利用独立性检验的方法可知,约有________的把握认为“学生的数学成绩和物理成绩有关系”.15.为了解适龄公务员对放开生育二胎政策的态度,某部门随机调查了200位30~40岁之间的公务员,得到的情况如下表:男公务员 女公务员 生二胎 80 40 不生二胎4040则________(填“有”或“没有”)99%以上的把握认为“生二胎与性别有关”. 附:K 2=. P (K 2≥k 0) 0.10 0.05 0.025 0.010 0.005 0.001 k 02.7063.8415.0246.6357.87910.82816.为了解某班学生喜爱打篮球是否与性别有关,对该班50名 学生进行了问卷调查, 得到了如下22⨯ 列联表喜爱打篮球 不喜爱打篮球 合计男生20 525 女生 10 1525合计30 2050则至少有_____的把握认为喜爱打篮球与性别有关(请用百分数表示). 17.给出下列命题:①线性相关系数r 越大,两个变量的线性相关性越强;反之,线性相关性越弱;②由变量x 和y 的数据得到其回归直线方程:l ˆybx a =+,则l 一定经过点(),x y P ; ③从匀速传递的产品生产流水线上,质检员每10分钟从中抽取一件产品进行某项指标检测,这样的抽样是分层抽样;④在回归分析模型中,残差平方和越小,说明模型的拟合效果越好;⑤在回归直线方程0.110ˆyx =+中,当解释变量x 每增加一个单位时,预报变量ˆy 增加0.1个单位,其中真命题的序号是___________.18.某单位为了了解用电量y (度)与气温x (℃)之间的关系,随机统计了某4天的用电量与当天气温(如表),并求得线性回归方程为^=-2x +60.不小心丢失表中数据c ,d ,那么由现有数据知2c+d=______. x c 13 10 -1 y243438d19.下列4个命题:①为了了解800名学生对学校某项教改试验的意见,打算从中抽取一个容量为40的样本,考虑用系统抽样,则分段的间隔为40;②四边形ABCD 为长方形,2AB =,1BC =,O 为AB 中点,在长方形ABCD 内随机取一点P ,取得的P 点到O 的距离大于1的概率为12π-; ③把函数3sin 23y x π⎛⎫=+⎪⎝⎭的图象向右平移6π个单位,可得到3sin 2y x =的图象; ④已知回归直线的斜率的估计值为1.23,样本点的中心为()4,5,则回归直线方程为1.230.08y x =+.其中正确的命题有__________.(填上所有正确命题的编号)20.2018年春季,世界各地相继出现流感疫情,这已经成为全球性的公共卫生问题.为了考察某种流感疫苗的效果,某实验室随机抽取100只健康小鼠进行试验,得到如下列联表:关系.(参考公式:()()()()()22n ad bc K a b c d a c b d -=++++.)三、解答题21.第十八届中国国际农产品交易会于11月27日在重庆国际博览中心开幕,我市全面推广“遂宁红薯”及“遂宁鲜”农产品区域公用品牌,并组织了100家企业、1000个产品进行展示展销,扩大优质特色农产品市场的占有率和影响力,提升遂宁特色农产品的社会认知度和美誉度,让来自世界各地的与会者和消费者更深入了解遂宁,某记者对本次农交会进行了跟踪报道和实际调查,对某特产的最满意度()%x 和对应的销售额y (万元)进行了调查得到以下数据:关系数r 的绝对值在0.95以上(含0.95)是线性相关性较强;否则,线性相关性较弱.请你对线性相关性强弱作出判断,并给出理由;(2)如果没有达到较强线性相关,则采取“末位淘汰”制(即销售额最少的那一天不作为计算数据),并求在剔除“末位淘汰”的那一天后的销量额y 关于最满意度x 的线性回归方程(系数精确到0.1). 参考数据:24x =,81y =,52215146ii x x =-=∑, 52215176i i y y =-=∑,515151i ii x y xy =-=∑13.27≈≈.附:对于一组数据()()()1122,,,,,,n n x y x y x y ⋅⋅⋅.其回归直线方程 ˆˆˆy bx a =+的斜率和截距的最小二乘法估计公式分别为:1221ˆ·ni ii ni i x y nx y bx nx ==-=-∑∑,ˆa y bx=-,线性相关系数·ni ix y nx y r -=∑22.为了调查某生产线上质量监督员甲对产品质量好坏有无影响,现统计数据如下:质量监督员甲在生产现场时,990件产品中合格品有982件,次品有8件;甲不在生产现场时,510件产品中合格品有493件,次品有17件,试分别用列联表、独立性检验的方法分析监督员甲是否在生产现场对产品质量好坏有无影响?23.2020年初,新型冠状病毒(2019-nCoV )肆虐,全民开启防疫防控.新型冠状病毒的传染主要是人与人之间进行传播,感染人群年龄大多数是40岁以上人群.该病毒进入人体后有潜伏期,潜伏期是指病原体侵入人体至最早出现临床症状的这段时间.潜伏期越长,感染到他人的可能性越高,现对200个病例的潜伏期(单位:天)进行调查,统计发现潜伏期平均数为7.1,方差为22.25.如果认为超过8天的潜伏期属于“长潜伏期”,按照年龄统计样本,得到下面的列联表:(1)是否有95%的把握认为“长期潜伏”与年龄有关;(2)假设潜伏期X 服从正态分布()2,N μσ,其中μ近似为样本平均数x ,2σ近似为样本方差2s .(ⅰ)现在很多省份对入境旅客一律要求隔离14天,请用概率的知识解释其合理性;(ⅱ)以题目中的样本频率估计概率,设1000个病例中恰有()*k k ∈N 个属于“长期潜伏”的概率是()g k ,当k 为何值时,()g k 取得最大值. 附:()()()()()22n ad bc a b c d a c b d χ-=++++若()2,N ξμσ则()0.6862P μσξμσ-<<+=.()220.9544P μσξμσ-<<+=,()330.9974P μσξμσ-<<+=.24.某地一所妇产科医院为了解婴儿性别与出生时间(白天或晚上)之间的联系,从该医院最近出生的200名婴儿获知如下数据:这200名婴儿中男婴的比例为55%,晚上出生的男婴比白天出生的男婴多75%,晚上出生的女婴人数与白天出生的男婴人数恰好相等. (1)根据题意,完成下列2×2列联表;(2)根据列联表,判断能否有99%的把握认为婴儿的性别与出生时间有关,说明你的理由.附:22()()()()()n ad bcKa b c d a c b d-=++++(n=a+b+c+d),参考数据:221999≈0.0368.25.在第十五次全国国民阅读调查中,某地区调查组获得一个容量为200的样本,其中城镇居民150人,农村居民50人,在这些居民中,经常阅读的城镇居民100人,农村居民24人.(1)完成上面2×2列联表,并判断是否有95%的把握认为经常阅读与居民居住地有关?(2)从该地区居民城镇的居民中,随机抽取5位居民参加一次阅读交流活动,记这5位居民中经常阅读的人数为X,若用样本的频率作为概率,求随机变量X的分布列和期望.附:K2=2()()()()()n ad bca b c d a c b d-++++,其中n=a+b+c+d.26.“微粒贷”是腾讯旗下2015年9月开发上市的微众银行网货产品.腾讯公司为了了解“微粒贷”上市以来在C市的使用情况,统计了C市2015年至2019年使用了“微粒货”贷款的累计人数,统计数据如表所示:(1)已知变量x ,y 具有线性相关关系,求累计人数y (万人)关于年份代号x 的线性回归方程y bx a =+;并预测2020年使用“微粒贷“贷款的累计人数;(2)“微粒贷”用户拥有的贷款额度是根据用户的账户信用资质判定的,额度范围在500元至30万元不等,腾讯公司在统计使用人数的同时,对他们所拥有的贷款额度也作了相应的统计.我们把拥有货款额度在500元至5万元(不包括5万元)的人群称为“低额度贷款人群”,简称“A 类人群”;把拥有贷款额度在5万元及以上的人群称为“高额度贷款人群”,简称“B 类人群”.根据统计结果,随机抽取6人,其中A 类人群4人,B 类人群2人.现从这6人中任取3人,记随机变量ξ为A 类人群的人数,求ξ的分布列及其期望.参考公式:1122211()()()()nni iiii i nniii i x y nx y x x y y b xn x x x ====---==--∑∑∑∑, a y bx =-参考数据:5162i ii x y=≈∑【参考答案】***试卷处理标记,请不要删除一、选择题 1.D 解析:D 【分析】由题意可得5m n +=,分别取m 与n 的值,由公式计算出1122123,,,,,,b a b a r r r 的值,逐一分析四个选项,即可得到答案. 【详解】由题意,1410m n +++=,即5m n +=. 若 1.5m =,则 3.5n =,此时12342.54x +++==, 2.5y =. ()()()()()()()()()()411 2.51 2.52 2.5 1.5 2.53 2.5 3.5 2.54 2.54 2.5 5.5iii x x y y =--=--+--+--+--=∑ ,()()()42222211.50.50.5 1.55i i x x =-=-+-++=∑ ,()()()42222211.511 1.5 6.5i i y y =-=-+-++=∑.则1 5.51.15b ==,1 2.5 1.1 2.50.25a =-⨯=- ,1r =≈; 若2m =,则3n =,此时12342.54x +++==, 2.5y =. ()()()()()()()()()()411 2.51 2.52 2.52 2.53 2.53 2.54 2.54 2.55iii x x y y =--=--+--+--+--=∑,()4215ii x x =-=∑,()()()42222211.50.50.5 1.55i i y y =-=-+-++=∑.2515b ==,2 2.51 2.50a =-⨯=,21r ==; 若 2.5m =,则 2.5n =,此时12342.54x +++==, 2.5y =. ()()()()()()()()()()411 2.51 2.52 2.5 2.5 2.53 2.5 2.5 2.54 2.54 2.5 4.5iii x x y y =--=--+--+--+--=∑,()4215i i x x =-=∑,()()422211.5 1.5 4.5i i y y =-=-+=∑,3r ==由样本点的中心相同,故A 正确;由以上计算可得,相关系数中,2r 最大,12b b >,12a a <,故B ,C 正确,D 错误. 故选:D . 【点睛】本题考查线性回归方程与相关系数的求法,考查计算能力,是中档题.2.B解析:B 【分析】根据指对数互化求解即可. 【详解】解:因为0.53z x =+,ln z y =,所以0.53ln x y +=,所以0.5330.5x x y e e e +==⨯,故3c e =.故选:B. 【点睛】本题考查非线性回归问题的转化,是基础题.3.A解析:A 【解析】试题分析:因为商品销售量x 与销售价格ˆy负相关,所以排除B ,D 选项, 将0x =代入10200ˆyx =--可得2000ˆy =-<,不符合实际.故A 正确. 考点:线性回归方程.【方法点睛】本题主要考查线性回归方程,属容易题.线性回归方程ˆˆˆy bx a =+当ˆ0b<时ˆ,x y 负相关;当ˆ0b >时ˆ,x y 正相关. 4.A解析:A 【解析】 【分析】由题意知本题是在相同的条件下发生的试验,发射的事故率都为0.01,实验的结果只有发生和不发生两种结果,故本题符合独立重复试验,由独立重复试验的期望公式得到结果. 【详解】由题意知本题是在相同的条件下发生的试验,发射的事故率都为0.01,故本题符合独立重复试验,即ξ~(10,0.01)B . ∴100.010.1E ξ=⨯= 故选A . 【点睛】解决离散型随机变量分布列和期望问题时,主要依据概率的有关概念和运算,同时还要注意题目中离散型随机变量服从什么分布,若服从特殊的分布则运算要简单的多.5.A解析:A 【解析】 【分析】由题意结合2K 的观测值k 由独立性检验的数学思想给出正确的结论即可. 【详解】由于2K 的观测值10k =7.879>,其对应的值0.0050.5%=,据此结合独立性检验的思想可知:有99.5%的把握认为使用智能手机对学习有影响. 本题选择A 选项. 【点睛】独立性检验得出的结论是带有概率性质的,只能说结论成立的概率有多大,而不能完全肯定一个结论,因此才出现了临界值表,在分析问题时一定要注意这点,不可对某个问题下确定性结论,否则就可能对统计计算的结果作出错误的解释.6.B解析:B 【解析】 【分析】根据独立性检验的定义可判断(1);根据方差的性质可判断(2);根据残差的性质可判断(3);根据正态分布的对称性可判断(4).【详解】(1)对分类变量X 与Y 的随机变量2K 的观测值K 来说,K 越大,判断“X 与Y 有关系”的把握越大,故(1)错误;(2)若将一组样本数据中的每个数据都加上同一个常数后,数据的离散程度不变,则样本的方差不变,故(2)正确;(3)根据残差的定义可知,在残差图,残差点分布的带状区域的宽度越狭窄,预测值与实际值越接近,其模型拟合的精度越高,(3)正确;(4)设随机变量ξ服从正态分布()0,1N ,若()1P p ζ>=,则()1P p ζ<-=,则()1112P p ζ-<<=-,则()1102P p ζ-<<=-,故(4)正确, 故正确的命题的个数为3个,故选B. 【点睛】本题主要通过对多个命题真假的判断,主要综合考查独立性检验的定义、方差的性质、残差的性质以及正态分布的对称性,属于中档题. 这种题型综合性较强,也是高考的命题热点,同学们往往因为某一处知识点掌握不好而导致“全盘皆输”,因此做这类题目更要细心、多读题,尽量挖掘出题目中的隐含条件,另外,要注意从简单的自己已经掌握的知识点入手,然后集中精力突破较难的命题.7.C解析:C 【解析】因为统计量2χ有三个临界值:2.706、3.841和6.635,而2χ=18.87>6.635,所以有99%的把握认为两者有关,选C.8.B解析:B【解析】由独立性检验的知识知:K 2>3.841时,有95%的把握认为“变量X 与Y 有关系”;K 2>6.635时,有99%的把握认为“变量X 与Y 有关系”.故选项B 正确.9.C解析:C【解析】∵P (k >5.024)=0.025,故在犯错误的概率不超过0.025的条件下,认为“X 和Y 有关系”. 考点:独立性检验.10.A解析:A 【解析】 设2t x = ,则11(014916)6,(1 1.3 3.2 5.68.9)455t y =++++==++++=,所以点(6,4)在直线12y t a =+上,求出1a =,选A.点睛:本题主要考查了散点图,属于基础题.样本点的中心(),x y 一定在直线回归直线上,本题关键是将原曲线变形为12y t a =+,将点(6,4)代入,求出值. 11.C解析:C 【解析】因为2 6.023K =,且5.024 6.023 6.635≤≤,所以有把握认为“爱好该项运动与性别有关”的可信度P 满足10.02510.010P -≤≤-,即0.9750.99P ≤≤,应选答案C 。
苏教版数学高二-数学苏教版选修2-3课堂导学 3.1 独立性检验
课堂导学三点剖析一、独立性检验的概念及方法【例1】 已知观测得到如下数据(如下表):未感冒 感冒 合计 用某种药 252 248 500 未用这种药 224276500 合计476 5241 000计算χ2并说明用某种药与患感冒是否有关系. 解析:假设未用药与感冒没有关系.∵a =252,b =248,a +b =500,c =224,d =276,c +d =500,n =1 000,a +c =476,b +d =524,∴χ2=476524500500)224248276252(1000))()()(()(22⨯⨯⨯⨯-⨯⨯=++++-d b c a d c b a bc ad n=3.143.由于χ2=3.143>2.706,∴有90%的把握认为未用药与感冒有关系. 温馨提示根据采集的样本数据,利用公式计算χ2的值,比较χ2与临界值的大小关系,来判定A 与B 是否有关.二、 相互独立事件的判定【例2】 袋子A 和B 中各装有若干个均匀的红球和白球,从A 中摸出一个红球的概率为31,从B 中摸出一个红球的概率为p ,(1)从A 袋中有放回地摸球,每次摸出一个球,共摸5次.求:①恰好有3次摸出红球的概率;②第一次、第三次、第五次均摸出红球的概率.(2)若A 、B 两个袋子中的球数之比为1∶2,将两个袋中的球混装在一起后,从中摸出一个红球的概率为52,求p 的值. 解析:(1)①.243409427110)31(335=⨯⨯⨯⨯C②P =271)31(3=.(2)设A 袋中有m 个球,则B 袋中有2m 个球,由523231=+m mpm ,可求得p =3013.(1)当事件A (或B )的发生对事件B (或A )的发生不产生任何影响,称A 与B 是相互独立事件.(2)确定事件的基本类型,正确运用相互独立事件的概率的有关公式进行求解.三、假设检验【例3】 打鼾不仅影响别人休息,而且可能与患某种疾病有关.下表是一次调查所得的数据,患心脏病 未患心脏病合计 每一晚都打鼾30224254不打鼾 24 1 355 1 379 合计54 1 5791 633解析:假设每一晚都打鼾与患心脏病无关系,则有a =30,b =224,c =24,d =1 355,a +b =254,c +d =1 379,a +c =54,b +d =1 579,n =1 633.∴χ2=))()()(()(2d b c a d c b a bc ad n ++++-=1579541379254)24224135530(16332⨯⨯⨯⨯-⨯⨯=68.033.∵68.033^10.828,所以有99.9%的把握说每一晚都打鼾与患心脏病有关. 各个击破 类题演练 1在研究某种新措施对猪白痢的防治效果问题时,得到以下数据:存活数 死亡数 合计 对照 114 36 150 新措施 13218150合计246 54 300试问新措施对防治猪白痢是否有效?解析:设新措施对防治猪白痢没有效果,由题意可知a =114,b =36,c=132,d=18,a +b =150,c+d=150,a +c=246,b +d=54,n =300,代入公式可得χ2=))()()(()(2d b c a d c b a bc ad n ++++-=54246150150)1323618114(3002⨯⨯⨯⨯-⨯⨯ =7.317.因为χ2=7.317>6.635,因此我们有99%的把握认为新措施对防治猪白痢是有效果的. 变式提升 1在一次恶劣气候的飞机航程中,调查了男、女乘客在飞机上晕机的情况如下表所示,请你根据所给的数据判定是否在恶劣气候飞行中男人比女人更容易晕机?晕机 不晕机 合计 男人 24 31 55 女人 82634合计32 57 89解析:假设在恶劣气候飞行中性别与是否晕机无关.由题意可知a =24,b =31,c=8,d=26,a +b =55,c+d=34,a +c=32,b +d=57,n =89,代入公式得 χ2=57323455)8312624(89))()()(()(22⨯⨯⨯⨯-⨯⨯=++++-d c d b c a b a bc ad n =3.689.因为χ2=3.689>2.706,因此我们有90%的把握认为性别与是否晕机有关.从给出的数据易知男人比女人更容易晕机. 类题演练 2把9粒种子分别种在甲、乙、丙3个坑内,每个坑3粒种子,每粒种子发芽的概率为0.5,若一个坑内至少有1粒种子发芽,则这个坑不需要补种,若一个坑内的种子都没有发芽,则需要补种.(1)求甲坑不需要补种的概率;(2)3个坑中恰有一个不需要补种的概率; (3)求有坑需要补种的概率.解析:(1)因为每粒种子发芽是相互独立的,故可采用相互独立性来解;又因为甲坑内的3粒种子都不发芽的概率为P =(1-0.5)3=81, 所以甲坑不需要补种的概率为P 1=1-P =1-81 =87=87.5%. (2)3个坑恰有一个坑不需要补种的概率为P 2=51221)81(87213=⨯⨯C .(3)因为3个坑都不需要补种的概率为3)87(,所以有坑需要补种的概率为P 3=1-3)87(=51221.变式提升 2把一颗质地均匀的骰子任意抛掷一次,设事件A =“掷出偶数点”,B =“掷出3的倍数点”,求出事件A ,B ,A ,B 的概率,以及事件A ∩B , A ∩B ,A ∩B , A ∩B 的概率,并据此判断P (A ∩B )与P (A )·P (B ),P (A ∩B )与P (A )·P (B ),P (A ∩B )与P (A )·P (B ),P (A ∩B )与P (A )·P (B )的大小关系.解析:A =“掷出偶数点”={2,4,6}, B =“掷出3的倍数点”={3,6}, ∴A ={1,3,5}, B ={1,2,4,5},P (A )=63 =21, P (B )=62 =31,P (A )=21,P (B )=32,A ∩B ={6},P (A ∩B )=61,A ∩B ={3},P (A ∩B )=61,A ∩B ={2,4},P (A ∩B )=31,A ∩B ={1,5},P (A ∩B )=31,P (A ∩B )=P (A )·P (B ),P (A ∩B )=P (A )·P (B ), P (A ∩B )=P (A )·P (B ),P (A ∩B )=P (A )·P (B ). 类题演练 3对196个接受心脏搭桥手术的病人和196个接受血管清障手术的病人进行了3年的跟踪研究,调查他们是否又发作过心脏病,调查结果如下表所示:又发作过心脏病未发作心脏病合计 心脏搭桥手术 39 157 196 血管清障手术29167196合计68 324 392试根据上述数据比较这两种手术对病人又发作过心脏病有没有关系. 解析:假设两种手术与又发作过心脏病有关系.由于a =39,b =157,c=29,d=167,a +b =196,c+d=196,a +c=68,b +d=324,n =392,由公式可得χ2的观测值为χ2=))()()(()(2d b c a d c b a bc ad n ++++-=32468196196)2915716739(3922⨯⨯⨯⨯-⨯⨯=1.78.因为χ2=1.78<2.706,所以我们没有理由说两种手术与又发作过心脏病有关系.。
数学苏教版选修2-3 独立性检验1
独立性检验教学目标知识与技能:通过对典型案例的探究,了解独立性检验的基本思想、方法及初步应用。
过程与方法:经历由实际问题建立数学模型的过程,体会其基本方法.情感、态度与价值观:引导学生形成“自主学习”与“合作学习”等良好的学习方式.教学重点教学难点2×2列联表及X2统计量由实际问题建立数学模型的过程,体会其基本方法.教具准备:与教材内容相关的资料。
教学设想:通过对典型案例的探究,了解独立性检验的基本思想、方法及初步应用。
教学过程:学生探究过程:问题情景问题1某医疗机构为了了解患肺癌与吸烟是否有关,进行了一次抽样调查,共调查了9965个成年人,其中吸烟者2148人,不吸烟者7817 人,调查结果是:吸烟的2148 人中49人患肺癌, 2099人不患肺癌;不吸烟的7817人中42人患肺癌, 7775人不患肺癌。
根据这些数据能否断定:患肺癌与吸烟有关?学生活动为了调查吸烟是否对肺癌有影响,某肿瘤研究所随机地调查了9965人,得到如下结果(单位:人)吸烟与肺癌列联表患肺癌不患肺癌总计吸烟49 2099 2148不吸烟42 7775 7817总计91 9874 9965在不吸烟者中患肺癌的比重是在吸烟者中患肺癌的比重是问题1:判断的标准是什么?吸烟与不吸烟,患病的可能性的大小是否有差异?说明:吸烟者和不吸烟者患肺癌的可能性存在差异,吸烟者患肺癌的可能性大 问题2:差异大到什么程度才能作出“吸烟与患病有关”的判断?问题3:能否用数量刻画出“有关”的程度?建构数学独立性检验:通过数据和图表分析,得到结论是:吸烟与患肺癌有关思考:结论的可靠程度如何?吸烟与肺癌列联表患肺癌 不患肺癌 总计 吸烟a b a+b 不吸烟c d c+d 总计 a+c b+d a+b+c+dH 0: 吸烟和患肺癌之间没有关系引入一个随机变量:卡方统计量作为检验在多大程度上可以认为“两个变量有关系”的标准 。
例题讲解 例1:见引例通过公式计算已知在H 0成立的情况下, 即在 H 0成立的情况下,χ2大于10.828概率非常小,近似为0.001现在的χ2=56.632的观测值远大于10.828,出现这样的观测值的概率不超过0.001。
3.1独立性检验
n
n
同理可得:吸烟但未患病人数:n P( AB) n a b b d
n
n
不吸烟但患病人数: n P( AB) n c d a c
n
n
不吸烟且未患病人数:nຫໍສະໝຸດ P( AB) n c d b d
n
n
实际观测值
如果实际观测值与预 期估计值差异不“大”, 那么我们就可以认为 这些差异是由随机误 差造成的,即假设 H 0 不能被所给数据否定。 否则,应认为假设 H0 不能接受
将以上数据代入公式得:
2 11.8634,
吸烟
这个值是大还是小呢? 不吸烟
总计
患病 37 21 58
不患病 183 274 457
总计 220 295 515
统计学家估算出如下的概率: P( 2 6.635 ) 0.01
即在H0成立的情况下,2的值大于6.635的概率非常小,近似于0.01,即1%.
问题一:我们想要研究“吸烟与患呼吸道疾病的关系”时,需要研究 哪些量呢?
吸烟且患病的人数、不吸烟但患病的人数
为了研究这个问题,我们将是否吸烟与患病的数据用2×2列联表表示:
列联表:分类变量的汇总统计表(频数表)
一般地,假设有两个分类变量 X 和 Y,它们的取值分别为
{x1,x2}和{y1,y2},其样本频数表称为列联表 ,又称为 2×2 列联表,其形式为
(b n a b b d )2 (c n c d a c )2 (d n c d b d )2
n n
n n
nn
n a b bd
n cd a c
n cd bd
nn
nn
nn
化简得: 2 =
n(adb)c2
江苏省苏州市高中数学 第三章 统计案例 3.2.1 独立性检验教学设计2 新人教A版选修2-3
独立性检验
一、教学目标
1.使学生理解分类变量(也称属性变量或定性变量)的含义,体会两个分类变量之间可能具有相关性;
2.通过对典型案例(吸烟和患肺癌有关吗?)的探究,使学生了解独立性检验(只要求2×2列联表)的基本思想、方法、步骤及应用;
3.鼓励学生体验用多种方法(等高条形图和独立性检验)解决同一问题,并对各种方法的优缺点进行比较;
4.让学生对统计方法有更深刻的认识,体会统计方法应用的广泛性,进一步体会科学的严谨性(如统计可能犯错误,原因可能是收集的数据样本容量小或样本采集不合理,也可能是理论上的漏洞,如在一次实验中,我们假设小概率事件不发生,这一点本身就值得质疑).
二、重点
本节的重点内容是通过实例让学生体会独立性检验的基本思想,掌握独立性检验的一般步骤.
三、难点
在授课过程中,学生学习过程中遇到的困难主要有以下几个方面:
K的结构的比较奇特,也来的有点突然,学生可能会提出疑问。
1.2
2.如何理解独立性检验的基本思想?
3.独立性检验的一般步骤及背后的理论依据是什么?
4.为什么在最后表达结论的时候要说明“在犯错误的概率不超过XX的前提下”。
四、教学模式
“问题串”模式为主,理清教学思路,鼓励学生思考;“讲授式”为辅,解释学生难以自主探究的知识内容.
五、教学过程设计
:吸烟会影响到烟民的寿命吗?“吸烟有害健康”,这是我
数据列成一张表格便于分类加
它们之间有某种相互关联?
只涉及两种解决方法,
:在数据处理过程中,我们用到的统计量题
一个成立而另外。
高中数学第三章统计案例1独立性检验卡方检验素材苏教版
2χ检验(一)掌握内容1. 2χ检验的用途。
2. 四格表的2χ检验.(1) 四格表2χ检验公式的应用条件; (2) 不满足应用条件时的解决办法; (3) 配对四格表的2χ检验。
3. 行⨯列表的2χ检验. (二) 熟悉内容频数分布拟合优度的2χ检验. (三) 了解内容1.2χ分布的图形。
2.四格表的确切概率法。
(一) 2χ检验的用途2χ检验(Chi —square test )用途较广,主要用途如下:1.推断两个率及多个总体率或总体构成比之间有无差别 2.两种属性或两个变量之间有无关联性 3.频数分布的拟合优度检验 (二) 2χ检验的基本思想1.2χ检验的基本思想是以2χ值的大小来反映理论频数与实际频数的吻合程度。
在零假设0H (比如0H :21ππ=)成立的条件下,实际频数与理论频数相差不应该很大,即2χ值不应该很大,若实际计算出的2χ值较大,超过了设定的检验水准所对应的界值,则有理由怀疑0H 的真实性,从而拒绝0H ,接受H 1(比如1H :21ππ≠).2. 基本公式:()∑-=TT A 22χ,A 为实际频数(Actual Frequency ),T 为理论频数(Theoretical Frequency ).四格表2χ检验的专用公式正是由此公式推导出来的,用专用公式与用基本公式计算出的2χ值是一致的。
(三)率的抽样误差与可信区间 1.率的抽样误差与标准误样本率与总体率之间存在抽样误差,其度量方法:np )1(ππσ-=,π为总体率,或 (8—1)np p S p )1(-=,p为样本率;(8—2)2.总体率的可信区间当n 足够大,且p 和1—p 均不太小,p 的抽样分布逼近正态分布.总体率的可信区间:(ppS u p S u p ⨯+⨯-2/2/,αα)。
(8—3)(四)2χ检验的基本计算见表8-1。
表8—1 2χ检验的用途、假设的设立及基本计算公式资料形式 用途 0H 、1H 的设立与计算公式 自由度 四格表 ①独立资料两 样本率的比较②配对资料两样本率的比较0H :两总体率相等 1H :两总体率不等①专用公式))()()(()(22d b c a d c b a n bc ad ++++-=χ②当n ≥40但1≤T 〈5时,校正公式))()()(()2/(22d b c a d c b a n n bc ad ++++--=χ③配对设计cb c b +--=22)1(χ1 R ⨯C 表 ①多个样本率、 0H :多个总体率(构成比)相等 (R —1)构成比的比较②两个变量之间关联性分析(0H:两种属性间存在关联)1H:多个总体率(构成比)不全相等(H:两种属性间存在关联))1(22-=∑CRnnAnχ(C—1)频数分布表频数分布的拟合优度检验H:资料服从某已知的理论分布1H:资料不服从某已知的理论分布∑-TTA2)(据频数表的组数而定(五)四格表的确切概率法当四格表有理论数小于1或n〈40时,宜用四格表的确切概率法。
3.1独立性检验-苏教版高中数学选修2-3课件(共22张PPT)
2
nn n ab ac
n
n
n abbd
nn ncd ac
nn ncd bd
nn
n
n
nn
nn
吸烟 不吸烟
合计
患病 37 21 58
不患病 183 274 457
合计 220 295 515
上式得到的结果11.8634“大”不大呢?判断标准是什么 统计学给出了对照方法:临界值表
独立性检验: 用χ2统计量来研究两类因子彼此相关或相互独立的一种检验方法.
首先,给出假设: H0 :患病与吸烟没有关系!
用A表示吸烟,B表示患病,则“吸烟与患病是否有关”等价于“吸烟与 患病是否独立”,即假设H0等价于 P(AB)=P(A)P(B)是否成立.
问题1:P(A)、P(B)、P(AB)的值都未知怎么办?
答:用频率代替概率,估计P(A)、P(B)、P(AB)的值.
日常生活中我们关心这样一些问题: 1.吸烟与患呼吸道疾病之间有无关系? 2.花的颜色与花粉的形状有无关系? 3.性别与喜欢数学课之间有无关系?
为了了解吸烟是否对患呼吸道疾病有影响,我们应调查哪些数据呢?
应该调查吸烟者得呼吸道疾病、吸烟者没得呼吸道疾病、没吸烟者 呼吸道疾病、没吸烟者没得呼吸道疾病四种情形的人数。
推断两个研究对象Ⅰ和Ⅱ是否相关的独立性检验步骤:
(1):提出假设H0:Ⅰ和Ⅱ没有关系; (2):根据2×2列联表和χ2公式计算χ2的值.
Ⅱ
类1 类2 合计
类A Ⅰ 类B
a
b a+b
c
d
c+d
合计 a+c b+d a+b+c+d
(3):查对临界值表,给出结论.
高中数学第3章统计案例3.1独立性检验课件苏教版选修2_3
我们还要注意课后的及时思考。利用课间休息时间,在心中快速把刚才上课时刚讲过的一些关键思路理一遍,把老师讲解的题目从题意到解答整个过 程详细审视一遍,这样,不仅可以加深知识的理解和记忆,还可以轻而易举地掌握一些关键的解题技巧。所以,2分钟的课后静思等于同一学科知识的课 后复习30分钟。
2019/5/29
精选最新中小学教学课件
thank
you!
2019/5/29
精选最新中小学教学课件
要判断该药品对患 A 疾病是否有效,即进行独立性检验提 出假设 H0:该药品对患 A 疾病没有效. 根据列联表中的数据可以求得 χ2=5232×3×55×004×004-181×001×05182≈0.041 45<0.455, 而查表可知 P(χ2≥0.455)≈0.5,故没有充分的理由认为该 保健药品对预防 A 疾病有效.
1.2×2 列联表的定义
对于两个研究对象Ⅰ和Ⅱ,Ⅰ有两类取值,即类 A 和类 B;Ⅱ
也有两类取值,即类 1 和类 2.这些取值可用下面的 2×2 列联表表示.
Ⅱ
类1
类2
合计
类A a
b
Ⅰ
类B c
d
a+b c+d
合计 a+c
b+d
a+b+c+d
2.χ2 统计量的求法 nad-bc2
公式 χ2= a+cb+da+bc+d .
4.在国家未实施西部开发战略前,一新闻单位在应届大学毕业
生中随机抽取 1 000 人问卷,只有 80 人志愿加入西部建设.而
国家实施西部开发战略后,随机抽取 1 200 名应届大学毕业生
问卷,有 400 人志愿加入国家西部建设.实施西部开发战略
是否对应届大学毕业生的选择产生了影响? 解:依题意,得 2×2 列联表:
【全版】数学:《独立性检验()》课件(苏教版选修)推荐PPT
99.9%把握认 为A与B有关
2 6.635
1%把握认 2 为 A与B无关
99%把握认 为A与B有关
2 2.706 10%把握认为
A与B无关
90%把握认 为A与B有关
2 2.706
没有充分的依据显示A与B有关, 但也不能显示A与B无关
反证法原理与假设检验原理
解:设H0:两种中草药的治疗效果没有差异。
第三步:引入一个随机变量:卡方统计量
2abc n a d d a bc c 2bd
其 n 中 a b c d
第四步:查对临界值表,作出判断。
P(Ⅹ2≥x0) 0.50 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001
x0 0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828
P( 2 x0 ) 0.50 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001
x0 0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828
例如:
2 10.828
0.1%把握认 为A与B无关
12 7 2 19 895 因当H0成立时,χ2的概率大于15%,故不能否定假设H0,即不
能作出药的效果与给药方式有关的结论。
P(Ⅹ2≥x0) 0.50 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001
x0 0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828
苏教版高中数学选修独立性检验素材
学会用数据说话1.分析两个变量的相关关系的常用方法(1)把样本数据表示的点在平面直角坐标系中作出,从而得到散点图,从散点图分析相关关系,如果这些点大致分布在通过散点图中心的一条直线附近,那么就说这两个变量之间具有线性相关关系.(2)利用相关系数r 进行判断,1r ≤而且r 越接近于1,相关程度越大;r 越接近于0,相关程度越小.2.对具有相关关系的两个变量进行统计分析时,首先进行相关性检验,在确认具有线性相关关系后,再求回归直线方程. 3.可化为线性回归的非线性回归对某些特殊的非线性关系,可以通过变量置换,把非线性回归转化为线性回归,然后用线性回归的方法进行研究. 4.独立性检验的一般步骤(1)根据样本数据制成2×2列联表;(2)根据公式22()()()()()n ad bc a b c d a c b d χ-=++++,计算2χ的值;(3)比较2χ与临界值的大小关系作统计推断.例1 现随机抽取某校10名学生在入学考试中的数学成绩x 与入学后的第一次考试的数学成绩y ,数据如下表:请问:这10个学生的两次数学考试成绩是否具有显著的线性相关关系? 分析:若已知x 与y 呈线性相关关系,就无须进行相关性检验,否则须进行相关性检验. 解:1(120108108)107.810x =⨯+++=…,1(846471)6810y =⨯+++=…,1022221120108108116584ii x==+++=∑…,102222184647147384ii y==+++=∑…,10112084108641087173796i ii x y==⨯+⨯++⨯=∑…,∴相关系数为0.7506r=≈.由0.75060.632>知,两次数学考试成绩有显著的线性相关关系.评注:如果两个变量不具备线性相关关系,或者线性相关关系不显著,即使求出回归直线方程也是无意义的,用于估计和预测是不可信的.例2某企业为了更好地了解设备改造前后与生产合格品的关系,随机抽取了180件产品进行分析.其中设备改造前生产的合格品有36件,不合格品有49件;设备改造后生产的合格品有65件,不合格品有30件.根据上面的数据,你能得出什么结论?分析:利用已知条件来判断两个分类变量是否具有关系,可以先假设两个变量之间没有关系,再计算2χ的值.2χ的值越大,说明两个变量之间有关系的可能性也就越大,再参考临界值,从而判断两个变量有关系的可信程度.解:由已知数据得下表:根据公式22()()()()()n ad bca b c d a c b dχ-=++++得22180(65493630)12.38958510179χ⨯⨯-⨯=≈⨯⨯⨯.由于12.38 6.635>,可以有99%的把握说产品是否合格与设备改造是有关的.评注:在利用统计变量2χ进行独立性检验时,应该注意准确代数和正确计算,再把计算的结果与有关临界值相比较,正确下结论.练习:考察黄烟经过培养液处理与否跟发生青花病的关系.调查了457株黄烟,得到下表中数据,请根据数据作统计分析.答案:经过培养液处理的黄烟跟发生青花病是有关的.。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2χ检验(一) 掌握内容 1. 2χ检验的用途。
2. 四格表的2χ检验。
(1) 四格表2χ检验公式的应用条件; (2) 不满足应用条件时的解决办法; (3) 配对四格表的2χ检验。
3. 行⨯列表的2χ检验。
(二) 熟悉内容频数分布拟合优度的2χ检验。
(三) 了解内容 1.2χ分布的图形。
2.四格表的确切概率法。
(一) 2χ检验的用途2χ检验(Chi-square test )用途较广,主要用途如下:1.推断两个率及多个总体率或总体构成比之间有无差别 2.两种属性或两个变量之间有无关联性 3.频数分布的拟合优度检验 (二) 2χ检验的基本思想1.2χ检验的基本思想是以2χ值的大小来反映理论频数与实际频数的吻合程度。
在零假设0H (比如0H :21ππ=)成立的条件下,实际频数与理论频数相差不应该很大,即2χ值不应该很大,若实际计算出的2χ值较大,超过了设定的检验水准所对应的界值,则有理由怀疑0H 的真实性,从而拒绝0H ,接受H 1(比如1H :21ππ≠)。
2. 基本公式:()∑-=TT A 22χ,A 为实际频数(Actual Frequency ),T 为理论频数(Theoretical Frequency )。
四格表2χ检验的专用公式正是由此公式推导出来的,用专用公式与用基本公式计算出的2χ值是一致的。
(三)率的抽样误差与可信区间 1.率的抽样误差与标准误样本率与总体率之间存在抽样误差,其度量方法:np )1(ππσ-=,π为总体率,或 (8-1)np p S p )1(-=, p 为样本率; (8-2)2.总体率的可信区间当n 足够大,且p 和1-p 均不太小,p 的抽样分布逼近正态分布。
总体率的可信区间:(p p S u p S u p ⨯+⨯-2/2/,αα)。
(8-3) (四)2χ检验的基本计算见表8-1。
表8-1 2χ检验的用途、假设的设立及基本计算公式资料形式 用途 0H 、1H 的设立与计算公式自由度 四格表①独立资料两 样本率的比较②配对资料两 样本率的比较0H :两总体率相等 1H :两总体率不等①专用公式))()()(()(22d b c a d c b a nbc ad ++++-=χ②当n ≥40但1≤T<5时,校正公式))()()(()2/(22d b c a d c b a n n bc ad ++++--=χ ③配对设计cb c b +--=22)1(χ1R ⨯C 表①多个样本率、 构成比的比较②两个变量之 间关联性分析 0H :多个总体率(构成比)相等(0H :两种属性间存在关联)1H :多个总体率(构成比)不全相等 (0H :两种属性间存在关联))1(22-=∑CR n n A n χ(R-1)(C-1)频数分布表频数分布的拟合优度检验0H :资料服从某已知的理论分布 1H :资料不服从某已知的理论分布∑-TT A 2)(据频数表的组数而定(五)四格表的确切概率法当四格表有理论数小于1或n <40时,宜用四格表的确切概率法。
(六)2χ检验的应用条件及注意事项1.分析四格表资料时,应注意连续性校正的问题,当1<T <5,n >40时,用连续性校正2χ检验;T ≤1,或n ≤40时,用Fisher 精确概率法。
2.对于R ⨯C 表资料应注意以下两点:(1)理论频数不宜太小,一般要求:理论频数<5的格子数不应超过全部格子的1/5; (2)注意考察是否有有序变量存在。
对于单向有序R ⨯C 表资料,当指标分组变量是有序的时,宜用秩和检验;对于双向有序且属性不同的R ⨯C 表资料,若希望弄清两有序变量之间是否存在线性相关关系或存在线性变化趋势,应选用定性资料的相关分析或线性趋势检验;对于双向有序且属性相同的R ⨯C 表资料,为考察两种方法检测的一致性,应选用Kappa 检验。
典型试题分析(一)单项选择题1.下列哪项检验不适用2χ检验( )A . 两样本均数的比较B . 两样本率的比较C . 多个样本构成比的比较D . 拟合优度检验 答案:A[评析] 本题考点:2χ检验的主要用途。
2χ检验不能用于均数差别的比较。
2.分析四格表时,通常在什么情况下需用Fisher 精确概率法( )A .1<T <5,n>40B .T <5C .T 1≤或n 40≤D .T 1≤或n 100≤ 答案: C[评析] 本题考点:对于四格表,当T 1≤或n 40≤时,不宜用2χ检验,应用Fisher 精确概率法。
3.2χ值的取值范围为A .∞-<2χ<∞+B .+∞≤≤20χC .12≤χ D .02≤≤∞-χ答案: B[评析]根据2χ分布的图形或2χ的基本公式可以判断2χ值一定是大于等于零且没有上界的,故应选B 。
(二)是非题 两样本率的比较可以采用2χ检验,也可以采用双侧u 检验。
答案:正确。
[评析]就两个样本率的比较而言,双侧u 检验与2χ检验是等价的。
(三)简答题1.四格表的2χ检验和u 检验有何联系与区别?答案:相同点:凡是能用u 检验进行的两个率比较检验的资料,都可用2χ检验,两者是等价的,即22χ=u ;相异点:(1)u 检验可进行单侧检验;(2)满足四格表u 检验的资料,计算两个率之差的可信区间,可从专业上判断两率之差有无实际意义;(3)2χ检验可用于2⨯2列联表资料有无关联的检验。
2.R ⨯C 表2χ检验的适用条件及当条件不满足时可以考虑的处理方法是什么? 答案:R ⨯C 表2χ检验的适用条件是理论频数不宜过小,否则有可能产生偏性。
当条件不满足时有三种处理方法:①增大样本例数使理论频数变大;②删去理论数太小的行或列;③将理论数太小的行或列与性质相近的邻行或邻列合并,使重新计算的理论频数变大。
但②、③法都可能会损失信息或损害样本的随机性,因此应慎用。
(四)计算题1.为研究静脉曲张是否与肥胖有关,观察122对同胞兄弟,每对同胞兄弟中有一个属肥胖,另一个属正常体重,记录得静脉曲张发生情况见表8-2,试分析之。
表8-2 122对同胞兄弟静脉曲张发生情况正常体重 肥胖合计 发生 未发生 发 生19 5 24 未发生 12 86 98 合 计31 91122[评析]这是一个配对设计的资料,因此用配对2χ检验公式计算。
H 0:肥胖者与正常体重者的静脉曲张发生情况无差别 H 1:肥胖者与正常体重者的静脉曲张发生情况不同 05.0=α cb c b +--=22)1(χ=()12.212511252=+--,1=ν2χ=2.11<21,05.0χ,P >0.05,尚不能认为静脉曲张与肥胖有关。
2.某卫生防疫站在中小学观察三种矫正近视眼措施的效果,近期疗效数据见表8-3。
试对这三种措施的疗效作出评价。
表8-3 三种措施的近期有效率比较 矫治方法 有效人数 无效人数 合计有效率(%)夏天无眼药水 51 84 135 37.78 新医疗法 6 26 32 18.75 眼保健操 5 13 18 27.78 合计62 123 18533.51[评析]0H :三种措施有效率相等1H :三种措施有效率不相等或不全相等 05.0=α)1(22-=∑cr n n A n χ=185⨯⎪⎪⎭⎫ ⎝⎛-⨯+⨯+⨯+⨯+⨯+⨯1181231318625321232632626135123841356251222222=4.498,ν=(2-1)(3-1)=2查表得0.25>P >0.10,按0.05α=水准不拒绝0H ,尚不能认为三种措施有效率有差别。
3.某医院以400例自愿接受妇科门诊手术的未产妇为观察对象,将其分为4组,每组100例,分别给予不同的镇痛处理,观察的镇痛效果见表8-4,问4种镇痛方法的效果有无差异?表8-4 4种镇痛方法的效果比较 镇痛方法 例数 有效率(%) 颈麻 100 41 注药 100 94 置栓 100 89 [评析] 为了应用2χ检验,首先应计算出有效和无效的实际频数,列出计算表,见表8-5。
表8-5 4种镇痛方法的效果比较镇痛方法 有效例数 无效例数 合计 颈麻 41 59 100 注药 94 6 100 置栓 89 11 100 对照 27 73 100 合计 251 149 400 0H :4种镇痛方法的效果相同 1H :4种镇痛方法的效果不全相同05.0=α)1(22-=∑c r n n A n χ=400⎪⎪⎭⎫ ⎝⎛-⨯++⨯+⨯⨯110014973...1001495910025141222=146.175, ν=(4-1)(2-1)=3查表得P <0.05,按0.05α=水准拒绝0H ,接受1H ,即4种镇痛方法的效果不全相同。
四、习 题(一) 单项选择题1. 关于样本率p 的分布正确的说法是: A . 服从正态分布 B . 服从2χ分布C . 当n 足够大,且p 和1-p 均不太小,p 的抽样分布逼近正态分布D . 服从t 分布 2. 以下说法正确的是: A . 两样本率比较可用u 检验 B . 两样本率比较可用t 检验 C . 两样本率比较时,有2χ=u D . 两样本率比较时,有22χ=t 3. 率的标准误的计算公式是: A .)1(p p - B .n p p )1(- C.1-n p D.np p )1(- 4. 以下关于2χ检验的自由度的说法,正确的是: A .拟合优度检验时,2-=n ν(n 为观察频数的个数) B .对一个43⨯表进行检验时,11=ν C .对四格表检验时,ν=4D .若2,05.02,05.0ηνχχ>,则ην>5. 用两种方法检查某疾病患者120名,甲法检出率为60%,乙法检出率为50%,甲、乙法一致的检出率为35%,问两种方法何者为优?A .不能确定B .甲、乙法一样C .甲法优于乙法D .乙法优于甲法 6.已知男性的钩虫感染率高于女性。
今欲比较甲乙两乡居民的钩虫感染率,适当的方法是:A .分性别比较B .两个率比较的2χ检验C .不具可比性,不能比较D .对性别进行标准化后再做比较 7.以下说法正确的是A .两个样本率的比较可用u 检验也可用2χ检验B .两个样本均数的比较可用u 检验也可用2χ检验C .对于多个率或构成比的比较,u 检验可以替代2χ检验D .对于两个样本率的比较,2χ检验比u 检验可靠 (二) 名词解释1. 实际频数与理论频数 2. 2χ界值表 3. 拟合优度 4. 配对四格表5. 双向有序分类资料 6. 率的标准误7. 多个率的两两比较 8. Fisher 精确概率 9. McNemar 检验 10. Yates 校正 (三) 是非题四个样本率做比较,2)3(05.02χχ> ,可认为各总体率均不相等。