3.1_独立性检验讲
第3章 3.1 独立性检验
第3章 3.1 独立性检验3.1独立性检验1.了解独立性检验的概念,会判断独立性检验事件.2.能列出2×2列联表,会求χ2(卡方统计量的值).3.能够利用临界值,作出正确的判断.(重点)4.应用独立性检验分析实际问题.(难点)[基础·初探]教材整理12×2列联表的意义阅读教材P91~P94“例1”以上部分,完成下列问题一般地,对于两个研究对象Ⅰ和Ⅱ,Ⅰ有两类取值,即类A和类B(如吸烟与不吸烟);Ⅱ也有两类取值,即类1和类2(如患呼吸道疾病和未患呼吸道疾病).我们得到如下表所示的抽样数据:Ⅱ类1类2合计Ⅰ类A a b a+b类B c d c+d合计a+c b+d a+b+c+d列联表,2×2列联表经常用来判断Ⅰ和Ⅱ之间是否有关系.下面是一个2×2列联表:y1y2合计x1 a 2173x282533合计 b 46则表中a,b【解析】∵a+21=73,∴a=52.又b=a+8=52+8=60.【答案】52,60教材整理2独立性检验阅读教材P93~P94“例1”以上部分完成下列各题.预习完成后,请将你的疑问记录,并与“小伙伴们”探讨交流:疑问1:解惑:疑问2:解惑:疑问3:解惑:[小组合作型]绘制2×2列联表在一项有关医疗保健的社会调查中,调查的男性为530人,女性为670人,发现其中男性中喜欢吃甜食的为117人,女性中喜欢吃甜食的为492人,请作出性别与喜欢吃甜食的列联表.【精彩点拨】分成两类,找出不同类情况下的两个数据再列表.【自主解答】作2×2列联表如下:喜欢甜食不喜欢甜食合计男117413530女492178670合计609591 1 200 12.表中排成两行两列的数据是调查得来的结果.3.选取数据时,要求表中的四个数据a,b,c,d都要不小于5,以保证检验结果的可信度.[再练一题]1.某电视公司为了研究体育迷是否与性别有关,在调查的100人中,体育迷75人,其中女生30人,非体育迷25人,其中男生15人,请作出性别与体育迷的列联表.【解】体育迷非体育迷合计男451560女 30 10 40 合计7525100利用χ2值进行独立性检验某矿石粉厂当生产一种矿石粉时,在数天内即有部分工人患职业性皮肤炎,在生产季节开始,随机抽取75名车间工人穿上新防护服,其余仍穿原用的防护服,生产进行一个月后,检查两组工人的皮肤炎患病人数如下:阳性例数阴性例数合计 新防护服 5 70 75 旧防护服 10 18 28 合计1588103【精彩点拨】 通过有关数据的计算,作出相应的判断.【自主解答】 提出假设H 0:新防护服对预防皮肤炎没有明显效果. 根据列联表中的数据可求得 χ2=103×(5×18-70×10)275×28×15×88≈13.826.因为H 0成立时,χ2≥10.828的概率约为0.001,而这里χ2≈13.826>10.828,所以我们有99.9%的把握说新防护服比旧防护服对预防工人患职业性皮肤炎有效.根据2×2列联表,利用公式n (ad -bc )2(a +b )(c +d )(a +c )(b +d )计算χ2的值,再与临界值比较,作出判断.[再练一题]2.在某医院,因为患心脏病而住院的665名男性病人中,有214人秃顶;而另外772名不是因为患心脏病而住院的男性病人中,有175人秃顶.根据以上数据判断男性病人的秃顶与患心脏病是否有关系?【解】 提出假设H 0:男性病人的秃顶与患心脏病没有关系. 根据题中所给数据得到如下2×2列联表:患心脏病 未患心脏病合计 秃顶214175389不秃顶 451 597 1 048 合计6657721 437根据列联表中的数据可以求得χ2=1 437×(214×597-175×451)2389×1 048×665×772≈16.373.因为当H 0成立时,χ2≥10.828的概率约为0.001,而这里χ2≈16.373>10.828,所以有99.9%的把握认为,男性病人的秃顶与患心脏病有关系.[探究共研型]独立性检验的综合应用探究1 利用χ2进行独立性检验,估计值的准确度与样本容量有关吗? 【提示】 利用χ2进行独立性检验,可以对推断的正确性的概率作出估计,样本容量n 越大,这个估计值越准确,如果抽取的样本容量很小,那么利用χ2进行独立性检验的结果就不具有可靠性.探究2 在χ2运算后,得到χ2的值为29.78,在判断变量相关时,P (χ2≥6.635)≈0.01和P (χ2≥7.879)≈0.005,哪种说法是正确的?【提示】 两种说法均正确.P (χ2≥6.635)≈0.01的含义是在犯错误的概率不超过0.01的前提下认为两个变量相关;而P (χ2≥7.879)≈0.005的含义是在犯错误的概率不超过0.005的前提下认为两个变量相关.为了调查某生产线上质量监督员甲对产品质量好坏有无影响,现统计数据如下:甲在生产现场时,990件产品中有合格品982件,次品8件;甲不在生产现场时,510件产品中有合格品493件,次品17件.试分别用列联表、独立性检验的方法分析监督员甲对产品质量好坏有无影响.能否在犯错误的概率不超过0.001的前提下,认为质量监督员甲是否在生产现场与产品质量有关?【精彩点拨】 解答本题可先列出2×2列联表,然后具体分析. 【自主解答】 (1)2×2列联表如下:合格品数 次品数 合计 甲在生产现场 982 8 990 甲不在生产现场493 17 510 合计1 475251 500程度上认为“质量监督员甲是否在生产现场与产品质量有关系”.(2)由2×2列联表中数据,计算得到χ2的观测值为 χ2=1 500×(982×17-493×8)2990×510×1 475×25≈13.097>10.828,因此在犯错误的概率不超过0.001的前提下,认为质量监督员甲是否在生产现场与产品质量有关.判断两个变量是否有关的三种方法[再练一题]3.调查某医院某段时间内婴儿出生的时间与性别的关系,得到下面的数据:出生时间在晚上的男婴为24人,女婴为8人;出生时间在白天的男婴为31人,女婴为26人.(1)将下面的2×2列联表补充完整;晚上 白天 合计 男婴 女婴 合计系?【解】 (1)晚上 白天 合计 男婴 24 31 55 女婴 8 26 34 合计325789(2)χ2=89×(24×26-31×8)255×34×32×57≈3.689>2.706.根据临界值表知P (χ2≥2.706)≈0.10.因此在犯错误的概率不超过0.10的前提下认为婴儿的性别与出生时间有关系.[构建·体系]1.在2×2列联表中,若每个数据变为原来的2倍,则χ2的值变为原来的________倍.【解析】由公式χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)中所有值变为原来的2倍,得(χ2)′=2n(2a·2d-2b·2c)2(2a+2b)(2c+2d)(2a+2c)(2b+2d)=2χ2,故χ2也变为原来的2倍.【答案】 22.下列说法正确的是________.(填序号)①对事件A与B的检验无关,即两个事件互不影响;②事件A与B关系越密切,χ2就越大;③χ2的大小是判断事件A与B是否相关的唯一数据;④若判定两事件A与B有关,则A发生B一定发生.【解析】对于①,事件A与B的检验无关,只是说两事件的相关性较小,并不一定两事件互不影响,故①错.②是正确的.对于③,判断A与B是否相关的方式很多,可以用列联表,也可以借助于概率运算,故③错.对于④,两事件A与B有关,说明两者同时发生的可能性相对来说较大,但并不是A发生B一定发生,故④错.【答案】②3.为了判断高中三年级学生选修文科是否与性别有关,现随机抽取50名学生,得到如下2×2列联表:理科文科合计男131023女72027合计203050χ2=50×(13×20-10×7)223×27×20×30≈4.844.则有__________的把握认为选修文科与性别有关.【答案】95%4.在2×2列联表中,两个比值aa+b与________相差越大,两个分类变量有关系的可能性越大. 【导学号:29440066】【解析】根据2×2列联表可知,比值aa+b与cc+d相差越大,则|ad-bc|就越大,那么两个分类变量有关系的可能性就越大.【答案】c c+d5.某大学餐饮中心为了解新生的饮食习惯,在全校一年级学生中进行了抽样调查,调查结果如下表所示:喜欢甜品不喜欢甜品合计南方学生602080北方学生101020 合计7030100品的饮食习惯方面有差异”.【解】将2×2列联表中的数据代入公式计算,得χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)=100×(60×10-20×10)280×20×70×30=10021≈4.762.因为 4.762>3.841,所以有95%的把握认为“南方学生和北方学生在选用甜品的饮食习惯方面有差异”.我还有这些不足:(1)(2)我的课下提升方案:(1)(2)。
3.1独立性检验
在日常生活中,我们常常关心两个分类变量之间是否 有关系:
在统计学中,独立性检验就是检验两个分类变量是否 有关系的一种统计方法。
为调查吸烟是否对患肺癌有影响,某肿瘤研究所随机 地调查了9965人,得到如下结果(单位:人): 吸烟与患肺癌列联表(列出两个分类变量的频数表):
总计 a+b c+d a+b+c+d
假设H0:吸烟和患病之间没有关系 用A表示不吸烟,B表示不患病
应有 ad bc.
|ad-bc|越小,说明吸烟与患肺癌之间关系越弱; |ad-bc|越大,说明吸烟与患肺癌之间关系越强.
为了使不同样本容量的数据有统一的评判标准,基于
上述分析,我们构造一个随机变量
7817 2148 9874 91
怎样判断K2的观测值k是大还是小呢?
值
这仅需要确定一个正数 k0 ,当 k k大。此时相应于 k 0 的判断规则为:
k0
时就认为K2的观测
k 如就果认为k“两k个0 ,分就类认变为量“之两间个没分有类关变系量”之。-间---有临关界系值”;否则 0
在H0成立的情况下,统计学家估算出如下的概率: P(K 2 6.635) 0.01
即有99%的把握认为“秃顶患心脏病有关”。
独立性检验的基本思想(类似反证法)
(1)假设结论不成立,即 H0 :“两个分类变量没有关系”.
(2)在此假设下我们所构造的随机变量 K2 应该很小,如果由 观测数据计算得到K2的观测值k很大,则在一定可信程度上 说明 H0 不成立.即在一定可信没有发现
反对H0 的充分证据。
3.1 独立性检验(3)
姓名:葛文明 单位:扬州市新华中学
问题情境
1. 复习独立性检验有关知识. 2.一般地,对于两个研究对象Ⅰ和Ⅱ,Ⅰ有两类取 值,即类A和类 B(如吸烟与不吸烟);Ⅱ也有两类 取值,即类1和类 2(如患病与不患病).于是得到
Ⅱ
类1
类A
a
Ⅰ
类B
c
合计
a+c
类2 b d
b+d
合计 a+b C+d a+b+c+d
作业:书本第99页第3题.
要点归纳与方法小结:
1. 通过对典型案例的探究,进一步了解独立性检验的基本思 想、方法及初步应用.
2. 经历由实际问题建立数学模型的过程,体会其基本方法.
3.明确2统计量的作用:只能表明有关系的把握有多大.
有效
无效
合计
口服
58
40
98
注射
64
31
95
合计
122
ห้องสมุดไป่ตู้71
193
例3 气管炎是一种常见的呼吸道疾病,医药研究 人员对两种中药治疗慢性气管炎的疗效进行对比, 所得数据如下表所示.问:它们的疗效有无差异?
复方江剪刀草 胆黄片 合计
有效
184 91 275
无效
61 9 70
合计
245 100 345
练习:课本第97页第3题 .
3. 要推断“Ⅰ和Ⅱ有关系”,可按下面的步骤进行: (1)提出假设H0 :Ⅰ和Ⅱ没有关系;
(2)根据2×2列表与公式计算2的值;
(3)查对临界值,作出判断.
数学运用
例2 为研究不同的给药方式(口服与注射)和药的效 果(有效与无效)是否有关,进行了相应的抽样调查, 调查结果列在下表中.根据所选择的193个病人的数据, 能否作出药的效果与给药方式有关的结论?
高中数学选修2-3 3.1独立性检验
§3.1 独立性检验 4月 日学习目标(1)通过对课本典型案例1的探究,了解独立性检验(只要求22⨯列联表)的基本思想、方法及初步应用;(2)经历由实际问题建立数学模型的过程,体会其基本方法,明确独立性检验的基本步骤.(3)通过合作探究,会对两个分类变量进行独立性检验,并能利用独立性检验的基本思想来解决实际问题。
自学指导:1、要解决“患慢性气管炎与吸烟习惯有无关系”这个问题,就是要解决一个怎样的概率问题?2、要解决这个概率问题,我们可以首先提出假设0H 是什么?需要知道那些事件的概率?哪个量可以最好的判断出0H 是否成立?3、χ2的计算公式是什么?χ2的两个临界值是什么?如何利用它们对两个分类变量进行独立性检验? 自学检测: 1.右面是一个2×2列联表: 则表中a 、b 处的值分别为( ) A .94、96 B .52、50 C .52、60 D .54、52 2.下列说法正确的个数是( )①对事件A 与B 的检验无关时,即两个事件互不影响②事件A 与B 关系越密切,则2k 就越大③2k 的大小是判定事件A 与B 是否相关的唯一根据④若判定两个事件A 与B 有关,则A 发生B 一定发生A .1B .2C .3D .43.下列关于随机变量2k 的说法正确的是( )A .2k 在任何相互独立问题中都可以用来检验有关还是无关B .2k 的值越大,说明“两个变量有关系”成立的可能性越大C .当2k 的值很小时可以推定两个分类变量不相关D .2k 的观测值2k 的计算公式为2k =2121221122211)(++++-n n n n n n n n n 4.若由一个2×2列联表中的数据计算得有95%的把握认为两个变量有关系.那么2k 的取值范围为________.5.为了考察高中生学习语文与数学之间的关系,在某中学学生中随机地抽取了610由表中数据计算知2k的观测值2k≈4.326.有________的把握认为高中生的语文与数学成绩之间有关系.合作探究同时抛掷两颗均匀的骰子,请回答以下问题:(1)求两颗骰子都出现2的概率;(2)若同时抛掷两颗骰子180次,其中甲骰子出现20次2点,乙骰子出现30次2点,问两颗骰子出现2点是否相关?课堂小结:课堂检测:1、为调查某地区老年人是否需要志愿者提供帮助,用简单随机抽样方法从该地区调查了500(1)(2)能否有99%的把握认为该地区的老年人是否需要志愿者提供帮助与性别有关?(3)根据(2)的结论,能否提出更好的调查方法来估计该地区的老年人中需要志愿者提供帮助的老年人的比例?说明理由.。
高中数学 3.1《独立性检验》教学设计说明 苏教版选修2
《独立性检验》教学设计说明一、内容与内容解析《独立性检验》为新课标教材中新增加的内容. 虽然本节是新增内容,理论比较复杂,教学时间也不长(1-2课时),但由于它贴近实际生活,在整个高中数学中,地位不可小视.在近几年各省新课标高考试题中,本节内容屡屡出现,而且多以解答题的形式呈现,其重要性可见一斑.该内容是前面学生在《数学3》(必修)中的统计知识的进一步应用,并与本册课本前面提到的事件的独立性一节关系紧密,此外还涉及到与《数学2-2》(选修)中讲到的“反证法”类似的思想.本小节的知识内容如右图。
“独立性检验”是在考察两个分类变量之间是否具有相关性的背景下提出的,因此教材上首先提到了分类变量的概念,并给出了考察两个分类变量之间是否相关的一种简单的思路,即借助等高条形图的方法,随后引出相对更精确地解决办法——独立性检验。
独立性检验的思想,建立在统计思想、假设检验思想(小概率事件在一次试验中几乎不可能发生)等基础之上,通常按照如下步骤对数据进行处理:明确问题→确定犯错误概率的上界α及2K的临界值0k →收集数据→整理数据→制列联表→计算统计量2K 的观测值k →比较观测值k 与临界值0k 并给出结论.本节的重点内容是通过实例让学生体会独立性检验的基本思想,掌握独立性检验的一般步骤. 二、目标与目标解析本节课的教学目标是主要有:1.理解分类变量(也称属性变量或定性变量)的含义,体会两个分类变量之间可能具有相关性;2.通过对典型案例(吸烟和患肺癌有关吗?)的探究,了解独立性检验(只要求2×2列联表)的基本思想、方法、步骤及应用。
3.鼓励学生体验用多种方法(等高条形图法与独立性检验法)解决同一问题,并对各种方法进行比较。
4.让学生对统计方法有更深刻的认识,体会统计方法应用的广泛性,进一步体会科学的严谨性(如统计可能犯错误,原因可能是收集的数据样本容量小或样本采集不合理,也可能是理论上的漏洞,如在一次实验中,我们假设小概率事件不发生,这一点本身就值得质疑).其中第2条是重点目标,也是《课程标准》中明确指出的教学要求之一.独立性检验的基本思想及其初步应用2×2列联表 临界值0k问题背景分析统计量2K允许犯错 误的概率 的上界α分类变量在“犯错误概率不超过α”前提下,两分类变量有/无关观测值k等高条形 图分类 变量 间的 关系独立性检验三、教学问题诊断分析基于对学生已有数学水平的分析,在本节新学内容时,有以下几点是初学者不易理解或掌握的: 1.2K 的结构比较奇怪,来的也比较突然,学生可能会提出疑问.关于这个问题的处理,要首先利用好前面对“比例”或者两个分类变量“独立”的分析。
高中数学 3.1独立性检验课件 新人教B版选修2-3
响有没有关系.
[解析] 这是一个 2×2 列联表的独立性检验问题,由公式 知
χ2=3921×963×9×19166×7-681×573×24292≈1.780. ∵1.780<3.841,我们没有理由说“心脏搭桥手术”与“又 发作过心脏病”有关,可以认为病人又发作心脏病与否跟他做 过何种手术无关.
动,得到如下的列联表:
男 女 总计
爱好
40 20
60
不爱好
20 30
50
总计
60 50
110
由
χ2
=
nad-bc2 a+bc+da+cb+d
算
得
,
K2
=
110×60×405×0×306-0×205×0 202≈7.8.
附表:
P(K2ห้องสมุดไป่ตู้k)
0.050 0.010 0.001
χ
3.841 6.635 10.828
3.1 独立性检验 第三章
1 课前自主预习 2 课堂典例探究 3 课时作业
课前自主预习
饮用水的质量是人类普遍关心的问题.据统计,饮用优质 水的518人中,身体状况优秀的有466人,饮用一般水的312人 中,身体状况优秀的有218人.
人的身体健康状况与饮用水的质量之间有关系吗?
相互独立事件的概念与性质 1.定义:事件A是否发生对事件B发生的概率_没__有__影__响_, 即P(B|A)=__P__(B_)___,这时,我们称两个事件A,B相互独立, 并把这两个事件叫做相互独立事件. 2 . 性 质 : 当 事 件 A , B 相 互 独 立 时 , ____A____ 与 ____B____,____A____与____B____,___A_____与_____B___也相互 独立.
3.1独立性检验(1)
4)若P( 2>5.024)= 0.025表示有97.5%的把握认为”Ⅰ与Ⅱ”有关系;
2 >3.841)= 0.05表示有95%的把握认为”Ⅰ与Ⅱ”有关系; 5)若P( 2 >2.706)= 0.10表示有90%的把握认为”Ⅰ与Ⅱ”有关系; 6)若P( 2 7)若P( ≤2.706),就认为没有充分的证据显示”Ⅰ与Ⅱ”有关系,
H 但也不能做出结论“ 0 成立”,即”Ⅰ与Ⅱ”没有关
分层训练:
P91:2,3
第三章:统计案例
某医疗机构为了了解呼吸道疾病与吸烟 是否有关,进行了一次抽样调查,共调查了 515个成年人,其中吸烟者220人,不吸烟者 295人,调查结果是:吸烟的220 人中37人患 呼吸道疾病, 183人不患呼吸道疾病;不吸 烟的295人中21人患呼吸道疾病, 274人不患 呼吸道疾病。
根据这些数据能否断定:患呼吸道疾 病与吸烟有关?
医生对患者提出忠告:“你这气管炎是长期吸烟 的结果,为了减缓症状,请快戒烟吧!”
呼吸道疾病真的与吸烟有关吗? 研究人员开发了一种新疫苗,怎样检验该疫苗 的有效性呢?
公安人员在勘测案发现场时,总是非常仔细地搜 查罪犯的脚印,理由之一是可以根据脚的大小来预测 罪犯的身高。这里,推理的依据是什么?
无论是一个家庭,还是一个企业,“量入为出”是 管理与经营的基本原则。支出与收入具有怎样的关系?
化简得
χ
2
n ad bc a c b d a b c d 其中n a b c d
2
1
根据表3-1-1中的数据,利用公式(1)计算 吸烟与呼吸道疾病列联表 患病 不患病 总计 吸烟 37 183 220
不吸烟 总计
2
3.1独立性检验(2)
例题分析:
例2:气管炎是一种常见的呼吸道疾病.医药研 究人员对两种中草药治疗慢性气管炎的疗效进 行对比,所得数据如下表。问:它们的疗效有 无差异?
有效 复方江剪刀草 胆黄片 合计 184 91 275 无效 61 9 70 合计 245 100 345
例题分析:
例3:巴西医生马廷思收集各种贪污、受贿罪的官员与 廉洁官员的寿命调查资料:500名贪官中有348人的寿 命小于平均寿命、152人的寿命大于或等于平均寿命; 590名廉洁官员中有93人的寿命小于平均寿命、497人 的寿命大于或等于平均寿命。这里,平均寿命指“当 地人均寿命”。试分析官员在经济上是否清廉与他们 的寿命的长短是否相关? 小于人均 大等于人均 合计 贪官 清官 合计 348 93 441 152 497 649 500 590 1090
例题分析:
例4:网络对现代人的生活影响较大,尤其对青少年, 为了解网络对中学生学习成绩的影响,某地区教育主 管部门从辖区中随机抽取了1000人调查,发现其中经 常上网的有200人,这200人中有80人期末考试不及格, 而另外800人中有120人不及格,问:中学生经常上网 是否影响学习,为什么? 及格 常上网 不常上网 合计 120 680 800 不及格 80 120 200 合计 200 800 1000
反证法与假设检验
反证法 要证明结论A 要证明结论 假设检验 要证H1成立 要证 成立
在A不成立的前提下进 在H1和不成立的(即 和不成立的( 不成立的前提下进 和不成立的 H0成立)的条件下进 成立) 行推理 成立 行推理 推出矛盾——A成立 推出H0成立的概率很 推出矛盾 成立 推出 成立的概率很 小 没有找到矛盾——反证 推出 成立的概率很 没有找到矛盾 反证 推出H0成立的概率很 大——接受原假设 接受原假设 法失败
3.1独立性检验
n
n
同理可得:吸烟但未患病人数:n P( AB) n a b b d
n
n
不吸烟但患病人数: n P( AB) n c d a c
n
n
不吸烟且未患病人数:nຫໍສະໝຸດ P( AB) n c d b d
n
n
实际观测值
如果实际观测值与预 期估计值差异不“大”, 那么我们就可以认为 这些差异是由随机误 差造成的,即假设 H 0 不能被所给数据否定。 否则,应认为假设 H0 不能接受
将以上数据代入公式得:
2 11.8634,
吸烟
这个值是大还是小呢? 不吸烟
总计
患病 37 21 58
不患病 183 274 457
总计 220 295 515
统计学家估算出如下的概率: P( 2 6.635 ) 0.01
即在H0成立的情况下,2的值大于6.635的概率非常小,近似于0.01,即1%.
问题一:我们想要研究“吸烟与患呼吸道疾病的关系”时,需要研究 哪些量呢?
吸烟且患病的人数、不吸烟但患病的人数
为了研究这个问题,我们将是否吸烟与患病的数据用2×2列联表表示:
列联表:分类变量的汇总统计表(频数表)
一般地,假设有两个分类变量 X 和 Y,它们的取值分别为
{x1,x2}和{y1,y2},其样本频数表称为列联表 ,又称为 2×2 列联表,其形式为
(b n a b b d )2 (c n c d a c )2 (d n c d b d )2
n n
n n
nn
n a b bd
n cd a c
n cd bd
nn
nn
nn
化简得: 2 =
n(adb)c2
3.1独立性检验
合计
54
1579
1633
解:由公式
163330 1355 224 24 68.033.. 1379 254 54 1579
2 2
因为
2
6.635
所以有99%的把握说,每一晚都打鼾与患心脏病有关。
√
解析 独立性检验的结论是一个统计量,统计的结果只是说明
事件发生的可能性的大小,具体到一个个体,则不一定发生.
1 2 3 4 5
解析
答案
4. 某大学在研究性别与职称 ( 分正教授、副教授 ) 之间是否有关
系
,
你
认
为 女正教授人数、男正教授人数、女副 应 该 收 集 哪 些 数 据 ?
_________________________________________ 教授人数、男副教授人数 _____________.
解析
答案
跟踪训练2 已知列联表:药物效果与动物试验列联表
患病 服用药 未服药 总计 10 20 30 未患病 45 30 75 总计 55 50 105
6.109 则χ2≈________.( 结果保留3位小数)
2 105 × 10 × 30 - 20 × 45 解析 χ2= ≈6.109. 30×75×55×50
1%把握认为 A与B无关
99.9%把握认 为A与B有关
99%把握认 6.635 为A与B有关 90%把握认 10%把握认为 2 2.706 为A与B有关 A与B无关 没有充分的依据显示A与B有关, 2 2.706 但也不能显示A与B无关
教学设计7: 3.1 独立性检验
3.1 独立性检验知识点一独立性检验的有关概念[提出问题]问题1:观察教材第10页的探究,其中的频数表叫什么?提示:列联表.问题2:由表中数据,你能说吸烟对患肺癌有影响吗?提示:能.问题3:如何用数字分析此类问题?提示:利用随机变量K2进行分析.[导入新知]1.分类变量变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.2.2×2列联表假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(也称2×2列联表)为:y1y2总计x1a b a+bx2c d c+d总计a+c b+d a+b+c+d3.等高条形图将列联表中的数据用高度相同的两个条形图表示出来,其中两列的数据分别对应不同的颜色,这就是等高条形图.4.K2统计量为了使不同样本容量的数据有统一的评判标准,我们构造一个随机变量K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d为样本容量.5.独立性检验利用随机变量K2来确定是否能以给定把握认为“两个分类变量有关系”的方法,称为两个分类变量独立性检验.[化解疑难]反证法原理与独立性检验原理的比较反证法原理——在假设H0下,如果推出一个矛盾,就证明了H0不成立.独立性检验原理——在假设H0下,如果出现一个与H0相矛盾的小概率事件,就推断H0不成立,且该推断犯错误的概率不超过小概率.知识点二独立性检验的步骤[提出问题]问题:利用随机变量K2进行独立性检验需要几步?提示:三步.[导入新知]独立性检验的具体做法(1)根据实际问题的需要确定容许推断“两个分类变量有关系”犯错误概率的上界α,然后查右表确定临界值k0.P(K2≥k0)0.500.400.250.150.10k00.4550.708 1.323 2.072 2.706P(K2≥k0)0.050.0250.0100.0050.001k0 3.841 5.024 6.6357.87910.828(2)利用公式K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),计算随机变量K2的观测值k.(3)如果k≥k0,就推断“X与Y有关系”,这种推断犯错误的概率不超过α;否则,就认为在犯错误的概率不超过α的前提下不能推断“X与Y有关系”,或者在样本数据中没有发现足够证据支持结论“X与Y有关系”.[化解疑难]详析独立性检验(1)通过列联表或观察等高条形图判断两个分类变量之间有关系,属于直观判断,不足之处是不能给出推断“两个分类变量有关系”犯错误的概率,而独立性检验可以弥补这个不足.(2)列联表中的数据是样本数据,它只是总体的代表,具有随机性,因此,需要用独立性检验的方法确认所得结论在多大程度上适用于总体.题型一列联表和等高条形图的应用[例1]某学校对高三学生作了一项调查,发现:在平时的模拟考试中,性格内向的学生426人中有332人在考前心情紧张,性格外向的学生594人中有213人在考前心情紧张.作出等高条形图,利用图形判断考前心情紧张与性格类别是否有关系.[解]作列联表如下:性格内向性格外向总计考前心情紧张332213545考前心情不紧张94381475总计426594 1 020相应的等高条形图如图所示:图中阴影部分表示考前心情紧张与考前心情不紧张中性格内向的比例.从图中可以看出考前心情紧张的样本中性格内向占的比例比考前心情不紧张样本中性格内向占的比例高,可以认为考前紧张与性格类型有关.[类题通法]细解等高条形图(1)绘制等高条形图时,列联表的行对应的是高度,两行的数据不相等,但对应的条形图的高度是相同的;两列的数据对应不同的颜色.(2)等高条形图中有两个高度相同的矩形,每一个矩形中都有两种颜色,观察下方颜色区域的高度,如果两个高度相差比较明显即aa+b和cc+d相差很大,就判断两个分类变量之间有关系.[活学活用]为了研究子女吸烟与父母吸烟的关系,调查了一千多名青少年及其家长,数据如下:父母吸烟父母不吸烟总计子女吸烟23783320子女不吸烟678522 1 200总计915605 1 520利用等高条形图判断父母吸烟对子女吸烟是否有影响.解:等高条形图如下:由图形观察可以看出子女吸烟者中父母吸烟的比例要比子女不吸烟者中父母吸烟的比例高,因此可以在某种程度上认为“子女吸烟与父母吸烟有关系”.题型二独立性检验的原理[例2]某大学餐饮中心为了解新生的饮食习惯,在全校一年级学生中进行了抽样调查,调查结果如下表所示:喜欢甜品 不喜欢甜品合计 南方学生 60 20 80 北方学生 10 10 20 合计7030100根据表中数据,问:是否有95%的把握认为“南方学生和北方学生在选用甜品的饮食习惯方面有差异”?[解] 将2×2列联表中的数据代入公式计算,得k =100×(60×10-20×10)270×30×80×20=10021≈4.762.由于4.762>3.841,所以有95%的把握认为“南方学生和北方学生在选用甜品的饮食习惯方面有差异”. [类题通法]解决独立性检验问题的思路解决一般的独立性检验问题,首先由题目所给的2×2列联表确定a ,b ,c ,d ,n 的值,然后代入随机变量K 2的计算公式求出观测值k ,将k 与临界值k 0进行对比,确定有多大的把握认为“两个分类变量有关系”. [活学活用]某医院对治疗支气管肺炎的两种方案A ,B 进行比较研究,将志愿者分为两组,分别采用方案A 和方案B 进行治疗,统计结果如下:有效 无效 总计 使用方案A 组 96 120 使用方案B 组72 总计32(1)完成上述列联表;(2)能否在犯错误的概率不超过0.05的前提下认为治疗是否有效与方案选择有关? 解:(1)列联表如下:有效 无效 总计 使用方案A 组 96 24 120 使用方案B 组72 8 80 总计16832200(2)K 2=200×(96×8-24×72)2120×80×168×32≈3.571<3.841,所以不能在犯错误的概率不超过0.05的前提下认为治疗是否有效与方案选择有关.独立性检验与统计的综合应用[典例]某工厂有工人1 000名,其中250名工人参加过短期培训(称为A类工人),另外750名工人参加过长期培训(称为B类工人).现用分层抽样的方法(按A类、B类分两层)从该工厂的工人中抽取100名工人,调查他们的生产能力(此处生产能力指一天加工的零件数),结果如下表.表1:A类工人生产能力的频数分布表生产能力分组[110,120)[120,130)[130,140)[140,150)人数8x32表2:B类工人生产能力的频数分布表生产能力分组[110,120)[120,130)[130,140)[140,150)人数6y2718(1)确定x,y的值;(2)完成下面2×2列联表,并回答能否在犯错误的概率不超过0.001的前提下认为工人的生产能力与工人的类别有关系.生产能力分组工人类别[110,130)[130,150)总计A类工人B类工人总计附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),P(K2≥k0)0.0500.0100.001k0 3.841 6.63510.828 [解题流程][解] (1)∵从该工厂的工人中抽取100名工人,且该工厂中有250名A 类工人,750名B 类工人,∴要从A 类工人中抽取25名,从B 类工人中抽取75名, ∴x =25-8-3-2=12,y =75-6-27-18=24. (2)根据所给的数据可以完成列联表,如下表所示:生产能力分组工人类别[110,130)[130,150)总计A 类工人 20 5 25B 类工人 30 45 75 总计5050100由列联表中的数据,得K 2的观测值为 k =100×(20×45-5×30)225×75×50×50=12>10.828.因此,在犯错误的概率不超过0.001的前提下,认为工人的生产能力与工人的类别有关系.[名师批注]要确定x ,y 的值,应先确定A 类工人及B 类工人中应各抽取多少人,此处易误认为x =25,y =75,从而导致解题错误此处易犯错误有两点:①计算失误;②将公式中的数据搞错 [活学活用]电视传媒公司为了解某地区观众对某类体育节目的收视情况,随机抽取了100名观众进行调查,其中女性有55名.下面是根据调查结果绘制的观众日均收看该体育节目时间的频率分布直方图:将日均收看该体育节目时间不低于40分的观众称为“体育迷”,已知“体育迷”中有10名女性.根据已知条件完成下面的2×2列联表,据此资料,你是否认为“体育迷”与性别有关?非体育迷体育迷总计 男 女 总计附:P (K 2≥k 0) 0.05 0.01 k 03.8416.635解:由频率分布直方图可知,在抽取的100名观众中,“体育迷”有25名,“非体育迷”有75名,又已知100名观众中女性有55名,女“体育迷”有10名,所以男性有45名,男“体育迷”有15名,从而可完成2×2列联表,如下表:非体育迷 体育迷 总计 男 30 15 45 女 45 10 55 总计7525100由2×2列联表中的数据,得K 2的观测值为 k =100×(30×10-15×45)245×55×75×25≈3.030.因为3.030<3.841,所以没有充分的证据表明“体育迷”与性别有关.[随堂即时演练]1.下面是一个2×2列联表:y 1 y 2 总计 x 1 a 21 73 x 2 2 25 27 总计b46则表中a ,b 处的值分别为( ) A .94,96 B .52,50 C .52,54D .54,52【解析】由⎩⎪⎨⎪⎧ a +21=73,a +2=b ,得⎩⎪⎨⎪⎧a =52,b =54.【答案】C2.博士生和硕士生毕业情况的一个随机样本给出了关于所获取的学位类别与学生性别的分类数据如下表.由表中的数据,可得()硕士博士总计男16227189女1438151总计30535340A.性别与获取学位类别有关B.性别与获取学位类别无关C.性别决定获取学位的类别D.以上说法都不正确【解析】由列联表中的数据,得K2的观测值为k=≈7.34>6.635,(162×8-143×27)2×340305×35×189×151所以在犯错误的概率不超过0.01的前提下,认为性别与获取学位类别有关.而选项C 中的表述不恰当,因为性别与获取学位类别不是因果关系,只是统计学上的一种非确定性关系,故不能用“决定”二字描述.【答案】A3.独立性检验所采用的思路是:要研究A,B两类变量彼此相关,首先假设这两类变量彼此________.在此假设下构造随机变量K2,如果K2的观测值较大,那么在一定程度上说明假设________.【答案】无关不成立4.在吸烟与患肺病是否相关的判断中,有下面的说法:①若K2的观测值k>6.635,则在犯错误的概率不超过0.01的前提下,认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99人患有肺病;②从独立性检验可知,在犯错误的概率不超过0.01的前提下,认为吸烟与患肺病有关系时,若某人吸烟,则他有99%的可能患有肺病;③从独立性检验可知,在犯错误的概率不超过0.05的前提下,认为吸烟与患肺病有关系时,是指有5%的可能性使得推断错误.其中说法正确的是________(填序号).【解析】K2是检验吸烟与患肺病相关程度的量,是相关关系,而不是确定关系,是反映有关和无关的概率,故说法①不正确;说法②中对“确定容许推断犯错误概率的上界”理解错误;说法③正确.【答案】③5.在一次天气恶劣的飞机航程中,调查了男女乘客在飞机上晕机的情况:男乘客晕机的有24人,不晕机的有31人;女乘客晕机的有8人,不晕机的有26人.能否在犯错误的概率不超过0.10的前提下推断在天气恶劣的飞机航程中男乘客比女乘客更容易晕机?解:由已知条件得出下面的2×2列联表:晕机不晕机总计男乘客243155女乘客82634总计325789由公式可得K2的观测值k=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)=89×(24×26-31×8)255×34×32×57≈3.689>2.706.故在犯错误的概率不超过0.10的前提下,认为“在天气恶劣的飞机航程中男乘客比女乘客更容易晕机”.。
课件5:3.1 独立性检验
附:
P(χ2≥x0) x0
χ2=n(nn111+nn222+-n+n11n2n+221)2.
0.050 0.010 0.001 3.841 6.635 10.828
【思路点拨】 第(2)问是独立性检验问题求出 χ2 即
思想方法技巧
独立性检验思想的应用
典例 为调查某地区老年人是否需要志愿者提供帮助,用
简单随机抽样方法从该地区调查了 500 位老年人,结果如下:
性别 是否需要志愿者
需要 不需要
男女
40 30 160 270
(1)估计该地区老年人中,需要志愿者提供帮助的老年人 的比例;
(2)在犯错误的概率不超过 0.01 的前提下,能否认为该地 区的老年人是否需要志愿者提供帮助与性别有关?
可.第(3)问是随机抽样问题.
【规范解答】 (1)调查的 500 位老年人中有 70 位需要 志愿者提供帮助,因此该地区老年人中,需要帮助的老年人 的比例的估算值为57000=0.14=14%.
(2)χ2=5002×0(400××320700×-703×04×31060)2≈9.967. 由于 9.967>6.635,所以在犯错误的概率不超过 0.01 的 前提下,认为该地区的老年人是否需要志愿者提供帮助与性 别有关.
【自主解答】 由表中所给数据可知,n11=18,n12=16, n21=17,n22=29,n1+=34,n2+=46,n+1=35,n+2=45,n =80,所以根据 χ2 的计算公式可得
χ2=80×3(148××4269×-351×64×517)2≈2.030<3.841. 所以我们没有充分的证据判定性格与血型有关系,可以 认为性格与血型无关.
3.1 独立性检验(2)(教案)
§3.1 独立性检验(2)教学目标通过对典型案例的探究,进一步巩固独立性检验的基本思想、方法,并能运用χ2统计量进行独立性检验.教学重点,难点:独立性检验的基本方法是重点.基本思想的领会及方法应用是难点. 教学过程 一.学生活动练习:(1)某大学在研究性别与职称(分正教授、副教授)之间是否有关系,你认为应该收集哪些数据? . (2)某高校具体数据如下表:为了判断主修统计专业是否与性别有关系,根据表中的数据,得到χ2250(1320107) 4.84423272030⨯⨯-⨯=≈⨯⨯⨯,∵χ2 3.841≥, 所以判定主修统计专业与性别有关系,那么这种判断出错的可能性为 .(答案:5%)二.数学运用 1.例题:例1.在对人们的休闲方式的一次调查中,共调查了124人,其中女性70人,男性54人。
女性中有43人主要的休闲方式是看电视,另外27人主要的休闲方式是运动;男性中有21人主要的休闲方式是看电视,另外33人主要的休闲方式是运动。
(1)根据以上数据建立一个2× 2列联表; (2)判断性别与休闲方式是否有关系。
解:(1(2)假设“休闲方式与性别无关”χ22124(43332721)6.20170546460⨯⨯-⨯=≈⨯⨯⨯ 因为χ2 5.024≥,所以有理由认为假设“休闲方式与性别无关”是不合理的,即有97.5%的把握认为“休闲方式与性别有关”。
例2.气管炎是一种常见的呼吸道疾病,医药研究人员对两种中草药治疗慢性气管炎的疗99%)?分析:由列联表中的数据可知,服用复方江剪刀草的患者的有效率为75%245≈,服用胆黄片的患者的有效率为9191%100=,可见,服用复方江剪刀草的患者与服用胆黄片的患者的有 效率存在较大差异.下面用2χ进行独立性检验,以确定能有多大把握作出这一推断.解:提出假设0H :两种中草药的治疗效果没有差异,即病人使用这两种药物中的何种药物对疗效没有明显差异.由列联表中的数据,求得 22345(18496191)11.09827570245100χ⨯⨯-⨯=≈⨯⨯⨯ 当0H 成立时,210.828χ≥的概率约为0.001,而这里211.09810.828χ≈>所以我们有99.9%的把握认为:两种药物的疗效有差异.例3.下表中给出了某周内中学生是否喝过酒的随机调查结果,若要使结论的可靠性不低于95%,根据所调查的数据,能否作出该周内中学生是否喝过酒与性别有关的结论?解:提出假设0H :该周内中学生是否喝过酒与性别无关. 由列联表中的数据,求得 21.6366χ≈,当0H 成立时,23.841χ≥的概率约为0.05,而这里21.6366 3.841χ≈<, 所以,不能推断出喝酒与性别有关的结论. 三.回顾小结:1.独立性检验的思想方法及一般步骤. 四.课外作业:补充。
高中数学 3.1 独立性检验教案 理 新人教B版选修2 3 教案
3.1 独立性检验【教学目标】通过典型案例,学习统计方法,并能用这些方法解决一些实际问题;经历数据处理的过程,培养学生对数据的直观感觉,认识统计方法的特点,体会统计方法的广泛性,实用性。
【教学重点】独立性检验含义的理解 【教学难点】独立性检验的初步应用 一、课前预习 1.独立事件、 、 也独表中:=+1n ;=+2n ; =+1n ;=+2n ; = n3.2χ统计量根据上表给定的数据引入2χ(读作“卡方” )统计量。
它的表达式是2χ= 。
4.独立性检验思想(1)用0H 表示事件A 与B 独立的决定式,即0H :)()()(B P A P AB P =, 称0H 为 。
(2)用2χ与其临界值 与 的大小关系来决定是否拒绝统计假设0H841.32≤χ,则称事件A 与B 是 ;841.32>χ,则有 的把握说事件A 与B 有关; 635.62>χ,则有 的把握说事件A 与B有关。
二、 课上学习例1.右面22⨯列联表的2χ的值为例2.为了探究患慢性气管炎是否与吸烟有关,调查了339名50岁以上的人,调查结果如下表所示:试问:50岁以上的人患慢性气管炎与吸烟习惯有关吗?例3在一次恶劣气候的飞行航程中调查男女乘客在机上晕机的情况如下表所示。
根据此资料是否可以认为在恶劣气候飞行中男人比女人更容易晕机? 三、课后练习1.为观察药物A 、B 治疗某病的疗效,某医生将100例该病病人随机地分成两组,一组40人,服用A 药;另一组60人,服用B 药,结果发现:服用A 药的40人中有30人治愈;服用B 药的60人中有11人治愈.问A 、B 两药对该病的治愈率之间是否有显著差别?BBA8412A21618102030合计合计207女1013男文科理科2.对于独立性检验,下列说法中错误的是( )A .2χ值越大,说明两事件相关程度越大;B .2χ越小,两事件相关程度越小;.C 841.32≤χ时,有95%的把握说事件A 与B 无关;.D 635.62>χ时,有99%的把握说事件A 与B 有关。
学案7:3.1 独立性检验
3.1独立性检验学习目标1.了解独立性检验(只要求2×2列联表)的基本思想.2.理解独立性检验中P(χ2≥k0)的具体含义.3.掌握独立性检验的方法和步骤.新知提炼独立性检验(1)2×2列联表表中:n+1=n11+n21+212221+1112n2+=n21+n22,n=n11+n21+n12+n22.(2)χ2统计量根据2×2列联表给定的数据引入χ2(读作“卡方”)统计量,它的表达式是:χ2=n(n11n22-n12n21)2n1+n2+n+1n+2.(3)独立性检验思想①用H0表示事件A与B独立的判定式,即H0:P(AB)=P(A)P(B),称H0为统计假设.②用χ2与其临界值3.841与6.635的大小关系来决定是否拒绝原来的统计假设H0,如下表:自我尝试1.判断(对的打“√”,错的打“×”)(1)列联表中的数据是两个分类变量的频数.()(2)事件A与B的独立性检验无关,即两个事件互不影响.()(3)χ2的大小是判断事件A与B是否相关的统计量.()答案:(1)√(2)×(3)√2.下面是一个2×2列联表则表中a,b处的值分别为(A.94,96B.52,50C.52,54D.54,52讲练互动探究点1独立性检验的应用例1在对人们的休闲方式的一次调查中,共调查了124人,其中女性70人,男性54人.女性中有43人主要的休闲方式是看电视,另外27人主要的休闲方式是运动;男性中有21人主要的休闲方式是看电视,另外33人主要的休闲方式是运动.(1)根据以上数据建立一个2×2列联表;(2)判断性别与休闲方式是否有关系.方法归纳解决独立性检验问题的基本步骤(1)根据已知的数据作出列联表.(2)作出相应的等高条形图,可以利用图形做出相应判断.(3)求χ2的值.(4)判断可能性:与临界值比较,得出事件有关的可能性大小.跟踪训练调查某医院某段时间内婴儿出生的时间与性别的关系,得到下面的数据表.试问能有多大把握认为婴儿的性别与出生的时间有关系?探究点2独立性检验的综合应用例2某中学举办安全法规知识竞赛,从参赛的高一、高二学生中各抽出100人的成绩作为样本,对高一年级的100名学生的成绩进行统计,并按[40,50),[50,60),[60,70),[70,80),[80,90),[90,100)分组,得到成绩分布的频率分布直方图(如图).(1)若规定60分以上(包括60分)为合格,计算高一年级这次知识竞赛的合格率;(2)统计方法中,同一组数据常用该组区间的中点值作为代表,据此,估计高一年级这次知识竞赛的学生的平均成绩;(3)若高二年级这次知识竞赛的合格率为60%,由以上统计数据填写下面2×2列联表,并问是否有99%的把握认为“这次知识竞赛的成绩与年级有关系”.方法归纳独立性检验的考查,往往与概率和抽样统计图等一并考查,这类问题的求解往往按各小题及提问的顺序,一步步进行下去,是比较容易解答的,考查单纯的独立性检验往往用小题的形式,而且χ2的公式一般会在原题中给出.跟踪训练 某班班主任对全班50名学生学习积极性和对待班级工作的态度进行了调查,统计数据如下表所示:(1)到不太主动参加班级工作且学习积极性一般的学生的概率是多少?(2)试运用独立性检验的思想方法分析:学生的学习积极性与对待班级工作的态度是否有关系?并说明理由. 素养提升1.独立性检验的一般步骤 (1)根据样本数据制成2×2列联表. (2)根据公式χ2=n (n 11n 22-n 12n 21)2n 1+n 2+n +1n +2,计算χ2的值.(3)比较χ2与临界值的大小关系作统计推断.2.准确理解χ2的含义:若χ2>6.635,说明假设不合理的程度约为99%,即“两个变量有关系”这一结论成立的可信度为99%. 失误防范1.对2×2列联表中n 11,n 12,n 21,n 22的位置勿必正确填写. 2.计算χ2的值要保证准确无误. 当堂检测1.对于分类变量A与B的统计量χ2,下列说法正确的是()A.χ2越大,说明“A与B有关系”的可信度越小B.χ2越大,说明“A与B无关”的程度越大C.χ2越小,说明“A与B有关系”的可信度越小D.χ2接近于0,说明“A与B无关”的程度越小2.用χ2统计量进行独立性检验时,使用的表称为______,要求表中的四个数据均大于或等于________.3.若两个分类变量X和Y的列联表为:则X与Y参考答案自我尝试1.【答案】(1)√(2)×(3)√2.【答案】C讲练互动探究点1 独立性检验的应用 例1 解:(1)列表如下:(2)由上表可得χ2=70×54×64×60≈6.201.因为χ2>3.841,所以有95%的把握认为性别与休闲方式有关系. 跟踪训练解:χ2=n (n 11n 22-n 12n 21)2n 1+n 2+n +1n +2=89×(24×26-31×8)255×34×32×57≈3.688 9≤3.841.所以我们认为“婴儿的性别与出生的时间无关”. 探究点2 独立性检验的综合应用 例2 解:(1)高一合格率为:0.02×10+0.03×10+0.02×10+0.01×10=0.8=80%.(2)高一样本的平均数为45×10100+55×10100+65×20100+75×30100+85×20100+95×10100=72,据此,可以估计高一年级这次知识竞赛的学生的平均成绩为72分. (3)χ2=200(80×40-100×100×140×60≈9.524>6.635.所以有99%的把握认为“这次知识竞赛的成绩与年级有关系”. 跟踪训练 解:(1)积极参加班级工作的学生有24人,总人数为50, 故抽到积极参加班级工作的学生的概率是2450=1225;不太主动参加班级工作且学习积极性一般的学生有19人,故抽到不太主动参加班级工作且学习积极性一般的学生的概率是1950.(2)由公式得χ2=50×(18×19-6×7)225×25×24×26≈11.538.因为11.538>6.635,所以我们有99%的把握认为“学生的学习积极性与对待班级工作的态度有关系”.当堂检测1.【答案】C【解析】由独立性检验的定义及χ2的意义可知C正确.2.【答案】2×2列联表5【解析】在使用χ2统计量作2×2列联表的独立性检验时,要求表中的4个数据大于或等于5.在选取样本容量时一定要注意这一点.3.【答案】99%【解析】χ2≈18.8>6.635.故有99%的把握认为X与Y有关.。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
例 2. 在 500 人身上试验某种血清预防感冒作用,把他们 一年中的感冒记录与另外 500 名未用血清的人的感冒记 录作比较,结果如表所示。问:该种血清能否起到预防 感冒的作用? 未感冒 感冒 合计
使用血清 未使用血清
合计
258 216
474
242 284
526
2
500 500
1000
解(设H0:感冒与是否使用该血清没有关系。)
患慢性气管炎 吸烟 不吸烟 合计 43 13 56 未患慢性气管炎 162 121 283 合计 205 134 339
上面表格称为2×2列联表
这一检验问题称为2×2列联表的独立性检验
• 为了把问题讨论清楚,并便于向一般情况 推广,我们用字母来代替2×2列联表中的 事件和数据,得到一张用字母来表示的 2×2列联表:
2
合计 98 95 193
解:设H0:药的效果与给药方式没有关系。
2
19358 31 64 40 1.3896 <2.072 122 71 98 95 因当H0成立时,χ2≥1.3896的概率大于15%,故不能否定假设 H0,即不能作出药的效果与给药方式有关的结论。
例5
• 一台机器生产的零件长度服从正态分布 N(5.74,0.082)(单位mm),为了检验机器 是否处于正常工作状态,每隔一小时抽取 一个零件,测量其长度,某天检查的头5个 零件长度如下:5.91 5.83 5.71 5.75 5.45 试判断该机器是否处于正常工作状态
• 第5个零件的尺寸落在控制下限以下,表明 小概率事件竟然发生了,根据实际推断原 理,我们有理由怀疑此时机器还在正常生 产。比如,可能原料有问题,可能操作有 误,可能机器出故障……此时可以停机检 修和调整,以免产生大量不合格产品 • 假定5个零件的尺寸都落在控制上限与控制 下限之间,则表明机器处于正常工作状态, 可以继续生产下去
1、经过对X2统计量分布的研究,已经的到了 两个临界值:3.814,6.635。下列说法正确的 是( D ) A、当根据具体的数据算出的X2<3.814时, 有百分之95的把握说事件A与B有关 B、有X2<6.635时,有百分之99的把握说 事件A与B有关 C、当X2》3.814时,认为事件A与B无关 D、当X2《3.814时,认为事件A与B无关
• 例1的解答: 由 2的计算公式可知,
2 2
339 43 121 162 13 7.469, 205 134 56 283 因为7.469 6.635, 所以我们有99%的 把握说: 50岁以上的人患慢性气管炎 与吸烟习惯有关 • 注意: • 50岁以上吸烟的人一定患慢性气管炎吗? • 是不是表示得病概率是百分之九十九?
例6
• 据调查,某地市场上的假冒品牌香烟占15 %,某商家声称他商店里卖的香烟全是真 货,一顾客决定在他的商店里随机挑选20 包烟,若没有买到一包假烟,就相信商家 的说法。试分析该顾客的做法是否合理
• (1)作统计假设:商店里有假烟 • (2)在上述假设成立的条件下,计算该顾 客买到全部真烟的概率 • 0.039 • (3)我们以概率0.961认为商店里没有假 烟 • 当然,如果顾客买的烟中发现有假烟,自 然就认为假设成立,即商店里有假烟
简 单 随 机 抽 样
分 层 抽 样
系 统 抽 样
用样本 的频率 分布估 计总体 分布
用样本数字 特征估计总 体数字特征 (平均值、 方差)
线 性 回 归 分 析
1000 258 284 242 216 2 7.075 6.635 474 526 500 500 (因当H0成立时,χ2≥6.635的概率约为0.01,)故有99%的把 握认为该血清能起到预防感冒的作用。
例3.在一次恶劣气候的飞行航程中调查男女乘客 在飞机上晕机的情况如下表所示 , 据此资料你是 否认为在恶劣气候飞行中男性比女性更容易晕机
晕机 男性 女性 24 8 不晕机 31 26 合计 55 34
合计
32
57
89
例4.睡觉时“打呼噜”不仅影响别人休息,而且 可能与患某种疾病有关。下表是一次调查所得的 数据,试问:每晚都“打呼噜”与患心脏病有管 吗?
患心脏病 30 24 54 未患心脏病 224 1355 1579 合计 254 1379 1633 每晚都打呼噜 不打呼噜 合计
4:为研究不同的给药方式(口服与注射)和药的效果 P(χ≥x0) 0.50 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001 (有效与无效)是否有关,进行了相应的抽样调查, x0 0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828 调查的结果列在表中,根据所选择的193个病人的数 据,能否作出药的效果和给药方式有关的结论? 口服 注射 合计 有效 58 64 122 无效 40 31 71
2、如果根据性别与饮酒的联表,得到X2约为 3.852,那么判断性别与饮酒有关时这种判断 出错的可能性是( C ) A、20% B、10 %
C、 5 %
D、 1 %
3、在研究吸烟与患肺癌的关系中,通过收集 数据、整理分析数据得“吸烟与患肺癌有关” 的结论,并且在推断结论为错误的可能性为 0.01的前提下认为这个结论是成立的,下列 说法中正确的是( D ) A、100个吸烟者中至少有99人患有肺癌 B、1个人吸烟,那么这个人有99%的概率
• 对于例1,最理想的解决办法是向所有50岁 以上的人做调查,然后对得到的数据进行 统计处理,但这花费的代价太大,实际上 是行不通的 • 339个人相对于全体50岁以上的人,只是一 个小部分 • 现在我们用部分对全体作推断,推断可能 正确,也可能错误 • 我们有95%的把握说事件A与B有关,是指 推断犯错误的可能性为5%,这也常常说成 是“以95%的概率”,其含义是一样的
B.从独立性检验可知有99%的把握认为吃含三聚氰胺的三 鹿婴幼儿奶粉与患肾结石有关系时,我们说某一个婴幼儿 吃含三聚氰胺的三鹿婴幼儿奶粉,那么他有99%的可能患 肾结石病; C.若从统计量中求出有95% 的把握认为吃含三聚氰胺的 三鹿婴幼儿奶粉与患肾结石有关系,是指有5% 的可能性 使得推判出现错误; D.以上三种说法都不正确。
n1 n1 n12 n1 n2 n11 或者说, - - , , n n n n n n n2 n1 n22 n2 n2 n21 - - , 应该 n n n n n n 比较小,
n1 n1 n11 - n n n 从而 n1 n1 n n n2 n1 n21 - n n n n2 n1 n n 也应该比较小
2 2
2
2
2
2
n1 n2 n12 - n n n n1 n2 n n
5:气管炎是一种常见的呼吸道疾病,医药研究人员 P(χ≥x0) 0.50 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001 对两种中草药治疗慢性气管炎的疗效进行对比,所 x0 0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828 得数据如表所示,问:它们的疗效有无差异?
第三章 统计案例
3.1 独立性检验
有人对一个老年烟民 劝到:“你快戒烟吧, 否则一定会患慢性气 管炎的。”
这是真的吗? 他的话有没有道理?
老年人患慢性气管炎与吸烟习惯有没有关系?
• 为了探究患慢性气管炎是否与吸烟有关, 例1 调查了339名50岁以上的人,调查结果如下 表所示,试问:50岁以上的人患慢性气管 炎与吸烟习惯有关吗?
患有肺癌 C、在100个吸烟者中一定有患肺癌的人 D、在100个吸烟者中可能一个换肺癌的人也没有
4.对长期吃含三聚氰胺的婴幼儿奶粉与患肾结石 这两个分类变量的计算中,下列说法正确的是(C )
A. 若K 2 的值大于 6.635,我们有99%的把握认为长 期吃含三聚氰胺的三鹿婴幼儿奶粉与患肾结石有关 系,那么在100个长期吃含三聚氰胺的三鹿奶粉的 婴幼儿中必有99人患有肾结石病;
思考
• 在本题的情况下,另一顾客决定,在商店 里随机购买18包烟进行检查,就可以作出 推断:商店里没有假烟。试分析他的做法 是否合理? • 0.054 0.946 • 假设检验是拿局部的情况来推断全体的情 况,这就可能犯错误 • 显然检查得越多,犯错误的概率就越小 • 实际推断原理关于小概率的值没有统一界 定
复方江剪刀草 胆黄片 合计
有效 184 91 275
无效 61 9 70
2
合计 245 100 345
解:设H0:两种中草药的治疗效果没有差异。
345184 9 61 91 2 11.098 275 70 245 100
因当H0成立时,χ2≥10.828的概率为0.001,故有99.9%的把握 认为,两种药物的疗效有差异。
2
2
n2 n2 n22 - n n n n2 n2 n n
1
• (2)上面的表达式(1)就是统计中非常有用 的卡方统计量,它可以化简为 2 n n11n22 n12 n21 2 2 n1 n2 n1n2 • 用它的大小可以决定是否拒绝原来的统计假 设 H0 • 如果算出的卡方值较大,就拒绝H0,也就是 拒绝“事件A与B无关”,从而就认为它们是 有关的了
反证法原理与假设检验原理 反证法原理:
在一个已知假设 下,如果推出一 个矛盾,就证明 了这个假设不成 立。
假设检验原理:
在一个已知假设 下,如果一个与 该假设矛盾的小 概率事件发生, 就推断这个假设 不成立。