列联表独立性分析案例

合集下载

【高中数学】列联表与独立性检验(课件) 高二数学(人教A版2019选择性必修第三册)

【高中数学】列联表与独立性检验(课件) 高二数学(人教A版2019选择性必修第三册)
当 2<xα时,没有充分的证据推断H0不成立,可以认为X和Y独立.
这种利用 2的取值推断分类变量X和Y是否独立的方法称为 2独立性检验,
简称独立性检验 .
探究新知
下表为独立性检验中几个常用的小概率值和相应的临界值
α

0.1
2.706
0.05
3.841
0.01
6.635
0.005
7.879
0.001
根据小概率值α=0.001的独立性检验,推断H0不成立,即认为吸烟与
患肺癌有关联,此推断犯错误的概率不大于0.001.
典型例题
根据表中数据计算,不吸烟者中不患肺癌和患肺癌的频率分别为
7775/7817≈0.9946 和 42/7817≈0.0054
吸烟者中不患肺癌和患肺癌的频率分别为
2099/2148≈0.9772 和 49/2148≈0.0228
中有 43 人的饮食以蔬菜为主,另外 27 人则以肉类为主;六十岁以下的人中有
21 人饮食以蔬菜为主,另外 33 人则以肉类为主.请根据以上数据作出饮食习
惯与年龄的列联表,并利用 P(Y=1|X=0)与 P(Y=1|X=1)判断二者是否有关系.
[解]
用 Ω 表示共调查了 124 人所构成的集合,定义一对分类变量 X 和 Y
性数有无差别,铅中毒病人与尿棕色素为阳性是否有关系?
探究新知
[解]
病人组中尿液为阳性和阴性的频率分别为:
29
7
≈0.805 6 和 ≈0.194 4.
36
36
对照组中尿液为阳性和阴性的频率分别为:
9
28
≈0.243 2 和 ≈0.756 8.
37
37

【高质量】列联表独立性分析案例PPT文档

【高质量】列联表独立性分析案例PPT文档

40
35 30 25 20 15 10
5 0
患肺癌
不患肺癌
三维 柱状图
不吸烟 吸烟
吸烟 不吸烟
设计意图:通过图形直观判断两个分类变量是否相关:
2) 通过图形直观判断两个分类变量是否相关:
60 推出矛盾,意味着结论A成立
并且在高一学习必修三概率统计时已经初步了解变量间的相关关系问题;
二维
(4)学生对利用计算机上数学课比较感兴趣,并能掌握计算机的基本操作;
列联表独立性分析案例
优选列联表独立性分析案例
教材分析 目标分析 特征分析 策略分析
过程分析
教材分析 目标分析 过特程征分析 教策法略分析 过评程价分析
教材分析
一)、教材的地位和作用 本节课是湘教版普通高中课程标准实验教科书选修1-2第
四章第三节第一课时的内容。主要内容是:列联表独立性分 析案例。独立性检验是《课程标准》中要求学生体验的重要 统计模型之一,该模型的教育价值:让学生在必修3课程学习 到的变量间的相关关系和选修1-2事件的独立性的基础上, 利用独立性检验进一步分析两个分类变量之间是否有关系, 为下一节学习一元线性回归案例和今后学习统计理论奠定基 础。
❖ 2)通过对具体问题作出独立性检验,明确独 立性检验的基本步骤,并能用其基本思想解 决实际问题。
目标分析
❖ 2、过程与方法 ❖ 1)通过探究“吸烟是否与患肺癌有关系”引出独
立性检验的问题,借助样本数据,列联表、柱形 图和条形图,使学生直观感觉到吸烟和患肺癌可能 有关系.这一直觉来自于观测数据,即样本问题是 这种来自于样本的印象能够在多大程度上代表总 体,这节课就是为了解决这个问题,让学生亲身 体验直观感受的基础上,提高学生的数据分析能 力. ❖ 2)经历判断“X与Y是否有关系”的一般步骤和利 用独立性检验来考察两个分类变量是否有关系, 获得较准确地给出这种判断的可靠程度的具体做

8.4列联表独立性分析案例课件-湘教版数学选修2-3

8.4列联表独立性分析案例课件-湘教版数学选修2-3
根据这些数据能否断定:患呼吸道疾病与 吸烟有关?
列联表
为了调查吸烟是否患呼吸道疾病有影响,某医疗研究 所随机地调查了515人,得到如下结果(单位:人)
吸烟与呼吸道疾病列联表
患病 不患病 总计
吸烟
37
183
220
不吸烟
21274Fra bibliotek295
总计
58
457
515
在不吸烟者中患呼吸道疾病的比重是 7.12% 在吸烟者中患呼吸道疾病的比重是 16.82%
用 统计量研究这类问题的方法称为独立性检验。
一般地,对于两个研究对象Ⅰ和Ⅱ,Ⅰ有两类 取值,即类A和B(如吸烟与不吸烟);Ⅱ也有两类 取值,即类1和2(如患病与不患病)。于是得到 下列联表所示的抽样数据:
类1 类2
总计
类A
a
b
a+b
类B
c
d
c+d
总计
a+c
b+d
a+b+c+d
要推断“Ⅰ和Ⅱ有关系”,可按下面的步骤进行:
患病 不患病 总计
吸烟
37
183
220
不吸烟 21
274
295
总计
58
457
515
通过公式计算
独立性检验
已知在 H0成立的情况下,
即在H0 成立的情况下, 2大于6.635概率非常小, 近似为0.01 现在的 2=11.8634的观测值远大于6.635, 出现这样的观测值的概率不超过0.01。 故有99%的把握认为H0不成立,即有99%的把 握认为“患呼吸道疾病与吸烟有关系”。
列联表独立性分析案例
某医疗机构为了了解呼吸道疾病与吸烟是否 有关,进行了一次抽样调查,共调查了515个 成年人,其中吸烟者220人,不吸烟者295人, 调查结果是:吸烟的220 人中37人患呼吸道 疾病, 183人不患呼吸道疾病;不吸烟的295 人中21人患呼吸道疾病, 274人不患呼吸道 疾病。

数学(选修12)练习4.3列联表独立性分析案例活页作业3

数学(选修12)练习4.3列联表独立性分析案例活页作业3

活页作业(三) 列联表独立性分析案例1.对于分类变量X 与Y 的统计量χ2的值说法正确的是( ) A .χ2越大,“X 与Y 有关系”的把握性越小 B .χ2越小,“X 与Y 有关系”的把握性越小 C .χ2越接近于0,“X 与Y 无关系”的把握性越小 D .χ2越接近于0,“X 与Y 无关系”的把握性越大解析 χ2越大,X 与Y 越不独立,所以关联越大;相反,χ2越小,关联越小. 答案:B2.在2×2列联表中,两个比值________相差越大,两个分类变量之间的关系越强( ) A .a a +b 与c c +dB .a c +d 与c a +bC .a a +d 与c b +cD .a b +d 与c a +c解析a a +b 与c c +d相差越大,说明ad 与bc 相差越大,两个分类变量之间的关系越强. 答案:A3.对两个分类变量进行独立性检验的主要作用是( ) A .判断模型的拟合效果 B .对两个变量进行相关分析C .给出两个分类变量有关系的可靠程度D .估计预报变量的平均值解析 独立性检验的目的就是明确两个分类变量有关系的可靠程度. 答案:C4.为了了解高中生作文成绩与课外阅读量之间的关系,某研究机构随机选取了60名高中生,通过问卷调查,得到以下数据:作文成绩优秀作文成绩一般总计 课外阅读量较大 22 10 32 课外阅读量一般8 20 28 总计3030602>7.879时,有99.5%的把握判定两个变量有关联)( )A .没有充足的理由认为课外阅读量大与作文成绩优秀有关B .有0.5%的把握认为课外阅读量大与作文成绩优秀有关C .有99.9%的把握认为课外阅读量大与作文成绩优秀有关D .有99.5%的把握认为课外阅读量大与作文成绩优秀有关 解析 χ2≈9.643>7.879,P (χ2≈9.643>7.879)=0.005.∴在犯错误的概率不超过0.005的前提下认为作文成绩优秀与课外阅读量大有关. 答案:D5.已知某校文理科教师与性别的列联表如下:解析χ2=300×(37×143-85×35)2122×178×72×228≈4.513 9.答案:4.513 96.为了研究高中学生对乡村音乐的态度(喜欢和不喜欢两种态度)与性别的关系,运用2×2列联表进行独立性检验,经计算χ2=8.01,则认为“喜欢乡村音乐与性别有关系”的把握性约为________.解析 ∵χ2=8.01>6.635,∴有99%的把握说学生性别与喜欢乡村音乐有关系. 答案:99%7.某次全国性会议在北京召开.为了做好对外宣传工作,会务组选聘了16名男记者和14名女记者担任对外翻译工作,调查发现,男、女记者中分别有10人和6人会俄语.(1)根据以上数据完成以下2×2列联表:(2) 解 (1)对应的2×2列联表如下:(2)χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)=30×(10×8-6×6)2 16×14×16×14≈1.157 5<2.706.∴不能在犯错的概率不超过0.10的前提下认为性别与会俄语有关.8.某校对高三部分学生的数学质检成绩作相对分析.(1)按一定比例进行分层抽样抽取了20名学生的数学成绩,并用茎叶图(图1)记录,但部分数据不小心丢失了,已知数学成绩[70,90)的频率是0.2,请补全表格并绘制相应频率分布直方图(图2).分数段(分)[50,70)[70,90)[90,110)[110,130)[130,150]频率理成绩进行比较,得到统计数据如下表:物理成绩优秀物理成绩一般合计数学成绩优秀15318数学成绩一般51722合计202040时,有99.9%的把握判定两个变量有关联)解(1)填表如下:分数段(分)[50,70)[70,90)[90,110)[110,130)[130,150]频率0.10.20.40.20.1(2)假设学生的物理成绩优秀与数学成绩优秀没有关系, 则χ2=40×(15×17-5×3)220×20×22×18≈14. 55>10.828.∴有99.9%的把握认为物理成绩优秀与数学成绩优秀有关系.1.两个分类变量X 和Y 的值域分别为{x 1,x 2}和{y 1,y 2},其样本频数分别是a =10,b =21,c +d =35.若X 与Y 有关系的可信程度不小于97.5%,则c 等于(已知当χ2>5.024时,则有97.5%的把握认为变量X 与Y 有关系)( )A .3B .4C .5D .6解析χ2=66×[10(35-c )-21c ]231×35×(10+c )(56-c )>5.024,把选项A ,B ,C ,D 代入验证可知选A .答案:A2.在打鼾与患心脏病之间的关系研究中,通过收集数据、整理分析数据得“打鼾与患心脏病有关”的结论,并且有99%以上的把握认为这个结论是成立的.下列说法中正确的是( )A .100个心脏病患者中,至少有99人打鼾B .1个人患心脏病,则这个人有99%的概率打鼾C .在100个心脏病患者中,一定有打鼾的人D .在100个心脏病患者中,可能1个打鼾的都没有解析 由题意知,“打鼾与患心脏病有关”的结论有99%以上的把握正确,而不是心脏病患者打鼾的概率为99%,故选D .答案:D3.独立性检验中,若两个分类变量“X 和Y 有关系”的可信程度是95%,则随机变量χ2的取值范围是________________.解析 当χ2>3.841时,有95%的把握判定X 与Y 有关系,当χ2>6.635时,有99%的把握判定X 与Y 有关系,∴3.841<χ2≤6.635.答案:(3.841,6.635]4.假设有两个分类变量X 与Y ,它们的可能取值分别为{x 1,x 2}和{y 1,y 2},其中2×2列联表如下:________.(填序号)①a =5,b =4,c =3,d =2; ②a =5,b =3,c =4,d =2; ③a =2,b =3,c =4,d =5; ④a =2,b =3,c =5,d =4.解析 四个选项中a +b +c +d 的值与(a +b )(a +c )(c +d )(b +d )的值分别相等,则由χ2的计算公式,可知只需计算(ad -bc )2.经计算,知其值最大的一组是④.答案:④5.某城市随机抽取一年内100天的空气质量指数API 的监测数据,统计结果如下表:(1)ω)的关系式为S =⎩⎪⎨⎪⎧0(0≤ω≤100),4ω-400(100<ω≤300),2 000(ω>300).试估计在本年内随机抽取一天,该天经济损失S 大于200元且不超过600元的概率. (2)若本次抽取的样本数据有30天是在供暖季,其中有8天为重度污染,完成下面2×2列联表,并判断能否有95%的把握认为该市本年空气重度污染与供暖有关.解 (1)设“600元”为事件A ,由200<S ≤600,得150<ω≤250,频数为39. ∴P (A )=39100.(2)根据已知数据得到如下列联表:χ2=100×(22×7-63×8)85×15×30×70≈4.575>3.841.所以有95%的把握认为空气重度污染与供暖有关.6.目前,在“互联网+”和“大数据”浪潮的推动下,在线教育平台如雨后春笋般蓬勃发展,与此同时,很多学生家长和相关专家对在线教学也产生了质疑,主要原因就是对在线教学,学生是否能认真听讲存在疑虑.在这种情况下,某市教育主管部门在该市各中小学采用分层抽样的方式抽出15周岁以下和15周岁以上各200人进行调查研究,其中15周岁以下的能认真听讲的有150人,不能做到认真听讲的有50人,15周岁以上的170人能认真听讲,不能做到认真听讲的有30人.(1)完成下列2×2列联表:97.5%的把握判定两个变量有关联)(3)现用分层抽样的方法,从15周岁以下的人中抽取8人,在这8人中任取2人进行座谈,求抽到的人中至少有1人能认真听讲的概率.解 (1)填表如下:(2)χ2=400×(50×170-30×150)280×320×200×200=6.25.因为6.25>5.024,所以有97.5%的把握认为能否认真听讲与年龄有关.(3)由题意可知,从15周岁以下抽8人,其中能认真听讲的为6人,不能认真听讲的为2人.设能认真听讲的人为a 1,a 2,a 3,a 4,a 5,a 6,不能认真听讲的人为b 1,b 2,于是,在8人中任意抽取2人有(a 1,a 2),(a 1,a 3),(a 1,a 4),(a 1,a 5),(a 1,a 6),(a 2,a 3),(a 2,a 4),(a 2,a 5),(a 2,a 6),(a 3,a 4),(a 3,a 5),(a 3,a 6),(a 4,a 5),(a 4,a 6),(a 5,a 6),(b 1,a 1)(b 1,a 2),(b 1,a 3),(b 1,a 4)(b 1,a 5),(b 1,a 6),(b 2,a 1),(b 2,a 2)(b 2,a 3),(b 2,a 4),(b 2,a 5),(b 2,a 6),(b 1,b 2)共28种,其中,至少有1人能认真听讲的对立事件是2人都不能认真听讲,只有(b 1,b 2)一种情况.于是,设事件A =“至少有一人认真听讲”, 则P (A )=1-P (A -)=2728.。

2022年《列联表独立性分析案例》教学优秀教案1

2022年《列联表独立性分析案例》教学优秀教案1

列联表独立性分析案例一、学习目标1、通过对典型案例〔如“肺癌与吸烟有关吗〞〕的探究,了解独立性检验〔只要求2×2列联表〕的根本思想、方法及初步应用。

2、让学生经历数据处理的过程,提高探索解决问题的能力。

二、学习重点让学生体会独立性检验的根本思想三、学习难点了解独立性检验的根本思想;了解随机变量的含义。

四、学习过程〔一〕引入课题在许多实际问题中,我们需要考察两种因素的关系。

例如:数学解题能力是否与性别有关;高考升学率是否与补课有关。

为了分析这些问题,我们需要获取一些数据,并对数据进行分析处理,对所得的结论作出判断。

〔二〕案例讲解案例患肺癌与吸烟是否有关?肺癌与吸烟的调查数据分析:吸烟的人在调查总人数中所占的百分比:54%患肺癌的人在调查总人数中所占的百分比:60%既吸烟又患肺癌的人在调查总人数中所占的百分比:39%显然,54%60%39%。

我们有理由相信吸烟是与肺癌有关的。

在解决具体实例的根底上,教师要引导学生总结出一般情况下的解决问题的方法。

假设,那么吸烟是与肺癌无关联,可以认为它们相互独立。

这个式子还可以改写为:.在吸烟与患肺癌问题中,,这说明既吸烟又患肺癌的人数比独立时要多,在这种情况下,吸烟会使患肺癌的人数增加。

需要注意的是,在式子中的各个分式在实际中都是频率,不能等同于概率。

实际上,为了应用概率论得到统计量的近似的分布,统计学家最终选用了:来衡量独立性的大小,它可以化简为当时,有95%的把握判定两个属性不独立;当时,有99%的把握判定两个属性不独立。

〔三〕稳固练习打鼾不仅影响别人休息,而且可能与患某种疾病有关,下表是一次调查所得数据,试问:每一晚都打鼾与患心脏病有关系吗?有多大把握认为你的结论成立?解:由题意:,所以我们有99.9%的把握认为每一晚都打鼾与患心脏病有关系。

〔四〕课堂小结1.在统计学中,独立性检验就是检验两个分类变量是否有关系的一种统计方法。

独立性检验的思想来自于统计上的假设检验思想,它与反证法类似。

2018年数学同步优化指导湘教版选修1-2练习:4-3 列联

2018年数学同步优化指导湘教版选修1-2练习:4-3 列联

4.3列联表独立性分析案例
1.如果有99%的把握认为“x与y有关系”,那么χ2满足()
A.χ2>6.635B.χ2≥5.024
C.χ2≥7.879 D.χ2>3.841
答案:A
2.为了了解中学生近视情况,在某校开展调查,已知该校150名男生中有80名近视,140名女生中有70名近视,在检验这些中学生眼睛近视是否与性别有关时用什么方法最有说服力()
A.平均数B.方差
C.回归分析D.独立性检验
解析分析已知条件,易得如下表格:
根据列联表可得χ2,故利用独立性检验的方法最有说服力.
答案:D
3.高二第二学期期中考试,按照甲、乙两个班级学生数学考试成绩优秀和不优秀统计后,得到如下表格:
班组与成绩统计表
则统计量χ2的值为
解析由列联表易得a=11,b=34,c=8,d=37,
则χ2=
(a+b+c+d)(ad-bc)2 (a+b)(a+c)(b+d)(c+d)
=90×(11×37-8×34)2
19×71×45×45
=0.600 4≈0.60.
答案:0.60
4.为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:
已知P(χ2>3.841)表中数据,得到χ2=50×(13×20-10×7)2
≈4.844.则认为选修文科与性别有关系出错的可能性为________.
23×27×20×30
解析∵χ2≈4.844>3.841,∴认为选修文科与性别有关系出错的可能性为5%.
答案:5%。

2019年高中数学第8章统计与概率8.4列联表独立性分析案例讲义(含解析)湘教版

2019年高中数学第8章统计与概率8.4列联表独立性分析案例讲义(含解析)湘教版

8.4列联表独立性分析案例[读教材·填要点]1.列联表一般地,对于两个因素X和Y,X的两个水平取值:A和A(如吸烟和不吸烟),Y也有两个水平取值:B和B(如患肺癌和不患肺癌),我们得到下表中的抽样数据,这个表格称为2×2列联表.2.χ2公式χ2=n ad-bc2a +b c+d a+c b+d.3.独立性检验的概念用随机变量χ2研究两变量是否有关的方法称为独立性检验.4.独立性检验的步骤要判断“X与Y有关系”,可按下面的步骤进行:(1)提出假设H0:X与Y无关;(2)根据2×2列联表及χ2公式,计算χ2的值;(3)查对临界值,作出判断.其中临界值如表所示:表示在H0成立的情况下,事件“χ2≥x0”发生的概率.5.变量独立性判断的依据(1)如果χ2>10.828时,就有99.9%的把握认为“X与Y有关系”;(2)如果χ2>6.635时,就有99%的把握认为“X与Y有关系”;(3)如果χ2>2.706时,就有90%的把握认为“X与Y有关系”;(4)如果χ2≤2.706时,就认为没有充分的证据显示“X与Y有关系”,但也不能作出结论“H0成立”,即X与Y没有关系.[小问题·大思维]1.利用χ2进行独立性分析,估计值的准确度与样本容量有关吗?提示:利用χ2进行独立性分析,可以对推断的正确性的概率作出估计,样本容量n越大,这个估计值越准确.如果抽取的样本容量很小,那么利用χ2进行独立性检验的结果就不具有可靠性.2.在χ2运算后,得到χ2的值为29.78,在判断因素相关时,P(χ2≥6.64)≈0.01和P(χ2≥7.88)≈0.005,哪种说法是正确的?提示:两种说法均正确.P(χ2≥6.64)≈0.01的含义是在犯错误的概率不超过0.01的前提下认为两因素相关;而P(χ2≥7.88)≈0.005的含义是在犯错误的概率不超过0.005的前提下认为两因素相关.[例1]数据:[解] 由列联表中的数据,得χ2的值为χ2=-2254×1 379×54×1 579≈68.033>6.635.因此,有99%的把握认为每一晚打鼾与患心脏病有关系.解决一般的独立性分析问题,首先由所给2×2列联表确定a,b,c,d,a+b+c+d 的值,然后代入随机变量的计算公式求出观测值χ2,将χ2与临界值x0进行对比,确定有多大的把握认为两个分类变量有关系.1.某大型企业人力资源部为了研究企业员工工作积极性和对待企业改革态度的关系,经过调查得到如下列联表:系?解:由列联表中的数据,得 χ2=-294×95×86×103≈10.759>6.635,∴有99%的把握认为工作态度与支持企业改革之间有关系.[例2] (1)(2)若饮用干净水得病5人,不得病50人,饮用不干净水得病9人,不得病22人.按此样本数据分析这种疾病是否与饮用水有关,并比较两种样本在反映总体时的差异.[解] (1)假设H 0:传染病与饮用水无关.把表中数据代入公式,得χ2=-2146×684×518×312≈54.21,因为当H 0成立时,χ2≥10.828的概率约为0.001,所以我们有99.9%的把握认为该地区这种传染病与饮用不干净水有关.(2)依题意得2×2列联表:此时,χ2=-214×72×55×31≈5.785.由于5.785>2.706,所以我们有90%的把握认为该种疾病与饮用不干净水有关.两个样本都能统计得到传染病与饮用不干净水有关这一相同结论,但(1)中我们有99.9%的把握肯定结论的正确性,(2)中我们只有90%的把握肯定.独立性分析的步骤:要推断“X与Y是否有关”可按下面的步骤进行:①提出统计假设H0:X与Y无关;②根据2×2列联表与χ2计算公式计算出χ2的值;③根据两个临界值,作出判断.2.为了探究学生选报文、理科是否与对外语的兴趣有关,某同学调查了361名高二在校学生,调查结果如下:理科对外语有兴趣的有138人,无兴趣的有98人,文科对外语有兴趣的有73人,无兴趣的有52人.是否有90%的把握认为“学生选报文、理科与对外语的兴趣有关”?解:根据题目所给的数据得到如下列联表:χ2=-2211×150×236×125≈1.871×10-4.因为1.871×10-4<2.706,所以没有90%的把握认为“学生选报文、理科与对外语的兴趣有关”.[例3] 为了比较注射A,B两种药物后产生的皮肤疱疹的面积,选200只家兔做试验,将这200只家兔随机地分成两组,每组100只,其中一组注射药物A,另一组注射药物B.下表1和表2分别是注射药物A和药物B后的试验结果.(疱疹面积单位:mm2) 表1:注射药物A后皮肤疱疹面积的频数分布表表2:注射药物B 后皮肤疱疹面积的频数分布表完成下面2×2列联表,并回答是否有99%的把握认为“注射药物A 后的疱疹面积与注射药物B 后的疱疹面积有差异”.表3:[解]χ2=-2100×100×105×95≈24.56>6.635.因此,有99%的把握认为“注射药物A 后的疱疹面积与注射药物B 后的疱疹面积有差异”.在绘制列联表时,应对问题中的不同数据分成不同的类别,然后列表.要注意列联表中各行、各列中数据的意义及书写格式.3.已知某班n 名同学的数学测试成绩(单位:分,满分100分)的频率分布直方图如图所示,其中a ,b ,c 成等差数列,且成绩在[90,100]内的有6人.(1)求n 的值;(2)规定60分以下为不及格,若不及格的人中女生有4人,而及格的人中,男生比女生少4人,借助独立性检验分析是否有90%的把握认为“本次测试的及格情况与性别有关”?附:χ2=a +bc +d a +cb +d解:(1)依题意得⎩⎪⎨⎪⎧+0.025+c +2b +a =1,2b =a +c ,解得b =0.01.因为成绩在[90,100]内的有6人, 所以n =60.01×10=60.(2)由于2b =a +c ,而b =0.01,可得a +c =0.02,则不及格的人数为0.02×10×60=12,及格的人数为60-12=48,设及格的人中,女生有x 人,则男生有x -4人, 于是x +x -4=48,解得x =26,故及格的人中,女生有26人,男生有22人. 于是本次测试的及格情况与性别的2×2列联表如下:结合列联表计算可得χ2=30×30×48×12=1.667<2.706,故没有90%的把握认为“本次测试的及格情况与性别有关”.性别与患色盲是否有关?你所得到的结论在什么范围内有效?[解] 由题意作2×2列联表如下:法一:由列联表中数据可知,在调查的男人中,患色盲的比例是38480≈7.917%,女人中患色盲的比例为6520≈1.154%,由于两者差距较大,因而我们可以认为性别与患色盲是有关系的.法二:由列联表中所给的数据可知,a=38,b=442,c=6,d=514,a+b=480,c+d=520,a+c=44,b+d=956,n=1 000,代入公式得χ2=-2480×520×44×956≈27.1.由于χ2≈27.1>6.635,所以我们有99%的把握即在犯错误不超过0.01的前提下认为性别与患色盲有关系.这个结论只对所调查的480名男人和520名女人有效.1.下面是2×2列联表:则表中a,b的值分别为A.94,96 B.52,50C.52,54 D.54,52解析:选C ∵a+21=73,∴a=52.又∵a+2=b,∴b=54.2.下列关于χ2的说法中正确的是( )A.χ2在任何相互独立问题中都可以用于检验是否相关B.χ2的值越大,两个事件的相关性越大C.χ2是用来判断两个相互独立事件相关与否的一个统计量,它可以用来判断两个事件是否相关这一类问题D.χ2=n ad-bca +b c+d a+c b+d答案:C3.对于因素X与Y的随机变量χ2的值,下列说法正确的是( )A.χ2越大,“X与Y有关系”的可信程度越小B.χ2越小,“X与Y有关系”的可信程度越小C.χ2越接近于0,“X与Y没有关系”的可信程度越小D.χ2越大,“X与Y没有关系”的可信程度越大解析:选B χ2越大,“X与Y没有关系”的可信程度越小,则“X与Y有关系”的可信程度越大.即χ2越小,“X与Y有关系”的可信程度越小.4.若由一个2×2列联表中的数据计算得χ2的观测值为4.013,那么在犯错误的概率不超过________的前提下,认为两个变量之间有关系.解析:因为4.013>3.841,所以在犯错误的概率不超过0.05的前提下,认为两个变量之间有关系.答案:0.055.某矿石粉厂当生产一种矿石粉时,在数天内即有部分工人患职业性皮肤炎,在生产季节开始,随机抽取75名车间工人穿上新防护服,其余仍穿原用的防护服,生产进行一个月后,检查两组工人的皮肤炎患病人数如下:解析:χ2=-275×28×15×88≈13.826>6.635.故有99%的把握说,新防护服比旧防护服对预防工人职业性皮炎有效.答案:99%6.为了解某班学生喜爱打篮球是否与性别有关,对本班50人进行了问卷调查得到了如下的列联表:已知在全部50人中随机抽取1人抽到爱打篮球的学生的概率为35.(1)请将上面的列联表补充完整;(2)是否有99%的把握认为喜爱打篮球与性别有关;请说明理由. 附参考公式:χ2=n ad -bc 2a +bc +d a +cb +d,其中n =a +b +c +d .解:(1)列联表补充如下:(2)∵χ2=-230×20×25×25≈8.333>6.635,∴有99%的把握认为喜爱打篮球与性别有关.一、选择题1.有两个因素X 与Y 的一组数据,由其列联表计算得χ2≈4.523,则认为X 与Y 有关系是错误的可信度为( )A .95%B .90%C .5%D .10%解析:选C ∵χ2≥3.841.∴X 与Y 有关系的概率为95%,∴X 与Y 有关系错误的可信度为5%.2.通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:计算得,χ2=-260×50×60×50≈7.8.附表:A.在犯错误的概率不超过0.1% 的前提下,认为“爱好该项运动与性别有关”B.在犯错误的概率不超过0.1% 的前提下,认为“爱好该项运动与性别无关”C.有99%以上的把握认为“爱好该项运动与性别有关”D.有99%以上的把握认为“爱好该项运动与性别无关”解析:选C 根据独立性分析的思想方法,正确选项为C.3.某高校“统计初步”课程的老师随机调查了选该课的一些学生情况,具体数据如下表:为了分析主修统计中的数据,得到χ2=-223×27×20×30≈4.84,所以断定主修统计专业与性别有关系,这种判断出错的可能性为( )A.0.025 B.0.05C.0.975 D.0.95解析:选B ∵χ2≈4.84>3.841,所以我们有95%的把握认为主修统计专业与性别无关,即判断出错的可能性为0.05.4.已知P(x2≥2.706)=0.10,两个因素X和Y,取值分别为{x1,x2}和{y1,y2},其样本频数分别是a=10,b=21,c+d=35.若在犯错误的概率不超过0.1的前提下,认为X与Y有关系,则c等于( )A.5 B.6C.7 D.8解析:选A 经分析,c=5.二、填空题5.班级与成绩2×2列联表:表中数据m,n,p,解析:m=10+7=17,n=35+38=73,p=7+38=45,q=m+n=90.答案:17,73,45,906.在吸烟与患肺病是否相关的判断中,有下面的说法:①若χ2>6.64,则在犯错误的概率不超过0.01的前提下,认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99人患有肺病;②从独立性分析可知在犯错误的概率不超过0.01的前提下,认为吸烟与患肺病有关系时,若某人吸烟,则他有99%的可能患有肺病;③从独立性分析可知在犯错误的概率不超过0.05的前提下,认为吸烟与患肺病有关系时,是指有5%的可能性使得推断错误.其中说法正确的是________.解析:χ2是检验吸烟与患肺病相关程度的量,是相关关系,而不是确定关系,是反映有关和无关的概率,故说法①不正确;说法②中对“确定容许推断犯错误概率的上界”理解错误;说明③正确.答案:③7.统计推断,当________时,在犯错误的概率不超过0.05的前提下认为事件A与B 有关;当________时,认为没有充分的证据显示事件A与B是有关的.解析:当k>3.841时,就有在犯错误的概率不超过0.05的前提下认为事件A与B有关,当k<2.706时认为没有充分的证据显示事件A与B是有关的.答案:k>3.841 k<2.7068.某电视台在一次对收看文艺节目和新闻节目观众的抽样调查中,随机抽取了100名电视观众,相关的数据如下表所示:由表中数据直观分析,收看新闻节目的观众是否与年龄有关:________(填“是”或“否”).解析:因为在20至40岁的58名观众中有18名观众收看新闻节目,而大于40岁的42名观众中有27名观众收看新闻节目,即ba +b =1858,dc +d =2742,两者相差较大,所以,经直观分析,收看新闻节目的观众与年龄是有关的.答案:是 三、解答题9.某市对该市一重点中学2018年高考上线情况进行统计,随机抽查得到表格:解:对于上述四个科目,分别构造四个随机变量 χ21,χ22,χ23,χ24. 由表中数据可以得到: 语文:χ21=-2201×43×204×40=7.294>6.64,数学:χ22=-2201×43×201×43=30.008>6.64,英语:χ23=-2201×43×200×44=24.155>6.64,综合科目: χ24=-2201×43×201×43=17.264>6.64.所以有99%的把握认为语文、数学、英语、综合科目上线与总分上线有关系,数学上线与总分上线关系最大.10.一次对人们休闲方式的调查中共调查了124人,其中女性70人,男性54人,女性中有43人主要的休闲方式是看电视,另外27人主要的休闲方式是运动;男性中有21人主要的休闲方式是看电视,另外33人主要的休闲方式是运动.(1)根据以上数据建立一个2×2列联表;(2)能否在犯错误的概率不超过0.05的前提下认为性别与休闲方式有关系? 解:(1)2×2列联表如下:(2)χ2=-270×54×64×60≈6.201.因为6.201>3.841,所以有理由认为假设休闲方式与性别无关是不合理的,即在犯错误的概率不超过0.05的前提下认为休闲方式与性别有关.。

8.4列联表独立性分析案例课件-湘教版数学选修2-3

8.4列联表独立性分析案例课件-湘教版数学选修2-3
x0 0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828
X
Y 有效
口服
58
无效 40
合计 98
注射
64
31
95
合计
122
71
193
解:设H0:药的效果与给药方式没有关系
<3.841
练习巩固:
1. 在吸烟与患肺病这两个分类变量的计算中,下列说法正确 的是( )
x0 0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828
得到原结论成立的可信程度 故有 的把握认为X与Y相关
x0 0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828
X Y 喜欢数学课程 不喜欢数学课程

15
35
总计 50

4
46
50
总计
19
81
100
例2、某项实验,在100次实验中,成功率只有10%,进行技术 改造后,又进行了100次实验.试问:若要有97.5%以上的把握 认为“技术改造有明显效果”,实验的成功率至少为多少? (设 P( 2 5) 0.025 )
40
3700% 2650%
30 2500%
20 341005%%
患肺癌患肺癌 不患肺不癌吸患肺烟癌
不吸烟
2100% 10 105%
不吸烟
从各个三频维数柱的形相图0对能0大清0% 小楚肺条不不吸癌形吸烟的图烟 比、例等高高于条不形患图肺能癌看的出比,例吸烟
独立假性设检验

《4.3 列联表独立性分析案例》课件-优质公开课-湘教选修1-2精品

《4.3 列联表独立性分析案例》课件-优质公开课-湘教选修1-2精品

事件A与B有关;当χ2≤3.841时,认为事件A与B是无关的.
课前探究学习
课堂讲练互动
3.反证法原理与独立性检验原理的比较
反证法原理 —— 在假设 H0 下,如果推出一个矛盾,就证
明了H0不成立. 独立性检验原理 ——在假设 H0 下,如果出现一个与 H0 相 矛盾的小概率事件,就推断 H0 不成立,且该推断犯错误 的概率不超过小概率.
4.3 列联表独立性分析案例
【课标要求】 1.通过典型案例的探究,了解独立性检验(只要求2×2列联 表)的基本思想、方法及其简单应用.
2.本节的重点和难点是独立性检验的思想、方法及其初步
应用.
课前探究学习
课堂讲练互动
自学导引 1.在 2× 2 列联表中,χ2 统计量的计算公式为 nad-bc2 a+bc+da+cb+d 2 χ= , n= a+b+c+d .
389 1 048


665
772
1 437
根据列联表中的数据,得到
2 1 437 × 214 × 597 - 175 × 451 χ2= ≈16.373>6.635. 389×1 048×665×772
课前探究学习 课堂讲练互动
名师点睛 1.两个事件A与B独立的含义 如果事件A与B的发生彼此互不影响,或者影响可以忽略 不计,就可以认为它们是独立的.如果把事件A,B同时 发生记作AB,那么就有P(AB)=P(A)P(B),此时还有P( A B)=P( A )P(B),P(A B )=P(A)P( B ),P( A P( A )P( B ). B )=

将问题中的数据写成2×2列联表:
患A疾病 服用该药品 不服用该药品 合计 5 18 23 不患A疾病 100 400 500 合计 105 418 523

独立性检验

独立性检验

如果 A,B 无关,那么nn11与nn1+·nn+1 应 该很接近,nn12与nn1+·nn+2应该很 接近...
从而
χ (n11 _ n1+. nn+1)2
2=
n1+
.
n+1 n
+
(n12 _ n1+. nn+2)2
(n21 _ n2+. nn+1)2
n1+
.
n+2 n
+
n2+
.
n+1 n
+
( n22
事件A与B独立,有P(AB)=P(A)P(B) 成立。我们用H0表示上式,即H0: P(AB)=P(A) P(B)。并称之为统计假 设,当H0成立时,下面的三个式子也 成立:
P( AB)=P( A)P(B) P(A B)=P(A)P( B) P( A B)=P( A)P( B)
根据概率的统计定义,上面提 到的众多事件的概率都可以用相应 的频率来估计。
解:由公式得:
χ2 =
392 (39×167-29×157)2 68×324×196×196
≈1.780
因为1.780<3.841,我们没有 理由说“心脏搭桥手术”与“又 发生过心脏病”有关。
例3.某大型企业人力资源部为了 研究企业员工工作积极性和对待 企业改革态度的关系,随机抽取 了189名员工进行调查,所得的数 据如下表所示:
独立性检验
一、问题引入
警示:你快戒烟吧,否则一定 会患慢性气管炎的。
老年人患慢性气管炎与吸烟习 惯有没有关系呢?
二、案例分析
例1.为了探究患慢性气管炎与吸烟 是否有关,调查了339名50岁以上的 人,调查结果如下表所示:

2019年高中数学第8章统计与概率8.4列联表独立性分析案例讲义(含解析)湘教版

2019年高中数学第8章统计与概率8.4列联表独立性分析案例讲义(含解析)湘教版

8.4列联表独立性分析案例[读教材·填要点]1.列联表一般地,对于两个因素X和Y,X的两个水平取值:A和A(如吸烟和不吸烟),Y也有两个水平取值:B和B(如患肺癌和不患肺癌),我们得到下表中的抽样数据,这个表格称为2×2列联表.2.χ2公式χ2=n ad-bc2a +b c+d a+c b+d.3.独立性检验的概念用随机变量χ2研究两变量是否有关的方法称为独立性检验.4.独立性检验的步骤要判断“X与Y有关系”,可按下面的步骤进行:(1)提出假设H0:X与Y无关;(2)根据2×2列联表及χ2公式,计算χ2的值;(3)查对临界值,作出判断.其中临界值如表所示:表示在H0成立的情况下,事件“χ2≥x0”发生的概率.5.变量独立性判断的依据(1)如果χ2>10.828时,就有99.9%的把握认为“X与Y有关系”;(2)如果χ2>6.635时,就有99%的把握认为“X与Y有关系”;(3)如果χ2>2.706时,就有90%的把握认为“X与Y有关系”;(4)如果χ2≤2.706时,就认为没有充分的证据显示“X与Y有关系”,但也不能作出结论“H0成立”,即X与Y没有关系.[小问题·大思维]1.利用χ2进行独立性分析,估计值的准确度与样本容量有关吗?提示:利用χ2进行独立性分析,可以对推断的正确性的概率作出估计,样本容量n越大,这个估计值越准确.如果抽取的样本容量很小,那么利用χ2进行独立性检验的结果就不具有可靠性.2.在χ2运算后,得到χ2的值为29.78,在判断因素相关时,P(χ2≥6.64)≈0.01和P(χ2≥7.88)≈0.005,哪种说法是正确的?提示:两种说法均正确.P(χ2≥6.64)≈0.01的含义是在犯错误的概率不超过0.01的前提下认为两因素相关;而P(χ2≥7.88)≈0.005的含义是在犯错误的概率不超过0.005的前提下认为两因素相关.[例1]数据:[解] 由列联表中的数据,得χ2的值为χ2=-2254×1 379×54×1 579≈68.033>6.635.因此,有99%的把握认为每一晚打鼾与患心脏病有关系.解决一般的独立性分析问题,首先由所给2×2列联表确定a,b,c,d,a+b+c+d 的值,然后代入随机变量的计算公式求出观测值χ2,将χ2与临界值x0进行对比,确定有多大的把握认为两个分类变量有关系.1.某大型企业人力资源部为了研究企业员工工作积极性和对待企业改革态度的关系,经过调查得到如下列联表:系?解:由列联表中的数据,得 χ2=-294×95×86×103≈10.759>6.635,∴有99%的把握认为工作态度与支持企业改革之间有关系.[例2] (1)(2)若饮用干净水得病5人,不得病50人,饮用不干净水得病9人,不得病22人.按此样本数据分析这种疾病是否与饮用水有关,并比较两种样本在反映总体时的差异.[解] (1)假设H 0:传染病与饮用水无关.把表中数据代入公式,得χ2=-2146×684×518×312≈54.21,因为当H 0成立时,χ2≥10.828的概率约为0.001,所以我们有99.9%的把握认为该地区这种传染病与饮用不干净水有关.(2)依题意得2×2列联表:此时,χ2=-214×72×55×31≈5.785.由于5.785>2.706,所以我们有90%的把握认为该种疾病与饮用不干净水有关.两个样本都能统计得到传染病与饮用不干净水有关这一相同结论,但(1)中我们有99.9%的把握肯定结论的正确性,(2)中我们只有90%的把握肯定.独立性分析的步骤:要推断“X与Y是否有关”可按下面的步骤进行:①提出统计假设H0:X与Y无关;②根据2×2列联表与χ2计算公式计算出χ2的值;③根据两个临界值,作出判断.2.为了探究学生选报文、理科是否与对外语的兴趣有关,某同学调查了361名高二在校学生,调查结果如下:理科对外语有兴趣的有138人,无兴趣的有98人,文科对外语有兴趣的有73人,无兴趣的有52人.是否有90%的把握认为“学生选报文、理科与对外语的兴趣有关”?解:根据题目所给的数据得到如下列联表:χ2=-2211×150×236×125≈1.871×10-4.因为1.871×10-4<2.706,所以没有90%的把握认为“学生选报文、理科与对外语的兴趣有关”.[例3] 为了比较注射A,B两种药物后产生的皮肤疱疹的面积,选200只家兔做试验,将这200只家兔随机地分成两组,每组100只,其中一组注射药物A,另一组注射药物B.下表1和表2分别是注射药物A和药物B后的试验结果.(疱疹面积单位:mm2) 表1:注射药物A后皮肤疱疹面积的频数分布表表2:注射药物B 后皮肤疱疹面积的频数分布表完成下面2×2列联表,并回答是否有99%的把握认为“注射药物A 后的疱疹面积与注射药物B 后的疱疹面积有差异”.表3:[解]χ2=-2100×100×105×95≈24.56>6.635.因此,有99%的把握认为“注射药物A 后的疱疹面积与注射药物B 后的疱疹面积有差异”.在绘制列联表时,应对问题中的不同数据分成不同的类别,然后列表.要注意列联表中各行、各列中数据的意义及书写格式.3.已知某班n 名同学的数学测试成绩(单位:分,满分100分)的频率分布直方图如图所示,其中a ,b ,c 成等差数列,且成绩在[90,100]内的有6人.(1)求n 的值;(2)规定60分以下为不及格,若不及格的人中女生有4人,而及格的人中,男生比女生少4人,借助独立性检验分析是否有90%的把握认为“本次测试的及格情况与性别有关”?附:χ2=a +bc +d a +cb +d解:(1)依题意得⎩⎪⎨⎪⎧+0.025+c +2b +a =1,2b =a +c ,解得b =0.01.因为成绩在[90,100]内的有6人, 所以n =60.01×10=60.(2)由于2b =a +c ,而b =0.01,可得a +c =0.02,则不及格的人数为0.02×10×60=12,及格的人数为60-12=48,设及格的人中,女生有x 人,则男生有x -4人, 于是x +x -4=48,解得x =26,故及格的人中,女生有26人,男生有22人. 于是本次测试的及格情况与性别的2×2列联表如下:结合列联表计算可得χ2=30×30×48×12=1.667<2.706,故没有90%的把握认为“本次测试的及格情况与性别有关”.性别与患色盲是否有关?你所得到的结论在什么范围内有效?[解] 由题意作2×2列联表如下:法一:由列联表中数据可知,在调查的男人中,患色盲的比例是38480≈7.917%,女人中患色盲的比例为6520≈1.154%,由于两者差距较大,因而我们可以认为性别与患色盲是有关系的.法二:由列联表中所给的数据可知,a=38,b=442,c=6,d=514,a+b=480,c+d=520,a+c=44,b+d=956,n=1 000,代入公式得χ2=-2480×520×44×956≈27.1.由于χ2≈27.1>6.635,所以我们有99%的把握即在犯错误不超过0.01的前提下认为性别与患色盲有关系.这个结论只对所调查的480名男人和520名女人有效.1.下面是2×2列联表:则表中a,b的值分别为A.94,96 B.52,50C.52,54 D.54,52解析:选C ∵a+21=73,∴a=52.又∵a+2=b,∴b=54.2.下列关于χ2的说法中正确的是( )A.χ2在任何相互独立问题中都可以用于检验是否相关B.χ2的值越大,两个事件的相关性越大C.χ2是用来判断两个相互独立事件相关与否的一个统计量,它可以用来判断两个事件是否相关这一类问题D.χ2=n ad-bca +b c+d a+c b+d答案:C3.对于因素X与Y的随机变量χ2的值,下列说法正确的是( )A.χ2越大,“X与Y有关系”的可信程度越小B.χ2越小,“X与Y有关系”的可信程度越小C.χ2越接近于0,“X与Y没有关系”的可信程度越小D.χ2越大,“X与Y没有关系”的可信程度越大解析:选B χ2越大,“X与Y没有关系”的可信程度越小,则“X与Y有关系”的可信程度越大.即χ2越小,“X与Y有关系”的可信程度越小.4.若由一个2×2列联表中的数据计算得χ2的观测值为4.013,那么在犯错误的概率不超过________的前提下,认为两个变量之间有关系.解析:因为4.013>3.841,所以在犯错误的概率不超过0.05的前提下,认为两个变量之间有关系.答案:0.055.某矿石粉厂当生产一种矿石粉时,在数天内即有部分工人患职业性皮肤炎,在生产季节开始,随机抽取75名车间工人穿上新防护服,其余仍穿原用的防护服,生产进行一个月后,检查两组工人的皮肤炎患病人数如下:解析:χ2=-275×28×15×88≈13.826>6.635.故有99%的把握说,新防护服比旧防护服对预防工人职业性皮炎有效.答案:99%6.为了解某班学生喜爱打篮球是否与性别有关,对本班50人进行了问卷调查得到了如下的列联表:已知在全部50人中随机抽取1人抽到爱打篮球的学生的概率为35.(1)请将上面的列联表补充完整;(2)是否有99%的把握认为喜爱打篮球与性别有关;请说明理由. 附参考公式:χ2=n ad -bc 2a +bc +d a +cb +d,其中n =a +b +c +d .解:(1)列联表补充如下:(2)∵χ2=-230×20×25×25≈8.333>6.635,∴有99%的把握认为喜爱打篮球与性别有关.一、选择题1.有两个因素X 与Y 的一组数据,由其列联表计算得χ2≈4.523,则认为X 与Y 有关系是错误的可信度为( )A .95%B .90%C .5%D .10%解析:选C ∵χ2≥3.841.∴X 与Y 有关系的概率为95%,∴X 与Y 有关系错误的可信度为5%.2.通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:计算得,χ2=-260×50×60×50≈7.8.附表:A.在犯错误的概率不超过0.1% 的前提下,认为“爱好该项运动与性别有关”B.在犯错误的概率不超过0.1% 的前提下,认为“爱好该项运动与性别无关”C.有99%以上的把握认为“爱好该项运动与性别有关”D.有99%以上的把握认为“爱好该项运动与性别无关”解析:选C 根据独立性分析的思想方法,正确选项为C.3.某高校“统计初步”课程的老师随机调查了选该课的一些学生情况,具体数据如下表:为了分析主修统计中的数据,得到χ2=-223×27×20×30≈4.84,所以断定主修统计专业与性别有关系,这种判断出错的可能性为( )A.0.025 B.0.05C.0.975 D.0.95解析:选B ∵χ2≈4.84>3.841,所以我们有95%的把握认为主修统计专业与性别无关,即判断出错的可能性为0.05.4.已知P(x2≥2.706)=0.10,两个因素X和Y,取值分别为{x1,x2}和{y1,y2},其样本频数分别是a=10,b=21,c+d=35.若在犯错误的概率不超过0.1的前提下,认为X与Y有关系,则c等于( )A.5 B.6C.7 D.8解析:选A 经分析,c=5.二、填空题5.班级与成绩2×2列联表:表中数据m,n,p,解析:m=10+7=17,n=35+38=73,p=7+38=45,q=m+n=90.答案:17,73,45,906.在吸烟与患肺病是否相关的判断中,有下面的说法:①若χ2>6.64,则在犯错误的概率不超过0.01的前提下,认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99人患有肺病;②从独立性分析可知在犯错误的概率不超过0.01的前提下,认为吸烟与患肺病有关系时,若某人吸烟,则他有99%的可能患有肺病;③从独立性分析可知在犯错误的概率不超过0.05的前提下,认为吸烟与患肺病有关系时,是指有5%的可能性使得推断错误.其中说法正确的是________.解析:χ2是检验吸烟与患肺病相关程度的量,是相关关系,而不是确定关系,是反映有关和无关的概率,故说法①不正确;说法②中对“确定容许推断犯错误概率的上界”理解错误;说明③正确.答案:③7.统计推断,当________时,在犯错误的概率不超过0.05的前提下认为事件A与B 有关;当________时,认为没有充分的证据显示事件A与B是有关的.解析:当k>3.841时,就有在犯错误的概率不超过0.05的前提下认为事件A与B有关,当k<2.706时认为没有充分的证据显示事件A与B是有关的.答案:k>3.841 k<2.7068.某电视台在一次对收看文艺节目和新闻节目观众的抽样调查中,随机抽取了100名电视观众,相关的数据如下表所示:由表中数据直观分析,收看新闻节目的观众是否与年龄有关:________(填“是”或“否”).解析:因为在20至40岁的58名观众中有18名观众收看新闻节目,而大于40岁的42名观众中有27名观众收看新闻节目,即ba +b =1858,dc +d =2742,两者相差较大,所以,经直观分析,收看新闻节目的观众与年龄是有关的.答案:是 三、解答题9.某市对该市一重点中学2018年高考上线情况进行统计,随机抽查得到表格:解:对于上述四个科目,分别构造四个随机变量 χ21,χ22,χ23,χ24. 由表中数据可以得到: 语文:χ21=-2201×43×204×40=7.294>6.64,数学:χ22=-2201×43×201×43=30.008>6.64,英语:χ23=-2201×43×200×44=24.155>6.64,综合科目: χ24=-2201×43×201×43=17.264>6.64.所以有99%的把握认为语文、数学、英语、综合科目上线与总分上线有关系,数学上线与总分上线关系最大.10.一次对人们休闲方式的调查中共调查了124人,其中女性70人,男性54人,女性中有43人主要的休闲方式是看电视,另外27人主要的休闲方式是运动;男性中有21人主要的休闲方式是看电视,另外33人主要的休闲方式是运动.(1)根据以上数据建立一个2×2列联表;(2)能否在犯错误的概率不超过0.05的前提下认为性别与休闲方式有关系? 解:(1)2×2列联表如下:(2)χ2=-270×54×64×60≈6.201.因为6.201>3.841,所以有理由认为假设休闲方式与性别无关是不合理的,即在犯错误的概率不超过0.05的前提下认为休闲方式与性别有关.。

5.5 列联表中独立性的检验

5.5 列联表中独立性的检验

要求:定义变量
medicine(药物:呋喃、甲氰)、result(效果:愈合、未愈合) count(频数)
给出列联表检验结果
或删去理论频数太小的行,列。
最小理论频数=最小行合计频数﹒最小列合计频数/总频数 3.多个总体率比较的卡方检验,若结论为拒绝原假设, 只能认为总体率之间不全等,不能说明任意两个总体率 有无差别,需做多重比较。
例:
判断患鼻咽癌与血型有无关系
分类
患癌者 健康人 合计
A型血
64 125 189
B型血
86 138 224
双向无序列联表:两个分类变量分类标志无数值大小 与先后顺序之分。
疗法 疗效 治愈 32 76 108 未愈 46 50 96 合计
不加牛黄 加牛黄 合计
78 126 204
设不加牛黄组治愈总体率为
,加牛黄组治愈总体率为 “疗法”与“疗效”独立
检验

H0:X与Y独立(即两组总体率相同)
实际频数Oij与理论频数Eij的差异是随机误差, 用 Pearson卡方统计量反映实际Oij与理论Eij吻合程度
O型血
130 210 340
AB型血
20 26 46
合计
300 499 799
第一行合计数,第四列合计数最小,最小理论频数
300 46 E14 17.27 5 799 H0:“患癌”与“血型”独立,H1:“患癌”与“血型”
不独立
2
642 862 N( 1) 799 i , j 1 Oi O j 300 189 300 224
不加牛黄 32 加牛黄 76 合计 108
疗效
治愈 46 50 9“疗法”与“疗效”独立(即两组治愈率相同 ) N=204>40

8.4列联表独立性分析案例

8.4列联表独立性分析案例

课本例题 P 86
总结独立性检验的一般步骤:
(1)假设两个分类变量没有关系; (2)根据列联表和公式计算出K2的观测值; (3)把K2的值与临界值比较,确定X与Y有关的程度或无关 系.
【例 2 】 在吸烟与患肺癌这两个变量的独立性检验的
计算中,下列说法正确的是 ________ .
①若K2>6.635,则我们有99%的把握认为吸烟与患肺癌 有关系,即在100个吸烟的人中必有99人患有肺癌; ②由独立性检验可知,当有 99% 的把握认为吸烟与患肺 癌有关系时,我们说某人吸烟,那么他有99%的可能患 有肺癌; ③从统计量中求出有 95% 的把握认为吸烟与患肺癌有关 系,是指有5%的可能性使得判断出现错误.
变式训练 对电视节目单上的某一节目,部分观众
的态度如下表:
完全同意 反对 合计
男人
女人 合计
14
29 43
26
34 60
4063 103源自问能否在判错率为0.05的条件下认为观看这个电视节目 的观众与性别有关?
假设观看这个电视节目的观众与性别无关

2 103 × 14 × 34 - 29 × 26 由公式得 χ2= ≈1.224.因为 43×60×63×40
解:(1)根据题目所给数据得到如下列联表:
患心脏病 患其他病 总计
秃顶 不秃顶
总计
解:(1)根据题目所给数据得到如下列联表:
患心脏病 患其他病 秃顶 不秃顶 总计 214 451 665 175 597 772 总计 389 1 048 1 437
(2)根据列联表中的数据,得到
因此,在犯错误的概率不超过0.01的前提下, 认为秃顶与患心脏病有关系.
课堂练习
4.有两个分类变量X与Y的一组数据,由其列联表 计算得K2≈4.523,则认为X与Y有关系是错误的 可信度为( ) A.95% B.90% C.5% D.10%

数据分析—列联表与独立性检验

数据分析—列联表与独立性检验

点击对应数字即可跳转到对应题目
1
2
3
4
5
链教材 夯基固本 激活思维
5.(人A选必三P135T8)调查某医院一段时间
内婴儿出生的时间和性别的关联性,得到如右 性别
的列联表(单位:人):

依据α=0.1的独立性检验,则在犯错误的概率 男
不超过___0_.1___的前提下可以认为性别与出生 合计
时间有关联.
聚焦知识
1.2×2列联表
一般地,假设有两个分类变量X和 Y , 它 们 的 取 值 分 别 为 {x1 , x2} 和 {y1,y2},其2×2列联表为
2.临界值
X
X=x1 X=x2 合计
Y
Y=y1 a
Y=y2 b
c
d
a+c b+d
合计
a+b c+d n=a+b+c+d
χ2=(a+b)(cn+(add-)(ab+c)c2)(b+d). 忽略 χ2 的实际分布与该近似分布的误差后,对于任何 小概率值 α,可以找到相应的正实数 xα,使得 P(χ2≥xα)=α 成立.我们称 xα 为 α 的临 界值,这个临界值就可作为判断 χ2 大小的标准.
研题型 能力养成 举题说法
变式 (2023·济南期末)某芯片制造企业使用新技术对某款芯片进行生产.生产该款芯
片有三道工序,这三道工序互不影响.已知批次甲的三道工序次品率分别为510,419,418. (2) 该企业改进生产工艺后,生产了批次乙的芯片.某手机厂商获得批次甲与批次乙 的芯片,并在某款手机上使用.现对使用这款手机的100名用户回访,对开机速度 进行调查.据统计,安装批次甲的芯片有40名,其中对开机速度满意的有30名;安 装批次乙的芯片有60名,其中对开机速度满意的有55名.试整理出2×2列联表(单 位:名),并依据小概率值α=0.05的独立性检验,分析芯片批次是否与用户对开机 速度满意有关.

列联表独立性分析案例教学设计

列联表独立性分析案例教学设计

8.4 列联表独立性分析案例(3)一、教学目标(一)知识目标通过对典型案例(如“色弱与性别是否有关”“中学生物理考试成绩和吃早点是否相关”)的探究,了解独立性检验(只要求2×2列联表)的基本思想、方法及初步应用。

(二)能力目标让学生经历数据处理的过程,会用所学知识对具体案例进行检验,提高探索解决问题的能力。

(三)情感目标从实例中发现问题,提高学习兴趣,激发学习积极性和主动性,不断自我完善,养成不断探求知识完善自我的良好态度。

二、教学重点进一步理解独立性检验的实施步骤三、教学难点对临界值的理解作出判断四、教学过程(一)引入课题独立性检验的步骤。

1.若要推断的论述为H1:“X与Y有关系”。

可按如下步骤判断H1成立的可能性。

A 通过三维柱形图和二维条形图,粗略判断两个分类变量是否有关系。

B 可以利用独立性检验来考察两个分类变量是否有关系。

并能精确判断可靠程度。

2.由观测数据算2χ,其值越大,说明“X与Y有关系”成立的可能性越大。

3.由临界值表确定可靠程度。

(二)案例讲解分析:设从表格中提供的统计数据,可以计算得到如下数值:男性所占百分比:132120.48300+=;女性所占百分比:15150.52300+=在这300人的样本中,男性色弱患者的百分比:120.04300≈;女性色弱的百分比:50.017300≈直观上看,300人中男性色弱的比例高于女性(0.040.017>)。

色弱应该与性别有关。

下面进一步运用独立性的概念进行检验。

从300人中随机选取一人,设1A 表示男性,2A 表示女性,1B 表示色觉正常,2B 表示色弱。

则:1()0.48P A =,2()0.52P A =,2125()0.06300P B +=≈ P (此人为男性且色弱)=12()0.04P A B = 而12()()0.480.060.028P A P B =⨯= 显然1212()()()P A B P A P B ≠P (此人为女性且色弱)=22()0.017P A B =,22()()0.520.060.031P A P B =⨯=显然2222()()()P A B P A P B ≠因此,1A 与2B 、2A 与2B 都不是独立的。

《4.3 列联表独立性分析案例》教案

《4.3 列联表独立性分析案例》教案

《4.3 列联表独立性分析案例》教案教学目标(一)知识与技能:通过本节知识的学习,了解独立性检验的基本思想和初步应用,能对两个分类变量是否有关做出明确的判断。

明确对两个分类变量的独立性检验的基本思想具体步骤,会对具体问题作出独立性检验。

(二)过程与方法: 在本节知识的学习中,应使学生从具体问题中认识进行独立性检验的作用及必要性,树立学好本节知识的信心,在此基础上学习三维柱形图和二维柱形图,并认识它们的基本作用和存在的不足,从而为学习下面作好铺垫,进而介绍K的平方的计算公式和K的平方的观测值R的求法,以及它们的实际意义。

从中得出判断“X与Y有关系”的一般步骤及利用独立性检验来考察两个分类变量是否有关系,并能较准确地给出这种判断的可靠程度的具体做法和可信程度的大小。

最后介绍了独立性检验思想的综合运用(三)情感、态度与价值观:通过本节知识的学习,首先让学生了解对两个分类博变量进行独立性检验的必要性和作用,并引导学生注意比较与观测值之间的联系与区别,从而引导学生去探索新知识,培养学生全面的观点和辨证地分析问题,不为假想所迷惑,寻求问题的内在联系,培养学生学习数学、应用数学的良好的数学品质。

加强与现实生活相联系,从对实际问题的分析中学会利用图形分析、解决问题及用具体的数量来衡量两个变量之间的联系,学习用图形、数据来正确描述两个变量的关系。

明确数学在现实生活中的重要作用和实际价值。

教学中,应多给学生提供自主学习、独立探究、合作交流的机会。

养成严谨的学习态度及实事求是的分析问题、解决问题的科学世界观,并会用所学到的知识来解决实际问题。

教学重点:理解独立性检验的基本思想及实施步骤.教学难点:K的含义.了解独立性检验的基本思想、了解随机变量2教学方法:诱思探究教学法学习方法:自主探究、观察发现、合作交流、归纳总结。

教学过程:一、复习准备:回归分析的方法、步骤,刻画模型拟合效果的方法(相关指数、残差分析)、步骤.二、讲授新课:1. 教学与列联表相关的概念:①分类变量:变量的不同“值”表示个体所属的不同类别的变量称为分类变量. 分类变量的取值一定是离散的,而且不同的取值仅表示个体所属的类别,如性别变量,只取男、女两个值,商品的等级变量只取一级、二级、三级,等等. 分类变量的取值有时可用数字来表示,但这时的数字除了分类以外没有其他的含义. 如用“0”表示“男”,用“1”表示“女”.②列联表:分类变量的汇总统计表(频数表).一般我们只研究每个分类变量只取两个值,这样的. 如吸烟与患肺癌的列联表:列联表称为222. 教学三维柱形图和二维条形图的概念:由列联表可以粗略估计出吸烟者和不吸烟者患肺癌的可能性存在差异.(教师在课堂上用EXCEL软件演示三维柱形图和二维条形图,引导学生观察这两类图形的特征,并分析由图形得出的结论)3. 独立性检验的基本思想:①独立性检验的必要性(为什么中能只凭列联表的数据和图形下结论?):列联表中的数据是样本数据,它只是总体的代表,具有随机性,故需要用列联表检验的方法确认所得结论在多大程度上适用于总体.②独立性检验的步骤(略)及原理(与反证法类似):③ 上例的解决步骤第一步:提出假设检验问题 H 0:吸烟与患肺癌没有关系↔ H 1:吸烟与患肺癌有关系第二步:选择检验的指标 22()K ()()()()n ad bc a b c d a c b d -=++++(它越小,原假设“H 0:吸烟与患肺癌没有关系”成立的可能性越大;它越大,备择假设“H 1:吸烟与患肺癌有关系”成立的可能性越大.第三步:查表得出结论三,例题讲解1.三维柱形图中柱的高度表示的是( )A .各分类变量的频数B .分类变量的百分比C .分类变量的样本数D .分类变量的具体值解析: 三维柱形图中柱的高度表示图中各个频数的相对大小.选A2. 统计推断,当______时,有95 %的把握说事件A 与B 有关;当______时,认为没有充分的证据显示事件A 与B 是有关的.解析:当841.3>k 时,就有95 %的把握说事件A 与B 有关,当076.2≤k 时认为没有充分的证据显示事件A 与B 是有关的.3.为了探究患慢性气管炎与吸烟有无关系,调查了却339名50岁以上的人,结果如下表所示,据此数据请问:50岁以上的人患慢性气管炎与吸烟习惯有关系吗?分析:有表中所给的数据来计算2K 的观测值k,再确定其中的具体关系. 解:设患慢性气管炎与吸烟无关.a=43,b=162,c=13,d=121,a+b=205,c+d=134, a+c=56,b+d=283,n=339所以2K 的观测值为469.7))()()(()(2==+++-=d b c a d c b a bc ad n k .因此635.6>k ,故有99%的把握认为患慢性气管炎与吸烟有关.四,课后练习:1. 在三维柱形图中,主对角线上两个柱形高度的乘积与副对角线上的两个柱形的高度的乘积相差越大两个变量有关系的可能性就( )A.越大B.越小C.无法判断D.以上都不对 2.下列关于三维柱形图和二维条形图的叙述正确的是: ( ) A .从三维柱形图可以精确地看出两个分类变量是否有关系B .从二维条形图中可以看出两个变量频数的相对大小,从三维柱形图中无法看出相对频数的大小C .从三维柱形图和二维条形图可以粗略地看出两个分类变量是否有关系D .以上说法都不对3.对分类变量X 与Y 的随机变量2K 的观测值K ,说法正确的是() A . k 越大," X 与Y 有关系”可信程度越小; B . k 越小," X 与Y 有关系”可信程度越小; C . k 越接近于0," X 与Y 无关”程度越小D . k 越大," X 与Y 无关”程度越大4. 在吸烟与患肺病这两个分类变量的计算中,下列说法正确的是( ) A.若K2的观测值为k=6.635,我们有99%的把握认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99人患有肺病;B.从独立性检验可知有99%的把握认为吸烟与患肺病有关系时,我们说某人吸烟,那么他有99%的可能患有肺病;C.若从统计量中求出有95% 的把握认为吸烟与患肺病有关系,是指有5% 的可能性使得推判出现错误;D.以上三种说法都不正确.5.若由一个2*2列联表中的数据计算得k2=4.013,那么有 把握认为两个变量有关系6.某高校“统计初步”课程的教师随机调查了选该课的一些学生情况,具体数据如下表:为了判断主修统计专业是否与性别有关系,根据表中的数据,得到250(1320107) 4.84423272030k ⨯⨯-⨯=≈⨯⨯⨯因为23.841K ≥,所以判定主修统计专业与性别有关系,那么这种判断出错的可能性为 ____;7.在对人们的休闲方式的一次调查中,共调查了124人,其中女性70人,男性54人。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

0.1%把握认为A与B无关
1%把握认为A与B无关
99.9%把握认A与B有关 99%把握认为A与B有关
10%把握认为A与B无关 90%把握认为A与B有关
没有充分的依据显示A与B有关,但也不能显示A与B无关
独立性检验的步骤
第一步:H0: 吸烟和患病之间没有关系
第二步:列出2×2列联表
吸烟 不吸烟
总计
患病 a c
k0
时就认为K2的观测
k 如就果认为k“两k个0 ,分就类认变为量“之两间个没分有类关变系量”之。-间---有临关界系值”;否则 0
按照上述规则,把“两个分类变量之间有没关系”错误的判断
为“两个分类变量之间有关系”的概率为KP2( k0 ).
在实际应用中,我们把 k k0解释为有(1 P(K 2 k)) 100%
列联表独立性分析案例
2020/12/11
两种变量:
定量变量:体重、身高、温度、考试成绩等等。
变量 分类变量:性别、是否吸烟、是否患肺癌、
宗教信仰、国籍等等。
在日常生活中,我们常常关心分类变量之间是否有关系:
例如,吸烟是否与患肺癌有关系? 性别是否对于喜欢数学课程有影响?等等。
研究两个变量的相关关系:
2020/12/11
例1 在某医院,因为患心脏病而住院的665名男性病人中,有214 人秃顶;而另外772名不是因为患心脏病而住院的男性病人中有 175人秃顶。利用独立性检验方法判断秃顶与患心脏病是否有关 系?你所得的结论在什么范围内有效?
解:根据题目所给数据得到如下列联表:
秃顶 不秃顶
总计
患心脏病 214 451 665
2020/12/11
例2 为考察高中生的性别与是否喜欢数学课程之间的关系,在
某城市的某校高中生中随机抽取300名学生,得到如下联表:
喜欢数学课程 不喜欢数学课程
总计

37
85
122

35
总计
72
143
178
228
300
由表中数据计算K2的观测值k 4.514。能够以95%的把握认为高
中生的性别与是否喜欢数学课程之间有关系吗?请详细阐述得出
2020/1那2/11么这个值到底能告诉我们什么呢?
在H0成立的情况下,统计学家估算出如下的概率
P(K 2 6.635) 0.01.
(2)
即在H0成立的情况下,K2的值大于6.635的概率非常小,近似
于0.01。
也就是说,在H0成立的情况下,对随机变量K2进行多次观 测,观测值超过6.635的频率约为0.01。
k0 3.841 5.024 6.636 7.879
2020/12/11
0.10 2.706
0.001 10.828
独立性检验
随机变量-----卡方统计量 K 2
n(ad bc)2
,
(a b)(c d )(a c)(b d )
临界值表
其中n a b c d为样本容量。
P(K2 k0 ) 0.50
有关系”;如果k的值很小,则说明由样本观测数据没有发现
反对H0 的充分证据。
(3)根据随机变量K2的含义,可以通过评价该假设不合理的 程度,由实际计算出的,说明假设合理的程度为99%,即“两 个分类变量有关系”这一结论成立的可信度为约为99%.
怎样判断K2的观测值k是大还是小呢?

这仅需要确定一个正数 k0 ,当 k k大。此时相应于k 0 的判断规则为:
因此,K 2 越大, “性别与喜欢数学课程之间有关系”成立的可能性就越大。
另一方面,在假设“性别与喜欢数学课程之间有关系”的前提下,事件
{K 2 3.841} 的概率为 P(K 2 3.841) 0.05,
因此事件A是一个小概率事件。而由样本数据计算得 K 2的观测值k=4.514,即
小概率事件A发生。因此应该断定“性别与喜欢数学课程之间有关系”成立, 并且这种判断结果出错的可能性约为5%。所以,约有95%的把握认为“性 别2与02喜0/1欢2/11数学课程之间有关系”。
37
85
35
143
72
228
总计 122 178 300
由表中数据计算K2的观测值k 4.514。能够以95%的把握认为高
中生的性别与是否喜欢数学课程之间有关系吗?请详细阐述得出
结论的依据。
(a b c d)(a b)(c d) K 2
n(ad bc)2
,
(a c)(b d)
(a b)(c d )(a c)(b d )
与Y有关系”;否则就说样本观测数据没有提供“X与Y有关系” 的充分证据。
在实际应用中,要在获取样本数据之前通过下表确定临界值:
P(K2 k0 ) 0.50 0.40 0.25 0.15
k0 0.455 0.708 1.323 2.072
P(K2 k0 ) 0.05 0.025 0.010 0.005
k0 0.455
0.40 0.708
0.25 1.323
0.15 2.072
0.10 0.05 0.025 0.010 0.005 0.001 2.706 3.841 5.024 6.635 7.879 10.828
K 2 10.828
K 2 6.635
K 2 2.706
K 2 2.706
2020/12/11
析,我们构造一个随机变量-----卡方统计量
K2
n(ad bc)2
,
(a b)(c d )(a c)(b d )
(1)
其中n a b c d为样本容量。
若 H0成立,即“吸烟与患肺癌没有关系”,则K2应很小。
根据表3-7中的数据,利用公式(1)计算得到K2的观测值为:
k 9965(777549 42 2099)2 56.632 (2) 7817 2148987491
定量变量——回归分析(画散点图、相关系数r、
变量
相关指数R2、残差分析)
分类变量—— 独立性检验
本20节20/12研/11 究的是两个分类变量的独立性检验问题。
探究
列联表
为了调查吸烟是否对肺癌有影响,某肿瘤研究所随机 地调查了9965人,得到如下结果(单位:人)
吸烟与肺癌列联表
不患肺癌
患肺癌
总计
一般地,假设有两个分类变量X和Y,它们的值域 分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2x2列 联表)为:
表1-11 2x2联表
y1
x1
a
x2
c
总计
a+c
2020/12/11
y2
总计
b
a+b
d
c+d
b+d a+b+c+d
若要判断的结论为:H1:“X与Y有关系”,可以 按如下步骤判断H1成立的可能性:
即有99%的把握认为 H0不成立。
独立性检验的定义
上面这种利用随机变量K2来确定在多大程度上 可以认为“两个分类变量有关系”的方法,称为两 个分类变量的独立性检验。
2020/12/11
独立性检验的基本思想(类似反证法)
(1)假设结论不成立,即 H0 :“两个分类变量没有关系”.
(2)在此假设下我们所构造的随机变量 K2 应该很小,如果由 观测数据计算得到K2的观测值k很大,则在一定可信程度上 说明 H0 不成立.即在一定可信程度上认为“两个分类变量
现在想要知道能够以多大的把握认为“吸烟与患肺癌有关”, 为此先假设
H0:吸烟与患肺癌没有关系.
用A表示不吸烟,B表示不患肺癌,则“吸烟与患肺癌没有关系”
等价于“吸烟与患肺癌独立”,即假设H0等价于 P(AB)=P(A)P(B).
把表中的数字用字母代替,得到如下用字母表示的列联表
不吸烟 吸烟 总计
2020/12/11
结论的依据。
解:可以有95%以上的把握认为“性别与喜欢数学课程之间有关系”。
分别用a,b,c,d表示样本中喜欢数学课的男生人数、不喜欢数学课的男生
人数、喜欢数学课的女生人数、不喜欢数学课的女生人数。
a
如果性别与是否喜欢数学课有关系,则男生中喜欢数学课的比例 与女生中喜欢数学课的比例 c 应该相差很多,即
可以利用独立性检验来考察两个分类变量是否有关系,并且 能较精确地给出这种判断的可靠程度。
a ab c
cd
2020/12/11
具体作法是:
(1)根据实际问题需要的可信程度确定临界值
k

0
(2)利用公式(1),由观测数据计算得到随机变量 K 2的观测值;
(3)如果 k k0 ,就以(1 P(K 2 k0 )) 100%的把握认为“X
a ≈ a + b×a + c nn n
其中n = a + b + c + d为样本容量,即
(a+b+c+d)a (a+b)(a+c),
即ad bc
因此|ad-bc|越小,说明吸烟与患肺癌之间关系越弱; |ad-bc|越大,说明吸烟与患肺癌之间关系越强。
2020/12/11
独立性检验
为了使不同样本容量的数据有统一的评判标准,基于上述分
不吸烟
7775
42
7817
吸烟
2099
49
2148
总计
9874
91
9965
在不吸烟者中患肺癌的比重是 0.54%
在吸烟者中患肺癌的比重是 2.28%
说明:吸烟者和不吸烟者患肺癌的可能性存在差异,吸烟者患 肺癌的可能性大。
2020/12/11
上面我们通过分析数据,得到的直观印象是吸烟和患肺癌 有关,那么事实是否真的如此呢?这需要用统计观点来考察 这个问题。
相关文档
最新文档