高中数学《独立性检验的基本思想及其初步应用》讲稿思维导图知识点归纳总结
高三独立性检验知识点总结
高三独立性检验知识点总结高三是每个学生都将经历的重要时刻,而对于理科生来说,数学是其中最关键的一门学科。
而在数学中,统计学更是高中数学中的重要组成部分。
在统计学中,独立性检验是一个非常重要的概念和方法,它用于判断两个变量之间是否存在相关性。
本文将对高三独立性检验的相关知识点进行总结。
首先,我们需要了解什么是独立性检验。
独立性检验是用于检验两个变量之间是否存在相关性的一种统计方法。
在进行独立性检验时,我们通常有两个变量,一个为自变量,另一个为因变量。
我们的目标是通过样本数据来判断自变量与因变量之间是否存在相关性。
如果两个变量之间存在相关性,我们可以得出结论说它们之间不是独立的;如果两个变量之间没有相关性,我们可以得出结论说它们之间是独立的。
在独立性检验中,我们常用的方法是卡方检验。
卡方检验是一种常用的统计方法,用于判断两个变量之间是否存在相关性。
在进行卡方检验时,我们通常会建立一个观察值和期望值的对比表格。
观察值是通过实际的样本数据得出的,而期望值则是通过某种假设或模型推算出来的。
通过比较观察值和期望值的差异,我们可以判断两个变量之间是否存在相关性。
独立性检验的核心思想是通过计算观察值和期望值的差异,并根据差异的显著性来判断两个变量之间的关系是否存在。
在卡方检验中,我们通常要计算一个统计量,称为卡方值。
卡方值越大,说明观察值和期望值的差异越大,从而说明两个变量之间的相关性越强。
而卡方值的显著性则需要进行假设检验,通常使用显著性水平来进行判断。
如果卡方值小于显著性水平,则我们可以得出结论说两个变量之间不存在相关性;如果卡方值大于显著性水平,则我们可以得出结论说两个变量之间存在相关性。
在进行独立性检验时,我们还需要注意一些常见的误区和注意事项。
首先,样本容量要足够大。
只有样本容量足够大时,我们才能够得到可靠的统计推断。
其次,变量的取值要具有一定的多样性。
如果变量的取值过于集中,样本数据的信息就会不足,从而影响独立性检验的结果。
《独立性检验的基本思想及其初步应用》PPT课件
0.05 3.841
0.025 5.024
0.010 0.005 6.635 7.879
0.001 10.828
K2的观测值为k
如果 k k0,就以 (1 P(K 2 k0 )) 100%的把握
认为“X与Y有关系”;而这种判断有可能出错,出
错的概率不会超过 P(K 2 k0 )。
7
例如 :
1如果k 10.828,就有99.9%把握认为" X与Y有
❖ 试用你所学过的知识进行分析,能否在犯错 误的概率不超过0.005的前提下,认为“喜欢 体育还是文娱与性别有关系”?
体育 文娱 总计
男生 21 23 44
女生 6 29 35
总计 27 52 79
16
[思路探索] 可用数据计算 K2,再确定其中的具体关系. 解 判断方法如下: 假设 H0“喜欢体育还是喜欢文娱与性别没有关系”,若 H0 成立, 则 K2 应该很小. ∵a=21,b=23,c=6,d=29,n=79, ∴k=a+bcn+add-ab+cc2b+d =21+237×9×6+212×9×29-212+3×66×223+29≈8.106.
12
例4:为研究不同的给药方式(口服与注射)和药的效果(有效 与无效)是否有关,进行了相应的抽样调查,调查的结果列 在表中,根据所选择的193个病人的数据,能否作出药的效果 和给药方式有关的结论?
口服 注射 合计
有效 58 64 122
无效 40 31 71
合计 98 95 193
P(k≥k0) 0.50 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001 k0 0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828
《独立性检验的基本思想及其初步应用(第2课时)》名师课件
比较来说,秃顶的病人中患心脏病的比例大一些,可以在某种程 度上认为“秃顶与患心脏病有关”.
知识回顾 问题探究 课堂小结 随堂检测
探究一:我们主要从几个方面来研究两个分类变量之间有无关系?
●活动二 对比学习,提炼优缺点 根据数据有多大把握判断秃顶与患心脏病是否有关系? 在假设的前提下, k 1437 (214597 175 451)2 16.373 6.635 3891048 665 772 所以有99%的把握认为“秃顶与患心脏病有关”.
知识回顾 问题探究 课堂小结 随堂检测
探究二:什么是独立性检验?
重点、难点知识★▲
利用独立性检验判断两个分类变量的是否有关系的一般过程是什么?
一般地,假设有两个分类变量 和 ,它们的取值分别为
和
,其2×2列联表为下表:
总计
总计
我们构造一个变量:
,其中
利用随机变量 来确定在多大程度上可以认为两个分类变量有关系.
1.1.2 独立性检验的基本思想及其初
步应用(第2课时)
名师:谷杨华
知识回顾 问题探究 课堂小结 随堂检测
变量的不同“值”表示个体所属的不同类别,像这样的变量 成为分类变量.
列出两个分类变量的频数表,称为列联表.
等高条形图是用来分析两个分类变量之间是否具有相关关系, 可以形象、直观地反映两个分类变量之间的总体状态和差异大小, 进而判断它们之间是否具有相关关系的图形.
这里的数据来自于医院的住院病人,因此题目中的结论能够很好 地适用于住院的病人群体,而把这个结论推广到其他群体则可能会出 现错误,除非有其它的证据表明可以进行这种推广.
知识回顾 问题探究 课堂小结 随堂检测
高中数学 1.2独立性检验的基本思想及其初步应用课件 新人教A版选修1-2
首页 1 2 3
XINZHIDAOXUE 新知 ZHONGNANTANJIU 重难探究 DANGTANGJ 当堂 导学 检测
测一测 3
在研究吸烟与患肺癌的关系中,通过收集数据、整理分析数据得“吸烟 与患肺癌有关”的结论,并且在犯错误的概率不超过 0.01 的前提下认为这个 结论是成立的.下列说法中正确的是( ) A .在 100 个吸烟者中至少有 99 人患肺癌 B.如果 1 个人吸烟,那么这个人至少有 99%的概率患肺癌 C.在 100 个吸烟者中一定有患肺癌的人 D.在 100 个吸烟者中可能一个患肺癌的人也没有 解析 :K2 的观测值与临界值比较有多大把握是说两个分类变量之间的 关系 ,但不是因果关系,因此,A,B,C 均不正确,应选 D. 答案 :D
首页 1 2 3
XINZHIDAOXUE 新知 ZHONGNANTANJIU 重难探究 DANGTANGJ 当堂 导学 检测
3.独立性检验
定义 公式 利用随机变量 K2 来判断“两个分类变量有关系”的方法称为独立性检 验 K
2
������ (������ ������ -������ ������ )2 = ,其中 (������ +������ )(������ +������ )(������ +������ )(������ +������ )
n=a+b+c+d.
①根据实际问题的需要,确定容许推断“两个分类变量有关系”犯错误 具体 步骤 概率的上界 α.然后查表确定临界值 k0. ②利用公式计算随机变量 K2 的观测值 k. ③如果 k≥k0,就推断“X 与 Y 有关系”,这种推断犯错误的概率不超过 α; 否则就认为在犯错误的概率不超过 α 的前提下不能推断“X 与 Y 有关 系”,或者在样本数据中没有发现足够证据支持结论“X 与 Y 有关系”.
独立性检验的基本思想及其初步应用
§3.2独立性检验的基本思想及其初步应用学习目标 1.了解独立性检验的基本思想、方法及其简单应用.2.理解判断两个分类变量是否有关系的常用方法、独立性检验中K2的含义及其实施步骤(重、难点).知识点1两个分类变量之间关联关系的定性分析1.分类变量变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.这里的“变量”和“值”都应作为“广义”的变量和值进行理解,它们取的不一定是具体的数值.2.列联表列出的两个分类变量的频数表,称为列联表.假设两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(也称为2×2列联表)为:y1y2总计x1 a b a+bx2 c d c+d总计a+c b+d a+b+c+d3.两个分类变量之间关联关系的定性分析的方法(1)频率分析法:通过对样本的每个分类变量的不同类别事件发生的频率大小进行比较来分析分类变量之间是否有关联关系.通常通过列联表列出两个分类变量的频数表来进行分析.(2)图形分析法:与表格相比,图形更能直观地反映出两个分类变量间是否互相影响,常用等高条形图展示列联表数据的频率特征.【预习评价】(1)下面是一个2×2列联表:y1y2总计x1 a 2173x282533总计 b 46则表中a,b处的值分别为()A.94,96B.52,50C.52,60D.54,52(2)根据如图所示的等高条形图可知吸烟与患肺病关系(填“有”或“没有”).知识点2独立性检验1.定义:利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验.2.K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d.3.独立性检验的具体做法(1)根据实际问题的需要确定容许推断“两个分类变量有关系”犯错误概率的上界α,然后查表确定临界值k0.(2)利用公式计算随机变量K2的观测值k.(3)如果k≥k0,就推断“X与Y有关系”,这种推断犯错误的概率不超过α,否则就认为在犯错误的概率不超过α的前提下不能推断“X与Y有关系”,或者在样本数据中没有发现足够证据支持结论“X与Y有关系”.【预习评价】(1)在吸烟与患肺病这两个分类变量是否相关的判断中,下列说法中正确的是()①若K2的观测值k>6.635,则在犯错误的概率不超过0.01的前提下,认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99人患有肺病;②从独立性检验可知在在犯错误的概率不超过0.01前提下,认为吸烟与患肺病有关系时,我们说若某人吸烟,则他有99%的可能患有肺病;③从统计量中得知在犯错误的概率不超过0.05的前提下认为吸烟与患肺病有关系,是指有5%的可能性使得推断出现错误.A.①B.①③C.③D.②(2)某班主任对全班50名学生进行了作业量的调查,数据如下表:认为作业量大认为作业量不大总计男生18927女生81523总计262450则推断“学生的性别与认为作业量大有关”这种推断犯错误的概率不超过()A.0.01B.0.005C.0.025D.0.001题型一利用等高条形图判断两个分类变量是否有关系【例1】为考察某种药物预防疾病的效果进行动物试验,得到如下列联表:患病未患病总计服用药104555未服用药203050总计3075105试用等高条形图分析服用药和患病之间是否有关系.规律方法(1)本题采用数形结合法通过条形图直观地看出差异,得出结论. (2)应用等高条形图判断两变量是否相关的方法在等高条形图中,可以估计满足条件X=x1的个体中具有Y=y1的个体所占的比例aa+b,也可以估计满足条件X=x2的个体中具有Y=y1的个体所占的比例cc+d.“两个比例的值相差越大,H1成立的可能性就越大.”【训练1】网络对现代人的生活影响较大,尤其是对青少年,为了解网络对中学生学习成绩的影响,某地区教育主管部门从辖区初中生中随机抽取了1 000人调查,发现其中经常上网的有200人,这200人中有80人期末考试不及格,而另外800人中有120人不及格.利用图形判断学生经常上网与学习成绩有关吗?方向1 有关“相关的检验”【例2-1】某校对学生课外活动进行调查,结果整理成下表:用你所学过的知识进行分析,能否在犯错误的概率不超过0.005的前提下,认为“喜欢体育还是文娱与性别有关系”?方向2有关“无关的检验”【例2-2】为了探究学生选报文、理科是否与对外语的兴趣有关,某同学调查了361名高二在校学生,调查结果如下:理科对外语有兴趣的有138人,无兴趣的有98人,文科对外语有兴趣的有73人,无兴趣的有52人.分析学生选报文、理科与对外语的兴趣是否有关?规律方法(1)独立性检验的关注点在2×2列联表中,如果两个分类变量没有关系,则应满足ad-bc≈0,因此|ad -bc|越小,关系越弱;|ad-bc|越大,关系越强.(2)独立性检验的具体做法①根据实际问题的需要确定允许推断“两个分类变量有关系”犯错误的概率的上界α,然后查表确定临界值k0.②利用公式K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)计算随机变量K2的观测值k.③如果k>k0,推断“X与Y有关系”这种推断犯错误的概率不超过α;否则,就认为在犯错误的概率不超过α的前提下不能推断“X与Y有关系”,或者在样本数据中没有发现足够的证据支持结论“X与Y有关系”.【训练2】打鼾不仅影响别人休息,而且可能与患某种疾病有关.下表是一次调查所得的数据:根据独立性检验,能否在犯错误的概率不超过0.001的前提下认为每一晚都打鼾与患心脏病有关系?题型三独立性检验的综合应用【例3】某高校共有学生15 000人,其中男生10 500人,女生4 500人.为调查该校学生每周平均体育运动时间的情况,采用分层抽样的方法,收集300位学生每周平均体育运动时间(单位:时)的样本数据.(1)应收集多少位女生的样本数据?(2)根据这300个样本数据,得到学生每周平均体育运动时间的频率分布直方图(如图),其中样本数据的分组区间为[0,2],(2,4],(4,6],(6,8],(8,10],(10,12].估计该校学生每周平均体育运动时间超过4小时的概率.(3)在样本数据中,有60位女生的每周平均体育运动时间超过4小时,请完成每周平均体育运动时间与性别列联表,并判断是否认为“该校学生的每周平均体育运动时间与性别有关”.附:P(K2≥k0)0.1000.0500.0100.005k0 2.706 3.841 6.6357.879K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d).规律方法(1)解答此类题目的关键在于正确利用K2=n(ad-bc)2计算k的值,再用它与临界值k0的大小作比(a+b)(c+d)(a+c)(b+d)较来判断假设检验是否成立,从而使问题得到解决.(2)此类题目规律性强,解题比较格式化,填表计算分析比较即可,要熟悉其计算流程,不难理解掌握.【训练3】某校高三年级在一次全年级的大型考试中,数学成绩优秀和非优秀的学生中,物理、化学、总分成绩优秀的人数如下表所示,能否在犯错误的概率不超过0.001的前提下认为数学成绩优秀与物理、化学、总分成绩优秀有关系?物理优秀化学优秀总分优秀数学优秀228225267数学非优秀14315699注:该年级在此次考试中数学成绩优秀的有360人,非优秀的有880人.课堂达标1.观察下列各图,其中两个分类变量x,y之间关系最强的是()2.某同学寒假期间对其30位亲属的饮食习惯进行了一次调查,列出了如下2×2列联表:偏爱蔬菜 偏爱肉类 总计50岁以下 4 8 12 50岁以上 16 2 18 总计201030则可以说其亲属的饮食习惯与年龄有关的把握为( ) A.90%B.95%C.99%D.99.9%3.为了判断高中学生的文理科选修是否与性别有关系,随机调查了50名学生,得到如下2×2列联表:理科 文科 男 13 10 女720已知P (K 2≥3.841)≈0.05,P (K 2≥5.024)≈0.025.根据表中数据,得到K 2的观测值k =50×(13×20-10×7)223×27×20×30≈4.844.可认为选修文理科与性别有关系的可能性不低于 . 4.根据下表计算:不看电视 看电视 男 37 85 女35143K 2的观测值k ≈ (保留3位小数).5.在109个人身上试验某种药物预防感冒的作用,得到如下列联表:感冒 未感冒 总计 服用药1146 57 未服用药 213152总计3277109则有多大把握认为该药有效?课堂小结1.列联表与等高条形图列联表由两个分类变量之间频率大小差异说明这两个变量之间是否有关联关系,而利用等高条形图能形象直观地反映它们之间的差异,进而推断它们之间是否具有关联关系.2.对独立性检验思想的理解独立性检验的基本思想类似于数学中的反证法.先假设“两个分类变量没有关系”成立,计算随机变量K2的值,如果K2值很大,说明假设不合理.K2越大,两个分类变量有关系的可能性越大.基础过关1.对两个分类变量A,B的下列说法中正确的个数为()①A与B无关,即A与B互不影响;②A与B关系越密切,则K2的值就越大;③K2的大小是判定A与B是否相关的唯一依据A.0B.1C.2D.32.高二第二学期期中考试,按照甲、乙两个班学生的数学成绩优秀和及格统计人数后,得到如下列联表:优秀及格总计甲班113445乙班83745总计197190则随机变量K2的观测值约为()A.0.600B.0.828C.2.712D.6.0043.考察棉花种子经过处理跟生病之间的关系得到下表数据:种子处理种子未处理总计根据以上数据,可得出()A.种子是否经过处理跟是否生病有关B.种子是否经过处理跟是否生病无关C.种子是否经过处理决定是否生病D.以上都是错误的4.2013年6月11日,中国的“神舟十号”发射成功,由此许多人认为中国进入了航天强国之列,也有许多人持反对意见,为此进行了调查.在参加调查的3 648名男性公民与3 432名女性公民中,持反对意见的男性有1 843人、女性有1 672人,在运用这些数据说明中国“神十”发射成功是否与中国进入航天强国有关系时,用下列最具说服力.①回归直线方程;②平均数与方差;③独立性检验.5.为了解高中生作文成绩与课外阅读量之间的关系,某研究机构随机抽取了60名高中生,通过问卷调查,得到以下数据:由以上数据,计算得到K2的观测值k≈9.643,根据临界值表,以下说法正确的是(填序号).①没有充足的理由认为课外阅读量大与作文成绩优秀有关;②有0.5%的把握认为课外阅读量大与作文成绩优秀有关;③有99.9%的把握认为课外阅读量大与作文成绩优秀有关;④有99.5%的把握认为课外阅读量大与作文成绩优秀有关.6.在研究某种药物对“H1N1”病毒的治疗效果时,进行动物试验,得到以下数据,对150只动物服用药物,其中132只动物存活,18只动物死亡,对照组150只动物进行常规治疗,其中114只动物存活,36只动物死亡.(1)根据以上数据建立一个2×2列联表;(2)试问该种药物对治疗“H1N1”病毒是否有效?7.在一次恶劣天气的飞行航程中调查男女乘客在飞机上晕机的情况如下表所示,根据此资料是否能在犯错误的概率不超过0.05的前提下认为在恶劣天气飞行中男人比女人更容易晕机?能力提升8.利用独立性检验来考察两个分类变量X和Y是否有关系时,通过查阅下表来确定“X与Y有关系”的可信程度.如果K2≥5.024,那么就有把握认为“X与Y有关系”的百分比为()A.25%B.75%C.2.5%D.97.5%9.某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量的关系,随机抽查了52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是()表1表2表3表4A.成绩B.视力C.智商D.阅读量10.下表是关于男婴与女婴出生时间调查的列联表:那么,A=,B=,C=,D=,E=.11.在研究性别与吃零食这两个分类变量是否有关系时,下列说法中正确的是(填序号).①若K2的观测值k=6.635,则我们在犯错误的概率不超过0.01的前提下认为吃零食与性别有关系,那么在100个吃零食的人中必有99人是女性;②由独立性检验可知在犯错误的概率不超过0.01的前提下认为吃零食与性别有关系时,如果某人吃零食,那么此人是女性的可能性为99%;③由独立性检验可知在犯错误的概率不超过0.01的前提下认为吃零食与性别有关系时,是指每进行100次这样的推断,平均有1次推断错误.12.随着生活水平的提高,人们的休闲方式也发生了变化.某机构随机调查了n 个人,其中男性占调查人数的25.已知男性中有一半的人的休闲方式是运动,而女性中只有13的人的休闲方式是运动. (1)完成下列2×2列联表:(2)若在犯错误的概率不超过0.05的前提下,可认为“性别与休闲方式有关”,那么本次被调查的人数至少有多少?(3)根据(2)的结论,本次被调查的人中,至少有多少人的休闲方式是运动? 13.(选做题)某学校为了解该校高三年级学生在市一练考试的数学成绩情况,随机从该校高三文科与理科各抽取50名学生的数学成绩,作出频率分布直方图如图,规定考试成绩在[120,150]内为优秀.(1)由以上频率分布直方图填写下列2×2列联表.若按是否优秀来判断,是否有99%的把握认为该校的文理科数学成绩有差异.文科理科总计优秀非优秀总计5050100(2)某高校派出2名教授对该校随机抽取的学生成绩中一练数学成绩在140分以上的学生进行自主招生面试,每位教授至少面试一人,每位学生只能被一位教授面试.若甲教授面试的学生人数为ξ,求ξ的分布列和均值.。
高中数学知识点精讲精析 独立性检验的基本思想
2.2 独立性检验的基本思想独立性检验的基本思想:① 独立性检验的必要性:列联表中的数据是样本数据,它只是总体的代表,具有随机性,故需要用列联表检验的方法确认所得结论在多大程度上适用于总体. ② 独立性检验的步骤(略)及原理(与反证法类似):【解析】1.在对人们的休闲方式的一次调查中,共调查了124人,其中女性70人,男性54人。
女性中有43人主要的休闲方式是看电视,另外27人主要的休闲方式是运动;男性中有21人主要的休闲方式是看电视,另外33人主要的休闲方式是运动。
(1)根据以上数据建立一个2× 2列联表; (2)判断性别与休闲方式是否有关系。
【解析】(1)2× 2的列联表:(2χ2因为χ2,所以有理由认为假设“休闲方式与性别无关”是不合理的,即有97.5%的把握认为“休闲方式与性别有关”。
2.气管炎是一种常见的呼吸道疾病,医药研究人员对两种中草药治疗慢性气管炎的疗效进行对比,所得数据如表所示.问它们的疗效有无差异(可靠性不低于99%)?分析:由列联表中的数据可知,服用复方江剪刀草的患者的有效率为,服用胆黄片的患者的有效率为,可见,服用复方江剪刀草的患者与服用胆黄片的患者的有 效率存在较大差异.下面用进行独立性检验,以确定能有多大把握作出这一推断. 【解析】提出假设:两种中草药的治疗效果没有差异,即病人使用这两种药物中的何种药物对疗效没有明显差异.由列联表中的数据,求得 当成立时,的概率约为,而这里所以我们有的把握认为:两种药物的疗效有差异.2124(43332721) 6.20170546460⨯⨯-⨯=≈⨯⨯⨯5.024≥75%245≈9191%100=2χ0H 22345(18496191)11.09827570245100χ⨯⨯-⨯=≈⨯⨯⨯0H 210.828χ≥0.001211.09810.828χ≈>99.9%。
高中数学选修1课件2-1.2独立性检验的基本思想及其初步应用
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计 a+c b+d a+b+c+d
状元随笔 分类变量及其关系的分析的理解
(1)这里的“变量”和“值”都应作为广义的变量和值来理解, 只要不属于同种类别都是变量和值,并不一定是取具体的数值,如: 男、女;上、下;左、右等.
(2)频数分析是指用不同类别的事件发生的频率的大小比较来 分析分类变量是否有关联关系.
行中男性比女性更容易晕机?
晕机 不晕机 合计
男性 23 32 55
女性 9
25 34
合计 32 57 89
解析:由数据的列联表可以得到等高条形图为:
从图中可以发现男性中晕机的频率与女性中晕机的频率相差 较大,故我们认为性别和是否晕机有关系,且在恶劣气候飞行中男 性比女性更容易晕机.
状元随笔
作出 2×2 列联表→计算随机变量 K2 的值→对照临界值作出结 论
(2)在实际问题中要记住以下几个常用值: ①若 k≥6.635,则在犯错误的概率不超过 0.01 的前提下认为 “X 与 Y 有关系”; ②若 k≥3.841,则在犯错误的概率不超过 0.05 的前提下认为 “X 与 Y 有关系”; ③若 k≥2.706,则在犯错误的概率不超过 0.1 的前提下认为“X 与 Y 有关系”; ④若 k<2.706,则认为没有充分证据显示“X 与 Y 有关系”.
1.2 独立性检验的 基本思想及其初步应用
知识导图
学法指导 1.通过二维等高条形图直观了解两个分类变量的关联关系,通 过具体的实例理解独立性检验的基本思想. 2.通过具体问题的解决过程、对比反证法的原理和证明过程 理解独立性检验的基本思想和解决独立性检验问题的基本步骤.
高中数学1-2独立性检验的基本思想及其初步应用ppt课件
定量变量——回归分析(画散点图、相关系数r、
变量
相关指数R2、残差分析)
分类变量——独立性检验
本节研究的是两个分类变量的独立性检验问题。
6
为调查吸烟是否对患肺癌有影响,某肿瘤研究所随机地调查 了9965人,得到如下结果(单位:人):
表1-9 吸烟与患肺癌列联表
不吸烟 吸烟 总计
不患肺癌 7775 2099 9874
ad bc
11
独立性检验
ad bc 0.
ad - bc 越小,说明吸烟与患肺癌之间的关系越弱,
ad - bc 越大,说明吸烟与患肺癌之间的关系越强
引入一个随机变量
K2 =
n(ad - bc)2
(a + b)(c + d)(a + c)(b + d)
作为检验在多大程度上可以认为“两个变量
有关系”的标准 。
其次,在假设下,计算构造的随机变量K2,如果有观 测数据计算得到的K2≥k0,则我们有[1-P(K2≥k0)]*100%把 握说明假设不合理(即两个分类变量有关系)。 当K2≤k0,则我们没有[1-P(K2≥k0)]*100%把握说明假设不 合理。
(3)根据随机变量K2的含义,可以通过评价该假设 不合理的程度,由实际计算出的,说明假设合理 的程度为99.9%,即“两个分类变量有关系”这 一结论成立的可信度约为99.9%.
15
独立性检验的基本思想:
要确认“两个分类变量有关系”这一结论成立的
可信程度,
首先,假设该结论不成立,即假设结论“两个分类变量 没有关系”成立。
独立性检验的定义:
上面这种利用随机变量K2来确定在多大程度上可
以认为“两个分类变量有关系”的方法称为两个
高二数学《独立性检验的基本思想及其初步应用》课件
数学 选修2-3 RJ·A
课时作业与单元测试
第三章 统计案例
29~ 41~ 51~ 61~ 71~ 81~ 91~ 分数段
40 50 60 70 80 90 100 午休考
23 47 30 21 14 31 14 生人数
不午休
考生 17 51 67 15 30 17 3
人数
数学 选修2-3 RJ·A
数学 选修2-3 RJ·A
课时作业与单元测试
第三章 统计案例
②根据题意知,X 服从超几何分布,P(X=k)=Ck3CC3936-k,k =0,1,2,3,P(X=0)=CC03C93 36=251;P(X=1)=CC13C93 26=1258;P(X =2)=CC23C93 16=134;
P(X=3)=CC33C93 06=814.
②2×2 列联表
一般地,假设有两个分类变量 X 和 Y,它们的取值分别为 {x1,x2} 和 {y1,y2} ,其样本频数列联表(也称为 2×2 列联
表)为下表.
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计 a+c b+d a+b+c+d
数学 选修2-3 RJ·A
课时作业与单元测试
第三章 统计案例
2.等高条形图
(1)等高条形图与表格相比,更能直观地反映出两个分类变 量间是否相互影响,常用等高条形图展示列联表数据的 频率
特征 .
(2)观察等高条形图发现a+a b和c+c d相差很大,就判断两个 分类变量之间 有关系 .
数学 选修2-3 RJ·A
课时作业与单元测试
第三章 统计案例
3.独立性检验 (1)定义:利用随机变量 K2 来判断“两个分类变量有关系” 的方法称为独立性检验. (2)K2=(a+b)(cn+(da)d-(bac+)c2)(b+d),其中 n=a+ b+c+d 为样本容量.