知识讲解 独立性检验的基本思想及其初步应用(文、理)
01独立性检验的基本思想及其初步应用.doc
独立性检验的基本思想及其初步应用北京四中 李伟一、 知识讲解研究两个变量的相关关系:问题:为了解患慢性支气管炎与吸烟是否有关,进行了一次抽样调查。
共调查了339名50岁以上的人,其中吸烟者205人,不吸烟者134人. 结果是:吸烟的205人中有43人患呼吸道疾病(简称患病),162人 未患呼吸道疾病(简称未患病);不吸烟的134人中有13人患病, 121人未患病.患病 未患病 合计 吸烟43 162 205 不吸烟13 121 134 合计 56 283 339独立性检验的一般步骤: 一般地,对于两个研究对象X 和Y ,X 有两类取 值:12X X 和(如吸烟与不吸烟),Y 也有两类取值:12Y Y 和(如患呼吸 道疾病与不患呼吸道疾病),得到数据如下: 1X 2X 合计1Y11n 12n 1n + 2Y21n 22n 2n + 合计 1n + 2n + n推断“X 和Y 有关系”的步骤为:第一步,提出假设0H :两个分类变量X 和Y 没有关系;第二步,根据2×2列联表和公式计算2χ统计量;第三步,比对两个临界值,作出判断.二、典型例题例1 对196个接受心脏搭桥手术的病人和196个接受血管清障手术的病人进行3年跟踪研究,调查他们是否又发作过心脏病,调查结果如下表所示:试根据上述数据比较两种手术对病人又发作心脏病的影响有没有差别。
例2 在一次恶劣气候的飞行航程中调查男女乘客在机上晕机的情况如下表所示,根据此资料你是否认为在恶劣气候飞行中男性比女性更容易晕机?例3 在500人身上试验某种血清预防感冒作用,把他们一年中的感冒记录与另外500名未用血清的人的感冒记录作比较,结果如表所示。
问:该种血清能否起到预防感冒的作用?例4 为研究不同的给药方式(口服与注射)和药的效果(有效与无效)是否有关,进行了相应的抽样调查,调查的结果列在表中,根据所选择的193个病人的数据,能否作出药的效果和给药方式有关的结论?。
独立性检验思想及应用
独立性检验思想及应用独立性检验(Independence Test)是统计学中用于研究两个或多个分类变量之间是否存在关联的方法。
它基于假设显著性检验的思想,通过计算观察值与期望值之间的差异程度,来判断两个变量是否独立。
在实际应用中,独立性检验经常用于确定两个变量是否相互影响或存在某种联系,以及在实验设计、社会科学研究、生物学研究等领域中的数据分析。
独立性检验的基本思想是基于对观察样本的期望值进行比较,来推断两个或多个分类变量是否存在关联。
在进行独立性检验时,常用的统计方法包括卡方检验(Chi-square Test)、Fisher精确检验(Fisher's Exact Test)和logistic回归分析(Logistic Regression)等。
卡方检验是独立性检验中最常用的方法之一。
它基于卡方统计量的分布特性,通过计算观测频数与期望频数之间的差异,来判断两个或多个分类变量之间的关联性。
卡方检验的原理是比较观测频数与期望频数之间的差异是否显著,若差异显著,则表明两个变量之间存在关联。
Fisher精确检验是一种非参数的检验方法,用于较小样本量且存在预期频数很低的情况。
它通过穷举计算所有可能的观测结果,来计算出在给定的边际总和下,观测频数与期望频数之差异的概率。
Fisher精确检验在小样本研究中经常被使用,特别是用于研究罕见事件的相关性。
logistic回归分析是一种广义线性模型,可用于分析二分类变量的关联性。
它将自变量的线性组合通过logistic函数转换为估计概率,从而实现对二分类变量之间的关系进行研究。
logistic回归分析在独立性检验领域中常用的方法包括二分类变量的logistic回归、多分类变量的logistic回归和多项式logistic回归等。
独立性检验在很多领域都有广泛的应用。
在医学研究中,独立性检验可以用于分析某种疾病的发病率与多个危险因素之间的关联性,以及评估治疗方法对疾病预后的影响;在社会科学研究中,独立性检验可以用于分析社会经济因素与人群特征之间的关联,以及评估政策改革对社会发展的影响;在生物学研究中,独立性检验可以用于分析基因型与表型之间的关联,以及评估不同基因型对遗传疾病的易感性等。
《独立性检验的基本思想及其初步应用》PPT课件
0.05 3.841
0.025 5.024
0.010 0.005 6.635 7.879
0.001 10.828
K2的观测值为k
如果 k k0,就以 (1 P(K 2 k0 )) 100%的把握
认为“X与Y有关系”;而这种判断有可能出错,出
错的概率不会超过 P(K 2 k0 )。
7
例如 :
1如果k 10.828,就有99.9%把握认为" X与Y有
❖ 试用你所学过的知识进行分析,能否在犯错 误的概率不超过0.005的前提下,认为“喜欢 体育还是文娱与性别有关系”?
体育 文娱 总计
男生 21 23 44
女生 6 29 35
总计 27 52 79
16
[思路探索] 可用数据计算 K2,再确定其中的具体关系. 解 判断方法如下: 假设 H0“喜欢体育还是喜欢文娱与性别没有关系”,若 H0 成立, 则 K2 应该很小. ∵a=21,b=23,c=6,d=29,n=79, ∴k=a+bcn+add-ab+cc2b+d =21+237×9×6+212×9×29-212+3×66×223+29≈8.106.
12
例4:为研究不同的给药方式(口服与注射)和药的效果(有效 与无效)是否有关,进行了相应的抽样调查,调查的结果列 在表中,根据所选择的193个病人的数据,能否作出药的效果 和给药方式有关的结论?
口服 注射 合计
有效 58 64 122
无效 40 31 71
合计 98 95 193
P(k≥k0) 0.50 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001 k0 0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828
3.2独立性检验的基本思想及其初步应用
如P(k>6.635)= 0.010表示在犯错误的概率不超 过0.010的前提下,认为“X与Y有关系”.
独立性检验的基本思想类似反证法
(1)假设结论不成立,即“两个分类变量没有关系”. (2)在此假设下随机变量K2应该很小,如果由观测数据
不吸烟 吸烟 总计
不患肺癌 a c
a+c
患肺癌 b d
b+d
总计 a+b c+d a+b+c+d
a:事件AB发生的频数 a+b:事件A发生的频数 a+c:事件B发生的频数
H0成立时
a abac nn n
(n=a+b+c+d)
(a+b+c+d)a≈(a+b)(a+c) ad-bc≈0
|ad-bc|越小
变量
相关指数R 2、残差分析)
分类变量—— 独立性检验
本节研究的是两个分类变量的独立性检验问题。
为调查吸烟是否对患肺癌有影响列,出某两肿个瘤分研类究所 随机地调查了9965人,得到如下变结量果的(单频位数表:人,)
吸烟与患肺癌列联表
称为列联表
不患肺癌
患肺癌
总计
不吸烟
7775
42
7817
吸烟
1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1
0
不吸烟
患肺癌 不患肺癌
吸烟
从上面数据和图形可以看出吸烟和患肺癌有关
我们能够有多大的把握认为“吸烟与患 肺癌有关”?
独立性检验基本思想及应用
独立性检验基本思想及应用独立性检验是一种用于确定两个变量之间是否存在关联的统计方法。
其基本思想是通过比较观察到的数据与预期的数据之间的差异来推断这两个变量之间的关系。
独立性检验的应用非常广泛。
在社会科学中,独立性检验常被用于研究两个分类变量之间是否存在关联,例如性别和职业、教育水平和政治倾向等。
在医学研究中,独立性检验也可以用来检查某种治疗方法是否与疾病的发展有关,以及风险因素和某种疾病之间的关系。
此外,独立性检验还被广泛应用于市场调查、品牌定位以及质量控制等领域。
独立性检验的基本思想是建立一个零假设(H0)和一个备择假设(H1)。
零假设认为两个变量是独立的,即它们之间没有关联;备择假设则认为两个变量之间存在关联。
独立性检验的步骤可以分为以下几步:1. 收集数据:需要收集两个分类变量的数据,例如通过问卷调查或观察获得数据。
2. 建立列联表:将数据整理成列联表形式,列联表是一种用于描述两个或多个分类变量之间关系的矩阵。
表格的行表示一个变量的不同类别,列表示另一个变量的不同类别,表格中的每个单元格表示两个类别的交叉数量。
3. 计算期望频数:在独立性检验中,我们假设两个变量是独立的,因此可以基于各类别的边际总数以及样本总数来计算期望频数。
期望频数是在两个变量独立情况下,各个类别的交叉数量。
4. 计算卡方统计量:卡方统计量用于衡量观察到的数据与期望数据之间的差异程度。
计算公式为:χ2 = Σ((观察频数- 期望频数)^2 / 期望频数)。
其中,Σ表示对所有单元格进行求和。
5. 设定显著性水平:显著性水平α为决策的临界点,用于决定是否拒绝零假设。
通常,α的常见选择为0.05或0.01。
6. 判断和解释结果:根据计算出的卡方统计量与临界值进行比较,如果计算出的卡方值大于临界值,拒绝零假设,认为两个变量之间存在关联;反之,接受零假设,认为两个变量是独立的。
独立性检验的结果常常以卡方统计量和p值的形式呈现。
p值是在零假设成立的条件下,观察到的数据与期望数据之间差异的概率。
高中数学选修2-3-独立性检验的基本思想及初步应用
独立性检验的基本思想及初步应用知识集结知识元独立性检验知识讲解1.独立性检验【知识点的知识】1、分类变量:如果某种变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.2、原理:假设性检验(类似反证法原理).一般情况下:假设分类变量X和Y之间没有关系,通过计算K2值,然后查表对照相应的概率P,发现这种假设正确的概率P很小,从而推翻假设,最后得出X和Y之间有关系的可能性为(1﹣P),也就是“X和Y有关系”.(表中的k就是K2的观测值,即k=K2).其中n=a+b+c+d(考试给出)3、2×2列联表:4、范围:K2∈(0,+∞);性质:K2越大,说明变量间越有关系.5、解题步骤:(1)认真读题,取出相关数据,作出2×2列联表;(2)根据2×2列联表中的数据,计算K2的观测值k;(3)通过观测值k与临界值k0比较,得出事件有关的可能性大小.例题精讲独立性检验例1.'新高考方案的实施,学生对物理学科的选择成了焦点话题.某学校为了了解该校学生的物理成绩,从A,B两个班分别随机调查了40名学生,根据学生的某次物理成绩,得到A班学生物理成绩的频率分布直方图和B班学生物理成绩的频数分布条形图.(Ⅰ)估计A班学生物理成绩的众数、中位数(精确到0.1)、平均数(各组区间内的数据以该组区间的中点值为代表);(Ⅱ)填写列联表,并判断是否有99.5%的把握认为物理成绩与班级有关?附:;'例2.'党的第十九次全国代表大会上,习近平总书记指出:“房子是用来住的,不是用来炒的”,为了使房价回归到收入可支撑的水平,让全体人民住有所居,近年来全国各一、二线城市打击投机购房,陆续出台了住房限购令,某市一小区为了进一步了解已购房民众对市政府出台楼市限购令的认同情况,随机抽取了本小区50户住户进行调查,各户人平均月收入(单位:千元)的户数频率分布直方图如图,其中赞成限购的户数如表:(1)若从人平均月收入在[9,11)的住户中再随机抽取两户,求所抽取的两户至少有一户赞成楼市限购令的概率;(2)若将小区人平均月收入不低于7千元的住户称为“高收入户”,人平均月收入低于7千元的住户称为“非高收入户”,根据已知条件完成如图所给的2×2列联表,并说明能否在犯错误的概率不超过0.01的前提下认为“收入的高低”与“赞成楼市限购令”有关.附:临界值表参考公式:K2=,n=a+b+c+d.'例3.'2022年北京冬季奥运会即第24届冬季奥林匹克运动会将在2022年2月4日至2月20日在北京和张家口举行.某研究机构为了了解大学生对冰壶运动的兴趣,随机从某大学学生中抽取了120人进行调查,经统计男生与女生的人数比为11:13,男生中有30人表示对冰壶运动有兴趣,女生中有15人对冰壶运动没有兴趣.(1)完成2×2列联表,并判断能否有99%的把握认为“对冰壶运动是否有兴趣与性别有关”?(2)用分层抽样的方法从样本中对冰壶运动有兴趣的学生中抽取8人,求抽取的男生和女生分别为多少人?若从这8人中选取两人作为冰壶运动的宜传员,求选取的2人中恰好有1位男生和1位女生的概率.附:K2=,其中n=a+b+c+d.'。
独立性检验的基本思想及其初步应用
§3.2独立性检验的基本思想及其初步应用学习目标 1.了解独立性检验的基本思想、方法及其简单应用.2.理解判断两个分类变量是否有关系的常用方法、独立性检验中K2的含义及其实施步骤(重、难点).知识点1两个分类变量之间关联关系的定性分析1.分类变量变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.这里的“变量”和“值”都应作为“广义”的变量和值进行理解,它们取的不一定是具体的数值.2.列联表列出的两个分类变量的频数表,称为列联表.假设两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(也称为2×2列联表)为:y1y2总计x1 a b a+bx2 c d c+d总计a+c b+d a+b+c+d3.两个分类变量之间关联关系的定性分析的方法(1)频率分析法:通过对样本的每个分类变量的不同类别事件发生的频率大小进行比较来分析分类变量之间是否有关联关系.通常通过列联表列出两个分类变量的频数表来进行分析.(2)图形分析法:与表格相比,图形更能直观地反映出两个分类变量间是否互相影响,常用等高条形图展示列联表数据的频率特征.【预习评价】(1)下面是一个2×2列联表:y1y2总计x1 a 2173x282533总计 b 46则表中a,b处的值分别为()A.94,96B.52,50C.52,60D.54,52(2)根据如图所示的等高条形图可知吸烟与患肺病关系(填“有”或“没有”).知识点2独立性检验1.定义:利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验.2.K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d.3.独立性检验的具体做法(1)根据实际问题的需要确定容许推断“两个分类变量有关系”犯错误概率的上界α,然后查表确定临界值k0.(2)利用公式计算随机变量K2的观测值k.(3)如果k≥k0,就推断“X与Y有关系”,这种推断犯错误的概率不超过α,否则就认为在犯错误的概率不超过α的前提下不能推断“X与Y有关系”,或者在样本数据中没有发现足够证据支持结论“X与Y有关系”.【预习评价】(1)在吸烟与患肺病这两个分类变量是否相关的判断中,下列说法中正确的是()①若K2的观测值k>6.635,则在犯错误的概率不超过0.01的前提下,认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99人患有肺病;②从独立性检验可知在在犯错误的概率不超过0.01前提下,认为吸烟与患肺病有关系时,我们说若某人吸烟,则他有99%的可能患有肺病;③从统计量中得知在犯错误的概率不超过0.05的前提下认为吸烟与患肺病有关系,是指有5%的可能性使得推断出现错误.A.①B.①③C.③D.②(2)某班主任对全班50名学生进行了作业量的调查,数据如下表:认为作业量大认为作业量不大总计男生18927女生81523总计262450则推断“学生的性别与认为作业量大有关”这种推断犯错误的概率不超过()A.0.01B.0.005C.0.025D.0.001题型一利用等高条形图判断两个分类变量是否有关系【例1】为考察某种药物预防疾病的效果进行动物试验,得到如下列联表:患病未患病总计服用药104555未服用药203050总计3075105试用等高条形图分析服用药和患病之间是否有关系.规律方法(1)本题采用数形结合法通过条形图直观地看出差异,得出结论. (2)应用等高条形图判断两变量是否相关的方法在等高条形图中,可以估计满足条件X=x1的个体中具有Y=y1的个体所占的比例aa+b,也可以估计满足条件X=x2的个体中具有Y=y1的个体所占的比例cc+d.“两个比例的值相差越大,H1成立的可能性就越大.”【训练1】网络对现代人的生活影响较大,尤其是对青少年,为了解网络对中学生学习成绩的影响,某地区教育主管部门从辖区初中生中随机抽取了1 000人调查,发现其中经常上网的有200人,这200人中有80人期末考试不及格,而另外800人中有120人不及格.利用图形判断学生经常上网与学习成绩有关吗?方向1 有关“相关的检验”【例2-1】某校对学生课外活动进行调查,结果整理成下表:用你所学过的知识进行分析,能否在犯错误的概率不超过0.005的前提下,认为“喜欢体育还是文娱与性别有关系”?方向2有关“无关的检验”【例2-2】为了探究学生选报文、理科是否与对外语的兴趣有关,某同学调查了361名高二在校学生,调查结果如下:理科对外语有兴趣的有138人,无兴趣的有98人,文科对外语有兴趣的有73人,无兴趣的有52人.分析学生选报文、理科与对外语的兴趣是否有关?规律方法(1)独立性检验的关注点在2×2列联表中,如果两个分类变量没有关系,则应满足ad-bc≈0,因此|ad -bc|越小,关系越弱;|ad-bc|越大,关系越强.(2)独立性检验的具体做法①根据实际问题的需要确定允许推断“两个分类变量有关系”犯错误的概率的上界α,然后查表确定临界值k0.②利用公式K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)计算随机变量K2的观测值k.③如果k>k0,推断“X与Y有关系”这种推断犯错误的概率不超过α;否则,就认为在犯错误的概率不超过α的前提下不能推断“X与Y有关系”,或者在样本数据中没有发现足够的证据支持结论“X与Y有关系”.【训练2】打鼾不仅影响别人休息,而且可能与患某种疾病有关.下表是一次调查所得的数据:根据独立性检验,能否在犯错误的概率不超过0.001的前提下认为每一晚都打鼾与患心脏病有关系?题型三独立性检验的综合应用【例3】某高校共有学生15 000人,其中男生10 500人,女生4 500人.为调查该校学生每周平均体育运动时间的情况,采用分层抽样的方法,收集300位学生每周平均体育运动时间(单位:时)的样本数据.(1)应收集多少位女生的样本数据?(2)根据这300个样本数据,得到学生每周平均体育运动时间的频率分布直方图(如图),其中样本数据的分组区间为[0,2],(2,4],(4,6],(6,8],(8,10],(10,12].估计该校学生每周平均体育运动时间超过4小时的概率.(3)在样本数据中,有60位女生的每周平均体育运动时间超过4小时,请完成每周平均体育运动时间与性别列联表,并判断是否认为“该校学生的每周平均体育运动时间与性别有关”.附:P(K2≥k0)0.1000.0500.0100.005k0 2.706 3.841 6.6357.879K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d).规律方法(1)解答此类题目的关键在于正确利用K2=n(ad-bc)2计算k的值,再用它与临界值k0的大小作比(a+b)(c+d)(a+c)(b+d)较来判断假设检验是否成立,从而使问题得到解决.(2)此类题目规律性强,解题比较格式化,填表计算分析比较即可,要熟悉其计算流程,不难理解掌握.【训练3】某校高三年级在一次全年级的大型考试中,数学成绩优秀和非优秀的学生中,物理、化学、总分成绩优秀的人数如下表所示,能否在犯错误的概率不超过0.001的前提下认为数学成绩优秀与物理、化学、总分成绩优秀有关系?物理优秀化学优秀总分优秀数学优秀228225267数学非优秀14315699注:该年级在此次考试中数学成绩优秀的有360人,非优秀的有880人.课堂达标1.观察下列各图,其中两个分类变量x,y之间关系最强的是()2.某同学寒假期间对其30位亲属的饮食习惯进行了一次调查,列出了如下2×2列联表:偏爱蔬菜 偏爱肉类 总计50岁以下 4 8 12 50岁以上 16 2 18 总计201030则可以说其亲属的饮食习惯与年龄有关的把握为( ) A.90%B.95%C.99%D.99.9%3.为了判断高中学生的文理科选修是否与性别有关系,随机调查了50名学生,得到如下2×2列联表:理科 文科 男 13 10 女720已知P (K 2≥3.841)≈0.05,P (K 2≥5.024)≈0.025.根据表中数据,得到K 2的观测值k =50×(13×20-10×7)223×27×20×30≈4.844.可认为选修文理科与性别有关系的可能性不低于 . 4.根据下表计算:不看电视 看电视 男 37 85 女35143K 2的观测值k ≈ (保留3位小数).5.在109个人身上试验某种药物预防感冒的作用,得到如下列联表:感冒 未感冒 总计 服用药1146 57 未服用药 213152总计3277109则有多大把握认为该药有效?课堂小结1.列联表与等高条形图列联表由两个分类变量之间频率大小差异说明这两个变量之间是否有关联关系,而利用等高条形图能形象直观地反映它们之间的差异,进而推断它们之间是否具有关联关系.2.对独立性检验思想的理解独立性检验的基本思想类似于数学中的反证法.先假设“两个分类变量没有关系”成立,计算随机变量K2的值,如果K2值很大,说明假设不合理.K2越大,两个分类变量有关系的可能性越大.基础过关1.对两个分类变量A,B的下列说法中正确的个数为()①A与B无关,即A与B互不影响;②A与B关系越密切,则K2的值就越大;③K2的大小是判定A与B是否相关的唯一依据A.0B.1C.2D.32.高二第二学期期中考试,按照甲、乙两个班学生的数学成绩优秀和及格统计人数后,得到如下列联表:优秀及格总计甲班113445乙班83745总计197190则随机变量K2的观测值约为()A.0.600B.0.828C.2.712D.6.0043.考察棉花种子经过处理跟生病之间的关系得到下表数据:种子处理种子未处理总计根据以上数据,可得出()A.种子是否经过处理跟是否生病有关B.种子是否经过处理跟是否生病无关C.种子是否经过处理决定是否生病D.以上都是错误的4.2013年6月11日,中国的“神舟十号”发射成功,由此许多人认为中国进入了航天强国之列,也有许多人持反对意见,为此进行了调查.在参加调查的3 648名男性公民与3 432名女性公民中,持反对意见的男性有1 843人、女性有1 672人,在运用这些数据说明中国“神十”发射成功是否与中国进入航天强国有关系时,用下列最具说服力.①回归直线方程;②平均数与方差;③独立性检验.5.为了解高中生作文成绩与课外阅读量之间的关系,某研究机构随机抽取了60名高中生,通过问卷调查,得到以下数据:由以上数据,计算得到K2的观测值k≈9.643,根据临界值表,以下说法正确的是(填序号).①没有充足的理由认为课外阅读量大与作文成绩优秀有关;②有0.5%的把握认为课外阅读量大与作文成绩优秀有关;③有99.9%的把握认为课外阅读量大与作文成绩优秀有关;④有99.5%的把握认为课外阅读量大与作文成绩优秀有关.6.在研究某种药物对“H1N1”病毒的治疗效果时,进行动物试验,得到以下数据,对150只动物服用药物,其中132只动物存活,18只动物死亡,对照组150只动物进行常规治疗,其中114只动物存活,36只动物死亡.(1)根据以上数据建立一个2×2列联表;(2)试问该种药物对治疗“H1N1”病毒是否有效?7.在一次恶劣天气的飞行航程中调查男女乘客在飞机上晕机的情况如下表所示,根据此资料是否能在犯错误的概率不超过0.05的前提下认为在恶劣天气飞行中男人比女人更容易晕机?能力提升8.利用独立性检验来考察两个分类变量X和Y是否有关系时,通过查阅下表来确定“X与Y有关系”的可信程度.如果K2≥5.024,那么就有把握认为“X与Y有关系”的百分比为()A.25%B.75%C.2.5%D.97.5%9.某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量的关系,随机抽查了52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是()表1表2表3表4A.成绩B.视力C.智商D.阅读量10.下表是关于男婴与女婴出生时间调查的列联表:那么,A=,B=,C=,D=,E=.11.在研究性别与吃零食这两个分类变量是否有关系时,下列说法中正确的是(填序号).①若K2的观测值k=6.635,则我们在犯错误的概率不超过0.01的前提下认为吃零食与性别有关系,那么在100个吃零食的人中必有99人是女性;②由独立性检验可知在犯错误的概率不超过0.01的前提下认为吃零食与性别有关系时,如果某人吃零食,那么此人是女性的可能性为99%;③由独立性检验可知在犯错误的概率不超过0.01的前提下认为吃零食与性别有关系时,是指每进行100次这样的推断,平均有1次推断错误.12.随着生活水平的提高,人们的休闲方式也发生了变化.某机构随机调查了n 个人,其中男性占调查人数的25.已知男性中有一半的人的休闲方式是运动,而女性中只有13的人的休闲方式是运动. (1)完成下列2×2列联表:(2)若在犯错误的概率不超过0.05的前提下,可认为“性别与休闲方式有关”,那么本次被调查的人数至少有多少?(3)根据(2)的结论,本次被调查的人中,至少有多少人的休闲方式是运动? 13.(选做题)某学校为了解该校高三年级学生在市一练考试的数学成绩情况,随机从该校高三文科与理科各抽取50名学生的数学成绩,作出频率分布直方图如图,规定考试成绩在[120,150]内为优秀.(1)由以上频率分布直方图填写下列2×2列联表.若按是否优秀来判断,是否有99%的把握认为该校的文理科数学成绩有差异.文科理科总计优秀非优秀总计5050100(2)某高校派出2名教授对该校随机抽取的学生成绩中一练数学成绩在140分以上的学生进行自主招生面试,每位教授至少面试一人,每位学生只能被一位教授面试.若甲教授面试的学生人数为ξ,求ξ的分布列和均值.。
独立性检验的基本思想及其初步应用
间有关系吗?为什么?
17
解:在假设K“2 性别与是否喜欢数学课程之间没有关系” 的前提下,K应2 该很小,并且
P(K 2 3.841) 0.05
而我们所得到的 K的2 观测值 k 超4过.5134.841,这就 意味着“性别与是否喜欢数学课程之间有关系”这一结论 是错误的可能性约为0.05,即有95%的把握认为“性别与 是否喜欢数学课程之间有关系”。
❖ 1、早期皮肌炎患者,还往往伴 有全身不适症状,如-全身肌肉酸 痛,软弱无力,上楼梯时感觉两 腿费力;举手梳理头发时,举高 手臂很吃力;抬头转头缓慢而费 力。
已知在 H0成立的情况下,
P(K 2 6.635) 0.010
即在 H0 成立的情况下,K 2大于6.635概率非常小, 近似为0.010
18
练习: ( P17 )
甲乙两个班级进行一门考试,按照学生考试成绩优秀和 不优秀统计后,得到如下列联表:
甲班 乙班 总计
优秀 10 7 17
不优秀 35 38 73
总计 45 45 90
画出列联表的条形图,并通过图形判断成绩与班级是否 有关.利用列联表的独立性检验估计,认为“成绩与班级 有关系”犯错误的概率是多少。
Байду номын сангаас
ad - bc 越大,说明吸烟与患肺癌之间的关系越强
引入一个随机变量:卡方统计量
K2
a
nad bc2 bc d a cb
d
其中n a b c d
作为检验在多大程度上可以认为“两个变量
有关系”的标准 。
9
吸烟 不吸烟
吸烟与患肺癌列联表
患肺癌 不患肺癌 总计
49
2099
2148
42
独立性检验的基本思想及其初步应用(共10张PPT)
吸烟是与患肺癌列联表
不吸烟 吸烟 总计
不患肺癌 a c
a+c
患肺癌 b d
b+d
总计 a+b c+d a+b+c+d
独立性检验原理〔与反证法类似〕:
反证法
假设检验
要证明结论A 备择假设H
在A不成立的前 在H不成立的条件下,即H成立的 提下进行推理 条件下进行推理
推出矛盾,意味 推出有利于H成立的小概率事件
那么吸烟能否对患肺癌有影响? 假设检验
42
在H不成立的条件下,下,即H成立的条件下进行推理
49
总计 7817 2148
总计
9874
91
9965
那么吸烟能否对患肺癌有影响?
第一步:提出假设检验问题H 推出矛盾,意味着结论A成立 在H不成立的条件下,即H成立的条件下进行推理 假设检验 在H不成立的条件下,即H成立的条件下进行推理 第一步:提出假设检验问题H 第二步:选择检验的目的 推出有利于H成立的小概率事件(概率不超过的事件)发生,意味着H成立的可能性 第一步:提出假设检验问题H 在H不成立的条件下,即H成立的条件下进行推理 那么吸烟能否对患肺癌有影响? 那么吸烟能否对患肺癌有影响? 推出有利于H成立的小概率事件不发生,接受原假设 推出有利于H成立的小概率事件(概率不超过的事件)发生,意味着H成立的可能性 第二步:选择检验的目的
独立性检验的根本思想 及其初步运用
分类变量
探求
为调查吸烟能否对患肺癌有影响,某肿瘤研讨所随机的调 查了9965人,得到如下结果〔单位:人〕
第一步:提出假设检验问题H
吸烟是与患肺癌列联表 假设检验
第二步:选择检验的目的 推出有利于H成立的小概率事件不发生,接受原假设
独立性检验的基本思想及其初步应用 课件
y1
y2
总计
x1
a
b
a+b
x2 总计
c
d
a+c
b+d
c+d
_a_+__b_+__c_+__d_
在 2×2 列联表中,如果两个分类变量没有关系,则应满足 ad-bc≈0,
因此|ad-bc|越小,关系越弱;|ad-bc|越大,关系越强.
2.等高条形图
等高条形图与表格相比,图形更能直观地反映出两个分类变量间
[解] 根据题目所给的数据得到如下列联表:
有兴趣 无兴趣 总计
理科 138 98 236
文科 73 52 125
总计 211 150 361
根据列联表中数据由公式计算得随机变量 K2 的观测值 k=3612×11×13185×0×522-367×3×129582≈1.871×10-4. 因为 1.871×10-4<2.706, 所以在犯错误的概率不超过 0.1 的前提下,不能认为“学生 选报文、理科与对外语的兴趣有关”.
(2)解决独立性检验的应用问题,一定要按照独立性检验的 步骤得出结论.
别对病人组和对照组的尿液作尿棕色素定性检查,结果如下:
组别
阳性数 阴性数 总计
铅中毒病人
29
7
36
对照组
9
28
37
总计
38
35
73
试画出列联表的等高条形图,分析铅中毒病人和பைடு நூலகம்照组的尿棕
色素阳性数有无差别,铅中毒病人与尿棕色素为阳性是否有关系?
[解] 等高条形图如图所示:
其中两个浅色条的高分别代表铅中毒病人和对照组样本中尿 棕色素为阳性的频率.
是否 相互影响, 常用等高条形图展示列表数据的频率特征 .
12独立性检验的基本思想及其初步应用(收藏)精品PPT课件
变 量
相 关 指 数 R2、 残 差 分 析 )
分 类 变 量 — — 独立性检验
独立性检验
本节研究的是两个分类变量的独立性检验问题。
列联表
为了调查吸烟是否对肺癌有影响,某肿瘤研究所随机 地调查了9965人,得到如下结果(单位:人)
反映在在说不吸明与出吸 烟 :表相烟 者 吸格关者 中 烟中 患 者相数患 肺 和比据肺 癌 不癌的吸,的等的比烟总比重者高重是患体条是肺状形癌02况的..图52可48。%%能能性更存直在差观异地,
1、两个相关的概念
(1)分类变量:
对于性别变量,其取值为男和女两种,这种变量的 不同“值”表示个体所属的不同类别,像这样的变量称 为 分类变量,也称为属性变量或定性变量,它们的取值一 定是离散的,而且不同的取值仅表示个体所属的类别。
(2)定量变量:
定量变量的取值一定是实数,它们的取值大小有 特定的含义,不同取值之间的运算也有特定的含义。
例1这组数据来自住院的病人,因此所得到的结论适合住院 的病人群体.例2的结论只适合被调查的学校。 大家要注意统计结果的适用范围(这由样本的代表性所决定)
在掌握了两个分类变量的独立性检验方法 之后,就可以模仿例1中的计算解决实际问 题,而没有必要画相应的图形。
图形可帮助向非专业人士解释所得结果; 也可以帮助我们判断所得结果是否合理
独立性检验基本的思想类似反证法
(1)假设结论不成立,即“两个分类变量没有关系”.
(2)在此假设下随机变量 K2 应该很小,如果由观测数据 计算得到K2的观测值k很大,则在一定程度上说明假设 不合理. (3)根据随机变量K2的含义,可以通过 评价该假设不合理的程度,由实际计算出的, 说明假设合理的程度为99.9%,即“两个分类变量有关
3.2 独立性检验的基本思想及其初步应用
准,基于上面的分析,我们构造一个随机变量
K2
a
nad bc2 bc da cb
d
1
其中n 2020/3/22 a b c d为样本容量.
若H0成立,即" 吸烟与肺癌没有关系" ,则K 2应该
很小.现在,根据表3 7中的数据,利用公式1计
算得K 2的观测值为
k 9965 7775 49 42 20992 56.632,
2020/3/22
探究 为调查吸烟是否对患肺癌有影响,某 肿瘤研究所随机地调查了9 965人,得到如下 结果 (单位 : 人) :
表3 7吸烟与患肺癌列联表
不患肺癌 患肺癌 总计
不吸烟 吸烟 总计
7775 2099 9874
42 7817 49 2148 91 9965
那么吸烟是否对患肺癌有影响?
2020/3/22
当观测数据a,b,c,d中有小于5时,需采用很复杂的精 确的检验方法.
表3 10
PK2 k 0.50 0.40 0.25 0.15 0.10
k
0.455 0.708 1.323 2.072 2.706
0.05 0.025 0.010 0.005 0.001 3.841 5.024 6.635 7.879 10.828
7817 2148 9874 91
这个值是不是很大呢 ?
在H0成立的情况下,统计学家估算出如下概率
PK2 6.635 0.01.
2
即在H0成立的情况下K 2的值大于6.635的概率 20非20/3常/22 小.近似于0.01.也就是说.在H0成立的情况
下对随机变量K 2进行多次观测, 观测值超过6.635
y1的频率为 a
独立性检验的基本思想及其初步应用课件
汇报人: 日期:
目 录
• 独立性检验的基本思想 • 样本数据的收集与处理 • 独立性检验的初步应用 • 独立性检验的常见问题与解决方法 • 独立性检验的实例分析 • 总结与展望
01
独立性检验的基本思想
定义与概念
独立性检验是一种统计假设检验 ,用于确定两个或多个样本数据
独立性检验可以结合其他数据分析方法,例如聚类分析、 主成分分析等,以更全面地分析样本数据集的特征和关系 。
增加可解释性
未来的独立性检验方法应该更注重增加可解释性,帮助我 们更好地理解样本数据集的特征和关系,以及它们对现实 世界的影响。
THANK YOU
独立性检验通过计算p值来决定是否拒绝零假设。如果p值小于预定的显著性水平 (如0.05),则拒绝零假设,认为两个样本数据集之间存在差异;否则,接受零 假设,认为两个样本数据集之间没有差异。
独立性检验的应用范围
独立性检验在医学研究中被广 泛应用于确定两种药物或治疗 方法之间的差异。
在社会学研究中,独立性检验 可用于确定两个组之间的差异 ,例如男女在某些特征上的差 异。
在经济学研究中,独立性检验 可用于确定两个市场之间的差 异,例如不同地区的消费者行 为是否存在差异。
02
样本数据的收集与处理
样本数据的收集方法
01
02
03
随机抽样
确保样本的随机性和代表 性,避免选择偏差和主观 意愿的影响。
网络调查
利用互联网平台进行数据 收集,方便快捷,适用于 大规模样本调查。
实地调研
定义
用来判断两个分类变量之间是否 相互独立的方法。
数学模型
使用列联表的形式表示数据,并 通过计算卡方统计量来评估变量
独立性检验的基本思想及其初步应用 课件
等高条形图的应用
从发生交通事故的司机中抽取 2000 名司机作随 机样本,根据他们血液中是否含有酒精以及他们是否对事故负有 责任将数据整理如下:
有责任 无责任 总计
有酒精 650
150 800
ห้องสมุดไป่ตู้
无酒精 700
500 1200
总计 1350
650 2000
试分析血液中含有酒精与对事故负有责任是否有关系.
独立性检验的基本思想及其初步应用
1.分类变量和列联表 (1)分类变量 变量的不同“值”表示个体所属的 不同类别 ,像这样的 变量称为分类变量. (2)列联表 ①定义:两个分类变量的 频数表 称为列联表.
②2×2 列联表
一般地,假设两个分类变量 X 和 Y,它们的取值分别为 {x1,x2} 和{y1,y2},其样本频数列联表(也称为 2×2 列联表)
[解析] 作等高条形图如右图,图中阴影部分表示有酒精 负责任与无酒精负责任的比例,从图中可以看出,两者差距较 大,由此我们可以在某种程度上认为“血液中含有酒精与对事 故负有责任”有关系.
[点评] (1)通过等高条形图可以粗略地直观判断两个分类 变量是否有关系,一般地,在等高条形图中,a+a b与c+c d相差 越大,两个分类变量有关系的可能性就越大.
有甲、乙两个班级进行一门考试,按照学生考
试成绩优秀和不优秀统计后,得到如下的列联表
班级与成绩列联表
优秀 不优秀 总计
甲班 10
35
45
乙班 7
38
45
总计 17
73
90
试问能有多大把握认为“成绩与班级有关系”?
[错解] 由公式得:K2=90×17×107×3×7-453×5×45382=56.86, 56.86>6.635 所以有 99%的把握认为“成绩与班级有关 系”.
高一数学独立性检验的基本思想及其初步应用知识点 独立性检验的基本思想
高一数学独立性检验的基本思想及其初步应用知识点独立性检验的基本思想独立性检验的基本思想及其初步应用是高中数学的一个难点,有些知识点需要同学们了解,下面是WTT给大家带来的高一数学独立性检验的基本思想及其初步应用知识点,希高一数学独立性检验的基本思想及其初步应用知识点(一)独立性检验的基本思想及其初步应分类变量与列联表:变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量;列出的两个分类变量的频数表,称为列联表。
独立性检验:为了使不同样本容量的数据有统一的评判标准,构造一个随机变量,其中n=a+b+c+d为样本容量。
利用随机变量K2来确定在多大程度上可以认为“两个分类变量有关系”的方法,称为两个分类变量的独立性检验。
利用独立性检验来考察两个分类变量是否有关系,并且能较精确地给出这种判断的可靠程度,具体做法是:(1)根据实际问题需要的可信程度确定临界值k0;(2)利用公式(1),由观测数据计算得到随机变量K2的观测值;(3)如果k>k0,就以(1-P(K2ge;k0))100的把握认为“与Y有关系”;否则就说样本观测数据没有提供“与Y有关系”的充分证据。
独立性检验的性质:独立性检验没有直观性,必须依靠K2的观测值k作判断。
独立性检验的一般步骤:(1)根据样本数据制成22列联表;(2)根据公式,计算K2的值;(3)查表比较K2与临界值的大小关系,作统计判断。
高一数学独立性检验的基本思想及其初步应用知识点(二)统计学的一种检验方式。
与适合性检验同属于2检验(即卡方检验,英文名:chi square test)它是根据次数资料判断两类因子彼此相关或相互独立的假设检验。
假设有两个分类变量和Y,它们的值域分另为{1, 2}和{y1, y2},其样本频数列联表为:y1y2总计1aba+b2cdc+d总计a+cb+da+b+c+d若要推断的论述为H1:“与Y有关系”,可以利用独立性检验来考察两个变量是否有关系,并且能较精确地给出这种判断的可靠程度。
独立性检验的基本思想及其初步应用教学课件
独立性检验的应用
独立性检验可以用来判断市场上 的产品是否与消费者的性别有关,
也可以用来判断不同性别的人群 在购买力上是否存在显著差异。
对未来研究方向的展望
01
拓展应用领域
02
完善统计方法
03
结合大数据技术
WATCHING
独立性检验的基本思 想及其初步应用教学 课件
目 录
• 引言 • 独立性检验的基本思想 • 独立性检验的初步应用 • 独立性检验的进一步应用 • 独立性检验的注意事项与挑战 • 总结与展望
contents
CHAPTER
引言
课程背景
课程目标
01
02
03
04
课程大纲
课程大纲
第二部分:独立性检验的步骤和 方法
方差分析案例
单因素方差分析案例
多因素方差分析案例
以某公司销售数据为例,通过多因素 方差分析,比较不同产品、不同地区、 不同时间等因素对销售业绩的影响。
方差分析的扩展应用
协方差分析
重复测量方差分析
非参数方差分析
CHAPTER
独立性检验的注意事项与挑 战
假设检验的局限性
假设检验的可靠性
假设检验的样本偏差
多重检验问题
多重检验的复杂性
在进行多次假设检验时,我们可能会遇到一个复杂的问题,即多重比较。多重比 较会增加我们错误接受原假设的风险,因此需要特别注意。
避免多重比较的方法
为了减少多重比较的风险,我们可以采用一些方法,例如使用Bonferroni校正或 调整显著性水平。
数据质量对检验的影响
数据的质量
详细介绍独立性检验的步骤和统 计方法
通过实例演示如何进行独立性检 验
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
独立性检验的基本思想及其初步应用编稿:赵雷审稿:李霞【学习目标】1. 了解独立性检验(只要求2×2列联表)的基本思想、方法及初步应用2. 通过典型案例的探究,了解实际推断原理和假设检验的基本思想、方法及初步应用. 【要点梳理】 要点一、分类变量有一种变量,这种变量所取不同的“值”表示的是个体所属不同类别,称这种变量为分类变量。
要点诠释:(1)对分类变量的理解。
这里的“变量”和“值”都应作为广义的“变量”和“值”进行理解。
例如:“性别变量”有“男”和“女”两种类别,这里的变量指的是性别,同样这里的“值”指的是“男”和“女”。
因此,这里所说的“变量”和“值”取的不一定是具体的数值。
(2)分类变量可以有多种类别。
例如:吸烟变量有“吸烟”与“不吸烟”两种类别,而国籍变量则有多种类别。
要点二、2×2列联表1. 列联表用表格列出的分类变量的频数表,叫做列联表。
2. 2×2列联表对于两个事件A ,B ,列出两个事件在两种状态下的数据,如下表所示:这样的表格称为2×2列联表。
要点三:卡方统计量公式为了研究分类变量X 与Y 的关系,经调查得到一张2×2列联表,如下表所示统计中有一个有用的(读做“卡方”)统计量,它的表达式是:22()()()()()n ad bc K a b c d a c b d -=++++(n a b c d =+++为样本容量)。
要点四、独立性检验1. 独立性检验通过2×2列联表,再通过卡方统计量公式计算2K 的值,利用随机变量2K 来确定在多大程度上可以认为“两个分类变量有关系”的方法称为两个分类变量的独立性检验。
2. 变量独立性的判断通过对2K 统计量分布的研究,已经得到两个临界值:3.841和6.635。
当数据量较大时,在统计中,用以下结果对变量的独立性进行判断:①如果2K ≤3.841时,认为事件A 与B 是无关的。
②如果2K >3.841时,有95%的把握说事件A 与事件B 有关; ③如果2K >6.635时,有99%的把握说事件A 与事件B 有关; 要点诠释:(1)独立性检验一般是指通过计算2K 统计量的大小对两个事件是否有关进行判断;(2)独立性检验的基本思想类似于反证法。
即在H 0:事件A 与B 无关的统计假设下,利用2K 统计量的大小来决定在多大程度上拒绝原来的统计假设H 0,即拒绝“事件A 与B 无关”,从而认为事件A 与B 有关。
独立性检验为假设检验的特例。
(3)利用独立性检验可以考察两个分类变量是否有关,并且能较精确地给出这种判断的把握程度。
3.独立性检验的基本步骤及简单应用独立性检验的步骤:要推断“A 与B 是否有关”,可按下面步骤进行: (1)提出统计假设H 0:事件A 与B 无关(相互独立); (2)抽取样本(样本容量不要太小,每个数据都要大于5); (3)列出2×2列联表;(4)根据2×2列联表,利用公式:22()()()()()n ad bc K a c b d a b c d -=++++,计算出2K 的值;(5)统计推断:当2K >3.841时,有95%的把握说事件A 与B 有关;当2K >6.635时,有99%的把握说事件A 与B 有关; 当2K >10.828时,有99.9%的把握说事件A 与B 有关; 当2K ≤3.841时,认为事件A 与B 是无关的.要点诠释:① 使用2K 统计量作2×2列联表的独立性检验时,要求表中的4个数据都要大于5.② 一定要弄清2K 的表达式22()()()()()n ad bc a c b d a b c d χ-=++++中各个量的含义.③ 独立性检验的基本思想类似于反证法.要确认“两个分类变量有关系”这一结论成立的可信程度,首先假设结论不成立,即假设结论“两个分类变量没有关系”成立,在该假设下构造的随机变量2K 应该很小,如果由观测数据计算得到的2K 的观测值很大,则在一定程度上说明假设不合理.根据随机变量2K 的含义,由实际计算的2K >6.635,说明假设不合理的程度约为99%,即“两个分类变量有关系”这一结论成立的可信程度约为99%.当2K ≤3.841时,认为两个分类变量是无关的.【典型例题】类型一、利用2×2列联表计算卡方例1.为了考察中学生的性别与是否喜欢数学课程之间的关系,在某校学生中随机地抽取了50名学生,得到如下列联表:根据表中的数据,计算K 【思路点拨】利用2K 公式计算【解析】得到2250(1320107) 4.84423272030K ⨯⨯-⨯=≈⨯⨯⨯ 【思路点拨】在利用22⨯列联表计算2χ统计量作独立性检验时,要求表中的4个数据大于等于5,为此,在选取样本的容量时一定要注意这一点。
举一反三:【变式1】研究两个事件A ,B 之间的关系时,根据数据信息列出如下的2×2列联表:则以下2χ计算公式正确的是( )A .22112212211212()n n n n n n n n n χ++++-= B .22112211122122()n n n n n n n n n χ++++-=C .22111221221212()n n n n n n n n n χ++++-= D .22112112221212()n n n n n n n n n χ++++-=【答案】A【变式2】由列联表则随机变量2χ≈。
(精确到0.001) 【答案】由2K 公式计算得:7.469 类型二、独立性检验例2. 近年来,随着我国经济的飞速发展,在生产车间中,由于保护不当,对生产工人造成伤害的事件也越来越多.某矿石粉厂当生产一种矿石粉时,在数天内即有部分工人患职业性皮肤炎(注:检查为阳性则为患皮肤炎),在生产季节开始时,随机抽取75名车间工人穿上新防护服,其余仍穿原用的防护服,生产进行一个月后,检查两组工人的皮肤炎患病人数的结果如下:问这种新防护服对预防工人患职业性皮肤炎是否有效?并说明你的理由.【思路点拨】 这是一个22⨯列联表的独立性检验问题,根据列联表的数据求解判断。
【解析】 提出假设H 0:新防护服对预防工人患职业性皮肤炎无效.将表中数据代入22()()()()()n ad bc K a c b d a b c d -=++++,得213.826K ≈,查表可知:P (2K ≥10.828)≈0.001,而13.826>10.828,故有99.9%的把握认为新防护服对预防这种职业性皮肤炎有效. 【总结升华】 在掌握了独立性检验的基本思想后我们一般通过计算2K 的值,然后比较2K 的值与临界值的大小来精确地给出“两个分类变量”的相关程度.举一反三:【变式1】某企业为了更好地了解设备改造前后与生产合格品的关系,随机抽取了180件产品进行分析。
其中设备改造前生产的合格品有36件,不合格品有49件;设备改造后生产的合格品有65件,不合格品有30件。
根据上面的数据,你能得出什么结论? 【答案】由已知数据得到下表根据公式22112212211212()n n n n n n n n n χ++++-=得()791018595303649651802⨯⨯⨯⨯-⨯≈12.38。
由于12.38>6.635,可以得出产品是否合格与设备改造是有关的。
【变式2】考察黄烟经过培养液处理与否跟发生青花病的关系。
调查了457株黄烟,得到下表中数据,请根据数据作统计分析。
分析:计算2χ的值与临界值的大小关系。
【答案】根据公式2χ=()35210522223521080142254572⨯⨯⨯⨯-⨯≈41.61。
由于41.61>6.635,说明经过培养液处理的黄烟跟发生青花病是有关的。
【变式3】为了研究色盲与性别的关系,调查了1000人,调查结果如下表所示:根据上述数据试问色盲与性别是否是相互独立的?【答案】由已知条件可得下表依据公式22112212211212()n n n n n n n n n χ++++-=得2χ=()5204804495651438644210002⨯⨯⨯⨯-⨯=27.139。
由于27.139>6.635,所以有99%的把握认为色盲与性别是有关的,从而拒绝原假设,可以认为色盲与性别不是相互独立的。
【高清课堂:独立性检验的基本思想及其初步应用406875 例题1】例3. 对196个接受心脏搭桥手术的病人和196个接受血管清障手术的病人进行3年的跟踪研究,调查他们是否又发作过心脏病,调查结果如下表所示:试根据上述数据比较这两种手术对病人又发作过心脏病的影响有没有差别. 【思路点拨】先提出假设,然后根据2K 的大小做出准确估计判断。
【解析】 假设病人又发作过心脏病与做过心脏搭桥手术还是血管清障手术没有关系. 由于a=39,b=157,c=29,d=167,a+b=196,c+d=196,a+c=68,b+d=324,n=392,所以22()()()()()n ad bc K a c b d a b c d -=++++392(3916715729)21.77919619668324⨯⨯-⨯=≈⨯⨯⨯。
因为2K ≈1.779<<2.706,所以不能作出病人又发作过心脏病与做过心脏搭桥手术还是血管清障手术有关系的结论.即这两种手术对病人又发作过心脏病的影响没有差别.【总结升华】此类问题的一般解法是利用22()()()()()n ad bc K a c b d a b c d -=++++,求出2K 的值,再利用与临界值的大小关系来判断假设是否成立.在解题时应注意准确代数与计算.举一反三:【变式1】对男女大学生在购买食品时是否看营养说明进行了调查,得到的数据如下表所示:利用2×2列联表的独立性检验估计看营养说明与性别的关系中准确的是( ) A .二者一定无关B .有95%的把握说二者有关C .有99%的把握说二者有关D .没有理由说二者有关 【答案】D ;由公式得:2289(2325329) 2.14955343257χ⨯⨯-⨯=≈⨯⨯⨯,因为2.149<3.841,所以我们没有理由说看营养说明与性别有关。
故选D。
【变式2】在大连—烟台的某次航运中,出现了恶劣气候。
随机调查男、女乘客在船上晕船的情况如下表所示:晕船不晕船合计男人32 51 83女人8 24 32合计40 75 115据此资料,你能否认为在恶劣气候中航行时,男人比女人更容易晕船?【答案】由卡方公式得:22115(3224518)1.87083324075χ⨯⨯-⨯=≈⨯⨯⨯。
因为1.870<3.841,所以我们没有理由说晕船跟性别有关。
因此不能认为在恶劣气候中航行时,男人比女人更容易晕船。