独立性检验分析
《列联表与独立性检验》教学分析
《列联表与独立性检验》教学分析一、本节知识结构框图二、重点、难点重点:22⨯列联表,独立性检验的思想和方法.难点:2χ统计量的导出和意义,独立性检验的思想和方法.三、教科书编写意图及教学建议统计最基本的思想是用样本推断总体,而估计和假设检验是两种基本而重要的推断方法.在前面的学习中,主要学习了统计估计的推断方法,例如,用样本数据的均值和方差分别估计总体的均值和方差;用样本相关系数估计两个数值变量的相关系数,从而推断这两个变量线性关系的密切程度;利用最小二乘思想估计一元线性回归模型中的参数等,本节结合具体实例,01,的分类变量的独立性,了解根据频率稳定到概率的原理及小概率原理,检验两个取值于{}独立性检验的思想方法,进一步提升学生的数据分析素养.本节内容对学生来说难度较大,涉及的基础知识有古典概型、条件概率、频率稳定到概率的原理及分类变量独立性的概念,涉及的统计思想方法主要是假设检验的思想方法.教科书结合丰富的实例,通过问题引导,采取了由易到难、逐步深入的处理方式,使学生了解独立性检验的基本思想.在本节教学中,应通过具体案例渗透独立性检验的基本思想和方法,使学生了解统计推断可能犯错误的特点,避免单纯地记忆独立性检验的基本步骤和机械地套用公式解决问题.应注重培养学生联系实际的意识,提高学生解决实际问题的能力.教科书注重信息技术与相关内容的有机融合,强调使用计算器、计算机等工具探索和解决问题.例如,在画等高堆积条形图时,借助信息技术作图,不但作出的图形准确美观,而且省时省力.面对复杂的计算,教学中应使用统计软件,解决计算量大的问题,使学生从烦琐的计算中解脱出来,把更多的精力放在对于独立性检验的基本思想的理解上.8.3.1分类变量与列联表教科书首先设置问题情境,对某中学全体学生分性别就体育锻炼的经常性进行普查,全校523名女生中有331人经常锻炼,601名男生中有473人经常锻炼,据此判断该中学学生不同性别在体育锻炼的经常性方面是否有差异.由于是普查数据,而且仅对这所学校进行判断,因此只需分别计算出女生经常参加体的比率和男生经常参加体育锻炼的比率,并比较这两个值是否相等.如果不相等,就认为不同性别在体育锻炼的经常性方面有差异,否则就认为没有差异.实际计算的结果显示经常参加体育锻炼的比率男生比女生高15.4个百分点.因此可判断该校的女生和男生在体育锻炼的经常性方面有差异,而且男生更经常锻炼.这个问题还可以从概率的角度进行解答.从女生和男生中各随机选取一名学生,分别计算两个群体中抽到经常参加体育锻炼学生的概率,并比较两个概率是否相等.如果不相等,就认为不同性别在体育锻炼的经常性方面有差异,否则就认为没有差异.若令0,1,X ⎧⎨⎩该生为女生,该生为男生,0,1,Y ⎧⎨⎩该生不经常锻炼,该生经常锻炼,则问题可以转化为比较条件概率|(10)P Y X ==和|(11)P Y X ==是否相等.如果数据是采用抽样调查得到的,怎样判断两个条件概率是否相等,从而推断两个分类变量是否存在关联性呢?接着教科书设置了例1,根据随机样本数据,推断两所学校学生数学成绩的优秀率是否有差异.根据频率稳定于概率的原理,直观上看,如果两校学生数学成绩优秀的频率差异较大,则可推断对应的两个条件概率不等,从而认为两校学生的数学成绩优秀率存在差异.基于所给的数据,计算得到甲校学生数学成绩优秀的频率为0.2326;乙校学生数学成绩优秀的频率为0.1556.因为两个频率存在明显差异,所以可以认为两校学生的数学成绩优秀率存在差异,并且甲校学生的数学成绩优秀率高于乙校.但是频率具有随机性,频率与概率之间存在误差,因此根据频率进行推断有可能犯错误.对此教科书设置了一个思考栏目,让学生思考上面推断的结论是否可能犯错误,进而深刻理解抽样数据的随机性特点,实际上也指出,例1给出的解答方法也是有缺陷的,为后面引出独立性检验方法作了铺垫.1.数值变量与分类变量数值变量的取值为实数,其大小和运算都具有实际含义.例如年龄、身高、体重、学习成绩等都是数值变量,张明的身高是180cm,李立的身高是175cm,说明张明比李立高5cm.常见数值变量的数字特征(如均值、方差、百分位数等)均有明确的含义.分类变量的取值表示个体所属类别,例如性别变量是分类变量,取男、女两个值;同样,数学考试等级是分类变量,取优、良、中等、及格、不及格五个值;等等.有时也可以把分类变量的不同取值用实数表示,但这些数值仅作为编号使用,通常没有大小关系和运算意义,例如,用0表示“男”,1表示“女”,性别变量这个分类变量的取值就变成0和1,但这里的0和1仅作为分类用,没有其他含义,比较0和1的大小没有意义,通常计算其均值和方差也没有意义.2.列联表列联表是由两个及两个以上分类变量进行交叉分类的频数分布表,教科书中仅涉及两个分类变量的列联表,并且每个变量只取两个值,这样的列联表称为2×2列联表.一般的独立性检验并不要求每个分类变量只取两个值.在教学中,不要求给出这些概念的严格定义,只需给出描述性的说明即可.3.例题及其教学例1给出了借助概率的观点研究“两校学生的数学成绩优秀率之间是否存在差异”的过程:(1)根据实际问题,引入样本空间,建立古典概型,并定义分类变量X和Y.(2)将样本数据整理成2×2列联表的形式.(3)计算并比较分类变量X和Y相应的频率.(4)用等高堆积条形图直观展示上述频率.(5)根据频率稳定于概率的原理,估计分类变量X和Y相应的条件概率,进而作出推断.在例1的教学中,要注意渗透用频率估计概率的思想.既要理解这种推断方法的合理性,又要认识到这种推断方法的缺陷.对于等高堆积条形图,可以借助统计软件绘制.对于例1,教科书中比较的是甲校学生中数学成绩不优秀和优秀的频率与乙校学生中数学成绩不优秀和优秀的频率,是从行的角度进行比较.同样地,也可以从列的角度进行比较:数学成绩不优秀的学生中甲校和乙校的频率分别为330.464871≈和380.53571≈2,数学成绩优秀的学生中甲校和乙校的频率分别为100.588217≈和70.411817≈,比较相应的频率,也能得出两校学生中数学成绩优秀率之间存在差异.4.例1后的“思考”例1事实上是根据两个频率的差异进行推断的,没有考虑随机性的影响.但事实上,即便两个样本来自同一个总体,也会因为随机性使得频率产生差异,因此需要用概率的方法进行推断.例1后安排的思考栏目,目的是让学生体会在样本推断总体的过程中,由于样本具有随机性,依据频率所作的推断可能会犯错误.8.3.2独立性检验假设检验是统计推断的一种基本形式,其基本思想是根据观察或试验的结果去检验一个假设(零假设)是否成立,即通过样本的某个指标对总体的某种属性进行推断,推断的结果是拒绝或接受零假设.独立性检验是假设检验的一个特例.独立性检验的基本原理是根据观测值与期望值的差异的大小作出推断,这种差异由2χ统计量进行刻画,其大小的标准根据推理有关联时犯错误的概率确定.独立性检验的依据是小概率原理,即小概率事件在一次试验中几乎不可能发生.在零假设成立的条件下,若一个不利于零假设的小概率事件在一次试验中发生了,则有理由拒绝零假设;若在一次试验中,此小概率事件没有发生,则没有充足的理由拒绝零假设,通常会接受零假设.教科书首先借助古典概型的观点对独立性检验问题进行分析,给出基于分类变量X 和Y 的零假设o H 的两种严格的数学表述.然后结合22⨯列联表,给出了在零假设o H 成立的前提下, 构造2χ统计量的全过程,通过推导过程让学生感悟其合理性.最后教科书总结了独立性检验的基本步骤,并与反证法进行了比较.1.独立性检验的基本步骤(1)提出零假设0:H X 和Y 相互独立对不同背景的实际问题,判断两种现象之间是否有关联或是否相互影响,需要给出严格的数学描述.当定义了两个只取两个值的分类变量X 和Y 后,由前面的分析可知,判断X 和Y 是否有关联只需判断(1|0)P Y X ==和(1|1)P Y X ==是否相等.根据条件概率的定义,可推出(1|0)(1|1)P Y X P Y X =====等价于事件{1}X =与{1}Y =相互独立,由后者又可推出{0}X =与{1},{1}Y X ==与{0},{0}Y X ==与{0}Y =都相互独立.如果这4组事件独立.则称分类变量X和Y 独立.因此,零假设可改述为0:H X 和Y 相互独立.(2)构造检验的统计量将样本数据整理成22⨯列联表的形式,4个积事件的观测频数分别为,,,a b c d .在X 和Y 独立的假设下,分别估计这4个积事件的期望频数,根据频率稳定到概率的原理,考虑所有对应频数的总的偏差并加以调整,构造2χ统计量.这种构造方法非常容易推广到取值超过两个的分类变量的独立性检验.根据2χ统计量的构造过程可知,2χ的值越小,零假设0H 成立的可能性越大;2χ的值越大,零假设0H 成立的可能性越小.为了方便查阅,这里给出2χ统计量的简化形式的推导过程.教科书中给出的该统计量最初的形式为22222()()()()()()()()()()()()()()()()a b a c a b b d c d a c c d b d a b c d n n n n a b a c a b b d c d a c c d b d n n n n χ++++++++⎡⎤⎡⎤⎡⎤⎡⎤----⎢⎥⎢⎥⎢⎥⎢⎥⎣⎦⎣⎦⎣⎦⎣⎦=+++++++++++. 由上式得22222[()()][()()][()()][()()]()()()()()()()()na a b a c nb a b b d nc c d a c nd c d b d n a b a c n a b b d n c d a c n c d b d χ-++-++-++-++=+++++++++++, 把n a b c d =+++代入上式各项分子,得22222()()()()()()()()()()()()ad bc bc ad bc ad ad bc n a b a c n a b b d n c d a c n c d b d χ----=+++++++++++, 对上式右边的分式进行通分,得22()[()()()()()()()()]()()()()ad bc c d b d c d a c a b b d a b a c n a b c d a c b d χ-+++++++++++=++++. 进一步化简得2222()()()()()()()()()()()ad bc a b c d n ad bc n a b c d a c b d a b c d a c b d χ-+++-==++++++++. 上式等号右边即为教科书中给出的2χ统计量的简化形式.(3)确定检验规则,得出推断结论由2χ统计量的构造过程可以看出,2χ统计量的分布与n 有关.在零假设0H 成立的条件下, 统计学家证明,当n →∞时,2χ的分布收敛到随机变量2(1)χ的分布,后者就是自由度为1的卡方分布.也就是说,当n →∞时,对任意的0x ,都有()()22(1)P x P x χχ→,根据卡方分布的性质,对于事先给定的小概率值α,都可以找到相应的正实数a x ,使得()2(1)a P x χα=.在n 充分大时,可以忽略2χ和2(1)χ分布之间的误差,因此认为()2a P x χα=成立.这里的值a x 即可作为与小概率值α对应的判断2χ大小标准的临界值.根据列联表计算2χ的值,当2a x χ时,拒绝零假设,由()2P x αχα=知,犯错误的概率不超过α.当2x αχ<时,不能拒绝零假设,意味着在小概率值α的检验规则下,根据样本数据,没有足够理由认为零假设不成立.我们在作统计推断时,如果不能拒绝零假设,不妨暂且接受它.但这并不代表零假设就是成立的,只是表明若要拒绝零假设,则需要积累更多的证据,作进一步验证.当小概率值0.01α=时,临界值 6.635x α=,当2 6.635χ时,我们推断0H 不成立,即认为X 和Y 不独立,该推断犯错误的概率不超过0.01;当2 6.635χ<时,我们没有充分证据推断0H 不成立,可以暂且认为X 和Y 独立,待有新的证据时再作进一步检验.下面我们提供一个应用独立性检验解决问题的案例,并给出完整的过程,供大家参考. 案例 为了研究一种新药对治疗某疾病是否有效,进行了临床试验.采用放回简单随机抽样的方法得到了如下数据:抽到服用新药的患者44名,其中34名痊愈,10名未痊愈;抽到服用没有任何疗效安慰剂的患者56名,其中32名痊愈,24名未痊愈.依据小概率值0.01α=的独立性检验,能否认为新药治疗该疾病有明显的效果?解:零假设为o H 新药治疗该疾病没有明显的效果.由样本数据可得列联表(表8-1).表8-1根据列联表中的数据, 经计算得到220.01100(34241032) 4.449 6.63544566634x χ⨯-⨯=≈<=⨯⨯⨯. 根据小概率值0.01α=的独立性检验,没有充分证据推断0H 不成立,因此可以认为0H 成立,即认为新药治疗该疾病没有明显的效果.药品对人类的健康至关重要,在没有充分证据表明新药对治疗疾病有效的情况下,必须慎重处理,可以等待时机成熟后,再作进一步试验.各类药品的使用在疾病治疗中具有十分重要的作用,一种新药在投放市场前需要检验其对疾病是否具有疗效.新药的推广使用涉及多方面的因素,成本往往很高,也伴随一定风险.因此,在对药品治疗疾病是否有效进行独立性检验时,一般会选取较小的小概率值α,以不轻易作出药品有效的结论.针对某些疾病,民间有些“食疗方法,这些方法往往简单易行、成本低廉,而且已流传多年,没有什么风险.在对这些“食疗”方法是否有疗效进行独立性检验时,通常不必像对药品的检验那样严苛,可以把小概率值α取得稍大一些.为了减少复杂的计算所花费的时间,同时对2χ分布有一个直观认识,建议使用GeoGebra 软件进行本案例的教学.利用该软件可以计算2χ的值.如图8-18,在“概率统计”视图下,在“统计”标签中选择卡方检验,只要输入观测频数,同时勾选预期次数,即可得到2χ的值为4.4494,即22222(3429.04)(1014.96)(3236.96)(2419.04) 4.449429.0414.9636.9619.04χ----=+++≈. 其中的p 值为0.0349,其含义是()2 4.44940.034P χ≈9.因为()2 6.6350.01P χ≈,所以0.01p >等价于2 6.635χ<.利用该软件还可以根据小概率值α求对应的临界值.如图8-19,在“分布”标签中选择卡方检验,输入自由度为1,概率值为0.1,即得到对应的临界值为2.7055.(4)分析X 和Y 之间的影响规律拒绝零假设,简单地认为X 和Y 有关联或相互影响,不一定是最终想要的结果.在很多时候还需要明确X 和Y 之间是什么样的关联或在多大程度上相互影响,这可以通过样本数据计算相应的频率,推断X 和Y 之间的影响规律.2.应用独立性检验解决实际问题时的注意事项(1)一般来说,样本量n a b c d =+++越大,2χ统计量的分布与2χ(1)分布的近似程度越高.因此,为了保证一定的精度,在实际应用中通常要求列联表中的四个数,,a b c 和d 都不小于5.(2)当零假设被接受时,也可能犯错误,至于犯这种错误的概率(不妨记为p )是多少,我们并不清楚.但是我们知道,当α增大时,p 会减小;反之,当α减小时,p 会增大.因此,在具体操作中,要根据实际问题,选择恰当的小概率值,不能一味地降低或提高α的取值.3.对犯错误概率的解释在零假设0H 成立的前提下,随着小概率值α的逐渐减小,2χ统计量对应的临界值0x 逐当增大,则事件2{}x αχ越来越不容易发生,零假设越来越不容易被拒绝;随着小概率值α的逐当增大,2χ统计量对应的临界值x α逐渐减小,则事件2{}x αχ越来越容易发生,零假设越来越容易被拒绝.例如,对于例3中的数据,经计算得2 4.881χ≈.(1)当小概率值α取0.005时,0.0057.879x =,此时20,0054.8817.879x χ≈<=,则没有充分理由拒绝零假设,因此可以接受0H ,即认为两种疗法的效果没有差异.(2)当小概率值α取0.05时,0.05 3.841χ=,此时20.054.881 3.841x χ≈>=,则拒绝零假设,即认为两种疗法的效果有差异,该推断犯错误的概率不超过0.05.(3)当小概率值α取0.1时,0.1 2.706χ=,此时20.14.881 2.706x χ≈>=,则拒绝零假设,即认为两种疗法的效果有差异,该推断犯错误的概率不超过0.1.对于(2)和(3),用的是与(1)同一组数据,但都得到了与(1)相反的结论,可见推断的结论与检验规则有关.另外,由于依据不同的检验规则,(2)和(3)两个推断犯错误的概率上界是不同的,而这种犯错误的概率只能通过多次试验才能表现出来.因此在具体的问题中,所使用的小概率值往往是由有经验的专家事先确定的.4.样本量对于2χ独立性检验结果的影响对于例1列联表8.3-2中的数据,依据0.1α=的独立性检验,得出的结论是两校学生数学成绩的优秀率没有明显差异.假设对于例1中的问题我们得到如表82-的数据.表8-2显然,基于这些数据计算出的频率与例1中的相同.然而在相同的检验标准下作2χ独立性检验,可以推出两校学生数学成绩的优秀率有明显差异,结论却发生了变化.通常情况下,样本量越大,提供的信息越充分,观测的结果通常会更准确.与例1中的数据相比,这里的每个数据都变为原来的10倍,即样本量变为原来的10倍,这种差异无法通过频率的计算表现出来,而2χ独立性检验可能会得出不同的结论,可见2χ统计量能够有效地提取样本所包含的有用信息.5.例题及其教学关于两校学生数学成绩的优秀率是否有差异,例2利用独立性检验的方法得到的结论与例1用频率估计概率的方法得到的结论截然相反,应注意结合例2后的“思考”,使学生体会独立性检验的必要性.例3是检验甲、乙两种疗法的疗效哪个更好.在例3的教学中,应通过复习列联表的制作,引导学生运用学过的知识解决问题,熟悉运用独立性检验的方法解决具体问题的步骤,教学的重点应该放在解释独立性检验的基本思想上,避免学生单纯地记忆处理问题的步骤和机械套用公式进行计算.需要注意的是,利用独立性检验得出的结论是有条件的,不能在使用时随意扩大范围.例如,例3中的样本数据来自于某儿童医院,根据样本数据得出的结论能很好地适用于该儿童医院.若将这个结论推广到其他群体,则可能会犯错误.例4主要研究吸烟与患肺癌的关系,属于直接运用独立性检验的方法解决实际问题的经典范例.在例4的教学中,应让学生亲自处理数据、解决问题,从中体会统计思维和确定性思维之间的差异,在理解独立性检验思想的过程中,培养学生数据处理的能力,提升学生的数学运算、数据分析等核心素养.6.对132页观察栏目的说明在教科书表8.3-5中,对调两种疗法或两种疗效的位置,不会影响2χ值的计算结果.事实上,对调两种疗法的位置,相当于对调a与,c b与d的位置,由2χ的表达式知,并不影响2χ值的计算结果.同样地,对调两种疗效的位置,相当于对调a与,b c与d的位置,也不影响2χ值的计算结果.7.对本节最后思考栏目的说明可以在与反证法思想的比较中帮助学生了解独立性检验的思想.表8-3给出了反证法与独立性检验两种方法的比较.表8-3从表8-3的对比中,可以看出独立性检验的思想和反证法类似,但需要注意的是:在全部逻辑推理正确的情况下,反证法不会犯错误,而独立性检验可能会犯错误,对于这种错误概率的估计是2 独立性检验的重要组成部分.11/ 11。
人教版高数选修2-3第7讲:独立性检验与回归分析(学生版)
独立性检验与回归分析__________________________________________________________________________________ __________________________________________________________________________________1.了解变量间的相关关系,能根据给出的线性回归方程系数建立线性回归方程.2.了解独立性检验(只要求2×2列联表)的基本思想、方法及其简单应用.3.了解回归分析的基本思想、方法及其简单应用.1.独立性检验(1)概念:用2χ统计量研究独立性问题的检验的方法称为独立性检验.(2)m×n列联表指有m行n列的列联表(3)必备公式2χ=2()()()()()n ad bca cb d a bc d-++++2.2χ统计量中的四个临界值经过对2χ统计量分布的研究,已经得到了四个经常用到的临界值:2.706、3.841、6.635、10.828.由2×2列联表计算出2χ,然后与相应的临界值进行比较,当2χ>2.706时,有______的把握说事件A与B有关.当2χ>3.841时,有______的把握说事件A与B有关.当2χ>6.635时,有______的把握说事件A与B有关.当2χ>10.828时,有______的把握说事件A与B有关.当2χ≤2.706时,认为事件A与B是无关的.3.回归分析(1)线性回归模型是指方程y a bxε=++,其中________称为确定性函数,____称为随机误差.(2)线性回归方程是指直线方程ˆˆˆya bx =+,其中回归截距ˆa 、回归系数ˆb 公式如下: ˆb=_______________________ˆa =_____________. (3)参数r 检验线性相关的程度,计算公式为r()()niix x yy --∑即ni ix ynx y-∑化简后r =x yxy x yS S -,其中y S 表示数据i y (i =1,2,…,n )的标准差,这个r 称为y 与x 的样本相关系数,简称相关系数,其中-1≤r ≤1.若r >0,则x 与y 是正相关,若r <0,则x 与y 是负相关,若r =0,则x 与y 不相关,r =1或r =-1时,x 与y 为完全线性相关.类型一.独立性检验例1:为考察高中生的性别与是否喜欢数学课程之间的关系,在某城市的某校高中生中随机抽取300名学生,得到如下列联表:判断性别与是否喜欢数学课程有关吗?用独立性检验方法判断父母吸烟对子女是否吸烟有影响.类型二.变量间的相关关系及线性回归方程例2:下列关系中,是带有随机性相关关系的是______. ①正方形的边长与面积之间的关系; ②水稻产量与施肥量之间的关系;③人的身高与年龄之间的关系;④降雪量与交通事故的发生率之间的关系.例3:某工业部门进行一项研究,分析该部门的产量与生产费用的关系,从这个工业部门内随机抽选了10个企业作样本,资料如下表:练习1:下列两个变量之间的关系哪个不是函数关系( ) (A)角度和它的余弦值 (B)正方形边长和面积(C)正n 边形的边数和顶点角度之和 (D)人的年龄和身高 类型三.相关检验与回归分析例3:某工业部门进行一项研究,分析该部门的产量与生产费用之间的关系.从这个工业部门内完成下列问题:(1)计算x 与y 的相关系数;(2)对这两个变量之间是否线性相关进行相关性检验;(3)设线性回归方程为ˆˆˆ,ybx a =+求系数ˆˆ,.a b试预测该运动员训练47次以及55次的成绩.1.在调查中学生近视情况中,某校男生150名中有80名近视,女生140名中有70名近视,在检验这些中学生眼睛近视是否与性别有关时用什么方法最有说服力( )A.期望与方差B.排列与组合C.独立性检验D.概率2.通过对2χ统计量的研究,得到了若干临界值,当2χ≤2.706时,我们认为事件A 与B ( ) A.有90%的把握认为A 与B 有关系 B.有95%的把握认为A 与B 有关系C.没有充分理由说明事件A 与B 有关系D.不能确定3.下列关于2χ的说法中正确的是( )A.2χ在任何相互独立问题中都可以用来检验有关还是无关 B.2χ的值越大,两个事件的相关性就越大C.2χ是用来判断两个分类变量是否有关系的随机变量,只对于两个分类变量适合D.2χ的观测值2χ的计算公式为2()()()()()n ad bc a b c d a c b d χ-=++++4.下列两个变量之间的关系是相关关系的是( ) A.角度和它的余弦值 B.正方形边长和面积 C.正n 边形的边数和顶点数 D.人的年龄和身高5.由一组样本数据1122(,),(,),,(,n x y x y x )n y 得到的回归方程为ˆˆˆ,ybx a =+下面说法不正确的是( )A.直线ˆˆˆybx a =+必经过点(,)x y B.直线ˆˆˆybx a =+至少经过点1122(,),(,),,(,)n n x y x y x y 中的一个点C.直线ˆˆˆybx a =+的斜率为1221()ni ii nii x y nxyxn x ==--∑∑D.直线ˆˆˆybx a =+和各点1122(,),(,),,(,)n n x y x y x y 的偏差平方和21ˆˆ[()]ni ii y bx a =-+∑是该坐标平面上所有直线与这些点的偏差平方和中最小的直线6.有甲、乙两个班级进行数学考试,按照大于等于85分为优秀,85分以下非优秀统计成绩,得到如下所示的列联表:已知在全部105人中随机抽取1人,成绩优秀的概率为27,则下列说法正确的是( )A .列联表中c 的值为30,b 的值为35B .列联表中c 的值为15,b 的值为50C .根据列联表中的数据,若按97.5%的可靠性要求,能认为“成绩与班级有关系”D .根据列联表中的数据,若按97.5%的可靠性要求,不能认为“成绩与班级有关系”7.为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:已知P (K 2≥3.841)≈0.05根据表中数据,得到K 2=50×(13×20-10×7)223×27×20×30≈4.844.则认为选修文科与性别有关系出错的可能性为________.8.某数学老师身高176cm ,他爷爷、父亲和儿子的身高分别是173cm 、170cm 和182cm.因儿子的身高与父亲的身高有关,该老师用线性回归分析的方法预测他孙子的身高为________cm._________________________________________________________________________________ _________________________________________________________________________________基础巩固1.(2014重庆卷)已知变量x与y正相关,且由观测数据算得样本平均数x=3,y=3.5,则由该观测数据算得的线性回归方程可能是()A.y^=0.4x+2.3 B.y^=2x-2.4C.y^=-2x+9.5 D.y^=-0.3x+4.42.(2014湖北卷)根据如下样本数据:得到的回归方程为y=bx+a,则()A.a>0,b>0B.a>0,b<0C.a<0,b>0D.a<0,b<03.(2014江西卷)某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量的关系,随机抽查52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是()及格2032A.成绩B.视力C.智商D.阅读量4.下列两个变量之间的关系是相关关系的是()A.正方体的棱长和体积B.角的弧度数和它的正弦值C.单产为常数时,土地面积和总产量D.日照时间与水稻的亩产量5.(2015福建)为了解某社区居民的家庭年收入所年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:根据上表可得回归直线方程ˆˆˆybx a =+,其中ˆˆˆ0.76,b a y bx ==-,据此估计,该社区一户收入为15万元家庭年支出为( )A.11.4万元B.11.8万元C.12.0万元D.12.2万元6.“回归”一词是在研究子女的身高与父母的身高之间的遗传关系时,由高尔顿提出的.他的研究结果是子代的平均身高向中心回归.根据他的结论,在儿子的身高y 与父亲的身高x 的回归方程ˆˆˆya bx =+中,ˆb ( ) A.在(-1,0)内B.等于0C.在(0,1)内D.在[1,+∞)7.线性回归方程ˆˆˆya bx =+中,回归系数ˆb 的含义是________________. 8.在一项打鼾与患心脏病是否有关的调查中,共调查了1978人,经过计算2χ=28.63,根据这一数据分析,我们有理由认为打鼾与患心脏病是________的.(填“有关”、“无关”)能力提升1.下列说法:①将一组数据中的每一个数据都加上或减去同一个常数后,方差不变;②设有一个线性回归方程y ^=3-5x ,变量x 增加1个单位时,y 平均增加5个单位;③设具有相关关系的两个变量x ,y 的相关系数为r ,则|r |越接近于0,x 和y 之间的线性相关程度越强;④在一个2×2列联表中,由计算得K 2的值,则K 2的值越大,判断两个变量间有关联的把握就越大.其中错误的个数是( ) A.0B.1C.2D.32.已知x 与y 之间的几组数据如下表:假设根据上表数据所得线性回归直线方程y =b x +a ,若某同学根据上表中的前两组数据(1,0)和(2,2)求得的直线方程为y =b ′x +a ′,则以下结论正确的是( )A.b ^>b ′,a ^>a ′B.b ^>b ′,a ^<a ′ C.b ^<b ′,a ^>a ′D.b ^<b ′,a ^<a ′3.对相关系数r ,下列说法正确的是( ) A.||r 越大,相关程度越小B.||r 越小,相关程度越大C.||r 越大,相关程度越小,||r 越小,相关程度越大D.||r≤1且||r越接近1,相关程度越大,||r越接近0,相关程度越小4.若由资料知,y对x呈线性相关关系,试求:(1)线性回归方程;(2)估计设备的使用年限为10年时,维修费用约是多少?5.若由资料可知y对x呈线性相关关系,试求:(1)线性回归直线方程;(2)根据回归直线方程,估计使用年限为12年时,维修费用是多少?6.在某医院,因为患心脏病而住院的665名男性病人中,有214人秃顶;而另外772名不是因为思心脏病而住院的男性病人中有175人秃顶,利用独立性检验方法判断秃顶与患心脏病是否有关系?课程顾问签字: 教学主管签字:。
统计学中的独立性检验
统计学中的独立性检验统计学中的独立性检验(Test of Independence)是一种常用的统计方法,用于研究两个或多个分类变量之间是否存在相互独立的关系。
通过对随机抽样数据进行分析,可以判断不同变量之间是否有关联,并衡量关联的强度。
本文将介绍独立性检验的基本原理、常用的检验方法以及实际应用。
一、独立性检验的基本原理独立性检验的基本原理是基于统计学中的卡方检验(Chi-Square Test)。
卡方检验是一种非参数检验方法,用于比较观察值频数与期望频数之间的差异。
在独立性检验中,我们首先建立一个原假设,即所研究的两个或多个变量之间不存在关联,然后通过计算卡方统计量来判断观察值与期望值之间的差异是否显著。
二、常用的独立性检验方法1. 皮尔逊卡方检验(Pearson's Chi-Square Test):这是最常见的独立性检验方法,适用于有两个以上分类变量的情况。
它基于观察频数和期望频数之间的差异,计算出一个卡方统计量,并根据卡方分布表给出显著性水平。
2. Fisher精确检验(Fisher's Exact Test):当样本量较小或者某些期望频数很小的情况下,皮尔逊卡方检验可能存在一定的偏差。
在这种情况下,可以使用Fisher精确检验来代替皮尔逊卡方检验,得到更准确的结果。
3. McNemar检验:适用于配对数据比较的独立性检验,例如一个样本在两个时间点上的观察结果。
三、独立性检验的实际应用独立性检验在各个领域都有广泛的应用,以下是几个常见的实际应用场景:1. 医学研究:独立性检验可以用于研究某种药物治疗方法是否具有显著的疗效,或者判断不同年龄组和性别之间是否存在患病率的差异。
2. 教育领域:独立性检验可用于研究学生成绩与家庭背景、教育水平之间是否存在关联。
3. 市场调研:在市场调研中,可以通过独立性检验来分析不同年龄、性别、收入水平等因素对消费者购买习惯的影响。
4. 社会科学研究:独立性检验可以帮助社会科学研究人员探索个体特征与社会行为之间的关系,例如政治倾向与不同年龄群体之间的关联性等。
配合度检验独立性检验与同质性检验
配合度检验、独立性检验与同质性检验1. 引言在统计学中,配合度检验、独立性检验和同质性检验是常用的方法之一,用于检验随机变量之间的关系。
它们在不同的场景中用来评估数据之间的相关性、独立性以及异质性。
本文将分别介绍这三种检验方法的定义、假设前提和具体应用。
2. 配合度检验2.1 定义配合度检验 (Goodness-of-Fit Test) 是一种用于确定观测数据是否与理论分布相符的统计检验方法。
它通过比较观测数据与给定理论分布的离差来评估两者之间的差异。
2.2 假设前提配合度检验的假设前提包括以下两点: 1. 观测数据来自于特定的总体或总体分布; 2. 预期的理论分布已知。
2.3 应用场景配合度检验在许多实际应用中被广泛采用,例如: - 检验观测数据是否符合正态分布、泊松分布等特定的理论分布; - 检验样本数据是否符合某一理论模型,如线性回归模型、逻辑回归模型等。
2.4 示例以下是一个应用配合度检验的简单示例:假设我们有一组观测数据,表示了一批产品的重量。
根据厂家提供的数据,产品的重量应该符合正态分布。
我们可以使用配合度检验来评估观测数据是否与正态分布相符。
首先,我们计算观测数据的均值和标准差,作为理论分布的参数。
然后,我们根据观测数据的样本量和理论分布的参数,计算出在理论分布下每个重量区间的期望频数。
最后,我们使用配合度检验统计量(如卡方检验)来比较观测频数与理论分布的期望频数之间的差异。
如果差异较小,则我们可以得出结论:观测数据符合正态分布。
3. 独立性检验3.1 定义独立性检验 (Test of Independence) 用于检验两个随机变量之间是否存在相互独立的关系。
它可以帮助我们确定两个变量是否在某种程度上相互影响。
3.2 假设前提独立性检验的假设前提包括以下两点: 1. 观测数据来自于一个大的总体或总体分布; 2. 两个变量之间不存在相互依赖的关系。
3.3 应用场景独立性检验在数据分析中具有广泛的应用场景,例如: - 检验两个变量之间是否存在相关性,如商品价格与销量之间的关系; - 检验两个分类变量之间是否相互独立,如男性与女性对某一产品的偏好。
正态分布回归分析独立性检验
正态分布回归分析独立性检验
在进行回归分析时,通常会假设误差项服从正态分布,是一个独立同分布的随机变量。
这个假设在很多情况下是合理的,特别是当样本容量较大时,中心极限定理保证了误差项的正态分布。
为了验证误差项是否满足正态分布的假设,我们可以利用正态分布的统计方法进行检验。
下面介绍两种常用的检验方法:基于直方图和基于正态概率图。
1.基于直方图的检验方法
基于直方图的检验方法通过绘制误差项的直方图,观察其分布形态是否接近正态分布。
具体步骤如下:
1)将残差(误差项)按照大小排序。
2)将排序后的残差分为k个区间,计算每个区间中的残差频数。
3)绘制直方图,观察残差分布是否近似于正态分布。
若直方图呈现钟型曲线,说明残差近似满足正态分布假设,否则不能满足正态分布假设。
2.基于正态概率图的检验方法
基于正态概率图的检验方法通过绘制误差项的正态概率图,观察其是否呈现近似直线的趋势。
1)将残差按照大小排序。
2)计算每个残差在正态分布下对应的累积概率。
3)绘制散点图,横坐标为残差的标准正态分位数,纵坐标为残差对应的累积概率。
4)观察散点图是否近似于一条直线。
若散点图近似直线,则说明残差近似满足正态分布假设,否则不能满足正态分布假设。
正态分布回归分析独立性检验的目的是验证回归模型中误差项是否满足正态分布的假设,如果不满足,则可能需要对模型进行修正,或者使用非参数回归模型等更适合的方法。
因此,对于从事回归分析的教师来说,熟练掌握正态分布回归分析独立性检验方法是非常重要的。
解读“独立性检验问题”
解读“独立性检验问题”独立性检验研究的问题是两个分类变量之间是否有关系。
为此,需要先根据采集样本的数据画出两个分类变量的列联表(通常表中数据a ,b ,c ,d 都不小于5),利用列联表可以进行粗略估计,直观地得到结论。
与表格相比,三维柱形图和二维条形图更能直观地反映相关数据的总体状况,不过不仅作图麻烦,而且三维柱形图和二维条形图所表示的关系也只是一种粗略的估计,不能精确地给出所得结论的可靠程度,因而不常用;一般用公式求得2K 的值,与临界值的大小作比较来判断分类变量X 与Y 是否有关。
具体步骤:1.采集样本数据.2.假设两个分类变量X 和Y 没有关系;给定一个显著水平,查表给出临界值;3.计算()()()()()22n ad bc K a b c d a c b d -=++++;4.若2K 大于临界值,则认为X 与Y 有关系,否则没有充分理由说明这个结论不成立。
如:当2K >3.841时,有95%的把握说事件A 与B 有关;当2K >6.635时,有99%的把握说事件A 与B 有关;当2K ≤3.841时,认为事件A 与B 是无关的.下面我们通过几个典型例题对独立性检验问题进行剖析,使同学们进一步掌握这类问题的研究方法.例1 为了研究色盲与性别的关系,调查了1000个人,调查结果如下表所示:分析:该例可归结为二元总体的独立性检验问题。
解析:由已知条件可得下表:根据公式得()22100044263851427.13995644480520K ⨯⨯-⨯=≈⨯⨯⨯。
因为27.13910.828>,所以有99.9%的把握认为色盲与性别是有关的。
评注:根据假设检验的思想,比较计算出2K 与临界值的大小,判断两个分类变量是否有关。
例2 为考察性别与是否喜欢饮酒之间的关系,在某地区随机抽取290人,得到如下列联表:分析:本题是独立性检验的题目。
解析:由列联表数据得:()222901012012445 5.30 5.024122178225228K ⨯-⨯=≈>⨯⨯⨯,故我们有97.5%的把握认为“性别与喜欢饮酒有关。
【高考数学总复习】:回归性分析与独立性检验(知识点讲解+真题演练+详细解答)
量,例如某同学的数学成绩与化学成绩。
2.线性回归分析 (1) 散点图:将样本中的各对数据在直角坐标系中描点而得到的图形叫做散点图,它直观地 描述了两个变量之间是否有相关关系,是判断两个变量相关性的重要依据。 (2) 回归直线:散点图中点的整体分布在一条直线左右,则称这两个变量之间具有线性相关
(a b)(c d)(a c)(b d )
通过对统计量 K2 的研究,一般情况下认为:
①当 K 2 ≤3.841 时,认为变量 X 与 Y 是无关的。
②当 K 2 >3.841 时,有 95%的把握说变量 X 与 Y 有关;
④ 当 K 2 >6.635 时,有 99%的把握说变量 X 与 Y 有关;
定在多大程度上可以认为“两个分类变量有关系”的方法称为两个分类变量的独立性检验。
2.分类变量的理解: 分类变量是说明事物类别的一个名称,其取值是分类数据。如“性别”就是一个分类变 量,其变量值为“男”或“女”;“行业”也是一个分类变量,其变量值可以为“零售 业”,说明 X 与 Y 无关的把握越小
6. 右表是对与喜欢足球与否的统计列联表依据表中的数据,得到( )
A. K 2 9.564 B. K 2 3.564 C. K 2 2.706 D. K 2 3.841
7. 对两个分类变量 A、B 的下列说法中正确的个数为( ). ①A 与 B 无关,即 A 与 B 互不影响;②A 与 B 关系越密切,则 K2 的值就越大;③K2
x yw
46.6 563 6.8
8
(xi x )2
i 1
独立性检验原理
独立性检验原理
一、独立性检验原理
独立性检验是一种统计学方法,用来检验两个变量之间是否具有某种特定的关联。
这种检验通常被称为卡方检验,也称为假设检验,可用于衡量总体比例的差异。
独立性检验的原理是基于卡方检验的假设。
卡方检验是一种假定检验,由卡方分布检验构成,它主要对两个及以上的分类字段进行检验,以确定两个或多个字段是否存在某种统计关联。
此外,在独立性检验中,被检验的时间变量不能过剩或不足。
检验的内容取决于所检验的变量是多变量还是单变量。
如果是多变量检验,可以分析多个变量之间的时间关系;而如果是单变量检验,则只能测量单变量之间的关系。
独立性检验也是针对总体比例的,因此它可以用于衡量独立变量和因变量间的关系。
例如,独立性检验可用于测量某种健康行为的总体比例,以及分析事件发生的不同国家或地区之间是否具有某种统计关联性。
另外,独立性检验也可用于分析多项结果之间具有相互影响的概率,以及分析某种疾病的发病率。
例如,它可以用于确定一个人决定一种某种疾病发病的概率是否与另一个人的不同因素(例如性别)有关。
独立性检验
如果 A,B 无关,那么nn11与nn1+·nn+1 应 该很接近,nn12与nn1+·nn+2应该很 接近...
从而
χ (n11 _ n1+. nn+1)2
2=
n1+
.
n+1 n
+
(n12 _ n1+. nn+2)2
(n21 _ n2+. nn+1)2
n1+
.
n+2 n
+
n2+
.
n+1 n
+
( n22
事件A与B独立,有P(AB)=P(A)P(B) 成立。我们用H0表示上式,即H0: P(AB)=P(A) P(B)。并称之为统计假 设,当H0成立时,下面的三个式子也 成立:
P( AB)=P( A)P(B) P(A B)=P(A)P( B) P( A B)=P( A)P( B)
根据概率的统计定义,上面提 到的众多事件的概率都可以用相应 的频率来估计。
解:由公式得:
χ2 =
392 (39×167-29×157)2 68×324×196×196
≈1.780
因为1.780<3.841,我们没有 理由说“心脏搭桥手术”与“又 发生过心脏病”有关。
例3.某大型企业人力资源部为了 研究企业员工工作积极性和对待 企业改革态度的关系,随机抽取 了189名员工进行调查,所得的数 据如下表所示:
独立性检验
一、问题引入
警示:你快戒烟吧,否则一定 会患慢性气管炎的。
老年人患慢性气管炎与吸烟习 惯有没有关系呢?
二、案例分析
例1.为了探究患慢性气管炎与吸烟 是否有关,调查了339名50岁以上的 人,调查结果如下表所示:
8.3.2独立性检验(解析版)
独立性检验【学习目标】1.了解独立性检验的基本思想、方法及其简单应用2.理解判断两个分类变量是否有关系的常用方法、独立性检验中K2的含义及其实施步骤【自主学习】知识点独立性检验(1)定义:利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验.(2)K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d.(3)独立性检验的具体做法①根据实际问题的需要确定容许推断“两个分类变量有关系”犯错误概率的上界α,然后查表确定临界值k0.②利用公式计算随机变量K2的观测值k.③如果k≥k0,就推断“X与Y有关系”,这种推断犯错误的概率不超过α,否则就认为在犯错误的概率不超过α的前提下不能推断“X与Y有关系”,或者在样本数据中没有发现足够证据支持结论“X与Y有关系”.【合作探究】探究一 有关“相关的检验”【例1】某校对学生课外活动进行调查,结果整理成下表:用你所学过的知识进行分析,能否在犯错误的概率不超过0.005的前提下,认为“喜欢体育还是文娱与性别有关系”?解 判断方法如下:假设H 0“喜欢体育还是喜欢文娱与性别没有关系”,若H 0成立,则K 2应该很小. ∵a =21,b =23,c =6,d =29,n =79, ∴K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )=79×(21×29-23×6)244×35×27×52≈8.106.且P (K 2≥7.879)≈0.005即我们得到的K 2的观测值k ≈8.106超过7.879,这就意味着:“喜欢体育还是文娱与性别没有关系”这一结论成立的可能性小于0.005,即在犯错误的概率不超过0.005的前提下认为“喜欢体育还是喜欢文娱与性别有关”.归纳总结:(1)利用K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )求出K 2的观测值k 的值.再利用临界值的大小来判断假设是否成立.(2)解题时应注意准确代数与计算,不可错用公式,准确进行比较与判断.【练习1】为研究学生的数学成绩与对学习数学的兴趣是否有关,对某年级学生作调查得到如下数据:判断学生的数学成绩好坏与对学习数学的兴趣是否有关? 解 由公式得K 2的观测值k =189×(64×73-22×30)286×103×95×94≈38.459.∵38.459>10.828,∴有99.9%的把握说学生学习数学的兴趣与数学成绩是有关的.探究二 有关“无关的检验”【例2】为了探究学生选报文、理科是否与对外语的兴趣有关,某同学调查了361名高二在校学生,调查结果如下:理科对外语有兴趣的有138人,无兴趣的有98人,文科对外语有兴趣的有73人,无兴趣的有52人.分析学生选报文、理科与对外语的兴趣是否有关? 解 列出2×2列联表代入公式得K 2的观测值k =361×(138×52-73×98)2236×125×211×150≈1.871×10-4.∵1.871×10-4<2.706,∴可以认为学生选报文、理科与对外语的兴趣无关.归纳总结:运用独立性检验的方法:(1)列出2×2列联表,根据公式计算K 2的观测值k . (2)比较k 与k 0的大小作出结论.【练习2】第16届亚运会于2010年11月12日至27日在中国广州进行,为了搞好接待工作,组委会招募了16名男志愿者和14名女志愿者,调查发现,男、女志愿者中分别有10人和6人喜爱运动,其余人不喜爱运动. (1)根据以上数据完成以下2×2列联表:(2)根据列联表的独立性检验,能否在犯错误的概率不超过0.10的前提下认为性别与喜爱运动有关? 解 (1)(2)假设是否喜爱运动与性别无关,由已知数据可求得: K 2=30×(10×8-6×6)2(10+6)(6+8)(10+6)(6+8)≈1.157 5<2.706,因此,在犯错误的概率不超过0.10的前提下不能判断喜爱运动与性别有关.探究三 独立性检验的基本思想【例3】某企业有两个分厂生产某种零件,按规定内径尺寸(单位:mm)的值落在(29.94,30.06)的零件为优质品.从两个分厂生产的零件中各抽出500件,量其内径尺寸,结果如下表: 甲厂乙厂(1)试分别估计两个分厂生产的零件的优质品率;(2)由以上统计数据填下面2×2列联表,并问是否有99%的把握认为“两个分厂生产的零件的质量有差异”.附:K 2=n (ad -bc )(a +b )(c +d )(a +c )(b +d ),解 (1)甲厂抽查的产品中有360件优质品,从而甲厂生产的零件的优质品率估计为360500=72%;乙厂抽查的产品中有320件优质品,从而乙厂生产的零件的优质品率估计为320500=64%.(2)K 2=1 000×(360×180-320×140)2500×500×680×320≈7.353>6.635,所以有99%的把握认为“两个分厂生产的零件的质量有差异”.归纳总结:(1)解答此类题目的关键在于正确利用K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )计算k 的值,再用它与临界值k 0的大小作比较来判断假设检验是否成立,从而使问题得到解决.(2)此类题目规律性强,解题比较格式化,填表计算分析比较即可,要熟悉其计算流程,不难理解掌握.【练习3】下表是某地区的一种传染病与饮用水的调查表:(1)这种传染病是否与饮用水的卫生程度有关,请说明理由;(2)若饮用干净水得病5人,不得病50人,饮用不干净水得病9人,不得病22人.按此样本数据分析这种疾病是否与饮用水有关,并比较两种样本在反映总体时的差异.解 (1)假设H 0:传染病与饮用水无关.把表中数据代入公式得:K 2的观测值k =830×(52×218-466×94)2146×684×518×312≈54.21,∵54.21>10.828,所以拒绝H 0.因此我们有99.9%的把握认为该地区这种传染病与饮用不干净水有关. (2)依题意得2×2列联表:此时,K 2的观测值k =86×(5×22-50×9)14×72×55×31≈5.785.由于5.785>5.024,所以我们有97.5%的把握认为该种疾病与饮用不干净水有关.两个样本都能统计得到传染病与饮用不干净水有关这一相同结论,但(1)中我们有99.9%的把握肯定结论的正确性,(2)中我们只有97.5%的把握肯定.课后作业A组基础题一、选择题1.经过对K2的统计量的研究,得到了若干个临界值,当K2的观测值k>3.841时,我们() A.在犯错误的概率不超过0.05的前提下可认为X与Y有关B.在犯错误的概率不超过0.05的前提下可认为X与Y无关C.在犯错误的概率不超过0.01的前提下可认为X与Y有关D.没有充分理由说明事件X与Y有关系【答案】A2.用独立性检验来考察两个分类变量x与y是否有关系,当统计量K2的观测值() A.越大,“x与y有关系”成立的可能性越小B.越大,“x与y有关系”成立的可能性越大C.越小,“x与y没有关系”成立的可能性越小D.与“x与y有关系”成立的可能性无关【答案】B3.在一个2×2列联表中,由其数据计算得K2的观测值k=7.097,则这两个变量间有关系的可能性为()A.99% B.99.5%C.99.9% D.无关系【答案】A解析K2的观测值6.635<k<7.879,所以有99%的把握认为两个变量有关系.4.对两个分类变量A,B的下列说法中正确的个数为()①A与B无关,即A与B互不影响;②A与B关系越密切,则K2的值就越大;③K2的大小是判定A与B是否相关的唯一依据A.0 B.1 C.2 D.3【答案】B解析①正确,A与B无关即A与B相互独立;②不正确,K2的值的大小只是用来检验A 与B是否相互独立;③不正确,例如借助三维柱形图、二维条形图等.故选B.5.考察棉花种子经过处理跟生病之间的关系得到下表数据:根据以上数据,可得出()A.种子是否经过处理跟是否生病有关B.种子是否经过处理跟是否生病无关C.种子是否经过处理决定是否生病D.以上都是错误的【答案】B解析由K2=407×(32×213-61×101)293×314×133×274≈0.164<2.706,即没有把握认为种子是否经过处理跟是否生病有关. 二、填空题 6.根据下表计算:K 2的观测值k ≈________(保留3位小数). 【答案】 4.514解析 k =300×(37×143-85×35)2122×178×72×228≈4.514.7.如果K 2的观测值为6.645,可以认为“x 与y 无关”的可信度是________. 【答案】 1%解析 查表可知可信度为1%.8.为了解高中生作文成绩与课外阅读量之间的关系,某研究机构随机抽取了60名高中生,通过问卷调查,得到以下数据:由以上数据,计算得到K 2的观测值k ≈9.643,根据临界值表,有________把握认为课外阅读量大与作文成绩优秀有关. 【答案】 99.5%解析根据临界值表,9.643>7.879,在犯错误的概率不超过0.005的前提下,认为课外阅读量大与作文成绩优秀有关,即有99.5%的把握认为课外阅读量大与作文成绩优秀有关.9.为研究某新药的疗效,给50名患者服用此药,跟踪调查后得下表中的数据:设H0:服用此药的效果与患者的性别无关,则K2的观测值k≈________(小数点后保留三位有效数字),从而得出结论:服用此药的效果与患者的性别有关,这种判断出错的可能性为________.【答案】 4.8825%解析由公式计算得K2的观测值k≈4.882,∵k>3.841,∴我们有95%的把握认为服用此药的效果与患者的性别有关,从而有5%的可能性出错.三、解答题10.高中流行这样一句话“文科就怕数学不好,理科就怕英语不好”.下表是一次针对高三文科学生的调查所得数据,试问:在出错概率不超过0.025的前提下,能否判断“文科学生总成绩不好与数学成绩不好有关系”?解依题意,计算随机变量K2的观测值:k =913×(478×24-399×12)2490×423×877×36≈6.233>5.024,所以在出错概率不超过0.025的前提下,可以判断“文科学生总成绩不好与数学成绩不好有关系”.11.吃零食是中学生中普遍存在的现象,吃零食对学生身体发育有诸多不利影响,影响学生的健康成长.下表是性别与吃零食的列联表:请问喜欢吃零食与性别是否有关?解K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),把相关数据代入公式,得 K 2的观测值k =85×(5×28-40×12)217×68×45×40≈4.722>3.841.因此,在犯错误的概率不超过0.05的前提下,可以认为“喜欢吃零食与性别有关”. 12.在某校对有心理障碍学生进行测试得到如下列联表:试说明在这三种心理障碍中哪一种与性别关系最大?解 对于题中三种心理障碍分别构造三个随机变量K 21,K 22,K 23.其观测值分别为k 1,k 2,k 3.由表中数据列出焦虑是否与性别有关的2×2列联表可得k 1=110×(5×60-25×20)30×80×25×85≈0.863<2.706,同理,k 2=110×(10×70-20×10)230×80×20×90≈6.366>5.024,k 3=110×(15×30-15×50)230×80×65×45≈1.410<2.706.因此,在犯错误的概率不超过0.025的前提下,认为说谎与性别有关,没有充分的证据显示焦虑、懒惰与性别有关.B组能力提升一、选择题1.千百年来,我国劳动人民在生产实践中根据云的形状、走向、速度、厚度、颜色等的变化,总结了丰富的“看云识天气”的经验,并将这些经验编成谚语,如“天上钩钩云,地上雨淋淋”“日落云里走,雨在半夜后”……小波同学为了验证“日落云里走,雨在半夜后”,观察了所在地区A的100天日落和夜晚天气,得到如下2×2列联表:0010并计算得到219.05K≈,下列小波对地区A天气判断不正确的是()A. 夜晚下雨的概率约为1 2B. 未出现“日落云里走”夜晚下雨的概率约为5 14C. 有99.9%的把握认为“‘日落云里走’是否出现”与“当晚是否下雨”有关D. 出现“日落云里走”,有99.9%的把握认为夜晚会下雨【答案】:D【分析】把频率看作概率,即可判断,A B的正误;根据独立性检验可判断,C D的正误,即得【答案】.【详解】由题意,把频率看作概率可得:夜晚下雨的概率约为252511002+=,故A正确;未出现“日落云里走”夜晚下雨的概率约为255254514=+,故B正确;由219.0510.828K≈>,根据临界值表,可得有99.9%的把握认为“‘日落云里走’是否出现”与“当晚是否下雨”有关,故C正确;故D错误.故选:D.2.为了判断英语词汇量与阅读水平是否相互独立,某语言培训机构随机抽取了100位英语学习者进行调查,经过计算2K的观测值为7,根据这一数据分析,下列说法正确的()附:A. 有99%以上的把握认为英语词汇量与阅读水平无关B. 有99.5%以上的把握认为英语词汇量与阅读水平有关C. 有99.9%以上的把握认为英语词汇量与阅读水平有关D. 在犯错误的概率不超过1%的前提下,可以认为英语词汇量与阅读水平有关 【答案】:D 【分析】由题意()26.6350.01P K ≥=,由独立性检验的原理即可得解.【详解】由题意27K =,()26.6350.01P K ≥=,所以在犯错误的概率不超过1%的前提下,可以认为英语词汇量与阅读水平有关,有99%的把握认为英语词汇量与阅读水平有关. 故选:D.3.通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的22⨯列联表:由22()()()()()n ad bc a b c d a c b d χ-=++++算得,22110(40302020)7.860506050χ⨯⨯-⨯=≈⨯⨯⨯.附表:参照附表,得到的正确结论是()A. 在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”;B. 在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”;C. 有99%以上的把握认为“爱好该项运动与性别有关”;D. 有99%以上的把握认为“爱好该项运动与性别无关”.【答案】:C【分析】根据给定的2K的值,结合附表,即可得到结论.【详解】由22110(40302020)7.8 6.63560506050χ⨯⨯-⨯=≈>⨯⨯⨯,所以有99%以上的把握认为“爱好该项运动与性别有关.故选:C.4.在一次独立性检验中得到如下列联表:若这两个分类变量A和B没有关系,则a的可能值是() A. 200 B. 720C. 100D. 180【答案】:B 【分析】令2k 的观测值为零,解方程即得解.【详解】当a =720时,k =0,易知此时两个分类变量没有关系. 故【答案】为B5.(多选题)针对时下的“抖音热”,某校团委对“学生性别和喜欢抖音是否有关”作了一次调查,其中被调查的男女生人数相同,男生喜欢抖音的人数占男生人数的45,女生喜欢抖音的人数占女生人数35,若有95%的把握认为是否喜欢抖音和性别有关则调查人数中男生可能有( )人 附表:附:()()()()()22n ad bc K a b c d a c b d -=++++ A. 25 B. 45C. 60D. 75【答案】:BC 【分析】设男生的人数为()5n n N*∈,列出22⨯列联表,计算出2K 的观测值,结合题中条件可得出关于n 的不等式,解出n 的取值范围,即可得出男生人数的可能值.【详解】设男生的人数为()5n n N*∈,根据题意列出22⨯列联表如下表所示:则()221042310557321n n n n n n K n n n n ⨯⨯-⨯==⨯⨯⨯,由于有95%的把握认为是否喜欢抖音和性别有关,则23.841 6.632K ≤<,即103.841 6.63221n≤<,得8.066113.9272n ≤<, n N *∈,则n 的可能取值有9、10、11、12,因此,调查人数中男生人数的可能值为45或60. 故选:BC. 二、填空题6.某手机运营商为了拓展业务,现对该手机使用潜在客户进行调查,随机抽取国内国外潜在用户代表各100名,调查用户对是否使用该手机的态度,得到如图所示的等高条形图.根据等高图,______(填“有”或“没有”)99.5%以上的把握认为持乐观态度和国内外差异有关.(参考公式与数据:()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++)()20P K k ≥0.05 0.01 0.005 0.001 0k3.841 6.635 7.879 10.828【答案】:有依题意,可知国内代表乐观人数60人,不乐观人数40人,国外乐观人数40人,不乐观人数60人,总计乐观人数100人,不乐观人数100人,所以,而,所以有99.5%以上的把握认为持乐观态度和国内外差异有关.7.给给给给给给给 给线性回归方程y bx a =+必过点(),x y ;给相关系数r 越小,表明两个变量相关性越弱; ()22200606040408100100100100K ⨯-⨯==⨯⨯⨯87.879>给相关指数2R 越接近1,表明回归的效果越好;给在一个2×2列联表中,由计算得2K 的观测值k =13.079,则有99%以上的把握认为这两个变量之间没有关系;给设有一个线性回归方程35y x =-,则变量x 增加一个单位时,y 平均增加5个单位. 其中正确的说法有 (填序号).【答案】:给给对于给,应该是相关系数r 的绝对值越小,表明两个变量相关性越弱.所以它是错误的.对于给,应该是有99%以上的把握认为这两个变量之间有关系.对于给,应该是变量x 增加一个单位时,y 平均减少5个单位.故填给给.三、解答题8.随着现代教育技术的不断发展,我市部分学校开办智慧班教学,某校从甲乙两智慧班各随机抽取45名学生,调查两个班学生对智慧课堂的评价:“满意”与“不满意”,调查中发现甲班评价“满意”的学生人数比乙班评价“满意”的学生人数多9人,根据调查情况制成如下图所示的2×2列联表:(1)完成2×2列联表,并判断能否有97.5%的把握认为评价与班级有关系?(2)从甲乙两班调查评价为“不满意”的学生中按照分层抽样的方法随机抽取7人,现从这7人中选派3人到校外参加智慧课堂研究活动,求其中至少有2人选自乙班学生的概率. 附:22()()()()()n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.【答案】:(1)表格见解析,有97.5%的把握认为评价与班级有关系;(2)67. 【分析】 (1)首先根据题意填写22⨯列联表,再计算2 5.031 5.024=>K 即可得到结论.(2)首先根据题意得到甲班选取2人,乙班选取5人,再计算概率即可.【详解】(1)完成列联表如下:2290(3915306)=5.031 5.024********⨯-⨯=>⨯⨯⨯K . 所以有97.5%的把握认为评价与班级有关系.(2)抽样比17213==,甲班选取2人,乙班选取5人,则1232553767C C CpC+==.9.盲盒里面通常装的是动漫、影视作品的周边,或者设计师单独设计出来的玩偶.由于盒子上没有标注,购买者只有打开才会知道自己买到了什么,因此这种惊喜吸引了众多年轻人,形成了“盲盒经济”.某款盲盒内可能装有某一套玩偶的A、B、C三种样式,且每个盲盒只装一个.(1)若每个盲盒装有A、B、C三种样式玩偶的概率相同.某同学已经有了A样式的玩偶,若他再购买两个这款盲盒,恰好能收集齐这三种样式的概率是多少?(2)某销售网点为调查该款盲盒的受欢迎程度,随机发放了200份问卷,并全部收回.经统计,有30%的人购买了该款盲盒,在这些购买者当中,女生占23;而在未购买者当中,男生女生各占50%.请根据以上信息填写下表,并分析是否有95%的把握认为购买该款盲盒与性别有关?参考公式:()()()()()22n ad bca b c d a c b dχ-=++++,其中n a b c d=+++.参考数据:(3)该销售网点已经售卖该款盲盒6周,并记录了销售情况,如下表:由于电脑故障,第二周数据现已丢失,该销售网点负责人决定用第4、5、6周的数据求线性回归方程,再用第1、3周数据进行检验.①请用4、5、6周的数据求出y关于x的线性回归方程y bx a=+;(注:()()()1122211n ni i i ii in ni ii ix x y y x y nx ybx x x nx====---==--∑∑∑∑,a y bx=-)②若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2盒,则认为得到的线性回归方程是可靠的,试问①中所得的线性回归方程是否可靠?③如果通过②的检验得到的回归直线方程可靠,我们可以认为第2周卖出的盒数误差也不超过2盒,请你求出第2周卖出的盒数的可能取值;如果不可靠,请你设计一个估计第2周卖出的盒数的方案.【答案】:(1)29;(2)表格见解析,有95%把握认为购买该款盲盒与性别有关;(3)给2.514.5y x=+;给是可靠的;给第2周卖出的盒数的可能值为18、19、20、21.【分析】(1)用列举法写出所有基本事件,再从中找出满足要求的基本事件,用古典概型的公式即可求得结果;(2)通过计算,完成列联表,再计算出观测值2 4.714k ≈,比表中0.05所对应的数据3.841大,故得出结论“有95%把握认为购买该款盲盒与性别有关”;(3)给将第4、5、6周的数据代入公式,计算出b 和a ,写出回归直线方程;给将第1、3周的数据代入给所求出的回归直线方程进行检验,该方程可靠;给将2x =代入给所求出的回归直线方程,解得19.5y =,根据可靠性的要求,以及该应用题的实际要求,得出第2周卖出的盒数的可能取值.【详解】解:(1)由题意,基本事件空间为{}(,),(,),(,),(,),(,),(,),(,),(,),(,)A A A B A C B A B B B C C A C B C C Ω=,其中基本事件的个数为9,设事件D 为:“他恰好能收集齐这三种样式”,则()(){},,,D B C C B =,其中基本事件的个数为2, 则他恰好能收集齐这三种样式的概率29P =; (2)22200(40702070) 4.7141109060140k ⨯-⨯=≈⨯⨯⨯, 又因为4.714 3.841>,故有95%把握认为“购买该款盲盒与性别有关”;(3)给由数据,求得5x =,27y =,由公式求得 222(45)(2527)(55)(2627)(65)(3027)5(45)(55)(65)2b --+--+--==-+-+-, 527514.52a =-⨯=, 所以y 关于x 的线性回归方程为 2.514.5y x =+;给当1x =时, 2.5114.517y =⨯+=,17162-<,同样,当3x =时, 2.5314.522y =⨯+=,22232-<,所以,所得到的线性回归方程是可靠的;给由给可知回归直线方程可靠,2x =时 2.5214.519.5y =⨯+=,设第二周卖出的盒数为()n n N ∈,则19.52n -≤,≤≤,n17.521.5给n能取18、19、20、21,即第2周卖出的盒数的可能值为18、19、20、21.【点睛】本题考查了古典概型的概率计算,独立性检验的实际应用,线性回归直线方程的求解及实际应用问题,综合性较强.10.阿基米德是古希腊伟大的哲学家、数学家、物理学家,对几何学、力学等学科作出过卓越贡献.为调查中学生对这一伟大科学家的了解程度,某调查小组随机抽取了某市的100名高中生,请他们列举阿基米德的成就,把能列举阿基米德成就不少于3项的称为“比较了解”,少于三项的称为“不太了解”.他们的调查结果如下:(1)完成如下2×2列联表,并判断是否有99%的把握认为,了解阿基米德与选择文理科有关?(2)在抽取的100名高中生中,按照文理科采用分层抽样的方法抽取10人的样本. (i )求抽取的文科生和理科生的人数;(ii )从10人的样本中随机抽取3人,用X 表示这3人中文科生的人数,求X 的分布列和数学期望.参考数据:22()()()()()n ad bc k a b c d a c b d -=++++,n a b c d =+++. 【答案】:(1)见解析;(2) (i )文科生3人,理科生7人 (ii )见解析【分析】(1)写出列联表后可计算2K ,根据预测值表可得没有99%的把握认为,了解阿基米德与选择文理科有关.(2)(i )文科生与理科生的比为310,据此可计算出文科生和理科生的人数. (ii )利用超几何分布可计算X 的分布列及其数学期望.【详解】解:(1)依题意填写列联表如下:计算222()100(42182812) 3.382 6.635()()()()30705446n ad bc K a b c d a c b d -⨯-⨯==≈<++++⨯⨯⨯, ∴没有99%的把握认为,了解阿基米德与选择文理科有关.(2)(i )抽取的文科生人数是30103100⨯=(人),理科生人数是70107100⨯=(人). (ii )X 的可能取值为0,1,2,3,则0337310C C 7(0)C 24P X ===⋅, 1237310C C 21(1)C 40P X ===⋅, 17213307(2)40C C P X C ⋅===, 3037310C C 1(3)C 120P X ===⋅. 其分布列为所以72171369()01232440401204010E X =⨯+⨯+⨯+⨯==.31。
【知识点解析】配套例题——独立性检验
独立性检验例1 依据小概率值α=0.1的χ2独立性检验,分析例1中的抽样数据,能否据此推断两校学生的数学成绩优秀率有差异?解:零假设为H0:分类变量X与Y相互独立,即两校学生的数学成绩优秀率无差异.根据表8.3-2中的数据,计算得到χ2=()288337103843457117⨯⨯-⨯⨯⨯⨯≈0.837<2.706=x0.1.根据小概率值α=0.1的χ2独立性检验,没有充分证据推断H0不成立,因此可以认为H0成立,即认为两校的数学成绩优秀率没有差异.例2 某儿童医院用甲、乙两种疗法治疗小儿消化不良.采用有放回简单随机抽样的方法对治疗情况进行检查,得到了如下数据:抽到接受甲种疗法的患儿67名,其中未治愈15名,治愈52名;抽到接受乙种疗法的患儿69名,其中未治愈6名,治愈63名.试根据小概率值α=0.005的独立性检验,分析乙种疗法的效果是否比甲种疗法好.解:零假设为H0:疗法与疗效独立,即两种疗法效果没有差异.将所给数据进行整理,得到两种疗法治疗数据的列联表,如表8.3-5所示.表8.3-5单位:人根据列联表中的数据,经计算得到χ2=()21361563526676921115⨯⨯-⨯⨯⨯⨯≈4.881<7.879=x0.005.根据小概率值α=0.005的独立性检验,没有充分证据推断H0不成立,因此可以认为H0成立,即认为两种疗法效果没有差异.例3 为研究吸烟是否与肺癌有关,某肿瘤研究所采取有放回简单随机抽样的方法,调查了9 965人,得到成对样本观测数据的分类统计结果,如表8.3-6所示.依据小概率值α=0.001的独立性检验,分析吸烟是否会增加患肺癌的风险.表8.3-6单位:人解:零假设为H0:吸烟与患肺癌之间无关联.根据列联表中的数据,经计算得到χ2=()2996577754942209978172148987491⨯⨯-⨯⨯⨯⨯≈56.632>10.828=x0.001.根据小概率值α=0.001的独立性检验,我们推断H0不成立,即认为吸烟与患肺癌有关联,此推断犯错误的概率不大于0.001.根据表8.3-6中的数据计算,不吸烟者中不患肺癌和患肺癌的频率分别为7775 7817≈0.994 6和427817≈0.005 4;吸烟者中不患肺癌和患肺癌的频率分别为2099 2148≈0.977 2和492148≈0.022 8.由0.02280.0054≈4.2可见,在被调查者中,吸烟者患肺癌的频率是不吸烟者患肺癌的频率的4倍以上.于是,根据频率稳定于概率的原理,我们可以认为吸烟者患肺癌的概率明显大于不吸烟者患肺癌的概率,即吸烟更容易引发肺癌.。
跟我学一步步学Minitab (33)独立性检验(用列联表分析)20200427
分析的例子 可以进一步进行分析
若吸烟和咳嗽无关, 这 个 值 应 该 是 80 , 而实际是100
这个卡方贡献最大
100大于80.说明吸烟 导致咳嗽的人更多了
今天就谈到这,欢迎大家交流!
100
700
100
1800
200
行和 1200 800 2000
分析目的:确定吸烟和咳嗽是否有关系?
分析例子
确定两个因子是否有关联;列联表;采取χ2 检验法
原假设(H0):因子A和B独立 备择假设(H1):因子A和B不独 立 求p值,若p<0.05,则认为有关联
分析例子 在Minitab工作表上,整理好数据
独立性检验(用列联表分析) 独立性检验(用列联表分析)
大家好!今天我们谈谈:“如何利用Minitab进行独立性检验”;我们用列联表的方式进行分析
列联表(contingency table) 列联表是观测数据按两个或更多属性(定性变量)分类时所列出的频数表 由两个以上的变量进行交叉分类的频数分布表
列联表(contingency table) 列联表主要作用 分析基本问题:观察各属性之间是否独立 各个属性是否有明显差异
Minitab选项表中,选择统计>表格>卡方检验(工作表中的双向表)
分析的例子 在弹出的选项中,按如下吸烟没有显示,获得结果中,分别用“1”和“2”显示
分析的例子 对获得的分析结果进行解释
p=0.002 , 小 于 0.05;拒绝原假设
拒绝原假设,认为原假设不 成立,备选假设成立。认为A 和B不独立。也就是吸烟和咳 嗽有关系
什么是独立性检验(chi square test)
根据次数资料判断两类因子彼此相关或相互独立的假设检验
8.3.2 独立性检验
拓展深化 [微判断] 1.概率值α越小,临界值xα越大. 2.独立性检验的思想类似于反证法. 3.独立性检验的结论是有多大的把握认为两个分类变量有关系.
(√ ) (√) (√)
[微训练] 1.如果根据小概率α=0.01的χ2检测试验,认为H0成立,那么具体算出的数据满
足( ) 附表:
α
0.05
xα
大学专科以上学历 大学专科以下学历
合计
积极支持教 不太赞成教育
育改革
改革
39
157
29
167
68
324
合计
196 196 392
对于教育机构的研究项目,根据上述数据能得出什么结论?
解 零假设为H0:成年人具有大学专科以上学历(包括大学专科)和对待教育改革态度 无关. 根据表中数据,计算得
χ2=392×1(963×9×19166×7-681×573×2429)2≈1.78. 因为1.78<2.706=x0.1, 根据小概率值α=0.1的χ2独立性检验,没有充分证据推断H0不成立,所以我们没有理由 说成年人具有大学专科以上学历(包括大学专科)和对待教育改革态度有关.
注:该年级在此次考试中数学成绩优秀的有 360 人,非优秀的有 880 人.
解 零假设为H0:数学成绩优秀与物理、化学、总分成绩优秀都无关系. 列出数学成绩与物理成绩的2×2列联表如下:
物理优秀
物理非优秀
合计
数学优秀
228
132360数源自非优秀143737
880
合计
371
869
1 240
将表中数据代入公式,得
下表给出了χ2独立性检验中几个常用的小概率值和相应的临界值
α
0.1
独立性检验的方法
独立性检验的方法
独立性检验是用来判断两个变量之间是否存在关联或者依赖关系的统计方法。
常见的独立性检验方法有以下几种:
1. 卡方检验(Chi-square test):用于检验两个分类变量之间的独立性。
它将观察到的频数与期望频数进行比较,判断是否存在显著的差异。
2. Fisher精确检验(Fisher's exact test):在小样本数据中使用的一种精确方法,用于检验两个分类变量之间的独立性。
该方法不依赖于样本的分布假设,适用于小样本和稀有事件的情况。
3. 独立样本t检验(Independent samples t-test):用于检验两个组的均值是否存在显著差异。
这种方法适用于两个互不相关的样本。
4. 方差分析(Analysis of Variance, ANOVA):用于检验多个组之间均值的差异是否显著。
ANOVA分为单因素和多因素两种,前者适用于一个自变量,后者适用于多个自变量的情况。
5. 斯皮尔曼相关系数(Spearman's rank correlation coefficient):用于衡量两个变量之间的非线性关系。
斯皮尔曼相关系数是一种非参数的方法,适用于顺序变量或非正态分布的变量。
以上是常见的几种独立性检验方法,不同的方法适用于不同的情况和变量类型。
在进行独立性检验时,需要根据实际情况选择合适的方法进行分析。
文档:独立性检验的步骤及应用
独立性检验的步骤及应用一、 独立性检验的思想及步骤独立性检验的基本思想类似于数学上的“反证法”。
要确认“两个分类变量有关系”这一结论成立的可信程度。
首先假设结论不成立,即“这两个分类变量几乎没有关系”(“几乎独立”)成立,则dc cb a a +≈+,.0≈-bc ad 此时,我们所构造的随机变量应该很小。
如果由观测数据计算得到的k 不是很小,则在一定程度上说明假设不合理。
而且观测值k 越大,说明假设(“几乎无关或独立”)不成立的可能性就越大,即两者有关的可能性越大,这样我们就可以由的观测值k 并结合已往估算经验值表定出我们有多大程度等等把握可以认为“两个分类变量有关系”。
这个经验值表如下(有必要记住):二、 典例分析例1、某校对学生课外活动内容进行调查,结果整理成2×2列联表如下:解:将a =21,b =23,c =6,d =29,n =79代入))()()(()(22d b c a d c b a bc ad n K ++++-=,得.106.82≈K 即的观察值.106.8≈k假设喜欢体育还是喜欢文娱与性别没有关系,则的观察值k 应该很小,且由经验值表知005.0)789.7(2≈≥K P ,即在此假设成立的前提下出现789.72≥K 的可能性只有左右,而不出现789.72≥K 的可能性约为%,但在本调查中却得出的观察值106.8≈k ,超过了,所以我们有%的把握可以认为此假设不成立,即有%的把握可以认为喜欢体育还是喜欢文娱与性别有关。
例2、调查在2~3级风时的海上航行中男女乘客的晕船情况,共调查了71人,其中女性34人,男性37人。
女性中有10人晕船,另外24人不晕船;男性中有12人晕船,另外25人不晕船。
(1) 根据以上数据建立有关2×2的列联表; (2) 判断晕船是否与性别有关系。
解:(1)2×2的列联表:(2)计算.08.034374922)10252412(71≈⨯⨯⨯⨯-⨯⨯=k 因为k<,所以我们没有理由说“晕船与性别有关”。
独立性检验的基本概念
独立性检验的基本概念
独立性检验是统计分析的一种方法,用来检测两个或多个事件之间的关系。
它通过测量两个变量之间的相关性来判断两个变量是否是独立的或是有因果关系的。
独立性检验中所涉及到的变量一般是分类变量,有可能变量之间存在某种因果关系,也可能不存在某种因果关系,因此这一类检验推断的重点在于检验两个分类变量之间是不是独立的,也就是说检验这两个变量之间是否有某种因果关系。
对于独立性检验,实际上是以针对某个总体的统计检验为基础的。
当在一组非相关的观测值中发现有某些潜在的统计联系时,就可以用独立性检验具体地分析这一统计联系,用来推断是否有某藸v某种因果关系。
此外,还可以用独立性检验来检验某个统计假设是否成立。
有一些独立性检验的常用的方法,比如卡方独立性检验,可以用来检验分类变量之间的关系。
卡方检验的过程是,首先推论一个假设,比如说变量A和变量B之间没有互相关联,而将实际发现的值和理论期望值相比较,以确定它们是否相关。
继而能够判断出两个变量是否有某种因果关系,也即独立性是否成立。
总之,独立性检验是一种衡量两个变量之间是否存在因果关系的常用方法,其中最常用的方法是卡方独立性检验,可以通过比较实际发现的值和理论期望值来判断两个变量是否是相关的,以决定两个变量之间是否有某种因果关系。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
推出矛盾,意味着结 推出有利于H1成立的小概率事件 发生,意味着 H1成立的可能性 论A成立 很大 没有找到矛盾,不能对 推出有利于H1 成立的小概率事 H A下任何结论,即反 件不发生,接受原假设 证不成功
0
例 1. 在 500 人身上试验某种血清预防感冒作用,把他们 P(χ≥x0) 0.50 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001 一年中的感冒记录与另外 500 名未用血清的人的感冒记 x0 0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828 录作比较,结果如表所示。问:该种血清能否起到预防 感冒的作用? 未感冒 感冒 合计
99.9%把握认 为A与B有关
99%把握认 6.635 为A与B有关 90%把握认 10%把握认为 2 2.706 为A与B有关 A与B无关 没有充分的依据显示A与B有关, 2 2.706 但也不能显示A与B无关
2
解:H0: 吸烟和患肺癌之间没有关系
患肺癌 不患肺癌 吸烟 15 患肺 不患 39 总计 癌 肺癌 21 不吸烟 25
P(x2≥k) k 0.50 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001
0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828
10.828
2
0.1%把握认 为A与B无关 1%把握认为 A与B无关
3、计算
a bc d a 2 c b d
nad bc a bc d a c b d
2
4、把 的值与临界值进行比较,确定X,Y有关系 的程度或无关系
作业: 数学同步导学P64-65
用A表示:吸烟,用B表示:患肺癌
P(A)=0.54 P(B)=0.6
P(AB)=0.39 P(AB)=0.39
P(A)P(B) =0.324
从上面数据和事件的独立性显然是可 以断定吸烟和患肺癌有关
我们能够有多大的把握认 为“吸烟与患肺癌有关”?
独立性检验
第一步:假设 H0:吸烟与患肺癌没有关系 第二步:列出2× 2列联表
练习1:为了探究患气管炎是否与吸烟有关, 调查了409名50岁以上的人,现已将得到的数 2 =12.34 ,则下列说法 据进行计算得 中正确的是( D ) A.50岁以上的人,患慢性气管炎与吸烟无关
B.在100个50岁以上的患慢性气管炎的人中, 一定有95人有吸烟习惯 C.在100个50岁以上的患慢性气管炎的人中, 一定有995人有吸烟习惯 D.我们有99%的把握认为50岁以上的人患慢 性气管炎与吸烟习惯有关
现在的 =7.31的观测值大于6.635,出现 这样的观测值的概率不超过0.01。
2
故有99%的把握认为H0不成立,即有99%的把 握认为“患肺癌与吸烟有关系”。
反证法原理与独立性(假设)检验原理 反证法
要证明结论A 在A不成立的前提下 进行推理
假设检验
1 A与B有关系) 要证明假设 H(
假设H ( 0 A与B没有关系)成 H 立的条件下进行推理
吸烟 不吸 烟2 总计
总计 54 46 100
总计
39
15
60
54
40
通过公式计算
100(39 25 15 21) 7.31 60 40 54 46
2
21 60
25 40
46
100
已知在 H 0成立的情况下,
P(
2
6.635) 0.01
2 即在 H 0 成立的情况下, 大于6.635概率非常小, 近似为0.01
分类变量Y1 分类变量Y2 总计
分类变量X1 a c a+c
分类变量X2 b d b+d
总计 a+b c+d a+b+c+d
第三步:引入一个随机变量:卡方统计量
nad bc (n=a+b+c+d) a bc d a c b d
2 2
第四 122
无效 40 31 71
2
合计 98 95 193
解:设H0:药的效果与给药方式没有关系。
19358 31 64 40 2 1.3896 122 71 98 95 因当H0成立时,χ2≥1.3896的概率大于15%,故不能否定假设 H0,即不能作出药的效果与给药方式有关的结论。
练习 3 :为研究学生数学课堂上听课效率是否与吃早餐 有关,现在随机对20位水平相当的同学某天的课堂小测 进行调查,结果如下: 成绩<=80 成绩>80 合计
没吃早餐 有吃早餐 合计 4 3 7 1 12 13 5 15 20
试问有多大把握认为听课效率与吃早餐有关?
P(2 ≥x0) 0.50 0.40 0.25 0.15 x0 0.10 0.05 0.025 0.010 0.005 0.001
21 60
54
不 45.65% 在不吸烟中患肺癌的比例是 吸 21 25 46 烟 在吸烟中患肺癌的比例是 72.22% 总 60 40 100 计
事件A与事件B相互独立 P(AB)= P(A)P(B)
吸烟 不吸烟 总计
患肺癌 39 21 60 不患肺癌 15 25 40 总计 54 46 100
列联表独立性分析案例
对于性别变量,其取值为男和女两种.
对于血型变量,其取值可分为 O型、A型、B型、AB型等.
这种变量的不同“值”表 示个体所属的不同类别,像 这类变量称为分类变量.
生活中的分类变量
是否吸烟,宗教信仰,国籍„
两个分类变量之间是否有关系? 吸烟 患肺癌
周恩来不抽烟不喝酒,活到 78岁;毛泽东只抽烟不喝酒, 活到83岁;邓小平又抽烟又 喝酒,活到98岁——孩子规 劝父母戒烟戒酒,竟得到如 此回答。
练习 2:为研究不同的给药方式(口服与注射)和药的 P(χ≥x 0.10 0.05 0.025 0.010 0.005 0.001 0) 0.50 0.40 0.25 0.15 效果(有效与无效)是否有关,进行了相应的抽样调 x0 0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828 查,调查的结果列在表中,根据所选择的193个病人 的数据,能否作出药的效果和给药方式有关的结论?
0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828
课堂小节:
一.分类变量的定义
二.2×2列联表
三.利用独立性检验来考虑两个分类变量是否相关
2
1、假设两个分类变量X,Y独立
K
2
2、列n2 × 2列联表 ad bc
2
问题1:吸烟与患肺癌有关系吗?
问题2:你有多大程度把握吸烟与患肺癌有关系?
为了调查吸烟是否对患肺癌有影响?某医疗研究 所随机地调查了100人,得到如下结果 2×2列联表
未患 患肺 患肺癌 肺 总计 癌 39 吸烟 癌
不吸烟 吸 39 烟 总计
不患肺癌 15 25 40
总计 54 46 100
15
使用血清 未使用血清
合计
258 216
474
242 284
526
2
500 500
1000
解:设H0:感冒与是否使用该血清没有关系。
1000258 284 242 216 2 7.075 474 526 500 500 因当H0成立时,χ2≥6.635的概率约为0.01,故有99%的把握认 为该血清能起到预防感冒的作用。