回归方程和独立性检验知识点
回归分析与独立性检验
回归分析的基本思想及其初步应用(1)通过对实际问题的分析,了解回归分析的必要性与回归分析的一般步骤;了解线性回归模型与函数模型的区别;(2)尝试做散点图,求回归直线方程;(3)能用所学的知识对实际问题进行回归分析,体会回归分析的实际价值与基本思想;了解判断刻画回归模型拟合好坏的方法――相关指数和残差分析。
一、基础知识梳理1.回归直线:如果散点图中点的分布从整体上看大致在一条直线附近,我们就称这两个变量之间具有线性相关关系,这条直线叫作回归直线。
求回归直线方程的一般步骤:作出散点图(由样本点是否呈条状分布来判断两个量是否具有线性相关关系),若存在线性相关关系→②求回归系数→③写出回归直线方程,并利用回归直线方程进行预测说明.2.回归分析:对具有相关关系的两个变量进行统计分析的一种常用方法。
建立回归模型的基本步骤是:①确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量;②画好确定好的解释变量和预报变量的散点图,观察它们之间的关系(线性关系).③由经验确定回归方程的类型.④按一定规则估计回归方程中的参数(最小二乘法);⑤得出结论后在分析残差图是否异常,若存在异常,则检验数据是否有误,后模型是否合适等.3.利用统计方法解决实际问题的基本步骤:(1)提出问题;(2)收集数据;(3)分析整理数据;(4)进行预测或决策。
4.残差变量的主要来源:(1)用线性回归模型近似真实模型(真实模型是客观存在的,通常我们并不知道真实模型到底是什么)所引起的误差。
可能存在非线性的函数能够更好地描述与之间的关系,但是现在却用线性函数来表述这种关系,结果就会产生误差。
这种由于模型近似所引起的误差包含在中。
(2)忽略了某些因素的影响。
影响变量的因素不只变量一个,可能还包含其他许多因素(例如在描述身高和体重关系的模型中,体重不仅受身高的影响,还会受遗传基因、饮食习惯、生长环境等其他因素的影响),但通常它们每一个因素的影响可能都是比较小的,它们的影响都体现在中。
回归方程和独立性检验知识点
回归方程和独立性检验知识点回归方程和独立性检验是统计学中重要的概念和方法。
回归方程是用于描述自变量和因变量之间关系的数学模型,而独立性检验则用于检验两个或多个变量之间是否存在独立关系。
以下将分别对回归方程和独立性检验进行详细介绍。
一、回归方程回归方程是用于描述因变量和自变量之间关系的数学模型,通常用于预测和解释变量之间的关系。
回归方程一般可以表示为:Y=β0+β1X1+β2X2+...+βkXk+ε其中,Y表示因变量,X1,X2,...,Xk为自变量,β0,β1,β2,...,βk为回归系数,ε为随机误差项。
回归方程中的回归系数表示自变量对因变量的影响程度,可以通过回归分析进行估计。
常见的估计方法包括最小二乘法和最大似然法。
最小二乘法是通过最小化观察值与回归方程估计值之间的差异来确定回归系数的方法。
最大似然法是通过最大化数据出现的概率来确定回归系数的方法。
回归方程的显著性检验可以用来判断回归方程是否具有统计意义。
常用的检验方法包括F检验和t检验。
F检验用于检验所有自变量的回归系数是否全为零,即检验回归方程是否合理。
t检验则用于检验单个自变量的回归系数是否为零,即检验自变量对因变量的影响是否显著。
此外,回归方程还可以通过残差分析检验模型的合理性。
残差是观测值与回归方程估计值之间的差异,残差分析可以用于检验回归方程是否具有线性和正态性假设,并检验是否存在异方差性和自相关等问题。
回归方程在实际应用中广泛使用,例如在经济学中用于分析经济变量之间的关系,在医学研究中用于确定影响健康指标的因素等。
二、独立性检验独立性检验是用于检验两个或多个变量之间是否存在独立关系的统计方法。
独立性检验可以帮助我们了解因素之间的相互关系,从而在实际问题中作出合理的推断和决策。
常用的独立性检验方法包括卡方检验和Fisher精确检验。
卡方检验是用于检验两个分类变量之间是否相互独立的方法。
例如,我们可以使用卡方检验来研究性别和喜好之间是否存在关联。
考点11 回归分析与独立性检验(学生版)
考点11 回归分析与独立性检验概率与统计,是历年高考的必考点,尤其是新高考改革后,各卷都有考查,其主要考查内容有:数字特征与概率的计算问题、随机变量的均值与方差、回归分析与独立性检验、二项分布及其应用等。
例如:2021年全国高考乙卷(文)、(理)[17],2022年全国新高考卷Ⅱ[19],2022年全国乙卷(文)、(理)[19],2022年全国甲卷(文)[17],2022年北京高考[18]等都对数字特征与概率的计算问题进行了考查。
〔1〕回归分析的实际应用1.求回归直线方程(线性回归方程)的一般步骤 (1)画散点图; (2)求回归直线方程; (3)用回归直线方程进行预报。
2.利用回归方程进行预测,把回归直线方程看作一次函数,求函数值。
3.利用回归直线判断正、负相关,决定正相关还是负相关的是系数bˆ。
4.回归方程的拟合效果,可以利用相关系数判断,当||r 越趋近于1时,两变量的线性相关性越强。
〔2〕独立性检验的实际应用 1.独立性检验的一般步骤(1)根据样本数据列出2×2列联表;(2)计算随机变量2K 的观测值k ,查表确定临界值0k ;(3)如果0k k ≥,就推断“X 与Y 有关系”,这种推断犯错误的概率不超过()02k K P ≥;否则,就认为在犯错误的概率不超过()02k K P ≥的前提下不能推断“X 与Y 有关系”,或者在样本数据中没有发现足够证据支持结论“X 与Y有关系”。
2.独立性检验的应用可以利用独立性检验来推断两个分类变量是否有关系,并且能较精确地给出这种判断的可靠程度。
具体做法是: (1)根据实际问题需要的可信程度(或容许犯错误概率的上界)确定临界值0k ; (2)利用公式,由观测数据计算得到随机变量2K 的观测值k ;(3)如果0k k ≥,就说有()()%100102⨯≥-k K P 的把握认为“X 与Y 有关系”(或说在犯错误的概率不超过()2k K P ≥的前提下认为“X 与Y 有关系”),否则就说样本观测数据没有提供“X 与Y 有关系”的充分证据(或说在犯错误的概率不超过()02k K P ≥的前提下不能认为“X 与Y 有关系”)。
人教版高数选修2-3第7讲:独立性检验与回归分析(学生版)
独立性检验与回归分析__________________________________________________________________________________ __________________________________________________________________________________1.了解变量间的相关关系,能根据给出的线性回归方程系数建立线性回归方程.2.了解独立性检验(只要求2×2列联表)的基本思想、方法及其简单应用.3.了解回归分析的基本思想、方法及其简单应用.1.独立性检验(1)概念:用2χ统计量研究独立性问题的检验的方法称为独立性检验.(2)m×n列联表指有m行n列的列联表(3)必备公式2χ=2()()()()()n ad bca cb d a bc d-++++2.2χ统计量中的四个临界值经过对2χ统计量分布的研究,已经得到了四个经常用到的临界值:2.706、3.841、6.635、10.828.由2×2列联表计算出2χ,然后与相应的临界值进行比较,当2χ>2.706时,有______的把握说事件A与B有关.当2χ>3.841时,有______的把握说事件A与B有关.当2χ>6.635时,有______的把握说事件A与B有关.当2χ>10.828时,有______的把握说事件A与B有关.当2χ≤2.706时,认为事件A与B是无关的.3.回归分析(1)线性回归模型是指方程y a bxε=++,其中________称为确定性函数,____称为随机误差.(2)线性回归方程是指直线方程ˆˆˆya bx =+,其中回归截距ˆa 、回归系数ˆb 公式如下: ˆb=_______________________ˆa =_____________. (3)参数r 检验线性相关的程度,计算公式为r()()niix x yy --∑即ni ix ynx y-∑化简后r =x yxy x yS S -,其中y S 表示数据i y (i =1,2,…,n )的标准差,这个r 称为y 与x 的样本相关系数,简称相关系数,其中-1≤r ≤1.若r >0,则x 与y 是正相关,若r <0,则x 与y 是负相关,若r =0,则x 与y 不相关,r =1或r =-1时,x 与y 为完全线性相关.类型一.独立性检验例1:为考察高中生的性别与是否喜欢数学课程之间的关系,在某城市的某校高中生中随机抽取300名学生,得到如下列联表:判断性别与是否喜欢数学课程有关吗?用独立性检验方法判断父母吸烟对子女是否吸烟有影响.类型二.变量间的相关关系及线性回归方程例2:下列关系中,是带有随机性相关关系的是______. ①正方形的边长与面积之间的关系; ②水稻产量与施肥量之间的关系;③人的身高与年龄之间的关系;④降雪量与交通事故的发生率之间的关系.例3:某工业部门进行一项研究,分析该部门的产量与生产费用的关系,从这个工业部门内随机抽选了10个企业作样本,资料如下表:练习1:下列两个变量之间的关系哪个不是函数关系( ) (A)角度和它的余弦值 (B)正方形边长和面积(C)正n 边形的边数和顶点角度之和 (D)人的年龄和身高 类型三.相关检验与回归分析例3:某工业部门进行一项研究,分析该部门的产量与生产费用之间的关系.从这个工业部门内完成下列问题:(1)计算x 与y 的相关系数;(2)对这两个变量之间是否线性相关进行相关性检验;(3)设线性回归方程为ˆˆˆ,ybx a =+求系数ˆˆ,.a b试预测该运动员训练47次以及55次的成绩.1.在调查中学生近视情况中,某校男生150名中有80名近视,女生140名中有70名近视,在检验这些中学生眼睛近视是否与性别有关时用什么方法最有说服力( )A.期望与方差B.排列与组合C.独立性检验D.概率2.通过对2χ统计量的研究,得到了若干临界值,当2χ≤2.706时,我们认为事件A 与B ( ) A.有90%的把握认为A 与B 有关系 B.有95%的把握认为A 与B 有关系C.没有充分理由说明事件A 与B 有关系D.不能确定3.下列关于2χ的说法中正确的是( )A.2χ在任何相互独立问题中都可以用来检验有关还是无关 B.2χ的值越大,两个事件的相关性就越大C.2χ是用来判断两个分类变量是否有关系的随机变量,只对于两个分类变量适合D.2χ的观测值2χ的计算公式为2()()()()()n ad bc a b c d a c b d χ-=++++4.下列两个变量之间的关系是相关关系的是( ) A.角度和它的余弦值 B.正方形边长和面积 C.正n 边形的边数和顶点数 D.人的年龄和身高5.由一组样本数据1122(,),(,),,(,n x y x y x )n y 得到的回归方程为ˆˆˆ,ybx a =+下面说法不正确的是( )A.直线ˆˆˆybx a =+必经过点(,)x y B.直线ˆˆˆybx a =+至少经过点1122(,),(,),,(,)n n x y x y x y 中的一个点C.直线ˆˆˆybx a =+的斜率为1221()ni ii nii x y nxyxn x ==--∑∑D.直线ˆˆˆybx a =+和各点1122(,),(,),,(,)n n x y x y x y 的偏差平方和21ˆˆ[()]ni ii y bx a =-+∑是该坐标平面上所有直线与这些点的偏差平方和中最小的直线6.有甲、乙两个班级进行数学考试,按照大于等于85分为优秀,85分以下非优秀统计成绩,得到如下所示的列联表:已知在全部105人中随机抽取1人,成绩优秀的概率为27,则下列说法正确的是( )A .列联表中c 的值为30,b 的值为35B .列联表中c 的值为15,b 的值为50C .根据列联表中的数据,若按97.5%的可靠性要求,能认为“成绩与班级有关系”D .根据列联表中的数据,若按97.5%的可靠性要求,不能认为“成绩与班级有关系”7.为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:已知P (K 2≥3.841)≈0.05根据表中数据,得到K 2=50×(13×20-10×7)223×27×20×30≈4.844.则认为选修文科与性别有关系出错的可能性为________.8.某数学老师身高176cm ,他爷爷、父亲和儿子的身高分别是173cm 、170cm 和182cm.因儿子的身高与父亲的身高有关,该老师用线性回归分析的方法预测他孙子的身高为________cm._________________________________________________________________________________ _________________________________________________________________________________基础巩固1.(2014重庆卷)已知变量x与y正相关,且由观测数据算得样本平均数x=3,y=3.5,则由该观测数据算得的线性回归方程可能是()A.y^=0.4x+2.3 B.y^=2x-2.4C.y^=-2x+9.5 D.y^=-0.3x+4.42.(2014湖北卷)根据如下样本数据:得到的回归方程为y=bx+a,则()A.a>0,b>0B.a>0,b<0C.a<0,b>0D.a<0,b<03.(2014江西卷)某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量的关系,随机抽查52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是()及格2032A.成绩B.视力C.智商D.阅读量4.下列两个变量之间的关系是相关关系的是()A.正方体的棱长和体积B.角的弧度数和它的正弦值C.单产为常数时,土地面积和总产量D.日照时间与水稻的亩产量5.(2015福建)为了解某社区居民的家庭年收入所年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:根据上表可得回归直线方程ˆˆˆybx a =+,其中ˆˆˆ0.76,b a y bx ==-,据此估计,该社区一户收入为15万元家庭年支出为( )A.11.4万元B.11.8万元C.12.0万元D.12.2万元6.“回归”一词是在研究子女的身高与父母的身高之间的遗传关系时,由高尔顿提出的.他的研究结果是子代的平均身高向中心回归.根据他的结论,在儿子的身高y 与父亲的身高x 的回归方程ˆˆˆya bx =+中,ˆb ( ) A.在(-1,0)内B.等于0C.在(0,1)内D.在[1,+∞)7.线性回归方程ˆˆˆya bx =+中,回归系数ˆb 的含义是________________. 8.在一项打鼾与患心脏病是否有关的调查中,共调查了1978人,经过计算2χ=28.63,根据这一数据分析,我们有理由认为打鼾与患心脏病是________的.(填“有关”、“无关”)能力提升1.下列说法:①将一组数据中的每一个数据都加上或减去同一个常数后,方差不变;②设有一个线性回归方程y ^=3-5x ,变量x 增加1个单位时,y 平均增加5个单位;③设具有相关关系的两个变量x ,y 的相关系数为r ,则|r |越接近于0,x 和y 之间的线性相关程度越强;④在一个2×2列联表中,由计算得K 2的值,则K 2的值越大,判断两个变量间有关联的把握就越大.其中错误的个数是( ) A.0B.1C.2D.32.已知x 与y 之间的几组数据如下表:假设根据上表数据所得线性回归直线方程y =b x +a ,若某同学根据上表中的前两组数据(1,0)和(2,2)求得的直线方程为y =b ′x +a ′,则以下结论正确的是( )A.b ^>b ′,a ^>a ′B.b ^>b ′,a ^<a ′ C.b ^<b ′,a ^>a ′D.b ^<b ′,a ^<a ′3.对相关系数r ,下列说法正确的是( ) A.||r 越大,相关程度越小B.||r 越小,相关程度越大C.||r 越大,相关程度越小,||r 越小,相关程度越大D.||r≤1且||r越接近1,相关程度越大,||r越接近0,相关程度越小4.若由资料知,y对x呈线性相关关系,试求:(1)线性回归方程;(2)估计设备的使用年限为10年时,维修费用约是多少?5.若由资料可知y对x呈线性相关关系,试求:(1)线性回归直线方程;(2)根据回归直线方程,估计使用年限为12年时,维修费用是多少?6.在某医院,因为患心脏病而住院的665名男性病人中,有214人秃顶;而另外772名不是因为思心脏病而住院的男性病人中有175人秃顶,利用独立性检验方法判断秃顶与患心脏病是否有关系?课程顾问签字: 教学主管签字:。
回归分析与独立性检验
回归分析与独立性检验一.考纲目标利用散点图判断变量之间是否存在相关关系;求回归直线方程和利用回归直线作出估计;独立性检验. 二.知识梳理1.两个变量的线性相关 (1)正相关.在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关. (2)负相关.在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关. (3)线性相关关系、回归直线.如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线. 2.回归方程 (1)最小二乘法求回归直线使得样本数据的点到它的距离的平方和最小的方法叫做最小二乘法. (2)回归方程方程y ^=b ^x +a ^是两个具有线性相关关系的变量的一组数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )的回归方程,其中a ^,b ^是待定参数.1122211()()()n ni i i i i i n n i ii i x x y y x y nxy b x x x nx a y bx====⎧---⎪⎪==⎨--⎪⎪=-⎩∑∑∑∑, ∑==n i i x n x 11,∑==ni i y n y 11 3.残差分析(1)残差:对于样本点(x 1,y 1),(x 2,y 2),…,(x n ,y n ),它们的随机误差为e i =y i -bx i -a ,i =1,2,…,n ,其估计值为e ^i =y i -y ^i =y i -b ^x i -a ^,i =1,2,…,n.e ^i 称为相应于点(x i ,y i )的残差.(2)相关指数R 2=1-∑i =1ny i -y ^i2∑i =1ny i -y2R 2越大,意味着残差平方和 越小 ,即模型的拟合效果越好R 2越小,残差平方和越大,即模型的拟合效果越差 .在线性回归模型中,R 2表示解释变量对于预报变量变化的贡献率,R 2越接近于1,表示回归的效果越好 . 4.独立性检验(1)分类变量:变量的不同“值”表示个体所属的不同类型,像这类变量称为分类变量. (2)列联表:列出两个分类变量的 频数表 ,称为列联表.假设有两个分类变量X 和Y ,它们的可能取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(称为2×2列联表)为2×2列联表y 1 y 2 总计 x 1 a b a +b x 2 c d c +d 总计a +cb +da +b +c +dK 2=2a +ba +cb +dc +d(其中n =a +b +c +d 为样本容量),则利用独立性检验判断表来判断“X 与Y 的关系”.三.考点逐个突破1.散点图与相关关系的判断例1. 在一组样本数据(x 1,y 1)、(x 2,y 2)、…、(x n ,y n )(n≥2,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n)都在直线y =12x +1上,则这组样本数据的样本相关系数为( )A .-1B .0 C.12D .1[答案] D[解析] 样本相关系数越接近1,相关性越强,现在所有的样本点都在直线y =12x +1上,样本的相关系数应为1.要注意理清相关系数的大小与相关性强弱的关系. 2.利用回归直线方程对总体进行估计例2.(1) 某化工厂为预测产品的回收率y ,需要研究它和原料有效成分含量x 之间的相关关系,现取8对观测值计算,得∑i =18x i =52,∑i =18y i =228,∑i =18x 2i=478,∑i =18x i y i =1849,则其回归直线方程为( )A.y ^=11.47+2.62x B.y ^=-11.47+2.62x C.y ^=2.62+11.47x D.y ^=11.47-2.62x[答案] A[解析] 由∑i =18x i =52,∑i =18y i =228知,x -=6.5,y -=28.5,b ^=∑i =18x i y i -8x-y-∑i =18x 2i -8x -2=1849-8×6.5×28.5478-8×6.52≈2.62, ∴a ^=y --b ^x -=28.5-2.62×6.5=11.47.(2)在某医学实验中,某实验小组为了分析某药物用药量与血液中某种抗体水平的关系,选取六只验动物进行血检,得到如下资料:动物编号 1 2 3 4 5 6 用药量x(单位) 1 3 4 5 6 8 抗体指标y(单位)3.43.73.84.04.24.3记s 为抗体指标标准差,若抗体指标落在(y -s ,y +s)内,则称该动物为有效动物,否则称为无效动物.研究方案规定先从六只动物中选取两只,用剩下的四只动物的数据求线性回归方程,再对被选取的两只动物数据进行检验.(1)求选取的两只动物都是有效动物的概率;(2)若选取的是编号为1和6的两只动物,且利用剩余四只动物的数据求出y 关于x 的线性回归方程为y ^=0.17x +a ,试求出a 的值;(3)若根据回归方程估计出的1号和6号动物抗体指标数据与检验结果误差都不超过抗体指标标准差,则认为得到的线性回归方程是可靠的.试判断(2)中所得线性回归方程是否可靠. 参考公式:样本数据x 1,x 2,…,x n 的标准差: S =1n[x 1-x-2+x 2-x-2+…+x n -x-2],其中x -为样本平均数.[解析] (1)y -=3.9,s≈0.31.故1、6号为无效动物,2、3、4、5号为有效动物. 记从六只动物中选取两只为事件A.所有可能结果为(1,2),(1,3),(1,4),(1,5),(1,6),(2,3),(2,4),(2,5),(2,6),(3,4),(3,5),(3,6),(4,5),(4,6),(5,6)共15种.满足题意的有(2,3),(2,4),(2,5),(3,4),(3,5),(4,5)共6种.故P(A)=615=25. (2)对于2、3、4、5号动物,x -=4.5,y -=3.925,代入y ^=0.17x +a 得a =3.16. (3)由y ^=0.17x +3.16得y ^1=3.33,y ^6=4.52.误差e 1=0.07,e 6=0.22,均比标准差s≈0.31小,故(2)中回归方程可靠. 3.独立性检验例3. (1)在吸烟与患肺病这两个分类变量的计算中,下列说法正确的是( )①若K 2的观测值满足K 2≥6.635,我们有99%的把握认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99人患有肺病;②从独立性检验可知有99%的把握认为吸烟与患病有关系时,我们说某人吸烟,那么他有99%的可能患有肺病;③从统计量中得知有95%的把握认为吸烟与患肺病有关系,是指有5%的可能性使得推断出现错误 A .① B .① C .③ D .②[答案] C[解析] ①推断在100个吸烟的人中必有99人患有肺病,说法错误,排除A ,B ,③正确.排除D ,选C.(2)通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:男 女 总计 爱好 40 20 60 不爱好 20 30 50 总计6050110由K 2=n ad -bc2a +bc +d a +c b +d 算得,K 2=110×40×30-20×20260×50×60×50≈7.8.附表:P(K 2≥k)0.050 0.010 0.001 k3. 8416.63510.828A .有99%以上的把握认为“爱好该项运动与性别有关”B .有99%以上的把握认为“爱好该项运动与性别无关”C .在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”D .在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关” [答案] A[解析] 根据独立性检验的定义,由K 2≈7.8>6.635可知,有99%以上把握认为“爱好该项运动与性别有关”.(3)为调查某地区老年人是否需要志愿者提供帮助,用简单随机抽样方法从该地区调查了500位老年人,结果如下:性别是否需要志愿者男 女 需要 40 30 不需要160270(1)估计该地区老年人中,需要志愿者提供帮助的老年人的比例;(2)能否有99%的把握认为该地区的老年人是否需要志愿者提供帮助与性别有关?(3)根据(2)的结论,能否提出更好的调查方法来估计该地区的老年人中,需要志愿者提供帮助的老年人的比例?说明理由.附:K 2=n ad -bc 2a +bc +d a +cb +d.[解析] (1)调查的500位老年人中有70位需要志愿者提供帮助,因此该地区老年人中,需要帮助的老年人的比例的估计值为70500=14%.(2)K 2=500×40×270-30×1602200×300×70×430≈9.967.由于9.967>6.635,所以有99%的把握认为该地区的老年人是否需要帮助与性别有关.(3)由(2)的结论知,该地区老年人是否需要帮助与性别有关,并且从样本数据能看出该地区男性老年人与女性老年人中需要帮助的比例有明显差异,因此在调查时,先确定该地区老年人中男、女的比例,再把老年人分成男、女两层并采用分层抽样方法比采用简单随机抽样方法更好.。
回归直线方程与独立性检验-讲义(学生版)
回归直线方程与独立性检验一、课堂目标1、明确建立回归模型的基本步骤、熟练运用线性回归模型解决非线性相关问题.2、能够运用独立性检验对两个分类变量是否线性相关作出判断.二、直击高考知识模块知识内容全国卷常见题型回归分析一元线性回归模型2020年全国三卷18题解答题回归直线方程独立性检验分类变量2020年全国二卷18题解答题三、知识讲解1. 回归分析知识回顾方法提升考点一:回归直线方程的求解对于一组具有线性相关关系的数据:,,,,,我们知道其回归直线的斜率和截距的最小二乘法估计分别为:其中,,称为样本点的中心,位于回归直线上.【思想方法与技巧】利用线性相关回归分析处理非线性问题:研究两个变量的关系是,我们常常根据样本生成点坐标在平面直角坐标系中作出散点图,观察散点图中样本点的分布.从整体看,如果样本点并没有分布在某一条直线附近,这两个变量之间不具有线性相关关系,也就是非线性相关关系.考点二:相关系数的求解对于变量与随机抽到的对数据,,,,,可以利用相关系数来衡量两个变量之间线性相关关系,样本相关系数的计算公式为:.【思想方法与技巧】利用相关系数评判结果如下:(1)时,表示两个变量正相关;(2)时,表示两个变量负相关;(3)越接近于,表明两个变量的线性相关程度越强;(4)越接近于,表明两个变量的线性相关程度越弱.高考链接1.某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为调查该地区某种野生动物的数量,将其分成面积相近的个地块,从这些地块中用简单随机抽样的方法抽取个作为样区,调查得到样本数据,其中和分别表示第个样区的植物覆盖面积(单(1)(2)(3)位:公顷)和这种野生动物的数量,并计算得,,,,.附:相关系数,.求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘以地块数).求样本的相关系数(精确到).根据现有统计资料,各地块间植物覆盖面积差异很大.为提高样本的代表性以获得该地区这种野生动物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由.(1)(2)2.下图是某地区年至年环境基础设施投资额(单位:亿元)的折线图.为了预测该地区年的环境基础设施投资额,建立了与时间变量的两个线性回归模型.根据年至年的数据(时间变量的值依次为)建立模型①:.根据年至年的数据(时间变量的值依次为)建立模型②:.年份投资额分别利用这两个模型,求该地区年的环境基础设施投资额的预测值.你认为用哪个模型得到的预测值更可靠?并说明理由.3.下图是我国年至年生活垃圾无害化处理量(单位:亿吨)的折线图(1)(2)年份代码年生活垃圾无害化处理量注:年份代码分别对应年亿吨参考数据:,,,.参考公式:相关系数,回归方程中斜率和截距的最小二乘估计公式分别为:,.由折线图看出,可用线性回归模型拟合与的关系,请用相关系数加以说明.建立关于的回归方程(系数精确到),预测年我国生活垃圾无害化处理量.方法应用4.随着互联网的兴起,越来越多的人选择网上购物.某购物平台为了吸引顾客提升销售额,每年双十一都会进行某种商品的促销活动,该商品促销活动规则如下:①“价由客定”,即所有参与该商品促销活动的人进行网络报价,每个人并不知晓其他人的报价也不知道参与该商品促销活动的总人数;②报价时间截止后,系统根据当年双十一该商品数量配额,按照参与该商品促销活动人员的报价从高到低分配名额;③每人限购一件,且参与人员分配到名额时必须购买,某位顾客拟参加年双十一该商品促销活动,他为了预测该商品最低成交价,根据该购物平台的公告统计了最近年双十一参与该商品促销活动的人数(见表):年份年份编号参与人数(百万人)12(2)由收集数据的散点图发现,可用线性回归模拟拟合参与人数(百万人)与年份编号之间的相关关系.请用最小二乘法求关于的线性回归方程:,并预测年双十一参与该商品促销活动的人数.该购物平台调研部门对位拟参与年双十一该商品促销活动人员的报价价格进行了一个抽样调查,得到如下的一份频数表:报价区间(千元)频数求这位参与人员报价的平均值和样本方差(同一区间的报价可用该价格区间的中点值代替).假设所有参与该商品促销活动人员的报价可视为服从正态分布且与可分别由①中所求的样本平均值和样本方差估值,若预计年双十一该商品最终销售量为,请你合理预测(需说明理由)该商品的最低成交价.参考公式及数据()回归方程:,其中,.(),,.()若随机变量服从正态分布,则,,.5.我国全面二孩政策已于年月日起正式实施,国家统计局发布的数据显示,从年到年,中国的人口自然增长率变化始终不大,在上下波动(如图).中国内地总人口和自然增长率总人口自然增长率出生率(万人)为了了解年龄介于岁至岁之间的适孕夫妻对生育二孩的态度如何,统计部门按年龄分为组,每组选取对夫妻进行调查,统计有生育二孩意愿的夫妻数,得到下表:‰(1)(2)有意愿数(参考数据和公式:,,,,,)设每个年龄区间的中间值为 ,有意愿数为,求样本数据的线性回归直线方程,并求该模型的相关系数(结果保留两位小数).从,,,,这五个年龄段中各选出一对夫妻(能代表该年龄段超过半数夫妻的意愿)进一步调研,再从这对夫妻中任选对夫妻,设其中不愿意生育二孩的夫妻数为,求的分布列和数学期望.(1)(2)6.某小区为了调查居民的生活水平,随机从小区住户中抽取个家庭,得到数据如下:家庭编号月收入(千元)月支出(千元)参考公式:回归直线的方程是:,其中,,.据题中数据,求月支出(千元)关于月收入(千元)的线性回归方程(保留一位小数);从这个家庭中随机抽取个,记月支出超过千家庭个数为,求的分布列与数学期望.7.如表中的数据是一次阶段性考试某班的数学、物理原始成绩:学号数学物理学号数学(1)(2)(3)理用这人的两科成绩制作如下散点图:物理数学学号为号的同学由于严重感冒导致物理考试发挥失常,学号为号的同学因故未能参加物理学科的考试,为了使分析结果更客观准确,老师将、两同学的成绩(对应于图中、两点)剔除后,用剩下的个同学的数据作分析,计算得到下列统计指标:数学学科平均分为,标准差为,物理学科的平均分为,标准差为,数学成绩与物理成绩的相关系数为,回归直线(如图所示)的方程为.若不剔除、两同学的数据,用全部的成绩作回归分析,设数学成绩与物理成绩的相关系数为,回归直线为,试分析与的大小关系,并在图中画出回归直线的大致位置.如果同学参加了这次物理考试,估计同学的物理分数(精确到个位).就这次考试而言,学号为号的同学数学与物理哪个学科成绩要好一些?(通常为了比较某个学生不同学科的成绩水平可按公式统一化成标准分再进行比较,其中为学科原始分,为学科平均分,为学科标准差).(1)(2)8.已知某校个学生的数学和物理成绩如下表:学生的编号数学物理若在本次考试中,规定数学在分以上(包括分)且物理在分以上(包括分)的学生为理科小能手.从这个学生中抽出个学生,设表示理科小能手的人数,求的分布列和数学期望.通过大量事实证明发现,一个学生的数学成绩和物理成绩具有很强的线性相关关系,在上述表格是正确的前提下,用表示数学成绩,用表示物理成绩,求与的回归方程.参考公式:,其中,.(1)(2)某调查机构为了了解某产品年产量(吨)对价格(千元/吨)和利润的影响,对近五年该产品的年产量和价格统计如下表:求关于的线性回归方程若每吨该产品的成本为千元,假设该产品可全部卖出,预测当年产量为多少时,年利润取到最大值?参考公式:,.(1)(2)10.某农科所对冬季昼夜温差大小与某反季节大豆新品种发芽多少之间进行分析研究,他们分别记录了月日至月日的每天昼夜温差与实验室每天每棵种子中的发芽数,得到如下资料:日期月日月日月日月日月日温差摄氏度发芽颗该农科所确定的研究方案是:先从这组数据中选取组数据求线性回归方程,再用剩下的组数据进行检验.若选取的组数据恰好是连续天的数据(表示数据来自互不相邻的三天),求的分布列及期望.根据月日至日数据,求出发芽数关于温差的线性回归方程.由所求得线性回归方程得到的估计数据与剩下的检验数据的误差均不超过颗,则认为得到的线性回归方程是可靠的,试问所得的线性回归方程是否可靠?附:参考公式:,.(1)11.在年俄罗斯世界杯期间,莫斯科的部分餐厅经营了来自中国的小龙虾,这些小龙虾均标有等级代码,为得到小龙虾等级代码数值与销售单价之间的关系,经统计得到如下数据:等级代码数值销售单价(元)已知销售单价与等级代码数值之间存在线性相关关系,求关于的线性回归方程(系数精(2)若莫斯科某个餐厅打算从上表的种等级的中国小龙虾中随机选种进行促销,记被选中的种等级代码数值在以下(不含)的数量为,求的分布列及数学期望.参考公式:对一组数据,,,,其回归直线的斜率和截距的最小二乘估计分别为:,.(1)(2)12.某动漫影视制作公司长期坚持文化自信,不断挖掘中华优秀传统文化中的动漫题材,创作出一批又一批的优秀动漫影视作品,获得市场和广大观众的一致好评,同时也为公司赢得丰厚的利润.该公司年至年的年利润关于年份代号的统计数据如下表(已知该公司的年利润与年份代号线性相关):年份年份代号年利润(单位:亿元)求关于的线性回归方程,并预测该公司年(年份代号记为)的年利润.当统计表中某年年利润的实际值大于由()中线性回归方程计算出该年利润的估计值时,称该年为级利润年,否则称为级利润年.将()中预测的该公司年的年利润视作该年利润的实际值,现从年至年这年中随机抽取年,求恰有年为级利润年的概率.参考公式:,.2. 独立性检验知识回顾方法提升考点:独立性检验求解步骤(1)准确作出列联表;(2)统计假设成立;(3)计算;(4)将上一步计算得到的观测值与临界值比较,从而接收或拒绝假设.【思想方法与技巧】1、在列联表中,越小,说明两个分类变量之间关系越弱;越大,说明两个分类变量之间关系越强.2、(1)制作列联表时要注意表中相关数据的位置及对应,避免出错;(2)作的列联表的独立性检验时,要求表中的个数据都要大于,因此,在选取样本容量时一定要注意.高考链接13.某学生兴趣小组随机调查了某市天中每天的空气质量等级和当天到某公园锻炼的人次,整理数据得到下表(单位:天):(1)(2)(3)锻炼人次空气质量等级(优)(良)(轻度污染)(中度污染)分别估计该市一天的空气质量等级为,,,的概率.求一天中到该公园锻炼的平均人次的估计值(同一组中的数据用该组区间的中点值为代表).若某天的空气质量等级为或,则称这天“空气质量好”;若某天的空气质量等级为或,则称这天“空气质量不好”.根据所给数据,完成下面的列联表;并根据列联表,判断是否有的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关?人次人次空气质量好空气质量不好附:.第一种生产方式第二种生产方式14.某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取名工人,将他们随机分成两组,每组人,第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:)绘制了如下茎叶图:(1)(2)(3)根据茎叶图判断哪种生产方式的效率更高?并说明理由.求名工人完成生产任务所需时间的中位数,并将完成生产任务所需时间超过和不超过的工人数填入下面的列联表:超过不超过第一种生产方式第二种生产方式根据()中的列联表,能否有的把握认为两种生产方式的效率有差异?附:,(1)(2)(3)15.海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取个网箱,测量各箱水产品的产量(单位:),其频率直方图如下:频率组距箱产量旧养殖法频率组距箱产量新养殖法附:.设两种养殖方法的箱产量相互独立,记表示事件:旧养殖法的箱产量低于, 新养殖法的箱产量不低于,估计的概率.填写下面列联表,并根据列联表判断是否有的把握认为箱产量与养殖方法有关.箱产量箱产量旧养殖法新养殖法根据箱产量的频率分布直方图,求新养殖法箱产量的中位数的估计值(精确到).方法应用(1)(2)(3)16.在传染病学中,通常把从致病刺激物侵入机体或者对机体发生作用起,到机体出现反应或开始呈现该疾病对应的相关症状时止的这一阶段称为潜伏期.一研究团队统计了某地区名患者的相关信息,得到如下表格:潜伏期(单位:天)人数求这名患者的潜伏期的样本平均数(同一组中的数据用该组区间的中点值作代表).该传染病的潜伏期受诸多因素的影响,为研究潜伏期与患者年龄的关系,以潜伏期是否超过天为标准进行分层抽样,从上述名患者中抽取人,得到如下列联表.请将列联表补充完整,并根据列联表判断是否有的把握认为潜伏期与患者年龄有关.潜伏期天潜伏期天总计岁以上(含岁)岁以下总计附:,其中.以这名患者的潜伏期超过天的频率,代替该地区名患者潜伏期超过天发生的概率,每名患者的潜伏期是否超过天相互独立.为了深入研究,该研究团队随机调查了名患者,其中潜伏期超过天的人数最有可能(即概率最大)是多少?17.为了提高生产效益,某企业引进了一批新的生产设备,为了解设备生产产品的质量情况,分别从新、旧设备所生产的产品中,各随机抽取件产品进行质量检测,所有产品质量指标值均在以内,规定质量指标值大于的产品为优质品,质量指标值在的产品为合格品.旧设备所生产的产品质量指标值如频率分布直方图所示,新设备所生产的产品质量指标值如频数分布表所示.(1)(2)(3)频率组距质量指标值质量指标值频数合计请分别估计新、旧设备所生产的产品的优质品率.优质品率是衡量一台设备性能高低的重要指标,优质品率越高说明设备的性能越高.根据已知图表数据填写下面列联表(单位:件),并判断是否有的把握认为“产品质量高与新设备有关”.非优质品优质品合计新设备产品旧设备产品合计附:,其中.用频率代替概率,从新设备所生产的产品中随机抽取件产品,其中优质品数为件,求的分布列及数学期望.18.冬天的北方室外温度极低,若轻薄保暖的石墨烯发热膜能用在衣服上,可爱的医务工作者行动会更方便,石墨烯发热膜的制作:从石墨中分离出石墨烯,制成石墨烯发热膜,从石墨分离石墨烯的一(1)(2)种方法是化学气相沉积法,使石墨升华后附着在材料上再结晶,现在有材料,材料供选择,研究人员对附着在材料,材料上再结晶各做了次试验,得到如下等高条形图.材料试验结果材料试验结果石墨烯再结晶试验试验成功试验失败根据上面的等高条形图,填写如下列联表,判断是否有的把握认为试验成功与材料有关.材料材料合计成功不成功合计研究人员得到石墨烯后,再制作石墨烯发热膜有三个环节:①透明基底及胶层,②石墨烯层,③表面封装层,第一,二环节生产合格的概率均为,第三个环节生产合格的概率为,且各生产环节相互独立,已知生产吨的石墨烯发热膜的固定成本为万元,若生产不合格还需进行修复,第三个环节的修复费用为元,其余环节修复费用均为元.如何定价,才能实现每生产吨石墨烯发热膜获利可达万元以上的目标.附:参考公式:,其中.19.由团中央学校部、全国学联秘书处、中国青年报社共同举办的年度全国“最美中学生”寻访活动结果出炉啦,此项活动于年月启动,面向全国中学在校学生,通过投票方式寻访一批在热爱祖国、勤奋学习、热心助人、见义勇为等方面表现突出、自觉树立和践行社会主义核心价值观的“最美中学生”.现随机抽取了名学生的票数,绘成如图所示的茎叶图,若规定票数在票以上(包括票)定义为风华组.票数在票以下(不包括票)的学生定义为青春组.(1)(2)(3)在这名学生中,青春组学生中有男生人,风华组学生中有女生人,试问有没有的把握认为票数分在青春组或风华组与性别有关.如果用分层抽样的方法从青春组和风华组中抽取人,再从这人中随机抽取人,那么至少有人在青春组的概率是多少?用样本估计总体,把频率作为概率,若从该地区所有的中学(人数很多)中随机选取人,用表示所选人中青春组的人数,试写出的分布列,并求出的数学期望.附:;其中,独立性检验临界表:(1)(2)(3)20.为了保障全国第四次经济普查顺利进行,国家统计局从东部选择江苏,从中部选择河北、湖北,从西部选择宁夏,从直辖市中选择重庆作为国家综合试点地区,然后再逐级确定普查区域,直到基层的普查小区.在普查过程中首先要进行宣传培训,然后确定对象,最后入户登记.由于种种情况可能会导致入户登记不够顺利,这为正式普查提供了宝贵的试点经验.在某普查小区,共有家企事业单位,家个体经营户,普查情况如下表所示:普查对象类型顺利不顺利合计企事业单位个体经营户合计写出选择个国家综合试点地区采用的抽样方法.根据列联表判断是否有的把握认为“此普查小区的入户登记是否顺利与普查对象的类别有关”.以频率作为概率,某普查小组从该小区随机选择家企事业单位,家个体经营户作为普查对象,入户登记顺利的对象数记为,写出的分布列,并求的期望值.附:.(1)(2)(3)21.黄冈市有很多名优土特产,黄冈市的蕲春县就有闻名于世的“蕲春四宝”(蕲竹、蕲艾、蕲蛇、蕲龟),很多人慕名而来旅游,通过随机询问名不同性别的游客在购买“蕲春四宝”时是否在来蕲春县之前就知道“蕲春四宝”,得到如下列联表:男女总计事先知道“蕲春四宝”事先不知道“蕲春四宝”总计附:.写出列联表中各字母代表的数字.由以上列联表判断,能否在犯错误的概率不超过的前提下认为购买“蕲春四宝”和是否“事先知道’蕲春四宝’有关系”?从被询问的名事先知道“蕲春四宝”的顾客中随机选取名顾客,求抽到的女顾客人数的分布列及其数学期望.(1)22.在一次爱心捐款活动中,小李为了了解捐款数额是否和居民自身的经济收入有关,随机调查了某地区的个捐款居民每月平均的经济收入.在捐款超过元的居民中,每月平均的经济收入没有达到元的有个,达到元的有个;在捐款不超过元的居民中,每月平均的经济收入没有达到元的有个.参考数据当时,无充分证据判定变量,有关联,可以认为两变量无关联;当时,有的把握判定变量,有关联;当时,有的把握判定变量,有关联;当时,有的把握判定变量,有关联.附:,其中.在下图表格空白处填写正确数字,并说明是否有以上的把握认为捐款数额是否超过元和居民每月平均的经济收入是否达到元有关?每月平均经济收入达到元每月平均经济收入没有达到元合计捐款超过元 捐款不超过元(2)合计将上述调查所得到的频率视为概率.现在从该地区大量居民中,采用随机抽样方法每次抽取个居民,共抽取次,记被抽取的个居民中经济收入达到元的人数为,求和期望的值.(1)(2)23.2016年月日,“国际教育信息化大会”在山东青岛开幕.为了解哪些人更关注“国际教育信息化大会”,某机构随机抽取了年龄在岁之间的人进行调查,某机构随机抽取了在之间的人进行调查,经统计“青少年”与“中老年”的人数之比为.根据已知条件完成下面的列联表,并判断能否有的把握认为“中老年”比“青少年”更加关注“国际教育信息化大会”.关注不关注合计青少年中老年合计现从抽取的青少年中采取分层抽样的办法选取人进行问卷调查,在这人中再选取人进行面对面询问,记选取的人中关注“国际教育信息化大会”的人数为,求的分布列及数学期望.附:参考公式:,其中.临界值表:(1)(2)24.为了研究家用轿车在高速公路上的车速情况,交通部门对名家用轿车驾驶员进行调查,得到其在高速公路上行驶时的平均车速情况为:在名男性驾驶员中,平均车速超过的有人,不超过的有人.在名女性驾驶员中,平均车速超过的有人,不超过的有人.完成下面的列联表,并判断是否有的把握认为平均车速超过的人与性别有关.平均车速超过人数平均车速不超过人数合计男性驾驶员人数 女性驾驶员人数合计以上述数据样本来估计总体,现从高速公路上行驶的大量家用轿车中随机抽取辆,记这辆车中驾驶员为男性且车速超过的车辆数为,若每次抽取的结果是相互独立的,求的分布列和数学期望.参考公式与数据:,其中,对服务满意对服务不满意合计对商品满意 对商品不满意合计(1)(2)25.近年来,我国电子商务蓬勃发展.年“”期间,某网购平台的销售业绩高达亿元人民币,与此同时,相关管理部门推出了针对该网购平台的商品和服务的评价系统.从该评价系统中选出次成功交易,并对其评价进行统计,网购者对商品的满意率为,对服务的满意率为,其中对商品和服务都满意的交易为次.根据已知条件完成下面的列联表,并回答能否有的把握认为“网购者对商品满意与对服务满意之间有关系”?若将频率视为概率,某人在该网购平台上进行的次购物中,设对商品和服务都满意的次数为随机变量,求的分布列和数学期望.附:(其中为样本容量)26.万众瞩目的第届全国冬季运动运会(简称“十四冬”)于年月日在呼伦贝尔市盛大开幕,期间正值我市学校放寒假,寒假结束后,某校工会对全校名教职工在“十四冬”期间每天收看比赛转播的时间作了一次调查,得到如图频数分布直方图:。
回归分析、独立性检验
突破点8 回归分析、独立性检验(1)正相关:在散点图中,点散布在从左下角到右上角的区域. (2)负相关:在散点图中,点散布在从左上角到右下角的区域.(3)相关系数r :当r >0时,两变量正相关;当r <0时,两变量负相关;当|r |≤1且|r |越接近于1,相关程度越高,当|r |≤1且|r |越接近于0,相关程度越低.方程y ^=b^x +a ^称为线性回归方程,其中b ^=∑i =1nx i y i -n x -y -∑i =1nx 2i -n x 2,a ^=y --b ^x -.(x -,y -)称为样本中心点.(1) (2)求观测值:k =n (ad -bc )2(a +b )(c +d )(a +c )(b +d ).(3)根据临界值表,作出正确判断.如果k ≥k α,就推断“X 与Y 有关系”,这种推断犯错误的概率不超过α,否则就认为在犯错误的概率不超过α的前提下不能推断“X 与Y 有关系”.回访1 变量的相关性1.(2015·全国卷Ⅱ)根据下面给出的2004年至2013年我国二氧化硫年排放量(单位:万吨)柱形图,以下结论中不正确的是( )图8-1A .逐年比较,2008年减少二氧化硫排放量的效果最显著B .2007年我国治理二氧化硫排放显现成效C .2006年以来我国二氧化硫年排放量呈减少趋势D .2006年以来我国二氧化硫年排放量与年份正相关D [对于A 选项,由图知从2007年到2008年二氧化硫排放量下降得最多,故A 正确.对于B 选项,由图知,由2006年到2007年矩形高度明显下降,因此B 正确.对于C 选项,由图知从2006年以后除2011年稍有上升外,其余年份都是逐年下降的,所以C 正确.由图知2006年以来我国二氧化硫年排放量与年份负相关,故选D.]2.(2012·全国卷)在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =12x +1上,则这组样本数据的样本相关系数为( )A .-1B .0 C.12D .1D [样本点都在直线上时,其数据的估计值与真实值是相等的,即y i =y ^i ,代入相关系数公式r =1-∑i =1n(y i -y ^i )2∑i =1n (y i -y )2=1.]3.(2015·全国卷Ⅰ)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t)和年利润z (单位:千元)的影响.对近8年的年宣传费x i 和年销售量y i (i =1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.图8-2表中w i =x i ,w ]=18∑ i =1w i .(1)根据散点图判断,y =a +bx 与y =c +d x 哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程;(3)已知这种产品的年利润z 与x ,y 的关系为z =0.2y -x .根据(2)的结果回答下列问题:①年宣传费x =49时,年销售量及年利润的预报值是多少? ②年宣传费x 为何值时,年利润的预报值最大?附:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v =α+βu 的斜率和截距的最小二乘估计分别为β^=∑ni =1 (u i -u )(v i -v )∑ni =1 (u i -u )2,α^=v -β^u . [解] (1)由散点图可以判断,y =c +d x 适宜作为年销售量y 关于年宣传费x 的回归方程类型.2分(2)令w =x ,先建立y 关于w 的线性回归方程.由于d^=∑i =18(w i -w )(y i -y )∑i =18(w i -w )2=108.81.6=68,c ^=y -d^ w =563-68×6.8=100.6,4分所以y 关于w 的线性回归方程为y ^=100.6+68w , 因此y 关于x 的回归方程为y ^=100.6+68x .6分 (3)①由(2)知,当x =49时,年销售量y 的预报值y ^=100.6+6849=576.6, 年利润z 的预报值z ^=576.6×0.2-49=66.32.8分 ②根据(2)的结果知,年利润z 的预报值z ^=0.2(100.6+68x )-x =-x +13.6x +20.12.10分 所以当x =13.62=6.8,即x =46.24时,z ^取得最大值. 故年宣传费为46.24千元时,年利润的预报值最大.12分 回访2 独立性检验4.(2012·辽宁高考)电视传媒公司为了解某地区电视观众对某类体育节目的收视情况,随机抽取了100名观众进行调查.下面是根据调查结果绘制的观众日均收看该体育节目时间的频率分布直方图:图8-3将日均收看该体育节目时间不低于40分钟的观众称为“体育迷”. (1)根据已知条件完成下面的2×2列联表,并据此资料你是否认为“体育迷”与性别有关?(2)用随机抽样方法每次抽取1名观众,抽取3次,记被抽取的3名观众中的“体育迷”人数为X .若每次抽取的结果是相互独立的,求X 的分布列,期望E (X )和方差D (X ).附:K 2=n (n 11n 22-n 12n 21)2n 1+n 2+n +1n +2,[解] (1)“体育迷”有25人,从而2×2列联表如下:2分将2×2列联表中的数据代入公式计算,得k =n (n 11n 22-n 12n 21)2n 1+n 2+n +1n +2=100×(30×10-45×15)275×25×45×55=10033≈3.030.因为3.030<3.841,所以没有理由认为“体育迷”与性别有关.6分(2)由频率分布直方图知抽到“体育迷”的频率为0.25,将频率视为概率,即从观众中抽取一名“体育迷”的概率为14.8分由题意知X ~B ⎝ ⎛⎭⎪⎫3,14,从而X 的分布列为10分E (X )=np =3×14=34,D (X )=np (1-p )=3×14×34=916.12分题型分析:用、回归方程的求法和应用,难度中等.在一次抽样调查中测得样本的5组数据,得到一个变量y 关于x 的回归方程模型,其对应的数值如下表:(1)试作出散点图,根据散点图判断,y =a +bx 与y =kx +m 哪一个适宜作为变量y 关于x 的回归方程模型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立变量y 关于x 的回归方程; (3)根据(2)中所求的变量y 关于x 的回归方程预测:当x =3时,对应的y 值为多少?(保留四位有效数字)[解] (1)作出变量y 与x 之间的散点图,如图所示,2分由图可知变量y 与x 近似地呈反比例函数关系,那么y =kx +m 适宜作为变量y 关于x 的回归方程模型.4分(2)由(1)知y =k x +m 适宜作为变量y 关于x 的回归方程模型,令t =1x ,则y =kt +m ,由y 与x 的数据表可得y 与t 的数据表如下:……………6分作出y 与t 的散点图,如图所示.8分由图可知y 与t 近似地呈线性相关关系.又t -=1.55,y -=7.2,∑i =15t i y i =94.25,∑i =15t 2i =21.312 5,所以k =∑i =15t i y i -5t -y -∑i =15t 2i -5t 2=94.25-5×1.55×7.221.312 5-5×1.552≈4.134 4,m =y --k t -=7.2-4.134 4×1.55≈0.8,所以y =4.134 4t +0.8, 所以y 关于x 的回归方程为y =4.134 4x +0.8.10分(3)由(2)得y 关于x 的回归方程是y =4.134 4x +0.8,当x =3时,可得y =4.134 43+0.8≈2.178.12分1.正确理解计算b^,a ^的公式和准确的计算,是求线性回归方程的关键.其中线性回归方程必过样本中心点(x -,y -).2.在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程估计和预测变量的值.[变式训练1] (2016·石家庄二模)为了解某地区某种农产品的年产量x (单位:吨)对价格y (单位:千元/吨)和年利润z 的影响,对近五年该农产品的年产量和价格统计如下表:(1)求y 关于x 的线性回归方程y =bx +a ;(2)若每吨该农产品的成本为2千元,假设该农产品可全部卖出,预测当年产量为多少时,年利润z 取到最大值?(保留两位小数)参考公式:b^=∑i =1n(x i -x -)(y i -y -)∑i =1n (x i -x -)2=∑i =1nx i y i -n x -y -∑i =1nx 2i -n x 2,a ^=y --b ^x -.[解] (1)x -=3,y -=5,2分∑i =15x i =15,∑i =15y i =25,∑i =15x i y i =62.7,∑i =15x 2i =55,解得b^=-1.23,a^=8.69,4分 所以y ^=8.69-1.23x .6分(2)年利润z =x (8.69-1.23x )-2x =-1.23x 2+6.69x ,10分所以当x =2.72,即年产量为2.72吨时,年利润z 取得最大值.12分题型分析:概率统计等知识交汇,是潜在的命题点之一,须引起足够的重视.(2016·山西四校第二次联考)心理学家分析发现视觉和空间能力与性别有关,某数学兴趣小组为了验证这个结论,从兴趣小组中按分层抽样的方法抽取50名同学(男30,女20),给所有同学几何题和代数题各一题,让各位同学自由选择一道题进行解答.选题情况如下表:(单位:人)(1) (2)经过多次测试后,甲每次解答一道几何题所用的时间在5~7分钟,乙每次解答一道几何题所用的时间在6~8分钟,现甲、乙各解同一道几何题,求乙比甲先解答完的概率;(3)现从选择做几何题的8名女生中任意抽取2人对她们的答题情况进行全程研究,记丙、丁2名女生被抽到的人数为X ,求X 的分布列及数学期望E (X ).附表及公式:K 2=(a +b )(c +d )(a +c )(b +d ),n =a +b +c +d .[解题指导] 计算k ――→查表下结论――→几何概型求概率――→超几何分布求X 的分布列及E (X ).[解] (1)由表中数据得k =50×(22×12-8×8)230×20×30×20=509≈5.556>5.024,2分所以有97.5%的把握认为视觉和空间能力与性别有关.3分(2)设甲、乙解答一道几何题的时间分别为x ,y 分钟,则⎩⎨⎧5≤x ≤7,6≤y ≤8表示的平面区域如图所示.设事件A 为“乙比甲先做完此道题”,则x >y 满足的区域如图中阴影部分所示.5分由几何概型可得P (A )=12×1×12×2=18,即乙比甲先解答完的概率为18.7分(3)由题可知,在选择做几何题的8名女生中任意抽取2人的方法有C28=28种,其中丙、丁2人没有一个人被抽到的有C26=15种;恰有一人被抽到的有C12·C16=12种;2人都被抽到的有C22=1种.所以X的可能取值为0,1,2,P(X=0)=1528,8分P(X=1)=1228=37,9分P(X=2)=128.10分X的分布列为:11分E(X)=0×1528+1×37+2×128=12.12分求解独立性检验问题时要注意:一是2×2列联表中的数据与公式中各个字母的对应,不能混淆;二是注意计算得到k之后的结论.[变式训练2](名师押题)2016年1月1日起全国统一实施全面二孩政策.为了解适龄民众对放开生育二孩政策的态度,某市选取70后和80后作为调查对象,随机调查了100人,得到数据如下表:(1)以这100该市70后公民中随机抽取3人,记其中生二孩的人数为X,求随机变量X的分布列和数学期望;(2)根据调查数据,是否有90%以上的把握认为“生二孩与年龄有关”,并说明理由.参考数据:11参考公式:K 2=(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d[解] (1)由已知得70后“生二孩”的概率为23,并且X ~B ⎝ ⎛⎭⎪⎫3,23,所以P (X =k )=C k 3⎝ ⎛⎭⎪⎫23k ⎝ ⎛⎭⎪⎫133-k(k =0,1,2,3),4分 X 的分布列为6分所以E (X )=3×23=2.8分(2)由表中数据知k =100×(30×10-45×15)275×25×45×55=10033≈3.030>2.706,10分所以有90%以上的把握认为“生二孩与年龄有关”.12分。
回归方程和独立性检验知识点
回归分析和独立性检验一、回归分析1、回归直线方程 a x b yˆˆˆ+= x 叫做解释变量,y 叫做预报变量其中∑∑==---=ni i ni i ix x y y x xb121)())((ˆ=∑∑==--n i ini ii x n x yx n yx 1221由最小二乘法得出,考试时给出此公式中的一个x b y aˆˆ-= 此式说明:回归直线过样本的中心点)(y x , ,也就是平均值点; 2、几条结论:1回归直线过样本的中心点)(y x ,;2b>0时,y 与x 正相关,散点图呈上升趋势;b<0时,y 与x 负相关,散点图呈下降趋势; 3斜率b 的含义举例:如果回归方程为y=+2, 说明x 增加1个单位时,y 平均增加个单位; 如果回归方程为y=-+2,说明x 增加1个单位时,y 平均减少个单位; 4相关系数r 表示变量的相关程度; 范围:1≤r ,即 11≤≤-rr 越大.,相关性越强.;0>r 时,y 与x 正相关;0<r 时,y 与x 负相关;5相关指数2R 表示模型的拟合效果; 范围:]10[2,∈R 2R 越大.,拟合效果越好.,这时:残差平方和越小,残差点在带状区域内的分布比较均匀,带状区域宽度越窄,拟合精度越高;2R 表示解释变量x 对于预报变量y 变化的贡献率;例如:64.02≈R ,表明“x 解释了64%的y 变化”,或者说“y 的差异有64%是由x 引起的”;6线性回归模型 e a bx y ++=, 其中e 叫做随机误差;y 是由x 和e 共同确定的;二、独立性检验1、原理:假设性检验类似反证法原理;一般情况下:假设分类变量X 和Y 之间没有关系,通过计算2K 值,然后查表对照相应的概率P, 发现这种假设正确的概率P 很小,从而推翻假设,最后得出X 和Y 之间有关系的可能性为1-P, 也就是“X 和Y 有关系”;表中的k 就是2K 的观测值,即2K k = 2、2⨯2列联表:))()()(()(22d b c a d c b a bc ad n K ++++-=考试给出部分对照表考试时会给出用到的一部分数据:3、范围:),0(2+∞∈K ; 性质:2K越大.,说明变量间越有关系...;三、典型例题123产7吨产品时,消耗的煤约为吨;例2、为了考察某药物预防疾病的效果,现对105人进行试验调查,得到2⨯2列联表;试判断:服用药物和患病之间是否有关系解:105=n ,10=a ,45=b ,20=c ,30=d≈> 提示:运算时尽量先约分化简,再计算所以,有1-=%的把握认为服用药物和患病之间有关系;。
方法技巧专题25回归分析与独立性检验
方法技巧专题25回归分析与独立性检验回归分析与独立性检验是统计学中常用的两种方法技巧。
本文将从基本概念、执行步骤、解析方法和实际应用等方面详细介绍回归分析与独立性检验。
一、回归分析回归分析是一种用来描述和解释变量之间相互关系的统计方法。
在回归分析中,一个或多个自变量被用来预测或解释一个或多个因变量。
基本概念包括以下几点:1. 自变量(independent variable):研究者控制和操作的变量,用来预测因变量。
2. 因变量(dependent variable):研究者感兴趣的变量,也是我们希望预测或解释的变量。
3. 简单线性回归(simple linear regression):只有一个自变量和一个因变量之间的关系。
4. 多元回归(multiple regression):有两个或两个以上自变量和一个因变量之间的关系。
执行步骤如下:1.收集数据:收集自变量和因变量的数据。
2.绘制散点图:绘制自变量和因变量之间的散点图,观察两个变量之间的关系。
3.拟合回归线:通过回归线拟合数据,找到自变量和因变量之间的最佳关系。
4.计算回归方程:根据回归线的拟合情况,计算出回归方程,用来预测或解释因变量。
常用解析方法有以下几种:1.最小二乘法:通过最小化实际观测值与回归方程预测值之间的误差平方和,来确定回归方程的参数。
2. 相关系数(correlation coefficient):用来衡量自变量和因变量之间的线性相关性强弱,常用Pearson相关系数进行计算。
3.回归方程显著性检验:用来判断回归方程是否显著,即自变量是否对因变量有显著影响。
二、独立性检验独立性检验是用来检验两个或多个分类变量之间是否存在相关性的统计方法。
基本概念包括以下几点:1. 分类变量(categorical variable):变量的取值只能是一些有限的标称级别,而不能用具体的数值表示。
2. 单变量独立性检验(univariate independence test):只包括一个分类变量和一个因变量的关系。
【高考数学总复习】:回归性分析与独立性检验(知识点讲解+真题演练+详细解答)
量,例如某同学的数学成绩与化学成绩。
2.线性回归分析 (1) 散点图:将样本中的各对数据在直角坐标系中描点而得到的图形叫做散点图,它直观地 描述了两个变量之间是否有相关关系,是判断两个变量相关性的重要依据。 (2) 回归直线:散点图中点的整体分布在一条直线左右,则称这两个变量之间具有线性相关
(a b)(c d)(a c)(b d )
通过对统计量 K2 的研究,一般情况下认为:
①当 K 2 ≤3.841 时,认为变量 X 与 Y 是无关的。
②当 K 2 >3.841 时,有 95%的把握说变量 X 与 Y 有关;
④ 当 K 2 >6.635 时,有 99%的把握说变量 X 与 Y 有关;
定在多大程度上可以认为“两个分类变量有关系”的方法称为两个分类变量的独立性检验。
2.分类变量的理解: 分类变量是说明事物类别的一个名称,其取值是分类数据。如“性别”就是一个分类变 量,其变量值为“男”或“女”;“行业”也是一个分类变量,其变量值可以为“零售 业”,说明 X 与 Y 无关的把握越小
6. 右表是对与喜欢足球与否的统计列联表依据表中的数据,得到( )
A. K 2 9.564 B. K 2 3.564 C. K 2 2.706 D. K 2 3.841
7. 对两个分类变量 A、B 的下列说法中正确的个数为( ). ①A 与 B 无关,即 A 与 B 互不影响;②A 与 B 关系越密切,则 K2 的值就越大;③K2
x yw
46.6 563 6.8
8
(xi x )2
i 1
回归分析和独立性检验(教师版)
回归分析即独立性检验一、回归分析1、两个变量之间的关系;常见的有两类:一类是确定性的函数关系;另一类是变量间存在关系,但又不具备函数关系所要求的确定性,它们的关系是带有一定随机性的.当一个变量取值一定时,另一个变量的取值带有一定随机性的两个变量之间的关系叫做相关关系. 2、散点图:将样本中的n 个数据点()(12)i i x y i n =L ,,,,描在平面直角坐标系中,就得到了散点图.散点图形象地反映了各个数据的密切程度,根据散点图的分布趋势可以直观地判断分析两个变量的关系.3、如果当一个变量的值变大时,另一个变量的值也在变大,则这种相关称为正相关;此时,散点图中的点在从左下角到右上角的区域.反之,一个变量的值变大时,另一个变量的值由大变小,这种相关称为负相关.此时,散点图中的点在从左上角到右下角的区域.散点图可以判断两个变量之间有没有相关关系.4、回归分析:对于具有相关关系的两个变量进行统计分析的方法叫做回归分析,即回归分析就是寻找相关关系中这种非确定关系的某种确定性. 回归直线:如果散点图中的各点都大致分布在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.5、最小二乘法:记回归直线方程为:ˆˆˆy bx a =+,称为变量y 对变量x 的回归直线方程,其中a b ,叫做回归系数.用最小二乘法求回归系数ˆˆab ,有如下的公式: 1122211()()ˆ()ˆˆnni i i ii i n ni ii i x x y y x ynxyb x x xnx ay bx ====⎧---⎪⎪==⎪⎨--⎪⎪=-⎪⎩∑∑∑∑,其中a b ,上方加“^”,表示是由观察值按最小二乘法求得的(样本中心点(,)x y 必定落在回归直线上)例1、已知回归直线方程中斜率的估计值为1.23,样本点的中心(4,5),则回归直线方程为 A . ˆy=1.23x +0.08 B . ˆy =0.08x +1.23 C . ˆy =1.23x +4 D . ˆy =1.23x +5 解析 回归直线方程过样本点的中心,把点(4,5)代入A 项成立. 答案 A例2、下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x (吨)与相应的(2) 请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程$y bxa =+$; (3) 已知该厂技术改造前100吨甲产品能耗为90吨标准煤.试根据(2)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技术改造前降低多少吨标准煤?【解析】(1)如下图(2)y x ini i ∑=1=3⨯2.5+4⨯3+5⨯4+6⨯4.5=66.5 x =46543+++=4.5y =45.4435.2+++=3.5 ∑=n i x i 12=32+42+52+62=86 266.54 4.5 3.566.563ˆ0.7864 4.58681b -⨯⨯-===-⨯- ˆˆ 3.50.7 4.50.35a Y bX =-=-⨯= 故线性回归方程为y=0.7x+0.35(3)根据回归方程的预测,现在生产100吨产品消耗的标准煤的数量为0.7⨯100+0.35=70.35故耗能减少了90-70.35=19.65(吨)练习1、某车间为了规定工时定额,需要确定加工零件所花费的时间,为此作了四次试验,得到的数据如下:(1)(2)求出y 关于x 的线性回归方程ˆˆˆybx a =+,并在坐标系中画出回归直线; (3)试预测加工10个零件需要多少时间?解 (1)散点图如图所示.(2)由表中数据得1ni i i x y =∑=52.5,x =3.5,y =3.5,21ni i x =∑=54,∴ˆb=0.7. ∴ˆa =1.05. ∴ˆy=0.7x +1.05. 回归直线如图中所示.(3)将x =10代入回归直线方程,得y =0.7×10+1.05=8.05(小时), ∴预测加工10个零件需要8.05小时. 二、独立性检验1、22⨯联表的独立性检验:如果对于某个群体有两种状态,对于每种状态又有两个情况,这样排成一张22⨯的表,如下:如果有调查得来的四个数据a b c d ,,,,并希望根据这样的4个数据来检验上述的两种状态x 与y 是否有关,就称之为22⨯联表的独立性检验.2、独立性检验的步骤:统计假设:0H ;列出22⨯联表;计算2K 统计量;查对临界值表,作出判断.3、几个临界值:.4、统计假设:如果事件A 与B 独立,这时应该有()()()P AB P A P B =,用字母0H 表示此式,即0:()()()H P AB P A P B =,称之为统计假设.5、2K (读作“卡方”)统计量:统计学中有一个非常有用的统计量,它的表达式为22()()()()()n ad bc K a b c d a c b d -=++++,用它的大小可以用来决定是否拒绝原来的统计假设0H6、2K 统计量的临界值的作用:比如:当2 3.841K ≥时,有95%的把握说事件A 与B 有关;当2 6.635K ≥时,有99%的把握说事件A 与B 有关;当2 3.841K <时,有5%的把握说事件A 与B 是无关的.7、独立性检验的基本思想与反证法类似,由结论不成立时推出有利于结论成立的小概率事件发生,而小概率事件在一次试验中通常是不会发生的,所以认为结论在很大程度上是成立 例、甲、乙两所学校高三年级分别有1200人、1000人,为了解两所学校全体高三年级学生在该地区六校联考的数学成绩情况,采用分层抽样方法从两所学校一共抽取了110名学生的数学成绩,并作出了频数分布统计表如下: 分组 [70,80) [80,90) [90,100) [100,110) 频数 3 4 8 15 分组 [110,120) [120,130) [130,140) [140,150] 频数 15 x 3 2 分组 [70,80) [80,90) [90,100) [100,110) 频数 1 2 8 9 分组 [110,120) [120,130) [130,140) [140,150] 频数 10 10 y 3 (2)若规定考试成绩在[120,150]内为优秀,请分别估计两所学校数学成绩的优秀率; (3)由以上统计数据填写下面2×2列联表,并判断是否有90%的把握认为两所学校的数学成绩有差异.甲校 乙校 总计 优秀 非优秀 总计解:(1)甲校抽取110×12002200=60(人),乙校抽取110×10002200=50(人),故x =10,y =7.(2)估计甲校优秀率为1560=25%,乙校优秀率为2050=40%.(3) 表格填写如下:甲校 乙校 总计 优秀 15 20 35 非优秀 45 30 75 总计 60 50 110K 2=110(15×30-20×45)260×50×35×75≈2.83>2.706,又因为1-0.10=0.9,故有90%的把握认为两个学校的数学成绩有差异.练习1、某校为了研究学生的性别和对待某一活动的态度(支持和不支持两种态度)的关系,运用2×2列联表进行独立性检验,经计算χ2=7.069,则所得到的统计学结论是:有( )的把握认为“学生性别与支持活动有关系”.( C )A .0.1%B .1%C .99%D .99.9% 2、某中学将100名高一新生分成水平相同的甲、乙两个“平行班”,每班50人.陈老师采用A 、B 两种不同的教学方式分别在甲、乙两个班级进行教改实验.为了了解教学效果,期末考试后,陈老师分别从两个班级中各随机抽取20名学生的成绩进行统计,作出茎叶图如下.记成绩不低于90分者为“成绩优秀”.由以上统计数据填写下面列联表,并判断是否有90%的把握认为:“成绩优秀”与教学方式有关.甲班(A 方式)乙班(B 方式)总计 成绩优秀 成绩不优秀 总计[ 甲班(A 方式)乙班(B 方式)总计 成绩优秀 1 5 6 成绩不优秀 19 15 34 总计202040根据列联表中数据,χ2=6×34×20×20≈3.137,由于3.137>2.706,所以有90%的把握认为“成绩优秀”与教学方式有关.回归分析和独立性检验练习题1、一位母亲记录了儿子3~9岁的身高,由此建立的身高与年龄的回归模型为ˆy=7.19x +73.93,用这个模型预测这孩子10岁时的身高,则正确的叙述是( D )A .身高一定是145.83 cmB .身高在145.83 cm 以上C .身高在145.83 cm 以下D .身高在145.83 cm 左右2、某考察团对全国10大城市进行职工人均工资水平x(千元)与居民人均消费水平y(千元)统计调查,y 与x 具有相关关系,回归方程为ˆy=0.66x +1.562.若某城市居民人均消费水平为7.675千元,估计该城市人均消费额占人均工资收入的百分比约为( A )A .83%B .72%C .67%D .66%解析 将y =7.675代入回归方程,可计算得x ≈9.26,所以该城市人均消费额占人均工资收入的百分比约为7.675÷9.26≈0.83,即约为83%.3、若施化肥量x 与水稻产量y 的回归直线方程为ˆy=5x +250,当施化肥量为80kg 时,预报水稻产量为_____________________.解析 当x =80 kg 时,ˆy=5×80+250=650 kg . 答案 650 kg4根据上表可得回归直线方程y =0.56x +a ,据此模型预报身高为172cm 的高三男生的体重为( B )A .70.09kgB .70.12kgC .70.55kgD .71.05kg5、下表提供了某厂节能降耗技术改造后在生产A 产品过程中记录的产量x (t)与相应的生产能耗y (t)的几组对应数据:根据上表提供的数据,求出y 关于x 的线性回归方程为y =0.7x +0.35,那么表中t 的值为( A )A .3B .3.15C .3.5D .4.56、有甲、乙两个班级进行数学考试,按照大于等于85分的优秀,85分以下为非优秀统计已知在全部105人中随机抽取1人,成绩优秀的概率为27,则下列说法正确的是( C )A.列联表中c 的值为30,b 的值为35 B .列联表中c 的值为15,b 的值为50C .根据列联表中的数据,若按95%的可靠性要求,能认为“成绩与班级有关系”D .根据列联表中的数据,若按95%的可靠性要求,不能认为“成绩与班级有关系” 7、某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:(1)求回归直线方程ˆˆybx a =+,其中20b =-,ˆˆa y bx =-; (2)预计在今后的销售中,销量与单价仍然服从(1)中的关系,且该产品的成本是4元/件,为使工厂获得最大利润,该产品的单价应定为多少元?(利润=销售收入-成本)解:(1)由于x =16(8+8.2+8.4+8.6+8.8+9)=8.5,y =16(90+84+83+80+75+68)=80,所以ˆˆay bx =-=80+20×8.5=250. 从而回归直线方程为ˆy =-20x +250. (2)设工厂获得的利润为L 元,依题意得L =x(-20x +250)-4(-20x +250)=-20x 2+330x -1000=-20⎝⎛⎭⎫x -3342+361.25, 当且仅当x =8.25时,L 取得最大值.故当单价定为8.25元时,工厂可获得最大利润.8、考察黄烟经过药物处理跟发生青花病的关系,得到如下数据,在试验的470珠黄烟中,经过药物处理的黄烟有25珠发生青花病,60株没有发生青花病.未经过药物处理的有185株发生青花病,200株没有发生青花病,试推断药物处理跟发生青花病是否有关系.[根据公式k 2=470×(25×200-185×60)210×260×85×385≈9.788.由于9.788>7.879,所以我们有99.5%的把握认为经过药物处理跟发生青花病是有关系的.。
回归分析与独立性检验教师版
专题十 回归分析和独立性检验教师版1、回归分析(1)相关关系:当自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系叫做相关关系.与函数关系不同,相关关系是一种非确定关系.(2)散点图:表示具有相关关系的两个变量的一组数据的图形叫做散点图,它可直观地判断两变量的关系是否可以用线性关系表示.若这些散点有y 随x 增大而增大的趋势,则称两个变量正相关;若这些散点有y 随x 增大而减小的趋势,则称两个变量负相关.(3)回归方程:y ^=b ^x +a ^,其中b ^=∑ni =1x i y i -n x y∑n i =1x 2i -n x 2,a ^=y --b ^x ,它主要用来估计和预测取值,从而获得对这两个变量之间整体关系的了解.(4)相关系数:r =∑ni =1x i y i -n x y(∑ni =1x 2i -n x 2)(∑ni =1y 2i -n y 2) 它主要用于相关量的显著性检验,以衡量它们之间的线性相关程度.当r >0时表示两个变量正相关,当r <0时表示两个变量负相关.|r |越接近1,表明两个变量的线性相关性越强;当|r |接近0时,表明两个变量间几乎不存在相关关系,相关性越弱.2、独立性检验 (1)2×2列联表设X ,Y 为两个分类变量,它们的取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(2×2列联表)如下:(2)独立性检验利用随机变量K 2(也可表示为X 2)=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )(其中n =a +b +c +d 为样本容量)来判断“两个变量有关系”的方法称为独立性检验.(3)独立性检验的一般步骤①根据样本数据列出2×2列联表;②计算随机变量K 2的观测值k ,查表确定临界值k 0:③如果k ≥k 0,就推断“X 与Y 有关系\”,这种推断犯错误的概率不超过P (K 2≥k 0);否则,就认为在犯错误的概率不超过P (K 2≥k 0)的前提下不能推断“X 与Y 有关”.一、相关系数及应用【例1】(2019·四川资阳模拟)在一次对人体脂肪含量和年龄关系的研究中,研究人员获得了一组样本数据,并制作成如图所示的人体脂肪含量与年龄关系的散点图.根据该图,下列结论中正确的是( B )A .人体脂肪含量与年龄正相关,且脂肪含量的中位数等于20%B .人体脂肪含量与年龄正相关,且脂肪含量的中位数小于20%C .人体脂肪含量与年龄负相关,且脂肪含量的中位数等于20%D .人体脂肪含量与年龄负相关,且脂肪含量的中位数小于20%【练习】对四组数据进行统计,获得以下关于其相关系数的比较,正确的是( A )A .r 2<r 4<0<r 3<r 1B .r 4<r 2<0<r 1<r 3C .r 4<r 2<0<r 3<r 1D .r 2<r 4<0<r 1<r 3 【例2】(2017·课标全国Ⅰ)为了监控某种零件的一条生产线的生产过程,检验员每隔30 min 从该生产线上随机抽取一个零件,并测量其尺寸(单位:cm).下面是检验员在一天内依次抽取的16个零件的尺寸:,∑16i =1(x i -x )(i -8.5)=-2.78,其中x i 为抽取的第i 个零件的尺寸,i =1,2, (16)(1)求(x i ,i )(i =1,2,…,16)的相关系数r ,并回答是否可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小(若|r |<0.25,则可以认为零件的尺寸不随生产过程的进行而系统地变大或变小);(2)一天内抽检零件中,如果出现了尺寸在(x -3s ,x +3s )之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查.①从这一天抽检的结果看,是否需对当天的生产过程进行检查?②在(x -3s ,x +3s )之外的数据称为离群值,试剔除离群值,估计这条生产线当天生产的零件尺寸的均值与标准差.(精确到0.01)附:样本(x i ,y i )(i =1,2,…,n )的相关系数r =∑ni =1 (x i -x )(y i -y )∑n i =1(x i -x )2∑n i =1(y i -y )2.0.008≈0.09.[解析] (1)由样本数据得(x i ,i )(i =1,2,…,16)的相关系数为r =∑16i =1 (x i -x )(i -8.5)∑16i =1(x i -x )2∑16i =1(i -8.5)2=-2.780.212×16×18.439≈-0.18.由于|r |<0.25,因此可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小. (2)①由于x =9.97,s ≈0.212,由样本数据可以看出抽取的第13个零件的尺寸在(x -3s ,x +3s )以外,因此需对当天的生产过程进行检查.②剔除离群值,即第13个数据,剩下数据的平均数为115×(16×9.97-9.22)=10.02, 这条生产线当天生产的零件尺寸的均值的估计值为10.02.∑16i =1x 2i =16×0.2122+16×9.972≈1591.134, 剔除第13个数据,剩下数据的样本方差为115×(1591.134-9.222-15×10.022)≈0.008,这条生产线当天生产的零件尺寸的标准差的估计值为0.008≈0.09.【练习】 (2019·广州调研)某基地蔬菜大棚采用无土栽培方式种植各类蔬菜.过去50周的资料显示,该地周光照量X (单位:小时)都在30小时以上,其中不足50小时的有5周,不低于50小时且不超过70小时的有35周,超过70小时的有10周.根据统计,该基地的西红柿增加量y (千克)与使用某种液体肥料的质量x (千克)之间的对应数据为如图所示的折线图.(1)依据折线图计算相关系数r (精确到0.01),并据此判断是否可用线性回归模型拟合y 与x 的关系;(若|r |>0.75,则线性相关程度很高,可用线性回归模型拟合)(2)蔬菜大棚对光照要求较高,某光照控制仪商家为该基地提供了部分光照控制仪,但每周光照控制仪运行台数受周光照量X 限制,并有如下关系:未运行,则该台光照控制仪周亏损1 000元.若商家安装了3台光照控制仪,求商家在过去50周的周总利润的平均值.相关系数公式:r =∑i =1n(x i -x )(y i -y )∑i =1n(x i -x )2∑i =1n(y i -y )2,参考数据:0.3≈0.55,0.9≈0.95.解:(1)由已知数据可得x =2+4+5+6+85=5,y =3+4+4+4+55=4.因为∑i =15(x i -x )(y i -y )=(-3)×(-1)+0+0+0+3×1=6,∑i =15(x i -x )2=(-3)2+(-1)2+02+12+32=25,∑i =15(y i -y )2=(-1)2+02+02+02+12=2,所以相关系数r =∑i =15(x i -x )(y i -y )∑i =15 (x i -x )2∑i =15(y i -y )2=625×2=0.9≈0.95.因为|r |>0.75,所以可用线性回归模型拟合y 与x 的关系. (2)由条件可得在过去50周里,当X >70时,共有10周,此时只有1台光照控制仪运行, 每周的周总利润为1×3 000-2×1 000=1 000(元). 当50≤X ≤70时,共有35周,此时有2台光照控制仪运行, 每周的周总利润为2×3 000-1×1 000=5 000(元).当30<X <50时,共有5周,此时3台光照控制仪都运行,每周的周总利润为3×3 000=9 000(元).所以过去50周的周总利润的平均值为 1 000×10+5 000×35+9 000×550=4 600(元),所以商家在过去50周的周总利润的平均值为4 600元.二、求线性回归方程【例3】(2019·湘东五校联考)已知具有相关关系的两个变量x ,y 的几组数据如下表所示:(1)(2)请根据上表数据,用最小二乘法求出y 关于x 的线性回归方程y ^=b ^x +a ^,并估计当x =20时y 的值.参考公式:b ^=∑i =1nx i y i -n x y ∑i =1nx 2i -n x2,a ^=y -b ^x .[解] (1)散点图如图所示(2)依题意,x =15×(2+4+6+8+10)=6,y =15×(3+6+7+10+12)=7.6,∑i =15x 2i =4+16+36+64+100=220,∑i =15x i y i =6+24+42+80+120=272, ∴b ^=∑i =15x i y i -5 x y∑i =15x 2i -5 x2=272-5×6×7.6220-5×62=4440=1.1, ∴a ^=7.6-1.1×6=1,∴线性回归方程为y ^=1.1x +1,故当x =20时,y =23.【例4】近期,某公交公司分别推出支付宝和微信扫码支付乘车活动,活动设置了一段时间的推广期,由于推广期内优惠力度较大,吸引越来越多的人开始使用扫码支付.某线路公交车队统计了活动刚推出一周内其中v i =lg y i ,v =17∑i =17v i .(1)根据散点图判断,在推广期内,y =a +bx 与y =c ·d x (c ,d 均为大于零的常数)哪一个适宜作为扫码支付的人次y 关于活动推出天数x 的回归方程类型(给出判断即可,不必说明理由)?(2)根据(1)的判断结果及上表中数据,建立y 关于x 的回归方程,并预测活动推出第8天使用扫码支付的人次.参考公式:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v ^=α^+β^μ的斜率和截距的最小二乘估计公式分别为β=∑i =1nu i v i -n u v ∑i =1nu 2i -n u2,α^=v -β^U .解:(1)根据散点图可以判断,y =c ·d x 适宜作为扫码支付的人次y 关于活动推出天数x 的回归方程类型. (2)y =c ·d x 两边同时取常用对数,得lg y =lg(c ·d x )=lg c +x lg d , 设lg y =v ,则v =lg c +x lg d .∵x =4,v =2.54,∑i =17x 2i =140,∴lg d =∑i =17x i v i -7 x v ∑i =17x 2i -7 x2≈78.12-7×4×2.54140-7×42=0.25,把(4,2.54)代入v =lg c +x lg d ,得lg c =1.54, ∴v ^=1.54+0.25x ,∴y ^=101.54+0.25x =101.54·(100.25)x .把x =8代入上式,得y ^=101.54+0.25×8=103.54=103×100.54=3 470,∴y 关于x 的回归方程为y ^=101.54·(100.25)x ,活动推出第8天使用扫码支付的人次为3 470.【练习1】(2019·惠州调研)某商场为了了解毛衣的月销售量y (件)与月平均气温x (℃)之间的关系,随机统计了某4个月的月销售量与当月平均气温,其数据如下表:由表中数据算出线性回归方程y =b x +a 中的b =-2,气象部门预测下个月的平均气温约为6 ℃,据此估计该商场下个月毛衣销售量约为( )A .46件B .40件C .38件D .58件解析:选A 由题中数据,得x =10,y =38,回归直线y ^=b ^x +a ^过点(x ,y ),且b ^=-2, 代入得a ^=58,则回归方程y ^=-2x +58,所以当x =6时,y =46,故选A.【练习2】 (2019·湖南郴州模拟)某公司想了解对某产品投入的宣传费用对该产品的营业额的影响.下面是以往公司对该产品的宣传费用x (单位:万元)和产品营业额y (单位:万元)的统计折线图.(1)根据折线图可以判断,可用线性回归模型拟合宣传费用x 与产品营业额y 的关系,请用相关系数加以说明;(2)建立产品营业额y 关于宣传费用x 的回归方程;(3)若某段时间内产品利润z 与宣传费用x 和营业额y 的关系为z =x (y -1.01x -0.09)+50,应投入宣传费用多少万元才能使利润最大?并求最大利润.参考数据:∑7i =1y i =37.28,∑7i =1x i y i =160.68,∑7i =1(y i -y )2=2.2,7≈2.65. 参考公式:相关系数r =∑ni =1(x i -x )(y i -y )∑n i =1(x i -x )2∑n i =1(y i -y )2=∑ni =1x i y i -n x -y -∑n i =1(x i -x )2∑n i =1(y i -y )2,回归方程y ^=a ^+b ^x 中斜率和截距的最小二乘估计公式分别为b ^=∑ni =1 (x i -x )(y i -y )∑ni =1(x i -x )2=∑ni =1x i y i-n x -y -∑n i =1x 2i -n x 2,a ^=y -b ^x ,(计算结果保留两位小数)[解析] (1)由折线图中数据和参考数据得x =4,∑7i =1 (x i -x )2=28,r =160.68-4×37.2828×2.2≈0.99,因为y 与x 的相关系数近似为0.99,说明y 与x 的线性相关程度相当高,从而可以用线性回归模型拟合y 与x 的关系.(2)因为y =∑7i =1y i7≈5.33,b ^=160.68-4×37.2828≈0.41,a ^≈5.33-0.41×4=3.69,所以y 关于x 的回归方程为y ^=0.41x +3.69.(3)由z =x (y -1.01x -0.09)+50=-0.6x 2+3.6x +50,可得x =3时,z max =55.4,所以投入宣传费用3万元时,可获得最大利润55.4万元.名师点拨 ☞利用回归方程可以进行预测和估计总体,回归方程将部分观测值所反映的规律进行延伸,是我们对有线性相关关系的两个变量进行分析和控制、依据自变量的取值估计和预报因变量值的基础和依据.解决此类问题的步骤为:(1)将表中的各对数据在平面直角坐标系中描点,得到散点图;(2)按求回归方程的步骤和公式,写出回归方程;(3)利用回归方程进行分析,分析中注意函数思想的应用.【练习3】某电视厂家准备在元旦举行促销活动,现根据近七年的广告费与销售量的数据确定此次广告费支出.广告费支出x (万元)和销售量y (万台)的数据如下:(1)(2)若用y =c +d x 模型拟合y 与x 的关系,可得回归方程y ^=1.63+0.99x ,经计算线性回归模型和该模型的R 2分别约为0.75和0.88,请用R 2说明选择哪个回归模型更好;(3)已知利润z 与x ,y 的关系为z =200y -x .根据(2)的结果,求当广告费x =20时,销售量及利润的预报值.参考公式:回归直线y ^=a ^+b ^x 的斜率和截距的最小二乘估计分别为b ^=∑i =1nx i y i -n x y∑i =1nx 2i -n x2=∑i =1nx i -x y i -y∑i =1nx i -x2,a ^=y -b ^x .参考数据:5≈2.24.解:(1)∵x =8,y =4.2,∑i =17x i y i =279.4,∑i =17x 2i =708,∴b ^=∑i =17x i y i -7x y ∑i =17x 2i -7x2=279.4-7×8×4.2708-7×82=0.17,a ^=y -b ^ x =4.2-0.17×8=2.84,∴y 关于x 的线性回归方程为y ^=0.17x +2.84.(2)∵0.75<0.88且R 2越大,反映残差平方和越小,模型的拟合效果越好, ∴选用y ^=1.63+0.99x 更好.(3)由(2)知,当x =20时,销售量的预报值y ^=1.63+0.9920≈6.07(万台),利润的预报值z =200×(1.63+0.9920)-20≈1 193.04(万元).【练习4】某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t)和年利润z (单位:千元)的影响,对近8年的年宣传费x i 和年销售量y i (i =1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.表中w i =x i ,w =18∑i =1w i,(1)根据散点图判断,y =a +bx 与y =c +d x 哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程;(3)已知这种产品的年利润z 与x ,y 的关系为z =0.2y -x .根据(2)的结果回答下列问题: ①年宣传费x =49时,年销售量及年利润的预报值是多少? ②年宣传费x 为何值时,年利润的预报值最大?附:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v =α+βu 的斜率和截距的最小二乘估计分别为β^=∑ni =1 (u i -u )(v i -v )∑ni =1(u i -u )2,α^=v -β^u . [解析] (1)由散点图可以判断,y =c +d x 适宜作为年销售量y 关于年宣传费x 的回归方程类型. (2)令w =x ,先建立y 关于w 的线性回归方程,由于d ^=∑ni =1(w i -w )(y i -y )∑ni =1 (w i -w )2=108.81.6=68. c ^=y -d ^w =563-68×6.8=100.6,所以y 关于w 的线性回归方程为y ^=100.6+68w ,因此y 关于x 的回归方程为y ^=100.6+68x . (3)①由(2)知,当x =49时,年销售量y 的预报值 y ^=100.6+6849=576.6, 年利润z 的预报值 z ^=576.6×0.2-49=66.32.②根据(2)的结果知,年利润z 的预报值z^=0.2(100.6+68x)-x=-x+13.6x+20.12.所以当x=13.62=6.8,即x=46.24时,z^取得最大值.故年宣传费为46.24千元时,年利润的预报值最大.三、独立性检验【例5】(2019·大连模拟)某市高中某学科竞赛中,某区4 000名考生的参赛成绩的频率分布直方图如图所示.(1)求这4 000名考生的平均成绩x(同一组中数据用该组区间中点值作代表);(2)记70分以上为合格,70分及以下为不合格,结合频率分布直方图完成下表,并判断是否有99%的把握认为该学科竞赛成绩与性别有关?附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d).[解析](1)由题意,得:∴x=45×0.1+55∴这4 000名考生的平均成绩x为70.5分.(2)2×2列联表如下:K 2=4 000×(720×1020-1180×1080)1800×2200×1900×2100= 4 000×(540 000)218×22×19×21×108=4 000×54×5418×22×19×21≈73.82>10.828. 故有99%的把握认为该学科竞赛成绩与性别有关.【练习1】某学校为了推动数学教学方法的改革,将高一年级部分生源情况基本相同的学生分成甲、乙两个班,每班各40人,甲班按原有模式教学,乙班实施教学方法改革,经过一年的教学实验,将甲、乙两个班的学生一年来的数学考试成绩取平均数再取整,绘制成如下茎叶图,规定不低于85分(百分制)为优秀,甲班学生成绩的中位数为74分.附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d .(1)求x 的值和乙班学生成绩的众数;(2)完成下列2×2列联表,如果有90%以上的把握认为“数学成绩优秀与教学方法改革有关”的话,那么学校将扩大教学改革范围,请问学校是否要扩大改革范围?说明理由.[解析] (1)所以70+x +75=2×74,解得x =3.由茎叶图知,乙班学生成绩的众数为78分,83分. (2)完成2×2列联表如下:由表中数据可得K 2=80×(6×27-13×34)40×40×19×61≈3.382>2.706.所以有90%以上的把握认为“数学成绩优秀与教学方法改革有关”,学校可以扩大教学改革范围. 【练习2】(2016·贵州模拟)为了增强消防安全意识,某中学对全体学生做了一次消防知识讲座,从男生中随机抽取50人,从女生中随机抽取70人参加消防知识测试,统计数据得到如下列联表:(1)试判断能否有90% 附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )(2)6人组成宣传小组.现从这6人中随机抽取2人到校外宣传,求到校外宣传的同学中男生人数X 的分布列和数学期望. 解 (1)因为K 2=120×(15×40-35×30)250×70×45×75≈2.057,且2.057<2.706.所以没有90%的把握认为测试成绩优秀与否与性别有关. (2)用分层抽样的方法抽取时抽取比例是645=215,则抽取女生30×215=4人,抽取男生15×215=2人.依题意,X 可能的取值为0,1,2. P (X =0)=C 24C 26=615=25;P (X =1)=C 14C 12C 26=815;P (X =2)=C 22C 26=115.X 的分布列为:25+1×815+2×115=2 3.X的数学期望E(X)=0×。
《统计、回归分析、独立性检验》知识点及典例(详解)—精品文档
统计、回归分析、独立性检验一、考点系统归纳 1.简单随机抽样简单随机抽样是不放回抽样,被抽取样本的个体数有限,从总体中逐个地进行抽取,使抽样便于在实践中操作,每次抽样时,每个个体等可能地被抽到,保证了抽样的公平性,实施方法主要有抽签法和随机数法。
2.系统抽样(1)定义:当总体元素个数很大时,可将总体分成均衡的若干部分,然后按照预先制定的规则,从每一部分抽取一个个体得到所需要的样本,这种抽样方法叫做系统抽样,也称作等距抽样。
(2)系统抽样的步骤:①编号:采用随机的方式将总体中的个体编号 ②分段:先确定分段的间隔k ,当n N (N 为总体中的个体数,n 为样本容量)是整数时,nN k =;当n N 不是整数时,通过从整体中随机剔除一些个体使剩下的总体中个体总数`N 能被n 整除,这时nN k `=③确定起始个体编号。
在第1段用简单随机抽样确定起始的个体编号S④按照事先确定的规则抽取样本.通常是将S 加上间隔k ,得到第2个个体编号S +k ,再将(S +k )加上k ,得到第3个个体编号S +2k ,这样继续下去,获得容量为n 的样本.其样本编号依次是:S ,S +k ,S +2k ,…,S +(n -1)k .3.分层抽样(1)定义:当总体由有明显差别的几部分组成时,按某种特征在抽样时将总体中的各个个体分成互不交叉的层,然后按照各层在总体中所占的比例,从各层独立地抽取一定数量的个体合在一起作为样本。
这种抽样的方法叫做分层抽样。
分层抽样使用的前提是总体可以分层,层与层之间有明显区别,而层内个体间差异较小,每层中所抽取的个体数可按各层个体数在总体中所占的比例抽取。
分层抽样要求对总体的内容有一定的了解,明确分层的界限和数目,分层要恰当。
(2)分层抽样的步骤①分层;②按比例确定每层抽取个体的个数;③各层抽样(方法可以不同)④汇合成样本 (3)分层抽样的优点分层抽样充分利用了已知信息,充分考虑了保持样本结构与总体结构的一致性。
高二 回归分析与独立性检验
回归分析与独立性检验知识点1:变量的相关性:正相关.负相关.相关系数r :知识点2 线性回归方程:方程y ^=b ^x +a ^称为线性回归方程,其中1221()ni i i ni i x y nx y b x n x a y bx==⎧-⎪⎪=⎪⎨-⎪⎪=-⎪⎩∑∑,.(x -,y -)称为样本中心点. 知识点3 独立性检验:(1)确定2*2列联表.(2)求观测值:k =n (ad -bc )2(a +b )(c +d )(a +c )(b +d ).(3)根据临界值表,作正确结论.例1.(2014·安徽高考)某高校共有学生15 000人,其中男生10 500人,女生4 500人,为调查该校学生每周平均体育运动时间的情况,采用分层抽样的方法,收集300位学生每周平均体育运动时间的样本数据(单位:小时).(1)应收集多少位女生的样本数据?(2)根据这300个样本数据,得到学生每周平均体育运动时间 的频率分布直方图(如图8-3所示),其中样本数据的分组区间为: [0,2],(2,4],(4,6],(6,8],(8,10],(10,12],估计该校学生每周平 均体育运动时间超过4小时的概率.(3)在样本数据中,有60位女生的每周平均体育运动时间超过4小时,请完成每周平均体育运动时间与性别列联表,并判断是否有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”.P (K 2≥k 0)0.10 0.05 0.010 0.005 k 02.7063.8416.6357.879附:K 2=n (ad -bc )(a +b )(c +d )(a +c )(b +d ).例2. (2016·河南省名校期中)微信是腾讯公司推出的一种手机通讯软件,它支持发送语音短信、视频、图片和文字,一经推出便风靡全国,甚至涌现出一批在微信的朋友圈内销售商品的人(被称为微商).为了调查每天微信用户使用微信的时间,某经销化妆品的微商在一广场随机采访男性、女性用户各50名,其中每天玩微信超过6小时的用户列为“微信控”,否则称其为“非微信控”,调查结果如下:(1)根据以上数据,能否有60%的把握认为“微信控”与“性别”有关?(2)现从调查的女性用户中按分层抽样的方法选出5人赠送营养面膜1份,求所抽取5人中“微信控”和“非微信控”的人数;(3)从(2)中抽取的5人中再随机抽取2人赠送200元的护肤品套装,求这2人中至少有1人为“非微信控”的概率. 参考公式:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d .参考数据:微信控 非微信控 总计 男性 26 24 50 女性 30 20 50 总计5644100P (K 2≥k 0)0.50 0.40 0.25 0.05 0.025 0.010 k 00.4550.7081.3233.8415.0246.635例3.(2016·石家庄二模)为了解某地区某种农产品的年产量x (单位:吨)对价格y (单位:千元/吨)和年利润z 的影响,对近五年该农产品的年产量和价格统计如下表:x 1 2 3 4 5 y7.06.55.53.82.2(1)求y 关于x 的线性回归方程y ^=b ^x +a ^;(2)若每吨该农产品的成本为2千元,假设该农产品可全部卖出,预测当年产量为多少时,年利润z 取到最大值?(保留两位小数)例4.(2016·全国3卷)如图,是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图(注:年份代码1~ 7分别对应年份2008~2014.)(1)由折线图看出,可用线性回归模型拟合y 与t 的关系, 请用相关系数加以说明;(2)建立y 关于t 的回归方程(系数精确到0.01),预测2016 年我国生活垃圾无害化处理量.例5.(2018年新课标2,12分)下图是某地区2000年至2016年环境基础设施投资额y (单位:亿元)的折线图.20002001200220032004200520062007200820092010201120122013201420152016年份20040608014192535374242475356122129148171184209220为了预测该地区2018年的环境基础设施投资额,建立了y 与时间变量t 的两个线性回归模型.根据2000年至2016年的数据(时间变量t 的值依次为1,2,,17)建立模型①:ˆ30.413.5yt =-+;根据2010年至2016年的数据(时间变量t 的值依次为1,2,,7)建立模型②:ˆ9917.5yt =+. (1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值; (2)你认为用哪个模型得到的预测值更可靠?并说明理由.极坐标与参数方程知识点一:极坐标,极坐标与直角坐标相互转化 知识点二:参数方程1.化极坐标方程2cos 0ρθρ-=为直角坐标方程为( )A .201y y +==2x 或 B .1x = C .201y +==2x 或x D .1y =2.点M 的直角坐标是(-,则点M 的极坐标为( )A .(2,)3πB .(2,)3π-C .2(2,)3πD .(2,2),()3k k Z ππ+∈3.极坐标方程cos 2sin 2ρθθ=表示的曲线为( )A .一条射线和一个圆B .两条直线C .一条直线和一个圆D .一个圆4.直线cos sin 0x y αα+=的极坐标方程为____________________。
回归分析及独立性检验规律小结
一、本章知识结构二、知识要点与联系1.已知回归直线的斜率估计值为k ,样本点的中心为(m, n),则回归直线方程为 。
2.相关指数R 2= ,R 2越 表示回归效果越好。
3.建立回归模型基本步骤: 第一步: 第二步: 第三步: 第四步: 第五步:4.三维柱形图中,估计“X 与Y 有关系”成立的可能性越大的依据是 。
5.二维条形图中,估计“X 与Y 有关系”成立的可能性越大的依据是 。
6.精确判断两个分类变量是否有关系的具体做法是 。
7.考查某种针剂的预防效果进行试验数据如下:注射针剂的串病12例,未患病48例,未注射针剂的患病22例,未患病35例,则认为针剂无效的可能性约为 。
三、综合型问题剖析使用年限x 2 3 4 5 6 维修费用y2.23.85.56.57.0若由资料知,y 对x 呈线性相关关系。
试求:线性回归方程$$y bx a =+$的回归系数$,a b $;统计案例回归分析独立性检验解:由已知数据制成表格。
4;5;x y ==5521190;112.3.ii i i i x x y ====∑∑所以有ˆˆ1.23,0.08.ba ==ˆ 1.230.08.y x ∴=+ 评注:例2.为了研究某种细菌随时间x 变化,繁殖的个数,收集数据如下:(1)用天数作解释变量,繁殖个数作预报变量,作出这些数据的散点图; (2)描述解释变量与预报变量之间的关系; (3)计算残差、相关指数R 2. 解:(1)散点图如右所示(2)由散点图看出样本点分布在一条指数函数21C x y C e =的周围,于是令Z=lny,则x 1 2 3 4 5 6 Z1.792.483.223.894.555.25由计数器算得µ0.69 1.112ZX =+,则有0.69x 1.112ˆy =e +$y 6.06 12.09 24.09 48.04 95.77 190.9 $y612254995190n22ii=11ˆˆe() 3.1643,ni i i y y==-=∑∑n222i1i=1()yny 25553.3.nii y y =-=-=∑∑2 3.164310.9999.25553.3R ∴=-=即解释变量天数对预报变量繁殖细菌得个数解释了99.99%. 评注:例3.在某医院,因为患心脏病而住院的 665 名男性病人中,有 214 人秃顶,而另外 772 名不是因为患心脏病而住院的男性病人中有 175 人秃顶. (1)利用图形判断秃顶与患心脏病是否有关系.(2)能够以 99 %的把握认为秃顶与患心脏病有关系吗?为什么?解:根据题目所给数据得到如下列联表:(1)相应的三维柱形图如图3.2一4所示.比较来说,底面副对角线上两个柱体高度的乘积要大一些,可以在某种程度上认为“秃顶与患心脏病有关”.(2)根据题中的数据,得到21437(214597175451)3891048665772k ⨯⨯-⨯=⨯⨯⨯≈16.373>6 .因此有 99 %的把握认为“秃顶与患心脏病有关” . 评注:例4.为考察高中生的性别与是否喜欢数学课程之间的关系,在某城市的某校高中生中随机抽取300名学生,得到如下列联表:由表中数据计算得2K 的观测值 4.514k ≈.能够以95%的把握认为高中生的性别与是否喜欢数学课程之间有关系吗?请详细阐明得出结论的依据.解:可以有约95%以上的把握认为“性别与喜欢数学课之间有关系”.作出这种判断的依据是独立性检验的基本思想,具体过程如下:分别用a , b , c , d 表示样本中喜欢数学课的男生人数、不喜欢数学课的男生人数、喜欢数学课的女生人数、不喜欢数学课的女生人数.如果性别与是否喜欢数学课有关系,则男生中喜欢数学课的比例a a b +与女生中喜欢数学课的人数比例c c d+应该相差很多,即||||()()a c ad bca b c d a b c d --=++++ 应很大.,然后平方得22()()()()()n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.因此2K 越大,“性别与喜欢数学课之间有关系”成立的可能性越大.另一方面,在假设“性别与喜欢数学课之间没有关系”的前提下,事件A ={2K ≥3.K≥3. 841)≈0.05, 因此事件A 是一个小概率事件.而由样本数据841}的概率为P (2K的观测值k=4.514,即小概率事件A发生.因此应该断定“性别与喜欢数学课计算得2之间有关系”成立,并且这种判断结果出错的可能性约为5 %.所以,约有95 %的把握认为“性别与喜欢数学课之间有关系”.评注:四、规律总结1.作为非确定性关系的相关关系包括两种情况:其一,两个变量中,一个变量为可失控变量,另一个变量为随机变量;其二,两个变量均为随机变量,主要研究第二种情况。
回归分析与独立性检验
回归分析与独立性检验知识要点及解析1.函数关系与相关关系的区别?函数关系是一种确定性关系,而相关关系是一种非确定性关系.2.回归公式∑∑∑∑====--=---=ni ini ii ni ini iix n xyx n y x x x y yx x b1221121)())((ˆ x b y a ˆˆ-= a x b yˆˆˆ+= 3.回归分析的步骤?回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法, 其步骤:收集数据→作散点图→求回归直线方程→利用方程进行预报.4.回归直线的性质 a x by ˆˆ+= ⑴回归直线 过样本点的中心()y x ,其中解释变量x 的平均数为: ∑==n i i x n x 11 预报变量y 的平均数为: ∑==ni i y n y 11⑵回归直线的斜率的估计值bˆ的意义:解释变量x 每增加一个单位,预报变量y 就增加bˆ个单位. 5.求线性回归方程的五个步骤: ⑴计算y x x y x 、、、2⑵计算∑=ni ii yx 1⑶计算∑=ni ix12⑷代入系数公式求bˆ⑸代入公式计算a ˆ 例题1:下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x (吨)与相应的能耗y (吨标准煤)的几组数据:⑴画出散点图;⑵求出线性回归方程a x b yˆˆˆ+= ⑶已知该厂技改前100吨甲产品的生产能耗为90吨标准煤,试根据(2)问求出的线性回归方程预测(估计)生产100吨甲产品的生产能耗比技改前降低多少吨标准煤?例题2:从某大学中随机选取8名女大学生,其身高和体重数据如表所示:⑴画出散点图;⑵求出根据身高预报体重的回归方程a x b yˆˆˆ+= ⑶根据以上回归方程预测一名身高为172cm 的女大学生的体重.例题3:下表是某厂1~4月份用水量(单位:百吨)的一组数据,由散点图可知:用水量y 与月份x 之间有较好的线性相关关系,其线性回归方程为a x yˆ7.0ˆ+-=, 请你预测该厂5月份的用水量大约为多少百吨?6.线性回归模型y=bx+a+e 中随机误差e 产生的原因?⑴选用的函数模型不恰当引起的误差 ⑵忽略了某些因素的影响 ⑶存在观测误差 7.如何发现数据中的错误?先分别计算出残差a x b y y y e ii i i ˆˆˆˆ--=-=然后选取横坐标为编号或解释变量x 或预报变量y,纵坐标为残差,作出残差图;最后观察:如果样本点的残差较大(落在带状区域外),说明数据的采集有可能错误。
线性回归与独立性检验
线性回归与独立性检验基本知识:一、 简单随即抽样:简单地说,就是从一个含有 N 个个体的总体中,逐个不放回地抽取 n 个个体作为样本, (n≤N) 如果每次抽取时, 总体内各个个体被抽到的概率是一样的, 就把这种抽样方法叫做简单随即抽样. 要注意的是:1、简单随即抽样中每个个体被抽到的概率都相等. 2、代表:抽签法(抓阉法) ;随即数法.二、系统抽样:定义见教材必修 3— P58 .(要注意的是系统抽样也保证了每一个个体被抽到的概率是一样的.)三、分层抽样:在抽样时,对总体按照一定的比例进行分层,从各层独立地抽取一定数量的个体合在一起作为样本,这样的抽样方法叫做分层抽样.四、一些概念和公式:1、极差;2、组距与组数;3、茎叶图;4、方差、标准差、众数、中位数、平均数.五、线性相关—散点图:正相关与负相关;正相关指因变量与自变量成正比例关系,散点的分布从左下往右上;反之成负相关,散点的分布自左上往右下.六、回归直线 1、线性回归方程的计算公式:y=bx+a,其中 b,a 的求法如下; (另对于点( x , y ) ,恒在线性回归方程上) 要注意的是:如果 b>0,则成正相关,否则成负相关; 2、相关关系的强弱:相关系数 r—相关系数是判断两个变量之间相关关系的强弱或有无相 关关系的一个概念。
r>0 时,说明两个变量之间成正相关,r<0 时,说明两个变量之间成 负相关.其公式为: 我们规定: (1)当 r [0.75,1]或者[1,0.75] 时,说明两个变量之间的相关关系很强; (2)当 r [0.30,0.75] 时,说明两个变量的相关关系一般.(3)当 r [0.25,0.25] 时,则两个变量的相关关系较弱. 两个变量是否可以用线性回归方程来拟合,就取决于 r 的大小,即看他们之间的相关关 系的强弱, 而要判断所求的线性回归方程的拟合效果怎么样, 就需要来观察线性回归方程与 散点的残差. 3、残差与拟合效果 R2残差:指的是散点的 y 值与线性回归方程的 y 值的差,如果这个差越小,则说明线性回归方 程拟合的效果就越好. 残差平方和:就是将残差先平方再和,那么残差平方和越小,说明拟合效果就越好.其公式 如下:另外: R = 则 R 越大,拟合效果越好.22七、独立性检验:判断两个分类变量 X 和 Y 是否有关系,则应用独立性检验的思想进行判断. 1、 K 2 2n(ad bc) 2 ,其中 n=a+b+c+d (a b)(c d )(a c)(b d )2、 K 的大小可以来衡量两个分类变量是否有关系,并且是有多少的可能证明其有关系. 下面来看几题: 1 、( 2012 •福 建 )某 工 厂 为 了 对 新 研 发 的 一 种 产 品 进 行 合 理 定 价 ,将 该 产 品 按 事 先拟定的价格进行试销,得到如下数据: 单 价 x( 元 ) 销 量 y( 件 ) 8 90 8.2 84 8.4 83_8.6 808.8 759 68( Ⅰ ) 求 回 归 直 线 方 程 y=bx+a , 其 中 b=-20 , a=y x-b_( Ⅱ ) 预 计 在 今 后 的 销 售 中 , 销 量 与 单 价 仍 然 服 从 ( I) 中 的 关 系 , 且 该 产 品 的 成 本 是 4 元 / 件 ,为 使 工 厂 获 得 最 大 利 润 ,该 产 品 的 单 价 应 定 为 多 少 元 ?( 利 润 = 销 售 收 入 -成 本 ) .2、 (2013•福建) 某工厂有 25 周岁以上 (含 25 周岁) 工人 300 名, 25 周岁以下工人 200 名. 为 研究工人的日平均生产量是否与年龄有关, 现采用分层抽样的方法, 从中抽取了 100 名工人, 先统计了他们某月的日平均生产件数,然后按工人年龄在“25 周岁以上(含 25 周岁) ”和 “25 周岁以下” 分为两组,再将两组工人的日平均生产件数分为 5 组:[50,60) , [60,70) , [70,80) ,[80,90) ,[90,100)分别加以统计,得到如图所示的频率分布直方图. P(x2≥k) k 0.100 2.706 0.050 3.841 0.010 6.635 0.001 10.828(Ⅰ)从样本中日平均生产件数不足 60 件的工人中随机抽取 2 人,求至少抽到一名“25 周 岁以下组”工人的概率; (Ⅱ)规定日平均生产件数不少于 80 件者为“生产能手” ,请你根据已知条件完成列联表, 并判断是否有 90%的把握认为“生产能手与工人所在的年龄组有关”?附: (注:此公式也n(ad cb) 2 可以写成 k2= (a b)(c d )(a c)(b d ) ,n=a+b+c+d)3、 (2012•辽宁)电视传媒公司为了了解某地区电视观众对某类体育节目的收视情况,随机 抽取了 100 名观众进行调查,其中女性有 55 名.如图是根据调查结果绘制的观众日均收看 该体育节目时间的频率分布直方图;将日均收看该体育节目时间不低于 40 分钟的观众称为 “体育迷” ,已知“体育迷”中有 10 名女性. (Ⅰ)根据已知条件完成下面的 2×2 列联表,并据此资料你是否认为“体育迷”与性别有 关?非体育迷 男 女 合计体育迷合计(Ⅱ) 将日均收看该体育项目不低于 50 分钟的观众称为 “超级体育迷” , 已知 “超级体育迷” 中有 2 名女性,若从“超级体育迷”中任意选取 2 人,求至少有 1 名女性观众的概率. P( K2≥k) 0.05 k 0.013.841 6.6354、 某 大 学 餐 饮 中 心 为 了 解 新 生 的 饮 食 习 惯 , 在 全 校 一 年 级 学 生 中 进 行 了 抽 样 调 查,调查结果如下表所示: 喜欢甜品 南方学生 北方学生 合计 60 10 70 不喜欢甜品 20 10 30 合计 80 20 100( Ⅰ )根 据 表 中 数 据 ,问 是 否 有 95% 的 把 握 认 为“ 南 方 学 生 和 北 方 学 生 在 选 用 甜 品的饮食习惯方面有差异”; ( Ⅱ )已 知 在 被 调 查 的 北 方 学 生 中 有 5 名 数 学 系 的 学 生 ,其 中 2 名 喜 欢 甜 品 ,现 在从这 5 名学生中随机抽取 3 人,求至多有 1 人喜欢甜品的概率. P ( x > k ) 0.100 0.050 0.010 k 2.706 3.841 6.63525 、 ( 2011 •陕 西 ) 设 ( x 1 , y 1 ) , ( x 2 , y 2 ) , „ , ( x n , y n ) 是 变 量 x 和 y 的 n个样本点, 直线 l 是由这些样本点通过最小二乘法得到的线性回归直线 (如图) , 以下结论中正确的是( )A. x 和 y 的 相 关 系 数 为 直 线 l 的 斜 率 B. x 和 y 的 相 关 系 数 在 0 到 1 之 间 C. 当 n 为 偶 数 时 , 分 布 在 l 两 侧 的 样 本 点 的 个 数 一 定 相 同 D、直线 l 过点(x , y ).__6、为 了 解 儿 子 身 高 与 其 父 亲 身 高 的 关 系 , 随 机 抽 取 5 对 父 子 身 高 数 据 如 下父亲身高 x(cm) 儿子身高 y(cm) 174 175 176 175 176 176 176 177 178 177则 y 对 x 的线性回归方程为( A . y=x-1 B . y=x+1) C . y = 88+1 x 2D . y=1767、( 2014 •孝 感 二 模 )某 车 间 为 了 规 定 工 时 定 额 ,需 要 确 定 加 工 零 件 所 花 费 的 时 间 ,为此进行了 5 次试验,收集数据如下:加工零件 x(个) 加工时间 y(分钟) 10 64 20 69 30 75 40 82 50 90经检验,这组样本数据具有线性相关关系,那么对于加工零件的个数 x 与加工时间 y 这两个变量,下列判断正确的是( )A . 成 正 相 关 , 其 回 归 直 线 经 过 点 ( 30 , 75 ) B . 成 正 相 关 , 其 回 归 直 线 经 过 点 ( 30 , 76 ) C . 成 负 相 关 , 其 回 归 直 线 经 过 点 ( 30 , 76 ) D . 成 负 相 关 , 其 回 归 直 线 经 过 点 ( 30 , 75 )8、( 2011 •湖 南 ) 通 过 随 机 询 问 110 名 性 别 不 同 的 大 学 生 是 否 爱 好 某 项 运 动 , 得 到如下的列联表:男 爱好 不爱好 总计 40 20 60 女 20 30 50 总计 60 50 110附表:p(k2≥k) k 0.050 3.841 0.010 6.635 0.001 10.828参照附表,得到的正确结论是()A . 有 99% 以 上 的 把 握 认 为 “ 爱 好 该 项 运 动 与 性 别 有 关 ” B . 有 99% 以 上 的 把 握 认 为 “ 爱 好 该 项 运 动 与 性 别 无 关 ” C . 在 犯 错 误 的 概 率 不 超 过 0.1% 的 前 提 下 , 认 为 “ 爱 好 该 项 运 动 与 性 别 有 关 ” D . 在 犯 错 误 的 概 率 不 超 过 0.1% 的 前 提 下 , 认 为 “ 爱 好 该 项 运 动 与 性 别 五 关 ”9、( 2014 •湖 南 一 模 ) 下 列 四 个 命 题 中 ① 设 有 一 个 回 归 方 程 y=2-3x , 变 量 x 增 加 一 个 单 位 时 , y 平 均 增 加 3 个 单 位 ; 2 2 ② 命 题 P : “ ∃ x 0 ∈ R , x 0 -x 0 -1 > 0 “ 的 否 定 ¬ P : “ ∀ x ∈ R , x -x-1 ≤ 0 ” ; ③ 设 随 机 变 量 X 服 从 正 态 分 布 N ( 0 , 1 ) , 若 P ( X > 1 ) =p , 则 P ( -l < X < 0 ) =1 p 22④ 在 一 个 2 × 2 列 联 表 中 , 由 计 算 得 K =6.679 , 则 有 99% 的 把 握 确 认 这 两 个 变 量 间有关系. 其中正确的命题的个数有( ) 附:本题可以参考独立性检验临界值表 P(K ≥k) k20.5 0.4550.40 0.7080.25 1.3230.15 2.0720.10 2.7060.05 3.8410.025 5.0240.010 6.5350.005 7.8790.001 10.828A. 1 个B. 2 个C. 3 个D. 4 个。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
回归分析和独立性检验
一、回归分析
1、回归直线方程 a x b y
ˆˆˆ+= (x 叫做解释变量,y 叫做预报变量) 其中∑∑==---=n
i i
n
i i i
x x
y y x x
b
1
2
1
)()
)((ˆ=
∑∑==--n
i i
n
i i
i x n x
y
x n y
x 1
2
21
(由最小二乘法得出,考试时给出此公式中的一个)
x b y a
ˆˆ-= ( 此式说明:回归直线过样本的中心点)(y x , ,也就是平均值点。
) 2、几条结论:
(1)回归直线过样本的中心点)(y x ,。
(2)b>0时,y 与x 正相关,散点图呈上升趋势;b<0时,y 与x 负相关,散点图呈下降趋势。
(3)斜率b 的含义(举例):
如果回归方程为y=2.5x+2, 说明x 增加1个单位时,y 平均增加2.5个单位; 如果回归方程为y=-2.5x+2,说明x 增加1个单位时,y 平均减少2.5个单位。
(4)相关系数r 表示变量的相关程度。
范围:1≤r ,即 11≤≤-r
r 越大.,相关性越强.。
0>r 时,y 与x 正相关;0<r 时,y 与x 负相关。
(5)相关指数2
R 表示模型的拟合效果。
范围:]10[2
,
∈R 2R 越大.,拟合效果越好.
,(这时:残差平方和越小,残差点在带状区域内的分布比较均匀, 带状区域宽度越窄,拟合精度越高)。
2R 表示解释变量x 对于预报变量y 变化的贡献率。
例如:64.02
≈R ,表明“x 解释了64%的y 变化”,或者说“y 的差异有64%是由x 引起的”。
(6)线性回归模型 e a bx y ++=, 其中e 叫做随机误差。
(y 是由x 和e 共同确定的。
)
二、独立性检验
1、原理:假设性检验(类似反证法原理)。
一般情况下:假设分类变量X 和Y 之间没有关系,通过计算2
K 值,然后查表对照相应的概率P , 发现这种假设正确的概率P 很小,从而推翻假设,最后得出X 和Y 之间有关系的可能性为(1-P), 也就是“X 和Y 有关系”。
(表中的k 就是2
K 的
观测值,即
2K k =)
)
)()()(()(2
2
d b c a d c b a bc ad n K ++++-=
2、2⨯2列联表: (考试给出)
部分对照表(考试时会给出用到的一部分数据):
3、范围:),0(2
+∞∈K ; 性质:2K 越大.,说明变量间越有关系...。
三、典型例题
估计..
生产7吨产品时,消耗的煤约为5.25吨。
例2、为了考察某药物预防疾病的效果,现对105人进行
试验调查,得到2⨯2列联表。
试判断:服用药物和患病之间是否有关系?
解:105=n ,10=a ,45=b ,20=c ,30=d
75
305055)20453010(1052
2
⨯⨯⨯⨯-⨯⨯=K
≈6.109>5.024 (提示:运算时尽量先约分化简,再计算)
所以,有1-0.025=97.5%的把握认为服用药物和患病之间有关系。