限时规范检测(六十) 变量间的相关关系、统计案例
完整版变量间的相关关系统计案例
完整版变量间的相关关系统计案例引言:经济学中一个重要的分支是相关关系的研究,通过统计分析不同变量之间的相关性,可以帮助我们理解变量之间的关系。
本文以汽车生产数量和国内生产总值(GDP)为例,通过统计分析两者之间的相关关系,展示相关分析在实际问题中的应用。
方法:本案例采用了经济学中常用的相关分析方法,包括Pearson相关系数和散点图。
本文使用了国在过去10年内的汽车生产数量和GDP的数据。
汽车生产数量的数据来自国家汽车协会,GDP数据来自国家统计局。
分析过程:1.数据收集和整理:将过去10年内的每年汽车生产数量和GDP数据整理成一个数据表格,便于后续分析。
2.描述统计分析:计算汽车生产数量和GDP的均值、标准差和极差等描述性统计量,以了解数据的整体情况。
3.散点图绘制:将每年的汽车生产数量和GDP数据绘制成散点图,横轴表示汽车生产数量,纵轴表示GDP,每个散点表示一个年份。
4.相关性分析:计算汽车生产数量和GDP之间的Pearson相关系数,该系数介于-1和1之间。
系数为正则表示两者正相关,系数为负则表示两者负相关,系数越接近于1或-1,则相关性越强。
结果:1.描述统计分析结果显示,过去10年内每年的汽车生产数量均值为X辆,标准差为X辆,极差为X辆;每年GDP的均值为X万元,标准差为X万元,极差为X万元。
2.散点图显示,汽车生产数量和GDP呈现出一定的正相关趋势。
随着汽车生产数量的增加,GDP也有相应增加的趋势。
3. 相关性分析结果显示,汽车生产数量和GDP之间的Pearson相关系数为X。
由于该系数为正数且接近于1,可以得出结论:汽车生产数量与GDP存在着强正相关关系。
讨论:本案例通过相关分析的方法,探讨了汽车生产数量与GDP之间的关系。
研究结果表明,两者之间存在着强正相关关系,即汽车生产数量的增加会促进GDP的增长。
可能的解释是汽车工业作为一个重要的制造业部门,对于经济的增长有着显著的贡献。
变量间的相关关系、统计案例
变量间的相关关系、统计案例1. 两个变量的线性相关(1)正相关在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关. (2)负相关在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关. (3)线性相关关系、回归直线如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线. 2. 回归方程(1)最小二乘法求回归直线,使得样本数据的点到它的距离的平方和最小的方法叫做最小二乘法. (2)回归方程方程y ^=b ^x +a ^是两个具有线性相关关系的变量的一组数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )的回归方程,其中a ^,b ^是待定参数.⎩⎨⎧b ^=∑n i =1(x i-x )(y i-y )∑ni =1(x i-x )2=∑ni =1x i y i -n x y∑n i =1x 2i-n x2a ^=y -b ^x.3. 回归分析(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法. (2)样本点的中心对于一组具有线性相关关系的数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )中(x ,y )称为样本点的中心. (3)相关系数当r >0时,表明两个变量正相关; 当r <0时,表明两个变量负相关.r 的绝对值越接近于1,表明两个变量的线性相关性越强.r 的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r |大于0.75时,认为两个变量有很强的线性相关性. 4. 独立性检验(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量. (2)列联表:列出两个分类变量的频数表,称为列联表.假设有两个分类变量X 和Y ,它们的可能取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(称为2×2列联表)为 2×2列联表构造一个随机变量K 2=n (ad -bc )(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d 为样本容量.(3)独立性检验利用随机变量K 2来判断“两个分类变量有关系”的方法称为独立性检验.1. 已知x 、y 的取值如下表:从所得的散点图分析,y 与x 线性相关,且y =0.95x +a ,则a ^=________. 答案 2.6 解析 因为回归直线必过样本点的中心(x ,y ),又x =2,y =4.5,代入y ^=0.95x +a ^,得a ^=2.6.2. (2011·辽宁)调查了某地若干户家庭的年收入x (单位:万元)和年饮食支出y (单位:万元),调查显示年收入x 与年饮食支出y 具有线性相关关系,并由调查数据得到y 对x 的线性回归方程:y ^=0.254x +0.321.由线性回归方程可知,家庭年收入每增加1万元,年饮食支出平均增加______万元.答案 0.254 解析 由题意知[0.254(x +1)+0.321]-(0.254x +0.321)=0.254. 3. (2012·湖南)设某大学的女生体重y (单位:kg)与身高x (单位:cm)具有线性相关关系,根据一组样本数据(x i ,y i )(i =1,2,…,n ),用最小二乘法建立的回归方程为y ^=0.85x -85.71,则下列结论中不正确...的是( )A .y 与x 具有正的线性相关关系B .回归直线过样本点的中心(x ,y )C.若该大学某女生身高增加1 cm,则其体重约增加0.85 kgD.若该大学某女生身高为170 cm,则可断定其体重必为58.79 kg答案 D 解析由于线性回归方程中x的系数为0.85,因此y与x具有正的线性相关关系,故A正确.又线性回归方程必过样本点的中心(x,y),因此B正确.由线性回归方程中系数的意义知,x每增加1 cm,其体重约增加0.85 kg,故C正确.当某女生的身高为170 cm时,其体重估计值是58.79 kg,而不是具体值,因此D不正确.4.为了评价某个电视栏目的改革效果,在改革前后分别从居民点抽取了100位居民进行调查,经过计算K2≈0.99,根据这一数据分析,下列说法正确的是() A.有99%的人认为该电视栏目优秀B.有99%的人认为该电视栏目是否优秀与改革有关系C.有99%的把握认为该电视栏目是否优秀与改革有关系D.没有理由认为该电视栏目是否优秀与改革有关系答案 D 解析只有K2≥6.635才能有99%的把握认为该电视栏目是否优秀与改革有关系,而即使K2≥6.635也只是对“该电视栏目是否优秀与改革有关系”这个论断成立的可能性大小的结论,与是否有99%的人等无关.故只有D正确.5.有人发现,多看电视容易使人变冷漠,下表是一个调查机构对此现象的调查结果:() A.99.9% B.97.5% C.95% D.90%答案 A 解析可计算K2≈11.377>10.828.故选A.题型一两个变量间的相关关系例15个学生的数学和物理成绩如下表:思维启迪:将每个学生的数学成绩和物理成绩分别作为点的横坐标和纵坐标,作散点图,然后根据散点图判断两个变量是否存在相关关系.解以x轴表示数学成绩,y轴表示物理成绩,可得到相应的散点图如图所示.由散点图可知,各组数据对应点大致在一条直线附近,所以两者之间具有相关关系,且为正相关.探究提高判断变量之间有无相关关系,一种简便可行的方法就是绘制散点图,根据散点图很容易看出两个变量之间是否具有相关性,是不是存在线性相关关系,是正相关还是负相关,相关关系是强还是弱.对变量x,y有观测数据(x i,y i) (i=1,2,…,10),得散点图(1);对变量u、v有观测数据(u i,v i) (i=1,2,…,10),得散点图(2).由这两个散点图可以判断()A.变量x与y正相关,u与v正相关B.变量x与y正相关,u与v负相关C.变量x与y负相关,u与v正相关D.变量x与y负相关,u与v负相关答案 C 解析由图(1)可知,各点整体呈递减趋势,x与y负相关;由图(2)可知,各点整体呈递增趋势,u与v正相关.题型二线性回归分析例2(2012·福建)某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:(1)求线性回归方程y ^=b ^x +a ^,其中b ^=-20,a ^=y -b ^x ;(2)预计在今后的销售中,销量与单价仍然服从(1)中的关系,且该产品的成本是4元/件,为使工厂获得最大利润,该产品的单价应定为多少元?(利润=销售收入-成本) 思维启迪:根据回归直线过样本点中心来求线性回归方程,然后利用回归方程求最大利润.解 (1)由于x =16(8+8.2+8.4+8.6+8.8+9)=8.5,y =16(90+84+83+80+75+68)=80,又b ^=-20,所以a ^=y -b ^x =80+20×8.5=250,从而线性回归方程为y ^=-20x +250. (2)设工厂获得的利润为L 元,依题意得L =x (-20x +250)-4(-20x +250)=-20x 2+330x -1 000=-20(x -8.25)2+361.25. 当且仅当x =8.25时,L 取得最大值.故当单价定为8.25元时,工厂可获得最大利润. 探究提高 回归直线过样本点中心(x ,y )是一条重要性质;利用线性回归方程可以估计总体,帮助我们分析两个变量的变化趋势.(2011·广东)为了解篮球爱好者小李的投篮命中率与打篮球时间之间的关系,下表记录了小李某月1号到5号每天打篮球时间x (单位:小时)与当天投篮命中率y 之间的关系:小李这56号打6小时篮球的投篮命中率为________. 答案 0.5 0.53解析 小李这5天的平均投篮命中率y =0.4+0.5+0.6+0.6+0.45=0.5,可求得小李这5天的平均打篮球时间x =3.根据表中数据可求得b ^=0.01,a ^=0.47,故线性回归方程为y ^=0.01x +0.47,将x =6代入得6号打6小时篮球的投篮命中率约为0.53. 题型三 独立性检验例3 为调查某地区老年人是否需要志愿者提供帮助,用简单随机抽样方法从该地区调查了500位老年人,结果如下:(1)(2)能否有99.5%的把握认为该地区的老年人是否需要志愿者提供帮助与性别有关? (3)根据(2)的结论,能否提出更好的调查方法来估计该地区的老年人中,需要志愿者提供帮助的老年人的比例?说明理由.思维启迪:直接计算K 2的值,然后利用表格下结论.解 (1)调查的500位老年人中有70位需要志愿者提供帮助,因此该地区老年人中,需要志愿者提供帮助的老年人的比例的估计值为70500×100%=14%.(2)K 2=500×(40×270-30×160)2200×300×70×430≈9.967.由于9.967>7.879,所以有99.5%的把握认为该地区的老年人是否需要帮助与性别有关. (3)由(2)的结论知,该地区老年人是否需要帮助与性别有关,并且从样本数据能看出该地区男性老年人与女性老年人中需要帮助的比例有明显差异,因此在调查时,先确定该地区老年人中男、女的比例,再把老年人分成男、女两层并采用分层抽样方法,比采用简单随机抽样方法更好.探究提高 (1)根据样本估计总体是抽样分析的一个重要内容.要使估计的结论更加准确,抽样取得的样本很关键.(2)根据独立性检验知,需要提供服务的老人与性别有关,因此在调查时,采取男、女分层抽样的方法更好,从而看出独立性检验的作用.某班主任对全班50名学生的积极性和对待班级工作的态度进行了调查,统计数据如下表所示:系?说明理由.解 由K 2=50×(18×19-6×7)224×26×25×25≈11.54.∵K 2>10.828,故可以有99.9%的把握认为学生的学习积极性与对待班级工作的态度有关系. 典例:(12分)某地10户家庭的年收入和年饮食支出的统计资料如表所示:(2)如果某家庭年收入为9万元,预测其年饮食支出.审题视角 可以画出散点图,根据图中点的分布判断家庭年收入和年饮食支出的线性相关性.规范解答解 (1)由题意,知年收入x 为解释变量,年饮食支出y 为预报变量,作散点图如图所示.[3分]从图中可以看出,样本点呈条状分布,年收入和年饮食支出有比较好的线性相关关系,因此可以用线性回归方程刻画它们之间的关系.[4分] 因为x =6,y=1.83,∑i =110x 2i =406,∑i =110y 2i =35.13,∑i =110x i y i =117.7,所以b ^=∑i =110x i y i -10x y∑i =110x 2i -10x2≈0.172,a ^=y -b ^x ≈1.83-0.172×6=0.798.从而得到线性回归方程为y ^=0.172x +0.798.[8分](2)y ^=0.172×9+0.798=2.346(万元).所以家庭年收入为9万元时,可以预测年饮食支出为2.346万元.[12分]温馨提醒 (1)在统计中,用样本的频率分布表、频率分布直方图、统计图表中的茎叶图、折线图、条形图,去估计总体的相关问题,以及用散点图判断相关变量的相关性等都体现了数与形的完美结合.借助于形的直观,去统计数据,分析数据,无不体现了数形结合的思想.(2)本题利用散点图分析两变量间的相关关系,充分体现了数形结合思想的应用.(3)本题易错点为散点图画的不准确,导致判断错误.A组专项基础训练(时间:35分钟,满分:57分)一、选择题(每小题5分,共20分)1.2011·陕西)设(x1,y1),(x2,y2),…,(x n,y n)是变量x和y的n个样本点,直线l是由这些样本点通过最小二乘法得到的线性回归直线(如图),以下结论中正确的是()A.直线l过点(x,y)B.x和y的相关系数为直线l的斜率C.x和y的相关系数在0到1之间D.当n为偶数时,分布在l两侧的样本点的个数一定相同答案 A 解析因为相关系数是表示两个变量是否具有线性相关关系的一个值,它的绝对值越接近1,两个变量的线性相关程度越强,所以B、C错误.D中n为偶数时,分布在l两侧的样本点的个数可以不相同,所以D错误.根据线性回归直线一定经过样本点中心可知A正确.2.(2011·山东)某产品的广告费用x与销售额y的统计数据如下表:根据上表可得线性回归方程y=b x+a中的b为9.4,据此模型预报广告费用为6万元时销售额为() A.63.6万元B.65.5万元C.67.7万元D.72.0万元答案 B解析∵x=4+2+3+54=72,y=49+26+39+544=42,又y^=b^x+a^必过(x,y),∴42=72×9.4+a ^ ,∴a ^ =9.1.∴线性回归方程为y ^=9.4x +9.1.∴当x =6时,y ^=9.4×6+9.1=65.5(万元).3. (2012·课标全国)在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =12x +1上,则这组样本数据的样本相关系数为 ( )A .-1B .0C.12D .1答案 D解析 样本点都在直线上时,其数据的估计值与真实值是相等的,即y i =y ^i ,代入相关系数公式r =1-∑i =1n(y i -y ^i )2∑i =1n (y i -y )2=1.4. 在吸烟与患肺病这两个分类变量的计算中,下列说法正确的是( )①若K 2的观测值满足K 2≥6.635,我们有99%的把握认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99人患有肺病;②从独立性检验可知有99%的把握认为吸烟与患肺病有关系时,我们说某人吸烟,那么他有99%的可能患有肺病;③从统计量中得知有95%的把握认为吸烟与患肺病有关系,是指有5%的可能性使得推断出现错误. A .①B .①③C .③D .②答案 C解析 ①推断在100个吸烟的人中必有99人患有肺病,说法错误,排除A ,B ;③正确. 二、填空题(每小题5分,共15分)5. 某市居民2005~2009年家庭年平均收入x (单位:万元)与年平均支出Y (单位:万元)的统计资料如下表所示:出有________线性相关关系. 答案 13 正解析 把2005~2009年家庭年平均收入按从小到大顺序排列为11.5,12.1,13,13.3,15,因此中位数为13(万元),由统计资料可以看出,当年平均收入增多时,年平均支出也增多,因此两者之间具有正线性相关关系.6. 在一项打鼾与患心脏病的调查中,共调查了1 671人,经过计算K 2的观测值k =27.63,根据这一数据分析,我们有理由认为打鼾与患心脏病是________的(有关,无关). 答案 有关解析 由观测值k =27.63与临界值比较,我们有99.9%的把握说打鼾与患心脏病有关. 7. 在研究硝酸钠的可溶性程度时,对于不同的温度观测它在水中的溶解度,得观测结果如下:由此得到回归直线的斜率b 是__________.(结果保留两位小数)答案 0.88 解析 把表中数据代入公式b ^=∑5i =1x i y i -5x y ∑5i =1x 2i -5x 2≈0.88.三、解答题(共22分)8. (10分)某企业上半年产品产量与单位成本资料如下:且已知产量x (1)求出线性回归方程;(2)指出产量每增加1 000件时,单位成本平均变动多少? (3)假定产量为6 000件时,单位成本为多少元? 解 (1)n =6,x =3.5,y=71,∑6i =1x 2i =79,∑6i =1x i y i =1 481,b ^=∑6i =1x i y i -6x y∑6i =1x 2i -6x 2=1 481-6×3.5×7179-6×3.52≈-1.82,a ^=y -b ^x =71+1.82×3.5=77.37,∴线性回归方程为y ^ =b ^ x +a ^=-1.82x +77.37.(2)因为单位成本平均变动b ^=-1.82<0,且产量x 的计量单位是千件,所以根据回归系数b ^的意义有产量每增加一个单位即1 000件时,单位成本平均减少1.82元. (3)当产量为6 000件时,即x =6,代入线性回归方程,得y ^=77.37-1.82×6=66.45(元) ∴当产量为6 000件时,单位成本大约为66.45元. 9. (12分)(2011·安徽)某地最近十年粮食需求量逐年上升,下表是部分统计数据:(1)利用所给数据求年需求量与年份之间的线性回归方程y =b x +a ; (2)利用(1)中所求出的直线方程预测该地2012年的粮食需求量.解 (1)由所给数据看出,年需求量与年份之间是近似直线上升的,下面求线性回归方程.为此对数据预处理如下:对预处理后的数据,容易算得x =0,y =3.2.b ^=(-4)×(-21)+(-2)×(-11)+2×19+4×29-5×0×3.2(-4)2+(-2)2+22+42-5×02=26040=6.5,a ^=y -b ^x =3.2.由上述计算结果,知所求线性回归方程为y ^-257=b ^(x -2 006)+a ^=6.5(x -2 006)+3.2,即y ^=6.5(x -2 006)+260.2.① (2)利用直线方程①,可预测2012年的粮食需求量约为 6.5×(2 012-2 006)+260.2=6.5×6+260.2=299.2(万吨).B 组 专项能力提升 (时间:25分钟,满分:43分)一、选择题(每小题5分,共15分) 1. 以下四个命题,其中正确的是( )①从匀速传递的产品生产流水线上,质检员每20分钟从中抽取一件产品进行某项指标检测,这样的抽样是分层抽样;②两个随机变量相关性越强,则相关系数的绝对值越接近于1 ;③在线性回归方程y ^=0.2x +12中,当解释变量x 每增加一个单位时,预报变量y ^平均增加0.2个单位;④对分类变量X 与Y ,它们的随机变量K 2的观测值k 来说,k 越小,“X 与Y 有关系”的把握程度越大. A .①④B .②④C .①③D .②③答案 D 解析 ①是系统抽样;对于④,随机变量K 2的观测值k 越小,说明两个相关变量有关系的把握程度越小.2. (2011·湖南)通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:由K 2=n (ad -bc )(a +b )(c +d )(a +c )(b +d )算得,K 2=110×(40×30-20×20)260×50×60×50≈7.8.附表:( )A .有99%以上的把握认为“爱好该项运动与性别有关”B .有99%以上的把握认为“爱好该项运动与性别无关”C .在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”D .在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关” 答案 A 解析 根据独立性检验的定义,由K 2≈7.8>6.635可知我们有99%以上的把握认为“爱好该项运动与性别有关”,故选A.3.(2011·江西)为了解儿子身高与其父亲身高的关系,随机抽取5对父子的身高数据如下:则y 对x( )A.y ^=x -1B.y ^=x +1C.y ^ =88+12xD.y ^=176答案 C解析 因为x =174+176+176+176+1785=176,y =175+175+176+177+1775=176,又y 对x 的线性回归方程表示的直线恒过点(x ,y ),所以将(176,176)代入A 、B 、C 、D 中检验知选C.二、填空题(每小题5分,共15分)4. ①若r >0,则x 增大时,y 也相应增大;②若r <0,则x 增大时,y 也相应增大;③若r=1或r =-1,则x 与y 的关系完全对应(有函数关系),在散点图上各个点均在一条直线上.上面是关于相关系数r 的几种说法,其中正确的序号是__________. 答案 ①③解析 若r >0,表示两个相关变量正相关,x 增大时,y 也相应增大,故①正确;r <0,表示两个相关变量负相关,x 增大时,y 相应减小,故②错误;|r |越接近1,表示两个变量相关性越高,|r |=1表示两个变量有确定的关系(即函数关系),故③正确.5. (2011·广东)某数学老师身高176 cm ,他爷爷、父亲和儿子的身高分别是173 cm 、170 cm和182 cm.因儿子的身高与父亲的身高有关,该老师用线性回归分析的方法预测他孙子的身高为________ cm.答案 185 解析 儿子和父亲的身高可列表如下:设线性回归方程y ^=a ^+b x ,由表中的三组数据可求得b =1,故a ^=y -b ^x =176-173=3,故线性回归方程为y ^=3+x ,将x =182代入得孙子的身高为185 cm.6. 某炼钢厂废品率x (%)与成本y (元/t)的线性回归方程为y ^=105.492+42.569x .当成本控制在176.5元/t 时,可以预计生产的1 000 t 钢中,约有________ t 钢是废品. 答案 16.68解析 ∵176.5=105.492+42.569x ,∴x ≈1.668,即成本控制在176.5元/t 时,废品率为1.668%.∴生产的1 000 t 钢中,约有1 000×1.668%=16.68(t)钢是废品. 三、解答题7. (13分)某产品的广告支出x (单位:万元)与销售收入y (单位:万元)之间有下表所对应的数据:(1)(2)求出y 对x 的线性回归方程;(3)若广告费为9万元,则销售收入约为多少万元? 解 (1)作出的散点图如图所示(2)观察散点图可知各点大致分布在一条直线附近,列出下表易得x =52,y =692,所以b ^=∑4i =1x i y i -4x y ∑4i =1x 2i -4x 2=418-4×52×69230-4×⎝⎛⎭⎫522=735,a ^=y -b ^x =692-735×52=-2. 故y 对x 的线性回归方程为y ^=735x -2.(3)当x =9时,y ^=735×9-2=129.4. 故当广告费为9万元时,销售收入约为129.4万元.。
变量间的相关关系、统计案例
第四节 变量间的相关关系、统计案例[考纲传真] 1.会作两个相关变量的数据的散点图,会利用散点图认识变量间的相关关系.2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程.3.了解独立性检验的基本思想、方法及其初步应用.4.了解回归分析的基本思想、方法及简单应用.1.变量间的相关关系(1)常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系.(2)从散点图上看,点散布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点散布在左上角到右下角的区域内,两个变量的这种相关关系称为负相关.2.两个变量的线性相关(1)从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这条直线叫做回归直线.(2)回归方程为y ^=b ^x +a ^,其中b ^=,a ^=.(3)通过求Q =(y i -bx i -a )2的最小值而得到回归直线的方法,即使得样本数据的点到回归直线的距离的平方和最小,这一方法叫做最小二乘法.(4)相关系数:当r >0时,表明两个变量正相关; 当r <0时,表明两个变量负相关.r 的绝对值越接近于1,表明两个变量的线性相关性越强.r 的绝对值越接近于0时,表明两个变量之间几乎不存在线性相关关系.通常|r |大于0.75时,认为两个变量有很强的线性相关性.(5)相关指数:R 2=1-.其中是残差平方和,其值越小,则R 2越大(接近1),模型的拟合效果越好.3.独立性检验假设有两个分类变量X 和Y ,它们的取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(称为2×2列联表)为:K 2=n (ad -bc )2(a +b )(a +c )(b +d )(c +d )(其中n =a +b +c +d ).[常用结论]1.从散点图观察相关性;(1)正相关:样本点分布在从左下角到右上角的区域; (2)负相关:样本点分布在从左上角到右下角的区域. 2.b ^的几何意义:体现平均增加或平均减少.3.线性回归方程y ^=b ^x +a ^一定过样本点的中心(—x ,—y ). 4.由回归直线求出的数据是估算值,不是精确值.[基础自测]1.(思考辨析)判断下列结论的正误.(正确的打“√”,错误的打“×”) (1)相关关系与函数关系都是一种确定性的关系, 也是一种因果关系.( ) (2)只有两个变量有相关关系,所得到的回归模型才有预测价值.( ) (3)事件X ,Y 关系越密切,则由观测数据计算得到的K 2的观测值越大.( )(4)由独立性检验可知,在犯错误的概率不超过1%的前提下认为物理成绩优秀与数学成绩有关,某人数学成绩优秀,则他有99%的可能物理优秀.( )[答案] (1)× (2)√ (3)√ (4)×2.(教材改编)为调查中学生近视情况,测得某校男生150名中有80名近视,在140名女生中有70名近视.在检验这些学生眼睛近视是否与性别有关时,用下列哪种方法最有说服力( )A .回归分析B .均值与方差C .独立性检验D .概率C [“近视”与“性别”是两类变量,其是否有关,应用独立性检验判断.]3.(教材改编)已知变量x 与y 正相关,且由观测数据算得样本平均数—x =3,—y =3.5,则由该观测数据算得的线性回归方程可能是( )A.y ^=0.4x +2.3 B.y ^=2x -2.4 C.y ^=-2x +9.5D.y ^=-0.3x +4.4A [因为变量x 和y 正相关,排除选项C ,D.又样本中心(3,3.5) 在回归直线上,排除B ,选项A 满足.]4.下面是2×2列联表:则表中a ,b 的值分别为( )A.94,72 C .52,74D .74,52C [∵a +21=73,∴a =52.又a +22=b ,∴b =74.]5.某校为了研究学生的性别和对待某一活动的态度(支持和不支持两种态度)的关系,运用2×2列联表进行独立性检验,经计算K 2=7.069,则所得到的统计学结论是:有多少的把握认为“学生性别与支持该活动有关系”.( )附:A.0.1% C .99%D .99.9%C [因为7.069与附表中的6.635最接近,所以得到的统计学结论是:有1-0.010=0.99=99%的把握认为“学生性别与支持该活动有关系”.]1.已知变量x 和y 满足关系y =-0.1x +1,变量y 与z 正相关.下列结论中正确的是( ) A .x 与y 正相关,x 与z 负相关 B .x 与y 正相关,x 与z 正相关 C .x 与y 负相关,x 与z 负相关 D .x 与y 负相关,x 与z 正相关C [因为y =-0.1x +1的斜率小于0,故x 与y 负相关.因为y 与z 正相关,可设z =b ^y +a ^,b ^>0,则z =b ^y +a ^=-0.1b ^x +b ^+a ^,故x 与z 负相关.]2.甲、乙、丙、丁四位同学各自对A ,B 两变量的线性相关性做试验,并用回归分析方法分别求得相关系数r 与残差平方和m 如下表:( ) A .甲 B .乙 C .丙 D .丁D [在验证两个变量之间的线性相关关系时,相关系数的绝对值越接近于1,相关性越强,在四个选项中只有丁的相关系数最大;残差平方和越小,相关性越强,只有丁的残差平方和最小,综上可知丁的试验结果体现了A ,B 两变量有更强的线性相关性.]3.(2019·泰安月考)x 和y 的散点图如图所示,则下列说法中所有正确命题的序号为________.①x ,y 是负相关关系;②在该相关关系中,若用y =c 1e c 2x 拟合时的相关指数为R 21,用y ^=b ^x +a ^拟合时的相关指数为R 22,则R 21>R 22;③x ,y 之间不能建立线性回归方程.①② [在散点图中,点散布在从左上角到右下角的区域,因此x ,y 是负相关关系,故①正确;由散点图知用y =c 1e c 2x 拟合比用y ^=b ^x +a ^拟合效果要好,则R 21>R 22,故②正确;x ,y之间可以建立线性回归方程,但拟合效果不好,故③错误.]时,正相关;时,负相关【例1】 (2018·全国卷Ⅱ)如图是某地区2000年至2016年环境基础设施投资额y (单位:亿元)的折线图.为了预测该地区2018年的环境基础设施投资额,建立了y 与时间变量t 的两个线性回归模型.根据2000年至2016年的数据(时间变量t 的值依次为1,2,…,17)建立模型①:y ^=-30.4+13.5t ;根据2010年至2016年的数据(时间变量t 的值依次为1,2,…,7)建立模型②:y ^=99+17.5t .(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值; (2)你认为用哪个模型得到的预测值更可靠?并说明理由.[解] (1)利用模型①,可得该地区2018年的环境基础设施投资额的预测值为y ^=-30.4+13.5×19=226.1(亿元).利用模型②,可得该地区2018年的环境基础设施投资额的预测值为 y ^=99+17.5×9=256.5(亿元).(2)利用模型②得到的预测值更可靠. 理由如下:(i)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y =-30.4+13.5t 上下,这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势,2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型y ^=99+17.5t 可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.(ⅱ)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理,说明利用模型②得到的预测值更可靠.i i 数据如下表:(1)(2)若用二次函数回归模型拟合y 与x 的关系,可得回归方程:y ^=-0.17x 2+5x +20,经计算,二次函数回归模型和线性回归模型的R 2分别约为0.93和0.75,请用R 2说明选择哪个回归模型更合适,并用此模型预测A 超市广告费支出3万元时的销售额.参考数据:.参考公式:[解] (1)=2 794-7×8×42708-7×82=1.7,故y 关于x 的线性回归方程是y ^=1.7x +28.4. (2)∵0.75<0.93,∴二次函数回归模型更合适. 当x =3时,y ^=33.5.故选择二次函数回归模型更合适,并且用此模型预测A 超市广告费支出3万元时的销售额为33.5万元.【例2】 收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:(1)记A表示事件“旧养殖法的箱产量低于50 kg”,估计A的概率;(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关;(3)附:P(K2≥k0)0.0500.0100.001k0 3.841 6.63510.828,K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d).[解](1)旧养殖法的箱产量低于50 kg的频率为(0.012+0.014+0.024+0.034+0.040)×5=0.62.因此,事件A的概率估计值为0.62.(2)根据箱产量的频率分布直方图得列联表K 2的观测值k =200×(62×66-34×38)2100×100×96×104≈15.705.由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关.(3)箱产量的频率分布直方图表明:新养殖法的箱产量平均值(或中位数)在50 kg 到55 kg 之间,旧养殖法的箱产量平均值(或中位数)在45 kg 到50 kg 之间,且新养殖法的箱产量分布集中程度较旧养殖法的箱产量分布集中程度高,因此,可以认为新养殖法的箱产量较高且稳定,从而新养殖法优于旧养殖法.课程的选课意向进行调查.现从高一年级学生中随机抽取180名学生,其中男生105名;在这180名学生中选择社会科学类的男生、女生均为45名.(1)试问:从高一年级学生中随机抽取1人,抽到男生的概率约为多少?(2)根据抽取的180名学生的调查结果,完成下面的2×2列联表.并判断能否在犯错误的概率不超过0.025的前提下认为科类的选择与性别有关?附:K 2=(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d .[解] (1)从高一年级学生中随机抽取1人,抽到男生的概率约为105180=712. (2)根据统计数据,可得2×2列联表如下:则K 2的观测值为k =180×(60×45-30×45)2105×75×90×90=367≈5.142 9>5.024,所以能在犯错误的概率不超过0.025的前提下认为科类的选择与性别有关.(2018·全国卷Ⅲ)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人,第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由;(2)求40名工人完成生产任务所需时间的中位数m ,并将完成生产任务所需时间超过m 和不超过m 的工人数填入下面的列联表:(3)根据(2)附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),[解] (1)第二种生产方式的效率更高.理由如下:(ⅰ)由茎叶图可知:用第一种生产方式的工人中,有75%的工人完成生产任务所需时间至少80分钟,用第二种生产方式的工人中,有75%的工人完成生产任务所需时间至多79分钟.因此第二种生产方式的效率更高.(ⅱ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为85.5分钟,用第二种生产方式的工人完成生产任务所需时间的中位数为73.5分钟.因此第二种生产方式的效率更高.(ⅲ)由茎叶图可知:用第一种生产方式的工人完成生产任务平均所需时间高于80分钟;用第二种生产方式的工人完成生产任务平均所需时间低于80分钟.因此第二种生产方式的效率更高.(ⅳ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布.又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少.因此第二种生产方式的效率更高.(以上给出了4种理由,考生答出其中任意一种或其他合理理由均可得分.)(2)由茎叶图知m=79+812=80.列联表如下:(3)由于K2的观测值k=40(15×15-5×5)220×20×20×20=10>6.635,所以有99%的把握认为两种生产方式的效率有差异.。
变量间的相关关系、统计案例
解析:由独立性检验的基本思想可得,只有③正确.
答案:③
课堂探究· 双向交流02
课堂升华 强技提能
考点一 相关关系的判断 【例1】 (1)在一组样本数据(x1,y1),(x2,y2),…,(xn, yn)(n≥2,x1,x2,…,xn不全相等)的散点图中,若所有样本点 1 (xi,yi)(i=1,2,…,n)都在直线y= x+1上,则这组样本数据的 2 样本相关系数为( A.-1 ) B.0 1 C.2 D.1
【解析】 (1)所有点均在直线上,则样本相关系数最大即 为1.故选D. (2)①显然正确;由散点图知,用y=c1ec2x拟合的效果比用 y = b x+ a 拟合的效果要好,故②正确;x,y之间能建立线性回归 方程,只不过预报精度不高,故③不正确.
答案:D
^
4.当我们建立多个模型拟合某一数据组时,为了比较各个 模型的拟合效果,我们可通过计算下列( ①残差平方和 ②回归平方和 ③相关指数R2 ④相关系数r A.① C.①②③ B.①③ D.③④ )量来确定( )
解析:残差平方和越小,相关指数R2越大,拟合的效果越 好.
答案:B
知识点三
独立性检验
i=1
n
n
=
i=1
=
xi- x
n
2
i=1
x2 i -n x
n
, a = y - b x ,其中, b 是
2
^
^
^
回归方程的
^ 斜率 ,a 是在y轴上的截距.
2.样本相关系数
i=1
xi- x yi- y
,用它来衡量两个变量间的
n
r=
i=1
xi- x yi- y 2
3.(2017· 江西南昌一模)设某中学的高中女生体重y(单位: kg)与身高x(单位:cm)具有线性相关关系,根据样本数据(xi, yi)(i=1,2,3,…,n),用最小二乘法近似得到回归直线方程为 y = 0.85x-85.71,则下列结论中不正确的是( )
变量间的相关关系、统计案例
∑ (������������ -������)(������������ -������)
������=1
∑ (������������ -������)2
= ������=1 ������
∑ ������������ ������������ -������������ ������
������=1
关闭
^
^
^
^ ^
关闭
^
^
^
^
A
解析 答案
-9知识梳理 考点自测
1
2
3
4
5
3.(2017辽宁葫芦岛一模)广告投入对商品的销售额有较大影响. 某电商对连续5个年度的广告费和销售额进行统计,得到统计数据 如下表(单位:万元):
广告费 x 销售额 y 2 29 3 41
^
4 50
5 59
6 71
关闭
由表可得到回归方程为 ������ 10 ,据此模型 ,预测广告费为 10 万 由题意 ,得������=4,������=50.∴50= 4= × 10..2 2x+ +������a ,解得 a=9.2. ^ 元时的销售额约为 ) ∴回归方程为������=10(.2x+9 .2. A.101.2万元 ^ B.108.8万元 ∴当 x=10 时,������=D.118 10.2× +9.2=111.2.故选 C. C.111
=1-������=1 ������
^ ∑ (������ - ������ )
������ ������ ������
2
∑ (������������ -������) ������=1
2 , R 越接近于 1,表示回归效果越好. 2
变量间的相关关系与统计案例
3.在一项打鼾与患心脏病的调查中,共调查了1 671人, 经过计算K2的观测值k=27.63,根据这一数据分析,我们 能在犯错误的概率不超过________的前提下认为打鼾 与患心脏病有关.
【解析】K2的观测值k=27.63>10.828,故能在犯错误的
概率不超过0.001的前提下认为打鼾与患心脏病有关.
3.独立性检验的三个步骤 (1)根据样本数据制成2×2列联表. (2)根据公式计算K2的值. (3)比较K2与临界值的大小关系作统计推断.
【教材母题变式】 1.有一个同学开了一家小卖部,他为了研究气温对热饮 销量的影响,经过统计计算,得到卖出的热饮杯数依当 天气温(℃)变化的回归直线方程为 y =146-3x,下列判 断正确的是________(填序号)
x1 x2 a c
y2
b d b+d ____
总计 a+b ____
c+d
总计
a+c
a+b+c+d
(2)K2统计量
K 2= 量).
a b c d a c b d
n ad bc
2
(其中n=a+b+c+d为样本容
【金榜状元笔记】 1.两种关系——函数关系与相关关系 (1)区别: ①函数关系是一种确定性关系,相关关系是一种非确定 性关系.
一条直线 附近,则称这两个变量之间具有线性 大致在_________
回归直线 相关关系,这条直线叫做_________.
(3)回归方程 距离 ①最小二乘法:使得样本数据的点到回归直线的_____ 的平方和 最小的方法叫做最小二乘法. _________
②回归方程:两个具有线性相关关系的变量的一组数据: (x1,y1),(x2,y2),…,(xn,yn),其回归方程为 y bx a,
变量间的相关关系-统计案例
高考数学知识点:变量间的相关关系-统计案例2016-04-22 15:15一、变量间的相关关系1.常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系.2.从散点图上看,点分布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点分布在左上角到右下角的区域内,两个变量的相关关系为负相关.典型例题1:某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:1.回归分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图大致呈线性时,求出的线性回归方程才有实际意义,否则,求出的线性回归方程毫无意义.2.由回归方程进行预报,仅是一个预报值,而不是真实发生的值.3.使用K2统计量作2×2列联表的独立性检验时,要求表中的4个数据都要大于5,在选取样本容量时一定要注意.二、两个变量的线性相关1.从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这条直线叫回归直线.2.回归方程为3.求最小值而得到回归直线的方法,即使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法.4.相关系数,当r>0时,表明两个变量正相关;当r<0时,表明两个变量负相关.r的绝对值越接近于1,表明两个变量的线性相关性越强.r的绝对值越接近于0时,表明两个变量之间几乎不存在线性相关关系.通常|r|大于0.75时,认为两个变量有很强的线性相关性.典型例题2:1.相关关系的判断方法一是利用散点图直观判断,二是利用相关系数作出判断.2.对于由散点图作出相关性判断时,若散点图呈带状且区域较窄,说明两个变量有一定的线性相关性,若呈曲线型也是有相关性.3.由相关系数r判断时|r|越趋近于1相关性越强.三、独立性检验典型例题3:。
变量间的相关关系与统计案例
xi2 3 x 2
i 1
3
4343718 179349
1.75
434 3 7 ˆ 18 - 7 1.75 185.75 ˆ a y - bx 179 3 49 1.75
ˆ 所求线性回归方程为: y 1.75 x 5.75.
六、回归效果的检测
n i 1 n
y i y 2
i 1
.
显然, R 2取值越大, 意味着残差平方和越小, 也就是说模型的拟合 效果越好.在线性回归模型中, R 2 表示解释变量对于预报变量变 化的贡献率. R 2 越 接近于 1, 表示回归的效果越好(因为R 2 越接近 于1, 表示解释变量和预报变量的线性相关性越强) .
不吸烟 吸烟 总计
不患肺癌 7775 2099 9874
3.独立性检验:假设有两个分类变量X和Y,它们的可能 取值分别为{x1,x2} 和 {y1,y2},其样本频数列联表(称 为2×2列联表)为:
y1 x1
x2 总计
y2 b
d
总计 a+b
c+d
a
c
a+c b+d a+b+c+d nad-bc2 K2= (其中 n=a+b+c+d 为样本容 a+ba+cb+dc+d
i 1 2 i i 1
n
n
i i
2.代入公式
求出 a 和 b ; ˆ ˆ
n n x y x y xi--yi-- xiyi-n-- i= 1 i= 1 b = , ^= n n - 2 x xi- x xi2-n-2 i= 1 i= 1 ^=--b - a y ^ x
如下图:
40 35 30 25 20 15 10 5
变量间相关关系统计案例
1122211()()()n ni i i i i i n ni ii i x x y y x y nx y b x x x nx a y bx====⎧---⎪⎪==⎪⎨--⎪⎪=-⎪⎩∑∑∑∑学 校: 年 级: 教学课题:统计案例 学员姓名: 辅导科目:数学 学科教师:王光明教学目标 变量间的相关关系与统计案例教学内容考情分析从近三年高考试题分析,高考对本部分的考察多以散点图和相关关系为主,另外对线性回归方程与独立性检验在实际应用中的考察。
基础知识1.两个变量的线性相关:(1)正相关:在散点图中,点散布在从左下角到右上角的区域.对于两个变量的这种相关关系,我们将它称为正相关.(2)负相关:在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.(3)线性相关关系、回归直线:如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.2.最小二乘法:求回归直线使得样本数据的点到回归直线的距离的平方和最小的方法.3.回归方程方程ˆybx a =+是两个具有线性相关关系的变量的一组数据1122(,),(,),(,)n n x y x y x y 的回归方程,其中 4.回归分析的基本思想及其初步应用 (1)回归分析是对具有相关关系的两个 变量进行统计分析的方法,其常用的 研究方法步骤是画出散点图,求出回归直线方程,并利用回归直线方程进行预报.(2)对n 个样本数据(x 1,y 1)、(x 2,y 2)、…、(xn ,yn ),(,)x y 称为样本点的中心. (3)除用散点图外,还可以用样本相关系数r 来衡量两个变量x ,y 相关关系的强弱,1222211()()ni ii nni i i i x y nx yr x nx y n y ===-•=--∑∑∑当r >0,表明两个变量正相关,当r <0,表明两个变量负相关,r 的绝对值越接近于1,表明两个变量的线性相关性越强;r 的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系,通常|r |0.75>时,认为这两个变量具有很强的线性相关关系.5、用相关指数2R 来刻画回归的效果,公式是22121()1()niii nii y y R y y ==-=--∑∑2R的值越大,说明残差平方和越小,也就是说模型拟合效果好5.独立性检验的基本思想及其初步应用(1)若变量的不同“值”表示个体所属的不同类型,则这类变量称为分类变量.(2)列出的两个分类变量的频数表,称为列联表.(3)利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验独立性检验公式2K=2()()()()()n ad bca b a c b d c d-++++注意事项1.(1)函数关系是一种确定的关系,相关关系是一种非确定的关系.事实上,函数关系是两个非随机变量的关系,而相关关系是非随机变量与随机变量的关系.(2)当K2≥3.841时,则有95%的把握说事A与B有关;当K2≥6.635时,则有99%的把握说事件A与B有关;当K2≤2.706时,则认为事件A与B无关.2.(1)回归分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图大致呈线性时,求出的回归直线方程才有实际意义,否则,求出的回归直线方程毫无意义.(2)线性回归方程中的截距和斜率都是通过样本数据估计而来的,存在误差,这种误差会导致预报结果的偏差;而且回归方程只适用于我们所研究的样本总体.(3)独立性检验的随机变量K2=3.841是判断是否有关系的临界值,K2≤3.841应判断为没有充分证据显示事件A与B有关系,而不能作为小于95%的量化值来判断.题型一相关关系的判断【例1】对四组数据进行统计,获得以下散点图,关于其相关系数比较,正确的是( )A. r2<r4<0<r3<r1B. r4<r2<0<r1<r3C. r4<r2<0<r3<r1D. r2<r4<0<r1<r3答案:A解析:由相关系数的定义以及散点图所表达的含义可知r 2<r 4<0<r 3<r 1.故选A.【变式1】 根据两个变量x ,y 之间的观测数据画成散点图如图所示,这两个变量是否具有线性相关关系________(填“是”与“否”).[来源:学科网]解析 从散点图看,散点图的分布成团状,无任何规律,所以两个变量不具有线性相关关系. 答案 否题型二 独立性检验【例2】通过随机询问110名性别不同的行人,对过马路是愿意走斑马线还是愿意走人行天桥进行抽样调查,得到如下的列联表:男 女 总计 走天桥 40 20 60 走斑马线 20 30 50 总计60 50110由K 2=n ad -dc 2a +bc +d a +cb +d,算得K 2=110×40×30-20×20260×50×60×50≈7.8.附表:P (K 2≥k )0.050 0.010 0.001 k3.8416.63510.828对照附表,得到的正确结论是( )A. 有99%以上的把握认为“选择过马路的方式与性别有关”B. 有99%以上的把握认为“选择过马路的方式与性别无关”C. 在犯错误的概率不超过0.1%的前提下,认为“选择过马路的方式与性别有关”D. 在犯错误的概率不超过0.1%的前提下,认为“选择过马路的方式与性别无关”答案:A解析:∵K2=110×40×30-20×20260×50×60×50≈7.8>6.635,∴有99%以上的把握认为“选择过马路的方式与性别有关”.【变式2】某企业有两个分厂生产某种零件,按规定内径尺寸(单位:mm)的值落在[29.94,30.06)的零件为优质品.从两个分厂生产的零件中各抽出了500件,量其内径尺寸,得结果如下表:甲厂:分组[29.86,29.90)[29.90,29.94)[29.94,29.98)[29.98,30.02)[30.02,30.06)[30.06,30.10)[30.10,30.14)频数1263861829261 4 乙厂:分组[29.86,29.90)[来源:学。
变量间的相关关系,统计案例有答案
y1 y2 合计 x1 a 21 73 x2 22 25 47 合计 b 46 120
A.94,72
B.52,50
C.52,74
D.74,52
C [∵a+21=73,∴a=52.又 a+22=b,∴b=74.]
2.已知变量 x 与 y 正相关,且由观测数据算得样本平均数 x =3, y =3.5,则由该观测数
把握越大.
3.根据回归方程计算的^y值,仅是一个预报值,不是真实发生的值.
一、思考辨析(正确的打“√”,错误的打“×”) (1)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系.
()
专注于中小学文化课辅导,为学生创造美好未来!
(2)只有两个变量有相关关系,所得到的回归模型才有预测价值.
从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的 回归直线 一条直线附近,称两个变量之间具有线性相关关系,这条直线叫做回
归直线
回归方程
最小二乘 通过求 Q=
的最小值而得到回归直线的方法,即使
法
得样本数据的点到回归直线的距离的平方和最小,这一方法叫做最小
二乘法
专注于中小学文化课辅导,为学生创造美好未来!
下图是我国 2012 年至 2018 年生活垃圾无害化处理量(单位:亿吨)的折线图.
专注于中小学文化课辅导,为学生创造美好未来!
注:年份代码 1~7 分别对应年份 2012~2018. (1)由折线图看出,可用线性回归模型拟合 y 与 t 的关系,请用相关系数加以说明; (2)建立 y 关于 t 的回归方程(系数精确到 0.01),预测 2020 年我国生活垃圾无害化处理量. 附注:
.
23×27×20×30
5% [K2 的观测值 k≈4.844,这表明小概率事件发生.根据假设检验的基本原理,应该断定
变量间的相关关系与统计案例教师版
变量间的相关关系与统计案例教师版教师版:变量间的相关关系与统计案例引言:在统计学中,了解变量间的相关关系是非常重要的。
相关关系描述了两个或更多变量之间的连接,帮助我们理解它们如何相互影响和变化。
本文将介绍变量间相关关系的基本概念,并提供一些统计案例来帮助教师教授有关此主题的课程。
第一部分:相关性的定义和计算相关性是指两个或多个变量之间的关系程度。
直观上,当一个变量的值增加时,另一个变量的值是否也随之增加或减少。
相关性可以是正面的(变量之间的关系是正向的),也可以是负面的(变量之间的关系是反向的)。
相关性的计算可以通过两种方法来完成:Pearson相关系数和Spearman等级相关系数。
Pearson相关系数用于度量两个连续变量之间的线性关系,它的值介于-1和1之间。
当其值接近1时,表示两个变量之间的关系很强;当其值接近-1时,表示两个变量之间的关系是反向的;当其值接近0时,表示两个变量之间的关系较弱。
Spearman等级相关系数用于度量两个等级变量之间的关系,它的计算方式类似于Pearson相关系数,但在计算前将变量转换为等级。
第二部分:相关关系的案例研究案例1:学生的学习时间和学生成绩在这个案例中,我们研究了学生的学习时间和他们的学生成绩之间的相关关系。
我们收集了一组学生的学习时间(以小时为单位)和他们的学生成绩(以百分制为单位)数据。
通过计算Pearson相关系数,我们发现学习时间和学生成绩之间存在较强的正面相关关系(r = 0.8)。
这意味着学习时间越多,学生成绩越高。
案例2:家庭收入和孩子的学习成绩在这个案例中,我们研究了家庭收入与孩子学习成绩之间的相关关系。
我们收集了一组家庭收入水平(以年收入为单位)和孩子的学习成绩(以百分制为单位)数据。
通过计算Pearson相关系数,我们发现家庭收入和孩子学习成绩之间存在较弱的正面相关关系(r = 0.4)。
这意味着家庭收入较高的孩子往往有更好的学习成绩,但这种关系不是很强。
原创2:11.3 变量间的相关关系、统计案例
当^b<0 时,x 与 y 负相关,所以①④一定错误.
[规律方法] 判断变量之间有无相关关系,一种简便可行的方 法就是绘制散点图,根据散点图很容易看出两个变量之间是 否具有相关性,是不是存在线性相关关系,是正相关还是负 相关,相关关系是强还是弱.
1. (2015·河北石家庄市质量检测)设(x1,y1),(x2, y2),…,(xn,yn)是变量 x 和 y 的 n 个样本点,直线 l 是由这 些样本点通过最小二乘法得到的线性回归方程(如图),以下结 论中正确的是( C )
2.两个变量的线性相关
(1)从散点图上看,如果这些点从整体上看大致分布在通过散点
图中心的一条直线附近,称两个变量之间具有_线__性__相__关__关__系___,
这条直线叫__回__归__直__线__.
(2)回 归 方 程 为 _-_y_-__^b_-_x___.
^y
=
^b
x
+
^a
,
其
中
^b
=
n
∑
(2)利用(1)中的回归方程,分析 2007 年至 2013 年该地区农村
居民家庭人均纯收入的变化情况,并预测该地区 2015 年农村
居民家庭人均纯收入.
附:回归直线的斜率和截距的最小二乘估计公式分别为:
n
^b=i∑=1
(t i--t )( yi--y )
n
∑
i=1
(t i--t )2
,^a=-y -^b-t
n
∑
=
i=1 n
∑
i=1
x i y i-n-x -y
x
2
i
-n-x 2
.
^a=-y -^b-x ;
④写出回归方程^y=^bx+^a.
变量间的相关关系与统计案例
变量间的相关关系与统计案例变量间的相关关系是统计学中一个重要的概念,它描述了两个或多个变量之间的关联程度。
在实际应用中,我们经常需要了解不同变量之间的相关性,以便更好地理解数据和进行预测分析。
本文将介绍变量间相关关系的基本概念,并通过统计案例来说明相关关系的计算和应用。
首先,我们需要了解相关系数的概念。
相关系数是衡量两个变量之间相关性强弱的统计指标,通常用于描述线性相关关系。
常见的相关系数有皮尔逊相关系数、斯皮尔曼相关系数和判定系数等。
其中,皮尔逊相关系数用于衡量两个连续变量之间的线性相关性,取值范围为-1到1,其绝对值越接近1,表示相关性越强。
接下来,我们通过一个实际的统计案例来说明相关系数的计算和应用。
假设我们对某公司员工的工作满意度和工作绩效进行了调查,现在我们希望了解这两个变量之间的相关关系。
我们首先收集了员工的工作满意度得分和绩效评价得分,然后计算了它们之间的皮尔逊相关系数。
假设计算结果为0.8,这意味着工作满意度和工作绩效之间存在较强的正相关关系,即工作满意度较高的员工通常也具有较好的工作绩效。
在实际应用中,相关系数的计算可以帮助我们了解变量之间的关联程度,从而指导决策和预测分析。
例如,在人力资源管理中,我们可以通过工作满意度和绩效之间的相关关系来评估员工的工作状态,制定相应的激励和管理策略。
在市场营销中,我们可以分析产品销量与广告投入之间的相关关系,从而优化营销策略和预测销售额。
除了了解相关系数的计算和应用,我们还需要注意相关关系的解释和局限性。
相关系数只能描述两个变量之间的线性相关关系,对于非线性关系或者其他类型的相关关系,相关系数可能无法准确描述。
因此,在实际应用中,我们需要结合具体情况,综合考虑多个统计指标和数据特征,以全面理解变量间的相关关系。
综上所述,变量间的相关关系是统计学中一个重要的概念,相关系数的计算和应用可以帮助我们了解变量之间的关联程度,指导决策和预测分析。
然而,我们需要注意相关关系的解释和局限性,以便更准确地理解数据和进行统计分析。
变量的相关性统计案例
变量的相关性统计案例变量的相关性统计是一种用于衡量两个或多个变量之间关系的统计方法。
它能够帮助我们了解变量之间的相关程度,从而更好地理解数据中的模式和趋势。
下面将介绍一个关于变量相关性统计的案例,并探讨如何从中得出有意义的结论。
假设我们是一家电子商务公司,想要了解广告投放和销售额之间的关系,以便进行更有效的广告策略制定。
我们收集到了广告投放金额和每月销售额的数据,以下是我们的样本数据:月份广告投放金额(万元)销售额(万元)110202152231218417255202862530我们首先可以计算广告投放金额和销售额之间的皮尔逊相关系数。
皮尔逊相关系数是一种常用的衡量两个连续变量之间线性相关性的方法,其取值范围介于-1和1之间。
当系数为正时,表示变量之间存在正相关关系;当系数为负时,表示变量之间存在负相关关系;当系数接近0时,表示变量之间几乎没有相关性。
可以使用以下公式计算皮尔逊相关系数:r = (Σxy - (Σx)(Σy) / n)/ sqrt((Σx^2 - (Σx)^2 / n) * (Σy^2 - (Σy)^2 / n))其中,Σxy表示x和y的乘积之和,Σx表示x的和,Σy表示y的和,n表示样本容量。
对于我们的样本数据,我们可以使用上述公式计算出皮尔逊相关系数为0.934,接近于1,说明广告投放金额和销售额之间存在很强的正相关关系。
这意味着广告投放金额的增加会带来销售额的增加。
此外,我们还可以使用散点图来可视化广告投放金额和销售额之间的关系。
散点图是一种常见的数据可视化工具,能够直观地显示两个变量之间的关系。
通过绘制广告投放金额和销售额的散点图,我们可以看到数据点呈现出明显的正相关关系,即随着广告投放金额的增加,销售额也呈现出增加的趋势。
此外,我们还可以通过进行回归分析来进一步探究广告投放金额对销售额的影响。
回归分析是一种可以用于建立变量之间的数学模型的统计方法。
我们可以使用线性回归模型来建立广告投放金额和销售额之间的关系模型:销售额=β0+β1*广告投放金额+ε其中,β0和β1是回归系数,ε是误差项。
专题检测-变量间的相关关系、统计案例
10.3 变量间的相关关系、统计案例一、选择题1.(2021江西上饶一模,6)根据如下样本数据,得到回归直线方程y ^=b ^x+a ^,则( )x 3 4 5 6 7 8 y-3.0-2.00.5-0.52.54.0A.a ^>0,b ^>0 B.a ^>0,b ^<0 C.a ^<0,b ^>0 D.a ^<0,b ^<0答案 C 作出散点图(图略),由散点图可知,a ^<0,b ^>0,选C.2.(2022届云南师大附中月考,6)对于样本点分布在指数函数曲线y=ae bx (其中a,b 为待定参数且a>0)周围时,令z=ln y,c=ln a,经过变换后得到的线性回归方程为( ) A.y=bx+c B.y=cx+b C.z=bx+c D.z=cx+b 答案 C ∵y=ae bx ,∴ln y=ln a+bx,∴z=c+bx.故选C.3.(2021黑龙江大庆实验中学月考,4)对四组数据进行统计,获得以下散点图,关于其线性相关系数比较,正确的是( )A.r 2<r 4<0<r 3<r 1B.r 4<r 2<0<r 1<r 3C.r 4<r 2<0<r 3<r 1D.r 2<r 4<0<r 1<r 3答案 B 由给出的四组数据的散点图可以看出,图1和图3是正相关,线性相关系数大于0,则r 1>0,r 3>0,图2和图4是负相关,线性相关系数小于0,则r 2<0,r 4<0,图3和图4的点相对更加集中,所以相关性较强,所以r 3接近于1,r 4接近于-1,图1和图2的点相对分散一些,所以相关性较弱,所以r 1和r 2比较接近于0,由此可得r 4<r 2<0<r 1<r 3.故选B.4.(2021重庆巴蜀中学月考一,5)用最小二乘法得到一组数据(x i ,y i )(i=1,2,3,4,5)的线性回归方程为y ^=b ^x+3,若∑i=15x i =25,∑i=15y i =65,当x=8时,y 的预报值为( )A.18B.19C.20D.21 答案 Bx =∑i=15x i 5=255=5,y =∑i=15y i 5=655=13,由回归直线过样本点的中心,得13=b ^×5+3,解得b ^=2,则线性回归方程为y ^=2x+3,当x=8时,y ^=2×8+3=19.故选B.5.(2020山东青岛三模)下面是一个2×2列联表,则表中a 、b 处的值分别为( )y 1 y 2 总计 x 1 b 21 e x 2 c 25 33 总计ad106A.96,94B.60,52C.52,54D.50,52答案 B 由题表中的数据可得c=33-25=8,d=21+25=46,∴a=106-46=60,b=60-8=52.故选B. 6.(2021陕西西安中学二模,4)设某大学的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系,根据一组样本数据(x i ,y i )(i=1,2,…,n),用最小二乘法建立的回归方程为y ^=0.85x-85.71. ①y 与x 具有正的线性相关关系; ②回归直线过样本点的中心(x ,y );③若该大学某女生身高增加1 cm,则其体重约增加0.85 kg; ④若该大学某女生身高为170 cm,则其体重必为58.79 kg. 则上述判断不正确的个数是( ) A.1 B.2 C.3 D.4答案 A 对于①,因为0.85>0,所以y 与x 具有正的线性相关关系,故①正确; 对于②,回归直线过样本点的中心(x ,y ),故②正确; 对于③,因为回归方程为y ^=0.85x-85.71,所以身高增加1 cm,则其体重约增加0.85 kg,故③正确;对于④,x=170时,y ^=0.85×170-85.71=58.79,但这是预测值,不可断定其体重必为58.79 kg,故④错误.故选A.7.(2022届湘豫名校联盟11月联考,3)如下表,根据变量x 与y 之间的对应数据可求出y ^=-0.32x+b,其中y =8.现从这5个样本点对应的残差中任取一个值,则残差不大于0的概率为 ( )x 10 15 20 25 30 y 11 10 8 6A.15B.25C.35D.45答案C由题表中的数据可知x=10+15+20+25+305=20,设y的最后一个数据为n,则y=11+10+8+6+n5=8,∴n=5,将x,y代入y^=-0.32x+b得b=14.4,∴y^=-0.32x+14.4.这5个样本点对应的残差分别为y1-y^1=11-(-0.32×10+14.4)=-0.2,y2-y^2=10-(-0.32×15+14.4)=0.4,y3-y^3=8-(-0.32×20+14.4)=0,y4-y^4=6-(-0.32×25+14.4)=-0.4,y5-y^5=5-(-0.32×30+14.4)=0.2,所以残差不大于0的概率为35.故选C.8.(2022届成都树德中学10月阶段测,3)某市物价部门对5家商场的某商品一天的销售量及价格进行调查,5家商场的售价x(单位:元)和销售量y(单位:件)之间的一组数据如表所示:售价x99.51010.511销售量y1110865按公式计算,y与x的回归直线方程是y^=-3.2·x+a^,相关系数|r|=0.986,则下列说法错误的是()A.变量x,y线性负相关且相关性较强B.a^=40C.当x=8.5时,y的估计值为12.8D.相应于点(10.5,6)的残差为0.4答案D由题表可知y随x的增大而减少,可认为变量x,y线性负相关,且由相关系数|r|=0.986知相关性强,A中说法正确;价格平均值x=15×(9+9.5+10+10.5+11)=10,销售量平均值y=15×(11+10+8+6+5)=8,故回归直线过点(10,8),故8=-3.2×10+a^⇒a^=40,B中说法正确;当x=8.5时,y^= -3.2×8.5+40=12.8,C中说法正确;相应于点(10.5,6)的残差e^=6-(-3.2×10.5+40)=-0.4,D中说法不正确.故选D.9.(2021安徽黄山二模,7)下列命题:①在线性回归模型中,相关指数R2表示解释变量x对于预报变量y的贡献率,R2越接近于0,表示回归效果越好;②两个变量相关性越强,则相关系数的绝对值就越接近于1;③两个模型中残差平方和越小的模型拟合的效果越好;④对分类变量X与Y,它们的随机变量K2的观测值k来说,k越大,“X与Y有关系”的把握程度越大.其中正确命题的个数是()A.1B.2C.3D.4答案C①在线性回归模型中,相关指数R2表示解释变量x对于预报变量y的贡献率,R2越接近于0,表示回归效果越不好,①错误;②两个变量相关性越强,则相关系数的绝对值就越接近于1,②正确;③两个模型中残差平方和越小的模型拟合的效果越好,③正确;④对分类变量X与Y,它们的随机变量K2的观测值k来说,k越大,“X与Y有关系”的把握程度越大,④正确.故选C.二、填空题10.(2022届贵阳一中10月月考,14)某产品的广告费用x与销售额y的统计数据如下表:广告费x/万元 1.8 2.235销售额y/万元8■2436根据上表已得回归方程为y^=8.6x-5.8,表中一数据模糊不清,请推算该数据的值为.答案12解析由题中数据可得x=1×(1.8+2.2+3+5)=3,y=8.6×3-5.8=20,故所求数据为20×4-8-24-36=12.411.(2022届山东菏泽期中,15)某科研小组研究了一种常见树的生米,如图所示的散点图记录了样本树的长周期中前10年的生长规律,统计显示,生长3年的树高为73生长时间t(年)与树高y(米)之间的关系.请你据此判断,在下列函数模型:①y=√t+a,②y=2t-a,③y=a+log3t中(其中a为正的常数),拟合生长年数与树高的关系最好的是(填写序号),估计该树生长9年后的树高为米.答案③103解析 根据散点图的走势,知②y=2t -a 不合适,曲线过点(3,73),则剩余两个模型中,易知拟合最好的是模型③y=a+log 3t,代入(3,73)得73=a+log 33,解得a=43,将t=9代入得y=43+log 39=103,所以所求树高为103米.12.(2022届广东江门陈瑞祺中学10月月考,13)某市政府调查市民收入增减与旅游需求的关系时,采用独立性检验法抽查了5 000人,计算发现K 2=6.109,根据这一数据查阅下表,市政府断言市民收入增减与旅游需求有关的可信度是 %.P(K 2≥k 0) 0.100 0.025 0.010 0.005 k 02.7065.0246.6357.879答案 97.5解析 由已知可得K 2=6.109>5.024,所以市政府断言市民收入增减与旅游需求有关的可信度是97.5%.13.(2020安徽蚌埠三模,15)某企业为了调查其产品在国内和国际市场的发展情况,随机抽取国内、国外各100名客户代表,了解他们对该企业产品的发展前景所持的态度,得到如图所示的等高条形图,则 (填“能”或“不能”)有99%以上的把握认为是否持乐观态度与国内外差异有关.P(K 2≥k) 0.050 0.010 0.005 0.001 k3.8416.6357.87910.828附:K2=n(ad -bc)2(a+b)(c+d)(a+c)(b+d).答案 能解析 根据题目所给数据得到如下2×2列联表:乐观 不乐观 总计 国内代表 60 40 100 国外代表 40 60 100 总计100100200K 2=200×(60×60-40×40)2100×100×100×100=8>6.635,所以能有99%以上的把握认为是否持乐观态度与国内外差异有关.14.(2021广州一模,14)某车间为了提高工作效率,需要测试加工零件所花费的时间,为此进行了5次试验,这5次试验的数据如下表:零件数x(个) 10 20 30 40 50 加工时间y(min)62a75 81 89若用最小二乘法求得回归直线方程为y ^=0.67x+54.9,则a 的值为 . 答案 68 解析 x =10+20+30+40+505=30,y =62+a+75+81+895=61+2+a5,所以61+2+a5=0.67×30+54.9,解得a=68.15.(2022届河北张家口宣化一中考试,14)根据下面的数据:x 1 2 3 4y32 48 72 88求得y 关于x 的回归直线方程为y ^=19.2x+12,则这组数据相对于所求的回归直线方程的残差的方差为 .(注:残差是指实际观察值与估计值之间的差) 答案 3.2解析 将x=1,2,3,4代入回归直线方程可得y ^的值依次为31.2,50.4,69.6,88.8,所以残差分别为0.8,-2.4,2.4,-0.8,则残差的平均数为0,所以残差的方差为0.82+(-2.4)2+2.42+(-0.8)24=3.2.16.(2022届山东潍坊10月摸底,14)已知关于x,y 的一组数据:x 1 m 3 4 5 y0.50.6n1.41.5根据表中数据得到的回归直线方程为y ^=0.28x+0.16,则n-0.28m 的值为 . 答案 0.44解析 根据题表中的数据,可得x =1+m+3+4+55=13+m 5,y =0.5+0.6+n+1.4+1.55=4+n5,即样本点的中心为(13+m 5,4+n5), 则4+n 5=0.28×13+m5+0.16, 即4+n=0.28×(13+m)+0.8, 解得n-0.28m=0.44.三、解答题17.(2022届河北唐山摸底,18)数字人民币是由中国人民银行发行的数字形式的法定货币,它由指定运营机构参与运营并向公众兑换,与纸钞和硬币等价.截至2021年6月30日,数字人民币试点场景已超132万个,覆盖生活缴费、餐饮服务、交通出行、购物消费、政务服务等领域.为了进一步了解大众对数字人民币的感知以及接受情况,某机构进行了一次问卷调查,部分结果如下:小学及 以下 初中 高中 大学 专科 大学本科硕士研究生及以上不了解数字人民币 35 35 80 55 64 6 了解数字人民币406015011014025(1)如果将高中及高中以下的学历称为“低学历”,大学专科及以上的学历称为“高学历”,根据所给数据,完成下面的2×2列联表;学历 了解情况低学历高学历 合计不了解数字人民币了解数字人民币合计(2)若从低学历的被调查者中,按对数字人民币的了解程度用分层随机抽样的方法抽取8人,然后从这8人中抽取2人进行进一步调查,求被选中的2人中至少有1人对数字人民币不了解的概率; (3)根据列联表,判断是否有95%的把握认为是否了解数字人民币与学历高低有关. 附:K2=n(ad -bc)2(a+b)(c+d)(a+c)(b+d).P(K 2≥k 0) 0.050 0.0100.001k 03.8416.635 10.828解析(1)2×2列联表如下:学历了解情况低学历 高学历合计 不了解数字人民币 150 125 275 了解数字人民币250 275 525 合计400400800(2)由题意,抽取的8人中,不了解数字人民币的有8×150400=3人,了解数字人民币的有8×250400=5人,从这8人中抽取2人,这2人中至少有1人对数字人民币不了解的概率为1-C 52C 82=914.(3)根据(1)中的列联表得K 2=800×(150×275-125×250)2275×525×400×400≈3.463<3.841,故没有95%的把握认为是否了解数字人民币与学历高低有关.18.(2022届山东潍坊10月段考,17)某汽车公司的A 型号汽车近期销量锐减,该公司为了解销量锐减的原因,就是否支持购买A 型号汽车进行了市场调查,在所调查的1 000个对象中,年龄在[20,30)的群体有200人,支持率为0%,年龄在[30,40)和[40,50)的群体中,支持率均为3%;年龄在[50,60)和[60,70)的群体中,支持率分别为6%和13%,若在调查的对象中,除[20,30)的群体外,其余各年龄层的人数分布情况如频率分布直方图所示,其中最后三组的频数构成公差为100的等差数列.(1)求年龄在[50,60)的群体的人数;(2)请完成2×2列联表,并根据表中的数据,判断能否在犯错误的概率不超过0.001的前提下认为年龄与支持率有关.年龄分布 是否支持 [30,40)和 [40,50) [50,60)和 [60,70)合计支持 不支持 合计附:P(K 2≥k 0) 0.15 0.10 0.05 0.025 0.010 0.005 0.001 k 02.072 2.0763.841 5.024 6.635 7.879 10.828参考公式:K2=n(ad -bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d;参考数据:125×33=15×275,125×97=25×485解析 (1)设年龄在[50,60)的群体的人数为x,则最后三组人数之和为3x, 所以四组总人数为4x=800,解得x=200, 所以年龄在[50,60)的群体的人数为200.(2)在频率分布直方图中,年龄在[30,40)的群体有200人,在[40,50)的群体有300人,在[50,60)的群体有200人,在[60,70)的群体有100人.由题意,年龄在[30,40)和[40,50)的群体的支持人数为6+9=15,在[50,60)和[60,70)的群体的支持人数为12+13=25.根据题意填写列联表如下:年龄分布是否支持[30,40)和[40,50)[50,60)和[60,70)合计支持152540不支持485275760合计500300800所以K2=800×(15×275-25×485)240×760×300×500≈11.228>10.828,故能在犯错误的概率不超过0.001的前提下认为年龄与支持率有关.19.(2022届河南开封月考一,18)在传染病学中,通常把从致病刺激物侵入机体或者对机体发生作用起,到机体出现反应或开始呈现症状时止的这一阶段称为潜伏期.一研究团队统计了某地区200名某传染病患者的相关信息,得到如下表格:潜伏期(单位:天)[0,2](2,4](4,6](6,8](8,10](10,12](12,14]人数174162502631(1)求这200名患者的潜伏期的样本平均数x(同一组中的数据用该组区间的中点值作代表);(2)该传染病的潜伏期受诸多因素的影响,为研究潜伏期与患者年龄的关系,以潜伏期是否超过6天为标准进行分层抽样,从上述200名患者中抽取40人,得到如下列联表.请将列联表补充完整,并根据列联表判断是否有95%的把握认为潜伏期与患者年龄有关.潜伏期≤6天潜伏期>6天总计50岁以上(含50岁)2050岁以下9总计40附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d.P(K2≥k0)0.050.0250.010k0 3.841 5.024 6.635解析(1)由题得x=1200×(1×17+3×41+5×62+7×50+9×26+11×3+13×1)=5.4(天).(2)200名患者中,潜伏期未超过6天所占的频率为1200×(17+41+62)=35,所以所抽取的40名患者中潜伏期未超过6天的人数为40×35=24,则2×2列联表如下表所示:潜伏期 ≤6天 潜伏期 >6天 总计 50岁以上 (含50岁) 15 5 20 50岁以下 9 11 20 总计241640K 2=40×(15×11-5×9)220×20×24×16=3.75<3.841,因此,没有95%的把握认为潜伏期与患者年龄有关.20.(2021成都二诊,18)某种机械设备随着使用年限的增加,它的使用功能逐渐减退,使用价值逐年减少,通常把它使用价值逐年减少的“量”换算成费用,称之为“失效费”.某种机械设备的使用年限x(单位:年)与失效费y(单位:万元)的统计数据如下表所示:使用年限x (单位:年) 1234567 失效费y (单位:万元)2.903.30 3.604.40 4.805.205.90(1)由上表数据可知,可用线性回归模型拟合y 与x 的关系,请用相关系数加以说明;(精确到0.01) (2)求出y 关于x 的线性回归方程,并估算该种机械设备使用10年的失效费. 参考公式:相关系数r=∑i=1n(x i -x)(y -y)√∑i=1(x i -x)2∑i=1(y i -y)2.线性回归方程y ^=b ^x+a ^中斜率和截距最小二乘估计计算公式:b ^=∑i=1n(x i -x)(y i -y)∑i=1n(x i -x)2,a ^=y -b ^x .参考数据:∑i=17(x i -x )(y i -y )=14.00,∑i=17(y i -y )2=7.08,√198.24≈14.10.解析 (1)由题意,知x =1+2+3+4+5+6+77=4,y =2.90+3.30+3.60+4.40+4.80+5.20+5.907=4.30,∑i=17(x i -x )2=(1-4)2+(2-4)2+(3-4)2+(4-4)2+(5-4)2+(6-4)2+(7-4)2=28,∴r=√28×7.08=√198.24≈14.0014.10≈0.99.因为y 与x 的相关系数近似为0.99,所以y 与x 的线性相关程度相当大,从而可以用线性回归模型拟合y 与x 的关系.(2)∵b ^=∑i=17(x i -x)(y i -y)∑i=17(x i -x)2=1428=0.5,∴a ^=y -b ^x =4.3-0.5×4=2.3.∴y 关于x 的线性回归方程为y ^=0.5x+2.3. 将x=10代入线性回归方程,得y ^=0.5×10+2.3=7.3. ∴估算该种机械设备使用10年的失效费为7.3万元.21.(2021合肥质检,19)人类已经进入大数据时代.目前,数据量级已经从TB(1TB=1 024GB)级别跃升到PB(1PB=1 024TB),EB(1EB=1 024PB)乃至ZB(1ZB=1 024EB)级别.国际数据公司(IDC)研究结果表明,2008年全球产生的数据量为0.49ZB,2009年数据量为0.8ZB,2010年增长到1.2ZB,2011年数据量更是高达1.82ZB.下表是国际数据公司(IDC)研究的全球近6年每年产生的数据量(单位:ZB)及相关统计量的值:年份 2014 2015 2016 2017 2018 2019 序号x123456 年数据量y 6.68.6 16.1 21.6 33.041.0x y z ∑i=16(x i-x )2∑i=16(z i-z )2∑i=16(x i -x )(y i-y )∑i=16(x i-x )(z i-z )3.5 21.152.8517.513.82125.356.73表中z i =ln y i ,z =16∑i=16z i .(1)根据上表数据信息判断,方程y=c 1·e c 2x (e 是自然对数的底数)更适宜作为该公司统计的年数据量y 关于年份序号x 的回归方程类型,试求此回归方程(c 2精确到0.01);(2)有人预计2021年全世界产生的数据规模将超过2011年的50倍.根据(1)中的回归方程,说明这种判断是否准确,并说明理由. 参考数据:e4.56≈95.58,e4.58≈97.51,回归方程y ^=a ^+b ^x 中,b ^=∑i=1n(x i -x)(y i -y)∑i=1n(x i -x)2=∑i=1nx i y i -nx y ∑i=1nx i 2-nx 2,a ^=y -b ^x .解析 (1)由y=c 1·ec 2x得ln y=c 2x+ln c 1,即z=c 2x+ln c 1,∴c 2=∑i=16(x i -x)(z i -z)∑i=16(x i -x)2=6.7317.5≈0.38.又∵z =c 2x +ln c 1,0.38×3.5+ln c 1=2.85,ln c 1=1.52.∴ln y=0.38x+1.52,即y=e0.38x+1.52为所求的回归方程.≈52.52.(2)根据(1)知回归方程为y=e0.38x+1.52.当x=8时,y=e0.38×8+1.52≈95.58,95.581.82据此可以判断2021年全球产生的数据量超过2011年的50倍,因此,这种判断是准确的.22.(2022届广西柳州铁一中学“韬智杯”大联考,17)某班的50名学生进行不记名问卷调查,内容为本周使用手机的时长,数据统计如下:时长(小时)[0,5)[5,10)[10,15)[15,20)[20,25]女生人数411320男生人数317631(1)求这50名学生本周使用手机的平均时长(同一组中的数据用该组区间的中点值作代表);(2)若时长为[0,10)被认定“不依赖手机”,时长为[10,25]被认定“依赖手机”,根据以上数据完成2×2列联表:不依赖手机依赖手机总计女生男生总计能否在犯错概率不超过0.15的前提下,认为依赖手机与学生的性别有关系?P(K2≥k0)0.150.100.050.0250.0100.0050.001k0 2.072 2.706 3.841 5.024 6.6357.87910.828参考公式:K2=n(ad-bc)2,n=a+b+c+d.(a+b)(c+d)(a+c)(b+d)解析(1)这50名学生本周使用手机的平均时长为1×[2.5×(4+3)+7.5×(11+17)+12.5×(3+6)+17.5×(2+3)+22.5×(0+1)]=9(小时).50(2)根据题意得列联表如下:不依赖手机依赖手机总计女生15520男生201030总计351550K 2=50×(15×10-5×20)220×30×35×15≈0.397<2.072,所以不能在犯错概率不超过0.15的前提下,认为依赖手机与学生的性别有关系.。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
限时规范检测(六十) 变量间的相关关系、统计案例
(时间:45分钟 分值:57分)
一、选择题(共5个小题,每题5分)
1.(2012·厦门质检)某产品的广告费用x 与销售额y 的统计数据如下表:
根据上表可得回归方程y =b x +a 中的b 为7,据此模型,若广告费用为10万元,则预计销售额等于( )
A .42.0万元
B .57.0万元
C .66.5万元
D .73.5万元
2.(2012·莆田模拟)已知具有线性相关的两个变量x ,y 之间的一组数据如下:
且回归方程是y ^
=0.95x +a .则当x =6时,y 的预测值为( ) A .8.4 B .8.3 C .8.2
D .8.1
3.(2012·湖南高考)设某大学的女生体重y (单位:kg)与身高x (单位:cm)具有线性相关关系,根据一组样本数据(x i ,y i )(i =1,2,…,n ),用最小二乘法建立的回归方程为y ^
=0.85x -85.71,则下列结论中不.
正确的是( ) A .y 与x 具有正的线性相关关系 B .回归直线过样本点的中心(x ,y )
C .若该大学某女生身高增加1 cm ,则其体重约增加0.85 kg
D .若该大学某女生身高为170 cm ,则可断定其体重必为58.79 kg 4.(2012·东北三校联考)下列说法:
①将一组数据中的每个数据都加上或减去同一个常数后,方差恒不变; ②设有一个回归方程y ^
=3-5x ,变量x 增加一个单位时,y 平均增加5个单位; ③回归方程y ^=b ^x +a ^
必过(x ,y );
④有一个2×2列联表中,由计算得K 2=13.079,则有99%的把握确认这两个变量间有关系.其中错误的个数是( )
A .0
B .1
C .2
D .3
5.甲、乙、丙、丁四位同学各自对A 、B 两变量的线性相关性做试验,并用回归分析方法分别求得相关系数r 与残差平方和m 如下表:
则哪位同学的试验结果体现A 、B 两变量更强的线性相关性( ) A .甲 B .乙 C .丙
D .丁 二、填空题(共2个小题,每题4分)
6.(2012·宁夏模拟)某单位为了了解用电量y 度与气温x ℃之间的关系,随机统计了某4天的用电量与当天气温,并制作了对照表:
由表中数据得线性回归方程y =bx +a 中b =-2,预测当气温为-4 ℃时,用电量的度数约为________.
7.(2012·嘉兴联考)为了判断高中三年级学生选修文科是否与性别有关,现随机抽取50名学生,得到如下2×2列联表:
已知P (K 2≥3.841)≈0.05,P (K 2≥5.024)≈0.025.
根据表中数据,得到K 2
=50×(13×20-10×7)223×27×20×30
≈4.844,则认为选修文科与性别有关系
出错的可能性约为________.
三、解答题(共2个小题,每题12分)
8.(2012·扬州模拟)为了分析某个高三学生的学习状态,对其下一阶段的学习提供指导性建议.现对他前7次考试的数学成绩x 、物理成绩y 进行分析.下面是该生7次考试的成绩.
(1)他的数学成绩与物理成绩哪个更稳定?请给出你的证明;
(2)已知该生的物理成绩y 与数学成绩x 是线性相关的,若该生的物理成绩达到115分,请你估计他的数学成绩大约是多少?并请你根据物理成绩与数学成绩的相关性,给出该生在学习数学、物理上的合理建议.
9.(2012·辽宁高考改编)电视传媒公司为了解某地区电视观众对某类体育节目的收视情况,随机抽取了100名观众进行调查.下面是根据调查结果绘制的观众日均收看该体育节目时间的频率分布直方图:
将日均收看该体育节目时间不低于40分钟的观众称为“体育迷”.
(1)根据已知条件完成下面的2×2列联表,并据此资料判断是否有95%的把握认为“体育迷”与性别有关?
(2)将上述调查所得到的频率视为概率.现在从该地区大量电视观众中,采用随机抽样方法每次抽取1名观众,抽取3次,记被抽取的3名观众中的“体育迷”人数为X .若每次抽取的结果是相互独立的,求X 的分布列,期望E (X )和方差D (X ).
答 案
限时规范检测(六十)
1.解析:选D 由表中数据可知x =
3+4+5+64=4.5,y =25+30+40+45
4
=35,故a ^=y -b ^·x =35-7×4.5=3.5,故y ^
=7x +3.5,广告费为10万元时,预报销售额为7×10+3.5=73.5(万元).
2. 解析:选B x =
10
5=2.y =2.2+4.3+4.5+4.8+6.75
=4.5,
∵回归直线过(x ,y )∴4.5=0.95×2+a , ∴a =2.6. ∴y ^=0.95x +2.6,把x =6代入得y ^
=8.3.
3. 解析:选D ∵0.85>0,∴y 与x 正相关,
∴A 正确.∵线性回归方程经过样本点的中心(x ,y ),
∴B 正确;∵Δy =0.85(x +1)-85.71-(0.85 x -85.71)=0.85,∴C 正确.故选D. 4. 解析:选B 一组数据都加上或减去同一个常数,数据的平均数有变化,方差不变(方差是反映数据的波动程度的量),①正确;回归方程中x 的系数具备直线斜率的功能,对于
回归方程y ^
=3-5x ,当x 增加一个单位时,y 平均减少5个单位,②错误;由线性回归方程
的定义知,线性回归方程y ^=b ^x +a ^
必过点(x ,y ),③正确;因为K 2=13.079>6.635,故有99%的把握确认这两个变量有关系,④正确.
5. 解析:选D 丁同学所得相关系数0.85最大.残差平方和m 最小,所以A 、B 两变量线性相关性更强.
6. 解析:x =10,y =40,回归直线过点(x ,y ), ∴40=-2×10+a ,∴a =60,∴y ^
=-2x +60.
令x =-4,∴y ^
=(-2)×(-4)+60=68. 答案:68
7. 解析:由K 2=4.844>3.841.
故认为选修文科与性别有关系出错的可能性约为5%. 答案:5%
8.解:(1)x =100+-12-17+17-8+8+12
7
=100;
y =100+-6-9+8-4+4+1+6
7
=100;
∴s 2数学=9947=142.∴s 2物理=250
7
. 从而s 2数学>s 2
物理,∴物理成绩更稳定.
(2)由于x 与y 之间具有线性相关关系,根据回归系数公式得到
b ^= 7
i =1x i y i -7x -y -
7i =
1
x 2i -7x 2
=497994=0.5,
a ^=y -
b ^
x =100-0.5×100=50.
∴回归方程为y ^
=0.5x +50.
当y =115时,x =130,即该生物理成绩达到115分时,他的数学成绩大约为130分. 建议:进一步加强对数学的学习,提高数学成绩的稳定性,将有助于物理成绩的进一步提高.
9.解:(1)由频率分布直方图可知,在抽取的100人中,“体育迷”有25人,从而2×2列联表如下:
将2×2列联表中的数据代入公式计算,得
K 2
=100×(30×10-45×15)245×55×75×25
=10033≈3.030.
因为3.030<3.841,所以没有95%的把握认为“体育迷”与性别有关.
(2)由频率分布直方图知抽到“体育迷”的频率为0.25,将频率视为概率,即从观众中
抽取一名“体育迷”的概率为1
4
.
由题意X ~B ⎝⎛⎭
⎫3,1
4,从而X 的分布列为
E (X )=np =3×14=3
4
,
D (X )=np (1-p )=3×14×34=9
16
.。