2020年高考数学第68讲变量的相关性回归分析独立性检验
高考数学考点专题:统计与统计案例:变量间的相关关系与独立性检验
变量间的相关关系与独立性检验【考点梳理】1.回归分析回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法;判断相关性的常用统计图是散点图;统计量有相关系数与相关指数.(1)在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关.(2)在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.(3)如果散点图中点的分布从整体上看大致在一条直线附近,称两个变量具有线性相关关系.2.线性回归方程(1)最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法.(2)回归方程:两个具有线性相关关系的变量的一组数据:(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其回归方程为y ^=b ^x +a ^,则b ^=∑ni =1 (x i -x )(y i -y )∑ni =1 (x i -x )2=∑ni =1x i y i -n x y ∑n i =1x 2i -n x 2,a ^=y -b ^x .其中,b ^是回归方程的斜率,a ^是在y 轴上的截距.3.残差分析(1)残差:对于样本点(x 1,y 1),(x 2,y 2),…,(x n ,y n ),它们的随机误差为e i =y i -bx i -a ,i =1,2,…,n ,其估计值为e ^i =y i -y ^i =y i -b ^x i -a ^,i =1,2,…,n ,e ^i 称为相应于点(x i ,y i )的残差.(2)相关指数:R 2=1-∑ni =1 (y i -y ^i )2∑n i =1 (y i -y )2.4.独立性检验(1)利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验.(2)列联表:列出的两个分类变量的频数表,称为列联表.假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(2×2列联表)为则随机变量K2=n(ad-bc)2(a+b)(a+c)(b+d)(c+d)(其中n=a+b+c+d为样本容量).【教材改编】1.(必修3P101A组T8改编)改革开放以来,我国教育事业发展迅速,某省把近10年来农村、县城、地级市和省城每年考入大学的百分比作为因变量,把年份x作为自变量得到四条回归直线.省城ˆ 2.849.50y x=+,地级市ˆ 2.528.35y x=+,县城ˆ 2.31 6.76y x=+,农村ˆ0.42 1.80y x=+,则四个区域中,大学入学率年增长率最快的区域是()A.省城B.地级市C.县城D.农村[答案] A[解析] 四条回归直线,斜率最大的是省城,故选A.2.(必修3 P87内文改编)登山族为了了解某山高y(百米)与气温x(C )之间的关系,随机统计了4次山高与相应的气温,并制作了对照表.由表中数据,得到线性回归方程ˆˆa∈).由此估计山高为72(百2=-+(ˆRy x a米)处气温的度数为()A.10-B.8-C.6-D.4-[答案] C[解析] 10x=,40y=,∴样本中心点为()10,40,回归直线过样本中心点,∴ˆa=,=-+,即ˆ604020a∴线性回归方程为ˆ260=-+,y x∴山高为72(百米)处气温的度数为6-,故选C.3.(必修3P85探究改编)成年人体脂肪百分比y与年龄x的线性回归关系为ˆ0.5770.448=-,年龄增加一岁则脂肪百分比()y xA.增加57.7% B.增加0.577%C.减少44.8% D.减少0.448%[答案] B[解析] ˆ0.5770.448=-,y x∴()()+---=,故选B.0.57710.4480.5770.4480.577x x4.(选修1-2 P6例2改编)一只红铃虫的产卵y和温度x有关,根据收集的数据散点分布在曲线y=c12c xe的周围,若用线性回归模型建立回归关系,则应作下列哪个变换()A.t=ln x B.t=x2C.t=ln y D.t=e y[答案] C[解析] 由y =c 12c x e 得c 2x =ln yc 1=ln y -ln c 1,令t =ln y ,得t =c 2x +ln c 1,故选C.5.(必修3 P 95B 组T 1改编)某科研所对新研发的一种产品进行合理定价,该产品按事先拟定的价格试销得统计数据.回归方程为y ^=b^x +a ^,(其中已算出b ^=-20);该产品的成本为4.5元/件,为使科研所获利最大,该产品定价应为( ) A .6.5元/件 B .7.5元/件 C .8.5元/件 D .9.5元/件[答案] C[解析] 依题意:x =16(8+8.2+8.4+8.8+8. 6+9)=8.5,y =16(90+84+83+80+75+68)=80. 又b^=-20, ∴a^=y -b ^x =80+20×8.5=250, ∴回归直线的方程为y ^=-20x +250. 设科研所所得利润为W ,设定价为x ,∴W =(x -4.5)(-20x +250)=-20x 2+340x -1 125, ∴当x =34040=8.5时,W max =320.故当定价为8.5元时,W 取得最大值.故选C.6.(必修3 P 92练习T 2改编)已知x ,y 之间的一组数据如下表:对于表中数据,现给出如下拟合直线:①y =x +1;②y =2x -1;③y =85x -25;④y =32x .则根据最小二乘法的思想求得拟合程度最好的直线是________(填序号).[答案] ③[解析] 由题意知x =4,y =6, ∴b ^=∑5i =1x i y i -5x y ∑5i =1x 2i-5x 2=85,∴a ^=y -b ^x =-25,∴y ^=85x -25.7.(选修1-2 P 16习题T 2改编)某校某次数学考试规定80分以上(含80分)为优分,在1 000名考生中随机抽取的100名学生中,“男生组”中的优分有15人,“女生组”中的优分有15人,据此可得2×2列联表如下:为了研究数学成绩与性别是否有关,采用独立检验的方法进行数据处理,则正确的结论是________.附表及公式K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ).[答案] 没有90%以上的把握认为“数学成绩与性别有关” [解析] K 2=100×(15×25-15×45)260×40×30×70≈1.79,因为1.79<2.706,所以没有90%以上的把握认为“数学成绩与性别有关”.8.(必修3 P 90例改编)某位同学进行寒假社会实践活动,为了对白天平均气温与某奶茶店的某种饮料销量之间的关系进行分析研究,他分别记录了1月11日至1月15日的白天平均气温x (℃)与该奶茶店的这种饮料销量y (杯),得到如下数据:(1)若先从这5组数据中抽出2组,求抽出的2组数据恰好不是相邻2天数据的概率;(2)请根据所给5组数据,求出y 关于x 的线性回归方程y ^=b ^x +a ^;并根据线性回归方程预测当气象台预报1月16日的白天平均气温为7℃时奶茶店这种饮料的销量.附:线性回归方程y ^=b^x +a ^中, ⎩⎪⎨⎪⎧b ^=∑i =1n(x i -x )(y i -y )∑i =1n(x i-x )2=∑i =1nx i y i-nx -y -∑i =1nx 2i-n x 2a^=y -b ^x ,其中x ,y 为样本平均值.[解析] (1)设“选取的2组数据恰好不是相邻2天的数据”为事件A .所有基本事件(m ,n )(m ,n 为日期)为(11,12),(11,13),(11,14),(11,15),(12,13),(12,14),(12,15),(13,14),(13,15),(14,15),共10个,事件A 包括的基本事件有(11,13),(11,14),(11,15),(12,14),(12,15),(13,15)共6个.∴P (A )=610=35.(2)∵x=9+10+12+11+85=10,y=23+25+30+26+215=25.∴由公式,求得b^=2.1,a^=y-b^x=4∴y关于x的线性回归方程为y^=2.1x+4,∵当x=7时,y^=2.1×7+4=18.7,∴该奶茶店这种饮料的销量大约为19杯(或18杯).9.(选修1-2 P15练习改编)甲、乙两所学校高三年级分别有1 200人,1 000人,为了解两所学校全体高三年级学生在该地区六校联考的数学成绩情况,采用分层抽样方法从两所学校一共抽取了110名学生的数学成绩,并作出了频数分布统计表如下:甲校:乙校:(1)计算x,y的值;(2)若规定考试成绩在[120,150]内为优秀,由以上统计数据填写下面2×2列联表,并判断是否有90%的把握认为两所学校的数学成绩有差异.参考数据与公式:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),n =a +b +c +d临界值表[解析] (1)甲校抽取学生的人数为110×1 2002 200=60, 乙校抽取学生的人数为110×1 0002 200=50,故x =10,y =7. (2)表格填写如下:K 2=110×(15×30-20×45)260×50×35×75≈2.83>2.706.又因为1-0.10=0.9,故有90%的把握认为两个学校的数学成绩有差异.。
12.2 变量的相关性,回归分析和独立性检验
不相关——如果所有的点在散点图中没有 如果所有的点在散点图中没有 不相关 显示任何关系,则称变量间不相关. 显示任何关系,则称变量间不相关
独立性检验的基本思想及初步应用
独立性检验是对两种分类变量之间是 独立性检验是对两种分类变量之间是 否有关系进行检验的一种统计方法。 否有关系进行检验的一种统计方法。
问题一: 问题一:人的身高与体重之间是否存在函 数关系? 数关系? 探究:我们随机地抽取9名 岁的男生 岁的男生, 探究:我们随机地抽取 名15岁的男生,测 得身高,体重如下表: 得身高,体重如下表:
编号 1 2 157 44 3 155 45 4 175 55 5 168 54 6 7 8 160 50 9 163 55 身高/cm 165 身高 体重/kg 52 体重 157 178 47 62
曲线拟合——从散点图可以看出,如果变量 从散点图可以看出, 曲线拟合 从散点图可以看出 之间存在着某种关系, 之间存在着某种关系,这些点会有一个集中 的大致趋势, 的大致趋势,这种趋势通常可以用一条光滑 的曲线来近似表示, 的曲线来近似表示,这样近似的过程叫做曲 线拟合。 线拟合。 线性相关——若两个变量 和y的散点图中, 若两个变量x和 的散点图中 的散点图中, 线性相关 若两个变量 所有点看上去都在一条直线附近波动, 所有点看上去都在一条直线附近波动,则称 变量间是线性相关。 变量间是线性相关。 非线性相关——若所有点看上去都在某条曲 非线性相关 若所有点看上去都在某条曲 不是一条直线)附近波动, 线(不是一条直线)附近波动,则称此相关 为非线性相关。 为非线性相关。
独立性检验
现在的问题是: 现在的问题是: 想知道能够有多大把握认为“吸烟与患肺癌有关” 想知道能够有多大把握认为“吸烟与患肺癌有关”。 (1)提出假设 0 :吸烟与患肺癌没有关系 )提出假设H 吸烟与患肺癌列联表 不患肺癌 不吸烟 吸烟 总计 患肺癌 总计
变量间的相关关系及独立性检验
判断两个变量之间是否存在非线性相关关系可以通过绘制散点图或计算非 线性相关系数等方法来进行。
相关系数及其计算
相关系数是衡量两个变量之间相关关系的统计量,其计算方法有多种,其中最常用的是皮尔逊相关系 数和斯皮尔曼秩相关系数。
皮尔逊相关系数使用积差法计算,其值介于-1和1之间,用于衡量线性相关关系的强度和方向。斯皮尔 曼秩相关系数则用于衡量等级数据之间的相关性。
变量间的相关关系及独立性检验
目录
• 变量间的相关关系 • 变量间的独立性检验 • 变量间的因果关系推断 • 相关性与独立性的区别与联系
01
变量间的相关关系
线性相关关系
线性相关关系是指两个或多个变量之间存在一种可以用直 线表示的依赖关系。当一个变量发生变化时,另一个变量 也会随之发生相应的变化。
独立性检验
常用于验证两个变量之间是否存在直 接的因果关系,例如在经济学中检验 货币政策是否对经济增长有影响,或 者在心理学中检验某种疗法是否对心 理健康有影响。
THANKS。
因果关系推断的方法
基于理论的推断
01
根据相关学科的理论和知识,推断变量之间的因果关
系。
基于相关关系的推断
02 通过分析变量之间的相关系数、相关图等,推断变量之间的因果关系。基于实验的推断03
通过实验的方式,控制其他变量的影响,观察单一变
量的变化对结果变量的影响,从而推断因果关系。
因果关系推断的局限性
相关性与独立性的联系
相关性和独立性是描述变量间关系的 两种不同角度,有时一个变量可能既 与另一个变量相关,又与第三个变量 独立。
在某些情况下,相关性和独立性可能 相互转化,例如当引入第三个变量时 ,两个原本独立的变量可能变得相关 。
最新-变量的相关性回归分析独立性检验1-PPT文档资料
对值之和的大小,则显得更有说服力.
方法提炼
1.计算回归直线方程中的参数a、b时应分 层进行,避免因计算错误而产生误差.
2.求线性回归方程之前,应对数据进行线 性相关分析.
3.回归分析的关键是根据散点图选择函数 模型,用相关系数判定哪种模型更好.
4.独立性检验不能用比例余数来判定,a、 b、c、d成比例扩大,K2的值是不同的,正确 列出2×2列联表是解题的关键步骤.
yˆ =menx, 则得到 yˆ =3.0519e0.6902x.
点评回归方程不一定惟一,该题还
可以用二次函数为模型.
题型二 独立性检验
例2 在对人群的休闲方式的一次调查中,
共调查了124人,其中女性70人,女性中 有43人主要的休闲方式是看电视,另外27 人主要的休闲方式是运动;男性中21人主 要的休闲方式是看电视,其余男性的主要 休闲方式是运动.
点评题型二回归分析例例2某车间为了规定工时定额需要确定加工零件所花费的时间为此做了四次试验根据试验数据得到如下图所示的散点图其中x表示零件的个数y表示加工时间
变量的相关性、回归分析、 独立性检验
1.两个变量间的相关关系
如果两个变量之间确实存在关系,但又没 有函数关系所具有的确定性,它们的关系带有 随机性,则称这两个变量具有①相关关系 .
质品,从而甲厂生产的零件的优质品率估 计为 3 6 0 =72%;乙厂抽查的产品中有320
500
件优质品,从而乙厂生产的零件的优质品 率估计为 3 2 0 =64%.
500
(2) 2×2列联表如下:
甲厂 乙厂 优质品 360 320 非优质品 140 180
合计 500 500
合计 680 320 1000
回归直线方程与独立性检验-讲义(学生版)
回归直线方程与独立性检验一、课堂目标1、明确建立回归模型的基本步骤、熟练运用线性回归模型解决非线性相关问题.2、能够运用独立性检验对两个分类变量是否线性相关作出判断.二、直击高考知识模块知识内容全国卷常见题型回归分析一元线性回归模型2020年全国三卷18题解答题回归直线方程独立性检验分类变量2020年全国二卷18题解答题三、知识讲解1. 回归分析知识回顾方法提升考点一:回归直线方程的求解对于一组具有线性相关关系的数据:,,,,,我们知道其回归直线的斜率和截距的最小二乘法估计分别为:其中,,称为样本点的中心,位于回归直线上.【思想方法与技巧】利用线性相关回归分析处理非线性问题:研究两个变量的关系是,我们常常根据样本生成点坐标在平面直角坐标系中作出散点图,观察散点图中样本点的分布.从整体看,如果样本点并没有分布在某一条直线附近,这两个变量之间不具有线性相关关系,也就是非线性相关关系.考点二:相关系数的求解对于变量与随机抽到的对数据,,,,,可以利用相关系数来衡量两个变量之间线性相关关系,样本相关系数的计算公式为:.【思想方法与技巧】利用相关系数评判结果如下:(1)时,表示两个变量正相关;(2)时,表示两个变量负相关;(3)越接近于,表明两个变量的线性相关程度越强;(4)越接近于,表明两个变量的线性相关程度越弱.高考链接1.某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为调查该地区某种野生动物的数量,将其分成面积相近的个地块,从这些地块中用简单随机抽样的方法抽取个作为样区,调查得到样本数据,其中和分别表示第个样区的植物覆盖面积(单(1)(2)(3)位:公顷)和这种野生动物的数量,并计算得,,,,.附:相关系数,.求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘以地块数).求样本的相关系数(精确到).根据现有统计资料,各地块间植物覆盖面积差异很大.为提高样本的代表性以获得该地区这种野生动物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由.(1)(2)2.下图是某地区年至年环境基础设施投资额(单位:亿元)的折线图.为了预测该地区年的环境基础设施投资额,建立了与时间变量的两个线性回归模型.根据年至年的数据(时间变量的值依次为)建立模型①:.根据年至年的数据(时间变量的值依次为)建立模型②:.年份投资额分别利用这两个模型,求该地区年的环境基础设施投资额的预测值.你认为用哪个模型得到的预测值更可靠?并说明理由.3.下图是我国年至年生活垃圾无害化处理量(单位:亿吨)的折线图(1)(2)年份代码年生活垃圾无害化处理量注:年份代码分别对应年亿吨参考数据:,,,.参考公式:相关系数,回归方程中斜率和截距的最小二乘估计公式分别为:,.由折线图看出,可用线性回归模型拟合与的关系,请用相关系数加以说明.建立关于的回归方程(系数精确到),预测年我国生活垃圾无害化处理量.方法应用4.随着互联网的兴起,越来越多的人选择网上购物.某购物平台为了吸引顾客提升销售额,每年双十一都会进行某种商品的促销活动,该商品促销活动规则如下:①“价由客定”,即所有参与该商品促销活动的人进行网络报价,每个人并不知晓其他人的报价也不知道参与该商品促销活动的总人数;②报价时间截止后,系统根据当年双十一该商品数量配额,按照参与该商品促销活动人员的报价从高到低分配名额;③每人限购一件,且参与人员分配到名额时必须购买,某位顾客拟参加年双十一该商品促销活动,他为了预测该商品最低成交价,根据该购物平台的公告统计了最近年双十一参与该商品促销活动的人数(见表):年份年份编号参与人数(百万人)12(2)由收集数据的散点图发现,可用线性回归模拟拟合参与人数(百万人)与年份编号之间的相关关系.请用最小二乘法求关于的线性回归方程:,并预测年双十一参与该商品促销活动的人数.该购物平台调研部门对位拟参与年双十一该商品促销活动人员的报价价格进行了一个抽样调查,得到如下的一份频数表:报价区间(千元)频数求这位参与人员报价的平均值和样本方差(同一区间的报价可用该价格区间的中点值代替).假设所有参与该商品促销活动人员的报价可视为服从正态分布且与可分别由①中所求的样本平均值和样本方差估值,若预计年双十一该商品最终销售量为,请你合理预测(需说明理由)该商品的最低成交价.参考公式及数据()回归方程:,其中,.(),,.()若随机变量服从正态分布,则,,.5.我国全面二孩政策已于年月日起正式实施,国家统计局发布的数据显示,从年到年,中国的人口自然增长率变化始终不大,在上下波动(如图).中国内地总人口和自然增长率总人口自然增长率出生率(万人)为了了解年龄介于岁至岁之间的适孕夫妻对生育二孩的态度如何,统计部门按年龄分为组,每组选取对夫妻进行调查,统计有生育二孩意愿的夫妻数,得到下表:‰(1)(2)有意愿数(参考数据和公式:,,,,,)设每个年龄区间的中间值为 ,有意愿数为,求样本数据的线性回归直线方程,并求该模型的相关系数(结果保留两位小数).从,,,,这五个年龄段中各选出一对夫妻(能代表该年龄段超过半数夫妻的意愿)进一步调研,再从这对夫妻中任选对夫妻,设其中不愿意生育二孩的夫妻数为,求的分布列和数学期望.(1)(2)6.某小区为了调查居民的生活水平,随机从小区住户中抽取个家庭,得到数据如下:家庭编号月收入(千元)月支出(千元)参考公式:回归直线的方程是:,其中,,.据题中数据,求月支出(千元)关于月收入(千元)的线性回归方程(保留一位小数);从这个家庭中随机抽取个,记月支出超过千家庭个数为,求的分布列与数学期望.7.如表中的数据是一次阶段性考试某班的数学、物理原始成绩:学号数学物理学号数学(1)(2)(3)理用这人的两科成绩制作如下散点图:物理数学学号为号的同学由于严重感冒导致物理考试发挥失常,学号为号的同学因故未能参加物理学科的考试,为了使分析结果更客观准确,老师将、两同学的成绩(对应于图中、两点)剔除后,用剩下的个同学的数据作分析,计算得到下列统计指标:数学学科平均分为,标准差为,物理学科的平均分为,标准差为,数学成绩与物理成绩的相关系数为,回归直线(如图所示)的方程为.若不剔除、两同学的数据,用全部的成绩作回归分析,设数学成绩与物理成绩的相关系数为,回归直线为,试分析与的大小关系,并在图中画出回归直线的大致位置.如果同学参加了这次物理考试,估计同学的物理分数(精确到个位).就这次考试而言,学号为号的同学数学与物理哪个学科成绩要好一些?(通常为了比较某个学生不同学科的成绩水平可按公式统一化成标准分再进行比较,其中为学科原始分,为学科平均分,为学科标准差).(1)(2)8.已知某校个学生的数学和物理成绩如下表:学生的编号数学物理若在本次考试中,规定数学在分以上(包括分)且物理在分以上(包括分)的学生为理科小能手.从这个学生中抽出个学生,设表示理科小能手的人数,求的分布列和数学期望.通过大量事实证明发现,一个学生的数学成绩和物理成绩具有很强的线性相关关系,在上述表格是正确的前提下,用表示数学成绩,用表示物理成绩,求与的回归方程.参考公式:,其中,.(1)(2)某调查机构为了了解某产品年产量(吨)对价格(千元/吨)和利润的影响,对近五年该产品的年产量和价格统计如下表:求关于的线性回归方程若每吨该产品的成本为千元,假设该产品可全部卖出,预测当年产量为多少时,年利润取到最大值?参考公式:,.(1)(2)10.某农科所对冬季昼夜温差大小与某反季节大豆新品种发芽多少之间进行分析研究,他们分别记录了月日至月日的每天昼夜温差与实验室每天每棵种子中的发芽数,得到如下资料:日期月日月日月日月日月日温差摄氏度发芽颗该农科所确定的研究方案是:先从这组数据中选取组数据求线性回归方程,再用剩下的组数据进行检验.若选取的组数据恰好是连续天的数据(表示数据来自互不相邻的三天),求的分布列及期望.根据月日至日数据,求出发芽数关于温差的线性回归方程.由所求得线性回归方程得到的估计数据与剩下的检验数据的误差均不超过颗,则认为得到的线性回归方程是可靠的,试问所得的线性回归方程是否可靠?附:参考公式:,.(1)11.在年俄罗斯世界杯期间,莫斯科的部分餐厅经营了来自中国的小龙虾,这些小龙虾均标有等级代码,为得到小龙虾等级代码数值与销售单价之间的关系,经统计得到如下数据:等级代码数值销售单价(元)已知销售单价与等级代码数值之间存在线性相关关系,求关于的线性回归方程(系数精(2)若莫斯科某个餐厅打算从上表的种等级的中国小龙虾中随机选种进行促销,记被选中的种等级代码数值在以下(不含)的数量为,求的分布列及数学期望.参考公式:对一组数据,,,,其回归直线的斜率和截距的最小二乘估计分别为:,.(1)(2)12.某动漫影视制作公司长期坚持文化自信,不断挖掘中华优秀传统文化中的动漫题材,创作出一批又一批的优秀动漫影视作品,获得市场和广大观众的一致好评,同时也为公司赢得丰厚的利润.该公司年至年的年利润关于年份代号的统计数据如下表(已知该公司的年利润与年份代号线性相关):年份年份代号年利润(单位:亿元)求关于的线性回归方程,并预测该公司年(年份代号记为)的年利润.当统计表中某年年利润的实际值大于由()中线性回归方程计算出该年利润的估计值时,称该年为级利润年,否则称为级利润年.将()中预测的该公司年的年利润视作该年利润的实际值,现从年至年这年中随机抽取年,求恰有年为级利润年的概率.参考公式:,.2. 独立性检验知识回顾方法提升考点:独立性检验求解步骤(1)准确作出列联表;(2)统计假设成立;(3)计算;(4)将上一步计算得到的观测值与临界值比较,从而接收或拒绝假设.【思想方法与技巧】1、在列联表中,越小,说明两个分类变量之间关系越弱;越大,说明两个分类变量之间关系越强.2、(1)制作列联表时要注意表中相关数据的位置及对应,避免出错;(2)作的列联表的独立性检验时,要求表中的个数据都要大于,因此,在选取样本容量时一定要注意.高考链接13.某学生兴趣小组随机调查了某市天中每天的空气质量等级和当天到某公园锻炼的人次,整理数据得到下表(单位:天):(1)(2)(3)锻炼人次空气质量等级(优)(良)(轻度污染)(中度污染)分别估计该市一天的空气质量等级为,,,的概率.求一天中到该公园锻炼的平均人次的估计值(同一组中的数据用该组区间的中点值为代表).若某天的空气质量等级为或,则称这天“空气质量好”;若某天的空气质量等级为或,则称这天“空气质量不好”.根据所给数据,完成下面的列联表;并根据列联表,判断是否有的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关?人次人次空气质量好空气质量不好附:.第一种生产方式第二种生产方式14.某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取名工人,将他们随机分成两组,每组人,第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:)绘制了如下茎叶图:(1)(2)(3)根据茎叶图判断哪种生产方式的效率更高?并说明理由.求名工人完成生产任务所需时间的中位数,并将完成生产任务所需时间超过和不超过的工人数填入下面的列联表:超过不超过第一种生产方式第二种生产方式根据()中的列联表,能否有的把握认为两种生产方式的效率有差异?附:,(1)(2)(3)15.海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取个网箱,测量各箱水产品的产量(单位:),其频率直方图如下:频率组距箱产量旧养殖法频率组距箱产量新养殖法附:.设两种养殖方法的箱产量相互独立,记表示事件:旧养殖法的箱产量低于, 新养殖法的箱产量不低于,估计的概率.填写下面列联表,并根据列联表判断是否有的把握认为箱产量与养殖方法有关.箱产量箱产量旧养殖法新养殖法根据箱产量的频率分布直方图,求新养殖法箱产量的中位数的估计值(精确到).方法应用(1)(2)(3)16.在传染病学中,通常把从致病刺激物侵入机体或者对机体发生作用起,到机体出现反应或开始呈现该疾病对应的相关症状时止的这一阶段称为潜伏期.一研究团队统计了某地区名患者的相关信息,得到如下表格:潜伏期(单位:天)人数求这名患者的潜伏期的样本平均数(同一组中的数据用该组区间的中点值作代表).该传染病的潜伏期受诸多因素的影响,为研究潜伏期与患者年龄的关系,以潜伏期是否超过天为标准进行分层抽样,从上述名患者中抽取人,得到如下列联表.请将列联表补充完整,并根据列联表判断是否有的把握认为潜伏期与患者年龄有关.潜伏期天潜伏期天总计岁以上(含岁)岁以下总计附:,其中.以这名患者的潜伏期超过天的频率,代替该地区名患者潜伏期超过天发生的概率,每名患者的潜伏期是否超过天相互独立.为了深入研究,该研究团队随机调查了名患者,其中潜伏期超过天的人数最有可能(即概率最大)是多少?17.为了提高生产效益,某企业引进了一批新的生产设备,为了解设备生产产品的质量情况,分别从新、旧设备所生产的产品中,各随机抽取件产品进行质量检测,所有产品质量指标值均在以内,规定质量指标值大于的产品为优质品,质量指标值在的产品为合格品.旧设备所生产的产品质量指标值如频率分布直方图所示,新设备所生产的产品质量指标值如频数分布表所示.(1)(2)(3)频率组距质量指标值质量指标值频数合计请分别估计新、旧设备所生产的产品的优质品率.优质品率是衡量一台设备性能高低的重要指标,优质品率越高说明设备的性能越高.根据已知图表数据填写下面列联表(单位:件),并判断是否有的把握认为“产品质量高与新设备有关”.非优质品优质品合计新设备产品旧设备产品合计附:,其中.用频率代替概率,从新设备所生产的产品中随机抽取件产品,其中优质品数为件,求的分布列及数学期望.18.冬天的北方室外温度极低,若轻薄保暖的石墨烯发热膜能用在衣服上,可爱的医务工作者行动会更方便,石墨烯发热膜的制作:从石墨中分离出石墨烯,制成石墨烯发热膜,从石墨分离石墨烯的一(1)(2)种方法是化学气相沉积法,使石墨升华后附着在材料上再结晶,现在有材料,材料供选择,研究人员对附着在材料,材料上再结晶各做了次试验,得到如下等高条形图.材料试验结果材料试验结果石墨烯再结晶试验试验成功试验失败根据上面的等高条形图,填写如下列联表,判断是否有的把握认为试验成功与材料有关.材料材料合计成功不成功合计研究人员得到石墨烯后,再制作石墨烯发热膜有三个环节:①透明基底及胶层,②石墨烯层,③表面封装层,第一,二环节生产合格的概率均为,第三个环节生产合格的概率为,且各生产环节相互独立,已知生产吨的石墨烯发热膜的固定成本为万元,若生产不合格还需进行修复,第三个环节的修复费用为元,其余环节修复费用均为元.如何定价,才能实现每生产吨石墨烯发热膜获利可达万元以上的目标.附:参考公式:,其中.19.由团中央学校部、全国学联秘书处、中国青年报社共同举办的年度全国“最美中学生”寻访活动结果出炉啦,此项活动于年月启动,面向全国中学在校学生,通过投票方式寻访一批在热爱祖国、勤奋学习、热心助人、见义勇为等方面表现突出、自觉树立和践行社会主义核心价值观的“最美中学生”.现随机抽取了名学生的票数,绘成如图所示的茎叶图,若规定票数在票以上(包括票)定义为风华组.票数在票以下(不包括票)的学生定义为青春组.(1)(2)(3)在这名学生中,青春组学生中有男生人,风华组学生中有女生人,试问有没有的把握认为票数分在青春组或风华组与性别有关.如果用分层抽样的方法从青春组和风华组中抽取人,再从这人中随机抽取人,那么至少有人在青春组的概率是多少?用样本估计总体,把频率作为概率,若从该地区所有的中学(人数很多)中随机选取人,用表示所选人中青春组的人数,试写出的分布列,并求出的数学期望.附:;其中,独立性检验临界表:(1)(2)(3)20.为了保障全国第四次经济普查顺利进行,国家统计局从东部选择江苏,从中部选择河北、湖北,从西部选择宁夏,从直辖市中选择重庆作为国家综合试点地区,然后再逐级确定普查区域,直到基层的普查小区.在普查过程中首先要进行宣传培训,然后确定对象,最后入户登记.由于种种情况可能会导致入户登记不够顺利,这为正式普查提供了宝贵的试点经验.在某普查小区,共有家企事业单位,家个体经营户,普查情况如下表所示:普查对象类型顺利不顺利合计企事业单位个体经营户合计写出选择个国家综合试点地区采用的抽样方法.根据列联表判断是否有的把握认为“此普查小区的入户登记是否顺利与普查对象的类别有关”.以频率作为概率,某普查小组从该小区随机选择家企事业单位,家个体经营户作为普查对象,入户登记顺利的对象数记为,写出的分布列,并求的期望值.附:.(1)(2)(3)21.黄冈市有很多名优土特产,黄冈市的蕲春县就有闻名于世的“蕲春四宝”(蕲竹、蕲艾、蕲蛇、蕲龟),很多人慕名而来旅游,通过随机询问名不同性别的游客在购买“蕲春四宝”时是否在来蕲春县之前就知道“蕲春四宝”,得到如下列联表:男女总计事先知道“蕲春四宝”事先不知道“蕲春四宝”总计附:.写出列联表中各字母代表的数字.由以上列联表判断,能否在犯错误的概率不超过的前提下认为购买“蕲春四宝”和是否“事先知道’蕲春四宝’有关系”?从被询问的名事先知道“蕲春四宝”的顾客中随机选取名顾客,求抽到的女顾客人数的分布列及其数学期望.(1)22.在一次爱心捐款活动中,小李为了了解捐款数额是否和居民自身的经济收入有关,随机调查了某地区的个捐款居民每月平均的经济收入.在捐款超过元的居民中,每月平均的经济收入没有达到元的有个,达到元的有个;在捐款不超过元的居民中,每月平均的经济收入没有达到元的有个.参考数据当时,无充分证据判定变量,有关联,可以认为两变量无关联;当时,有的把握判定变量,有关联;当时,有的把握判定变量,有关联;当时,有的把握判定变量,有关联.附:,其中.在下图表格空白处填写正确数字,并说明是否有以上的把握认为捐款数额是否超过元和居民每月平均的经济收入是否达到元有关?每月平均经济收入达到元每月平均经济收入没有达到元合计捐款超过元 捐款不超过元(2)合计将上述调查所得到的频率视为概率.现在从该地区大量居民中,采用随机抽样方法每次抽取个居民,共抽取次,记被抽取的个居民中经济收入达到元的人数为,求和期望的值.(1)(2)23.2016年月日,“国际教育信息化大会”在山东青岛开幕.为了解哪些人更关注“国际教育信息化大会”,某机构随机抽取了年龄在岁之间的人进行调查,某机构随机抽取了在之间的人进行调查,经统计“青少年”与“中老年”的人数之比为.根据已知条件完成下面的列联表,并判断能否有的把握认为“中老年”比“青少年”更加关注“国际教育信息化大会”.关注不关注合计青少年中老年合计现从抽取的青少年中采取分层抽样的办法选取人进行问卷调查,在这人中再选取人进行面对面询问,记选取的人中关注“国际教育信息化大会”的人数为,求的分布列及数学期望.附:参考公式:,其中.临界值表:(1)(2)24.为了研究家用轿车在高速公路上的车速情况,交通部门对名家用轿车驾驶员进行调查,得到其在高速公路上行驶时的平均车速情况为:在名男性驾驶员中,平均车速超过的有人,不超过的有人.在名女性驾驶员中,平均车速超过的有人,不超过的有人.完成下面的列联表,并判断是否有的把握认为平均车速超过的人与性别有关.平均车速超过人数平均车速不超过人数合计男性驾驶员人数 女性驾驶员人数合计以上述数据样本来估计总体,现从高速公路上行驶的大量家用轿车中随机抽取辆,记这辆车中驾驶员为男性且车速超过的车辆数为,若每次抽取的结果是相互独立的,求的分布列和数学期望.参考公式与数据:,其中,对服务满意对服务不满意合计对商品满意 对商品不满意合计(1)(2)25.近年来,我国电子商务蓬勃发展.年“”期间,某网购平台的销售业绩高达亿元人民币,与此同时,相关管理部门推出了针对该网购平台的商品和服务的评价系统.从该评价系统中选出次成功交易,并对其评价进行统计,网购者对商品的满意率为,对服务的满意率为,其中对商品和服务都满意的交易为次.根据已知条件完成下面的列联表,并回答能否有的把握认为“网购者对商品满意与对服务满意之间有关系”?若将频率视为概率,某人在该网购平台上进行的次购物中,设对商品和服务都满意的次数为随机变量,求的分布列和数学期望.附:(其中为样本容量)26.万众瞩目的第届全国冬季运动运会(简称“十四冬”)于年月日在呼伦贝尔市盛大开幕,期间正值我市学校放寒假,寒假结束后,某校工会对全校名教职工在“十四冬”期间每天收看比赛转播的时间作了一次调查,得到如图频数分布直方图:。
高考数学复习与策略专题8回归分析、独立性检验
图 8-3
(1)应收集多少位女生的样本数据?
(2)根据这 300 个样本数据,得到学生每周平均体育运动时间的频率分布直
方图 (如图 8-3 所示 ),其中样本数据的分组区间为: [0,2],(2,4] ,(4,6] ,(6,8],(8,10],
(10,12],估计该校学生每周平均体育运动时间超过 4 小时的概率.
d=36,n=52,
2
K2=52×20×4×322×0-161×6×3612 =633670.
C 中, a= 8,b= 12,c=8,d=24,a+ b=20,c+d=32, a+ c=16,b+d
= 36,nБайду номын сангаас52,
K2=
52× 8× 24-12×8 20× 32×16× 36
2
=
13 10.
D 中, a= 14,b=6,c=2,d=30, a+ b= 20,c+d=32, a+ c=16,b+d
又因为样本数据中有 210 份是关于男生的, 90 份是关于女生的,所以每周
平均体育运动时间与性别列联表如下:
每周平均体育运动时间与性别列联表
5
7
t =4,∑ i=1 (ti- t )2=28,
7
∑i =1 yi- y 2= 0.55,
7
7
7
∑i=1 (ti- t )(yi- y )=∑i =1tiyi- t ∑i=1yi=40.17- 4× 9.32=2.89,2 分
2.89 ∴r ≈0.55× 2× 2.646≈0.99.
因为 y 与 t 的相关系数近似为 0.99,说明 y 与 t 的线性相关程度相当高,从
= 36,n=52,
2
K2=
【高考数学总复习】:回归性分析与独立性检验(知识点讲解+真题演练+详细解答)
量,例如某同学的数学成绩与化学成绩。
2.线性回归分析 (1) 散点图:将样本中的各对数据在直角坐标系中描点而得到的图形叫做散点图,它直观地 描述了两个变量之间是否有相关关系,是判断两个变量相关性的重要依据。 (2) 回归直线:散点图中点的整体分布在一条直线左右,则称这两个变量之间具有线性相关
(a b)(c d)(a c)(b d )
通过对统计量 K2 的研究,一般情况下认为:
①当 K 2 ≤3.841 时,认为变量 X 与 Y 是无关的。
②当 K 2 >3.841 时,有 95%的把握说变量 X 与 Y 有关;
④ 当 K 2 >6.635 时,有 99%的把握说变量 X 与 Y 有关;
定在多大程度上可以认为“两个分类变量有关系”的方法称为两个分类变量的独立性检验。
2.分类变量的理解: 分类变量是说明事物类别的一个名称,其取值是分类数据。如“性别”就是一个分类变 量,其变量值为“男”或“女”;“行业”也是一个分类变量,其变量值可以为“零售 业”,说明 X 与 Y 无关的把握越小
6. 右表是对与喜欢足球与否的统计列联表依据表中的数据,得到( )
A. K 2 9.564 B. K 2 3.564 C. K 2 2.706 D. K 2 3.841
7. 对两个分类变量 A、B 的下列说法中正确的个数为( ). ①A 与 B 无关,即 A 与 B 互不影响;②A 与 B 关系越密切,则 K2 的值就越大;③K2
x yw
46.6 563 6.8
8
(xi x )2
i 1
(完整版)回归方程和独立性检验知识点讲解
回归分析和独立性检验一、回归分析1、回归直线方程 a x b yˆˆˆ+= (x 叫做解释变量,y 叫做预报变量) 其中∑∑==---=ni ini i ix xy y x xb121)())((ˆ=∑∑==--ni ini ii x n xyx n yx 1221(由最小二乘法得出,考试时给出此公式中的一个)x b y aˆˆ-= ( 此式说明:回归直线过样本的中心点)(y x , ,也就是平均值点。
) 2、几条结论:(1)回归直线过样本的中心点)(y x ,。
(2)b>0时,y 与x 正相关,散点图呈上升趋势;b<0时,y 与x 负相关,散点图呈下降趋势。
(3)斜率b 的含义(举例):如果回归方程为y=2.5x+2, 说明x 增加1个单位时,y 平均增加2.5个单位; 如果回归方程为y=-2.5x+2,说明x 增加1个单位时,y 平均减少2.5个单位。
(4)相关系数r 表示变量的相关程度。
范围:1≤r ,即 11≤≤-rr 越大.,相关性越强.。
0>r 时,y 与x 正相关;0<r 时,y 与x 负相关。
(5)相关指数2R 表示模型的拟合效果。
范围:]10[2,∈R 2R 越大.,拟合效果越好.,(这时:残差平方和越小,残差点在带状区域内的分布比较均匀, 带状区域宽度越窄,拟合精度越高)。
2R 表示解释变量x 对于预报变量y 变化的贡献率。
例如:64.02≈R ,表明“x 解释了64%的y 变化”,或者说“y 的差异有64%是由x 引起的”。
(6)线性回归模型 e a bx y ++=, 其中e 叫做随机误差。
(y 是由x 和e 共同确定的。
)二、独立性检验1、原理:假设性检验(类似反证法原理)。
一般情况下:假设分类变量X 和Y 之间没有关系,通过计算2K 值,然后查表对照相应的概率P , 发现这种假设正确的概率P 很小,从而推翻假设,最后得出X 和Y 之间有关系的可能性为(1-P), 也就是“X 和Y 有关系”。
变量间的相关关系及独立性检验
❖ 2.回归分析:对具有相关关系的两个变量 进行统计分析的方法叫做回归分析.
5. 回归直线:设所求的直线方程为
,其中
求回归直线,使得样本数据的点到它的距离的平方和最小的方法叫做 最小二乘法.
❖ 6.相关系数:r= ❖ 叫做变量y与x之间的样本相关系数,简
❖(1)对变量y与x进行相关性检验; ❖(2)如果y与x有线性相关关系,求回归直线方 程; ❖(3)若实际生产中,允许每小时的产品中有缺 点的零件最多为10个,那么,机器的运转速 度应控制在什么范围内?
解答:
❖ (2) =0.728 6x-0.857 1. ❖ (3)要使 ≤10⇒0.728 6x-0.857
❖ 【例1】山东鲁洁棉业公司的科研人员在7 块并排、形状大小相同的试验田上对某棉 花新品种进行施化肥量x对产量y影响的试 验,得到如下表所示的一组数据(单位: kg).
❖思 维 点 拨 : 用 施 化 肥 量 x 作 为横轴,产量y为纵轴可作出 散点图,由散点图即可分析 是否具有线性相关关系. ❖解答:(1)散点图如右图所示,
❖ 【答题模板】
❖(2)由于x与y之间具有线性相关关系,根据回 归系数公式得到
❖b=
=0.5,a=100-0.5×100=50,
❖∴线性回归方程为 =0.5x+50.
❖当y=115时,x=130.
称相关系数,用 ❖ 它来衡量两个变量之间的线性相关程
度.
❖ 7.相关系数的性质:|r|≤1,且|r|越接近1,
相关程度越大;且|r|越接近0,相关程度越
❖ 1.在对两个变量x,y进行线性回归分析时 有下列步骤:
相关关系、回归分析与独立性检验课件
(2)回归直线方程的求法 ①回归直线:观察散点图的特征,如果散点图中点的分 布从整体上看大致在一条直线附近,我们就称这两个变量之 间具有线性相关关系,这条直线叫做回归直线. ②回归直线方程的求法——最小二乘法. 设具有线性相关关系的两个变量 x、 的一组观察值为(xi, y ^ ^ ^ yi)(i=1,2,„,n),则回归直线方程y=a+bx 的系数为:
3.独立性检验 (1)若变量的不同“值”表示个体所属的不同类别,则这 些变量称为分类变量. (2)两个分类变量 X 与 Y 的频数表,称为 2×2 列联表. y1 x1 x2 合计 a c a+c y2 b d b+d 合计 a+b c+d a+b+c+d
在
2×2
列 联 表 中 , 随 机 变 量
(2)正相关、负相关 散点图中各点散布的位置是从 左下角 到 右上角 的区 域,即一个变量的值由小变大时,另一个变量的值也由小变 大,这种相关称为正相关. 散点图中点散布的位置是从 左上角到 右下角的区域,即 一个变量的值由小变大时,另一个变量的值由大变小,这种 相关称为负相关.
2.回归分析 (1)回归分析 对具有相关关系的两个变量进行统计分析的方法叫回归 分析.其基本步骤是:①画散点图,②求回归直线方程,③ 用回归直线方程作预报.
1 解析:(1)由于 x = (x1+x2+x3+x4+x5+x6)=8.5, 6 1 y =6(y1+y2+y3+y4+y5+y6)=80. 所以 a= y -b x =80+20×8.5=250,从而回归直线方程 ^ 为y=-20x+250.
(2)设工厂获得的利润为 L 元,依题意得 L=x(-20x+250)-4(-20x+250) =-20x2+330x-1000 33 2 =-20(x- 4 ) +361.25. 当且仅当 x=8.25 时,L 取得最大值. 故当单价定价为 8.25 元时,工厂可获得最大利润.
变量间的相关关系及独立性检验
1.在对两个变量x,y进行线性回归分析时有下列步骤: ①对所求出的回归方程作出解释;②收集数据(xi,yi),i=1,2,…,n;③求 线性回归方程;④求相关系数;⑤根据所搜集的数据绘制散点图. 如果根据可靠性要求能够作出变量x,y具有线性相关结论,则在下列操作顺 序中正确的是( ) A.①②⑤③④ B.③②④⑤① C.②④③①⑤ D.②⑤④③① 答案:D
9.3 变量间的相关关系、回归分析及 独立性检验
(会作两个相关变量的数据的散点图,会利用散点图认识变量的相关关系/了解最 小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程)
1.相关关系的量:当自变量一定时,因变量的取值带有一定的随机性的两个变 量之间的关系称为相关关系.
2.回归分析:对具有相关关系的两个变量进行统计分析的方法叫做回归分析. 3.散点图:表示具有相关关系的两个变量的一组数据的图形叫做散点图. 4.正相关与负相关概念:如果散点图中的点散布在从左下角到右上角的区域内
A.变量x与y正相关,u与v正相关 B.变量x与y正相关,u与v负相关 C.变量x与y负相关,u与v正相关 D.变量x与y负相关,u与v负相关 解析:由图(1)可知,各点整体呈递减趋势,x与y负相关,由图(2)可知,各点整 体呈递增趋势,u与v正相关. 答案:C
判断两个变量正相关还是负相关,有三种方法: 1.利用散点图; 2.利用相关系数r的符号;当r>0时,正相关;r<0时,负相关; 3.在已知两变量线性相关时,也可以利用回归方程 =a+bx.当b>0时,
D.若变量y和x之间的相关系数为r=-0.9362,则变量y和x之间具有线性相 关关系
答案:C
3.(2009·宁夏、海南)对变量x,y有观测数据(xi,yi)(i=1,2,…,10),得散点 图(1);对变量u、v有观测数据(ui,vi)(i=1,2,…,10),得散点图(2).由这 两个散点图可以判断( )
第68讲 变量的相关性、回归分析、独立性检验
第68讲 变量的相关性、回归分析、独立性检验1.在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n)都在直线y =12x +1上,则这组样本数据的样本相关系数为(D )A .-1B .0C .12 D .1由题意知,这组样本数据完全正相关,故相关系数为1,选D .2.设某大学的女生的体重y(单位:kg )与身高x(单位:cm )具有线性相关关系,根据一组样本数据(x i ,y i )(i =1,2,…,n),用最小二乘法建立的回归方程为y =0.85x -85.71,则下列结论中不正确...的是(D ) A .y 与x 具有正的线性相关关系B .回归直线过样本点的中心(x -,y -)C .若该大学某女生的身高增加1 cm ,则其体重约增加0.85 kgD .若该大学某女生的身高为170 cm ,则可断定其体重必为58.79 kgA 、B 、C 均正确,是回归方程的性质.D 项是错误的,线性回归方程只能预测学生的体重,选项D 应改为“若该大学某女生身高为170 cm ,则估计其体重大约为58.79 kg ”才正确.3.(2015·福建卷)为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5A .11.4万元B .11.8万元C .12.0万元D .12.2万元由题意知,x -=8.2+8.6+10.0+11.3+11.95=10,y -=6.2+7.5+8.0+8.5+9.85=8,所以a =8-0.76×10=0.4,所以当x =15时,y =0.76×15+0.4=11.8(万元).4.通过随机询问110由K 2=n (ad -bc )(a +b )(c +d )(a +c )(b +d )算得,K 2=110×(40×30-20×20)260×50×60×50≈7.8.附表:A .有99%以上的把握认为“爱好该项运动与性别有关”B .有99%以上的把握认为“爱好该项运动与性别无关”C .在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”D .在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”因为7.8>6.635,所以99%以上的把握认为“爱好该项运动与性别有关”,选A . 5.对于一组数据的两个函数模型,模型Ⅰ和模型Ⅱ的残差平方和分别为180.2和290.7,若从中选取一个拟合程度较好的函数模型,应选 模型Ⅰ .残差平方和越小,函数模型对数据的拟合效果越好;残差平方和越大,说明函数模型对数据的拟合效果越差. 6.已知x 、y从所得的散点图分析,a = 2.6 .因为回归直线方程必过样本点的中心(x -,y -),解得x -=2,y -=4.5,将(2,4.5)代入y =0.95x +a ,可得a =2.6.7.(2015·重庆卷)随着我国经济的发展,居民的储蓄存款逐年增长.设某地区城乡居民(1)求(2)用所求回归方程预测该地区2015年(t =6)的人民币储蓄存款.附:回归方程y =b t +a 中,b =∑i =1nt i y i -n t y-∑i =1nt 2i -n t2,a =y --bt .(1)列表计算如下:这里n =5,t =1n ∑i =1n t i =155=3,y -=1n ∑i =1ny i =365=7.2.又l tt =∑i =1nt 2i -n t 2=55-5×32=10,l ty =∑i =1nt i y i -n t -y -=120-5×3×7.2=12,从而b =l ty l tt =1210=1.2,a =y --bt =7.2-1.2×3=3.6,故所求回归方程为y =1.2t +3.6.(2)将t =6代入回归方程可预测该地区2015年的人民币储蓄存款为y =1.2×6+3.6=10.8(千亿元).8.(2015·湖北卷)已知变量x 和y 满足关系y =-0.1x +1,变量y 与z 正相关.下列结论中正确的是(C )A .x 与y 正相关,x 与z 负相关B .x 与y 正相关,x 与z 正相关C .x 与y 负相关,x 与z 负相关D .x 与y 负相关,x 与z 正相关因为y =-0.1x +1的斜率小于0,故x 与y 负相关.因为y 与z 正相关,可设z=b y +a ,b >0,则z =b y +a =-0.1b x +b +a ,故x 与z 负相关.9.某医疗研究所为了了解某种血清预防感冒的作用,把500名使用过这种血清的人与另外500名未使用这种血清的人一年中的感冒记录比较,提出假设H 0:“这种血清不能起到预防感冒的作用”,利用2×2列联表计算得K 2=3.918,经查临界值表知P(K 2≥3.841)≈0.05.下列结论中,正确结论的序号是 ① .①有95%的把握认为“这种血清能起到预防感冒的作用”;②若某人未使用该血清,那么他在一年中有95%的可能性得感冒; ③这种血清预防感冒的有效率为95%; ④这种血清预防感冒的有效率为5%.因为K 2=3.918≥3.841,而P(K 2≥3.841)≈0.05, 所以有95%的把握认为“这种血清能起到预防感冒的作用”.10.(2016·湖北省八校第二次联考)国内某知名大学有男生14000人,女生10000人.该校体育学院想了解本校学生的运动状况,根据性别采取分层抽样的方法从全校学生中抽取120人,统计他们平均每天运动的时间,如下表:(平均每天运动的时间单位:小时,该校学生平均每天运动的时间范围是[0,3])(2)若规定平均每天运动的时间不少于2小时的学生为“运动达人”,低于2小时的学生为“非运动达人”.①请根据样本估算该校“运动达人”的数量;②请根据上述表格中的统计数据填写下面2×2列联表,并通过计算判断能否在犯错误的概率不超过0.05参考公式:K 2=n (ad -bc )(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d.(1)由分层抽样得,男生抽取的人数为120×1400014000+10000=70人,女生抽取的人数为120-70=50人,故x =5,y =2,则该校男生平均每天运动的时间为: 170(0.25×2+0.75×12+1.25×23+1.75×18+2.25×10+2.75×5)≈1.5, 故该校男生平均每天运动的时间约为1.5小时.(2)①样本中“运动达人”所占比例是20120=16,故估计该校“运动达人”有16×(14000+10000)=4000人. ②由表格可知:,故K 2的观测值k =120(15×45-5×55)220×100×50×70=9635≈2.743<3.841.故在犯错误的概率不超过0.05的前提下不能认为“是否为'运动达人'与性别有关”.。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2×2 列联表
y1
x1
a
y2
总计
b
a+b
x2
c
d
c+d
总计
a+ c
b+ d
n
构造随机变量
K
2
=
?a
+
b
n?ad- bc?2 ??c+d??a+ +b+c+d 为样本容量.
(3) 独立性检验 利用随机变量 K2 来确定在多大程度上可以认为
“两个分类变量 有关系 ”的方法 ,称为两个分类变
n
?
xiyi-n-x ·-y
i=1
i=1
b=
=
,
n
?
?xi--x ?2
n
?
x2i -n-x 2
i=1
i=1
a=
.
n
通过求 Q=? [yi-(b xi+a )]2 的最小值而得出回
i=1
归直线的方法,即求回归直线,使得样本数据的点到它 的距离的平方和最小,这一方法叫做最小二乘法.
(5)相关系数: r=
2.独立性检验 (1)分类变量:如果某种变量的不同“值”表示个体
所属的不同类别,像这样的变量称为 分类变量 .
(2) 列联表:列出的两个分类变量的 频数表 ,称为
列联表.假设有两个分类变量 X 和 Y,它们的可能取值
分别为 {x1,x2},{y 1,y2},其样本频数列联表 (称为 2×2
列联表 )为
第68讲 变量的相关性、回归 分析、独立性检验
1.会作两个有关联变量的数据的散点图,会利用散点 图认识变量间的相关关系.
2.了解最小二乘法的思想,能根据给出的线性回归方 程系数公式建立线性回归方程.
3.了解独立检验(只要求 2×2 列联表)的思想、方法, 并能初步应用独立性检验的思想、方法解决一些简单的实际 问题.
②当 K2>2.706 时,有 90%的把握认为变量 x,y 有 关系;
③当 K2>3.841 时,有 95%的把握认为变量 x,y 有 关系;
④当 K2>6.635 时,有 99%的把握认为变量 x,y 有 关系;
⑤当 K2>10.828 时,有 99.9%的把握认为变量 x,y 有关系.
1.下列说法中不正确的是 ( ) A.变量取值一定时 ,因变量的取值带有一定随机性的 两个变量之间的关系叫作相关关系 B .在平面直角坐标系中用描点的方法得到表示具有相 关关系的两个变量的一组数据的图形叫作散点图
(6)残差及残差平方和:残差 ei=
,残差平
方和为
.
(7)用相关指数来刻画回归的效果,其计算公式是
1—
R2=
,R2 的值越大,说明残差平方和
越 小 ,说明回归模型的拟合效果越 好 .
(8)残差分析:在研究两个变量的关系时,首先要根 据散点图来粗略地判断它们是否线性相关 ,是否可用线 性回归模型来拟合数据.然后可以通过残差 e^1,e^2,…, e^n来判断模型的拟合效果 ,判断原始数据中是否存在可 疑数据,这方面的工作称为残差分析.
A. 变量 x 与 y 正相关, u 与 v 正相关 B. 变量 x 与 y 正相关, u 与 v 负相关 C. 变量 x 与 y 负相关, u 与 v 正相关 D. 变量 x 与 y 负相关, u 与 v 负相关
解:x→大,y→小,所以负相关; u→大,v→大,所 以正相关,故选 C.
答案:C
3. (2017·山东卷·理)为了研究某班学生的脚长 x(单位: 厘米)和身高 y(单位:厘米)的关系,从该班随机抽取 10 名 学生,根据测量数据的散点图可以看出 y 与 x 之间有线性
量的独立性检验. 先假设两个分类变量 x 与 y 无关系 ,计算 K2 的值 ,
则 K2 的值应该很小 , 若 K2 值较大 , 就拒绝假设 ,只要 K2>2.706 ,就认为 x 与 y 有关系.
(4) 两个分类变量 x 和 y 是否有关系的判断方法: ①当 K2≤2.706 时,没有充分的证据判断变量 x,y 有关系 ,可以认为变量 x,y 没有关系;
在线性回归模型 y=bx+a+e 中,因变量 y 的值由自变 量 x 和随机误差 e 共同确定,即自变量 x 只能解释部分 y 的变化,在统计中,我们把自变量 x 叫做 解释 变量, 因变量 y 称为 预报 变量.
(4)回归直线的方程为 y =b x+a ,其中
n
?
?xi--x ??yi--y ?
个变量的一组数据的图形 ,这样的图形叫做散点图. 它可
直观地判断两个变量关系是否是可以用线性关系表示. 若
这些点分布在从左下角到右上角的区域内 ,两个变量的这
种相关关系称为 正相关 ,若这些点分布在左上角到右 下角的区域内 , 两个变量的相关关系为 负相关 .
(3)回归分析:对具有 相关关系 的两个变量进行统 计分析的方法叫作回归分析.通俗地讲 ,回归分析是寻找 相关关系中非确定关系的某种确定性.
10
相关关系.设其回归直线方程为 y =b x+a .已知? xi=
i=1
10
225,? yi=1 600,b =4.该班某学生的脚长为 24,据此估
i=1
计其身高为( ) A.160 B.163 C.166 D.170
n
?
xiyi-n-x ·-y
i=1
,它
n
??
x2i -
n
-x
n
2???
y2i -n-y 2?
i=1
i=1
主要用于相关量的显著性检验 ,以衡量它们之间的线性 相关程度.
当 r>0 时,表示两个变量正相关;当 r<0 时,表示 两个变量负相关; |r|越接近 1,表明两个变量的线性相关 性越强;当|r|接近 0 时,表明两个变量间几乎不存在线性 相关关系.
C.若两个变量具有线性相关关系 ,则线性回归方程最
能代表观测值 x、 y 之间的关系 D .任何一组观测值都能得到具有代表意义的回归直线
方程
答案:D
2.对变量 x,y 有观测数据 (x i, yi)(i= 1,2 ,…, 10) ,得散 点图 (a);对变量 u, v 有观测数据 (u i, vi)(i= 1,2 , …, 10) , 得散点图 (b).由这两个散点图可以判断 ( )
4.了解回归分析的思想、方法,并能初步应用回归分 析的思想、方法解决一些简单的实际问题.
1. 变量的相关关系
(1) 相关关系:当自变量的取值一定时 , 因变量的取
值带有一定随机性 的两个变量之间的关系 , 叫相关关
系 , 与函数关系不同 , 相关关系是一种不确定
关系.
(2) 散点图:在平面直角坐标系中描点 , 得到关于两