统计案例线性回归方程
多元线性回归分析案例
多元线性回归分析案例1. 引言多元线性回归分析是一种用于探究多个自变量与一个连续型因变量之间关系的统计分析方法。
本文将以一个虚构的案例来介绍多元线性回归分析的应用。
2. 背景假设我们是一家电子产品制造公司,我们想了解哪些因素会对产品销售额产生影响。
为了解决这个问题,我们收集了一些数据,包括产品的价格、广告费用、竞争对手的产品价格和销售额。
3. 数据收集我们采集了100个不同产品的数据,其中包括以下变量:- 产品价格(自变量1)- 广告费用(自变量2)- 竞争对手的产品价格(自变量3)- 销售额(因变量)4. 数据分析为了进行多元线性回归分析,我们首先需要对数据进行预处理。
我们检查了数据的缺失情况和异常值,并进行了相应的处理。
接下来,我们使用多元线性回归模型来分析数据。
模型的方程可以表示为:销售额= β0 + β1 × 产品价格+ β2 × 广告费用+ β3 × 竞争对手的产品价格+ ε其中,β0、β1、β2、β3是回归系数,ε是误差项。
5. 结果解释我们使用统计软件进行回归分析,并得到了以下结果:- 回归系数的估计值:β0 = 1000, β1 = 10, β2 = 20, β3 = -5- 拟合优度:R² = 0.8根据回归系数的估计值,我们可以解释模型的结果:- β0表示当产品价格、广告费用和竞争对手的产品价格都为0时,销售额的估计值为1000。
- β1表示产品价格每增加1单位,销售额平均增加10单位。
- β2表示广告费用每增加1单位,销售额平均增加20单位。
- β3表示竞争对手的产品价格每增加1单位,销售额平均减少5单位。
拟合优度R²的值为0.8,说明模型可以解释销售额的80%变异程度。
这意味着模型对数据的拟合程度较好。
6. 结论根据我们的多元线性回归分析结果,我们可以得出以下结论:- 产品价格、广告费用和竞争对手的产品价格对销售额有显著影响。
统计案例(精讲)(提升版)(原卷版)
8.5 统计案例(精讲)(提升版)思维导图考点一独立性检验【例1】(2022·吉林·梅河口市第五中学高三开学考试)某中学准备组建“文科”兴趣特长社团,由课外活动小组对高一学生进行了问卷调查,问卷共100道题,每题1分,总分100分,该课外活动小组随机抽取了100名学生的问卷成绩(单位:分)进行统计,将数据按照[0,20),[20,40),[40,60),[60,80),[80,100]分成5组,绘制的频率分布直方图如图所示,若将不低于60分的称为“文科方向”学生,低于60分的称为“理科方向”学生.(1)根据已知条件完成下面2×2列联表,并据此判断是否有99.5%的把握认为“文科方向”与性别有关?理科方向文科方向总计男40女45考点呈现例题剖析总计 1001人,共抽取4次,记被抽取的4人中“文科方向”的人数为X ,若每次抽取的结果是相互独立的,求X 的分布列和数学期望.参考公式:()()()()22()n ad bc a b c d a c b d χ-=++++,其中n a b c d =+++.参考临界值:()2P k αχ=0.10 0.05 0.025 0.010 0.005 0.001k2.7063.841 5.024 6.635 7.879 10.828【一隅三反】1.(2022·白山模拟)十三届全国人大四次会议表决通过了关于国民经济和社会发展第十四个五年规划和2035年远景目标纲要的决议,决定批准这个规划纲要,纲要指出:“加强原创性引领性科技攻关”.某企业集中科研骨干,攻克系列“卡脖子”技术,已成功实现离子注入机全谱系产品国产化,包括中束流、大束流、高能、特种应用及第三代半导体等离子注入机,工艺段覆盖至28nm,为我国芯片制造产业链补上重要一环,为全球芯片制造企业提供离子注入机一站式解决方案.此次技术的突破可以说为国产芯片的制造做出了重大贡献.该企业使用新技术对某款芯片进行试生产,在试产初期,生产一件该款芯片有三道工序,每道工序的生产互不影响,这三道工序的次品率分别为118,119,120.附:()()()()()22n ad bcKa b c d a c b d-=++++,n a b c d=+++.()2P K k≥0.0500.0100.0050.001 k 3.841 6.6357.87910.828(①P①100X(2)某手机生产厂商将该款芯片投入到某新款手机上使用,并对部分芯片做了技术改良,推出了两种型号的手机,甲型号手机采用没有改良的芯片,乙型号手机采用改良了的芯片,现对使用这两种型号的手机用户进行回访,就他们对开机速度进行满意度调查.据统计,回访的100名用户中,使用甲型号手机的有30人,其中对开机速度满意的有15人;使用乙型号手机的有70人,其中对开机速度满意的有55人.完成下列22⨯列联表,并判断是否有99.5%的把握认为该项技术改良与用户对开机速度的满意度有关.甲型号乙型号合计满意不满意合计2.(2022·陕西咸阳·三模(理))2022年北京冬奥组委发布的《北京2022年冬奥会和冬残奥会经济遗产报告(2022)》显示,北京冬奥会已签约45家赞助企业,冬奥会赞助成为一项跨度时间较长的营销方式.为了解该45家赞助企业每天销售额与每天线上销售时间之间的相关关系,某平台对45家赞助企业进行跟踪调查,其中每天线上销售时间不少于8小时的企业有20家,余下的企业中,每天的销售额不足30万元的企业占35,统计后得到如下22⨯列联表:销售额不少于30万元销售额不足30万元合计线上销售时间不少于8小时 17 20 线上销售时间不足8小时合计45售时间有关?(2)按销售额在上述赞助企业中采用分层抽样方法抽取5家企业.在销售额不足30万元的企业中抽取时,记“抽到线上销售时间不少于8小时的企业数”为X ,求X 的分布列和数学期望. 附: ()20P K k ≥0.050 0.010 0.001 0k3.841 6.635 10.828参考公式:()()()()2 n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.考点二 线性回归方程【例2-1】(2022·齐齐哈尔模拟)某单位为了解夏季用电量与月份的关系,对本单位2021年5月份到8月份的日平均用电量y (单位:千度)进行了统计分析,得出下表数据:月份(x )5 6 7 8 日平均用电量(y )1.93.4t7.11.7877ˆ.0y x =-t 的值为( )A .5.8B .5.6C .5.4D .5.2【例2-2】(2022·湖南模拟)《中共中央国务院关于全面推进乡村振兴加快农业农村现代化的意见》,这是21世纪以来第18个指导“三农”工作的中央一号文件.文件指出,民族要复兴,乡村必振兴.为助力乡村振兴,某电商平台为某地的农副特色产品开设直播带货专场.为了对该产品进行合理定价,用不同的单价在平台试销,得到如下数据:单价x (元/件) 8 8.2 8.4 8.6 8.8 9 销量y (万件)908483807568附:参考公式:回归方程ˆˆˆybx a =+,其中()()()iii ii 1i 1222iii 1i 1ˆnnx x y y x y nxyb x x xnx ====---==--∑∑∑∑,ˆˆay bx =-. 参考数据:614066i ii x y==∑,621434.2i i x ==∑.(1)(i )根据以上数据,求y 关于x 的线性回归方程;(ii )若该产品成本是7元/件,假设该产品全部卖出,预测把单价定为多少时,工厂获得最大利润.(2)为了解该产品的价格是否合理,在试销平台上购买了该产品的顾客中随机抽了400人,阅读“购买后的评价”得知:对价格满意的有300人,基本满意的有50人,不满意的有50人.为进一步了解顾客对该产品价格满意度形成的原因,在购买该产品的顾客中随机抽取4人进行电话回访,记抽取的4人中对价格满意的人数为随机变量X ,求随机变量X 的分布列和数学期望.(视频率为相应事件发生的概率)【一隅三反】1.(2022·安徽三模)对某位同学5次体育测试的成绩(单位:分)进行统计得到如下表格:第x 次 1 2 3 4 5 测试成绩y3940484850根据上表,可得关于的线性回归方程为ˆ3ˆy x a =+,下列结论不正确的是( )A .ˆ36a= B .这5次测试成绩的方差为20.8 C .y 与x 的线性相关系数0r < D .预测第6次体育测试的成绩约为542.(2022·安徽模拟)新冠疫情期间,口罩的消耗量日益增加,某药店出于口罩进货量的考虑,连续9天统计了第i (i 1239)x =,,,,天的口罩的销售量i y (百件),得到的数据如下:99i i i=1i=145171x y ==∑∑,,()99922ii i i i=1i=1i=1312528510953x x y y y ==-=∑∑∑,,. 参考公式:相关系数()()()()iii=122iii=1i=1nnnx x y y r x x y y --=--∑∑∑数据()i i ()i 123x y n =,,,,,,其回归直线ˆˆˆy bx a =+的斜率和截距的最小二乘估计分别为()()()iii i1222i i11ˆˆˆnn i inni i x x y y x y nxybay bx x x xnx ===---===---∑∑∑∑, (1)若用线性回归模型ˆˆˆybx a =+拟合y 与x 之间的关系,求该回归直线的方程; (2)统计学家甲认为用(1)中的线性回归模型(下面简称模型1)进行拟合,不够精确,于是尝试使用非线性模型(下面简称模型2)得到i x 与i y 之间的关系,且模型2的相关系数20989r =.,试通过计算说明模型1,2中,哪一个模型的拟合效果更好. 3.(2022·湖南模拟)《中共中央国务院关于全面推进乡村振兴加快农业农村现代化的意见》,这是21世纪以来第18个指导“三农”工作的中央一号文件.文件指出,民族要复兴,乡村必振兴.为助力乡村振兴,某电商平台为某地的农副特色产品开设直播带货专场.为了对该产品进行合理定价,用不同的单价在平台试销,得到如下数据:单价x (元/件) 8 8.2 8.4 8.6 8.8 9 销量y (万件)908483807568附:参考公式:回归方程ˆˆˆybx a =+,其中()()()iiiii 1i 1222iii 1i 1ˆnnx x y y x y nxyb x x xnx ====---==--∑∑∑∑,ˆˆay bx =-. 参考数据:614066i ii x y==∑,621434.2i i x ==∑.(1)(i )根据以上数据,求y 关于x 的线性回归方程;(ii )若该产品成本是7元/件,假设该产品全部卖出,预测把单价定为多少时,工厂获得最大利润.(2)为了解该产品的价格是否合理,在试销平台上购买了该产品的顾客中随机抽了400人,阅读“购买后的评价”得知:对价格满意的有300人,基本满意的有50人,不满意的有50人.为进一步了解顾客对该产品价格满意度形成的原因,在购买该产品的顾客中随机抽取4人进行电话回访,记抽取的4人中对价格满意的人数为随机变量X,求随机变量X的分布列和数学期望.(视频率为相应事件发生的概率)考点三非线性回归方程【例3】(2022·福建·三明一中模拟预测)当前,新一轮科技革命和产业变革蓬勃兴起,以区块链为代表的新一代信息技术迅猛发展,现收集某地近5年区块链企业总数量相关数据,如下表年份20172018201920202021编号x12345企业总数量y(单位:千个) 2.156 3.7278.30524.27936.224(1)根据表中数据判断,y a bx=+与e dxy c=(其中 2.71828e=…为自然对数的底数),哪一个回归方程类型适宜预测未来几年我国区块链企业总数量?(给出结果即可,不必说明理由),并根据你的判断结果求y关于x的回归方程;(2)为了促进公司间的合作与发展,区块链联合总部决定进行一次信息化技术比赛,邀请甲、乙、丙三家区块链公司参赛.比赛规则如下:①每场比赛有两个公司参加,并决出胜负;①每场比赛获胜的公司与未参加此场比赛的公司进行下一场的比赛;①在比赛中,若有一个公司首先获胜两场,则本次比赛结束,该公司获得此次信息化比赛的“优胜公司”.已知在每场比赛中,甲胜乙的概率为12,甲胜丙的概率为13,乙胜丙的概率为35,若首场由甲乙比赛,求甲公司获得“优胜公司”的概率.参考数据:5174.691i i y ==∑,51312.761i i i x y ==∑,5110.980i i z ==∑,5140.457i i i x z ==∑(其中ln z y =). 附:样本(),(1,2,,)i i x y i n =的最小二乘法估计公式为1221ˆni ii nii x y nx ybxnx==-=-∑∑,ˆa y bx=-.【一隅三反】1.(2022·山西二模)数据显示,中国在线直播用户规模及在线直播购物规模近几年都保持高速增长态势,下表为2017-2021年中国在线直播用户规模(单位:亿人),其中2017年-2021年对应的代码依次为1-5.年份代码x 1 2 3 4 5 市场规模y3.984.565.045.866.36参考数据: 5.16y =, 1.68v =,145.10i ii v y==∑,其中i i v x =.参考公式:对于一组数据()11v y ,,()22v y ,,…,()n n v y ,,其回归直线ˆˆˆybv a =+的斜率和截距的最小二乘估计公式分别为1221ˆni ii ni i v y nvybv nv ==-=-∑∑,ˆˆay bv =-. (1)由上表数据可知,可用函数模型ˆˆyx a =拟合y 与x 的关系,请建立y 关于x 的回归方程(ˆa ,ˆb 的值精确到0.01);(2)已知中国在线直播购物用户选择在品牌官方直播间购物的概率为p ,现从中国在线直播购物用户中随机抽取4人,记这4人中选择在品牌官方直播间购物的人数为X ,若()()34P X P X ===,求X 的分布列与期望.2.(2022·广东广州·一模)人们用大数据来描述和定义信息时代产生的海量数据,并利用这些数据处理事务和做出决策,某公司通过大数据收集到该公司销售的某电子产品1月至5月的销售量如下表. 月份x1 2 3 4 5 销售量y (万件)4.95.86.88.310.2该公司为了预测未来几个月的销售量,建立了y 关于x 的回归模型:ˆv . (1)根据所给数据与回归模型,求y 关于x 的回归方程(ˆu 的值精确到0.1);(2)已知该公司的月利润z (单位:万元)与x ,y 的关系为z x x=,根据(1)的结果,问该公司哪一个月的月利润预报值最大? 参考公式:对于一组数据()()()1122,,,,,,n n x y x y x y ,其回归直线ˆˆˆy bx a =+的斜率和截距的最小二乘估计公式分别为()()()121ˆniii nii x x y y bx x ==--=-∑∑,ˆˆay bx =-.11 / 113.(2022·广东肇庆·二模)下表是我国从2016年到2020年能源消费总量近似值y (单位:千万吨标准煤)的数据表格: 年份2016 2017 2018 2019 2020 年份代号x1 2 3 4 5 能源消费总量近似值y (单位:千万吨标准煤) 442 456 472 488 498以x 为解释变量,y 为预报变量,若以11为回归方程,则相关指数210.9946R ≈,若以22ˆln ya b x =+为回归方程,则相关指数220.9568R ≈. (1)判断11ˆyb x a =+与22ˆln y a b x =+哪一个更适宜作为能源消费总量近似值y 关于年份代号x 的回归方程,并说明理由;(2)根据(1)的判断结果及表中数据,求出y 关于年份代号x 的回归方程.参考数据:512356i i y ==∑,517212i i i x y ==∑.参考公式:回归方程ˆˆˆybx a =+中斜率和截距的最小二乘估计公式分别为:()()()1122211ˆn ni i i ii i n n ii i i x x y y x y nxy b x x x nx ====---==--∑∑∑∑,ˆˆa y bx =-.。
统计案例分析报告及典型例题
统计案例分析及典型例题§11.1 抽样方法1.为了了解所加工的一批零件的长度,抽取其中200个零件并测量了其长度,在这个问题中,总体的一个样本是 . 答案 200个零件的长度2.某城区有农民、工人、知识分子家庭共计2 004户,其中农民家庭1 600户,工人家庭303户,现要从中抽取容量为40的样本,则在整个抽样过程中,可以用到下列抽样方法:①简单随机抽样,②系统抽样,③分层抽样中的 . 答案 ①②③3.某企业共有职工150人,其中高级职称15人,中级职称45人,初级职称90人.现采用分层抽样抽取容量为30的样本,则抽取的各职称的人数分别为 . 答案 3,9,184.某工厂生产A 、B 、C 三种不同型号的产品,其相应产品数量之比为2∶3∶5,现用分层抽样方法抽出一个容量为n 的样本,样本中A 型号产品有16件,那么此样本的容量n= . 答案 80例1 某大学为了支援我国西部教育事业,决定从2007应届毕业生报名的18名志愿者中,选取6人组成志愿小组.请用抽签法和随机数表法设计抽样方案. 解 抽签法:第一步:将18名志愿者编号,编号为1,2,3, (18)第二步:将18个号码分别写在18张外形完全相同的纸条上,并揉成团,制成号签; 第三步:将18个号签放入一个不透明的盒子里,充分搅匀; 第四步:从盒子中逐个抽取6个号签,并记录上面的编号;基础自测第五步:所得号码对应的志愿者,就是志愿小组的成员. 随机数表法:第一步:将18名志愿者编号,编号为01,02,03, (18)第二步:在随机数表中任选一数作为开始,按任意方向读数,比如第8行第29列的数7开始,向右读;第三步:从数7开始,向右读,每次取两位,凡不在01—18中的数,或已读过的数,都跳过去不作记录,依次可得到12,07,15,13,02,09.第四步:找出以上号码对应的志愿者,就是志愿小组的成员.例2 某工厂有1 003名工人,从中抽取10人参加体检,试用系统抽样进行具体实施. 解 (1)将每个人随机编一个号由0001至1003. (2)利用随机数法找到3个号将这3名工人剔除. (3)将剩余的1 000名工人重新随机编号由0001至1000. (4)分段,取间隔k=100001=100将总体均分为10段,每段含100个工人.(5)从第一段即为0001号到0100号中随机抽取一个号l.(6)按编号将l ,100+l ,200+l,…,900+l 共10个号码选出,这10个号码所对应的工人组成样本. 例3 (14分)某一个地区共有5个乡镇,人口3万人,其中人口比例为3∶2∶5∶2∶3,从3万人中抽取一个300人的样本,分析某种疾病的发病率,已知这种疾病与不同的地理位置及水土有关,问应采取什么样的方法?并写出具体过程.解 应采取分层抽样的方法.3分过程如下:(1)将3万人分为五层,其中一个乡镇为一层.5分(2)按照样本容量的比例随机抽取各乡镇应抽取的样本. 300×153=60(人);300×152=40(人); 300×155=100(人);300×152=40(人); 300×153=60(人),10分因此各乡镇抽取人数分别为60人,40人,100人,40人,60人.12分(3)将300人组到一起即得到一个样本.14分练习:一、填空题1.(安庆模拟)某校高中生共有900人,其中高一年级300人,高二年级200人,高三年级400人,现分层抽取容量为45的样本,那么高一、高二、高三年级抽取的人数分别为 .答案15,10,202.某牛奶生产线上每隔30分钟抽取一袋进行检验,则该抽样方法为①;从某中学的30名数学爱好者中抽取3人了解学习负担情况,则该抽样方法为②.那么①,②分别为 .答案系统抽样,简单随机抽样3.下列抽样实验中,最适宜用系统抽样的是(填序号).①某市的4个区共有2 000名学生,且4个区的学生人数之比为3∶2∶8∶2,从中抽取200人入样②某厂生产的2 000个电子元件中随机抽取5个入样③从某厂生产的2 000个电子元件中随机抽取200个入样④从某厂生产的20个电子元件中随机抽取5个入样答案③4.(2013·重庆文)某校高三年级有男生500人,女生400人,为了解该年级学生的健康情况,从男生中任意抽取25人,从女生中任意抽取20人进行调查,这种抽样方法是 .答案分层抽样法5.某中学有高一学生400人,高二学生300人,高三学生200人,学校团委欲用分层抽样的方法抽取18名学生进行问卷调查,则下列判断不正确的是(填序号).①高一学生被抽到的概率最大②高三学生被抽到的概率最大③高三学生被抽到的概率最小④每名学生被抽到的概率相等答案①②③6.某商场有四类食品,其中粮食类、植物油类、动物性食品类及果蔬类分别有40种、10种、30种、20种,现从中抽取一个容量为20的样本进行食品安全检测,若采用分层抽样的方法抽取样本,则抽取的植物油类与果蔬类食品种数之和是 .答案 67.(天津文,11)一个单位共有职工200人,其中不超过45岁的有120人,超过45岁的有80人.为了调查职工的健康状况,用分层抽样的方法从全体职工中抽取一个容量为25的样本,应抽取超过45岁的职工 人. 答案 108.将参加数学竞赛的1 000名学生编号如下0001,0002,0003,…,1000,打算从中抽取一个容量为50的样本,按系统抽样的方法分成50个部分,如果第一部分编号为0001,0002,…,0020,从第一部分随机抽取一个号码为0015,则第40个号码为 . 答案 07959.某政府机关有在编人员100人,其中副处级以上干部10人,一般干部70人,工人20人,上级机关为了了解政府机构改革意见,要从中抽取一个容量为20的样本,试确定用何种方法抽取,如何抽取? 解 用分层抽样抽取. (1)∵20∶100=1∶5, ∴510=2,570=14,520=4∴从副处级以上干部中抽取2人,一般干部中抽取14人,从工人中抽取4人.(2)因副处级以上干部与工人人数较少,可用抽签法从中分别抽取2人和4人;对一般干部可用随机数表法抽取14人.(3)将2人、4人、14人编号汇合在一起就得到了容量为20的样本.10.某单位有工程师6人,技术员12人,技工18人,要从这些人中抽取一个容量为n 的样本.如果采用系统抽样法和分层抽样法抽取,不用剔除个体;如果样本容量增加一个,则在采用系统抽样时,需要在总体中先剔除1个个体,求样本容量n.解 总体容量为6+12+18=36.当样本容量是n 时,由题意知,系统抽样的间隔为n36,分层抽样的比例是36n ,抽取工程师36n ×6=6n (人),抽取技术人员36n ×12=3n (人),抽取技工36n×18=2n (人).所以n 应是6的倍数,36的约数即n=6,12,18,36.当样本容量为(n+1)时,在总体中剔除1人后还剩35人,系统抽样的间隔为135+n ,因为135+n 必须是整数,所以n 只能取6,即样本容量为6.总体分布的估计与总体特征数的估计1.一个容量为20的样本,已知某组的频率为0.25,则该组的频数为 . 答案 52.(2008·山东理)右图是根据《山东统计年鉴2007》中的资料作成的1997年至2006年我省城镇居民百户家庭人口数的茎叶图.图中左边的数字从左到右分别表示城镇居民百户家庭人口数的百位数字和十位数字,右边的数字表示城镇居民百户家庭人口数的个位数字.从图中可以得到1997年至2006年我省城镇居民百户家庭人口数的平均数为 . 答案 303.63.在抽查产品的尺寸过程中,将其尺寸分成若干组,[a ,b )是其中的一组,抽查出的个体在该组上的频率为m,该组在频率分布直方图的高为h ,则|a-b|= . 答案 hm4.(2008·山东文,9)从某项综合能力测试中抽取100人的成绩,统计如表,则这100人成绩的标准差为 .答案 51025.为了了解某地区高三学生的身体发育情况,抽查了该地区100名年龄为17.5岁~18岁的男生体重(kg ),得到频率分布直方图如下:根据上图可得这100名学生中体重在[56.5,64.5)的学生人数是 . 答案 40基础自测典型例题:例1 在学校开展的综合实践活动中,某班进行了小制作评比,作品上交时间为5月1日至30日,评委会把同学们上交 作品的件数按5天一组分组统计,绘制了频率分布直方图(如图所示),已知从左到右各长方形高的比为2∶3∶4∶6∶4∶1,第三组的频数为12,请解答下列问题: (1)本次活动共有多少件作品参加评比? (2)哪组上交的作品数量最多?有多少件?(3)经过评比,第四组和第六组分别有10件、2件作品获奖,问这两组哪组获奖率高? 解 (1)第三组的频率为1464324+++++=51又因为第三组的频数为12,∴参评作品数为5112=60.(2)根据频率分布直方图,可以看出第四组上交的作品数量最多,共有60×1464326+++++=18(件).(3)第四组的获奖率是1810=95,第六组上交的作品数量为60×1464321+++++=3(件),∴第六组的获奖率为32=96,显然第六组的获奖率高.例4(14分)某化肥厂甲、乙两个车间包装肥料,在自动包装传送带上每隔30 min 抽取一包产品,称其重量,分别 记录抽查数据如下: 甲:102, 101, 99, 98, 103, 98,99;乙:110, 115, 90,85,75,115, 110.(1)这种抽样方法是哪一种? (2)将这两组数据用茎叶图表示;(3)将两组数据比较,说明哪个车间产品较稳定. 解 (1)因为间隔时间相同,故是系统抽样. 2分(2)茎叶图如下:5分(3)甲车间: 平均值:1x =71(102+101+99+98+103+98+99)=100,7分方差:s 12=71[(102-100)2+(101-100)2+…+(99-100)2]≈3.428 6.9分乙车间:平均值:2x =71(110+115+90+85+75+115+110)=100,11分方差:s 22=71[(110-100)2+(115-100)2+…+(110-100)2]≈228.571 4.13分∵1x =2x ,s 12<s 22,∴甲车间产品稳定.14分练习:1.为了了解小学生的体能情况,抽取了某小学同年级部分学生进行跳绳测试,将所得数据整理后,画出频率分布直方图如图所示,已知图中从左到右前三个小组的频率分别是0.1,0.3,0.4,第一小组的频数为5.(1)求第四小组的频率;(2)参加这次测试的学生人数是多少?(3)在这次测试中,学生跳绳次数的中位数落在第几小组内? 解 (1)第四小组的频率=1-(0.1+0.3+0.4)=0.2. (2)设参加这次测试的学生人数是n, 则有n=第一小组频率第一小组频数=5÷0.1=50(人).(3)因为0.1×50=5,0.3×50=15,0.4×50=20,0.2×50=10,即第一、第二、第三、第四小组的频数分别为5、15、20、10,所以学生跳绳次数的中位数落在第三小组内. 练习:一、填空题1.下列关于频率分布直方图的说法中不正确的是 . ①直方图的高表示取某数的频率②直方图的高表示该组上的个体在样本中出现的频率 ③直方图的高表示该组上的个体数与组距的比值④直方图的高表示该组上的个体在样本中出现的频率与组距的比值 答案 ①②③2.甲、乙两名新兵在同样条件下进行射击练习,每人打5发子弹,命中环数如下:甲:6,8,9,9,8;乙:10,7,7,7,9.则这两人的射击成绩 比 稳定. 答案 甲 乙4.某班50名学生在一次百米测试中,成绩全部介于13秒与19秒之间,将测试结果分成六组:右图是得到的频率分布直方图.设成绩小于17秒的学生人数占全班总人数的百分比为x,成绩大于等于15秒且小于17秒的学生人数为y ,则从频率分布直方图中可分析出x 和y 分别为 . 答案 0.9, 356.甲、乙两名同学在5次体育测试中的成绩统计的茎叶图如图所示,若甲、乙两人的平均成绩分别是x 甲、x 乙,则x 甲 x 乙, 比 稳定. 答案 < 乙 甲7.(上海,9)已知总体的各个体的值由小到大依次为2,3,3,7,a ,b ,12,13.7,18.3,20,且总体的中位数为10.5.若要使该总体的方差最小,则a 、b 的取值分别是 . 答案 10.5、10.5二、解答题10.为了了解高一学生的体能情况,某校抽取部分学生进行一分钟跳绳次数测试,将所得数据整理后,画出频率分布直方图(如图所示),图中从左到右各小长方形面积之比为2∶4∶17∶15∶9∶3,第二小组频数为12.(1)第二小组的频率是多少?样本容量是多少?(2)若次数在110以上(含110次)为达标,试估计该学校全体高一学生的达标率是多少? (3)在这次测试中,学生跳绳次数的中位数落在哪个小组内?请说明理由. 解 (1)由于频率分布直方图以面积的形式反映了数据落在各小组内的频率大小, 因此第二小组的频率为:391517424+++++=0.08.又因为频率=样本容量第二小组频数, 所以样本容量=第二小组频率第二小组频数=08.012=150. (2)由图可估计该学校高一学生的达标率约为39151742391517++++++++×100%=88%.(3)由已知可得各小组的频数依次为6,12,51,45,27,9,所以前三组的频数之和为69,前四组的频数之和为114,所以跳绳次数的中位数落在第四小组内.线性回归方程1.下列关系中,是相关关系的为 (填序号). ①学生的学习态度与学习成绩之间的关系;基础自测②教师的执教水平与学生的学习成绩之间的关系;③学生的身高与学生的学习成绩之间的关系;④家庭的经济条件与学生的学习成绩之间的关系.答案①②2.为了考察两个变量x、y之间的线性相关关系,甲、乙两同学各自独立地做10次和15次试验,并利用最小二乘法求得回归直线分别为l1和l2.已知在两人的试验中发现变量x的观测数据的平均值恰好相等,都为s,变量y的观测数据的平均值也恰好相等,都为t,那么下列说法中正确的是(填序号).①直线l1,l2有交点(s,t)②直线l1,l2相交,但是交点未必是(s,t)③直线l1,l2由于斜率相等,所以必定平行④直线l1,l2必定重合答案①3.下列有关线性回归的说法,正确的是(填序号).①相关关系的两个变量不一定是因果关系②散点图能直观地反映数据的相关程度③回归直线最能代表线性相关的两个变量之间的关系④任一组数据都有回归直线方程答案①②③4.下列命题:①线性回归方法就是由样本点去寻找一条贴近这些样本点的直线的数学方法;②利用样本点的散点图可以直观判断两个变量的关系是否可以用线性关系表示;③通过回归直线yˆ=bˆx+aˆ及回归系数bˆ,可以估计和预测变量的取值和变化趋势. 其中正确命题的序号是 .答案①②③5.已知回归方程为yˆ=0.50x-0.81,则x=25时,yˆ的估计值为 .答案11.69例1下面是水稻产量与施化肥量的一组观测数据:施化肥量15 20 25 30 35 40 45水稻产量320 330 360 410 460 470 480(1)将上述数据制成散点图;(2)你能从散点图中发现施化肥量与水稻产量近似成什么关系吗?水稻产量会一直随施化肥量的增加而增长吗?解(1)散点图如下:(2)从图中可以发现施化肥量与水稻产量具有线性相关关系,当施化肥量由小到大变化时,水稻产量由小变大,图中的数据点大致分布在一条直线的附近,因此施化肥量和水稻产量近似成线性相关关系,但水稻产量只是在一定范围内随着化肥施用量的增加而增长.例2(14分)随着我国经济的快速发展,城乡居民的生活水平不断提高,为研究某市家庭平均收入与月平均生活支出的关系,该市统计部门随机调查了10个家庭,得数据如下:(1)判断家庭平均收入与月平均生活支出是否相关?(2)若二者线性相关,求回归直线方程.解(1)作出散点图:5分观察发现各个数据对应的点都在一条直线附近,所以二者呈线性相关关系. 7分(2)x =101 (0.8+1.1+1.3+1.5+1.5+1.8+2.0+2.2+2.4+2.8)=1.74,y=101(0.7+1.0+1.2+1.0+1.3+1.5+1.3+1.7+2.0+2.5)=1.42,9分bˆ=∑∑==-∙-ni ini i i x n xyx n y x 1221≈0.813 6,aˆ=1.42-1.74×0.813 6≈0.004 3,13分 ∴回归方程yˆ=0.813 6x+0.004 3.14分例3 下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x(吨)与相应的生产能耗y (吨)标准煤的几组对照数据.(1)请画出上表数据的散点图;(2)请根据上表提供的数据,用最小二乘法求出y 关于x 的线性回归方程yˆ=b ˆx+a ˆ; (3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤? (参考数值:3×2.5+4×3+5×4+6×4.5=66.5) 解 (1)散点图如下图:(2)x =46543+++=4.5,y =45.4435.2+++=3.5∑=41i ii yx =3×2.5+4×3+4×5+6×4.5=66.5.∑=412i ix=32+42+52+62=86∴bˆ=24124144x x yx yx i i i ii -∙-∑∑===25.44865.45.345.66⨯-⨯⨯-=0.7aˆ =y -bˆx =3.5-0.7×4.5=0.35. ∴所求的线性回归方程为yˆ=0.7x+0.35. (3)现在生产100吨甲产品用煤 y=0.7×100+0.35=70.35,∴降低90-70.35=19.65(吨)标准煤.1.科研人员为了全面掌握棉花新品种的生产情况,查看了气象局对该地区年降雨量与年平均气温的统计数据(单位分别是mm,℃),并作了统计.(1)试画出散点图;(2)判断两个变量是否具有相关关系. 解 (1)作出散点图如图所示,(2)由散点图可知,各点并不在一条直线附近,所以两个变量是非线性相关关系.2.在研究硝酸钠的可溶性程度时,对于不同的温度观测它在水中的溶解度,得观测结果如下:由资料看y 与x 呈线性相关,试求回归方程. 解 x =30,y =50.1283.1120.850.767.66++++=93.6.bˆ=25125155x xyx yx i ii ii -∙-∑∑==≈0.880 9.aˆ=y -bˆx =93.6-0.880 9×30=67.173. ∴回归方程为yˆ=0.880 9x+67.173.3.某企业上半年产品产量与单位成本资料如下:(1)求出线性回归方程;(2)指出产量每增加1 000件时,单位成本平均变动多少? (3)假定产量为6 000件时,单位成本为多少元? 解 (1)n=6,∑=61i i x =21,∑=61i i y =426,x =3.5,y =71,∑=612i i x =79,∑=61i i i y x =1 481,bˆ=26126166x xyx yx i ii ii -∙-∑∑===25.3679715.364811⨯-⨯⨯-=-1.82.aˆ=y-bˆx=71+1.82×3.5=77.37.回归方程为yˆ=aˆ+bˆx=77.37-1.82x.(2)因为单位成本平均变动bˆ=-1.82<0,且产量x的计量单位是千件,所以根据回归系数b的意义有: 产量每增加一个单位即1 000件时,单位成本平均减少1.82元.(3)当产量为6 000件时,即x=6,代入回归方程:yˆ=77.37-1.82×6=66.45(元)当产量为6 000件时,单位成本为66.45元.一、填空题1.观察下列散点图,则①正相关;②负相关;③不相关.它们的排列顺序与图形对应顺序是 .答案a,c,b2.回归方程yˆ=1.5x-15,则下列说法正确的有个.①y=1.5x-15②15是回归系数a③1.5是回归系数a④x=10时,y=0答案 13.(2009.湛江模拟)某地区调查了2~9岁儿童的身高,由此建立的身高y(cm)与年龄x(岁)的回归模型为yˆ=8.25x+60.13,下列叙述正确的是 .①该地区一个10岁儿童的身高为142.63 cm②该地区2~9岁的儿童每年身高约增加8.25 cm③该地区9岁儿童的平均身高是134.38 cm④利用这个模型可以准确地预算该地区每个2~9岁儿童的身高答案 ②4.三点(3,10),(7,20),(11,24)的回归方程是 .答案 yˆ=1.75x+5.75 5.某人对一地区人均工资x(千元)与该地区人均消费y(千元)进行统计调查,y 与x 有相关关系,得到回归直线方程yˆ=0.66x+1.562.若该地区的人均消费水平为7.675千元,估计该地区的人均消费额占人均工资收入的百分比约为 . 答案 83%6.某化工厂为预测产品的回收率y,需要研究它和原料有效成分含量x 之间的相关关系,现取8对观测值,计算,得∑=81i i x =52, ∑=81i i y =228, ∑=812i i x =478, ∑=81i i i y x =1 849,则其线性回归方程为 .答案 yˆ=11.47+2.62x 7.有下列关系:①人的年龄与他(她)拥有的财富之间的关系;②曲线上的点与该点的坐标之间的关系;③苹果的产量与气候之间的关系;④森林中的同一种树木,其断面直径与高度之间的关系.其中,具有相关关系的是 . 答案 ①③④8.已知关于某设备的使用年限x 与所支出的维修费用y(万元),有如下统计资料:若y 对x 呈线性相关关系,则回归直线方程yˆ=b ˆx+a ˆ表示的直线一定过定点 . 答案 (4,5) 二、解答题9.期中考试结束后,记录了5名同学的数学和物理成绩,如下表:(1)数学成绩和物理成绩具有相关关系吗?(2)请你画出两科成绩的散点图,结合散点图,认识(1)的结论的特点. 解 (1)数学成绩和物理成绩具有相关关系.(2)以x 轴表示数学成绩,y 轴表示物理成绩,可得相应的散点图如下:由散点图可以看出,物理成绩和数学成绩对应的点不分散,大致分布在一条直线附近. 10.以下是某地搜集到的新房屋的销售价格y 和房屋的面积x 的数据:(1)画出数据对应的散点图;(2)求线性回归方程,并在散点图中加上回归直线. 解 (1)数据对应的散点图如图所示:(2)x =109,y =23.2,∑=512i i x =60 975,∑=51i iiy x=12 952,bˆ=25125155x xyx yx i ii ii -∙-∑∑==≈0.196 2aˆ=y -bˆx ≈1.814 2 ∴所求回归直线方程为yˆ=0.196 2x+1.814 2.11.某公司利润y 与销售总额x(单位:千万元)之间有如下对应数据:(1)画出散点图; (2)求回归直线方程;(3)估计销售总额为24千万元时的利润. 解 (1)散点图如图所示:(2)x =71(10+15+17+20+25+28+32)=21,y=71(1+1.3+1.8+2+2.6+2.7+3.3)=2.1,∑=712i ix=102+152+172+202+252+282+322=3 447,∑=71i iiy x=10×1+15×1.3+17×1.8+20×2+25×2.6+28×2.7+32×3.3=346.3,bˆ=27127177x x yx yx i i i ii -∙-∑∑===221744731.22173.346⨯-⨯⨯-≈0.104, aˆ=y -bˆx =2.1-0.104×21=-0.084, ∴yˆ=0.104x-0.084. (3)把x=24(千万元)代入方程得,yˆ=2.412(千万元).∴估计销售总额为24千万元时,利润为2.412千万元.12.某种产品的广告费支出x 与销售额y(单位:百万元)之间有如下对应数据:(1)画出散点图;(2)求回归直线方程;(3)试预测广告费支出为10百万元时,销售额多大? 解 (1)根据表中所列数据可得散点图如下:(2)列出下表,并用科学计算器进行有关计算:因此,x =525=5,y =5250 =50,∑=512i i x =145, ∑=512i i y =13 500, ∑=51i i i y x =1 380.于是可得:bˆ=25125155x xyx yx i ii ii -∙-∑∑===55514550553801⨯⨯-⨯⨯-=6.5;aˆ=y -bˆx =50-6.5×5=17.5. 因此,所求回归直线方程为:yˆ=6.5x+17.5. (3)根据上面求得的回归直线方程,当广告费支出为10百万元时,yˆ=6.5×10+17.5=82.5(百万元),即这种产品的销售收入大约为82.5百万元.§11.4 统计案例1.对有线性相关关系的两个变量建立的回归直线方程y ˆ=a ˆ+b ˆx 中,回归系数bˆ与0的大小关系为 .(填序号) ①大于或小于 ②大于 ③小于 ④不小于答案 ①2.如果有90%的把握说事件A 和B 有关系,那么具体计算出的数据 2 2.706.(用“>”,“<”,“=”填空) 答案 >3.对两个变量y 与x 进行回归分析,分别选择不同的模型,它们的相关系数r 如下,其中拟合效果最好的模型是 .①模型Ⅰ的相关系数r 为0.98 ②模型Ⅱ的相关系数r 为0.80 ③模型Ⅲ的相关系数r 为0.50 ④模型Ⅳ的相关系数r 为0.25 答案 ①4.下列说法中正确的有:①若r >0,则x 增大时,y 也相应增大;②若r <0,则x 增大时,y 也相应增大;③若r=1或r=-1,则x 与y 的关系完全对应(有函数关系),在散点图上各个点均在一条直线上 . 答案 ①③基础自测例1 (14分)调查339名50岁以上人的吸烟习惯与患慢性气管炎的情况,获数据如下:试问:(1)吸烟习惯与患慢性气管炎是否有关? (2)用假设检验的思想给予证明. (1)解 根据列联表的数据,得到χ2=))()()(()(2c d b d c a b a bc ad n ++++-2分 =13428356205)1316212143(3392⨯⨯⨯⨯-⨯⨯=7.469>6.6356分 所以有99%的把握认为“吸烟与患慢性气管炎有关”.9分(2)证明 假设“吸烟与患慢性气管炎之间没有关系”,由于事件A={χ2≥6.635}≈0.01,即A 为小概率事件,而小概率事件发生了,进而得假设错误,这种推断出错的可能性约有1%.14分例2 一台机器使用时间较长,但还可以使用.它按不同的转速生产出来的某机械零件有一些会有缺点,每小时生产有 缺点零件的多少,随机器运转的速度而变化,下表为抽样试验结果:(1)对变量y 与x 进行相关性检验;(2)如果y 与x 有线性相关关系,求回归直线方程;(3)若实际生产中,允许每小时的产品中有缺点的零件最多为10个,那么,机器的运转速度应控制在什么范围内?解 (1)x =12.5,y =8.25,∑=41i iiy x=438,4x y =412.5,∑=412i i x =660,∑=412i i y =291,所以r=)4)(4(42412241241y yx xyx yx i ii ii ii --∙-∑∑∑====)25.272291()625660(5.412438-⨯--=25.6565.25≈62.2550.25≈0.995 4.因为r >r 0.05,所以y 与x 有很强的线性相关关系.(2)yˆ=0.728 6x-0.857 1. (3)要使yˆ≤10⇒0.728 6x-0.857 1≤10, 所以x ≤14.901 3.所以机器的转速应控制在14.901 3转/秒以下.例3 下表是某年美国旧轿车价格的调查资料,今以x 表示轿车的使用年数,y 表示相应的年均价格,求y 关于x 的回归 方程.解 作出散点图如图所示.可以发现,各点并不是基本处于一条直线附近,因此,y 与x 之间应是非线性相关关系.与已学函数图象比较,用y ˆ=e a x b ˆˆ来刻画题中模型更为合理,令zˆ=ln y ˆ,则z ˆ=b ˆx+a ˆ,题中数据变成如下表所示:相应的散点图如图所示,从图中可以看出,变换的样本点分布在一条直线附近,因此可以用线性回归方程拟合.由表中数据可得r ≈-0.996.|r|>r 0.05.认为x 与z之间具有线性相关关系,由表中数据得bˆ≈-0.298,a ˆ≈8.165,所以z ˆ=-0.298x+8.165,最后回代z ˆ=ln y ˆ,即y ˆ=e -0.298x+8.165为所求.1.某班主任对全班50名学生学习积极性和对待班级工作的态度进行了调查,统计数据如下表所示:(1)如果随机抽查这个班的一名学生,那么抽到积极参加班级工作的学生的概率是多少?抽到不太主动参加班级工作且学习积极性一般的学生的概率是多少?(2)试运用独立性检验的思想方法分析:学生的学习积极性与对待班级工作的态度是否有关系?说明理由.解 (1)随机抽查这个班的一名学生,有50种不同的抽查方法,由于积极参加班级工作的学生有18+6=24人,所以有24种不同的抽法,因此由古典概型的计算公式可得抽到积极参加班级工作的学生的概率是P 1=5024=2512,又因为不太主动 参加班级工作且学习积极性一般的学生有19人,所以抽到不太主动参加班级工作且学习积极性一般的学生的概率是P 2=5019.(2)由2χ统计量的计算公式得2χ=25252624)761918(502⨯⨯⨯⨯-⨯⨯≈11.538,由于11.538>10.828,所以可以有99.9%的把握认为“学生的学习积极性与对待班级工作的态度有关系”.2.某个体服装店经营某种服装,一周内获纯利y (元)与该周每天销售这种服装的件数x 之间的一组数据如下:已知∑=712i i x =280, ∑=712i i y =45 309, ∑=71i i i y x =3 487,此时r 0.05=0.754.(1)求x ,y ;(2)判断一周内获纯利润y 与该周每天销售件数x 之间是否线性相关,如果线性相关,求出回归直线方程.解 (1)x =71(3+4+5+6+7+8+9)=6,y=71 (66+69+73+81+89+90+91)≈79.86.(2)根据已知∑=712i i x =280, ∑=712i i y =45 309, ∑=71i i i y x =3 487,得相关系数 r=)86.79730945)(67280(86.7967487322⨯-⨯-⨯⨯-≈0.973.由于0.973>0.754,所以纯利润y与每天销售件数x 之间具有显著线性相关关系. 利用已知数据可求得回归直线方程为yˆ=4.746x+51.386.3.某种书每册的成本费y (元)与印刷册数x (千册)有关,经统计得到数据如下:检验每册书的成本费y 与印刷册数的倒数x1之间是否具有线性相关关系,如有,求出y 对x 的回归方程.解 首先作变量置换,令u=x1,题目所给数据变成如下表所示的10对数据:然后作相关性检验.经计算得r ≈0.999 8>0.75,从而认为u 与y 之间具有线性相关关系.由公式得aˆ≈1.125,b ˆ≈8.973, 所以yˆ=1.125+8.973u, 最后回代u=x1,可得y ˆ=1.125+x973.8,这就是题目要求的y 对x 的回归曲线方程.回归曲线的图形如图所示,它是经过平移的反比例函数图象的一个分支.一、填空题1.对于独立性检验,下列说法中正确的是 . ①2χ的值越大,说明两事件相关程度越大 ②2χ的值越小,说明两事件相关程度越小 ③2χ≤2.706时,有90%的把握说事件A 与B 无关 ④2χ>6.635时,有99%的把握说事件A 与B 有关 答案 ①②④2.工人月工资y (元)依劳动生产率x(千元)变化的回归方程为y ˆ=50+80x ,下列判断正确的是 .①劳动生产率为1 000元时,工资为130元。
11线性回归方程的求法
根据最小二乘法估计a 和 b就是未知参数a和b的最好估计,
i xi 1 2 y i x i2
2 , x i i=1 n
x
, y
, xi yi
i=1
n
.
例1 从某大学中随机选取8名女大学生,其身高和体重数据如表1-1所示。
1 编号 身高/cm 165 体重/kg 48
2 3 4 5 6 7 8 165 157 170 175 165 155 170 57 50 54 64 61 43 59
求根据一名女大学生的身高预报她的体重的回归方程,并预报一名身高为 ( x, y)称为 172cm的女大学生的体重。
n
样本点的中心 根据最小二乘法估计a 和 b就是未知参数 a和b的最好估计,
例1 从某大学中随机选取8名女大学生,其身高和体重数据如表1-1所示。
1 编号 身高/cm 165 体重/kg 48
2 3 4 5 6 7 8 165 157 170 175 165 155 170 57 50 54 64 61 43 59
求根据一名女大学生的身高预报她的体重的回归方程,并预报一名身高为 172cm的女大学生的体重。
施化肥量x 15
20
25
30
35
40
45
水稻产量y 330 345 365 y
500 450 400 350 300 10
405 445
450 455
散点图
水稻产量
··
20
·
·
· · ·
施化肥量
30 40 50
x
探索2:在这些点附近可画直线不止一条, 哪条直线最能代表x与y之间的关系呢? 发现:图中各点,大致分布在某条直线附近。
—多元线性回归分析案例
—多元线性回归分析案例多元线性回归分析是一种广泛使用的统计分析方法,用于研究多个自变量对一个因变量的影响程度。
在实际应用中,多元线性回归可以帮助我们理解变量之间的相互关系,并预测因变量的数值。
下面我们将以一个实际案例来介绍多元线性回归分析的应用。
假设我们是一家电子产品制造商,我们想研究影响手机销量的因素,并尝试通过多元线性回归模型来预测手机的销量。
我们选择了三个自变量作为影响因素:广告投入、价格和市场份额。
我们收集了一段时间内的数据,包括这三个因素以及对应的手机销量。
现在我们将利用这些数据来进行多元线性回归分析。
首先,我们需要将数据进行预处理和清洗。
我们检查数据的完整性和准确性,并去除可能存在的异常值和缺失值。
然后,我们对数据进行描述性统计分析,以了解数据的整体情况和变量之间的关系。
接下来,我们将建立多元线性回归模型。
我们将销量作为因变量,而广告投入、价格和市场份额作为自变量。
通过引入这些自变量,我们可以预测手机销量,并分析它们对销量的影响程度。
为了进行回归分析,我们需要估计模型的系数。
这可以通过最小二乘法来实现,该方法将使得模型的预测结果与实际观测值之间的残差平方和最小化。
接下来,我们将进行统计检验,以确定自变量对因变量的显著影响。
常见的统计指标包括回归系数的显著性水平、t值和p值。
在我们的案例中,假设多元线性回归模型的方程为:销量=β0+β1×广告投入+β2×价格+β3×市场份额+ε。
其中,β0、β1、β2和β3为回归系数,ε为误差项。
完成回归分析后,我们可以进行模型的诊断和评估。
我们可以检查模型的残差是否呈正态分布,以及模型的拟合程度如何。
此外,我们还可以通过交叉验证等方法评估模型的准确性和可靠性。
最后,我们可以利用训练好的多元线性回归模型来进行预测。
通过输入新的广告投入、价格和市场份额的数值,我们可以预测手机的销量,并根据预测结果制定相应的市场策略。
综上所述,多元线性回归分析是一种强大的统计工具,可用于分析多个自变量对一个因变量的影响。
计量经济学_三元线性回归模型案例分析
选择“国内生产总值(GDP)”作为经济整体增长水平的代表;选择中央和地方“财政支出”作为公共财政需求的代表;选择“商品零售物价指数”作为物价水平的代表。
由于税制改革难以量化,而且1985年以后财税体制改革对税收增长影响不是很大,可暂不考虑。
所以解释变量设定为可观测“国内生产总值(GDP)”、“财政支出”、“商品零售物价指数”一,数理经济学方程Y = C(1) + C(2)*XY i=β0+β2X2+β3X3+β4X4二,计量经济学方程设定线性回归模型为:Y i=β0+β2X2+β3X3+β4X4+μ三,数据收集从《国家统计局》获取以下数据:年份财政收入(亿元)Y 国内生产总值(亿元)X2财政支出(亿元)X3商品零售价格指数(%)X41978 519.28 3624.1 1122.09 100.7 1979 537.82 4038.2 1281.79 102 1980 571.7 4517.8 1228.83 106 1981 629.89 4862.4 1138.41 102.4 1982 700.02 5294.7 1229.98 101.9 1983 775.59 5934.5 1409.52 101.5 1984 947.35 7171 1701.02 102.8 1985 2040.79 8964.4 2004.25 108.8 1986 2090.73 10202.2 2204.91 106 1987 2140.36 11962.5 2262.18 107.3 1988 2390.47 14928.3 2491.21 118.5 1989 2727.4 16909.2 2823.78 117.81990 2821.86 18547.9 3083.59 102.1 1991 2990.17 21617.8 3386.62 102.9 1992 3296.91 26638.1 3742.2 105.4 1993 4255.3 34636.4 4642.3 113.2 1994 5126.88 46759.4 5792.62 121.7 1995 6038.04 58478.1 6823.72 114.8 1996 6909.82 67884.6 7937.55 106.1 1997 8234.04 74462.6 9233.56 100.8 1998 9262.8 78345.2 10798.18 97.4 1999 10682.58 82067.5 13187.67 97 2000 12581.51 89468.1 15886.5 98.5 2001 15301.38 97314.8 18902.58 99.2 2002 17636.45 104790.6 22053.15 98.7四,参数估计利用eviews软件可以得到Y关于X2的散点图:可以看出Y和X2成线性相关关系Y关于X3的散点图:可以看出Y和X3成线性相关关系Y关于X1的散点图:Dependent Variable: YMethod: Least SquaresDate: 01/09/10 Time: 13:16Sample: 1978 2002Included observations: 25Variable Coefficient Std. Error t-Statistic Prob.C -2582.755 940.6119 -2.745825 0.0121X2 0.022067 0.005577 3.956633 0.0007X3 0.702104 0.033236 21.12474 0.0000X4 23.98506 8.738296 2.744821 0.0121R-squared 0.997430 Mean dependent var 4848.366Adjusted R-squared 0.997063 S.D. dependent var 4870.971S.E. of regression 263.9591 Akaike info criterion 14.13511Sum squared resid 1463163. Schwarz criterion 14.33013Log likelihood -172.6889 F-statistic 2717.254Durbin-Watson stat 0.948521 Prob(F-statistic) 0.000000模型估计的结果为:Y i=-2582.755+0.022067X2+0.702104X3+23.98506X4(940.6119) (0.0056) (0.0332) (8.7383)t={-2.7458} {3.9567} {21.1247} {2.7449}R2=0.997 R2=0.997 F=2717.254 df=21五,相关检验1.经济意义检验模型估计结果说明,在假定其他变量不变的情况下,当年GDP 每增长1亿元,税收收入就会增长0.02207亿元;在假定其他变量不变的情况下,当年财政支出每增长1亿元,税收收入就会增长0.7021亿元;在假定其他变量不变的情况下,当零售商品物价指数上涨一个百分点,税收收入就会增长23.985亿元。
同步优化设计2021年高中数学第七章统计案例1一元线性回归课件北师大版选择性必修第一册2021061
436
=54.5,
8
∴
^
165×48+165×57+157×50+170×54+175×64+165×61+155×43+170×59-8×165.25×54.5
=
266
=313.5
^
1652 +1652 +1572 +1702 +1752 +1652 +1552 +1702 -8×165.252
探究一
直线拟合
例1下面4个散点图中,不适合用直线拟合其中两个变量的是(
)
答案 A
解析 根据题意知,适合用直线拟合其中两个变量的散点图,必须是散点分
布比较集中,且大体接近于某一条直线,分析选项中的4个散点图可得,A中
的散点杂乱无章,最不符合条件.
反思感悟 一般地,直观地判断线性相关性就是观察散点图是否近似成一条
系.故选D
微思考
相关关系与函数关系有什么异同点?
提示相同点:两者均是指两个变量的关系.
不同点:①函数关系是一种确定的关系,如圆的面积S与半径r的关系,它可
以用函数关系式S=πr2来表示;相关关系是一种非确定的关系,如人的体重y
与身高x有关,一般来说,身高越高,体重越重,但不能用一个函数关系式来严
格地表示它们之间的关系.②函数关系是一种因果关系,而相关关系不一定
所以线性回归方程为Y=0.7X+1.05.
当堂检测
1.已知变量X,Y之间具有线性相关关系,其散点图如图所示,则其线性回归
方程可能为(
)
A.y=1.5x+2
B.y=-1.5x-2
C.y=1.5x-2
一元线性回归分析案例
数学3——统计内容
再冷的石头,坐上三年也会暖 !
1. 画散点图
2. 了解最小二乘法的思想
3. 求回归直线方程
y=bx+a
4. 用回归直线方程解决应用问题
课题:选修2-3 8.5 回归分析案例
复习 变量之间的两种关系
再冷的石头,坐上三年也会暖 !
问题1:正方形的面积y与正方形的边长x之间
选修2-3——统计案例
5. 引入线性回归模型
y=bx+a+e
6. 了解模型中随机误差项e产 生的原因
7. 了解相关指数 R2 和模型拟 合的效果之间的关系
8. 了解残差图的作用 9. 利用线性回归模型解决一类
非线性回归问题 10. 正确理解分析方法与结果
课题:选修2-3 8.5 回归分析案例
再冷的石头,坐上三年也会暖 !
课题:选修2-3 8.5 回归分析案例
解:(1)列出下表,并计算
再冷的石头,坐上三年也会暖 !
i
1
2
3
4
5
6
7
8
9
10
xi 104 180 190 177 147 134 150 191 204 121 yi 100 200 210 185 155 135 170 205 235 125 xiyi 10400 36000 39900 32745 22785 18090 25500 39155 47940 15125
现实生活中存在着大量的相关关系。 如:人的身高与年龄; 产品的成本与生产数量; 商品的销售额与广告费; 家庭的支出与收入。等等
探索:水稻产量y与施肥量x之间大致有何规 律?
课题:选修2-3 8.5 回归分析案例
一元线性回归模型案例
一元线性回归模型案例一元线性回归模型是统计学中最基本、应用最广泛的一种回归分析方法,可以用来探究自变量与因变量之间的线性关系。
一元线性回归模型的数学公式为:y = β0 + β1x,其中y表示因变量,x表示自变量,β0和β1分别为截距和斜率。
下面以一个实际案例来说明一元线性回归模型的应用。
假设我们有一组数据,其中x表示一个房屋的面积,y表示该房屋的售价,我们想利用一元线性回归模型来预测房屋的售价。
首先,我们需要收集一组已知数据,包括房屋的面积和售价。
假设我们收集了10个不同房屋的面积和售价数据,如下所示:房屋面积(x)(平方米)售价(y)(万元)80 12090 130100 140110 150120 160130 170140 180150 190160 200170 210我们可以根据这组数据绘制散点图,横坐标表示房屋面积x,纵坐标表示售价y,如下所示:(插入散点图)接下来,我们可以利用最小二乘法来拟合一条直线,使其能够最好地拟合这些散点。
最小二乘法是一种最小化误差平方和的方法,可以得到最优的拟合直线。
根据一元线性回归模型的公式,可以通过计算拟合直线的斜率β1和截距β0来实现最小二乘法。
其中,斜率β1可以通过下式计算得到:β1 = n∑(xiyi) - (∑xi)(∑yi)n∑(xi^2) - (∑xi)^2截距β0可以通过下式计算得到:β0 = (1/n)∑yi - β1(1/n)∑xi通过带入已知数据,我们可以计算得到斜率β1和截距β0的具体值。
在本例中,计算结果如下:β1 ≈ 1.0667β0 ≈ 108.6667最后,利用得到的斜率β1和截距β0,我们可以得到一元线性回归模型的具体公式为:y ≈ 108.6667 + 1.0667x我们可以利用这个回归模型进行预测。
例如,如果有一个房屋的面积为130平方米,那么根据回归模型,可以预测该房屋的售价为170 + 108.6667 ≈ 278.6667万元。
统计案例练习题(附答案)
统计案例练习题(附答案)一、选择题1.对具有线性相关关系的两个变量建立的线性回归方程y=a+bx中,回归系数b()A.可以小于0B.只能大于0C.可能等于0D.只能小于0【解析】b可能大于0,也可能小于0,但当b=0时,x,y不具有线性相关关系.【答案】A2.下列两个变量间的关系不是函数关系的是()A.正方体的棱长与体积B.角的弧度数与它的正弦值C.单产为常数时,土地面积与粮食总产量D.日照时间与水稻亩产量【解析】∵A、B、C都可以得出一个函数关系式,而D不能写出确定的函数关系式,它只是一个不确定关系.【答案】D3.某产品的广告费用x与销售额y的统计数据如下表:广告费用x(万元)4235销售额y(万元)49263954根据上表可得回归方程y=bx+a中的b为9.4,据此模型预报广告费用为6万元时销售额为()A.63.36万元B.65.5万元C.67.7万元D.72.0万元【解析】x=4+2+3+54=3.5,y=49+26+39+544=42,∴a=y-bx=42-9.4×3.5=9.1,∴回归方程为y=9.4x+9.1,∴当x=6时,y=9.4×6+9.1=65.5,故选B.【答案】B4.由一组样本数据(x1,y1),(x2,y2),…,(xn,yn)得到回归直线方程y=bx+a,那么下列说法中不正确的是()A.直线y=bx+a必经过点(x,y)B.直线y=bx+a至少经过点(x1,y1)(x2,y2),…,(xn,bn)中的一个点C.直线y=bx+a的斜率为∑ni=1xiyi-nx•y∑ni=1x2i-nx2D.直线y=bx+a的纵截距为y-bx【解析】回归直线可以不经过任何一个点.其中A:由a=y-bx代入回归直线方程y=bx+y-ax,即y=b(x-x)+y过点(x,y).∴B错误.【答案】B5.已知两个变量x和y之间具有线性相关性,甲、乙两个同学各自独立地做了10次和15次试验,并且利用线性回归的方法求得回归直线分别为l1和l2,已知两个人在试验中发现对变量x的观测数据的平均数都为s,对变量y的观测数据的平均数都是t,则下列说法正确的是()A.l1与l2一定有公共点(s,t)B.l1与l2相交,但交点一定不是(s,t)C.l1与l2必定平行D.l1与l2必定重合【解析】由于回归直线y=bx+a恒过(x,y)点,又两人对变量x的观测数据的平均值为s,对变量y的观测数据的平均值为t,所以l1和l2恒过点(s,t).【答案】A二、填空题6.从某大学随机选取8名女大学生,其身高x(cm)和体重y(kg)的线性回归方程为y=0.849x-85.712,则身高172cm的女大学生,由线性回归方程可以预测其体重约为________.【解析】将x=172代入线性回归方程y=0.849x-85.712,有y=0.849×172-85.712=60.316(kg).【答案】60.316kg7.面对竞争日益激烈的消费市场,众多商家不断扩大自己的销售市场,以降低生产成本.某白酒酿造企业市场部对该企业9月份的产品销量(单位:千箱)与单位成本的资料进行线性回归分析,结果如下:x=72,y=71,∑6i=1x2i=79,∑6i=1xiyi=1481.b=1481-6×72×7179-6× 72 2≈-1.8182,a=71-(-1.8182)×72≈77.36,则销量每增加1000箱,单位成本下降________元.【解析】由上表可得,y=-1.8182x+77.36,销量每增加1千箱,则单位成本下降1.8182元.【答案】1.81828.调查了某地若干户家庭的年收入x(单位:万元)和年饮食支出y(单位:万元),调查显示年收入x与年饮食支出y具有线性相关关系,并由调查数据得到y对x的回归直线方程:y=0.254x+0.321.由回归直线方程可知,家庭年收入每增加1万元,年饮食支出平均增加________万元.【解析】由题意知0.254(x+1)+0.321]-(0.254x+0.321)=0.254.【答案】0.254三、解答题9.某电脑公司有6名产品推销员,其工作年限与年推销金额数据如下表:推销员编号12345工作年限x/年35679推销金额y/万元23345(1)求年推销金额y关于工作年限x的线性回归方程;(2)若第6名推销员的工作年限为11年,试估计他的年推销金额.【解】(1)设所求的线性回归方程为y=bx+a,则b=i=15 xi-x yi-y i=15 xi-x 2=1020=0.5,a=y-bx=0.4.所以年推销金额y关于工作年限x的线性回归方程为y=0.5x+0.4. (2)当x=11时,y=0.5x+0.4=0.5×11+0.4=5.9(万元).所以可以估计第6名推销员的年推销金额为5.9万元.10.一种机器可以按各种不同速度运转,其生产物件中有一些含有缺点,每小时生产有缺点物件的多少随机器运转速度而变化,用x表示转速(单位:转/秒),用y表示每小时生产的有缺点物件个数.现观测得到(x,y)的4组值为(8,5),(12,8),(14,9),(16,11).(1)假设y与x之间存在线性相关关系,求y与x之间的线性回归方程.(2)若实际生产中所容许的每小时最大有缺点物件数为10,则机器的速度不得超过多少转/秒?(精确到1)【解】(1)设回归方程为y=a+bx,则x=8+12+14+164=12.5,y=5+8+9+114=8.25,∑4i=1x2i=660,∑4i=1xiyi=438,b=∑4i=1xiyi-4xy∑4i=1x2i-4x2=438-4×12.5×8.25660-4×12.52≈0.73,a=y-bx=8.25-0.73×12.5=-0.875,所以所求回归方程为y=-0.875+0.73x.(2)由y≤10,即-0.875+0.73x≤10,得x≤10.8750.73≈15,即机器速度不得超过15转/秒.11.高二(3)班学生每周用于数学学习的时间x(单位:小时)与数学成绩y(单位:分)之间有如下数据:x24152319161120161713y92799789644783687159若某同学每周用于数学学习的时间为18小时,试预测该同学的数学成绩.【解】显然学习时间与学习成绩间具有相关关系,可以列出下表,并用科学计算器进行计算.i12345678910xi24152319161120161713yi92799789644783687159xiyi22081185223116911024517166010881207767∑10i=1x2i=3182,∑10i=1xiyi=13578于是可得b=∑10i=1xiyi-10xy∑10i=1x2i-10x2=545.4154.4≈3.53,a=y-bx=74.9-3.53×17.4≈13.5.因此可求得回归直线方程为y=3.53x+13.5.当x=18时,y=3.53×18+13.5≈77.故该同学预计可得77分左右.。
高中数学选修2-3统计案例之线性回归方程习题课
1.相关关系的分类从散点图上看,点散布在从左下角到右上角的区域内,对于两个变量的这种相关关系,我们将它称为正相关;点散布在从左上角到右下角的区域内,两个变量的这种相关关系称为负相关.2.线性相关从散点图上看,如果这些点从整体上看大致分布在一条直线附近,则称这两个变量之间具有线性相关关系,这条直线叫回归直线.3.回归方程(1)最小二乘法:使得样本数据的点到回归直线的距离平方和最小的方法叫最小二乘法.(2)回归方程:两个具有线性相关关系的变量的一组数据:(x1,y1),(x2,y2),…,(x n,y n),其回归方程为y^=b^x+a^,则b^,a^其中,b是回归方程的斜率,a是在y轴上的截距.4.样本相关系数r=∑i=1n(x i-x)(y i-y)∑i=1n(x i-x)2∑i=1n(y i-y)2,用它来衡量两个变量间的线性相关关系.(1)当r>0时,表明两个变量正相关;(2)当r<0时,表明两个变量负相关;(3)r的绝对值越接近1,表明两个变量的线性相关性越强;r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常当|r|>0.75时,认为两个变量有很强的线性相关关系.5.线性回归模型(1)y=bx+a+e中,a、b称为模型的未知参数;e称为随机误差.(2)相关指数用相关指数R2来刻画回归的效果,其计算公式是:R2=,R2的值越大,说明残差平方和越小,也就是说模型的拟合效果越好.在线性回归模型中,R2表示解释变量对预报变量变化的贡献率,R2越接近于1,表示回归效果越好.规律(1)函数关系是一种确定的关系,相关关系是一种非确定的关系.事实上,函数关系是两个非随机变量的关系,而相关关系是非随机变量与随机变量的关系.注意(1)回归分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图大致呈线性时,求出的回归直线方程才有实际意义,否则,求出的回归直线方程毫无意义.(2)线性回归方程中的截距和斜率都是通过样本数据估计而来的,存在误差,这种误差会导致预报结果的偏差;而且回归方程只适用于我们所研究的样本总体.考向一相关关系的判断例1.下列选项中,两个变量具有相关关系的是( )A.正方形的面积与周长B.匀速行驶车辆的行驶路程与时间C.人的身高与体重D.人的身高与视力答案:C例2.对变量x、y有观测数据(x i,y i)(i =1,2,…,10),得散点图1;对变量u,v 有观测数据(u i,v i)(i=1,2,…,10),得散点图2.由这两个散点图可以判断( )A.变量x与y正相关,u与v正相关B.变量x与y正相关,u与v负相关C.变量x与y负相关,u与v正相关D.变量x与y负相关,u与v负相关解析:选C.由题图1可知,各点整体呈递减趋势,x与y负相关,由题图2可知,各点整体呈递增趋势,u与v正相关.例3.下面哪些变量是相关关系().A.出租车车费与行驶的里程B.房屋面积与房屋价格C.身高与体重D.铁块的大小与质量解析A,B,D都是函数关系,其中A一般是分段函数,只有C是相关关系.答案 C例4.如图所示,有5组(x,y)数据,去掉________组数据后,剩下的4组数据的线性相关性最大.解析:因为A、B、C、E四点分布在一条直线附近且贴近某一直线,D点离得远.答案:D例5.对变量x,y有观测数据(x i,y i)(i=1,2,…,10),得散点图(1);对变量u,v 有观测数据(u i、v i)(i=1,2,…,10),得散点图(2).由这两个散点图可以判断().A.变量x与y正相关,u与v正相关B.变量x与y正相关,u与v负相关C.变量x与y负相关,u与v正相关D.变量x与y负相关,u与v负相关解析由题图(1)可知,各点整体呈递减趋势,x与y负相关;由题图(2)可知,各点整体呈递增趋势,u与v正相关.答案 C例6.下列关系属于线性负相关的是( )A.父母的身高与子女身高的关系B.球的体积与半径之间的关系C.汽车的重量与汽车每消耗1 L汽油所行驶的平均路程D.一个家庭的收入与支出解析:选C.A、D中的两个变量属于线性正相关,B中两个变量是函数关系.例7.山东鲁洁棉业公司的科研人员在7块并排、形状大小相同的试验田上对某棉花新品种进行施化肥量x对产量y影响的试验,得到如下表所示的一组数据(单位:kg):(1)画出散点图;(2)判断是否具有相关关系.[审题视点] (1)用x 轴表示化肥施用量,y 轴表示棉花产量,逐一画点.(2)根据散点图,分析两个变量是否存在相关关系.解 (1)散点图如图所示(2)由散点图知,各组数据对应点大致都在一条直线附近,所以施化肥量x与产量y具有线性相关关系.利用散点图判断两个变量是否有相关关系是比较简便的方法.在散点图中如果所有的样本点都落在某一函数的曲线上,就用该函数来描述变量之间的关系.即变量之间具有函数关系.如果所有的样本点落在某一函数的曲线附近,变量之间就有相关关系;如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系.例8. 根据两个变量x,y之间的观测数据画成散点图如图所示,这两个变量是否具有线性相关关系________(填“是”与“否”).解析从散点图看,散点图的分布成团状,无任何规律,所以两个变量不具有线性相关关系.答案否考向二线性回归方程例9.对有线性相关关系的两个变量建立的回归直线方程y^=a+bx中,回归系数b( )A.不能小于0 B.不能大于0C.不能等于0 D.只能小于0解析:选C.∵b=0时,r=0,这时不具有线性相关关系,但b能大于0也能小于0.例10.已知回归方程y^=4.4x+838.19,则可估计x与y的增长速度之比约为________.解析:x与y的增长速度之比即为回归方程的斜率的倒数14.4=1044=522.答案:5 22例11.某商品销售量y(件)与销售价格x(元/件)负相关,则其回归方程可能是().A.y^=-10x+200 B.y^=10x+200 C.y^=-10x-200 D.y^=10x-200 解析因为销量与价格负相关,由函数关系考虑为减函数,又因为x,y不能为负数,再排除C,故选A.答案 A例12.下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x(吨)与相应的生产能耗y(吨标准煤)的几组对照数据.(1)请画出上表数据的散点图;(2)请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程y^=b^x+a^;(3)已知该厂技改前生产100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的线性回归方程.预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤?(参考数值:3×2.5+4×3+5×4+6×4.5=66.5)[审题视点] (2)问利用公式求a ^、b ^,即可求出线性回归方程.(3)问将x =100代入回归直线方程即可. 解 (1)由题设所给数据,可得散点图如图所示.(2)由对照数据,计算得:i =14x 2i =86,x =3+4+5+64= 4.5(吨),y =2.5+3+4+4.54=3.5(吨). 已知∑i =14x i y i =66.5,所以,由最小二乘法确定的回归方程的系数为:b ^=∑i =14x i y i -4x ·y ∑i =14x 2i -4x 2=66.5-4×4.5×3.586-4×4.52=0.7,a ^=y -b ^x =3.5-0.7×4.5=0.35.因此,所求的线性回归方程为y ^=0.7x +0.35.(3)由(2)的回归方程及技改前生产100吨甲产品的生产能耗,得降低的生产能耗为:90-(0.7×100+0.35)=19.65(吨标准煤).在解决具体问题时,要先进行相关性检验,通过检验确认两个变量是否具有线性相关关系,若它们之间有线性相关关系,再求回归直线方程.例13.为了解儿子身高与其父亲身高的关系,随机抽取5对父子的身高数据如下:则y对x的线性回归方程为().A.y=x-1 B.y=x+1C.y=88+12x D.y=176解析由题意得x=174+176+176+176+1785=176(cm),y=175+175+176+177+1775=176(cm),由于(x,y)一定满足线性回归方程,经验证知选C.答案 C例14.某地最近十年粮食需求量逐年上升,下表是部分统计数据:(1)利用所给数据求年需求量与年份之间的回归直线方程y^=bx+a;(2)利用(1)中所求出的直线方程预测该地2012年的粮食需求量.解(1)由所给数据看出,年需求量与年份之间是近似直线上升,下面来配回归直线方程,为此对数据预处理如下:对预处理后的数据,容易算得,x=0,y=3.2,b=26040=6.5,a=y-b x=3.2.由上述计算结果,知所求回归直线方程为y -257=b(x-2 006)+a=6.5(x-2 006)+3.2,即y^=6.5(x-2 006)+260.2.①(2)利用直线方程①,可预测2012年的粮食需求量为6.5(2 012-2 006)+260.2=6.5×6+260.2=299.2(万吨).例15.下列有关回归直线方程y^=bx+a 的叙述正确的是( )①反映y^与x之间的函数关系;②反映y与x之间的函数关系;③表示y^与x之间的不确定关系;④表示最接近y与x之间真实关系的一条直线.A.①② B.②③C.③④ D.①④解析:选D.y^=bx+a表示y^与x之间的函数关系,而不是y与x之间的函数关系;但它反映的关系最接近y与x之间的真实关系,故选D.例16.设有一个回归方程y^=3-5x,变量x增加一个单位时( )A.y平均增加3个单位B.y平均减少5个单位C.y平均增加5个单位D.y平均减少3个单位解析:选B.∵-5是斜率的估计值,说明x每增加一个单位,y平均减少5个单位.例17.对两个变量y和x进行回归分析,得到一组样本数据:(x1,y1),(x2,y2),…,(x n,y n),则下列说法中不.正确的是( ) A.由样本数据得到的回归方程y^=b^x+a^必过样本中心(x,y)B.残差平方和越小的模型,拟合的效果越好C.用相关指数R2来刻画回归效果,R2越小,说明模型的拟合效果越好D.若变量y和x之间的相关系数为r =-0.9362,则变量y和x之间具有线性相关关系解析:选C.C中应为R2越大拟合效果越好.例18.已知回归方程y^=2x+1,而试验得到一组数据是(2,4.9),(3,7.1),(4,9.1),则残差平方和是( )A .0.01B .0.02C .0.03D .0.04解析:选C.当x =2时,y ^=5, 当x =3时,y ^=7,当x =4时,y ^=9.∴e ^1=4.9-5=-0.1,e ^2=7.1-7=0.1, e ^3=9.1-9=0.1.∴ i =13e ^i 2=(-0.1)2+(0.1)2+(0.1)2=0.03.例19.下列说法:①将一组数据中的每个数据都加上或减去同一个常数后,方差恒不变;②回归方程y ^=bx +a 必过点(x ,y ); ③曲线上的点与该点的坐标之间具有相关关系;④在一个2×2列联表中,由计算得K2=13.079,则其两个变量间有关系的可能性是 90%.其中错误的是________.解析:①正确.由回归方程的定义及最小二乘法思想,知②正确.③④不正确.答案:③④例20.在2009年十一国庆8天黄金周期间,某市物价部门,对本市五个商场销售的某商品的一天销售量及其价格进行调查,五个商场的售价x元和销售量y件之间的一组数据如下表所示:9通过分析,发现销售量对商品的价格x具有线性相关关系,则销售量y对商品的价格x的回归直线方程为________.解析:由数据表可得x=10,y=8,离差x-x:-1,-0.5,0,0.5,1;离差y-y:3,2,0,-2,-3.∴b^=-1×3-0.5×2-0.5×2-1×3 1+0.25+0+0.25+1=-3.2,a ^=y -b ^x =40,∴回归直线方程为y ^=-3.2x +40. 答案:y ^=-3.2x +40例21.在某地区的12~30岁居民中随机抽取了10个人的身高和体重的统计资料如表:根据上述数据,画出散点图并判断居民的身高和体重之间是否有相关关系.解:以x 轴表示身高,y 轴表示体重,可得到相应的散点图如图所示:由散点图可知,两者之间具有相关关系,且为正相关.12.某农科所对冬季昼夜温差大小与某反季节大豆新品种发芽多少之间的关系进行分析研究,他们分别记录了12月1日至12月5日的每天昼夜温差与实验室每天每100颗种子中的发芽数,得到如下资料:该农科所确定的研究方案是:先从这5组数据中选取2组,用剩下的3组数据求线性回归方程,再对被选取的2组数据进行检验.(1)求选取的2组数据恰好是不相邻2天数据的概率;(2)若选取的是12月1日与12月5日的2组数据,请根据12月2日至12月4日的数据,求出y关于x的线性回归方程y^=b^ x+a^;(3)若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2颗,则认为得到的线性回归方程是可靠的,试问(2)中所得的线性回归方程是否可靠?解:(1)设抽到不相邻2组数据为事件A,因为从5组数据中选取2组数据共有10种情况,每种情况都是等可能出现的,其中抽到相邻2组数据的情况有4种,所以P(A)=1-410=35.(2)由数据求得,x=12,y=27,由公式求得.b^=52,a^=y-b^x=-3.所以y关于x的线性回归方程为y^=5 2 x-3.(3)当x=10时,y^=52×10-3=22,|22-23|<2;当x=8时,y^=52×8-3=17,|17-16|<2.所以该研究所得到的线性回归方程是可靠的.。
统计学案例——相关回归分析
《统计学》案例——相关回归分析案例一质量控制中的简单线性回归分析1、问题的提出某石油炼厂的催化装置通过高温及催化剂对原料的作用进行反应,生成各种产品,其中液化气用途广泛、易于储存运输,所以,提高液化气收率,降低不凝气体产量,成为提高经济效益的关键问题。
通过因果分析图和排列图的观察,发现回流温度是影响液化气收率的主要原因,因此,只有确定二者之间的相关关系,寻找适当的回流温度,才能达到提高液化气收率的目的。
经认真分析仔细研究,确定了在保持原有轻油收率的前提下,液化气收率比去年同期增长1个百分点的目标,即达到12.24%的液化气收率。
2、数据的收集序号回流温度(℃)液化气收率(%)序号回流温度(℃)液化气收率(%)1 2 3 4 5 6 7 8 9 10 11 12 13 14 1536 39 43 43 39 38 43 44 37 40 34 39 40 41 4413.1 12.8 11.3 11.4 12.3 12.5 11.1 10.8 13.1 11.9 13.6 12.2 12.2 11.8 11.116 17 18 19 20 21 22 23 24 25 26 27 28 29 3042 43 46 44 42 41 45 40 46 47 45 38 39 44 4512.3 11.9 10.9 10.4 11.5 12.5 11.1 11.1 11.1 10.8 10.5 12.1 12.5 11.5 10.9目标值确定之后,我们收集了某年某季度的回流温度和液化气收率的30组数据(如上表),进行简单直线回归分析。
3.方法的确立设线性回归模型为εββ++=x y 10,估计回归方程为x b b y10ˆ+= 将数据输入计算机,输出散点图可见,液化气收率y 具有随着回流温度x 的提高而降低的趋势。
因此,建立描述y 和x 之间关系的模型时,首选直线型是合理的。
从线性回归的计算结果,可以知道回归系数的最小二乘估计值b 0=21.263和b 1=-0.229,于是最小二乘直线为x y229.0263.21ˆ-= 这就表明,回流温度每增加1℃,估计液化气收率将减少0.229%。
2018届高二数学第1章统计案例1.2回归分析14
1.2 回归分析1.线性回归模型(1)线性回归模型y =a +bx +ε,其中a +bx 是确定性函数,ε称为随机误差. (2)随机误差产生的原因主要有以下几种: ①所用的确定性函数不恰当引起误差; ②忽略了某种因素的影响; ③存在观测误差.(3)在线性回归方程y ^=a ^+b ^x 中b ^=∑i =1nx i -x-y i -y-∑i =1nx i -x-2=∑i =1nx i y i -n x -y-∑i =1nx 2i -n x -2,a ^=y --b ^x -(其中x -=1n ∑i =1n x i ,y -=1n ∑i =1ny i ).其中,a ^,b ^分别为a ,b 的估计值,a ^称为回归截距,b ^称为回归系数,y ^称为回归值. 2.相关系数(1)计算两个随机变量间线性相关系数的公式∑i =1nx i -x-2∑i =1ny i -y-2=∑i =1nx i y i -n x -y-∑i =1nx 2i -n x-2∑i =1ny 2i -n y -2(2)r 具有如下性质:①|r |≤1;②|r |越接近于1,x ,y 的线性相关程度越强; ③|r |越接近于0,x ,y 的线性相关程度越弱. 3.对相关系数进行显著性检验的基本步骤(1)提出统计假设H 0:变量x ,y 不具有线性相关关系;(2)如果以95%的把握作出判断,那么可以根据1-0.95=0.05与n -2在教材附录1中查出一个r 的临界值r 0.05(其中1-0.95=0.05称为检验水平);(3)计算样本相关系数r ;(4)作出统计推断:若|r |>r 0.05,则否定H 0,表明有95%的把握认为x 与y 之间具有线性相关关系;若|r |≤r 0.05,则没有理由拒绝原来的假设H 0,即就目前数据而言,没有充分理由认为y 与x 之间有线性相关关系.我们把相关关系(不确定性关系)转化为函数关系(确定性关系),当两个具有相关关系的变量近似地满足一次函数关系时,我们所求出的函数关系式y ^=a ^+b ^x 就是回归直线方程.求回归直线方程的一般方法是借助于工作软件求出回归直线方程,也可以利用计算器计算出b ^,再由a ^=y --b ^x -求出a ^,写出回归直线方程y ^=b ^x +a ^.计算时应注意:(1)求b ^时,利用公式b ^=∑i =1nx i y i -n x - y-∑i =1nx 2i -n x-2,先求出x -=1n (x 1+x 2+…+x n ),y -=1n(y 1+y 2+…+y n ),∑i =1nx i y i =x 1y 1+x 2y 2+…+x n y n ,∑i =1nx 2i =x 21+x 22+…+x 2n .再由a ^=y --b ^x -求出a ^的值,并写出回归直线方程.(2)线性回归方程中的截距a ^和斜率b ^都是通过样本估计而来的,存在着误差,这种误差可能导致估计结果的偏差.(3)回归直线方程y ^=a ^+b ^x 中的b ^表示x 增加1个单位时,y ^的变化量为b ^,而a ^表示y ^不随x 的变化而变化的部分.(4)可以利用回归直线方程y ^=a ^+b ^x 求在x 取某一个值时y 的估计值.[例1] 假设关于某设备的使用年限x (年)和所支出的维修费用y (万元)有如下的统计资料:若由数据可知,y 对x 呈线性相关关系. (1)求线性回归方程;(2)估计使用年限为10年时,维修费用是多少?[思路点拨] 由于题目条件已经指明y 对x 呈线性相关关系,所以可直接利用公式求a ^与b ^,然后求出线性回归方程,最后把10代入,估计维修费用.[精解详析] (1)列表如下:经计算得:x -=4,y -=5,∑i =15x 2i =90,∑i =15x i y i =112.3,于是b ^=∑i =15x i y i -5x -y-∑i =15x 2i -5x -2=1.23,a ^=y --b ^·x -=0.08,所以线性回归方程为y ^=b ^x +a ^=1.23x +0.08.(2)当x =10时,y ^=1.23×10+0.08=12.38(万元),即若估计使用年限为10年时,维修费用为12.38万元.[一点通] 若题目中没有指明y 对x 呈线性相关关系,而只给出资料,则需根据散点图或利用线性相关系数先确定变量是否线性相关,再求线性回归方程.1.(辽宁高考)调查了某地若干户家庭的年收入x (单位:万元)和年饮食支出y (单位:万元),调查显示年收入x 与年饮食支出y 具有线性相关关系,并由调查数据得到y 对x 的回归直线方程:y ^=0.254x +0.321.由回归直线方程可知,家庭年收入每增加1万元,年饮食支出平均增加________万元.解析:以x +1代x ,得y ^=0.254(x +1)+0.321,与y ^=0.254x +0.321相减可得,年饮食支出平均增加0.254万元.答案:0.2542.(湖北高考改编)四名同学根据各自的样本数据研究变量x ,y 之间的相关关系,并求得回归直线方程,分别得到以下四个结论:①y 与x 负相关且y ^=2.347x -6.423; ②y 与x 负相关且y ^=-3.476x +5.648; ③y 与x 正相关且y ^=5.437x +8.493; ④y 与x 正相关且y ^=-4.326x -4.578. 其中一定不正确的结论的序号是________.解析:由回归直线方程y ^=b ^x +a ^,知当b ^>0时,x 与y 正相关,当b ^<0时,x 与y 负相关,所以①④一定错误.答案:①④3.某产品的广告费用x 与销售额y 的统计数据如下表:根据上表可得回归方程y ^=b ^x +a ^中的b ^为9.4,据此模型预报广告费用为6万元时的销售额为________万元.解析:∵x -=4+2+3+54=72,y -=49+26+39+544=42.又y ^=b ^x +a ^必过(x -,y -), ∴42=72×9.4+a ^,∴a ^=9.1.∴线性回归方程为y ^=9.4x +9.1.∴当x =6时,y ^=9.4×6+9.1=65.5(万元). 答案:65.54.某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:(1)求回归直线方程y ^=bx +a ,其中b =-20,a =y --b x -;(2)预计在今后的销售中,销量与单价仍然服从(1)中的关系,且该产品的成本是4元/件,为使工厂获得最大利润,该产品的单价应定为多少元?(利润=销售收入-成本)解:(1)由于x =16(x 1+x 2+x 3+x 4+x 5+x 6)=8.5,y =16(y 1+y 2+y 3+y 4+y 5+y 6)=80.所以a =y -bx =80+20×8.5=250,从而回归直线方程为y ^=-20x +250. (2)设工厂获得的利润为L 元,依题意得L =x (-20x +250)-4(-20x +250)=-20x 2+330x -1 000=-20⎝⎛⎭⎪⎫x -3342+361.25.当且仅当x =8.25时,L 取得最大值.故当单价定为8.25元时,工厂可获得最大利润.[例2] 10名同学在高一和高二的数学成绩如下表:其中x 为高一数学成绩,y 为高二数学成绩. (1)y 与x 是否具有相关关系?(2)如果y 与x 具有线性相关关系,求回归直线方程.[思路点拨] 可先计算线性相关系数r 的值,然后与r 0.05比较,进而对x 与y 的相关性做出判断.[精解详析] (1)由已知表格中的数据,求得x -=71,y -=72.3,r=∑i =110x i -x-y i -y-∑i =110x i -x-2∑i =110y i -y-2≈0.78.由检验水平0.05及n -2=8,在课本附录1中查得r 0.05=0.632,因为0.78>0.632, 所以y 与x 之间具有很强的线性相关关系. (2)y 与x 具有线性相关关系,设回归直线方程为y ^=a ^+b ^x ,则有b ^=∑i =110x i -x-y i -y-∑i =110x i -x-2≈1.22,a^=y --b ^x -=72.3-1.22×71=-14.32.所以y 关于x 的回归直线方程为y ^=1.22x -14.32.[一点通] 判断x 与y 是否具有线性相关关系,还可以先作出散点图,从点的分布特征来判定是否线性相关.有些同学不对问题进行必要的相关性检验,直接求x 与y 的回归直线方程,它就没有任何实际价值,也就不能准确反映变量x 与y 间的变化规律.另外,要注意计算的正确性.5.变量X 与Y 相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5);变量U 与V 相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1).r 1表示变量Y 与X 之间的线性相关系数,r 2表示变量V 与U 之间的线性相关系数,则r 1与r 2的关系为________.解析:对于变量Y 与X 而言,Y 随X 的增大而增大,故Y 与X 正相关,即r 1>0;对于变量V 与U 而言,V 随U 的增大而减小,故V 与U 负相关,即r 2<0,所以有r 2<0<r 1.答案:r 2<0<r 16.在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =12x +1上,则这组样本数据的样本相关系数为________.解析:样本相关系数越接近1,相关性越强,现在所有的样本点都在直线y =12x +1上,样本的相关系数应为1.答案:17.为了了解某地母亲身高x 与女儿身高y 的相关关系,现随机测得10对母女的身高,所得数据如下表所示:试对x 与y 进行线性回归分析,并预测当母亲身高为161 cm 时,女儿的身高为多少? 解:作线性相关性检验. x -=110×(159+160+…+157)=158.8, y -=110×(158+159+…+156)=159.1,∑i =110x 2i -10(x -)2=(1592+1602+…+1572)-10×158.82=47.6, ∑i =110x i y i -10x -y -=(159×158+160×159+…+157×156)-10×158.8×159.1=37.2,∑i =110y 2i -10(y -)2=(1582+1592+…+1562)-10×159.12=56.9, 因此r =∑i =110x i y i -10x -y-[∑i =110x 2i -x-2][∑i =110y 2i -y-2]=37.247.6×56.9≈0.71.由检验水平0.05及n -2=8,在课本附录1中查得r 0.05=0.632,因为0.71>0.632,所以可以认为x 与y 有较强的相关关系,因而求回归直线方程有必要.又b ^=∑i =110x i y i -10x -y -∑i =110x 2i -x-2=37.247.6≈0.78, a ^=159.1-0.78×158.8≈35.2,由此得回归直线方程为y ^=35.2+0.78x ,回归系数b ^=0.78反映出当母亲身高每增加1 cm 时女儿身高平均增加0.78 cm ,a ^=35.2可以理解为女儿身高中不受母亲身高影响的部分,当母亲身高为161 cm 时女儿身高为y ^=0.78×161+35.2=160.78≈161(cm),这就是说当母亲身高为161 cm 时,女儿身高大致也为161 cm.1.求线性回归方程的方法 确定线性回归方程的基本步骤为:(1)先求b ^;(2)再求a ^;(3)写出方程y ^=b ^x +a ^. 2.分析两个变量的相关关系常用的方法(1)散点图法.该法主要是用来直观地分析两变量间是否存在相关关系.(2)相关系数法.该法主要是从量上分析两个变量间相互联系的密切程度,|r |越接近于1,相关程度越强,|r|越接近于0,相关程度越弱.一、填空题1.设(x 1,y 1),(x 2,y 2),…,(x n ,y n )是变量x 和y 的n 个样本点,直线l 是由这些样本点得到的线性回归直线(如图),以下结论正确的序号是________.①直线l 过点(x ,y );②x 和y 的相关系数为直线l 的斜率; ③x 和y 的相关系数在0到1之间;④当n 为偶数时,分布在l 两侧的样本点的个数一定相同.解析:因为相关系数是表示两个变量是否具有线性相关关系的一个值,它的绝对值越接近于1,两个变量的线性相关程度越强,所以②③错误;④中n 为偶数时,分布在l 两侧的样本点的个数可以不相同,所以④错误;根据回归直线方程一定经过样本中心点可知①正确.答案:①2.(湖北高考改编)根据如下样本数据得到的回归方程为y ^=bx +a ,则下列说法正确的是________.(填序号) ①a >0,b >0 ②a >0,b <0 ③a <0,b >0 ④a <0,b <0 解析:由表中数据画出散点图,如图,由散点图可知b <0,a >0,故②正确. 答案:②3.设有一个回归方程为y ^=2-2.5x ,则变量x 每增加一个单位时,y ________. 解析:由回归系数的意义可知当变量x 增加一个单位时,y ^的平均改变量为b ^,由题目回归方程y ^=2-2.5x ,可得当变量x 增加一个单位时,y ^平均减少2.5个单位.答案:平均减少2.5个单位4.某数学老师的身高是176 cm ,他爷爷、父亲和儿子的身高分别是173 cm 、170 cm 和182 cm.因儿子的身高与父亲的身高有关,该老师用线性回归分析的方法预测他孙子的身高为________ cm.解析:设父亲身高为x cm ,儿子身高为y cm ,则x =173,y =176,b ^=0×(-6)+(-3)×0+3×602+9+9=1,a ^=y -b ^x -=176-1×173=3,∴y ^=x +3,当x =182时,y ^=185.答案:1855.为了对学业水平测试成绩进行分析,在得分60分以上的全体同学中随机抽取8位.他们的物理、化学成绩如下:若用变量x ,y 分别记作物理成绩和化学成绩,则x ,y 之间的线性相关系数r 为________. (参考数据:x -≈85,y -=81,∑i =18(x i -x -)2≈457,∑i =18(y i -y -)2≈550,∑i =18(x i -x -)(y i-y -)≈501,457≈21.4,550≈23.5)解析:r =∑i =18(x i -x -)(y i -y -)∑i =18(x i -x -)2∑i =18(y i -y -)2≈501457×550≈50121.4×23.5≈0.996.答案:0.996 二、解答题6.某企业上半年产品产量与单位成本资料如下:且已知产量x 与单位成本y 具有线性相关关系. (1)求出线性回归方程;(2)指出产量每增加1 000件时,单位成本平均变动多少? (3)假定产量为6 000件时,单位成本为多少元? 解:(1)n =6,x -=3.5,y -=71,=1 481-6×3.5×7179-6×3.52≈-1.82, a ^=y --b ^x -=71+1.82×3.5=77.37,则线性回归方程为y ^=b ^x +a ^=-1.82x +77.37.(2)因为单位成本平均变动b ^=-1.82<0,且产量x 的计量单位是千件,所以根据回归系数b ^的意义有产量每增加一个单位即1 000件时,单位成本平均减少1.82元.(3)当产量为6 000件, 即x =6时,代入线性回归方程, 得y ^=77.37-1.82×6=66.45(元).即当产量为6 000件时,单位成本大约为66.45元.7.一台机器使用的时间较长,但还可以使用,它按不同的转速生产出来的某机械零件有一些会有缺点,每小时生产有缺点零件的多少,随机器运转速度的变化而变化,下表为抽样试验的结果:(1)利用散点图或相关系数r 的大小判断变量y 对x 是否线性相关?为什么? (2)如果y 对x 有线性相关关系,求线性回归方程;(3)若实际生产中,允许每小时的产品中有缺点的零件最多为10个,那么机器的运转速度应控制在什么范围内?(最后结果精确到0.001,参考数据:656.26≈25.617,16×11+14×9+12×8+8×5=438,162+142+122+82=660,112+92+82+52=291)解:(1)∵x -=12.5,y -=8.25,∑i =14(x i -x -)(y i -y -)=25.5,∑i =14x i -x-2∑i =14y i -y-2=656.25≈25.617,∴r 0.05≈0.995,由检验水平0.05及n -2=2,在附录1中查得r 0.05=0.950,因为0.995>0.950,∴y 与x 有线性相关关系.(2)∵∑i =14(x i -x -)2=35,∴b ^≈0.729,a ^=y --b ^x -≈-0.863.∴线性回归方程为y ^=0.729x -0.863. (3)0.729x -0.863≤10,解得x ≤14.901. 故机器运转速度应在14转/秒之内.8.(重庆高考)从某居民区随机抽取10个家庭,获得第i 个家庭的月收入x i (单位:千元)与月储蓄y i (单位:千元)的数据资料,算得∑i =110x i =80,∑i =110y i =20,∑i =110x i y i =184,∑i =110x 2i =720.(1)求家庭的月储蓄y 对月收入x 的线性回归方程y ^=b ^x +a ^; (2)判断变量x 与y 之间是正相关还是负相关;(3)若该居民区某家庭月收入为7千元,预测该家庭的月储蓄. 解:(1)依题意得:b ^=∑i =1nx i y i -n x - y-∑i =1nx 2i -n x -2=184-10×8×2720-10×82=0.3,a ^=y --b ^x -=2-0.3×8=-0.4,故所求回归方程为y =0.3x -0.4.(2)由于变量y 的值随x 的值增加而增加(b ^=0.3>0),故x 与y 之间是正相关. (3)将x =7代入回归方程可以预测该家庭的月储蓄为y =0.3×7-0.4=1.7(千元).。
一元线性回归模型案例
⼀元线性回归模型案例第⼆章⼀元线性回归模型案例⼀、中国居民⼈均消费模型从总体上考察中国居民收⼊与消费⽀出的关系。
表2.1给出了1990年不变价格测算的中国⼈均国内⽣产总值(GDPP)与以居民消费价格指数(1990年为100)所见的⼈均居民消费⽀出(CONSP)两组数据。
1) 建⽴模型,并分析结果。
输出结果为:对应的模型表达式为:201.1070.3862CONSP GDPP =+(13.51) (53.47) 20.9927,2859.23,0.55R F DW ===从回归估计的结果可以看出,拟合度较好,截距项和斜率项系数均通过了t 检验。
中国⼈均消费增加10000元,GDP 增加3862元。
⼆、线性回归模型估计表2.2给出⿊龙江省伊春林区1999年16个林业局的年⽊材采伐量和相应伐⽊剩余物数据。
利⽤该数据(1)画散点图;(2)进⾏OLS 回归;(3)预测。
表2.2 年剩余物y 和年⽊材采伐量x 数据(1)画散点图先输⼊横轴变量名,再输⼊纵轴变量名得散点图(2)OLS估计弹出⽅程设定对话框得到输出结果如图:由输出结果可以看出,对应的回归表达式为:0.76290.4043t t yx =-+ (-0.625) (12.11)20.9129,146.7166, 1.48R F DW === (3)x=20条件下模型的样本外预测⽅法⾸先修改⼯作⽂件范围将⼯作⽂件范围从1—16改为1—17确定后将⼯作⽂件的范围改为包括17个观测值,然后修改样本范围将样本范围从1—16改为1—17打开x的数据⽂件,利⽤Edit+/-给x的第17个观测值赋值为20将Forecast sample选择区把预测范围从1—17改为17—17,即只预测x=20时的y的值。
由上图可以知道,当x=20时,y的预测值是7.32,yf的分布标准差是2.145。
三、表2.3列出了中国1978—2000年的参政收⼊Y和国内⽣产总值GDP的统计资料。
高中数学线性回归方程公式
高中数学线性回归方程公式1. 引言在高中数学学习中,线性回归是一种重要的统计方法,用于模拟和预测两个或更多变量之间的线性关系。
线性回归方程是深入了解线性回归的基础,本文将介绍高中数学中线性回归方程的公式及其应用。
2. 线性回归方程的定义线性回归方程是一种用于描述两个变量线性关系的方程。
通常情况下,我们用x来表示自变量(输入变量),用y来表示因变量(输出变量)。
线性回归方程可以用下面的形式表示:y = ax + b,其中a和b是常数,称为回归系数。
3. 确定回归系数为了确定回归方程中的回归系数a和b,我们需要一组已知的数据点,其中包含自变量x和因变量y的取值。
通过求解回归系数,我们可以找到最佳拟合线,使得该线尽可能地接近数据点。
3.1 最小二乘法最小二乘法是一种常用的确定回归系数的方法。
其基本思想是通过最小化预测值和真实值之间的残差平方和来找到最佳拟合线。
考虑到一组包含n个数据点的数据集{(x1, y1), (x2, y2), …, (xn, yn)},回归方程的系数可以通过以下公式计算得到:a = (n∑(xi * yi) - ∑xi * ∑yi) / (n∑(xi^2) - (∑xi)^2)b = (∑yi - a * ∑xi) / n计算a和b之后,线性回归方程就可以得到。
4. 应用案例线性回归方程在实际问题中有广泛的应用。
以下是一个简单的应用案例:假设我们希望预测一个人的体重(y)与他们的身高(x)之间的关系。
收集了一组数据点如下:身高(x)(厘米):165, 170, 175, 180, 185体重(y)(千克):55, 60, 65, 70, 75使用最小二乘法计算回归系数:n = 5∑(xi * yi) = 165*55 + 170*60 + 175*65 + 180*70 + 185*75 = 169750∑xi = 165 + 170 + 175 + 180 + 185 = 875∑(xi^2) = 165^2 + 170^2 + 175^2 + 180^2 + 185^2 = 148500∑yi = 55 + 60 + 65 + 70 + 75 = 325a = (5 * 169750 - 875 * 325) / (5 * 148500 - 875^2) ≈ 0.7647b = (325 - 0.7647 * 875) / 5 ≈ -29.4118得到线性回归方程:y ≈ 0.7647x - 29.4118通过该方程,我们就可以预测其他身高对应的体重。
线性回归分析与统计案例
A.人体脂肪含量与年龄正相关,且脂肪含量的中位数等于 20%
B.人体脂肪含量与年龄正相关,且脂肪含量的中位数小于 20%
C.人体脂肪含量与年龄负相关,且脂肪含量的中位数等于 20%
D.人体脂肪含量与年龄负相关,且脂肪含量的中位数小于 20%
【解析】 观察图形,可知人体脂肪含量与年龄正相关,且 脂肪含量的中位数小于 20%,故选 B.
独立性检验 (1)分类变量:变量的不同“值”表示个体所属的不同类别, 像这样的变量称为分类变量. (2)列联表:列出两个分类变量的频数表,称为列联表.假设 有两个分类变量 X 和 Y,它们的可能取值分别为{x1,x2}和{y1, y2},其样本频数列联表(称为 2×2 列联表)为
2×2 列联表
y1
请注意 1.以考查线性回归系数为主,同时可考查利用散点图判断 两个变量间的相关关系. 2.以实际生活为背景,重在考查回归方程的求法.
课前自助餐
两个变量的线性相关 (1)正相关. 在散点图中,点散布在从左下角到右上角的区域.对于两 个变量的这种相关关系,我们将它们称为正相关. (2)负相关. 在散点图中,点散布在从左上角到右下角的区域,两个变 量的这种相关关系称为负相关.
【答案】 B
(2)对四组数据进行统计,获得以下关于其相关系数的比较, 正确的是( )
A.r2<r4<0<r3<r1 C.r4<r2<0<r3<r1
B.r4<r2<0<r1<r3 D.r2<r4<0<r1<r3
【解析】 由相关系数的定义及散点图所表达的含义,可知 r2<r4<0<r3<r1,故选 A.
5.在一项打鼾与患心脏病的调查中,共调查了 1 671 人,经 过计算得 K2=27.63,根据这一数据分析,我们有理由认为打鼾 与患心脏病是____________的(有关,无关).
一元线性回归方程案例数据
一元线性回归方程案例数据一元线性回归方程案例数据8. 一个工厂在某年里每月产品的总成本(单位:万元)与月产量(单位:万件)之间有如下一组数据:则月总成本与月产量之间的线性回归方程为________.收藏 加入试题篮 题目有误 查看详解9. 某中学高一期中考试后,对成绩进行分析,从13班中选出5名学生的总成绩和外语成绩如下表:则外语成绩对总成绩的回归直线方程是_______________________. 收藏 加入试题篮 题目有误 查看详解 三. 解答题 (本大题共5小题,共0分)10. 在国民经济中,社会生产与货运之间有着密切关系,下面列出1991—2000年中某地区货运量与工业总产值的统计资料:利用上述资料:(1)画出散点图;(2)计算这两组变量的相关系数; (3)在显著水平0.05的条件下,对变量与进行相关性检验;(4)如果变量与之间具有线性相关关系,求出回归直线方程. 收藏 加入试题篮 题目有误 查看详解 11. 随机选取15家销售公司,由营业报告中查出其上年度的广告费(占总费用的百分比)及盈利额(占销售总额的百分比)列表如下:试根据上述资料:(1)画出散点图;(2)计算出这两组变量的相关系数;(3)在显著水平O.01的条件下,对变量x与y进行相关性检验;(4)如果变量x与y之间具有线性相关关系,求出回归直线方程;(5)已知某销售公司的广告费占其总费用的1.7%,试估计其盈利净额占销售总额的百分比.收藏 加入试题篮 题目有误 查看详解12. 商品零售商要了解每周的广告费及消费额(单位:万元)之间的关系,记录如下:利用上述资料:(1)画出散点图;(2)求销售额对广告费的一元线性回归方程;(3)求出两个变量的相关系数.收藏 加入试题篮 题目有误 查看详解13. 某城区为研究城镇居民月家庭人均生活费支出和月收入的相关关系,随机抽取10户进行调查,其结果如下:利用上述资料:(1)画出散点图;(2)计算这两组变量的相关系数;(3)在显著水平0.05的条件下,对变量与进行相关性检验;(4)如果变量与之间具有线性相关关系,求出回归直线方程;(5)测算人均收入为280元时,人均生活费支出应为多少元?收藏 加入试题篮 题目有误 查看详解14. 要分析学生初中升学的数学成绩对高一年级数学学习有什么影响,在高一年级学生中随机抽选10名学生,分析他们入学的数学成绩和高一年级期末数学考试成绩(如下表):(1)画出散点图;(2)计算入学成绩与高一期末考试成绩的相关关系;(3)对变量与进行相关性检验,如果与之间具有线性相关关系,求出一元线性回归方程;(4)若某学生入学数学成绩为80分,试估计他高一期末数学考试成绩.。
一元线性回归模型案例
一元线性回归模型案例一元线性回归是统计学中常用的一种回归分析方法,用于研究一个自变量和一个因变量之间的线性关系。
在本文中,我们将通过一个实际案例来介绍一元线性回归模型的应用和分析过程。
案例背景:假设我们是某家电商平台的数据分析师,我们希望通过用户的年龄来预测其在平台上的消费金额。
我们收集了100位用户的年龄和其在平台上的消费金额的数据,现在我们希望利用一元线性回归模型来分析这些数据,以便更好地了解用户消费行为。
数据分析:首先,我们需要对收集到的数据进行初步的分析。
我们可以使用散点图来观察年龄和消费金额之间的关系。
通过观察散点图,我们可以初步判断年龄和消费金额之间是否存在线性关系,以及线性关系的方向和强度。
模型建立:在确认了年龄和消费金额之间存在线性关系后,我们可以建立一元线性回归模型。
模型的基本形式为,Y = β0 + β1X + ε,其中Y表示因变量(消费金额),X表示自变量(年龄),β0和β1分别表示截距和斜率,ε表示误差项。
我们需要通过最小二乘法来估计β0和β1的值,从而建立回归方程。
模型评价:建立回归模型后,我们需要对模型进行评价。
我们可以通过计算回归方程的拟合优度R^2来评价模型的拟合程度,R^2的取值范围为0到1,值越接近1表示模型拟合得越好。
此外,我们还可以利用残差分析来检验模型的假设是否成立,以及检验模型的稳健性和可靠性。
预测分析:最后,我们可以利用建立的回归模型进行预测分析。
通过输入不同年龄的值,我们可以利用回归方程来预测用户在平台上的消费金额。
预测分析可以帮助电商平台更好地了解不同年龄段用户的消费特点,从而制定针对性的营销策略和服务方案。
结论:通过以上一元线性回归模型的应用分析,我们可以得出结论,用户的年龄和在平台上的消费金额之间存在一定的线性关系,通过建立回归模型,我们可以对用户的消费金额进行预测和分析。
这对于电商平台来说具有重要的参考价值,可以帮助平台更好地了解用户消费行为,从而提升用户体验和增加销售额。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
yi- ^yi2 =
= 0.845 , R 2 乙=1-
2
n
i=1 n
yi- ^yi2
=
i=1
n
i=1
yi- y
yi- y 2甲 模源自拟合的效果更好. 0.82,则________
返回
◆数学•选修2-3•(配人教A版)◆
自测自评
1.下列变量是相关关系的是( D ) A.人的身高与视力
◆数学•选修2-3•(配人教A版)◆
统计案例
3.1 回归分析的基本思想及其初步应用
3.1.1 线性回归方程
◆数学•选修2-3•(配人教A版)◆
基础梳理
1.回归分析是对具有________ 相关关系的两个变量进行统计分析 的一种常用方法. 例如:身高与体重有关系可以用 ______分析的方法来研 究.( B ) A.残差 C.二维条形图 B.回归 D.独立检验
返回
◆数学•选修2-3•(配人教A版)◆
4.(2012年江门一模)有人收集了春节期间平均气温x与某取 暖商品销售额y的有关数据如下表: 平均气温/℃ 销售额/万元 -2 20 -3 23 -5 27 -6 30
根据以上数据,用线性回归的方法,求得销售额y与平均 ˆ =-2.4.则预测平 ˆ x+ a ˆ 的系数 b 气温x之间线性回归方程y= b 均气温为-8 ℃时该商品销售额为( )
B.角的大小与所对的圆弧长
C.收入水平与消费水平
^ 2.若线性回归方程中的回归系数 b =0,则相关系数为 ________ . 0 D.人的年龄与身高
返回
◆数学•选修2-3•(配人教A版)◆
3.(2011年长沙一中月考)在对两个变量x、y进行线性回归 分析时一般有下列步骤: ①对所求出的回归方程作出解释;②收集数据(xi,yi),i = 1,2 , … , n ;③求线性回归方程;④求相关系数;⑤根据 所搜集的数据绘制散点图.如果根据可靠性要求能够判定变 量x,y具有线性相关性,则在下列操作顺序中正确的是( D ) A.①②⑤③④ B.③②④⑤① C.②④③①⑤ D.②⑤④③①
返回
◆数学•选修2-3•(配人教A版)◆
分析:从散点图可以直观地 看出变量x与y之间有无线性相关 关系,为此把这8对数据描绘在平 面直角坐标系中,得到平面上8个 点,如下图所示. 由图容易看出,x与y之间有线性相关关系.故可用线性 回归模型解决.
解析:数据列表如下:
序号 1 x y x2 xy
1.40
n
n
R2=1-
相关指数: ____________________ , R2 的值越大,说明 i=1 ____________ 越好 . 残差平方和 越小,模型的拟合效果________ 例如:在两个变量 y与 x 的回归模型中,分别选择了甲、 乙两个不同的模型,它们的相关指数R2如下:
i 1 2 R甲 =1- n
165 48
165 57
157 50
170 54
175 64
165 61
155 43
170 59
返回
◆数学•选修2-3•(配人教A版)◆
由此建立的身高与体重的回归模型为 y = 0.849x - 85.712 , 用这个模型预报一名身高为172 cm的女大学生的体重,则正 确的叙述是( ) C A.体重一定是60.316 kg B.体重在60.316 kg以上 C.体重在60.316 kg左右 D.体重在60.316 kg以下 3.相关系数:r=
返回
◆数学•选修2-3•(配人教A版)◆
跟踪练习 1.在一段时间内,分5次测得某种商品的价格x(万元)和 需求量y(t)之间的一组数据为: 价格x 需求量y
5
1 1.4 12
5
2 1.6 10
3 1.8 7
4 2 5
5 2.2 3
2 已知∑ x y = 62 ,∑ x =16.6. i=1 i i i=1 i
故所求的回归直线方程为y=34.67+0.29x. 当 x=56.7 时,y=34.67+0.29×56.7=51.113. 估计成熟期有效穗为 51.113.
^ ^ ^ ^
(3)由于 y =bx +a+e ,可以算出ei=yi -yi,分别为e 1= 0.38,e2=0.748,e3=-0.47,e4=-2.184,e5=1.654.
1.70
1.96
2.380
返回
◆数学•选修2-3•(配人教A版)◆
2 3 1.50 1.60 1.79 1.88 2.25 2.56 2.685 3.008
4 5 6 7 8
∑
1.70 1.80 1.90 2.00 2.10 14.00
1.95 2.03 2.10 2.16 2.21 15.82
2.89 3.24 3.61 4.00 4.41 24.92
i=1
残差平方和 回归平方和 回归值与样 总偏差平方和-残差平 本值差的平 方和 方和
i=1
(yi- y )
n
2
n
2 (yi- y )2- (yi- ^yi)2 (yi- ^ ) yi i=1 i=1
n
n
返回
◆数学•选修2-3•(配人教A版)◆
i =1
yi- ^yi2 yi- y 2
x· y =1 320.66, y 2=1 892.25, x 2=921.729 6, ∑ x y =6 746.76. i=1 i i
∑ x y -5 x y ^ ^ i =1 i i 由b= ≈0.29,a= y -b x ≈34.67, 5 2 2 ∑ x -5 x i =1 i
^ 5
返回
◆数学•选修2-3•(配人教A版)◆
- - x y + x y +…+ x y - n x · y ^ 1 1 2 2 n n ^= ^ x. , = y - b a b x2+x2+…+x2-n x 2
1 2 n
例如:从某大学中随机选取8名女大学生,其身高和体重 数据如下表所示: 编号 身高/cm 体重/kg 1 2 3 4 5 6 7 8
A.34.6万元
C.36.6万元
B.35.6万元
D.37.6万元
返回
◆数学•选修2-3•(配人教A版)◆
-16 100 解析: x = =-4, y = =25,由题意知, 4 4 ^ =-2.4x+^ y a过(-4,25),25=-2.4×(-4)+^ a,得 ^ ^=-2.4x+15.4.当 x=-8 时, a=25-9.6=15.4.所以y y=19.2+15.4=34.6,故选 A. 答案:A
3.315 3.654 3.990 4.320 4.641 27.993
1 于是, x = ×14.00=1.75, 8 1 y = ×15.82=1.977 5. 8
返回
◆数学•选修2-3•(配人教A版)◆
^ =27.993-8×1.75×1.977 5=11≈0.733. b 15 24.92-8×1.752 ^ =1.977 5-11×1.75≈0.694. a 15 ^=0.694+0.733x. y对x的回归直线方程为y 回归系数 ^ b = 0.733 的含义是,在此灌溉渠道中,水深每
^=0.694可以解释 增加0.1 m,水的流速平均增加0.733 m/s, a 为水的流速中不受水深影响的部分. (2) 由 (1) 中求出的回归直线方程,把 x = 1.95 代入,易得 ^=0.694+0.733×1.95≈2.12(m/s). y 计算结果表明,当水深为1.95 m时可以预测渠水的流速 约为2.12 m/s.
返回
◆数学•选修2-3•(配人教A版)◆
解析:(1)散点图如下: (2)由图看出,样本点呈条状分布, 有比较好的线性相关关系,因此可以用 线性回归方程刻画它们之间的关系.
设回归方程为y=bx+a, x =30.36, y =43.5,
2 ∑ x =5 i=1 i 5 5 2 101.56,∑ y =9 511.43. i=1 i 5 ^ ^ ^
返回
◆数学•选修2-3•(配人教A版)◆
2.从散点图看,若样本点集中在某一条直线附近,则可 用下面的线性回归模型来表示:________________. 其中a和b y=bx+a+e ^和^ 为模型的未知参数, e 称为________ b称为未知参数 a 随机误差.把 a 和b的________ 最好估计,
返回
◆数学•选修2-3•(配人教A版)◆
线性回归分析
研究某灌溉渠道水的流速 y 与水深 x 之 间的关系, 测得一组数据如下: 水深x/m 1.40 1.50 1.60 1.70 1.80 1.90 2.00 2.10 流速y/ 1.70 1.79 1.88 1.95 2.03 2.10 2.16 2.21 (m·s-1) (1)求y对x的回归直线方程; (2)预测水深为1.95 m时水的流速是多少?
2 残差平方和:∑ e ≈8.43. i=1 i 2 (4)∑ ( y - y ) =50.18, i i=1 8.43 2 ∴R =1- ≈0.832. 50.18 所以解释变量小麦基本苗数对总效应约贡献了 83.2%.残 差变量贡献了约 1-83.2%=16.8%. 5 5 ^ ^ ^ ^ ^
^
^ ^
^
^
返回
◆数学•选修2-3•(配人教A版)◆
残差分析
假定小麦基本苗数x与成熟期有效穗y之间存在相关 关系,今测得5组数据如下: x y 15.0 25.8 30.0 36.6 44.4 39.4 42.9 42.9 43.1 49.2
(1)以x为解释变量,y为预报变量,作出散点图; (2) 求 y 与 x 之间的回归方程,并对于基本苗数 56.7 预报有 效穗; (3)计算各组残差,并计算残差平方和; (4)求相关指数R2,并说明残差变量对有效穗的影响占百 分之几.