回归分析的基本思想及其初步应用
回归分析的基本思想及其初步应用
回归分析的结果解读和评估
回归分析的结果应该经过详细的解读和评估。我们可以通过检验假设、计算回归系数的显著性、解释模 型的可解释性等来个领域都有广泛的应用,包括经济学、社会科学、医学、市场 营销等。它可以帮助我们理解变量之间的关系、预测未来的趋势,并支持决 策和策略制定。
回归分析的数据准备
在进行回归分析之前,需要准备好相关的数据。这包括收集和整理数据、处 理缺失值和异常值、选择合适的变量和转换方法等。良好的数据准备可以提 高回归分析的准确性和可靠性。
回归分析的基本思想及其 初步应用
回归分析是一种用来研究变量之间关系的统计方法。它的基本思想是通过建 立数学模型来描述变量之间的关系,并利用统计学方法来判断这种关系的显 著性和可靠性。
回归分析的定义与含义
回归分析是一种通过建立数学模型来描述两个或多个变量之间关系的统计学方法。它可以帮助我们理解 变量之间的因果关系,预测未来的变化趋势,并进行决策和策略制定。
回归分析的基本原理
回归分析的基本原理是通过最小化预测值与观察值之间的差异来确定最佳拟 合线。它使用最小二乘法来估计模型参数,并通过假设检验来评估模型的显 著性。
回归分析的常用模型
回归分析有多种常用模型,包括简单线性回归、多元线性回归、逻辑回归等。 每个模型都适用于不同的数据类型和研究问题,选择合适的模型可以提高分 析的准确性和可解释性。
回归分析的基本思想及其初步应用
回归分析的基本思想及其初步应用1.回归分析回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法,回归分析的基本步骤是画出两个变量的散点图,求回归直线方程,并用回归直线方程进行预报. 2.线性回归模型(1)在线性回归直线方程y ^=a ^+b ^x 中,b ^=∑ni =1 (x i -x )(y i -y )∑ni =1(x i -x )2,a ^=y --b ^x -,其中x -=1n ∑ni =1x i ,y -=1n∑ni =1y i ,(x ,y )称为样本点的中心,回归直线过样本点的中心. (2)线性回归模型y =bx +a +e ,其中e 称为随机误差,自变量x 称为解释变量,因变量y 称为预报变量.[注意] (1)非确定性关系:线性回归模型y =bx +a +e 与确定性函数y =a +bx 相比,它表示y 与x 之间是统计相关关系(非确定性关系),其中的随机误差e 提供了选择模型的准则以及在模型合理的情况下探求最佳估计值a ,b 的工具.(2)线性回归方程y ^=b ^x +a ^中a ^,b ^的意义是:以a ^为基数,x 每增加1个单位,y 相应地平均增加b ^个单位.3.刻画回归效果的方式方式方法计算公式 刻画效果R 2R 2=1-∑ni =1(y i -y ^i )2∑n i =1(y i -y )2R 2越接近于1,表示回归的效果越好残差图e ^i 称为相应于点(x i ,y i )的残差,e ^i =y i -y ^i残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,其中这样的带状区域的宽度越窄,说明模型拟合精度越高,回归方程的预报精度越高残差平方和∑ni =1(y i -y ^i )2 残差平方和越小,模型的拟合效果越好判断正误(正确的打“√”,错误的打“×”) (1)求线性回归方程前可以不进行相关性检验.( )(2)在残差图中,纵坐标为残差,横坐标可以选为样本编号.( )(3)利用线性回归方程求出的值是准确值.( ) 答案:(1)× (2)√ (3)×变量x 与y 之间的回归方程表示( )A .x 与y 之间的函数关系B .x 与y 之间的不确定性关系C .x 与y 之间的真实关系形式D .x 与y 之间的真实关系达到最大限度的吻合 答案:D在两个变量y 与x 的回归模型中,分别选择了4个不同的模型,它们的相关指数R 2如下,其中拟合效果最好的模型是( )A .模型1的相关指数R 2为0.98 B .模型2的相关指数R 2为0.80 C .模型3的相关指数R 2为0.50 D .模型4的相关指数R 2为0.25 答案:A已知线性回归方程y ^=0.75x +0.7,则x =11时,y 的估计值为________. 答案:8.95探究点1 线性回归方程在某种产品表面进行腐蚀刻线试验,得到腐蚀深度y 与腐蚀时间x 之间的一组观察值如下表.x (s) 5 10 15 20 30 40 50 60 70 90 120 y (μm)610101316171923252946(1)画出散点图;(2)求y 对x 的线性回归方程;(3)利用线性回归方程预测时间为100 s 时腐蚀深度为多少. 【解】 (1)散点图如图所示.(2)从散点图中,我们可以看出y 对x 的样本点分布在一条直线附近,因而求回归直线方程有意义.x =111(5+10+15+ (120)=51011,y =111(6+10+10+…+46)=21411,a ^=y -b ^x ≈21411-0.304×51011= 5.36. 故腐蚀深度对腐蚀时间的线性回归方程为y =0.304x + 5.36.(3)根据(2)求得的线性回归方程,当腐蚀时间为100 s 时,y ^=5.36+0.304×100=35.76(μm),即腐蚀时间为100 s 时腐蚀深度大约为35.76 μm.求线性回归方程的三个步骤(1)画散点图:由样本点是否呈条状分布来判断两个量是否具有线性相关关系. (2)求回归系数:若存在线性相关关系,则求回归系数.(3)写方程:写出线性回归方程,并利用线性回归方程进行预测说明.炼钢是一个氧化降碳的过程,钢水含碳量的多少直接影响冶炼时间的长短,必须掌握钢水含碳量和冶炼时间的关系.如果已测得炉料熔化完毕时钢水的含碳量x 与冶炼时间y (从炼料熔化完毕到出钢的时间)的数据(x i ,y i )(i =1,2,…,10)并已计算出=1589,i =110y i =1 720,故冶炼时间y 对钢水的含碳量x 的回归直线方程为y ^=1.267x -30.47. 探究点2 线性回归分析假定小麦基本苗数x 与成熟期有效穗y 之间存在相关关系,今测得5组数据如下:(1)以x 为解释变量,y 为预报变量,作出散点图;(2)求y 与x 之间的回归方程,对于基本苗数56.7预报有效穗; (3)计算各组残差,并计算残差平方和;(4)求相关指数R 2,并说明残差变量对有效穗的影响占百分之几? 【解】 (1)散点图如下.(2)由图看出,样本点呈条状分布,有比较好的线性相关关系,因此可以用回归方程刻画它们之间的关系.设回归方程为y ^=b ^x +a ^,x -=30.36,y -=43.5,(1)该类题属于线性回归问题,解答本题应先通过散点图来分析两变量间的关系是否线性相关,然后再利用求回归方程的公式求解回归方程,并利用残差图或相关指数R 2来分析函数模x 15.0 25.8 30.0 36.6 44.4 y39.442.942.943.149.2型的拟合效果,在此基础上,借助回归方程对实际问题进行分析. (2)刻画回归效果的三种方法①残差图法:残差点比较均匀地落在水平的带状区域内说明选用的模型比较合适; ②残差平方和法:残差平方和 i =1n(y i -y ^i )2越小,模型的拟合效果越好;关于x 与y 有如下数据:x 2 4 5 6 8 y3040605070由(2)可得y i -y ^i 与y i -y -的关系如下表:y i -y ^i -1 -5 8 -9 -3 y i -y --20-101020由于R 21=0.845,R 22=0.82,0.845>0.82, 所以R 21>R 22.所以(1)的拟合效果好于(2)的拟合效果. 探究点3 非线性回归分析某地今年上半年患某种传染病的人数y (人)与月份x (月)之间满足函数关系,模型为y =a e bx ,确定这个函数解析式.月份x /月 1 2 3 4 5 6 人数y /人526168747883【解】 设u =ln y ,c =ln a , 得u ^=c ^+b ^x ,则u 与x 的数据关系如下表:x12 3 4 56u =ln y 3.95 4.114.224.3044.356 7 4.418 8非线性回归方程的步骤(1)确定变量,作出散点图.(2)根据散点图,选择恰当的拟合函数.(3)变量置换,通过变量置换把非线性回归问题转化为线性回归问题,并求出线性回归方程. (4)分析拟合效果:通过计算相关指数或画残差图来判断拟合效果. (5)根据相应的变换,写出非线性回归方程.某种书每册的成本费y (元)与印刷册数x (千册)有关,经统计得到数据如下:x(千册)1 2 3 5 10 20 30 50 100 200 y (元)10.155.524.082.852.111.621.411.301.211.15检验每册书的成本费y (元)与印刷册数的倒数1x之间是否具有线性相关关系,如有,求出y 对x 的回归方程,并画出其图形.解:首先作变量置换u =1x,题目中所给的数据变成如下表所示的10对数据.u i 1 0.5 0.33 0.2 0.1 0.05 0.03 0.02 0.01 0.005 y i10.155.524.082.852.111.621.411.301.211.15然后作相关性检测.经计算得r ≈0.999 8>0.75,从而认为u 与y 之间具有线性相关关系,由公式得a ^≈1.125,b ^≈8.973,所以y ^=1.125+8.973u ,最后回代u =1x ,可得y ^=1.125+8.973x.这就是题目要求的y 对x 的回归方程.回归方程的图形如图所示,它是经过平移的反比例函数图象的一个分支.1.关于回归分析,下列说法错误的是( ) A .回归分析是研究两个具有相关关系的变量的方法 B .散点图中,解释变量在x 轴,预报变量在y 轴C .回归模型中一定存在随机误差D .散点图能明确反映变量间的关系解析:选D.用散点图反映两个变量间的关系时,存在误差. 2.下列关于统计的说法:①将一组数据中的每个数据都加上或减去同一个常数,方差恒不变; ②回归方程y ^=b ^x +a ^必经过点(x ,y ); ③线性回归模型中,随机误差e =y i -y ^i ;④设回归方程为y ^=-5x +3,若变量x 增加1个单位,则y 平均增加5个单位. 其中正确的为________(写出全部正确说法的序号).解析:①正确;②正确;③线性回归模型中,随机误差的估计值应为e ^i =y i -y ^i ,故错误;④若变量x 增加1个单位,则y 平均减少5个单位,故错误. 答案:①②3.某商场经营一批进价是30元/台的小商品,在市场试销中发现,此商品的销售单价x (x 取整数)(元)与日销售量y (台)之间有如下关系:x 35 40 45 50 y56412811(1)画出散点图,并判断y 与x 是否具有线性相关关系;(2)求日销售量y 对销售单价x 的线性回归方程(方程的斜率保留一个有效数字); (3)设经营此商品的日销售利润为P 元,根据(2)写出P 关于x 的函数关系式,并预测当销售单价x 为多少元时,才能获得最大日销售利润.解:(1)散点图如图所示,从图中可以看出这些点大致分布在一条直线附近,因此两个变量具有线性相关关系.(2)因为x -=14×(35+40+45+50)=42.5,(3)依题意有P =(161.5-3x )(x -30) =-3x 2+251.5x -4 845=-3⎝⎛⎭⎪⎫x -251.562+251.5212-4 845. 所以当x =251.56≈42时,P 有最大值,约为426元.故预测当销售单价为42元时,能获得最大日销售利润.知识结构深化拓展线性回归模型的模拟效果(1)残差图法:观察残差图,如果残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,这样的带状区域的宽度越窄,说明模型拟合精度越高,回归方程的预报精度越高.(2)残差的平方和法:一般情况下,比较两个模型的残差比较困难(某些样本点上一个模型的残差的绝对值比另一个模型的小,而另一些样本点的情况则相反),故通过比较两个模型的残差的平方和的大小来判断模型的拟合效果.残差平方和越小的模型,拟合的效果越好.(3)R 2法:R 2的值越大,说明残差平方和越小,也就是说模型拟合的效果越好.[注意] r 的绝对值越大说明变量间的相关性越强,通常认为r 的绝对值大于等于0.75时就是有较强的相关性,同样R 2也是如此,R 2越大拟合效果越好.[A 基础达标]1.废品率x %和每吨生铁成本y (元)之间的回归直线方程为y ^=256+3x ,表明( ) A .废品率每增加1%,生铁成本增加259元 B .废品率每增加1%,生铁成本增加3元 C .废品率每增加1%,生铁成本平均每吨增加3元 D .废品率不变,生铁成本为256元解析:选C.回归方程的系数b ^表示x 每增加一个单位,y ^平均增加b ^,当x 为1时,废品率应为1%,故当废品率增加1%时,生铁成本平均每吨增加3元.2.已知某产品连续4个月的广告费用为x i (i =1,2,3,4)千元,销售额为y i (i =1,2,3,4)万元,经过对这些数据的处理,得到如下数据信息:①x 1+x 2+x 3+x 4=18,y 1+y 2+y 3+y 4=14;②广告费用x 和销售额y 之间具有较强的线性相关关系;③回归直线方程y ^=b ^x +a ^中,b ^=0.8(用最小二乘法求得),那么当广告费用为6千元时,可预测销售额约为( )A .3.5万元B .4.7万元C .4.9万元D .6.5万元解析:选B.依题意得x =4.5,y =3.5,由回归直线必过样本点中心得a ^=3.5-0.8×4.5=-0.1,所以回归直线方程为y ^=0.8x -0.1.当x =6时,y ^=0.8×6-0.1=4.7.3.某化工厂为预测某产品的回收率y ,需要研究它和原料有效成分含量之间的相关关系,现取了8对观测值,计算得的线性回归方程是( )A.y ^=11.47+2.62xB.y ^=-11.47+2.62x C.y ^=2.62+11.47x D.y ^=11.47-2.62x 解析:选A.由题中数据得x =6.5,y =28.5,a ^=y -b ^x =28.5-2.62×6.5=11.47,所以y 与x 的线性回归方程是y ^=2.62x +11.47.故选A.4.若某地财政收入x 与支出y 满足线性回归方程y =bx +a +e (单位:亿元),其中b =0.8,a =2,|e |≤0.5.如果今年该地区财政收入10亿元,则年支出预计不会超过( )A .10亿元B .9亿元C .10.5亿元D .9.5 亿元解析:选C.代入数据y =10+e ,因为|e |≤0.5, 所以9.5≤y ≤10.5,故不会超过10.5亿元.5.某种产品的广告费支出x 与销售额y (单位:万元)之间的关系如下表:y 与x 的线性回归方程为y =6.5x +17.5,当广告支出5万元时,随机误差的效应(残差)为________.解析:因为y 与x 的线性回归方程为y ^=6.5x +17.5,当x =5时,y ^=50,当广告支出5万元时,由表格得:y =60,故随机误差的效应(残差)为60-50=10. 答案:106.若一组观测值(x 1,y 1),(x 2,y 2),…,(x n ,y n )之间满足y i =bx i +a +e i (i =1,2,…,n ),且e i 恒为0,则R 2为________.解析:由e i 恒为0,知y i =y ^i ,即y i -y ^i =0, 故R 2=1-∑ni =1 (y i -y ^i )2∑n i =1 (y i -y )2=1-0=1.答案:17.某个服装店经营某种服装,在某周内获纯利y (元)与该周每天销售这种服装件数x 之间的一组数据关系见表:已知∑7i =1x 2i =280,∑7i =1x i y i =3 487. (1)求x ,y ;(2)已知纯利y 与每天销售件数x 线性相关,试求出其回归方程. 解:(1)x =3+4+5+6+7+8+97=6,y =66+69+73+81+89+90+917=5597.(2)因为y 与x 有线性相关关系,所以b ^=∑7i =1x i y i-7x y ∑7i =1x 2i -7x 2=3 487-7×6×5597280-7×36=4.75,a ^=5597-6×4.75=71914≈51.36.故回归方程为y ^=4.75 x +51.36.8.已知某校5个学生的数学和物理成绩如下表:(1)假设在对这5名学生成绩进行统计时,把这5名学生的物理成绩搞乱了,数学成绩没出现问题,问:恰有2名学生的物理成绩是自己的实际分数的概率是多少?(2)通过大量事实证明发现,一个学生的数学成绩和物理成绩具有很强的线性相关关系,在上述表格是正确的前提下,用x 表示数学成绩,用y 表示物理成绩,求y 与x 的回归方程; (3)利用残差分析回归方程的拟合效果,若残差和在(-0.1,0.1)范围内,则称回归方程为“优拟方程”,问:该回归方程是否为“优拟方程”?参考数据和公式:y ^=b ^x +a ^,其中.解:(1)记事件A 为“恰有2名学生的物理成绩是自己的实际成绩”, 则P (A )=2C 25A 55=16.(2)因为x =80+75+70+65+605=70,y =70+66+68+64+625=66,学生的编号i 1 2 3 4 5 数学x i 80 75 70 65 60 物理y i7066686462[B 能力提升]9.假设关于某设备的使用年限x和所支出的维修费用y(万元)有如表的统计资料:使用年限x 2 3 4 5 6 维修费用y 2.2 3.8 5.5 6.5 7.010.(选做题)某地区不同身高的未成年男性的体重平均值如表所示:身高x(cm)60708090100110体重y(kg) 6.137.909.9912.1515.0217.50身高x(cm)120130140150160170体重y(kg)20.9226.8631.1138.8547.2555.05 (1)(2)如果体重超过相同身高男性体重平均值的1.2倍为偏胖,低于0.8倍为偏瘦,那么这个地区一名身高175 cm 、体重82 kg 的在校男生体重是否正常? 解:(1)根据题表中的数据画出散点图如图所示.由图可看出,样本点分布在某条指数函数曲线y =c 1e c 2x的周围, 于是令z =ln y ,得下表:x 60 70 80 90 100 110 z 1.81 2.07 2.30 2.50 2.71 2.86 x 120 130 140 150 160 170 z3.043.293.443.663.864.01作出散点图如图所示:由表中数据可得z 与x 之间的回归直线方程为 z ^=0.662 5+0.020x ,则有y ^=e 0.662 5+0.020x .(2)当x =175时,预报平均体重为y ^=e 0.662 5+0.020×175≈64.23, 因为64.23×1.2≈77.08<82,所以这个男生偏胖.。
人教版A版高中数学选修1-2课后习题解答
人教版A版高中数学选修1-2课后习题解答高中数学选修1-2课后题答案第一章统计案例1.1 回归分析的基本思想及其初步应用回归分析是一种统计分析方法,用于探究自变量与因变量之间的关系。
它的基本思想是通过建立数学模型,利用已知数据进行拟合,从而预测或解释未知数据。
回归分析的初步应用包括简单线性回归和多元线性回归。
1.2 独立性检验的基本思想及其初步应用独立性检验是一种用于检验两个变量之间是否存在关联的方法。
其基本思想是通过观察两个变量之间的频数或频率分布,来判断它们是否相互独立。
独立性检验的初步应用包括卡方检验和Fisher精确检验。
第二章推理证明2.1 合情推理与演绎推理合情推理是指根据已知事实和常识,推断出可能的结论。
演绎推理是指根据已知的前提和逻辑规则,推导出必然的结论。
两种推理方法都有其适用的场合,需要根据具体情况进行选择。
2.2 直接证明与间接证明直接证明是指通过逻辑推理,直接证明所要证明的命题成立。
间接证明是指采用反证法或归谬法,证明所要证明的命题的否定不成立,从而推出所要证明的命题成立。
第三章数系的扩充与复数的引入3.1 数系的扩充与复数的概念数系的扩充是指在实数系的基础上引入新的数,使得一些原来不可解的方程可以得到解。
复数是指由实部和虚部组成的数,可以表示在平面直角坐标系中的点。
复数的引入扩充了数系,使得一些原本无解的方程可以得到解。
3.2 复数的代数形式的四则运算复数的代数形式是指将复数表示为实部和虚部的和的形式。
复数的四则运算包括加减乘除四种运算,可以通过对实部和虚部分别进行运算来得到结果。
第四章框图4.1 流程图流程图是一种用图形表示算法或过程的方法。
它由各种基本符号和连线构成,用于描述算法或过程的各个步骤及其执行顺序。
流程图可以帮助人们更好地理解算法或过程,从而提高效率。
4.2 结构图结构图是一种用于描述程序结构的图形表示方法。
它包括顺序结构、选择结构和循环结构三种基本结构,可以用来表示程序的控制流程。
高中数学人教A版选修2-3课件:3.1回归分析的基本思想及其初步应用
问题导学
Байду номын сангаас
当堂检测
解:(1)由表画出散点图,如图所示.
问题导学
当堂检测
(2)从上图可看出,这些点基本上散布在一条直线附近,可以认为 x 和 y 线性相关关系显著,下面求其回归方程,首先列出下表.
序号 1 2 3 4 5 6 7 8 ∑ xi 5 .6 6 .0 6 .1 6 .4 7 .0 7 .5 8 .0 8 .2 54.8 yi 130 136 143 149 157 172 183 188 1 258 x2 i 31.36 36.00 37.21 40.96 49.00 56.25 64.00 67.24 382.02 y2 i 16 900 18 496 20 449 22 201 24 649 29 584 33 489 35 344 201 112 xiyi 728.0 816.0 872.3 953.6 1 099.0 1 290.0 1 464.0 1 541.6 8 764.5
例 1 某工厂 1~8 月份某种产品的产量与成本的统计数据见 下表:
月份 产量 (t) 成本 (万元) 1 5 .6 130 2 6 .0 136 3 6 .1 143 4 6 .4 149 5 7 .0 157 6 7 .5 172 7 8.0 183 8 8 .2 188
以产量为 x,成本为 y. (1)画出散点图; (2)y 与 x 是否具有线性相关关系?若有,求出其回归方程. 思路分析:画出散点图,观察图形的形状得 x 与 y 是否具有线性相关 关系.把数值代入回归系数公式求回归方程 . x
3.回归模型拟合效果的刻画
类 别 残差图法 残差点比较均匀地落在 特 点 水平的带状区域内,说明 选用的模型比较适合,这 样的带状区域的宽度越 窄,说明模型拟合精度越 高 残差平方和法 残差平方和
回归分析的基本思想及其初步应用分解
是真实值 与估计值 的差!
yˆi 0.849xi 85.712, ei yi yi ,
如e3 y3 y3 50 47.581 2.419
相关关系的测度
(相关系数取值及其意义)
完全负相关
无线性相关
完全正相关
-1.0 -0.5
0
+0.5 +1.0
r
负相关程度增加 正相关程度增加
编号,或身高数据,或体重估计值等,这样作出的图形称为残差图。
残差图的制作及作用。
•几点坐说标明纵:轴为残差变量,横轴可以有不同的选择; 的错第•误一。个若如样果模本数点据型和采选第集6有择个错样的误本,点正就的确予残以差,纠比残正较,大差然,图后需再要中重确新的认利在点用采线应集性过该回程归中分模是布型否拟有在合人以数为 据;如果横数据轴采集为没心有错的误带,则形需区要寻域找;其他的原因。 样的另•带外状,对区残域差于的点宽远比度较离越均窄横匀,地轴说落明的在模水点型平拟,的合带要精状度区特越域别高中,,注回说归意明方选。程用的的预模报型精计度较越合高适。,这
例1 从某大学中随机选取8名女大学生,其身高和 体重数据如下表所示:
编号 1 2 3 4 5 6 7 8 身高/cm 165 165 157 170 175 165 155 170 体重/kg 48 57 50 54 64 61 43 59
求根据女大学生的身高预报她的体重的回归方程, 并预报一名身高为172cm的女大学生的体重.
(3)对回归模型进行统计检验; (4)利用回归模型,根据自变量去估计、预测、预 报因变量。
最小二乘法求线性回归直线方程:yˆ = bˆ x + aˆ
(x,y)称为样本点的中心。
1.11 回归分析的基本思想及其初步应用(文、理)
1.1 回归分析的基本思想及其初步应用【学习目标】1. 通过对实际问题的分析,了解回归分析的必要性与回归分析的一般步骤。
2. 能作出散点图,能求其回归直线方程。
3. 会用所学的知识对简单的实际问题进行回归分析。
【要点梳理】要点一、变量间的相关关系1. 变量与变量间的两种关系:(1) 函数关系:这是一种确定性的关系,即一个变量能被另一个变量按照某种对应法则唯一确定.例如圆的面积.S 与半径r 之间的关系S=πr 2为函数关系.(2)相关关系:这是一种非确定性关系.当一个变量取值一定时,另一个变量的取值带有一定的随机性,这两个变量之间的关系叫做相关关系。
例如人的身高不能确定体重,但一般来说“身高者,体重也重”,我们说身高与体重这两个变量具有相关关系. 2. 相关关系的分类:(1)在两个变量中,一个变量是可控制变量,另一个变量是随机变量,如施肥量与水稻产量; (2)两个变量均为随机变量,如某学生的语文成绩与化学成绩. 3. 散点图:将两个变量的各对数据在直角坐标系中描点而得到的图形叫做散点图.它直观地描述了两个变量之间有没有相关关系.这是我们判断的一种依据. 4. 回归分析:与函数关系不同,相关关系是一种非确定性关系,对具有相关关系的两个变量进行统计分析的方法叫做回归分析。
要点二、线性回归方程:1.回归直线如果散点图中点的分布从整体上看大致在一条直线附近,我们就称这两个变量之间具有线性相关关系,这条直线叫作回归直线。
2.回归直线方程ˆˆˆybx a =+ 对于一组具有线性相关关系的数据11(,)x y ,22(,)x y ,……,(,)n n x y ,其回归直线ˆˆˆybx a =+的截距和斜率的最小二乘法估计公式分别为:121()()ˆ()niii ni i x x y y bx x ==--=-∑∑,ˆˆay bx =- 其中x 表示数据x i (i=1,2,…,n )的均值,y 表示数据y i (i=1,2,…,n )的均值,xy 表示数据x i y i (i=1,2,…,n )的均值.a、b 的意义是:以 a 为基数,x 每增加一个单位,y 相应地平均变化b 个单位. 要点诠释:①回归系数121()()ˆ()niii nii x x y y bx x ==--=-∑∑,也可以表示为1221ˆni ii nii x y nx ybxnx==-=-∑∑,这样更便于实际计算。
回归分析的基本思想及其初步应用
t检验用于检验单个自变量对因变量的影响是否显著。如果t检验的P值小于显著性水平,则认为该自变 量对因变量的影响是显著的。
回归系数的解释
偏效应
回归系数表示在其他自变量保持不变 的情况下,某一自变量变化一个单位 时因变量的平均变化量。它反映了自 变量对因变量的偏效应。
标准化回归系数
为了消除自变量量纲的影响,可以对 回归系数进行标准化处理。标准化回 归系数表示自变量和因变量的标准化 值之间的相关系数,具有可比性。
03
回归分析的初步应用
一元线性回归分析
01
建立一元线性回归模型
通过收集样本数据,以自变量 和因变量的线性关系为基础, 建立一元线性回归模型。
02
参数估计
利用最小二乘法等估计方法, 对模型中的参数进行估计,得 到回归方程的系数。
03
假设检验
对回归方程进行显著性检验, 判断自变量和因变量之间是否 存在显著的线性关系。
通过调整模型参数或引入新的 变量等方式优化模型,提高模 型的拟合精度和预测能力。
逐步回归分析
1 引入变量
从所有自变量中逐步引入对因变量有显著影响的变量, 建立初始回归模型。
2 检验与调整
从所有自变量中逐步引入对因变量有显著影响的变量, 建立初始回归模型。
3 逐步筛选
从所有自变量中逐步引入对因变量有显著影响的变量, 建立初始回归模型。
立
详细阐述了线性回归模型的构建 过程,包括模型的假设、参数的 估计和模型的检验等步骤。
回归分析的初步应
用
通过实例演示了回归分析在解决 实际问题中的应用,包括预测、 解释变量关系和控制变量等方面 的应用。
对未来学习的建议与展望
深入学习回归分析的理论知识
回归分析的基本思想及其初步应用方法规律总结
《回归分析的基本思想及其初步应用》方法规律总结1.线性回归分析的过程:(1)随机抽取样本,确定数据,形成样本点;(2)由样本点形成散点图,判定是否具有线性相关关系;(3)由最小二乘法求线性回归方程;(4)进行残差分析,分析模型的拟合效果,不合适时,分析错因,予以纠正;(5)依据回归方程作出预报.2.用散点图可粗略判断两个变量间有无线性相关关系,用相关指数R2可以描述两个变量之间的密切程度.3.随机误差及其产生的原因从散点图中我们可以看到,样本点散布在某一条直线附近,而不是在一条直线上,所以不能用一次函数y =bx +a 来描述它们之间的关系,而是用线性回归模型y =bx +a +e 来表示,其中e 称为随机误差.产生随机误差的主要原因有以下3个方面:(1)用线性回归模型近似真实模型所引起的误差.可能存在非线性的函数能更好地描述y 与x 之间的关系,但是现在却用线性函数来表述这种关系,结果会产生误差.这种由模型近似所引起的误差包含在e 中.(2)忽略了某些因素的影响.影响变量y 的因素不只变量x ,可能还包括其他许多因素(例如在描述身高和体重关系的模型中,体重不仅受身高的影响,还会受遗传基因、饮食习惯、生长环境等其他因素的影响),它们的影响都体现在e 中.(3)观测误差.由于测量工具等原因,导致y 的观测值产生误差(比如一个人的体重是确定的数,但由于测量工具的影响和测量人技术的影响可能会得到不同的观测值,与真实值之间存在误差),这样的误差也包含在e 中.4.正确理解预报变量的变化与解释变量和随机误差的关系预报变量的变化程度可以分解为解释变量引起的变化程度与随机误差e 的变化程度之和.为了衡量回归直线方程y ^=b ^x +a ^的拟合效果,作残差e ^i =yi -y ^i ,其中xi 、yi 为观测到的样本点,y ^i =b ^xi +a ^是由回归模型得到的值,残差图的带状区域越窄,模型的拟合精度就越高,由回归方程作出的预报精度就越高.模型的拟合效果通过相关指数R2来刻画.在线性回归模型中,R2表示解释变量对预报变量变化的贡献率.R2越接近于1,表示解释变量和预报变量的线性相关性越强;反之,R2越小,说明随机误差对预报变量的效应越大。
回归分析的基本思想及其初步应用
例1 从某大学中随机选取8名女大学生,其身高和体
重数据如表11所示.
编号 1 2 3 4 5 6 7 8
身高/ cm 165 165 157 170 175 165 155 170
体重/ kg 48 57 50 54 64 61 43 59
求根据一名女大学生的身高预报她的体重的回归方程,
并预报一名身高为172cm的女大学生的体重.
函数关系中的两个变量间是一种确定性关系 相关关系是一种非确定性关系
函数关系是一种理想的关系模型 相关关系在现实生活中大量存在,是更一 般的情况
问题2:对于线性相关的两个变量用什么方法 来刻划之间的关系呢
2、最小二乘估计 最小二乘估计下的线性回归方程:
yˆ bˆx aˆ
n
(xi X )( yi Y )
z bxa(alnc1,bc2) 的周围 .这样,就可以利用线性回型 归来 模建立 y和x之 间的非线性回归方 了程 .
当回归方程不是形如y bx a时,我们称之为非
线性回归方程.
由表 13的数据可以得 的到 样变 本换 数 1后 4据 ,图表
1.15给出1了 4中 表数据的 .从散 1图 .1点 5中图 可以 看,出 变换后的样一 本条 点直 分线 布 ,因 的 在 此 附 可 近 以 用线性回归.方程来拟合
n
yi yˆi2
其
计
算
公
式 :R2是1
i1 n
.
yi y2
i1
显然,R2取值越大,意味着残差平方和越小,也就是说 模型的拟合效果越好.在线性回归模型中, R2 表示解 释变量对于预报变量变化的贡献率. R2 越 接近于1, 表 示 回 归 的 效 果 越 好(因 为R2越 接 近 于1, 表 示 解 释 变 量和预报变量的线性相关性越强) .如果对某组数据
回归分析的基本思想及其初步应用
n
Q( , ) [ yi xi ( y x) ( y x) ]2
n
i 1
{[yi xi ( y x)]2 2[ yi xi ( y x)][( y x) ] [( y x) ]2}
n( y n
x
)2
注意到, n
[ yi
xi2
(y
i n1
x)] ( y
x
)
n( y
x
2 )
[ yi xi ( y x)]
(
2 y
iix11(xi
)[
xn)
2 n yi i1
我们知道其回归方程的截距和斜率的最小二乘估计公式分别为:
^
^
a y b x,......(1)
n
n
y ^
( xi x)( yi y)
xi
nxy
i
b i1 n
(xi x)2
i 1 n
xi2
2
nx
, ......(2)
i 1
i 1
其中x
1 n
(xi x)2
i 1
yx
这正是我们所要推导的公式。
2019/12/18
1、回归直线方程
1、所求直线方程叫做回归直线方程;
相应的直线叫做回归直线。 2、对两个变量进行的线性分析叫做线性回归分析。
n
n
y bˆ
( xi
最新人教版高中数学选修1-2《回归分析的基本思想及其初步应用》教材梳理
庖丁巧解牛知识·巧学 一、回归分析回归分析是根据变量观测数据分析变量间关系的常用统计分析方法.通常把变量观测数据称为样本.1.散点图与回归方程(1)设对y 及x 做n 次观测得数据(x i ,y i )(i=1,2,…,n).以(x i ,y i )为坐标在平面直角坐标系中描点,所得到的这张图便称之为散点图.其中x 是可观测、可控制的普通变量,常称它为自变量,y 为随机变量,常称其为因变量.知识拓展 散点图是直观判断变量x 与y 是否相关的有效手段. (2)a 与回归系数b 的计算方法若散点呈直线趋势,则认为y 与x 的关系可以用一元回归模型来描述.设线性回归方程为y=a+bx+ε.其中a 、b 为未知参数,ε为随机误差,它是一个分布与x 无关的随机变量.最小二乘估计aˆ和b ˆ是未知参数a 和b 的最好估计. x b y aˆˆ-=,b ˆ=∑∑==---ni ini i ix xy y x x121)())((.深化升华 bˆ的计算还可以用公式b ˆ=∑∑==--ni ini ii x n xyx n yx 1221来计算,这时只需列表求出相关的量代入即可. 2.相关性检验如下图中的两个散点图,很难判断这些点是不是分布在某条直线附近.假如不考虑散点图,按照最小二乘估计计算a 与b ,我们可以根据一组成对数据,求出一个回归直线方程.但它不能反映这组成对数据的变化规律.为了解决上述问题,我们有必要对x 与y 作线性相关性的检验,简称相关性检验.对于变量x 与y 随机抽取到的n 对数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),检验统计量是样本相关系数r.r=∑∑∑∑∑∑======---=----ni i ni i ni ii ni i n i i ni i iy n y x n x yx n yx y y x x y y x x122122112121)()()()())((.r 具有以下性质:当r 大于0时,表明两个变量正相关,当r 小于0时,表明两个变量负相关;|r|≤1;|r|越接近1,线性相关程度越强;|r|越接近0,线性相关程度越弱.通常当|r|大于0.75时,认为两个变量有很强的线性相关关系.相关性检验临界值如下表所示.相关性检验的临界值表深化升华 相关性检验的步骤也可如下: (1)作统计假设:X 与Y 不具有线性相关关系.(2)根据小概率0.05与n-2在相关性检验的临界值表中查出r 的一个临界值r 0.05. (3)根据样本相关系数计算公式算出r 的值.(4)作出统计推断.如果|r|>r 0.05,表明有95%的把握认为X 与Y 之间具有线性相关关系.如果|r|≤r 0.05,我们没有理由拒绝原来的假设.这时寻找回归直线方程是没有意义的. 3.回归分析的基本概念(1)在数学上,把每个效应(观测值减去总的平均值)的平方和加起来,即用∑=-ni iy y12)(表示总的效应,称为总偏差平方和.(2)数据点和它在回归直线上相应位置的差异(y i -i yˆ)是随机误差的效应,称i e ˆ=(y i -i y ˆ)为残差.(3)分别将残差的值平方后回来,用数学符号表示为∑=-ni i iy y12)(称为残差平方和.它代表了随机误差的效应.(4)总偏差平方和与残差平方和的差称为回归平方和.(5)回归效果的刻画我们可以用相关指数R 2反映.R 2=1-∑∑==--n i ini i iy y yy1212)()ˆ(.显然,R 2的值越大,说明残差平方和越小,也就是说模型的拟合效果越好.4.非线性回归问题 在实际问题中,当变量之间的相关关系不是线性相关关系时,不能用线性回归方程描述它们之间的相关关系,需要进行非线性回归分析,然而非线性回归方程一般很难求,因此把非线性回归化为线性回归应该说是解决问题的好方法.首先,所研究对象的物理背景或散点图可帮助我们选择适当的非线性回归方程yˆ=μ(x;a,b).其中a及b为未知参数,为求参数a及b的估计值,往往可以先通过变量置换,把非线性回归化为线性回归,再利用线性回归的方法确定参数a及b的估计值.问题·探究问题函数关系是一种确定性关系,而对一种非确定性关系——相关关系,我们如何研究?导思:由于相关关系不是一种确定性关系,我们经常运用统计分析的方法,即回归分析,按照画散点图,求回归方程,用回归方程预报等步骤进行.探究:我们可以知道,相关关系中,由部分观测值得到的回归直线,可以对两个变量间的线性相关关系进行估计,这实际上是将非确定性问题转化成确定性问题来研究.由于回归直线将部分观测值所反映的规律性进行了延伸,它在情况预报、资料补充等方面有着广泛的应用,从某种意义上看,函数关系是一种理想的关系模型,而相关关系是一种更为一般的情况.因此研究相关关系,不仅可使我们处理更为广泛的数学应用问题,还要使我们对函数关系的认识上升到一种新的高度.典题·热题思路解析:散点图是表示具有相关关系的两个变量的一组数据的图形.解:散点图如下:例2每立方米混凝土的水泥用量x(单位:kg)与28天后混凝土的抗压强度(单位:kg/cm2)之间的关系有如下数据:(2)如果y与x之间具有线性相关关系,求回归直线方程.思路解析:求回归直线方程和相关系数,可以用计算器来完成.在有的较专门的计算器中,可通过直接按键得出回归直线方程的系数和相关系数,而如果要用一般的科学计算器进行计算,则要先列出相应的表格,有了表格中的那些相关数据,回归方程中的系数和相关系数就都容易求出了.解:(1)r=)6.721294.64572)(20512518600(6.722051218294322⨯-⨯-⨯⨯-≈0.999>0.75.说明变量y 与x 之间具有显著的线性正相关关系.bˆ=143004347205125186006.72205121829432=⨯-⨯⨯-≈0.304, x b y aˆˆ-==72.6-0.304×205=10.28. 于是所求的线性回归方程为yˆ=0.304x+10.28. 深化升华 为了进行相关性检验,通常将有关数据列成表格,然后借助于计算器算出各个量,为求回归直线方程扫清障碍.若由资料知y 对x 有线性相关关系.试求:(1)线性回归方程yˆ=b ˆx+a ˆ的回归系数a ˆ,b ˆ. (2)使用年限为10年时,估计维修费用是多少?思路解析:因为y 对x 有线性相关关系,所以可以用一元线性相关的方法解决问题.利用公式bˆ=∑∑==--ni i ni ii x n x yx n yx 1221,aˆ=y -b ˆx 来计算回归系数.有时为了方便常列表对应写出x i y i ,x i 2,以利于求和.解:(1)x =4,y =5,∑=ni ix12=90,∑=ni ii yx 1=112.3,于是bˆ=245905453.112⨯-⨯⨯-=1.23,aˆ=y -b ˆx =5-1.23×4=0.08. (2)回归直线方程为yˆ=1.23x+0.08.当x=10年时,y ˆ=1.23×10+0.08=12.38(万元),即估计使用10年的维修费用是12.38万元.方法归纳 知道y 与x 呈线性相关关系,就无需进行相关性检验,否则,应首先进行相关性检验.如果本身两个变量不具有相关关系,或者说,它们之间相关关系不显著,即使求出了回归方程也是毫无意义的,而且估计和预测的量也是不可信的.例4一只红铃虫的产卵数y与x有关,现收集了7组观测数据列于表中,试建立y与x之间思路解析:首先要作出散点图,根据散点图判定y与x之间是否具有线性相关关系,若具有线性相关关系,再求线性回归方程.在散点图中,样本点并没有分布在某个带状区域内,因此两个变量不呈线性相关关系,所以不能直接利用线性回归方程来建立两个变量之间的关系.根据已有的函数知识,可以发现样本分布在某一指数函数曲线的周围.解:散点图如下所示:由散点图可以看出:这些点分布在某一条指数函数y=pe qx(p,q为待定的参数)的周围.现在,问题变为如何估计待定的参数p和q,我们可以通过对数变换把指数关系变为线性关系.令z=lny,则变换后样本点应该分布在直线z=bx+a(a=lnp,b=q)周围.这样就可以利用线性回归模型来建立y与x之间的非线性回归方程了.由下图可看出,变换后的样本点分布在一条直线的附近,因此可以用线性回归方程来拟合.经过计算得到线性回归方程为zˆ=0.272x-3.843.因此红铃虫的产卵数对温度的非线性回归方程为yˆ=e0.272x-3.843.方法归纳线性回归问题在解决前可以先画散点图,通过散点图判断是否为线性回归,如果不是线性回归,要先转换为线性回归问题.。
3.1 回归分析的基本思想及其初步应用
3.1 回归分析的基本思想及其初步应用[学习目标]1.了解随机误差、残差、残差图的概念.2.会通过分析残差判断线性回归模型的拟合效果. 3.掌握建立线性回归模型的步骤. [知识链接]1.什么叫回归分析?答 回归分析是对具有相关关系的两个变量进行统计分析的一种方法. 2.回归分析中,利用线性回归方程求出的函数值一定是真实值吗?答 不一定是真实值,利用线性回归方程求的值,在很多时候是个预报值,例如,人的体重与身高存在一定的线性关系,但体重除了受身高的影响外,还受其他因素的影响,如饮食、是否喜欢运动等. [预习导引] 1.线性回归模型(1)函数关系是一种确定性关系,而相关关系是一种非确定性关系. (2)回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法. (3)对于一组具有线性相关关系的数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),回归直线的斜率和截距的最小二乘估计公式分别为b ^=∑ni =1 (x i -x -)(y i -y -)∑ni =1 (x i -x -)2=∑ni =1x i y i-nx -y-∑n i =1x 2i -nx -2,a ^=y --b ^x -,其中(x -,y -)称为样本点的中心.(4)线性回归模型y =bx +a +e ,其中a 和b 是模型的未知参数,e 称为随机误差,自变量x 称为解释变量,因变量y 称为预报变量. 2.残差的概念对于样本点(x 1,y 1),(x 2,y 2),…,(x n ,y n )而言,它们的随机误差为e i =y i -bx i -a ,i =1,2,…,n ,其估计值为e ^i =y i -y ^i =y i -b ^x i -a ^,i =1,2,…,n ,e ^i 称为相应于点(x i ,y i )的残差. 3.刻画回归效果的方式 (1)残差图法作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重估计值等,这样作出的图形称为残差图.在残差图中,残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,这样的带状区域的宽度越窄,说明模型拟合精度越高. (2)残差平方和法残差平方和∑ni =1 (y i -y ^i )2,残差平方和越小,模型拟合效果越好. (3)利用R 2刻画回归效果R 2=1-∑ni =1(y i -y ^i )2∑n i =1 (y i -y -)2;R 2表示解释变量对于预报变量变化的贡献率.R 2越接近于1,表示回归的效果越好.要点一 求线性回归方程例1 某班5名学生的数学和物理成绩如下表:(1)画出散点图;(2)求物理成绩y 对数学成绩x 的回归直线方程; (3)一名学生的数学成绩是96,试预测他的物理成绩. 解 (1)散点图如图.(2)x -=15×(88+76+73+66+63)=73.2, y -=15×(78+65+71+64+61)=67.8.∑5i =1x i y i=88×78+76×65+73×71+66×64+63×61=25 054. ∑5i =1x 2i =882+762+732+662+632=27 174. 所以b ^=∑5i =1x i y i -5x -y -∑5i =1x 2i -5x -2=25 054-5×73.2×67.827 174-5×73.22≈0.625. a ^=y --b ^x -≈67.8-0.625×73.2=22.05.所以y 对x 的回归直线方程是y ^=0.625x +22.05. (3)x =96,则y ^=0.625×96+22.05≈82, 即可以预测他的物理成绩是82.规律方法 (1)散点图是定义在具有相关关系的两个变量基础上的,对于性质不明确的两组数据,可先作散点图,在图上看它们有无关系,关系的密切程度,然后再进行相关回归分析.(2)求回归直线方程,首先应注意到,只有在散点图大致呈线性时,求出的回归直线方程才有实际意义,否则,求出的回归直线方程毫无意义.跟踪演练1 以下是某地搜集到的新房屋的销售价格y 和房屋的面积x 的数据:(1)画出数据对应的散点图;(2)求线性回归方程,并在散点图中加上回归直线; (3)据(2)的结果估计当房屋面积为150 m 2时的销售价格. 解 (1)数据对应的散点图如下图所示:(2)x -=15∑5i =1x i =109,∑5i =1 (x i -x -)2=1 570, y -=23.2,∑5i =1 (x i -x -)(y i -y -)=308.设所求回归直线方程为y ^=b^x +a ^, 则b^=∑5i =1(x i -x -)(y i -y -)∑5i =1(x i -x -)2=3081 570≈0.196 2,a ^=y --b ^x -=0.181 42.故所求回归直线方程为y ^=0.196 2x +1.814 2. 回归直线如上图所示.(3)据(2),当x =150 m 2时,销售价格的估计值为 y ^=0.196 2×150+1.814 2=31.244 2(万元). 要点二 线性回归分析例2 为研究重量x (单位:克)对弹簧长度y (单位:厘米)的影响,对不同重量的6个物体进行测量,数据如下表所示:(1)作出散点图并求线性回归方程; (2)求出R 2; (3)进行残差分析. 解 (1)散点图如图x -=16(5+10+15+20+25+30)=17.5,y -=16(7.25+8.12+8.95+9.90+10.9+11.8)≈9.487,∑6i =1x 2i=2 275,∑6i =1x i y i =1 076.2 计算得,b^≈0.183,a ^≈6.285, 所求回归直线方程为y ^=0.183x +6.285. (2)列表如下:所以∑6i =1 (y i -y ^i )2≈0.013 18,∑6i =1 (y i -y -)2=14.678 4.所以,R 2=1-0.013 1814.678 4≈0.999 1, 回归模型的拟合效果较好.(3)由残差表中的数值可以看出第3个样本点的残差比较大,需要确认在采集这个数据的时候是否有人为的错误,如果有的话,需要纠正数据,重新建立回归模型;由表中数据可以看出残差点比较均匀地落在不超过0.15的狭窄的水平带状区域中,说明选用的线性回归模型的精度较高,由以上分析可知,弹簧长度与拉力成线性关系.规律方法 在研究两个变量间的关系时,首先要根据散点图来粗略判断它们是否线性相关,是否可以用线性回归模型来拟合数据.然后,通过残差e ^1,e ^2,…,e^n来判断模型拟合的效果,判断原始数据中是否存在可疑数据.若残差点比较均匀地分布在水平带状区域内,带状区域越窄,说明模型拟合精度越高,回归方程预报精度越高.跟踪演练2 已知某种商品的价格x (元)与需求量y (件)之间的关系有如下一组数据:求y 对x 的回归直线方程,并说明回归模型拟合效果的好坏.解 x -=15(14+16+18+20+22)=18, y -=15(12+10+7+5+3)=7.4,∑5i =1x 2i =142+162+182+202+222=1 660, ∑5i =1x i y i=14×12+16×10+18×7+20×5+22×3=620, 所以b^=∑5i =1x i y i-5x -y -∑5i =1x 2i -5x -2=620-5×18×7.41 660-5×182=-1.15.a^=7.4+1.15×18=28.1, 所以所求回归直线方程是y ^=-1.15x +28.1. 列出残差表:所以,∑5i =1 (y i -y ^i )2=0.3,∑5i =1 (y i -y -)2=53.2,R 2=1-∑5i =1 (y i -y ^i )2∑5i =1 (y i -y -)2≈0.994,所以回归模型的拟合效果很好. 要点三 非线性回归分析 例3 下表为收集到的一组数据:(1)作出x 与y 的散点图,并猜测x 与y 之间的关系; (2)建立x 与y 的关系,预报回归模型并计算残差; (3)利用所得模型,预报x =40时y 的值.解 (1)作出散点图如下图,从散点图可以看出x 与y 不具有线性相关关系,根据已有知识可以发现样本点分布在某一条指数函数曲线y =c 1e c 2x 的周围,其中c 1,c 2为待定的参数.(2)对两边取对数把指数关系变为线性关系,令z =ln y ,则有变换后的样本点应分布在直线z =bx +a (a =ln c 1,b =c 2)的周围,这样就可以利用线性回归模型来建立y 与x 之间的非线性回归方程了,数据可以转化为求得回归直线方程为z ^=0.272x -3.849, ∴y ^=e 0.272x -3.849. 残差(3)当x=40时,y=e0.272x-3.849≈1 131.规律方法解决非线性回归问题的方法及步骤(1)确定变量:确定解释变量为x,预报变量为y;(2)画散点图:通过观察散点图并与学过的函数(幂、指数、对数函数、二次函数)作比较,选取拟合效果好的函数模型;(3)变量置换:通过变量置换把非线性回归问题转化为线性回归问题;(4)分析拟合效果:通过计算相关指数等来判断拟合效果;(5)写出非线性回归方程.跟踪演练3为了研究某种细菌随时间x变化时,繁殖个数y的变化,收集数据如下:(1)用天数x作解释变量,繁殖个数y作预报变量,作出这些数据的散点图;(2)描述解释变量x与预报变量y之间的关系;(3)计算相关指数.解(1)作散点图如图所示.(2)由散点图看出样本点分布在一条指数函数y=c1e c2x的周围,于是令z=ln y,则有变换后的样本点应分布在直线z=bx+a(a=ln c1,b=c2)的周围,这样就可以利用线性回归模型来建立y 与x 之间的非线性回归方程了,数据可以转化为由计算器得:z ^=0.69x +1.115,则有y ^=e 0.69x +1.115. (3)y -=3776,∑n i =1 e ^21=∑n i =1 (y i -y ^)2=4.816 1, ∑n i =1(y i -y -)2=24 642.8,R 2=1-4.816 124 642.8≈0.999 8, 即解释变量天数对预报变量繁殖细菌个数解释了99.98%.1.下列各组变量之间具有线性相关关系的是( ) A .出租车费与行驶的里程 B .学习成绩与学生身高 C .身高与体重 D .铁的体积与质量 答案 C2.若劳动生产率x (千元)与月工资y (元)之间的线性回归方程为y ^=50+80x ,则下列判断正确的是( )A .劳动生产率为1 000元时,月工资为130元B .劳动生产率提高1 000元时,月工资平均提高80元C .劳动生产率提高1 000元时,月工资平均提高130元D .月工资为210元时,劳动生产率为2 000元 答案 B3.某商品销售量y (件)与销售价格x (元/件)负相关,则其回归方程可能是( )A.y^=-10x+200B.y^=10x+200C.y^=-10x-200D.y^=10x-200答案 A解析由于销售量y与销售价格x成负相关,故排除B、D.又当x=10时,A中y=100,而C中y=-300,C不符合题意,故选A.4.某电脑公司有6名产品推销员,其工作年限与年推销金额数据如下表:(1)求年推销金额y关于工作年限x的线性回归方程;(2)若第6名推销员的工作年限为11年,试估计他的年推销金额.解(1)设所求的线性回归方程为y^=b^x+a^,则b^=∑5i=1(x i-x-)(y i-y-)∑5i=1(x i-x-)2=1020=0.5,a^=y--b^x-=0.4.所以年推销金额y关于工作年限x的线性回归方程为y^=0.5x+0.4.(2)当x=11时,y^=0.5x+0.4=0.5×11+0.4=5.9(万元).所以可以估计第6名推销员的年推销金额为5.9万元.回归分析的基本思路(1)确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量;(2)画出确定好的解释变量和预报变量的散点图,观察它们之间的关系(如是否存在线性关系等);(3)由经验确定回归方程的类型(如果呈线性关系,则选用线性回归方程y ^=b ^x +a ^); (4)按一定规则估计回归方程中的参数;(5)提出结果后分析残差图是否有异常(个别数据对应的残差过大,或残差呈现不随机的规律性等),若存在异常,则检查数据是否有误或模型是否合适等.一、基础达标1.在下列各量之间,存在相关关系的是( )①正方体的体积与棱长之间的关系;②一块农田的水稻产量与施肥量之间的关系;③人的身高与年龄之间的关系;④家庭的支出与收入之间的关系;⑤某户家庭用电量与电价之间的关系.A .②③B .③④C .④⑤D .②③④ 答案 D2.设某大学的女生体重y (单位:kg)与身高x (单位:cm)有线性相关关系,根据一组样本数据(x i ,y i )(i =1,2,…,n ),用最小二乘法建立的回归方程为y ^=0.85x -85.71,下列结论中不正确的是( ) A .y 与x 具有正的线性相关关系B .回归直线过样本点的中心(x -,y -)C .若该大学某女生身高增加1 cm ,则其体重约增加0.85 kgD .若该大学某女生身高为170 cm ,则可断定其体重必为58.79 kg 答案 D解析 由回归方程为y ^=0.85x -85.71知y 随x 的增大而增大,所以y 与x 具有正的线性相关关系;由最小二乘法建立回归方程的过程知y ^=b ^x +a ^=b ^x +y --b ^x - (a ^=y --b ^x -),所以回归直线过样本点的中心(x -,y -);利用回归方程可以估计总体,所以D 不正确.3.某产品的广告费用x 与销售额y 的统计数据如下表:根据上表可得回归方程y ^=b ^x +a ^中的b ^为9.4,据此模型预报广告费用为6万元时销售额为( )A .63.6万元B .65.5万元C .67.7万元D .72.0万元 答案 B解析 ∵x -=4+2+3+54=72,y -=49+26+39+544=42,又y ^=b ^x +a ^必过(x -,y -),∴42=72×9.4+a^,∴a ^=9.1.∴线性回归方程为y ^=9.4x +9.1.∴当x =6(万元)时,y ^=9.4×6+9.1=65.5(万元).4.甲、乙、丙、丁四位同学各自对A ,B 两变量做回归分析,分别得到散点图与残差平方和∑ni =1(y i -y ^i )2如下表散点图哪位同学的实验结果体现拟合A ,B 两变量关系的模型拟合精度高?( ) A .甲 B .乙 C .丙 D .丁 答案 D5.如果散点图的所有点都在一条直线上,则残差均为________,残差平方和为________,相关指数为________. 答案 0 0 16.对具有线性相关关系的变量x 和y ,由测得的一组数据求得回归直线的斜率为6.5,且恒过(2,3)点,则这条回归直线的方程为________.答案y^=-10+6.5x解析由题意知x-=2,y-=3,b^=6.5,所以a^=y--b^x-=3-6.5×2=-10,即回归直线的方程为y^=-10+6.5x.7.某个服装店经营某种服装,在某周内纯获利y(元)与该周每天销售这种服装件数x之间的一组数据如下表:(1)求样本中心点;(2)画出散点图;(3)求纯获利y与每天销售件数x之间的回归方程.解(1)x-=6,y-=79.86,中心点(6,79.86).(2)散点图如下:(3)因为b^=∑7i=1(x i-x-)(y i-y-)∑7i=1(x i-x-)2≈4.75,a^=y--b^x-≈51.36,所以y^=4.75x+51.36.二、能力提升8.(2013·福建)已知x与y之间的几组数据如下表:假设根据上表数据所得线性回归直线方程为y^=b^x+a^.若某同学根据上表中的前两组数据(1,0)和(2,2)求得的直线方程为y=b′x+a′,则以下结论正确的是()A.b ^>b ′,a ^>a ′B.b ^>b ′,a ^<a ′ C.b ^<b ′,a ^>a ′ D.b ^<b ′,a ^<a ′ 答案 C解析 x -=1+2+3+4+5+66=72,y -=0+2+1+3+3+46=136,b ^=∑ni =1x i y i -nx - y -∑n i =1x 2i -nx -2=57,a ^=y --b ^x -=-13,b ′=2-02-1=2>b^,a ′=-2<a ^. 9.下表是x 和y 之间的一组数据,则y 关于x 的回归方程必过( )A.点(2,3) B .点(1.5,4) C .点(2.5,4) D .点(2.5,5) 答案 C解析 回归方程必过样本点的中心(x -,y -),即(2.5,4).10.如图是x 和y 的一组样本数据的散点图,去掉一组数据________后,剩下的4组数据的相关指数最大.答案 D (3,10)解析 去掉D (3,10)这一组数据后,其他4组数据对应的点都集中在某一条直线附近,即两变量的线性相关性最强,此时相关指数最大. 11.某地最近十年粮食需求量逐年上升,下表是部分统计数据:(1)利用所给数据求年需求量与年份之间的回归直线方程y ^=b ^x +a ^;(2)利用(1)中所求出的直线方程预测该地2012年的粮食需求量.解 (1)由所给数据看出,年需求量与年份之间是近似直线上升,下面来求回归直线方程,先将数据处理如下:对处理的数据,容易算得x -=0,y -=3.2,b^=(-4)×(-21)+(-2)×(-11)+2×19+4×29-5×0×3.2(-4)2+(-2)2+22+42-5×02=26040=6.5,a ^=y --b ^x -=3.2.由上述计算结果,知所求回归直线方程为y ^-257=6.5(x -2 006)+3.2.即y ^=6.5(x -2 006)+260.2.(2)利用所求得的直线方程,可预测2012年的粮食需求量为6.5×(2 012-2 006)+260.2=6.5×6+260.2=299.2(万吨).12.某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:(1)求回归直线方程y ^=b ^x +a ^,其中b ^=-20,a ^=y --b ^x -;(2)预计在今后的销售中,销量与单价仍然服从(1)中的关系,且该产品的成本是4元/件,为使工厂获得最大利润,该产品的单价应定为多少元?(利润=销售收入—成本)解 (1)x -=8+8.2+8.4+8.6+8.8+96=8.5,y -=16(90+84+83+80+75+68)=80∵b ^=-20,a ^=y ^-b ^x -,∴a^=80+20×8.5=250 ∴回归直线方程y ^=-20x +250;(2)设工厂获得的利润为L 元,则L =x (-20x +250)-4(-20x +250)=-20(x -334)2+361.25∴该产品的单位应定为334元,工厂获得的利润最大. 三、探究与创新13.(2013·重庆卷)从某居民区随机抽取10个家庭,获得第i 个家庭的月收入x i (单位:千元)与月储蓄y i (单位:千元)的数据资料,算得∑10i =1x i =80,∑10i =1y i =20,∑10i =1x i y i=184,∑10i =1x 2i =720. (1)求家庭的月储蓄y 对月收入x 的线性回归方程y ^=b ^x -+a^;(2)判断变量x 与y 之间是正相关还是负相关;(3)若该居民区某家庭月收入为7千元,预测该家庭的月储蓄. 附:线性回归方程y ^=b ^x +a ^中,b ^=∑ni =1x i y i -nx - y -∑n i =1x 2i-nx -2,a ^=y --bx -, 其中x -,y -为样本平均值. 解 (1)由题意知n =10,x -=1n ∑n i =1x i =8010=8,y -=1n ∑n i =1y i =2010=2,又l xx =∑ni =1x 2i -nx -2=720-10×82=80, l xy =∑ni =1x i y i -nx - y -=184-10×8×2=24,由此得b^=l xyl xx=2480=0.3,a^=y--b^x-=2-0.3×8=-0.4,故所求回归方程为y^=0.3x-0.4.(2)由于变量y的值随x的值增加而增加(b=0.3>0),故x与y之间是正相关.(3)将x=7代入回归方程可以预测该家庭的月储蓄为y^=0.3×7-0.4=1.7(千元).。
回归分析的基本思想及其初步应用
回归分析的基本思想及其初步应用学习任务:进一步了解与线性回归模型有关的一些统计思想(引入残差变量的必要性;残差分析和相关指数的作用;对模型预报结果的正确认识等)。
主要知识点:回归模型与函数模型的区别;线性回归模型的数学表达式;建立回归模型的基本步骤;随机误差产生的原因;回归方程的预报结果(相关系数、相关指数、残差分析等角度);非线性相关关系转化为线性回归模型。
重点:回归模型与函数模型的区别;回归模型拟合效果的刻画——相关指数与残差分析。
难点:残差变量的解释;偏差平方和分解的思想。
一、函数关系与相关关系函数关系是两个变量之间的一种确定性的关系,而相关关系是一种非确定性的关系。
相关关系有线性相关关系与非线性相关关系。
用统计方法解决问题的基本步骤为:提出问题、收集数据、分析整理数据、预测或决策。
例1 为了预报一名身高为172cm的女大学生的体重,从某大学中随机选取8名女大学生作为样本,收集她们的身高和体重的数据如下表所示.。
从散点图中可以看出,图像同时经过这8个样本点的函数是不存在的,因此,这里的体重变量y与身高变量x不具有确定的函数关系;事实上,注意到当x=165时,y有48,57,61三个不同的取值,根据函数概念可知,这里的变量y与变量x根本就不可能具有函数关系;但由于这8个样本点分布在从左下方到右上方的一个带形区域内,使我们初步感觉到身高变量x与体重变量y并非没有关系,因此,应存在某一直线l,使这8个点都落在该直线附近,从而说明这里的变量y与变量x具有非确定性的线性相关关系。
那么,这条直线l的方程是什么?如何根据直线l的方程预报一名身高为172cm的女大学生的体重?预报值的含义是什么?预报的精确度又如何呢?回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法,其最基本的过程为:画散点图→求回归方程→用回归方程进行预报。
二、最小二乘估计公式(求回归直线方程的一种方法)例1中的8名女大学生是一个随机抽样样本,所获得的8组身高和体重的数据对称为观测数据(或样本数据).一般地,设对变量x 与y 有一组观测数据),...,3,2,1)(,(n i y x i i =,这些样本点都分布在直线l 的附近,直线l 的方程为:αβ+=x y (称变量x 为解释变量,变量y 为预报变量或观测变量).方程中αβ,是客观存在的真实值,但由于变量x 与y 并不具有线性函数关系,我们无法确切地知道αβ,具体是何值。
3.1回归分析的基本思想及其初步应用
(3)由经验确定回归方程的类型(如我们观察到数据呈 线性关系,则选用线性回归方程). ( 4)按 一 定 规 则 ( 如 最 小 二 乘 法 )估 计 回 归 方 程 中 的 参 数 .
(5)得出结果后分析残差图是否有异常(如个别数据对 应残差过大,残差呈现不随机的规律性等),若存在异常, 则检查数据是否有误,或模型是否合适等.
对于一组具有线性相关关系的数据
x1, y1 ,x2, y2 ,,xn , yn ,
我们知道其回归直线y = bx + a的斜率和截距 的最小二乘估计分别为
n
xi x yi y
bˆ i1 n
,
1
aˆ y bˆx,
2
xi x 2
i 1
这正是我们所要推导的公式.
下面我们通过案例 ,进一步学习回归分析的基本 思想及其应用.
例1 从某大学中随机选取8名女大学生,其身高和体 重数据如表 3-1所示.
表 3-1 编号 1 2 3 4 5 6 7 8
身 高 / cm 165 165 157 170 175 165 155 170 体 重 /kg 48 57 50 54 64 61 43 59
4.不能期望回归方程得到的预报值就是预报变量的 精 确 值.事 实 上, 它 是 预 报 变 量 的 可 能 取 值 的 平 均 值. 一 般 地 ,建 立 回 归 模 型 的 基 本 步 骤 为 :
( 1)确 定 研 究 对 象 ,明 确 哪 个 变 量 是 解 释 变 量 ,哪 个 变 量是预报变量. ( 2)画 出 解 释 变 量 和 预 报 变 量 的 散 点 图 ,观 察 它 们 之 间
第三章 统计案例
3.1《回归分析的基本思想及其初步应用》课件
10 20 30 40 50
500 450 400 350 300
·
·
·
·
·
·
·
发现:图中各点,大致分布在某条直线附近。
探索2:在这些点附近可画直线不止一条, 哪条直线最能代表x与y之间的关系呢?
x
y
施化肥量
水稻产量
施化肥量x 15 20 25 30 35 40 45 水稻产量y 330 345 365 405 445 450 455
温度xoC
21
23
25
27
29
32
35
z=lgy
0.85
1.04
1.32
1.38
1.82
2.06
2.51
产卵数y/个
7
11
21
24
66
115
325
x
z
当x=28oC 时,y ≈44 ,指数回归模型中温度解释了98%的产卵数的变化
由计算器得:z关于x的线性回归方程 为z=0.272x-3.849 , 相关指数R2=0.98
对数变换:在 中两边取自然对数得
令 ,则 就转换为z=bx+a
最好的模型是哪个?
显然,指数函数模型最好!
散点图
最小二乘法:
称为样本点的中心。
1、已知回归直线斜率的估计值为1.23,样本点的 中心为(4,5),则回归直线方程为( )
C
练习:
2、某考察团对全国10个城市进行职工人均工资水平x(千元)与居民人均消费水平y(千元)统计调查,y与x具有相关关系,回归方程y = 0.66x + 1.562,若某城市居民人均消费水平为7.675(千元),估计该城市人均消费额占人均工资收入的百分比约为…………( ) A.83% B.72% C.67% D.66%
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第一章:统计案例回归分析的基本思想及其初步应用实例为172cm的女大学生的体重.解:由于问题中要求根据身高预报体重,因此选自变量x,为因变量.(1)做散点图:从散点图可以看出和有比较好的相关关系.(2) = =所以于是得到回归直线的方程为(3)身高为172cm的女大学生,由回归方程可以预报其体重为新知:用相关系数r可衡量两个变量之间关系.计算公式为r =r>0, 相关, r<0 相关;相关系数的绝对值越接近于1,两个变量的线性相关关系,它们的散点图越接近;,两个变量有关系.x y81i iix y==∑821iix==∑81822188i iiiix y x ybx x==-==-∑∑a y bx=-≈y=r>例1某班5名学生的数学和物理成绩如下表:(2) 求物理成绩y 对数学成绩x 的回归直线方程;(3) 该班某学生数学成绩为96,试预测其物理成绩;练习1:下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量(吨)与相应的生产能耗 (吨标准煤)的几组对照数据(1)请画出上表数据的散点图;(2)请根据上表提供的数据,用最小二乘法求出关于的线性回归方程; (3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的线性同归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤? (参考数值)x y y x y bx a =+3 2.543546 4.566.5⨯+⨯+⨯+⨯=当堂检测1. 下列两个变量具有相关关系的是( ) A. 正方体的体积与边长 B. 人的身高与视力 C.人的身高与体重D.匀速直线运动中的位移与时间2. 在画两个变量的散点图时,下面哪个叙述是正确的( ) A. 预报变量在x 轴上,解释变量在 y 轴上 B. 解释变量在x 轴上,预报变量在 y 轴上C. 可以选择两个变量中任意一个变量在x 轴上D. 可选择两个变量中任意一个变量在 y 轴上 3. 回归直线必过( )A. B. C. D. 4.越接近于1,两个变量的线性相关关系 .5. 已知回归直线方程,则时,y 的估计值为 .6、一台机器使用的时间较长,但还可以使用,它按不同的转速生产出来的某机械零件有一些会有缺点,每小时生产有缺点零件的多少,随机器的运转的速度而变化,下表为抽样试验(2)求回归直线方程;(3)若实际生产中,允许每小时的产品中有缺点的零件最多为 10 个,那么机器的运转速度应控制在什么范围内?相关指数:表示 对 的贡献,公式为:的值越大,说明残差平方和 ,说明模型拟合效果 .残差分析:通过 来判断拟合效果.通常借助 图实现.残差图:横坐标表示 ,纵坐标表示 .残差点比较均匀地落在 的区的区域中,说明选用的模型 , 带状区域的宽度越 ,说明拟合精度越 ,回归方程的预报精度越y bx a =+(0,0)(,0)x (0,)y (,)x y r 0.50.81y x =-25x =2R 2R =2R为了对、y 两个变量进行统计分析,现有以下两种线性模型:,,试比较哪一个模型拟合的效果更好?例2 假定小麦基本苗数x与成熟期有效苗穗y 之间存在相关关系,今测得5组数据如下: (2)求回归方程并对于基本苗数56.7预报期有效穗数; (3)求,并说明残差变量对有效穗数的影响占百分之几. (参考数据:,)x 6.517.5y x =+717y x =+2R 2115101.51,6746.76,nni i i i i x x y ====∑∑521()50.18ii yy =-=∑521()9.117ii i yy =-=∑练1. 某班5名学生的数学和物理成绩如下表:(4)求学生A,B,C,D,E 的物理成绩的实际成绩和回归直线方程预报成绩的差.并作出残差图评价拟合效果.练习:1. 两个变量 y 与x 的回归模型中,分别选择了 4 个不同模型,它们的相关指数 如下 ,其中拟合效果最好的模型是( ).A. 模型 1 的相关指数为 0.98B. 模型 2 的相关指数为 0.80C. 模型 3 的相关指数为 0.50D. 模型 4 的相关指数为 0.252. 在回归分析中,残差图中纵坐标为( ). A. 残差 B. 样本编号 C. x D.3. 通过来判断模拟型拟合的效果,判断原始数据中是否存在可疑数据,这种分工称为( ).A.回归分析B.独立性检验分析C.残差分析D. 散点图分析4.越接近1,回归的效果 .5. 在研究身高与体重的关系时,求得相关指数,可以叙述为“身高解释了的体重变化,而随机误差贡献了剩余 ”所以身高对体重的效应比随机误差的 .2i i e y y =-2R 2R 2R 2R 2R n e 12,,,n e e e 2R 2R =69%练.(07广东文科卷)下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量(吨)与相应的生产能耗 (吨标准煤)的几组对照数据 (1)请画出上表数据的散点图; (2)请根据上表提供的数据,用最小二乘法求出关于的线性回归方程;(3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的线性同归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤? (参考数值) (4)求相关指数评价模型.实例一只红铃虫的产卵数和温度有关,现收集了7组观测数据列于下表中,试建立与 个(1)根据收集的数据,做散点图上图中,样本点的分布没有在某个 区域,因此两变量之间不呈 关系,所以不能直接用线性模型.由图,可以认为样本点分布在某一条指数函数曲线的周围(为待定系数).对上式两边去对数,得令,则变换后样本点应该分布在直线y 和x 的非线性回归方程. x y y x y bx a =+3 2.543546 4.566.5⨯+⨯+⨯+⨯=y x y /C y bx a y e +=,a b ln y =ln ,z y =作散点图(描点)由上表中的数据得到回归直线方程因此红铃虫的产卵数和温度的非线性回归方程为例1一只红铃虫的产卵数和温度有关,现收集了7组观测数据列于下表中,个(散点图如由图,可以认为样本点集中于某二次曲线的附近,其中为待定参数)试建立与之间的回归方程.练习:1. 两个变量 y 与x 的回归模型中,求得回归方程为,当预报变量时( ). A. 解释变量 B. 解释变量大于 C. 解释变量小于 D. 解释变量在左右2. 在回归分析中,求得相关指数,则( ). A. 解释变量解对总效应的贡献是 B. 解释变量解对总效应的贡献是 C. 随机误差的贡献是 D. 随机误差的贡献是(,)i i x z z =y x y x /C y 234y c x c =+12,c c y x 0.232x y e -=10x =30y e -=y 30e -y 30e -y 30e -20.89R =11%89%89%0.89%3. 通过来判断模拟型拟合的效果,判断原始数据中是否存在可疑数据,这种分析称为( ).A .回归分析B .独立性检验分析C .残差分析 D. 散点图分析 4.在研究两个变量的相关关系时,观察散点图发现样本点集中于某一条指数曲线的周围,令,求得回归直线方程为,则该模型的回归方程为 .5. 已知回归方程,则时,y 的估计值为 .独立性检验的基本思想及其初步应用 新知2:统计量 吸烟与患肺癌列联表假设:吸烟与患肺癌没关系,则在吸烟者和不吸烟者中患肺癌不患肺癌者的相应比例 .即因此, 越小,说明吸烟与患肺癌之间关系 ;反之, .=例1 吸烟与患肺癌列联表求.练1. 性别与喜欢数学课程列联表:喜欢数学 不喜欢数学 总 计 男 37 85 122 女 35 143 178 总 计 72 228 300求.12,,,n e e e bx a y e +=ln z y =0.25 2.58z x =-0.5ln ln 2y x =-100x =2K 0H 2K 2K 2K 不患肺癌 患肺癌 总计 不吸烟 7775 42 7817 吸 烟 2099 49 2148 总 计98749199652. 独立性检验的步骤(略)及原理(与反证法类似):反证法 假设检验 要证明结论A 备择假设H在A 不成立的前提下进行推理 在H 不成立的条件下,即H 成立的条件下进行推理推出矛盾,意味着结论A 成立推出有利于H 成立的小概率事件(概率不超过的事件)发生,意味着H 成立的可能性(可能性为(1-))很大没有找到矛盾,不能对A 下任何结论,即反证法不成功推出有利于H 成立的小概率事件不发生,接受原假设某市为调查全市高中生学习状况是否对生理健康有影响,随机进行调查并得到如下的列联表:求.独立性检验的基本思想及其初步应用探究任务:吸烟与患肺癌的关系第一步:提出假设检验问题 H :第二步:根据公式求观测值k =(它越小,原假设“H :吸烟与患肺癌没有关系”成立的可能性越 ;它越大,备择假设“H : ” 成立的可能性越大.)第三步:查表得出结论1101α1α12K 02K 01 不健康 健 康 总计 不优秀 41 626 667 优 秀 37 296 333总 计 78 922 1000 P (k 2>k ) 0.50 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001 k 0.455 0.708 1..323 2.072 2.706 3.84 5.024 6.635 7.879 10..83※ 典型例题例1 在某医院,因为患心脏病而住院的665名男性病人中,有214人秃顶;而另外772名不是因为患心脏病而住院的男性病人中有175名秃顶. 分别利用图形和独立性检验方法判断秃顶与患心脏病是否有关系?你所得的结论在什么范围内有效?小结:用独立性检验的思想解决问题: 第一步: 第二步: 第三步:例2为考察高中生的性别与是否喜欢数学课程之间的关系,在某城市的某校高中生中随机抽由表中数据计算得到的观察值. 在多大程度上可以认为高中生的性别与是否数学课程之间有关系?为什么?练1.某市为调查全市高中生学习状况是否对生理健康有影响,随机进行调查并得到如下的列联表:请问有多大把握认为“高中生学习状况与生理健康有关”?K 4.513k练习:1. 在吸烟与患肺病这两个分类变量的计算中,下列说法正确的是 ( ) A. 若k =6.635,则有99%的把握认为吸烟与患肺病有关,那么100名吸烟者中,有99个患肺病.B. 从独立性检验可知,有99%的把握认为吸烟与患肺病有关时,可以说某人吸烟,那么他有99%的可能性患肺病.C. 若从统计量中求出有95%的把握认为吸烟与患肺病有关,是指有5%的可能性使推断出现错误.D. 以上三种说法都不对.2. 下面是一个列联表则表中a,b 的之分别是( )A. 94,96B. 52,50C. 52,54D. 54,523.某班主任对全班50名学生进行了作业量多少的调查,数据如下表: 则认为喜欢玩游戏与认为作业量多少有关系的把握大约为( )A. 99%B. 95%C. 90%D.无充分依据4. 在独立性检验中,当统计量满足 时,我们有99%的把握认为这两个分类变量有关系.统计案例检测题 一、选择题(本大题共12小题,每题4分) 1、散点图在回归分析中的作用是 ( ) A .查找个体数目 B .比较个体数据关系 C .探究个体分类D .粗略判断变量是否呈线性关系2、对于相关系数下列描述正确的是 ( ) A .r >0表明两个变量相关 B .r <0表明两个变量无关C .越接近1,表明两个变量线性相关性越强D .r 越小,表明两个变量线性相关性越弱22 2K r3、预报变量的值与下列哪些因素有关 ( ) A .受解释变量影响与随机误差无关 B .受随机误差影响与解释变量无关 C .与总偏差平方和有关与残差无关 D .与解释变量和随机误差的总效应有关4、下列说法正确的是 ( ) A .任何两个变量都具有相关系 B .球的体积与球的半径具有相关关系 C .农作物的产量与施肥量是一种确定性关系 D .某商品的产量与销售价格之间是非确定性关系5、在画两个变量的散点图时,下面哪个叙述是正确的( )A. 预报变量在x 轴上,解释变量在 y 轴上B. 解释变量在x 轴上,预报变量在 y 轴上C. 可以选择两个变量中任意一个变量在x 轴上D. 可以选择两个变量中任意一个变量在 y 轴上 6、回归直线必过 ( ) A . B . C . D .7、三维柱形图中,主、副对角线上两个柱形高度的 相差越大,要推断的论述成立的可能性就越大 ( ) A .和 B .差 C .积 D .商8、两个变量 y 与x 的回归模型中,求得回归方程为,当预报变量 ( )A. 解释变量B. 解释变量大于C. 解释变量小于D. 解释变量在左右 9、在回归分析中,求得相关指数,则( ) A. 解释变量解对总效应的贡献是 B. 解释变量解对总效应的贡献是 C. 随机误差的贡献是 C. 随机误差的贡献是10、在吸烟与患肺病这两个分类变量的计算中,下列说法正确的是 ( )A .若k =6.635,则有99%的把握认为吸烟与患肺病有关,那么100名吸烟者中,有99个患肺病.B .从独立性检验可知,有99%的把握认为吸烟与患肺病有关时,可以说某人吸烟,那么他有99%的可能 性患肺病.C .若从统计量中求出有95%的把握认为吸烟与患肺病有关,是指有5%的可能性使得推断出现错误.D .以上三种说法都不对.y bx a =+(0,0)(,0)x (0,)y (,)x y 0.232x y e -=10x =30y e -=y 30e -y 30e -y 30e -20.89R =11%89%89%0.89%11、通过来判断模拟型拟合的效果,判断原始数据中是否存在可疑数据,这种分析称为( )A .回归分析B .独立性检验分析C .残差分析 D. 散点图分析12、在独立性检验时计算的的观测值=3.99,那么我们有 的把握认为这两个分类变量有关系 ( ) A .90% B .95% C .99% D .以上都不对 二、填空题(本大题共4小题,每题4分)13、已知回归直线方程,则时,y 的估计值为 . 14、如下表所示:计算= .15、下列关系中:(1)玉米产量与施肥量的关系; (2)等边三角形的边长和周长; (3)电脑的销售量和利润的关系; (4)日光灯的产量和单位生产成本的关系. 不是函数关系的是 .16、在一项打鼾与患心脏病的调查中,共调查1768人,经计算的=27.63,根据这一数据分析,我们有理由认为打鼾与患心脏病是 的.(填“有关”“无关”) 三、解答题(本大题共2小题,每题18分)18、为考察某种药物预防疾病的效果,进行动物试验,得到如下列联表能以97.5%的把握认为药物有效吗?为什么?12,,,n e e e 2K k 0.50.81y x =-25x =2K 2K18、下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量(吨)与相应的生产能耗 (吨标准煤)的几组对照数据 (1)请画出上表数据的散点图;(2)请根据上表提供的数据,用最小二乘法求出关于的线性回归方程;(3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的线性同归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤? (参考数值)作业:一、选择题:本大题共道小题,每小题分,共分,在每小题给出的四个选项中,只有一项符合题目要求1、对于散点图下列说法中正确一个是( )(A )通过散点图一定可以看出变量之间的变化规律 (B )通过散点图一定不可以看出变量之间的变化规律 (C )通过散点图可以看出正相关与负相关有明显区别 (D )通过散点图看不出正相关与负相关有什么区别 2、在画两个变量的散点图时,下面叙述正确的是( )(A )预报变量在轴上,解释变量在轴上 (B )解释变量在轴上,预报变量在轴上(C )可以选择两个变量中的任意一个变量在轴上 (D )可以选择两个变量中的任意一个变量在轴上3、如果根据性别与是否爱好运动的列联表,得到,所以判断性别与运动有关,那么这种判断出错的可能性为( )(A ) (B ) (C ) (D )4、下列关于线性回归的说法,不正确的是( )(A )变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系叫做相关关系;(B )在平面直角坐标系中用描点法的方法得到表示具有相关关系的两个变量的一组数据的图形叫散点图;(C )线性回归直线方程最能代表观测值之间的关系;(D )任何一组观测值都能得到具有代表意义的回归直线方程;x y y x y bx a =+3 2.543546 4.566.5⨯+⨯+⨯+⨯=12560x y x y x y 841.3852.3>≈k 002000150010005y x ,5、在两个变量与的回归模型中,分别选择了四个不同的模型,它们的相关指数如下,其中拟合效果最好的为( )(A )模型①的相关指数为 (B )模型②的相关指数为 (C )模型③的相关指数为 (D )模型④的相关指数为6、关于如何求回归直线的方程,下列说法正确的一项是( )(A )先画一条,测出各点到它的距离,然后移动直线,到达一个使距离之和最小的位置,测出此时的斜率与截距,就可得到回归直线方程(B )在散点图中,选两点,画一条直线,使所画直线两侧的点数一样多或基本相同,求出此直线方程,则该方程即为所求回归方程(C )在散点图中多选几组点,分别求出各直线的斜率与截距,再求它们的平均值,就得到了回归直线的斜率与截距,即可产生回归方程(D )上述三种方法都不可行7、若对于变量与的组统计数据的回归模型中,相关指数,又知残差平方和为,那么的值为( )(A ) (B ) (C ) (D )8、右表是对与喜欢足球与否的统计列联表依据表中的数据,得到( )(A )(B )(C )(D )9、某医院用光电比色计检验尿汞时,得尿汞含量与消光系数读数的结果如下:如果与之间具有线性相关关系,那么当消光系数的读数为时,( )(A )汞含量约为 (B )汞含量高于 (C )汞含量低于 (D )汞含量一定是y x 2R 976.0776.0076.0351.0y x 1095.02=R 53.120∑=-1012)(i iy y06.2416.241008.2538.2530564.92=K 564.32=K 706.22<K 841.32>K )/(L mg y x 480L mg /27.13L mg /27.13L mg /27.13L mg /27.1310、由一组样本数据得到的回归直线方程,那么下面说法正确的是( )(A )直线必过点(B )直线必经过一点 (C )直线经过中某两个特殊点 (D )直线必不过点11、根据下面的列联表得到如下中个判断:①有的把握认为患肝病与嗜酒有关;②有的把握认为患肝病与嗜酒有关;③认为患肝病与嗜酒有关的出错的可能为;④认为患肝病与嗜酒有关的出错的可能为;其中正确命题的个数为( )(A ) (B ) (C ) (D )12、对于两个变量之间的相关系数,下列说法中正确的是( )(A )越大,相关程度越大 (B )越小,相关程度越大(C )越大,相关程度越小;越小,相关程度越大(D )且越接近于,相关程度越大; 越接近于,相关程度越小;二、填空题:本大题共小题,每小题分,共分,把答案填在题中的横线上 13、下表是关于出生男婴与女婴调查的列联表那么,A= ,B= ,C= ,D= ,E= ;),(,),,(),,(2221n n y x y x y x a bx y +=∧a bx y +=∧),(--y x a bx y +=∧),(,),,(),,(2221n n y x y x y x a bx y +=∧),(,),,(),,(2221n n y x y x y x a bx y +=∧),(--y x 009.99009900100100123r ||r ||r ||r ||r 1||≤r ||r 1||r 0441614、如右表中给出五组数据,从中选出四组使其线性相关最大,且保留第一组,那么,应去掉第 组。