高中数学选修1-2,1.1回归分析的基本思想及其初步应用

合集下载

高中数学《1.1回归分析的基本思想及其初步应用》评估训练 新人教A版选修1-2

高中数学《1.1回归分析的基本思想及其初步应用》评估训练 新人教A版选修1-2

第一章统计案例1.1 回归分析的基本思想及其初步应用双基达标限时20分钟1.下列命题中正确的是( ).①任何两个变量都具有相关关系②圆的周长与圆的半径具有相关关系③某商品的需求量与该商品的价格是一种非确定性关系④根据散点图求得的线性回归方程可能是没有意义的⑤两个变量的线性相关关系可以通过线性回归方程,把非确定性问题转化为确定性问题进行研究A.①③④B.②④⑤C.③④⑤D.②③⑤解析显然①是错误的,而②中圆的周长与圆的半径的关系为:C=2πR,是一种确定性的函数关系,故应选C.答案 C2.设两个变量x和y之间具有线性相关关系,它们的相关系数是r,y关于x的回归直线的斜率是b,纵轴上的截距是a,那么必有( ).A.b与r的符号相同B.a与r的符号相同C.b与r的符号相反D.a与r的符号相反解析因为b>0时,两变量正相关,此时r>0;b<0时,两变量负相关,此时r<0.答案 A3.在判断两个变量y与x是否相关时,选择了4个不同的模型,它们的相关指数R2分别为:模型1的相关指数R2为0.98,模型2的相关指数R2为0.80,模型3的相关指数R2为0.50,模型4的相关指数R2为0.25.其中拟合效果最好的模型是( ).A.模型1 B.模型2C.模型3 D.模型4解析相关指数R2能够刻画用回归模型拟合数据的效果,相关指数R2的值越接近于1,说明回归模型拟合数据的效果越好.答案 A4.若一组观测值(x 1,y 1),(x 2,y 2),…,(x n ,y n )之间满足y i =bx i +a +e i (i =1,2,…,n ),且e i 恒为0,则R 2为________.解析 由e i 恒为0,知y i =y ^i ,即y i -y ^i =0,故R 2=1-∑i =1ny i -y ^i 2∑i =1ny i -y2=1-0=1.答案 15.已知回归直线的斜率的估计值为 1.23,样本点的中心为(4,5),则回归直线方程是________.解析 由斜率的估计值为 1.23,且回归直线一定经过样本点的中心(4,5),可得y ^-5=1.23(x -4),即y ^=1.23x +0.08.答案 y ^=1.23x +0.086.某个服装店经营某种服装,在某周内纯获利y (元)与该周每天销售这种服装件数x 之间的一组数据如下表:(1)(2)画出散点图.(3)求纯获利y 与每天销售件数x 之间的回归方程. 解 (1)x =6,y ≈79.86,中心点(6,79.86). (2)散点图如下:(3)因为b ^=∑i =17x i -xy i -y ∑i =17x i -x 2≈4.75,a ^=y -b ^x ≈51.36,所以y ^=4.75x +51.36.综合提高 限时25分钟7.为了考察两个变量x 和y 之间的线性相关性,甲、乙两位同学各自独立地做了100次和150次试验,并且利用线性回归方法,求得回归直线分别为l 1和l 2.已知两个人在试验中发现对变量x 的观测数据的平均值都是s ,对变量y 的观测数据的平均值都是t ,那么下列说法正确的是( ). A .l 1和l 2有交点(s ,t )B .l 1与l 2相交,但交点不一定是(s ,t )C .l 1与l 2必定平行D .l 1与l 2必定重合解析 都过样本中心点(s ,t ),但斜率不确定. 答案 A8.某医学科研所对人体脂肪含量与年龄这两个变量研究得到一组随机样本数据,运用Excel 软件计算得y ^=0.577x -0.448(x 为人的年龄,y 为人体脂肪含量).对年龄为37岁的人来说,下面说法正确的是( ). A .年龄为37岁的人体内脂肪含量都为20.90% B .年龄为37岁的人体内脂肪含量为21.01%C .年龄为37岁的人群中的大部分人的体内脂肪含量为20.90%D .年龄为37岁的大部分的人体内脂肪含量为31.5%解析 当x =37时,y ^=0.577×37-0.448=20.901≈20.90,由此估计:年龄为37岁的人群中的大部分人的体内脂肪含量为20.90%. 答案 C9.今年一轮又一轮的寒潮席卷全国.某商场为了了解某品牌羽绒服的月销售量y (件)与月平均气温x (℃)之间的关系,随机统计了某4个月的月销售量与当月平均气温,数据如下表:由表中数据算出线性回归方程y =b x +a 中的b ≈-2.气象部门预测下个月的平均气温约为6 ℃,据此估计,该商场下个月该品牌羽绒服的销售量的件数约为________. 解析 由表格得(x ,y )为(10,38),又(x ,y )在回归直线y ^=b ^x +a ^上,且b ^≈-2,∴38=-2×10+a ^,a ^=58,所以y ^=-2x +58,当x =6时,y ^=-2×6+58=46. 答案 4610.面对竞争日益激烈的消费市场,众多商家不断扩大自己的销售市场,以降低生产成本.某白酒酿造企业市场部对该企业9月份的产品销量(千箱)与单位成本(元)的资料进行线性回归分析,结果如下:x =72,y =71,∑i =16x 2i =79,∑i =16x i y i =1 481,b ^=1 481-6×72×7179-6×⎝ ⎛⎭⎪⎫722≈-1.818 2, a ^=71-(-1.818 2)×72≈77.36,则销量每增加1千箱,单位成本下降________元.解析 由已知可得,y ^=-1.818 2x +77.36,销量每增加1千箱,则单位成本下降1.818 2元. 答案 1.818 211.在一次抽样调查中测得样本的5个样本点,数值如下表:试建立y 与x 解 由数值表可作散点图如右图.根据散点图可知y 与x 近似地呈反比例函数关系,设y =k x ,令t =1x,则y =kt ,原数据变为:由散点图可以看出y 与t 呈近似的线性相关关系.列表如下:续表所以t =1.55,y =7.2.所以b ^=∑i =15t i y i -5t y∑i =15t 2i -5t 2=4.134 4,a ^=y -b ^t =0.8.所以y ^=4.134 4t +0.8.所以y 与x 的回归方程是y ^=4.134 4x+0.8.12.(创新拓展)某运动员训练次数与成绩之间的数据关系如下:(1)(2)求出回归方程; (3)作出残差图; (4)计算相关指数R 2;(5)试预测该运动员训练47次及55次的成绩.解 (1)作出该运动员训练次数(x )与成绩(y )之间的散点图,如图所示,由散点图可知,它们之间具有线性相关关系.(2)x =39.25,y =40.875,∑i =18x 2i =12 656,∑i =18x i y i =13 180,∴b ^=∑i =18x i y i -8x y∑i =18x 2i -8x 2=1.041 5,a ^=y -b ^x =-0.003 88,∴回归方程为y ^=1.0415x -0.003 88. (3)作残差图如图所示,由图可知,残差点比较均匀地分布在水平带状区域中,说明选用的模型比较合适. (4)计算得相关指数R 2=0.985 5,说明了该运动员的成绩的差异有98.55%是由训练次数引起的.(5)由上述分析可知,我们可用回归方程y ^=1.041 5x -0.003 88作为该运动员成绩的预报值.将x =47和x =55分别代入该方程可得y ≈49和y ≈57. 故预测该运动员训练47次和55次的成绩分别为49和57.。

高中数学人教版选修1-2全套教案

高中数学人教版选修1-2全套教案

高中数学人教版选修1-2全套教案第一章统计案例第一课时 1.1回归分析的基本思想及其初步应用(一)教学目标1、知识与技能目标 认识随机误差;2、过程与方法目标(1)会使用函数计算器求回归方程; (2)能正确理解回归方程的预报结果. 3、情感、态度、价值观通过本节课的学习,加强数学与现实生活的联系,以科学的态度评价两个变量的相关性,理解处理问题的方法,形成严谨的治学态度和锲而不舍的求学精神.培养学生运用所学知识,解决实际问题的能力.教学中适当地利用学生合作与交流,使学生在学习的同时,体会与他人合作的重要性.教学重点:了解线性回归模型与函数模型的差异,了解判断刻画模型拟合效果的方法-相关指数和残差分析. 教学难点:解释残差变量的含义,了解偏差平方和分解的思想. 教学过程: 一、复习准备:1. 提问:“名师出高徒”这句彦语的意思是什么?有名气的老师就一定能教出厉害的学生吗?这两者之间是否有关?2. 复习:函数关系是一种确定性关系,而相关关系是一种非确定性关系. 回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法,其步骤:收集数据→作散点图→求回归直线方程→利用方程进行预报. 二、讲授新课: 1. 教学例题:① 例1 从某大学中随机选取8名女大学生,其身高和体重数据如下表所示: 编 号 1 2 3 4 5 6 7 8 身高/cm165165 157 170 175 165 155 170 体重/kg 4857505464614359求根据一名女大学生的身高预报她的体重的回归方程,并预报一名身高为172cm 的女大学生的体重. (分析思路→教师演示→学生整理)第一步:作散点图第二步:求回归方程 第三步:代值计算010203040506070150155160165170175180身高/cm体重/k g② 提问:身高为172cm 的女大学生的体重一定是60.316kg 吗? 不一定,但一般可以认为她的体重在60.316kg 左右. ③ 解释线性回归模型与一次函数的不同事实上,观察上述散点图,我们可以发现女大学生的体重y 和身高x 之间的关系并不能用一次函数y bx a =+来严格刻画(因为所有的样本点不共线,所以线性模型只能近似地刻画身高和体重的关系). 在数据表中身高为165cm 的3名女大学生的体重分别为48kg 、57kg 和61kg ,如果能用一次函数来描述体重与身高的关系,那么身高为165cm 的3名女在学生的体重应相同. 这就说明体重不仅受身高的影响还受其他因素的影响,把这种影响的结果e (即残差变量或随机变量)引入到线性函数模型中,得到线性回归模型y bx a e =++,其中残差变量e 中包含体重不能由身高的线性函数解释的所有部分. 当残差变量恒等于0时,线性回归模型就变成一次函数模型. 因此,一次函数模型是线性回归模型的特殊形式,线性回归模型是一次函数模型的一般形式.2. 相关系数:相关系数的绝对值越接近于1,两个变量的线性相关关系越强,它们的散点图越接近一条直线,这时用线性回归模型拟合这组数据就越好,此时建立的线性回归模型是有意义.3. 小结:求线性回归方程的步骤、线性回归模型与一次函数的不同.第二课时 1.1回归分析的基本思想及其初步应用(二)教学目标:1知识与技能:会建立回归模型,进而学习相关指数(相关系数r 、总偏差平方和、随机误差的效应即残差、残差平方和、回归平方和、相关指数R2、残差分析) 2过程与方法:通过学习会求上述的相关指数3情感态度价值观:从实际问题发现已有知识不足,激发好奇心、求知欲。

人教版A版高中数学选修1-2课后习题解答

人教版A版高中数学选修1-2课后习题解答

人教版A版高中数学选修1-2课后习题解答高中数学选修1-2课后题答案第一章统计案例1.1 回归分析的基本思想及其初步应用回归分析是一种统计分析方法,用于探究自变量与因变量之间的关系。

它的基本思想是通过建立数学模型,利用已知数据进行拟合,从而预测或解释未知数据。

回归分析的初步应用包括简单线性回归和多元线性回归。

1.2 独立性检验的基本思想及其初步应用独立性检验是一种用于检验两个变量之间是否存在关联的方法。

其基本思想是通过观察两个变量之间的频数或频率分布,来判断它们是否相互独立。

独立性检验的初步应用包括卡方检验和Fisher精确检验。

第二章推理证明2.1 合情推理与演绎推理合情推理是指根据已知事实和常识,推断出可能的结论。

演绎推理是指根据已知的前提和逻辑规则,推导出必然的结论。

两种推理方法都有其适用的场合,需要根据具体情况进行选择。

2.2 直接证明与间接证明直接证明是指通过逻辑推理,直接证明所要证明的命题成立。

间接证明是指采用反证法或归谬法,证明所要证明的命题的否定不成立,从而推出所要证明的命题成立。

第三章数系的扩充与复数的引入3.1 数系的扩充与复数的概念数系的扩充是指在实数系的基础上引入新的数,使得一些原来不可解的方程可以得到解。

复数是指由实部和虚部组成的数,可以表示在平面直角坐标系中的点。

复数的引入扩充了数系,使得一些原本无解的方程可以得到解。

3.2 复数的代数形式的四则运算复数的代数形式是指将复数表示为实部和虚部的和的形式。

复数的四则运算包括加减乘除四种运算,可以通过对实部和虚部分别进行运算来得到结果。

第四章框图4.1 流程图流程图是一种用图形表示算法或过程的方法。

它由各种基本符号和连线构成,用于描述算法或过程的各个步骤及其执行顺序。

流程图可以帮助人们更好地理解算法或过程,从而提高效率。

4.2 结构图结构图是一种用于描述程序结构的图形表示方法。

它包括顺序结构、选择结构和循环结构三种基本结构,可以用来表示程序的控制流程。

2014-2015学年高中数学(人教版选修1-2)课时训练第一章 1.1 回归分析的基本思想及其初步应用

2014-2015学年高中数学(人教版选修1-2)课时训练第一章 1.1 回归分析的基本思想及其初步应用


基础 梳理
(3)残差分析:可以通过残差发现原始数据中的可疑数据,判断 n ^ 2 所建立模型的拟合效果. y i- y i i=1 (4)相关指数:计算公式是 R2=
1-
i=1 _______________________________________________________ n (yi-^ y i)2 n i=1 其中残差平方和为 __________________ ,总偏差平方和为 (yi -

基础 自测 4.总体偏差平方和为287,残差平方和为120,那么解释变 量对总效应约贡献了________.
287-120 解析: ≈58.2%. 287 答案:58.2%
栏 目 链 接

栏 目 链 接

1.重点 通过实际操作进一步理解建立两相关变量的线性回归模 型的思想;求线性回归方程;判断回归模型拟合的好 坏.

n
yi-- y 2

栏 目 链 接
i=1
- 越小 , y )2.R2 的值越大说明残差平方和 ________ 也就是说模型的拟合效果
越好 ,R2 的值表示解释变量对预报变量变化的________ 贡献率 ,R2 的 ________ 1 ,表示回归的效果越好. 值越接近于________

i=1
- ^ - 1 n 1 n xi-x2 y - b x ^ ^ - - b=____________ ,a = ____________,其中, x =n xi, y =n y i 1
n

栏 目 链 接
i=1
i=1
- - ( x , y) i.另外, ________称为样本点的中心,回归直线一定过样本点中心.

高中数学《1.1回归分析的基本思想及其初步应用》导学案1 新人教A版选修1-2

高中数学《1.1回归分析的基本思想及其初步应用》导学案1 新人教A版选修1-2

回归分析的基本思想及其初步应用(一)学习目标2. 了解线性回归模型与函数模型的差异,了解衡量两个变量之间线性相关关系得方法---相关系数.学习过程一、课前准备24问题1:“名师出高徒”这句彦语的意思是什么?有名气的老师就一定能教出厉害的学生吗?这两者之间是否有关?复习1:函数关系是一种关系,而相关关系是一种关系.复习2:回归分析是对具有关系的两个变量进行统计分析的一种常用方法,其步骤:→→→ .二、新课导学※学习探究实例编号 1 2 3 4 5 6 7 8身高165 165 157 170 175 165 155 170体重48 57 50 54 64 61 43 59为172cm的女大学生的体重.解:由于问题中要求根据身高预报体重,因此选自变量x,为因变量.(1)做散点图:从散点图可以看出和有比较好的相关关系.(2) x= y=81i iix y==∑821iix==∑所以81822188i iiiix y x ybx x==-==-∑∑$$a y bx$=-≈于是得到回归直线的方程为(3)身高为172cm的女大学生,由回归方程可以预报其体重为$y=问题:身高为172cm的女大学生,体重一定是上述预报值吗?思考:线性回归模型与一次函数有何不同?新知:用相关系数r可衡量两个变量之间关系.计算公式为r =r>0, 相关, r<0 相关;相关系数的绝对值越接近于1,两个变量的线性相关关系,它们的散点图越接近;r>,两个变量有关系.※典型例题例1某班5名学生的数学和物理成绩如下表:(2)求物理成绩y对数学成绩x的回归直线方程;(3)该班某学生数学成绩为96,试预测其物理成绩;变式:该班某学生数学成绩为55,试预测其物理成绩;小结:求线性回归方程的步骤:※动手试试练.(07广东文科卷)下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x(吨)与相应的生产能耗y (吨标准煤)的几组对照数据(1)请画出上表数据的散点图;(2)请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程y bx a=+;(3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的线性同归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤?⨯+⨯+⨯+⨯=)(参考数值3 2.543546 4.566.5三、总结提升※学习小结1. 求线性回归方程的步骤:2. 线性回归模型与一次函数有何不同※知识拓展※自我评价你完成本节导学案的情况为().A. 很好B. 较好C. 一般D. 较差※当堂检测(时量:5分钟满分:10分)计分:1. 下列两个变量具有相关关系的是()A. 正方体的体积与边长B. 人的身高与视力C.人的身高与体重D.匀速直线运动中的位移与时间2. 在画两个变量的散点图时,下面哪个叙述是正确的()A. 预报变量在x 轴上,解释变量在y 轴上B. 解释变量在x 轴上,预报变量在y 轴上C. 可以选择两个变量中任意一个变量在x 轴上D. 可选择两个变量中任意一个变量在y 轴上$必过()3. 回归直线$$y bx a=+A. (0,0)B. (,0)x yx C. (0,)y D. (,)4.r越接近于1,两个变量的线性相关关系 .5. 已知回归直线方程$0.50.81=-,则25y xx=时,y的估计值为 .但还可以使用,它按不同的转速生产出来的某机械零件有一些会有下表为抽样试验的结果:(2)求回归直线方程;(3)若实际生产中,允许每小时的产品中有缺点的零件最多为 10 个,那么机器的运转速度应控制在什么范围内?。

高中数学《1.1回归分析的基本思想及其初步应用》教案2 新人教A版选修1-2

高中数学《1.1回归分析的基本思想及其初步应用》教案2 新人教A版选修1-2

11.1回归分析的基本思想及其初步应用(二)教学要求:通过典型案例的探究,进一步了解回归分析的基本思想、方法及初步应用. 教学重点:了解评价回归效果的三个统计量:总偏差平方和、残差平方和、回归平方和. 教学难点:了解评价回归效果的三个统计量:总偏差平方和、残差平方和、回归平方和. 教学过程:一、复习准备:1.由例1知,预报变量(体重)的值受解释变量(身高)或随机误差的影响.2.为了刻画预报变量(体重)的变化在多大程度上与解释变量(身高)有关?在多大程度上与随机误差有关?我们引入了评价回归效果的三个统计量:总偏差平方和、残差平方和、回归平方和. 二、讲授新课:1. 教学总偏差平方和、残差平方和、回归平方和:(1)总偏差平方和:所有单个样本值与样本均值差的平方和,即21()ni i SST y y ==-∑.残差平方和:回归值与样本值差的平方和,即21()ni i i SSE y y ==-∑. 回归平方和:相应回归值与样本均值差的平方和,即21()ni i SSR y y ==-∑. (2)学习要领:①注意i y 、 i y 、y 的区别;②预报变量的变化程度可以分解为由解释变量引起的变化程度与残差变量的变化程度之和,即222111()()()n n ni i i i i i i y y y y y y ===-=-+-∑∑∑;③当总偏差平方和相对固定时,残差平方和越小,则回归平方和越大,此时模型的拟合效果越好;④对于多个不同的模型,我们还可以引入相关指数 22121()1()nii i n ii yy R yy ==-=--∑∑来刻画回归的效果,它表示解释变量对预报变量变化的贡献率. 2R 的值越大,说明残差平方和越小,也就是说模型拟合的效果越好. 2. 教学例题:为了对x 、Y 两个变量进行统计分析,现有以下两种线性模型: 6.517.5y x =+,717y x =+,试比较哪一个模型拟合的效果更好.分析:既可分别求出两种模型下的总偏差平方和、残差平方和、回归平方和,也可分别求出两种模型下的相关指数,然后再进行比较,从而得出结论. (答案:52211521()155110.8451000()i i i ii y y R y y ==-=-=-=-∑∑,221R =-521521()18010.821000()iii ii y y y y ==-=-=-∑∑,84.5%>82%,所以甲选用的模型拟合效果较好.)3. 小结:分清总偏差平方和、残差平方和、回归平方和,初步了解如何评价两个不同模型拟合效果的好坏.第三课时。

高中数学选修1-2第一章课后习题解答

高中数学选修1-2第一章课后习题解答

新课程标准数学选修1—2第一章课后习题解答第一章统计案例1.1回归分析的基本思想及其初步应用练习(P8)1、画散点图的目的是通过变量的散点图判断两个变量更近似于什么样的函数关系,以确定是否直接用线性回归模型来拟合原始数据.说明:学生在对常用的函数图象比较了解的情况下,通过观察散点图可以判断两个变量的关系更近似于哪种函数.2、分析残差可以帮助我们解决以下两个问题:(1)寻找异常点,就是残差特别大的点,考察相应的样本数据是否有错.(2)分析残差图可以发现模型选择是否合适.说明:分析残差是回归诊断的一部分,可以帮助我们发现样本数据中的错误,分析模型选择是否合适,是否有其他变量需要加入到模型中,模型的假设是否正确等. 本题只要求学生能回答上面两点即可,主要让学生体会残差和残差图可以用于判断模型的拟合效果.3、(1)解释变量和预报变量的关系式线性函数关系.R=.(2)21说明:如果所有的样本点都在一条直线上,建立的线性回归模型一定是该直线,所以每个=+,没有随机误差项,是严样本点的残差均为0,残差平方和也为0,即此时的模型为y bx aR=.格的一次函数关系. 通过计算可得21习题1.1 (P9)1、(1)由表中数据制作的散点图如下:从散点图中可以看出GDP值与年份近似呈线性关系.y表示GDP值,t表示年份. 根据截距和斜率的最小二乘计算公式,得(2)用tˆ14292537.729a≈-,ˆ7191.969b≈从而得线性回归方程ˆ7191.96914292537.729=-.y t残差计算结果见下表.GDP 值与年份线性拟合残差表(年实际GDP 值为117251.9,所以预报与实际相差4275.540-.(4)上面建立的回归方程的20.974R =,说明年份能够解释约97%的GDP 值变化,因此所建立的模型能够很好地刻画GDP 和年份的关系.说明:关于2003年的GDP 值的来源,不同的渠道可能会有所不同.2、说明:本题的结果与具体的数据有关,所以答案不唯一.3、由表中数据得散点图如下:从散点图中可以看出,震级x 与大于或等于该震级的地震数N 之间不呈线性相关关系,随着x 的减少,所考察的地震数N 近似地以指数形式增长. 做变换lg y N =,得到的数据如下表所示.x 和y 的散点图如下:从这个散点图中可以看出x 和y 之间有很强的线性相关性,因此可以用线性回归模型拟合它们之间的关系. 根据截距和斜率的最小二乘计算公式,得ˆ 6.704a≈,ˆ0.741b ≈-, 故线性回归方程为 ˆ0.741 6.704y x =-+. 20.997R ≈,说明x 可以解释y 的99.7%的变化.因此,可以用回归方程 0.741 6.704ˆ10x N-+= 描述x 和N 之间的关系. 1.2独立性检验的基本思想及其初步应用练习(P15)列联表的条形图如图所示.由图及表直观判断,好像“成绩优秀与班级有关系”. 因为2K 的观测值0.653 6.635k ≈<,由教科书中表1-11克重,在犯错误的概率不超过0.01的前提下,不能认为“成绩与班级有关系”.说明:(1)教师应要求学生画出等高条形图后,从图形上判断两个分类变量之间是否有关系. 这里通过图形的直观感觉的结果可能会出错.(2)本题与例题不同,本题计算得到的2K 的观测值比较小,所以没有理由说明“成绩优秀与班级有关系”. 这与反证法也有类似的地方,在使用反证法证明结论时,假设结论不成立的条件下如果没有推出矛盾,并不能说明结论成立也不能说明结论不成立. 在独立性检验中,没有推出小概率事件发生类似于反证法中没有推出矛盾.习题1.2 (P16)1、假设“服药与患病之间没有关系”,则2K 的值应该比较小;如果2K 的值很大,则说明很可能“服药与患病之间没有关系”. 由列联表中数据可得2K 的观测值 6.110 5.024k ≈>,而由教科书表1-11,得2( 5.024)0.025P K ≥≈,所以在犯错误的概率不超过0.025的前提下可以认为“服药与患病之间有关系”. 又因为服药群体中患病的频率0.182小于没有服药群体中患病的频率0.400,所以“服药与患病之间关系”可以解释为药物对于疾病有预防作用. 因此在犯错误的概率不超过0.025的前提下,可以认为药物有效.说明:仿照例1,学生很容易完成此题,但希望学生能理解独立性检验在这里的具体含义,即“服药与患病之间关系”可以解释为“药物对于疾病有预防作用”.2、如果“性别与读营养说明之间没有关系”,由题目中所给数据计算,得2K 的观测值为8.416k ≈,而由教科书中表1-11知2(7.879)0.005P K ≥≈,所以在犯错误的概率不超过0.005的前提下认为“性别与读营养说明之间有关系”.3、说明:需要收集数据,所有没有统一答案. 第一步,要求学生收集并整理数据后得到列联表;第二步,类似上面的习题做出判断.4、说明:需要从媒体上收集数据,学生关心的问题不同,收集的数据会不同. 第一步,要求学生收集并整理数据后得到列联表;第二步,类似上面的习题做出判断.第一章 复习参考题A 组(P19)根据散点图,可以认为中国人口总数与年份呈现很强的线性相关关系,因此选用线性回归模型建立回归方程.由最小二乘法的计算公式,得 2095141.503a ≈-,1110.903b ≈,则线性回归方程为 ˆ1110.9032095141.503yx =-. 由2R 的计算公式,得 20.994R ≈,明线性回归模型对数据的拟合效果很好.根据回归方程,,预计2003年末中国人口总数约为129997万人,而实际情况为129227万人,预测误差为770万人;预计2004年末中国人口总数约为131108万人,而实际情况为129988万人,预测误差为1120万人.说明:数据来源为《中国统计年鉴》(2003). 由于人数为整数,所以预测的数据经过四舍五入的取整运算.2、(1)将销售总额作为横轴,利润作为纵轴,根据表中数据绘制散点图如下:由于散点图中的样本点基本上在一个带形区域内分布,猜想销售总额与利润之间呈现线性相关关系.(2)由最小二乘法的计算公式,得 ˆ1334.5a≈,ˆ0.026b ≈, 则线性回归方程为 ˆ0.0261334.5yx =+ 其残差值计算结果见下表:(3)对于(2)中所建立的线性回归方程,20.457R ≈,说明在线性回归模型中销售总额只能解释利润变化的46%,所以线性回归模型不能很好地刻画销售总额和利润之间的关系. 说明:此题也可以建立对数模型或二次回归模型等,只要计算和分析合理,就算正确.3、由所给数据计算得2K 的观测值为 3.689k ≈,而由教科书中表1-11知2( 2.706)0.10P K ≥=所以在犯错误的概率不超过0.10的前提下认为“婴儿的性别与出生的时间有关系”.第一章 复习参考题B 组(P19)1、因为 21(,)()ni i i Q a b y a bx ==--∑21(()())n i i i y bx y bx a y bx ==--+--+∑ 2211()()n n i i i i y bx y bx a y bx ===--++-+∑∑12()()ni i i y bx y bx a y bx =---+-+∑ 并且221()()n i a y bx n a y bx =-+=-+∑,12()()n i i i y bx y bx a y bx =--+-+∑ 1()(())ni i i a y bx y bx ny nbx ==-+--+∑ ()()0a y b x n y n b xn y n b x=-+--+= 所以 221(,)()()ni i i Q a b y bx y bx n a y bx ==--++-+∑.考察上面的等式,等号右边的求和号中不包含a ,而另外一项非负,所以ˆa和ˆb 必然使得等号右边的最后一项达到最小值,即 ˆˆ0ay bx -+=, 即ˆˆy a bx =+. 2、总偏差平方和21()n i i y y =-∑表示总的效应,即因变量的变化效应;残差平方和21ˆ()ni i y y =-∑表示随机误差的效应,即随机误差的变化效应;回归平方和21ˆ()ni yy =-∑表示表示变量的效应,即自变量的变化效应. 等式 222111ˆˆ()()()n n n i ii i i y y y y y y ===-=-+-∑∑∑ 表示因变量的变化总效应等于随机误差的变化效应与自变量的变化效应之和.3、说明:该题主要是考察学生应用回归分析模型解决实际问题的能力,解答应该包括如何获取数据,如何根据散点图寻找合适的模型去拟合数据,以及所得结果的解释三方面的内容.。

选 修1-2第一章

选 修1-2第一章

第 一 章 统 计 案 例1.1 回归分析的基本思想及其初步应用飞跃,这里是最好的起点……1. 下列两个变量之间的关系中,是函数关系的是( ). A. 学生的性别与他的数学成绩 B. 人的工作环境与健康状况 C. 女儿的身高与父亲的身高 D. 正三角形的边长与面积2. 给出下列变量间的关系:①学生的学习态度与学习成绩之间的关系;②教师的执教水平与学生的学习成绩之间的关系; ③学生的身高与学生的学习成绩之间的关系; ④家庭的经济条件与学生的学习成绩之间的关系. 其中是相关关系的是( ). A. ①② B. ①③ C. ①④ D. ②③3. 下面两个变量间的关系不是函数关系的是( ). A. 正方体的棱长与体积 B. 角的度数与它的正弦值C. 单产为常数时,土地面积与粮食总产量D. 日照时间与水稻亩产量4. 关于变量y 与x 之间的回归直线方程叙述正确的是( ). A. 表示y 与x 之间的一种确定性关系 B. 表示y 与x 之间的相关关系 C. 表示y 与x 之间的最真实的关系D. 表示y 与x 之间真实关系的一种效果最好的拟合 5. 已知变量x 与y 间的一组数据如下:由表可计算出变量x ,y 的线性回归方程为________.6. 将形如y =ax b +c (b ≠0)的函数转化成线性函数的方法:令________,则得到方程________,其函数的图象是一条直线.7. 有下列关系:①名师出高徒;②球的体积与该球的半径之间的关系;③苹果的产量与气候之间的关系;④森林中的同一种树,其断面直径与高度之间的关系;⑤学生与他(她)的学号之间的关系;⑥乌鸦叫,没好兆.其中,具有相关关系的是________.8. 若回归直线方程中的回归系数b =0,则相关系数r =______. 9. 在某年一项关于16艘轮船的研究中,船的吨位区间从192吨到3 246吨,船员的数目从5人到32人.船员人数y 关于船的吨位x 的线性回归方程为y ^=9.5+0.0 062x . (1)假设两艘轮船吨位相差1 000吨,则船员平均人数相差多少? (2)对于最小的船,估计的船员数是多少?对于最大的船,估计的船员数是多少?(结果保留整数)10. )有如下的统计资料:若由资料可知y 对x (1)y 与x 之间的线性回归方程;(2)估计使用年限为10年时,维修费用是多少万元.课内与课外的桥梁是这样架起的……11. 为了考查两个变量x 和y 之间的线性相关性,甲、乙两位同学各自独立地做了100次和150次试验,并且利用线性回归方法,求得回归直线分别为l 1和l 2,已知两个人在试验中发现对变量x 的观测数据的平均值都是s ,对变量y 的观测数据的平均值都是t ,那么下列说法正确的是( ).A. l 1和l 2有交点(s ,t )B. l 1和l 2相交,但交点不一定是(s ,t )C. l 1与l 2必定平行D. l 1与l 2必定重合12. 若某地财政收入x 与支出y 满足回归直线方程y ^=bx +a +e (单位:亿元),其中b =0.8,a =2,|e |≤0.5,如果今年该地区财政收入10亿元,则今年支出预计不会超过( ).A. 10亿元B. 9亿元C. 10.5亿元D. 9.5亿元13. 许多因素都会影响贫富,教育也是其中之一,在研究这两者的关系时收集了美国50个州的成年人受过9年或更少教育的百分比(x )和收入低于官方规定的贫困线的人数占本州人数的百分比(y )的数据,建立的回归直线方程y ^=0.8x +4.6,斜率的估计等于0.8,说明________________;成年人受过9年或更少教育的百分比(x )或收入低于官方规定的贫困线的人数占本州人数的百分比(y )之间的相关系数________.(填“大于0”或“小于0”)14. 用施化肥量x (kg)预报水稻产量y (kg)的回归直线方程为y ^=5x +250,当施化肥量为80 kg 时,水稻产量________为650 kg.(填“一定”或“不一定”)16. 在7块面积相同的试验田上进行关于施的化肥量对水稻产量影响的试验,得到如下(1)(2)当施的化肥量x =28 kg 时,预测水稻的产量.(2009·复旦大学)设Q 是有理数集,集合X ={X |X =2+2b ,a ,b ∈Q ,x ≠0},在下列集合:①{2x |x ∈X };②{x /2|x ∈X };③{1/x |x ∈X };④{x 2|x ∈X }中,和X 相同的集合有________个.答案:317. 已知10只狗的血球体积及红血球的测量值如下:(x (血球体积,单位:mm 3),(2)求出x ,y ,∑i =110x i y i ,∑i =110x 2i ;(3)由散点图判断能否用线性回归方程来刻画x 与y 之间的关系,若能,求出线性回归方程.对未知的探究,你也行!18. 某考察团对全国10大城市进行职工人均平均工资x 与居民人均消费y 进行统计调查,y 与x 具有相关关系,回归方程y ^=0.66x +1.562(单位:千元),若某城市居民消费水平为7.675,估计该城市消费额占人均工资收入的百分比为( ).A. 10%B. 72.3%C. 67.3%D. 83%19.则y 与x A. y ^=380.530+0.4 845x B. y ^=442+0.210 9x C. y ^=275.697 2+0.486 7x D. y ^=150.0+0.50x20. 为考虑广告费用x 与销售额y 之间的关系,随机抽取5家超市,得到如下表所表示的数据:21. 为研究弹簧质量x (单位:克)对长度y (单位:厘米)的影响,对不同质量的6根弹簧进(1)(2)如果散点图中的各点大致分布在一条直线的附近,求y 与x 之间的线性回归方程; (3)对x ,y 两个变量进行相关性检验.解剖真题,体验情境。

回归分析的基本思想及其初步应用

回归分析的基本思想及其初步应用

我们可以用相关指数R2来刻画回归的效果,其计算公式是
显然,R2的值越大,说明残差平方和越小,也就是说模型拟合效果越好。
在线性回归模型中,R2表示解释量对预报变量变化的贡献率。
R2越接近1,表示回归的效果越好(因为R2越接近1,表示解释变量和预报变量的线性相关性越强)。
我们可以用相关指数R2来刻画回归的效果,其计算公式是
如果某组数据可能采取几种不同回归方程进行回归分析,则可以通过比较R2的值来做出选择,即选取R2较大的模型作为这组数据的模型。
总的来说: 相关指数R2是度量模型拟合效果的一种指标。 在线性模型中,它代表自变量刻画预报变量的能力。
我们可以用相关指数R2来刻画回归的效果,其计算公式是
例1的R2≈0.64 ,解释变量对总效应约贡献了64%,可以叙述为“身高解析了64%的体重变化”,而随机误差贡献了剩余的36%。所以,身高对体重的效应比随机误差的效应大得多。
回归方程:
3、回归分析的基本步骤:
画散点图
求回归方程
用回归直线方程预报、决策
这种方法称为回归分析.
回归分析是对具有相关关系的两个变量进行统计 分析的一种常用方法.
函数模型与回归模型之间的差别
函数模型:
回归模型:
线性回归模型y=bx+a+e增加了随机误差项e,因变量y的值由自变量x和随机误差项e共同确定,即自变量x只能解释部分y的变化。
错误数据 模型问题
几点说明: 第1个样本点和第6个样本点的残差比较大,需要确认在采集过程中是否有人为的错误。如果数据采集有错误,就予以纠正,然后再重新利用线性回归模型拟合数据;如果数据采集没有错误,则需要寻找其他的原因。另外,残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,这样的带状区域的宽度越窄,说明模型拟合精度越高,回归方程的预报精度越高。

【全程复习方略】2014-2015学年高中数学 1.1 回归分析的基本思想及其初步应用课件 新人教A版选修1-2

【全程复习方略】2014-2015学年高中数学 1.1 回归分析的基本思想及其初步应用课件 新人教A版选修1-2
第一章 统计案例 1.1 回归分析的基本思想及其初步应用
1.回归分析的含义是什么?有哪些基本步骤?线性 问题 引航 回归模型怎样用表达式表示?产生随机误差的原
因是什么?
2.回归方程中 a 与 b 怎样求解?
3.刻画回归效果的方式有哪些?
1.回归分析
相关关系 的两个变量进行统计分析的一 回归分析是对具有_________
画出两个变量的散点图 种常用方法,回归分析的基本步骤是_____________________, 求回归方程 并用回归方程进行预报. ___________,
2.线性回归模型
(x
i 1 n
n
i
x) (yi y)
2
i (1)在线性回归方程 y = a + b x中, b =_______________, i 1
【延伸探究】题(3)中③在条件不变的情况下,画出残差图. 【解析】如图所示.
【方法技巧】
1.求线性回归方程的三个步骤
(1)算:根据数据计算 x , y , x , x i yi .
i 1 2 i i 1
n
n
(2)代:代入公式求 b , a 的具体数值.
(3)求:由上面的计算结果求方程 y = b x+ a .
则模型(1)的拟合效果不如模型(2).
【知识拓展】
1.正确认识预报变量的变化和随机误差的关系
预报变量的变化程度可以分解为解释变量引起的变化程度与残 差变量的变化程度之和,其中这个变化与解释变量和随机误差 (即残差平方和)有关的程度是由相关指数R2的值决定的. 2.解释变量和随机误差的关系 在线性回归模型中,R2表示解释变量对预报变量变化的贡献 率.R2越接近于1,表示解释变量和预报变量的线性相关性越强;

2、1-1回归分析的基本思想及其初步应用

2、1-1回归分析的基本思想及其初步应用

1.1回归分析的基本思想及其初步应用一、选择题1.炼钢时钢水的含碳量与冶炼时间有( ) A .确定性关系 B .相关关系 C .函数关系 D .无任何关系[答案] B[解析] 通过散点图可以知有相关关系.2.已知某车间加工零件的个数x 与所花费时间y (h )之间的线性回归方程为y ^=0.01x +0.5,则加工600个零件大约需要__________h .( )A .6.5B .5.5C .3.5D .0.5[答案] A[解析] 将x =600代入回归方程即得A .3.工人月工资y (元)依劳动生产率x (千元)变化的回归方程y ^=50+80x ,下列判断正确的是( )(1)劳动生产率为1000元时,工资为130元; (2)劳动生产率提高1000元时,则工资提高80元; (3)劳动生产率提高1000元,则工资提高130元; (4)当月工资为210元时,劳动生产率为2000元. A .(1) B .(2) C .(3)D .(4)[答案] B4.在一次实验中,测得(x ,y )的四组值分别是A (1,2),B (2,3),C (3,4),D (4,5),则y 与x 之间的回归直线方程为( )A.y ^=x +1 B.y ^=x +2 C.y ^=2x +1D.y ^=x -1[答案] A[解析] A 、B 、C 、D 四点在同一条直线上. 5.y 与x 之间的线性回归方程y ^=b ^x +a ^必定过( ) A .(0,0)点B .(x ,0)点C .(0,y )点D .(x ,y )点[答案] D[解析] (x ,y )为样本点的中心,回归直线过样本点的中心.6.(2010·湖南文,3)某商品销售量y (件)与销售价格x (元/件)负相关,则其回归方程可能是( )A.y ^=-10x +200 B.y ^=10x +200 C.y ^=-10x -200D.y ^=10x -200[答案] A[解析] 本题主要考查变量的相关性. 由负相关的定义知,A 正确.7.某化工厂为预测某产品的回收率y ,需要研究它和原料有效成分含量x 之间的相关关系,现取了8对观察值,计算得∑i =18x i =52,∑i =18y i =228,∑i =18x 2i =478,∑i =1nx i y i =1849,则y 与x的回归方程是( )A.y ^=11.47+2.62x B.y ^=-11.47+2.62x C.y ^=2.62+11.47x D.y ^=11.47-2.62x [答案] A8.若一个样本的总偏差平方和为256,残差平方和为32,则回归平方和为( ) A .224 B .288 C .320D .192[答案] A9.散点图在回归分析过程中的作用是( ) A .查找个体个数 B .比较个体数据大小关系 C .探究个体分类D .粗略判断变量是否线性相关 [答案] D[解析] 散点图能直观形象地反映两个变量间的关系,可以粗略判断两个变量间是否存在线性关系.10.由一组数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )得到的回归直线方程y ^=b ^x +a ^,则下列说法不正确的是( )A .直线y ^=b ^x +a ^必过点(x ,y )B .直线y ^=b ^x +a ^至少经过点(x 1,y 1)(x 2,y 2)……(x n ,y n )中的一个点C .直线y ^=b ^x +a ^的斜率为∑ni =1x i y i -n x y ∑n i =1x 2i -n x2D .直线y ^=b ^x +a ^和各点(x 1,y 1),(x 2,y 2),…,(x n ,y n )的偏差是该坐标平面上所有直线与这些点的偏差中最小的直线[答案] B 二、填空题11.回归分析是处理变量之间________关系的一种数量统计方法. [答案] 相关12.已知回归直线方程为y ^=0.50x -0.81,则x =25时,y 的估计值为________. [答案] 11.6913.在线性回归模型中,R 2表示________对预报变量变化的贡献率,R 2越________,表示回归模型的拟合效果越好.[答案] 解释变量 接近114.已知两个变量x 和y 之间有线性相关性,5次试验的观测数据如下表:那么变量y 关于x [答案] y ^=0.575x -14.9[解析] 根据公式计算可得b ^=0.575,a ^=-14.9,所以回归直线方程是y ^=0.575x -14.9. 三、解答题15.某工厂的产品产量与单位成本的资料如下表所示,请进行线性回归分析.[解析] 设回归直线方程为y =b x +a , x =216,y =4266=71,∑i =16x 21=79,∑i =16x i y i =1 481, ∴b ^=1481-6×216×7179-6×⎝⎛⎭⎫2162=-105.5≈-1.818 2,a ^=71-(-1.818 2)×216≈77.36.回归直线方程为y ^=77.36-1.818 2x .由回归系数b ^为-1.818 2知,产量每增加1 000件,单位成本下降约1.82元. 16.某5名学生的数学成绩和化学成绩如下表:(1)(2)如果x 、y 呈线性相关关系,求y 对x 的线性回归方程. [解析] (1)散点图如图(2)x =73.2,y=67.8,∑i =15x 2i =27174,∑i =15y 2i =23167,∑i =15x i y i =25054,∴b ^,\s\up6(^))=25054-5×73.2×67.827174-5×73.22≈0.625,a ^=y --b ^x -=22.05,所求回归方程为y ^,\s\up6(^))=22.05+0.625x17.以下是某地搜集到的新房屋的销售价格y 和房屋的面积x 的数据:(1)(2)求线性回归方程,并在散点图中加上回归直线; (3)据(2)的结果估计当房屋面积为150m 2时的销售价格. [解析] (1)数据对应的散点图如下图所示:(2)x =15∑5i =1x i =109,l xx =∑5i =1(x i -x )2=1570,y =23.2,l xy =∑5i =1(x i -x )(y i -y )=308.设所求回归直线方程为y ^=b ^x +a ^,则b ^=l xy l xx =3081570≈0.1962,a ^=y -b ^x =1.8166.故所求回归直线方程为y ^=0.1962x +1.8166. (3)据(2),当x =150m 2时,销售价格的估计值为 y ^=0.1962×150+1.8166=31.2466(万元).18.研究某灌溉渠道水的流速y 与水深x 之间的关系,测得一组数据如下:(2)预测水深为1.95m 时水的流速是多少? [解析] (1)散点图如下图所示.列表计算a ^与回归系数b ^.于是x =18×14=1.75,y =18×15.82=1.9775,∑x 2i =24.92,∑x i y i =27.993,∴b ^=27.993-8×1.75×1.977524.92-8×1.752≈0.7333,a ^=y -b ^x =1.9775-0.7333×1.75=0.6942, ∴y 对x 的回归直线方程为 y ^=a ^+b ^x =0.6942+0.7333x .(2)在本题中回归系数b ^=0.7333的意思是:在此灌溉渠道中,水深每增加0.1m ,水的流速平均增加0.7333m/s ,a ^=0.6942,可以解释为水的流速中不受水深影响的部分,把x =1.95代入得到y ^=0.6942+0.7333×1.95≈2.12(m/s),计算结果表明:当水深为 1.95m 时可以预报渠水的流速约为2.12m/s.。

回归分析的基本思想及初步分析

回归分析的基本思想及初步分析

第一章
§1.1
名师一号 · 高中同步学习方略 · 新课标A版 · 数学 · 选修1-2

求线性回归方程
【例2】 一项调查对9个不同的x值,测得y的9个对应值
如下表所示: i xi yi 1 2 3 4 5 6 3.9 7 4.4 8 4.8 9 5.0
1.5 1.8 2.4 3.0 3.5
4.8 5.7 7.0 8.3 10.9 12.4 13.1 13.6 15.3
9 9
^= ∴b
i=1
≈2.9306,
i=1
^ ^- a=- y -b x ≈10.1222-2.9306×3.3667≈0.2557. ^=0.2557+2.9306x. ∴所求回归直线方程为y
河北考源书业有限公司
第23页
返回导航
第一章
§1.1
名师一号 · 高中同步学习方略 · 新课标A版 · 数学 · 选修1-2
由上图可知所有数据点接近直线排列,因此认为y对x的线 性相关关系是成立的.
河北考源书业有限公司
第21页
返回导航
第一章
§1.1
名师一号 · 高中同步学习方略 · 新课标A版 · 数学 · 选修1-2
根据题目中数据制成下表:
i 1 2 3 4 5 6 7 8 9 ∑ xi 1.5 1.8 2.4 3.0 3.5 3.9 4.4 4.8 5.0 30.3 yi 4.8 5.7 7.0 8.3 10.9 12.4 13.1 13.6 15.3 91.1 xiyi 7.2 10.26 16.8 24.9 38.15 48.36 57.64 65.28 76.5 345.09 x2 i 2.25 3.24 5.76 9.0 12.25 15.21 19.36 23.04 25.0 115.11

最新人教版高中数学选修1-2《回归分析的基本思想及其初步应用》教材梳理

最新人教版高中数学选修1-2《回归分析的基本思想及其初步应用》教材梳理

庖丁巧解牛知识·巧学 一、回归分析回归分析是根据变量观测数据分析变量间关系的常用统计分析方法.通常把变量观测数据称为样本.1.散点图与回归方程(1)设对y 及x 做n 次观测得数据(x i ,y i )(i=1,2,…,n).以(x i ,y i )为坐标在平面直角坐标系中描点,所得到的这张图便称之为散点图.其中x 是可观测、可控制的普通变量,常称它为自变量,y 为随机变量,常称其为因变量.知识拓展 散点图是直观判断变量x 与y 是否相关的有效手段. (2)a 与回归系数b 的计算方法若散点呈直线趋势,则认为y 与x 的关系可以用一元回归模型来描述.设线性回归方程为y=a+bx+ε.其中a 、b 为未知参数,ε为随机误差,它是一个分布与x 无关的随机变量.最小二乘估计aˆ和b ˆ是未知参数a 和b 的最好估计. x b y aˆˆ-=,b ˆ=∑∑==---ni ini i ix xy y x x121)())((.深化升华 bˆ的计算还可以用公式b ˆ=∑∑==--ni ini ii x n xyx n yx 1221来计算,这时只需列表求出相关的量代入即可. 2.相关性检验如下图中的两个散点图,很难判断这些点是不是分布在某条直线附近.假如不考虑散点图,按照最小二乘估计计算a 与b ,我们可以根据一组成对数据,求出一个回归直线方程.但它不能反映这组成对数据的变化规律.为了解决上述问题,我们有必要对x 与y 作线性相关性的检验,简称相关性检验.对于变量x 与y 随机抽取到的n 对数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),检验统计量是样本相关系数r.r=∑∑∑∑∑∑======---=----ni i ni i ni ii ni i n i i ni i iy n y x n x yx n yx y y x x y y x x122122112121)()()()())((.r 具有以下性质:当r 大于0时,表明两个变量正相关,当r 小于0时,表明两个变量负相关;|r|≤1;|r|越接近1,线性相关程度越强;|r|越接近0,线性相关程度越弱.通常当|r|大于0.75时,认为两个变量有很强的线性相关关系.相关性检验临界值如下表所示.相关性检验的临界值表深化升华 相关性检验的步骤也可如下: (1)作统计假设:X 与Y 不具有线性相关关系.(2)根据小概率0.05与n-2在相关性检验的临界值表中查出r 的一个临界值r 0.05. (3)根据样本相关系数计算公式算出r 的值.(4)作出统计推断.如果|r|>r 0.05,表明有95%的把握认为X 与Y 之间具有线性相关关系.如果|r|≤r 0.05,我们没有理由拒绝原来的假设.这时寻找回归直线方程是没有意义的. 3.回归分析的基本概念(1)在数学上,把每个效应(观测值减去总的平均值)的平方和加起来,即用∑=-ni iy y12)(表示总的效应,称为总偏差平方和.(2)数据点和它在回归直线上相应位置的差异(y i -i yˆ)是随机误差的效应,称i e ˆ=(y i -i y ˆ)为残差.(3)分别将残差的值平方后回来,用数学符号表示为∑=-ni i iy y12)(称为残差平方和.它代表了随机误差的效应.(4)总偏差平方和与残差平方和的差称为回归平方和.(5)回归效果的刻画我们可以用相关指数R 2反映.R 2=1-∑∑==--n i ini i iy y yy1212)()ˆ(.显然,R 2的值越大,说明残差平方和越小,也就是说模型的拟合效果越好.4.非线性回归问题 在实际问题中,当变量之间的相关关系不是线性相关关系时,不能用线性回归方程描述它们之间的相关关系,需要进行非线性回归分析,然而非线性回归方程一般很难求,因此把非线性回归化为线性回归应该说是解决问题的好方法.首先,所研究对象的物理背景或散点图可帮助我们选择适当的非线性回归方程yˆ=μ(x;a,b).其中a及b为未知参数,为求参数a及b的估计值,往往可以先通过变量置换,把非线性回归化为线性回归,再利用线性回归的方法确定参数a及b的估计值.问题·探究问题函数关系是一种确定性关系,而对一种非确定性关系——相关关系,我们如何研究?导思:由于相关关系不是一种确定性关系,我们经常运用统计分析的方法,即回归分析,按照画散点图,求回归方程,用回归方程预报等步骤进行.探究:我们可以知道,相关关系中,由部分观测值得到的回归直线,可以对两个变量间的线性相关关系进行估计,这实际上是将非确定性问题转化成确定性问题来研究.由于回归直线将部分观测值所反映的规律性进行了延伸,它在情况预报、资料补充等方面有着广泛的应用,从某种意义上看,函数关系是一种理想的关系模型,而相关关系是一种更为一般的情况.因此研究相关关系,不仅可使我们处理更为广泛的数学应用问题,还要使我们对函数关系的认识上升到一种新的高度.典题·热题思路解析:散点图是表示具有相关关系的两个变量的一组数据的图形.解:散点图如下:例2每立方米混凝土的水泥用量x(单位:kg)与28天后混凝土的抗压强度(单位:kg/cm2)之间的关系有如下数据:(2)如果y与x之间具有线性相关关系,求回归直线方程.思路解析:求回归直线方程和相关系数,可以用计算器来完成.在有的较专门的计算器中,可通过直接按键得出回归直线方程的系数和相关系数,而如果要用一般的科学计算器进行计算,则要先列出相应的表格,有了表格中的那些相关数据,回归方程中的系数和相关系数就都容易求出了.解:(1)r=)6.721294.64572)(20512518600(6.722051218294322⨯-⨯-⨯⨯-≈0.999>0.75.说明变量y 与x 之间具有显著的线性正相关关系.bˆ=143004347205125186006.72205121829432=⨯-⨯⨯-≈0.304, x b y aˆˆ-==72.6-0.304×205=10.28. 于是所求的线性回归方程为yˆ=0.304x+10.28. 深化升华 为了进行相关性检验,通常将有关数据列成表格,然后借助于计算器算出各个量,为求回归直线方程扫清障碍.若由资料知y 对x 有线性相关关系.试求:(1)线性回归方程yˆ=b ˆx+a ˆ的回归系数a ˆ,b ˆ. (2)使用年限为10年时,估计维修费用是多少?思路解析:因为y 对x 有线性相关关系,所以可以用一元线性相关的方法解决问题.利用公式bˆ=∑∑==--ni i ni ii x n x yx n yx 1221,aˆ=y -b ˆx 来计算回归系数.有时为了方便常列表对应写出x i y i ,x i 2,以利于求和.解:(1)x =4,y =5,∑=ni ix12=90,∑=ni ii yx 1=112.3,于是bˆ=245905453.112⨯-⨯⨯-=1.23,aˆ=y -b ˆx =5-1.23×4=0.08. (2)回归直线方程为yˆ=1.23x+0.08.当x=10年时,y ˆ=1.23×10+0.08=12.38(万元),即估计使用10年的维修费用是12.38万元.方法归纳 知道y 与x 呈线性相关关系,就无需进行相关性检验,否则,应首先进行相关性检验.如果本身两个变量不具有相关关系,或者说,它们之间相关关系不显著,即使求出了回归方程也是毫无意义的,而且估计和预测的量也是不可信的.例4一只红铃虫的产卵数y与x有关,现收集了7组观测数据列于表中,试建立y与x之间思路解析:首先要作出散点图,根据散点图判定y与x之间是否具有线性相关关系,若具有线性相关关系,再求线性回归方程.在散点图中,样本点并没有分布在某个带状区域内,因此两个变量不呈线性相关关系,所以不能直接利用线性回归方程来建立两个变量之间的关系.根据已有的函数知识,可以发现样本分布在某一指数函数曲线的周围.解:散点图如下所示:由散点图可以看出:这些点分布在某一条指数函数y=pe qx(p,q为待定的参数)的周围.现在,问题变为如何估计待定的参数p和q,我们可以通过对数变换把指数关系变为线性关系.令z=lny,则变换后样本点应该分布在直线z=bx+a(a=lnp,b=q)周围.这样就可以利用线性回归模型来建立y与x之间的非线性回归方程了.由下图可看出,变换后的样本点分布在一条直线的附近,因此可以用线性回归方程来拟合.经过计算得到线性回归方程为zˆ=0.272x-3.843.因此红铃虫的产卵数对温度的非线性回归方程为yˆ=e0.272x-3.843.方法归纳线性回归问题在解决前可以先画散点图,通过散点图判断是否为线性回归,如果不是线性回归,要先转换为线性回归问题.。

人教版高中数学章节目录

人教版高中数学章节目录
人教版高中数学必修一目录
第一章集合与函数概念
集合
函数及其表示
函数的基本性质
第二章基本初等函数(Ⅰ)
指数函数
对数函数
幂函数
第三章函数的应用
函数与方程
函数模型及其应用
人教版高中数学必修二目录
第一章空间几何体
空间几何体的结构
空间几何体的三视图和直观图
空间几何体的表面积与体积
第二章点、直线、平面之间的位置关系
3.3 导数在研究函数中的应用
3.4 生活中的优化问题举例
人教版高中数学选修1-2目录
第一章 统计案例
1.1 回归分析的基本思想及其初步应用
1.2 独立性检验的基本思想及其初步应用
第二章 推理与证明
2.1 合情推理与演绎推理
2.2 直接证明与间接证明
第三章 数系的扩充与复数的引入
3.1 数系的扩充和复数的概念
2.2 二项分布及其应用
2.3 离散型随机变量的均值与方差
2.4 正态分布
第三章 统计案例
3.1 回归分析的基本思想及其初步应用
3.2 独立性检验的基本思想及其初步应用
人教版高中数学选修4-1目录
第一讲 相似三角形的判定及有关性质
一 平行线等分线段定理
二 平行线分线段成比例定理
三 相似三角形的判定及性质
2.2 直接证明与间接证明
2.3 数学归纳法
第三章 数系的扩充与复数的引入
3.1 数系的扩充和复数的概念
3.2 复数代数形式的四则运算
人教版高中数学选修2-3目录
第一章 计数原理
1.1 分类加法计数原理与分步乘法计数原理
1.2 排列与组合
1.3 二项式定理

独立性检验的基本思想及其初步应用

独立性检验的基本思想及其初步应用

【解】 根据题目所给数据得如下 2×2 列联表:
(a c)(b d) n(a b)(c d)
课堂练习
1.下列关于等高条形图的叙述正确的是( ) A.从等高条形图中可以精确地判断两个分类变量是否有关系 B.从等高条形图中可以看出两个变量频数的相对大小 C.从等高条形图可以粗略地看出两个分类变量是否有关系 D.以上说法都不对 解析:选 C.在等高条形图中仅能粗略判断两个分类变量的关 系,故 A 错.在等高条形图中仅能找出频率,无法找出频数, 故 B 错.
有关概念:分类变量
对于性别变量,其取值为男和女两种,这种变量的 不同“值”表示个体所属的不同类别,像这样的变量称 为分类变量.如是否吸烟、是否患肺癌、宗教信仰、国 籍等等
在日常生活中,主要考虑分类变量之间是否有关系: 例如,吸烟是否与患肺癌有关系?等等.
“美图”欣赏
列联表 2×2 为了调查吸烟是否对肺癌有影响,某肿瘤研究所随机 地调查了9965人,得到如下结果(单位:人)
查对临界值表,作出判断。(如果K2值很大,就断言 H0不成立,即认为“两个分类变量有关系”;如果很 小,则说明在样本数据中没有发现足够证据拒绝H0。)
例题解析:
例1. 在某医院,因为患心脏病而住院的665名男性病人中, 有214人秃顶;而另外772名不是因为患心脏病而住院的 男性病人中,有175人秃顶. 利用图形判断秃顶与患心脏 病是否有关系。能否在犯错误的概率不超过0.010的前 提下认为秃顶与患心脏病有关系?
9965(7775 49 42 2099)2
k
56.632.
7817 2148 9874 91
在H0成立的情况下,统计学家估算出如下的概率:
P(K 2 6.635) 0.01

回归分析教案1选修1—2

回归分析教案1选修1—2

1.2回归分析教学目标:通过对典型案例的探究,了解回归的基本思想、方法及其初步应用。

教学重点:通过对典型案例的探究,了解回归的基本思想、方法及其初步应用。

教学过程一、变量的相关关系中最为简单的是线性相关关系,设随机变量与变量之间存在线性相关关系,则由试验数据得到的点(,)将散布在某一直线周围,因此,可以认为关于的回归函数的类型为线性函数,即,下面用最小二乘法估计参数、b,设服从正态分布,分别求对、b的偏导数,并令它们等于零,得方程组解得其中,且为观测值的样本方差.线性方程称为关于的线性回归方程,称为回归系数,对应的直线称为回归直线.顺便指出,将来还需用到,其中为观测值的样本方差.二、现在讨论线性相关的显著性检验中最简便、最常用的一种方法,即相关系数的显著性检验法.我们早在前面的学习中知道,变量与的相关系数是表示与之间线性相关关系的一个数字特征,因此,要检验随机变量与变量之间的线性相关关系是否显著,自然想到考察相关系数的大小,若相关系数的绝对值很小,则表明与之间的线性相关关系不显著,或者它们之间根本不存在线性相关关系;当且仅当相关系数的绝对值接近1时,才表明与之间的线性相关关系显著,这时求关于的线性回归方程才有意义.在相关系数未知的情况下,可用样本相关系数r作为相关系数的估计值,参照相关系数的定义,并用样本均值与样本方差分别作为数学期望与方差的估计值,定义与的样本相关系数如下:因此,根据试验数据(,),得到的值后可进一步算出样本相关系数r的值. 若使用的是具有线性回归计算功能的电子计算器时,把所有试验数据(,)逐对存入计算器中,则可直接算出r的值.由于样本相关系数r是相关系数的估计值,所以,r的绝对值越接近1,与之间的线性相关关系越显著. 当r>0时,称与正相关;当r<0时,称与负相关. 而当r的绝对值接近0时,则可认为与之间不存在线性相关关系.三、例1.在7块并排、形状大小相同的试验田上进行施化肥量对水稻产量影响的试验,得数据如下(单位:kg)1x2)检验相关系数r 的显著性水平:r=∑∑∑===---7171222271)7)(7(7i i i i i ii y y x x yx yx =)3.39971132725)(3077000(3.3993078717522⨯-⨯-⨯⨯-≈0.9733,在“相关系数检验的临界值表”查出与显著性水平0.05及自由度7-2=5相应的相关数临界值r 0 05=0.754<0.9733,这说明水稻产量与施化肥量之间存在线性相关关系.3)设回归直线方程a bx y +=ˆ,利用⎪⎪⎪⎩⎪⎪⎪⎨⎧-=--=∑∑==xb y a x x y x y x b i i i i i 71227177计算a ,b , 得b=75.430770005.399307871752≈⨯-⨯⨯- a=399.3-4.75×30≈257,则回归直线方程25775.4ˆ+=x yx例2.一个工厂在某年里每月产品的总成本y (万元)与该月产量x (万件)之间由如下一组数据:归直线方程.1)画出散点图:x2)r=∑∑∑===---1211212222121)12)(12(12i i i i i ii y y x x yx yx=18.534.1754.243120.997891-⨯⨯=在“相关系数检验的临界值表”查出与显著性水平0.05及自由度12-2=10相应的相关数临界值r 0 05=0.576<0.997891, 这说明每月产品的总成本y (万元)与该月产量x (万件)之间存在线性相关关系.3)设回归直线方程a bx y+=ˆ, 利用⎪⎪⎪⎩⎪⎪⎪⎨⎧-=--=∑∑==xb y a x x y x y x b i i i i i 121221211212,计算a ,b ,得b ≈1.215, a=x b y -≈0.974,∴回归直线方程为:974.0215.1ˆ+=x y课堂小节:本节课学习了回归的基本思想、方法及其初步应用 课堂练习:略课后作业:第7页习题A:1,2,3,4,5。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
如:人的身高与年龄; 产品的成本与生产数量;
商品的销售额与广告费;
家庭的支出与收入。等等 探索:水稻产量y与施肥量x之间大致有何 规律?
施化肥量x 15
20
25
30
35
40
45
水稻产量y 330 345 365 y
500 450 400 350 300 10
405 445
450 455
散点图
水稻产量
求根据一名女大学生的身高预报她的体重的回归方程,并预报一名身高为 172cm的女大学生的体重。 解:1、选取身高为自变量x,体重为因变量y,作散点图: 2、由散点图知道身高和体重有比较好的 线性相关关系,因此可以用线性回归方程 刻画它们之间的关系。 产生随机误差项e 3、从散点图还看到,样本点散布在某一条 的原因是什么? 直线的附近,而不是在一条直线上,所以 不能用一次函数y=bx+a描述它们关系。
yi y
( xi x)( yi y)
( xi x)2
x
, y

其中 1 1 x xi, yi y n i 1 n i 1
n n
例1 从某大学中随机选取8名女大学生,其身高和体重数据如表1-1所示。
1 2 3 4 5 6 7 8 编号 身高/cm 165 165 157 170 175 165 155 170 体重/kg 48 57 50 54 64 61 43 59
编号为3的女大学生的体重并也没有落在水平直线上,她的 体重为50kg。解析变量(身高)和随机误差共同把这名学生的 体重从50kg“推”到了54.5kg,相差-4.5kg,这时解析变量和随 机误差的组合效应为-4.5kg。
用这种方法可以对所有预报变量计算组合效应。
数学上,把每个效应(观测值减去总的平均
求出线性相关方程后, 0.849 说明身高x每 b 增加一个单位,体重y就增加0.849个单位,这表 明体重与身高具有正的线性相关关系.如何描 述它们之间线性相关关系的强弱呢?
1.用相关系数 r 来衡量

2.公式:
r
x x y y
n i 1 i i
x x y y
复习:变量之间的两种关系
问题1:正方形的面积y与正方形的边长x之间 的函数关系是 确定性关系 y = x2 问题2:某水田水稻产量y与施肥量x之间是否 -------有一个确定性的关系? 例如:在 7 块并排、形状大小相同的试验田 上 进行施肥量对水稻产量影响的试验,得到 如下所示的一组数据:
施化肥量x 15
根据最小二乘法估计a 和b 就是未知参数a和b的最好估计,
b

(x
i 1 n
n
i
x )( yi y )
( xi x) 2
i 1 i i
a y b x



x y
i 1 n
n
nx y nx
2
x
i 1
2
i
制表
i
1
2
3
4
5
6
7
8
合计
xi x
函数模型与回归模型之间的差别
函数模型: y bx a 回归模型: y bx a e
线性回归模型y=bx+a+e增加了随机误差项e,因变量y的值 由自变量x和随机误差项e共同确定,即自变量x只能解析部分y 的变化。 在统计中,我们也把自变量x称为解析变量,因变量y称为预 报变量。
如果某组数据可能采取几种不同回归方程进行回归分 析,则可以通过比较R2的值来做出选择,即选取R2较大 的模型作为这组数据的模型。
总的来说: 相关指数R2是度量模型拟合效果的一种指标。 在线性模型中,它代表自变量刻画预报变量的 能力。
我们可以用相关指数R2来刻画回归的效果,其计算公式是
R 1
体重/kg
165
48
165
57
157
50
170
54
175
64
165
61
155
43
170
59
54.5kg
例如,编号为6的 女大学生的体重并没有 落在水平直线上,她的 体重为61kg。解析变量 (身高)和随机误差共 同把这名学生的体重从 54.5kg“推”到了61kg, 相差6.5kg,所以6.5kg
是解析变量和随机误差 的组合效应。
求根据一名女大学生的身高预报她的体重的回归方程,并预报一名身高为 172cm的女大学生的体重。
于是得到 b 0.849 a 85.712 ,
^ ^
( x, y)称为 样本点的中心
探究P4: 身高为172cm的女大学生的体重一定是60.316kg吗? 所以回归方程是 0.849x 85.712 y 如果不是,你能解析一下原因吗? 所以,对于身高为172cm的女大学生,由回归方程可以预报 其体重为
函数模型与回归模型之间的差别
中国GDP散点图 120000
100000
80000
GDP
60000
40000
20000
0 1992
1993
1994
1995
1996
1997 年
1998
1999
2000
2001
2002
2003
函数模型: y bx a 回归模型: y bx a e
可以提供 选择模型的准则
+1.0
r
负相关程度增加
对回归模型进行统计检验
假设身高和随机误差的不同不会对体重产生任何影响,那么所 有人的体重将相同。在体重不受任何变量影响的假设下,设8名女 大学生的体重都是她们的平均值, 即8个人的体重都为54.5kg。
编号 身高/cm 体重/kg 1 165 54.5 2 165 54.5 3 157 54.5 4 170 54.5 5 175 54.5 6 165 54.5 7 155 54.5 8 170 54.5
思考P3
我们可以用下面的线性回归模型来表示: y=bx+a+e,其中a和b为模型的未知参数, e称为随机误差。
思考 产生随机误差项e的原因是什么?
随机误差e的来源(可以推广到一般): 1、其它因素的影响:影响体重y 的因素不只 是身高 x,可能还包括遗传基因、饮食习惯、 生长环境等因素; 2、用线性回归模型近似真实模型所引起的误 差; 3、身高 x 的观测误差。
第一章 统计案例
a. 比《数学3》中“回归”增加的内 选修1-2——统计案例 容 数学3——统计
1. 画散点图 2. 了解最小二乘法 的思想 3. 求回归直线方程 y=bx+a 4. 用回归直线方程 解决应用问题 5. 引入线性回归模型 y=bx+a+e 6. 了解模型中随机误差项e产 生的原因 7. 了解相关指数 R2 和模型拟 合的效果之间的关系 8. 了解残差图的作用 9. 利用线性回归模型解决一类 非线性回归问题 10. 正确理解分析方法与结果
2
( yi i ) 2 y ( yi y ) 2
i 1 i 1 n
n
残差平方和 1 。 总偏差平方和
表1-3
来源 解释变量(身高) 随机误差(e) 平方和 225.639 128.361 比例 0.64 0.36
总计
354
1
从表3-1中可以看出,解析变量对总效应约贡献了64%,即 R2≈0.64,可以叙述为“身高解析了64%的体重变化”,而随 机误差贡献了剩余的36%。所以,身高对体重的效应比随机误 差的效应大得多。
n 2 n i 1 i i 1 i
2
3.性质: ①、当 r 1 时,x与y为完全线性相关,它们之 间存在确定的函数关系。 ②、当 0 r 1 时,表示x与y存在着一定的线 性相关,r的绝对值越大,越接近于1,表示x 与y直线相关程度越高,反之越低。
当r 0时,表示x与y为正相关;当r 0时,表示x与y为负相关
20
25
30
35
40
45
水稻产量y 330 345 365
405 445
450 455
1、定义:
自变量取值一定时,因变量的取值带有一定随
机性的两个变量之间的关系叫做相关关系。 注 1):相关关系是一种不确定性关系; 2):对具有相关关系的两个变量进行 统计分析的方法叫回归分析。
2、现实生活中存在着大量的相关关系。
值)的平方加起来,即用
( y y)
i 1 i
n
2
表示总的效应,称为总偏差平方和。
在例1中,总偏差平方和为354。
编号 身高/cm 体重/kg
1
165 48
2
165 57
3
157 50
4
170 54
5
175 64
6
165 61
7
155 43
8
170 59
那么,在这个总的效应(总偏差平方和)中,有 多少来自于解析变量(身高)?有多少来自于随机 误差?
R 1
2
( yi i ) 2 y ( yi y ) 2
i 1 i 1 n
n
残差平方和 1 。 总偏差平方和
显然,R2的值越大,说明残差平方和越小,也就是 说模型拟合效果越好。
在线性回归模型中,R2表示解析变量对预报变量变 化的贡献率。
R2越接近1,表示回归的效果越好(因为R2越接近1, 表示解析变量和预报变量的线性相关性越强)。
当r [0.75, 表明两个变量正相关很强; 1], 当r [1, 0.75], 表明两个变量负相关很强;
当r [0. 0.25], 表明两个变量相关性较弱。 25,
相关关系的测度
相关文档
最新文档