独立性检验与回归分析
考点5,回归分析与独立性检验
考点五 回归分析与独立性检验考点要揽◆会做两个相关变量的数据的散点图,会利用散点图认识变量间的相关关系。
◆了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程。
◆了解独立性检验(只要求22⨯列联表)的基本思想、方法及其简单应用。
◆了解回归分析的基本思想、方法及其简单应用。
命题趋向◆以选择题和填空题的形式考查线性回归系数或利用线性回归方程进行预测,在给出临界值的情况下判断两个变量是否有关。
◆在解答题中与频率分布结合考查线性回归方程的建立及应用和独立性检验的应用。
备考策略◆系统掌握有关概念◆能熟练的运用公式求线性回归系数一、回归分析(一)回归直线方程: a x b yˆˆˆ+=,其中()()()∑∑∑∑====--=---=ni ini ii ni ini i ix n xyx n yx x xy y x xb 1221121ˆx b y aˆˆ-=,()y x ,称为样本中心点,因而回归直线过样本中心点. (二)样本相关系数()r用来衡量两个变量之间线性相关关系的方法.()()()()∑∑∑===----=ni ni iini i iy yx xy y x xr 11221当0>r 时,表明两变量正相关;当0<r ,表明两变量负相关. r 越接近1,表明两变量的线性相关性越强; r 越接近0,表明两变量的线性相关关系几乎不存在,通常当75.0>r 时,认为两个变量有很强的线性相关关系.理解总结(一)线性回归分析一般情况下,在尚未断定两个变量之间是否具有线性相关关系的情况下,应先进行相关性检验,在确认具有线性相关关系后,再求回归直线方程.回归分析的一般步骤为:1.从一组数据出发,画出散点图,只有在散点图大致呈线性时,求出的回归直线方程才有实际意义,否则,求出的回归直线方程毫无意义;2.如果具有线性相关关系,求出回归方程a x b yˆˆˆ+=,其中a ˆ是常数项, b ˆ是回归系数;3.根据回归方程,由一个变量的值,预测或控制另一个变量的值.(二)估计线性回归模型中的未知参数aˆ和b ˆ时,一般利用最小二乘法.其计算公式为:()()()⎪⎪⎩⎪⎪⎨⎧-=--=---=∑∑∑∑====x b y ax n x yx n yx x x y y x xb ni i ni ii ni i ni i iˆˆˆˆ1221121其中∑==n i i x n x 11,∑==ni i y n y 11.对此公式不要求记忆,但要会用.高考导航例 1 假设关于某设备使用年限x 和所支出的维修费用y (万元)有如下的统计资若由资料知y 对x 呈线性相关关系.试求:(1)线性回归方程a x b yˆˆˆ+=的回归系数b a ˆ,ˆ; (2)估计使用年限为10时,维修费用是多少?解题思路求回归直线方程的计算量较大,需要细心、谨慎地计算.可以通过列表,计算出∑=ni i i y x 1,∑=ni i x 12,x ,y ,后将这些量代入公式计算.于是23.14590ˆ2=⨯-=b,08.0423.15ˆˆˆ=⨯-=-=x b y a . (2)回归直线方程为38.1208.023.1ˆ=+=x y. 当10=x 时, 38.12ˆ=y,即估计使用10年时,维修费用是12.38万元.二、独立性检验(一)独立性检验的概念一般地,假设有两个分类变量X 和Y ,它们的值域分别为{}21,x x 和{}21,y y ,我们利用随机变量()()()()()d b c a d c b a bc ad n K ++++-=22来确定在多大程度上可以认为“两个分类变量有关系”,这种方法称为两个分类变量的独立性检验. (二)独立性检验的基本思想独立性检验的基本思想类似于反证法.要确认“两个分类变量有关系”这一结论成立的可信程度,首先假设该结论不成立,即假设结论“两个分类变量没有关系”成立.在该假设下我们构造的随机变量2K 应该很小,如果由观测数据计算得到的2K 的观测值k 很大,则在一定程度上说明假设不合理. 具体比较如下表:假设1H :“X 与Y 有关系”,可按如下步骤判断结论1H 成立的可能性:1.通过等高条形图,可以粗略地判断两个分类变量是否有关系,但是这种判断无法精确地给出所得结论的可靠程度.2.利用独立性检验来考查两个分类变量是否有关系,并且能较精确地给出这种判断的可靠程度,具体做法是:(1)根据实际问题的需要确定容许推断“两个分类变量有关系”犯错误概率的上界a ,然后通过下表确定临界值0k .(2)由公式()()()()()d b c a d c b a bc ad n K ++++-=22,计算2K 的观测值k .(3)如果0k k ≥,就推断“X 与Y 有关系”.这种推断犯错误的概率不超过a ;否则,就认为在犯错误的概率不超过a 的前提下不能推断“X 与Y 有关系”,或者在样本数据中没有足够证据支持结论“X 与Y 有关系”. 理解总结根据独立性检验的基本思想,可知对于2K 的观测值k ,存在一个正数0k 为判断规则的临界值,当0k k ≥,就认为“两个分类变量之间有关系”;否则就认为“两个分类变量没有关系”.在实际应用中,我们把0k k ≥解释为有()()%100102⨯≥-k KP 的把握认为“两个分类变量之间有关系”;把0k k <解释为不能以()()%100102⨯≥-k K P 的把握认为“两个分类变量之间有关系”,或者样本观测数据没有提供“两个分类变量之间有关系”的充分证据. 高考导航例1 (1)下列关系中不是相关关系的是 ( )(A)产品投入的广告费与产品的销售量.(B)数轴上的点与实数x.(C)人的身高与体重的大小.(D)一天中的湿度与气温的高低.(2)对分类变量X与Y的随机变量2K的值,下列说法正确的是 ( )(A)2K越大,“X与Y有关系”可信度越小.(B)2K越小,“X与Y有关系”可信度越小.(C)2K越接近于0,“X与Y无关”程度越小.(D)2K越大,“X与Y无关”程度越大.解题思路(1)观察给出的两个量之间是否是函数关系、是否具备一定的联系,是否没有关系,从而可以判断出各种关系.(2)2K是反映变量X与Y是否有相关关系的一个重要参数.解析:(1)A项产品投入的广告费与产品的销售量、C项的人的身高与体重的大小、D项的一天中的湿度与气温的高低之间都是有一定的联系但是是不确定性的关系,故为相关关系.B项数轴上的点与实数x之间为确定的函数关系.例2 为了比较注射A、B两种药物后产生的皮肤疱疹的面积,选200只家兔做试验,将这200只家兔随机地分成两组,每组100只,其中一组注射药物A,另一组注射药物B.(1)甲、乙是200只家兔中的2只,求甲、乙分在不同组的概率;(2)下表1和表2分别是注射药物A和B后的试验结果.(疱疹面积单位:2mm);②完成下面22⨯列联表,并回答能否有%9.99的把握认为“注射药物A 后的疱疹面积与注射药物B 后疱疹面积有差异”.表3疱疹面积小于270mm 疱疹面积不小于270mm 合计注射药物A =a =b 注射药物B =c=d合计=n附: ()()()()()d b c a d c b a bc ad n K ++++-=22()02k K P ≥0.10 0.05 0.025 0.010 0.0010k2.7063.841 5.024 6.635 10.828解题思路(1)将甲、乙两只家兔分在不同组,可在剩余的198只中选99只,也就是将剩余的分为两组,然后再将甲乙两只分在两个组中即可;(2)第①问画频率分布直方图时,应该首先计算出相应的频率,要注意其纵轴为频率与组距的比值;在频率分布直方图中,中位数将小矩形的面积分为相等的两部分,据此可以估计中位数所在的范围;第②问可以根据给出的频数分布表得到22⨯列联表,然后利用给定的公式和对应表来确定其可信程度.【解析】(1)甲、乙两只家兔分在不同组的概率为: 1991001002009919812==C C C P . (2)①在频率分布直方图中,中位数两边对应的小长方形的面积相等,都等于0.5,可以看出注射药物A 后的疱疹面积的中位数在65至70之间,而注射药物B 后的疱疹面积的中位数在70至75之间,所以注射药物A 后疱疹面积的中位数小于注射药 物B 后疱疹面积的中位数. ②表3:疱疹面积小于270mm 疱疹面积不小于270mm 合计注射药物A 70=a 30=b 100 注射药物B 35=c65=d100合计10595 200=n()56.24951051001006530657020022≈⨯⨯⨯⨯-⨯=K 由于828.102>K ,所以有%9.99的把握认为“注射药物A 后的疱疹面积与注射药物B 后的疱疹面积有差异”. 迁移应用1、(2009宁夏海南卷理科)对变量x ,y 有观测数据()i i y x ,()10,,2,1 =i ,得散点图1;对变量v u ,有观测数据()i i v u ,()10,,2,1 =i ,得散点图2. 由这两个散点图可以判断。
变量的相关性、回归分析、独立性检验
复习目标
课前预习
高频考点
课时小结
2 110 × ( 15 × 30 - 20 × 45 ) K2的观测值k= ≈2.829>2.706, 60×50×35×75
故在犯错误的概率不超过0.10的前提下认为两个学校的数学 成绩有差异.
n
.
通过求 Q= [yi-(b xi+a )]2 的最小值而得出回
i=1
归直线的方法, 即求回归直线, 使得样本数据的点到它 的距离的平方和最小,这一方法叫作最小二乘法.
复习目标 课前预习 高频考点 课时小结
- x· y xiyi-n-
i =1
n
(5) 相关系数: r=
n 2 2 -2 xi -n- x y2 i -n y i=1 i=1
高频考点
课时小结
解析 (1)从甲校抽取 110× 1 000
1 200 1 200+1 000
=60(人),
从乙校抽取 110× 故 x=10,y=7.
1 200+1 000
=50(人),
复习目标
课前预习
高频考点
课时小结
1学成绩的优秀率为50×100%=40%. (3)表格填写如图,
甲校 优秀 非优秀 总计 乙校 总计
复习目标
课前预习
高频考点
课时小结
参考数据与公式:
2 n ( ad - bc ) 由列联表中数据计算K2= . (a+b)(c+d)(a+c)(b+d)
临界值表
P(K2≥k0) k0 0.10 0.05 0.010
2.706 3.841 6.635
高中数学 第2讲变量的相关性、回归分析及独立性检验
第2讲 变量的相关性、回归分析及独立性检验一、知识回顾1.如何判断两个变量的线性相关:如果在散点图中,2个变量数据点分布在一条直线附近,则这2个变量之间具有线性相关关系。
2.所求直线方程 ˆy=bx +a 叫做回归直线方程;其中 ⋅∑∑∑∑nnii i ii=1i=1nn222iii=1i=1(x-x)(y -y)x -nx yb ==,a =y -bx (x-x)x-nxy回归直线方程必过中心点(,)x y3.相关系数的∑nii (x-x)(y -y)r =性质• (1)|r|≤1.(2)|r|越接近于1,相关程度越大;|r|越接近于0,相关程度越小.4. ˆˆ=-i i y y i 残差e=实际值-预测值2^^211()===-∑∑nniiii i e y y 总残差平方和:残差平方和越小,即模型拟合效果越好5. 两个分类变量的独立性检验:(1)假设结论不成立,即“两个分类变量没有关系”.(2)在此假设下计算随机变量 22n(ad -bc)K =(a +b)(c +d)(a +c)(b +d)(3) 根据随机变量K 2查表得“两个分类变量没有关系”的概率,用1减去此概率即得有联系的概率 典型例题:例1.(宁夏海南卷)对变量x, y 有观测数据理力争(,)(i=1,2,…,10),得散点图1;对变量u ,v 有观测数据(,)(i=1,2,…,10),得散点图2. 由这两个散点图可以判断( )。
(A )变量x 与y 正相关,u 与v 正相关 (B )变量x 与y 正相关,u 与v 负相关 (C )变量x 与y 负相关,u 与v 正相关 (D )变量x 与y 负相关,u 与v 负相关1x 1y 1u 1v变式1. (韶关一模文、理)甲、乙、丙、丁四位同学各自对A 、B 两变量的线性相关性作试验,)()A 甲 ()B 乙 ()C 丙 ()D 丁 例2.一系列样本点(,)(1,2,,)=⋅⋅⋅i i x y i n 的回归直线方程为23,∧=-y x 若117==∑nii X则1==∑ni i y变式1.某地第二季各月平均气温(℃)与某户用水量(吨)如下表,根据表中数据,用最小二乘法求得用水量关于月平均气温的线性回归方程是( )A B. C. D. 例3.下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x (吨)与相应的生产能耗y (吨标准煤)的几组对照数据.(1)请画出上表数据的散点图;(2)请根据上表提供的数据,用最小二乘法求出y 关于x 的线性回归方程ˆˆy bxa =+; (3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤? (参考数值:3 2.543546 4.566.5⨯+⨯+⨯+⨯=)例4.(惠州一模)对196个接受心脏搭桥手术的病人和196个接受血管清障手术的病人进行了3年的跟踪x y y x 5.115ˆ-=x y5.115.6ˆ-=x y 5.112.1ˆ-=x y5.113.1ˆ-=x y0.0005300035000.00030.0004200015000.00020.0001400025001000月收入(元)频率/组距 第2讲 变量的相关性、回归分析及独立性检验课后作业:姓名: 学号:1.若施化肥量x 与小麦产量y 之间的回归直线方程为ˆ2504yx =+,当施化肥量为50kg 时,预计小麦产量为2.下表是某厂1~4月份用水量(单位:百吨)的一组数据:月份x1 2 3 4用水量y5.443 5.2由散点图可知,用水量y 与月份x 之间有较好的线性相关关系,其线性回归直线方程是a x y +-=∧7.0,则=a3.一组数据的平均数是2.8,方差是3.6,若将这组数据中的每一个数据都加上60,得到一组新数据,则所得新数据的平均数和方差分别是( )A .57.2 3.6B .57.2 56.4C .62.8 63.6D .62.8 3.64.有一笔统计资料,共有11个数据如下(不完全以大小排列):2,4,4,5,5,6,7,8,9,11,x ,已知这组数据的平均数为6,则这组数据的方差为( ) A .6B .6C .66D .6.55.为了检查某超市货架上的奶粉是否含有三聚氰胺,要从编号依次为1到50的袋装奶粉中抽取5袋进行检验,用每部分选取的号码间隔一样的系统抽样方法确定所选取的5袋奶粉的编号可能是( ) A.5,10,15,20,25 B.2,4,8,16,32 C.1,2,3,4,5 D.7,17,27,37,476.(广州调研文、理)某校对全校男女学生共1600名进行健康调查,选用分层抽样法抽取一个容量为200的样本.已知女生比男生少抽了10人,则该校的女生人数应是 人.7. (韶关一模文、理)一个社会调查机构就某地居民的 月收入调查了10000人,并根据所得数据画了样本的频率分 布直方图(如下图)。
高中选修1-2回归分析和独立性检验知识总结与联系
高中选修1-2回归分析和独立性检验知识总结与联系-CAL-FENGHAI-(2020YEAR-YICAI)_JINGBIAN1122211()()()n n i i i i i i n n i i i i x x y y x y nx y b x x x nx a y bx ====⎧---⎪⎪==⎪⎨--⎪⎪=-⎪⎩∑∑∑∑选修1-2第一部分 变量间的相关关系与统计案例【基础知识】一、回归分析1.两个变量的线性相关:判断是否线性相关 ①用散点图(1)正相关:在散点图中,点散布在从左下角到右上角的区域.对于两个变量的这种相关关系,我们将它称为正相关.(2)负相关:在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.(3)线性相关关系、回归直线:如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线. ②用相关系数r(3)除用散点图外,还可用样本相关系数r 来衡量两个变量x ,y 相关关系的强弱,ni ix y nx yr -•=∑当r >0,表明两个变量正相关,当r <0,表明两个变量负相关,r 的绝对值越接近于1,表明两个变量的线性相关性越强;r 的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系,通常|r |0.75>时,认为这两个变量具有很强的线性相关关系. 2.回归方程:两个变量具有线性相关关系,数据收集如下:可用最小二乘法得到回归方程ˆy bx a =+,其中3.回归分析的基本思想及其初步应用(1)回归分析是对具有相关关系的两个变量进行统计分析的方法,其常用的 研究方法步骤是画出散点图,求出回归直线方程,并利用回归直线方程进行预报.(2)对n 个样本数据(x 1,y 1)、(x 2,y 2)、…、(xn ,yn ),(,)x y 称为样本点的中心.样本点中心一定落在回归直线上。
4、回归效果的刻画:用相关指数2R来刻画回归的效果,公式是2 2121()1()ni iiniiy yRy y==-=--∑∑2R的值越大,说明残差平方和越小,也就是说模型拟合效果好二.独立性检验的基本思想及其初步应用题型一相关关系的判断【例1】对四组数据进行统计,获得以下散点图,关于其相关系数比较,正确的是()A.r2<r4<0<r3<r1B. r4<r2<0<r 1<r3C. r4<r2<0<r3<r1D. r2<r4<0<r1<r3【变式1】 根据两个变量x ,y 之间的观测数据画成散点图如图所示,这两个变量是否具有线性相关关系________(填“是”与“否”).题型二 线性回归方程【例2】在2013年元旦期间,某市物价部门对本市五个商场销售的某商品一天的销售量及其价格进行调查,五个商场的售价x 元和销售量y 件之间的一价格x 9 9.5 10 10.5 11销售量y11 10 8 6 5 y 关于商品的价格x 的线性回归方程为________.(参考公式:b ^= ,a ^=y -b ^x )【变式3】为了解儿子身高与其父亲身高的关系,随机抽取5对父子的身高数据如下:父亲身高x /cm 174 176 176 176 178儿子身高y /cm175 175 176 177 177则y 对x 的线性回归方程为( ). A .y =x -1 B .y =x +1C .y =88+12x D .y =176题型三 独立性检验【例4】通过随机询问110名性别不同的行人,对过马路是愿意走斑马线由K 2=n (ad -dc )(a +b )(c +d)(a +c )(b +d ),算得K 2=110×(40×30-20×20)260×50×60×50≈7.8.附表:A. 有99%以上的把握认为“选择过马路的方式与性别有关”B. 有99%以上的把握认为“选择过马路的方式与性别无关”C. 在犯错误概率不超过0.1%的前提下,认为“选择过马路的方式与性别有关”D. 在犯错误概率不超过0.1%的前提下,认为“选择过马路的方式与性别无关【变式2】 某企业有两个分厂生产某种零件,按规定内径尺寸(单位:mm)的值落在[29.94,30.06)的零件为优质品.从两个分厂生产的零件中各抽出了500件,(2)由以上统计数据填下面2×2列联表,并问是否有99%的把握认为“两个分附 K 2巩固提高1.下列说法:①将一组数据中的每个数据都加上或减去同一个常数后,方差恒不变;②设有一个回归方程y ^=3-5x ,变量x 增加一个单位时,y 平均增加5个单位;③线性回归方程y ^=b ^x +a ^必过(x ,y );④在一个2×2列联表中,由计算得K 2=13.079,则有99%的把握确认这两个变量间有关系;其中错误的个数是( )A. 0B. 1C. 2D. 32.已知回归直线斜率的估计值为1.23,样本点的中心为点(4,5),则回归直线的方程为( ) A. y ^=1.23x +4 B. y ^=1.23x +5 C. y ^=1.23x +0.08 D. y ^=0.08x +1.23 3.从所得的散点图分析可知:y 与x 线性相关,且y =0.95x +a ,则a =( ) A. 1.30 B. 1.45 C. 1.65 D. 1.804.根据上表可得回归直线方程:y =0.56x +a ,据此模型预报身高为172 cm 的高三男生的体重为( )A. 70.09 kgB. 70.12 kgC. 70.55 kgD. 71.05 kg5.调查了某地若干户家庭的年收入x (单位:万元)和年饮食支出y (单位:万元),调查显示年收入x 与年饮食支出y 具有线性相关关系,并由调查数据得到y 对x的回归直线方程:y ^=0.254x +0.321.由回归方程可知,家庭年收入每增加1万元,年饮食支出平均增加________万元.6.利用独立性检验对两个分类变量是否有关系进行研究时,若在犯错误的概率不超过0.005的前提下认为事件A 和B 有关系,则具体计算出的数据应该是( )A .k≥6.635B .k <6.635C .k≥7.879D .k <7.8797.某高校“统计初步”课程的教师随机调查了选该课的一些学生的情况,具体数据如下表:非统计专业统计专业男13 10女7 20为了判断主修统计专业是否与性别有关系,根据表中数据得到,k=50(13×20-10×7)220×30×23×27≈4.844,因为k>3.841,所以确定主修统计专业与性别有关系,那么这种判断出错的可能性为________.与销售额(单位:百万元)之间有如下对应数据:(1)画出散点图;(2)求线性回归方程;(3)试预测广告费支出为百万元时,销售额多大?9.下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x(吨)与相应的生产能耗y(吨标准煤)的几组对照数据.(1)请画出上表数据的散点图;(2)请根据上表提供的数据,用最小二乘法求出关于的线性回归方程;(3)已知该厂技改前吨甲产品的生产能耗为吨标准煤,试根据(2)求出的线性回归方程,预测生产吨甲产品的生产能耗比技改前降低多少吨标准煤(参考数值:)9.某大学餐饮中心为了了解新生的饮食习惯,在全校一年级学生中进行了抽样调查,调查结果如下表所示:喜欢甜品不喜欢甜品合计南方学生60 20 80北方学生10 10 20合计70 30 100(1)甜品的饮食习惯方面有差异”;(2)已知在被调查的北方学生中有5名数学系学生,其中2名习惯甜品,现在从这5名学生中随机抽取3人,求至多有1人喜欢甜品的概率.10、我市某校某数学老师这学期分别用两种不同的教学方式试验高一甲、乙两个班(人数均为人,入学数学平均分和优秀率都相同,勤奋程度和自觉性都一样)。
考点11 回归分析与独立性检验(学生版)
考点11 回归分析与独立性检验概率与统计,是历年高考的必考点,尤其是新高考改革后,各卷都有考查,其主要考查内容有:数字特征与概率的计算问题、随机变量的均值与方差、回归分析与独立性检验、二项分布及其应用等。
例如:2021年全国高考乙卷(文)、(理)[17],2022年全国新高考卷Ⅱ[19],2022年全国乙卷(文)、(理)[19],2022年全国甲卷(文)[17],2022年北京高考[18]等都对数字特征与概率的计算问题进行了考查。
〔1〕回归分析的实际应用1.求回归直线方程(线性回归方程)的一般步骤 (1)画散点图; (2)求回归直线方程; (3)用回归直线方程进行预报。
2.利用回归方程进行预测,把回归直线方程看作一次函数,求函数值。
3.利用回归直线判断正、负相关,决定正相关还是负相关的是系数bˆ。
4.回归方程的拟合效果,可以利用相关系数判断,当||r 越趋近于1时,两变量的线性相关性越强。
〔2〕独立性检验的实际应用 1.独立性检验的一般步骤(1)根据样本数据列出2×2列联表;(2)计算随机变量2K 的观测值k ,查表确定临界值0k ;(3)如果0k k ≥,就推断“X 与Y 有关系”,这种推断犯错误的概率不超过()02k K P ≥;否则,就认为在犯错误的概率不超过()02k K P ≥的前提下不能推断“X 与Y 有关系”,或者在样本数据中没有发现足够证据支持结论“X 与Y有关系”。
2.独立性检验的应用可以利用独立性检验来推断两个分类变量是否有关系,并且能较精确地给出这种判断的可靠程度。
具体做法是: (1)根据实际问题需要的可信程度(或容许犯错误概率的上界)确定临界值0k ; (2)利用公式,由观测数据计算得到随机变量2K 的观测值k ;(3)如果0k k ≥,就说有()()%100102⨯≥-k K P 的把握认为“X 与Y 有关系”(或说在犯错误的概率不超过()2k K P ≥的前提下认为“X 与Y 有关系”),否则就说样本观测数据没有提供“X 与Y 有关系”的充分证据(或说在犯错误的概率不超过()02k K P ≥的前提下不能认为“X 与Y 有关系”)。
人教版高数选修2-3第7讲:独立性检验与回归分析(学生版)
独立性检验与回归分析__________________________________________________________________________________ __________________________________________________________________________________1.了解变量间的相关关系,能根据给出的线性回归方程系数建立线性回归方程.2.了解独立性检验(只要求2×2列联表)的基本思想、方法及其简单应用.3.了解回归分析的基本思想、方法及其简单应用.1.独立性检验(1)概念:用2χ统计量研究独立性问题的检验的方法称为独立性检验.(2)m×n列联表指有m行n列的列联表(3)必备公式2χ=2()()()()()n ad bca cb d a bc d-++++2.2χ统计量中的四个临界值经过对2χ统计量分布的研究,已经得到了四个经常用到的临界值:2.706、3.841、6.635、10.828.由2×2列联表计算出2χ,然后与相应的临界值进行比较,当2χ>2.706时,有______的把握说事件A与B有关.当2χ>3.841时,有______的把握说事件A与B有关.当2χ>6.635时,有______的把握说事件A与B有关.当2χ>10.828时,有______的把握说事件A与B有关.当2χ≤2.706时,认为事件A与B是无关的.3.回归分析(1)线性回归模型是指方程y a bxε=++,其中________称为确定性函数,____称为随机误差.(2)线性回归方程是指直线方程ˆˆˆya bx =+,其中回归截距ˆa 、回归系数ˆb 公式如下: ˆb=_______________________ˆa =_____________. (3)参数r 检验线性相关的程度,计算公式为r()()niix x yy --∑即ni ix ynx y-∑化简后r =x yxy x yS S -,其中y S 表示数据i y (i =1,2,…,n )的标准差,这个r 称为y 与x 的样本相关系数,简称相关系数,其中-1≤r ≤1.若r >0,则x 与y 是正相关,若r <0,则x 与y 是负相关,若r =0,则x 与y 不相关,r =1或r =-1时,x 与y 为完全线性相关.类型一.独立性检验例1:为考察高中生的性别与是否喜欢数学课程之间的关系,在某城市的某校高中生中随机抽取300名学生,得到如下列联表:判断性别与是否喜欢数学课程有关吗?用独立性检验方法判断父母吸烟对子女是否吸烟有影响.类型二.变量间的相关关系及线性回归方程例2:下列关系中,是带有随机性相关关系的是______. ①正方形的边长与面积之间的关系; ②水稻产量与施肥量之间的关系;③人的身高与年龄之间的关系;④降雪量与交通事故的发生率之间的关系.例3:某工业部门进行一项研究,分析该部门的产量与生产费用的关系,从这个工业部门内随机抽选了10个企业作样本,资料如下表:练习1:下列两个变量之间的关系哪个不是函数关系( ) (A)角度和它的余弦值 (B)正方形边长和面积(C)正n 边形的边数和顶点角度之和 (D)人的年龄和身高 类型三.相关检验与回归分析例3:某工业部门进行一项研究,分析该部门的产量与生产费用之间的关系.从这个工业部门内完成下列问题:(1)计算x 与y 的相关系数;(2)对这两个变量之间是否线性相关进行相关性检验;(3)设线性回归方程为ˆˆˆ,ybx a =+求系数ˆˆ,.a b试预测该运动员训练47次以及55次的成绩.1.在调查中学生近视情况中,某校男生150名中有80名近视,女生140名中有70名近视,在检验这些中学生眼睛近视是否与性别有关时用什么方法最有说服力( )A.期望与方差B.排列与组合C.独立性检验D.概率2.通过对2χ统计量的研究,得到了若干临界值,当2χ≤2.706时,我们认为事件A 与B ( ) A.有90%的把握认为A 与B 有关系 B.有95%的把握认为A 与B 有关系C.没有充分理由说明事件A 与B 有关系D.不能确定3.下列关于2χ的说法中正确的是( )A.2χ在任何相互独立问题中都可以用来检验有关还是无关 B.2χ的值越大,两个事件的相关性就越大C.2χ是用来判断两个分类变量是否有关系的随机变量,只对于两个分类变量适合D.2χ的观测值2χ的计算公式为2()()()()()n ad bc a b c d a c b d χ-=++++4.下列两个变量之间的关系是相关关系的是( ) A.角度和它的余弦值 B.正方形边长和面积 C.正n 边形的边数和顶点数 D.人的年龄和身高5.由一组样本数据1122(,),(,),,(,n x y x y x )n y 得到的回归方程为ˆˆˆ,ybx a =+下面说法不正确的是( )A.直线ˆˆˆybx a =+必经过点(,)x y B.直线ˆˆˆybx a =+至少经过点1122(,),(,),,(,)n n x y x y x y 中的一个点C.直线ˆˆˆybx a =+的斜率为1221()ni ii nii x y nxyxn x ==--∑∑D.直线ˆˆˆybx a =+和各点1122(,),(,),,(,)n n x y x y x y 的偏差平方和21ˆˆ[()]ni ii y bx a =-+∑是该坐标平面上所有直线与这些点的偏差平方和中最小的直线6.有甲、乙两个班级进行数学考试,按照大于等于85分为优秀,85分以下非优秀统计成绩,得到如下所示的列联表:已知在全部105人中随机抽取1人,成绩优秀的概率为27,则下列说法正确的是( )A .列联表中c 的值为30,b 的值为35B .列联表中c 的值为15,b 的值为50C .根据列联表中的数据,若按97.5%的可靠性要求,能认为“成绩与班级有关系”D .根据列联表中的数据,若按97.5%的可靠性要求,不能认为“成绩与班级有关系”7.为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:已知P (K 2≥3.841)≈0.05根据表中数据,得到K 2=50×(13×20-10×7)223×27×20×30≈4.844.则认为选修文科与性别有关系出错的可能性为________.8.某数学老师身高176cm ,他爷爷、父亲和儿子的身高分别是173cm 、170cm 和182cm.因儿子的身高与父亲的身高有关,该老师用线性回归分析的方法预测他孙子的身高为________cm._________________________________________________________________________________ _________________________________________________________________________________基础巩固1.(2014重庆卷)已知变量x与y正相关,且由观测数据算得样本平均数x=3,y=3.5,则由该观测数据算得的线性回归方程可能是()A.y^=0.4x+2.3 B.y^=2x-2.4C.y^=-2x+9.5 D.y^=-0.3x+4.42.(2014湖北卷)根据如下样本数据:得到的回归方程为y=bx+a,则()A.a>0,b>0B.a>0,b<0C.a<0,b>0D.a<0,b<03.(2014江西卷)某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量的关系,随机抽查52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是()及格2032A.成绩B.视力C.智商D.阅读量4.下列两个变量之间的关系是相关关系的是()A.正方体的棱长和体积B.角的弧度数和它的正弦值C.单产为常数时,土地面积和总产量D.日照时间与水稻的亩产量5.(2015福建)为了解某社区居民的家庭年收入所年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:根据上表可得回归直线方程ˆˆˆybx a =+,其中ˆˆˆ0.76,b a y bx ==-,据此估计,该社区一户收入为15万元家庭年支出为( )A.11.4万元B.11.8万元C.12.0万元D.12.2万元6.“回归”一词是在研究子女的身高与父母的身高之间的遗传关系时,由高尔顿提出的.他的研究结果是子代的平均身高向中心回归.根据他的结论,在儿子的身高y 与父亲的身高x 的回归方程ˆˆˆya bx =+中,ˆb ( ) A.在(-1,0)内B.等于0C.在(0,1)内D.在[1,+∞)7.线性回归方程ˆˆˆya bx =+中,回归系数ˆb 的含义是________________. 8.在一项打鼾与患心脏病是否有关的调查中,共调查了1978人,经过计算2χ=28.63,根据这一数据分析,我们有理由认为打鼾与患心脏病是________的.(填“有关”、“无关”)能力提升1.下列说法:①将一组数据中的每一个数据都加上或减去同一个常数后,方差不变;②设有一个线性回归方程y ^=3-5x ,变量x 增加1个单位时,y 平均增加5个单位;③设具有相关关系的两个变量x ,y 的相关系数为r ,则|r |越接近于0,x 和y 之间的线性相关程度越强;④在一个2×2列联表中,由计算得K 2的值,则K 2的值越大,判断两个变量间有关联的把握就越大.其中错误的个数是( ) A.0B.1C.2D.32.已知x 与y 之间的几组数据如下表:假设根据上表数据所得线性回归直线方程y =b x +a ,若某同学根据上表中的前两组数据(1,0)和(2,2)求得的直线方程为y =b ′x +a ′,则以下结论正确的是( )A.b ^>b ′,a ^>a ′B.b ^>b ′,a ^<a ′ C.b ^<b ′,a ^>a ′D.b ^<b ′,a ^<a ′3.对相关系数r ,下列说法正确的是( ) A.||r 越大,相关程度越小B.||r 越小,相关程度越大C.||r 越大,相关程度越小,||r 越小,相关程度越大D.||r≤1且||r越接近1,相关程度越大,||r越接近0,相关程度越小4.若由资料知,y对x呈线性相关关系,试求:(1)线性回归方程;(2)估计设备的使用年限为10年时,维修费用约是多少?5.若由资料可知y对x呈线性相关关系,试求:(1)线性回归直线方程;(2)根据回归直线方程,估计使用年限为12年时,维修费用是多少?6.在某医院,因为患心脏病而住院的665名男性病人中,有214人秃顶;而另外772名不是因为思心脏病而住院的男性病人中有175人秃顶,利用独立性检验方法判断秃顶与患心脏病是否有关系?课程顾问签字: 教学主管签字:。
回归分析与独立性检验
建构数学
• 1.计算公式
相关系数
r=
(x
i=1 n i=1
n
i
- x)(yi - y)
n
x y
i1
n
i i
nxy
_ _
(xi - x)2 (yi - y)2
i=1
_ 2 n _ 2 n 2 2 xi n x yi n y i1 i1
y a bx
其中a+bx是确定性函数, 是随机误差
注: 产生的主要原因:
(1)所用确定性函数不恰当; (2)忽略了某些因素的影响; (3)观测误差。
正相关
负相关
散点图只是形象地描述点的分布情况,它的“线性”是否 明显只能通过观察,要想把握其特征,必须进行定量的研究
问题:有时散点图的各点并不集中在一条 直线的附近,仍然可以按照求回归直线方 程的步骤求回归直线,显然这样的回归直 线没有实际意义。在怎样的情况下求得的 回归直线方程才有实际意义? 即建立的线性回归模型是否合理? 如何对一组数据之间的线性相关程 度作出定量分析?
1
1 5.54 5.54 1
2
2 7.52 15.04 4
3
3 10.02 30.06 9
4
4 11.73 46.92 16
5
5 15.69 78.45 25
6
6 16.12 96.72 36
7
7 16.98 118.9 49
8
8 4.50 21.06 13.08 168.5 64 560.1 204
2
K2 即在 H 0 成立的情况下, 大于6.635概率非常小, 近似为0.010 K2 现在的 =56.632的观测值远大于6.635,
回归分析、独立性检验
突破点8 回归分析、独立性检验(1)正相关:在散点图中,点散布在从左下角到右上角的区域. (2)负相关:在散点图中,点散布在从左上角到右下角的区域.(3)相关系数r :当r >0时,两变量正相关;当r <0时,两变量负相关;当|r |≤1且|r |越接近于1,相关程度越高,当|r |≤1且|r |越接近于0,相关程度越低.方程y ^=b^x +a ^称为线性回归方程,其中b ^=∑i =1nx i y i -n x -y -∑i =1nx 2i -n x 2,a ^=y --b ^x -.(x -,y -)称为样本中心点.(1) (2)求观测值:k =n (ad -bc )2(a +b )(c +d )(a +c )(b +d ).(3)根据临界值表,作出正确判断.如果k ≥k α,就推断“X 与Y 有关系”,这种推断犯错误的概率不超过α,否则就认为在犯错误的概率不超过α的前提下不能推断“X 与Y 有关系”.回访1 变量的相关性1.(2015·全国卷Ⅱ)根据下面给出的2004年至2013年我国二氧化硫年排放量(单位:万吨)柱形图,以下结论中不正确的是( )图8-1A .逐年比较,2008年减少二氧化硫排放量的效果最显著B .2007年我国治理二氧化硫排放显现成效C .2006年以来我国二氧化硫年排放量呈减少趋势D .2006年以来我国二氧化硫年排放量与年份正相关D [对于A 选项,由图知从2007年到2008年二氧化硫排放量下降得最多,故A 正确.对于B 选项,由图知,由2006年到2007年矩形高度明显下降,因此B 正确.对于C 选项,由图知从2006年以后除2011年稍有上升外,其余年份都是逐年下降的,所以C 正确.由图知2006年以来我国二氧化硫年排放量与年份负相关,故选D.]2.(2012·全国卷)在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =12x +1上,则这组样本数据的样本相关系数为( )A .-1B .0 C.12D .1D [样本点都在直线上时,其数据的估计值与真实值是相等的,即y i =y ^i ,代入相关系数公式r =1-∑i =1n(y i -y ^i )2∑i =1n (y i -y )2=1.]3.(2015·全国卷Ⅰ)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t)和年利润z (单位:千元)的影响.对近8年的年宣传费x i 和年销售量y i (i =1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.图8-2表中w i =x i ,w ]=18∑ i =1w i .(1)根据散点图判断,y =a +bx 与y =c +d x 哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程;(3)已知这种产品的年利润z 与x ,y 的关系为z =0.2y -x .根据(2)的结果回答下列问题:①年宣传费x =49时,年销售量及年利润的预报值是多少? ②年宣传费x 为何值时,年利润的预报值最大?附:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v =α+βu 的斜率和截距的最小二乘估计分别为β^=∑ni =1 (u i -u )(v i -v )∑ni =1 (u i -u )2,α^=v -β^u . [解] (1)由散点图可以判断,y =c +d x 适宜作为年销售量y 关于年宣传费x 的回归方程类型.2分(2)令w =x ,先建立y 关于w 的线性回归方程.由于d^=∑i =18(w i -w )(y i -y )∑i =18(w i -w )2=108.81.6=68,c ^=y -d^ w =563-68×6.8=100.6,4分所以y 关于w 的线性回归方程为y ^=100.6+68w , 因此y 关于x 的回归方程为y ^=100.6+68x .6分 (3)①由(2)知,当x =49时,年销售量y 的预报值y ^=100.6+6849=576.6, 年利润z 的预报值z ^=576.6×0.2-49=66.32.8分 ②根据(2)的结果知,年利润z 的预报值z ^=0.2(100.6+68x )-x =-x +13.6x +20.12.10分 所以当x =13.62=6.8,即x =46.24时,z ^取得最大值. 故年宣传费为46.24千元时,年利润的预报值最大.12分 回访2 独立性检验4.(2012·辽宁高考)电视传媒公司为了解某地区电视观众对某类体育节目的收视情况,随机抽取了100名观众进行调查.下面是根据调查结果绘制的观众日均收看该体育节目时间的频率分布直方图:图8-3将日均收看该体育节目时间不低于40分钟的观众称为“体育迷”. (1)根据已知条件完成下面的2×2列联表,并据此资料你是否认为“体育迷”与性别有关?(2)用随机抽样方法每次抽取1名观众,抽取3次,记被抽取的3名观众中的“体育迷”人数为X .若每次抽取的结果是相互独立的,求X 的分布列,期望E (X )和方差D (X ).附:K 2=n (n 11n 22-n 12n 21)2n 1+n 2+n +1n +2,[解] (1)“体育迷”有25人,从而2×2列联表如下:2分将2×2列联表中的数据代入公式计算,得k =n (n 11n 22-n 12n 21)2n 1+n 2+n +1n +2=100×(30×10-45×15)275×25×45×55=10033≈3.030.因为3.030<3.841,所以没有理由认为“体育迷”与性别有关.6分(2)由频率分布直方图知抽到“体育迷”的频率为0.25,将频率视为概率,即从观众中抽取一名“体育迷”的概率为14.8分由题意知X ~B ⎝ ⎛⎭⎪⎫3,14,从而X 的分布列为10分E (X )=np =3×14=34,D (X )=np (1-p )=3×14×34=916.12分题型分析:用、回归方程的求法和应用,难度中等.在一次抽样调查中测得样本的5组数据,得到一个变量y 关于x 的回归方程模型,其对应的数值如下表:(1)试作出散点图,根据散点图判断,y =a +bx 与y =kx +m 哪一个适宜作为变量y 关于x 的回归方程模型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立变量y 关于x 的回归方程; (3)根据(2)中所求的变量y 关于x 的回归方程预测:当x =3时,对应的y 值为多少?(保留四位有效数字)[解] (1)作出变量y 与x 之间的散点图,如图所示,2分由图可知变量y 与x 近似地呈反比例函数关系,那么y =kx +m 适宜作为变量y 关于x 的回归方程模型.4分(2)由(1)知y =k x +m 适宜作为变量y 关于x 的回归方程模型,令t =1x ,则y =kt +m ,由y 与x 的数据表可得y 与t 的数据表如下:……………6分作出y 与t 的散点图,如图所示.8分由图可知y 与t 近似地呈线性相关关系.又t -=1.55,y -=7.2,∑i =15t i y i =94.25,∑i =15t 2i =21.312 5,所以k =∑i =15t i y i -5t -y -∑i =15t 2i -5t 2=94.25-5×1.55×7.221.312 5-5×1.552≈4.134 4,m =y --k t -=7.2-4.134 4×1.55≈0.8,所以y =4.134 4t +0.8, 所以y 关于x 的回归方程为y =4.134 4x +0.8.10分(3)由(2)得y 关于x 的回归方程是y =4.134 4x +0.8,当x =3时,可得y =4.134 43+0.8≈2.178.12分1.正确理解计算b^,a ^的公式和准确的计算,是求线性回归方程的关键.其中线性回归方程必过样本中心点(x -,y -).2.在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程估计和预测变量的值.[变式训练1] (2016·石家庄二模)为了解某地区某种农产品的年产量x (单位:吨)对价格y (单位:千元/吨)和年利润z 的影响,对近五年该农产品的年产量和价格统计如下表:(1)求y 关于x 的线性回归方程y =bx +a ;(2)若每吨该农产品的成本为2千元,假设该农产品可全部卖出,预测当年产量为多少时,年利润z 取到最大值?(保留两位小数)参考公式:b^=∑i =1n(x i -x -)(y i -y -)∑i =1n (x i -x -)2=∑i =1nx i y i -n x -y -∑i =1nx 2i -n x 2,a ^=y --b ^x -.[解] (1)x -=3,y -=5,2分∑i =15x i =15,∑i =15y i =25,∑i =15x i y i =62.7,∑i =15x 2i =55,解得b^=-1.23,a^=8.69,4分 所以y ^=8.69-1.23x .6分(2)年利润z =x (8.69-1.23x )-2x =-1.23x 2+6.69x ,10分所以当x =2.72,即年产量为2.72吨时,年利润z 取得最大值.12分题型分析:概率统计等知识交汇,是潜在的命题点之一,须引起足够的重视.(2016·山西四校第二次联考)心理学家分析发现视觉和空间能力与性别有关,某数学兴趣小组为了验证这个结论,从兴趣小组中按分层抽样的方法抽取50名同学(男30,女20),给所有同学几何题和代数题各一题,让各位同学自由选择一道题进行解答.选题情况如下表:(单位:人)(1) (2)经过多次测试后,甲每次解答一道几何题所用的时间在5~7分钟,乙每次解答一道几何题所用的时间在6~8分钟,现甲、乙各解同一道几何题,求乙比甲先解答完的概率;(3)现从选择做几何题的8名女生中任意抽取2人对她们的答题情况进行全程研究,记丙、丁2名女生被抽到的人数为X ,求X 的分布列及数学期望E (X ).附表及公式:K 2=(a +b )(c +d )(a +c )(b +d ),n =a +b +c +d .[解题指导] 计算k ――→查表下结论――→几何概型求概率――→超几何分布求X 的分布列及E (X ).[解] (1)由表中数据得k =50×(22×12-8×8)230×20×30×20=509≈5.556>5.024,2分所以有97.5%的把握认为视觉和空间能力与性别有关.3分(2)设甲、乙解答一道几何题的时间分别为x ,y 分钟,则⎩⎨⎧5≤x ≤7,6≤y ≤8表示的平面区域如图所示.设事件A 为“乙比甲先做完此道题”,则x >y 满足的区域如图中阴影部分所示.5分由几何概型可得P (A )=12×1×12×2=18,即乙比甲先解答完的概率为18.7分(3)由题可知,在选择做几何题的8名女生中任意抽取2人的方法有C28=28种,其中丙、丁2人没有一个人被抽到的有C26=15种;恰有一人被抽到的有C12·C16=12种;2人都被抽到的有C22=1种.所以X的可能取值为0,1,2,P(X=0)=1528,8分P(X=1)=1228=37,9分P(X=2)=128.10分X的分布列为:11分E(X)=0×1528+1×37+2×128=12.12分求解独立性检验问题时要注意:一是2×2列联表中的数据与公式中各个字母的对应,不能混淆;二是注意计算得到k之后的结论.[变式训练2](名师押题)2016年1月1日起全国统一实施全面二孩政策.为了解适龄民众对放开生育二孩政策的态度,某市选取70后和80后作为调查对象,随机调查了100人,得到数据如下表:(1)以这100该市70后公民中随机抽取3人,记其中生二孩的人数为X,求随机变量X的分布列和数学期望;(2)根据调查数据,是否有90%以上的把握认为“生二孩与年龄有关”,并说明理由.参考数据:11参考公式:K 2=(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d[解] (1)由已知得70后“生二孩”的概率为23,并且X ~B ⎝ ⎛⎭⎪⎫3,23,所以P (X =k )=C k 3⎝ ⎛⎭⎪⎫23k ⎝ ⎛⎭⎪⎫133-k(k =0,1,2,3),4分 X 的分布列为6分所以E (X )=3×23=2.8分(2)由表中数据知k =100×(30×10-45×15)275×25×45×55=10033≈3.030>2.706,10分所以有90%以上的把握认为“生二孩与年龄有关”.12分。
相关性最小二乘估计回归分析与独立性检验
相关性最小二乘估计回归分析与独立性检验一、相关性相关性是指两个变量之间的相互关系程度。
在统计学中,常用的衡量相关性的指标是相关系数。
相关系数可以分为皮尔逊相关系数和斯皮尔曼相关系数。
1. 皮尔逊相关系数(Pearson correlation coefficient):用于测量两个连续变量之间的线性相关性。
其取值范围为[-1,1],其中1表示完全正相关,-1表示完全负相关,0表示无相关性。
2. 斯皮尔曼相关系数(Spearman correlation coefficient):用于测量两个变量之间的单调相关性,适用于变量类型是有序或等级的情况。
与皮尔逊相关系数类似,斯皮尔曼相关系数的取值范围也是[-1,1]。
二、最小二乘估计最小二乘估计是一种常用的参数估计方法,主要用于线性回归模型。
其思想是通过最小化残差平方和来寻找最优的模型参数。
在回归分析中,最小二乘估计可以帮助我们找到最佳拟合线,使得观测值与预测值之间的差异最小化。
具体而言,最小二乘估计的步骤如下:1.指定一个线性回归模型,并假设模型中的参数。
2.根据观测值和估计的参数计算预测值。
3.计算观测值与预测值之间的差异,即残差。
4.最小化残差平方和,得到最优的模型参数。
最小二乘估计的优点是计算简单,容易理解。
然而,最小二乘估计也有一些局限性,如对异常值敏感等。
三、回归分析回归分析是一种用于研究两个或多个变量之间关系的统计方法。
在回归分析中,自变量用于预测因变量的取值。
回归分析可以帮助我们了解变量之间的相互作用,并可以用于预测未来值。
回归分析主要有两种类型:线性回归和非线性回归。
线性回归假设自变量和因变量之间存在线性关系,而非线性回归假设关系可以是任意的。
回归分析的步骤如下:1.选择回归模型:确定自变量和因变量之间的关系类型。
2.收集数据:收集自变量和因变量的观测值。
3.估计参数:使用最小二乘估计等方法估计回归方程中的参数。
4.检验拟合优度:通过计算残差平方和等指标来评估回归模型的拟合优度。
正态分布回归分析独立性检验
正态分布回归分析独立性检验
在进行回归分析时,通常会假设误差项服从正态分布,是一个独立同分布的随机变量。
这个假设在很多情况下是合理的,特别是当样本容量较大时,中心极限定理保证了误差项的正态分布。
为了验证误差项是否满足正态分布的假设,我们可以利用正态分布的统计方法进行检验。
下面介绍两种常用的检验方法:基于直方图和基于正态概率图。
1.基于直方图的检验方法
基于直方图的检验方法通过绘制误差项的直方图,观察其分布形态是否接近正态分布。
具体步骤如下:
1)将残差(误差项)按照大小排序。
2)将排序后的残差分为k个区间,计算每个区间中的残差频数。
3)绘制直方图,观察残差分布是否近似于正态分布。
若直方图呈现钟型曲线,说明残差近似满足正态分布假设,否则不能满足正态分布假设。
2.基于正态概率图的检验方法
基于正态概率图的检验方法通过绘制误差项的正态概率图,观察其是否呈现近似直线的趋势。
1)将残差按照大小排序。
2)计算每个残差在正态分布下对应的累积概率。
3)绘制散点图,横坐标为残差的标准正态分位数,纵坐标为残差对应的累积概率。
4)观察散点图是否近似于一条直线。
若散点图近似直线,则说明残差近似满足正态分布假设,否则不能满足正态分布假设。
正态分布回归分析独立性检验的目的是验证回归模型中误差项是否满足正态分布的假设,如果不满足,则可能需要对模型进行修正,或者使用非参数回归模型等更适合的方法。
因此,对于从事回归分析的教师来说,熟练掌握正态分布回归分析独立性检验方法是非常重要的。
回归方程和独立性检验知识点
回归分析和独立性检验一、回归分析1、回归直线方程 a x b yˆˆˆ+= x 叫做解释变量,y 叫做预报变量其中∑∑==---=ni i ni i ix x y y x xb121)())((ˆ=∑∑==--n i ini ii x n x yx n yx 1221由最小二乘法得出,考试时给出此公式中的一个x b y aˆˆ-= 此式说明:回归直线过样本的中心点)(y x , ,也就是平均值点; 2、几条结论:1回归直线过样本的中心点)(y x ,;2b>0时,y 与x 正相关,散点图呈上升趋势;b<0时,y 与x 负相关,散点图呈下降趋势; 3斜率b 的含义举例:如果回归方程为y=+2, 说明x 增加1个单位时,y 平均增加个单位; 如果回归方程为y=-+2,说明x 增加1个单位时,y 平均减少个单位; 4相关系数r 表示变量的相关程度; 范围:1≤r ,即 11≤≤-rr 越大.,相关性越强.;0>r 时,y 与x 正相关;0<r 时,y 与x 负相关;5相关指数2R 表示模型的拟合效果; 范围:]10[2,∈R 2R 越大.,拟合效果越好.,这时:残差平方和越小,残差点在带状区域内的分布比较均匀,带状区域宽度越窄,拟合精度越高;2R 表示解释变量x 对于预报变量y 变化的贡献率;例如:64.02≈R ,表明“x 解释了64%的y 变化”,或者说“y 的差异有64%是由x 引起的”;6线性回归模型 e a bx y ++=, 其中e 叫做随机误差;y 是由x 和e 共同确定的;二、独立性检验1、原理:假设性检验类似反证法原理;一般情况下:假设分类变量X 和Y 之间没有关系,通过计算2K 值,然后查表对照相应的概率P, 发现这种假设正确的概率P 很小,从而推翻假设,最后得出X 和Y 之间有关系的可能性为1-P, 也就是“X 和Y 有关系”;表中的k 就是2K 的观测值,即2K k = 2、2⨯2列联表:))()()(()(22d b c a d c b a bc ad n K ++++-=考试给出部分对照表考试时会给出用到的一部分数据:3、范围:),0(2+∞∈K ; 性质:2K越大.,说明变量间越有关系...;三、典型例题123产7吨产品时,消耗的煤约为吨;例2、为了考察某药物预防疾病的效果,现对105人进行试验调查,得到2⨯2列联表;试判断:服用药物和患病之间是否有关系解:105=n ,10=a ,45=b ,20=c ,30=d≈> 提示:运算时尽量先约分化简,再计算所以,有1-=%的把握认为服用药物和患病之间有关系;。
方法技巧专题25回归分析与独立性检验
方法技巧专题25回归分析与独立性检验回归分析与独立性检验是统计学中常用的两种方法技巧。
本文将从基本概念、执行步骤、解析方法和实际应用等方面详细介绍回归分析与独立性检验。
一、回归分析回归分析是一种用来描述和解释变量之间相互关系的统计方法。
在回归分析中,一个或多个自变量被用来预测或解释一个或多个因变量。
基本概念包括以下几点:1. 自变量(independent variable):研究者控制和操作的变量,用来预测因变量。
2. 因变量(dependent variable):研究者感兴趣的变量,也是我们希望预测或解释的变量。
3. 简单线性回归(simple linear regression):只有一个自变量和一个因变量之间的关系。
4. 多元回归(multiple regression):有两个或两个以上自变量和一个因变量之间的关系。
执行步骤如下:1.收集数据:收集自变量和因变量的数据。
2.绘制散点图:绘制自变量和因变量之间的散点图,观察两个变量之间的关系。
3.拟合回归线:通过回归线拟合数据,找到自变量和因变量之间的最佳关系。
4.计算回归方程:根据回归线的拟合情况,计算出回归方程,用来预测或解释因变量。
常用解析方法有以下几种:1.最小二乘法:通过最小化实际观测值与回归方程预测值之间的误差平方和,来确定回归方程的参数。
2. 相关系数(correlation coefficient):用来衡量自变量和因变量之间的线性相关性强弱,常用Pearson相关系数进行计算。
3.回归方程显著性检验:用来判断回归方程是否显著,即自变量是否对因变量有显著影响。
二、独立性检验独立性检验是用来检验两个或多个分类变量之间是否存在相关性的统计方法。
基本概念包括以下几点:1. 分类变量(categorical variable):变量的取值只能是一些有限的标称级别,而不能用具体的数值表示。
2. 单变量独立性检验(univariate independence test):只包括一个分类变量和一个因变量的关系。
【高考数学总复习】:回归性分析与独立性检验(知识点讲解+真题演练+详细解答)
量,例如某同学的数学成绩与化学成绩。
2.线性回归分析 (1) 散点图:将样本中的各对数据在直角坐标系中描点而得到的图形叫做散点图,它直观地 描述了两个变量之间是否有相关关系,是判断两个变量相关性的重要依据。 (2) 回归直线:散点图中点的整体分布在一条直线左右,则称这两个变量之间具有线性相关
(a b)(c d)(a c)(b d )
通过对统计量 K2 的研究,一般情况下认为:
①当 K 2 ≤3.841 时,认为变量 X 与 Y 是无关的。
②当 K 2 >3.841 时,有 95%的把握说变量 X 与 Y 有关;
④ 当 K 2 >6.635 时,有 99%的把握说变量 X 与 Y 有关;
定在多大程度上可以认为“两个分类变量有关系”的方法称为两个分类变量的独立性检验。
2.分类变量的理解: 分类变量是说明事物类别的一个名称,其取值是分类数据。如“性别”就是一个分类变 量,其变量值为“男”或“女”;“行业”也是一个分类变量,其变量值可以为“零售 业”,说明 X 与 Y 无关的把握越小
6. 右表是对与喜欢足球与否的统计列联表依据表中的数据,得到( )
A. K 2 9.564 B. K 2 3.564 C. K 2 2.706 D. K 2 3.841
7. 对两个分类变量 A、B 的下列说法中正确的个数为( ). ①A 与 B 无关,即 A 与 B 互不影响;②A 与 B 关系越密切,则 K2 的值就越大;③K2
x yw
46.6 563 6.8
8
(xi x )2
i 1
精品教案:独立性检验与回归分析
独立性检验与回归分析【知识网络】1.了解独立性检验(只要求2×2列联表)的基本思想、方法及初步应用。
了解假设检验的基本思想,掌握用χ2统计量进行独立性检验的操作方法。
2.了解线性回归的基本思想、方法及初步应用(对用配方法导出回归系数公式不作要求)。
【典型例题】[例1](1)用独立性检验来考察两个变量x与y是否有关系,当统计量2χ的值()A.越大,“x与y是有关系的”成立可能性越小B.越大,“x与y是有关系的”成立可能性越大C.越小,“x与y是没有关系的”成立可能性越小D.与“x与y有关系”成立的可能性无关(2)设两个变量x和y之间具有线性相关关系,它们的相关系数为r,y关于x的回归直线方程为ˆy=kx+b,则()A.b与r的符号相同B.k与r的符号相同C.b与r的符号相反D.k与r的符号相反χ的范围是3.841<2χ<6.635,则(下表是2χ的(3)已知随机事件A与B,经计算得到2临界值表,供参考)()ArrayA.有95% 把握说事件A与B有关B.有95% 把握说事件A与B无关C.有99% 把握说事件A与B有关D.有99% 把握说事件A与B无关(4)样本相关系数r的取值范围是.(5)若一组观测值(x1,y1),(x2,y2),…,(x n,y n)之间满足y i=a+bx i+εi(i=1,2,…,n),若εi =0恒成立,r为相关系数,则r2= .[例2] 某校高二(1)、(2)班共100名同学,在分科选择中,一半同学(其中男生38人)选择了物理,另一半(其中男生15人)选择了历史.你能否有99%的把握说选科与性别有关?[例3] 为了了解某地母亲身高x与女儿身高y的相关关系,随机测得10对母女的身高如下表所示:试对x与y进行回归分析,并预测当母亲身高为159cm时女儿的身高是多少?[例4] 在对人们的休闲方式的一次独立性检验中,共调查了124人,其中女性70人,男性54人,女性中有43人主要休闲方式是看电视,另外27人主要休闲方式是运动;男性中有21人主要休闲方式是看电视,另外33人主要休闲方式是运动.(1)根据以上数据建立一个2×2的列联表;(2)试判断性别与休闲方式是否有关系(可靠性不低于95﹪).【课内练习】1.通常情况下,气温与海拔高度有关系,若要研究这种关系,可以通过()A.随机抽样B.二维条形图 C.回归分析D.独立检验2.给出下列关系:①考试号与考生考试成绩;②勤能补拙;③水稻产量与气候;④正方形的边长与正方形的面积。
回归分析与独立性检验
5
6
190
200
68.1 71.3
12939 14260
11
12
250
260
86.4 89.7
21600 23322
返回目录
x = 205, y = 72.6
∑ ∑ 12
12
x
2 i
= 518 600,
yi2 = 54 572.94,
i =1
i =1
∑12
xi yi = 182 943
i=1
r=
182943 -12× 205×72.6
返回目录
5.列联表
假设有两个分类变量X和Y,它们的值域分别为{x1,x2} 和{y1,yHale Waihona Puke },其样本频数列联表为y1
y2
总计
x1
a
b
a+b
x2
c
d
总计 a+c
b+d
c+d a+b+c+d
此表称为2×2列联表. 根据观测数据计算由公式
K2
=
(a
+
n(ad - bc)2 b)(c + d)(a + c)(b
回归分析与独立性检验
1.随机误差
由于所有的样本点不共线,而只是散布在某一条直
线的附近,实际上,y=bx+a+e,e是y与 yˆ=bx+a之间
的误差.通常e为随机变量,称为随机误差,它的均值
E(e)=0,方差D(e)=σ2>0.这样线性回归模型的完整表
达式为
{ y=bx+a+e E(e)=0,D(e)=σ2
返回目录
(完整版)回归方程和独立性检验知识点讲解
回归分析和独立性检验一、回归分析1、回归直线方程 a x b yˆˆˆ+= (x 叫做解释变量,y 叫做预报变量) 其中∑∑==---=ni ini i ix xy y x xb121)())((ˆ=∑∑==--ni ini ii x n xyx n yx 1221(由最小二乘法得出,考试时给出此公式中的一个)x b y aˆˆ-= ( 此式说明:回归直线过样本的中心点)(y x , ,也就是平均值点。
) 2、几条结论:(1)回归直线过样本的中心点)(y x ,。
(2)b>0时,y 与x 正相关,散点图呈上升趋势;b<0时,y 与x 负相关,散点图呈下降趋势。
(3)斜率b 的含义(举例):如果回归方程为y=2.5x+2, 说明x 增加1个单位时,y 平均增加2.5个单位; 如果回归方程为y=-2.5x+2,说明x 增加1个单位时,y 平均减少2.5个单位。
(4)相关系数r 表示变量的相关程度。
范围:1≤r ,即 11≤≤-rr 越大.,相关性越强.。
0>r 时,y 与x 正相关;0<r 时,y 与x 负相关。
(5)相关指数2R 表示模型的拟合效果。
范围:]10[2,∈R 2R 越大.,拟合效果越好.,(这时:残差平方和越小,残差点在带状区域内的分布比较均匀, 带状区域宽度越窄,拟合精度越高)。
2R 表示解释变量x 对于预报变量y 变化的贡献率。
例如:64.02≈R ,表明“x 解释了64%的y 变化”,或者说“y 的差异有64%是由x 引起的”。
(6)线性回归模型 e a bx y ++=, 其中e 叫做随机误差。
(y 是由x 和e 共同确定的。
)二、独立性检验1、原理:假设性检验(类似反证法原理)。
一般情况下:假设分类变量X 和Y 之间没有关系,通过计算2K 值,然后查表对照相应的概率P , 发现这种假设正确的概率P 很小,从而推翻假设,最后得出X 和Y 之间有关系的可能性为(1-P), 也就是“X 和Y 有关系”。
回归分析与独立性检验
回归分析与独立性检验知识要点及解析1.函数关系与相关关系的区别?函数关系是一种确定性关系,而相关关系是一种非确定性关系.2.回归公式∑∑∑∑====--=---=ni ini ii ni ini iix n xyx n y x x x y yx x b1221121)())((ˆ x b y a ˆˆ-= a x b yˆˆˆ+= 3.回归分析的步骤?回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法, 其步骤:收集数据→作散点图→求回归直线方程→利用方程进行预报.4.回归直线的性质 a x by ˆˆ+= ⑴回归直线 过样本点的中心()y x ,其中解释变量x 的平均数为: ∑==n i i x n x 11 预报变量y 的平均数为: ∑==ni i y n y 11⑵回归直线的斜率的估计值bˆ的意义:解释变量x 每增加一个单位,预报变量y 就增加bˆ个单位. 5.求线性回归方程的五个步骤: ⑴计算y x x y x 、、、2⑵计算∑=ni ii yx 1⑶计算∑=ni ix12⑷代入系数公式求bˆ⑸代入公式计算a ˆ 例题1:下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x (吨)与相应的能耗y (吨标准煤)的几组数据:⑴画出散点图;⑵求出线性回归方程a x b yˆˆˆ+= ⑶已知该厂技改前100吨甲产品的生产能耗为90吨标准煤,试根据(2)问求出的线性回归方程预测(估计)生产100吨甲产品的生产能耗比技改前降低多少吨标准煤?例题2:从某大学中随机选取8名女大学生,其身高和体重数据如表所示:⑴画出散点图;⑵求出根据身高预报体重的回归方程a x b yˆˆˆ+= ⑶根据以上回归方程预测一名身高为172cm 的女大学生的体重.例题3:下表是某厂1~4月份用水量(单位:百吨)的一组数据,由散点图可知:用水量y 与月份x 之间有较好的线性相关关系,其线性回归方程为a x yˆ7.0ˆ+-=, 请你预测该厂5月份的用水量大约为多少百吨?6.线性回归模型y=bx+a+e 中随机误差e 产生的原因?⑴选用的函数模型不恰当引起的误差 ⑵忽略了某些因素的影响 ⑶存在观测误差 7.如何发现数据中的错误?先分别计算出残差a x b y y y e ii i i ˆˆˆˆ--=-=然后选取横坐标为编号或解释变量x 或预报变量y,纵坐标为残差,作出残差图;最后观察:如果样本点的残差较大(落在带状区域外),说明数据的采集有可能错误。
第54讲变量的相关性回归分析独立性检验
第54讲变量的相关性回归分析独立性检验变量的相关性、回归分析和独立性检验是统计学中常用的方法,用于研究和分析变量之间的关系和影响。
相关性是用来描述两个变量之间关系程度的一种统计指标。
变量之间的相关性可以是正相关(当一个变量增加时,另一个变量也增加)、负相关(当一个变量增加时,另一个变量减少)或者没有相关性。
常用的相关性指标有皮尔逊相关系数和斯皮尔曼相关系数等。
皮尔逊相关系数适用于连续型变量,而斯皮尔曼相关系数适用于有序分类变量或者非线性关系的连续型变量。
回归分析是用来研究一个或多个自变量如何影响一个因变量的方法。
回归分析可以用来预测因变量的取值,并确定自变量对因变量的贡献程度。
线性回归是常用的回归分析方法,它假设自变量和因变量之间的关系可以用线性函数来描述。
回归分析还可以进行多元回归,考虑多个自变量对因变量的影响。
独立性检验用来检验两个或多个变量之间是否存在独立关系。
独立性检验常用于分析两个分类变量之间的关系,可以确定是否有足够的证据支持两个变量之间的关系不是偶然的。
常用的独立性检验方法有卡方检验和Fisher精确检验等。
在实际应用中,相关性、回归分析和独立性检验经常被用来研究和解释数据。
例如,在市场研究中,可以使用相关性分析来探索两个产品销售量之间的关系;在经济学中,可以使用回归分析来研究影响国内生产总值的因素;在流行病学中,可以使用独立性检验来研究吸烟和肺癌之间的关系。
总之,变量的相关性、回归分析和独立性检验是统计学重要的工具和方法,可以帮助研究者深入分析和理解变量之间的关系和影响。
通过运用这些方法,我们可以进行更准确的预测和推断,为决策提供更可靠的依据。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
【解析】(1)由题目中的数据得如下表格:
i xi yi x iy i i xi yi x iy i
1
150 56.9
2
160 58.3
3
170 61.6
4
180 64.6
5
190 68.1
6
200 71.3
8535
7 210 74.1 15561
【解析】根据题目所给的数据得到如下2×2列联表:
患心脏病 患其他病 合计
秃顶
不秃顶 合计
214
451 665
175
597 772
389
1048 1437
根据表中的数据,得到:K2=
1 437 × (214 × 597 - 175 × 451)2 ≈ 16.373 > 6.635. 389 × 1 048 × 665 × 772
12
∑y
i =1
12
2 i
= 54 572.94,
∑x
i =1
i
yi = 182 943
r=
182943 - 12 × 205 × 72.6 (518600 - 12 × 205 )( 54572.4 - 12 × 72.6 )
2 2
≈ .999 0
查得r0.05=0.576, 因r>r0.05,说明变量Y与x之间具有线性相关关系. 返回目录
所以有99%的把握认为“秃顶与患心脏病有关”. 返回目录
(1)独立性检验的关键是准确地计算 K2,在计算时,要充分利用2×2列联表. (2)学习相关和无关的判定一定要结合实际问题, 从现实中寻找例子,从而增强学习数学的兴趣.
返回目录
*对应演练*
为考察高中生的性别与是否喜欢数学课程之间的关系, 在某城市的某校高中生中随机抽取了300名学生,得到 如下2×2列联表:
37.0 39.0 9 10
城市居民年收入(亿元) 38.0
39.0
42.0
43.0
44.0
44.6 46.0
48.0 51.0
返回目录
(1)画出散点图;
(2)如果散点图中的各点大致分布在一条直线附近, 求Y与x之间的回归直线方程.
(1)略
ˆ (2) y =1.447x-15.843.
返回目录
考点二
返回目录
考点一 相关与无关的判定 每立方米混凝土的水泥用量x(单位:kg)与28天后混凝土 的抗压强度Y(单位:kg/cm2)之间的关系有如下数据:
X 150
Y
56.9
160
58.3
170 180 190 200 210 220 230 240 250 260
61.6 64.6 68.1 71.3 74.1 77.4 80.2 82.6 86.4 89.7
182943 - 12 × 205 × 72.6 (2) b = ≈ .304 0 2 518600 - 12 × 205
a=y-bx=10.28. 于是所求的线性回归方程是:
ˆ y =0.304x+10.28.
返回目录
为了进行相关性检验,通常将有关数据列成表格, 然后借助于计算器算出各个量,为求回归直线方
学案5
独立性检验与
回归分析
名师伴你行
考点一 考点二
一、卡方(χ2)
y1
x1 x2 a
C a+c
y2
b d
b+d
合计
a+b
C+d
合计
a+b+c+d
返回目录
K2
n(ad- bc) 2 = . (a+ b)(c+ d)(a+ c)(b+ d)
二、三个临界值: 2.706, 3.841与6.635 经过对K2统计量分布的研究,已经得到了两个临界 值: 2.706,3.841与6.635 .当根据具体的数据算出的 K2>2.706 时,有95%的把握说事件A与B有关;当 K2>6.635 时,有99%的把握说事件A与B有关;当 K2≤2.706 时,认为事件A与B是无关的.
返回目录
程扫清障碍.
返回目录
*对应演练*
在10年期间,一城市居民的年收入与某种商品的销售额 之间的关系有如下数据:
第几年 某商品销售额(万元) 第几年 某商品销售额(万元) 1 25.0 6 41.0 2 3 4 5
城市居民年收入(亿元) 32.2
31.1
30.0 7
32.9
34.0 8
35.8 37.1
返回目录
(1)对变量Y与x进行相关性检验; (2)如果Y与x之间具有线性相关关系,求回归直 线方程. 【分析】 求回归直线方程和相关系数, 通常用计 算器来完成.在有的较专门的计算器中,可通过直接按 键得出回归直线方程的系数和相关系数 .而如果用一般
的科学计算器进行计算 ,则要先列出相应的表格 ,有
回归分析
在某医院,因为患心脏病而住院的665名男性病人中, 有214人秃顶,而另外772名不是因为患心脏病而住院
的男性病人中有175人秃顶.请用独立性检验方法判断
秃顶与患心脏病是否有关系?
【分析】首先由题目中的数据画出2×2列联表,
然后根据表中的数据算出K2的值,据K2的值就可以判 断秃顶与心脏病是否有关系. 返回目录
喜欢数学 不喜欢数学 合计
男
女 合计
37
35 72
85
143 228
122
178 300
判定性别与是否喜欢数学的关系.
经计算知K2≈4.514>3.841. ∴ 95%的把握可判定高 中生的性别与是否喜欢数学课程有关系. 返回目录
1.独立性检验可以先考虑定义,然后再考虑用K2值, 以及相关系数r的值进行判断. 2.在进行回归分析之前一定要进行相关性检验,可 以用散点图,也可以用相关系数.
9328
8 220 77.4 17028
10472
9 230 80.2 18446
11628
10 240 82.6 19824
12939
11 250 86.4 21600
14260
12 260 89.7 23322
返回目录
x = 205, y = 72.6
∑x
i =1
12
2 i
= 518 600,
返回目录
三、a与回归系数b的确定
(x ∑
i =1 n n i
ˆ b=
- x)(y i - y ) =
2 i - x)
x ∑y
i i ˆ , a = y - b x.
2
(x ∑
i =1
x ∑
i
2
i
-n x
相关系数 r =
x ∑y
i =1 n 2 2
i =1 n
i
- n xy
n 2 2
( ∑ i - n x )( ∑ i - n y ) x y
i =1 i =1
|r|≤1,并且|r|越接近1 r具有以下性质: ,线性 相关程度越强;|r|越接近0, 线性相关程度越弱 . 返回目录
四、相关检验的步骤
1.作统计假设:x与Y不具有线性相关关系. 2.根据小概率0.05与n-2在附表中查出r的一个临界值r0.05. 3.根据样本相关系数计算公式计算出r的值. 4.作统计推断.如果|r|>r0.05,表明有95%的把握认为x与 Y之间具有线性相关关系. 如果|r|≤r0.05,我们没有理由拒绝原来的假设.这时寻求回 归直线方程是毫无意义的.