第33讲 回归分析与独立性检验
回归方程和独立性检验知识点
回归方程和独立性检验知识点回归方程和独立性检验是统计学中重要的概念和方法。
回归方程是用于描述自变量和因变量之间关系的数学模型,而独立性检验则用于检验两个或多个变量之间是否存在独立关系。
以下将分别对回归方程和独立性检验进行详细介绍。
一、回归方程回归方程是用于描述因变量和自变量之间关系的数学模型,通常用于预测和解释变量之间的关系。
回归方程一般可以表示为:Y=β0+β1X1+β2X2+...+βkXk+ε其中,Y表示因变量,X1,X2,...,Xk为自变量,β0,β1,β2,...,βk为回归系数,ε为随机误差项。
回归方程中的回归系数表示自变量对因变量的影响程度,可以通过回归分析进行估计。
常见的估计方法包括最小二乘法和最大似然法。
最小二乘法是通过最小化观察值与回归方程估计值之间的差异来确定回归系数的方法。
最大似然法是通过最大化数据出现的概率来确定回归系数的方法。
回归方程的显著性检验可以用来判断回归方程是否具有统计意义。
常用的检验方法包括F检验和t检验。
F检验用于检验所有自变量的回归系数是否全为零,即检验回归方程是否合理。
t检验则用于检验单个自变量的回归系数是否为零,即检验自变量对因变量的影响是否显著。
此外,回归方程还可以通过残差分析检验模型的合理性。
残差是观测值与回归方程估计值之间的差异,残差分析可以用于检验回归方程是否具有线性和正态性假设,并检验是否存在异方差性和自相关等问题。
回归方程在实际应用中广泛使用,例如在经济学中用于分析经济变量之间的关系,在医学研究中用于确定影响健康指标的因素等。
二、独立性检验独立性检验是用于检验两个或多个变量之间是否存在独立关系的统计方法。
独立性检验可以帮助我们了解因素之间的相互关系,从而在实际问题中作出合理的推断和决策。
常用的独立性检验方法包括卡方检验和Fisher精确检验。
卡方检验是用于检验两个分类变量之间是否相互独立的方法。
例如,我们可以使用卡方检验来研究性别和喜好之间是否存在关联。
回归分析与独立性检验
建构数学
• 1.计算公式
相关系数
r=
(x
i=1 n i=1
n
i
- x)(yi - y)
n
x y
i1
n
i i
nxy
_ _
(xi - x)2 (yi - y)2
i=1
_ 2 n _ 2 n 2 2 xi n x yi n y i1 i1
y a bx
其中a+bx是确定性函数, 是随机误差
注: 产生的主要原因:
(1)所用确定性函数不恰当; (2)忽略了某些因素的影响; (3)观测误差。
正相关
负相关
散点图只是形象地描述点的分布情况,它的“线性”是否 明显只能通过观察,要想把握其特征,必须进行定量的研究
问题:有时散点图的各点并不集中在一条 直线的附近,仍然可以按照求回归直线方 程的步骤求回归直线,显然这样的回归直 线没有实际意义。在怎样的情况下求得的 回归直线方程才有实际意义? 即建立的线性回归模型是否合理? 如何对一组数据之间的线性相关程 度作出定量分析?
1
1 5.54 5.54 1
2
2 7.52 15.04 4
3
3 10.02 30.06 9
4
4 11.73 46.92 16
5
5 15.69 78.45 25
6
6 16.12 96.72 36
7
7 16.98 118.9 49
8
8 4.50 21.06 13.08 168.5 64 560.1 204
2
K2 即在 H 0 成立的情况下, 大于6.635概率非常小, 近似为0.010 K2 现在的 =56.632的观测值远大于6.635,
回归分析与独立性检验
回归分析与独立性检验一.考纲目标利用散点图判断变量之间是否存在相关关系;求回归直线方程和利用回归直线作出估计;独立性检验. 二.知识梳理1.两个变量的线性相关 (1)正相关.在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关. (2)负相关.在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关. (3)线性相关关系、回归直线.如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线. 2.回归方程 (1)最小二乘法求回归直线使得样本数据的点到它的距离的平方和最小的方法叫做最小二乘法. (2)回归方程方程y ^=b ^x +a ^是两个具有线性相关关系的变量的一组数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )的回归方程,其中a ^,b ^是待定参数.1122211()()()n ni i i i i i n n i ii i x x y y x y nxy b x x x nx a y bx====⎧---⎪⎪==⎨--⎪⎪=-⎩∑∑∑∑, ∑==n i i x n x 11,∑==ni i y n y 11 3.残差分析(1)残差:对于样本点(x 1,y 1),(x 2,y 2),…,(x n ,y n ),它们的随机误差为e i =y i -bx i -a ,i =1,2,…,n ,其估计值为e ^i =y i -y ^i =y i -b ^x i -a ^,i =1,2,…,n.e ^i 称为相应于点(x i ,y i )的残差.(2)相关指数R 2=1-∑i =1ny i -y ^i2∑i =1ny i -y2R 2越大,意味着残差平方和 越小 ,即模型的拟合效果越好R 2越小,残差平方和越大,即模型的拟合效果越差 .在线性回归模型中,R 2表示解释变量对于预报变量变化的贡献率,R 2越接近于1,表示回归的效果越好 . 4.独立性检验(1)分类变量:变量的不同“值”表示个体所属的不同类型,像这类变量称为分类变量. (2)列联表:列出两个分类变量的 频数表 ,称为列联表.假设有两个分类变量X 和Y ,它们的可能取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(称为2×2列联表)为2×2列联表y 1 y 2 总计 x 1 a b a +b x 2 c d c +d 总计a +cb +da +b +c +dK 2=2a +ba +cb +dc +d(其中n =a +b +c +d 为样本容量),则利用独立性检验判断表来判断“X 与Y 的关系”.三.考点逐个突破1.散点图与相关关系的判断例1. 在一组样本数据(x 1,y 1)、(x 2,y 2)、…、(x n ,y n )(n≥2,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n)都在直线y =12x +1上,则这组样本数据的样本相关系数为( )A .-1B .0 C.12D .1[答案] D[解析] 样本相关系数越接近1,相关性越强,现在所有的样本点都在直线y =12x +1上,样本的相关系数应为1.要注意理清相关系数的大小与相关性强弱的关系. 2.利用回归直线方程对总体进行估计例2.(1) 某化工厂为预测产品的回收率y ,需要研究它和原料有效成分含量x 之间的相关关系,现取8对观测值计算,得∑i =18x i =52,∑i =18y i =228,∑i =18x 2i=478,∑i =18x i y i =1849,则其回归直线方程为( )A.y ^=11.47+2.62x B.y ^=-11.47+2.62x C.y ^=2.62+11.47x D.y ^=11.47-2.62x[答案] A[解析] 由∑i =18x i =52,∑i =18y i =228知,x -=6.5,y -=28.5,b ^=∑i =18x i y i -8x-y-∑i =18x 2i -8x -2=1849-8×6.5×28.5478-8×6.52≈2.62, ∴a ^=y --b ^x -=28.5-2.62×6.5=11.47.(2)在某医学实验中,某实验小组为了分析某药物用药量与血液中某种抗体水平的关系,选取六只验动物进行血检,得到如下资料:动物编号 1 2 3 4 5 6 用药量x(单位) 1 3 4 5 6 8 抗体指标y(单位)3.43.73.84.04.24.3记s 为抗体指标标准差,若抗体指标落在(y -s ,y +s)内,则称该动物为有效动物,否则称为无效动物.研究方案规定先从六只动物中选取两只,用剩下的四只动物的数据求线性回归方程,再对被选取的两只动物数据进行检验.(1)求选取的两只动物都是有效动物的概率;(2)若选取的是编号为1和6的两只动物,且利用剩余四只动物的数据求出y 关于x 的线性回归方程为y ^=0.17x +a ,试求出a 的值;(3)若根据回归方程估计出的1号和6号动物抗体指标数据与检验结果误差都不超过抗体指标标准差,则认为得到的线性回归方程是可靠的.试判断(2)中所得线性回归方程是否可靠. 参考公式:样本数据x 1,x 2,…,x n 的标准差: S =1n[x 1-x-2+x 2-x-2+…+x n -x-2],其中x -为样本平均数.[解析] (1)y -=3.9,s≈0.31.故1、6号为无效动物,2、3、4、5号为有效动物. 记从六只动物中选取两只为事件A.所有可能结果为(1,2),(1,3),(1,4),(1,5),(1,6),(2,3),(2,4),(2,5),(2,6),(3,4),(3,5),(3,6),(4,5),(4,6),(5,6)共15种.满足题意的有(2,3),(2,4),(2,5),(3,4),(3,5),(4,5)共6种.故P(A)=615=25. (2)对于2、3、4、5号动物,x -=4.5,y -=3.925,代入y ^=0.17x +a 得a =3.16. (3)由y ^=0.17x +3.16得y ^1=3.33,y ^6=4.52.误差e 1=0.07,e 6=0.22,均比标准差s≈0.31小,故(2)中回归方程可靠. 3.独立性检验例3. (1)在吸烟与患肺病这两个分类变量的计算中,下列说法正确的是( )①若K 2的观测值满足K 2≥6.635,我们有99%的把握认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99人患有肺病;②从独立性检验可知有99%的把握认为吸烟与患病有关系时,我们说某人吸烟,那么他有99%的可能患有肺病;③从统计量中得知有95%的把握认为吸烟与患肺病有关系,是指有5%的可能性使得推断出现错误 A .① B .① C .③ D .②[答案] C[解析] ①推断在100个吸烟的人中必有99人患有肺病,说法错误,排除A ,B ,③正确.排除D ,选C.(2)通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:男 女 总计 爱好 40 20 60 不爱好 20 30 50 总计6050110由K 2=n ad -bc2a +bc +d a +c b +d 算得,K 2=110×40×30-20×20260×50×60×50≈7.8.附表:P(K 2≥k)0.050 0.010 0.001 k3. 8416.63510.828A .有99%以上的把握认为“爱好该项运动与性别有关”B .有99%以上的把握认为“爱好该项运动与性别无关”C .在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”D .在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关” [答案] A[解析] 根据独立性检验的定义,由K 2≈7.8>6.635可知,有99%以上把握认为“爱好该项运动与性别有关”.(3)为调查某地区老年人是否需要志愿者提供帮助,用简单随机抽样方法从该地区调查了500位老年人,结果如下:性别是否需要志愿者男 女 需要 40 30 不需要160270(1)估计该地区老年人中,需要志愿者提供帮助的老年人的比例;(2)能否有99%的把握认为该地区的老年人是否需要志愿者提供帮助与性别有关?(3)根据(2)的结论,能否提出更好的调查方法来估计该地区的老年人中,需要志愿者提供帮助的老年人的比例?说明理由.附:K 2=n ad -bc 2a +bc +d a +cb +d.[解析] (1)调查的500位老年人中有70位需要志愿者提供帮助,因此该地区老年人中,需要帮助的老年人的比例的估计值为70500=14%.(2)K 2=500×40×270-30×1602200×300×70×430≈9.967.由于9.967>6.635,所以有99%的把握认为该地区的老年人是否需要帮助与性别有关.(3)由(2)的结论知,该地区老年人是否需要帮助与性别有关,并且从样本数据能看出该地区男性老年人与女性老年人中需要帮助的比例有明显差异,因此在调查时,先确定该地区老年人中男、女的比例,再把老年人分成男、女两层并采用分层抽样方法比采用简单随机抽样方法更好.。
(整理)回归分析及独立性检验).
回归分析与独立性检验1.回归分析的含义是什么?有哪些基本步骤?线性回归模型怎样用表达式表示?产生随机误差的原因是什么?a b2.回归方程中与怎样求解?3.刻画回归效果的方式有哪些?(1)残差(2)残差图(3)残差图法2(4)残差平方和(5)相关指数R1.判一判(正确的打“√”,错误的打“×”)(1)在线性回归模型中,e是bx+a预报真实值y的随机误差,它是一个可观测的量. ( )(2)求线性回归方程前可以不进行相关性检验. ( )(3)在残差图中,纵坐标为残差,横坐标可以选为样本编号.( )2、一位母亲记录了儿子3~9岁的身高数据,并由此建立的身高与年龄的回归模型为 =7.19x+73.93,用这个模型预测这个孩子10岁时的身高,则下列说法正确的A.身高一定是145.83cmB.身高在145.83cm 以上C.身高在145.83cm 左右D.身高在145.83cm 以下有下列说法:①在残差图中,残差点比较均匀地落在水平的带状区域内,说明选用的模型比较合适;②用相关指数R 2来刻画回归的效果,R 2值越大,说明模型的拟合效果越好;③比较两个模型的拟合效果,可以比较残差平方和的大小,残差平方和越小的模型,拟合效果越好.其中正确命题的个数是A.0B.1C.2D.3【典例1】(1)(2014·合肥高二检测)已知一个回归方程为 =1.5x+45,x ∈{1,7,5,13,19},则 =A.9B.45C.58.5D.1.5(2)如图所示的是四个残差图,其中回归模型的拟合效果最好的是()yy(3)为研究质量x(单位:克)对弹簧长度y(单位:厘米)的影响,对不同质量的6个物体进行测量,数据如下表所示:出散点图,并求线性回归方程; ②求出R 2; ③进行残差分析.类型二 非线性回归分析【典例2】(1)两个变量的散点图如图,可考虑用如下函数进行拟合比较合理的A.y=a ·x bB.y=a+blnxC.y=a ·e bxD.y=a ·2)在一次抽样调查中,测得样本的5个样本点的数值如下表:hxe试写出y 与x 之间的回归方程.【易错误区】对回归系数的含义理解错误【典例】(2014·合肥高二检测)废品率x%和每吨生铁成本y(元)之间的回归直线方程为 =256+3x,表明 ( )A.废品率每增加1%,生铁成本增加259元B.废品率每增加1%,生铁成本增加3元C.废品率每增加1%,生铁成本平均每吨增加3元D.废品率不变,生铁成本为256元 【提升练习】1.(2014·梅州高二检测)在2012年8月15日那天,某物价部门对本市的5家商场的某商品的一天销售量价格进行调查,5家商场的售价x 元和销售量y 件之间的一组数据如下表所示:y由散点图可知,销售量y 与价格x 之间有较强的线性相关关系,其线性回归直线方程是:=-3.2x+40,且m+n=20,则其中的n= .2、设三组实验数据(x1,y 1),(x 2,y 2),(x 3,y 3)的回归直线方程是:=x+,使代数式[y1-(x 1+)]2+[y 2-(x 2+)]2+[y 3-(x 3+)]2的值最小时,=-,=,(,分别是这三组数据的横、纵坐标的平均数)若有七组数据列表如下:(1)求上表中前三组数据的回归直线方程.(2)若|y 1-(x 1+)|≤0.2,即称(x 1,y 1)为(1)中回归直线的拟合“好点”,求后四组数据中拟合“好点”的概率.1.分类变量的概念是什么?什么是列联表,什么是2×2列联表?2.等高条形图的优点是什么?如何利用等高条形图判断两个变量之间的关系?3.独立性检验的概念是什么?怎样进行独立性检验?1.判一判(正确的打“√”,错误的打“×”)(1)事件A与B的检验无关,即两个事件互不影响. ( )(2)事件A与B关系越密切,K 2就越大. ( )(3)K 2的大小是判断事件A与B是否相关的唯一数据. ( )2、下列不是分类变量的是( )A.近视B.身高C.血压D.药物反应类型一等高条形图的应用【典例1】(1)观察下列各图,其中两个分类变量X,Y之间关系最强的是( )(2)(2014·青岛高二检测)某学校对高三学生作了一项调查发现:在平时的模拟考试中,性格内向的学生426人中332人在考前心情紧张,性格外向的学生594人中有213人在考前心情紧张,作出等高条形图,利用图形判断考前心情紧张与性格类别是否有关系.类型二 独立性检验【典例2】(1)(2014·台州高二检测)在独立性检验中,统计量K 2有三个临界值:2.706,3.841和6.635;当K 2>3.841时,在犯错误的概率不超过0.05的前提下说明两个事件有关,当K 2>6.635时,在犯错误的概率不超过0.01的前提下说明两个事件有关,当K 2<2.706时,认为两个事件无关.在一项打鼾与患心脏病的调查中,共调查了2000人,经计算K 2=20.87,根据这一数据分析,认为打鼾与患心脏病之间 ( )A.在犯错误的概率不超过0.05的前提下认为两者有关B.约有95%的打鼾者患心脏病C.在犯错误的概率不超过0.01的前提下认为两者有关D.约有99%的打鼾者患心脏病(2)(2014·执信高二检测)某食品厂为了检查甲乙两条自动包装流水线的生产情况,随机在这两条流水线上各抽取40件产品作为样本称出它们的质量(单位:克),质量值落在(495,510]的产品为合格品,否则为不合格品.表1是甲流水线样本频数分布表,图1是乙流水线样本频率分布直方图.①根据上表数据作出甲流水线样本频率分布直方图;②若以频率作为概率,试估计从两条流水线分别任取1件产品,该产品恰好是合格品的概率分别是多少;③由以上统计数据作出2×2列联表,并回答在犯错误的概率不超过多少的前提下认为“产品的包装质量与两条自动包装流水线的选择有关”.【提升练习】1.(2014·德州高二检测)假设两个分类变量X与Y,它们的取值分别为{x1,x2},{y1,y2},其2×2列联表如图所示:对于以下数据,对同一样本能说明X与Y有关的可能性最大的一组为( )A.a=50,b=40,c=30,d=20B.a=50,b=30,c=20,d=40C.a=50,b=20,c=40,d=30D.a=20,b=30,c=50,d=40。
回归分析、独立性检验
突破点8 回归分析、独立性检验(1)正相关:在散点图中,点散布在从左下角到右上角的区域. (2)负相关:在散点图中,点散布在从左上角到右下角的区域.(3)相关系数r :当r >0时,两变量正相关;当r <0时,两变量负相关;当|r |≤1且|r |越接近于1,相关程度越高,当|r |≤1且|r |越接近于0,相关程度越低.方程y ^=b^x +a ^称为线性回归方程,其中b ^=∑i =1nx i y i -n x -y -∑i =1nx 2i -n x 2,a ^=y --b ^x -.(x -,y -)称为样本中心点.(1) (2)求观测值:k =n (ad -bc )2(a +b )(c +d )(a +c )(b +d ).(3)根据临界值表,作出正确判断.如果k ≥k α,就推断“X 与Y 有关系”,这种推断犯错误的概率不超过α,否则就认为在犯错误的概率不超过α的前提下不能推断“X 与Y 有关系”.回访1 变量的相关性1.(2015·全国卷Ⅱ)根据下面给出的2004年至2013年我国二氧化硫年排放量(单位:万吨)柱形图,以下结论中不正确的是( )图8-1A .逐年比较,2008年减少二氧化硫排放量的效果最显著B .2007年我国治理二氧化硫排放显现成效C .2006年以来我国二氧化硫年排放量呈减少趋势D .2006年以来我国二氧化硫年排放量与年份正相关D [对于A 选项,由图知从2007年到2008年二氧化硫排放量下降得最多,故A 正确.对于B 选项,由图知,由2006年到2007年矩形高度明显下降,因此B 正确.对于C 选项,由图知从2006年以后除2011年稍有上升外,其余年份都是逐年下降的,所以C 正确.由图知2006年以来我国二氧化硫年排放量与年份负相关,故选D.]2.(2012·全国卷)在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =12x +1上,则这组样本数据的样本相关系数为( )A .-1B .0 C.12D .1D [样本点都在直线上时,其数据的估计值与真实值是相等的,即y i =y ^i ,代入相关系数公式r =1-∑i =1n(y i -y ^i )2∑i =1n (y i -y )2=1.]3.(2015·全国卷Ⅰ)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t)和年利润z (单位:千元)的影响.对近8年的年宣传费x i 和年销售量y i (i =1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.图8-2表中w i =x i ,w ]=18∑ i =1w i .(1)根据散点图判断,y =a +bx 与y =c +d x 哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程;(3)已知这种产品的年利润z 与x ,y 的关系为z =0.2y -x .根据(2)的结果回答下列问题:①年宣传费x =49时,年销售量及年利润的预报值是多少? ②年宣传费x 为何值时,年利润的预报值最大?附:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v =α+βu 的斜率和截距的最小二乘估计分别为β^=∑ni =1 (u i -u )(v i -v )∑ni =1 (u i -u )2,α^=v -β^u . [解] (1)由散点图可以判断,y =c +d x 适宜作为年销售量y 关于年宣传费x 的回归方程类型.2分(2)令w =x ,先建立y 关于w 的线性回归方程.由于d^=∑i =18(w i -w )(y i -y )∑i =18(w i -w )2=108.81.6=68,c ^=y -d^ w =563-68×6.8=100.6,4分所以y 关于w 的线性回归方程为y ^=100.6+68w , 因此y 关于x 的回归方程为y ^=100.6+68x .6分 (3)①由(2)知,当x =49时,年销售量y 的预报值y ^=100.6+6849=576.6, 年利润z 的预报值z ^=576.6×0.2-49=66.32.8分 ②根据(2)的结果知,年利润z 的预报值z ^=0.2(100.6+68x )-x =-x +13.6x +20.12.10分 所以当x =13.62=6.8,即x =46.24时,z ^取得最大值. 故年宣传费为46.24千元时,年利润的预报值最大.12分 回访2 独立性检验4.(2012·辽宁高考)电视传媒公司为了解某地区电视观众对某类体育节目的收视情况,随机抽取了100名观众进行调查.下面是根据调查结果绘制的观众日均收看该体育节目时间的频率分布直方图:图8-3将日均收看该体育节目时间不低于40分钟的观众称为“体育迷”. (1)根据已知条件完成下面的2×2列联表,并据此资料你是否认为“体育迷”与性别有关?(2)用随机抽样方法每次抽取1名观众,抽取3次,记被抽取的3名观众中的“体育迷”人数为X .若每次抽取的结果是相互独立的,求X 的分布列,期望E (X )和方差D (X ).附:K 2=n (n 11n 22-n 12n 21)2n 1+n 2+n +1n +2,[解] (1)“体育迷”有25人,从而2×2列联表如下:2分将2×2列联表中的数据代入公式计算,得k =n (n 11n 22-n 12n 21)2n 1+n 2+n +1n +2=100×(30×10-45×15)275×25×45×55=10033≈3.030.因为3.030<3.841,所以没有理由认为“体育迷”与性别有关.6分(2)由频率分布直方图知抽到“体育迷”的频率为0.25,将频率视为概率,即从观众中抽取一名“体育迷”的概率为14.8分由题意知X ~B ⎝ ⎛⎭⎪⎫3,14,从而X 的分布列为10分E (X )=np =3×14=34,D (X )=np (1-p )=3×14×34=916.12分题型分析:用、回归方程的求法和应用,难度中等.在一次抽样调查中测得样本的5组数据,得到一个变量y 关于x 的回归方程模型,其对应的数值如下表:(1)试作出散点图,根据散点图判断,y =a +bx 与y =kx +m 哪一个适宜作为变量y 关于x 的回归方程模型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立变量y 关于x 的回归方程; (3)根据(2)中所求的变量y 关于x 的回归方程预测:当x =3时,对应的y 值为多少?(保留四位有效数字)[解] (1)作出变量y 与x 之间的散点图,如图所示,2分由图可知变量y 与x 近似地呈反比例函数关系,那么y =kx +m 适宜作为变量y 关于x 的回归方程模型.4分(2)由(1)知y =k x +m 适宜作为变量y 关于x 的回归方程模型,令t =1x ,则y =kt +m ,由y 与x 的数据表可得y 与t 的数据表如下:……………6分作出y 与t 的散点图,如图所示.8分由图可知y 与t 近似地呈线性相关关系.又t -=1.55,y -=7.2,∑i =15t i y i =94.25,∑i =15t 2i =21.312 5,所以k =∑i =15t i y i -5t -y -∑i =15t 2i -5t 2=94.25-5×1.55×7.221.312 5-5×1.552≈4.134 4,m =y --k t -=7.2-4.134 4×1.55≈0.8,所以y =4.134 4t +0.8, 所以y 关于x 的回归方程为y =4.134 4x +0.8.10分(3)由(2)得y 关于x 的回归方程是y =4.134 4x +0.8,当x =3时,可得y =4.134 43+0.8≈2.178.12分1.正确理解计算b^,a ^的公式和准确的计算,是求线性回归方程的关键.其中线性回归方程必过样本中心点(x -,y -).2.在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程估计和预测变量的值.[变式训练1] (2016·石家庄二模)为了解某地区某种农产品的年产量x (单位:吨)对价格y (单位:千元/吨)和年利润z 的影响,对近五年该农产品的年产量和价格统计如下表:(1)求y 关于x 的线性回归方程y =bx +a ;(2)若每吨该农产品的成本为2千元,假设该农产品可全部卖出,预测当年产量为多少时,年利润z 取到最大值?(保留两位小数)参考公式:b^=∑i =1n(x i -x -)(y i -y -)∑i =1n (x i -x -)2=∑i =1nx i y i -n x -y -∑i =1nx 2i -n x 2,a ^=y --b ^x -.[解] (1)x -=3,y -=5,2分∑i =15x i =15,∑i =15y i =25,∑i =15x i y i =62.7,∑i =15x 2i =55,解得b^=-1.23,a^=8.69,4分 所以y ^=8.69-1.23x .6分(2)年利润z =x (8.69-1.23x )-2x =-1.23x 2+6.69x ,10分所以当x =2.72,即年产量为2.72吨时,年利润z 取得最大值.12分题型分析:概率统计等知识交汇,是潜在的命题点之一,须引起足够的重视.(2016·山西四校第二次联考)心理学家分析发现视觉和空间能力与性别有关,某数学兴趣小组为了验证这个结论,从兴趣小组中按分层抽样的方法抽取50名同学(男30,女20),给所有同学几何题和代数题各一题,让各位同学自由选择一道题进行解答.选题情况如下表:(单位:人)(1) (2)经过多次测试后,甲每次解答一道几何题所用的时间在5~7分钟,乙每次解答一道几何题所用的时间在6~8分钟,现甲、乙各解同一道几何题,求乙比甲先解答完的概率;(3)现从选择做几何题的8名女生中任意抽取2人对她们的答题情况进行全程研究,记丙、丁2名女生被抽到的人数为X ,求X 的分布列及数学期望E (X ).附表及公式:K 2=(a +b )(c +d )(a +c )(b +d ),n =a +b +c +d .[解题指导] 计算k ――→查表下结论――→几何概型求概率――→超几何分布求X 的分布列及E (X ).[解] (1)由表中数据得k =50×(22×12-8×8)230×20×30×20=509≈5.556>5.024,2分所以有97.5%的把握认为视觉和空间能力与性别有关.3分(2)设甲、乙解答一道几何题的时间分别为x ,y 分钟,则⎩⎨⎧5≤x ≤7,6≤y ≤8表示的平面区域如图所示.设事件A 为“乙比甲先做完此道题”,则x >y 满足的区域如图中阴影部分所示.5分由几何概型可得P (A )=12×1×12×2=18,即乙比甲先解答完的概率为18.7分(3)由题可知,在选择做几何题的8名女生中任意抽取2人的方法有C28=28种,其中丙、丁2人没有一个人被抽到的有C26=15种;恰有一人被抽到的有C12·C16=12种;2人都被抽到的有C22=1种.所以X的可能取值为0,1,2,P(X=0)=1528,8分P(X=1)=1228=37,9分P(X=2)=128.10分X的分布列为:11分E(X)=0×1528+1×37+2×128=12.12分求解独立性检验问题时要注意:一是2×2列联表中的数据与公式中各个字母的对应,不能混淆;二是注意计算得到k之后的结论.[变式训练2](名师押题)2016年1月1日起全国统一实施全面二孩政策.为了解适龄民众对放开生育二孩政策的态度,某市选取70后和80后作为调查对象,随机调查了100人,得到数据如下表:(1)以这100该市70后公民中随机抽取3人,记其中生二孩的人数为X,求随机变量X的分布列和数学期望;(2)根据调查数据,是否有90%以上的把握认为“生二孩与年龄有关”,并说明理由.参考数据:11参考公式:K 2=(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d[解] (1)由已知得70后“生二孩”的概率为23,并且X ~B ⎝ ⎛⎭⎪⎫3,23,所以P (X =k )=C k 3⎝ ⎛⎭⎪⎫23k ⎝ ⎛⎭⎪⎫133-k(k =0,1,2,3),4分 X 的分布列为6分所以E (X )=3×23=2.8分(2)由表中数据知k =100×(30×10-45×15)275×25×45×55=10033≈3.030>2.706,10分所以有90%以上的把握认为“生二孩与年龄有关”.12分。
正态分布回归分析独立性检验
正态分布回归分析独立性检验
在进行回归分析时,通常会假设误差项服从正态分布,是一个独立同分布的随机变量。
这个假设在很多情况下是合理的,特别是当样本容量较大时,中心极限定理保证了误差项的正态分布。
为了验证误差项是否满足正态分布的假设,我们可以利用正态分布的统计方法进行检验。
下面介绍两种常用的检验方法:基于直方图和基于正态概率图。
1.基于直方图的检验方法
基于直方图的检验方法通过绘制误差项的直方图,观察其分布形态是否接近正态分布。
具体步骤如下:
1)将残差(误差项)按照大小排序。
2)将排序后的残差分为k个区间,计算每个区间中的残差频数。
3)绘制直方图,观察残差分布是否近似于正态分布。
若直方图呈现钟型曲线,说明残差近似满足正态分布假设,否则不能满足正态分布假设。
2.基于正态概率图的检验方法
基于正态概率图的检验方法通过绘制误差项的正态概率图,观察其是否呈现近似直线的趋势。
1)将残差按照大小排序。
2)计算每个残差在正态分布下对应的累积概率。
3)绘制散点图,横坐标为残差的标准正态分位数,纵坐标为残差对应的累积概率。
4)观察散点图是否近似于一条直线。
若散点图近似直线,则说明残差近似满足正态分布假设,否则不能满足正态分布假设。
正态分布回归分析独立性检验的目的是验证回归模型中误差项是否满足正态分布的假设,如果不满足,则可能需要对模型进行修正,或者使用非参数回归模型等更适合的方法。
因此,对于从事回归分析的教师来说,熟练掌握正态分布回归分析独立性检验方法是非常重要的。
【高考数学总复习】:回归性分析与独立性检验(知识点讲解+真题演练+详细解答)
量,例如某同学的数学成绩与化学成绩。
2.线性回归分析 (1) 散点图:将样本中的各对数据在直角坐标系中描点而得到的图形叫做散点图,它直观地 描述了两个变量之间是否有相关关系,是判断两个变量相关性的重要依据。 (2) 回归直线:散点图中点的整体分布在一条直线左右,则称这两个变量之间具有线性相关
(a b)(c d)(a c)(b d )
通过对统计量 K2 的研究,一般情况下认为:
①当 K 2 ≤3.841 时,认为变量 X 与 Y 是无关的。
②当 K 2 >3.841 时,有 95%的把握说变量 X 与 Y 有关;
④ 当 K 2 >6.635 时,有 99%的把握说变量 X 与 Y 有关;
定在多大程度上可以认为“两个分类变量有关系”的方法称为两个分类变量的独立性检验。
2.分类变量的理解: 分类变量是说明事物类别的一个名称,其取值是分类数据。如“性别”就是一个分类变 量,其变量值为“男”或“女”;“行业”也是一个分类变量,其变量值可以为“零售 业”,说明 X 与 Y 无关的把握越小
6. 右表是对与喜欢足球与否的统计列联表依据表中的数据,得到( )
A. K 2 9.564 B. K 2 3.564 C. K 2 2.706 D. K 2 3.841
7. 对两个分类变量 A、B 的下列说法中正确的个数为( ). ①A 与 B 无关,即 A 与 B 互不影响;②A 与 B 关系越密切,则 K2 的值就越大;③K2
x yw
46.6 563 6.8
8
(xi x )2
i 1
(完整版)回归方程和独立性检验知识点讲解
回归分析和独立性检验一、回归分析1、回归直线方程 a x b yˆˆˆ+= (x 叫做解释变量,y 叫做预报变量) 其中∑∑==---=ni ini i ix xy y x xb121)())((ˆ=∑∑==--ni ini ii x n xyx n yx 1221(由最小二乘法得出,考试时给出此公式中的一个)x b y aˆˆ-= ( 此式说明:回归直线过样本的中心点)(y x , ,也就是平均值点。
) 2、几条结论:(1)回归直线过样本的中心点)(y x ,。
(2)b>0时,y 与x 正相关,散点图呈上升趋势;b<0时,y 与x 负相关,散点图呈下降趋势。
(3)斜率b 的含义(举例):如果回归方程为y=2.5x+2, 说明x 增加1个单位时,y 平均增加2.5个单位; 如果回归方程为y=-2.5x+2,说明x 增加1个单位时,y 平均减少2.5个单位。
(4)相关系数r 表示变量的相关程度。
范围:1≤r ,即 11≤≤-rr 越大.,相关性越强.。
0>r 时,y 与x 正相关;0<r 时,y 与x 负相关。
(5)相关指数2R 表示模型的拟合效果。
范围:]10[2,∈R 2R 越大.,拟合效果越好.,(这时:残差平方和越小,残差点在带状区域内的分布比较均匀, 带状区域宽度越窄,拟合精度越高)。
2R 表示解释变量x 对于预报变量y 变化的贡献率。
例如:64.02≈R ,表明“x 解释了64%的y 变化”,或者说“y 的差异有64%是由x 引起的”。
(6)线性回归模型 e a bx y ++=, 其中e 叫做随机误差。
(y 是由x 和e 共同确定的。
)二、独立性检验1、原理:假设性检验(类似反证法原理)。
一般情况下:假设分类变量X 和Y 之间没有关系,通过计算2K 值,然后查表对照相应的概率P , 发现这种假设正确的概率P 很小,从而推翻假设,最后得出X 和Y 之间有关系的可能性为(1-P), 也就是“X 和Y 有关系”。
回归分析与独立性检验
4
与销售额, , 的统计数据如下表 :
思 索 由 于 回 归 直线 过 样 本 点
点 的 中心 为 ( 3 . 5 , 4 2 ) , 且占 = 9 . 4 .由此
广 告 费 用 ( 万 元) 4 l 2 I 3 l 5 销 售 橱( 万 元 ) 4 9 『 2 6 3 9 i 5 4
根据 上表可得 回归 方程 = 占 +
中的S = 9 . 4 ,据此模型预报广告费用
为6 万 元 时 销售 额 为 ( )
的 中心 ( , Y ) , 所 以利 用所给数据 求 出 , y , 将其带入回归方程 中, 求 出a ,
从 而得 出 回归直 线 方程 : 再4 " x = 6 . 求 得 的值 即 为本题 的答 案. 破 解 由已知 可得 _ 一 :
D= ~
:
这个假设不成立 。且该推断犯错 误 的概率 不超 过这个小概率.在解 决
具体 问题时通 过计算 随机变量 =
∑( ) z
i =l
∑ }
[ . =】
界值k 。 。 那么犯错误 的概率不超过k 。 对应 的P ( k ≥ 。 ) 即为判断犯错误 的 概率 .从而得 出有多大的把握认 为 两个分类变量有关.
至2 0 1 3 年 该 地 区农村 居 民 家庭 人 均
界 值 表 格 中找 到 满 足 J i } ≥ 。 的 临 界 值k 。 = 6 . 6 3 5 , 那 么犯 错 误 的 概 率 不 超
过k 0 对应 的P ( k≥ 0 ) = 0 . 0 1 0  ̄ l 7 为判 断
年份 年份代号t
( 2 ) 首先 要充 分理解 独立性 检
验 原 理 .独 立 性 检 验 原 理 指 的是 在
回归分析与独立性检验
回归分析的基本思想及其初步应用(1)通过对实际问题的分析,了解回归分析的必要性与回归分析的一般步骤;了解线性回归模型与函数模型的区别;(2)尝试做散点图,求回归直线方程;(3)能用所学的知识对实际问题进行回归分析,体会回归分析的实际价值与基本思想;了解判断刻画回归模型拟合好坏的方法――相关指数和残差分析。
一、基础知识梳理1.回归直线:如果散点图中点的分布从整体上看大致在一条直线附近,我们就称这两个变量之间具有线性相关关系,这条直线叫作回归直线。
求回归直线方程的一般步骤:作出散点图(由样本点是否呈条状分布来判断两个量是否具有线性相关关系),若存在线性相关关系→②求回归系数→③写出回归直线方程,并利用回归直线方程进行预测说明.2.回归分析:对具有相关关系的两个变量进行统计分析的一种常用方法。
建立回归模型的基本步骤是:①确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量;②画好确定好的解释变量和预报变量的散点图,观察它们之间的关系(线性关系).③由经验确定回归方程的类型.④按一定规则估计回归方程中的参数(最小二乘法);⑤得出结论后在分析残差图是否异常,若存在异常,则检验数据是否有误,后模型是否合适等.3.利用统计方法解决实际问题的基本步骤:(1)提出问题;(2)收集数据;(3)分析整理数据;(4)进行预测或决策。
4.残差变量的主要来源:(1)用线性回归模型近似真实模型(真实模型是客观存在的,通常我们并不知道真实模型到底是什么)所引起的误差。
可能存在非线性的函数能够更好地描述与之间的关系,但是现在却用线性函数来表述这种关系,结果就会产生误差。
这种由于模型近似所引起的误差包含在中。
(2)忽略了某些因素的影响。
影响变量的因素不只变量一个,可能还包含其他许多因素(例如在描述身高和体重关系的模型中,体重不仅受身高的影响,还会受遗传基因、饮食习惯、生长环境等其他因素的影响),但通常它们每一个因素的影响可能都是比较小的,它们的影响都体现在中。
高二 回归分析与独立性检验
回归分析与独立性检验知识点1:变量的相关性:正相关.负相关.相关系数r :知识点2 线性回归方程:方程y ^=b ^x +a ^称为线性回归方程,其中1221()ni i i ni i x y nx y b x n x a y bx==⎧-⎪⎪=⎪⎨-⎪⎪=-⎪⎩∑∑,.(x -,y -)称为样本中心点. 知识点3 独立性检验:(1)确定2*2列联表.(2)求观测值:k =n (ad -bc )2(a +b )(c +d )(a +c )(b +d ).(3)根据临界值表,作正确结论.例1.(2014·安徽高考)某高校共有学生15 000人,其中男生10 500人,女生4 500人,为调查该校学生每周平均体育运动时间的情况,采用分层抽样的方法,收集300位学生每周平均体育运动时间的样本数据(单位:小时).(1)应收集多少位女生的样本数据?(2)根据这300个样本数据,得到学生每周平均体育运动时间 的频率分布直方图(如图8-3所示),其中样本数据的分组区间为: [0,2],(2,4],(4,6],(6,8],(8,10],(10,12],估计该校学生每周平 均体育运动时间超过4小时的概率.(3)在样本数据中,有60位女生的每周平均体育运动时间超过4小时,请完成每周平均体育运动时间与性别列联表,并判断是否有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”.P (K 2≥k 0)0.10 0.05 0.010 0.005 k 02.7063.8416.6357.879附:K 2=n (ad -bc )(a +b )(c +d )(a +c )(b +d ).例2. (2016·河南省名校期中)微信是腾讯公司推出的一种手机通讯软件,它支持发送语音短信、视频、图片和文字,一经推出便风靡全国,甚至涌现出一批在微信的朋友圈内销售商品的人(被称为微商).为了调查每天微信用户使用微信的时间,某经销化妆品的微商在一广场随机采访男性、女性用户各50名,其中每天玩微信超过6小时的用户列为“微信控”,否则称其为“非微信控”,调查结果如下:(1)根据以上数据,能否有60%的把握认为“微信控”与“性别”有关?(2)现从调查的女性用户中按分层抽样的方法选出5人赠送营养面膜1份,求所抽取5人中“微信控”和“非微信控”的人数;(3)从(2)中抽取的5人中再随机抽取2人赠送200元的护肤品套装,求这2人中至少有1人为“非微信控”的概率. 参考公式:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d .参考数据:微信控 非微信控 总计 男性 26 24 50 女性 30 20 50 总计5644100P (K 2≥k 0)0.50 0.40 0.25 0.05 0.025 0.010 k 00.4550.7081.3233.8415.0246.635例3.(2016·石家庄二模)为了解某地区某种农产品的年产量x (单位:吨)对价格y (单位:千元/吨)和年利润z 的影响,对近五年该农产品的年产量和价格统计如下表:x 1 2 3 4 5 y7.06.55.53.82.2(1)求y 关于x 的线性回归方程y ^=b ^x +a ^;(2)若每吨该农产品的成本为2千元,假设该农产品可全部卖出,预测当年产量为多少时,年利润z 取到最大值?(保留两位小数)例4.(2016·全国3卷)如图,是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图(注:年份代码1~ 7分别对应年份2008~2014.)(1)由折线图看出,可用线性回归模型拟合y 与t 的关系, 请用相关系数加以说明;(2)建立y 关于t 的回归方程(系数精确到0.01),预测2016 年我国生活垃圾无害化处理量.例5.(2018年新课标2,12分)下图是某地区2000年至2016年环境基础设施投资额y (单位:亿元)的折线图.20002001200220032004200520062007200820092010201120122013201420152016年份20040608014192535374242475356122129148171184209220为了预测该地区2018年的环境基础设施投资额,建立了y 与时间变量t 的两个线性回归模型.根据2000年至2016年的数据(时间变量t 的值依次为1,2,,17)建立模型①:ˆ30.413.5yt =-+;根据2010年至2016年的数据(时间变量t 的值依次为1,2,,7)建立模型②:ˆ9917.5yt =+. (1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值; (2)你认为用哪个模型得到的预测值更可靠?并说明理由.极坐标与参数方程知识点一:极坐标,极坐标与直角坐标相互转化 知识点二:参数方程1.化极坐标方程2cos 0ρθρ-=为直角坐标方程为( )A .201y y +==2x 或 B .1x = C .201y +==2x 或x D .1y =2.点M 的直角坐标是(-,则点M 的极坐标为( )A .(2,)3πB .(2,)3π-C .2(2,)3πD .(2,2),()3k k Z ππ+∈3.极坐标方程cos 2sin 2ρθθ=表示的曲线为( )A .一条射线和一个圆B .两条直线C .一条直线和一个圆D .一个圆4.直线cos sin 0x y αα+=的极坐标方程为____________________。
回归分析和独立性检验(教师版)
回归分析即独立性检验一、回归分析1、两个变量之间的关系;常见的有两类:一类是确定性的函数关系;另一类是变量间存在关系,但又不具备函数关系所要求的确定性,它们的关系是带有一定随机性的.当一个变量取值一定时,另一个变量的取值带有一定随机性的两个变量之间的关系叫做相关关系. 2、散点图:将样本中的n 个数据点()(12)i i x y i n =L ,,,,描在平面直角坐标系中,就得到了散点图.散点图形象地反映了各个数据的密切程度,根据散点图的分布趋势可以直观地判断分析两个变量的关系.3、如果当一个变量的值变大时,另一个变量的值也在变大,则这种相关称为正相关;此时,散点图中的点在从左下角到右上角的区域.反之,一个变量的值变大时,另一个变量的值由大变小,这种相关称为负相关.此时,散点图中的点在从左上角到右下角的区域.散点图可以判断两个变量之间有没有相关关系.4、回归分析:对于具有相关关系的两个变量进行统计分析的方法叫做回归分析,即回归分析就是寻找相关关系中这种非确定关系的某种确定性. 回归直线:如果散点图中的各点都大致分布在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.5、最小二乘法:记回归直线方程为:ˆˆˆy bx a =+,称为变量y 对变量x 的回归直线方程,其中a b ,叫做回归系数.用最小二乘法求回归系数ˆˆab ,有如下的公式: 1122211()()ˆ()ˆˆnni i i ii i n ni ii i x x y y x ynxyb x x xnx ay bx ====⎧---⎪⎪==⎪⎨--⎪⎪=-⎪⎩∑∑∑∑,其中a b ,上方加“^”,表示是由观察值按最小二乘法求得的(样本中心点(,)x y 必定落在回归直线上)例1、已知回归直线方程中斜率的估计值为1.23,样本点的中心(4,5),则回归直线方程为 A . ˆy=1.23x +0.08 B . ˆy =0.08x +1.23 C . ˆy =1.23x +4 D . ˆy =1.23x +5 解析 回归直线方程过样本点的中心,把点(4,5)代入A 项成立. 答案 A例2、下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x (吨)与相应的(2) 请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程$y bxa =+$; (3) 已知该厂技术改造前100吨甲产品能耗为90吨标准煤.试根据(2)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技术改造前降低多少吨标准煤?【解析】(1)如下图(2)y x ini i ∑=1=3⨯2.5+4⨯3+5⨯4+6⨯4.5=66.5 x =46543+++=4.5y =45.4435.2+++=3.5 ∑=n i x i 12=32+42+52+62=86 266.54 4.5 3.566.563ˆ0.7864 4.58681b -⨯⨯-===-⨯- ˆˆ 3.50.7 4.50.35a Y bX =-=-⨯= 故线性回归方程为y=0.7x+0.35(3)根据回归方程的预测,现在生产100吨产品消耗的标准煤的数量为0.7⨯100+0.35=70.35故耗能减少了90-70.35=19.65(吨)练习1、某车间为了规定工时定额,需要确定加工零件所花费的时间,为此作了四次试验,得到的数据如下:(1)(2)求出y 关于x 的线性回归方程ˆˆˆybx a =+,并在坐标系中画出回归直线; (3)试预测加工10个零件需要多少时间?解 (1)散点图如图所示.(2)由表中数据得1ni i i x y =∑=52.5,x =3.5,y =3.5,21ni i x =∑=54,∴ˆb=0.7. ∴ˆa =1.05. ∴ˆy=0.7x +1.05. 回归直线如图中所示.(3)将x =10代入回归直线方程,得y =0.7×10+1.05=8.05(小时), ∴预测加工10个零件需要8.05小时. 二、独立性检验1、22⨯联表的独立性检验:如果对于某个群体有两种状态,对于每种状态又有两个情况,这样排成一张22⨯的表,如下:如果有调查得来的四个数据a b c d ,,,,并希望根据这样的4个数据来检验上述的两种状态x 与y 是否有关,就称之为22⨯联表的独立性检验.。
独立性检验
回归分析与独立性检验(1)通过对实际问题的分析探究,了解独立性检验(只要求2×2列联表)的基本思想、方法及初步应用.;了解独立性检验的常用方法:三维柱形图和二维条形图,及其K²(或R²)的大小关系.(2)通过典型案例的探究,了解实际推断原理和假设检验的基本思想、方法及初步应用.(3)理解独立性检验的基本思想及实施步骤,能运用自己所学的知识对具体案例进行检验.一、基础知识梳理1.独立性检验利用随机变量来确定在多大程度上可以认为“两个分类变量有关系”的方法称为两个分类变量的独立性检验。
2.判断结论成立的可能性的步骤:(1)通过三维柱形图和二维条形图,可以粗略地判断两个分类变量是否有关系,但是这种判断无法精确地给出所得结论的可靠程度。
(2)可以利用独立性检验来考察两个分类变量是否有关系,并且能较精确地给出这种判断的可靠程度。
二、例题选讲例1.为了探究患慢性气管炎是否与吸烟有关,调查了339名50岁以上的人,调查结果如下表所示:试问:50岁以上的人患慢性气管炎与吸烟习惯有关吗?解:根据列联表中的数据,得。
因为,所以我们有99%的把握说:50岁以上的人患慢性气管炎与吸烟习惯有关。
评注:对两个分类变量进行独立性检验,要对样本的选取背景、时间等因素进行分析。
例2.甲乙两个班级进行一门考试,按照学生考试成绩优秀和不优秀统计成绩后,得到如下的列联表:班级与成绩列联表画出列联表的条形图,并通过图形判断成绩与班级是否有关;利用列联表的独立性检验估计,认为“成绩与班级有关系”犯错误的概率是多少。
解:列联表的条形图如图所示:由图及表直观判断,好像“成绩优秀与班级有关系”;由表中数据计算得K2的观察值为k≈0.653>0.455。
由下表中数据得:P(K2≥0.455)≈0.50,从而有50%的把握认为“成绩与班级有关系”,即断言“成绩优秀与班级有关系”犯错误的概率为0.5。
评注:(1)画出条形图后,从图形上判断两个分类变量之间是否有关系。
回归分析及独立性检验规律小结
一、本章知识结构二、知识要点与联系1.已知回归直线的斜率估计值为k ,样本点的中心为(m, n),则回归直线方程为 。
2.相关指数R 2= ,R 2越 表示回归效果越好。
3.建立回归模型基本步骤: 第一步: 第二步: 第三步: 第四步: 第五步:4.三维柱形图中,估计“X 与Y 有关系”成立的可能性越大的依据是 。
5.二维条形图中,估计“X 与Y 有关系”成立的可能性越大的依据是 。
6.精确判断两个分类变量是否有关系的具体做法是 。
7.考查某种针剂的预防效果进行试验数据如下:注射针剂的串病12例,未患病48例,未注射针剂的患病22例,未患病35例,则认为针剂无效的可能性约为 。
三、综合型问题剖析使用年限x 2 3 4 5 6 维修费用y2.23.85.56.57.0若由资料知,y 对x 呈线性相关关系。
试求:线性回归方程$$y bx a =+$的回归系数$,a b $;统计案例回归分析独立性检验解:由已知数据制成表格。
4;5;x y ==5521190;112.3.ii i i i x x y ====∑∑所以有ˆˆ1.23,0.08.ba ==ˆ 1.230.08.y x ∴=+ 评注:例2.为了研究某种细菌随时间x 变化,繁殖的个数,收集数据如下:(1)用天数作解释变量,繁殖个数作预报变量,作出这些数据的散点图; (2)描述解释变量与预报变量之间的关系; (3)计算残差、相关指数R 2. 解:(1)散点图如右所示(2)由散点图看出样本点分布在一条指数函数21C x y C e =的周围,于是令Z=lny,则x 1 2 3 4 5 6 Z1.792.483.223.894.555.25由计数器算得µ0.69 1.112ZX =+,则有0.69x 1.112ˆy =e +$y 6.06 12.09 24.09 48.04 95.77 190.9 $y612254995190n22ii=11ˆˆe() 3.1643,ni i i y y==-=∑∑n222i1i=1()yny 25553.3.nii y y =-=-=∑∑2 3.164310.9999.25553.3R ∴=-=即解释变量天数对预报变量繁殖细菌得个数解释了99.99%. 评注:例3.在某医院,因为患心脏病而住院的 665 名男性病人中,有 214 人秃顶,而另外 772 名不是因为患心脏病而住院的男性病人中有 175 人秃顶. (1)利用图形判断秃顶与患心脏病是否有关系.(2)能够以 99 %的把握认为秃顶与患心脏病有关系吗?为什么?解:根据题目所给数据得到如下列联表:(1)相应的三维柱形图如图3.2一4所示.比较来说,底面副对角线上两个柱体高度的乘积要大一些,可以在某种程度上认为“秃顶与患心脏病有关”.(2)根据题中的数据,得到21437(214597175451)3891048665772k ⨯⨯-⨯=⨯⨯⨯≈16.373>6 .因此有 99 %的把握认为“秃顶与患心脏病有关” . 评注:例4.为考察高中生的性别与是否喜欢数学课程之间的关系,在某城市的某校高中生中随机抽取300名学生,得到如下列联表:由表中数据计算得2K 的观测值 4.514k ≈.能够以95%的把握认为高中生的性别与是否喜欢数学课程之间有关系吗?请详细阐明得出结论的依据.解:可以有约95%以上的把握认为“性别与喜欢数学课之间有关系”.作出这种判断的依据是独立性检验的基本思想,具体过程如下:分别用a , b , c , d 表示样本中喜欢数学课的男生人数、不喜欢数学课的男生人数、喜欢数学课的女生人数、不喜欢数学课的女生人数.如果性别与是否喜欢数学课有关系,则男生中喜欢数学课的比例a a b +与女生中喜欢数学课的人数比例c c d+应该相差很多,即||||()()a c ad bca b c d a b c d --=++++ 应很大.,然后平方得22()()()()()n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.因此2K 越大,“性别与喜欢数学课之间有关系”成立的可能性越大.另一方面,在假设“性别与喜欢数学课之间没有关系”的前提下,事件A ={2K ≥3.K≥3. 841)≈0.05, 因此事件A 是一个小概率事件.而由样本数据841}的概率为P (2K的观测值k=4.514,即小概率事件A发生.因此应该断定“性别与喜欢数学课计算得2之间有关系”成立,并且这种判断结果出错的可能性约为5 %.所以,约有95 %的把握认为“性别与喜欢数学课之间有关系”.评注:四、规律总结1.作为非确定性关系的相关关系包括两种情况:其一,两个变量中,一个变量为可失控变量,另一个变量为随机变量;其二,两个变量均为随机变量,主要研究第二种情况。
回归分析与独立性检验
回归分析与独立性检验知识要点及解析1.函数关系与相关关系的区别?函数关系是一种确定性关系,而相关关系是一种非确定性关系.2.回归公式∑∑∑∑====--=---=ni ini ii ni ini iix n xyx n y x x x y yx x b1221121)())((ˆ x b y a ˆˆ-= a x b yˆˆˆ+= 3.回归分析的步骤?回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法, 其步骤:收集数据→作散点图→求回归直线方程→利用方程进行预报.4.回归直线的性质 a x by ˆˆ+= ⑴回归直线 过样本点的中心()y x ,其中解释变量x 的平均数为: ∑==n i i x n x 11 预报变量y 的平均数为: ∑==ni i y n y 11⑵回归直线的斜率的估计值bˆ的意义:解释变量x 每增加一个单位,预报变量y 就增加bˆ个单位. 5.求线性回归方程的五个步骤: ⑴计算y x x y x 、、、2⑵计算∑=ni ii yx 1⑶计算∑=ni ix12⑷代入系数公式求bˆ⑸代入公式计算a ˆ 例题1:下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x (吨)与相应的能耗y (吨标准煤)的几组数据:⑴画出散点图;⑵求出线性回归方程a x b yˆˆˆ+= ⑶已知该厂技改前100吨甲产品的生产能耗为90吨标准煤,试根据(2)问求出的线性回归方程预测(估计)生产100吨甲产品的生产能耗比技改前降低多少吨标准煤?例题2:从某大学中随机选取8名女大学生,其身高和体重数据如表所示:⑴画出散点图;⑵求出根据身高预报体重的回归方程a x b yˆˆˆ+= ⑶根据以上回归方程预测一名身高为172cm 的女大学生的体重.例题3:下表是某厂1~4月份用水量(单位:百吨)的一组数据,由散点图可知:用水量y 与月份x 之间有较好的线性相关关系,其线性回归方程为a x yˆ7.0ˆ+-=, 请你预测该厂5月份的用水量大约为多少百吨?6.线性回归模型y=bx+a+e 中随机误差e 产生的原因?⑴选用的函数模型不恰当引起的误差 ⑵忽略了某些因素的影响 ⑶存在观测误差 7.如何发现数据中的错误?先分别计算出残差a x b y y y e ii i i ˆˆˆˆ--=-=然后选取横坐标为编号或解释变量x 或预报变量y,纵坐标为残差,作出残差图;最后观察:如果样本点的残差较大(落在带状区域外),说明数据的采集有可能错误。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
专题十一 概率与统计
第三十三讲 回归分析与独立性检验
一、选择题
1.(2017山东)为了研究某班学生的脚长x (单位:厘米)和身高y (单位:厘米)的关
系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y 与x 之间有线性相
关关系,设其回归直线方程为ˆˆˆy bx a =+.已知101
225i i x ==∑,10
1
1600i i y ==∑,ˆ4b =.该
班某学生的脚长为24,据此估计其身高为
A .160
B .163
C .166
D .170
2.(2015福建)为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户
家庭,得到如下统计数据表:
根据上表可得回归本线方程ˆˆˆy
bx a =+ ,其中ˆˆˆ0.76,b a ==- ,据此估计,该社区一户收入为15万元家庭年支出为
A .11.4万元
B .11.8万元
C .12.0万元
D .12.2万元 3.(2014重庆)已知变量x 与y 正相关,且由观测数据算得样本的平均数3x =, 3.5y =,
则由该观测数据算得的线性回归方程可能为
A .0.4 2.3y x =+
B .2 2.4y x =-
C .29.5y x =-+
D .0.3 4.4y x =-+ 4.(2014湖北)根据如下样本数据
得到的回归方程为ˆy
bx a =+,则 A .0a >,0b < B .0a >,0b > C .0a <,0b < D .0a <,0b > 5.(2012新课标)在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n 不
全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线1
12
y x =+上,则这组样本数据的样本相关系数为
A .−1
B .0
C .1
2
D .1
6.(2014江西)某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量之间的关
系,随机抽查52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是
7.(2012湖南)设某大学的女生体重y (单位:kg )与身高x (单位:cm )具有线性相关关
系,根据一组样本数据(x i ,y i )(i =1,2,…,n ),用最小二乘法建立的回归方程为y =0.85x -85.71,则下列结论中不正确...的是 A .y 与x 具有正的线性相关关系 B .回归直线过样本点的中心(x ,y )
C .若该大学某女生身高增加1cm ,则其体重约增加0.85kg
D .若该大学某女生身高为170cm ,则可断定其体重必为58.79kg 8.(2011山东)某产品的广告费用x 与销售额y 的统计数据如下表
根据上表可得回归方程ˆˆˆy bx a =+中的ˆb 为9.4,据此模型预报广告费用为6万元时销
售额为
A .63.6万元
B .65.5万元
C .67.7万元
D .72.0万元
二、解答题
9.(2018全国卷Ⅱ)下图是某地区2000年至2016年环境基础设施投资额y (单位:亿元)
的折线图.
为了预测该地区2018年的环境基础设施投资额,建立了y 与时间变量t 的两个线性回
归模型.根据2000年至2016年的数据(时间变量t 的值依次为1217,,
…,)建立模型①:ˆ30.413.5=-+y
t ;根据2010年至2016年的数据(时间变量t 的值依次为127,,…,)建立模型②:ˆ9917.5=+y
t . (1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值; (2)你认为用哪个模型得到的预测值更可靠?并说明理由.
10.(2016年全国III)下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)
的折线图
(Ⅰ)由折线图看出,可用线性回归模型拟合y 与t 的关系,请用相关系数加以说明; (Ⅱ)建立y 关于t 的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化
处理量.
附注:参考数据:
7
1
9.32i
i y
==∑,7
1
40.17i i i t y ==∑
0.55=
2.646.
参考公式:相关系数()()
n
i i
t t y y r --=
∑ 回归方程y a bt =+中斜率和截距的最小二乘估计公式分别为:
1
2
1
()()
()n
i
i i n
i
i t
t y y b t
t ==--=
-∑∑,=.a y bt -
11.(2015新课标1)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单
位:千元)对年销售量y (单位:t )和年利润z (单位:千元)的影响,对近8年的年宣传费i x 和年销售量i y (i =1,2,··
·,8)数据作了初步处理,得到下面的散点图及一些统计量的值.
表中i w =
w =
1
8
8
1
i i w =∑.
(Ⅰ)根据散点图判断,y a bx =+与y c =+y 关于年
宣传费x 的回归方程类型?(给出判断即可,不必说明理由) (Ⅱ)根据(Ⅰ)的判断结果及表中数据,建立y 关于x 的回归方程;
(Ⅲ)已知这种产品的年利率z 与x 、y 的关系为0.2z y x =-.根据(Ⅱ)的结果回
答下列问题:
(ⅰ)年宣传费x =49时,年销售量及年利润的预报值是多少? (ⅱ)年宣传费x 为何值时,年利率的预报值最大?
附:对于一组数据11(,)u v ,22(,)u v ,⋅⋅⋅,(,)n n u v ,其回归线v u αβ=+的斜率和
截距的最小二乘估计分别为
1
2
1
()()
ˆ()
n
i
i
i n
i
i u u v v u u β
==--=-∑∑,ˆˆv u α
β=-. 12.(2014新课标2)某地区2007年至2013年农村居民家庭纯收入y (单位:千元)的数
据如下表:
(Ⅰ)求y 关于t 的线性回归方程;
(Ⅱ)利用(Ⅰ)中的回归方程,分析2007年至2013年该地区农村居民家庭人均纯收
入的变化情况,并预测该地区2015年农村居民家庭人均纯收入. 附:回归直线的斜率和截距的最小二乘估计公式分别为:
()()
()
1
2
1
n
i
i
i n
i i t t y y b t t ∧
==--=
-∑∑,ˆˆa
y bt =- 13.(2012辽宁)电视传媒公司为了解某地区电视观众对某体育节目的收视情况,随机抽取
了100名观众进行调查,其中女性有55名.下面是根据调查结果绘制的观众日均收看该体育节目时间的频率分布直方图:
将日均收看该体育节目时间不低于40分钟的观众称为“体育迷”,已知“体育迷”中有10名女性.
(I )根据已知条件完成下面22⨯列联表,并据此资料你是否认为“体育迷”与性别有关?
(II )将日均收看该体育节目不低于50分钟的观众称为“超级体育迷”,已知“超级体育
迷”中有2名女性.若从“超级体育迷”中任意选取2人,求至少有1名女性观众的概率.
2
1212
211222112
)(++++-=
n n n n n n n n n χ, 附:。