第87题 相关关系、回归方程、与独立性检验 -2018原创精品之高中数学(文)黄金100题系列(原卷版)
高考数学考点专题:统计与统计案例:变量间的相关关系与独立性检验
变量间的相关关系与独立性检验【考点梳理】1.回归分析回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法;判断相关性的常用统计图是散点图;统计量有相关系数与相关指数.(1)在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关.(2)在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.(3)如果散点图中点的分布从整体上看大致在一条直线附近,称两个变量具有线性相关关系.2.线性回归方程(1)最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法.(2)回归方程:两个具有线性相关关系的变量的一组数据:(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其回归方程为y ^=b ^x +a ^,则b ^=∑ni =1 (x i -x )(y i -y )∑ni =1 (x i -x )2=∑ni =1x i y i -n x y ∑n i =1x 2i -n x 2,a ^=y -b ^x .其中,b ^是回归方程的斜率,a ^是在y 轴上的截距.3.残差分析(1)残差:对于样本点(x 1,y 1),(x 2,y 2),…,(x n ,y n ),它们的随机误差为e i =y i -bx i -a ,i =1,2,…,n ,其估计值为e ^i =y i -y ^i =y i -b ^x i -a ^,i =1,2,…,n ,e ^i 称为相应于点(x i ,y i )的残差.(2)相关指数:R 2=1-∑ni =1 (y i -y ^i )2∑n i =1 (y i -y )2.4.独立性检验(1)利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验.(2)列联表:列出的两个分类变量的频数表,称为列联表.假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(2×2列联表)为则随机变量K2=n(ad-bc)2(a+b)(a+c)(b+d)(c+d)(其中n=a+b+c+d为样本容量).【教材改编】1.(必修3P101A组T8改编)改革开放以来,我国教育事业发展迅速,某省把近10年来农村、县城、地级市和省城每年考入大学的百分比作为因变量,把年份x作为自变量得到四条回归直线.省城ˆ 2.849.50y x=+,地级市ˆ 2.528.35y x=+,县城ˆ 2.31 6.76y x=+,农村ˆ0.42 1.80y x=+,则四个区域中,大学入学率年增长率最快的区域是()A.省城B.地级市C.县城D.农村[答案] A[解析] 四条回归直线,斜率最大的是省城,故选A.2.(必修3 P87内文改编)登山族为了了解某山高y(百米)与气温x(C )之间的关系,随机统计了4次山高与相应的气温,并制作了对照表.由表中数据,得到线性回归方程ˆˆa∈).由此估计山高为72(百2=-+(ˆRy x a米)处气温的度数为()A.10-B.8-C.6-D.4-[答案] C[解析] 10x=,40y=,∴样本中心点为()10,40,回归直线过样本中心点,∴ˆa=,=-+,即ˆ604020a∴线性回归方程为ˆ260=-+,y x∴山高为72(百米)处气温的度数为6-,故选C.3.(必修3P85探究改编)成年人体脂肪百分比y与年龄x的线性回归关系为ˆ0.5770.448=-,年龄增加一岁则脂肪百分比()y xA.增加57.7% B.增加0.577%C.减少44.8% D.减少0.448%[答案] B[解析] ˆ0.5770.448=-,y x∴()()+---=,故选B.0.57710.4480.5770.4480.577x x4.(选修1-2 P6例2改编)一只红铃虫的产卵y和温度x有关,根据收集的数据散点分布在曲线y=c12c xe的周围,若用线性回归模型建立回归关系,则应作下列哪个变换()A.t=ln x B.t=x2C.t=ln y D.t=e y[答案] C[解析] 由y =c 12c x e 得c 2x =ln yc 1=ln y -ln c 1,令t =ln y ,得t =c 2x +ln c 1,故选C.5.(必修3 P 95B 组T 1改编)某科研所对新研发的一种产品进行合理定价,该产品按事先拟定的价格试销得统计数据.回归方程为y ^=b^x +a ^,(其中已算出b ^=-20);该产品的成本为4.5元/件,为使科研所获利最大,该产品定价应为( ) A .6.5元/件 B .7.5元/件 C .8.5元/件 D .9.5元/件[答案] C[解析] 依题意:x =16(8+8.2+8.4+8.8+8. 6+9)=8.5,y =16(90+84+83+80+75+68)=80. 又b^=-20, ∴a^=y -b ^x =80+20×8.5=250, ∴回归直线的方程为y ^=-20x +250. 设科研所所得利润为W ,设定价为x ,∴W =(x -4.5)(-20x +250)=-20x 2+340x -1 125, ∴当x =34040=8.5时,W max =320.故当定价为8.5元时,W 取得最大值.故选C.6.(必修3 P 92练习T 2改编)已知x ,y 之间的一组数据如下表:对于表中数据,现给出如下拟合直线:①y =x +1;②y =2x -1;③y =85x -25;④y =32x .则根据最小二乘法的思想求得拟合程度最好的直线是________(填序号).[答案] ③[解析] 由题意知x =4,y =6, ∴b ^=∑5i =1x i y i -5x y ∑5i =1x 2i-5x 2=85,∴a ^=y -b ^x =-25,∴y ^=85x -25.7.(选修1-2 P 16习题T 2改编)某校某次数学考试规定80分以上(含80分)为优分,在1 000名考生中随机抽取的100名学生中,“男生组”中的优分有15人,“女生组”中的优分有15人,据此可得2×2列联表如下:为了研究数学成绩与性别是否有关,采用独立检验的方法进行数据处理,则正确的结论是________.附表及公式K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ).[答案] 没有90%以上的把握认为“数学成绩与性别有关” [解析] K 2=100×(15×25-15×45)260×40×30×70≈1.79,因为1.79<2.706,所以没有90%以上的把握认为“数学成绩与性别有关”.8.(必修3 P 90例改编)某位同学进行寒假社会实践活动,为了对白天平均气温与某奶茶店的某种饮料销量之间的关系进行分析研究,他分别记录了1月11日至1月15日的白天平均气温x (℃)与该奶茶店的这种饮料销量y (杯),得到如下数据:(1)若先从这5组数据中抽出2组,求抽出的2组数据恰好不是相邻2天数据的概率;(2)请根据所给5组数据,求出y 关于x 的线性回归方程y ^=b ^x +a ^;并根据线性回归方程预测当气象台预报1月16日的白天平均气温为7℃时奶茶店这种饮料的销量.附:线性回归方程y ^=b^x +a ^中, ⎩⎪⎨⎪⎧b ^=∑i =1n(x i -x )(y i -y )∑i =1n(x i-x )2=∑i =1nx i y i-nx -y -∑i =1nx 2i-n x 2a^=y -b ^x ,其中x ,y 为样本平均值.[解析] (1)设“选取的2组数据恰好不是相邻2天的数据”为事件A .所有基本事件(m ,n )(m ,n 为日期)为(11,12),(11,13),(11,14),(11,15),(12,13),(12,14),(12,15),(13,14),(13,15),(14,15),共10个,事件A 包括的基本事件有(11,13),(11,14),(11,15),(12,14),(12,15),(13,15)共6个.∴P (A )=610=35.(2)∵x=9+10+12+11+85=10,y=23+25+30+26+215=25.∴由公式,求得b^=2.1,a^=y-b^x=4∴y关于x的线性回归方程为y^=2.1x+4,∵当x=7时,y^=2.1×7+4=18.7,∴该奶茶店这种饮料的销量大约为19杯(或18杯).9.(选修1-2 P15练习改编)甲、乙两所学校高三年级分别有1 200人,1 000人,为了解两所学校全体高三年级学生在该地区六校联考的数学成绩情况,采用分层抽样方法从两所学校一共抽取了110名学生的数学成绩,并作出了频数分布统计表如下:甲校:乙校:(1)计算x,y的值;(2)若规定考试成绩在[120,150]内为优秀,由以上统计数据填写下面2×2列联表,并判断是否有90%的把握认为两所学校的数学成绩有差异.参考数据与公式:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),n =a +b +c +d临界值表[解析] (1)甲校抽取学生的人数为110×1 2002 200=60, 乙校抽取学生的人数为110×1 0002 200=50,故x =10,y =7. (2)表格填写如下:K 2=110×(15×30-20×45)260×50×35×75≈2.83>2.706.又因为1-0.10=0.9,故有90%的把握认为两个学校的数学成绩有差异.。
高中数学 第2讲变量的相关性、回归分析及独立性检验
第2讲 变量的相关性、回归分析及独立性检验一、知识回顾1.如何判断两个变量的线性相关:如果在散点图中,2个变量数据点分布在一条直线附近,则这2个变量之间具有线性相关关系。
2.所求直线方程 ˆy=bx +a 叫做回归直线方程;其中 ⋅∑∑∑∑nnii i ii=1i=1nn222iii=1i=1(x-x)(y -y)x -nx yb ==,a =y -bx (x-x)x-nxy回归直线方程必过中心点(,)x y3.相关系数的∑nii (x-x)(y -y)r =性质• (1)|r|≤1.(2)|r|越接近于1,相关程度越大;|r|越接近于0,相关程度越小.4. ˆˆ=-i i y y i 残差e=实际值-预测值2^^211()===-∑∑nniiii i e y y 总残差平方和:残差平方和越小,即模型拟合效果越好5. 两个分类变量的独立性检验:(1)假设结论不成立,即“两个分类变量没有关系”.(2)在此假设下计算随机变量 22n(ad -bc)K =(a +b)(c +d)(a +c)(b +d)(3) 根据随机变量K 2查表得“两个分类变量没有关系”的概率,用1减去此概率即得有联系的概率 典型例题:例1.(宁夏海南卷)对变量x, y 有观测数据理力争(,)(i=1,2,…,10),得散点图1;对变量u ,v 有观测数据(,)(i=1,2,…,10),得散点图2. 由这两个散点图可以判断( )。
(A )变量x 与y 正相关,u 与v 正相关 (B )变量x 与y 正相关,u 与v 负相关 (C )变量x 与y 负相关,u 与v 正相关 (D )变量x 与y 负相关,u 与v 负相关1x 1y 1u 1v变式1. (韶关一模文、理)甲、乙、丙、丁四位同学各自对A 、B 两变量的线性相关性作试验,)()A 甲 ()B 乙 ()C 丙 ()D 丁 例2.一系列样本点(,)(1,2,,)=⋅⋅⋅i i x y i n 的回归直线方程为23,∧=-y x 若117==∑nii X则1==∑ni i y变式1.某地第二季各月平均气温(℃)与某户用水量(吨)如下表,根据表中数据,用最小二乘法求得用水量关于月平均气温的线性回归方程是( )A B. C. D. 例3.下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x (吨)与相应的生产能耗y (吨标准煤)的几组对照数据.(1)请画出上表数据的散点图;(2)请根据上表提供的数据,用最小二乘法求出y 关于x 的线性回归方程ˆˆy bxa =+; (3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤? (参考数值:3 2.543546 4.566.5⨯+⨯+⨯+⨯=)例4.(惠州一模)对196个接受心脏搭桥手术的病人和196个接受血管清障手术的病人进行了3年的跟踪x y y x 5.115ˆ-=x y5.115.6ˆ-=x y 5.112.1ˆ-=x y5.113.1ˆ-=x y0.0005300035000.00030.0004200015000.00020.0001400025001000月收入(元)频率/组距 第2讲 变量的相关性、回归分析及独立性检验课后作业:姓名: 学号:1.若施化肥量x 与小麦产量y 之间的回归直线方程为ˆ2504yx =+,当施化肥量为50kg 时,预计小麦产量为2.下表是某厂1~4月份用水量(单位:百吨)的一组数据:月份x1 2 3 4用水量y5.443 5.2由散点图可知,用水量y 与月份x 之间有较好的线性相关关系,其线性回归直线方程是a x y +-=∧7.0,则=a3.一组数据的平均数是2.8,方差是3.6,若将这组数据中的每一个数据都加上60,得到一组新数据,则所得新数据的平均数和方差分别是( )A .57.2 3.6B .57.2 56.4C .62.8 63.6D .62.8 3.64.有一笔统计资料,共有11个数据如下(不完全以大小排列):2,4,4,5,5,6,7,8,9,11,x ,已知这组数据的平均数为6,则这组数据的方差为( ) A .6B .6C .66D .6.55.为了检查某超市货架上的奶粉是否含有三聚氰胺,要从编号依次为1到50的袋装奶粉中抽取5袋进行检验,用每部分选取的号码间隔一样的系统抽样方法确定所选取的5袋奶粉的编号可能是( ) A.5,10,15,20,25 B.2,4,8,16,32 C.1,2,3,4,5 D.7,17,27,37,476.(广州调研文、理)某校对全校男女学生共1600名进行健康调查,选用分层抽样法抽取一个容量为200的样本.已知女生比男生少抽了10人,则该校的女生人数应是 人.7. (韶关一模文、理)一个社会调查机构就某地居民的 月收入调查了10000人,并根据所得数据画了样本的频率分 布直方图(如下图)。
回归方程和独立性检验知识点
回归方程和独立性检验知识点回归方程和独立性检验是统计学中重要的概念和方法。
回归方程是用于描述自变量和因变量之间关系的数学模型,而独立性检验则用于检验两个或多个变量之间是否存在独立关系。
以下将分别对回归方程和独立性检验进行详细介绍。
一、回归方程回归方程是用于描述因变量和自变量之间关系的数学模型,通常用于预测和解释变量之间的关系。
回归方程一般可以表示为:Y=β0+β1X1+β2X2+...+βkXk+ε其中,Y表示因变量,X1,X2,...,Xk为自变量,β0,β1,β2,...,βk为回归系数,ε为随机误差项。
回归方程中的回归系数表示自变量对因变量的影响程度,可以通过回归分析进行估计。
常见的估计方法包括最小二乘法和最大似然法。
最小二乘法是通过最小化观察值与回归方程估计值之间的差异来确定回归系数的方法。
最大似然法是通过最大化数据出现的概率来确定回归系数的方法。
回归方程的显著性检验可以用来判断回归方程是否具有统计意义。
常用的检验方法包括F检验和t检验。
F检验用于检验所有自变量的回归系数是否全为零,即检验回归方程是否合理。
t检验则用于检验单个自变量的回归系数是否为零,即检验自变量对因变量的影响是否显著。
此外,回归方程还可以通过残差分析检验模型的合理性。
残差是观测值与回归方程估计值之间的差异,残差分析可以用于检验回归方程是否具有线性和正态性假设,并检验是否存在异方差性和自相关等问题。
回归方程在实际应用中广泛使用,例如在经济学中用于分析经济变量之间的关系,在医学研究中用于确定影响健康指标的因素等。
二、独立性检验独立性检验是用于检验两个或多个变量之间是否存在独立关系的统计方法。
独立性检验可以帮助我们了解因素之间的相互关系,从而在实际问题中作出合理的推断和决策。
常用的独立性检验方法包括卡方检验和Fisher精确检验。
卡方检验是用于检验两个分类变量之间是否相互独立的方法。
例如,我们可以使用卡方检验来研究性别和喜好之间是否存在关联。
回归系数与相关系数的关系
回归系数与相关系数的关系回归分析是一种常用的统计方法,它可以用来研究两个或多个变量之间的关系。
其中,回归系数和相关系数是回归分析中非常重要的概念,它们之间存在着密切的关系。
本文将从回归系数和相关系数的定义、计算方法以及意义等方面,探讨它们之间的关系。
一、回归系数和相关系数的定义回归系数是用来描述自变量与因变量之间关系的参数。
在一元线性回归中,回归系数通常表示为β1,它表示因变量y对自变量x的变化量,即y的平均值随着x的变化而变化的程度。
在多元回归中,回归系数通常表示为βi,表示因变量y对自变量xi的变化量,即y 的平均值随着xi的变化而变化的程度。
相关系数是用来描述两个变量之间线性相关程度的指标。
它通常用r表示,在一定程度上反映了两个变量之间的相似程度。
当r=1时,表示两个变量完全正相关;当r=-1时,表示两个变量完全负相关;当r=0时,表示两个变量之间不存在线性相关关系。
二、回归系数和相关系数的计算方法在一元线性回归中,回归系数β1的计算方法为:β1=Σ((xi- x)(yi- y))/Σ(xi- x)^2其中,x表示自变量的平均值,y表示因变量的平均值,xi和yi 分别表示第i个样本的自变量和因变量的值。
相关系数r的计算方法为:r=Σ((xi- x)(yi- y))/√(Σ(xi- x)^2Σ(yi- y)^2)在多元回归中,回归系数βi的计算方法为:βi=(XTX)^-1XTY其中,X表示自变量的矩阵,Y表示因变量的向量,T表示转置,-1表示矩阵的逆。
三、回归系数和相关系数的意义回归系数和相关系数都是用来描述两个变量之间关系的指标,但它们的意义有所不同。
回归系数描述的是因变量在自变量变化时的变化量,它可以用来预测因变量的变化情况。
例如,一个人的身高和体重之间存在一定的关系,假设我们已经建立了身高和体重之间的回归模型,其中回归系数为2.5,那么当这个人的身高增加1厘米时,他的体重预计会增加2.5公斤。
一元线性回归模型与独立性检验-高考数学复习
3.下表是降耗技术改造后生产甲产品过程中记录的产量x(单位:吨)与相应
的生产能耗y(单位:吨标准煤)的几组对应数据,根据表中提供的数据,求出y
^
关于x的回归直线方程为 y =0.7x+0.35,则表中m的值为(
)
x/吨
3
4
5
6
y/吨标准煤
2.5
m
4
4.5
A.3
B.3.5 C.4
D.4.5
答案 A
(2)事件X,Y关系越密切,则由观测数据计算得到的χ2的值越大.( √ )
^
^
^
(3) 经验回归直线 = bx+至少经过点(x1,y1),(x2,y2),…,(xn,yn)中的一个
点.( × )
(4)两个变量的相关系数的绝对值越接近于1,它们的相关性越强.( √ )
2.(多选)下列说法不正确的有(
次函数y=bx+a,对每一个已知的xi,由直线方程可以得到一个估计值
^
i =bxi+a,
^
^
^
如果一次函数y = x+能使残差平方和
^
即
^
^
(y1-1 ) +(y2-y2 ) +…+(yn- ) = ∑
2
2
2
=1
^ 2
(yi- )
^
^
^
取得最小值,则 = x+称为 y
关于 x 的回归直线方程(对应的直线称为回归直线).因为是使得
平方和 最小,所以其中涉及的方法称为 最小二乘法
.
∑ ( -)( -)
=1
^
其中,回归系数=
【高考数学总复习】:回归性分析与独立性检验(知识点讲解+真题演练+详细解答)
量,例如某同学的数学成绩与化学成绩。
2.线性回归分析 (1) 散点图:将样本中的各对数据在直角坐标系中描点而得到的图形叫做散点图,它直观地 描述了两个变量之间是否有相关关系,是判断两个变量相关性的重要依据。 (2) 回归直线:散点图中点的整体分布在一条直线左右,则称这两个变量之间具有线性相关
(a b)(c d)(a c)(b d )
通过对统计量 K2 的研究,一般情况下认为:
①当 K 2 ≤3.841 时,认为变量 X 与 Y 是无关的。
②当 K 2 >3.841 时,有 95%的把握说变量 X 与 Y 有关;
④ 当 K 2 >6.635 时,有 99%的把握说变量 X 与 Y 有关;
定在多大程度上可以认为“两个分类变量有关系”的方法称为两个分类变量的独立性检验。
2.分类变量的理解: 分类变量是说明事物类别的一个名称,其取值是分类数据。如“性别”就是一个分类变 量,其变量值为“男”或“女”;“行业”也是一个分类变量,其变量值可以为“零售 业”,说明 X 与 Y 无关的把握越小
6. 右表是对与喜欢足球与否的统计列联表依据表中的数据,得到( )
A. K 2 9.564 B. K 2 3.564 C. K 2 2.706 D. K 2 3.841
7. 对两个分类变量 A、B 的下列说法中正确的个数为( ). ①A 与 B 无关,即 A 与 B 互不影响;②A 与 B 关系越密切,则 K2 的值就越大;③K2
x yw
46.6 563 6.8
8
(xi x )2
i 1
线性回归方程求法独立性检验应用相关系数计算
线性回归方程求法独立性检验应用相关系数计算线性回归是一种统计分析方法,用于描述两个或多个变量之间的关系。
线性回归方程用于预测因变量的值,基于自变量的值。
具体来说,线性回归方程的求解过程涉及以下几个步骤:1.数据收集:首先需要收集因变量和自变量的观测数据。
例如,如果我们想要预测一个人的体重(因变量),则需要收集与体重相关的自变量数据,如身高、性别、年龄等。
2.数据预处理:在进行线性回归之前,应对数据进行一些预处理操作,以确保数据的连续性和一致性。
这可能包括处理缺失值、异常值和离群点等。
3.模型建立:根据数据集和所需的模型类型,选择适当的线性回归模型。
一般情况下,我们可以使用最小二乘法来估计回归系数。
4.回归系数估计:通过最小化残差平方和,计算回归方程中的回归系数。
这一过程可以使用各种方法来实现,如正规方程、梯度下降法等。
5.模型评估:对建立的线性回归模型进行评估,评估模型的拟合程度和预测能力。
例如,可以使用残差分析、决定系数等指标来评估模型。
6.预测:使用线性回归方程对新的自变量数据进行预测,并通过回归方程计算因变量的值。
独立性检验应用:独立性检验用于检验两个或多个变量之间的关系是否独立。
这对于确定变量之间是否存在相互作用、关联性以及预测性很重要。
以下是一些常用的独立性检验方法及其应用:1.卡方检验:卡方检验常用于检验两个分类变量之间的独立性。
例如,可以使用卡方检验来检验性别(男、女)和吸烟习惯(吸烟、不吸烟)之间的关系。
2.t检验:t检验用于比较两个样本均值之间是否存在显著差异。
例如,可以使用t检验来检验男性和女性体重之间的差异。
3.方差分析(ANOVA):方差分析适用于比较两个或多个组之间的均值是否存在显著差异。
例如,可以使用方差分析来比较不同年龄组的体重平均值之间的差异。
4.相关分析:相关分析用于研究两个连续变量之间的线性关系。
例如,可以使用相关系数来分析身高和体重之间的相关性。
相关系数计算:相关系数用于度量两个变量之间的线性相关程度,其值介于-1和1之间。
回归分析与独立性检验
回归分析与独立性检验知识要点及解析1.函数关系与相关关系的区别?函数关系是一种确定性关系,而相关关系是一种非确定性关系.2.回归公式∑∑∑∑====--=---=ni ini ii ni ini iix n xyx n y x x x y yx x b1221121)())((ˆ x b y a ˆˆ-= a x b yˆˆˆ+= 3.回归分析的步骤?回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法, 其步骤:收集数据→作散点图→求回归直线方程→利用方程进行预报.4.回归直线的性质 a x by ˆˆ+= ⑴回归直线 过样本点的中心()y x ,其中解释变量x 的平均数为: ∑==n i i x n x 11 预报变量y 的平均数为: ∑==ni i y n y 11⑵回归直线的斜率的估计值bˆ的意义:解释变量x 每增加一个单位,预报变量y 就增加bˆ个单位. 5.求线性回归方程的五个步骤: ⑴计算y x x y x 、、、2⑵计算∑=ni ii yx 1⑶计算∑=ni ix12⑷代入系数公式求bˆ⑸代入公式计算a ˆ 例题1:下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x (吨)与相应的能耗y (吨标准煤)的几组数据:⑴画出散点图;⑵求出线性回归方程a x b yˆˆˆ+= ⑶已知该厂技改前100吨甲产品的生产能耗为90吨标准煤,试根据(2)问求出的线性回归方程预测(估计)生产100吨甲产品的生产能耗比技改前降低多少吨标准煤?例题2:从某大学中随机选取8名女大学生,其身高和体重数据如表所示:⑴画出散点图;⑵求出根据身高预报体重的回归方程a x b yˆˆˆ+= ⑶根据以上回归方程预测一名身高为172cm 的女大学生的体重.例题3:下表是某厂1~4月份用水量(单位:百吨)的一组数据,由散点图可知:用水量y 与月份x 之间有较好的线性相关关系,其线性回归方程为a x yˆ7.0ˆ+-=, 请你预测该厂5月份的用水量大约为多少百吨?6.线性回归模型y=bx+a+e 中随机误差e 产生的原因?⑴选用的函数模型不恰当引起的误差 ⑵忽略了某些因素的影响 ⑶存在观测误差 7.如何发现数据中的错误?先分别计算出残差a x b y y y e ii i i ˆˆˆˆ--=-=然后选取横坐标为编号或解释变量x 或预报变量y,纵坐标为残差,作出残差图;最后观察:如果样本点的残差较大(落在带状区域外),说明数据的采集有可能错误。
线性回归方程求法、独立性检验应用、相关系数计算
统计部分的三个重要公式第一公式:线性回归方程为ˆˆˆybx a =+的求法(最小二乘法(亦理解为最小平方法),其中回归方程必过样本中心点(x ,y ),a 、ˆb称为回归系数)(1)先求变量x 的平均值,既1231()n x x x x x n=+++⋅⋅⋅+; (2)求变量y 的平均值,既1231()n y y y y y n=+++⋅⋅⋅+; (3)求变量x 的系数ˆb ,有两个方法: 法1121()()ˆ()ni ii n ii x x y y b x x ==--=-∑∑(题目给出不用记忆)[]112222212()()()()...()()()()...()n n n x x y y x x y y x x y y x x x x x x --+--++--=⎡⎤-+-++-⎣⎦(需理解并会代入数据) 法2121()()ˆ()ni ii n ii x x y y b x x ==--=-∑∑(题目给出不用记忆) []1122222212...,...n n n x y x y x y nx y x x x nx ++-⋅=⎡⎤+++-⎣⎦(这个公式需要自己记忆,稍微简单些) (4)求常数ˆa ,既ˆˆa y bx =-; (5)最后写出写出回归方程ˆˆˆybx a =+.可以改写为:ˆˆy bx a =-(ˆy y 与不做区分). 例.已知,x y 之间的一组数据:求y 与x 的回归方程:解:(1)先求变量x 的平均值,既1(0123) 1.54x =+++= (2)求变量y 的平均值,既1(1357)44y =+++= (3)求变量x 的系数ˆb,有两个方法 法1121()()ˆ()ni i i n i i x x y y b x x ==--=-∑∑法2ˆb =[][]()25.14)3210(45.1473523110222222222212211=⨯-+++⨯⨯-⨯+⨯+⨯+⨯=-+++-+++=x n x x x y x n y x y x y x nn n (4)求常数ˆa ,既15.124=⨯-=-=x b y a , (5)最后写出回归方程12+=+=x a x b y .()()()()()()()()()()()()()()()()()()()()()()()()25.135.125.115.10475.13455.12435.11415.1022222423222144332211=-+-+-+---+--+--+--=-+-+-+---+--+--+--=x x x x x x x x y y x x y y x x y y x x y y x x第二公式:独立性检验两个分类变量的独立性检验:注意:数据a 具有两个属性1x ,1y ,数据b 具有两个属性1x ,2y ,数据c 具有两个属性2x ,1y ,数据d 具有两个属性2x ,2y ,而且列出表格是最重要.解题步骤如下:第一步:提出假设检验问题 (一般假设两个变量不相关)第二步:列出上述表格 第三步:计算检验的指标22()()()()()n ad bc K a b c d a c b d -=++++例如你计算出K =9大于表格中7.879,则查表可得结论:两个变量之间不相关概率为0.005,或者可以肯定的说两个变量相关的概率为0.995.或95.5%.例如你计算出2K =6大于表格中5.024,则查表可得结论:两个变量之间不相关概率为0.025,或者可以肯定的说两个变量相关的概率为0.975.或97.5%. 第三个公式:相关系数的计算统计中常用相关系数r 来衡量两个变量之间的线性相关的强弱,当i x 不全为零,y i 也不全为零时,则两个变量的相关系数的计算公式是:()()n ni i i i x x y y x y nx y r ---=∑∑r 就叫做变量y 与x 的相关系数(简称相关系数).说明:(1)对于相关系数r ,首先值得注意的是它的符号,当r 为正数时,表示变量x ,y 正相关;当r 为负数时,表示两个变量x ,y 负相关;(2)另外注意r 的大小,如果[]0.751r ∈,,那么正相关很强;如果[]10.75r ∈--,,那么负相关很强;如果(]0.750.30r ∈--,或[)0.300.75r ∈,,那么相关性一般;如果[]0.250.25r ∈-,,那么相关性较弱.三个公式的说明1.“最小二乘法”是求回归直线方程常用的方法,在回归直线方程y bx a =+中,a b ,是回归直线方程中的系数,其中b 是回归直线的斜率,表示自变量变化1个单位时因变量的平均变化值;a 的表达式a =y --b x -为它的截距.在数值计算的过程中可以用计算器来帮助完成复杂的计算结果.2.独立性检验的结论都是概率性总结.切记事实结论.只是大概描述.具体发生情况要和实际联系.3.相关系数法来说明相关性,反应的是相关性的正负性以及相关性的强弱程度.。
高三数学:线性回归方程和独立性检验
Ⅱ.由代数式或数据判断相关关系
报
3.已知变量 x 和 y 满足关系 y=-0.1x+1,变量 y 与 z 正
告
一 相关.下列结论中正确的是( ) 课
A.x 与 y 正相关,x 与 z 负相关
时 作
业
B.x 与 y 正相关,x 与 z 正相关
报
告
C.x 与 y 负相关,x 与 z 负相关
二
D.x 与 y 负相关,x 与 z 正相关
课
时
非线性相关:所有点看上去都在某条曲线附近波动
作 业
2. 正相关
报
告
负相关
二
第11章 第3节
第4页
名师伴你行 ·高考一轮总复习 ·数学(理)
3.求线性回归方程的步骤
(1)设方程:^y=b^x+a^ 其中a^,b^是待定数
报
(2) (x1,y1),(x2,y2),…,(xn,yn) 是两个具有线性相关关
告
二 近于 1,相关程度 越强 ,当|r|≤1 且|r|越接近于 0,相关程
度 越弱 ,通常|r|大于 0.75 时,认为两个变量有很强的线性相
关性.
第11章 第3节
第6页
名师伴你行 ·高考一轮总复习 ·数学(理)
报
二、 独立性检验
告 一
1.独立性检验的有关概念
(1)分类变量
可用变量的不同“值”表示个体所属的 不同类别
[答案] C
第11章 第3节
第16页
名师伴你行 ·高考一轮总复习 ·数学(理)
[解析] 根据正相关和负相关的定义进行判断.若线性回归
报
告 方程的斜率为正,则两个变量正相关,若斜率为负,则负相关.
一
因为 y=-0.1x+1 的斜率小于 0,故 x 与 y 负相关.
(完整)回归方程和独立性检验知识点,推荐文档
回归分析和独立性检验一、回归分析1、回归直线方程 a x b yˆˆˆ+= (x 叫做解释变量,y 叫做预报变量) 其中∑∑==---=ni ini i ix xy y x xb121)())((ˆ=∑∑==--ni ini ii x n xyx n yx 1221(由最小二乘法得出,考试时给出此公式中的一个)x b y aˆˆ-= ( 此式说明:回归直线过样本的中心点)(y x , ,也就是平均值点。
) 2、几条结论:(1)回归直线过样本的中心点)(y x ,。
(2)b>0时,y 与x 正相关,散点图呈上升趋势;b<0时,y 与x 负相关,散点图呈下降趋势。
(3)斜率b 的含义(举例):如果回归方程为y=2.5x+2, 说明x 增加1个单位时,y 平均增加2.5个单位; 如果回归方程为y=-2.5x+2,说明x 增加1个单位时,y 平均减少2.5个单位。
(4)相关系数r 表示变量的相关程度。
范围:1≤r ,即 11≤≤-rr 越大.,相关性越强.。
0>r 时,y 与x 正相关;0<r 时,y 与x 负相关。
(5)相关指数2R 表示模型的拟合效果。
范围:]10[2,∈R 2R 越大.,拟合效果越好.,(这时:残差平方和越小,残差点在带状区域内的分布比较均匀, 带状区域宽度越窄,拟合精度越高)。
2R 表示解释变量x 对于预报变量y 变化的贡献率。
例如:64.02≈R ,表明“x 解释了64%的y 变化”,或者说“y 的差异有64%是由x 引起的”。
(6)线性回归模型 e a bx y ++=, 其中e 叫做随机误差。
(y 是由x 和e 共同确定的。
)二、独立性检验1、原理:假设性检验(类似反证法原理)。
一般情况下:假设分类变量X 和Y 之间没有关系,通过计算2K 值,然后查表对照相应的概率P , 发现这种假设正确的概率P 很小,从而推翻假设,最后得出X 和Y 之间有关系的可能性为(1-P), 也就是“X 和Y 有关系”。
2018年高考数学总复习:11-3相关关系、回归分析与独立性检验
重点难点 重点: 1.利用散点图判断变量之间是否具有相关关 系. 2.求回归直线方程和利用回归直线作出估计. 3.独立性检验. 难点: 回归分析与独立性检验的应用.
知识归纳 1.两个变量的线性相关 (1)散点图 将样本中 n 个数据点(xi,yi)(i= 1,2,…,n)描在平面 直角坐标系中,表示两个变量关系的一组数据的图形叫 做散点图.
0.50
0.40
0.25
0.15
0.10
0.05
0.025 0.010 0.005
0.001
k0
0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828
①当k>10.828时,有99.9%的把握认为“X与Y有关系”. ②当k>7.879时,有99.5%的把握认为“X与Y有关系”.
1.建立回归模型的基本步骤: ①确定研究对象,明确解释变量和预报变量. ②画出散点图,观察它们是否存在相关关系.(如线性相 关关系 ) ③确定回归方程类型. (如线性回归方程y=^ b x+^ a) ④按一般规则估计回归方程中的参数. (如最小二乘法 ) ⑤得出结果后分析残差图有否异常,若存在异常,则检 查数据是否有误,模型是否恰当.
(2)利用回归直线可以对总体进行估计 (3)线性相关强度的检验:
xi- x yi- y
i= 1
n
y xiyi- n x ·
i= 1
n
r=
=
叫做 y 与 x
2 x - n x y2 i -n y 2 i 2 i= 1 i= 1 n n
xi- x · yi- y
教学设计2:相关关系、回归分析与独立性检验
10.4 变量间的相关关系考纲传真1.会作两个有关联变量的数据的散点图,并利用散点图认识变量间的相关关系.2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程. 3.了解独立性检验(只要求2×2列联表)的基本思想、方法及其简单应用.4.了解回归分析的基本思想、方法及其简单应用.1.两个变量的线性相关(1)在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关.(2)在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.(3)如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.2.回归方程(1)最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法叫最小二乘法.(2)回归方程:两个具有线性相关关系的变量的一组数据:(x 1,y 1)、(x 2,y 2),…,(x n ,y n ).其回归方程为y ^=b ^x +a ^,则⎩⎪⎨⎪⎧b ^=∑ni =1(x i-x )(y i-y )∑n i =1(x i-x )2=∑ni =1x i y i -n xy ∑ni =1x 2i-nx 2,a ^=y -b ^x .其中(x ,y )称为样本点的中心.3.残差分析(1)残差:对于样本点(x 1,y 1),(x 2,y 2),…,(x n ,y n ),它们的随机误差为e i =y i -bx i -a ,i =1,2,…,n ,其估计值为e ^i =y i -y ^i =y i -b ^x i -a ^,i =1,2,…,n .e ^i 称为相应于点(x i ,y i )的残差.(2)残差平方和为∑ni =1 (y i-y ^i )2. (3)相关指数:R 2=1-错误!. 4.独立性检验(1)利用随机变量K 2来判断“两个分类变量有关系”的方法称为独立性检验.(2)列联表:列出的两个分类变量的频数表,称为列联表.假设有两个分类变量X 和Y ,它们的可能取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(称为2×2列联表)为2×2列联表y 1 y 2 总计 x 1 a b a +b x 2 c d c +d 总计a +cb +da +b +c +d构造一个随机变量K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d 为样本容量.1.(人教A 版教材习题改编)某商品销售量y (件)与销售价格x (元/件)负相关,则其回归方程可能是( )A.y ^=-10x +200B.y ^=10x +200 C.y ^=-10x -200 D.y ^=10x -200【解析】 由题意回归方程斜率应为负,故排除B ,D ,又销售量应为正值,故C 不正确,故选A.【答案】 A2.(2013·枣庄模拟)下面是2×2列联表:y 1 y 2 合计 x 1 a 21 73 x 2 22 25 47 合计b46120则表中a ,b 的值分别为( ) A .94,72 B .52,50 C .52,74 D .74,52【解析】 ∵a +21=73,∴a =52. 又a +22=b ,∴b =74. 【答案】 C3.(2012·课标全国卷)在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =12x +1上,则这组样本数据的样本相关系数为( )A .-1B .0 C.12D .1 【解析】 样本点都在直线上时,其数据的估计值与真实值是相等的,即y i =y ^i ,代入相关系数公式r =错误!=1.【答案】 D4.(2013·济南模拟)考古学家通过研究始祖鸟化石标本发现:其股骨长度x (cm)与肱骨长度y (cm)的线性回归方程为y ^=1.197x -3.660,由此估计,当股骨长度为50 cm 时,肱骨长度为________cm.【解析】 根据线性回归方程y ^=1.197x -3.660, 将x =50代入, 得y =56.19,则肱骨长度为56.19 cm. 【答案】 56.195.在一项打鼾与患心脏病的调查中,共调查了1 671人,经过计算K 2的观测值k =27.63,根据这一数据分析,我们有理由认为打鼾与患心脏病是________的(填有关或无关).【解析】∵k=27.63>6.635,∴有99%的把握认为“打鼾与患心脏病有关”.【答案】有关相关关系的判断下面是水稻产量与施化肥量的一组观测数据:施化肥量15202530354045水稻产量320330360410460470480(1)将上述数据制成散点图;(2)你能从散点图中发现施化肥量与水稻产量近似成什么关系吗?水稻产量会一直随施化肥量的增加而增长吗?【思路点拨】分析观测数据、制图,分析散点图,做出判断.【尝试解答】(1)散点图如下:(2)①从图中可以发现施化肥量与水稻产量具有线性相关关系,当施化肥量由小到大变化时,水稻产量由小变大,图中的数据点大致分布在一条直线的附近,因此施化肥量和水稻产量近似成线性相关关系.②不会,水稻产量只是在一定范围内随着化肥施用量的增加而增长.,1.利用散点图判断两个变量是否有相关关系是比较直观简便的方法.如果所有的样本点都落在某一函数的曲线附近,变量之间就有相关关系.如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系.2.在散点图中,若点散布在从左下角到右上角的区域,称为正相关;若散布在从左上角到右下角的区域称为负相关.(2013·九江调研)变量X 与Y 相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5);变量U 与V 相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1).r 1表示变量Y 与X 之间的线性相关系数,r 2表示变量V 与U 之间的线性相关系数,则( )A .r 2<r 1<0B .0<r 2<r 1C .r 2<0<r 1D .r 2=r 1【解析】 对于变量Y 与X ,Y 随着X 的增大而增大, ∴Y 与X 正相关,即r 1>0.对于变量V 与U 而言,V 随U 的增大而减小, 故V 与U 负相关,即r 2<0, 因此r 2<0<r 1. 【答案】 C线性回归分析(2013·合肥模拟)某地最近十年粮食需求量逐年上升,下表是部分统计数据:年份 2002 2004 2006 2008 2010 需求量(万吨)236246257276286(1)利用所给数据求年需求量与年份之间的回归直线方程y ^=bx +a ; (2)利用(1)中所求出的直线方程预测该地2012年的粮食需求量.【思路点拨】 (1)为了方便计算,可将数据适当处理,再列对应表格,求回归系数;(2)根据回归方程进行预测分析.【尝试解答】 (1)由所给数据看出,年需求量与年份之间是近似直线上升,下面来求回归直线方程,为此对数据预处理如下:年份-2006 -4 -2 0 2 4 需求量-257-21-111929对预处理后的数据,容易算得x =0,y =3.2,b ^=(-4)×(-21)+(-2)×(-11)+2×19+4×2942+22+22+42=26040=6.5,∴a ^=y -b ^x =3.2,由上述计算结果,知所求回归直线方程为 y ^-257=b ^(x -2 006)+a ^=6.5(x -2 006)+3.2 即y ^=6.5(x -2 006)+260.2.①(2)利用直线方程①,可预测2012年的粮食需求量为6.5×(2 012-2 006)+260.2=6.5×6+260.2=299.2(万吨)≈300(万吨).,1.解答本题将年份-2006,需求量-257,有利于计算,进而由回归直线方程进行有效地预测分析.2.正确运用计算b ^、a ^的公式和准确的计算,是求线性回归方程的关键.3.在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程估计和预测变量的值.为了解篮球爱好者小李的投篮命中率与打篮球时间之间的关系,下表记录了小李某月1号到5号每天打篮球时间x (单位:小时)与当天投篮命中率y 之间的关系:时间x 1 2 3 4 5 命中率y0.40.50.60.60.4(1)试求小李这5天的平均投篮命中率;(2)请你用线性回归分析的方法,预测小李该月6号打6小时篮球的投篮命中率. 【解】 (1)由图表知,5天的平均投篮命中率 y =0.4+0.5+0.6+0.6+0.45=0.5,(2)x =15(1+2+3+4+5)=3,∴b ^=-2×(-0.1)+(-3)×0+0×0.1+1×0.1+2×(-0.1)(1-3)2+(2-3)2+(4-3)2+(5-3)2=0.01,a ^=y -b ^x =0.5-0.01×3=0.47, 故回归直线方程为y ^=0.47+0.01x 将x =6代入,得y ^=0.53,∴6号打6小时篮球命中率约为0.53.独立性检验(2012·辽宁高考改编)电视传媒公司为了解某地区电视观众对某类体育节目的收视情况,随机抽取了100名观众进行调查,其中女性有55名.下面是根据调查结果绘制的观众日均收看该体育节目时间的频率分布直方图:图9-4-1将日均收看该体育节目时间不低于40分钟的观众称为“体育迷”.已知“体育迷”中有10名女性.(1)试求“体育迷”中的男性观众人数; (2)据此资料你是否认为“体育迷”与性别有关? 附:P (K 2≥k ) 0.05 0.01 k3.8416.635K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ).【思路点拨】 (1)根据频率分布直方图求“体育迷”人数,进而确定其中男性观众人数.(2)列出2×2列联表,计算K 2的观测值k ,依据独立性检验思想作出判断.【尝试解答】 (1)由频率分布直方图,“体育迷”的频率为(0.005+0.020)×10=0.25.∴“体育迷”观众共有100×0.25=25(名), 因此,男“体育迷”共有25-10=15(名). (2)由(1)列2×2列联表如下:非体育迷 体育迷 合计 男 30 15 45 女 45 10 55 合计7525100将2×2列联表中的数据代入公式计算,得k =n (ad -bc )2(a +b )(c +d )(a +c )(b +d )=100(30×10-45×15)275×25×45×55=10033≈3.030. ∵3.030<3.841.∴我们没有理由认为“体育迷”与性别有关.,1.独立性检验的关键是准确的计算K 2,在计算时,要充分利用2×2列联表. 2.独立性检验的步骤:(1)根据样本数据制成2×2列联表. (2)根据公式K 2=n (ad -bc )2(a +b )(a +c )(b +d )(c +d )计算K 2的观测值k .(3)比较k 与临界值的大小关系作统计推断.为调查某地区老年人是否需要志愿者提供帮助,用简单随机抽样方法从该地区调查了500位老年人,结果如下:性别是否需要志愿者 男女 需要4030不需要 160 270(1)估计该地区老年人中,需要志愿者提供帮助的老年人的比例;(2)能否有99%的把握认为该地区的老年人是否需要志愿者提供帮助与性别有关? (3)根据(2)的结论,能否提出更好的调查方法来估计该地区的老年人中,需要志愿者提供帮助的老年人的比例?说明理由.附:P (K 2≥k ) 0.050 0.010 0.001 k3.8416.63510.828K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )【解】 (1)调查的500位老年人中有70位需要志愿者提供帮助,因此该地区老年人中,需要帮助的老年人的比例的估计值为70500=14%.(2)k =500×(40×270-30×160)2200×300×70×430≈9.967.由于9.967>6.635,所以有99%的把握认为该地区的老年人是否需要帮助与性别有关. (3)由(2)的结论知,该地区老年人是否需要帮助与性别有关,并且从样本数据能看出该地区男性老年人与女性老年人中需要帮助的比例有明显差异,因此在调查时,先确定该地区老年人中男、女的比例,再把老年人分成男、女两层并采用分层抽样方法,比采用简单随机抽样方法更好.两条规律1.函数关系是一种确定的关系,相关关系是一种非确定的关系.事实上,相关关系是非随机变量与随机变量的关系.2.当K 2≥3.841时,则有95%的把握说事件A 与B 有关;当K 2≤2.706时,认为两个分类变量无关.三点注意1.回归分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图大致呈线性时,求出的回归直线方程才有实际意义.2.线性回归方程中的截距和斜率都是通过样本数据估计而来的,存在误差,这种误差会导致预报结果的偏差.3.独立性检验的随机变量K 2的观测值k =3.841是判断是否有关系的临界值,K 2的观测值k ≤3.841应判断为没有充分证据显示事件A 与B 有关系,而不能作为小于95%的量化值来判断.从近两年高考看,以考查独立性检验,回归分析为主,多为选择题、填空题,也可能以解答题形式考查,主要以实际问题为背景,考查阅读理解、分析问题、解决问题的能力,在解决一些简单实际问题的过程中考查基本的统计思想.思想方法之十八 利用回归分析思想进行科学预测(2012·福建高考)某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:单价x (元) 8 8.2 8.4 8.6 8.8 9 销量y (件)908483807568(1)求回归直线方程y ^=bx +a (其中b ^=-20,a ^=y -b ^x );(2)预计在今后的销售中,销量与单价仍然服从(1)中的关系,且该产品的成本是4元/件,为使工厂获得最大利润,该产品的单价应定为多少元?(利润=销售收入-成本)【规范解答】 (1)由于x =16(x 1+x 2+x 3+x 4+x 5+x 6)=8.5,y =16(y 1+y 2+y 3+y 4+y 5+y 6)=80. 又b ^=-20.所以a ^=y -b ^x =80+20×8.5=250, 从而回归直线方程为y ^=-20x +250. (2)设工厂获得的利润为L 元,依题意得L =x (-20x +250)-4(-20x +250)=-20x 2+330x -1 000=-20(x -334)2+361.25.当且仅当x =8.25时,L 取得最大值.故当单价定为8.25元时,工厂可获得最大利润.易错提示:(1)在求回归直线方程时,易因为数据较多,公式结构复杂,计算b ^及a ^的值时容易出错.(2)把回归直线中的b ^和a ^弄颠倒,把回归直线写为y =a ^x +b ^,导致结果错误. 防范措施:(1)把计算b ^及a ^的公式结构把握好,代入数据,谨慎运算.(2)注意回归直线方程y ^=b ^x +a ^和通常的一次函数y =kx +b 在系数上的表达习惯不一样,不要把两系数弄颠倒.1.(2012·湖南高考)设某大学的女生体重y (单位:kg)与身高x (单位:cm)具有线性相关关系,根据一组样本数据(x i ,y i )(i =1,2,…,n ),用最小二乘法建立的回归方程为y ^=0.85x -85.71,则下列结论中不正确...的是( ) A .y 与x 具有正的线性相关关系 B .回归直线过样本点的中心(x ,y )C .若该大学某女生身高增加1 cm ,则其体重约增加0.85 kgD .若该大学某女生身高为170 cm ,则可断定其体重必为58.79 kg【解析】 由于线性回归方程中x 的系数为0.85,因此y 与x 具有正的线性相关关系,故A 正确.又线性回归方程必过样本中心点(x ,y ),因此B 正确.由线性回归方程中系数的意义知,x 每增加1 cm ,其体重约增加0.85 kg ,故C 正确.当某女生的身高为170 cm 时,其体重估计值是58.79 kg ,而不是具体值,因此D 不正确.【答案】 D2.(2013·烟台模拟)通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:男 女 总计 爱好 40 20 60 不爱好 20 30 50 总计6050110由K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )算得,k =110×(40×30-20×20)260×50×60×50≈7.8.附表:P (K 2≥k ) 0.050 0.010 0.001 k3.8416.63510.828参照附表,得到的正确结论是( )A .在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”B .在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”C .有99%以上的把握认为“爱好该项运动与性别有关”D .有99%以上的把握认为“爱好该项运动与性别无关”【解析】 由相关系数K 2的意义,附表所对应的概率为“爱好该运动与性别有关”, ∴有99%以上的把握认为“爱好该项运动与性别有关”. 【答案】 C。
相关关系、回归方程、与独立性检验 -2018届高三文科数学精品复习讲义与跟踪训练含解析
相关关系、回归方程与独立性检验2018届高三文科数学精品复习讲义与跟踪训练含解析I .题源探究·黄金母题【例1】相关变量的样本数据如下表:经回归分析可得y 与x 线性相关,并由最小二乘法求得回归直线方程为1.1y x a =+,则a =( )A .0.1B .0.2C .0.3D .0.4 【答案】C【例2】为考察某种药物预防疾病的效果,科研人员对100只某种动物进行试验,得到如下的列联表:( ) A .99.5% B .95% C .99% D .97.5% 【答案】B 【解析】()()()()()()22210010 3.304020 4.76250503074081,n ad bc k a b c d a c b d -⨯-⨯==≈++++⨯>∴⨯⨯ 有95%的把握认为药物有效.精彩解读【试题来源】例1:人教A 版必修3A 组T 3改编;例2:人教A 版选修2-3习题3.2A 组T 1改编.【母题评析】本题考查三角函数的单调性、对称性,考查考生的分析问题解决问题的能力.【思路方法】结合函数的周期性、单调性、对称性解题.II .考场精彩·真题回放【例1】【2017高考山东5】为了研究某班学生的脚长x (单位:厘米)和身高y (单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可【命题意图】这类题主要考查线性相关与线性回归方程的以看出y 与x 之间有线性相关关系,设其回归直线方程为ˆˆˆybx a =+. 已知101225ii x==∑,1011600i i y ==∑,ˆ4b=.该班某学生的脚长为24,据此估计其身高为 ( ) A .160 B .163 C .166 D .170 【答案】C 【解析】由已知22.5,160,160422.570,42470166x y ay ==∴=-⨯==⨯+=,故选C . 【例2】【2017高考课标II 文19】海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg ),其频率分布直方图如下:(I )记A 表示事件“旧养殖法的箱产量低于50kg”,估计A 的概率;(II )填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关:(III )根据箱产量的频率分布直方图,对两种养殖方法的优劣进行较. 附:求法与应用;在给出临界值的情况下判断两个变量是否相关. 【考试方向】这类试题在考查题型上,可以是选择题、填空题或解答题,难度中等.以选择、填空题的形式探究求线性回归系数以及利用线性回归方程进行预测,在解答题中与频率分布结合探究线性回归方程的建立及应用和独立性检验的应用. 【难点中心】1.判断两个变量是否线性相关及相关程度通常有两种方法:(1)利用散点图直观判断;(2)将相关数据代入相关系数r 公式求出r ,然后根据r 的大小进行判断.求线性回归方程时在严格按照公式求解时,一定要注意计算的准确性.2.利用独立性检验,能够帮助我们对日常生活中的实际问题作出合理的推断和预测.独立性检验就是考察两个分类变量是否有关系,并能较为准确地给出这种判断的可信度,随机变量的观测值2K值越大,说明“两个变量有关系”的可能性越大.22()()()()()n ad bc K a b c d a c b d -=++++ 【答案】(I )0.62;(II )有把握;(III )新养殖法优于旧养殖法.试题解析:(I )旧养殖法的箱产量低于50kg 的频率为 ()0.0120.0140.0240.0340.04050.62++++⨯= 因此,事件A 的概率估计值为0.62. (II )根据箱产量的频率分布直方图得列联表()22006266343815.70510010096104K ⨯⨯-⨯=≈⨯⨯⨯,由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关.(3)箱产量的频率分布直方图平均值(或中位数)在45kg 到50kg 之间,且新养殖法的箱产量分布集中程度较旧养殖法的箱产量分布集中程度高,因此,可以认为新养殖法的箱产量较高且稳定,从而新养殖法优于旧养殖法.III .理论基础·解题原理1.相关关系与回归分析回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法;判断相关性的常用统计图是:散点图;统计量有相关系数与相关指数.(1)在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关;(2)在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关;(3)如果散点图中点的分布从整体上看大致在一条直线附近,称两个变量具有线性相关关系.2.线性回归方程:(1)最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法.(2)回归方程:两个具有线性相关关系的变量的一组数据:()()()1122,,,,,,n n x y x y x y ,其回归方程为a bx y +=∧,则1221,.ni i i ni i x y nx y b x nx a y bx ==⎧-⎪⎪=⎪⎨-⎪⎪=-⎪⎩∑∑注意:线性回归直线经过定点(),x y .相关系数:()()nii xx y y r --=∑ni ix y nxy-=∑.3.独立性检验假设有两个分类变量X 和Y ,它们的值域分另为{x 1,x 2}和{y 1,y 2},其样本频数2⨯2列联表为:若要推断的论述为1H :“X 与Y 有关系”,可以利用独立性检验来考察两个变量是否有关系,并且能较精确地给出这种判断的可靠程度.具体的做法是,由表中的数据算出随机变量2K 的值22()()()()()n ad bc K a b c d a c b d -=++++,其中n a b c d =+++为样本容量,2K 的值越大,说明“X 与Y 有关系”成立的可能性越大.随机变量2K 越大,说明两个分类变量,关系越强;反之,越弱.2 3.841K ≤时,X 与Y 无关;2 3.841K >时,X 与Y 有95%可能性有关;2 6.635K ≥时,X 与Y 有99%可能性有关.IV .题型攻略·深度挖掘【考试方向】这类试题在考查题型上,可以是选择题、填空题或解答题,难度中等.以选择、填空题的形式探究求线性回归系数以及利用线性回归方程进行预测,在解答题中与频率分布结合探究线性回归方程的建立及应用和独立性检验的应用.【技能方法】(1)利用散点图判断两个变量是否有相关关系是比较直观简便的方法.如果所有的样本点都落在某一函数的曲线附近,变量之间就有相关关系.如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系.若点散布在从左下角到右上角的区域,则正相关.(2)利用相关系数判定,当r 越趋近于1相关性越强.当残差平方和越小,相关指数2R 越大,相关性越强. (3)在分析实际中两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,也可计算相关系数r 进行判断.若具有线性相关关系,则可通过线性回归方程估计和预测变量的值.(4)正确运用计算 ,b a 的公式和准确的计算,是求线性回归方程的关键.并充分利用回归直线 y bxa =+ 过样本点的中心(),x y 进行求值.(5)在2×2列联表中,如果两个变量没有关系,则应满足ad -bc ≈0.|ad -bc |越小,说明两个变量之间关系越弱;|ad -bc |越大,说明两个变量之间关系越强.(6)解决独立性检验的应用问题,一定要按照独立性检验的步骤得出结论.独立性检验的一般步骤: ①根据样本数据制成2×2列联表:②根据公式K 2=n (ad -bc )2(a +b )(a +c )(b +d )(c +d )计算K 2的观测值k 0;③比较k 0与临界值的大小关系,作统计推断. 【易错指导】1.回归分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图大致呈线性时,求出的线性回归方程才有实际意义,否则,求出的线性回归方程毫无意义.根据回归方程进行预报,仅是一个预报值,而不是真实发生的值.2.独立性检验中统计量K 2的观测值k 0的计算公式很复杂,在解题中易混淆一些数据的意义,代入公式时出错,而导致整个计算结果出错.V .举一反三·触类旁通考向1 变量间的相互关系【例1】下列变量间的关系,是相关关系的为 ( ) ①正方体的体积与棱长间的关系;②一块农田的水稻产量与施肥量之间的关系; ③商品销售收入与其广告费支出之间的关系; ④人体内的脂肪含量与年龄之间的关系.A .①②③B .②③④C .①②④D .①③④ 【答案】B【解析】①,由正方体的棱长和体积的公式可知,正方体的体积等于棱长的立方,所以①是确定的函【例2】【2018湖南张家界高三三模】已知变量x ,y 之间的线性回归方程为0.710.ˆ3yx =-+,且变量x ,y 之间的一组相关数据如下表所示,则下列说法错误..的是( )A .变量x ,y 之间呈现负相关关系B .可以预测,当20x =时, 3.7y =-C .4m =D .由表格数据知,该回归直线必过点()9,4 【答案】C【解析】由题意得,由0.70-<,得变量x ,y 之间呈负相关,故A 正确;当20x =时,则0.72ˆ010.3 3.7y=-⨯+=-,故B()9,4,故D 正确.故选C .【例3】【2018四川高三“联测促改”活动试题】某中学的兴趣小组在某座山测得海拔高度、气压和沸点的六组数据绘制成散点图如图所示,则下列说法错误的是( )A .沸点与海拔高度呈正相关B .沸点与气压呈正相关C .沸点与海拔高度呈负相关D .沸点与海拔高度、 沸点与气压的相关性都很强【答案】A【解析】结合绘制的散点图可得:B .沸点与气压呈正相关;C .沸点与海拔高度呈负相关;结合BC 选项的说法可知:A 选项中:A .沸点与海拔高度呈负相关且:D .沸点与海拔高度、沸点与气压的相关性都很强.故选A . 【跟踪练习】1.下列不具有相关关系的是( ) A .单产不为常数时,土地面积和总产量 B .人的身高与体重 C .季节与学生的学习成绩 D .学生的学习态度与学习成绩 【答案】C2.下列有关线性回归的说法中,不正确的是( )A .变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系叫做相关关系B .在平面直角坐标系中用描点的方法得到表示具有相关关系的两个变量的一组数据的图形叫做散点图C .线性回归直线方程最能代表观测值x ,y 之间的关系D .任何一组观测值都能得到具有代表意义的回归直线方程 【答案】D【解析】必须具有广泛性的观测值才能具有代表意义的回归直线方程.故选.3.【2018四川广安高三上学期期末考试】对变量,x y 有观测数据()(),1,2,,10i i x y i =⋯,得散点图(1);对变量,u v 有观测数据(()(),1,2,,10i i u v i =⋯,得散点图(2),由这两个散点图可以判断( )A .变量x 与y 正相关,u 与v 正相关B .变量x 与y 正相关,u 与v 负相关C .变量x 与y 负相关,u 与v 正相关D .变量x 与y 负相关,u 与v 负相关 【答案】C【解析】由图(1)可知,y 随x 的增大而减小,各点呈下降趋势,变量x 与y 负相关,由图(1)可知,v 随u 的增大而增大,各点呈上升趋势,变量u 与v 正相关,故选C .4.【2018吉林长春十一中、东北师大附中、吉林一中,重庆一中等五校高三1月联合模拟】下列命题:①在线性回归模型中,相关指数2R 表示解释变量x 对于预报变量y 的贡献率,2R 越接近于1,表示回归效果越好;②两个变量相关性越强,则相关系数的绝对值就越接近于1;③在回归直线方程0.52y x ∧=-+中,当解释变量x 每增加一个单位时,预报变量y ∧平均减少0.5个单位;④对分类变量X 与Y ,它们的随机变量2K 的观测值k 来说,k 越小,“X 与Y 有关系”的把握程度越大.其中正确命题的个数是( )A .1个B .2个C .3个D .4个 【答案】C【解析】对于①,在回归分析模型中,相关指数2R 表示解释变量x 对于预报变量y 的贡献率,2R 越因为在对分类变量X 与Y 进行独立性检验时,随机变量2K 的观测值k 越大,则“X 与Y 相关”可信程度越大,故④错误;故选C .考向2 线性回归方程及其应用解题模板:第一步,根据题意画出散点图并判断两变量之间是正相关还是负相关;第二步,计算样本中心点并代入公式进行计算;第三步,得出变量间的相互关系——线性回归方程.【例4】【2018发合肥二模】某公司一种型号的产品近期销售情况如下表根据上表可得到回归直线方程0.7ˆ5ˆyx a =+,据此估计,该公司7月份这种型号产品的销售额为( )A .19.5万元B .19.25万元C .19.15万元D .19.05万元 【答案】D【解析】由题意可得回归方【例5】【2018河北保定高三一模】已知具有线性相关的变量,x y ,设其样本点为()(),1,2,,8i i i A x y i = ,回归直线方程为,若()1186,2O A O A O A +++= ,( O 为原点),则a = ( )A B C D 【答案】B【解析】因为118OA OA OA +++=所以B . 【例6】【2018河北衡水中学高三十五模】某印刷厂为了研究单册书籍的成本y (单位:元)与印刷册数x (单位:千册)之间的关系,在印制某种书籍时进行了统计,相关数据见下表:根据以上数据,技术人员分别借助甲、乙两种不同的回归模型,得到两个回归方程,(I )为了评价两种模型的拟合效果,完成以下任务. ①完成下表(计算结果精确到0.1);②分别计算模型甲与模型乙的残差平方和1Q 及2Q ,并通过比较12,Q Q 的大小,判断哪个模型拟合效果更好. (II )该书上市之后,受到广大读者热烈欢迎,不久便全部售罄,于是印刷厂决定进行二次印刷,根据市场调查,新需求量为10千册,若印刷厂以每册5元的价格将书籍出售给订货商,求印刷厂二次印刷10千册获得的利润?(按(I )中拟合效果较好的模型计算印刷单册书的成本).【答案】(1)①.答案见解析;②.答案见解析;(2)33360元.试题解析:(I )经计算,可得下表:②()22210.10.10.10.03Q =+-+=,220.10.01Q ==,12Q Q >,故模型乙的拟合效果更好;(II )二次印刷10千册,由(I 故印刷总成本为16640(元),印刷利润33360元.【跟踪练习】1.【2018山西省实验中学模拟】某电子产品的成本价格由两部分组成,一是固定成本,二是可变成本,为确定该产品的成本.进行5次试验,收集到的数据如表:由最小二乘法得到回归方程0.6754.9y x =+,则α=__________.【答案】68 【解析】30730,5x y α+==,()51522151056020303071350100.675500450010ˆ005i i i i i x y xy bx x ααα==-+-+-∴====--∑∑,解得68α=.2.【2018湖南长沙长郡中学模拟】已知具有相关关系的两个变量,x y 之间的几组数据如下表所示:(I )请根据上表数据在网格纸中绘制散点图;(II )请根据上表提供的数据,用最小二乘法求出y 关于x 的线性回归方程ˆˆˆybx a =+,并估计当20x =时,y 的值;(III )将表格中的数据看作五个点的坐标,从这五个点中随机抽取2个点,求这两个点都在直线240x y --=的右下方的概率.(参考公式:1221ˆni i i n i i x y nxy bx nx ==-=-∑∑,ˆˆay bx =-)3.【2018广西桂林、贺州、崇左三市高三第二次联合调研】某地区积极发展电商,通过近些年工作的开展在新农村建设和扶贫过程中起到了非常重要的作用,促进了农民生活富裕,为了更好地了解本地区某一特色产品的宣传费x(千元)对销量y(千件)的影响,统计了近六年的数据如下:(I )若近6年的宣传费x 与销量y 呈线性分布,由前5年数据求线性回归直线方程,并写出y 的预测值; (II )若利润与宣传费的比值不低于20的年份称为“吉祥年”,在这6个年份中任意选2个年份,求这2个年份均为“吉祥年”的概率附:回归方程ˆˆˆy bx a =+的斜率与截距的最小二乘法估计分别为111221ˆni n i i x y nx y b x nx ==-=-∑∑, ˆˆa y bx =-,其中x ,y 为i x ,iy 的平均数. 【答案】(1) 6517.5 2.ˆ85yx =+=,y 的预测值为82.5 (2) 25【解析】【试题分析】(1)利用回归直线方程计算公式计算得回归直线方程,令10x =,求得预测值为82.5.(2)利用列举法和古典概型计算公式,计算得概率为25.∴回归直线方程为 6.5175ˆ.yx =+,将10x =代入得∴y 的预测值为82.5. (II )从6个年份中任取2个年份的情况为:()(){}2,40,470,,()(){}2405110,,,,()(){}240690,,,,()(){}2408160,,,,()(){}24010205,,,,()(){}4705110,,,,()(){}470690,,,,()(){}4708160,,,,()(){}47010205,,,,()(){}5110690,,,,()(){}51108160,,,,()(){}511010205,,,,()(){}6908160,,,,()(){}69010,205,,,()(){}816010205,,,,共15种. 2个年份均为“吉祥年”的情况有:()(){}2405110,,,,()(){}2408160,,,,()(){}24010205,,,,()(){}51108160,,,,()(){}511010205,,,,()(){}816010205,,,,共6种. ∴6个年份中任意选个2个年份均为“吉祥年”的概率为62155=. 考向3 独立性检验解题模板:第一步,根据题意画出列联表;第二步,运用公式22()()()()()n ad bc k a b c d a c b d -=++++(其中n a b c d =+++)进行计算;第三步,根据已知表格判断两变量间的相互关联性,作统计推断.【例7】【2018新疆乌鲁木齐高三第二次质量监测】近年来,我国电子商务蓬勃发展,有关部门推出了针对网购平台的商品和服务的评价系统,从该系统中随机选出100名交易者,并对其交易评价进行了统计,网购者对商品的满意率为0.6,对服务的满意率为0.75,其中对商品和服务都满意的有40人.(I )根据已知条件完成下面的22⨯列联表,并回答能否有99%的把握认为“网购者对服务满意与对商品满意之间有关”?(II )若对商品和服务都不满意者的集合为Ω.已知Ω中有2名男性,现从Ω中任取2人调查其意见.求取到的2人恰好是一男一女的概率.(其中n a b c d =+++为样本容量)【答案】(I )没有99%的把握认为“网购者对服务满意与对商品满意之间有关”;(II )0.6.【解析】试题分析:(I )根据题设中的数据,填写22⨯的列联表,利用公式求解2K 的值,根据附表即可作出判断;(II )由题意Ω中有2男3 女,记作12123,,,,a a b b b ,从中任取2人,得到基本事件的总数为10种,其中“一男一女”共有6种,利用古典概型的概率计算公式,即可求解相应的概率.试题解析:(I )∴没有99%的把握认为“网购者对服务满意与对商品满意之间有关”.【方法点睛】本题主要考查古典概型概率公式、离散型随机变量的分布列与期望,以及独立性检验,属于难题.独立性检验的一般步骤:(I )根据样本数据制成22⨯列联表;(II )计算2K 的值;(3) 查表比较2K 与临界值的大小关系,作统计判断.(注意:在实际问题中,独立性检验的结论也仅仅是一种数学关系,得到的结论也可能犯错误.)【例8】【2018河南中原名校(即豫南九校)高三第六次质量考评】下表为2014年至2017年某百货零售企业的线下销售额(单位:万元),其中年份代码x =年份2013-.(I )已知y 与x 具有线性相关关系,求y 关于x 的线性回归方程,并预测2018年该百货零售企业的线下销售额;(II )随着网络购物的飞速发展,有不少顾客对该百货零售企业的线下销售额持续增长表示怀疑,某调査平台为了解顾客对该百货零售企业的线下销售额持续增长的看法,随机调查了55位男顾客、50位女顾客(每位顾客从“持乐观态度”和“持不乐观态度”中任选一种),其中对该百货零售企业的线下销售额持续增长持乐观态度的男顾客有10人、女顾客有20人,能否在犯错误的概率不超过0.025的前提下认为对该百货零售企业的线下销售额持续增长所持的态度与性别有关?参考公式及数据:,n ab c d =+++【答案】(1) 71225ˆ.yx =+ 预测2018年该百货零售企业的线下销售额为377.5万元,(2) 以在犯错误的概率不超过0.025的前提下认为对该百货零售企业的线下销售额持续増长所持的态度与性别有关.【解析】试题分析:(I )第(I )问,直接利用公式求出线性回归方程,再根据线性回归方程预测.(2)第(II )问,先完成2×2列联表,再求出2K 的观测值k ,最后下结论.由于201820135-=,所以当5x =时,71522.537ˆ7.5y=⨯+=, 所以预测2018年该百货零售企业的线下销售额为377.5万元.(II )由题可得22⨯列联表如下:故2K 的观测值由于6.109 5.024>,所以可以在犯错误的概率不超过0.025的前提下认为对该百货零售企业的线下销售额持续増长所持的态度与性别有关.【例9】【2018辽宁辽阳高三一模】“微信运动”是一个类似计步数据库的公众帐号,用户只需以运动手环或手机协处理器的运动教据为介,然后关注该公众号,就能看见自己与好友每日行走的步数,并在同一排行榜上得以体现,现随机选取朋友圈中的50人记录了他们某一天的走路步数,并将数据整理如下:规定:人一天行走的步数超过8000步时被系统评定为“积极性”,否则为“懈怠性”.(I )填写下面列联表(单位:人),并根据列联表判断是否有90%的把握认为“评定类型与性别有关”;附:(II )为了进一步了解“懈怠性”人群中每个人的生活习惯,从步行在3001~6000的人群中再随机抽取3人,求选中的人中男性人数超过女性人数的概率.【答案】(1) 没有90%的把握认为“评定类型与性别有关”(2)【解析】试题分析:(I )根据题意完成22⨯列联表,计算2K ,根据表格数据进行判断;(II )设步试题解析:(I )根据题意完成下面的列联表:所以没有90%的把握认为“评定类型与性别有关”.(II )设步行数在3001~6000中的男性的编号为1,2,女性的编号为a ,b ,c .选取三位的所有情况为:()12a ,,,()12b ,,,()12c ,,,()1a b ,,,()1a c ,,,()1b c ,,,()2a b ,,,()a b c ,,共10中情形.符合条件的情况有:()12a ,,,()12b ,,()12c ,,共3种情形.故所1.【2018宁夏吴忠市高三下学期高考模拟联考】近年空气质量逐步恶化,雾霾天气现象出现增多,大气污染危害加重.大气污染可引起心悸、呼吸困难等心肺疾病.为了解某市心肺疾病是否与性别有关,在某医院随机对心肺疾病入院的50人进行问卷调查,得到了如下的列联表:(I )用分层抽样的方法在患心肺疾病的人群中抽6人,其中男性抽多少人? (II )在上述抽取的6人中选2人,求恰好有1名女性的概率;(III )为了研究心肺疾病是否与性别有关,请计算出统计量2K ,你有多大把握认为心肺疾病与性别有关? 下面的临界值表供参考:,其中n a b c d =+++.【答案】(I )见解析;(II (III )有99.5%把握认为心肺疾病与性别有关 【解析】试题分析:(I )由列联表知,患心肺疾病的有30人,要抽取6人,用分层抽样的方法,则男别有关.试题解析:(I )在患心肺疾病的人群中抽6人,其中男性抽4人;(II )设4男分为:A ,B ,C ,D ;2女分为:M ,N ,则6人中抽出2人的所有抽法:(列举略)共15种抽法,其中恰好有1名女性的抽法有8种.所以恰好有1个女生的概率为K=>,查临界值表知:有99.5%把握认为心肺疾病与性别有关.(III)由列联表得28.3337.8792.【2018山东济南高三一模】2018年2月22日上午,山东省省委、省政府在济南召开山东省全面展开新旧动能转换重大工程动员大会,会议动员各方力量,迅速全面展开新旧动能转换重大工程.某企业响应号召,对现有设备进行改造,为了分析设备改造前后的效果,现从设备改造前后生产的大量产品中各抽取了200件产品作为20,40内的产品视为合格品,否则为不合格品.图1是设样本,检测一项质量指标值,若该项质量指标值落在[)备改造前的样本的频率分布直方图,表1是设备改造后的样本的频数分布表.表1:设备改造后样本的频数分布表⨯列联表,并判断是否有99%的把握认为该企业生产的这种产品的质量指标值与设备改(I)完成下面的22造有关;(II)根据图1和表1提供的数据,试从产品合格率的角度对改造前后设备的优劣进行比较;(III)根据市场调查,设备改造后,每生产一件合格品企业可获利180元,一件不合格品亏损100元,用频率估计概率,则生产1000件产品企业大约能获利多少元?附:【答案】(I)见解析;(II)见解析;(III)该企业大约获利168800元.⨯列联表,将列联表中的数据代入公式计算出【解析】试题分析:(I)根基图1和图2得到22⨯-⨯=,所以该企业大约获利16800元.大约有960件合格品,40件不合格品,1809601004016800⨯列联表:试题解析:(I)根据图1和表1得到22⨯列联表中的数据代入公式计算得:将22≈.12.21>,∴有99%的把握认为该企业生产的这种产品的质量指标值与设备改造有关.∵12.21 6.635(II)根据图1和表1(III)用频率估计概率,1000件产品中大约有960件合格品,40件不合格品,⨯-⨯=,所以该企业大约获利168800元.18096010040168800【理科】3.【2018江西上饶高三下学期二模】随着节能减排意识深入人心以及共享单车在饶城的大范围推广,越来越多的市民在出行时喜欢选择骑行共享单车.为了研究广大市民在共享单车上的使用情况,某公司在我市随机抽取了100名用户进行调查,得到如下数据:⨯列表(见答题卡),并判断能否(I)如果认为每周使用超过3次的用户为“喜欢骑行共享单车”,请完成22在犯错误概率不超过0.05的前提下,认为是否“喜欢骑行共享单车”与性别有关?(II)每周骑行共享单车6次及6次以上的用户称为“骑行达人”,视频率为概率,在我市所有“骑行达人”中,随机抽取4名用户.①求抽取的4名用户中,既有男生“骑行达人”又有女“骑行达人”的概率;②为了鼓励女性用户使用共享单车,对抽出的女“骑行达人”每人奖励500元,记奖励总金额为X,求X的分布列及数学期望.【答案】(I)见解析;(II)见解析.K观测值公式中的基本量,再代入公式即可.(II)第(II)问第【解析】试题分析:(I)第(I)问,先求21小问,直接利用对立事件的概率公式解答,第(II)小问,根据二项分布,写出分布列求出期望.⨯列联表如下:试题解析:(I)由图中表格可得22所以在犯错误概率不超过0.05的前提下,不能认为是否“喜欢骑行共享单车”与性别有关.(II )视频率为概率,在我市“骑行达人”中,随机抽取1名用户,该用户为男“骑行达人”“骑行达人” ①抽取的4名用户中,既有男“骑行达人”,又有女“骑行达人”的概率为②记抽出的女“骑行达人”人数为Y ,则500X Y =.由题意得 (0,1,2,3,4i =),∴ Y 的分布列为∴ X 的分布列为【文科】3.【2018】【2018河北衡水中学届高三上学期七调】国内某知名大学有男生14000人,女生10000人.该校体育学院想了解本校学生的运动状况,根据性别采取分层抽样的方法从全校学生中抽取120人,统计他们平均每天运动的时间(已知该校学生平均每天运动的时间范围是[]0,3 h ),如下表所示.男生平均每天运动的时间分布情况:。
相关关系、回归分析与独立性检验
相关关系、回归分析与独立性检验基础巩固强化1.(文)(2012·新课标全国,3)在一组样本数据(x 1,y 1)、(x 2,y 2)、…、(x n ,y n )(n ≥2,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =12x +1上,则这组样本数据的样本相关系数为( )A .-1B .0 C.12 D .1[答案] D[解析] 样本相关系数越接近1,相关性越强,现在所有的样本点都在直线y =12x +1上,样本的相关系数应为1.要注意理清相关系数的大小与相关性强弱的关系.(理)(2011·中山四校联考、湖南六校联考)甲、乙、丙、丁四位同学各自对A 、B 两变量的线性相关性做试验,并用回归分析方法分别求得相关系数r 与残差平方和m 如下表:( )A .甲B .乙C .丙D .丁[答案] D[解析] r 越接近1,相关性越强,残差平方和m 越小,相关性越强,故选D.2.(2011·西安模拟)在吸烟与患肺病这两个分类变量的计算中,下列说法正确的是( )①若K 2的观测值满足K 2≥6.635,我们有99%的把握认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99人患有肺病;②从独立性检验可知有99%的把握认为吸烟与患病有关系时,我们说某人吸烟,那么他有99%的可能患有肺病;③从统计量中得知有95%的把握认为吸烟与患肺病有关系,是指有5%的可能性使得推断出现错误A .①B .①③C .③D .②[答案] C[解析] ①推断在100个吸烟的人中必有99人患有肺病,说法错误,排除A ,B ,③正确.排除D ,选C.3.某化工厂为预测产品的回收率y ,需要研究它和原料有效成分含量x 之间的相关关系,现取8对观测值计算,得∑i =18x i =52,∑i =18y i=228,∑i =18x 2i =478,∑i =18x i y i =1849,则其回归直线方程为()A.y ^=11.47+2.62xB.y ^=-11.47+2.62xC.y ^=2.62+11.47xD.y ^=11.47-2.62x[答案] A[解析] 由∑i =18x i =52,∑i =18y i =228知,x -=6.5,y -=28.5,b^=∑i =18x i y i -8x -y -∑i =18x 2i -8x -2=1849-8×6.5×28.5478-8×6.52≈2.62,∴a ^=y --b ^x -=28.5-2.62×6.5=11.47.4.(2011·湖南文,5)通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:由K 2=(a +b )(c +d )(a +c )(b +d )算得,K 2=110×(40×30-20×20)260×50×60×50≈7.8.附表:A .有99%以上的把握认为“爱好该项运动与性别有关”B .有99%以上的把握认为“爱好该项运动与性别无关”C .在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”D .在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”[答案] A[解析] 根据独立性检验的定义,由K 2≈7.8>6.635可知,有99%以上把握认为“爱好该项运动与性别有关”.5.(2012·石家庄市二模)从某高中随机选取5名高三男生,其身高和体重的数据如下表所示:根据上表可得回归直线方程y =0.56x +a ,据此模型预报身高为172cm 的高三男生的体重为( )A .70.09kgB .70.12kgC .70.55kgD .71.05kg[答案] B[解析] x -=160+165+170+175+1805=170, y -=63+66+70+72+745=69. ∵回归直线过点(x -,y -),∴将点(170,69)代入y ^=0.56x +a ^中得a ^=-26.2, ∴回归直线方程y ^=0.56x -26.2, 代入x =172cm ,则其体重为70.12kg.6.(2012·广州市检测)某中学高三从甲、乙两个班级各选出7名学生参加数学竞赛,他们取得的成绩(满分100分)的茎叶图如图,其中甲班学生的平均分是85,乙班学生成绩的中位数是83,则x+y的值为()A.7B.8C.9D.10[答案] B[解析]由茎叶图得,甲班学生的平均分是78+79+80+(80+x)+85+92+967=85,解得x=5.因为乙班学生成绩的中位数是83,故只有80+y=83,解得y=3.所以x+y=8.故选B.7.(2011·辽宁文,14)调查了某地若干户家庭的年收入x(单位:万元)和年饮食支出y(单位:万元),调查显示年收入x与年饮食支出y具有线性相关关系,并由调查数据得到y对x的回归直线方程:y^=0.254x+0.321.由回归直线方程可知,家庭年收入每增加1万元,年饮食支出平均增加________万元.[答案]0.254[解析]由回归直线方程为y^=0.254x+0.321知收入每增加1万元,饮食支出平均增加0.254万元.8.以下四个命题:①从匀速传递的产品生产流水线上,质检员每20min从中抽取一件产品进行某项指标检测,这样的抽样是分层抽样;②两个随机变量相关性越强,则相关系数的绝对值越接近于1;③在线性回归方程y ^=0.2x +12中,当解释变量x 每增加一个单位时,预报变量y ^平均增加0.2个单位;④对分类变量X 与Y ,它们的随机变量K 2的观测值k 来说,k 越小,“X 与Y 有关系”的把握程度越大.其中正确命题的序号是________. [答案] ②③9.某高校“统计初步”课程的教师随机调查了选该课的一些学生情况,具体数据如下表:得到K 2=50×(13×20-10×7)223×27×20×30≈4.844.因为K 2≥3.841,所以判定主修统计专业与性别有关系,那么这种判断出错的可能性为________.[答案] 5%[解析] 根据独立性检验临界值表可知“x 与y 有关系”的可信度,P (K 2≥3.841)=0.05,∴有95%的可能认为x 与y 有关系,即判断出错的可能性为5%.10.(2012·扬州模拟)为了分析某个高三学生的学习状态,对其下一阶段的学习提供指导性建议.现对他前7次考试的数学成绩x 、物理成绩y 进行分析.下面是该生7次考试的成绩:(2)已知该生的物理成绩y 与数学成绩x 是线性相关的,若该生的物理成绩达到115分,请你估计他的数学成绩大约是多少?并请你根据物理成绩与数学成绩的相关性,给出该生在学习数学、物理上的合理性建议.[解析] (1)x -=100+-12-17+17-8+8+127=100; y -=100+-6-9+8-4+4+1+67=100; ∴s 2数学=9947=142,s 2物理=2507,从而s 2数学>s 2物理,∴物理成绩更稳定.(2)由于x 与y 之间具有线性相关关系,根据回归系数公式得到b^=∑i =17x i y i -7x -y -∑i =17x 2i -7x-2=497994≈0.5,a ^=y --b ^x -=100-0.5×100=50, ∴回归直线方程为y ^=0.5x +50.当y =115时,x =130,即该生物理成绩达到115分时,他的数学成绩大约为130分.建议:进一步加强对数学的学习,提高数学成绩的稳定性,将有助于物理成绩的进一步提高.能力拓展提升11.(2012·湖北武汉市训练)已知一个样本容量为10的样本数据,它们组成一个公差不为0的等差数列{a n },若a 3=8,且a 1,a 3,a 7成等比数列,则此样本的平均数和中位数分别是( )A .13,12B .13,13C .12,13D .13,14[答案] B[解析] 设数列{a n }的公差为d ,由a 1,a 3,a 7成等比数列,得a 23=a 1a 7,则82=(8-2d )(8+4d ),解得d =0(舍去)或d =2.故a 1=a 3-2d =4,a n =a 1+(n -1)d =2n +2.故此样本数据的平均数为a 1+a 2+…+a 1010=10(4+22)2×10=13,中位数为a 5+a 610=12+142=13. 12.(2011·佛山二模)在2010年春节期间,某市物价部门,对本市五个商场销售的某商品一天的销售量及其价格进行调查,五个商场的售价x 元和销售量y 件之间的一组数据如下表所示:销售量y 对商品的价格x 的回归直线方程为________.[答案] y ^=-3.2x +40[解析] ∑i =15x i y i =392,x -=10,y -=8,∑i =15(x i -x -)2=2.5,代入公式,得b ^=-3.2,所以,a ^=y --b ^x -=40,故回归直线方程为y ^=-3.2x +40.13.(2011·东北四校联考)某小卖部为了了解热茶销售量y (杯)与气温x (℃)之间的关系,随机统计了某4天卖出的热茶的杯数与当天气温,并制作了对照表:由表中数据算得线性回归方程y =bx +a 中的b ≈-2,预测当气温为-5℃时,热茶销售量为________杯.(已知回归系数b =∑i =1nx i y i -n x -y -∑i =1nx 2i -n x-2,a =y --b x -)[答案] 70[解析] 根据表格中的数据可求得x -=14×(18+13+10-1)=10,y -=14×(24+34+38+64)=40.∴a =y --b x -=40-(-2)×10=60,∴y ^=-2x +60,当x =-5时,y ^=-2×(-5)+60=70.14.(文)(2011·郑州市质检)某中学对高二甲、乙两个同类班级进行“加强‘语文阅读理解’训练对提高‘数学应用题’得分率作用”的试验,其中甲班为试验班(加强语文阅读理解训练),乙班为对比班(常规教学,无额外训练),在试验前的测试中,甲、乙两班学生在数学应用题上的得分率基本一致,试验结束后,统计几次数学应用题测试的平均成绩(均取整数)如下表所示:(1)试分析估计两个班级的优秀率;(2)由以上统计数据填写下面2×2列联表,并问是否有75%的把握认为“加强‘语文阅读理解’训练对提高‘数学应用题’得分率”有帮助.参考公式及数据:K 2=(a +b )(c +d )(a +c )(b +d ),[甲班优秀人数为30人,优秀率为3050=60%, 乙班优秀人数为25人,优秀率为2550=50%, 所以甲、乙两班的优秀率分别为60%和50%. (2)因为K2=50×50×55×45=10099≈1.010,所以由参考数据知,没有75%的把握认为“加强‘语文阅读理解’训练对提高‘数学应用题’得分率”有帮助.(理)(2011·福建普通高中质检)某中学将100名高一新生分成水平相同的甲、乙两个“平行班”,每班50人.陈老师采用A、B两种不同的教学方式分别在甲、乙两个班级进行教改实验.为了了解教学效果,期末考试后,陈老师分别从两个班级中各随机抽取20名学生的成绩进行统计,作出茎叶图如下.记成绩不低于90分者为“成绩优秀”.(1)在乙班样本中的20个个体中,从不低于86分的成绩中随机抽取2个,求抽出的两个均“成绩优秀”的概率;(2)由以上统计数据填写下面列联表,并判断是否有90%的把握认为:“成绩优秀”与教学方式有关.附:K 2=(a +b )(c +d )(a +c )(b +d )从不低于86分的成绩中随机抽取2个的基本事件为(86,93),(86,96),(86,97),(86,99),(86,99),(93,96),(93,97),(93,99),(93,99),(96,97),(96,99),(96,99),(97,99),(97,99),(99,99),共15个.而事件A 包含基本事件:(93,96),(93,97),(93,99),(93,99),(96,97),(96,99),(96,99),(97,99),(97,99),(99,99),共10个.所以所求概率为P (A )=1015=23. (2)由已知数据得K 2=40×(1×15-5×19)26×34×20×20≈3.137,由于3.137>2.706,所以有90%的把握认为“成绩优秀”与教学方式有关.15.(2012·河南新乡、许昌、平顶山调研)在某医学实验中,某实验小组为了分析某药物用药量与血液中某种抗体水平的关系,选取六只实验动物进行血检,得到如下资料:记s为抗体指标标准差,若抗体指标落在(y-s,y+s)内,则称该动物为有效动物,否则称为无效动物.研究方案规定先从六只动物中选取两只,用剩下的四只动物的数据求线性回归方程,再对被选取的两只动物数据进行检验.(1)求选取的两只动物都是有效动物的概率;(2)若选取的是编号为1和6的两只动物,且利用剩余四只动物的数据求出y关于x的线性回归方程为y^=0.17x+a,试求出a的值;(3)若根据回归方程估计出的1号和6号动物抗体指标数据与检验结果误差都不超过抗体指标标准差,则认为得到的线性回归方程是可靠的.试判断(2)中所得线性回归方程是否可靠.参考公式:样本数据x1,x2,…,x n的标准差:S=1n[(x1-x-)2+(x2-x-)2+…+(x n-x-)2],其中x-为样本平均数.[解析](1)y-=3.9,s≈0.31.故1、6号为无效动物,2、3、4、5号为有效动物.记从六只动物中选取两只为事件A.所有可能结果为(1,2),(1,3),(1,4),(1,5),(1,6),(2,3),(2,4),(2,5),(2,6),(3,4),(3,5),(3,6),(4,5),(4,6),(5,6)共15种.满足题意的有(2,3),(2,4),(2,5),(3,4),(3,5),(4,5)共6种.故P(A)=615=25.(2)对于2、3、4、5号动物,x-=4.5,y-=3.925,代入y^=0.17x+a得a=3.16.(3)由y^=0.17x+3.16得y^1=3.33,y^6=4.52.误差e1=0.07,e6=0.22,均比标准差s≈0.31小,故(2)中回归方程可靠.1.甲、乙、丙三名射箭运动员在某次测试中各射箭20次,三人的测试成绩如下表s1、s2、s3分别表示甲、乙、丙三名运动员这次测试成绩的标准差,则有()A.s3>s1>s2B.s2>s1>s3C.s1>s2>s3D.s2>s3>s1[答案] B[解析]计算可得甲、乙、丙的平均成绩都为8.5.s1=120[5(7-8.5)2+5(8-8.5)2+5(9-8.5)2+5(10-8.5)2]=2520.同理s2=2920,s3=2120,∴s2>s1>s3.2.某校举行演讲比赛,9位评委给选手A打出的分数如茎叶图所示,统计员在去掉一个最高分和一个最低分后,算得平均分为91,复核员在复核时,发现有一个数字(茎叶图中的x)无法看清,若统计员计算无误,则数字x应该是()A.5B.4C.3D.2[答案] D[解析]去掉最低分87,去掉最高分94(假设x≤4),则7×91=80×2+9+8+90×5+2+3+2+1+x,∴x=2,符合题意,故选D.3.(2012·湖南)设某大学的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系,根据一组样本数据(x i,y i)(i=1,2,…,n),用最小二乘法建立的回归方程为y^=0.85x-85.71,则下列结论中不正确...的是( )A .y 与x 具有正的线性相关关系B .回归直线过样本点的中心(x -,y -)C .若该大学某女生身高增加1cm ,则其体重约增加0.85kgD .若该大学某女生身高为170cm ,则可断定其体重必为58.79kg [答案] D[解析] 本题考查线性回归方程.D 项中身高为170cm 时,体重“约为”58.79,而不是“确定”,回归方程只能作出“估计”,而非确定“线性”关系.4.(2012·湖南文,13)下图是某学校一名篮球运动员在五场比赛中所得分数的茎叶图,则该运动员在这五场比赛中得分的方差为________.(注:方差s 2=1n [(x 1-x -)2-(x 2-x -)2+…+(x n -x -)2],其中x -为x 1,x 2,…,x n 的平均数)[答案] 6.8[解析] 本题考查茎叶图、方差的概念. 由茎叶图知x -=8+9+10+13+155=11, ∴s 2=15[(8-11)2+(9-11)2+(10-11)2+(13-11)2+(15-11)2]=6.85.为调查某地区老年人是否需要志愿者提供帮助,用简单随机抽样方法从该地区调查了500位老年人,结果如下:(1) (2)能否有99%的把握认为该地区的老年人是否需要志愿者提供帮助与性别有关?(3)根据(2)的结论,能否提出更好的调查方法来估计该地区的老年人中,需要志愿者提供帮助的老年人的比例?说明理由.附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ).[解析] (1)调查的500位老年人中有70位需要志愿者提供帮助,因此该地区老年人中,需要帮助的老年人的比例的估计值为70500=14%.(2)K 2=500×(40×270-30×160)2200×300×70×430≈9.967.由于9.967>6.635,所以有99%的把握认为该地区的老年人是否需要帮助与性别有关.(3)由(2)的结论知,该地区老年人是否需要帮助与性别有关,并且从样本数据能看出该地区男性老年人与女性老年人中需要帮助的比例有明显差异,因此在调查时,先确定该地区老年人中男、女的比例,再把老年人分成男、女两层并采用分层抽样方法比采用简单随机抽样方法更好.。
高考数学总复习教案新课程改革考点高分专用word版变量间的相关关系统计案例独立性检验
变量间的相关关系统计案例独立性检验ZHI SHI SHU LI 知识梳理 1.回归分析(1)相关关系:当自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系叫做相关关系.与函数关系不同,相关关系是一种__非确定性关系___.(2)散点图:表示具有__相关___关系的两个变量的一组数据的图形叫做散点图,它可直观地判断两变量的关系是否可以用线性关系表示.若这些散点有y 随x 增大而增大的趋势,则称两个变量__正相关___;若这些散点有y 随x 增大而减小的趋势,则称两个变量__负相关___.(3)回归方程:y ^=b ^x +a ^,其中b ^=∑ni =1x i y i -n x y∑n i =1x 2i -n x 2,a ^=__y --b ^x ___,它主要用来估计和预测取值,从而获得对这两个变量之间整体关系的了解.(4)相关系数:r =∑ni =1x i y i -n x y(∑ni =1x 2i -n x 2)(∑ni =1y 2i -n y 2) 它主要用于相关量的显著性检验,以衡量它们之间的线性相关程度.当r >0时表示两个变量正相关,当r <0时表示两个变量负相关.|r |越接近1,表明两个变量的线性相关性__越强___;当|r |接近0时,表明两个变量间几乎不存在相关关系,相关性__越弱___. 2.独立性检验 (1)2×2列联表设X ,Y 为两个分类变量,它们的取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(2×2列联表)如下:(2)独立性检验利用随机变量K 2(也可表示为X 2)=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )(其中n =a +b +c +d 为样本容量)来判断“两个变量有关系”的方法称为独立性检验. (3)独立性检验的一般步骤①根据样本数据列出2×2列联表;②计算随机变量K 2的观测值k ,查表确定临界值k 0:③如果k ≥k 0,就推断“X 与Y 有关系\”,这种推断犯错误的概率不超过P (K 2≥k 0);否则,就认为在犯错误的概率不超过P (K 2≥k 0)的前提下不能推断“X 与Y 有关\”.ZHONG YAO JIE LUN重要结论1.回归分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图大致呈线性分布时,求出的线性回归方程才有实际意义,否则,求出的线性回归方程毫无意义.根据回归方程进行预报,仅是一个预报值,而不是真实发生的值.2.独立性检验是对两个变量的关系的可信程度的判断,而不是对其是否有关系的判断.根据K 2的值可以判断两个分类变量有关的可信程度,并用来指导科研和实际生活.SHUANG JI ZI CE 双基自测1.(2019·广东广雅中学)为研究变量x 和y 的线性相关性,甲、乙二人分别作了研究,利用线性回归方法得到回归直线l 1和l 2,两人计算知x 相同,y 也相同,下列正确的是( C ) A .l 1与l 2重合B .l 1与l 2一定平行C .l 1与l 2相交于点(x ,y )D .无法判断l 1和l 2是否相交[解析] 由于线性回归直线一定经过样本点的中心(x ,y ),所以l 1与l 2相交于点(x ,y ),故选C .2.下面是一个2×2列联表其中a ,b 处填的值分别为( A .94 72 B .52 50 C .52 74D .74 52 [解析] 由a +21=72,得a =52,a +22=b ,得b =74.故选C .3.(2019·宜春市模拟)根据如下样本数据得到的回归直线方程为y ^=bx +a .若a =7.9,则x 每增加1个单位,y 就( B )A .增加1.4个单位C .增加1.2个单位D .减少1.2个单位.[解析] 由题意可得x =15(3+4+5+6+7)=5,y =15(4+2.5-0.5+0.5-2)=0.9,∵回归方程为y ^=bx +a .若a =7.9,且回归直线过点(5,0.9), ∴0.9=5b +7.9,解得b =-1.4,∴x 每增加1个单位,y 就减少1.4个单位,故选B .4.(2017·山东高考)为了研究某班学生的脚长x (单位:厘米)和身高y (单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y 与x 之间有线性相关关系,设其回归直线方程为y ^=b ^x +a ^,已知10i =1x i =225,10i =1y i =1600,b ^=4.该班某学生的脚长为24,据此估计其身高为( C ) A .160 B .163 C .166D .170[解析] 由题意知y ^=4x +a ^又x =22.5,y =160,因此160=22.5×4+a ^,∴a ^=70,因此y ^=4x +70,当x =24时,y ^=4×24+70=166,故选C .5.某班收集了50位同学的身高数据,每一个学生的性别与其身高是否高于或低于中位数的列联表如下:为了检验性别是K 2的观测值k =50×(20×13-10×7)227×23×30×20≈4.84,因为K 2≥3.841,所在犯错误的概率不超过__0.05___的前提下认为性别与身高有关系.[解析] 由于K 2的观测值k =50×(20×13-10×7)227×23×30×20≈4.84,P (K 2≥3.841)=0.05,在犯错误的概率不超过0.05的情况下认为性别与身高有关系.考点1 相关关系的判断——自主练透例1 (1)(2019·四川资阳模拟)在一次对人体脂肪含量和年龄关系的研究中,研究人员获得了一组样本数据,并制作成如图所示的人体脂肪含量与年龄关系的散点图.根据该图,下列结论中正确的是( B )A .人体脂肪含量与年龄正相关,且脂肪含量的中位数等于20%B .人体脂肪含量与年龄正相关,且脂肪含量的中位数小于20%C .人体脂肪含量与年龄负相关,且脂肪含量的中位数等于20%D .人体脂肪含量与年龄负相关,且脂肪含量的中位数小于20%(2)对四组数据进行统计,获得以下关于其相关系数的比较,正确的是( A )A .r 2<r 4<0<r 3<r 1B .r 4<r 2<0<r 1<r 3C .r 4<r 2<0<r 3<r 1D .r 2<r 4<0<r 1<r 3(3)四名同学根据各自的样本数据研究变量x ,y 之间的相关关系,并求得回归直线方程,分别得到以下四个结论:①y 与x 负相关且y ^=2.347x -6.423; ②y 与x 负相关且y ^=-3.476x +5.648; ③y 与x 正相关且y ^=5.437x +8.493; ④y 与x 正相关且y ^=-4.326x -4.578. 其中一定不正确的结论的序号是( D ) A .①② B .②③ C .③④D .①④ [解析] (1)观察图形,可知人体脂肪含量与年龄正相关,且脂肪含量的中位数小于20%,故选B .(2)由相关系数的定义及散点图所表达的含义,可知r 2<r 4<0<r 3<r 1.故选A .(3)正相关指的是y 随x 的增大而增大.负相关指的是y 随x 的增大而减小,故不正确的为①④,故选D . 名师点拨 ☞判断两个变量正、负相关性的方法(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.(2)相关系数:r >0时,正相关;r <0时,负相关.(3)线性回归直线方程中:b ^>0时,正相关;b ^<0时负相关.考点2 线性回归分析——师生共研例2 (2017·课标全国Ⅰ)为了监控某种零件的一条生产线的生产过程,检验员每隔30 min 从该生产线上随机抽取一个零件,并测量其尺寸(单位:cm).下面是检验员在一天内依次抽取的16个零件的尺寸:∑16i =1(i -8.5)2≈18.439,∑16i =1(x i -x )(i -8.5)=-2.78,其中x i 为抽取的第i 个零件的尺寸,i =1,2, (16)(1)求(x i ,i )(i =1,2,…,16)的相关系数r ,并回答是否可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小(若|r |<0.25,则可以认为零件的尺寸不随生产过程的进行而系统地变大或变小);(2)一天内抽检零件中,如果出现了尺寸在(x -3s ,x +3s )之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查. ①从这一天抽检的结果看,是否需对当天的生产过程进行检查?②在(x -3s ,x +3s )之外的数据称为离群值,试剔除离群值,估计这条生产线当天生产的零件尺寸的均值与标准差.(精确到0.01) 附:样本(x i ,y i )(i =1,2,…,n )的相关系数r =∑ni =1 (x i -x )(y i -y )∑n i =1(x i -x )2∑n i =1(y i -y )2.0.008≈0.09.[解析] (1)由样本数据得(x i ,i )(i =1,2,…,16)的相关系数为r =∑16i =1 (x i -x )(i -8.5)∑16i =1(x i -x )2∑16i =1(i -8.5)2=-2.780.212×16×18.439≈-0.18.由于|r |<0.25,因此可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小.(2)①由于x =9.97,s ≈0.212,由样本数据可以看出抽取的第13个零件的尺寸在(x -3s ,x +3s )以外,因此需对当天的生产过程进行检查.②剔除离群值,即第13个数据,剩下数据的平均数为115×(16×9.97-9.22)=10.02,这条生产线当天生产的零件尺寸的均值的估计值为10.02.∑16i =1x 2i=16×0.2122+16×9.972≈1591.134, 剔除第13个数据,剩下数据的样本方差为115×(1591.134-9.222-15×10.022)≈0.008,这条生产线当天生产的零件尺寸的标准差的估计值为0.008≈0.09. 名师点拨 ☞线性回归分析问题的类型及解题方法(1)求线性回归方程:①利用公式,求出回归系数b ^,a ^.②待定系数法:利用回归直线过样本点中心求系数. (2)利用回归方程进行预测:把回归直线方程看作一次函数,求函数值.(3)利用回归直线判断正、负相关:决定正相关还是负相关的是系数b ^. 〔变式训练1〕某校倡导为特困学生募捐,要求在自动购水机处每购买一瓶矿泉水,便自觉向捐款箱中至少投入一元线.现统计了连续5天的售出矿泉水箱数和所得捐款额情况,列表如下:学校计划将捐款以奖学金的形式奖励给品学兼优的特困生.规定:特困生综合考核前20名,获一等奖学金500元;综合考核在21~50名,获二等奖学金300元;综合考核50名以后的不获得奖学金.(1)若x 与y 呈线性相关,则某天售出9箱水时,预计所得捐款额为多少元?(2)假设甲、乙、丙三名学生均获奖,且各自获一等奖和二等奖的可能性相同,求三人获得奖学金之和不超过1000元的概率. 附:回归方程y ^=b ^x +a ^,其中b ^=ni =1 (x i -x )(y i -y )ni =1(x i -x )2,a ^=y -b ^x . [解析] (1)x =7+6+6+5+65=6,y =165+142+148+125+1505=146,b ^=5i =1(x i -x )(y i -y )5i =1(x i -x )2=19+0+0+21+01+0+0+1+0=20,a ^=y ^-b ^x =146-20×6=26,∴y ^=20x +26.当x =9时,y =20×9+26=206,即某天售出9箱水的预计所得捐款额是206元.(2)设事件A 1:甲获一等奖;事件A 2:甲获二等奖;事件B 1:乙获一等奖;事件B 2:乙获二等奖;事件C 1:丙获一等奖;事件C 2:丙获二等奖.则总事件为(A 1,B 1,C 1),(A 1,B 1,C 2),(A 1,B 2,C 1),(A 1,B 2,C 2),(A 2,B 1,C 1),(A 2,B 1,C 2),(A 2,B 2,C 1),(A 2,B 2,C 2),共8种情况.甲、乙、丙三人获得奖学金之和不超过1000元的事件有(A 2,B 2,C 2)1种情况,则三人获得奖学金之和不超过1000元的概率为18.考点3 独立性检验——师生共研例3 (2019·大连模拟)某市高中某学科竞赛中,某区4 000名考生的参赛成绩的频率分布直方图如图所示.(1)求这4 000名考生的平均成绩x (同一组中数据用该组区间中点值作代表);(2)记70分以上为合格,70分及以下为不合格,结合频率分布直方图完成下表,并判断是否有99%的把握认为该学科竞赛成绩与性别有关?附:K2=n(ad-bc)(a+b)(c+d)(a+c)(b+d).[解析](1)由题意,得:∴x=45×0.1).∴这4 000名考生的平均成绩x为70.5分.(2)2×2列联表如下:K2=4 000×(720×1020-1180×1080)1800×2200×1900×2100= 4 000×(540 000)218×22×19×21×108= 4 000×54×5418×22×19×21≈73.82>10.828.故有99%的把握认为该学科竞赛成绩与性别有关.名师点拨☞解独立性检验的应用问题的关注点(1)两个明确:①明确两类主体.②明确研究的两个问题.(2)两个关键:①准确画出2×2列联表:②准确理解K2.〔变式训练2〕某学校为了推动数学教学方法的改革,将高一年级部分生源情况基本相同的学生分成甲、乙两个班,每班各40人,甲班按原有模式教学,乙班实施教学方法改革,经过一年的教学实验,将甲、乙两个班的学生一年来的数学考试成绩取平均数再取整,绘制成如下茎叶图,规定不低于85分(百分制)为优秀,甲班学生成绩的中位数为74分.附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d .(1)求x 的值和乙班学生成绩的众数;(2)完成下列2×2列联表,如果有90%以上的把握认为“数学成绩优秀与教学方法改革有关”的话,那么学校将扩大教学改革范围,请问学校是否要扩大改革范围?说明理由.[解析] (1)因为甲班学生成绩的中位数为74分, 所以70+x +75=2×74,解得x =3.由茎叶图知,乙班学生成绩的众数为78分,83分. (2)完成2×2列联表如下:由表中数据可得K 2=80×(6×27-13×34)40×40×19×61≈3.382>2.706.所以有90%以上的把握认为“数学成绩优秀与教学方法改革有关”,学校可以扩大教学改革范围.函数思想在线性回归中的应用例4 (2019·湖南郴州模拟)某公司想了解对某产品投入的宣传费用对该产品的营业额的影响.下面是以往公司对该产品的宣传费用x (单位:万元)和产品营业额y (单位:万元)的统计折线图.(1)根据折线图可以判断,可用线性回归模型拟合宣传费用x 与产品营业额y 的关系,请用相关系数加以说明;(2)建立产品营业额y 关于宣传费用x 的回归方程;(3)若某段时间内产品利润z 与宣传费用x 和营业额y 的关系为z =x (y -1.01x -0.09)+50,应投入宣传费用多少万元才能使利润最大?并求最大利润.参考数据:∑7i =1y i =37.28,∑7i =1x i y i =160.68,∑7i =1(y i -y )2=2.2,7≈2.65. 参考公式:相关系数r =∑ni =1(x i -x )(y i -y )∑n i =1(x i -x )2∑n i =1(y i -y )2=∑ni =1x i y i -n x -y -∑n i =1(x i -x )2∑n i =1(y i -y )2,回归方程y ^=a ^+b ^x 中斜率和截距的最小二乘估计公式分别为b ^=∑ni =1 (x i-x )(y i -y )∑ni =1(x i -x )2=∑ni =1x i y i -n x -y -∑ni =1x 2i -n x 2,a ^=y -b ^x ,(计算结果保留两位小数)[解析] (1)由折线图中数据和参考数据得x =4,∑7i =1(x i -x )2=28,r =160.68-4×37.2828×2.2≈0.99,因为y 与x 的相关系数近似为0.99,说明y 与x 的线性相关程度相当高,从而可以用线性回归模型拟合y 与x 的关系.(2)因为y =∑7i =1y i 7≈5.33,b ^=160.68-4×37.2828≈0.41,a ^≈5.33-0.41×4=3.69,所以y 关于x 的回归方程为y ^=0.41x +3.69.(3)由z =x (y -1.01x -0.09)+50=-0.6x 2+3.6x +50,可得x =3时,z max =55.4,所以投入宣传费用3万元时,可获得最大利润55.4万元.名师点拨 ☞利用回归方程可以进行预测和估计总体,回归方程将部分观测值所反映的规律进行延伸,是我们对有线性相关关系的两个变量进行分析和控制、依据自变量的取值估计和预报因变量值的基础和依据.解决此类问题的步骤为:(1)将表中的各对数据在平面直角坐标系中描点,得到散点图;(2)按求回归方程的步骤和公式,写出回归方程;(3)利用回归方程进行分析,分析中注意函数思想的应用. 〔变式训练3〕某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t)和年利润z (单位:千元)的影响,对近8年的年宣传费x i 和年销售量y i (i =1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.表中w i =x i ,w =18∑i =1w i,(1)根据散点图判断,y =a +bx 与y =c +d x 哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程;(3)已知这种产品的年利润z 与x ,y 的关系为z =0.2y -x .根据(2)的结果回答下列问题: ①年宣传费x =49时,年销售量及年利润的预报值是多少? ②年宣传费x 为何值时,年利润的预报值最大?附:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v =α+βu 的斜率和截距的最小二乘估计分别为β^=∑ni =1 (u i -u )(v i -v )∑ni =1(u i -u )2,α^=v -β^u . [解析] (1)由散点图可以判断,y =c +d x 适宜作为年销售量y 关于年宣传费x 的回归方程类型.(2)令w =x ,先建立y 关于w 的线性回归方程,由于d ^=∑ni =1(w i -w )(y i -y )∑ni =1(w i -w )2=108.81.6=68. c ^=y -d ^w =563-68×6.8=100.6,所以y 关于w 的线性回归方程为y ^=100.6+68w ,因此y 关于x 的回归方程为y ^=100.6+68x . (3)①由(2)知,当x =49时,年销售量y 的预报值 y ^=100.6+6849=576.6, 年利润z 的预报值 z ^=576.6×0.2-49=66.32.②根据(2)的结果知,年利润z 的预报值 z ^=0.2(100.6+68x )-x =-x +13.6x +20.12. 所以当x =13.62=6.8,即x =46.24时,z ^取得最大值.故年宣传费为46.24千元时,年利润的预报值最大.。
回归方程与独立性检验
回归方程与独立性检验1.已知x与y之间的一组数据,则y与x的线性回归方程=x+必过点()x 0 1 2 3y 1 3 5 7A.(2,2)B.(1,2)C.(1.5,4)D.(1.5,0)2为了解某社区居民的家庭年收入所年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:收入x(万元)8.2 8.6 10.0 11.3 11.9 支出y(万元) 6.2 7.5 8.0 8.5 9.8 根据上表可得回归直线方程,其中,据此估计,该社区一户收入为15万元家庭年支出为()A.11.4万元B.11.8万元C.12.0万元D.12.2万元3在2010年3月15日那天,哈市物价部门对本市的5家商场的某商品的一天销售量及其价格进行调查,5家商场的售价x元和销售量y件之间的一组数据如下表所示:价格x 9 9.5 10 10.5 11销售量y 11 10 8 6 5由散点图可知,销售量y与价格x之间有较好的线性相关关系,其线性回归直线方程是;y=﹣3.2x+a,(参考公式:回归方程;y=bx+a,a=﹣b),则a=()A.﹣24 B.35.6 C.40.5 D.404已知x,y的取值如下表所示:x 2 3 4y 6 4 5如果y与x呈线性相关,且线性回归方程为,则b=()A. B.C.D.5为了解某商品销售量y(件)与销售价格x(元/件)的关系,统计了(x,y)的10组值,并画成散点图如图1,则其回归方程可能是()A.=﹣10x﹣198 B.=﹣10x+198 C.=10x+198 D.=10x﹣1986根据以下样本数据x 1 2 3 4y ﹣4 ﹣3.2 ﹣2.1 ﹣1得到回归方程=bx+a,则下述说法正确的是()A.y与x负相关B.回归直线必经过点(2.5,﹣3)C.a<0,b<0 D.a<0,b>07已知变量x与y之间的回归直线方程为y=﹣3+2x,若x i=17,则y i的值等于()A.3 B.4 C.0.4 D.408甲,乙,丙,丁四位同学各自对A,B两变量的线性相关试验,并用回归分析方法分别求得相关系数r如表:甲乙丙丁r 0.82 0.78 0.69 0.85则这四位同学的试验结果能体现出A,B两变量有更强的线性相关性的是()A.甲B.乙C.丙D.丁9下列说法中不正确的是()A.“所有金属都能导电,铁是金属,所以铁能导电”这种推理属于演绎推理B.已知数据x1,x2,…,x n的方差是4,则数据﹣3x1+2015,﹣3x2+2015,…,﹣3x n+2015的标准差是6C.用相关指数R2来刻画回归效果,R2的值越小,说明模型的拟合效果越好D.若变量y和x之间的相关系数r=﹣0.9362,则变量y和x之间具有很强的线性相关关系10已知下列四组散点图对应的样本统计数据的相关系数分别为r1,r2,r3,r4,则它们的大小关系为()A.r1<r3<r4<r2 B.r2<r4<r3<r1 C.r4<r2<r1<r3 D.r3<r1<r2<r411在一组样本数据(x1,y1),(x2,y2),…,(x n,y n)(n≥2,x1,x2,…,x n不全相等)的散点图中,若所有样本点(x i,y i)(i=1,2,…,n)都在直线y=﹣x+1上,则这组样本数据的样本相关系数为()A.﹣1 B.0 C.1 D.12春节期间,“厉行节约,反对浪费”之风悄然吹开,某市通过随机询问100名性别不同的居民是否能做到“光盘”行动,得到如下的列联表:做不到“光盘”能做到“光盘”男45 10女30 15附:参照附表,得到的正确结论是()A.在犯错误的概率不超过l%的前提下,认为“该市居民能否做到‘光盘’与性别有关”B.在犯错误的概率不超过l%的前提下,认为“该市居民能否做到‘光盘’与性别无关”C.有90%以上的把握认为“该市居民能否做到‘光盘’与性别有关”D.有90%以上的把握认为“该市居民能否做到‘光盘’与性别无关”13某校为了研究学生的性别和对待某一活动的态度(支持和不支持两种态度)的关系,运用2×2列联表进行独立性检验,经计算K2=7.069,则所得到的统计学结论是:有()的把握认为“学生性别与支持该活动有关系”.P(k2≥k0)0.100 0.050 0.025 0.010 0.001k0 2.706 3.841 5.024 6.635 10.828A.0.1% B.1% C.99% D.99.9%14有甲、乙两个班级进行数学考试,按照大于等于85分为优秀,85分以下为非优秀统计成绩,得到如下所示的列联表:优秀非优秀总计甲班10 b乙班 c 30总计105已知在全部105人中随机抽取1人,成绩优秀的概率为,则下列说法正确的是()A.列联表中c的值为30,b的值为35B.列联表中c的值为15,b的值为50C.根据列联表中的数据,若按95%的可靠性要求,能认为“成绩与班级有关系”D.根据列联表中的数据,若按95%的可靠性要求,不能认为“成绩与班级有关系”15某医疗研究所为了检验某种血清预防感冒的作用,把500名使用血清的人与另外500名未使用血清的人一年中的感冒记录作比较,提出假设H0:“这种血清不能起到预防感冒的作用”,利用2×2列联表计算的结果,认为H0成立的可能性不足1%,那么K2的一个可能取值为()参考数据A.6.635 B.7.897 C.5.024 D.3.84116为了考察中学生的性别与是否喜欢数学课程之间的关系,在某校中学生中随机抽取了50名学生,得到如下列联表:合计喜欢数学不喜欢数学男13 10 23女7 20 27合计20 30 50你认为性别与是否喜欢数学课程之间有关系的把握有()A.0 B.95% C.99% D.100%17为了解某地区观众对大型综艺活动《中国好声音》的收视情况,随机抽取了100名观众进行调查,其中女性有55名.下面是根据调查结果绘制的观众收看该节目的场数与所对应的人数表:场数9 10 11 12 13 14人数10 18 22 25 20 5将收看该节目场次不低于13场的观众称为“歌迷”,已知“歌迷”中有10名女性.(Ⅰ)根据已知条件完成下面的2×2列联表,并据此资料我们能否有95%的把握认为“歌迷”与性别有关?非歌迷歌迷合计男女合计(Ⅱ)将收看该节目所有场次(14场)的观众称为“超级歌迷”,已知“超级歌迷”中有2名女性,若从“超级歌迷”中任意选取2人,求至少有1名女性观众的概率.附:K2=.182013年4月14日,CCTV财经频道报道了某地建筑市场存在违规使用未经淡化海砂的现象.为了研究使用淡化海砂与混凝土耐久性是否达标有关,某大学实验室随机抽取了60个样本,得到了相关数据如下表:混凝土耐久性达标混凝土耐久性不达标总计使用淡化海砂25 t 30使用未经淡化海砂s 15 30总计40 20 60(Ⅰ)根据表中数据,求出s,t的值,利用独立性检验的方法判断,能否在犯错误的概率不超过1%的前提下,认为使用淡化海砂与混凝土耐久性是否达标有关?(Ⅱ)若用分层抽样的方法在使用淡化海砂的样本中抽取了6个,现从这6个样本中任取2个,则取出的2个样本混凝土耐久性都达标的概率是多少?参考公式:k2=.19为考查某种疫苗预防疾病的效果,进行动物实验,未发病发病合计未注射疫苗20 x A注射疫苗30 y B合计50 50 100现从所有试验动物中任取一只,取到“注射疫苗”动物的概率为.(Ⅰ)求2×2列联表中的数据的值;(Ⅱ)绘制发病率的条形统计图,并判断疫苗是否有效?(Ⅲ)能够有多大把握认为疫苗有效?20微信是腾讯公司推出的一种手机通讯软件,它支持发送语音短信、视频、图片和文字,一经推出便风靡全国,甚至涌现出一批在微信的朋友圈内销售商品的人(被称为微商).为了调查每天微信用户使用微信的时间,某经销化妆品的微商在一广场随机采访男性、女性用户各50名,将男性、女性使用微信的时间分成5组:(0,2],(2,4],(4,6],(6,8],(8,10]分别加以统计,得到如图所示的频率分布直方图.(Ⅰ)根据女性频率直方图估计女性使用微信的平均时间;(Ⅱ)若每天玩微信超过4小时的用户列为“微信控”,否则称其为“非微信控”,请你根据已知条件完成2×2的列联表,并判断是否有90%的把握认为“微信控”与“性别”有关?微信控非微信控合计男性50女性50合计10021“冰桶挑战赛”是一项社交网络上发起的慈善公益活动,活动规定:被邀请者要么在24小时内接受挑战,要么选择为慈善机构捐款(不接受挑战),并且不能重复参加该活动.若被邀请者接受挑战,则他需在网络上发布自己被冰水浇遍全身的视频内容,然后便可以邀请另外3个人参与这项活动.假设每个人接受挑战与不接受挑战是等可能的,且互不影响.(Ⅰ)若某参与者接受挑战后,对其他3个人发出邀请,则这3个人中至少有2个人接受挑战的概率是多少?(Ⅱ)为了解冰桶挑战赛与受邀者的性别是否有关,某调查机构进行了随机抽样调查,调查得到如下2×2列联表:接受挑战不接受挑战合计男性45 15 60女性25 15 40合计70 30 100根据表中数据,能否有90%的把握认为“冰桶挑战赛与受邀者的性别有关”?22某班为了调查同学们周末的运动时间,随机对该班级50名同学进行了不记名的问卷调查,得到了如下表所示的统计结果:运动时间不超过2小时运动时间超过2小时合计男生10 20 30女生13 7 20合计23 27 50(1)根据统计结果,能否在犯错误概率不超过0.05的前提下,认为该班同学周末的运动时间与性别有关?(2)用分层抽样的方法,从男生中抽取6名同学,再从这6名同学中随机抽取2名同学,求这两名同学中恰有一位同学运动时间超过2小时的概率.23有甲乙两个班进行数学考试,按照大于等于85分为优秀,85分以下为非优秀统计成绩后,得到如下列联表.优秀非优秀总计甲班10乙班30合计105已知在全部105人中随机抽取1人为优秀的概率为.(1)请完成上面的联表;(2)根据列联表的数据,若按95%的可靠性要求,能否认为“成绩与班级有关系”;(3)若按下面的方法从甲班优秀的学生抽取一人:把甲班10优秀的学生按2到11进行编号,先后两次抛掷一枚骰子,出现的点数之和为被抽取的序号.试求抽到6号或10号的概率.24随着生活水平的提高,人们的休闲方式也发生了变化.某机构随机调查了n个人,其中男性占调查人数的.已知男性中有一半的人的休闲方式是运动,而女性只有的人的休闲方式是运动.(1)完成下列2×2列联表:运动非运动总计男性女性总计n(2)若在犯错误的概率不超过0.05的前提下,可认为“性别与休闲方式有关”,那么本次被调查的人数至少有多少?(3)根据(2)的结论,本次被调查的人中,至少有多少人的休闲方式是运动?25在中学生综合素质评价某个维度的测评中,分“优秀、合格、尚待改进”三个等级进行学生互评.某校高一年级有男生500人,女生400人,为了了解性别对该维度测评结果的影响,采用分层抽样方法从高一年级抽取了45名学生的测评结果,并作出频数统计表如下:表1:男生等级优秀合格尚待改进频数15 x 5表2:女生等级优秀合格尚待改进频数15 3 y(1)从表二的非优秀学生中随机选取2人交谈,求所选2人中恰有1人测评等级为合格的概率;(2)从表二中统计数据填写下边2×2列联表,并判断是否有90%的把握认为“测评结果优秀与性别有关”.男生女生总计优秀非优秀总计26校高三数学竞赛初赛考试后,对考生的成绩进行统计(考生成绩均不低于90分,满分为150分),将成绩按如下方式分成六组,第一组[90,100)、第二组[100,110)…,第六组[140,150],如图为其频率分布直方图的一部分,若第四、五、六组的人数依次成等差数列,且第六组有4人.(Ⅰ)求第四和第五组频率,并补全频率分布直方图;(Ⅱ)若不低于120分的同学进入决赛,不低于140分的同学为种子选手,完成下面2×2列联表(即填写空格处的数据),并判断是否有99%的把握认为“进入决赛的同学成为种子选手与专家培训有关”.[120,140)[140,150] 合计参加培训8 8未参加培训合计 427某企业为了解下属某部门对本企业职工的服务情况,随机访问50名职工,根据这50名职工对该部门的评分,绘制频率分布直方图(如图所示),其中样本数据分组区间为[40,50],[50,60],…,[80,90],[90,100](1)求频率分布图中a的值;(2)估计该企业的职工对该部门评分不低于80的概率;(3)从评分在[40,60]的受访职工中,随机抽取2人,求此2人评分都在[40,50]的概率.28某城市100户居民的月平均用电量(单位:度),以[160,180),[180,200),[200,220),[220.240),[240,260),[260,280),[280,300)分组的频率分布直方图如图.(1)求直方图中x的值;(2)求月平均用电量的众数和中位数;(3)在月平均用电量为,[220,240),[240,260),[260,280),[280,300)的四组用户中,用分层抽样的方法抽取11户居民,则月平均用电量在[220.240)的用户中应抽取多少户?29某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响,对近8年的年宣传费x i和年销售量y i(i=1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.(x i﹣)2(w i﹣)2(x i﹣)(y i﹣)(w i﹣)(y i﹣)46.6 563 6.8 289.8 1.6 1469 108.8表中w i=1,=(Ⅰ)根据散点图判断,y=a+bx与y=c+d哪一个适宜作为年销售量y关于年宣传费x的回归方程类型?(给出判断即可,不必说明理由)(Ⅱ)根据(Ⅰ)的判断结果及表中数据,建立y关于x的回归方程;(Ⅲ)以知这种产品的年利润z与x、y的关系为z=0.2y﹣x.根据(Ⅱ)的结果回答下列问题:(i)年宣传费x=49时,年销售量及年利润的预报值是多少?(ii)年宣传费x为何值时,年利润的预报值最大?附:对于一组数据(u1 v1),(u2 v2)…..(u n v n),其回归线v=α+βu的斜率和截距的最小二乘估计分别为:=,=﹣.30某市为节约用水,计划在本市试行居民生活用水定额管理,为了较为合理地确定居民日常用水量的标准,通过抽样获得了100位居民某年的月均用水量(单位:吨),右表是100位居民月均用水量的频率分布表,根据右表解答下列问题:(1)求表中a和b的值;(2)请将频率分布直方图补充完整,并根据直方图估计该市每位居民月均用水量的众数.1.C;2.B;3.D;4.A;5.B;6.D;7.B;8.D;9.C;10.B; 11.A; 12.C; 13.C; 14.C; 15.B; 16.B;。
回归方程与独立性检验
回归方程与独立性检验1.已知x与y之间的一组数据,则y与x的线性回归方程=x+必过点()x 0 1 2 3y 1 3 5 7A.(2,2)B.(1,2)C.(1.5,4)D.(1.5,0)2为了解某社区居民的家庭年收入所年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:收入x(万元)8.2 8.6 10.0 11.3 11.9 支出y(万元) 6.2 7.5 8.0 8.5 9.8根据上表可得回归直线方程,其中,据此估计,该社区一户收入为15万元家庭年支出为()A.11.4万元 B.11.8万元 C.12.0万元 D.12.2万元3在2010年3月15日那天,哈市物价部门对本市的5家商场的某商品的一天销售量和其价格进行调查,5家商场的售价x元和销售量y件之间的一组数据如下表所示:价格x 9 9.5 10 10.5 11销售量y 11 10 8 6 5由散点图可知,销售量y与价格x之间有较好的线性相关关系,其线性回归直线方程是;y=﹣3.2x+a,(参考公式:回归方程;y=bx+a,a=﹣b),则a=()A.﹣24 B.35.6 C.40.5 D.404已知x,y的取值如下表所示:x 2 3 4y 6 4 5如果y与x呈线性相关,且线性回归方程为,则b=()A. B.C.D.5为了解某商品销售量y(件)与销售价格x(元/件)的关系,统计了(x,y)的10组值,并画成散点图如图1,则其回归方程可能是()A.=﹣10x﹣198 B.=﹣10x+198 C.=10x+198 D.=10x﹣1986根据以下样本数据x 1 2 3 4y ﹣4 ﹣3.2 ﹣2.1 ﹣1得到回归方程=bx+a,则下述说法正确的是()A.y与x负相关B.回归直线必经过点(2.5,﹣3)C.a<0,b<0 D.a<0,b>07已知变量x与y之间的回归直线方程为y=﹣3+2x,若x i=17,则y i的值等于()A.3 B.4 C.0.4 D.408甲,乙,丙,丁四位同学各自对A,B两变量的线性相关试验,并用回归分析方法分别求得相关系数r如表:甲乙丙丁r 0.82 0.78 0.69 0.85则这四位同学的试验结果能体现出A,B两变量有更强的线性相关性的是()A.甲B.乙C.丙D.丁9下列说法中不正确的是()A.“所有金属都能导电,铁是金属,所以铁能导电”这种推理属于演绎推理B.已知数据x1,x2,…,x n的方差是4,则数据﹣3x1+2015,﹣3x2+2015,…,﹣3x n+2015的标准差是6C.用相关指数R2来刻画回归效果,R2的值越小,说明模型的拟合效果越好D.若变量y和x之间的相关系数r=﹣0.9362,则变量y和x之间具有很强的线性相关关系10已知下列四组散点图对应的样本统计数据的相关系数分别为r1,r2,r3,r4,则它们的大小关系为()A.r1<r3<r4<r2B.r2<r4<r3<r1C.r4<r2<r1<r3D.r3<r1<r2<r411在一组样本数据(x1,y1),(x2,y2),…,(x n,y n)(n≥2,x1,x2,…,x n不全相等)的散点图中,若所有样本点(x i,y i)(i=1,2,…,n)都在直线y=﹣x+1上,则这组样本数据的样本相关系数为()A.﹣1 B.0 C.1 D.12春节期间,“厉行节约,反对浪费”之风悄然吹开,某市通过随机询问100名性别不同的居民是否能做到“光盘”行动,得到如下的列联表:做不到“光盘”能做到“光盘”男45 10女30 15附:参照附表,得到的正确结论是()A.在犯错误的概率不超过l%的前提下,认为“该市居民能否做到‘光盘’与性别有关”B.在犯错误的概率不超过l%的前提下,认为“该市居民能否做到‘光盘’与性别无关”C.有90%以上的把握认为“该市居民能否做到‘光盘’与性别有关”D.有90%以上的把握认为“该市居民能否做到‘光盘’与性别无关”13某校为了研究学生的性别和对待某一活动的态度(支持和不支持两种态度)的关系,运用2×2列联表进行独立性检验,经计算K2=7.069,则所得到的统计学结论是:有()的把握认为“学生性别与支持该活动有关系”.P(k2≥k0)0.100 0.050 0.025 0.010 0.001k0 2.706 3.841 5.024 6.635 10.828A.0.1% B.1% C.99% D.99.9%14有甲、乙两个班级进行数学考试,按照大于等于85分为优秀,85分以下为非优秀统计成绩,得到如下所示的列联表:优秀非优秀总计甲班10 b乙班 c 30总计105已知在全部105人中随机抽取1人,成绩优秀的概率为,则下列说法正确的是()A.列联表中c的值为30,b的值为35B.列联表中c的值为15,b的值为50C.根据列联表中的数据,若按95%的可靠性要求,能认为“成绩与班级有关系”D.根据列联表中的数据,若按95%的可靠性要求,不能认为“成绩与班级有关系”15某医疗研究所为了检验某种血清预防感冒的作用,把500名使用血清的人与另外500名未使用血清的人一年中的感冒记录作比较,提出假设H0:“这种血清不能起到预防感冒的作用”,利用2×2列联表计算的结果,认为H0成立的可能性不足1%,那么K2的一个可能取值为()参考数据A.6.635 B.7.897 C.5.024 D.3.84116为了考察中学生的性别与是否喜欢数学课程之间的关系,在某校中学生中随机抽取了50名学生,得到如下列联表:喜欢数学不喜欢数学合计男13 10 23女7 20 27合计20 30 50你认为性别与是否喜欢数学课程之间有关系的把握有()A.0 B.95% C.99% D.100%17为了解某地区观众对大型综艺活动《中国好声音》的收视情况,随机抽取了100名观众进行调查,其中女性有55名.下面是根据调查结果绘制的观众收看该节目的场数与所对应的人数表:场数9 10 11 12 13 14人数10 18 22 25 20 5将收看该节目场次不低于13场的观众称为“歌迷”,已知“歌迷”中有10名女性.(Ⅰ)根据已知条件完成下面的2×2列联表,并据此资料我们能否有95%的把握认为“歌迷”与性别有关?非歌迷歌迷合计男女合计(Ⅱ)将收看该节目所有场次(14场)的观众称为“超级歌迷”,已知“超级歌迷”中有2名女性,若从“超级歌迷”中任意选取2人,求至少有1名女性观众的概率.附:K2=.182013年4月14日,CCTV财经频道报道了某地建筑市场存在违规使用未经淡化海砂的现象.为了研究使用淡化海砂与混凝土耐久性是否达标有关,某大学实验室随机抽取了60个样本,得到了相关数据如下表:混凝土耐久性达标混凝土耐久性不达标总计使用淡化海砂25 t 30使用未经淡化海砂s 15 30总计40 20 60(Ⅰ)根据表中数据,求出s,t的值,利用独立性检验的方法判断,能否在犯错误的概率不超过1%的前提下,认为使用淡化海砂与混凝土耐久性是否达标有关?(Ⅱ)若用分层抽样的方法在使用淡化海砂的样本中抽取了6个,现从这6个样本中任取2个,则取出的2个样本混凝土耐久性都达标的概率是多少?参考公式:k2=.19为考查某种疫苗预防疾病的效果,进行动物实验,未发病发病合计未注射疫苗20 x A注射疫苗30 y B合计50 50 100现从所有试验动物中任取一只,取到“注射疫苗”动物的概率为.(Ⅰ)求2×2列联表中的数据的值;(Ⅱ)绘制发病率的条形统计图,并判断疫苗是否有效?(Ⅲ)能够有多大把握认为疫苗有效?20微信是腾讯公司推出的一种手机通讯软件,它支持发送语音短信、视频、图片和文字,一经推出便风靡全国,甚至涌现出一批在微信的朋友圈内销售商品的人(被称为微商).为了调查每天微信用户使用微信的时间,某经销化妆品的微商在一广场随机采访男性、女性用户各50名,将男性、女性使用微信的时间分成5组:(0,2],(2,4],(4,6],(6,8],(8,10]分别加以统计,得到如图所示的频率分布直方图.(Ⅰ)根据女性频率直方图估计女性使用微信的平均时间;(Ⅱ)若每天玩微信超过4小时的用户列为“微信控”,否则称其为“非微信控”,请你根据已知条件完成2×2的列联表,并判断是否有90%的把握认为“微信控”与“性别”有关?微信控非微信控合计男性50女性50合计10021“冰桶挑战赛”是一项社交网络上发起的慈善公益活动,活动规定:被邀请者要么在24小时内接受挑战,要么选择为慈善机构捐款(不接受挑战),并且不能重复参加该活动.若被邀请者接受挑战,则他需在网络上发布自己被冰水浇遍全身的视频内容,然后便可以邀请另外3个人参与这项活动.假设每个人接受挑战与不接受挑战是等可能的,且互不影响.(Ⅰ)若某参与者接受挑战后,对其他3个人发出邀请,则这3个人中至少有2个人接受挑战的概率是多少?(Ⅱ)为了解冰桶挑战赛与受邀者的性别是否有关,某调查机构进行了随机抽样调查,调查得到如下2×2列联表:接受挑战不接受挑战合计男性45 15 60女性25 15 40合计70 30 100根据表中数据,能否有90%的把握认为“冰桶挑战赛与受邀者的性别有关”?22某班为了调查同学们周末的运动时间,随机对该班级50名同学进行了不记名的问卷调查,得到了如下表所示的统计结果:运动时间不超过2小时运动时间超过2小时合计男生10 20 30女生13 7 20合计23 27 50(1)根据统计结果,能否在犯错误概率不超过0.05的前提下,认为该班同学周末的运动时间与性别有关?(2)用分层抽样的方法,从男生中抽取6名同学,再从这6名同学中随机抽取2名同学,求这两名同学中恰有一位同学运动时间超过2小时的概率.23有甲乙两个班进行数学考试,按照大于等于85分为优秀,85分以下为非优秀统计成绩后,得到如下列联表.优秀非优秀总计甲班10乙班30合计105已知在全部105人中随机抽取1人为优秀的概率为.(1)请完成上面的联表;(2)根据列联表的数据,若按95%的可靠性要求,能否认为“成绩与班级有关系”;(3)若按下面的方法从甲班优秀的学生抽取一人:把甲班10优秀的学生按2到11进行编号,先后两次抛掷一枚骰子,出现的点数之和为被抽取的序号.试求抽到6号或10号的概率.24随着生活水平的提高,人们的休闲方式也发生了变化.某机构随机调查了n个人,其中男性占调查人数的.已知男性中有一半的人的休闲方式是运动,而女性只有的人的休闲方式是运动.(1)完成下列2×2列联表:运动非运动总计男性女性总计n(2)若在犯错误的概率不超过0.05的前提下,可认为“性别与休闲方式有关”,那么本次被调查的人数至少有多少?(3)根据(2)的结论,本次被调查的人中,至少有多少人的休闲方式是运动?25在中学生综合素质评价某个维度的测评中,分“优秀、合格、尚待改进”三个等级进行学生互评.某校高一年级有男生500人,女生400人,为了了解性别对该维度测评结果的影响,采用分层抽样方法从高一年级抽取了45名学生的测评结果,并作出频数统计表如下:表1:男生等级优秀合格尚待改进频数15 x 5表2:女生等级优秀合格尚待改进频数15 3 y(1)从表二的非优秀学生中随机选取2人交谈,求所选2人中恰有1人测评等级为合格的概率;(2)从表二中统计数据填写下边2×2列联表,并判断是否有90%的把握认为“测评结果优秀与性别有关”.男生女生总计优秀非优秀总计26校高三数学竞赛初赛考试后,对考生的成绩进行统计(考生成绩均不低于90分,满分为150分),将成绩按如下方式分成六组,第一组[90,100)、第二组[100,110)…,第六组[140,150],如图为其频率分布直方图的一部分,若第四、五、六组的人数依次成等差数列,且第六组有4人.(Ⅰ)求第四和第五组频率,并补全频率分布直方图;(Ⅱ)若不低于120分的同学进入决赛,不低于140分的同学为种子选手,完成下面2×2列联表(即填写空格处的数据),并判断是否有99%的把握认为“进入决赛的同学成为种子选手与专家培训有关”.[120,140)[140,150]合计参加培训8 8未参加培训合计 427某企业为了解下属某部门对本企业职工的服务情况,随机访问50名职工,根据这50名职工对该部门的评分,绘制频率分布直方图(如图所示),其中样本数据分组区间为[40,50],[50,60],…,[80,90],[90,100](1)求频率分布图中a的值;(2)估计该企业的职工对该部门评分不低于80的概率;(3)从评分在[40,60]的受访职工中,随机抽取2人,求此2人评分都在[40,50]的概率.28某城市100户居民的月平均用电量(单位:度),以[160,180),[180,200),[200,220),[220.240),[240,260),[260,280),[280,300)分组的频率分布直方图如图.(1)求直方图中x的值;(2)求月平均用电量的众数和中位数;(3)在月平均用电量为,[220,240),[240,260),[260,280),[280,300)的四组用户中,用分层抽样的方法抽取11户居民,则月平均用电量在[220.240)的用户中应抽取多少户?29某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响,对近8年的年宣传费x i和年销售量y i(i=1,2,…,8)数据作了初步处理,得到下面的散点图和一些统计量的值.(x i﹣)2(w i﹣)2(x i﹣)(y i﹣)(w i﹣)(y i﹣)46.6 563 6.8 289.8 1.6 1469 108.8表中w i=1,=(Ⅰ)根据散点图判断,y=a+bx与y=c+d哪一个适宜作为年销售量y关于年宣传费x的回归方程类型?(给出判断即可,不必说明理由)(Ⅱ)根据(Ⅰ)的判断结果和表中数据,建立y关于x的回归方程;(Ⅲ)以知这种产品的年利润z与x、y的关系为z=0.2y﹣x.根据(Ⅱ)的结果回答下列问题:(i)年宣传费x=49时,年销售量和年利润的预报值是多少?(ii)年宣传费x为何值时,年利润的预报值最大?附:对于一组数据(u1 v1),(u2 v2)…..(u n v n),其回归线v=α+βu的斜率和截距的最小二乘估计分别为:=,=﹣.30某市为节约用水,计划在本市试行居民生活用水定额管理,为了较为合理地确定居民日常用水量的标准,通过抽样获得了100位居民某年的月均用水量(单位:吨),右表是100位居民月均用水量的频率分布表,根据右表解答下列问题:(1)求表中a和b的值;(2)请将频率分布直方图补充完整,并根据直方图估计该市每位居民月均用水量的众数.1.C;2.B;3.D;4.A;5.B;6.D;7.B;8.D;9.C;10.B; 11.A; 12.C; 13.C; 14.C; 15.B; 16.B;。
相关性检验和独立性检验
相关性检验和独⽴性检验独⽴性检验表明的是两者是否有关系,相关性检验说明两者成什么样的关系,⽆论是否有关系都可以表⽰出回归⽅程1 相关性检验简单相关系数:度量定量变量间的线性相关关系(⾮相关性)复相关系数:因变量与多个⾃变量之间的关系偏相关系数:反应矫正其他变量后某⼀变量与另⼀变量的相关关系,校正:嘉定其他变量取值均为平均数典型相关系数:主成分分析后得到性的线性⽆关的综合指标,通过新的综合指标间的相关系数研究原来的各组指标之间的整体相关性1.1 ⽪尔森相关系数1.1.1 协⽅差⼆维随机变量(X,Y),X与Y之间的协⽅差定义为Cov(X,Y)=E[X−E(X)][Y−E(Y)]E为期望协⽅差>0,正相关;协⽅差<0,正相关;协⽅差=0,不相关1.1.2 相关系数相关系数定义:Corr(X,Y)=Cov(X,Y)√Var(X)√Var(Y)=Cov(X,Y)σxσy;Var为⽅差Corr(X,Y)=1的时候,说明两个随机变量完全正相关;Corr(X,Y)=-1的时候,说明两个随机变量完全负相关;Corr(X,Y)为0,表⽰X与Y不相关,这⾥的不相关指的是X与Y没有线性关系2 独⽴性检验2.1 卡⽅独⽴性检验Chi-Square Test在⼤数据运营场景中,通常⽤在某个变量(或特征)值是不是和应变量有显著关系。
普通的思维⽅式,是拿已经知道的结果(硬币是均衡的,没有⼈做过⼿脚),推测出会出现的不同现象的次数。
⽽卡⽅检验是拿观察到的现象(投正⾯或反⾯的次数或者频数),来判断这个结果(硬币是不是均衡的)。
卡⽅检验公式为:χ2=∑(observed−expected)2expected⽅法:1.公式求值。
2.⾃由度:假设仅有X1 X2,X1若给定,X2不⾃由?则⾃由度为2-1即1。
3.置信度:⾃⼰设拿到这3个信息,去查表,因为0.72⼩于查表得到的3.841,所以我们得出这个硬币是均衡的结论。
Processing math: 100%。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第87题 相关关系、回归方程与独立性检验I .题源探究·黄金母题【例1】相关变量的样本数据如下表:x1 2 3 4 5 y22356经回归分析可得y 与x 线性相关,并由最小二乘法求得回归直线方程为$1.1y x a =+,则a = ( )A .0.1B .0.2C .0.3D .0.4 【答案】C【解析】由已知可得3, 3.6x y ==.又回归直线方程为$1.1y x a =+经过样本中心点(),, 3.6 1.13,0.3x y a a ∴=⨯+∴=,故选C .【例2】为考察某种药物预防疾病的效果,科研人员对100只某种动物进行试验,得到如下的列联表:患病 未患病 总计 服用药 10 40 50 未服药 20 30 50 总计3070100( ) A .99.5% B .95% C .99% D .97.5% 【答案】B 【解析】()()()()()()22210010 3.304020 4.76250503074081,n ad bc k a b c d a c b d -⨯-⨯==≈++++⨯>∴⨯⨯Q 有95%的把握认为药物有效. 精彩解读【试题来源】例1:人教A版必修3A 组T 3改编;例2:人教A 版选修2-3习题3.2A 组T 1改编.【母题评析】本题考查三角函数的单调性、对称性,考查考生的分析问题解决问题的能力.【思路方法】结合函数的周期性、单调性、对称性解题.II .考场精彩·真题回放【例1】【2017高考山东5】为了研究某班学生的脚长x (单位:厘米)和身高y (单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散【命题意图】这类题主要考查线性相关与线性回归方程点图可以看出y 与x 之间有线性相关关系,设其回归直线方程为ˆˆˆy bx a =+.已知101225i i x ==∑,1011600ii y ==∑,ˆ4b =.该班某学生的脚长为24,据此估计其身高为 ( ) A .160 B .163 C .166 D .170 【答案】C 【解析】由已知$22.5,160,160422.570,42470166x y ay ==∴=-⨯==⨯+=,故选C . 【例2】【2017高考课标II 文19】海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg ),其频率分布直方图如下:(I )记A 表示事件“旧养殖法的箱产量低于50kg”,估计A 的概率; (II )填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关:箱产量<50kg 箱产量≥50kg旧养殖法 新养殖法(III )根据箱产量的频率分布直方图,对两种养殖方法的优劣进行较. 附:()2P K k ≥ 0.050 0.010 0.001k 3.841 6.635 10.828的求法与应用;在给出临界值的情况下判断两个变量是否相关. 【考试方向】这类试题在考查题型上,可以是选择题、填空题或解答题,难度中等.以选择、填空题的形式探究求线性回归系数以及利用线性回归方程进行预测,在解答题中与频率分布结合探究线性回归方程的建立及应用和独立性检验的应用. 【难点中心】1.判断两个变量是否线性相关及相关程度通常有两种方法:(1)利用散点图直观判断;(2)将相关数据代入相关系数r 公式求出r ,然后根据r 的大小进行判断.求线性回归方程时在严格按照公式求解时,一定要注意计算的准确性.2.利用独立性检验,能够帮助我们对日常生活中的实际问题作出合理的推断和预测.独立性检验就是考察两个分类变量是否有关系,并能较为准确地给出这种判断的可信度,随机变量的观测值2K 值越大,说明“两个变量有关系”的可能性越大.22()()()()()n ad bc K a b c d a c b d -=++++【答案】(I )0.62;(II )有把握;(III )新养殖法优于旧养殖法. 【解析】试题分析:(I )根据频率分布直方图中小长方形面积等于对应概率,计算A 的概率;(II )将数据填入对应表格,代入卡方公式,计算215.705K ≈,对照参考数据可判断有99%的把握;(III )先从均值比较大小,越大越好,再从数据分布情况看稳定性,越集中越好,综上可得新养殖法优于旧养殖法. 试题解析:(I )旧养殖法的箱产量低于50kg 的频率为 ()0.0120.0140.0240.0340.04050.62++++⨯= 因此,事件A 的概率估计值为0.62. (II )根据箱产量的频率分布直方图得列联表箱产量50kg < 箱产量50kg ≥旧养殖法 62 38 新养殖法3466()22006266343815.70510010096104K ⨯⨯-⨯=≈⨯⨯⨯,由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关. (3)箱产量的频率分布直方图平均值(或中位数)在45kg 到50kg 之间,且新养殖法的箱产量分布集中程度较旧养殖法的箱产量分布集中程度高,因此,可以认为新养殖法的箱产量较高且稳定,从而新养殖法优于旧养殖法.III .理论基础·解题原理1.相关关系与回归分析回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法;判断相关性的常用统计图是:散点图;统计量有相关系数与相关指数.(1)在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关;(2)在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关;(3)如果散点图中点的分布从整体上看大致在一条直线附近,称两个变量具有线性相关关系.2.线性回归方程:(1)最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法.(2)回归方程:两个具有线性相关关系的变量的一组数据:()()()1122,,,,,,n n x y x y x y L ,其回归方程为a bx y +=∧,则1221,.ni i i nii x y nx y b x nx a y bx ==⎧-⎪⎪=⎪⎨-⎪⎪=-⎪⎩∑∑注意:线性回归直线经过定点(),x y . 相关系数:()()()()12211nii i nniii i xx y y r xx yy ===--=--∑∑∑1222211ni ii n ni i i i x y nxyx nx y ny ===-=⎛⎫⎛⎫-- ⎪⎪⎝⎭⎝⎭∑∑∑.3.独立性检验假设有两个分类变量X 和Y ,它们的值域分另为{x 1,x 2}和{y 1,y 2},其样本频数2⨯2列联表为:1y 2y总计1xab a b +2xcd c d + 总计a c +b d +a b c d +++若要推断的论述为1H :“X 与Y 有关系”,可以利用独立性检验来考察两个变量是否有关系,并且能较精确地给出这种判断的可靠程度.具体的做法是,由表中的数据算出随机变量2K 的值22()()()()()n ad bc K a b c d a c b d -=++++,其中n a b c d =+++为样本容量,2K 的值越大,说明“X 与Y 有关系”成立的可能性越大.随机变量2K 越大,说明两个分类变量,关系越强;反之,越弱.2 3.841K ≤时,X 与Y 无关;2 3.841K >时,X 与Y 有95%可能性有关;2 6.635K ≥时,X 与Y 有99%可能性有关.IV .题型攻略·深度挖掘【考试方向】这类试题在考查题型上,可以是选择题、填空题或解答题,难度中等.以选择、填空题的形式探究求线性回归系数以及利用线性回归方程进行预测,在解答题中与频率分布结合探究线性回归方程的建立及应用和独立性检验的应用.【技能方法】(1)利用散点图判断两个变量是否有相关关系是比较直观简便的方法.如果所有的样本点都落在某一函数的曲线附近,变量之间就有相关关系.如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系.若点散布在从左下角到右上角的区域,则正相关.(2)利用相关系数判定,当r越趋近于1相关性越强.当残差平方和越小,相关指数2R越大,相关性越强.(3)在分析实际中两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,也可计算相关系数r进行判断.若具有线性相关关系,则可通过线性回归方程估计和预测变量的值.(4)正确运用计算$,b a$的公式和准确的计算,是求线性回归方程的关键.并充分利用回归直线$$y bx a=+$过样本点的中心(),x y进行求值.(5)在2×2列联表中,如果两个变量没有关系,则应满足ad-bc≈0.|ad-bc|越小,说明两个变量之间关系越弱;|ad-bc|越大,说明两个变量之间关系越强.(6)解决独立性检验的应用问题,一定要按照独立性检验的步骤得出结论.独立性检验的一般步骤:①根据样本数据制成2×2列联表:②根据公式K2=n(ad-bc)2(a+b)(a+c)(b+d)(c+d)计算K2的观测值k0;③比较k0与临界值的大小关系,作统计推断.【易错指导】1.回归分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图大致呈线性时,求出的线性回归方程才有实际意义,否则,求出的线性回归方程毫无意义.根据回归方程进行预报,仅是一个预报值,而不是真实发生的值.2.独立性检验中统计量K2的观测值k0的计算公式很复杂,在解题中易混淆一些数据的意义,代入公式时出错,而导致整个计算结果出错.V.举一反三·触类旁通考向1 变量间的相互关系【例1】下列变量间的关系,是相关关系的为()①正方体的体积与棱长间的关系;②一块农田的水稻产量与施肥量之间的关系;③商品销售收入与其广告费支出之间的关系;④人体内的脂肪含量与年龄之间的关系.A.①②③B.②③④C.①②④D.①③④【例2】【2018湖南张家界高三三模】已知变量x ,y 之间的线性回归方程为0.710.ˆ3yx =-+,且变量x ,y 之间的一组相关数据如下表所示,则下列说法错误..的是( ) x6 8 10 12 y 6m32A .变量x ,y 之间呈现负相关关系B .可以预测,当20x =时, 3.7y =-C .4m =D .由表格数据知,该回归直线必过点()9,4【例3】【2018四川高三“联测促改”活动试题】某中学的兴趣小组在某座山测得海拔高度、气压和沸点的六组数据绘制成散点图如图所示,则下列说法错误的是( )A .沸点与海拔高度呈正相关B .沸点与气压呈正相关C .沸点与海拔高度呈负相关D .沸点与海拔高度、 沸点与气压的相关性都很强 【跟踪练习】1.下列不具有相关关系的是( ) A .单产不为常数时,土地面积和总产量 B .人的身高与体重 C .季节与学生的学习成绩 D .学生的学习态度与学习成绩2.下列有关线性回归的说法中,不正确的是( )A .变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系叫做相关关系B .在平面直角坐标系中用描点的方法得到表示具有相关关系的两个变量的一组数据的图形叫做散点图C .线性回归直线方程最能代表观测值x ,y 之间的关系D .任何一组观测值都能得到具有代表意义的回归直线方程3.【2018四川广安高三上学期期末考试】对变量,x y 有观测数据()(),1,2,,10i i x y i =⋯,得散点图(1);对变量,u v 有观测数据(()(),1,2,,10i i u v i =⋯,得散点图(2),由这两个散点图可以判断( )A .变量x 与y 正相关,u 与v 正相关B .变量x 与y 正相关,u 与v 负相关C .变量x 与y 负相关,u 与v 正相关D .变量x 与y 负相关,u 与v 负相关4.【2018吉林长春十一中、东北师大附中、吉林一中,重庆一中等五校高三1月联合模拟】下列命题:①在线性回归模型中,相关指数2R 表示解释变量x 对于预报变量y 的贡献率,2R 越接近于1,表示回归效果越好;②两个变量相关性越强,则相关系数的绝对值就越接近于1;③在回归直线方程0.52y x ∧=-+中,当解释变量x 每增加一个单位时,预报变量y ∧平均减少0.5个单位;④对分类变量X 与Y ,它们的随机变量2K 的观测值k 来说,k 越小,“X 与Y 有关系”的把握程度越大.其中正确命题的个数是( )A .1个B .2个C .3个D .4个 考向2 线性回归方程及其应用解题模板:第一步,根据题意画出散点图并判断两变量之间是正相关还是负相关;第二步,计算样本中心点并代入公式进行计算;第三步,得出变量间的相互关系——线性回归方程.【例4】【2018发合肥二模】某公司一种型号的产品近期销售情况如下表 月份x2 3 4 5 6 销售额y (万元)15.116.317.017.218.4根据上表可得到回归直线方程0.7ˆ5ˆy x a =+,据此估计,该公司7月份这种型号产品的销售额为( )A .19.5万元B .19.25万元C .19.15万元D .19.05万元【例5】【2018河北保定高三一模】已知具有线性相关的变量,x y ,设其样本点为()(),1,2,,8i i i A x y i =L L ,回归直线方程为ˆ12yx a =+,若()1186,2OA OA OA +++=u u u v u u u v u u u u v L L ,( O 为原点),则a = ( )A .18 B .18- C .14 D .14- 【例6】【2018河北衡水中学高三十五模】某印刷厂为了研究单册书籍的成本y (单位:元)与印刷册数x (单位:千册)之间的关系,在印制某种书籍时进行了统计,相关数据见下表:根据以上数据,技术人员分别借助甲、乙两种不同的回归模型,得到两个回归方程,方程甲:()14 1.1ˆyx =+,方程乙:()226.4.ˆ16yx=+. (I )为了评价两种模型的拟合效果,完成以下任务. ①完成下表(计算结果精确到0.1);②分别计算模型甲与模型乙的残差平方和1Q 及2Q ,并通过比较12,Q Q 的大小,判断哪个模型拟合效果更好.(II )该书上市之后,受到广大读者热烈欢迎,不久便全部售罄,于是印刷厂决定进行二次印刷,根据市场调查,新需求量为10千册,若印刷厂以每册5元的价格将书籍出售给订货商,求印刷厂二次印刷10千册获得的利润?(按(I )中拟合效果较好的模型计算印刷单册书的成本).【跟踪练习】1.【2018山西省实验中学模拟】某电子产品的成本价格由两部分组成,一是固定成本,二是可变成本,为确定该产品的成本.进行5次试验,收集到的数据如表:由最小二乘法得到回归方程0.6754.9y x =+r,则α=__________.2.【2018湖南长沙长郡中学模拟】已知具有相关关系的两个变量,x y 之间的几组数据如下表所示:(I )请根据上表数据在网格纸中绘制散点图;(II )请根据上表提供的数据,用最小二乘法求出y 关于x 的线性回归方程ˆˆˆy bx a =+,并估计当20x =时,y 的值;(III )将表格中的数据看作五个点的坐标,从这五个点中随机抽取2个点,求这两个点都在直线240x y --=的右下方的概率.(参考公式:1221ˆni i i n i i x y nxy bx nx ==-=-∑∑,ˆˆay bx =-)3.【2018广西桂林、贺州、崇左三市高三第二次联合调研】某地区积极发展电商,通过近些年工作的开展在新农村建设和扶贫过程中起到了非常重要的作用,促进了农民生活富裕,为了更好地了解本地区某一特色产品的宣传费x (千元)对销量y (千件)的影响,统计了近六年的数据如下:(I )若近6年的宣传费x 与销量y 呈线性分布,由前5年数据求线性回归直线方程,并写出y 的预测值;(II )若利润与宣传费的比值不低于20的年份称为“吉祥年”,在这6个年份中任意选2个年份,求这2个年份均为“吉祥年”的概率附:回归方程ˆˆˆybx a =+的斜率与截距的最小二乘法估计分别为111221ˆni n i i x y nx y b x nx==-=-∑∑,ˆˆa y bx =-,其中x ,y 为i x ,iy 的平均数.考向3 独立性检验解题模板:第一步,根据题意画出列联表;第二步,运用公式22()()()()()n ad bc k a b c d a c b d -=++++(其中n a b c d =+++)进行计算;第三步,根据已知表格判断两变量间的相互关联性,作统计推断.【例7】【2018新疆乌鲁木齐高三第二次质量监测】近年来,我国电子商务蓬勃发展,有关部门推出了针对网购平台的商品和服务的评价系统,从该系统中随机选出100名交易者,并对其交易评价进行了统计,网购者对商品的满意率为0.6,对服务的满意率为0.75,其中对商品和服务都满意的有40人.(I )根据已知条件完成下面的22⨯列联表,并回答能否有99%的把握认为“网购者对服务满意与对商品满意之间有关”?对服务满意对服务不满意 合计 对商品满意 40对商品不满意合计100(II )若对商品和服务都不满意者的集合为Ω.已知Ω中有2名男性,现从Ω中任取2人调查其意见.求取到的2人恰好是一男一女的概率.附:() ()()()()22n ad bcKa b c d a c b d-=++++(其中n a b c d=+++为样本容量)()2P K k≥0.1000.0500.0100.001k 2.706 3.841 6.63510.828【例8】【2018河南中原名校(即豫南九校)高三第六次质量考评】下表为2014年至2017年某百货零售企业的线下销售额(单位:万元),其中年份代码x=年份2013-.(I)已知y与x具有线性相关关系,求y关于x的线性回归方程,并预测2018年该百货零售企业的线下销售额;(II)随着网络购物的飞速发展,有不少顾客对该百货零售企业的线下销售额持续增长表示怀疑,某调査平台为了解顾客对该百货零售企业的线下销售额持续增长的看法,随机调查了55位男顾客、50位女顾客(每位顾客从“持乐观态度”和“持不乐观态度”中任选一种),其中对该百货零售企业的线下销售额持续增长持乐观态度的男顾客有10人、女顾客有20人,能否在犯错误的概率不超过0.025的前提下认为对该百货零售企业的线下销售额持续增长所持的态度与性别有关?参考公式及数据:1221ˆni iiniix y nxybx nx==-=-∑∑,ˆˆa y bx=-,()()()()()22n ad bcKa b c d a c b d-=++++,n a b c d=+++【例9】【2018辽宁辽阳高三一模】“微信运动”是一个类似计步数据库的公众帐号,用户只需以运动手环或手机协处理器的运动教据为介,然后关注该公众号,就能看见自己与好友每日行走的步数,并在同一排行榜上得以体现,现随机选取朋友圈中的50人记录了他们某一天的走路步数,并将数据整理如下:规定:人一天行走的步数超过8000步时被系统评定为“积极性”,否则为“懈怠性”.(I )填写下面列联表(单位:人),并根据列联表判断是否有90%的把握认为“评定类型与性别有关”;附:()20P K k ≥0.10 0.05 0.010 0.005 0.0010k2.7063.841 6.635 7.879 10.828()()()()()22n ad bc K a b c d a c b d -=++++(II )为了进一步了解“懈怠性”人群中每个人的生活习惯,从步行在3001~6000的人群中再随机抽取3人,求选中的人中男性人数超过女性人数的概率.【跟踪练习】1.【2018宁夏吴忠市高三下学期高考模拟联考】近年空气质量逐步恶化,雾霾天气现象出现增多,大气污染危害加重.大气污染可引起心悸、呼吸困难等心肺疾病.为了解某市心肺疾病是否与性别有关,在某医院随机对心肺疾病入院的50人进行问卷调查,得到了如下的列联表:患心肺疾病不患心肺疾病合计男 20 5 25女 10 15 25 合计302050(I )用分层抽样的方法在患心肺疾病的人群中抽6人,其中男性抽多少人? (II )在上述抽取的6人中选2人,求恰好有1名女性的概率;(III )为了研究心肺疾病是否与性别有关,请计算出统计量2K ,你有多大把握认为心肺疾病与性别有关?下面的临界值表供参考:()2P K k ≥0.15 0.10 0.05 0.025 0.010 0.005 0.001k2.072 2.7063.841 5.024 6.635 7.879 10.828参考公式:()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.2.【2018山东济南高三一模】2018年2月22日上午,山东省省委、省政府在济南召开山东省全面展开新旧动能转换重大工程动员大会,会议动员各方力量,迅速全面展开新旧动能转换重大工程.某企业响应号召,对现有设备进行改造,为了分析设备改造前后的效果,现从设备改造前后生产的大量产品中各抽取了200件产品作为样本,检测一项质量指标值,若该项质量指标值落在[)20,40内的产品视为合格品,否则为不合格品.图1是设备改造前的样本的频率分布直方图,表1是设备改造后的样本的频数分布表.表1:设备改造后样本的频数分布表质量指标值 [)15,20 [)20,25 [)25,30 [)30,35 [)35,40 []40,45频数4369628324(I )完成下面的22⨯列联表,并判断是否有99%的把握认为该企业生产的这种产品的质量指标值与设备改造有关;设备改造前 设备改造后 合计 合格品 不合格品合计(II )根据图1和表1提供的数据,试从产品合格率的角度对改造前后设备的优劣进行比较; (III )根据市场调查,设备改造后,每生产一件合格品企业可获利180元,一件不合格品亏损 100元,用频率估计概率,则生产1000件产品企业大约能获利多少元?附:()20P K k ≥0.150 0.100 0.050 0.025 0.0100k2.072 2.706 3.841 5.024 6.635()()()()()22n ad bc K a b c d a c b d -=++++【理科】3.【2018江西上饶高三下学期二模】随着节能减排意识深入人心以及共享单车在饶城的大范围推广,越来越多的市民在出行时喜欢选择骑行共享单车.为了研究广大市民在共享单车上的使用情况,某公司在我市随机抽取了100名用户进行调查,得到如下数据:每周使用次数 1次 2次 3次 4次 5次 6次及以上男 4 3 3 7 8 30 女 6 5 4 4 6 20 合计1087111450(I )如果认为每周使用超过3次的用户为“喜欢骑行共享单车”,请完成22⨯列表(见答题卡),并判断能否在犯错误概率不超过0.05的前提下,认为是否“喜欢骑行共享单车”与性别有关?(II )每周骑行共享单车6次及6次以上的用户称为“骑行达人”,视频率为概率,在我市所有“骑行达人”中,随机抽取4名用户.① 求抽取的4名用户中,既有男生“骑行达人”又有女“骑行达人”的概率;②为了鼓励女性用户使用共享单车,对抽出的女“骑行达人”每人奖励500元,记奖励总金额为X ,求X 的分布列及数学期望.附表及公式:()()()()()22n ad bcKa b c d a c b d-=++++0.15 0.10 0.05 0.025 0.010 0.005 0.001 2.072 2.706 3.841 5.024 6.635 7.879 10.828【文科】3.【2018】【2018河北衡水中学届高三上学期七调】国内某知名大学有男生14000人,女生10000人.该校体育学院想了解本校学生的运动状况,根据性别采取分层抽样的方法从全校学生中抽取120人,统计他们平均每天运动的时间(已知该校学生平均每天运动的时间范围是[]0,3h),如下表所示.男生平均每天运动的时间分布情况:女生平均每天运动的时间分布情况:(I)假设同组中的每个数据均可用该组区间的中间值代替,请根据样本估算该校男生平均每天运动的时间(结果精确到0.1).(II)若规定平均每天运动的时间不少于2h的学生为“运动达人”,低于2h的学生为“非运动达人”.(ⅰ)根据样本估算该校“运动达人”的数量;(ⅱ)请根据上述表格中的统计数据填写下面22⨯列联表,并通过计算判断能否在犯错误的概率不超过0.05的前提下认为“运动达人”与性别有关.参考公式:()()()()()22n ad bcKa b c d a c b d-=++++,其中n a b c d=+++.参考数据:。