高考数学真题专题(理数)回归分析与独立性检验
高考数学第一轮复习考纲《回归分析与独立性》检验课件39 理

考点 2 独立性检验 例 2:某研究机构随机选取了 60 名高中生,通过问卷调查, 得到以下数据:
作文成绩优秀 作文成绩一般 合计
课外阅读量较大
22
10
32
课外阅读量一般
8
20
28
合计
30
30
60
利用独立性检验的方法判断高中生作文成绩与课外阅读量 之间的关系.
解题思路:根据公式计算 K2 的观测值 k 后与临界值表比较. 解析:假设 H0:高中生作文成绩与课外阅读量无关, 代入公式计算得 k= 60 (22 20 810)2 =9.643.
P(K2 ≥k0)
0.50
0.40
0.25
0.15
0.10
0.05
0.025
0.010 0.005 0.001
0.45 0.70 1.32 2.07 2.70 3.84
10.82
k0
5.024 6.635 7.879
58 3 261
8
例如:当 K2≥3.841 时,则有 95%的把握说 X 和 Y 有关; 当 K2≥6.635 时,则有 99%的把握说 X 和 Y 有关.
5.已知 x 与 y 之间的一组数据:
x
0
1
2
3
y
1
3
5
7
则 y 与 x 的 线 性 回 归 方 程 为 y = bx + a 必 过 点 _(_1_._5_,4_)__
解析: x=1.5, y =4,回归直线必过样本点中心(1.5,4).
考点 1 线性回归的应用
例 1:.某种书每册的成本费 y(元)与印刷册数 x(千册)有关, 经统计得到数据如下:
x 1 2 3 5 10 20 30 50 100 200 y 10.15 5.52 4.08 2.85 2.11 1.62 1.41 1.30 1.21 1.15
理科数学2010-2019高考真题分类训练专题十一概率与统计第三十三讲回归分析与独立性检验答案

专题十一 概率与统计第三十三讲 回归分析与独立性检验答案部分1.C 【解析】因为22.5x =,160y =,所以$160422.570a=-⨯=,42470166y =⨯+=,选C .2.B 【解析】∵10.0x =,8.0y =,ˆ0.76b=,∴ˆ80.76100.4a =-⨯=, ∴回归方程为ˆ0.760.4yx =+,把15x =代入上式得, ˆ0.76150.411.8y=?=(万元),选B . 3.A 【解析】由题意可知,相应的回归直线的斜率应为正,排除C 、D .且直线必过点(3,3.5),代入A 、B 得A 正确.4.A 【解析】画出散点图知0,0b a <>.5.D 【解析】因为所有的点都在直线上,这组样本数据完全正相关,故其相关系数为1,故选D.6.D 【解析】因为222152(6221410)5281636322016363220χ⨯⨯-⨯⨯==⨯⨯⨯⨯⨯⨯,222252(4201612)521121636322016363220χ⨯⨯-⨯⨯==⨯⨯⨯⨯⨯⨯,222352(824128)52961636322016363220χ⨯⨯-⨯⨯==⨯⨯⨯⨯⨯⨯,222452(143062)524081636322016363220χ⨯⨯-⨯⨯==⨯⨯⨯⨯⨯⨯,则有22224231χχχχ>>>,所以阅读量与性别关联的可能性最大.7.D 【解析】由回归方程为$y =0.8585.71知y 随x 的增大而增大,所以y 与具有正的线性相关关系,由最小二乘法建立的回归方程得过程知ˆ()ybx a bx y bx a y bx =+=+-=-, 所以回归直线过样本点的中心(x ,y ),利用回归方程可以预测估计总体,所以D 不正确.8.B 【解析】样本中心点是(3.5,42),则ˆˆ429.4 3.59.1ay bx =-=-⨯=,所以回归方程是ˆ9.49.1yx =+,把6x =代入得ˆ65.5y =. 9.【解析】(1)利用模型①,该地区2018年的环境基础设施投资额的预测值为ˆ30.413.519226.1y=-+⨯=(亿元). 利用模型②,该地区2018年的环境基础设施投资额的预测值为ˆ9917.59256.5y=+⨯=(亿元). (2)利用模型②得到的预测值更可靠. 理由如下:(ⅰ)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线30.413.5y t =-+上下.这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型ˆ9917.5yt =+可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.(ⅱ)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理.说明利用模型②得到的预测值更可靠.以上给出了2种理由,考生答出其中任意一种或其他合理理由均可得分. 10.【解析】(Ⅰ)由折线图这数据和附注中参考数据得4=t ,28)(712=-∑=i i t t ,55.0)(712=-∑=i iy y,40.1749.32 2.89==-⨯=,99.0646.2255.089.2≈⨯⨯≈r .因为y 与t 的相关系数近似为0.99,说明y 与t 的线性相关相当高,从而可以用线性回归模型拟合y 与t 的关系.(Ⅱ)由331.1732.9≈=y 及(Ⅰ)得71721()()2.89ˆ0.10328()ii i ii tt y y b tt ==--==≈-∑∑, 92.04103.0331.1ˆˆ≈⨯-≈-=t b y a. 所以,y 关于t 的回归方程为:t y10.092.0ˆ+=. 将2016年对应的9=t 代入回归方程得:82.1910.092.0ˆ=⨯+=y. 所以预测2016年我国生活垃圾无害化处理量将约1.82亿吨.11.【解析】(Ⅰ)由散点图可以判断,y c =+适宜作为年销售量y 关于年宣传费x 的回归方程类型.(Ⅱ)令w =y 关于w 的线性回归方程,由于81821()()108.8ˆ681.6()iii ii w w y y dw w ==--===-∑∑. ˆˆ56368 6.8100.6cy dw =-=-⨯=, 所以y 关于w 的线性回归方程为ˆ100.668y w =+,因此y 关于x 的回归方程为ˆ100.6y=+ (Ⅲ)(ⅰ)由(Ⅱ)知,当49x =时,年销售量y 的预报值ˆ100.6576.6y=+= 年利润z 的预报值ˆ576.60.24966.32z=⨯-=. (ⅱ)根据(Ⅱ)得结果知,年利润z 的预报值ˆ0.2(100.620.12zx x =+-=-+.13.66.82==,即46.24x =时,ˆz取得最大值. 故年宣传费为46.24千元时,年利润的预报值最大. 12.【解析】(I ) 由所给数据计算得17t =(1+2+3+4+5+6+7)=417y =(2.9+3.3+3.6+4.4+4.8+5.2+5.9)=4.3 7211()t tt =-∑=9+4+1+0+1+4+9=287111()()t tt y y =--∑=(3)( 1.4)(2)(1)(1)(0.7)-⨯-+-⨯-+-⨯-00.110.520.93 1.614+⨯+⨯+⨯+⨯=71117211()()140.528()t t tt y y btt ==--===-∑∑$,$ 4.30.54 2.3ay bt =-=-⨯=$. 所求回归方程为$0.5 2.3y t =+.13.【解析】(I)由频率颁布直方图可知,在抽取的100人中,“体育迷”有25人,从而2×2列联表如下由2×2列联表中数据代入公式计算,得222112212211212()100(30104515)100 3.0307525455533n n n n n x n n n n ++++-⨯-⨯==≈⨯⨯⨯因为3.030<3.841,所以,没有理由认为“体育迷”与性别有关.(II )由频率分布直方图可知,“超级体育迷”为5人,从而一切可能结果所组成的基本事件空间12132311{(,),(,),(,),(,)a a a a a a a b Ω=12212231,(,),(,),(,),(,),a b a b a b a b3212(,),(,)}a b b b 其中i a 表示男性,1,2,3i =.j b 表示女性,1,2j =.Ω由10个基本事件组成,而且这些事件的出现时等可能的.用A 表示“任选2人中至少有1名是女性”这一事件,则11122122313212{(,),(,),(,),(,),(,),(,),(,)}A a b a b a b a b a b a b b b =∴7()10P A。
高考数学(理)二轮复习练习:专题限时集训7 回归分析、独立性检验 Word版含答案

专题限时集训(七) 回归分析、独立性检验(对应学生用书第91页)(限时:40分钟)1.(2017·石家庄一模)下列说法错误的是( )【导学号:07804050】A .回归直线过样本点的中心(x ,y )B .两个随机变量的线性相关性越强,则相关系数的绝对值就越接近于1C .对分类变量X 与Y ,随机变量K 2的观测值k 越大,则判断“X 与Y 有关系”的把握程度越小D .在回归直线方程y ^=0.2x +0.8中,当解释变量x 每增加1个单位时,预报变量y ^就增加0.2个单位C [根据相关定义知选项A ,B ,D 均正确;选项C 中,对分类变量X 与Y ,随机变量K 2的观测值k 越大,对判断“X 与Y 有关系”的把握程度越大,故C 错误.选C.]2.(2017·湖南名校联考)利用独立性检验来考虑两个分类变量X 和Y 是否有关系时,通过查阅下表来确定“X 和Y 有关系”的可信度.如果k >3.841,那么有把握认为“X 和Y 有关系”的百分比为C .99.5%D .95%D [由图表中数据可得,当k >3.841时,有0.05的几率说明这两个变量之间的关系是不可信的,即有1-0.05=0.95的几率,也就是有95%的把握认为变量之间有关系,故选D.] 3.(2017·湖北七市联考)广告投入对商品的销售额有较大影响.某电商对连续5个年度的广告费x 和销售额y 进行统计,得到统计数据如下表(单位:万元):由上表可得回归方程为y ^=10.2x +a ^,据此模型,预测广告费为10万元时销售额约为( )【导学号:07804051】A .101.2万元B .108.8万元C .111.2万元D .118.2万元C [根据统计数据表,可得x =15×(2+3+4+5+6)=4,y =15×(29+41+50+59+71)=50,而回归直线y ^=10.2x +a ^经过样本点的中心(4,50),∴50=10.2×4+a ^,解得a ^=9.2,∴回归方程为y ^=10.2x +9.2,∴当x =10时,y ^=10.2×10+9.2=111.2,故选C.] 4.(2017·佛山二模)现行普通高中学生在高一升高二时面临着选文理科的问题,学校抽取了部分男、女学生意愿的一份样本,制作出如图77所示的两个等高堆积条形图.图77根据这两幅图中的信息,下列哪个统计结论是不正确的( ) A .样本中的女生数量多于男生数量B .样本中有理科意愿的学生数量多于有文科意愿的学生数量C .样本中的男生偏爱理科D .样本中的女生偏爱文科D [由图2知,样本中的女生数量多于男生数量,样本中的男生、女生均偏爱理科;由图1知,样本中有理科意愿的学生数量多于有文科意愿的学生数量,故选D.]5.(2016·汕头模拟)对四组不同数据进行统计,分别获得以下散点图,如果对它们的相关系数进行比较,下列结论中正确的是( )图78(1)图78(2)图78(3)图78(4)A .r 2<r 4<0<r 3<r 1B .r 4<r 2<0<r 1<r 3C .r 4<r 2<0<r 3<r 1D .r 2<r 4<0<r 1<r 3A [由给出的四组数据的散点图可以看出,图(1)和图(3)是正相关,相关系数大于0,图(2)和图(4)是负相关,相关系数小于0,图(1)和图(2)的点相对更加集中,所以相关性要强,所有r 1接近于1,r 2接近于-1,由此可得r 2<r 4<r 3<r 1.故选A.]6.(2017·南昌一模)设某中学的高中女生体重y (单位:kg)与身高x (单位:cm)具有线性相关关系,根据样本数据(x i ,y i )(i =1,2,3,…,n ),用最小二乘法近似得到回归直线方程为y ^=0.85x -85.71,则下列结论中不正确的是( ) A .y 与x 具有正线性相关关系 B .回归直线过样本点的中心(x ,y )C .若该中学某高中女生身高增加1 cm ,则其体重约增加0.85 kgD .若该中学某高中女生身高为160 cm ,则可断定其体重必为50.29 kgD [因为回归直线方程y ^=0.85x -85.71中x 的系数为0.85>0,因此y 与x 具有正线性相关关系,所以选项A 正确;由最小二乘法及回归直线方程的求解可知回归直线过样本点的中心(x ,y ),所以选项B 正确;由于用最小二乘法得到的回归直线方程是估计值,而不是具体值,若该中学某高中女生身高增加1 cm ,则其体重约增加0.85 kg ,所以选项C 正确,选项D 不正确.]7.在用线性回归方程研究四组数据的拟合效果中,分别作出下列四个关于四组数据的残差图,则用线性回归模式拟合效果最佳的是( )ABCDC[当残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,这样的带状区域的宽度越窄,说明拟合精度越好,拟合效果越好,对比4个残差图,易知选项C的图对应的带状区域的宽度越窄.故选C.]8.(2017·江西南城一中、高安中学第九校3月联考)随着国家二孩政策的全面放开,为了调查一线城市和非一线城市的二孩生育意愿,某机构用简单随机抽样方法从不同地区调查了100位育龄妇女,结果如下表.由K 2=a +bc +d a +cb +d,得K 2=65×35×58×42≈9.616.参照下表,A .在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别有关”B .在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别无关”C .有99%以上的把握认为“生育意愿与城市级别有关”D .有99%以上的把握认为“生育意愿与城市级别无关” C [K 2≈9.616>6.635,∴有99%以上的把握认为“生育意愿与城市级别有关”,故选C.] 二、填空题9.(2017·汉中二模)为了研究某种细菌在特定环境下随时间变化的繁殖规律,得到了下表中的实验数据,计算得回归直线方程为y ^=0.85x -0.25.由以上信息,可得表中c 的值为________.【导学号:07804052】6 [x =5=5,y =5=5,代入回归直线方程,得14+c5=0.85×5-0.25,解得c =6.] 10.(2017·安徽百校联盟二模)已知x 、y 的取值为:从散点图可知y 与x 呈线性相关关系,且回归直线方程为y ^=1.2x +a ^,则当x =20时,y 的取值为________.27.6 [由表格可知x =3,y =7.2,所以这组数据的样本点的中心是(3,7.2),根据样本点的中心在回归直线上,得7.2=a ^+1.2×3,得a ^=3.6,所以这组数据对应的回归直线方程是y ^=1.2x +3.6,将x =20代入,得y =1.2×20+3.6=27.6.]11.(2017·山西太原五中一模)某小卖部销售某品牌的饮料的零售价与销量间的关系统计如下:已知x ,y 的关系符合回归方程y =b x +a ,其中b =-20.若该品牌的饮料的进价为2元,为使利润最大,零售价应定为________元. 3.75 [x =3.5,y =40,∴a ^=40-(-20)×3.5=110, ∴回归直线方程为:y ^=-20x +110,利润L =(x -2)(-20x +110)=-20x 2+150x -220, ∴x =15040=3.75元时,利润最大,故答案为3.75.]12.(2017·哈尔滨三中二模)以模型y =c e kx(e 为自然对数的底)去拟合一组数据时,为了求出回归直线方程,设z =ln y ,其变换后得到线性回归方程为z =0.4x +2,则c =________. e 2[∵y =c e kx,∴两边取对数,可得ln y =ln(c e kx )=ln c +ln e kx=ln c +kx , 令z =ln y ,可得z =ln c +kx , ∵z =0.4x +2, ∴ln c =2, ∴c =e 2.] 三、解答题13.(2017·石家庄一模)为了调查某地区成年人血液的一项指标,现随机抽取了成年男性、女性各20人组成一个样本,对他们的这项血液指标进行了检测,得到了如图79所示的茎叶图.根据医学知识,我们认为此项指标大于40为偏高,反之即为正常.图79(1)依据上述样本数据研究此项血液指标与性别的关系,列出2×2列联表,并判断能否在犯错误的概率不超过0.01的前提下认为此项血液指标与性别有关系?(2)以样本估计总体,视样本频率为概率,现从本地区随机抽取成年男性、女性各2人,求此项血液指标为正常的人数X 的分布列及数学期望. 附:K 2=n ad -bc 2a +b c +d a +cb +d,其中n =a +b +c +d .K 2=a +bc +d a +cb +d=20×20×28×12≈1.905<6.635,所以不能在犯错误的概率不超过0.01的前提下认为此项血液指标与性别有关系. (2)由样本数据可知,男性正常的概率为45,女性正常的概率为35.此项血液指标为正常的人数X 的可能取值为0,1,2,3,4,P (X =0)=⎝ ⎛⎭⎪⎫1-452⎝ ⎛⎭⎪⎫1-352=4625,P (X =1)=C 1245⎝⎛⎭⎪⎫1-45⎝⎛⎭⎪⎫1-352+⎝ ⎛⎭⎪⎫1-452C 1235·⎝ ⎛⎭⎪⎫1-35=44625, P (X =2)=⎝ ⎛⎭⎪⎫452⎝ ⎛⎭⎪⎫1-352+C 1245⎝ ⎛⎭⎪⎫1-45·C 1235·⎝ ⎛⎭⎪⎫1-35+⎝ ⎛⎭⎪⎫1-452⎝ ⎛⎭⎪⎫352=169625, P (X =3)=C 1245⎝ ⎛⎭⎪⎫1-45⎝ ⎛⎭⎪⎫352+⎝ ⎛⎭⎪⎫452C 1235·⎝⎛⎭⎪⎫1-35=264625,P (X =4)=⎝ ⎛⎭⎪⎫452⎝ ⎛⎭⎪⎫352=144625,所以X 的分布列为所以E (X )=0×625+1×625+2×625+3×625+4×625=2.8.14.(2017·湖南三湘名校联盟三模)为了研究一种昆虫的产卵数y 和温度x 是否有关,现收集了7组观测数据列于下表中,并作出了散点图,发现样本点并没有分布在某个带状区域内,两个变量并不呈线性相关关系,现分别用模型①:y =C 1x 2+C 2与模型②:y =e C 3x +C 4作为产卵数y 和温度x 的回归方程来建立两个变量之间的关系.∑n i =1x i -xy i -y∑ni =1x i -x 2∑n i =1t i -ty i -y∑ni =1t i -t 2∑n i =1z i -zx i -x∑ni =1x i -x 2∑ni =1z i -zt i -t∑ni =1t i -t2其中t i =x 2i ,t =∑i =1t i ,z i =ln y i ,z =∑i =1z i ,附:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v ^=β^u +α^的斜率和截距的最小二乘估计分别为:β^=∑ni =1u i -uv i -v∑ni =1u i -u2,α^=v -β^u .图710(1)在答题卡中分别画出y 关于t 的散点图、z 关于x 的散点图,根据散点图判断哪一个模型更适宜作为回归方程类型?(给出判断即可,不必说明理由).图711(2)根据表中数据,分别建立两个模型下y 关于x 的回归方程;并在两个模型下分别估计温度为30℃时的产卵数.(C 1,C 2,C 3,C 4与估计值均精确到小数点后两位)(参考数据:e 4.65≈104.58,e4.85≈127.74,e5.05≈156.02)(3)若模型①、②的相关指数计算得分分别为R 21=0.82,R 22=0.96,请根据相关指数判断哪个模型的拟合效果更好.【导学号:07804053】[解] (1)画出y 关于t 的散点图,如图1;z 关于x 的散点图,如图2.图1 图2根据散点图可判断模型②更适宜作为回归方程类型. (2)对于模型①:设t =x 2,则y =C 1x 2+C 2=C 1t +C 2,其中C ^1=∑7i =1t i -ty i -y∑7i =1t i -t2=0.43,C ^2=y -C ^1t =80-0.43×692=-217.56,所以y =0.43x 2-217.56,当x =30时,估计温度为y 1=0.43×302-217.56=169.44. 对于模型②:y =e C 3x +C 4⇒z =ln y =C 3x +C 4,其中C ^3=∑7i =1z i -zx i -x∑7i =1x i -x2=0.32,C ^4=z -C ^3x =3.57-0.32×26=-4.75.所以y =e0.32x -4.75,当x =30时,估计温度为y 2=e0.32×30-4.75=e4.85≈127.74.(3)因为R 21<R 22,所以模型②的拟合效果更好.。
高考数学复习考点知识与题型专题讲解18--- 回归分析、独立性检验(解析版)

高考数学复习考点知识与题型专题讲解专题18 回归分析、独立性检验1.有关独立性检验的问题,解题思路如下:(1)利用频率估计概率;(2)根据题意,求得2K的值,对照临界值得结果.2.对于非线性回归方程及其应用,考查将非线性回归问题转化为线性回归问题求解,在解题的过程中,要注重回归方程的公式的正确计算,注意所给数据的正确应用.2倍.1 / 31(1)求表中a,b的值,并补全表中所缺数据;(2)运用独立性检验思想,判断是否有99.5%的把握认为中学生使用手机对学习有影响?参考数据:()()()()()22n ad bcKa b c d a c b d-=++++,其中n a b c d=+++.【试题来源】三省三校“3 3 3”2021届高考备考诊断性联考卷(二)【答案】(1)28,14,ab=⎧⎨=⎩,表格答案见解析;(2)有99.5%的把握认为中学生使用手机对学习有影响.【分析】(1)由题意可得122680,2a ba b+++=⎧⎨=⎩从而可求出,a b的值,进而可填出列联表;(2)直接利用公式()()()()()22n ad bcKa b c d a c b d-=++++求解,然后根据临界值表得结论【解析】(1)由己知得122680,2a ba b+++=⎧⎨=⎩解得28,14,ab=⎧⎨=⎩补全表中所缺数据如下:(2)根据题意计算观测值为()2280282614129.8257.87942384040K⨯⨯-⨯=≈>⨯⨯⨯,所以有99.5%的把握认为中学生使用手机对学习有影响.2.某校高二生物研究性学习小组的同学们为了研究当地某种昆虫的产卵数与温度的变化关系,他们收集了一只该种昆虫在温度Cx︒时相对应产卵数个数为y的8组数据,为了对数据进行分析,他们绘制了如下散点图:(1)根据散点图,甲、乙两位同学分别用y bx a=+和z dx c=+(其中lnz y=)两种模型进行回归分析,试判断这两位同学得到的回归方程中,哪一个的相关指数2R更接近1;(给出判断即可,不必说明理由)(2)根据(1)的结论选定上述两个模型中更适宜作为对昆虫产卵数与温度变化关系进行回归分析的模型,并利用下表中数据,计算该模型的回归方程:(方程3 / 31表示为()y f x =的形式,数据计算结果保留两位小数)(3)据测算,若只此种昆虫的产卵数超过4e ,则会发生虫害.研究性学习小组的同学通过查阅气象资料得知近期当地温度维持在25C ︒左右,试利用(2)中的回归方程预测近期当地是否会发生虫害. 附:对于一组数据()()()1122,,,,,,n n u v u v u v ,其回归直线v u βα=+的斜率和截距的最小二乘估计分别为1221ˆˆˆ,nl i i ni i u v nuvv u unu βαβ==-==--∑∑. 【试题来源】甘肃省兰州市2020-2021学年高三下学期诊断试题【答案】(1)乙同学模型的相关指数2R 更接近1;(2)应选择z dx c =+做为回归方程,0.22 2.22x y e -=;(3)近期当地不会发生虫害.【分析】(1)通过观察图象即可得出结论;(2)根据(1)的结论,应选择z dx c =+做为回归方程,利用最小二乘法即可求解,求出,d c 即可. (3)当25x =时,求出估计值,即可判断得出结论.【解析】(1)乙同学模型的相关指数2R 更接近1.(2)根据(1)的结论,应选择z dx c =+做为回归方程,根据公式,812221757826 3.30.22, 3.30.2226 2.425722826i i i nii x z nxzd c z dx xnx =-=--⨯⨯==≈=-≈-⨯=--⨯-∑∑, 0.22 2.42z x ∴=-,5 / 31故y 关于x 的回归方程为0.22 2.22x y e -=.(3)当25x =时,0.22 2.22 3.084x y e e e -==<,因此近期当地不会发生虫害. 3.人均可支配收入是反映一个地区居民收入水平和城市经济发展水平的重要指标,并且对人均消费水平有重大影响,下图是根据国家统计局发布的《2020年上半年居民收入和消费支出情况》绘制的,是我国31个省(区、市)2020年上半年人均可支配收入x (单位:元)与人均消费支出y (单位:元)的散点图.(1)由散点图可以看出,可以用线性回归模型ˆˆybx a =+拟合人均消费支出y 与人均可支配收入x 的关系,请用相关系数加以说明; (2)建立y 关于x 的线性回归方程(精确到0.01);(3)根据(2)的结论,规定半年人均盈余(人均可支配收入-人均消费支出)不低于4620元的省(区、市)达到阶段小康的标准,则估计达到阶段小康标准的省(区、市)的半年人均可支配收入至少为多少元? 参考数据:参考公式:相关系数()()niix x y y r --=∑,回归方程ˆˆˆybx a =+中斜率和截距的最小二乘估计公式分别为()()()121ˆniii nii x x y y bx x ==--=-∑∑,ˆˆay bx =-. 【试题来源】2021年新高考测评卷数学(第二模拟)【答案】(1)答案见解析;(2)ˆ0.482192y x =+;(3)13100元.【分析】(1)将已知数据代入相关系数的求解公式即可得解;(2)根据题中数据及参考公式求得ˆb ,ˆa ,即可建立y 关于x 的线性回归方程;(3)由题意知半年人均盈余为ˆx y-,得到不等式ˆ4620x y -≥,解不等式即可. 【解析】(1)由题意知()()316839000000.983800018400iix x yy r --==≈⨯∑,因为y 与x 的相关系数近似为0.98,接近1,所以y 关于x 的线性相关程度非常高,因此可以用线性回归模型拟合y 与x 的关系.(2)()()()3113121683900000ˆ0.481412000000ii i ii xx y y bxx ==--==≈-∑∑,ˆˆ96320.48155002192ay bx =-≈-⨯=,所以ˆ0.482192y x =+. (3)半年人均盈余为ˆ0.4821920.522192x yx x x -=--=-, 令0.5221924620x -≥,得13100x ≥,故估计达到阶段小康标准的省(区、市)的半年人均可支配收入至少为131007 / 31元.4.近年来,明代著名医药学家李时珍故乡黄冈市蕲春县大力发展大健康产业,蕲艾产业化种植已经成为该县脱贫攻坚的主要产业之一,已知蕲艾的株高y (单位:cm)与一定范围内的温度x (单位:℃)有关,现收集了蕲艾的13组观测数据,得到如下的散点图:现根据散点图利用y a =+dy c x=+建立y 关于x 的回归方程,令s =1t =得到如下数据:213t131i =∑21.22且(i s ,i y )与(i t ,i y )(i =1,2,3,…,13)的相关系数分别为1r ,2r ,且2r =﹣0.9953.(1)用相关系数说明哪种模型建立y 与x 的回归方程更合适; (2)根据(1)的结果及表中数据,建立y 关于x 的回归方程;(3)已知蕲艾的利润z 与x 、y 的关系为1202z y x =-,当x 为何值时,z 的预报值最大.参考数据和公式:0.21×21.22=4.4562,11.67×21.22=247.6374=15.7365,对于一组数据(i u ,i v )(i =1,2,3,…,n ),其回归直线方程v uαβ=+的斜率和截距的最小二乘法估计分别为1221ni i i nii u vnu v unuβ==-⋅=-∑∑,v u αβ=-,相关系数ni i u vnu vr -⋅∑.【试题来源】湖北省八市2021届高三下学期3月联考 【答案】(1)用d y c x =+模型建立y 与x 的回归方程更合适;(2)10ˆ111.54yx=-;(3)当温度为20时这种草药的利润最大.【分析】(1)利用相关系数1r ,2r ,比较1||r 与2||r 的大小,得出用模型dy c x=+建立回归方程更合适;(2)根据(1)的结论求出y 关于x 的回归方程即可;(3)由题意写出利润函数ˆz,利用基本不等式求得利润z 的最大值以及对应的x 值.【解析】(1)由题意知20.9953r =-,10.8858r ====,因为121r r <<,所有用dy c x=+模型建立y 与x 的回归方程更合适. (2)因为1311322113 2.1ˆ100.2113i ii ii t y t ydtt ==-⋅-===--∑∑, ˆˆ109.94100.16111.54cy dt =-=+⨯=,9 / 31所以ˆy关于x 的回归方程为10ˆ111.54y x=- (3)由题意知11012020(111.54ˆˆ)22zy x x x =-=--20012230.8()2x x =-+ 2230.8202210.8≤-=,所以22.8ˆ10z≤,当且仅当20x 时等号成立,所以当温度为20时这种草药的利润最大.5.已知某班有50位学生,现对该班关于“举办辩论赛”的态度进行调查,,他们综合评价成绩的频数分布以及对“举办辩论赛”的赞成人数如下表:(1)请根据以上统计数据填写下面2×2列联表,并回答:是否有95%的把握认为“综合评价成绩以80分位分界点”对“举办辩论赛”的态度有差异?(2)若采用分层抽样在综合评价成绩在[60,70),[70,80)的学生中随机抽取10人进行追踪调查,并选其中3人担任辩论赛主持人,求担任主持人的3人中至少有1人在[60,70)的概率.参考公式:()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.参考数据:【试题来源】山东省聊城市第一中学2021届高三一模检测题(一)【答案】(1)表格见解析,不能;(2)2930.【分析】(1)由已知完成列联表,结合公式计算2K 根据参考数据即可判断结果;(2)由分层抽样得在[)60,70里面抽6个,[)70,80里面抽4个,再用对立事件求解概率即可. 【解析】(1)做个皮尔逊卡方检验的话,有()2250286412 3.125 3.84132184010K ⨯⨯-⨯==<⨯⨯⨯故此不能推翻零假设,不能认定成绩和态度有关.(2)这样分层抽样,会在[)60,70里面抽6个,[)70,80里面抽4个,11 / 31设A 为没有人在[60,70)内的事件,则概率即为()1P P A =-3431029130C C =-=.6.某疫苗进行安全性临床试验.该疫苗安全性的一个重要指标是注射疫苗后人体血液中的高铁血红蛋白(MetHb )的含量(以下简称为“M 含量”)不超过1%,则为阴性,认为受试者没有出现血症.若一批受试者的M 含量平均数不超过0.65%,出现血症的被测试者的比例不超过5%,同时满足这两个条件则认为该疫苗在M 含量指标上是“安全的”;否则为“不安全”.现有男、女志愿者各200名接受了该疫苗注射.经数据整理,制得频率分布直方图如图.(注:在频率分布直方图中,同一组数据用该区间的中点值作代表.)(1)请说明该疫苗在M 含量指标上的安全性;(2)按照性别分层抽样,随机抽取50名志愿者进行M 含量的检测,其中女性志愿者被检测出阳性的恰好1人.请利用样本估计总体的思想,完成这400名志愿者的22⨯列联表,并判断是否有超过95%的把握认为,注射该疫苗后,高铁血红蛋白血症与性别有关?附:()()()()()22n ad bcKa b c d a c b d-=++++.【试题来源】江西省九所重点中学(玉山一中、临川一中等)2021届高三3月联合考试【答案】(1)该疫苗在M含量指标上是“安全的”;(2)表格见解析,没有. 【分析】(1)求出区间(]1.0,1.2上的频率,以及平均数即可得结论;(2)根据题意写出列联表,计算2K的值,并与3.841比较即可得出结论. 【解析】(1)由频率分布直方图得M含量数据落在区间(]1.0,1.2上的频率为0.150.20.03⨯=,故出现血症的比例为3%5%<,由直方图得平均数为0.30.20.50.30.70.30.90.17 1.10.030.606x=⨯+⨯+⨯+⨯+⨯=即志愿者的M含量的平均数为0.606%0.65%<综上,该疫苗在M含量指标上是“安全的”.(2)依题意得,抽取的50名志愿者中女性志愿者应为25人由已知,25名女性志愿者被检测出阳性恰有1人,故女性中阳性的频率0.04 所以全部女性志愿者阳性共有2000.048⨯=人由(1)知400名志愿者中,阳性的频率为0.03,所以阳性的人数共有4000.0312⨯=人因此男性志愿者被检测出阳性的人数是1284-=人.所以完成表格如下:由22⨯列联表可()22400419281961.375 3.84120020012388K⨯⨯-⨯=≈<⨯⨯⨯,由参考表格,可得,故没有超过95%的把握认为注射疫苗后,高铁血红蛋白血症与性别有关.7.某种机械设备随着使用年限的增加,它的使用功能逐渐减退,使用价值逐年减少,通常把它使用价值逐年减少的“量”换算成费用,称之为“失效费”.某种机械设备的使用年限x(单位:年)与失效费y(单位:万元)的统计数据如下表所示:(1)由上表数据可知,可用线性回归模型拟合y与x的关系.请用相关系数加以说明;(精确到0.01)(2)求出y关于x的线性回归方程,并估算该种机械设备使用10年的失效费.13 / 31参考公式:相关系数()()niix x y y r --=∑.线性回归方程ˆˆˆybx a =+中斜率和截距最小二乘估计计算公式:()()()121ˆniii ni i x x y y bx x ==--=-∑∑,ˆˆay bx =-. 参考数据:()71()14.00i i i x x y y =--=∑,()7217.08i iy y =-=∑14.10≈.【试题来源】四川省成都市2021届高三第二次诊断性检测【答案】(1)答案见解析;(2)ˆ0.5 2.3yx =+,7.3万元. 【分析】(1)根据统计数据求x 、y 、()721i i x x =-∑,结合参考数据及相关系数公式,求相关系数r ,进而判断y 与x 的相关程度;(2)利用最小二乘法公式估计ˆb 、ˆa ,写出线性回归方程,进而将10x =代入估算求值.【解析】(1)由题意,知123456747x ++++++==,2.903.30 3.604.40 4.805.20 5.904.307y ++++++==,()()()()()()()()72222222211424344454647428i i x x =-=-+-+-+-+-+-+-=∑.所以结合参考数据知14.000.9914.10r ==≈≈.因为y 与x 的相关系数近似为0.99,所以y 与x 的线性相关程度相当大,从而可以用线性回归模型拟合y 与x 的关系.15 / 31(2)因为()()()7172114ˆ0.528iii ii x x y y bx x ==--===-∑∑, 所以ˆˆ 4.30.54 2.3ay bx =-=-⨯=. 所以y 关于x 的线性回归方程为ˆ0.5 2.3y x =+,将10x =代入线性回归方程,得ˆ0.510 2.37.3y=⨯+=. 所以估算该种机械设备使用10年的失效费为7.3万元.8.人类已经进入大数据时代.目前,数据量级已经从TB (1TB =1024GB )级别跃升到PB (1PB =1024TB ),EB (1EB =1024PB )乃至ZB (1ZB =1024EB )级别.国际数据公司(IDC )研究结果表明,2008年全球产生的数据量为0.49ZB ,2009年数据量为0.8ZB ,2010年增长到1.2ZB ,2011年数据量更是高达1.82ZB .下表是国际数据公司(IDC )研究的全球近6年每年产生的数据量(单位:ZB )及相关统计量的值:表中ln i i z y =,6116i i z z ==∑.(1)根据上表数据信息判断,方程21c xy c e =⋅(e 是自然对数的底数)更适宜作为该公司统计的年数据量y 关于年份序号x 的回归方程类型,试求此回归方程(2c 精确到0.01).(2)有人预计2021年全世界产生的数据规模将超过2011年的50倍.根据(1)中的回归方程,说明这种判断是否准确,并说明理由.参考数据: 4.5695.58e ≈, 4.5897.51e ≈,回归方程y a bx =+中,斜率最小二乘法公式为()()()1122211n niii ii i nniij i x x y y x y nxyb x x xnx====---==--∑∑∑∑,a y bx =-.【试题来源】2021年高三数学二轮复习讲练测(新高考版) 【答案】(1) 1.520.38x y e +=;(2)见解析.【分析】(1)设ln z y =,则12ln z c c x =+,再根据参考数据及公式即可得解 (2)先将8x =代入得预计2021年数据量,进而和2011年的50倍比较大小即可得解【解析】(1)由21c xy c e =⋅,两边同时取自然对数得()2112ln ln ln c xy c e c c x =⋅=+,设ln z y =,则12ln z c c x =+. 因为 3.5x =, 2.85z =,()62117.58i i x x=-=∑,()()616.7.i i i x x z z =--=∑,所以()()()12216.730.3817.58niii nij x x y z c x x ==--==≈-∑∑,12ln 2.850.38 3.5 1.52c z c x =-=-⨯=.17 / 31所以 1.520.38ln z x y =+=,所以 1.520.38x y e +=;(2)令8x =,得 1.520.388 4.56ˆ95.58 1.825091ye e +⨯==≈>⨯=. 预计2021年全世界产生的数据规模会超过2011年的50倍.【名师点睛】对于非线性回归方程的求解,一般要结合题意作变换,转化为线性回归方程来求解,同时也要注意相应数据的变化.9.随着手机游戏的发展,在给社会带来经济利益的同时,也使许多人深陷其中,从而产生一些负面的影响.A ,B 两所学校为了解学生每天玩游戏的时间,各自抽取了100名学生进行调查,得到的数据如表所示:A 学校B 学校(1)以样本估计总体,计算A 学校学生日游戏时间的平均数以及B 学校学生日游戏时间的中位数.(2)为了调查家长对孩子玩游戏的态度,学校相关领导随机抽取了200名男性家长和200名女性家长进行调查,并将所得结果统计如表所示,判断是否有99.9%的把握认为家长对孩子玩游戏的态度与家长性别有关?附:()()()()()22n ad bcKa b c d a c b d-=++++,其中n a b c d=+++.【试题来源】普通高等学校招生全国统一考试数学预测卷(一)【答案】(1)A学校学生日游戏时间的平均数为64.7()min;B学校学生日游戏时间的中位数为74()min;(2)没有.【分析】(1)根据频率分布表,利用平均数公式求解;由中位数的定义求解;(2)根据22⨯列联表中的数据,利用()()()()()22n ad bcKa b c d a c b d-=++++求得2K的值,再与临界值表对照下结论.【解析】(1)A学校学生日游戏时间的平均数为3.50.1450.14550.16650.2750.18850.13950.0964.7⨯+⨯+⨯+⨯+⨯+⨯+⨯=()min.B学校学生日游戏时间的中位数为5037102070107425----+⨯=()min.19 / 31(2)由已知可得22⨯列联表:则()2240013639161648.17210.828200200297103K ⨯⨯-⨯=≈<⨯⨯⨯, 所以没有99.9%的把握认为家长对孩子玩游戏的态度与家长性别有关. 10.为了解国内不同年龄段的民众旅游消费的基本情况.某旅游网站从其数据库中随机抽取了1000条客户信息进行分析,这些客户一年的旅游消费金额数据如下表所示;把一年的旅游消费金额满8千元称为“高消费”,否则称为“低消费”. (1)从这些客户中随机选一人,求该客户是高消费的中老年人的概率; (2)完成下面的22⨯列联表,并判断能否有99%的把握认为旅游消费的高低与年龄有关.附表及公式:22()()()()()n ad bcKa b c d a c b d-=++++,其中n a b c d=+++【试题来源】学科网2021年高三1月大联考考后强化卷(新课标Ⅱ卷)【答案】(1)15;(2)填表见解析;有.【分析】(1)用频率估计概率,计算样本中高消费的中老年人的频率即为概率;(2)将数据填入列联表,用2K的计算公式计算2K的观测值k,与附表中的数据比较可得出结论.【解析】(1)样本中总客户数为1000,其中高消费的中老年人有200人,随机选一人,则该客户是高消费的中老年人的概率为2001 10005=.(2)2×2列联表如下:21 / 31可得2K的观测值21000(300200100400)7.937400600700300k ⨯⨯-⨯=≈⨯⨯⨯, 因为7.937 6.635>,所以有99%的把握认为旅游消费的高低与年龄有关. 11.2020山东省旅游发展大会暨首届中国国际文化旅游博览会在济南奥体中心东荷体育馆隆重开幕.大会以“文旅融合发展,乐享好客山东”为主题,来自38个国家和地区的友好宾朋,跨越空间阻隔,相约线上交流,共同推动山东文化和旅游业发展谱写新的篇章.某机构为了解人们对博览会的关注度是否与年龄有关,随机抽取了200位市民(其中40周岁及以下与40周岁以上各100人)进行问卷调查,并得到如下的22⨯列联表:(1)根据22⨯列联表,判断是否有90%的把握认为对博览会的关注度与年龄有关;(2)若从关注度极高的被调查者中按年龄分层抽样的方法抽取9人了解他们从事的职业情况,再从9人中任意选取2人谈谈关注博览会的原因,求这2人中两个年龄段的市民各一人的概率.附:22()()()()()n ad bc Ka b c d a c b d -=++++,其中n a b c d =+++.参考数据:【试题来源】普通高等学校招生全国统一考试数学预测卷(三)【答案】(1)有;(2)59.【分析】(1)根据22⨯列联表中的数据求得2K 值,再与临界值表对照下结论; (2)先利用分层抽样的方法抽取各层的人数,然后再求得9人中任意选取2人的基本事件数和这2人中两个年龄段的市民各一人的基本事件数,代入古典概型的概率公式求解.【解析】(1)由22⨯列联表可得22200(60524840) 2.899 2.70610010010892K ⨯⨯-⨯=≈>⨯⨯⨯,故有90%的把握认为对博览会的关注度与年龄有关.(2)根据题意,从关注度极高的被调查者中按年龄分层抽样的方法抽取9人, 则抽取40周岁及以下的有6095108⨯=人,40周岁以上的有954-=人. 从9人中任意选取2人的基本事件有29C 36=个,这2人中两个年龄段的市民各一人的基本事件有1154C C 20=个;则这2人中两个年龄段的市民各一人的概率205369P ==. 12.某贫困县为了响应国家精准扶贫的号召,特地承包了一块土地,已知土地的使用面积以及相应的管理时间的关系如下表:并调查了某村300名村民参与管理的意愿,得到的部分数据如下表所示:23 / 31(1)求相关系数r 的大小(精确到0.01),并判断管理时间y 与土地使用面积x 的线性相关程度;(2)是否有99.9%的把握认为村民的性别与参与管理的意愿具有相关性?参考公式:()()niix x y y r --=∑,()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++. 临界值表:22.02.【试题来源】重组卷05-冲刺2021年高考数学之精选真题模拟重组卷(新课标卷)【答案】(1)0.84;管理时间y 与土地使用面积x 的线性相关程度为强相关;(2)有99.9%的把握认为村民的性别与参与管理的意愿具有相关性.【分析】(1)根据参考公式和数据计算相关系数r 的值,并判断强弱关系;(2)根据列联表计算2K ,并和临界数表比较大小. 【解析】(1)1234535x ++++==,911142620165y ++++==, ()()()()()()()()113916231116331416niii x x y y =--=-⨯-+--+-⨯-∑()()()()43261653201637+--+--=,()()()()()()2222221132333435310ni i x x =-=-+-+-+-+-=∑, ()()()()()()22222219161116141626162016194ni i y y =-=-+-+-+-+-=∑44.04=≈,()()370.840.7544.04niix x y y r --==≈>∑, 所以管理时间y 与土地使用面积x 的线性相关程度为强相关.(2)由条件可知女性不愿意参与管理的人数为300140604060---=()223001406060402510.828200100180120K ⨯⨯-⨯==>⨯⨯⨯,所以有99.9%的把握认为村民的性别与参与管理的意愿具有相关性. 13.某公司对项目进A 行生产投资,所获得的利润有如下统计数据表:(1)请用线性回归模型拟合y 与x 的关系,并用相关系数加以说明; (2)该公司计划用7百万元对A 、B 两个项目进行投资.若公司对项目B 投资25 / 31()16x x ≤≤百万元所获得的利润y 近似满足:0.490.160.491y x x =-++,求A 、B 两个项目投资金额分别为多少时,获得的总利润最大? 附:①对于一组数据()11,x y 、()22,x y 、、(),n n x y ,其回归直线方程y bx a=+的斜率和截距的最小二乘法估计公式分别为1221ni ii nii x y nx yb xnx==-⋅=-∑∑,ˆa y bx=-. ②线性相关系数ni ix y nx yr -⋅=∑.一般地,相关系数r 的绝对值在0.95以上(含0.95)认为线性相关性较强;否则,线性相关性较弱. 参考数据:对项目A 投资的统计数据表中111ni i i x y ==∑,212.24ni i y ==∑ 2.1≈.【试题来源】2021年高考数学金榜预测卷(山东、海南专用)【答案】(1)0.2y x =;答案见解析;(2)对A 、B 项目分别投资4.5百万元,2.5百万元时,获得总利润最大.【分析】(1)计算出x 、y 的值,将表格中的数据代入最小二乘法公式,求出b 、a 的值,可得出回归直线方程,并计算出相关系数r 的值,可得出结论;(2)求得()0.491.930.0411y x x ⎡⎤-++⎢+⎣=⎥⎦,利用基本不等式可求得y 的最大值,利用等号成立求得x 的值,即可得出结论.【解析】(1)对项目A 投资的统计数据进行计算,有3x =,0.6y =,52155i i x ==∑,所以515222151190.255535i ii i i x y x yb x x==-⋅-===-⨯-∑∑,0.60.230a y bx =--⨯==,所以回归直线方程为0.2y x =.线性相关系数55i ix y x yr -⋅==∑0.95340.95=≈>, 这说明投资金额x 与所获利润y 之间的线性相关关系较强, 用线性回归方程0.2y x =对该组数据进行拟合合理;(2)设对B 项目投资()16x x ≤≤百万元,则对A 项目投资()7x -百万元. 所获总利润()()0.490.490.490.27 1.930.60411110.x x y x x x ⎡⎤++-=⎥=--++⎢++⎣⎦1.93 1.65≤-=, 当且仅当()100.04194.x x =++,即 2.5x =时取等号, 所以对A 、B 项目分别投资4.5百万元,2.5百万元时,获得总利润最大. 14.有一种速度叫中国速度,有一种骄傲叫中国高铁.中国高铁经过十几年的发展,取得了举世瞩目的成就,使我国完成了从较落后向先进铁路国的跨越式转变.中国的高铁技术不但越来越成熟,而且还走向国外,帮助不少国家修建了高铁.高铁可以说是中国一张行走的名片.截至到2020年,中国高铁运营里程已经达到3.9万公里.下表是2013年至2020年中国高铁每年的运营里程统计表,它反映了中国高铁近几年的飞速发展:27 / 31根据以上数据,回答下面问题.(1)甲同学用曲线y =bx +a 来拟合,并算得相关系数r 1=0.97,乙同学用曲线y =ce dx 来拟合,并算得转化为线性回归方程所对应的相关系数r 2=0.99,试问哪一个更适合作为y 关于x 的回归方程类型,并说明理由;(2)根据(1)的判断结果及表中数据,求y 关于x 的回归方程(系数精确到0.01). 参考公式:用最小二乘法求线性回归方程的系数公式:121()()ˆˆ,()niii nii x x y y ba y bxx x ==--==--∑∑;参考数据:882112.48,()()15.50,()42.00,i i i i i y x x y y x x ===--=-=∑∑令8820.4411ln ,0.84,()() 6.50,() 1.01, 1.15.i i i i i w y w x x w w w w e ====--=-==∑∑【试题来源】安徽省示范高中皖北协作区2021届高三下学期第23届联考 【答案】(1)答案见解析;(2)0.151.15x y e =.【分析】(1)比较已知的相关系数大小关系即可得出正确答案;(2)由已知数据求出x ,结合回归方程变形为ln ln y c dx =+,求出d 和ln c ,从而可求出回归方程.【解析】(1)因为1201r r <<<,所以dx y ce =更适合作为y 关于x 的回归方程类型. (2)12345678364.588x =++++++===,由dx y ce =得ln ln y c dx =+,即ln c dx ω=+,则1821()()6.50.1542()Niii ii x x d x x ωω==--==≈-∑∑, 13ln 0.84 4.50.1484c dx ω=-=-⨯≈,所以0.140.150.140.150.151.15dx x x x y ce e e e e +====. 【名师点睛】本题考查了回归方程的求解,本题第二问的关键是对回归方程,结合对数的运算性质进行变形,结合最小二乘法求线性回归方程的系数公式进行求解.15.打乒乓球是一项众多中学生喜爱的体育运动,某中学体育协会为了解这项运动与性别的关联性,随机调查了100名男生和100名女生,每位学生回答喜欢或不喜欢,得到下面的列联表:(1)分别估计该中学男、女生喜欢打乒乓球的概率;(2)能否有99.5%的把握认为中学生喜欢打乒乓球与性别有关?附:22()()()()()n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.【试题来源】吉林省白山市2021届高三第三次联考(4月份)【答案】(1)男生喜欢打乒乓球的概率的估计值为0.55,女生喜欢打乒乓球的概率的估计值为0.35;(2)有99.5%的把握认为中学生喜欢打乒乓球与性别有关.【分析】(1)根据题意,利用公式求得男生和女生喜欢打乒乓球的频率,从而估计出其概率;(2)由题意,求得2K的值,对照临界值得出结论.【解析】(1)由调查数据可知,男生喜欢打乒乓球的频率为550.55 100=,女生喜欢打乒乓球的频率为350.35 100=,因此该中学男生喜欢打乒乓球的概率的估计值为0.55,女生喜欢打乒乓球的概率的估计值为0.35.(2)因为2 2200(55653545)8001001009011099 K⨯⨯-⨯==⨯⨯⨯且80080087.879 99100>=>,所以有99.5%的把握认为中学生喜欢打乒乓球与性别有关.16.某公司为研究某种图书每册的成本费y(单位:元)与印刷数量x(单位:千册)的关系,收集了一些数据并进行了初步处理,得到了下面的散点图及一些统计量的值.29 / 31表中1i i u x =,8118i i u u ==∑(1)根据散点图判断:y a bx =+与dy c x=+哪一个模型更适合作为该图书每册的成本费y 与印刷数量x 的回归方程?(只要求给出判断,不必说明理由) (2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程(结果精确到0.01);(3)若该图书每册的定价为9.22元,则至少应该印刷多少册才能使销售利润不低于80000元?(假设能够全部售出,结果精确到1)附:对于一组数据1122(,),(,,,),()n n v v v ωωω⋯,其回归直线v αβω=+的斜率和截距的最小二乘估计分别为121()()()niii nii v v ωωβωω==--=-∑∑,v αβω=-.【试题来源】2021年高考数学考前信息必刷卷(江苏专用) 【答案】(1)d y c x =+更适合;(2)8.961.22y x=+;(3)至少印刷11120册才能使销售利润不低于80000元.【分析】(1)由散点图可知成反比例函数模型,故dy c x=+更适合; (2)令1u x=,根据表中的数据计算即可得y 关于u 的线性回归方程为1.228.96y u=+,进而得y 关于x 的回归方程为8.961.22y x=+; (3)根据题意只需解不等式8.969.22 1.2280x x x ⎛⎫-+≥ ⎪⎝⎭即可得答案.【解析】(1)由散点图判断,dy c x=+更适合作为该图书每册的成本费y (单位:元)与印刷数量x (单位:千册)的回归方程. (2)令1u x=,先建立y 关于u 的线性回归方程,由于81821()()7.0498.9578.960.787()i iiiiu u y ydu u==-⋅-==≈≈-∑∑,所以 3.638.9570.269 1.22c yd u=-⋅=-⨯≈,所以y关于u的线性回归方程为 1.228.96y u=+,所以y关于x的回归方程为8.961.22yx =+(3)假设印刷x千册,依题意得8.969.22 1.2280x xx⎛⎫-+≥⎪⎝⎭,解得11.12x≥,所以至少印刷11120册才能使销售利润不低于80000元.31 / 31。
高考真题——回归分析和独立性检验

高考真题——回归分析和独立性检验副标题一、选择题(本大题共9小题,共45.0分)1.有甲、乙两个班级进行数学考试,按照大于等于85分为优秀,85分以下为非优秀统计成绩,得到如下所示的列联表:已知在全部105人中随机抽取1人,成绩优秀的概率为,则下列说法正确的是()参考公式:K2=附表:列联表中c的值为30,b的值为35B. 列联表中c的值为15,b的值为50C. 根据列联表中的数据,若按的可靠性要求,能认为“成绩与班级有关系”D. 根据列联表中的数据,若按的可靠性要求,不能认为“成绩与班级有关系”2.某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量的关系,随机抽查了52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是()表1表2表3表4成绩视力 C. 智商 D. 阅读量3.下列两个变量中具有相关关系的是()A. 正方形的面积与边长B. 匀速行驶的车辆的行驶距离与时间C. 人的身高与体重D. 人的身高与视力4.下列说法:①将一组数据中的每一个数据都加上或减去同一个常数后,方差不变;②设有一个线性回归方程=3-5x,变量x增加1个单位时,y平均增加5个单位;③线性回归方程=x+必过(,);④设具有相关关系的两个变量x,y的相关系数为r,则|r|越接近于0,x和y之间的线性相关程度越高;⑤在一个2×2列联表中,由计算得K2的值,则K2的值越大,判断两个变量间有关联的把握就越大.其中错误的个数是()A. 0B. 1C. 2D. 35.某次考试,班主任从全班同学中随机抽取一个容量为8的样本,他们的数学、物理分数对应如下表:绘出散点图如下:根据以上信息,判断下列结论:①根据此散点图,可以判断数学成绩与物理成绩具有线性相关关系;②根据此散点图,可以判断数学成绩与物理成绩具有一次函数关系;③甲同学数学考了80分,那么,他的物理成绩一定比数学只考了60分的乙同学的物理成绩要高.其中正确的个数为A. 0B. 3C. 2D. 16.有人认为在机动车驾驶技术上,男性优于女性.这是真的么?某社会调查机构与交警合作随机统计了经常开车的100名驾驶员最近三个月内是否有交通事故或交通违法事件发生,得到下面的列联表:附:K2=据此表,可得()A. 认为机动车驾驶技术与性别有关的可靠性不足B. 认为机动车驾驶技术与性别有关的可靠性超过C. 认为机动车驾驶技术与性别有关的可靠性不足D. 认为机动车驾驶技术与性别有关的可靠性超过7.如图是相关变量x,y的散点图,现对这两个变量进行线性相关分析,方案一:根据图中所有数据,得到线性回归方程y=b1x+a1,相关系数为r1;方案二:剔除点(10,21),根据剩下数据得到线性回归直线方程y=b2x+a2,相关系数为r2.则()A. B. C. D.8.由K2=得K2=≈8.333>7.879A. 有以上的把握认为“爱好该项运动与性别有关”B. 有以上的把握认为“爱好该项运动与性别无关”C. 在犯错误的概率不超过的前提下,认为“爱好该项运动与性别有关”D. 在犯错误的概率不超过的前提下,认为“爱好该项运动与性别无关”9.有五组变量:①汽车的重量和汽车每消耗1升汽油所行驶的平均路程;②平均日学习时间和平均学习成绩;③某人每日吸烟量和身体健康情况;④圆的半径与面积;⑤汽车的重量和每千米耗油量.其中两个变量成正相关的是()A. ①③B. ②④C. ②⑤D. ④⑤二、填空题(本大题共1小题,共5.0分)10.高三年级267位学生参加期末考试,某班37位学生的语文成绩,数学成绩与总成绩在全年级的排名情况如图所示,甲、乙、丙为该班三位学生。
高二数学回归分析与独立性检验

3.1回归分析的基本思想及其初步应用例3 下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x (吨)与相应的生产能耗y (吨)标准煤的几组对照数据.(1)请画出上表数据的散点图;(2)请根据上表提供的数据,用最小二乘法求出y 关于x 的线性回归方程yˆ=b ˆx +a ˆ; (3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤?(参考数值:3×2.5+4×3+5×4+6×4.5=66.5) 解 (1)散点图如下图:(2)x =46543+++=4.5,y =45.4435.2+++=3.5 ∑=41i ii yx =3×2.5+4×3+4×5+6×4.5=66.5.∑=412i ix=32+42+52+62=86∴bˆ=24124144x x yx yx i i i ii -∙-∑∑===25.44865.45.345.66⨯-⨯⨯-=0.7aˆ =y -b ˆx =3.5-0.7×4.5=0.35. ∴所求的线性回归方程为yˆ=0.7x +0.35. (3)现在生产100吨甲产品用煤 y =0.7×100+0.35=70.35,∴降低90-70.35=19.65(吨)标准煤.3.某企业上半年产品产量与单位成本资料如下:月份 产量(千件)单位成本(元)1 2 73 2 3 72 3 4 71 4 3 73 5 4 69 6568(1)求出线性回归方程;(2)指出产量每增加1 000件时,单位成本平均变动多少? (3)假定产量为6 000件时,单位成本为多少元? 解 (1)n =6,∑=61i ix=21,∑=61i iy=426,x =3.5,y =71,∑=612i i x =79,∑=61i ii yx =1 481,bˆ=26126166x x yx yx i i i ii -∙-∑∑===25.3679715.364811⨯-⨯⨯-=-1.82.aˆ=y -b ˆx =71+1.82×3.5=77.37. 回归方程为yˆ=a ˆ+b ˆx =77.37-1.82x . (2)因为单位成本平均变动bˆ=-1.82<0,且产量x 的计量单位是千件,所以根据回归系数b 的意义有: 产量每增加一个单位即1 000件时,单位成本平均减少1.82元. (3)当产量为6 000件时,即x =6,代入回归方程: yˆ=77.37-1.82×6=66.45(元) 当产量为6 000件时,单位成本为66.45元.12.某种产品的广告费支出x 与销售额y (单位:百万元)之间有如下对应数据:x 2 4 5 6 8 y3040605070(1)画出散点图; (2)求回归直线方程;(3)试预测广告费支出为10百万元时,销售额多大? 解 (1)根据表中所列数据可得散点图如下:(2)列出下表,并用科学计算器进行有关计算:i 1 2 3 4 5 x i 2 4 5 6 8 y i 30 40 60 50 70 x i y i60160300300560因此,x =525=5, y =5250=50,∑=512i i x =145,∑=512i i y =13 500,∑=51i i iy x=1 380.于是可得:bˆ=25125155x xyx yx i ii ii -∙-∑∑===55514550553801⨯⨯-⨯⨯-=6.5; a ˆ=y -b ˆx =50-6.5×5=17.5. 因此,所求回归直线方程为:yˆ=6.5x +17.5. (3)根据上面求得的回归直线方程,当广告费支出为10百万元时,yˆ=6.5×10+17.5=82.5(百万元),即这种产品的销售收入大约为82.5百万元.3.2独立性检验的基本思想及其初步应用例1 (14分)调查339名50岁以上人的吸烟习惯与患慢性气管炎的情况,获数据如下:患慢性气管炎未患慢性气管炎总计 吸烟 43 162 205 不吸烟 13 121 134 合计56283339试问:(1)吸烟习惯与患慢性气管炎是否有关?(2)用假设检验的思想给予证明. (1)解 根据列联表的数据,得到 χ2=))()()(()(2c d b d c a b a bc ad n ++++- 2分=13428356205)1316212143(3392⨯⨯⨯⨯-⨯⨯=7.469>6.6356分 所以有99%的把握认为“吸烟与患慢性气管炎有关”.9分 (2)证明 假设“吸烟与患慢性气管炎之间没有关系”,由于事件A ={χ2≥6.635}≈0.01,即A 为小概率事件,而小概率事件发生了,进而得假设错误,这种推断出错的可能性约有1%. 14分12.在调查的480名男人中有38名患有色盲,520名女人中有6名患有色盲,分别利用图形和独立性检验的方法来判断色盲与性别是否有关?你所得到的结论在什么范围内有效? 解 根据题目所给的数据作出如下的列联表:色盲 不色盲 合计 男 38 442 480 女 6 514 520 合计449561 000根据列联表作出相应的二维条形图:从二维条形图来看,在男人中患色盲的比例为48038,要比女人中患色盲的比例5206大. 其差值为520648038-≈0.068,差值较大. 因而,我们可以认为“患色盲与性别是有关的”. 根据列联表所给的数据可以有a =38,b =442,c =6,d =514,a +b =480,c +d =520, a +c =44,b +d =956,n =1 000, 由2χ=))()()(()(2d b c a d c b a bc ad n ++++-=95644520480)442651438(00012⨯⨯⨯⨯-⨯⨯≈27.1.由27.1>10.828,所以我们有99.9%的把握认为患色盲与性别有关系,这个结论只对所调查的480名男人和520名女人有效.7.为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:理科 文科 男 13 10 女720已知P (2χ≥3.841)≈0.05,P (2χ≥5.024)≈0.025.根据表中数据,得到2χ=30202723)7102013(502⨯⨯⨯⨯-⨯⨯≈4.844.则认为选修文科与性别有关系出错的可能性为 . 答案 5%。
高考数学专题复习:独立性检验

高考数学专题复习:独立性检验一、单选题1.某学校食堂对高三学生偏爱蔬菜还是肉类与性别的关系进行了一次调查,根据独立性检验原理,处理所得数据之后发现,有97.5%的把握但没有99%的把握认为偏爱蔬菜还是肉类与性别有关,则2K 的观测值可能为( ) k 2.706 A .2 3.206K =B .2 6.625K =C .27.869K =D .211.208K =2.某校为了解学生“玩手机游戏”和“学习成绩”是否有关,随机抽取了100名学生,运用2×2列联表进行独立性检验,经计算得到2 3.936K =,所以判定玩手机游戏与学习成绩有关系,那么这种判断出错的可能性为( )A .1%B .5%C .95%D .99%3.某校为了调查喜欢语文与性别的关系,随机调查了一些学生,数据如下表,由此判断喜欢语文与性别有关系,那么这种判断出错的可能性为( )()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.A .99.5%B .5%C .0.5%D .95%4.以下四个命题,其中正确的个数有( )①在独立性检验中,随机变量2K 的观测值越大,“认为两个分类变量有关”,这种判断犯错误的概率越小.②在线性回归方程ˆ0.80.35yx =-时,变量x 与y 具有负的线性相关关系; ③随机变量X 服从正态分布2(3,)N σ,若(4)0.64P X ≤=,则(23)0.07P X ≤≤=; ④两个随机变量相关性越强,则相关系数r 的值越接近于1. A .1个B .2个C .3个D .4个5.两个分类变量X 和Y ,它们的取值分别为{}12,x x 和{}12,y y ,其样本频数列联表如下表所示:则下列四组数据中,分类变量X 和Y 之间关系最强的是( ) A .4a =,2b =,3c =,6d = B .2a =,1b =,3c =,5d = C .4a =,5b =,6c =,8d =D .2a =,3b =,4c =,6d =6.为了丰富教职工业余文化生活,某校计划在假期组织70名老师外出旅游,并给出了两种方案(方案一和方案二),每位老师均选择且只选择一种方案,其中有50%的男老师选择方案一,有75%的女老师选择方案二,且选择方案一的老师中女老师占40%,则参照附表,得到的正确结论是( )附:()()()()()22n ad bc K a b c d a c b d -=++++,n a b c d =+++.A .在犯错误的概率不超过2.5%的前提下,认为“选择方案与性别有关”B .在犯错误的概率不超过2.5%的前提下,认为“选择方案与性别无关”C .有95%以上的把握认为“选择方案与性别有关”D .有95%以上的把握认为“选择方案与性别无关”7.利用独立性检验的方法调查高中生性别与爱好某项运动是否有关,通过随机调查200名高中生是否爱好某项运动,利用22⨯列联表,由计算可得27.236K =,参照下表:得到的正确结论是( )A .有99%以上的把握认为“爱好该项运动与性别无关”B .有99%以上的把握认为“爱好该项运动与性别有关”C .在犯错误的概率不超过0.5%的前提下,认为“爱好该项运动与性别有关"D .在犯错误的概率不超过0.5%的前提下,认为“爱好该项运动与性别无关”8.如果根据性别与是否爱好运动的列联表得到2 3.852 3.841x ≈>,所以判断性别与运动有关,那么这种判断犯错的可能性不超过( ) A .2.5%B .0.5%C .1%D .5%9.某校为了研究学生的性别和对待某一活动的态度(支持与不支持)的关系,运用22⨯列联表进行独立性检验.经计算2 6.058K =,则所得到的统计学结论是:有( )的把握认为“学生性别与支持该活动有关系”A .0.025%B .97.5%C .99%D .99.9%10.根据分类变量x 与y 的观测数据,计算得到2 2.974χ=.依据0.05α=的独立性检验,结论为( )A .变量x 与y 不独立B.变量x与y不独立,这个结论犯错误的概率不超过0.05C.变量x与y独立D.变量x与y独立,这个结论犯错误的概率不超过0.05二、填空题11.为了调查高中学生参加课外兴趣活动选篮球和舞蹈是否与性别有关,现随机调查了30名学生,得到如下22⨯列联表:根据表中的数据,及观测值2K(其中22()()()()()n ad bcKa b c d a c b d-=++++),参考数据:则在犯错误的概率不超过__________前提下,认为选择舞蹈与性别有关.12.某工厂为了调查工人文化程度与月收入的关系,随机抽取了部分工人,得到如下列联表:(单位:人)由上表中数据计算得2K的观测值22105(10302045)6.10955503075K⨯⨯-⨯=≈⨯⨯⨯,请估计在犯错误的概率不超过__________的前提下认为“文化程度与月收入有关系”.13.利用独立性检验的方法调查高中性别与爱好某项运动是否有关,通过随机调查200名高中生是否爱好某项运动,利用22⨯列联表,由计算可得27.245K≈,参照下表2.706 至少有__________以上的把握认为“爱好该项运动与性别有关”.14.为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:已知P (K 2≥3.841)≈0.05,P (K 2≥5.024)≈0.025.根据表中数据,得到K 2的观测值k =250(1320107)23272030⨯⨯-⨯⨯⨯⨯≈4.844.则认为选修文科与性别有关系出错的可能性为__________.三、解答题15.为了解某市市民对政府出台楼市限购令的态度,在该市随机抽取了50名市民进行调查,他们月收入(单位:百元)的频率分布直方图如下:(1)求该市市民平均月收入的估计值(每组数据以区间中点值为代表).(2)将月收入不低于7500元称为“高收入”,否则称为“非高收入”,根据已知条件完成下面的22⨯列联表,并判断能否有99%的把握认为市民对楼市限购令的态度与收入有关.参考公式:()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.16.为了调查某大学学生在某天上网的时间,随机对100名男生和100名女生进行了不记名的问卷调查,得到了如下的统计结果: 表1:男生上网时间与频数分布表表2:女生上网时间与频数分布表(1)若该大学共有女生750人,试估计其中上网时间不少于60分钟的人数; (2)完成联表,并回答能否有90%的把握认为“大学生上网时间与性别有关”.附:()()()()22()n ad bc K a b c d a c b d -=++++,其中n a b c d =+++为样本容量.0.45517.某大学为鼓励学生进行体育锻炼,购买了一批健身器材供学生使用,并从该校大一学生中随机抽取了100名学生调查使用健身器材的情况,得到数据如表所示:(1)设每周使用健身器材的次数不低于3次为“爱好健身”,根据上表数据,填写22⨯列联表,并判断能否在犯错误的概率不超过0.10的前提下认为“男生和女生在使用健身器材的爱好方面有差异”;(2)从上述每周使用健身器材3次的学生中,利用分层抽样的方法抽取5名学生,再从抽取的5名学生中随机抽取3人,求3人中至多有一名女生的概率.18.在对人们休闲方式的一次调查中,仅就看电视与运动这两种休闲方式比较喜欢哪一种进行了调查.调查结果:接受调查总人数110人,其中男、女各55人;受调查者中,女性有30人比较喜欢看电视,男性有35人比较喜欢运动.(1)请根据题目所提供的调查结果填写下列22⨯列联表:(2)能否在犯错误的概率不超过0.05的前提下认为“性别与休闲方式有关系”?注:22()()()()()n ad bcKa b c d a c b d-=++++,(其中n a b c d=+++为样本容量)参考答案1.B【分析】根据把握率确定2K的观测值区间范围即可选择.【详解】∵有97.5%的把握但没有99%的把握,∴2K的观测值区间范围为[5.024,6.635),结合选项可知,2K的观测值可能为6.625.故选:B2.B【分析】根据2K的值,对照附表即可得解.【详解】由题得2 3.936 3.841K=>,所以判定玩手机游戏与学习成绩有关系,这种判断出错的可能性为5%. 故选:B3.C【分析】计算出2K的值可得答案.【详解】因为()22501520510258.33320307.89225753K⨯⨯-⨯==≈>⨯⨯⨯,所有这种判断出错的可能性0.5%.故选:C.4.A【分析】利用随机变量2K的观测值越大,说明两个变量有关系的可能性越大判断①;根据回归方程一次项系数的正负判断②;根据正态分布的性质判断③; 利用线性相关的概念判断④. 【详解】①:在独立性检验中,因为随机变量2K 的观测值越大,说明两个变量有关系的可能性越大,即犯错误的概率越大,故①错误;②:回归方程ˆ0.80.35yx =-的一次项系数为-0.35<0,故变量x 与y 具有负的线性相关关系,故②正确;③:随机变量X 服从正态分布2(3)N σ,,则(34)(4)(3)0.640.50.14P X P X P X <≤=≤-<=-=, 由对称性可知,(23)0.14P X ≤≤=,故③错误;④:两个随机变量的线性相关关系越强,则相关系数r 的绝对值越接近于1,故④错误. 正确的选项有1个. 故选:A 5.A 【分析】逐项求出ad bc -的值并加以对比,最大值对应的分类变量之间关系最强. 【详解】我们可以用ad bc -的大小近似的判断两个分类变量之间关系的强弱,ad bc -的值越小,关系越弱,越大,关系越强.这四组数据中ad bc -的值分别为18、7、2、0, 所以A 组数据的ad bc -的值最大,相比较而言这组数据反应的X 和Y 的关系最强. 故选:A. 6.C 【分析】设该校男老师的人数为x ,女老师的人数为y ,根据条件,得到22⨯列联表,求出x ,y 的值,利用公式计算2K 的值,再与表中临界值比较可得结果. 【详解】设该校男老师的人数为x ,女老师的人数为y ,则可得如下表格:由题意0.40.50.25x y =+,可得43y x =,可得30x =,40y =,则()227015301510 4.667 3.84125453040K ⨯-⨯=≈>⨯⨯⨯, 但4.667 5.024<,所以无97.5%以上有95%以上的把握认为“选择方案与性别有关”. 故选:C. 7.B 【分析】由已知的27.236K =,对比临界值表可得答案 【详解】解:因为27.236 6.635K =>,所以有99%以上的把握认为“爱好该项运动与性别有关”. 故选:B. 8.D 【分析】根据临界值附表比较,即得结论. 【详解】根据以下临界值附表可知这种判断犯错的可能性不超过5%. 故选:D 9.B【分析】将2K 的值与表中数据比较大小可知5.024 6.058 6.635<<,由此确定出相应的把握有多少.【详解】因为2 6.058K =,对照表格:5.024 6.058 6.635<<,所以有10.0250.97597.5%-==的把握认为“学生性别与是否支持该活动有关系”. 故选:B.10.C【分析】由表中数据以及独立性检验的思想即可得出结果.【详解】0.05α=时,2 3.841 2.974χ=>,所以在犯错概率不超过0.1时变量x 与y 有关.故选:C11.0.025【分析】由列联表中的数据,根据公式计算出2K 的值,再对照临界表即可得答案.【详解】 解:由列联表中的数据可得,2230(13827)27 5.4 5.024*********K ⨯⨯-⨯===>⨯⨯⨯, 所以在犯错误的概率不超过0.025的前提下,认为选择舞蹈与性别有关.故答案为:0.025.12.0.025【分析】根据2K ,对比临界值即可得出结论.【详解】∵6.109 5.024>,故能在犯错误的概率不超过0.025的前提下认为“文化程度与月收入有关系”.故答案为:0.025.13.99%【分析】根据卡方的值与参考数据比较即可判断;【详解】解:因为27.245K ≈,6.6357.2457.879<<,所以10.0199%-=故至少有99%以上的把握认为“爱好该项运动与性别有关”,故答案为:99%14.5%【分析】根据观测值k ≈4.844以及独立性检验的基本思想即可得出结果.【详解】K 2的观测值k ≈4.844,这表明小概率事件发生.根据假设检验的基本原理,应该断定“是否选修文科与性别之间有关系”成立,并且这种判断出错的可能性约为5%.故答案为:5%15.(1)63;(2)表格见解析,有.【分析】(1)每组数据区间中点值乘以该组的频率求和可得答案;(2)根据每组频率乘以50可得每组的人数可完成列联表,计算2K 可得答案.【详解】(1)该市市民平均月收入的估计值为400.1500.2600.3700.2800.1900.163⨯+⨯+⨯+⨯+⨯+⨯=.(2)根据频率分布直方图知每组的人数分别为5,10,15,10,5,5.可得22⨯列联表如下:所以()22502882128.33340103020K ⨯⨯-⨯=≈⨯⨯⨯,因为8.333 6.635>,所以有99%的把握认为市民对楼市限购令的态度与收入有关.16.(1)225;(2)列联表答案见解析,没有90%的把握认为“大学生上网时间与性别有关”.【分析】(1)设上网时间不少于60分钟的人数为x ,依题意有30750100x =,计算即可; (2)填写列联表,计算2K ,对照临界值得出结论.【详解】(1)设上网时间不少于60分钟的人数为x ,依题意有30750100x =,解得225x =,所以估计其中上网时间不少于60分钟的人数是225.(2)塻22⨯列联表如下:由表中数据可得到22200(60304070) 2.20 2.70610010013070K ⨯-⨯=≈<⨯⨯⨯, 故没有90%的把握认为“大学生上网时间与性别有关”.17.(1)表格见解析,不能;(2)710. 【分析】(1)根据已知数据统计列联表中的各项的人数,填写列联表,进而计算2K 并与0.1的临界值进行比较,得到论断;(2)利用分层抽样的等比例原则求得抽取的5人中男女生的人数,利用符号表示每个学生,利用列举法计数,得到所求概率.【详解】解:(1)填写的列联表如下所示:()2210222422320.506 2.70644565446K ⨯⨯-⨯=≈<⨯⨯⨯.所以不能在犯错误的概率不超过0.1的前提下认为“男生和女生在使用健身器材的爱好方面有差异”.(2)从每周使用健身器材3次的学生中,利用分层抽样的方法抽取5名学生,则抽取男生3名,抽取女生2名.将抽取的3名男生分别记为a ,b ,c ,2名女生分别记为m ,n ,则从5人中随机抽取3人的不同情况有abc ,abm ,abn ,acm ,acn ,amn ,bcm ,bcn ,bmn ,cmn ,共10种, 其中至多有一名女生的情况有abc ,abm ,abn ,acm ,acn ,bcm ,bcn ,共7种. 所以从抽取的5名学生中随机抽取3人,至多有一名女生的概率为710. 18.(1)答案见解析;(2)不能.【分析】(1)由题意填写列联表即可;(2)代入数据计算2K 的观测值,比较观测值与3.841的大小,判断能否在犯错误的概率不超过0.05的前提下认为“性别与休闲方式有关系” .【详解】解.(1)根据题目所提供的调查结果,可得下列22⨯列联表:(2)根据列联表中的数据,可计算()2211030352025 3.66750605555K ⨯⨯-⨯=≈⨯⨯⨯,因为03.667 3.841k k ≈<=,所以不能在犯错误的概率不超过0.05的前提下认为“性别与休闲方式有关系”.。
高考数学复习第9章概率与统计第6讲回归分析与独立性检验

课标要求
1.通过收集现实问题中两个有关联变量的数据作 出散点图,并利用散点图直观认识变量间的相关 关系. 2.经历用不同估算方法描述两个变量线性相关的 过程.知道最小二乘法的思想,能根据给出的线性 回归方程系数公式建立线性回归方程. 3.通过典型案例,学习下列一些常见的统计方法, 并能初步应用这些方法解决一些实际问题. (1)通过对典型案例(如“肺癌与吸烟有关吗”等) 的探究,了解独立性检验(只要求 2×2 列联表)的 基本思想、方法及初步应用. (2)通过对典型案例(如“人的体重与身高的关 系”等)的探究,了解回归的基本思想、方法及其 初步应用
有关”
B.有 95%的把握认为“对能否缓解交通拥堵的认识与性别 无关”
C.有 99%的把握认为“对能否缓解交通拥堵的认识与性别 有关”
D.有 99%的把握认为“对能否缓解交通拥堵的认识与性别 无关”
解 析 : 由 2×2 列 联 表 , 可 求 K2 的 观 测 值 , k =
4488++3300+1428++21022102×+4280-3102+×23002≈5.288>3.841.由统计表 P(K2≥3.841)=0.05,∴有 95%的把握认为“能否缓解交通拥堵 的认识与性别有关”.
i 1
i 1
n
xi yi nx y
=
i1
叫做变量 y 与 x 之间的样本相
n
(
xi2
2
nx )(
n
yi2
n
2
y
)
i1
i1
关系数,简称相关系数,用它来衡量两个变量之间的线性相关
程度.
②当 r>0 时,表明两个变量正相关; 当 r<0 时,表明两个变量___负__相__关_. r 的绝对值越接近于 1,表明两个变量的线性相关性越强.r 的绝对值越接近于 0,表明两个变量之间几乎不存在线性相关 关系.通常|r|>0.75 时,认为两个变量有很强的线性相关性.
高考数学复习与策略专题8回归分析、独立性检验

图 8-3
(1)应收集多少位女生的样本数据?
(2)根据这 300 个样本数据,得到学生每周平均体育运动时间的频率分布直
方图 (如图 8-3 所示 ),其中样本数据的分组区间为: [0,2],(2,4] ,(4,6] ,(6,8],(8,10],
(10,12],估计该校学生每周平均体育运动时间超过 4 小时的概率.
d=36,n=52,
2
K2=52×20×4×322×0-161×6×3612 =633670.
C 中, a= 8,b= 12,c=8,d=24,a+ b=20,c+d=32, a+ c=16,b+d
= 36,nБайду номын сангаас52,
K2=
52× 8× 24-12×8 20× 32×16× 36
2
=
13 10.
D 中, a= 14,b=6,c=2,d=30, a+ b= 20,c+d=32, a+ c=16,b+d
又因为样本数据中有 210 份是关于男生的, 90 份是关于女生的,所以每周
平均体育运动时间与性别列联表如下:
每周平均体育运动时间与性别列联表
5
7
t =4,∑ i=1 (ti- t )2=28,
7
∑i =1 yi- y 2= 0.55,
7
7
7
∑i=1 (ti- t )(yi- y )=∑i =1tiyi- t ∑i=1yi=40.17- 4× 9.32=2.89,2 分
2.89 ∴r ≈0.55× 2× 2.646≈0.99.
因为 y 与 t 的相关系数近似为 0.99,说明 y 与 t 的线性相关程度相当高,从
= 36,n=52,
2
K2=
【高考数学总复习】:回归性分析与独立性检验(知识点讲解+真题演练+详细解答)

量,例如某同学的数学成绩与化学成绩。
2.线性回归分析 (1) 散点图:将样本中的各对数据在直角坐标系中描点而得到的图形叫做散点图,它直观地 描述了两个变量之间是否有相关关系,是判断两个变量相关性的重要依据。 (2) 回归直线:散点图中点的整体分布在一条直线左右,则称这两个变量之间具有线性相关
(a b)(c d)(a c)(b d )
通过对统计量 K2 的研究,一般情况下认为:
①当 K 2 ≤3.841 时,认为变量 X 与 Y 是无关的。
②当 K 2 >3.841 时,有 95%的把握说变量 X 与 Y 有关;
④ 当 K 2 >6.635 时,有 99%的把握说变量 X 与 Y 有关;
定在多大程度上可以认为“两个分类变量有关系”的方法称为两个分类变量的独立性检验。
2.分类变量的理解: 分类变量是说明事物类别的一个名称,其取值是分类数据。如“性别”就是一个分类变 量,其变量值为“男”或“女”;“行业”也是一个分类变量,其变量值可以为“零售 业”,说明 X 与 Y 无关的把握越小
6. 右表是对与喜欢足球与否的统计列联表依据表中的数据,得到( )
A. K 2 9.564 B. K 2 3.564 C. K 2 2.706 D. K 2 3.841
7. 对两个分类变量 A、B 的下列说法中正确的个数为( ). ①A 与 B 无关,即 A 与 B 互不影响;②A 与 B 关系越密切,则 K2 的值就越大;③K2
x yw
46.6 563 6.8
8
(xi x )2
i 1
高考数学真题分类集训课件考点32 回归分析与独立性检验

0.050 3.841
0.010 0.001 6.635 10.828
(3)K 2
n(ad bc)2
40(1515 5 5)2
(a b)(c d )(a c)(b d ) 20 20 20 20
10 6.635, 所以有99%的把握认为两种生产方式的效率有差异
i 1
i 1
某学生脚长为24,据此估计其身高为( C )
A. 160
B. 163
C. 166
D. 170
x 22.5, y 160, a 160 4 22.5 70, yˆ 4 24 70 166
2.为了解某社区居民的家庭年收入与年支出的关系,随机 调查了该社区5户家庭,得到如下统计数据表:
(ii)从计算结果看,相对于2016年的环境基础设施投资 额220亿元,由模型①得到的预测值226.1亿元的增幅明显 偏低,而利用模型②得到的预测值的增幅比较合理,说明 利用模型②得到的预测值更可靠.
以上给出了2种理由,考生答出其中一种或其他合理理由 均可得分.
4.某工厂为提高生产效率,开展技术创新活动,提出了完 成某项生产任务的两种生产方式,为比较两咱生产方式的 效率,选取40名工人,将他们随机分成两组,每组20人, 第一组工人用第一种生产方式,第二组工人用第二种生产 方式.根据工人完成生产任务的工作时间(单位:min) 绘制了如下茎叶图:
8
由于d
(wi w)( yi
i 1
8
(wi w)2
y)
108.8 16
68.
i 1
c y d w 563 68 6.8 100.6
y 100.6 68w,即y 100.6 68 x
创新方案高考数学复习人教新课标回归分析独立必性检验高中数学

创新方案高考数学复习人教新课标回归分析独立必性检验
高中数学
在高考数学复习中,创新方案是指探索新的解题思路和方法,以提升解题能力和理解水平。
作为高中数学的一门重要学科,数学的学习不仅仅是掌握各种定理和公式,更需要理解数学的本质和思维方式。
因此,本文将从人教新课标回归分析、独立必性检验等方面进行探讨。
一、人教新课标回归分析
回归分析是一种常用的统计分析方法,通过建立数学模型,研究因变量与一个或多个自变量之间的数量关系,从而预测或解释因变量的变化。
在高考数学中,回归分析可以用于解决函数统计、概率和统计推断等题目。
人教新课标回归分析是在人教新课标的基础上,通过更加深入地剖析、理解和应用回归分析,在高中数学教学中逐渐形成的一种教学模式。
该模式的特点在于,注重培养学生运用数学知识解决实际问题的能力,使学生具备独立思考和解决问题的能力。
在高考数学复习中,学生可以通过掌握人教新课标回归分析的相关知识和技巧,更好地应对数学的应用题和综合题。
二、独立必性检验
独立必性检验是概率论与数理统计中的一个重要概念,它是一种用于检验两个事件之间是否独立的方法。
在高考数学中,独立性。
高考数学三轮冲刺专题回归分析及独立性检验练习(含解析)(2021年整理)

回归分析及独立性检验一、选择题(本大题共12小题,共60分)1。
设某中学的高中女生体重单位:与身高单位:具有线性相关关系,根据一组样本数据2,3,,,用最小二乘法近似得到回归直线方程为,则下列结论中不正确的是A。
y与x具有正线性相关关系B。
回归直线过样本的中心点C. 若该中学某高中女生身高增加1cm,则其体重约增加D。
若该中学某高中女生身高为160cm,则可断定其体重必为(正确答案)D【分析】本题考查了回归分析与线性回归方程的应用问题,是基础题目根据回归分析与线性回归方程的意义,对选项中的命题进行分析、判断正误即可.【解答】解:由于线性回归方程中x的系数为,因此y与x具有正的线性相关关系,A正确;由线性回归方程必过样本中心点,因此B正确;由线性回归方程中系数的意义知,x每增加1cm,其体重约增加,C正确;当某女生的身高为160cm时,其体重估计值是,而不是具体值,因此D错误.故选:D.2. 为了研究某班学生的脚长单位:厘米和身高单位:厘米的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y与x之间有线性相关关系,设其回归直线方程为,已知,,,该班某学生的脚长为24,据此估计其身高为A。
160 B. 163 C。
166 D. 170(正确答案)C解:由线性回归方程为,则,,则数据的样本中心点,由回归直线方程样本中心点,则,回归直线方程为,当时,,则估计其身高为166,故选C.由数据求得样本中心点,由回归直线方程必过样本中心点,代入即可求得,将代入回归直线方程即可估计其身高.本题考查回归直线方程的求法及回归直线方程的应用,考查计算能力,属于基础题.3. 为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下收入x 万元支出y 万元据上表得回归直线方程,其中,,据此估计,该社区一户收入为15万元家庭年支出为A. 万元B. 万元C. 万元 D。
万元(正确答案)B解:由题意可得,,代入回归方程可得,回归方程为,把代入方程可得,故选:B.由题意可得和,可得回归方程,把代入方程求得y值即可.本题考查线性回归方程,涉及平均值的计算,属基础题.4. 下列说法错误的是A。
高考数学回归分析与独立性检验选择题

高考数学回归分析与独立性检验选择题1. 下列关于回归分析的描述中,正确的是:A. 回归分析只能用于变量之间存在线性关系的情况B. 回归分析只能用于变量之间存在正相关关系的情况C. 回归分析只能用于变量之间存在负相关关系的情况D. 回归分析可以用于变量之间存在非线性关系的情况2. 回归分析中的残差是指:A. 实际值与预测值之间的差B. 预测值与平均值之间的差C. 实际值与平均值之间的差D. 预测值与中位数之间的差3. 回归分析中的自变量和因变量是指:A. 自变量是影响因变量的因素,因变量是自变量的结果B. 自变量是因变量的结果,因变量是影响自变量的因素C. 自变量和因变量是相互独立的D. 自变量和因变量是相互依赖的4. 回归分析中的回归系数是指:A. 因变量与自变量之间的相关系数B. 因变量与自变量之间的协方差系数C. 因变量与自变量之间的相关系数和协方差系数之和D. 因变量与自变量之间的协方差系数和标准差之比5. 独立性检验是指:A. 检验两个变量之间是否存在线性关系B. 检验两个变量之间是否存在相关关系C. 检验两个变量之间是否相互独立D. 检验两个变量之间是否存在非线性关系6. 独立性检验中的卡方检验是指:A. 检验两个变量之间是否存在线性关系B. 检验两个变量之间是否存在相关关系C. 检验两个变量之间是否相互独立D. 检验两个变量之间是否存在非线性关系7. 独立性检验中的皮尔逊卡方检验是指:A. 检验两个变量之间是否存在线性关系B. 检验两个变量之间是否存在相关关系C. 检验两个变量之间是否相互独立D. 检验两个变量之间是否存在非线性关系8. 独立性检验中的似然比检验是指:A. 检验两个变量之间是否存在线性关系B. 检验两个变量之间是否存在相关关系C. 检验两个变量之间是否相互独立D. 检验两个变量之间是否存在非线性关系9. 独立性检验中的费舍尔精确检验是指:A. 检验两个变量之间是否存在线性关系B. 检验两个变量之间是否存在相关关系C. 检验两个变量之间是否相互独立D. 检验两个变量之间是否存在非线性关系10. 独立性检验中的麦克尼马尔检验是指:A. 检验两个变量之间是否存在线性关系B. 检验两个变量之间是否存在相关关系C. 检验两个变量之间是否相互独立D. 检验两个变量之间是否存在非线性关系11. 下列关于独立性检验的描述中,正确的是:A. 独立性检验只能用于变量之间存在线性关系的情况B. 独立性检验只能用于变量之间存在正相关关系的情况C. 独立性检验只能用于变量之间存在负相关关系的情况D. 独立性检验可以用于变量之间存在非线性关系的情况12. 独立性检验中的显著性水平是指:A. 检验结果与实际结果之间的差异程度B. 检验结果与假设之间的差异程度C. 检验结果与理论值之间的差异程度D. 检验结果与标准值之间的差异程度13. 独立性检验中的自由度是指:A. 检验结果与实际结果之间的差异程度B. 检验结果与假设之间的差异程度C. 检验结果与理论值之间的差异程度D. 检验结果与标准值之间的差异程度14. 独立性检验中的P值是指:A. 检验结果与实际结果之间的差异程度B. 检验结果与假设之间的差异程度C. 检验结果与理论值之间的差异程度D. 检验结果与标准值之间的差异程度15. 独立性检验中的临界值是指:A. 检验结果与实际结果之间的差异程度B. 检验结果与假设之间的差异程度C. 检验结果与理论值之间的差异程度D. 检验结果与标准值之间的差异程度16. 下列关于独立性检验的描述中,正确的是:A. 独立性检验只能用于变量之间存在线性关系的情况B. 独立性检验只能用于变量之间存在正相关关系的情况C. 独立性检验只能用于变量之间存在负相关关系的情况D. 独立性检验可以用于变量之间存在非线性关系的情况17. 独立性检验中的卡方检验是指:A. 检验两个变量之间是否存在线性关系B. 检验两个变量之间是否存在相关关系C. 检验两个变量之间是否相互独立D. 检验两个变量之间是否存在非线性关系18. 独立性检验中的皮尔逊卡方检验是指:A. 检验两个变量之间是否存在线性关系B. 检验两个变量之间是否存在相关关系C. 检验两个变量之间是否相互独立D. 检验两个变量之间是否存在非线性关系19. 独立性检验中的似然比检验是指:A. 检验两个变量之间是否存在线性关系B. 检验两个变量之间是否存在相关关系C. 检验两个变量之间是否相互独立D. 检验两个变量之间是否存在非线性关系20. 独立性检验中的费舍尔精确检验是指:A. 检验两个变量之间是否存在线性关系B. 检验两个变量之间是否存在相关关系C. 检验两个变量之间是否相互独立D. 检验两个变量之间是否存在非线性关系21. 下列关于独立性检验的描述中,正确的是:A. 独立性检验只能用于变量之间存在线性关系的情况B. 独立性检验只能用于变量之间存在正相关关系的情况C. 独立性检验只能用于变量之间存在负相关关系的情况D. 独立性检验可以用于变量之间存在非线性关系的情况22. 独立性检验中的显著性水平是指:A. 检验结果与实际结果之间的差异程度B. 检验结果与假设之间的差异程度C. 检验结果与理论值之间的差异程度D. 检验结果与标准值之间的差异程度23. 独立性检验中的自由度是指:A. 检验结果与实际结果之间的差异程度B. 检验结果与假设之间的差异程度C. 检验结果与理论值之间的差异程度D. 检验结果与标准值之间的差异程度24. 独立性检验中的P值是指:A. 检验结果与实际结果之间的差异程度B. 检验结果与假设之间的差异程度C. 检验结果与理论值之间的差异程度D. 检验结果与标准值之间的差异程度25. 独立性检验中的临界值是指:A. 检验结果与实际结果之间的差异程度B. 检验结果与假设之间的差异程度C. 检验结果与理论值之间的差异程度D. 检验结果与标准值之间的差异程度26. 下列关于独立性检验的描述中,正确的是:A. 独立性检验只能用于变量之间存在线性关系的情况B. 独立性检验只能用于变量之间存在正相关关系的情况C. 独立性检验只能用于变量之间存在负相关关系的情况D. 独立性检验可以用于变量之间存在非线性关系的情况27. 独立性检验中的卡方检验是指:A. 检验两个变量之间是否存在线性关系B. 检验两个变量之间是否存在相关关系C. 检验两个变量之间是否相互独立D. 检验两个变量之间是否存在非线性关系28. 独立性检验中的皮尔逊卡方检验是指:A. 检验两个变量之间是否存在线性关系B. 检验两个变量之间是否存在相关关系C. 检验两个变量之间是否相互独立D. 检验两个变量之间是否存在非线性关系29. 独立性检验中的似然比检验是指:A. 检验两个变量之间是否存在线性关系B. 检验两个变量之间是否存在相关关系C. 检验两个变量之间是否相互独立D. 检验两个变量之间是否存在非线性关系30. 独立性检验中的费舍尔精确检验是指:A. 检验两个变量之间是否存在线性关系B. 检验两个变量之间是否存在相关关系C. 检验两个变量之间是否相互独立D. 检验两个变量之间是否存在非线性关系31. 下列关于独立性检验的描述中,正确的是:A. 独立性检验只能用于变量之间存在线性关系的情况B. 独立性检验只能用于变量之间存在正相关关系的情况C. 独立性检验只能用于变量之间存在负相关关系的情况D. 独立性检验可以用于变量之间存在非线性关系的情况32. 独立性检验中的显著性水平是指:A. 检验结果与实际结果之间的差异程度B. 检验结果与假设之间的差异程度C. 检验结果与理论值之间的差异程度D. 检验结果与标准值之间的差异程度33. 独立性检验中的自由度是指:A. 检验结果与实际结果之间的差异程度B. 检验结果与假设之间的差异程度C. 检验结果与理论值之间的差异程度D. 检验结果与标准值之间的差异程度34. 独立性检验中的P值是指:A. 检验结果与实际结果之间的差异程度B. 检验结果与假设之间的差异程度C. 检验结果与理论值之间的差异程度D. 检验结果与标准值之间的差异程度35. 独立性检验中的临界值是指:A. 检验结果与实际结果之间的差异程度B. 检验结果与假设之间的差异程度C. 检验结果与理论值之间的差异程度D. 检验结果与标准值之间的差异程度36. 下列关于独立性检验的描述中,正确的是:A. 独立性检验只能用于变量之间存在线性关系的情况B. 独立性检验只能用于变量之间存在正相关关系的情况C. 独立性检验只能用于变量之间存在负相关关系的情况D. 独立性检验可以用于变量之间存在非线性关系的情况37. 独立性检验中的卡方检验是指:A. 检验两个变量之间是否存在线性关系B. 检验两个变量之间是否存在相关关系C. 检验两个变量之间是否相互独立D. 检验两个变量之间是否存在非线性关系38. 独立性检验中的皮尔逊卡方检验是指:A. 检验两个变量之间是否存在线性关系B. 检验两个变量之间是否存在相关关系C. 检验两个变量之间是否相互独立D. 检验两个变量之间是否存在非线性关系39. 独立性检验中的似然比检验是指:A. 检验两个变量之间是否存在线性关系B. 检验两个变量之间是否存在相关关系C. 检验两个变量之间是否相互独立D. 检验两个变量之间是否存在非线性关系40. 独立性检验中的费舍尔精确检验是指:A. 检验两个变量之间是否存在线性关系B. 检验两个变量之间是否存在相关关系C. 检验两个变量之间是否相互独立D. 检验两个变量之间是否存在非线性关系41. 下列关于独立性检验的描述中,正确的是:A. 独立性检验只能用于变量之间存在线性关系的情况B. 独立性检验只能用于变量之间存在正相关关系的情况C. 独立性检验只能用于变量之间存在负相关关系的情况D. 独立性检验可以用于变量之间存在非线性关系的情况42. 独立性检验中的显著性水平是指:A. 检验结果与实际结果之间的差异程度B. 检验结果与假设之间的差异程度C. 检验结果与理论值之间的差异程度D. 检验结果与标准值之间的差异程度43. 独立性检验中的自由度是指:A. 检验结果与实际结果之间的差异程度B. 检验结果与假设之间的差异程度C. 检验结果与理论值之间的差异程度D. 检验结果与标准值之间的差异程度44. 独立性检验中的P值是指:A. 检验结果与实际结果之间的差异程度B. 检验结果与假设之间的差异程度C. 检验结果与理论值之间的差异程度D. 检验结果与标准值之间的差异程度45. 独立性检验中的临界值是指:A. 检验结果与实际结果之间的差异程度B. 检验结果与假设之间的差异程度C. 检验结果与理论值之间的差异程度D. 检验结果与标准值之间的差异程度46. 下列关于独立性检验的描述中,正确的是:A. 独立性检验只能用于变量之间存在线性关系的情况B. 独立性检验只能用于变量之间存在正相关关系的情况C. 独立性检验只能用于变量之间存在负相关关系的情况D. 独立性检验可以用于变量之间存在非线性关系的情况47. 独立性检验中的卡方检验是指:A. 检验两个变量之间是否存在线性关系B. 检验两个变量之间是否存在相关关系C. 检验两个变量之间是否相互独立D. 检验两个变量之间是否存在非线性关系48. 独立性检验中的皮尔逊卡方检验是指:A. 检验两个变量之间是否存在线性关系B. 检验两个变量之间是否存在相关关系C. 检验两个变量之间是否相互独立D. 检验两个变量之间是否存在非线性关系49. 独立性检验中的似然比检验是指:A. 检验两个变量之间是否存在线性关系B. 检验两个变量之间是否存在相关关系C. 检验两个变量之间是否相互独立D. 检验两个变量之间是否存在非线性关系50. 独立性检验中的费舍尔精确检验是指:A. 检验两个变量之间是否存在线性关系B. 检验两个变量之间是否存在相关关系C. 检验两个变量之间是否相互独立D. 检验两个变量之间是否存在非线性关系。
高考数学常见题型解法归纳反馈训练第65讲回归分析和独立性检验(2021年整理)

第65讲 回归分析和独立性检验【知识要点】(一)变量间的相关关系、回归分析的基本思想及初步运用 一、相关关系1、概念:自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系叫相关关系.2、相关关系与函数关系的异同点。
相同点:两者均是指两个变量间的关系.不同点:函数关系是一种确定关系,是一种因果系.如正方形的面积和边长的关系就是一种函数关系。
相关关系是一种非确定的关系,也不一定是因果关系.如产品的销售额与广告费的投入的关系.二、散点图表示具有相关关系的两个变量的一组数据的图形叫做散点图.正相关:如果散点图中的点散布在从左小角到右上角的区域内,称为正相关。
负相关:如果散点图中的点散布在从左上角到右下角的区域内,称为负相关.注:如果关于两个变量统计数据的散点图呈现发散状,则这两个变量之间不具有相关关系. 三、回归分析1、对具有相关关系的两个变量进行统计分析的方法叫回归分析。
回归分析的一般步骤为画散点图→求回归直线方程→用回归直线方程进行预报.2、回归直线方程回归直线:观察散点图的特征,如果各点大致分布在一条直线的附近,就称两个变量之间具有线性相关的关系,这条直线叫做回归直线。
回归直线方程:设所求的直线方程为,其中,s a 2s a=y bx a∧=+121()(),()niii ni i x x y y b a y bxx x ==--==--∑∑称为样本点的中心,回归直线过样本点的中心.回归方程的截距和斜率是用最小二乘法计算出来的。
3、相关系数两个变量之间线性相关关系的强弱用相关系数来衡量.相关系数: ,表示两个变量正相关;,表示两个变量负相关;的绝对值越接近1,表明两个变量的线性相关性越强.的绝对值越接近0,表明两个变量之间几乎不存在线性相关关系。
通常,的绝对值大于0。
75时,表明两个变量的线性相关性很强。
4、建立回归模型的基本步骤:①确定研究对象,明确哪个是解释变量,哪个是预报变量;②画出确定好的解释变量和预报变量的散点图,观察它们之间的关系(是否存在线性关系)③由经验确定回归方程的类型(如我们观察到数据呈线性关系,则选用线性回归方程)④按照公式计算回归方程中的参数(如最小二乘法) ⑤得出结果后检查数据模型是否合适检查数据模型拟合效果的好坏,一般有两种方法.方法一:通过残差分析,如果残差点比较均匀地落在水平的带状区域中,则说明选用的模型比较合适,反之,不合适) 方法二:用相关指数来刻画回归的效果,其计算公式是:其中=真实值-预报值=残差,值越大,说明残差的平方和越小,也就是说模型的拟合效果越好。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
专题十一 概率与统计
第三十三讲 回归分析与独立性检验
一、选择题
1.(2017山东)为了研究某班学生的脚长x (单位:厘米)和身高y (单位:厘米)的关
系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y 与x 之间有线性相
关关系,设其回归直线方程为ˆˆˆy bx a =+.已知101
225i i x ==∑,10
1
1600i i y ==∑,ˆ4b =.该
班某学生的脚长为24,据此估计其身高为
A .160
B .163
C .166
D .170
2.(2015福建)为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户
家庭,得到如下统计数据表:
根据上表可得回归本线方程ˆˆˆy
bx a =+ ,其中ˆˆˆ0.76,b a y bx ==- ,据此估计,该社区一户收入为15万元家庭年支出为
A .11.4万元
B .11.8万元
C .12.0万元
D .12.2万元 3.(2014重庆)已知变量x 与y 正相关,且由观测数据算得样本的平均数3x =, 3.5y =,
则由该观测数据算得的线性回归方程可能为
A .0.4 2.3y x =+
B .2 2.4y x =-
C .29.5y x =-+
D .0.3 4.4y x =-+ 4.(2014湖北)根据如下样本数据
得到的回归方程为ˆy
bx a =+,则 A .0a >,0b < B .0a >,0b > C .0a <,0b < D .0a <,0b > 5.(2012新课标)在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n 不
全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线1
12
y x =+上,则这组样本数据的样本相关系数为
A .−1
B .0
C .1
2
D .1
6.(2014江西)某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量之间的关
系,随机抽查52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是
7.(2012湖南)设某大学的女生体重y (单位:kg )与身高x (单位:cm )具有线性相关关
系,根据一组样本数据(x i ,y i )(i =1,2,…,n ),用最小二乘法建立的回归方程为y =0.85x -85.71,则下列结论中不正确...的是 A .y 与x 具有正的线性相关关系 B .回归直线过样本点的中心(x ,y )
C .若该大学某女生身高增加1cm ,则其体重约增加0.85kg
D .若该大学某女生身高为170cm ,则可断定其体重必为58.79kg 8.(2011山东)某产品的广告费用x 与销售额y 的统计数据如下表
根据上表可得回归方程ˆˆˆy bx a =+中的ˆb 为9.4,据此模型预报广告费用为6万元时销
售额为
A .63.6万元
B .65.5万元
C .67.7万元
D .72.0万元
二、解答题
9.(2018全国卷Ⅱ)下图是某地区2000年至2016年环境基础设施投资额y (单位:亿元)
的折线图.
为了预测该地区2018年的环境基础设施投资额,建立了y 与时间变量t 的两个线性回归模型.根据2000年至2016年的数据(时间变量t 的值依次为1217,,…,)建立模
型①:ˆ30.413.5=-+y
t ;根据2010年至2016年的数据(时间变量t 的值依次为127,,…,)建立模型②:ˆ9917.5=+y
t . (1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值; (2)你认为用哪个模型得到的预测值更可靠?并说明理由.
10.(2016年全国III)下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)
的折线图
(Ⅰ)由折线图看出,可用线性回归模型拟合y 与t 的关系,请用相关系数加以说明; (Ⅱ)建立y 关于t 的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化
处理量.
附注:参考数据:
7
1
9.32i
i y
==∑,7
1
40.17i i i t y ==∑
0.55=
≈2.646.
参考公式:相关系数()()
n
i i
t t y y r --=
∑ 回归方程y a bt =+中斜率和截距的最小二乘估计公式分别为:
1
2
1
()()
()n
i
i i n
i
i t
t y y b t
t ==--=
-∑∑,=.a y bt -
11.(2015新课标1)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单
位:千元)对年销售量y (单位:t )和年利润z (单位:千元)的影响,对近8年的年宣传费i x 和年销售量i y (i =1,2,···
,8)数据作了初步处理,得到下面的散点图及一些统计量的值.
表中i w =w =
18
8
1
i i w =∑.
(Ⅰ)根据散点图判断,y a bx =+与y c =+哪一个适宜作为年销售量y 关于年
宣传费x 的回归方程类型?(给出判断即可,不必说明理由) (Ⅱ)根据(Ⅰ)的判断结果及表中数据,建立y 关于x 的回归方程;
(Ⅲ)已知这种产品的年利率z 与x 、y 的关系为0.2z y x =-.根据(Ⅱ)的结果回
答下列问题:
(ⅰ)年宣传费x =49时,年销售量及年利润的预报值是多少? (ⅱ)年宣传费x 为何值时,年利率的预报值最大?
附:对于一组数据11(,)u v ,22(,)u v ,⋅⋅⋅,(,)n n u v ,其回归线v u αβ=+的斜率和
截距的最小二乘估计分别为
1
2
1
()()
ˆ()
n
i
i
i n
i
i u u v v u u β
==--=-∑∑,ˆˆv u α
β=-. 12.(2014新课标2)某地区2007年至2013年农村居民家庭纯收入y (单位:千元)的数
据如下表:
(Ⅰ)求y 关于t 的线性回归方程;
(Ⅱ)利用(Ⅰ)中的回归方程,分析2007年至2013年该地区农村居民家庭人均纯收
入的变化情况,并预测该地区2015年农村居民家庭人均纯收入. 附:回归直线的斜率和截距的最小二乘估计公式分别为:
()()
()
1
2
1
n
i
i i n
i i t
t
y y b t t ∧
==--=
-∑∑,ˆˆa
y bt =- 13.(2012辽宁)电视传媒公司为了解某地区电视观众对某体育节目的收视情况,随机抽取
了100名观众进行调查,其中女性有55名.下面是根据调查结果绘制的观众日均收看该体育节目时间的频率分布直方图:
将日均收看该体育节目时间不低于40分钟的观众称为“体育迷”,已知“体育迷”中有10名女性.
(I )根据已知条件完成下面22⨯列联表,并据此资料你是否认为“体育迷”与性别有关?
(II )将日均收看该体育节目不低于50分钟的观众称为“超级体育迷”,已知“超级体育
迷”中有2名女性.若从“超级体育迷”中任意选取2人,求至少有1名女性观众的概率.
2
1212
211222112
)(++++-=
n n n n n n n n n χ, 附:。