(常考题)人教版高中数学选修三第三单元《成对数据的统计分析》测试(包含答案解析)

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

一、选择题
1.以下说法:
①将一组数据中的每一个数据都加上或减去同一个常数后,方差不变;
②设有一个回归方程ˆ35y
x =-,变量x 增加1个单位时,y 平均增加5个单位 ③线性回归方程ˆy bx a =+必过(),x y
④设具有相关关系的两个变量,x y 的相关系数为r ,那么||r 越接近于0,,x y 之间的线性相关程度越高;
⑤在一个22⨯列联表中,由计算得2K 的值,那么2K 的值越大,判断两个变量间有关联的把握就越大。

其中错误..
的个数是( ) A .0 B .1
C .2
D .3
2.已知变量y 关于x 的回归方程为0.5ˆbx y
e -=,其一组数据如下表所示:
若5x =,则预测y 的值可能为( ) A .5e B .
11
2e
C .7e
D .15
2e
3.某工厂为了对新研发的一种产品进行合理定价,将该产品事先拟订的价格进行试销,得
到如下数据.
由表中数据求得线性回归方程ˆˆ4=-+y x a ,则15=x 元时预测销量为()
A .45件
B .46件
C .49件
D .50件
4.在下列命题中,下列选项正确的是( )
A .在回归直线0.585y x =-中,变量200x =时,变量y 的值一定是15.
B .两个变量相关性越强,则相关系数r 就越接近于1.
C .在残差图中,残差点比较均匀落在水平的带状区域中即可说明选用的模型比较合适,与带状区域的宽度无关.
D .若,a b 是两个相等的非零实数,则()()a b a b i -++是纯虚数. 5.对于分类变量X 与Y 的随机变量2K 的观测值k ,下列说法正确的是 A .k 越大,“X 与Y 有关系”的可信程度越小 B .k 越小,“X 与Y 有关系”的可信程度越小
C .k 越接近于0,“X 与Y 没有关系”的可信程度越小
D .k 越大,“X 与Y 没有关系”的可信程度越大
6.下列命题:①在线性回归模型中,相关指数2R 表示解释变量x 对于预报变量y 的贡献率,2R 越接近于1,表示回归效果越好;②两个变量相关性越强,则相关系数的绝对值就越接近于1;③在回归直线方程0.52y x ∧
=-+中,当解释变量x 每增加一个单位时,预报变量y ∧
平均减少0.5个单位;④对分类变量X 与Y ,它们的随机变量2K 的观测值k 来说,k 越小,“X 与Y 有关系”的把握程度越大.其中正确命题的个数是( ) A .1个
B .2个
C .3个
D .4个
7.陕西关中的秦腔表演朴实,粗犷,细腻,深刻,再有电子布景的独有特效,深得观众喜爱.戏曲相关部门特意进行了“喜爱看秦腔”调查,发现年龄段与爱看秦腔的人数比存在较好的线性相关关系,年龄在[]40,44,[]45,49,[]50,54,[]55,59的爱看人数比分别是0.10,0.18,0.20,0.30.现用各年龄段的中间值代表年龄段,如42代表[]40,44.由此求得爱看人数比y 关于年龄段x 的线性回归方程为0.4188y kx =-.那么,年龄在[]60,64的爱看人数比为( ) A .0.42
B .0.39
C .0.37
D .0.35
8.研究表明某地的山高()y km 与该山的年平均气温()x
C 具有相关关系,根据所采集的
数据得到线性回归方程ˆ260y x =-+,则下列说法错误..
的是( ) A .年平均气温为0时该山高估计为60km B .该山高为72km 处的年平均气温估计为60C
C .该地的山高y 与该山的年平均气温x 的正负相关性与回归直线的斜率的估计值有关
D .该地的山高y 与该山的年平均气温x 成负相关关系 9.在某次试验中,实数x ,y 的取值如下表:
若x 与y 之间具有较好的线性相关关系,且求得线性回归方程为1y x =+,则实数m 的值为() A .1.6
B .1.7
C .1.8
D .1.9
10.上饶市婺源县被誉为“茶乡”,婺源茶业千年不衰,新时代更是方兴未艾,其中由农业部监制的婺源大山顶特供茶“擂鼓峰茶尤为出名,为了解每壶“擂鼓峰”茶中所放茶叶量x 克与食客的满意率y 的关系,抽样得一组数据如下表:
根据表中的全部数据,用最小二乘法得出y 与x 的线性回归方程为ˆ 6.517.5y
x =+,则表中m 的值为( ) A .39.5
B .40
C .43.5
D .45
11.某次测量发现一组数据(,)i i x y 具有较强的相关性,并计算得 1.5y x ∧
=+,其中数据
1(1,)y 因书写不清楚,只记得1y 是[0,3]上的一个值,则该数据对应的残差(残差=真实值-预测值)的绝对位不大于0.5的概率为( ) A .
1
6
B .
56
C .
13
D .
23
12.下面给出四种说法:
①设a 、b 、c 分别表示数据15、17、14、10、15、17、17、16、14、12的平均数、中位数、众数,则a b c <<;
②在线性回归模型中,相关指数2R 表示解释变量对于预报变量变化的贡献率,2R 越接近于1,表示回归的效果越好;
③绘制频率分布直方图时,各小长方形的面积等于相应各组的组距; ④设随机变量ξ服从正态分布2(4,2)N ,则142
()P ξ>=. 其中不正确的是( ). A .①
B .②
C .③
D .④
13.设两个变量x 和y 之间具有线性相关关系,它们的相关系数为r ,y 关于x 的回归直线方程为
y kx b =+,则( )
A .k 与r 的符号相同
B .b 与r 的符号相同
C .k 与r 的符号相反
D .b 与r 的符号相反
二、解答题
14.近年来,“双11”网购的观念逐渐深入人心.某人统计了近5年某网站“双11”当天的交易额,,统计结果如下表: 年份 2015 2016 2017 2018 2019 年份代码x 1 2 3 4 5 交易额y /百亿元
9
12
17
21
26
r y x 留三位小数.(统计中用相关系数r 来衡量两个变量之间线性关系的强弱.若相应于变量x 的取值i x ,变量y 的观测值为i y (1i n ≤≤),则两个变量的相关系数的计算公式为:.统计学认为,对于变量
,如果[]1,0.75r -∈-,那么负相关很强;如果[]
0.751r ∈,,那么正相关很强;如果(]0.75,0.30r ∈--或[
)0.30,0.75r ∈,那么相关性一般;如果
[]0.25,0.25r ∈-,那么相关性较弱);
(2)求出关于x 的线性y 回归方程,并预测2020年该网站“双11”当天的交易额.
参考公式:1
2
1()()
()ˆn
i
i
i n
i i x x y y b
x x ==--=-∑∑,ˆˆa
y bx =-;参考数据:186043.1≈. 15.从某居民区随机抽取10个家庭,获得第i 个家庭的月收入i x (单位:千元)与月储蓄
i y ,(单位:千元)的数据资料,算出
10
101010
21
1
1
1
80,20184,720i
i i i i i i i i x
y x y x ========∑∑∑∑,,附:线性回归方程
1
2
2
1
ˆˆˆˆˆˆ,,n
i i
i n
i
i x y nxy
y
bx a b a
y bx x
nx ==-=+==--∑∑,其中,x y 为样本平均值. (1)求家庭的月储蓄y 对月收入x 的线性回归方程ˆˆˆy
bx a =+ ; (2)若该居民区某家庭月收入为7千元,预测该家庭的月储蓄.
16.电视传媒公司为了解某地区观众对某体育节目的收视情况,随机抽取了100名观众进行调查,其中女性有55名,下面是根据调查结果绘制的观众日均收看该体育节目时间的频率分布直方图:
将日均收看该体育节目时间不低于40分钟的观众称为“体育迷”.
(1)根据已知条件完成下面的列联表,并据此资料你是否认为“体育迷”与性别有关?
非体育迷 体育迷 合计

女 10
55
合计
(2)将上述调查所得到的频率视为概率.现在从该地区大量电视观众中,采用随机抽样方法每次抽取1名观众,抽取3次,记被抽取的3名观众中的“体育迷”人数为X .若每次抽取的结果是相互独立的,求X 的分布列,期望E (X )和方差D (X ).
附:()
()()()()
2
2
n ad bc K a b c d a c b d -=
++++.
17.某种产品的广告费用支出x 与销售额y 之间有如下的对应数据:
(1)画出散点图; (2)求回归直线方程;
(3)据此估计广告费用为10时,销售收入y 的值.
用最小二乘法求线性回归方程系数公式 12
21
1
1
2
()()()
n
i i
i n
i
n
i
i
i n
i
i i x x y y b x x y nxy
x
n x x
-
-

=-
==-=-=
=
----∑∑∑∑,
ˆ=-
a y bx .线性回归方程ˆˆˆy bx a =+.
18.为调查某地区老人是否需要志愿者提供帮助,用简单随机抽样方法从该地区调查了500位老年人,结果如下: (1)估计该地区老年人中,需要志愿者提供帮助的老年人的比例;
(2)能否有99%的把握认为该地区的老年人是否需要志愿者提供帮助与性别有关?
(3)根据(2)的结论,能否提供更好的调查方法来估计该地区老年人中,需要志愿帮助的老年人的比例?说明理由.
19.下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量 x (吨)与相应的生产能耗y (吨标准煤)的几组对照数据
(1)请根据上表提供的数据,用最小二乘法求出y 关于x 的线性回归方程ˆˆˆy
bx a =+; (2)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据1求出的线性回归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤?
(附:4
2
1
86i i x ==∑,4
1
66.5i i i x y ==∑,()()
()1
12
2
2
1
1
n
n
i
i
i i
i i n
n
i
i
i i x x y
y x y
nxy b x x x
nx ====---=
=
--∑∑∑∑,ˆˆa
y bx =-,其中x ,y 为样本平均值)
20.某连锁经营公司所属5个零售店某月的销售额和利润额如下表:
(2)用最小二乘法计算利润额y 对销售额x 的线性回归方程; (3)当销售额为4千万元时,估计利润额的大小.
(参考公式:1
2
2
1
ˆn
i i
i n
i
i x y nxy
b
x
nx ==-=-∑∑,ˆˆa
y bx =-) 21. 2.5PM 的值表示空气中某种颗粒物的浓度,通常用来代表空气的污染情况,这个值越高,空气污染越严重,下表是某城市开展“绿色出行,健康生活”活动,居民每天采用“绿色出行”的人数与 2.5PM 值的一组数据:
(1)已知“绿色出行”的人数x 和 2.5PM 值y 有线性相关性,求y 关于x 的线性回归方程;(计算结果保留两位小数)
(2)若某日“绿色出行”的人数为10万人,请预测该市 2.5PM 的值.(计算结果保留一位小数) 参考公式:
1
2
2
1
ˆˆ,n
i i
i n
i
i x y nx y
b
a y bx
x
nx ==-⋅==--∑∑ 22.根据教育部高考改革指导意见,广东省从2021年正式实施“312++”新的高考考试方案.为尽快了解学生的选科需求,及时调整学校人力资源配备.某校从高一学生中抽样调查了100名同学,在模拟分科选择中,一半同学(其中男生38人)选择了物理,另一半(其中男生14人)选择了历史.请完成以下22⨯列联表,并判断能否有99.9%的把握说选科与性别有关?
参考公式:2
2
()()()()()
n ad bc K a b c d a c b d -=++++,其中n a b c d =+++为样本容量.
23.某书店销售刚刚上市的某高二数学单元测试卷,按事先拟定的价格进行5天试销,每种单价试销1天,得到如下数据:
销量y /册 61 56 50
48 45
(1)求试销5天的销量的方差和y 关于 x 的回归直线方程;
附: 1
1
2
2
2
1
1
()(ˆˆ,(ˆ))
n
n
i
i
i i
i i n
n
i
i
i i x x y y x y nxy
b
a
y bx x x x
nx ====---==
=---∑∑∑∑. (2)预计以后的销售中,销量与单价服从上题中的回归直线方程,已知每册单元测试卷的成本是10元,为了获得最大利润,该单元测试卷的单价应定为多少元?
24.司机在开机动车时使用手机是违法行为,会存在严重的安全隐患,危及自己和他人的生命.为了研究司机开车时使用手机的情况,交警部门调查了100名机动车司机,得到以下统计:在55名男性司机中,开车时使用手机的有40人,开车时不使用手机的有15人;在45名女性司机中,开车时使用手机的有20人,开车时不使用手机的有25人. (1)完成下面的2×2列联表,并判断是否有99.5%的把握认为开车时使用手机与司机的性别有关;
(2)以上述的样本数据来估计总体,现交警部门从道路上行驶的大量机动车中随机抽检3辆,记这3辆车中司机为男性且开车时使用手机的车辆数为X ,若每次抽检的结果都相互独立,求X 的分布列和数学期望E (X ).
参考公式与数据:()()()()
2
2
()n ad bc K a b c d a c b d -=++++,其中n =a +b +c +d .
25.随着人们经济收入的不断增加,个人购买家庭轿车已不再是一种时尚.车的使用费用,尤其是随着使用年限的增多,所支出的费用到底会增长多少,一直是购车一族非常关心的问题.某汽车销售公司做了一次抽样调查,并统计得出某款车的使用年限x 与所支出的总费用y (万元)有如表的数据资料: 使用年限x 2 3 4 5 6 总费用y
2.2
3.8
5.5
6.5
7.0
(1)求线性回归方程ˆˆˆy
bx a =+;
(2)估计使用年限为12年时,使用该款车的总费用是多少万元?
线性回归方程ˆˆˆy
a bx =+中斜率和截距用最小二乘法估计计算公式如下:()()()
1
1
2
2
2
1
1
ˆn n
i
i
i i
i i n
n
i
i
i i x x y y x y nxy
b
x x x
nx ====---==
--∑∑∑∑,ˆa y bx
=- 26.高一学年结束后,要对某班的50名学生进行文理分班,为了解数学对学生选择文理科是否有影响,有人对该班的分科情况做了如下的数据统计:
(Ⅰ)根据数据关系,完成22⨯列联表;
(Ⅱ)通过计算判断能否在犯错误的概率不超过2.5%的前提下认为数学对学生选择文理科有影响.
附:2
2
()()()()()
n
ad bc K a b c d a c b d -=++++
参考答案
【参考答案】***试卷处理标记,请不要删除
一、选择题 1.C 解析:C 【分析】
根据用样本估计总体、线性回归方程、独立性检验的基本概念和基本性质,逐项判断,即
可得到本题答案. 【详解】
方差反映一组数据的波动大小,将一组数据中的每个数据都加上或减去同一个常数后,方
差不变,故①正确;一个回归方程ˆ35y
x =-,变量x 增加1个单位时,y 平均减少5个单位,故②不正确;线性回归方程ˆy bx a =+必过样本中心点,故③正确;根据线性回归分析中相关系数的定义:在线性回归分析中,相关系数为r ,||r 越接近于1,相关程度越大,故④不正确;对于观察值2K 来说,2K 越大,“x 与y 有关系”的可信程度越大,故⑤正确. 故选:C 【点睛】
本题主要考查用样本估计总体、线性回归方程、独立性检验的基本思想.
2.D
解析:D 【分析】
将式子两边取对数,得到ln 0.5y bx =-,令ln z
y ,得到0.5z bx =-,根据题中所给
的表格,列出,x z 的取值对应的表格,求得,x z ,利用回归直线过样本中心点,列出等量关系式,求得 1.6b =,得到 1.60.5z x =-,进而得到 1.60.5x y e -=,将5x =代入,求得结果. 【详解】
由0.5bx y e -=,得ln 0.5y bx =-,令ln z
y ,则0.5z bx =-.
1234
2.54x +++=
=, 3.54
z ==, ∵(,)x z 满足0.5z bx =-,∴3.5 2.50.5b =⨯-, 解得 1.6b =,∴ 1.60.5z x =-,∴ 1.60.5
x y e -=,
当5x =时,15
1.650.52y e e ⨯-==, 故选D. 【点睛】
该题考查的是有关回归分析的问题,涉及到的知识点将对数型回归关系转化为线性回归关系,根据回归直线过样本中心点求参数,属于简单题目.
3.B
解析:B 【分析】
计算出,x y 代入回归直线方程,求得a ,再令15x =求得预测值. 【详解】
依题意 6.5,80x y ==,代入ˆˆ4=-+y
x a 得80 6.54106a =+⨯=,即ˆ4106y x =-+,当15x =时,6010646y =-+=,故选B. 【点睛】
本小题主要考查回归直线方程过样本中心点()
,x y ,考查利用回归直线方程进行预测,属于基础题.
4.D
解析:D 【分析】
根据回归方程的定义判断A ;根据相关系数的定义判断B ;根据残差图的性质判断C ;根据纯虚数的定义判断D . 【详解】
在回归直线0.585y x =-中,变量200x =时,得到15只是变量y 的一个预测值,故A 不正确;
两个变量相关性越强,则相关系数r 的绝对值就越接近于1,故B 不正确;
在残差图中,残差点比较均匀落在水平的带状区域中,带状区域的宽度越小,拟合效果越好,故C 不正确;
若,a b 是两个相等的非零实数,则()()2a b a b i ai -++=,且20a ≠,符合纯虚数的定义,D 正确,故选D. 【点睛】
本题主要通过对多个命题真假的判断,主要综合考查回归方程的定义、相关系数的定义、残差图的性质、纯虚数的定义,属于中档题.这种题型综合性较强,也是高考的命题热点,做这类题目要细心、多读题,尽量挖掘出题目中的隐含条件,另外,要注意从简单的、自己已经掌握的知识点入手,然后集中精力突破较难的命题.
5.B
解析:B 【解析】
选B K 2的观测值k 越大,“X 与Y 有关系”的可信程度越大.因此,A 、C 、D 都不正确.
6.C
解析:C 【解析】
对于①,在回归分析模型中,相关指数2R 表示解释变量x 对于预报变量y 的贡献率,2R 越接近于1,表示回归效果越好,正确,因为相关指数2R 越大,则残差平方和越小,模型的拟合效果越好,①正确.
对于②两个变量相关性越强,则相关系数的绝对值就越接近于1;
对于③在回归直线方程0.52y x ∧=-+中,当解释变量x 每增加一个单位时,预报变量y ∧
平均减少0.5个单位;正确;
对于④对分类变量X 与Y ,它们的随机变量2K 的观测值k 来说,k 越小,“X 与Y 有关系”的把握程度越大.错误,因为在对分类变量X 与Y 进行独立性检验时,随机变量2K 的观测值k 越大,则“X 与Y 相关”可信程度越大,故④错误; 故选C
7.D
解析:D 【分析】
根据题意,可列出y 关于x 的表格,求出,x y ,代入0.4188y kx =-,求出k ,即可求解 【详解】
由题,对数据进行处理,得出如下表格: 求得49.5x =,0.195y =,因样本中心(,x y 过线性回归方程,将(,x y 代入
0.4188y kx =-,得0.0124k =,即0.01240.4188y x =-,年龄在[]60,64对应的x 为
62,将62x =代入0.01240.4188y x =-得:0.0124620.41880.35y =⨯-=,对应的爱看人数比为:0.35 故选:D 【点睛】
本题考查线性回归方程的应用,样本中心()
,x y 过线性回归方程是一个重要特征,属于中档题
8.B
解析:B 【分析】
由已知线性回归直线方程ˆ260y
x =-+,可估计平均气温为60C 时该地的山高,即可得到答案. 【详解】
线性回归直线方程为ˆ260y
x =-+,当0x = 时ˆ60y =即年平均气温为0时该山高估计为60km ,故A 正确;当ˆ72y
=时解得6x =-即山高为72km 处的年平均气温估计为6C -,故B 错误;该地的山高y 与该山的年平均气温x 的正负相关性与回归直线的斜率
的估计值有关,故C 正确;
由20-<,该地的山高y 与该山的年平均气温x 成负相关关系,故D 正确.故选B 【点睛】
本题考查线性回归直线方程的应用,考查相关的意义,判断能力,属于基础题.
9.D
解析:D 【分析】
根据线性回归方程必过点(),x y ,可求出m 的值. 【详解】 因为14.333,5
m
x y +== 所以
14.333145
m
+=+=,解得 1.9m = 故选D. 【点睛】
本题主要考查了线性回归方程,样本中心点,属于容易题.
10.B
解析:B 【分析】
由表中数据计算求得,x y ,根据回归直线经过样本中心点,求出m 的值. 【详解】
由表中数据,计算可得2456855x ++++=
=,3050706021055
m m
y +++++==,
因为回归直线方程ˆ 6.517.5y
x =+过样本中心点, 所以有
210 6.5517.55
m
+=⨯+,解得40m =, 故选:B. 【点睛】
关键点点睛:该题考查的是有关回归直线的问题,正确解题关键是掌握回归直线过样本中心点.
11.C
解析:C 【分析】
求得估计值,用真实值减去估计值求得残差,根据已知残差的绝对位不大于0.5列不等式,解不等式求得1y 的取值范围,根据几何概型概率计算公式计算出所求概率. 【详解】
依题意可知,估计值为1 1.5 2.5+=,残差为1 2.5y -,依题意得1 2.50.5y -≤,解得
123y ≤≤,根据几何概型概率计算公式可得所求概率为
321
33
-=,故选C. 【点睛】
本小题主要考查残差的概念及计算,考查几何概型的计算,属于基础题.
12.C
解析:C 【分析】
对于A ,根据数据求出的平均数,众数和中位数即可判断; 对于B ,相关指数R 2越接近1,表示回归的效果越好; 对于C ,根据频率分布直方图判定;
对于D ,设随机变量ξ服从正态分布N (4,22),利用对称性可得结论; 【详解】
解:①将数据按从小到大的顺序排列为:
10、12、14、14、15、15、16、17、17、17,
中位数:()1515215b =+÷=;
()101214141515161717171014.7a =+++++++++÷=;
这组数据的平均数是14.7.
因为此组数据中出现次数最多的数是17, 所以17c =是此组数据的众数; 则a b c <<;
②2R 越接近于1,表示回归的效果越好,正确;
③根据频率分布直方图的意义,因为小矩形的面积之和等于1,频率之和也为1, 所以有各小长方形的面积等于相应各组的频率;故③错; ④∵随机变量ξ服从正态分布(
)2
4,2N ,
∴正态曲线的对称轴是4x =, ∴1
(4)2
P ξ>=.故④正确. 故选C :. 【点睛】
本题主要考查命题的真假判断,涉及统计的基础知识:频率分布直方图和线性回归及分类变量X ,Y 的关系,属于基础题.
13.A
解析:A 【分析】
根据相关系数知相关系数的性质:r 1≤,且r 越接近1,相关程度越大;且r 越接近0,相关程度越小.r 为正,表示正相关,回归直线方程上升,选出正确结果. 【详解】
相关系数r 为正,表示正相关,回归直线方程上升, r 为负,表示负相关,回归直线方程下降,
k ∴与r 的符号相同. 故选A . 【点睛】
本题考查用相关系数来衡量两个变量之间相关关系的方法,当相关系数为正时,表示两个变量正相关,当相关系数大于0.75时,表示两个变量有很强的线性相关关系.
二、解答题
14.(1)0.998;变量y 与x 的线性相关程度很强;(2)ˆ 4.3 4.1y
x =+;29.9百亿元. 【分析】
(1)直接将数据代入公式计算,即可得答案;
(2)利用最小二乘法求得y 关于x 的线性回归方程为ˆ 4.3 4.1y
x =+ ,再将6x =代入,即可得答案; 【详解】
(1)由题意,根据表格中的数据, 可得:1
(12345)35x =
++++=,1(912172126)175
y =++++=, 则
1
()()(13)(917)(53)(2617)43n
i
i
i x x y y =--=--+
+--=∑,
43.1=≈,
所以()()
43
0.99843.1
n
i
i
x x y y r --=
=
≈∑ 所以变量y 与x 的线性相关程度很强. (2)由(1)可得3x =,17y =,
1
()()43n
i
i
i x x y y =--=∑,
又由
2221
222
(13)(23)(3(3)(43)(53)1)0n
i i x x ==-+-+-+-+-=-∑, 所以1
2
1()()
43 4.30
)ˆ1(n
i
i
i n
i i x x y y b
x x ==--==
=-∑∑,则ˆˆ17 4.33 4.1a y bx
=-=-⨯=, 可得y 关于x 的线性回归方程为ˆ 4.3 4.1y x =+ 令6x =,可得ˆ 4.36 4.129.9y
=⨯+=, 即2020年该网站“双11”当天的交易额29.9百亿元. 【点睛】
利用最小二乘法求回归直线方程,再利用方程进行预报值,准确计算是求解的关键. 15.(1)0.30.4y x =-;(2)1.7 【分析】
(1)根据数据,利用最小二乘法,即可求得y 对月收入x 的线性回归方程回归方程
ˆˆy
b =x ˆa +; (2)将x =7代入即可预测该家庭的月储蓄. 【详解】
(1)由题意知,10
10
1
1
10,
80,20i
i i i n x
y =====∑∑ ,
8020
8,21010
x y ∴=
=== ∴21082160,1064640n x y n x ⋅⋅=⨯⨯=⋅=⨯=
10
10
21
1
184,720i i i
i i x y x ====∑∑ 由122
1
184160
ˆ0.3720640
n
i i
i n
i
i x y nxy
b
x
nx ==--==
=--∑∑.
ˆˆ20.380.4a
y bx =-=-⨯=- 故所求回归方程为0.30.4y x =- (2)将7x =代入回归方程
可以预测该家庭的月储蓄为0.370.4 1.7y =⨯-=(千元). 【点睛】
本题考查线性回归方程的应用,考查最小二乘法求线性回归方程,考查转化思想,属于中档题. 16.(1)无关;(2) 34,9
16
. 【详解】
(1)由频率分布直方图可知,在抽取的100人中,“体育迷”有25人,从而可得列联表如下:
非体育迷 体育迷 合计 男 30 15 45 女 45 10 55 合计
75
25
100
.
因为3.030<3.841,所以我们没有充分理由认为“体育迷”与性别有关.
(2)由频率分布直方图知抽到“体育迷”的频率为0.25,将频率视为概率,即从观众中抽取一名“体育迷”的概率.由题意知X ~B(3,),从而X 的分布列为 X
1
2
3
P
E(X)=np=
4
=.D(X)=np(1-p)=
16
17.(1)散点图答案见解析;(2) 6.517.5
y x
=+;(3)82.5.
【分析】
(1)利用已知条件,直接在给出的直角坐标系中画出散点图即可;
(2)求出回归直线方程中的a,b,即可求回归直线方程;
(3)利用广告费用为10万元时,代入回归直线方程即可求出销售收入y的值.
【详解】
(1)作出散点图如下图所示:
(2)求回归直线方程.
()
1
245685
5
x=⨯++++=,1(3040605070)50
5
y=⨯++++=,
222222
24568145
i
x=++++=
∑,
222222
304060507013500
i
y=++++=
∑,
1380
i i
x y=
∑,
22
2
513805550
6.5
14555
5
i i
i
x y x y
b
x x
--⨯⨯
===
-⨯
-

∑,
50 6.5517.5
a y bx
=-=-⨯=.
因此回归直线方程为 6.517.5
y x
=+;
(3)10
x=时,预报y的值为10 6.517.582.5
y=⨯+=.
【点睛】
本题考查回归直线方程的求法,散点图的画法,回归直线方程的应用,基本知识的考查.18.(1)14%;(2)有;(3)能,理由见解析
【分析】
(1) 由500位老年人中有40+30=70位需要志愿者提供帮助,即可求出需要志愿者提供帮助的老年人的比例;(2)通过列联表计算29.967
K=,即可得出结论;(3)由(2)的结论知,该地区老年人是否需要帮助与性别有关,并且从样本数据能看出该地区男性老年人与女性老年人中需要帮助的比例有明显差异,应该采用分层抽样的方法.
【详解】
解:(1)∵调查的500位老年人中有40+30=70位需要志愿者提供帮助, ∴该地区老年人中需要帮助的老年人的比例的估算值为14%=.
(2)根据列联表所给的数据,代入随机变量的观测值公式,29.967K =. ∵9.967 6.635>,
∴有99%的把握认为该地区的老年人是否需要帮助与性别有关.
(3)由(2)的结论知,该地区老年人是否需要帮助与性别有关,并且从样本数据能看出该地区男性老年人与女性老年人中需要帮助的比例有明显差异,因此在调查时,先确定该地区老年人中男、女的比例,再把老年人分成男、女两层并采用分层抽样方法比采用简单随机抽样方法更好. 【点睛】
本题主要考查列联表,考查独立性检验的应用,同时考查了运算求解的能力,分析问题和解决问题的能力,难度一般.
19.(1)0.70.35y x =+;(2)19.65. 【分析】
(1)由表中数据和参考公式即求线性回归方程; (2)根据(1)中的线性回归方程进行预测,即得答案. 【详解】
(1)由表中数据可得3456 2.534 4.5
4.5, 3.544
x y ++++++=
===. 1
2
2
2
4
4
1
466.54 4.5 3.5
0.7864 4.5
ˆ4i i
i i
i b
x y
xy
x
x ==--⨯⨯∴===-⨯-∑∑, ˆˆ 3.50.7 4.50.35a
y bx =-=-⨯=. 所以线性回归方程为0.70.35y x =+.
(2)由(1)知线性回归方程为0.70.35y x =+. 把100x =代入,得0.71000.3570.35y =⨯+=,
所以生产100吨甲产品的生产能耗比技改前降低9070.3519.65-=吨标准煤. 【点睛】
本题考查线性回归方程及其应用,属于中档题.
20.(1)图见解析,变量,x y 线性相关;(2)0.50.4y x =+;(3)2.4百万元 【分析】
(1)根据题中数据在直角坐标系中作出这五个点,即可得到散点图,并由图观察这些点是否在一条直线附近,即可判断; (2)根据公式分别求出5
5
2
1
1
,,
,i i
i
i i x y x y x
==∑∑,即可求出;
(3)由(2)中求出的回归方程,将4x =代入,即可估计利润额的大小.
解:(1)散点图如图所示.
由散点图可以看出变量,x y 线性相关.
(2)设线性回归方程是ˆˆy bx
a =+. 因为55
2
1
1
3.4,6,112,200i i i
i i y x x y x ======∑∑,所以5
15
22
1
5ˆ0.55i i
i i
i x y xy
b
x
x
==-==-∑∑,
ˆˆ 3.460.50.4a
y bx =-=-⨯=, 即利润额y 对销售额x 的线性回归方程为0.50.4y x =+.
(3)当销售额为4千万元时,利润额约为0.540.4 2.4y =⨯+=(百万元). 【点睛】
本题主要考查利用散点图判断两个变量是否存在相关关系,利用最小二乘法求线性回归方程,以及利用回归方程进行预测,属于基础题. 21.(1)^
7.8889.42y x =-+;(2)10.6 . 【分析】
(1)根据题意,分别求出,x y ,利用参考公式,求出^
b 和^
a ,即可得出y 关于x 的回归方
程;
(2)根据回归方程,可预测出当10x =时,该市 2.5PM 的值. 【详解】 解:(1)124689907050403020
5,5066
x y ++++++++++=
===,
^
2222222
1902704506408309206550410
7.881246896552
b ⨯+⨯+⨯+⨯+⨯+⨯-⨯⨯=
=-≈-+++++-⨯, ^41050()589.4252
a =--⨯≈ ,
所以线性回归方程为^
7.8889.42y x =-+, (2)当10x =时,代入^
7.8889.42y x =-+,
^
7.881089.4210.6y =-⨯+≈,
所以某日“绿色出行”的人数为10万人时,该市 2.5PM 的估计值为10.6 .
本题考查线性回归方程以及由线性回归方程估计其他值. 22.列联表见解析,有99.9%的把握说选科与性别有关. 【分析】
选物理的男生38人,则女士12人,选历史的男生14人,则女士36人,即可完成22⨯列联表,做出假设0H :选科与性别没有关系,再由表中数据计算2K 的观测值,可得观测值大于10.828,所以在犯错误的概率不超过0.001的前提下认为选科与性别有关系,即有99.9%的把握有关系. 【详解】
列出22⨯列联表如下:
提出假设0:选科与性别没有关系. 根据列联表中的数据计算2K
的观测值
2100(38361412)30023.0775248505013
k ⨯⨯-⨯==≈⨯⨯⨯.
因为10.828k ≥,所以有99.9%的把握说选科与性别有关. 【点睛】
本题考查独立性检验的基本应用,属于中档题. 23.(1)33.2,4132y x =-+(2)21.5元 【分析】
(1)根据公式计算可得结果;
(2))获得的利润241721320z x x =-+-,再根据二次函数知识可求得结果. 【详解】 解:(1) 1819202122
205
x ++++=
=
6156504845
525y ++++=
=,
()
2
2222219424733.25y s ∴=++++=
55
2
1
1
()()40,()
10i
i
i
i i x x y y x x ==--=--=∑∑
5
1
5
2
1
()()
4()
i
i
i i
i x x y y b x x ==--=
=--∑∑
52204132a y bx =-=+⨯=
y 关于 x 的回归直线方程为4132y x =-+.
(2)获得的利润()()()10104132z x y x x =-=--+,即241721320z x x =-+- 二次函数241721320z x x =-+-的图象开口向下, ∴当172
21.58
x =
=时, z 取最大值 ∴当单价定为21.5元时,可获得最大利润. 【点睛】
本题考查了求回归直线方程,考查了利用回归方程进行回归分析,属于中档题. 24.(1)有99.5%的把握认为开车时使用手机与司机的性别有关;(2)分布列见解析,
6()5
E X =
【分析】 (1)根据题意填写2×2列联表,计算观测值,对照临界值得出结论;
(2)求出任意抽取1辆车中司机为男性且开车时使用手机的概率,知X 的可能取值,且X 服从二项分布,计算对应的概率,写出X 的分布列,计算数学期望值. 【详解】
(1)填写2×2列联表,如下;
根据数表,计算()()()()2
()n ad bc K a b c d a c b d -=
++++=2
100(40252015)
55456040
⨯⨯-⨯⨯⨯⨯≈8.25>7.879,
所以有99.5%的把握认为开车时使用手机与司机的性别有关;
(Ⅱ)由题意,任意抽取1辆车中司机为男性且开车时使用手机的概率是402
1005
=, 则X 的可能取值为:0,1,2,3,且2
~(3,)5X B ,
可得3322()(1)()55
k
k k P X k C -==-,。

相关文档
最新文档