深圳市宝安区鹏晖中英文学校选修三第三单元《成对数据的统计分析》测试题(含答案解析)
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
一、选择题
1.以下说法:
①将一组数据中的每一个数据都加上或减去同一个常数后,方差不变;
②设有一个回归方程ˆ35y
x =-,变量x 增加1个单位时,y 平均增加5个单位 ③线性回归方程ˆy bx a =+必过(),x y
④设具有相关关系的两个变量,x y 的相关系数为r ,那么||r 越接近于0,,x y 之间的线性相关程度越高;
⑤在一个22⨯列联表中,由计算得2K 的值,那么2K 的值越大,判断两个变量间有关联的把握就越大。
其中错误..
的个数是( ) A .0 B .1
C .2
D .3
2.已知变量x ,y 之间具有较强的线性相关性,测得它们的四组数据如表所示: x 1
2
3
4
y
8
5 910 25 110
现已求得变量x ,y 之间的回归方程为2y ax =+,请根据给出的条件,预测9x =时,y 的值约为( ) A .45
-
B .52
-
C .
45
D .
52
3.为了研究某大型超市开业天数与销售额的情况,随机抽取了5天,其开业天数与每天的销售额的情况如表所示:
开业天数 10 20
30
40 50 销售额/天(万元)
62
75
81
89
根据上表提供的数据,求得关于x 的线性回归方程为0.6754.9y x =+,由于表中有一个数据模糊看不清,请你推断出该数据的值为( ) A .68
B .68.3
C .71
D .71.3
4.下列命题中正确的个数( )①“0x ∀>,2sin x x >”的否定是“00x ∃≤,
002sin x x ≤”;②用相关指数2R 可以刻画回归的拟合效果,2R 值越小说明模型的拟合效
果越好;③命题“若0a b >>330a b >>”的逆命题为真命题;④若
22(1)mx m x -+30m ++≥的解集为R ,则m 1≥.
A .0
B .1
C .2
D .3
5.已知具有线性相关的两个变量,x y 之间的一组数据如下表所示:
若,x y 满足回归方程 1.5ˆˆy
x a =+,则以下为真命题的是( ) A .x 每增加1个单位长度,则y 一定增加1.5个单位长度 B .x 每增加1个单位长度,y 就减少1.5个单位长度 C .所有样本点的中心为(1,4.5) D .当8x =时,y 的预测值为13.5
6.为预测某种产品的回收率y ,需要研究它和原料有效成分的含量x 之间的相关关系,现取了8组观察值.计算得8
1
52i
i x
==∑,8
1
228i i y ==∑,8
2
1
478i
i x ==∑,8
1
1849i i i x y ==∑,则y
对x 的回归方程是( ) A .y =11.47+2.62x B .y =-11.47+2.62x C .y =2.62+11.47x
D .y =11.47-2.62x
7.2018年6月14日,世界杯足球赛在俄罗斯拉开帷幕.通过随机调查某小区100名性别不同的居民是否观看世界杯比赛,得到以下列联表:
经计算K 的观测值.附表:
A .有99.9%以上的把握认为“该小区居民是否观看世界杯与性别有关”
B .有99.9%以上的把握认为“该小区居民是否观看世界杯与性别无关”
C .在犯错误的概率不超过0.005的前提下,认为“该小区居民是否观看世界杯与性别有关”
D .在犯错误的概率不超过0.001的前提下,认为“该小区居民是否观看世界杯与性别无关” 8.某村庄对改村内50名老年人、年轻人每年是否体检的情况进行了调查,统计数据如表所示:
每年体检 每年未体检 合计
老年人 a
7
c
年轻人 6 b d
合计
e
f
50
已知抽取的老年人、年轻人各25名.则完成上面的列联表数据错误的是( ) A .18a = B .19b =
C .50c d +=
D .2f e -=-
9.一个车间为了规定工时定额,需要确定加工零件所花费的时间,由此进行了5次实验,
收集数据如下: 零件数:个 10 20 30 40 50 加工时间:分钟
59
71
75
81
89
由以上数据的线性回归方程估计加工100个零件所花费的时间为( ) 附:回归直线的斜率和截距的最小二乘估计公式分别为
1
1
2
2211
()(),()n
n
i
i
i i
i i n
n
i i i i x x y y x y nxy
b a y bx x x x nx ====---=
=
=---∑∑∑∑
A .124分钟
B .150分钟
C .162分钟
D .178分钟
10.下列说法中正确的是( )
A .若两个随机变量的线性相关性越强,则相关系数r 的值越接近于1
B .设有一个回归方程ˆ35y
x =-,变量x 增加一个单位时,y 平均增加5个单位 C .把某中学的高三年级560名学生编号:1到560,再从编号为1到10的10名学生中随机抽取1名学生,其编号为a ,然后抽取编号为10a +,20a +,30a +,…的学生,这样的抽样方法是分层抽样
D .若一组数据0,a ,3,4的平均数是2,则该组数据的方差是5
2
11.已知,x y 的对应值表为:
x
0 1 3
4
5
6
y 1y 2y 3y 4y
5y 6y
且,x y 线性相关,由于表格污损,y 的对应值看不到了,若6
1
19.2i
i y
==∑,且线性回归直
线方程为0.6y x a =+,则8x =时,y 的预报值为( ) A .6.1
B .22.1
C .12.6
D .3.5
12.下列四个命题:①在回归模型中,预报变量y 的值不能由解释变量x 唯一确定;②若变量x ,y 满足关系0.11y x =-+,且变量y 与z 正相关,则x 与z 也正相关;③在残差
图中,残差点分布的带状区域的宽度越狭窄,其模型拟合的精度越高;④以模型kx
y ce
=去拟合一组数据时,为了求出回归方程,设ln z y =,将其变换后得到线性方程
0.34z x =+,则4c e =,0.3k =.
其中真命题的个数为( ) A .1个
B .2个
C .3个
D .4个
13.有一散点图如图所示,在5个(,)x y 数据中去掉(3,10)D 后,下列说法正确的是( )
A .残差平方和变小
B .相关系数r 变小
C .相关指数2R 变小
D .解释变量x 与预报变量y 的相关性变弱
二、解答题
14.近年来,“双11”网购的观念逐渐深入人心.某人统计了近5年某网站“双11”当天的交易额,统计结果如下表: 年份 2015 2016 2017 2018 2019 年份代码x 1 2 3 4 5 交易额y /百亿元
9
12
17
21
26
y x 留三位小数.(统计中用相关系数r 来衡量两个变量之间线性关系的强弱.若相应于变量x 的取值i x ,变量y 的观测值为i y (1i n ≤≤),则两个变量的相关系数的计算公式为:
()()
n
i
i
x x y y r --=
∑.统计学认为,对于变量,x y ,如果[]1,0.75r ∈--,那么负
相关很强;如果[]
0.751
r ∈,,那么正相关很强;如果(]0.75,0.30r ∈--或[
)0.30,0.75r ∈,那么相关性一般;如果[]0.25,0.25r ∈-,那么相关性较弱);
(2)求出y 关于x 的线性回归方程,并预测2020年该网站“双11”当天的交易额.
参考公式:1
2
1
()()
()
ˆn
i
i
i n
i i x x y y b
x x ==--=-∑∑,ˆˆa
y bx =-
43.1≈. 15.2018年至2020年,第六届全国文明城市创建工作即将开始.在2017年9月7日召开的攀枝花市创文工作推进会上,攀枝花市委明确提出“力保新一轮提名城市资格、确保2020年创建成功”的目标.为了确保创文工作,今年初市交警大队在辖区开展“机动车不礼让行人整治行动” .下表是我市一主干路口监控设备抓拍的5个月内 “驾驶员不礼让斑马线”行为统计数据:
(1)请利用所给数据求违章人数与月份之间的回归直线方程ˆˆy
bx a =+; (2)预测该路口7月份不“礼让斑马线”违章驾驶员的人数;
(3)交警从这5个月内通过该路口的驾驶员中随机抽查了50人,调查“驾驶员不礼让斑马线”行为与驾龄的关系,得到如下22⨯列联表:
能否据此判断有97.5%的把握认为“礼让斑马线”行为与驾龄有关?
参考公式:122
1ˆn
i i i n i
i x y nxy b
x nx ==-=-∑∑
,ˆˆa
y bx =- 16.双十一购物狂欢节,是指每年11月11日的网络促销日,源于淘宝商城(天猫)2009年11月11日举办的网络促销活动,已成为中国电子商务行业的年度盛事.某生产商为了了解其生产的产品在不同电商平台的销售情况,统计了A B 、两个电商平台各十个网络销售店铺
的销售数据:
(1)作出A B
、两个电商平台销售数据的茎叶图,根据茎叶图判断哪个电商平台的销售更好,并说明理由;
(2)填写下面关于店铺个数的22
⨯列联表,并根据列联表判断是否有95%的把握认为销售量与电商平台有关;
(3)生产商要从这20个网络销售店铺销售量前五名的店铺中,随机抽取三个店铺进行销售返利,则其中恰好有两个店铺的销售量在95以上的概率是多少?
附:
2
2
()
()()()()
n ad bc
K
a b c d a c b d
-
=
++++
,n a b c d
=+++.
17.某电脑公司有5名产品推销员,其工作年限与年推销金额的数据如表:
(1)求年推销金额y关于工作年限x的线性回归方程;
(2)判断变量x 与y 之间是正相关还是负相关;
(3)若第6名推销员的工作年限是11年,试估计他的年推销金额.
参考公式:线性回归方程y bx a =+中,a y bx =
-,其中,x y 为样本平均数,
12
21
n
i i
i n
i
i x y
nx y b x
nx
==-=
-∑∑)
18.海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了
100个网箱,测量各箱水产品的产量(单位:kg ),其频率分布直方图如下:
(1)网箱产量不低于40kg 为“理想网箱”,填写下面列联表,并根据列联表判断是否有
99.9%的把握认为“理想网箱”的数目与养殖方法有关:
箱产量40kg <
箱产量40kg ≥
合计
旧养殖法 新养殖法 合计
(2)已知旧养殖法100个网箱需要成本50000元,新养殖法100个网箱需要增加成本
15750元,该水产品的市场价格为x 元/()15kg x ≥,根据箱产量的频率分布直方图(说
明:同一组中的数据用该组区间的中间值作代表),采用哪种养殖法,请给养殖户一个较好的建议,并说明理由. 附参考公式及参考数据:
()20P K k ≥
0.050 0.010 0.001
0k
3.841 6.635 10.828
()
()()()()
2
0n ad bc k a b c d a c b d -=++++
19.为了解某班学生喜欢数学是否与性别有关,对本班50人进行了问卷调查得到了如下的列联表,已知在全部50人中随机抽取1人抽到喜欢数学的学生的概率为
35
.
(1)请将上面的列联表补充完整(不用写计算过程);
(2)能否在犯错误的概率不超过0.005的前提下认为喜欢数学与性别有关?说明你的理由;
(3)现从女生中抽取2人进一步调查,设其中喜欢数学的女生人数为ξ,求ξ的分布列与期望.
下面的临界表供参考:
(参考公式:()()()()()
2
2
n ad bc K a b c d a c b d -=++++,其中n a b c d =+++)
20.为了解某地区足球特色学校的发展状况,某调查机构得到如下统计数据:
(1)根据上表数据,计算y 与x 的相关系数r ,并说明y 与x 的线性相关性强弱(已知:
0.751r ≤≤,则认为y 与x 线性相关性很强;0.30.75x ≤≤,则认为y 与x 线性相关性
一般,0.25r ≤,则认为y 与x 线性相关性较弱)
(2)求y 与x 的线性回归方程,并预测该地区2019年足球特色学校的个数(精确到个位)
参考公式:
()()
n
i
i
x x y y r --=
∑()()2
2
1
1
,10, 3.6056n
n
i i i i x x y y ==-=-=≈∑∑;
()()
()
1
2
1
,n
i
i
i n
i
i x x y
y b a y bx x x ==--=
=--∑∑
21.近期,某学校举行了一次体育知识竞赛,并对竞赛成绩进行分组:成绩不低于80分的学生为甲组,成绩低于80分的学生为乙组.为了分析竞赛成绩与性别是否有关,现随机抽取了60名学生的成绩进行分析,数据如下图所示的22⨯列联表.
(1)将22⨯列联表补充完整,判断是否有90%的把握认为学生按成绩分组与性别有关? (2)如果用分层抽样的方法从甲组和乙组中抽取6人,再从这6人中随机抽取2人,求至少有1人在甲组的概率.
附:()
()()()()
2
2
n ad bc K a b c d a c b d -=++++,n a b c d =
+++.
参考数据及公式:
22.某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t )和年利润z (单位:千元)的影响,对近8年的年宣传费i x 和年销售量i y (1,2
8=i )数据作了初步处理,得到下面的散点图及一些统计量的值.
x
y
w
()
8
2
1
i
i x x =-∑
()
8
2
1
i
i w w =-∑
()()8
1
i
i
i x x y
y =--∑
()()8
1
i
i
i w w y
y =--∑
46.6
563 6.8 289.8 1.6 1.469 108.8
表中=
i i w x ,8
118
==∑i i w w
(1)根据散点图判断,y a bx =+与y c d x =+哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型?给出判断即可,不必说明理由
(2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程;
(3)已知这种产品的年利润z 与x 、y 的关系为0.2z y x =-根据(2)的结果回答下列问题:
①年宣传费49x =时,年销售量及年利润的预报值是多少? ②年宣传费x 为何值时,年利润的预报值最大?
附:对于一组数据()()()1122,,,,,,n n u v u v u v ⋯,其回归线v u αβ=+的斜率和截距的最小
二乘估计分别为:()()()
12
1
ˆβ==∑--=
∑
-n i i i n
i i u u v v u u ,ˆˆv u α
β=-. 23.一只药用昆虫的产卵数y 与一定范围内的温度x 有关,现收集了该种药用昆虫的6组观测数据如下表: 温度x /℃ 21 23 24 27 29 32 产卵数y /个
6
11
20
27
57
77
经计算得:
61
()()557i
i
i x x y y =--=∑,6
2
1
()
84i
i x x =-=∑,6
21
()3930i i y y =-=∑线性回归模型的残差
平方和
6
2
1
()
236.64i
i
i y y =-=∑,8.06053167e ≈,
其中,i i x y 分别为观测数据中的温度和产卵数,1,2,3,4,5,6i =
(1)若用线性回归模型,求y 关于x 的回归方程ˆˆˆy
bx a =+(精确到0.1); (2)若用非线性回归模型求得y 关于x 的回归方程为0.2303ˆ0.06x y
e =,且相关指数20.9522R =.
①试与1中的回归模型相比,用2R 说明哪种模型的拟合效果更好.
②用拟合效果好的模型预测温度为35℃时该用哪种药用昆虫的产卵数(结果取整数) 附:一组数据1122(,),(,)
(,)n n x y x y x y 其回归直线ˆˆˆy bx a =+的斜率和截距的最小二乘估
计为1
2
1
()()
ˆ()
n
i i i n
i
i x x y y b
x x ==--=-∑∑,ˆˆa
y bx =-;相关指数2
2
1
2
1
ˆ()1()
n
i
i
i n
i
i y y
R y y ==-=--∑∑.
24.某市春节期间7家超市的广告费支出i x (万元)和销售额i y (万元)数据如下:
参数数据及公式:8x =,42y =,
7
12794i i i x y ==∑,7
12
708i i x ==∑,1
2
2
1
ˆn
i i n
i i i y n x y b nx
x x ==-⋅=-∑∑
,ˆˆa
y bx =-,ln 20.7≈. (1)若用线性回归模型拟合y 与x 的关系,求y 关于x 的线性回归方程;
(2)用对数回归模型拟合y 与x 的关系,可得回归方程:ˆ12ln 22y
x =+,经计算得出线性回归模型和对数模型的2R 分别约为0.75和0.97,请用2R 说明选择哪个回归模型更合适,并用此模型预测A 超市广告费支出为8万元时的销售额.
25.从某居民区随机抽取10个家庭,获得第i 个家庭的月收入i x (单位:千元)与月储蓄
i y (单位:千元)的数据资料,计算得101
80i i x ==∑,101
20i i y ==∑,10
1
184i i i x y ==∑,
10
2
1
720i
i x
==∑.
(1)求家庭的月储蓄y 关于月收入x 的线性回归方程y bx a =+,并判断变量x 与y 之间是正相关还是负相关;
(2)若该居民区某家庭月收入为7千元,预测该家庭的月储蓄.(注:线性回归方程
y bx a =+中,1
2
21
n
i i
i n
i
i x y nx y
b x
nx
==-⋅=
-∑∑,其中x ,y 为样本平均值.)
26.如图是某公司一种产品的日销售量y (单位:百件)关于日最高气温x (单位:C ︒)的散点图.
数据:
x
13 15 19 20 21 y 26
28
30
18
36
(1)请剔除一组数据,使得剩余数据的线性相关性最强,并用剩余数据求日销售量y 关于日最高气温x 的线性回归方程y bx a =+;
(2)根据现行《重庆市防暑降温措施管理办法》.若气温超过36度,职工可享受高温补贴.已知某日该产品的销售量为53.1,请用(1)中求出的线性回归方程判断该公司员工当天是否可享受高温补贴?
附:()()
()
1
2
1
n
i
i i n
i
i x
x y y
b x
x
==--=
-∑∑,a y bx =-.
【参考答案】***试卷处理标记,请不要删除
一、选择题 1.C 解析:C 【分析】
根据用样本估计总体、线性回归方程、独立性检验的基本概念和基本性质,逐项判断,即可得到本题答案. 【详解】
方差反映一组数据的波动大小,将一组数据中的每个数据都加上或减去同一个常数后,方
差不变,故①正确;一个回归方程ˆ35y
x =-,变量x 增加1个单位时,y 平均减少5个单位,故②不正确;线性回归方程ˆy bx a =+必过样本中心点,故③正确;根据线性回归分析中相关系数的定义:在线性回归分析中,相关系数为r ,||r 越接近于1,相关程度越大,故④不正确;对于观察值2K 来说,2K 越大,“x 与y 有关系”的可信程度越大,故⑤正确. 故选:C 【点睛】
本题主要考查用样本估计总体、线性回归方程、独立性检验的基本思想.
2.B
解析:B 【分析】
由已知求得x ,y ,代入2y ax =+求得a 值,则线性回归方程可求,取9x =求得y 值即可. 【详解】
1234
2.54
x +++=
=,1892130.7545105104y ⎛⎫=+++== ⎪⎝⎭,
0.752
0.52.5
a -∴=
=-,则线性回归方程为0.52y x =-+, 取9x =,得50.5922
y =-⨯+=-. 故选:B . 【点睛】
本题考查线性回归方程,明确线性回归方程恒过样本点的中心是关键,是基础题.
3.A
解析:A 【分析】
根据表中数据计算x ,再代入线性回归方程求得y ,进而根据平均数的定义求出所求的数据. 【详解】
根据表中数据,可得1
(1020304050)305
x =⨯++++=,
代入线性回归方程ˆ0.6754.9y
x =+中, 求得0.673054.975y =⨯+=,
则表中模糊不清的数据是7556275818968⨯----=, 故选:A. 【点睛】
本题考查了线性回归方程过样本中心点的应用问题,是基础题.
4.C
解析:C 【分析】
根据含量词命题的否定可知①错误;根据相关指数的特点可知2R 越接近0,模型拟合度越低,可知②错误;根据四种命题的关系首先得到逆命题,利用不等式性质可知③正确;分别在0m =和0m ≠的情况下,根据解集为R 确定不等关系,从而解得m 范围,可知④正确. 【详解】
①根据全称量词的否定可知“0x ∀>,2sin x x >”的否定是“00x ∃>,002sin x x ≤”,则①错误;
②相关指数2R 越接近1,模型拟合度越高,即拟合效果越好;2R 越接近0,模型拟合度越低,即拟合效果越差,则②错误;
③若“0a b >>
0>>”的逆命题为:若“
0>>,则0a b >>”,根据不等式性质可知其为真命题,则③正确;
④当0m =时,()2
213230mx m x m x -+++=-+≥,此时解集不为R ,不合题意;
当0m ≠时,若()2
2130mx m x m -+++≥解集为R ,只需:
(
)()2
41430m m m m >⎧⎪⎨+-+≤⎪⎩ 解得:m 1≥,则④正确.
∴正确的命题为:③④
本题正确选项:C 【点睛】
本题考查命题真假性的判断,涉及到含量词命题的否定、四种命题的关系及真假性的判断、相关指数的应用、根据一元二次不等式解集为R 求解参数范围的知识.
5.D
解析:D 【分析】
利用回归直线过样本点中心可求回归方程,根据该方程可得正确的选项. 【详解】
由 1.5y x a =+,得x 每增一个单位长度,y 不一定增加1.5,而是大约增加1.5个单位长度,故选项,A B 错误; 由已知表格中的数据,可知01234
25
x ++++=
=,
2.2 4.3 4.5 4.8 6.7
4.55
y ++++=
=
,回归直线必过样本的中心点()2,4.5,故C 错
误; 又4.5 1.52 1.5ˆˆa
a =⨯+⇒=,∴回归方程为 1.5 1.5y x =+,
当8x =时,y 的预测值为1.58 1.513.5⨯+=,故D 正确, 故选:D. 【点睛】
本题考查线性回归方程的性质及应用,注意回归直线过()
,x y ,本题属于基础题.
6.A
解析:A 【解析】
分析:根据公式计算ˆb
≈2.62,ˆa ≈11.47,即得结果. 详解:由1
2
2
1
,()ˆˆˆn
i i
i n
i
i x y nxy
b
a y bx x
n x ==-==--∑∑,直接计算得ˆb ≈2.62,ˆa ≈11.47,所以ˆy
=2.62x +11.47.选A.
点睛:函数关系是一种确定的关系,相关关系是一种非确定的关系.事实上,函数关系是两个非随机变量的关系,而相关关系是非随机变量与随机变量的关系.如果线性相关,则直接根据用公式求,a b ,写出回归方程,回归直线方程恒过点(,)x y .
7.C
解析:C 【分析】
分析:根据题目的条件中已经给出这组数据的观测值,把所给的观测值同节选的观测值表进行比较,发现它大于7.879,在犯错误的概率不超过0.005的前提下,认为“该小区居民是否观看世界杯与性别有关”.
详解:由题意算得,2
8.2497.879k ≈> ,参照附表,可得
在犯错误的概率不超过0.005的前提下,认为“该小区居民是否观看世界杯与性别有关”. 故选C .
点睛:本题考查独立性检验的应用,属基础题.
8.D
解析:D 【解析】
分析:先根据列联表列方程组,解得a,b,c,d,e,f,再判断真假.
详解:因为725,625,6,7,50,50a c b d a e b f c d e f +==+==+=+=+=+=, 所以18,19,50,24,26,2a b c d e f f e ==+===-= 选D.
点睛:本题考查列联表有关概念,考查基本求解能力.
9.A
解析:A 【解析】
分析:先求出,x y ,再求出ˆˆ,b
a 得到回归直线方程,再令x=100得到加工100个零件所花费的时间.
详解:由题得30,75,x y ==
1
2
1
()()
(20)(16)(10)(4)7007
4001000100400100010
()
n
i
i
i n
i i x x y y b x x ==---⨯-+-⨯-=
=
==++++-∑∑,
所以7
75ˆ3054,10
a
y bx =-=-⨯= 所以7
54,10
y x =
+当x=100时,y=124.故答案为A 点睛:本题主要考查回归分析和回归方程的求法,意在考查学生对这些基础知识的掌握水平和基本的计算能力,考查学生解决实际问题的能力.
10.D
解析:D 【分析】
线性相关性越强,r 的值越接近于1;ˆ35y
x =-,斜率的意义;系统抽样和分层抽样的区别;方差的计算. 【详解】
对于A ,若两个随机变量的线性相关性越强,则相关系数r 的值越接近于1,故A 错误;
对于B ,设有一个回归方程ˆ35y
x =-,变量x 增加一个单位时,y 平均减少5个单位,故B 错误;
对于C ,抽样方法是系统抽样,故C 错误; 对于C ,0,a ,3,4的平均数是2,可得1a =, 方差2222
1
5
[(02)(12)(32)(42)]4
2
-+-+-+-= ,故D 正确. 故选:D 【点睛】
本题考查了线性相关系数,回归方程,系统抽样和分层抽样,方差等基本知识;考查了理解辨析、数据分析能力和数学运算技能,属于容易题.
11.A
解析:A 【分析】
求出,x y ,由线性回归方程必经过点(,x y )即得a ,代入8x =求解即可. 【详解】 由表格知,196
x =
,
6
1
19.2i
i y
==∑
3.2y ∴=,
代入0.6y x a =+得:19
3.20.66
a =⨯
+, 1.3a ∴=,
则回归方程为0.6 1.3y x =+, 当8x =时,0.68 1.3 6.1y =⨯+=, 故选:A . 【点睛】
本题主要考查了线性回归方程,线性回归方程的性质、应用, 属于中档题.
12.C
解析:C 【分析】
直接利用回归直线的方程的应用,相关的变量关系的应用,残差图的应用分析结果. 【详解】 下列四个命题:
①在回归模型中,预报变量y 的值不能由解释变量x 唯一确定;根据回归模型中的变量关系,正确.
②若变量x ,y 满足关系0.11y x =-+,且变量y 与z 正相关,则x 与z 也正相关;应该是负相关.故错误.
③在残差图中,残差点分布的带状区域的宽度越狭窄,其模型拟合的精度越高;即越接近于回归直线的距离越小,故正确.
④以模型kx y ce =去拟合一组数据时,为了求出回归方程,设ln z y =,将其变换后得到线性方程0.34z x =+,则4c e =,0.3k =.故正确. 故选:C . 【点睛】
此题考查回归分析和相关概念辨析,涉及非线性回归模型的处理方法以及对残差图的理解认识.
13.A
解析:A 【分析】
由散点图可知,去掉(3,10)D 后,y 与x 的线性相关性加强,由相关系数r ,相关指数2R 及残差平方和与相关性的关系得出选项. 【详解】
∵从散点图可分析得出:
只有D 点偏离直线远,去掉D 点,变量x 与变量y 的线性相关性变强, ∴相关系数变大,相关指数变大,残差的平方和变小,故选A. 【点睛】
该题考查的是有关三点图的问题,涉及到的知识点有利用散点图分析数据,判断相关系数,相关指数,残差的平方和的变化情况,属于简单题目.
二、解答题
14.(1)0.998;变量y 与x 的线性相关程度很强;(2)ˆ 4.3 4.1y
x =+;29.9百亿元. 【分析】
(1)根据表中数据可得x 、y ,再计算出
1
()()n
i
i
i x x y y =--∑和1
()()n
i
i
i x x y y =--∑,代入
1
2
2
1
1
()()
()()
n
i
i
i n n
i
i
i i x x y y r x x y y ===--=
--∑∑∑,得到数据与所给r 比较可得答案;
(2)由(1)可得x ,y ,
1
()()n
i
i
i x x y y =--∑,
计算出
2
1
()
n
i
i x x =-∑,代入1
2
1()()
()ˆn
i
i
i n
i i x x y y b
x x ==--=-∑∑和ˆˆa
y bx =-可得答案. 【详解】
(1)由题意,根据表格中的数据, 可得:1
(12345)35x =
++++=,1(912172126)175
y =++++=, 则
1
()()(13)(917)(53)(2617)43n
i
i
i x x y y =--=--+
+--=∑,
2
2
1
1
()()
1018643.1n n
i
i
i i x x y y ==--=⨯≈∑∑,
所以()()
43
0.99843.1
n
i
i
x x y y r --=
=
≈∑, 所以变量y 与x 的线性相关程度很强. (2)由(1)可得3x =,17y =,1
()()43n
i
i
i x x y y =--=∑,
又由
222
1
222(13)(23)(3(3)(43)(53)1)
0n
i
i x x ==-+-+-+-+-=-∑,
所以1
2
1
()()
43 4.30
)
ˆ1(n
i
i
i n
i i x x y y b
x x ==--==
=-∑∑,则ˆˆ17 4.33 4.1a y bx
=-=-⨯=, 可得y 关于x 的线性回归方程为ˆ 4.3 4.1y
x =+, 令6x =,可得ˆ 4.36 4.129.9y
=⨯+=, 即2020年该网站“双11”当天的交易额29.9百亿元. 【点睛】
本题考查了变量的相关性以及回归直线方程的求解,回归分析的目的是试图通过样本数据得到真实结构参数的估计值,并要求估计结果接近真实值,要求认真计算各个数值.
15.(1)ˆ8.5125.5y
x =-+;(2)66人;(3)能判断有97.5%的把握认为“礼让斑马线”行为与驾龄有关. 【分析】
(1)利用所给数据求回归直线方程的相关数据,根据代入公式即可得违章人数y 与月份x
之间的回归直线方程ˆˆˆy
bx a =+; (2)代入7x =即可判断7月份不“礼让斑马线”违章驾驶员的人数;
(3)求出2k ,即可判断判断有97.5%的把握认为“礼让斑马线”行为与驾龄有关. 【详解】
解:(1)由表中数据知:3,100x y ==
∴1
22
1
14151500ˆ8.55545
n
i i
i n
i
i x y
nx y
b
x
nx ==--===---∑∑,ˆ125.ˆ5a y bx =-=, ∴所求回归直线方程为ˆ8.5125.5y
x =-+. (2)由(1)知,令7x =,则ˆ8.57125.566y
=-⨯+=人. (3)由表中数据得22
50(221288)50
5.556 5.024*********
K ⨯⨯-⨯==≈>⨯⨯⨯,
根据统计有97.5%的把握认为“礼让斑马线”行为与驾龄有关. 【点睛】
本题考查回归直线方程的应用,独立检验的应用,是基本知识的考查.
16.(1)茎叶图见解析,B 电商平台的销售更好,理由见解析(2)22⨯列联表答案见解析,没有95%的把握认为销售量与电商平台有关. (3)0.6 【分析】
(1)由已知数据作出茎叶图,由茎叶图可知,A 电商、B 电商平台销售量的中位数及平均数,可得B 电商平台的销售更好;
(2)由题中数据,可将22⨯列联表补充完整,数据代入公式可得2 3.333 3.841K ≈<,故没有95%的把握认为销售量与电商平台有关;
(3)由已知数据,从销售量前五名的店铺选取三个店铺共有10种情况,其中恰好有两个店铺的销售量在95以上的情况有6种,由古典概型求概率可得. 【详解】
(1)由已知数据作出茎叶图如下:
①由茎叶图可知,A 电商平台销售量的中位数为72,B 电商平台销售量的中位数为85,因此B 电商平台的销售更好.
②由茎叶图可求得A 电商平台销售量的平均数为72.4,B 电商平台销售量的平均数为84.6,因此B 电商平台的销售更好. (2)由题中数据,可得22⨯列联表如下:
2
20(848)320
3.333 3.841812101096
K ⨯-∴==≈<⨯⨯⨯,
∴没有95%的把握认为销售量与电商平台有关.
(3)由已知数据,销售量前五名的店铺,销售量分别为97,96,96,94,87. 设对应的店铺分别为12312,,,,a a a b b .
从其中选取三个店铺共有10种情况,如下:()123,,a a a ,()121,,a a b ,()122,,a a b ,
()311,,a a b ,()312,,a a b ,()112,,a b b ,()321,,a a b ,()322,,a a b ,()112,,a b b ()312,,a b b .
其中恰好有两个店铺的销售量在95以上的情况有6种:
()121,,a a b ,()122,,a a b ,()311,,a a b ,()312,,a a b ,()321,,a a b ,()322,,a a b .
∴其中恰好有两个店铺的销售量在95以上的概率6
0.610
P =
=. 【点睛】
本题为统计与概率综合问题,考查茎叶图、列联表、相关性分析、古典概型求概率等知识的应用,考查数据分析能力,属于中等题.
17.(1)0.50.4y x =+;(2)正相关;(3)5.9万元. 【分析】
(1)首先求出x ,y 的平均数,利用最小二乘法做出b 的值,再利用样本中心点满足线性回归方程和前面做出的横标和纵标的平均值,求出a 的值,写出线性回归方程. (2)根据0.50b =>,即可得出结论;
(3)第6名推销员的工作年限为11年,即当11x =时,把自变量的值代入线性回归方程,得到y 的预报值,即估计出第6名推销员的年推销金额为5.9万元. 【详解】
(1)由题意知:6x =, 3.4y =
于是:2
11256 3.4
0.520056b -⨯⨯=
=-⨯, 3.40.560.4a =-⨯=,
故:所求回归方程为0.50.4y x =+;
(2)由于变量y 的值随着x 的值增加而增加(0.50)b =>,故变量x 与y 之间是正相关 (3)将11x =带入回归方程可以估计他的年推销金额为0.5110.4 5.9y =⨯+=万元. 【点睛】
本题考查回归分析的初步应用,考查利用最小二乘法求线性回归方程,是一个综合题目. 18.(1)列联表见解析;有99.9%的把握认为“理想网箱”的数目与养殖方法有关;(2)当市场价格大于30元/kg 时,采用新养殖法;等于30元/kg 时,两种方法均可;小于30元/kg 时,采用旧养殖法. 【分析】
(1)根据频率分布直方图计算出列联表对应的数据,从而补全列联表;根据公式计算得
022.65010.828k =>,从而得到结论;(2)利用频率分布直方图求得新旧两种养殖法的
平均数,从而得到两种养殖法获利的函数模型,通过不同市场价格时,两种方法获利的大小来确定养殖法. 【详解】
(1)由频率分布直方图可知:
箱产量40kg <的数量:旧养殖法:()0.0120.0140.024510025++⨯⨯=;新养殖法:
0.00451002⨯⨯=
箱产量40kg ≥的数量:旧养殖法:1002575-=;新养殖法:100298-=
可填写列联表如下:
则:()
200982575222.65010.82827173100100
k ⨯-⨯==⨯⨯⨯>
∴有99.9%的把握认为“理想网箱”的数目与养殖方法有关 (2)由频率分布直方图可得:
旧养殖法100个网箱产量的平均数:
(127.50.01232.50.01437.50.02442.50.03447.50.0452.50.032x =⨯+⨯+⨯+⨯+⨯+⨯+)57.50.0262.50.01267.50.012547.1⨯+⨯+⨯⨯=
新养殖法100个网箱产量的平均数:
(237.50.00442.50.0247.50.04452.50.06857.50.04662.50.01x =⨯+⨯+⨯+⨯+⨯+⨯+
)67.50.008552.35⨯⨯=
设新养殖法100个网箱获利为()f x
()()52.351006575052356575015f x x x x ∴=⨯-=-≥
设旧养殖法100个网箱获利为()g x
()()47.11005000047105000015g x x x x ∴=⨯-=-≥
令()()f x g x =,解得:30x =
即当30x >时,()()f x g x >;当30x =时,()()f x g x =;当30x <时,
()()f x g x <
∴当市场价格大于30元/kg 时,采用新养殖法;等于30元/kg 时,两种方法均可;小于
30元/kg 时,采用旧养殖法.
【点睛】
本题考查独立性检验判断二者相关性、利用频率分布直方图解决实际问题,涉及到利用频率分布直方图计算频率和频数、估计总体的平均数的问题,考查统计部分知识的综合应用,属于常考题型.
19.(1)列联表见解析;(2)能,理由见解析;(3)分布列见解析,()4
5
E ξ=. 【分析】
(1)由题意可知,全部50人中喜欢数学的学生人数为30,据此可完善列联表;。