上海北蔡中学选修三第三单元《成对数据的统计分析》测试题(含答案解析)

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

一、选择题
1.给出如下列联表
2(10.828)0.001P K ≥≈,2( 6.635)0.010P K ≥≈参照公式
()
()()()()
2
n ad bc k a b c d a c b d -=
++++,得到的正确结论是( ) A .有99%以上的把握认为“高血压与患心脏病无关” B .有99%以上的把握认为“高血压与患心脏病有关”
C .在犯错误的概率不超过0.1%的前提下,认为“高血压与患心脏病无关”
D .在犯错误的概率不超过0.1%的前提下,认为“高血压与患心脏病有关” 2.下列命题中错误的是( )
A .样本数据的方差越小,则数据离散度越小
B .在残差图中,残差点分布的带状区域的宽度越狭窄,其模型拟合的精度越高
C .相关系数r 满足1r ≤且r 越接近1,线性相关程度越强,r 越接近0,线性相关程度越弱
D .相关指数越小,回归直线拟合效果越好.
3.某车间加工零件的数量x 与加工时间y 的统计数据如表:
该车间的负责人作出散点图,发现x ,y 是线性相关的,并求出y 关于x 的线性回归方程
235
17
=+
y bx (其中b 是常数),据此回归模型可以预测,加工20个零件所需要的加工时间约为( ) A .45分钟 B .46分钟 C .47分钟 D .48分钟 4.某同学用收集到的6组数据对(,)(1,2,3,4,5,6)i i x y i =制作成如图所示的散点图(点旁
的数据为该点坐标),并由最小二乘法计算得到回归直线1l 的方程:11y b x a =+,相关系数为1r ,相关指数为2
1R ;经过残差分析确定点E 为“离群点”(对应残差过大的点),把它去掉后,再用剩下的5组数据计算得到回归直线2l 的方程:22y b x a =+,相关系数为
2r ,相关指数为22R .则以下结论中,不正确的是( )
A .10r >,20r >
B .10b >,20b >
C .12b b >
D .22
12R R >
5.根据如表样本数据:
x 3 5 7 9 y
6
a
3
2
得到回归方程ˆ0.78.2y
x =-+,(回归方程的斜率ˆb ,截距ˆa ,满足:ˆˆa y bx =-),则下列结论:
①变量x 与y 是线性正相关关系,②变量x 与y 是线性负相关关系,③5a =,④ 4.7a =,其中正确的是( ) A .①③
B .②③
C .①④
D .②④
6.某同学将收集到的六组数据制作成散点图如图所示,并得到其回归直线的方程为
1:0.68ˆl y x a
=+,计算其相关系数为1r ,相关指数为21R .经过分析确定点F 为“离群点”,把它去掉后,再利用剩下的5组数据计算得到回归直线的方程为2:0.68ˆl y bx
=+,相关系数为2r ,相关指数为2
2R .以下结论中,不正确...
的是
A .120,0r r >>
B .22
12R R >
C .ˆ0.12a =
D .68ˆ00.b
<< 7.①线性回归方程对应的直线ˆˆˆy bx a =+至少经过其样本数据点
1122(,),(,)(,)n n x y x y x y 中的一个点;
②若两个变量的线性相关性越强,则相关系数的绝对值越接近于1;
③在某项测量中,测量结果ξ服从正态分布2(1,)N σ(0)σ>,若ξ位于区域(0,1)内的概率为0.4,则ξ位于区域(0,2)内的概率为0.8;
④对分类变量X 与Y 的随机变量K 2的观测值k 来说,k 越小,判断“X 与Y 有关系”的把握越大.其中真命题的序号为( ) A .①④
B .②④
C .①③
D .②③
8.对于分类变量X 与Y 的随机变量2K 的观测值k ,下列说法正确的是 A .k 越大,“X 与Y 有关系”的可信程度越小 B .k 越小,“X 与Y 有关系”的可信程度越小 C .k 越接近于0,“X 与Y 没有关系”的可信程度越小 D .k 越大,“X 与Y 没有关系”的可信程度越大 9.下列说法:
①将一组数据中的每一个数据都加上或减去同一个常数后,方差不变;
②设有一个线性回归方程35y x =-,变量x 增加1个单位时,y 平均增加5个单位; ③设具有相关关系的两个变量x ,y 的相关系数为r ,则|r|越接近于0,x 和y 之间的线性相关程度越强;
④在一个2×2列联表中,由计算得K 2的值,则K 2的值越大,判断两个变量间有关联的把握就越大.
以上错误结论的个数为( ) A .0
B .1
C .2
D .3
10.由变量x 与y 相对应的一组数据()12,y 、()24,y 、()3 6,y 、()48,y 、()5 10,y 得到
的线性回归方程为ˆ 1.212y
x =+,则12345y y y y y ++++等于( )
A .88
B .90
C .92
D .96
11.已知具有线性相关的五个样本点()10,0A ,()22,2A ,()33,2A ,()44,2A ,
()56,4A ,用最小二乘法得到回归直线方程1l :y bx a =+,过点1A ,2A 的直线方程2l :
y mx n =+,那么下列4个命题中,①m b >,a n >;②直线1l 过点3A ;

()()
5
5
22
1
1
i
i
i
i
i i y bx a y mx n ==--≥--∑∑;④
5
5
1
1
i
i
i
i
i i y bx a y mx n ==--≥--∑∑,正确命
题的个数有( ) A .1个
B .2个
C .3个
D .4个
12.以下四个命题中: ①函数关系是一种确定性关系;
②回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法; ③独立性检验中的统计假设就是假设相关事件A 、B 相互独立; ④某项测量结果ξ服从正态分布(
)2
1,N σ,且(5)0.81P ξ≤=,则(31)0.31P ξ-≤<=.
以上命题中,真命题的个数为( ) A .1个
B .2个
C .3个
D .4个
13.下列说法中错误的是( )
A .先把高二年级的1000名学生编号为1到1000,再从编号为1到50的50名学生中随机抽取1名学生,其编号为m ,然后抽取编号为50m +,100m +,150m +的学生,
这样的抽样方法是系统抽样法.
B .正态分布()1,9N 在区间()1,0-和()2,3上取值的概率相等
C .若两个随机变量的线性相关性越强,则相关系数r 的值越接近于1
D .若一组数据123a 、、、的平均数是2,则这组数据的众数和中位数都是2
二、解答题
14.某学校共有1000名学生,其中男生400人,为了解该校学生在学校的月消费情况,采取分层抽样随机抽取了100名学生进行调查,月消费金额分布在450~950之间.根据调查的结果绘制的学生在校月消费金额的频率分布直方图如图所示:
将月消费金额不低于750元的学生称为“高消费群”.
(1)求a 的值,并估计该校学生月消费金额的平均数(同一组中的数据用该组区间的中点
值作代表);
(2)现采用分层抽样的方式从月消费金额落在[550,650),[750,850)内的两组学生中抽取10人,再从这10人中随机抽取3人,记被抽取的3名学生中属于“高消费群”的学生人数为随机变量X ,求X 的分布列及数学期望;
(3)若样本中属于“高消费群”的女生有10人,完成下列22⨯列联表,并判断是否有
97.5%的把握认为该校学生属于“高消费群”与“性别”有关?
(参考公式:2
()()()()()
n ad bc K a b c d a c b d -=++++,其中)n a b c d =+++
15.为初步了解学生家长对艺术素质评价的了解程度,某校随机抽取100名学生家长参与问卷测试,并将问卷得分绘制频数分布表如下:
(1)将学生家长对艺术素质评价的了解程度分为“比较了解”(得分不低于60分)和“不太了解”(得分低于60分)两类,完成22⨯列联表,并判断是否有99.9%的把握认为“学生家长对艺术素质评价的了解程度”与“性别”有关?
(2)以这100名学生家长中“比较了解”的频率代替该校学生家长“比较了解”的概率.现在再随机抽取3名学生家长,设这3名家长中“比较了解”的人数为X ,求X 的概率分布列和数学期望.
附:()
()()()()
2
n ad bc a b c d a c b d χ-=
++++,()n a b c d =+++.
16.某企业为确定下一年投入某种产品的研发费用,需了解年研发费用x (单位:千万元)对年销售量y (单位:千万件)的影响,统计了近10年投入的年研发费用i x 与年销售
量()1
210i y i =⋯,,的数据,得到散点图如图所示.
(1)利用散点图判断y a bx =+和·d y c x =(其中c d ,均为大于0的常数)哪一个更适合作为年销售量y 和年研发费用x 的回归方程类型(只要给出判断即可,不必说明理由) (2)对数据作出如下处理,令,i i i i u lnx v lny ==,得到相关统计量的值如下表:根据第(1)问的判断结果及表中数据,求y 关于x 的回归方程;
10
1
i i v =∑
10
1
i
i u
=∑
()()10
1
i
i
i u u v v =--∑
()
10
2
1
i i u u =-∑
15 15 28.25 56.5
(3)已知企业年利润z (单位:千万元)与x y ,的关系为3
4
9
182
z e
y x =-
-(其中271828e ≈.),根据第(2)问的结果判断,要使得该企业下一年的年利润最大,预计下一年应投入多少研发费用?
附:对于一组数据()()()1122,,,n n u v u v u v ⋯,,,,其回归直线ˆˆˆv
u αβ=+的斜率和截距的最小二乘估计分别为()()
()
1
2
1
n
i
i
i n
i
i u u v v u u β==--=
-∑∑,ˆa
v u β=- 17.为了解某地区某种产品的年产量x (单位:吨)对价格y (单位:千元/吨)和利润z 的影响,对近五年该农产品的年产量和价格统计如下表:
x
1 2
3
4
5
y 7.0 6.5
5.5 3.8
2.2
(1)求y 关于x 的线性回归方程ˆy bx
a =+;
(2)若每吨该农产品的成本为3千元,假设该农产品可全部卖出,预测当年产量为多少时,年利润z取到最大值?(保留两位小数)
参考公式:()() (
)
11
22
2
11
ˆ
n n
i i i i
i i
n n
i i
i i
x x y y x y nx y
b
x x x nx
==
==
---
==
--
∑∑
∑∑
,ˆ
a y bx
=-,
5
62.7
i i
i
x y=
∑.
18.某中学一名数学老师对全班50名学生某次考试成绩分男女生进行了统计,其中120分(含120分)以上为优秀,绘制了如下的两个频率分布直方图:
(1)根据以上两个直方图完成下面的22
⨯列联表:
成绩
性别
优秀不优秀合计
男生
女生
总计
(2)根据(1)中表格的数据计算,你有多大把握认为学生的数学成绩与性别之间有关系?
k 2.072 2.706 3.841 5.024 6.6357.87910.828
()
2
P K k
≥0.150.100.050.0250.0100.0050.001
(3)若从成绩在[130,140]的学生中任取2人,求取到的2人中至少有1名女生的概率. 19.为了解某地区足球特色学校的发展状况,某调查机构得到如下统计数据:
年份x20142015201620172018
足球特色学
校y(百
个)
0.300.60 1.00 1.40 1.70
(1)根据上表数据,计算y与x的相关系数r,并说明y与x的线性相关性强弱(已知:0.751
r
≤≤,则认为y与x线性相关性很强;0.30.75
x
≤≤,则认为y与x线性相关性
一般,0.25r ≤,则认为y 与x 线性相关性较弱)
(2)求y 与x 的线性回归方程,并预测该地区2019年足球特色学校的个数(精确到个位) 参考公式:
()()
n
i
i
x x y y r --=
∑()()2
2
1
1
,10, 3.6056n
n
i i i i x x y y ==-=-=≈∑∑;
()()
()
1
2
1
,n
i
i
i n
i
i x x y
y b a y bx x x ==--=
=--∑∑
20.交通部门调查在高速公路上的平均车速情况,随机抽查了60名家庭轿车驾驶员,统计其中有40名男性驾驶员,其中平均车速超过90/km h 的有30人,不超过90/km h 的有10人;在其余20名女性驾驶员中,平均车速超过90/km h 的有5人,不超过90/km h 的有15人.
(1)完成下面的22⨯列联表,并据此判断是否有99.9%的把握认为,家庭轿车平均车速超过90/km h 与驾驶员的性别有关;
(2)根据这些样本数据来估计总体,随机调查3辆家庭轿车,记这3辆车中,驾驶员为女性且平均车速不超过90/km h 的人数为ξ,假定抽取的结果相互独立,求ξ的分布列和数学期望.
参考公式:2
2
()()()()()
n ad bc K a b c d a c b d -=++++其中n a
b c d =+++
临界值表:
21. 2.5PM 的值表示空气中某种颗粒物的浓度,通常用来代表空气的污染情况,这个值越高,空气污染越严重,下表是某城市开展“绿色出行,健康生活”活动,居民每天采用“绿色出行”的人数与 2.5PM 值的一组数据:
(1)已知“绿色出行”的人数x 和 2.5PM 值y 有线性相关性,求y 关于x 的线性回归方程;(计算结果保留两位小数)
(2)若某日“绿色出行”的人数为10万人,请预测该市 2.5PM 的值.(计算结果保留一位小数) 参考公式:
1
2
2
1
ˆˆ,n
i i
i n
i
i x y nx y
b
a y bx
x
nx ==-⋅==--∑∑ 22.某车间为了规定工时额定,需要确定加工零件所花费的时间,为此作了6
次试验,得到数据如下:
(1)试对上述变量x 与y 的关系进行相关性检验,如果x 与y 具有线性相关关系,求出y 对x 的回归直线方程;
(2)根据(1)的结论,你认为每小时加工零件的数量额定为多少(四舍五入为整数)比较合理?
附:相关性检验的临界值表
()()
n
n
i
i
i i
x x y y x y nx y
r ---=
=
∑∑()()()
1
1
2
2
21
1
n
n
i
i
i i
i i n
n
i
i
i i x x y y x y nx y
b x x x
nx
====---=
=
--∑∑∑∑,y a bx =+
42.0≈27.5≈
23.根据教育部高考改革指导意见,广东省从2021年正式实施“312++”新的高考考试方案.为尽快了解学生的选科需求,及时调整学校人力资源配备.某校从高一学生中抽样调查了100名同学,在模拟分科选择中,一半同学(其中男生38人)选择了物理,另一半(其中男生14人)选择了历史.请完成以下22⨯列联表,并判断能否有99.9%的把握说选科与性别有关?
参考公式:2
2
()()()()()
n ad bc K a b c d a c b d -=++++,其中n a b c d =+++为样本容量.
24.某书店销售刚刚上市的某高二数学单元测试卷,按事先拟定的价格进行5天试销,每种单价试销1天,得到如下数据:
(1)求试销5天的销量的方差和y 关于 x 的回归直线方程;
附: 1
1
2
2
2
1
1
()(ˆˆ,(ˆ))
n
n
i
i
i i
i i n
n
i
i
i i x x y y x y nxy
b
a
y bx x x x
nx ====---==
=---∑∑∑∑. (2)预计以后的销售中,销量与单价服从上题中的回归直线方程,已知每册单元测试卷的成本是10元,为了获得最大利润,该单元测试卷的单价应定为多少元?
25.网购是现在比较流行的一种购物方式,现随机调查50名个人收入不同的消费者是否喜欢网购,调查结果表明:在喜欢网购的25人中有18人是低收入的人,另外7人是高收入的人,在不喜欢网购的25人中有6人是低收入的人,另外19人是高收入的人.
(Ⅰ)试根据以上数据完成22⨯列联表,并用独立性检验的思想,指出有多大把握认为是否喜欢网购与个人收入高低有关系;
(Ⅱ)将5名喜欢网购的消费者编号为1、2、3、4、5,将5名不喜欢网购的消费者编号也记作1、2、3、4、5,从这两组人中各任选一人进行交流,求被选出的2人的编号之和为2的倍数的概率. 参考公式:()
()()()()
2
2
n ad bc a b c d a c b d χ-=++++
参考数据:
26.某地区不同身高()x cm 的未成年男孩的体重平均值()y kg 如下表:
已知ln y 与x 之间存在很强的线性相关性, (1)据此建立y 与x 之间的回归方程;
(2)若体重超过相同身高男性体重平均值的1.2倍为偏胖,低于0.8倍为偏瘦,那么这个地区一名身高150cm 体重为45kg 的在校男生的体重是否正常? 参考数据:
()51
ln 940i
i
i x y =⋅=∑,5
1
ln 11.5i
i y
==∑, 3.740.5e ≈
附:对于一组数据()11,v μ,()22,v μ,…,(),n n v μ,其回归直线v bx a =+中的斜率和截
距的最小二乘估计分别为12
2
1
ˆn
i i i n
i
i v n v
b
n μμμ
μ==-=-∑∑,ˆˆa
v b μ=-.
【参考答案】***试卷处理标记,请不要删除
一、选择题 1.B 解析:B 【分析】
根据所给的列联表,利用公式求出这组数据的观测值,把观测值同临界值进行比较,即可得到结果. 【详解】
由列联表中的数据可得2K 的观测值,
()
2
2110205010307.486 6.63530805060
K ⨯-⨯=
=≥⨯⨯⨯,
根据参考数据:
()
2 6.6350.01
p K≥=,
∴有10.0199%
-=的把握认为高血压与患心脏病有关,
即有99%的把握认为高血压与患心脏病有关,故选B.
【点睛】
本题考查独立性检验的应用,属于基础题. 独立性检验的一般步骤:(1)根据样本数据制
成22
⨯列联表;(2)根据公式
()
()()()()
2
2
n ad bc
K
a b a d a c b d
-
=
++++
计算2
K的值;(3) 查表
比较2
K与临界值的大小关系,作统计判断.
2.D
解析:D
【分析】
运用相关系数、变量间的相关关系来进行判定
【详解】
对于A,样本数据的方差越小,则数据离散度越小正确
对于B,在残差图中,残差点分布的带状区域的宽度越狭窄,其模型拟合的精度越高正确对于C,相关系数r满足1
r≤且r越接近1,线性相关程度越强,r越接近0,线性相关程度越弱正确
对于D,相关指数越小说明残差平方和越大,则拟合效果越差,故D错误
故选D
【点睛】
本题考查对变量间的相关关系进行判定,结合残差图、相关系数来进行分析即可得到结果,较为基础
3.D
解析:D
【分析】
求出样本数据的中心坐标(,)
x y,代入回归直线方程,求出ˆb,得到回归直线方程,然后求解加工20个零件所需要的加工时间,得到答案.
【详解】
由题意,根据表中的数据,可得
1
(911141516)13
5
x=++++=,
1
(3032364042)36
5
y=++++=,即样本中心点为(13,36),
将样本中心点为(13,36)代入回归方程,可得
235
3613
17
b
=⨯+,解得
29
17
b=,
所以回归方程为
29235
1717
y x
=+,
当20x 时,292358152047.9848171717
y =
⨯+=≈≈(分钟). 故选:D. 【点睛】
本题主要考查了线性回归方程的求法及应用,其中解答中熟记回归直线方程经过样本中心点是解答的关键,着重考查推理与运算能力.
4.D
解析:D 【解析】
分析:利用回归方程的性质,利用相关系数和相关指数分析解答.
详解:从图形中可以看出,两个变量是正相关,所以选项A 是正确的;从图形中可以看出,回归直线的纵截距是正数,所以选项B 和C 是正确的;因为
2212
1
()1()n
i i n
i
i y y R y
y ∧
==-=-
-∑∑其中i
y y ∧
-=真实值-预报值=残差,2R 值越大,说明残差
的平方和越小,也就是说模型的拟合效果越好.所以选项D 是错误的.故答案为D. 点睛:(1)本题主要考查回归方程的性质,考查相关系数和相关指数,意在考查学生对这些
基础知识的掌握水平和分析推理能力.(2)
相关系数:()()
n
i
i
x x y y r --=

0r >,表示两个变量正相关;0r <,表示两个变量负相关;r 的绝对值越接近1,表明两个变量的线性相关性越强.r 的绝对值越接近0,表明两个变量之间几乎不存在线性相关关系.通常,r 的绝对值大于0.75时,表明两个变量的线性相关性很强.
5.B
解析:B 【分析】
由表达式判断应为负相关,由样本中心经过回归方程反推出a 值即可 【详解】
由题可知,变量x 与y 是线性负相关关系,求得3579
64
x +++=
=,由样本中心过线性
回归方程得0.78.20.768.24y x =-+=-⨯+=,由632
454
a y a +++==⇒= 故正确序号为:②③ 故选:B 【点睛】
本题考查线性回归方程的辨析,样本中心经过线性回归方程为重要特征,属于中档题
6.B
解析:B 【分析】
根据相关性的正负判断1r 和2r 的正负,根据两个模型中回归直线的拟合效果得出2
1R 和2
2
R 的大小关系,将第一个模型中的样本数据中心点代入直线1l 的方程得出a 的值,由两回归直线的倾斜程度得出两回归直线的斜率大小关系. 【详解】
由图可知两变量呈现正相关,故120,0r r >>,且12r r <,故22
12R R <,
故A 正确,B 不正确.
又回归直线1:0.68ˆl y x a
=+必经过样本中心点(3.5,2.5),所以2.50.68 3.5ˆ0.12a
=-⨯=,C 正确. 回归直线2:0.68ˆl y bx
=+必经过样本中心点(3,2),所以230.68ˆb =⨯+, 所以ˆ0.44b
=,也可直接根据图象判断68ˆ00.b <<(比较两直线的倾斜程度),故D 正确.故选B . 【点睛】
本题考查回归分析,考查回归直线的性质、相关系数、相关指数的特点,意在考查学生对这些知识点的理解,属于中等题.
7.D
解析:D 【解析】
对于①,因为线性回归方程是由最小二乘法计算出来的,所以它不一定经过其样本数据点,一定经过(,)x y ,故错误;对于②,根据随机变量的相关系数知,两个随机变量相关性越强,则相关系数的绝对值越接近于1,故正确;对于③,变量ξ服从正态分布
()
21,N σ,则(02)2(01)0.8P P ξξ<<=<<=,故正确;对于④,随机变量2K 的观
测值越大,判断“X 与Y 有关系”的把握越大,故错误. 故选D.
点睛:在回归分析中易误认为样本数据必在回归直线上,实质上回归直线方程必过(,)x y 点,可能所有的样本数据点都不在直线上.
8.B
解析:B 【解析】
选B K 2的观测值k 越大,“X 与Y 有关系”的可信程度越大.因此,A 、C 、D 都不正确.
9.C
解析:C 【解析】
方差反映一组数据的波动大小,将一组数据中的每个数据都加上或减去同一个常数后,方
差不变,故①正确;在线性回归方程=3-5x 中,变量x 增加1个单位时,y 平均减小5个单位,故②不正确;根据线性回归分析中相关系数的定义:在线性回归分析中,相关系数为r ,|r|越接近于1,相关程度越强,故③不正确;对分类变量x 与y 的随机变量的观测值K 2来说,K 2越大,“x 与y 有关系”的可信程度越大,故④正确.综上所述,错误结论的个数为2,故选C.
10.D
解析:D 【分析】
求出x ,代入ˆ 1.212y
x =+,可得y ,则12345y y y y y ++++可求解. 【详解】
由题中所给的点,可以求得246810
65
x ++++=
=,
代入ˆ 1.212y
x =+,可得 1.261219.2y =⨯+=, 所以12345519.296y y y y y ++++=⨯=, 故选:D. 【点睛】
该题考查的是有关回归直线方程的应用,涉及到的知识点有回归直线过样本中心点,属于简单题目.
11.B
解析:B 【分析】
先求出1l 为0.60.2y x =+,直线2l 的方程为y x =,再逐一分析判断每一个命题真假得解. 【详解】 由题意可得:0234635x ++++=
=,02224
25
y ++++==,
则()()
()
1
2
1
0.6n
i
i
i n
i
i x x y y b x x ==--=
=-∑∑,0.2a y bx =-=,
所以线性回归方程1l 为0.60.2y x =+, 直线2l 的方程为:y x =,
故0.6b =,0.2a =,1m =,0n =,说法①正确;
30.60.22⨯+=,则直线1l 过3A ,说法②正确;
()
5
2
1
0.8i
i
i y bx a =--=∑,()5
2
1
9i i n y mx n =--=∑,说法③错误;
51
1.6i
i
i y bx a =--=∑,5
1
5i
i
i y mx n =--=∑,说法④错误;
综上可得正确命题的个数有2个. 故选:B. 【点睛】
本题主要考查最小二乘法求线性回归方程,考查和式的计算,意在考查学生对这些知识的理解掌握水平.
12.D
解析:D 【分析】
对四个命题一个一个进行判断. 【详解】
①函数关系是一种确定性关系,所以①是正确的;
②回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法, 所以②是正确的;
③独立性检验中的统计假设就是假设相关事件A 、B 相互独立,所以③是正确的; ④某项测量结果ξ服从正态分布(
)2
1,N σ,由正态分布定义可知它的图像是关于1x =对
称,
因为(5)0.81P ξ≤=,则(5)(3)10.810.19P P ξξ>=<-=-=, 所以()11
(31)(35)120.190.3122
P P ξξ-≤<=-≤≤=-⨯=,所以④是正确的; 故选:D 【点睛】
本题考查了对相关关系概念的理解、正态分布的对称性,属于一般题.
13.C
解析:C 【分析】
对于A ,根据系统抽样的定义可判断;对于B ,根据正态分布的对称性可判断在两个区间上的概率;对于C ,两个随机变量的线性相关性越强,则相关系数r 的值越接近于1,可进行判断;对于D ,根据一组数据123a 、、、的平均数是2,得2a =,求得该组数据的众数和中位数,可判断D. 【详解】
对于A ,根据抽样方法特征是数据多,抽样间隔相等,是系统抽样,A 正确;
对于B ,正态分布()19
N ,的曲线关于1x =对称,区间()10-,和()23,与对称轴距离相等,所以在两个区间上的概率相等,B 正确;
对于C ,两个随机变量的线性相关性越强,则相关系数r 的值越接近于1,C 错误; 对于D ,一组数据123a 、、、的平均数是2,2a ∴=;所以该组数据的众数和中位数均为
2,D 正确.. 【点睛】
本小题考查系统抽样,线性回归,线性相关,平均数,中位数与众数等基础知识,意在考查学生分析问题,及解决问题的能力和运算求解能力.
二、解答题
14.(1)0.0035a =,平均数为670元;(2)分布列答案见解析,数学期望:
910
;(3)22⨯列联表答案见解析,有97.5%的把握认为该校学生属于“高消费群”与性别有关. 【分析】
(1)由频率分布直方图中频率和为1可求得a ,每组数据用该组区间的中点值乘以频率相加得均值;
(2)由频率分布直方图知从[550,650)中抽取7人,从[750,850)中抽取3人,随机变量X 的所有可能取值有0,1,2,3,求出各概率得分布列,然后由期望公式得期望; (3)样本中男生40人,女生60人属于“高消费群”的25人,其中女生10人,由频率分布直方图求出高消费群人数,可得高消费群中男生人数,从而可填写列联表,并计算出2K 后可得结论. 【详解】
(1)由题意知100(0.00150.00250.00150.001)1a ⨯++++=,解得0.0035a =, 样本平均数为5000.156000.357000.258000.159000.10670x =⨯+⨯+⨯+⨯+⨯=元. (2)由题意,从[550,650)中抽取7人,从[750,850)中抽取3人, 随机变量X 的所有可能取值有0,1,2,3.
337
3
10
()(0k k
C C P X k k C -===,1,2,3)所以随机变量X 的分布列为:
随机变量X 的数学期望()2312012012010
E X =
+⨯+⨯=. (3)由题可知,样本中男生40人,女生60人,属于“高消费群”的25人,其中女生10人;得出以下22⨯列联表:
222
()100(10251550)50
5.024()()()()257540609
n ad bc K a b c d a c b d -⨯-⨯===≈++++⨯⨯⨯,
所以有97.5%的把握认为该校学生属于“高消费群”与性别有关. 【点睛】
本题考查频率分布直方图,考查分层抽样,随机变量的概率分布列和数学期望,考查独立性检验.旨在考查学生的数据处理能力,运算求解能力.
15.(1)有99.9%的把握认为学生家长对艺术素质评价的了解程度与性别有关. (2)分布列见解析,21
()10
E X = 【分析】
(1)完成列联表,求出211.2910.828X ≈>,从而有99.9%的把握认为学生家长对艺术素质评价的了解程度与性别有关. (2)推导出7~3,10X B ⎛⎫
⎪⎝⎭
,由此能求出X 的概率分布和数学期望. 【详解】
解:(1)由题意得到列联表如下:
2
11.29()()()()30704258
K a b c d a c b d ==≈++++⨯⨯⨯.
11.2910.828>,
∴有99.9%的把握认为学生家长对艺术素质评价的了解程度与性别有关.
(2)由题意得该校1名学生家长“比较了解”的概率为70710010
=,且7
~(3,)10X B ,
03
3327(0)()101000P X C ===,
12373189(1)()()10101000P X C ===, 22373441(2)()()10101000P X C ===, 33
37343(3)()101000
P X C ===,
X ∴的分布列为:
()0123100010001000100010
E X =⨯
+⨯+⨯+⨯=. 【点睛】
独立性检验得出的结论是带有概率性质的,只能说结论成立的概率有多大,而不能完全肯定一个结论,因此才出现了临界值表,在分析问题时一定要注意这点,不可对某个问题下确定性结论,否则就可能对统计计算的结果作出错误的解释. 16.(1) 选择d y c x =⋅更合适;(2)
y =. (3) 要使年利润取最大值,预计下一年应投
入4千万元的研发费用 【分析】
(1)根据散点图分布,可知更符合指数型模型,可得结果;(2)对d
y c x =⋅两边取倒
数,得到ln v c du =+,采用最小二乘法可求得d 和ln c ,从而得到结果;(3)由(2)
可得()9
2
z x x =,利用导数可判断出()z x 单调性,可知当4x =时,()z x 取最大值,从而得到结果. 【详解】
(1)由散点图知,选择d
y c x =⋅更合适
(2)对d
y c x =⋅两边取对数,得ln ln ln y c d x =+,即:ln v c du =+
由表中数据得32u v ==
28.251
56.52
d ∴=
= 令ln c m =,则3133
2224
m v du =-=
-⨯=,即34c e = ∴年销售y 和年研发费用x 的回归方程为:
y =
(3)由(2)知,()9
2
z x x =,则()92z x =
' 令()0z x '=,得4x =
当()0,4x ∈时,()0z x '>;当()4,x ∈+∞时,()0z x '<
()z x ∴在()0,4上单调递增;在()4,+∞上单调递减
∴当4x =千万元时,年利润z 取得最大值,且最大值为:()418z =千万元 1.8=亿元 ∴要使年利润取最大值,预计下一年应投入4千万元的研发费用
【点睛】
本题考查统计中的数据的相关性的问题,涉及到非线性回归模型方程的求解、利用导数求解函数的最值的问题;解题关键是能够将非线性回归模型转化为线性回归模型,从而利用最小二乘法求得回归模型.
17.(1) 1.238.69y x =-+;(2)2.31吨. 【分析】
(1)计算出x 和y ,将表格中的数据代入最小二乘法公式求得b 和a 的值,由此可求得回归直线方程;
(2)求得z 关于x 的函数解析式为21.23 5.69z x x =-+,利用二次函数的基本性质可求得该函数取得最大值时对应的x 值,由此可得出结论. 【详解】
(1)由表格中的数据可得12345
35x ++++=
=,7.0 6.5 5.5 3.8 2.255
y ++++==,
5
1
62.7i i
i x y
==∑,5
21
55i i x ==∑,
所以,21
5
2
2
5
1
562.7535
ˆ 1.235553
5i i
i i i x y x y
b
x x
==--⨯⨯==
=--⨯-∑∑,()5 1.2338.69a ∴=--⨯=, 因此,回归直线方程为 1.238.69y x =-+;
(2)年利润()2
8.69 1.233 1.23 5.69z x x x x x =--=-+.
当 5.69
2.312 1.23x =
≈⨯时,z 有最大值,因此当 2.31x =吨,年利润z 最大.
【点睛】
本题考查利用最小二乘法求回归直线方程,同时也考查了利用回归直线方程对总体进行估计,考查计算能力,属于中等题.
18.(1)详见解析;(2)有95%的把握认为学生的数学成绩与性别之间有关系;(3)
35
. 【分析】
(1)根据表格数据填写好22⨯联表;(2)计算出2K 的数值,由此判断出所以有95%的把握认为学生的数学成绩与性别之间有关系.(3)先计算出男生、女生分别有多少人,然后用1减去全部都是男生的概率,求得所求的概率. 【详解】 (1)。

相关文档
最新文档