(常考题)人教版高中数学选修三第三单元《成对数据的统计分析》测试卷(有答案解析)
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
一、选择题
1.某校对学生进行心理障碍测试,得到的数据如下表:
根据以上数据可判断在这三种心理障碍中,与性别关系最大的是( ) A .焦虑 B .说谎
C .懒惰
D .以上都不对
2.以下说法:
①将一组数据中的每一个数据都加上或减去同一个常数后,方差不变;
②设有一个回归方程ˆ35y
x =-,变量x 增加1个单位时,y 平均增加5个单位 ③线性回归方程ˆy bx a =+必过(),x y
④设具有相关关系的两个变量,x y 的相关系数为r ,那么||r 越接近于0,,x y 之间的线性相关程度越高;
⑤在一个22⨯列联表中,由计算得2K 的值,那么2K 的值越大,判断两个变量间有关联的把握就越大。
其中错误..
的个数是( ) A .0 B .1 C .2
D .3
3.给出如下列联表
2(10.828)0.001P K ≥≈,2( 6.635)0.010P K ≥≈参照公式
()()()()()
2
n ad bc k a b c d a c b d -=++++,得到的正确结论是( )
A .有99%以上的把握认为“高血压与患心脏病无关”
B .有99%以上的把握认为“高血压与患心脏病有关”
C .在犯错误的概率不超过0.1%的前提下,认为“高血压与患心脏病无关”
D .在犯错误的概率不超过0.1%的前提下,认为“高血压与患心脏病有关” 4.下列说法正确的是( )
A .在统计学中,回归分析是检验两个分类变量是否有关系的一种统计方法
B .线性回归方程对应的直线y b x a ∧
∧
∧
=+至少经过其样本数据点中的()11,x y ,()22,x y ,
()33,x y
(),n n x y 一个点
C .在残差图中,残差点分布的带状区域的宽度越狭窄,其模型拟合的精度越高
D .在回归分析中,相关指数2R 为0.98的模型比相关指数2R 为0.80的模型拟合的效果差 5.某同学将收集到的六组数据制作成散点图如图所示,并得到其回归直线的方程为
1:0.68ˆl y x a
=+,计算其相关系数为1r ,相关指数为21R .经过分析确定点F 为“离群点”,把它去掉后,再利用剩下的5组数据计算得到回归直线的方程为2:0.68ˆl y bx
=+,相关系数为2r ,相关指数为2
2R .以下结论中,不正确...
的是
A .120,0r r >>
B .22
12R R >
C .ˆ0.12a
= D .68ˆ00.b
<< 6.已知下列命题:
①回归直线ˆˆˆy bx a =+恒过样本点的中心(),x y ,且至少过一个样本点;
②两个变量相关性越强,则相关系数r 就越接近于1; ③将一组数据的每个数据都加一个相同的常数后,方差不变;
④在回归直线方程20.5ˆy
x =- 中,当解释变量x 增加一个单位时,预报变量ˆy 平均减少0.5;
⑤在线性回归模型中,相关指数2R 表示解释变量x 对于预报变量y 的贡献率,2R 越接近于1,表示回归效果越好;
⑥对分类变量X 与Y ,它们的随机变量2K 的观测值k 来说, k 越小,“X 与Y 有关系”的把握程度越大.
⑦两个模型中残差平方和越小的模型拟合的效果越好. 则正确命题的个数是( )
A .3
B .4
C .5
D .6
7.下列有关线性回归分析的六个命题: ①线性回归直线必过样本数据的中心点()
,x y ;
②回归直线就是散点图中经过样本数据点最多的那条直线; ③当相关性系数0r >时,两个变量正相关;
④如果两个变量的相关性越强,则相关性系数r 就越接近于1;
⑤残差图中残差点所在的水平带状区域越宽,则回归方程的预报精确度越高; ⑥甲、乙两个模型的2R 分别约为0.88和0.80,则模型乙的拟合效果更好. 其中真命题的个数为( ) A .1个
B .2个
C .3个
D .4个
8.下列关于独立性检验的叙述:
①常用等高条形图展示列联表数据的频率特征; ②独立性检验依据小概率原理;
③样本不同,独立性检验的结论可能有差异;
④对分类变量X 与Y 的随机变量2K 的观测值k 来说,k 越小,X 与Y 有关系的把握程度就越大.
其中正确的个数为( ) A .1 B .2
C .3
D .4
9.某村庄对改村内50名老年人、年轻人每年是否体检的情况进行了调查,统计数据如表
所示:
已知抽取的老年人、年轻人各25名.则完成上面的列联表数据错误的是( ) A .18a =
B .19b =
C .50c d +=
D .2f e -=-
10.已知,x y 的对应值表为:
且,x y 线性相关,由于表格污损,y 的对应值看不到了,若6
1
19.2i
i y
==∑,且线性回归直
线方程为0.6y x a =+,则8x =时,y 的预报值为( ) A .6.1
B .22.1
C .12.6
D .3.5
11.研究表明某地的山高()y km 与该山的年平均气温()x
C 具有相关关系,根据所采集
的数据得到线性回归方程ˆ260y x =-+,则下列说法错误..
的是( ) A .年平均气温为0时该山高估计为60km B .该山高为72km 处的年平均气温估计为60C
C .该地的山高y 与该山的年平均气温x 的正负相关性与回归直线的斜率的估计值有关
D .该地的山高y 与该山的年平均气温x 成负相关关系 12.有下列说法:
①若某商品的销售量y (件)关于销售价格x (元/件)的线性回归方程为
5350y x =-+,当销售价格为10元时,销售量一定为300件;
②线性回归直线y bx a =+一定过样本点中心(,)x y ;
③若两个随机变量的线性相关性越强,则相关系数r 的值越接近于1;
④在残差图中,残差点比较均匀落在水平的带状区域中即可说明选用的模型比较合适,与带状区域的宽度无关;
⑤在线性回归模型中,相关指数2R 表示解释变量对于预报变量变化的贡献率,2R 越接近于1,表示回归的效果越好; 其中正确的结论有几个( ) A .1
B .2
C .3
D .4
13.有一散点图如图所示,在5个(,)x y 数据中去掉(3,10)D 后,下列说法正确的是( )
A .残差平方和变小
B .相关系数r 变小
C .相关指数2R 变小
D .解释变量x 与预报变量y 的相关性变弱
二、解答题
14.近年来,“双11”网购的观念逐渐深入人心.某人统计了近5年某网站“双11”当天的交易额,,统计结果如下表: 年份 2015 2016 2017 2018 2019 年份代码x
1
2
3
4
5
交易额y /百亿元
9 12 17 21 26
r y x 留三位小数.(统计中用相关系数r 来衡量两个变量之间线性关系的强弱.若相应于变量x 的取值i x ,变量y 的观测值为i y (1i n ≤≤),则两个变量的相关系数的计算公式为:.统计学认为,对于变量
,如果[]1,0.75r -∈-,那么负相关很强;如果[]
0.751r ∈,,那么正相关很强;如果(]0.75,0.30r ∈--或[
)0.30,0.75r ∈,那么相关性一般;如果[]0.25,0.25r ∈-,那么相关性较弱);
(2)求出关于x 的线性y 回归方程,并预测2020年该网站“双11”当天的交易额.
参考公式:1
2
1
()()
()
ˆn
i
i
i n
i i x x y y b
x x ==--=-∑∑,ˆˆa
y bx =-186043.1≈. 15.近年来,“双11”网购的观念逐渐深入人心.某人统计了近5年某网站“双11”当天的交易额,统计结果如下表: 年份 2015 2016 2017 2018 2019 年份代码x 1 2 3 4 5 交易额y /百亿元
9
12
17
21
26
y x 留三位小数.(统计中用相关系数r 来衡量两个变量之间线性关系的强弱.若相应于变量x 的取值i x ,变量y 的观测值为i y (1i n ≤≤),则两个变量的相关系数的计算公式为:
1
2
2
1
1
()()
()()
n
i
i
i n n
i
i
i i x x y y r x x y y ===--=
--∑∑∑.统计学认为,对于变量,x y ,如果[]1,0.75r ∈--,那么负
相关很强;如果[]
0.751
r ∈,,那么正相关很强;如果(]0.75,0.30r ∈--或[
)0.30,0.75r ∈,那么相关性一般;如果[]0.25,0.25r ∈-,那么相关性较弱);
(2)求出y 关于x 的线性回归方程,并预测2020年该网站“双11”当天的交易额.
参考公式:1
2
1
()()
()
ˆn
i
i
i n
i i x x y y b
x x ==--=-∑∑,ˆˆa
y bx =-186043.1≈. 16.某学校共有1000名学生,其中男生400人,为了解该校学生在学校的月消费情况,
采取分层抽样随机抽取了100名学生进行调查,月消费金额分布在450~950之间.根据调查的结果绘制的学生在校月消费金额的频率分布直方图如图所示:
将月消费金额不低于750元的学生称为“高消费群”.
(1)求a 的值,并估计该校学生月消费金额的平均数(同一组中的数据用该组区间的中点值作代表);
(2)现采用分层抽样的方式从月消费金额落在[550,650),[750,850)内的两组学生中抽取10人,再从这10人中随机抽取3人,记被抽取的3名学生中属于“高消费群”的学生人数为随机变量X ,求X 的分布列及数学期望;
(3)若样本中属于“高消费群”的女生有10人,完成下列22⨯列联表,并判断是否有
97.5%的把握认为该校学生属于“高消费群”与“性别”有关?
属于“高消费群” 不属于“高消费群” 合计
男 女 合计
(参考公式:2
()()()()()
n ad bc K a b c d a c b d -=++++,其中)n a b c d =+++
2()P K k
0.15 0.10 0.05 0.025 0.010 0.005 0.001 k 2.072
2.706
3.841
5.024
6.635
7.879
10.828
17.从某居民区随机抽取10个家庭,获得第i 个家庭的月收入i x (单位:千元)与月储蓄
i y ,(单位:千元)的数据资料,算出
10
101010
21
1
1
1
80,20184,720i
i i i i i i i i x
y x y x ========∑∑∑∑,,附:线性回归方程
1
2
2
1
ˆˆˆˆˆˆ,,n
i i
i n
i
i x y nxy
y
bx a b a
y bx x
nx ==-=+==--∑∑,其中,x y 为样本平均值. (1)求家庭的月储蓄y 对月收入x 的线性回归方程ˆˆˆy
bx a =+ ; (2)若该居民区某家庭月收入为7千元,预测该家庭的月储蓄.
18.西尼罗河病毒(WNV )是一种脑炎病毒,WNV 通常是由鸟类携带,经蚊子传播给人类.1999年8-10月,美国纽约首次爆发了WNV 脑炎流行.在治疗上目前尚未有什么特效药可用,感染者需要采取输液及呼吸系统支持性疗法,有研究表明,大剂量的利巴韦林含片可抑制WNV 的复制,抑制其对细胞的致病作用.现某药企加大了利巴韦林含片的生产,为了提高生产效率,该药企负责人收集了5组实验数据,得到利巴韦林的投入量x (千克)和利巴韦林含片产量y (百盒)的统计数据如下:
由相关系数可以反映两个变量相关性的强弱,,认为变量相关性很强;
||[0.3,0.75]r ∈,认为变量相关性一般;||[0,0.25]r ∈,认为变量相关性较弱.
(1)计算相关系数r ,并判断变量x 、y 相关性强弱;
(2)根据上表中的数据,建立y 关于x 的线性回归方程ˆˆˆy
bx a =+;为了使某组利巴韦林含片产量达到150百盒,估计该组应投入多少利巴韦林? 25.69≈.
参考公式:相关系数()()
n
i
i
x x y y r --=
∑ˆˆˆy
bx a =+中,()()
()
1
2
1
n
i
i
i n
i i x x y y b x x ==--=
-∑∑,ˆˆa
y bx =-. 19.某中学研究性学习小组为了考察高中学生的作文水平与爱看课外书的关系,在本校高三年级随机调查了50名学生.调查结果表明,在爱看课外书的24人中有18人作文水平好,另6人作文水平一般;在不爱看课外书的26人中有7人作文水平好,另19人作文水平一般.
(1)试根据以上数据完成以下2×2列联表,并运用独立性检验思想,指出有多大把握认为中学生的作文水平与爱看课外书有关系? 高中学生的作文水平与爱看课外书的2×2列联表
爱看课外书 不爱看课外书 总计
作文水平好 作文水平一般 总计
(2)将其中某4名爱看课外书且作文水平好的学生分别编号为1、2、3、4,某4名爱看课外书且作文水平一般的学生也分别编号为1、2、3、4,从这两组学生中各任选1人进行学习交流,求被选取的两名学生的编号之和为2的倍数或3的倍数的概率.
参考公2
2
()()()()()
n ad bc K a b c d a c b d -=++++其中n a b c d =+++·
参考数据:
()20P k k ≥
0.10 0.05 0.025 0.010 0.005 0.001 0k
2.706
3.841
5.024
6.635
7.879
10.828
20.海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了
100个网箱,测量各箱水产品的产量(单位:kg ),其频率分布直方图如下:
(1)网箱产量不低于40kg 为“理想网箱”,填写下面列联表,并根据列联表判断是否有
99.9%的把握认为“理想网箱”的数目与养殖方法有关:
箱产量40kg <
箱产量40kg ≥
合计
旧养殖法 新养殖法
(2)已知旧养殖法100个网箱需要成本50000元,新养殖法100个网箱需要增加成本
15750元,该水产品的市场价格为x 元/()15kg x ≥,根据箱产量的频率分布直方图(说
明:同一组中的数据用该组区间的中间值作代表),采用哪种养殖法,请给养殖户一个较好的建议,并说明理由. 附参考公式及参考数据:
()
()()()()
2
0n ad bc k a b c d a c b d -=++++
21.调查某桑场采桑员和辅助工桑毛虫皮炎发病情况结果如下表:
利用22⨯列联表的独立性检验估计,“患桑毛虫皮炎病与采桑”是否有关?认为两者有关系会犯错误的概率是多少?
随机量变2
2
()()()()()
n ad bc K a b c d a c b d -=
++++ (其中n a b c d =+++) 临界值表
22.某种产品的广告费支出x 与销售额y (单位:万元)之间有对应数据:
(1)求回归直线方程;
(2)试预测广告费支出为10万元时,销售额多大?
线性回归方程的系数公式为()()
()
11
2
2
21
1
n
n
i i
i
i
i i n
n
i
i
i i x y nx y x x y y b x
nx
x x ====---=
=
--∑∑∑∑,a y bx =-.
23.我市今年参加高考的考生是首次取消文理科后的新高考考生,新高考实行
“321++”,成绩由语文、数学、外语统一高考成绩和自主选考的3门普通高中学业水平考试等级性考试科目成绩构成.为了解各年龄层对新高考的了解情况,随机调查50人(把年龄在[)15,45称为中青年,年龄在[)45,75称为中老年),并把调查结果制成下表:
(1)请根据上表完成下面22⨯列联表,并判断是否有95%的把握认为对新高考的了解与年龄(中青年、中老年)有关?
附:()()()()()
2
2
n ad bc K a b c d a c b d -=
++++. (2)现采用分层抽样的方法从中老年人中抽取8人,再从这8人中随机抽取2人进行深入调查,求事件A :“恰有一人年龄在[
)45,55”发生的概率.
24.为了解某班学生喜欢数学是否与性别有关,对本班50人进行了问卷调查得到了如下的列联表,已知在全部50人中随机抽取1人抽到喜欢数学的学生的概率为
35
.
(1)请将上面的列联表补充完整(不用写计算过程);
(2)能否在犯错误的概率不超过0.005的前提下认为喜欢数学与性别有关?说明你的理由;
(3)现从女生中抽取2人进一步调查,设其中喜欢数学的女生人数为ξ,求ξ的分布列与期望.
下面的临界表供参考:
(参考公式:()()()()()
2
2
n ad bc K a b c d a c
b d -=++++,其中n a b
c
d =+++)
25.某食品店为了了解气温对销售量的影响,随机记录了该店1月份中5天的日销售量y (单位:千克)与该地当日最低气温x (单位:°C )的数据,如下表:
(1)求出y 与x 的回归方程y =b x +a ;
(2)判断y 与x 之间是正相关还是负相关;若该地1月份某天的最低气温为6°C ,请用所求回归方程预测该店当日的营业额.
附:回归方程y =b x +a ;中,b =
()122
1
()==--∑∑n
i i
i n
i
i x y nxy
x
n x ,a =y ﹣bx
26.某市实施二手房新政一年多以来,为了了解新政对居民的影响,房屋管理部门调查了2018年6月至2019年6月期间购买二手房情况,首先随机抽取了其中的400名购房者,并对其购房面积m (单位:平方米,60130m ≤≤)讲行了一次统计,制成了如图1所示
的频率分布直方图,接着调查了该市2018年6月至2019年6月期间当月在售二手房的均价y (单位:万元/平方米),制成了如图2所示的散点图(图中月份代码1-13分别对应2018年6月至2019年6月)
(1)试估计该市市民的平均购房面积m (同一组中的数据用该组区间的中点值为代表);
(2)从该市2018年6月至2019年6月期间所有购买二手房的市民中任取3人,用频率估计概率,记这3人购房面积不低于100平方米的人数为X ,求X 的分布列与数学期望;
(3)根据散点图选择ˆˆy
a x =+ˆˆˆln y c d x =+两个模型讲行拟合,经过数据处理得到两个回归方程,分别为ˆ0.93690.0285y
x =+ˆ0.95540.0306ln y x =+,并得到一些统计量的值,如表所示:
ˆ0.93690.0285y
x =+ ˆ0.95540.0306ln y
x =+ ()()1
n
i
i
i x x y y =--∑
0.005459
0.005886
()()
2
2
1
1
n
n
i i i i x x y y ==--∑∑ 0.006050
请利用相关系数判断哪个模型的拟合效果更好,并用拟合效果更好的模型预测2019年8月份的二手房购房均价(精确到0.001).
参考数据:ln 20.69≈,ln3 1.10≈,ln15 2.71≈3 1.73≈15 3.87≈,
17 4.12≈
参考公式:()()
()()
1
2
2
1
1
n
i
i
i n
n
i i i i x x y y r x x y y ===--=
--∑∑∑
【参考答案】***试卷处理标记,请不要删除
一、选择题 1.B 解析:B 【分析】
分别求出三种关系的观测值,比较后可得结论. 【详解】
解:对于焦虑,说谎,懒惰三种心理障碍,设它们观测值分别为123,,K K K , 由表中数据可得:
()2
111056025200.86330802585K ⨯⨯-⨯=≈⨯⨯⨯,
()2
211010702010 6.36630802090K ⨯⨯-⨯=≈⨯⨯⨯,
()2311015301550 1.41030806545
K ⨯⨯-⨯=≈⨯⨯⨯,
因为2K 的值最大,所以说谎与性别关系最大. 故选:B. 【点睛】
本题考查独立性检验的应用,考查理解能力和计算能力.
2.C
解析:C 【分析】
根据用样本估计总体、线性回归方程、独立性检验的基本概念和基本性质,逐项判断,即可得到本题答案. 【详解】
方差反映一组数据的波动大小,将一组数据中的每个数据都加上或减去同一个常数后,方
差不变,故①正确;一个回归方程ˆ35y
x =-,变量x 增加1个单位时,y 平均减少5个单位,故②不正确;线性回归方程ˆy bx a =+必过样本中心点,故③正确;根据线性回归分析中相关系数的定义:在线性回归分析中,相关系数为r ,||r 越接近于1,相关程度越大,故④不正确;对于观察值2K 来说,2K 越大,“x 与y 有关系”的可信程度越大,故⑤正确. 故选:C 【点睛】
本题主要考查用样本估计总体、线性回归方程、独立性检验的基本思想.
3.B
解析:B 【分析】
根据所给的列联表,利用公式求出这组数据的观测值,把观测值同临界值进行比较,即可得到结果. 【详解】
由列联表中的数据可得2K 的观测值,
()
2
2110205010307.486 6.63530805060
K ⨯-⨯=
=≥⨯⨯⨯,
根据参考数据:
2 6.6350.01p K ≥=,
∴有10.0199%-=的把握认为高血压与患心脏病有关,
即有99%的把握认为高血压与患心脏病有关,故选B. 【点睛】
本题考查独立性检验的应用,属于基础题. 独立性检验的一般步骤:(1)根据样本数据制
成22⨯列联表;(2)根据公式()()()()()
2
2
n ad bc K a b a d a c b d -=++++计算2K 的值;(3) 查表
比较2K 与临界值的大小关系,作统计判断.
4.C
解析:C 【解析】
分析:首先对每个选项一一进行分析,需要明确独立性检验是检验两个分类变量是否有关系的一种统计方法,回归直线可能不过任何一个样本数据点,残差图中,残差点分布的带状区域的宽度越狭窄,其模拟精度越高,相关指数越大,拟合效果越好的结论,就可以正确选出结果.
详解:对于A ,统计学中,独立性检验是检验两个分类变量是否有关系的一种统计方法,所以A 错;
对于B ,线性回归方程对应的直线y b x a ∧
∧
∧
=+可能不过任何一个样本数据点,所以B 错误;
对于C ,残差图中,残差点分布的带状区域的宽度越狭窄,其模型拟合的精度越高,所以C 正确;
对于D ,回归分析中,相关指数2R 为0.98的模型比相关指数2R 为0.80的模型拟合的效果好,所以D 错误. 故选C.
点睛:根据概率统计中变量间的相关关系,线性回归方程以及残差图与相关指数2R 的概念,对选项中的命题进行分析、判断正误即可.
5.B
解析:B 【分析】
根据相关性的正负判断1r 和2r 的正负,根据两个模型中回归直线的拟合效果得出2
1R 和2
2
R 的大小关系,将第一个模型中的样本数据中心点代入直线1l 的方程得出a 的值,由两回归直线的倾斜程度得出两回归直线的斜率大小关系. 【详解】
由图可知两变量呈现正相关,故120,0r r >>,且12r r <,故22
12R R <,
故A 正确,B 不正确.
又回归直线1:0.68ˆl y x a
=+必经过样本中心点(3.5,2.5),所以2.50.68 3.5ˆ0.12a
=-⨯=,C 正确. 回归直线2:0.68ˆl y bx
=+必经过样本中心点(3,2),所以230.68ˆb =⨯+, 所以ˆ0.44b
=,也可直接根据图象判断68ˆ00.b <<(比较两直线的倾斜程度),故D 正确.故选B . 【点睛】
本题考查回归分析,考查回归直线的性质、相关系数、相关指数的特点,意在考查学生对这些知识点的理解,属于中等题.
6.B
解析:B 【分析】
由回归直线恒过样本中心点,不一定经过每一个点,可判断①;由相关系数的绝对值趋近于1,相关性越强,可判断②;由方差的性质可判断③;由线性回归直线方程的特点可判断④;相关指数R 2的大小,可判断⑤;由的随机变量K 2的观测值k 的大小可判断⑥;残差平方和越小,模型的拟合效果越好,可判断⑦. 【详解】
对于①,回归直线y b x a ∧
∧
∧
=+恒过样本点的中心(x y ,),可以不过任一个样本点,故①错误;
对于②,两个变量相关性越强,则相关系数r 的绝对值就越接近于1,故②错误; 对于③,将一组数据的每个数据都加一个相同的常数后,由方差的性质可得方差不变,故③正确;
对于④,在回归直线方程y ∧
=2﹣0.5x 中,当解释变量x 每增加一个单位时, 预报变量y ∧
平均减少0.5个单位,故④正确;
对于⑤,在线性回归模型中,相关指数R 2表示解释变量x 对于预报变量y 的贡献率,
R2越接近于1,表示回归效果越好,故⑤正确;
对于⑥,对分类变量X与Y,它们的随机变量K2的观测值k来说,k越大,
“X与Y有关系”的把握程度越大,故⑥错误;
对于⑦,可用残差平方和判断模型的拟合效果,残差平方和越小,模型的拟合效果越好,故⑦正确.
其中正确个数为4.
故选B.
【点睛】
本题考查命题的真假判断,主要是线性回归直线的特点和线性相关性的强弱、样本数据的特征值和模型的拟合度,考查判断能力,属于基础题.
7.B
解析:B
【解析】
分析:根据线性回归方程的几何体特征及残差,相关指数的概论,逐一分析四个选项的正误,可得结论.
详解:①线性回归直线必过样本数据中心点(),x y,故①正确;
②回归直线方程在散点图中可能不经过任意样本数据点,故②错误;
r>时,则两个变量正相关,故③正确;
③当相关性系数0
④如果两个变量的相关性越强,则相关性系数r就越接近于1或1-,故④错误;
⑤残差图中残差点所在的水平带状区域越窄,回归方程的预报精确度越高,故⑤错误;
⑥甲、乙两个模型的2R分别约为0.88和0.80,则模型甲的拟合效果更好,故⑥错误,真命题的个数为2,故选B.
点睛:本题以命题的真假判断为截体,考查了相关关系,回归分析、残差、相关指数等知识点,意在考查对基本概念掌握的熟练程度,难度不大,属于基础题.
8.C
解析:C
【解析】
分析:根据独立性检验的定义及思想,可得结论.
详解:①常用等高条形图展示列联表数据的频率特征;正确;
②独立性检验依据小概率原理;正确;
③样本不同,独立性检验的结论可能有差异;正确;
④对分类变量X与Y的随机变量2
K的观测值k来说,k越大,X与Y有关系的把握程度就越大.故④错误.
故选C.
点睛:本题考查了独立性检验的原理,考查了推理能力,属于基础题.
9.D
解析:D
【解析】
分析:先根据列联表列方程组,解得a,b,c,d,e,f,再判断真假.
详解:因为725,625,6,7,50,50a c b d a e b f c d e f +==+==+=+=+=+=, 所以18,19,50,24,26,2a b c d e f f e ==+===-= 选D.
点睛:本题考查列联表有关概念,考查基本求解能力.
10.A
解析:A 【分析】
求出,x y ,由线性回归方程必经过点(,x y )即得a ,代入8x =求解即可. 【详解】 由表格知,196
x =
, 6
1
19.2i
i y
==∑
3.2y ∴=,
代入0.6y x a =+得:19
3.20.66
a =⨯
+, 1.3a ∴=,
则回归方程为0.6 1.3y x =+, 当8x =时,0.68 1.3 6.1y =⨯+=, 故选:A . 【点睛】
本题主要考查了线性回归方程,线性回归方程的性质、应用, 属于中档题.
11.B
解析:B 【分析】
由已知线性回归直线方程ˆ260y
x =-+,可估计平均气温为60C 时该地的山高,即可得到答案. 【详解】
线性回归直线方程为ˆ260y
x =-+,当0x = 时ˆ60y =即年平均气温为0时该山高估计为60km ,故A 正确;当ˆ72y
=时解得6x =-即山高为72km 处的年平均气温估计为6C -,故B 错误;该地的山高y 与该山的年平均气温x 的正负相关性与回归直线的斜率
的估计值有关,故C 正确;
由20-<,该地的山高y 与该山的年平均气温x 成负相关关系,故D 正确.故选B 【点睛】
本题考查线性回归直线方程的应用,考查相关的意义,判断能力,属于基础题.
12.B
解析:B
【分析】
由最小二乘法求解回归直线和回归直线的性质可知①错误,②正确;随机变量为负相关
-,③错误;残差图中带状区域越窄,拟合度时,线性相关性越强,相关系数r越接近1
越高,④错误;2
R越接近1,模型拟合度越高,⑤正确;由此可得结果.
【详解】
①当销售价格为10时,销售量的预估值为300件,但预估值与实际值未必相同,①错误;
②由最小二乘法可知,回归直线必过(),x y,②正确;
-,③错误;
③若两个随机变量为负相关,若线性相关性越强,相关系数r越接近1
④残差图中,带状区域越窄,模型拟合度越高,④错误;
⑤相关指数2R越接近1,拟合度越高,则在线性回归模型中,回归效果越好,⑤正确.可知正确的结论为:②⑤,共2个
本题正确选项:B
【点睛】
本题考查统计案例部分命题的判断,涉及到回归直线、最小二乘法、相关系数、相关指数、残差图的相关知识.
13.A
解析:A
【分析】
D后,y与x的线性相关性加强,由相关系数r,相关指数2R 由散点图可知,去掉(3,10)
及残差平方和与相关性的关系得出选项.
【详解】
∵从散点图可分析得出:
只有D点偏离直线远,去掉D点,变量x与变量y的线性相关性变强,
∴相关系数变大,相关指数变大,残差的平方和变小,故选A.
【点睛】
该题考查的是有关三点图的问题,涉及到的知识点有利用散点图分析数据,判断相关系数,相关指数,残差的平方和的变化情况,属于简单题目.
二、解答题
14.(1)0.998;变量y 与x 的线性相关程度很强;(2)ˆ 4.3 4.1y
x =+;29.9百亿元. 【分析】
(1)直接将数据代入公式计算,即可得答案;
(2)利用最小二乘法求得y 关于x 的线性回归方程为ˆ 4.3 4.1y
x =+ ,再将6x =代入,即可得答案; 【详解】
(1)由题意,根据表格中的数据, 可得:1
(12345)35x =
++++=,1(912172126)175
y =++++=, 则
1
()()(13)(917)(53)(2617)43n
i
i
i x x y y =--=--+
+--=∑,
43.1=≈,
所以()()
43
0.99843.1
n
i
i
x x y y r --=
=
≈∑ 所以变量y 与x 的线性相关程度很强. (2)由(1)可得3x =,17y =,1
()()43n
i
i
i x x y y =--=∑,
又由
222
1
222(13)(23)(3(3)(43)(53)1)
0n
i
i x x ==-+-+-+-+-=-∑,
所以1
2
1
()()
43 4.30
)
ˆ1(n
i
i
i n
i i x x y y b
x x ==--==
=-∑∑,则ˆˆ17 4.33 4.1a y bx
=-=-⨯=, 可得y 关于x 的线性回归方程为ˆ 4.3 4.1y x =+ 令6x =,可得ˆ 4.36 4.129.9y
=⨯+=, 即2020年该网站“双11”当天的交易额29.9百亿元. 【点睛】
利用最小二乘法求回归直线方程,再利用方程进行预报值,准确计算是求解的关键.
15.(1)0.998;变量y 与x 的线性相关程度很强;(2)ˆ 4.3 4.1y
x =+;29.9百亿元. 【分析】
(1)根据表中数据可得x 、y ,再计算出
1
()()n
i
i
i x x y y =--∑和1
()()n
i
i
i x x y y =--∑,代入
()()
n
i
i
x x y y r --=
∑,得到数据与所给r 比较可得答案;
(2)由(1)可得x ,y ,
1
()()n
i
i
i x x y y =--∑,
计算出2
1
()n
i i x x =-∑,代入1
2
1
()()
()
ˆn
i
i
i n
i i x x y y b
x x ==--=-∑∑和ˆˆa
y bx =-可得答案. 【详解】
(1)由题意,根据表格中的数据, 可得:1
(12345)35x =
++++=,1(912172126)175
y =++++=, 则
1
()()(13)(917)(53)(2617)43n
i
i
i x x y y =--=--+
+--=∑,
43.1=≈,
所以()()
43
0.99843.1
n
i
i
x x y y r --=
=
≈∑, 所以变量y 与x 的线性相关程度很强. (2)由(1)可得3x =,17y =,1
()()43n
i
i
i x x y y =--=∑,
又由
222
1
222(13)(23)(3(3)(43)(53)1)
0n
i
i x x ==-+-+-+-+-=-∑,
所以1
2
1()()
43 4.30
)ˆ1(n
i
i
i n
i i x x y y b
x x ==--==
=-∑∑,则ˆˆ17 4.33 4.1a y bx
=-=-⨯=, 可得y 关于x 的线性回归方程为ˆ 4.3 4.1y x =+, 令6x =,可得ˆ 4.36 4.129.9y
=⨯+=, 即2020年该网站“双11”当天的交易额29.9百亿元. 【点睛】
本题考查了变量的相关性以及回归直线方程的求解,回归分析的目的是试图通过样本数据得到真实结构参数的估计值,并要求估计结果接近真实值,要求认真计算各个数值.。