数学(理)一轮复习 第十章 统计与统计案例 第讲 变量间的相关关系、统计案例

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第3讲变量间的相关关系、统计案例
)
1.变量间的相关关系
常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系.2.两个变量的线性相关
(1)从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这条直线叫回归直线.
(2)从散点图上看,点分布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点分布在左上角到右下角的区域内,两个变量的相关关系为负相关.
(3)回归方程为错误!=错误!x+错误!,其中错误!=错误!,
错误!=错误!-错误!错误!.
(4)相关系数
当r〉0时,表明两个变量正相关;
当r<0时,表明两个变量负相关.
r的绝对值越接近于1,表明两个变量的线性相关性越强.r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系,通常|r|大于0.75时,认为两个变量有很强的线性相关性.3.独立性检验
(1)2×2列联表:假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称2×2列联表)为:
y1y2总计x1a b a+b x2c d c+d
总计a+
c
b+d a+b+c+d
(2)K2统计量
K2=错误!(其中n=a+b+c+d为样本容量).
1.辨明三个易误点
(1)回归分析中易误认为样本数据必在回归直线上,实质上回归直线必过(x,y)点,可能所有的样本数据点都不在直线上.
(2)利用回归方程分析问题时,所得的数据易误认为准确值,而实质上是预测值(期望值).
(3)虽然任何一组不完全相同的数据都可以求出回归直线方程,但只有具有线性相关关系的一组数据才能得到有意义的回归直线方程,求出的方程才具有实际价值.
2.求回归方程的方法
求解回归方程的关键是确定回归系数错误!,错误!,因求解错误!的公式计算量太大,一般题目中给出相关的量,如x,错误!,错误!x错误!,错误! x i y i等,便可直接代入求解.充分利用回归直线过样本中心点(错误!,错误!),即有错误!=错误!错误!+错误!,可确定错误!.
1.有关线性回归的说法,不正确的是()
A.具有相关关系的两个变量是非确定性关系
B.散点图能直观地反映数据的相关程度
C.回归直线最能代表线性相关的两个变量之间的关系
D.散点图中的点越集中,两个变量的线性相关性越强
D
2.某商品销售量y(件)与销售价格x(元/件)负相关,则其回归直线方程可能是()
A。

错误!=-10x+200 B.错误!=10x+200
C。

错误!=-10x-200 D.错误!=10x-200
A 因为商品销售量y(件)与销售价格x(元/件)负相关,所以错误!〈0,排除B,D.
又因为x=0时,y>0,所以应选A。

3.某校为了研究学生的性别和对待某一活动的态度(支持和不支持两种态度)的关系,运用2×2列联表进行独立性检验,经计算K2=7.069,则所得到的统计学结论是:有多少的把握认为“学生性别与支持该活动有关系”.()
附:
A.0.1% B.1%
C.99%D.99。

9%
C 因为7.069与附表中的6.635最接近,所以得到的统计学结论是:有1-0.010=0。

99=99%的把握认为“学生性别与支持该活动有关系”.
4.下面是一个2×2列联表
则表中a、b处的值分别为________.
因为a+21=73,所以a=52.
又因为a+2=b,所以b=54,
52、54
5.已知x,y的取值如下表,从散点图可以看出y与x线性相关,且回归方程为错误!=0.95x+错误!,则错误!=________.
由已知得错误!=2,错误!=4.5,因为回归方程经过点(错误!,错误!),所以错误!=4.5-0.95×2=2。

6。

2。

6
相关关系的判断
(2015·高考湖北卷)已知变量x和y满足关系y=-0。

1x +1,变量y与z正相关.下列结论中正确的是()
A.x与y正相关,x与z负相关
B.x与y正相关,x与z正相关
C.x与y负相关,x与z负相关
D.x与y负相关,x与z正相关
【解析】因为y=-0。

1x+1的斜率小于0,故x与y负相关.因为y与z正相关,可设z=错误!y+错误!,错误!>0,则z=错误!y+错误!=-0.1错误!x+错误!+错误!,故x与z负相关.
【答案】C
错误!
判定两个变量正、负相关性的方法
(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.
(2)相关系数:r>0时,正相关;r<0时,负相关.
(3)线性回归方程中:错误!>0时,正相关;错误!<0时,负相关.某公司在2016年上半年的收入x(单位:万元)与月支出y(单位:万元)的统计资料如表所示:
月份1月

2月

3月

4月

5月

6月

收入
12。

314。

515.017。

019。

820.6
x
支出
5.63 5.755。

825。

89
6.116。

18
y
根据统计资料,则()
A.月收入的中位数是15,x与y有正线性相关关系
B.月收入的中位数是17,x与y有负线性相关关系
C.月收入的中位数是16,x与y有正线性相关关系
D.月收入的中位数是16,x与y有负线性相关关系
C 月收入的中位数是错误!=16,收入增加,支出增加,故x 与y有正线性相关关系.
线性回归方程及其应用(高频考点)线性回归问题是高考中的热点问题,考查形式可以是小题,也可以是解答题.
高考中对线性回归问题的考查主要有以下三个命题角度:
(1)由回归直线方程求参数值;
(2)求回归直线方程;
(3)利用回归方程进行预测.
(2016·高考全国卷丙)下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.
注:年份代码1-7分别对应年份2008-2014。

(1)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明;
(2)建立y关于t的回归方程(系数精确到0。

01),预测2016年我国生活垃圾无害化处理量.
附注:
参考数据:错误!y i=9。

32, 错误!t i y i=40。

17, 错误!=0。

55,错误!≈2.646.
参考公式:相关系数,
回归方程错误!=错误!+错误!t中斜率和截距的最小二乘估计公式分别为:
【解】(1)由折线图中数据和附注中参考数据得
错误!=4,错误!(t i-错误!)2=28,
=40.17-4×9.32=2.89,
r=错误!≈0.99.
因为y与t的相关系数近似为0.99,说明y与t的线性相关程度相当高,从而可以用线性回归模型拟合y与t的关系.
(2)由错误!=错误!≈1。

331及(1)得=错误!≈0.103,
错误!=错误!-错误!错误!=1.331-0。

103×4≈0。

92。

所以,y关于t的回归方程为错误!=0.92+0。

10t。

将2016年对应的t=9代入回归方程得错误!=0。

92+0。

10×9=1。

82.
所以预测2016年我国生活垃圾无害化处理量约为1。

82亿吨.错误!
最小二乘估计的三个步骤
(1)作出散点图,判断是否线性相关.
(2)如果是,则用公式求错误!,错误!,写出回归方程.
(3)根据方程进行估计.
回归直线方程恒过点(错误!,错误!).
角度一由回归直线方程求参数值
1.表中提供了某厂节能降耗技术改造后生产A产品过程中记录的产量x(吨)与相应的生产能耗y(吨标准煤)的几组对应数据.根据下表提供的数据,求出y关于x的线性回归方程为错误!=0.7x+0。

35,那么表中t的值为( )
x3456
y 2.5t4 4.5
A.3 B.3.15
C.3。

5 D.4。

5
A 因为线性回归方程过样本中心点,所以由回归方程错误!=0。

7x+0.35,知错误!=0。

7错误!+0.35,又错误!=错误!=错误!,错误!=错误!=错误!,所以错误!=0.7×错误!+0。

35,解得t=3。

故选A.
角度二、三求回归直线方程并进行预测
2.(2017·石家庄市教学质量检测(二))为了解某地区某种农产品的年产量x(单位:吨)对价格y(单位:千元/吨)和年利润z的影响,对近五年该农产品的年产量和价格统计如下表:
x 12345
y 7。

6。

5
5。

5
3。

8
2。

2
(1)求y关于x的线性回归方程错误!=错误!x+错误!;
(2)若每吨该农产品的成本为2千元,假设该农产品可全部卖出,预测当年产量为多少时,年利润z取到最大值?(保留两位小数)参考公式:b,^=错误!=错误!,
错误!=错误!-错误!错误!。

(1)错误!=3,错误!=5,
错误!x i
y i=62.7,错误!x错误!=55,
解得错误!=-1。

23,错误!=8.69,
所以错误!=8.69-1.23x。

(2)年利润z=x(8.69-1。

23x)-2x
=-1。

23x2+6.69x,
所以当x≈2.72时,年利润z最大.
独立性检验
(2017·云南省第一次统一检测)某校高二年级共有1 600名学生,其中男生960名,女生640名.该校组织了一次满分为100
分的数学学业水平模拟考试.根据研究,在正式的学业水平考试中,本次成绩在的学生可取得A等(优秀),在七组加以统计,绘制成如图所示的频率分布直方图.
(1)估计该校高二年级学生在正式的数学学业水平考试中成绩不合格的人数;
(2)请你根据已知条件将下列2×2列联表补充完整.并判断是否有90%的把握认为“该校高二年级学生在本次考试中数学成绩优秀与性别有关”?
数学成绩优秀数学成绩
不优秀
合计


a=12b=女

c=d=34
合计n=100
【解】(1)设抽取的100名学生中,本次考试成绩不合格的有x人,根据题意得x=100×=2.
据此估计该校高二年级学生在正式的数学学业水平考试中成绩
不合格的人数为错误!×1 600=32.
(2)根据已知条件得2×2列联表如下:
数学成绩优秀数学成绩
不优秀




a=12b=4860


c=6d=3440


1882100
因为K2=错误!≈0.407〈2。

706,
所以没有90%的把握认为“该校高二年级学生在本次考试中数学成绩优秀与性别有关".
独立性检验的一般步骤
(1)根据样本数据制成2×2列联表;
(2)根据公式K2=错误!计算K2的值;
(3)查表比较K2与临界值的大小关系,作出统计判断.
(2017·九江第一次统考)某校数学课外兴趣小组为研究数学成绩是否与性别有关,先统计本校高三年级每个学生一学期数学成绩平均分(采用百分制),剔除平均分在40分以下的学生后,共有男生300名,
女生200名.现采用分层抽样的方法,从中抽取了100名学生,按性别分为两组,并将两组学生成绩分为6组,得到如下所示频数分
布表.
(1)估计男、女生各自的平均分(同一组数据用该组区间中点值作代表),从计算结果看,数学成绩与性别是否有关;
(2)规定80分以上为优分(含80分),请你根据已知条件作出2×2列联表,并判断是否有90%以上的把握认为“数学成绩与性别有关”.
(1) 错误!男=45×0。

05+55×0。

15+65×0.3+75×0.25+85×0.1+95×0。

15=71.5,
错误!女
=45×0.15+55×0.1+65×0。

125+75×0。

25+85×0.325+
95×0.05=71.5,
从男、女生各自的平均分来看,并不能判断数学成绩与性别有
关.
(2)由频数分布表可知:在抽取的100名学生中,“男生组”中的优分有15人,“女生组”中的优分有15人,据此可得2×2列联表如下:
优分非优





154560


152540


3070100
可得K2=错误!≈1。

79,
因为1。

79〈2。

706,所以没有90%以上的把握认为“数学成绩与性别有关”.
1.四名同学根据各自的样本数据研究变量x,y之间的相关关系,并求得回归直线方程,分别得到以下四个结论:
①y与x负相关且错误!=2。

347x-6。

423;
②y与x负相关且错误!=-3。

476x+5.648;
③y与x正相关且错误!=5。

437x+8.493;
④y与x正相关且错误!=-4。

326x-4.578。

其中一定不正确的结论的序号是( )
A.①②B.②③
C.③④D.①④
D 正相关指的是y随x的增大而增大,负相关指的是y随x的增大而减小,故不正确的为①④.
2.(2017·南昌市第一次模拟测试)为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验,得到5组数据(x1,y1),(x2,y2),(x3,y3),(x4,y4),(x5,y5).根据收集到的数据可知x1+x2+x3+x4+x5=150,由最小二乘法求得回归直线方程为错误!=0.67x+54。

9,则y1+y2+y3+y4+y5的值为()
A.75 B.155。

4
C.375 D.466。

2
C 由x1+x2+x3+x4+x5=150,得错误!=30,代入回归直线方程错误!=0.67x+54。

9,得错误!=75,则y1+y2+y3+y4+y5=375。

3.通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:
由K2=错误!,
算得K2=110×(40×30-20×20)2
60×50×60×50
≈7。

8。

附表:
参照附表,得到的正确结论是()
A.在犯错误的概率不超过0。

1%的前提下,认为“爱好该项运动与性别有关”
B.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”
C.有99%以上的把握认为“爱好该项运动与性别有关”
D.有99%以上的把握认为“爱好该项运动与性别无关”
C 根据独立性检验的定义,由K2≈7.8>6。

635,可知我们在犯错误的概率不超过0。

01的前提下,即有99%以上的把握认为“爱好该项运动与性别有关",故选C.
4.(2017·东营模拟)已知变量x与y之间的回归直线方程为错误!=-3+2x,若错误!x i=17,则错误!y i的值等于()
A.3 B.4
C.0。

4 D.40
B 依题意错误!=错误!=1。

7,
而直线错误!=-3+2x一定经过样本点的中心(错误!,错误!),
所以错误!=-3+2x=-3+2×1.7=0。

4,
所以错误!y i=0。

4×10=4.
5.春节期间,某销售公司每天销售某种取暖商品的销售额y(单位:万元)与当天的平均气温x(单位:℃)有关.现收集了春节期间这个销售公司4天的x与y的数据列于下表:
根据以上数据,用线性回归的方法,求得与x之间的线性回归方程错误!=错误!x+错误!的系数错误!=-错误!,则错误!=________.由表中数据可得错误!=-4,错误!=25,所以线性回归方程错误!=
-12
5
x+错误!过点(-4,25),代入方程得25=-错误!×(-4)+错误!,
解得错误!=错误!.
错误!
6.(2017·赣州摸底考试)在一组样本数据(x1,y1),(x2,y2),…,(x6,y6)的散点图中,若所有样本点(x i,y i)(i=1,2,…,6)都在曲线y =bx2-错误!附近波动.经计算错误!x i=11,错误!y i=13,错误!x错误!=21,则实数b的值为________.
令t=x2,则曲线的回归方程变为线性的回归方程,即y=bt-错误!,此时错误!=错误!=错误!,错误!=错误!=错误!,代入y=bt-错误!,得错误!=b×错误!-错误!,解得b=错误!。

错误!
7.(2017·广东省六校联考)某市调研考试后,某校对甲、乙两个文科班的数学考试成绩进行分析,规定:大于或等于120分为优秀,120分以下为非优秀.统计成绩后,得到如下的列联表,且已
知在甲、乙两个文科班全部110人中随机抽取1人为优秀的概率为3
11
.
(1)请完成上面的列联表;
(2)根据列联表的数据,若按99。

9%的可靠性要求,能否认为“成绩与班级有关系”.
参考公式与临界值表:K2=错误!.
(1)
优秀非优





105060


203050


3080110
(2)根据列联表中的数据,得到
K2=错误!≈7.486〈10.828.因此按99。

9%的可靠性要求,不能认为“成绩与班级有关系”.
8.(2017·唐山第一次模拟)为了研究某种细菌在特定环境下随时间变化的繁殖情况,得如下实验数据:
天数t(天)34567
繁殖个数
y(千个)
2.534 4.56
(1)求y关于t的线性回归方程;
(2)利用(1)中的回归方程,预测t=8时,细菌繁殖个数.
(1)由表中数据计算得,错误!=5,错误!=4,
所以回归方程为错误!=0.85t-0.25。

(2)将t=8代入(1)的回归方程中得错误!=0.85×8-0。

25=6。

55。

故预测t=8时,细菌繁殖个数为6.55千个.
9.(2017·郑州第二次质量预测)某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:
单价x
456789
(元)
销量
908483807568
y(件)
由表中数据,求得线性回归方程为错误!=-4+错误!。

若在这些样本点中任取一点,则它在回归直线左下方的概率为( )A。

错误!B.错误!
C.错误!D.错误!
B 由表中数据得错误!=6。

5,错误!=80,由错误!=-4错误!+错误!,得错误!=106,故线性回归方程为错误!=-4x+106.将(4,90),(5,84),(6,83),(7,80),(8,75),(9,68)分别代入回归方程可知有6个基本事件,因84〈-4×5+106=86,68〈-4×9+106=70,故(5,84)和(9,68)在直线的左下方,满足条件的只有2个,故所求概率为错误!=错误!.
10.(2017·梅州一模)在2016年1月15日那天,某市物价部
门对本市的5家商场的某商品的一天销售量及其价格进行调查,5家商场的售价x元和销售量y件之间的一组数据如下表所示:
由散点图可知,销售量与价格之间有较强的线性相关关系,其线性回归方程是错误!=-3。

2x+40,且m+n=20,则其中的n=________.
x=错误!=8+错误!,错误!=错误!=6+错误!,回归直线一定经过样本中心(错误!,错误!),即6+错误!=-3.2错误!+40,
即3。

2m+n=42.
又因为m+n=20,即错误!解得错误!故n=10。

10
11.第31届夏季奥林匹克运动会于2016年8月5日至8月21日在巴西里约热内卢举行.下表是近五届奥运会中国代表团和俄罗斯代表团获得的金牌数的统计数据(单位:枚).

(1)根据表格中两组数据完成近五届奥运会两国代表团获得的金牌数的茎叶图;
(2)下表是近五届奥运会中国代表团获得的金牌数之和y(从第26届算起,不包括之前已获得的金牌数)随时间x变化的数据:
时间x(届)2627282930
金牌数之和y (枚)164476
12
7
16
5
作出散点图如下:
由图可以看出,金牌数之和y与时间x之间存在线性相关关系,请求出y关于x的线性回归方程;并预测到第32届奥运会时中国代表团获得的金牌数之和为多少?
参考数据:错误!=28,错误!=85。

6,
附:对于一组数据(x1,y1),(x2,y2),…,(x n,y n),其回归直线错误!=错误!x+错误!的斜率和截距的最小二乘估计分别为:
(1)近五届奥运会两国代表团获得的金牌数的茎叶图如下:
(2)
错误!=错误!-错误!错误!=85。

6-38。

1×28=-981。

2,
所以金牌数之和y关于时间x的线性回归方程为
错误!=38.1x-981。

2.
当x=32时,中国代表团获得的金牌数之和的预报值
错误!=38.1×32-981.2=238,
故预测到第32届奥运会时中国代表团获得的金牌数之和为238枚.。

相关文档
最新文档