2018一轮北师大版理数学教案:第9章 第4节 相关性、最小二乘估计与统计案例 含解析 精品
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第四节相关性、最小二乘估计与统计案例[考纲传真] 1.会作两个有关联变量的数据的散点图,会利用散点图认识变量间的相关关系.2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程.3.了解独立性检验(只要求2×2列联表)的基本思想、方法及其初步应用.4.了解回归分析的基本思想、方法及其简单应用.
1.相关性
(1)线性相关
若两个变量x和y的散点图中,所有点看上去都在一条直线附近波动,则称变量间是线性相关的.
(2)非线性相关
若所有点看上去都在某条曲线(不是一条直线)附近波动,则称此相关为非线性相关的.
(3)不相关
如果所有的点在散点图中没有显示任何关系,则称变量间是不相关的.
2.最小二乘估计
(1)最小二乘法
如果有n个点(x1,y1),(x2,y2),…,(x n,y n)可以用下面的表达式来刻画这些点与直线y=a+bx的接近程度:[y1-(a+bx1)]2+[y2-(a+bx2)]2+…+[y n-(a +bx n)]2.
使得上式达到最小值的直线y=a+bx就是我们所要求的直线,这种方法称为最小二乘法.
(2)线性回归方程
方程y=bx+a是两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),…,(x n,y n)的线性回归方程,其中a,b是待定参数.
3.回归分析
(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法.
(2)样本点的中心
对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(x n,y n)中,(x,y)称为样本点的中心.
(3)相关系数r
①r=
∑
i=1
n
x i y i-n x y
∑
i=1
n
x2i-n x2∑
i=1
n
y2i-n y2
;
②当r>0时,称两个变量正相关.
当r<0时,称两个变量负相关.
当r=0时,称两个变量线性不相关.4.独立性检验
若一个2×2列联表为:
χ2=n(ad-bc)2
(a+b)(c+d)(a+c)(b+d)
.
(1)当χ2≤2.706时,可以认为变量A,B是没有关联的;
(2)当χ2>2.706时,有90%的把握判定变量A,B有关联;
(3)当χ2>3.841时,有95%的把握判定变量A ,B 有关联; (4)当χ2>6.635时,有99%的把握判定变量A ,B 有关联.
1.(思考辨析)判断下列结论的正误.(正确的打“√”,错误的打“×”) (1)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系.( )
(2)某同学研究卖出的热饮杯数y 与气温x (℃)之间的关系,得回归方程y ^
=-2.352x +147.767,则气温为2℃时,一定可卖出143杯热饮.( )
(3)因为由任何一组观测值都可以求得一个线性回归方程,所以没有必要进行相关性检验.( )
(4)若事件A ,B 关系越密切,则由观测数据计算得到的χ2的值越小.( ) [答案] (1)√ (2)× (3)× (4)×
2.(2017·南昌一模)已知变量x 与y 正相关,且由观测数据算得样本平均数x =3,y =3.5,则由该观测数据算得的线性回归方程可能是( )
A .y =0.4x +2.3
B .y =2x -2.4
C .y =-2x +9.5
D .y =-0.3x +4.4
A [因为变量x 和y 正相关,排除选项C ,D.又样本中心(3,3.5)在回归直线上,排除
B ,选项A 满足.]
3.(2015·全国卷Ⅱ)根据下面给出的2004年至2013年我国二氧化硫年排放量(单位:万吨)柱形图,以下结论中不正确的是( )
图9-4-1
A .逐年比较,2008年减少二氧化硫排放量的效果最显著
B .2007年我国治理二氧化硫排放显现成效
C .2006年以来我国二氧化硫年排放量呈减少趋势
D .2006年以来我国二氧化硫年排放量与年份正相关
D[对于A选项,由图知从2007年到2008年二氧化硫排放量下降得最多,故A正确.对于B选项,由图知,由2006年到2007年矩形高度明显下降,因此B正确.对于C选项,由图知从2006年以后除2011年稍有上升外,其余年份都是逐年下降的,所以C正确.由图知2006年以来我国二氧化硫年排放量与年份负相关,故选D.]
4.为了评价某个电视栏目的改革效果,在改革前后分别从居民点抽取了100位居民进行调查,经过计算χ2≈0.99,根据这一数据分析,下列说法正确的是()
A.有99%的人认为该电视栏目优秀
B.有99%的人认为该电视栏目是否优秀与改革有关系
C.有99%的把握认为该电视栏目是否优秀与改革有关系
D.没有理由认为该电视栏目是否优秀与改革有关系
D[只有χ2>6.635才能有99%的把握认为“该电视栏目是否优秀与改革有关系”,而即使χ2>6.635也只是对“该电视栏目是否优秀与改革有关系”这个论断成立的可能性大小的结论,与是否有99%的人等无关,故只有D正确.] 5.(教材改编)若8名学生的身高和体重数据如下表:
第3名学生的体重漏填,但线性回归方程是y=0.849x-85.712,则第3名学生的体重估计为________kg.
50[设第3名学生的体重为a,则
1
8(48+57+a+54+64+61+43+59)=0.849×1
8(165+165+157+170+175
+165+155+170)-85.712.
解得a≈50.]
与z正相关.下列结论中正确的是()
A.x与y正相关,x与z负相关
B.x与y正相关,x与z正相关
C.x与y负相关,x与z负相关
D.x与y负相关,x与z正相关
(2)x和y的散点图如图9-4-2所示,则下列说法中所有正确命题的序号为________.
图9-4-2
①x,y是负相关关系;
②在该相关关系中,若用y=c1e c2x拟合时的相关系数的平方为r21,用y=bx +a拟合时的相关系数的平方为r22,则r21>r22;
③x,y之间不能建立线性回归方程.
(1)C(2)①②[(1)因为y=-0.1x+1的斜率小于0,故x与y负相关.因为y与z正相关,可设z=by+a,b>0,则z=by+a=-0.1bx+b+a,故x与z 负相关.
(2)在散点图中,点散布在从左上角到右下角的区域,因此x,y是负相关关系,故①正确;由散点图知用y=c1e c2x拟合比用y=bx+a拟合效果要好,则r21>r22,故②正确;x,y之间可以建立线性回归方程,但拟合效果不好,故③错误.] [规律方法] 1.利用散点图判断两个变量是否有相关关系是比较直观简便的方法.若所有点看上去都在一条直线附近波动,则称变量间是线性相关的.2.判断两个变量正相关还是负相关,有三种方法:
(1)利用散点图.
(2)利用相关系数r的符号.当r>0时,正相关;r<0时,负相关.
(3)在已知两变量线性相关时,也可以利用回归方程y=a+bx.当b>0时,两变量是正相关,当b<0时,两变量是负相关.
[变式训练1]某公司利润y与销售总额x(单位:千万元)之间有如下对应数据:
[解]散点图如下:
由散点图可以看出各点在一条直线附近且利润随销售总额的增加而增大,它们之间不仅具有相关关系,而且呈正相关.
量(单位:亿吨)的折线图.
图9-4-3
注:年份代码1~7分别对应年份2008~2014.
(1)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明;
(2)建立y关于t的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.
参考数据:∑7i =1
y i =9.32,∑7i =1
t i y i =40.17,
∑7
i =1
(y i -y )2=0.55,7≈2.646.
参考公式:相关系数r =
∑n
i =1 (t i -t )(y i -y )
∑n
i =1
(t i -t )2∑n
i =1 (y i -y )2
,回归方程y =a +bt
中斜率和截距的最小二乘估计公式分别为b =
∑n
i =1
(t i -t )(y i -y )
∑n
i =1
(t i -t )2
,a =y -
-b t .
[解] (1)由折线图中的数据和附注中的参考数据得
t =4,∑7
i =1
(t i -t )2=28,
∑7
i =1 (y i -y )2=0.55, 2分
∑7
i =1
(t i -t )(y i -y )=∑7
i =1
t i y i -t ∑7
i =1
y i =40.17-4×9.32=2.89,
所以r ≈ 2.89
0.55×2×2.646
≈0.99.
因为y 与t 的相关系数近似为0.99,说明y 与t 的线性相关程度相当大,从而可以用线性回归模型拟合y 与t 的关系.
5分
(2)由y =9.32
7≈1.331及(1)得
b =
∑7
i =1
(t i -t )(y i -y )∑7
i =1
(t i -t )2
=2.89
28≈0.103.
8分
a =y -
b t ≈1.331-0.103×4≈0.92.
所以y 关于t 的回归方程为y =0.92+0.10t . 10分
将2016年对应的t =9代入回归方程得y =0.92+0.10×9=1.82. 所以预测2016年我国生活垃圾无害化处理量约为1.82亿吨.
12分
[规律方法] 1.在分析实际中两个变量的相关关系时,可根据样本数据作出
散点图来确定两个变量之间是否具有相关关系,也可计算相关系数r 进行判断.若具有线性相关关系,则可通过线性回归方程估计和预测变量的值.
2.(1)正确运用计算b ,a 的公式和准确的计算,是求线性回归方程的关键.(2)回归直线y =bx +a 必过样本点的中心(x ,y ).
[变式训练2] (2014·全国卷Ⅱ)某地区2007年至2013年农村居民家庭人均纯收入y (单位:千元)的数据如下表:
(2)利用(1)中的回归方程,分析2007年至2013年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2015年农村居民家庭人均纯收入.
附:回归直线的斜率和截距的最小二乘估计公式分别为: b =∑n
i =1 (t i -t -)(y i -y -
)∑n
i =1 (t i -t -
)2
,a =y --b t -. [解] (1)由所给数据计算得t -=1
7(1+2+3+4+5+6+7)=4, y -=1
7(2.9+3.3+3.6+4.4+4.8+5.2+5.9)=4.3, ∑7
i =1
(t i -t -
)2=9+4+1+0+1+4+9=28, 3分
∑7i =1
(t i -t -)(y i -y -
)=(-3)×(-1.4)+(-2)×(-1)+(-1)×(-0.7)+0×0.1
+1×0.5+2×0.9+3×1.6=14,
b =∑7
i =1
(t i -t -)(y i -y -
)
∑7
i =1 (t i -t -
)2
=1428=0,5, a =y --b t -
=4.3-0.5×4=2.3,
所求回归方程为y=0.5t+2.3. 6分
(2)由(1)知,b=0.5>0,故2007年至2013年该地区农村居民家庭人均纯收入逐年增加,平均每年增加0.5千元. 9分
将2015年的年份代号t=9代入(1)中的回归方程,得
y=0.5×9+2.3=6.8,
故预测该地区2015年农村居民家庭人均纯收入为6.8千元. 12分
生4 500人.为调查该校学生每周平均体育运动时间的情况,采用分层抽样的方法,收集300位学生每周平均体育运动时间的样本数据(单位:小时).
(1)应收集多少位女生的样本数据?
(2)根据这300个样本数据,得到学生每周平均体育运动时间的频率分布直方图(如图9-4-4所示),其中样本数据的分组区间为:[0,2),[2,4),[4,6),[6,8),[8,10),[10,12).估计该校学生每周平均体育运动时间超过4小时的概率;
图9-4-4
(3)在样本数据中,有60位女生的每周平均体育运动时间超过4小时,请完成每周平均体育运动时间与性别列联表,并判断是否有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”.
附:χ2=n(ad-bc)
(a+b)(c+d)(a+c)(b+d)
.
[解](1)利用分层抽样,300×4 500
15 000=90,所以应收集90位女生的样本数
据. 4分
(2)由频率分布直方图得1-2×(0.025+0.100)=0.75.所以该校学生每周平均
体育运动时间超过4小时的概率的估计值为0.75. 8分
(3)由(2)知,300位学生中有300×0.75=225人的每周平均体育运动时间超过4小时,75人的每周平均体育运动时间不超过4小时.
10分
又因为样本数据中有210份是关于男生的,90份是关于女生的,所以每周平均体育运动时间与性别列联表如下:
每周平均体育运动时间与性别列联表
χ2=300×(45×60-165×30)2
75×225×210×90
=10021≈4.762>3.841.
所以,有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”.
12分
[规律方法] 1.在2×2列联表中,如果两个变量没有关系,则应满足ad -bc ≈0.|ad -bc |越小,说明两个变量之间关系越弱;|ad -bc |越大,说明两个变量之间关系越强.
2.解决独立性检验的应用问题,一定要按照独立性检验的步骤得出结论.独立性检验的一般步骤:
(1)根据样本数据制成2×2列联表;
(2)根据公式χ2
=n (ad -bc )2(a +b )(a +c )(b +d )(c +d )
计算χ2的值;
(3)比较χ2与临界值的大小关系,作统计推断.
[变式训练3] (2017·济南联考)某市地铁即将于2017年6月开始运营,为此召开了一个价格听证会,拟定价格后又进行了一次调查,随机抽查了50人,他们的收入与态度如下;
成定价者”与“认为价格偏高者”的月平均收入的差距是多少(结果保留2位小数);
(2)由以上统计数据填下面2×2列联表,分析是否有99%的把握认为“月收入以55百元为分界点对地铁定价的态度有差异”.
附:χ2=(a +b )(c +d )(a +c )(a +d )
.
[解] (1)x 1=
20×1+30×2+40×3+50×5+60×3+70×4
1+2+3+5+3+4
≈50.56.
“认为价格偏高者”的月平均收入为 x 2=
20×4+30×8+40×12+50×
5+60×2+70×1
4+8+12+5+2+1
=38.75,
∴“赞成定价者”与“认为价格偏高者”的月平均收入的差距是x 1-x 2=50.56-38.75=11.81(百元).
5分
(2)根据条件可得2×2列联表如下:
χ2=
≈6.27<6.635,
10×40×18×32
∴没有99%的把握认为“月收入以55百元为分界点对地铁定价的态度有差异”. 12分
[思想与方法]
1.回归分析是处理变量相关关系的一种数学方法.主要解决:(1)确定特定量之间是否有相关关系,如果有就找出它们之间贴近的数学表达式;(2)根据一组观察值,预测变量的取值及判断变量取值的变化趋势;(3)求出线性回归方程.2.根据χ2的值可以判断两个分类变量有关的可信程度.
[易错与防范]
1.回归分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图大致呈线性时,求出的线性回归方程才有实际意义,否则,求出的线性回归方程毫无意义.根据回归方程进行预报,仅是一个预报值,而不是真实发生的值.2.独立性检验中统计量χ2的计算公式很复杂,在解题中易混淆一些数据的意义,代入公式时出错,而导致整个计算结果出错.。