2015届高考数学(文)一轮复习备考学案第10章第4节《变量间的相关关系、统计案例》(北师大版)

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第四节
变量间的相关关系、统计案例
对应学生用书P165
1.变量间的相关关系
(1)常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系.
(2)从散点图上看,点分布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点分布在左上角到右下角的区域内,两个变量的相关关系为负相关.
2.两个变量的线性相关
(1)从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这条直线叫回归直线.
(2)回归方程为y =bx +a ,其中b =
∑i =1
n
x i y i -n x y
∑i =1
n
x 2i -n x
2
,a =y -b x .
(3)通过求Q =∑i =1
n
(y i -bx i -a )2
的最小值而得出回归直线的方法,即求回归直线,使得样本
数据的点到它的距离的平方和最小,这一方法叫做最小二乘法.
(4)相关系数:
当r >0时,表明两个变量正相关; 当r <0时,表明两个变量负相关.
r 的绝对值越接近于1,表明两个变量的线性相关性越强.r 的绝对值越接近于0时,表明两个变量之间几乎不存在线性相关关系.通常|r |大于0.75时,认为两个变量有很强的线性相关性.
3.独立性检验
假设有两个分类变量X 和Y ,它们的取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(称为2×2列联表)为:
χ2
=n (ad -bc )2
(a +b )(a +c )(b +d )(c +d )
(其中n =a +b +c +d 为样本容量).
1.易混淆相关关系与函数关系,两者的区别是函数关系是一种确定的关系,而相关关系是一种非确定的关系,函数关系是一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系.
2.回归分析中易误认为样本数据必在回归直线上,实质上回归直线必过(x ,y )点,可能所有的样本数据点都不在直线上.
3.利用回归方程分析问题时,所得的数据易误认为准确值,而实质上是预测值(期望值). [试一试]
1.(2013·石家庄调研)下列结论正确的是( ) ①函数关系是一种确定性关系; ②相关关系是一种非确定性关系;
③回归分析是对具有函数关系的两个变量进行统计分析的一种方法; ④回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法. A .①② B .①②③ C .①②④
D .①②③④
解析:选C 由回归分析的方法及概念判断.
2.已知x ,y 之间的数据如表所示,则回归直线过点( )
A .(0,0) C .(3,2.5)
D .(4,3.2)
解析:选C 回归直线恒过定点(x ,y ),故x =3,y =2.5.
1.求回归直线方程的步骤
(1)依据样本数据画出散点图,确定两个变量具有线性相关关系; (2)计算出x ,y ,∑i =1
n
x 2i ,∑i =1
n
x i y i 的值;
(3)计算回归系数a ,b ;
(4)写出回归直线方程y =bx +a . 2.独立性检验的一般步骤
(1)根据样本数据制成2×2列联表;
(2)根据公式χ2
=n (ad -bc )2
(a +b )(a +d )(a +c )(b +d )
计算χ2的值;
(3)查表比较χ2与临界值的大小关系,作统计判断. [练一练]
1.在研究吸烟与患肺癌的关系中,通过收集数据、整理分析数据得“吸烟与患肺癌有关”的结论,并且在犯错误概率不超过0.01的前提下认为这个结论是成立的,则下列说法中正确的是( )
A .100个吸烟者中至少有99人患有肺癌
B .1个人吸烟,那么这人有99%的概率患有肺癌
C .在100个吸烟者中一定有患肺癌的人
D .在100个吸烟者中可能一个患肺癌的人也没有
解析:选D 统计的结果只是说明事件发生可能性的大小,具体到一个个体不一定发生. 2.在2012伦敦奥运会期间,某网站针对性别是否与看奥运会直播有关进行了一项问卷调查,得出如下表格:
则χ2=( ) A .700 B.750 C .800
D .850
解析:选B 由题意知,
χ2
=12 000(6 000×2 000-2 000×2 000)28 000×4 000×8 000×4 000
=750.
对应学生用书P166
1.对变量x ,y 有观测数据(x i ,y i )(i =1,2,…,10),得散点图①;对变量u ,v 有观测数
据(u i,v i)(i=1,2,…,10),得散点图②.由这两个散点图可以判断()
A.变量x与y正相关,u与v正相关
B.变量x与y正相关,u与v负相关
C.变量x与y负相关,u与v正相关
D.变量x与y负相关,u与v负相关
解析:选C由题知夹在带状区域内的点,总体呈上升趋势的属于正相关;反之,总体呈下降趋势的属于负相关.由图可知,选C.
2.已知变量x,y呈线性相关关系,线性回归方程为y=0.5+2x,则变量x,y是() A.线性正相关关系
B.由回归方程无法判断其正负相关
C.线性负相关关系
D.不存在线性相关关系
解析:选A随着变量x增大,变量y有增大的趋势,则x,y称为正相关.
3.(2014·镇江模拟)如图所示,有A,B,C,D,E,5组数据,去掉________组数据后,剩下的4组数据具有较强的线性相关关系.
解析:由散点图知呈带状区域时有较强的线性相关关系,故去掉D.
答案:D
[类题通法]
相关关系的直观判断方法就是作出散点图,若散点图呈带状且区域较窄,说明两个变量有一定的线性相关性,若呈曲线型也是有相关性,若呈图形区域且分布较乱则不具备相关性.
回归方程的求法及回归分析
[典例]某兴趣小组欲研究昼夜温差大小与患感冒人数多少之间的关系,他们分别到气象局与某医院抄录了1到6月份每月10号的昼夜温差情况与因患感冒而就诊的人数,得到如下
资料:
回归方程,再用选取的2组数据进行检验.
(1)若选取的是1月与6月的2组数据,请根据2至5月份的数据,求出y 关于x 的线性回归方程y =bx +a ;
(2)若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2,则认为得到的线性回归方程是理想的,试求该小组所得的线性回归方程是否理想?
[解] (1)由数据得x =11+13+12+84=11,y =25+29+26+164=24,
由公式得b =18
7

再由a =y -b x 得a =-30
7

所以y 关于x 的线性回归方程为y =187x -30
7.
(2)当x =10时,y =1507,|150
7-22|<2,
同理,当x =6时,y =787,|78
7-12|<2,
所以该小组所得线性回归方程是理想的.
在本例(1)条件下,试预测昼夜温差为5℃时,因感冒而就诊的人数约为多少?
解:由(1)知,y =187x -30
7,
当x =5时,y =907-307=60
7≈8.6,
∴当温差为5℃时,就诊的人数约为9人. [类题通法]
利用线性回归方程可以对总体进行预测估计,线性回归方程将部分观测值所反映的规律进行延伸,是我们对有线性相关关系的两个变量进行分析和控制的依据,依据自变量的取值估计和预测因变量的值,在现实生活中有广泛的应用.
[针对训练]
(2013·大连模拟)已知下列表格所示数据的回归直线方程为y=3.8x+a,则a的值为________.
解:由已知得,x a=242.8.
答案:242.8
独立性检验
[典例](含25周岁)工人25周岁以下工人200名.为研究工人的日平均生产量是否与年龄有关,现采用分层抽样的方法,从中抽取了100名工人,先统计了他们某月的日平均生产件数,然后按工人年龄在“25周岁以上(含25周岁)”和“25周岁以下”分为两组,再将两组工人的日平均生产件数分成5组:[50,60),[60,70),[70,80),[80,90),[90,100]分别加以统计,得到如图所示的频率分布直方图.
(1)从样本中日平均生产件数不足60件的工人中随机抽取2人,求至少抽到一名“25周岁以下组”工人的概率;
(2)规定日平均生产件数不少于80件者为“生产能手”,请你根据已知条件完成2×2列联表,并判断是否有90%的把握认为“生产能手与工人所在的年龄组有关”?
附:χ2=n(ad-bc)
(a+b)(c+d)(a+c)(b+d)
[解](1)由已知得,样本中有25周岁以上组工人60名,25周岁以下组工人40名.
所以,样本中日平均生产件数不足60件的工人中,25周岁以上组工人有60×0.05=3(人),记为A1,A2,A3;25周岁以下组工人有40×0.05=2(人),记为B1,B2.
从中随机抽取2名工人,所有的可能结果共有10种,它们是:(A1,A2),(A1,A3),(A2,A3),(A1,B1),(A1,B2),(A2,B1),(A2,B2),(A3,B1),(A3,B2),(B1,B2).其中,至少1名“25周岁以下组”工人的可能结果共有7种,它们是(A1,B1),(A1,B2),
(A2,B1),(A2,B2),(A3,B1),(A3,B2),(B1,B2).故所求的概率P=7
10.
(2)由频率分布直方图可知,在抽取的100名工人中,“25周岁以上组”中的生产能手有60×0.25=15(人),“25周岁以下组”中的生产能手有40×0.375=15(人),据此可得2×2列
联表如下:
所以得χ2
=n (ad -bc )(a +b )(c +d )(a +c )(b +d )
=100×(15×25-15×45)260×40×30×70=2514≈1.79.
因为1.79<2.706,
所以没有90%的把握认为“生产能手与工人所在的年龄组有关”. [类题通法]
1.在2×2列联表中,如果两个变量没有关系,则应满足ad -bc ≈0.|ad -bc |越小,说明两个变量之间关系越弱;|ad -bc |越大,说明两个变量之间关系越强.
2.解决独立性检验的应用问题,一定要按照独立性检验的步骤得出结论. [针对训练]
2012年欧洲杯期间,某一电视台对年龄高于40岁和不高于40岁的人是否喜欢西班牙队进行调查,40岁以上调查了50人,不高于40岁调查了50人,所得数据制成如下列联表:
已知工作人员从所有统计结果中任取一个,取到喜欢西班牙队的人的概率为3
5,则有超过
________的把握认为年龄与西班牙队的被喜欢程度有关.
附χ2
=n (ad -bc )2
(a +b )(c +d )(a +c )(b +d )
(A )
=q +35100=35,所以p =25,q =25,a =40,b =60,χ2=100×(25×35-25×15)2
40×60×50×50=25×40040×60=256
≈4.167>3.841,故有超过95%的把握认为年龄与西班牙队的被喜欢程度有关.
答案:95%
对应学生用书P168
[课堂练通考点]
1.(2013·石家庄模拟)设(x 1,y 1),(x 2,y 2),…,(x n ,y n )是变量x 和y
的n 个样本点,直线l 是由这些样本点通过最小二乘法得到的线性回归方程(如图),以下结论中正确的是( )
A .x 和y 正相关
B .x 和y 的相关系数为直线l 的斜率
C .x 和y 的相关系数在-1到0之间
D .当n 为偶数时,分布在l 两侧的样本点的个数一定相同
解析:选C 由题图知,回归直线的斜率为负值,所以x 与y 是负相关,且相关系数在-1到0之间,所以C 正确,选择C.
2.(2013·云南模拟)变量U 与V 相对应的一组样本数据为(1,1.4),(2,2.2),(3,3),(4,3.8),由上述样本数据得到U 与V 的线性回归分析,R 2表示解释变量对于预报变量变化的贡献率,则R 2=( )
A.3
5 B.45 C .1
D .3
解析:选C 依题意,注意到点(1,1.4),(2,2.2),(3,3),(4,3.8)均位于直线y -1.4=
2.2-1.4
2-1(x -1),即y =0.8x +0.6上,因此解释变量对于预报变量变化的贡献率R 2=1,选C.
3.浙江卫视为了调查评价“中国好声音”栏目播出前后浙江卫视的收视率有无明显提高,在播出前后分别从居民点抽取了100位居民,调查对浙江卫视的关注情况,制成列联表,经过计算χ2≈0.99,根据这一数据分析,下列说法正确的是( )
A .有99%的人认为该栏目优秀
B .有99%的人认为“中国好声音”栏目播出前后浙江卫视的收视率有明显提高
C .有99%的把握认为“中国好声音”栏目播出前后浙江卫视的收视率有明显提高
D .没有理由认为“中国好声音”栏目播出前后浙江卫视的收视率有无明显提高 附表:
解析:选D ”栏目播出前后浙江卫视的收视率有明显提高,而即使χ2>6.635也只是对“浙江卫视收视率有明显提高”这个论断成立的可能性大小的结论,与是否有99%的人认为该栏目优秀或收视率提高等无关.故选D.
4.在一项打鼾与患心脏病的调查中,共调查了1 671人,经过计算χ2的观测值x 0=27.63,
根据这一数据分析,我们有理由认为打鼾与患心脏病是________的(有关,无关).解析:由观测值x0=27.63与临界值比较,我们有99.9%的把握说打鼾与患心脏病有关.答案:有关
5.为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:
已知P(χ2≥3.841)≈
根据表中数据,得到χ2=50×(13×20-10×7)2
23×27×20×30
≈4.844.则认为选修文科与性别有关系出
错的可能性为________.
解析:因为χ2≈4.844>3.841,故认为选修文科与性别之间有关系出错的可能性约为5%.
答案:5%
[课下提升考能]
第Ⅰ组:全员必做题
1.(2014·枣庄模拟)下面是2×2列联表:
则表中a,b的值分别为()
A.94,72 B.52,50
C.52,74 D.74,52
解析:选C∵a+21=73,∴a=52,又a+22=b,∴b=74.
2.下列说法:
①将一组数据中的每个数据都加上或减去同一个常数后,方差恒不变;
②设有一个回归方程y=3-5x,变量x增加1个单位时,y平均增加5个单位;
③线性回归方程y=bx+a必过样本点的中心(x,y);
④在一个2×2列联表中,由计算得χ2=13.079,则有99%的把握确认这两个变量间有关系.
其中错误的个数是()
A .0 B.1 C .2
D .3
本题可以参考独立性检验临界值表
变量x 增加1个单位时,y 平均减少5个单位,②错误;由线性回归方程的相关概念易知③正确;因为χ2=13.079>x 0=10.828,故有99%的把握确认这两个变量间有关系,④正确.
3.(2013·广州模拟)工人月工资(元)依劳动产值(千元)变化的回归直线方程为y =60+90x ,下列判断正确的是( )
A .劳动产值为1 000元时,工资为50元
B .劳动产值提高1 000元时,工资提高150元
C .劳动产值提高1 000元时,工资提高90元
D .劳动产值为1 000元时,工资为90元
解析:选C 回归系数的意义为:解释变量每增加1个单位,预报变量平均增加b 个单位. 4.通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:
由χ2
=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )

算得χ2
=110×(40×30-20×20)2
60×50×60×50
≈7.8.
附表:
A .在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”
B .在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”
C .有99%以上的把握认为“爱好该项运动与性别有关”
D .有99%以上的把握认为“爱好该项运动与性别无关”
解析:选C 根据独立性检验的定义,由χ2≈7.8>6.635,可知我们在犯错误的概率不超
过0.01的前提下,即有99%以上的把握认为“爱好该项运动与性别有关”,故选C.
5.某产品的广告费用x 与销售额y 的统计数据如下表:
6万元时销售额为( )
A .63.6万元 B.65.5万元 C .67.7万元
D .72.0万元
解析:选B 样本中心点是(3.5,42),a =y -b x ,则a =y -b x =42-9.4×3.5=9.1, 所以回归直线方程是y =9.4x +9.1,把x =6代入得y =65.5.
6.高三某学生高考成绩y (分)与高三期间有效复习时间x (天)正相关,且回归方程是y =3x +50,若期望他高考达到500分,那么他的有效复习时间应不低于________天.
解析:本题主要考查运用线性回归方程来预测变量取值. 当y =500时,易得x =500-503=150.
答案:150
7.高三某班学生每周用于物理学习的时间x (单位:小时)与物理成绩y (单位:分)之间有如下关系:
.(答案保留到0.1)
解析:由已知可得x =
24+15+23+19+16+11+20+16+17+13
10=17.4,
y =
92+79+97+89+64+47+83+68+71+59
10
=74.9.
设回归直线方程为y =3.53x +a ,则74.9=3.53×17.4+a ,解得a ≈13.5. 答案:13.5
8.某中学生物研究性学习小组对春季昼夜温差大小与水稻发芽率之间的关系进行研究,记录了实验室4月10日至4月14日的每天昼夜温差与每天每50颗稻籽浸泡后的发芽数,得到如下资料:
线性回归方程为________.(参考公式:回归直线方程y =bx +a ,其中b =
∑i =1
n
x i y i -n x y
∑i =1
n
x 2i -n (x )2
,a
=y -b x )
解析:因为x =12,y =13.2, 所以b =
10×11+12×13+13×14+14×16+11×12-5×12×13.2
102+122+132+142+112-5×122
=1.2,于是,a =13.2-1.2×12
=-1.2,故所求线性回归方程为y =1.2x -1.2.
答案:y =1.2x -1.2
9.(2013·扬州模拟)为了分析某个高三学生的学习状态,对其下一阶段的学习提供指导性建议.现对他前7次考试的数学成绩x 、物理成绩y 进行分析.下面是该生7次考试的成绩.
(1)(2)已知该生的物理成绩y 与数学成绩x 是线性相关的,若该生的物理成绩达到115分,请你估计他的数学成绩大约是多少?并请你根据物理成绩与数学成绩的相关性,给出该生在学习数学、物理上的合理建议.
解:(1)x =100+-12-17+17-8+8+127=100;
y =100+-6-9+8-4+4+1+6
7=100;
∴s 2数学=9947=142.∴s 2物理=250
7
. 从而s 2数学>s 2物理,∴物理成绩更稳定.
(2)由于x 与y 之间具有线性相关关系,根据回归系数公式得到
b =7i =1x i y i -7xy
7
i =1
x 2i -7x
2

497
994
=0.5, a =y -b x =100-0.5×100=50. ∴回归方程为y =0.5x +50.
当y =115时,x =130,即该生物理成绩达到115分时,他的数学成绩大约为130分.
建议:进一步加强对数学的学习,提高数学成绩的稳定性,将有助于物理成绩的进一步提高.
10.(2013·郑州模拟)某中学对高二甲、乙两个同类班级进行“加强‘语文阅读理解’训练对提高‘数学应用题’得分率作用”的试验,其中甲班为试验班(加强语文阅读理解训练),乙班为对比班(常规教学,无额外训练),在试验前的测试中,甲、乙两班学生在数学应用题上的得分率基本一致,试验结束后,统计几次数学应用题测试的平均成绩(均取整数)如下表所示:
现规定平均成绩在80分以上(不含80分)的为优秀. (1)试分别估计两个班级的优秀率;
(2)由以上统计数据填写下面2×2列联表,并问是否有95%的把握认为“加强‘语文阅读理解’训练对提高‘数学应用题’得分率”有帮助.
解:(1)由题意知,甲、乙两班均有学生50人, 甲班优秀人数为30人,优秀率为30
50=60%,
乙班优秀人数为25人,优秀率为25
50=50%,
所以甲、乙两班的优秀率分别为60%和50%. (2)列联表如下:
因为χ2
=100×(30×25-20×25)250×50×55×45
=100
99≈1.010,
所以由参考数据知,没有95%的把握认为“加强‘语文阅读理解’训练对提高‘数学应用题’得分率”有帮助.
第Ⅱ组:重点选做题
1.在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =1
2x +1上,则这组样本数据的样本
相关系数为( )
A .-1 B.0 C.12
D .1
解析:选D 利用相关系数的意义直接作出判断.
样本点都在直线上时,其数据的估计值与真实值是相等的,即y i =y ^
i ,代入相关系数公式
R =1-
∑i =1
n
(y i -y ^
i )2
∑i =1
n
(y i -y )2
=1.
2.设某大学的女生体重y (单位:kg)与身高x (单位:cm)具有线性相关关系,根据一组样本数据(x i ,y i )(i =1,2,…,n ),用最小二乘法建立的回归方程为y =0.85x -85.71,则下列结论中不正确的是( )
A .y 与x 具有正的线性相关关系
B .回归直线过样本点的中心(x ,y )
C .若该大学某女生身高增加1 cm ,则其体重约增加0.85 kg
D .若该大学某女生身高为170 cm ,则可断定其体重必为58.79 kg 解析:选D 根据线性回归方程中各系数的意义求解.
由于线性回归方程中x 的系数为0.85,因此y 与x 具有正的线性相关关系,故A 正确.又线性回归方程必过样本中心点(x ,y ),因此B 正确.由线性回归方程中系数的意义知,x 每增加1 cm ,其体重约增加0.85 kg ,故C 正确.当某女生的身高为170 cm 时,其体重估计值是58.79 kg ,而不是具体值,因此D 不正确.。

相关文档
最新文档