第十章第3讲变量间的相关关系
变量间的相关关系 课件
(1)将上表中的数据制成散点图; (2)你能从散点图中发现施肥量与水稻产量近似成什么关 系吗? (3)若近似成线性关系,请画出一条直线来近似地表示这 种线性关系. [思路点拨] 作出散点图.根据散点图判断.
n
是偏差的平方和,即 Q= (yi-a-bxi)2,这样,回归直线就
i=1
是所有直线中 Q 取最小值的那一条,这种使得样本数据的点 到它的距离的平方和最小的方法叫做最小二乘法.
(2)利用最小二乘法求a、b时,是将Q转化为关于 a或b的二次函数,利用二次函数的知识求得的.
[例1] 下面是水稻产量与施肥量的一组统计数 据(单位:kg):
[思路点拨] (1)以产量为横坐标,以生产能耗对应的测 量值为纵坐标,在平面直角坐标系内画散点图;(2)应用 计算公式求得线性相关系数^b,^a的值;(3)实际上就是求 当 x=100 时,对应的 y 的值.
[精解详析] (1)散点图,如图所示.
4
(2)由题意,得 xiyi=3×2.5+4×3+5×4+6×4.5
i=1
i=1
=
n
xi2-n x 2
i=1
a= y -b x
其中:b 是回归方程的 斜率 ,a 是 截距 .
1.相关关系与函数关系均是指两个变量的关 系,不同的是函数关系是一种因果关系,而相关关 系不一定是因果关系,也可能是一种伴随关系.
2.对回归方程的推导,注意以下两点: (1)回归直线是数据最贴近的直线,反映贴近程度的数据
2.判断两个变量x和y间是否具有线性相关关 系,常用的简便方法就是绘制散点图,如果图上 发现点的分布从整体上看大致在一条直线附近, 那么这两个变量就是线性相关的,注意不要受个 别点的位置的影响.
变量间的相关关系 课件
②反映 y 与 x 之间的函数关系;
③表示y^与 x 之间的不确定关系;
④表示最接近 y 与 x 之间真实关系的一条直线.
A.①②Biblioteka B.②③C.③④D.①④
[答案] D
[解析] ^y=b^x+a^表示^y与x之间的函数关系,而不是y与x 之间的函数关系.但它所反映的关系最接近y与x之间的真实 关系.故选D.
2.线性相关 (1)定义:如果两个变量散点图中点的分布从整体上看大 致在一条 直线 附近,我们就称这两个变量之间具有线性相 关关系,这条直线叫做 回归直线. (2)最小二乘法:求线性回归直线方程 ^y = b^ x+ a^ 时,使得 样本数据的点到它的 距离的平方和 最小的方法叫做最小二 乘法,其中a,b的值由以下公式给出:
规律总结:回归直线是对原数量关系的一种拟合,如 果两个变量不具有线性相关关系,即使求出回归方程也是毫 无意义的,而且由其得到估计和预测的值也是不可信的.
变量之间的相关关系 两个变量的线性相关
1.相关关系 (1)定义:如果两个变量中一个变量的取值一定时,另一 个变量的取值带有一定的 随机性,那么这两个变量之间的关 系,叫做相关关系.
(2)两类特殊的相关关系:如果散点图中点的分布是从 左下 角到 右上 角的区域,那么这两个变量的相关关系称 为正相关,如果散点图中点的分布是从 左上 角到 右下 角 的区域,那么这两个变量的相关关系称为负相关.
其中,b^是回归方程的 斜率 ,a^是回归方程在y轴上的
截距.
[破疑点] 线性回归分析涉及大量的计算,形成操作上 的一个难点,可以利用计算机非常方便地作散点图、回归直 线,并能求出回归直线方程.因此在学习过程中,要重视信 息技术的应用.
下列有关回归方程y^=b^x+a^的叙述正确的是( )
变量间的相关关系 课件
(2)回归直线方程求解的方法步骤 根据最小二乘法的思想和公式,利用计算器或计算机,可
以方便地求出回归方程.
(3)利用回归直线对总体进行估计 利用回归直线,我们可以进行预测,若回归直线方程为y^ = bx+a,则 x=x0 处的估计值为:y^ 0=bx0+a.
特别提示:进行回归分析,通常先进行相关性检验,若能 确定两个变量具有线性相关关系,再去求其线性回归方程,否 则所求方程毫无意义.
一般规律吗? (2)求回归直线方程; (3)预测当钢水含碳量为 1.6%时,应冶炼多少分钟?
思路点拨:先画出散点图,求出回归直线方程,再进行预 测.
【解析】(1)以 x 轴表示含碳量,y 轴表示冶炼时间,可作 散点图,如图所示:
从图中可以看出,各点散布在一条直线附近,即它们线性 相关.
(2)列出下表,并用科学计算器进行计算:
10
10
10
x =159.8, y =172,x2i =265 448,y2i =312 350,xiyi=287 640
i=1
i=1
i=1
设所求的回归直线方程为y^ =bx+a,其中 a,b 的值使 Q=
10
(yi-bxi-a)2 的值最小.
i=1
10
xiyi-10 x y
i=1
b^ =
≈1.27,
记 x =1ni=n1xi, y =1ni=n1yi,则( x , y )为样本点的中心,回归直
线一定过这一点,对于单变量样本数据而言,平均数是样本 数据的中心,类似地,对于双变量样本点而言,回归直线是 样本点的中心.
2.怎样画出散点图和回归直线?
【答案】 (1)建立直角坐标系,两轴的长度单位可以不一致. (2)将 n 个数据点(xi,yi)(n=1,2,3,…,n)描在平面直角坐 标系中. (3)描的点可以是实心点,也可以是空心点. (4)画回归直线时,一定要画在多数点经过的区域.实际画 线时,先观察有哪两个点在直线上即可. (5)具体作回归直线时,用一把透明的直尺边缘在这些点间 移动,使它尽量靠近或通过大多数点,然后画出直线.
知识讲解_变量间的相关关系_基础
变量的相关关系编稿:丁会敏审稿:静伟【学习目标】1.明确两个变量具有相关关系的意义;2.知道回归分析的意义;3.知道回归直线、回归直线程、线性回归分析的意义;4.掌握对两个变量进行线性回归的法和步骤,并能借助科学计算器确定实际问题中两个变量间的回归直线程;【要点梳理】【高清课堂:变量的相关关系400458 知识讲解1】要点一、变量之间的相关关系变量与变量之间存在着两种关系:一种是函数关系,另一种是相关关系。
1.函数关系函数关系是一种确定性关系,如y=kx+b,变量x取的每一个值,y都有唯一确定的值和它相对应。
2.相关关系变量间确定存在关系,但又不具备函数关系所要求的确定性相关关系分为两种:正相关和负相关要点诠释:对相关关系的理解应当注意以下几点:(1)相关关系与函数关系不同.因为函数关系是一种非常确定的关系,而相关关系是一种非确定性关系,即相关关系是非随机变量与随机变量之间的关系.而函数关系可以看成是两个非随机变量之间的关系.因此,不能把相关关系等同于函数关系.(2)函数关系是一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系.例如,有人发现,对于在校儿童,鞋的大小与阅读能力有很强的相关关系.然而,学会新词并不能使脚变大,而是涉及到第三个因素——年龄.当儿童长大一些,他们的阅读能力会提高而且由于长大脚也变大.(3)函数关系与相关关系之间有着密切联系,在一定的条件下可以相互转化.例如正形面积S与其边长x间虽然是一种确定性关系,但在每次测量边长时,由于测量误差等原因,其数值大小又表现出一种随机性.而对于具有线性关系的两个变量来说,当求得其回归直线后,我们又可以用一种确定性的关系对这两个变量间的关系进行估计.3.散点图将收集到的两个变量的统计数据分别作为横、纵坐标,在直角坐标系中描点,这样的图叫做散点图。
通过散点图可初步判断两个变量之间是否具有相关关系,她反映了各数据的密切程度。
要点二、正相关、负相关(1)正相关:在统计数据中的两个变量,一个变量的值由小变大时,另一个变量的值也由小变大,这种相关称为正相关。
变量间的相关关系课件
(参考数值:3×2.5+4×3+5×4+6×4.5=66.5)
分析:(1)以产量为横坐标,以生产能耗对应的测量值为纵坐标,在平
^^
面直角坐标系内画散点图;(2)应用计算公式求得线性相关系数 ,
的值;(3)实际上就是求当 x=100 时,对应的 y 的值.
解:(1)散点图,如图所示.
42.
y 40 41 41
42
43 44
5
5
16
0
45
16
2
45
16
3
164
46
45.
5
(1)画出散点图.
(2)判断变量 x,y 是否具有相关关系?如果具有相关关系,那么是正相
关还是负相关?
分析:对于给定一组观察数据,可以借助作散点图这样有效的手段进
行处理.
解:(1)画出散点图.
(2)具有相关关系.根据散点图,左下角到右上角的区域,变量 x 的
的值由以下公式给出:
^
∑ ( -)( -)
= =1
∑ ( -)
2
∑ -n
= =1
∑
=1
^
=1
2 -n2
,
^
= - ,
^
^
其中, 是回归方程的斜率, 是回归方程在 y 轴上的截距.
1.散点图
剖析:(1)将样本中的 n 个数据对(xi,yi)(i=1,2,…,n)描在平面直角
坐标系中,所得图形叫做散点图(scatterplot).
(2)散点图形象地反映了各对数据的密切程度.根据散点图中点
的分布趋势分析两个变量之间的关系,可直观地判断并得出结论.
第3讲 变量间的相关关系与统计案例
K
2
a b a c c d b d
n ad bc
2
[审题视点] 第(2)问由a=40,b=30,c=160,d=270,代 入公式可求K2,由K2的值与6.635比较断定.第(3)问从抽样 方法说明.
6.独立性检验 (1)用变量的不同“值”表示个体所属的不同类别,这种变量 称为分类变量.例如:是否吸烟,宗教信仰,国籍等. (2)列出的两个分类变量的频数表,称为列联表. (3)一般地,假设有两个分类变量X和Y,它们的值域分别为 {x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为: 2×2列联表 y1 y2 总计 x1 a b a+b x2 总计 c a+c c+d b+d a+b+c+d d
解析 从散点图看,散点图的分布成团状,无任 何规律,所以两个变量不具有线性相关关系.
考向二
独立性检验
【例2】(2010·全国新课标)为调查某地区老年人是否需要志愿者 提供帮助,用简单随机抽样方法从该地区调查了500位老年人, 结果如下: 性别
是否需要志愿者 需要 不需要 男 女 40 160 30 270
从散点图上看,点散布在从左下角到右上角的区域内,对 于两个变量的这种相关关系,我们将它称为正相关;点散 布在从左上角到右下角的区域内,两个变量的这种相关关 系称为负相关. 2.线性相关 从散点图上看,如果这些点从整体上看大致分布在一条 直线附近,则称这两个变量之间具有线性相关关系,这 条直线叫回归直线.
5.线性回归模型 (1)y=bx+a+e中,a、b称为模型的未知参数;e称为随机误 差. (2)相关指数 用相关指数R2来刻画回归的效果,其计算公式是:
R2
y
n i 1 n i 1
变量之间的相关关系(必修优秀课件)
归方程的较为科学的方法:
y
脂
肪 含 量
40
设回归方程为
y bx a
35
30 25
20
15 10
5
0 20 25 30 35 40 45 50 55 60 65
x
年龄
人们经过长期的实践与研究,已经找到了计算回
归方程的较为科学的方法:
y
脂
肪 含 量
40
设回归方程为
y bx a
35
30
25
20
A xi , yi
人体内脂肪含量与年龄之间有怎样的关系?
下面我们以年龄为横轴, 脂肪含量为纵轴建立直角坐标系, 作出各个
点, 称该图为散点图。
y
年 龄
23
27
39
41
45
49
50
53
54
56
57
58
60
61
脂 肪
9.5 17.8 21.2 25.9 27.5 26.3 28.2 29.6 30.2 31.4 30.8 33.5 35.2 34.6
线附近,我们就称这两个变量之间具有线性相关关系,这条
直线叫做回归直线, 该直线叫回归方程。
脂肪含量
40
那么,我们该怎样
35
来求出这个回归方程? 30
请同学们展开讨论,
25
能得出哪些具体的方
20
案?
15
10
5
年龄
0 20 25 30 35 40 45 50 55 60 65
.
方案1、先画出一条直线,测量出各点与它的距离, 再移动直线,到达一个使距离的和最小时,测出它的斜 率和截距,得回归方程。
第3讲 变量间的相关关系、回归分析及独立性检验
(1)画出散点图; 画出散点图; 画出散点图 (2)判断是否具有相关关系 判断是否具有相关关系
思维点拨: 施化肥量 作为横轴 产量y为纵轴可作出散点图 作为横轴, 为纵轴可作出散点图, 思维点拨:用施化肥量x作为横轴,产量 为纵轴可作出散点图,由散 点图即可分析是否具有线性相关关系. 点图即可分析是否具有线性相关关系. 解:(1)散点图如右图所示, 散点图如右图所示,
思维点拨:利用相关系数 进行线性相关检验 也可利用散点图). 进行线性相关检验(也可利用散点图 思维点拨:利用相关系数r进行线性相关检验 也可利用散点图 .如果线性相 关,再求回归直线方程并加以判断. 再求回归直线方程并加以判断.
因为r>0.5,所以y与x有很强的线性相关关系. 因为 > ,所以 与 有很强的线性相关关系. 有很强的线性相关关系 (2) =0.728 6x-0.857 1. - ≤10⇒0.728 6x-0.857 1≤10, ⇒ - ≤ ,
(3)要使 要使
所以x≤ 所以 ≤14.901 3. 所以机器的转速应控制在14.901 3转/秒以下. 秒以下. 所以机器的转速应控制在 转 秒以下
变式2:假设关于某设备的使用年限 和所支出的维修费用 万元), 和所支出的维修费用y(万元 变式 :假设关于某设备的使用年限x和所支出的维修费用 万元 , 有如下的统计资料: 有如下的统计资料:
解析: 学生的学习态度与学习成绩之间不是因果关系, 解析:①学生的学习态度与学习成绩之间不是因果关系, 是相关关系. 是相关关系.②教师的执教水平与学生的学习成绩之间的 关系是关关系.③④都不具备相关关系. 关系是关关系.③④都不具备相关关系. 都不具备相关关系 答案: 答案:A
2.(2009·宁夏、海南 对变量 ,y有观测数据 i,yi)(i=1,2,…,10),得散 . 宁夏、 对变量x, 有观测数据 有观测数据(x 宁夏 海南)对变量 = , , 点图(1);对变量 、 有观测数据 有观测数据(u 点图 ;对变量u、v有观测数据 i,vi)(i=1,2,…,10),得散点图 = , , (2).由这两个散点图可以判断( .由这两个散点图可以判断 )
变量间的相关关系 课件
4.回归直线方程 (1)回归直线:如果散点图中点的分布从整体上看大致 在_一__条__直__线__附近,就称这两个变量之间具有_线__性__相__关__关 系,这条直线叫做回归直线. (2)回归方程:_回__归__直__线__的方程,简称回归方程. (3)回归方程的推导过程: ①假设已经得到两个具有线性相关关系的变量的一组 数据(x1,y1),(x2,y2),…,(xn,yn). ②设所求回归方程为_^y_=__^b_x_+__^a_,其中^a,^b是待定参数.
【解】 (1)画散点图如图. 由图可知y与x具有线性相关关系.
(2)列表、计算:
i1
2
3
4
5
6
7
xi 10
20
30
40
50
60
70
yi 62
68
75
81
89
95
102
xiyi 620 1 360 2 250 3 240 4 450 5 700 7 140
10
10
x =55, y =91.7, xi2 =38 500, xiyi=55 950
9 90 115 10 350
10 100 122 12 200
◆用公式求回归方程的一般步骤:
(1)列关于xi,yi,xiyi的表格.
(2)计算
x
,
y
,
n
, n
xi2
xiyi.
i 1
i 1
(3)代入公式计算bˆ ,aˆ的值.
(4)写出回归方程.
【注意】
求回归方程前,需要:
(1)收集样本数据,设为(xi,yi)(i=1,2,…,n)(数据一般 由题目给出).
i 1
第十章 两变量相关性分析
二、相关系数的计算
r X X Y Y lXY X X 2 Y Y 2 lXXlYY
XY ( X )(Y) / n
[ X 2 ( X )2 / n][Y 2 (Y )2 / n]
式中 (X X )2 为X的离均差平方和, 用 lXX 代替;
按自由度v=n-2查相关系数界值表(附表12,P425)。 2. t 检验 (n>50)
公式 t r 0 = r
,υ=n-2
Sr
1 r2
n2
Sr---- 相关系数的标准误 求得 t 值后查t 界值表得P值。
本例n=21,故采用查表法:按v= n-2 = 21-2 = 19 查附表12可知, r0.05/ 2,19 0.433
0.81
16
4.60
0.85
17
3.58
0.83
18
3.57
0.84
19
3.49
0.73
20
3.63
1.27
21
3.89
0.78
计算相关系数的一般步骤为:
1. 绘制散点图。 (见图10-2)。
散点图显示两 变量有直线趋势
图10-2 肝癌病人血清胆固醇与甘油三酯关系散点图
2. 计算基础数据,并列出相关系数计算表,
病人序号
血清胆固醇
甘油三脂
1
3.89
1.71
2
3.41
1.01
35.700.Fra bibliotek746.84
1.78
5
2.93
1.25
6
3.98
0.70
7
4.23
1.33
第十章 统计与概率10-3变量间的相关关系与统计案例
第10章 第3节一、选择题1.(文)(2010·重庆文,5)某单位有职工750人,其中青年职工350人,中年职工250人,老年职工150人,为了了解该单位职工的健康情况,用分层抽样的方法从中抽取样本,若样本中的青年职工为7人,则样本容量为( )A .7B .15C .25D .35[答案] B[解析] 抽取比例为350 250 150=7 5 3,因为青年职工抽取7人,所以中年职工抽取5人,老年职工抽取3人,所以样本容量为7+5+3=15人,故选B.(理)设某项试验的成功率是失败率的2倍,用随机变量ξ去描述1次试验的成功次数,则P (ξ=0)和D (ξ)的值依次为( )A .1,6 B.12,12 C.13,29D.14,516[答案] C[解析] 由题意,设ξ的分布列为即“ξ=0”表示试验失败,“ξ 由p +2p =1,得p =13∴P (ξ=0)=13,又E (ξ)=0×13+1×23=23,∴D (ξ)=⎝⎛⎭⎫0-232×13+⎝⎛⎭⎫1-232×23=29 故选C.2.(2010·安徽江南十校联考)最小二乘法的原理是( ) A .使得∑i =1n[y i -(a +bx i )]最小B .使得∑i =1n[y i -(a +bx i )2]最小C .使得∑i =1n[y i 2-(a +bx i )2]最小D .使得∑i =1n[y i -(a +bx i )]2最小[答案] D[解析] 根据回归方程表示到各点距离最小的直线方程,即总体偏差最小,亦即∑i =1n[y i -(a +bx i )]2最小.3.(2010·银川模拟)下列四个命题正确的是( )①线性相关系数r 越大,两个变量的线性相关性越强,反之,线性相关性越弱; ②残差平方和越小的模型,拟合的效果越好;③用相关指数R 2来刻画回归效果,R 2越小,说明模型的拟合效果越好; ④随机误差e 是衡量预报精确度的一个量,它满足E (e )=0. A .①③ B .②④ C .①④D .②③[答案] B[解析] 线性相关系数r 满足|r |≤1,并且|r |越接近1,线性相关程度越强;|r |越接近0,线性相关程度越弱,故①错误;相关指数是度量模型拟合效果的一种指标.相关指数R 2越接近于1,模型的拟合效果越好,R 2越大,残差平方和就越小,故残差平方和越小的模型,拟合效果越好,故②对③错.故选B.4.若两个分类变量x 、y 的列联表为则变量y 与x A .99%以上B .95%以上C .99.5%以上D .95%以下[答案] B[解析] n =15+45+30+40=130,∴χ2=130×(15×40-45×30)260×70×45×85≈4.55>3.841,∴有95%以上的把握认为y 与x 有关系,故选B.5.(2010·北京延庆县模考)在学校开展的综合实践活动中,某班进行了小制作评比,作品上交时间为5月1日至30日,评委会把同学们上交作品的件数按5天一组分组统计,绘制了频率分布直方图(如图所示),已知从左到右各长方形高的比为2 3 4 6 4 1,第三组的频数为12,则本次活动参加评比作品总数、上交作品数量最多的组的作品件数依次为( )A .60、18B .60、20C .80、18D .80、30[答案] A6.(文)已知回归直线的斜率的估计值是1.23,样本点的中心为(4,5),则回归直线的方程是( )A.y ^=1.23x +4 B.y ^=1.23x +0.08 C.y ^=1.23x +0.8D.y ^=1.23x -0.08[答案] B[解析] 由条件知,x -=4,y -=5, 设回归直线方程为y ^=1.23x +a ,则 a =y --1.23x -=0.08.(理)(2010·延边州质检)两个相关变量满足如下关系:A.y ^=0.56x +997.4 B.y ^=0.63x -231.2 C.y ^=0.56x +501.4D.y ^=60.4x +400.7[答案] A[解析] x -=20,y -=1008.6,代入公式b ^=∑i =15(x i -x -)(y i -y -)∑i =15(x i -x -)2,及a ^=y --b ^x -中可得:b ^=0.56,a ^=997.4,故选A.7.(2010·山东省实验中学)设有n 个样本x 1,x 2,…,x n ,其标准差是S x ,另有n 个样本y 1,y 2,…,y n ,且y k =3x k +5,(k =1,2,…,n ),其标准差为S y ,则下列关系正确的是( )A .S y =3S x +5B .S y =3S xC .S y =3S xD .S y =3S x +5[答案] B[解析] S y 2=32S x 2,∴S y =3S x .[点评] 一般的数据x 1,x 2,…,x n 的平均数为x -,方差为S 2,则kx 1+b ,kx 2+b ,…,kx n +b 的平均数为k x -+b ,方差为k 2S 2.8.(2010·福州市质检)在某种新型材料的研制中,实验人员获得了下列一组实验数据:( )A .y =2x -2B .y =12(x 2-1)C .y =log 3xD .y =2x -2[答案] B[解析] 把表格中的数据代入选择项的解析式中,易得所求的最接近的一个函数是y =12(x 2-1).9.(文)(2010·厦门三中阶段训练)某校举行演讲比赛,9位评委给选手A 打出的分数如茎叶图所示,统计员在去掉一个最高分和一个最低分后,算得平均分为91,复核员在复核时,发现有一个数字(茎叶图中的x )无法看清,若统计员计算无误,则数字x 应该是( )A.5B .4C .3D .2[答案] D[解析] 去掉最低分87,去掉最高分94(假设x ≤4),则7×91=80×2+9+8+90×5+2+3+2+1+x ,∴x =2,符合题意,故选D.(理)(2010·福建省龙岩市质检)一位同学种了甲、乙两种树苗各1株,分别观察了9次、10次后,得到树苗高度的数据的茎叶图如图(单位:厘米),则甲、乙两种树苗高度数据的中位数之和是( )A.44 B .54 C .50D .52[答案] D[解析] 根据茎叶图可得,观察甲树苗9次得到的树苗高度分别为:19,20,21,23,24,37,33,32,31;观察乙树苗10次得到的树苗高度分别为:10,14,10,26,24,30,44,46,46,47,易得甲树苗高度的中位数为24,乙树苗高度的中位数为26+302=28,因此24+28=52.[点评] 在茎叶图中找中位数时,n 为奇数,前后各去掉n -12个,剩下一个即是;n 为偶数,前后各去掉n -22个,剩下两个的平均数即是,用这种方法找中位数,必须注意,茎叶图中数据是按规则从小到大排列的,否则去掉两端数字时,大的从大到小找,小的从小到大找.10.(09·上海)在发生某公共卫生事件期间,有专业机构认为该事件在一段时间没有发生大规模群体感染的标志为“连续10天,每天新增疑似病例不超过7人”.根据过去10天甲、乙、丙、丁四地新增疑似病例数据,一定符合该标志的是( )A .甲地:总体均值为3,中位数为4B .乙地:总体均值为1,总体方差大于0C .丙地:中位数为2,众数为3D .丁地:总体均值为2,总体方差为3 [答案] D[解析] 逐项验证,由0,0,0,2,4,4,4,4,4,8可知,A 错;由0,0,0,0,0,0,0,0,2,8可知,B 错;由0,0,1,1,2,2,3,3,3,8可知,C 错.故选D.[点评] x -=2时,(x 1-2)2+(x 2-2)2+…+(x 10-2)210=3.即(x 1-2)2+(x 2-2)2+…+(x 10-2)2=30.显然(x i -2)2≤30(i =1,2,…,10),∵x i ∈N *,即x i ≤7.二、填空题11.(2010·广东文)某市居民2005~2009年家庭年平均收入x (单位:万元)与年平均支出Y (单位:万元)的统计资料如下表所示:根据统计资料,居民家庭平均收入的中位数是________,家庭年平均收入与年平均支出有________线性相关关系.[答案] 13 正[解析] 找中位数时,将样本数据按大小顺序排列后奇数个时中间一个是中位数,而偶数个时须取中间两数的平均数,由统计资料可以看出,中位数为13万元,且年平均收入增多时,年平均支出也增多,因此两者正相关.12.观察两相关变量得到如下数据:则两变量的回归直线方程为________. [答案] y ^=0.179+0.905x [解析] x -=4.5,y -=4.25,∑i =18x i 2=204,∑i =18x i y i =191,b ^=∑i =18x i y i -8x -y-∑i =18x i 2-8x -2=191-8×4.5×4.25204-8×4.52≈0.905,a ^=y --b ^x -=4.25-0.905×4.5≈0.179, ∴所求回归直线方程为y ^=0.179+0.905x .13.(2010·湖南考试院调研)在某赛季篮球比赛中,甲、乙两名运动员每场比赛的得分统计茎叶图如图所示,则发挥较稳定的运动员是________.[答案]甲14.(2010·辽宁省实验中学模拟)某研究小组为了研究中学生的身体发育情况,在某学校随机抽出20名15至16周岁的男生,将他们的身高和体重制成2×2列联表,根据列联表的数据,可以有________%的把握认为该学校15至16周岁的男生的身高和体重之间有关系.独立性检验随机变量χ2值的计算公式:χ2=(a+b)(c+d)(a+c)(b+d).[答案]97.5三、解答题15.(2010·广东文,17)某电视台在一次对收看文艺节目和新闻节目观众的抽样调查中,随机抽取了100名电视观众,相关的数据如下表所示:(1)(2)用分层抽样方法在收看新闻节目的观众中随机抽取5名,大于40岁的观众应该抽取几名?(3)在上述抽取的5名观众中任取2名,求恰有1名观众的年龄为20至40岁的概率.[解析](1)由于大于40岁的42人中有27人收看新闻节目,而20至40岁的58人中,只有18人收看新闻节目,故收看新闻节目的观众与年龄有关.(2)27×545=3,∴大于40岁的观众应抽取3名.(3)由题意知,设抽取的5名观众中,年龄在20岁至40岁的为a 1,a 2,大于40岁的为b 1,b 2,b 3,从中随机取2名,基本事件有:(a 1,a 2),(a 1,b 1),(a 1,b 2),(a 1,b 3),(a 2,b 1),(a 2,b 2),(a 2,b 3),(b 1,b 2),(b 1,b 3),(b 2,b 3)共十个,设恰有一名观众年龄在20至40岁为事件A ,则A 中含有基本事件6个:(a 1,b 1),(a 1,b 2),(a 1,b 3),(a 2,b 1),(a 2,b 2),(a 2,b 3),∴P (A )=610=35.16.(文)(2010·新课标全国理,19)为调查某地区老年人是否需要志愿者提供帮助,用简单随机抽样方法从该地区调查了500位老年人,结果如下:(1)(2)能否有99%的把握认为该地区的老年人是否需要志愿者提供帮助与性别有关? (3)根据(2)的结论,能否提出更好的调查方法来估计该地区的老年人中,需要志愿者提供帮助的老年人的比例?说明理由.附:χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )[解析] (1)调查的500位老年人中有70位需要志愿者提供帮助,因此该地区老年人中,需要帮助的老年人的比例的估计值为70500=14%.(2)χ2=500×(40×270-30×160)2200×300×70×430≈9.967.由于9.967>6.635,所以有99%的把握认为该地区的老年人是否需要帮助与性别有关. (3)由(2)的结论知,该地区老年人是否需要帮助与性别有关,并且从样本数据能看出该地区男性老年人与女性老年人中需要帮助的比例有明显差异,因此在调查时,先确定该地区老年人中男、女的比例,再把老年人分成男、女两层并采用分层抽样方法比采用简单随机抽样方法更好.(理)(09·辽宁)某企业有两个分厂生产某种零件,按规定内径尺寸(单位:mm)的值落在(29.94,30.06)的零件为优质品.从两个分厂生产的零件中各抽出500件,量其内径尺寸的结果如下表:甲厂乙厂(1)(2)由于以上统计数据填下面2×2列联表,并问是否有99%的把握认为“两个分厂生产的零件的质量有差异”..[解析] (1)甲厂抽查的产品中有360件优质品,从而甲厂生产的零件的优质品率估计为360500=72%; 乙厂抽查的产品中有320件优质品,从而乙厂生产的零件的优质品率估计为320500=64%.(2)χ2=1000×(360×500×500×680×320≈7.35>6.635,所以有99%的把握认为“两个分厂生产的零件的质量有差异”.17.(文)在10瓶饮料中,有2瓶是不合格产品,现质检员从这10瓶饮料中任意抽取2瓶进行检验.(1)求质检员检验到不合格产品的概率;(2)若把这10瓶饮料分成甲、乙两组,对其容量进行测量,数据如下表所示(单位:mL):[解析] (1)把10瓶饮料分别编号为1,2,3,4,5,6,7,8,a ,b .其中a ,b 表示不合格产品.则从中任意抽取两瓶饮料的基本事件有45个,即:(1,2),(1,3),(1,4),(1,5),(1,6),(1,7),(1,8),(1,a ),(1,b );(2,3),(2,4),(2,5),(2,6),(2,7),(2,8),(2,a ),(2,b );(3,4),(3,5),(3,6),(3,7),(3,8),(3,a ),(3,b );(4,5),(4,6),(4,7),(4,8),(4,a ),(4,b );(5,6),(5,7),(5,8),(5,a ),(5,b );(6,7),(6,8),(6,a ),(6,b );(7,8),(7,a ),(7,b );(8,a ),(8,b );(a ,b ).其中抽到不合格的事件有17个.∴质检员检验到不合格产品的概率为P =1745.(2)x -甲=257+259+260+261+2635=260,x -乙=258+259+259+261+2635=260,∴S 甲2=15[(257-260)2+(259-260)2+(260-260)2+(261-260)2+(263-260)2]=4,S 乙2=15[(258-260)2+(259-260)2+(259-260)2+(261-260)2+(263-260)2]=3.2.∵S 甲2>S 乙2,∴乙组饮料的容量更稳定些.(理)(2010·广东佛山)为了对2007年佛山市中考成绩进行分析,在60分以上的全体同学中随机抽出8位,他们的数学分数(已折算为百分制)从小到大排列是60、65、70、75、80、85、90、95,物理分数从小到大排列是72、77、80、84、88、90、93、95.(1)若规定85分(包括85分)以上为优秀,求这8位同学中恰有3位同学的数学和物理分数均为优秀的概率;(2)若这8位同学的数学、物理、化学分数事实上对应如下表:(3)求y 与x 、z 与x 的线性回归方程(系数精确到0.01),并用相关指数比较所求回归模型的效果.参考数据:x -=77.5,y -=85,z -=81,∑i =18 (x i -x -)≈1050,∑i =18 (y i -y -)2≈456,∑i =18 (z i-z -)≈550,∑i =18 (x i -x -)(y i -y -)≈688,∑i =18 (x i -x -)(z i -z -)≈755,∑i =18 (y i -y ^i )≈7,∑i =18 (z i -z^i )2≈94,1050≈32.4,456≈21.4,550≈23.5.[解析] (1)这8位同学中恰有3位同学的数学和物理分数均为优秀,则需要先从物理的4个优秀分数中选出3个与数学优秀分数对应,种数是C 43A 33(或A 43),然后将剩下的5个数学分数和物理分数任意对应,种数是A 55.根据乘法原理,满足条件的种数是C 43A 33A 55.这8位同学的物理分数和数学分数分别对应的种数共有A 88.故所求的概率P =C 43A 33A 55A 88=114. (2)变量y 与x 、z 与x 的相关系数分别是r =68832.4×21.4≈0.99,r ′=75532.4×23.5≈0.99 可以看出,物理与数学、化学与数学的成绩都是高度正相关.(3)设y 与x 、z 与x 的线性回归方程分别是y ^=bx +a ,z ^=b ′x +a ′根据所给的数据可以计算出,b =6881050=0.65,a =85-0.65×77.5=34.63, b ′=7551050=0.72,a ′-81-0.72×77.5=25.20 所以y 与x 和z 与x 的回归方程分别是y ^=0.65x +34.63,z ^=0.72x +25.20,又y 与x 、z 与x 的相关指数是R 2=1-7456≈0.98, R ′2=1-94550≈0.83 故回归模型y ^=0.65x +34.63比回归模型z ^=0.72x +25.20的拟合的效果好.。
高中数学必修三-变量间的相关关系
变量间的相关关系知识集结知识元变量之间的相关关系知识讲解1、变量之间的相关关系两个变量之间的关系可能是确定的关系(如:函数关系),或非确定性关系.当自变量取值一定时,因变量也确定,则为确定关系;当自变量取值一定时,因变量带有随机性,这种变量之间的关系称为相关关系.相关关系是一种非确定性关系,如长方体的高与体积之间的关系就是确定的函数关系,而人的身高与体重的关系,学生的数学成绩好坏与物理成绩的关系等都是相关关系.2、线性相关和非线性相关:两个变量之间的相关关系又可分为线性相关和非线性相关,如果所有的样本点都落在某一函数曲线的附近,则变量之间具有相关关系(不确定性的关系),如果所有样本点都落在某一直线附近,那么变量之间具有线性相关关系,相关关系只说明两个变量在数量上的关系,不表明他们之间的因果关系,也可能是一种伴随关系.3、两个变量相关关系与函数关系的区别和联系(1)相同点:两者均是两个变量之间的关系.(2)不同点:函数关系是一种确定的关系,如匀速直线运动中时间t与路程s的关系,相关关系是一种非确定的关系,如一块农田的小麦产量与施肥量之间的关系,函数关系是两个随机变量之间的关系,而相关关系是非随机变量与随机变量之间的关系;函数关系式一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系.例题精讲变量之间的相关关系例1.用线性回归模型求得甲、乙、丙3组不同的数据的线性相关系数分别为0.81,-0.98,0.63,其中___(填甲、乙、丙中的一个)组数据的线性相关性最强.例2.如图所示,有A,B,C,D,E,5组数据,去掉___组数据后,剩下的4组数据具有较强的线性相关关系.(请用A、B、C、D、E作答)例3.对两个变量的相关系数r,有下列说法:(1)|r|越大,相关程度越大;(2)|r|越小,相关程度越大;(3)|r|趋近于0时,没有非线性相关系数;(4)|r|越接近于1时,线性相关程度越强,其中正确的是_________.例4.下列两个变量之间的关系是相关关系的是___.①正方体的棱长和体积;②单位圆中圆心角的度数和所对弧长;③单产为常数时,土地面积和总产量;④日照时间与水稻的亩产量.两个变量的线性相关知识讲解1.散点图【知识点的知识】1.散点图的概念:在考虑两个量的关系时,为了对变量之间的关系有一个大致的了解,人们常将变量所对应的点描出来,这些点就组成了变量之间的一个图,通常称这种图为变量之间的散点图.2.曲线拟合的概念:从散点图可以看出如果变量之间存在着某种关系,这些点会有一个集中的大致趋势,这种趋势通常可以用一条光滑的曲线来近似,这种近似的过程称为曲线拟合.3.正相关和负相关:(1)正相关:对于相关关系的两个变量,如果一个变量的值由小变大时,另一个变量的值也由小变大,这种相关称为正相关,正相关时散点图的点散布在从左下角到右上角的区域内.(2)负相关:如果一个变量的值由小变大时,另一个变量的值由大变小,这种相关称为负相关,负相关时散点图的点散布在从左上角到右下角的区域.3、注意:画散点图的关键是以成对的一组数据,分别为此点的横、纵坐标,在平面直角坐标系中把其找出来,其横纵坐标的单位长度的选取可以不同,应考虑数据分布的特征,散点图只是形象的描述点的分布,如果点的分布大致呈一种集中趋势,则两个变量可以初步判断具有相关关系,如图中数据大致分布在一条直线附近,则表示的关系是线性相关,如果两个变量统计数据的散点图呈现如下图所示的情况,则两个变量之间不具备相关关系,例如学生的身高和学生的英语成绩就没有相关关系.4、散点图又称散点分布图,是以一个变量为横坐标,另一变量为纵坐标,利用散点(坐标点)的分布形态反映变量统计关系的一种图形.特点是能直观表现出影响因素和预测对象之间的总体关系趋势.优点是能通过直观醒目的图形方式反映变量间关系的变化形态,以便决定用何种数学表达方式来模拟变量之间的关系.散点图不仅可传递变量间关系类型的信息,也能反映变量间关系的明确程度.2.线性回归方程【概念】线性回归是利用数理统计中的回归分析,来确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法之一,运用十分广泛.分析按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析.如果在回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析.如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析.变量的相关关系中最为简单的是线性相关关系,设随机变量与变量之间存在线性相关关系,则由试验数据得到的点将散布在某一直线周围.因此,可以认为关于的回归函数的类型为线性函数.【实例解析】例:对于线性回归方程,则=解:,因为回归直线必过样本中心(),所以.故答案为:58.5.方法就是根据线性回归直线必过样本中心(),求出,代入即可求.这里面可以看出线性规划这类题解题方法比较套路化,需要熟记公式.【考点点评】这类题记住公式就可以了,也是高考中一个比较重要的点.3.最小二乘法【概念】最小二乘法(又称最小平方法)是一种数学优化技术.它通过最小化误差的平方和寻找数据的最佳函数匹配.利用最小二乘法可以简便地求得未知的数据,并使得这些求得的数据与实际数据之间误差的平方和为最小.最小二乘法还可用于曲线拟合.其他一些优化问题也可通过最小化能量或最大化熵用最小二乘法来表达.【例题解析】例:关于x与y有如表数据:请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程为y=0.7x+0.35.解:∵由题意知,,∴=0.7∴要求的线性回归方程是y=0.7x+0.35,故答案为:y=0.7x+0.35.集体步骤就是先做出x,y的平均数,代入的公式,利用最小二乘法做出线性回归直线的方程的系数,写出回归直线的方程,得到结果.【考点解析】最小二乘法一般在线性拟合中应用的比较多,主要是一种方法,能够熟记如何操作就可以了,剩下的就是计算要认真.例题精讲两个变量的线性相关例1.'2018年9月17日,世界公众科学素质促进大会在北京召开,国家主席习近平向大会致贺信中指出,科学技术是第一生产力,创新是引领发展的第一动力某企业积极响应国家“科技创新”的号召,大力研发新产品,为了对新研发的一批产品进行合理定价,将该产品按事先拟定的价格进行试销,得到一组销售数据{x i,y i)(i=1,2,3,4,5,6),如表(1)求出p的值;(2)已知变量x,y具有线性相关关系,求产品销量y(件)关于试销单价:x(百元)的线性国归方程y=bx+a(计算结果精确到整数位);(3)用表示用正确的线性回归方程得到的与x对应的产品销的估计值当销售数据(x i,y i)的残差的绝对值|y i-y|<1时,则将销售数据称为一个“有效数据”现从这6组销售数中任取2组,求抽取的2组销售数据都是“有效数据”的概率.参考公式及数据=y i=80,=1606,=91,,'例2.'某地种植常规稻α和杂交稻β,常规稻α的亩产稳定为485公斤,今年单价为3.70元/公斤,估计明年单价不变的可能性为10%,变为3.90元/公斤的可能性为70%,变为4.00的可能性为20%.统计杂交稻β的亩产数据,得到亩产的频率分布直方图如图①.统计近10年杂交稻β的单价(单位:元/公斤)与种植亩数(单位:万亩)的关系,得到的10组数据记为(x i,y i)(i=1,2,..10),并得到散点图如图②.(1)根据以上数据估计明年常规稻α的单价平均值;(2)在频率分布直方图中,各组的取值按中间值来计算,求杂交稻β的亩产平均值;以频率作为概率,预计将来三年中至少有二年,杂交稻β的亩产超过795公斤的概率;(3)①判断杂交稻β的单价y(单位:元/公斤)与种植亩数x(单位:万亩)是否线性相关?若相关,试根据以下的参考数据求出y关于x的线性回归方程;②调查得知明年此地杂交稻β的种植亩数预计为2万亩.若在常规稻α和杂交稻β中选择,明年种植哪种水稻收入更高?统计参考数据:=1.60,=2.82,(x i)(y i)=-0.52,(x i)2=0.65,附:线性回归方程=bx+a,b=.'当堂练习单选题练习1.用模型y=ce kx拟合一组数据时,为了求出回归方程,设z=lny,其变换后得到线性回归方程z=0.3x+2,则c=()A.e2B.e4C.2D.4练习2.根据最小二乘法由一组样本点(x i,y i)(其中i=1,2,…,300),求得的回归方程是=x+,则下列说法正确的是()A.至少有一个样本点落在回归直线=x+上B.若所有样本点都在回归直线=x+上,则变量间的相关系数为1C.对所有的解释变量x i(i=1,2….300).bx i+的值一定与y i有误差D.若回归直线=x+的斜率b>0,则变量x与y正相关练习3.已知一组数据点(x1,y1),(x2,y2),(x3,y3),…,(x7,y7),用最小二乘法得到其线性回归方程为,若数据x1,x2,x3,…x7的平均数为1,则=()A.2B.11C.12D.14练习4.根据如下样本数据得到的回归直线方程为=bx+a,则()A.a>0,b>0B.a>0,b<0C.a<0,b<0D.a<0,b>0练习5.下列表格所示的五个散点数据,用最小二乘法得出y与x的线性回归直线方程为,则表格中m的值应为()A.8.3B.8.2C.8.1D.8练习6.一车间为规定工时定额,需要确定加工零件所花费的时间,为此进行了4次试验,测得的数据如下根据上表可得回归方程,则实数a的值为()A.37.3B.38C.39D.39.5练习1.如图所示,有A,B,C,D,E,5组数据,去掉___组数据后,剩下的4组数据具有较强的线性相关关系.(请用A、B、C、D、E作答)练习2.有下列关系:①人的年龄与他(她)拥有的财富之间的关系;②曲线上的点与该点的坐标之间的关系;③苹果的产量与气候之间的关系;④森林中的同一种树木,其横断面直径与高度之间的关系,其中是相关关系的为_____.练习3.对两个变量的相关系数r,有下列说法:(1)|r|越大,相关程度越大;(2)|r|越小,相关程度越大;(3)|r|趋近于0时,没有非线性相关系数;(4)|r|越接近于1时,线性相关程度越强,其中正确的是_________.练习4.下列两个变量之间的关系是相关关系的是___.①正方体的棱长和体积;②单位圆中圆心角的度数和所对弧长;③单产为常数时,土地面积和总产量;④日照时间与水稻的亩产量.练习1.'2013年以来精准扶贫政策的落实,使我国扶贫工作有了新进展,贫困发生率由2012年底的10.2%下降到2018年底的1.4%,创造了人类减贫史上的中国奇迹.“贫困发生率”是指低于贫困线的人口占全体人口的比例,2012年至2018年我国贫困发生率的数据如表:(1)从表中所给的7个贫困发生率数据中心任选两个,求两个都低于5%的概率;(2)设年份代码x=t-2015,利用线性回归方程,分析2012年至2018年贫困发生率y与年份代码x的相关情况,并预测2019年贫困发生率.'练习2.'某企业为确定下一年投入某种产品的研发费用,需了解年研发费用x(单位:千万元)对年销售量y(单位:千万件)的影响,统计了近10年投入的年研发费用x i与年销售量y i(i=1,2…,10)的数据,得到散点图如图所示.(1)利用散点图判断y=a+bx和y=c∙x d(其中c,d均为大于0的常数)哪一个更适合作为年销售量y和年研发费用x的回归方程类型(只要给出判断即可,不必说明理由);(2)对数据作出如下处理,令u i=lnx i,v i=lny i,得到相关统计量的值如表:根据第(1)问的判断结果及表中数据,求y关于x的回归方程;(3)已知企业年利润z(单位:千万元)与x,y的关系为z=18y-x(其中e≈2.71828),根据第(2)问的结果判断,要使得该企业下一年的年利润最大,预计下一年应投入多少研发费用?附:对于一组数据(u1,v1),(u2,v2),…,(u n,v n),其回归直线=+的斜率和截距的最小二乘估计分别为=,=.'基于移动互联技术的共享单车被称为“新四大发明”之一,短时间内就风靡全国,带给人们新的出行体验,某共享单车运营公司的市场研究人员为了解公司的经营状况,对该公司最近六个月内的市场占有率进行了统计,设月份代码为x,市场占有率为y(%),得结果如表(1)观察数据看出,可用线性回归模型拟合y与x的关系,请用相关系数加以说明(精确到0.001):(2)求y关于x的线性回归方程,并预测该公司2019年4月份的市场占有率;(3)根据调研数据,公司决定再采购一批单车扩大市场,现有采购成本分别为1000元/辆和800元/辆的甲,乙两款车型报年限各不相同.考虑到公司的经济效益,该公司决定先对两款单车各100辆行科学模拟测试,得到两款单车使用寿命表如下经测算,平均每辆单车每年可以为公司带来收入500元,不考虑除采购成本之外的其他成本,假设每辆单车的使用寿命都是整数年,且用频率估计每单车使用寿命的概率,以每辆单车产生利润的期望值为决策依据.如果你是该公司的负责人,你会选择采购哪款车型?参考数据(x i)2=17.5,(y i)2=76,(x i)(y i)=35,≈36.5参考公式:相关系数r=回归方程=x中斜率和截距的最小二乘估计公式分别为=,=近期,某公交公司与银行开展云闪付乘车支付活动,吸引了众多乘客使用这种支付方式.某线路公交车准备用20天时间开展推广活动,他们组织有关工作人员,对活动的前七天使用云闪付支付的人次数据做了初步处理,设第x天使用云闪付支付的人次为y,得到如图所示的散点图.由统计图表可知,可用函数y=a∙b x拟合y与x的关系(1)求y关于x的回归方程;(2)预测推广期内第几天起使用云闪付支付的人次将超过10000人次.附:①参考数据表中v i=lgy i,=lgy i②参考公式:对于一组数据(u1,v1),(u2,v2)…,(u n,v n),其回归直线v=α+βu的斜率和截距的最小二乘估计分别为β=,α=-β.'习近平总书记在十九大报告中指出,必须树立和践行“绿水青山就是金山银山”的生态文明发展理念,某城市选用某种植物进行绿化,设其中一株幼苗从观察之日起,第x的高度为ycm,测得一些数据图如下表所示作出这组数的散点图如图.(1)请根据散点图判断,y=ax+b与y=c+d中哪一个更适宜作为幼苗高度y关于时间x的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程,并预测第144天这株幼苗的高度(结果保留1位小数)附:=,参考数据:'某老小区建成时间较早,没有集中供暖,随着人们生活水平的日益提高热力公司决定在此小区加装暖气该小区的物业公司统计了近五年(截止2018年年底)小区居民有意向加装暖气的户数,得到如下数据(Ⅰ)若有意向加装暖气的户数y与年份编号x满足线性相关关系求y与x的线性回归方程并预测截至2019年年底,该小区有多少户居民有意向加装暖气;(Ⅱ)2018年年底郑州市民生工程决定对老旧小区加装暖气进行补贴,该小区分到120个名额物业公司决定在2019年度采用网络竞拍的方式分配名额,竞拍方案如下:①截至2018年年底已登记在册的居民拥有竞拍资格;②每户至多申请一个名额,由户主在竞拍网站上提出申请并给出每平方米的心理期望报价;③根据物价部门的规定,每平方米的初装价格不得超过300元;④申请阶段截止后,将所有申请居民的报价自高到低排列,排在前120位的业主以其报价成交;⑤若最后出现并列的报价,则认为申请时问在前的居民得到名额,为预测本次竞拍的成交最低价,物业公司随机抽取了有竞拍资格的50位居民进行调查统计了他们的拟报竞价,得到如图所示的频率分布直方图:(1)求所抽取的居民中拟报竞价不低于成本价180元的人数;(2)如果所有符合条件的居民均参与竞拍,请你利用样本估计总体的思想预测至少需要报价多少元才能获得名额(结果取整数)参考公式对于一组数据(x1,y1),(x2,y2),(x3,y3),…(x n,y n),其回归直线=x+的斜率和截距的最小二乘估计分别为,=,=-。
变量间的相关关系
数学成绩
由散点图可见,两者之间具有正相关关系。
小结:用Excel作散点图的步骤如下 : (结合软件边讲边练)
(1)进入Excel,在A1,B1分别输入“数学成 绩”、“物理成绩”,在A、B列输入相应的数据。 (2)点击图表向导图标,进入对话框,选择“标准 类型”中的“XY散点图”,单击“完成”。 (3)选中“数值X轴”,单击右键选中“坐标轴格 式”中的“刻度”,把“最小值”、“最大值”、 “刻度主要单位”作相应调整,最后按“确定”。y 轴方法相同。
(3)从散点图可以看出,0 140 130 120 110 100 90 80 70 60 50 40 -10 0 10
^ Y=-2.352x+147.767
20
30
40
^ (4)当x=2时,y=143.063, 因此,这天大 约可以卖出143杯热饮。
练习:P96 小结:
解2:用Excel求线性回归方程,步 骤如下:
. (1)进入Excel作出散点图。
(2)点击“图表”中的“添加趋势 线”,单击“类型”中的“线性”,单 击“确定”,得到回归直线。 (3)双击回归直线,弹出“趋势线格 式”,单击“选项”,选定“显示公 式”,最后单击“确定”。
三、利用线性回归方程对总体进行估计
二、求线性回归方程
例2:观察两相关变量得如下表: x y -1 -9 -2 -7 -3 -5 -4 -3 -5 -1 5 1 3 5 4 3 2 7 1 9
求两变量间的回归方程
解1: 列表:
i 1
i
2 -2 -7 14
3 -3 -5 15
4 -4 -3 12
10
5 -5 -1 5
2
6 5 1 5
变量的相关关系
变量的相关关系【学习目标】1.明确两个变量具有相关关系的意义;2.知道回归分析的意义;3.知道回归直线、回归直线方程、线性回归分析的意义;4.掌握对两个变量进行线性回归的方法和步骤,并能借助科学计算器确定实际问题中两个变量间的回归直线方程;【要点梳理】【高清课堂:变量的相关关系 400458 知识讲解1】要点一、变量之间的相关关系变量与变量之间存在着两种关系:一种是函数关系,另一种是相关关系。
1.函数关系函数关系是一种确定性关系,如y=kx+b,变量x取的每一个值,y都有唯一确定的值和它相对应。
2.相关关系变量间确定存在关系,但又不具备函数关系所要求的确定性相关关系分为两种:正相关和负相关要点诠释:对相关关系的理解应当注意以下几点:(1)相关关系与函数关系不同.因为函数关系是一种非常确定的关系,而相关关系是一种非确定性关系,即相关关系是非随机变量与随机变量之间的关系.而函数关系可以看成是两个非随机变量之间的关系.因此,不能把相关关系等同于函数关系.(2)函数关系是一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系.例如,有人发现,对于在校儿童,鞋的大小与阅读能力有很强的相关关系.然而,学会新词并不能使脚变大,而是涉及到第三个因素——年龄.当儿童长大一些,他们的阅读能力会提高而且由于长大脚也变大.(3)函数关系与相关关系之间有着密切联系,在一定的条件下可以相互转化.例如正方形面积S与其边长x间虽然是一种确定性关系,但在每次测量边长时,由于测量误差等原因,其数值大小又表现出一种随机性.而对于具有线性关系的两个变量来说,当求得其回归直线后,我们又可以用一种确定性的关系对这两个变量间的关系进行估计.3.散点图将收集到的两个变量的统计数据分别作为横、纵坐标,在直角坐标系中描点,这样的图叫做散点图。
通过散点图可初步判断两个变量之间是否具有相关关系,她反映了各数据的密切程度。
要点二、正相关、负相关(1)正相关:在统计数据中的两个变量,一个变量的值由小变大时,另一个变量的值也由小变大,这种相关称为正相关。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1.对变量 x, y 有观测数据 (xi, yi )(i= 1,2,„, 10), 得散点图 (1); 对变量 u, v 有观测数据 (ui, vi )(i= 1,2, „, 10),得散点图 (2).由这两个散点图可以判断 ( C )
A.变量 x 与 y 正相关,u 与 v 正相关 B.变量 x 与 y 正相关,u 与 v 负相关 C.变量 x 与 y 负相关,u 与 v 正相关 D.变量 x 与 y 负相关,u 与 v 负相关
栏目 导引
第十章 统计、统计案例及算法初步
3. (2014· 高考湖北卷)根据如下样本数据 x y 3 4.0 4 2.5 5 - 0.5 6 0.5 7 - 2.0 8 - 3.0
^ ^ ^ 得到的回归方程为 y = b x+a ,则( A ) ^ ^ A. a > 0,b < 0 ^ ^ C. a < 0,b < 0 ^ ^ B. a > 0,b > 0 ^ ^ D. a < 0,b > 0
栏目 导引
第十章 统计、统计案例及算法初步
4.独立性检验 假设有两个分类变量 X 和 Y,它们的取值分别为{ x1, x2}和 { y1, y2 },其样本频数列联表 (称为 2×2 列联表 )为: y1 x1 x2 总计 K=
2
y2 b d b+ d
2
总计 a+ b c+ d a+ b+ c+ d
栏目 导引
第十章 统计、统计案例及算法初步
解析:作出散点图如下:
^ ^ ^ ^ 观察图象可知, 回归直线 y =b x+ a 的斜率b < 0, 当 x= 0 时, ^ ^ ^ ^ y =a > 0.故a > 0,b < 0.
栏目 导引
第十章 统计、统计案例及算法初步
4.下面是一个 2×2 列联表 y1 x1 x2 总计 a 2 b y2 21 25 46 总计 73 27
栏目 导引
第十章 统计、统计案例及算法初步
(2016· 高考全国卷Ⅲ)下图是我国 2008 年至 2014 年生活 垃圾无害化处理量 (单位:亿吨 )的折线图.
注:年份代码 1-7 分别对应年份 2008-2014.
栏目 导引
第十章 统计、统计案例及算法初步
(1)由折线图看出,可用线性回归模型拟合 y 与 t 的关系,请 用相关系数加以说明; (2)建立 y 关于 t 的回归方程(系数精确到 0.01), 预测 2016 年 我国生活垃圾无害化处理量.
栏目 导引
第十章 统计、统计案例及算法初步
(3)利用回归方程分析问题时,所得的数据易误认为准确值, 而实质上是预测值 (期望值 ). (4)虽然任何一组不完全相同的数据都可以求出回归直线方 程, 但只有具有线性相关关系的一组数据才能得到有意义的 回归直线方程,求出的方程才具有实际价值.
栏目 导引
第十章 统计、统计案例及算法初步
2.求回归方程的方法 (1)求线性回归方程的方法 ^ ^ ^ 求解回归方程的关键是确定回归系数a ,b ,因求解 b的公式
n i 1
计算量太大, 一般题目中给出相关的量, 如 x ,y , ∑ = xi ,
n
2
∑ = xi yi 等,便可直接代入求解.充分利用回归直线过样本
i 1
^ ^ ^ 中心点 ( x , y ),即有 y =b x +a ,可确定 a.
n
--
^ ^ ^ ^ (3) 回归方程为 y = b x + a ,其中 b =
^ y - b x ________________ .
∑ = xiyi-nx y ∑ = xi2-n x
i 1 n i 1 2
^ , a=
栏目 导引
第十章 统计、统计案例及算法初步
(4)相关系数
正相关 ; 当 r>0 时,表明两个变量 ________ 相关 . 当 r<0 时,表明两个变量 ________
栏目 导引
第十章 统计、统计案例及算法初步
栏目 导引
第十章 统计、统计案例及算法初步
栏目 导引
第十章 统计、统计案例及算法初步
栏目 导引
第十章 统计、统计案例及算法初步
最小二乘估计的三个步骤 (1)作出散点图,判断是否线性相关. ^ ^ (2)如果是,则用公式求a ,b ,写出回归方程. (3)根据方程进行估计.
0.15 万元. 万元,年教育支出平均增加 ________
栏目 导引
第十章 统计、统计案例及算法初步
8.2+ 8.6+ 10.0+ 11.3+ 11.9 解析: (1)由题意知, x= = 10, 5 6.2+ 7.5+ 8.0+ 8.5+ 9.8 y= = 8, 5 ^ 所以a = 8- 0.76× 10= 0.4, ^ 所以当 x= 15 时,y = 0.76× 15+ 0.4= 11.8(万元 ). (2)由题意知, 0.15(x+ 1)+ 0.2- (0.15x+ 0.2)= 0.15.
第十章 统计、统计案例及算法初步
第3讲
变量间的相关关系、统计案例
第十章 统计、统计案例及算法初步
1.变量间的相关关系 常见的两变量之间的关系有两类:一类是函数关系,另一类
相关关系 ;与函数关系不同,___________ 相关关系 是一种非确 是 ___________
定性关系.
栏目 导引
第十章 统计、统计案例及算法初步
a c a+ c
n( ad- bc) ________________________________________________( 其 ( a+ b)( a+ c)( b+ d)( c+ d)
中 n= a+ b+ c+d 为样本容量).
栏目 导引
第十章 统计、统计案例及算法初步
1.辨明四个易误点 (1)易混淆相关关系与函数关系, 两者的区别是函数关系是一 种确定的关系,而相关关系是一种非确定的关系,函数关系 是一种因果关系,而相关关系不一定是因果关系,也可能是 伴随关系. (2)回归分析中易误认为样本数据必在回归直线上, 实质上回 归直线必过( x , y )点, 可能所有的样本数据点都不在直线 上.
2
0.100 2.706
0.050 3.841
0.025 5.024
0.010 6.635 B. 1% D. 99.9%
0.001 10.828
栏目 导引
第十章 统计、统计案例及算法初步
解析:因为 7.069 与附表中的 6.635 最接近,所以得到的统 计学结论是:有 1- 0.010= 0.99= 99%的把握认为“学生性 别与支持该活动有关系”.
判定两个变量正、负相关性的方法 (1)画散点图: 点的分布从左下角到右上角, 两个变量正相关; 点的分布从左上角到右下角,两个变量负相关. (2)相关系数: r>0 时,正相关: r<0 时,负相关. ^ ^ (3)线性回归方程中:b >0 时,正相关;b <0 时,负相关.
栏目 导引
第十章 统计、统计案例及算法初步
r 的绝对值越接近于 1,表明两个变量的线性相关性越强 ____. r 的绝对值越接近于 0,表明两个变量之间几乎不存在线性相 0.75 时,认为两个变量有很强的线 关关系,通常 |r|大于 ________ 性相关性.
栏目 导引
第十章 统计、统计案例及算法初步
3.非线性回归分析 如果在样本数据的散点图中, 样本点并没有分布在某一条直 线附近,而是分布在某一条曲线 (如二次函数、指数函数、 对数函数等 )的周围,我们就称这两个变量之间不具有线性 相关关系,而是非线性相关关系.对这样的两个变量进行回 归分析,称为非线性回归分析.
解析: 因为 y=-0.1x+1 的斜率小于 0, 故 x 与 y 负相关. 因 ^ ^ ^ ^ ^ ^ 为 y 与 z 正相关, 可设 z= b y+ a , b >0, 则 z= b y+ a =-0.1b ^ ^ x+ b +a ,故 x 与 z 负相关.
栏目 导引
第十章 统计、统计案例及算法初步
栏目 导引
第十章 统计、统计案例及算法初步
1.有关线性回归的说法,不正确的是 ( D ) A.具有相关关系的两个变量是非确定关系 B.散点图能直观地反映数据的相关程度 C.回归直线最能代表线性相关的两个变量之间的关系 D.散点图中的点越集中,两个变量的相关性越强
栏目 导引
第十章 统计、统计案例及算法初步
2.某校为了研究学生的性别和对待某一活动的态度 (支持和不 支持两种态度 )的关系,运用 2× 2 列联表进行独立性检验,经 计算 K2 = 7.069,则所得到的统计学结论是:有多少的把握认 为“学生性别与支持该活动有关系”. ( C ) 附: P (K ≥ k0 ) k0 A.0.1% C. 99%
^ ^ ^ ^ ^ - 根据上表可得回归直线方程 y =b x+a , 其中b = 0.76, a= y ^ -b x . 据此估计,该社区一户年收入为 15 万元家庭的年 ) B. 11.8 万元 D. 12.2 万元
栏目 导引
支出为 ( B
A. 11.4 万元 C. 12.0 万元
第十章 统计、统计案例及算法初步
52、54 . 则表中 a、b 处的值分别为 ____________
解析:因为 a+ 21= 73,所以 a= 52. 又因为 a+ 2= b,所以 b= 54,
栏目 导引
第十章 统计、统计案例及算法初步
考点一
相关关系的判断
(2015· 高考湖北卷)已知变量 x 和 y 满足关系 y=- 0.1x+ 1,变量 y 与 z 正相关.下列结论中正确的是 ( C ) A. x 与 y 正相关, x 与 z 负相关 B. x 与 y 正相关, x 与 z 正相关 C. x 与 y 负相关, x 与 z 负相关 D. x 与 y 负相关, x 与 z 正相关