第三节 变量间的相关关系、统计案例(数学建模八)

合集下载

完整版变量间的相关关系统计案例

完整版变量间的相关关系统计案例

完整版变量间的相关关系统计案例引言:经济学中一个重要的分支是相关关系的研究,通过统计分析不同变量之间的相关性,可以帮助我们理解变量之间的关系。

本文以汽车生产数量和国内生产总值(GDP)为例,通过统计分析两者之间的相关关系,展示相关分析在实际问题中的应用。

方法:本案例采用了经济学中常用的相关分析方法,包括Pearson相关系数和散点图。

本文使用了国在过去10年内的汽车生产数量和GDP的数据。

汽车生产数量的数据来自国家汽车协会,GDP数据来自国家统计局。

分析过程:1.数据收集和整理:将过去10年内的每年汽车生产数量和GDP数据整理成一个数据表格,便于后续分析。

2.描述统计分析:计算汽车生产数量和GDP的均值、标准差和极差等描述性统计量,以了解数据的整体情况。

3.散点图绘制:将每年的汽车生产数量和GDP数据绘制成散点图,横轴表示汽车生产数量,纵轴表示GDP,每个散点表示一个年份。

4.相关性分析:计算汽车生产数量和GDP之间的Pearson相关系数,该系数介于-1和1之间。

系数为正则表示两者正相关,系数为负则表示两者负相关,系数越接近于1或-1,则相关性越强。

结果:1.描述统计分析结果显示,过去10年内每年的汽车生产数量均值为X辆,标准差为X辆,极差为X辆;每年GDP的均值为X万元,标准差为X万元,极差为X万元。

2.散点图显示,汽车生产数量和GDP呈现出一定的正相关趋势。

随着汽车生产数量的增加,GDP也有相应增加的趋势。

3. 相关性分析结果显示,汽车生产数量和GDP之间的Pearson相关系数为X。

由于该系数为正数且接近于1,可以得出结论:汽车生产数量与GDP存在着强正相关关系。

讨论:本案例通过相关分析的方法,探讨了汽车生产数量与GDP之间的关系。

研究结果表明,两者之间存在着强正相关关系,即汽车生产数量的增加会促进GDP的增长。

可能的解释是汽车工业作为一个重要的制造业部门,对于经济的增长有着显著的贡献。

第九章 第三节 变量间的相关关系与统计案例

第九章  第三节  变量间的相关关系与统计案例
返回
2.回归方程 (1)最小二乘法:
求回归直线使得样本数据的点到它的距离的平方和最小 的方法叫做最小二乘法.
返回
(2)回归方程: 方程^y =^bx+^a是两个具有线性相关关系的变量的一组数 据(x1,y1),(x2,y2),…,(xn,yn)的回归方程,其中^a,^b是 待定参数.
n
xi--x yi--y
^
b

i=1
0.01,
^
a

y

^
b
x
=0.47,∴
^
y
=0.01x+0.47,令x=6,得
^
y
=0.53.
[答案] (1)B (2)0.5 0.53
返回
[悟一法] 1.求回归方程,关键在于正确求出系数^a,^b由于计算量较
大,所以计算时要仔细谨慎,分层进行,避免因计算产 生失误,特别注意,只有在散点图大体呈线性时,求出 的回归方程才有意义. 2.利用回归方程可以估计总体,它是回归方程所反映的规律 的延伸,可使我们对有线性相关关系的两个变量进行分 析和控制.
返回
4.独立性检验 (1)分类变量:变量的不同“值”表示个体所属的不同类别,
像这类变量称为分类变量. (2)列联表:列出两个分类变量的频数表,称为列联表.假
设有两个分类变量X和Y,它们的可能取值分别为{x1, x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为
返回
2×2列联表
x1 x2 总计
返回
1.两个变量的线性相关 (1)正相关:
在散点图中,点散布在从 左下角 到右上角的区域,对于 两个变量的这种相关关系,我们将它称为正相关.
返回
(2)负相关: 在散点图中,点散布在从 左上角 到 右下角的区域,两 个变量的这种相关关系称为负相关.

变量间的相关关系、统计案例

变量间的相关关系、统计案例

∑ (������������ -������)(������������ -������)
������=1
∑ (������������ -������)2
= ������=1 ������
∑ ������������ ������������ -������������ ������
������=1
关闭
^
^
^
^ ^
关闭
^
^
^
^
A
解析 答案
-9知识梳理 考点自测
1
2
3
4
5
3.(2017辽宁葫芦岛一模)广告投入对商品的销售额有较大影响. 某电商对连续5个年度的广告费和销售额进行统计,得到统计数据 如下表(单位:万元):
广告费 x 销售额 y 2 29 3 41
^
4 50
5 59
6 71
关闭
由表可得到回归方程为 ������ 10 ,据此模型 ,预测广告费为 10 万 由题意 ,得������=4,������=50.∴50= 4= × 10..2 2x+ +������a ,解得 a=9.2. ^ 元时的销售额约为 ) ∴回归方程为������=10(.2x+9 .2. A.101.2万元 ^ B.108.8万元 ∴当 x=10 时,������=D.118 10.2× +9.2=111.2.故选 C. C.111
=1-������=1 ������
^ ∑ (������ - ������ )
������ ������ ������
2
∑ (������������ -������) ������=1
2 , R 越接近于 1,表示回归效果越好. 2

变量间的相关关系及统计案例

变量间的相关关系及统计案例

考 点 探 究 • 挑 战 高 考
答案:C
考 向 瞭 望 • 把 脉 高 考
山东水浒书业有限公司·
优化方案系列丛书
第11章


双 基 研 习 • 面 对 高 考
3 . (2011 年石河子调研 ) 始祖鸟是一种已经 灭绝的动物,在一次考古活动中,科学家发 现了始祖鸟的化石标本共6个,其中5个同时 保留有股骨 ( 一种腿骨 ) 和肱骨 ( 上臂的骨头 ) , 经研究表明,肱骨长度y与股骨长度x呈现出 近似的线性关系,其线性回归方程为 y =- 3.660 + 1.197x ,还有 1 个化石标本不完整, 只有股骨,没有肱骨,现测得股骨的长度为 50 cm,则可以认为肱骨长度( )
【思路点拨】 先画散点图,分析物理与数学 成绩是否有线性相关关系,若相关再利用线性 回归模型求解预报变量.
考 点 探 究 • 挑 战 高 考
考 向 瞭 望 • 把 脉 高 考
山东水浒书业有限公司·
优化方案系列丛书
第11章


双 基 研 习 • 面 对 高 考
【解】
(1)散点图如图:
山东水浒书业有限公司·
考 点 探 究 • 挑 战 高 考
考 向 瞭 望 • 把 脉 高 考
优化方案系列丛书
第11章


双 基 研 习 • 面 对 高 考
(3)线性相关关系、回归直线 如果散点图中点的分布从整体上看大致在 ___________________ ,就称这两个变量之间 一条直线附近 具有线性相关关系,这条直线叫做回归直线. 2.回归方程 (1)最小二乘法 求回归直线使得样本数据的点到回归直线的 距离的平方和最小 ________________________ 的方法叫做最小二 乘法.

变量间的相关关系、统计案例教案(绝对经典)

变量间的相关关系、统计案例教案(绝对经典)

§11.3 变量间的相关关系与独立性检验⎪⎪⎩⎪⎪⎨⎧⎩⎨⎧、不相关、非线性相关、线性相关、不确定的相关关系、确定的函数关系两个变量的关系32121 1.相关性(1)通常将变量所对应的点描出来,这些点就组成了变量之间的一个图,通常称这种图为变量之间的散点图.从散点图上看,点散布在从左下角到右上角的区域内,对于两个变量的这种相关关系,我们将它称为正相关;点散布在从左上角到右下角的区域内,两个变量的这种相关关系称为负相关.(2)从散点图上,如果变量之间存在某种关系,这些点会有一个集中的大致趋势,这种趋势通常可以用一条光滑的曲线来近似,这样的近似过程称为曲线拟合.(3)若两个变量x 和y 的散点图中,所有点看上去都在一条直线附近波动,则称变量间是线性相关,这条直线叫回归直线.若所有点看上去都在某条曲线(不是一条直线)附近波动,称此相关是非线性相关.如果所有的点在散点图中没有显示任何关系,则称变量间是不相关的. (4)相关系数①r =∑ni =1 (x i -x )(y i -y )∑ni =1(x i -x)2∑ni =1(y i -y )2或()()12211ni i i n ni i i i x ynx yr x x y y ===-=--∑∑∑;②当r >0时,表明两个变量正相关;当r <0时,表明两个变量负相关.r 的绝对值越接近于1,表明两个变量的线性相关性越强.r 的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常当r 的绝对值>0.75时,认为两个变量有很强的线性相关关系。

2.线性回归方程 (1)最小二乘法如果有n 个点(x 1,y 1),(x 2,y 2),…,(x n ,y n ),可以用[y 1-(a +bx 1)]2+[y 2-(a +bx 2)]2+…+[y n -(a +bx n )]2来刻画这些点与直线ˆˆˆybx a =+的接近程度,使得上式达到最小值的直线ˆˆˆy bx a =+就是所要求的直线,这种方法称为最小二乘法(使得样本数据的点到回归直线的距离平方和最小的方法). (2)回归方程方程ˆˆˆybx a =+是两个具有线性相关关系的变量的一组数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )的回归方程,其中,是待定参数.121()()ˆ()niii nii x x y y bx x ==--=-∑∑[]112222212()()()()...()()()()...()nnnx x y y x x y y x x yy x x x x x x --+--++--=⎡⎤-+-++-⎣⎦或者1221ˆni ii nii x ynx ybxnx ==-=-∑∑[]1122222212...,...n n nx y x y x y nx y x x x nx++-⋅=⎡⎤+++-⎣⎦ˆˆay bx =- 线性回归方程过样本点的中心(,)3、回归分析(1)y =bx +a +e 中,a 、b 称为模型的未知参数;e 称为随机误差.(2)随机误差e 的估计值e ˆ(a x b y y y e ii i i i ˆˆˆˆ--=-=)叫做相对于点(x i ,y i )的残差。

变量间的相关关系与统计案例 PPT

变量间的相关关系与统计案例 PPT
此相关为_非__线___性__相__关_的.此时,可以用一条曲线来拟合.如果所有 的点在散点图中没有显示任何关系,则称变量间是不相关的.
(2)线性相关关系、回归直线 如果散点图中点的分布从整体上看大致在一条直线附近,就 称这两个变量之间具有线性相关关系,这条直线叫作回归直 线.
2. 回归分析
(1)最小二乘法
题型三 线性回归方程 【例3】 为了研究某种新上市产品的广告费与销售额之间的 关系,某统计局随机选取5家销售公司,由营业报告中查出其上 年度的广告费x(单位:万元)与销售额y(单位:百万元)之间有如 下的对应数据:
(1)以x为解释变量,y为预报变量,作出散点图; (2)求y与x之间的回归方程. 解析: (1)散点图如图所示:
解析:A中显然任给一个x都有唯一确定的y和它对应,是一种函数 关系;B也是一种函数关系;C中从散点图中可看出所有点看上去 都在某条直线附近波动,具有相关关系,而且是一种线性相关;D 中所有的点在散点图中没有显示任何关系,因此变量间是不相关 的. 答案: C
3. (原创题)经研究表明,学生的体重y(单位:kg)与身高x(单位: cm)有很强的线性相关关系,其回归方程为y=0.75x-68.2,如果一 个学生的身高为170 cm,则他的体重( )
A.90% B.95% C. 97.5% D. 99.9%
解析:根据题中的等高条形图,由于用药的患者50人,因
此,在用药的患者中感冒病好的人数为50* 8
10
=40;在未用药的患者中感冒病好的人数为20*
3
10
=6.于是列联表如下
由K2= 7040146102
50204624
≈15.85>10.828. 因此,有99.9%的把握认为感冒病好与用药有关,故选D.

变量间的相关关系与统计案例

变量间的相关关系与统计案例

第3课时 变量间的相关关系与统计案例一、基础知识总结复习1.相关关系与回归方程(1)相关关系的分类①正相关:从散点图上看,点散分布在从左下角到右上角的区域内. ②负相关:从散点图上看,点散分布在从左上角到右下角的区域内. (2)线性相关关系从散点图上看,如果这些点从整体上看大致分布在一条直线附近,则称这两个变量之间具有线性相关关系,这条直线叫回归直线. (3)回归方程①最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法叫最小二乘法. ②回归方程:两个具有线性相关关系的变量的一组数据:11(,)x y ,22(,)x y ,…,(,)n n x y ,其回归方程为y bx a =+,其中,112222211()()()nniii ii i nniii i x x y y x y nx yxy x y b x xx x xnx====----===---∑∑∑∑,a y bx =-b 是斜率,a 是y 轴上的截距.0b 正相关,0b 负相关.③样本中心:(,)x y 叫做具有线性相关关系的数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )的样本点的中心. (4)样本相关系数:()()niix x y y xy x y r --==∑,用它来衡量两个变量间的线性相关关系的强弱. ①当r >0时,表明两个变量正相关; ②当r <0时,表明两个变量负相关;③r 的绝对值越接近1,表明两个变量的线性相关性越强;r 的绝对值越接近0, 表明两个变量的线性相关性越弱.通常当|r |>0.75时,认为两个变量有很强的线性相关关系.(5)相关指数2R :① 22121()1()niii niii y y R y y ==-=--∑∑(线性回归模型中21R 0≤≤,且2R 越大拟合效果越好).②在含一个解释变量的线性相关关系中,22R r =,残差平方和越小,2R 越大.(6)总偏差平方和、残差平方和、回归平方和总偏差平方和:21()ni i y y =-∑;残差平方和21()ni i i y y =-∑;回归平方和21()ni i y y =-∑.残差的平方和越小,观测值更接近预报值,拟合效果越好,相关性也越强,预报更准确.2.独立性检验(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量. (2)列联表:列出两个分类变量的频数表,称为列联表.一般地,假设有两个分类变量X 和Y ,它们的可能取值分别为{}12,x x 和{}12,y y ,则样本频数列联表(称为2×2列联表)为:随机变量22()()()()()n ad bc K a b a c b d c d -=++++ (其中n a b c d =+++为样本容量),则利用独立性检验判断表来判断“X 与Y 的关系”. 2K 越大,X 与Y 的无关性越小,相关性越强.二、基础知识过关判断下列结论的正误(正确的打“√”,错误的打“×”)(1)相关关系与函数关系都是一种确定性的关系,也是一种因果关系.(×)(2)利用样本点的散点图可以直观判断两个变量的关系是否可以用线性关系去表示.(√) (3)通过回归方程y bx a =+可以估计和观测变量的取值和变化趋势.(√) (4)任何一组数据都对应着一个回归直线方程.(×)有线性和非线性拟合 (5)事件X ,Y 关系越密切,则由观测数据计算得到的2K 的观测值越大.(√) (6)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系.(√) (7)只有两个变量有相关关系,所得到的回归模型才有预测价值.(√) (8)某同学研究卖出的热饮杯数y 与气温x (C )之间的关系,得回归方程 2.352147.767y x =-+,则气温为2℃时,一定可卖出143杯热饮.(×),只能预报不能确定(9)由独立性检验可知,有99%的把握认为物理成绩优秀与数学成绩有关,某人数学成绩优秀,则他有99%的可能物理优秀.(×)只能说相关的可能性大,但不能预报优秀程度 (10)若事件X ,Y 关系越密切,则由观测数据计算得到的K 2的观测值越小(×).应越大 三、典型例题与练习20()P K k ≥ 0k 0.001 10.828 0.50 0.455 0.010 6.635 0.005 7.879 0.025 5.024 0.05 3.841 0.10 2.706 0.15 2.072 0.25 1.323 0.40 0.708[例1](1)对变量x ,y 有观测数据()i i x y ,(i =1,2,…,10),得散点图1;对变量u ,v 有观测数据()i i u v , (i =1,2,…,10),得散点图2.由这两个散点图可以判断( ) A .变量x 与y 正相关,u 与v 正相关 B .变量x 与y 正相关,u 与v 负相关 C .变量x 与y 负相关,u 与v 正相关 D .变量x 与y 负相关,u 与v 负相关 解:由图1可知,各点整体呈递减趋势,x 与y 负相关;由图2可知,各点整体呈递增趋势,u 与v 正相关.选C(2)对四组数据进行统计,获得以下散点图,关于其相关系数的比较,正确的是( ) A .r 2<r 4<0<r 3<r 1 B .r 4<r 2<0<r 1<r 3 C .r 4<r 2<0<r 3<r 1 D .r 2<r 4<0<r 1<r 3解:因为正相关0r ,负相关0r ,132400 00r r r r ,,,∴又因为相关性越强,r 越大,从散点看(1)(2)相关性强,图象近似成直线了,24r r |24310r r r r ∴;故选A.练习1.x 和y 的散点图如图所示,则下列说法中所有正确命题的序号为________.①x ,y 是负相关关系;②在该相关关系中,若用21c xy c e =拟合时的相关指数为21R ,用拟合时的相关指数为22R , 则2212R R ;③x 、y 之间不能建立回归直线方程. 解:①显然正确;由散点图知,用21c xy c e =拟合的效果比用y bx a =+拟合的效果要好,2212R R ∴,故②正确;x ,y 之间能建立回归直线方程,只不过预报精度不高,故③不正确.故填:①②2.如图所示,有A ,B ,C ,D ,E 五组数据,去掉________组数据后,剩下的四组数据具有较强的线性相关关系. 解:因为散点图呈带状区域时有较强的线性相关关系,带关区域越窄,相关性越强,故去掉D 组数据.填写答案:D[例2]下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.注:年份代码1~7分别对应年份2008~2014.(1)由折线图看出,可用线性回归模型拟合y 与t 的关系,请用相关系数加以说明; (2)建立y 关于t 的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量. 附注: 参考数据:719.32i i y ==∑,7140.17i i i t y ==∑,0.55= 2.646≈.参考公式:相关系数1()()niii t t y y r =--=∑回归方程y a bt =+中斜率和截距的最小二乘估计公式分别为:121()()()nii i nii tt y y b tt ==--=-∑∑,a y bt =-解:(1) 由折线图中数据得4t=,721()28i i t t =-=∑∴,0.55=0.55 1.1 2.646 2.9106=⨯=⨯=又7711()()7i i i i i i t t y y t y t y ==--=-∑∑∵,719.32i i y ==∑,7117i i y y ==∑∴777111()()40.1749.32 2.89i i i i i i i i t t y y t y t y ===--=-=-⨯=∑∑∑∴, 2.890.9932.9106r =≈因为y 与t 的相关系数近似为0.99,说明y 与t 的线性相关程度相当高,从而可以用线性回归模型拟合y 与t 的关系.(2) 719.32i i y ==∑∵,7119.321.3377i i y y ===≈∑∴,又721()28i i t t =-=∑∵, 71()() 2.89i ii t t y y =--=∑∴, 2.890.1028b =≈∴,1.330.1040.93a y bt =-=-⨯=∴所以,y 关于t 的回归方程为0.930.1y t =+.根据年份代码,2016年对应t =9,0.930.109 1.83y =+⨯= 所以预测2016年我国生活垃圾无害化处理量约为1.83亿吨.练习.某公司为确定下一年度投入某种产品的宣 传费,需了解年宣传费x (单位:千元)对年 销售量y (单位:t)和年利润z (单位:千元)的 影响.对近8年的年宣传费x i 和年销售量 y i (i =1,2,…,8)数据作了初步处理,得 到下面的散点图及一些统计量的值.表中i i x ω=8118i i ωω==∑, (1)根据散点图判断,y a bx =+与y c x =+哪一个适宜作为年销售量y 关于年宣传费x的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程;(3)已知这种产品的年利润z 与x ,y 的关系为0.2z y x =-.根据(2)的结果回答下列问题: ①年宣传费49x =时,年销售量及年利润的预报值是多少? ②年宣传费x 为何值时,年利润的预报值最大?附:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v =α+βu 的斜率 和截距的最小二乘估计分别为:121()()()nii i nii uu v v uu β==--=-∑∑,v u αβ=-解:(1)由散点图可以判断,y c x =+适宜作为年销售量y 关于年宣传费x 的回归方程类型. (2)先作变换,令w =x ,则y c d ω=+,所以先建立y 关于w 的线性回归方程. 根据题目所给出的统计量有:81821()()108.8681.6()iii ii y y d ωωωω==--===-∑∑ 6.8,563y ω==∵,56368 6.8100.6c y d ω=-=-⨯=∴,100.668y ω=+∴,因此y 关于x 的回归方程为100.668y x =+(3)①由(2)知, 100.668y x =+所以当x =49时,年销售量y 的预报值100.66849576.6y =+=,0.2z y x =-∵∴年利润z 的预报值0.2576.64966.32z =⨯-=.②根据(2)的结果知,年利润z 的预报值:0.2(100.620.12z x x =+-=-+∵所以当13.66.82==时,即46.24x =时,z 取得最大值.[例3] 为了解某地区观众对某大型综艺节目的收视情况,随机抽取了100名观众进行调查,其中女性有55名.下面是根据调查结果绘制的观众观看该节目的场数与所对应的人 数的表格:将收看该节目场数不低于13场的观众称为“歌迷”,已知“歌迷”中有10名女性.(1)根据已知条件完成如下2×2列联表,并判断我们能否有95%的把握认为是否为“歌迷”与性别有关?(2)将收看该节目所有场数(14场)的观众称为“超级歌迷”,已知“超级歌迷”中有2名女性,若从“超级歌迷”中任意选取2人,求至少有1名女性观众的概率. 注:K 2=(a +b )(c +d )(a +c )(b +d ),n =a +b +c +d .解:(1)由统计表可知,在抽取的100人中,“歌迷”有25人,非歌迷有75人,哥歌迷中有10名女性,所以男歌迷有15人,又因为100名观众中有55名女性,所以非歌迷中有45名女性,所以非歌迷的男性有30名,从而完成2×2列联表如下:2100(30104515)100 3.0303.8417525554533K ⨯-⨯==≈⨯⨯⨯所以我们没有95%的把握认为是否为“歌迷”与性别有关. (2)由统计表可知,“超级歌迷”有5人,其中2名女性,3名男性,记“从“超级歌迷”中任意选取2人,至少有1名女性观众”的事件为A ,因为从5名歌迷中任选2人的不同选法有2510C =种,其中有一名是女性的选法有11326C C =种,有两名女性的选法有221C =种, 16()0.710P A +==∴. [注] :1.独立性检验的一般步骤(1)根据样本数据制成2×2列联表. (2)根据公式K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )计算K 2的值.(3)查表比较K 2与临界值的大小关系,作统计判断 2.两个分类变量x 和y 是否有关系的判断方法(1)当K 2≤2.706时,没有充分的证据判定变量x ,y 有关联,可以认为变量x ,y 没有关联; (2)当K 2>2.706时,有90%的把握判定变量x ,y 有关联; (3)当K 2>3.841时,有95%的把握判定变量x ,y 有关联; (4)当K 2>6.635时,有99%的把握判定变量x ,y 有关联; (5)当K 2>10.828时,有99.9%的把握判定变量x ,y 有关联.练习.大家知道,莫言是中国首位获得诺贝尔奖的文学家,国人欢欣鼓舞.某高校文学社从男女学生中各抽取50名同学调查他们对莫言作品的了解程度,结果如下:(1)试估计该校学生阅读莫言作品超过50篇的概率;(2)对莫言作品阅读超过75篇的则称为“对莫言作品非常了解”,否则为“一般了解”.根据题意完成下表,并判断能否有75%的把握认为对莫言作品非常了解与性别有关?附:K 2=解:(1)由抽样调查表可知,学生阅读莫言作品在50篇以上的人有79人,所以估计该校学生阅读莫言作品超过50篇的概率约为79100.(2)因为阅读超过75篇的男生有30人,女生有25人,阅读不超过75篇的男生有20人,女生有25人,所以列联表如下:。

课件3:11.3 变量间的相关关系、统计案例

课件3:11.3 变量间的相关关系、统计案例
10
【规律方法】解独立性检验的应用问题的关注点 (1)两个明确: ①明确两类主体. ②明确研究的两个问题. (2)两个关键: ①准确画出2×2列联表; ②准确理解K2. 提醒:准确计算K2的值是正确判断的前提.
考点3 线性回归分析及应用 知·考情
高考中对线性回归分析的考查主要在两个方面:一是求回归直线 方程,尤其是回归直线必过样本点中心是常考知识点;二是利用回归直 线方程进行预测.
本节内容结束
更多精彩内容请登录:
0.100 2.706
0.050 3.841
0.010 6.635
【规范解答】(1)因为P(K2≥3.841)=0.05,4.844>3.841, 所以判断出错的可能性不超过5%. 答案:不超过5% (2)①将2×2列联表中的数据代入计算公式, 得K2= 100(6010-2010)2 100 4.762,
a y bt 4.3 1 4 2.3, 2
所以y关于t的回归方程为y 1 t 2.3. 2
(2)因为 b
=
1 2
>0,所以2007年至2013年该地区人均纯收入稳步增
长,预计到2015年,该地区人均纯收入y= 1 ×9+2.3=6.8(千元),
2
所以预计到2015年,该地区人均纯收入约6 800元左右.
两个具有线性相关关系的变量的一组数据:(x1,y1),(x2,y2),…,(xn,yn),
其回归方程为 y bx a
n
n
xi x yi y
xiyi nx y
则b i1 n
2
xi x
i1 n
x
2 i
2
nx
,a y bx,
i1
i1
其中, b 是回归方程的_斜__率__, a 是在y轴上的截距.

第三节 变量间的相关关系、统计案例

第三节 变量间的相关关系、统计案例
1.两个变量的相关关系有①正相关,②负相关,③不相关,则 下列散点图从左到右分别反映的变量间的相关关系是( )
A.①②③ C.②①③
B.②③① D.①③②
解析:第一个散点图中,散点图中的点是从左下角区域分布到 右上角区域,则是正相关;第三个散点图中,散点图中的点是 从左上角区域分布到右下角区域,则是负相关;第二个散点图 中,散点图中的点的分布没有什么规律,则是不相关,所以应 该是①③②. 答案:D
2.两个变量的线性相关
(1)从散点图上看,如果这些点从整体上看大致分布在通过散点
图中心的一条直线附近,称两个变量之间具有 线性相关关系,
这条直线叫做回归直线 .
n
xiyi-n x y
i=1
(2) 回 归 方 程 为 ___^y_=__^b_x_+__^a_____ , 其 中 ^b =

n
x2i -n x 2
相关系数最大,为 1,故选 D. 答案:D
4.变量 X 与 Y 相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),
(13,5);变量 U 与 V 相对应的一组数据为(10,5),(11.3,4),(11.8,3),
(12.5,2),(13,1).r1 表示变量 Y 与 X 之间的线性相关系数,r2
5.给出下列关系: ①正方形的边长与面积之间的关系; ②某化妆品的销售量与广告宣传费之间的关系; ③人的身高与视力之间的关系; ④雾天的能见度与交通事故的发生率之间的关系; ⑤学生与其学号之间的关系. 其中具有相关关系的是________.
解析:①正方形的边长与面积之间的关系是函数关系; ②化妆品的销售量与广告宣传费之间的关系不是严格的函数关 系,但是具有相关性,因而是相关关系; ③人的身高与视力之间的关系既不是函数关系,也不是相关关系; ④能见度与交通事故的发生率之间具有相关关系; ⑤学生与其学号之间的关系是一种确定的对应关系. 综上可知,②④具有相关关系,而①⑤是确定性的函数关系. 答案:②④

第3节 变量间的相关关系与统计案例

第3节 变量间的相关关系与统计案例

y = 1 (y1+…+yn), a$= y - b$x ,( x , y )称为样本点的中心. n
③相关系数 r=
n
xi
x
yi
y
i1
,当 r>0 时,两变量 正
n
2n
2
xi x
yi y
i1
i1
相关,当 r<0
时,两变量 负 相关,当|r|≤1 且 |r| 越接近于 1,相关程度 越强 ≤1 且|r|越接近于 0,相关程度 越弱 .
P(K2≥k0) k0
0.50 0.455 0.05 3.841
0.40 0.708 0.025 5.024
0.25 1.323 0.010 6.635
0.15 2.072 0.005 7.879
0.10 2.706 0.001 10.828
②如果k≥k0,就推断“X与Y有关系”,这种推断犯错误的概率不超过P(K2≥k0);否则,就认 为在犯错误的概率不超过P(K2≥k0)的前提下不能推断“X与Y有关系”.
.
(1)相关关系与函数关系都是一种确定性的关系,也是一种因果关系.
(2)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系.
(3)只有两个变量有相关关系,所得到的回归模型才有预测价值.
(4) 某 同 学 研 究 卖 出 的 热 饮 杯 数 y 与 气 温 x(℃) 之 间 的 关 系 , 得 回 归 方 程 =-
知识梳理自测 考点深度剖析 核心素养提升
知识梳理自测
知识梳理
1.变量间的相关关系 (1)常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不 同,相关关系是一种非确定性关系. (2)从散点图上看,点分布在从左下角到右上角的区域内,两个变量的这种相关关系称为 正相关,点分布在左上角到右下角的区域内,两个变量的这种相关关系为负相关.

10.4 变量间的相关关系、统计案例

10.4 变量间的相关关系、统计案例
统计某班学生的两科成绩得到如图所示的散点
^ ^ ^
图(x轴、y轴的单位长度相同),用回归直线方程 = b x+ 近似地
刻画其相关关系,根据图形,以下结论最有可能成立的是(
)
A.线性相关关系较强,b的值为1.25
B.线性相关关系较强,b的值为0.83
C.线性相关关系较强,b的值为-0.87
D.线性相关关系较弱,无研究价值
=1
n
2
∑ 2 -
i=1

∑ 2 -
,它主要用于相关量的显著性检验,以衡量
2
=1
它们之间的线性相关程度.当r>0时表示两个变量正相关,当r<0
时表示两个变量负相关.|r|越接近1,表明两个变量的线性相关
性 越强
;当|r|接近0时,表明两个变量间几乎不存
在 线性相关性
.
7-
知识梳理
-15考点1
考点2
考点3
(2)甲、乙、丙、丁四位同学各自对A,B两个变量的线性相关性做
试验,并用回归分析方法分别求得相关系数r与残差平方和m如下表:
关闭




(1)由散点图可以看出两个变量所构成的点在一条直线附近,所以线性相
r
0.82
0.78
0.69
0.85
关关系较强,ቤተ መጻሕፍቲ ባይዱ应为正相关,所以回归直线方程的斜率应为正数,且从散点

∑ -
=1


=1
2
2 -

^
^
, = − ,它主要用来估计和预测取值,从而获得对
这两个变量之间整体关系的了解.求回归方程的方法是最小二乘法,

变量间的相关关系与统计案例

变量间的相关关系与统计案例

xi2 3 x 2
i 1
3

4343718 179349
1.75
434 3 7 ˆ 18 - 7 1.75 185.75 ˆ a y - bx 179 3 49 1.75
ˆ 所求线性回归方程为: y 1.75 x 5.75.
六、回归效果的检测
n i 1 n
y i y 2
i 1
.
显然, R 2取值越大, 意味着残差平方和越小, 也就是说模型的拟合 效果越好.在线性回归模型中, R 2 表示解释变量对于预报变量变 化的贡献率. R 2 越 接近于 1, 表示回归的效果越好(因为R 2 越接近 于1, 表示解释变量和预报变量的线性相关性越强) .
不吸烟 吸烟 总计
不患肺癌 7775 2099 9874
3.独立性检验:假设有两个分类变量X和Y,它们的可能 取值分别为{x1,x2} 和 {y1,y2},其样本频数列联表(称 为2×2列联表)为:
y1 x1
x2 总计
y2 b
d
总计 a+b
c+d
a
c
a+c b+d a+b+c+d nad-bc2 K2= (其中 n=a+b+c+d 为样本容 a+ba+cb+dc+d
i 1 2 i i 1
n
n
i i
2.代入公式
求出 a 和 b ; ˆ ˆ
n n x y x y xi--yi-- xiyi-n-- i= 1 i= 1 b = , ^= n n - 2 x xi- x xi2-n-2 i= 1 i= 1 ^=--b - a y ^ x
如下图:
40 35 30 25 20 15 10 5

第3课时 变量间的相关关系、统计案例 ppt

第3课时 变量间的相关关系、统计案例 ppt

• A.(2,1.8) • C.(3,2.5)
B.(4,3.2) D.(5,3.8)
解析: x =3, y =2.5,样本点中心为(3,2.5),回归直线过样本点 中心. 答案:C
• 4.独立性检验
• (1)分类变量:变量的不同“值”表不示同类个别体
所属的
,像这类变量称为分类变量.
• (2)列联表:列出两个分频类数变表 量的

称为列联表.假设有两个分类变量X和Y,它
们的可能取值分别为{x1,x2}和{y1,y2},其样 本频数列联表(称为2×2列联表)为

• 2×2列联表
y1 y2 总计 x1 a b a+b x2 c d c+d 构造一个随总机计变量aK+2=ca+bb+cnd+add-a+a+b+dcbc2 +b+c d,其中
• 答案:(1)D (2)D
• 题型二 线性回归分析

(2023·浙江宁波一模)以下是某地
搜集到的新房屋的销售价格y和房屋的面积x
的数据:
房屋面积 (m2)
115 110 80
135
10 5
销售价格 (万元)
24. 8
21. 6
18. 4
29. 2
22
• (1)画出数据对应的散点图;
• (2)求线性回归方程,并在散点图中加上回 归直线;
n= a+b+c+d
为样本容量.
• (3)独立性检验
• 利用随机K变2 量 来判断“两有个关分系类变量 ”的方法称为独立性检验.
• 对点演练
• (1)为了评价某个电视栏目的改革效果,在 改革前后分别从居民点抽取了100位居民进 行调查,经过计算K2≈0.99,根据这一数据 分析,下列说法正确的是

第三节 变量间的相关关系、统计案例

第三节 变量间的相关关系、统计案例

第三节 变量间的相关关系、统计案例考试要求1.会作两个相关变量的数据的散点图,会利用散点图认识变量间的相关关系.2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程.3.了解回归分析的基本思想、方法及简单应用.4.了解独立性检验的基本思想、方法及其初步应用.[知识排查·微点淘金]知识点1 变量间的相关关系(1)常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系.(2)从散点图上看,点散布在从左下角到右上角的区域内 ,两个变量的这种相关关系称为正相关;点散布在左上角到右下角的区域内,两个变量的这种相关关系称为负相关.知识点2 两个变量的线性相关(1)从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这条直线叫做回归直线.(2)线性回归方程为y ^=b ^x +a ^,其中b ^=∑i =1n (x i -x )(y i -y )∑i =1n(x i -x)2=∑i =1nx i y i -n x y∑i =1nx 2i -n x2,a ^=y -b ^x .(3)通过求总体偏差Q =∑i =1n(y i -bx i -a )2的最小值而得到回归直线的方法,即使得样本数据的点到回归直线的距离的平方和最小,这一方法叫做最小二乘法.[微提醒]回归直线y ^=b ^x +a ^必过样本点的中心x ,y 这个结论既是检验所求回归直线方程是否准确的依据,也是求参数的一个依据.(4)相关系数当r >0时,表明两个变量正相关; 当r <0时,表明两个变量负相关.r 的绝对值越接近于1,表明两个变量的线性相关性越强.r 的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r |大于0.75时,认为两个变量有很强的线性相关性.知识点3 独立性检验 (1)2×2列联表设X ,Y 为两个分类变量,它们的取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(2×2列联表)如下:y 1 y 2 总计 x 1 a b a +b x 2 c d c +d 总计a +cb +da +b +c +d(2)独立性检验 利用随机变量K 2(也可表示为χ2)的观测值k =n (ad -bc )2(a +b )(c +d )(a +c )(b +d )(其中n =a +b +c +d 为样本容量)来判断“两个分类变量是否有关系”的方法称为独立性检验.[微提醒]根据K 2的值可以判断两个分类变量有关的可信程度,若K 2越大,则两分类变量有关的把握越大.[小试牛刀·自我诊断]1.思考辨析(在括号内打“ √”或“×”)(1)散点图是判断两个变量是否相关的一种重要方法和手段.(√)(2)回归直线方程y ^=b ^x +a ^至少经过点(x 1,y 1),(x 2,y 2),…,(x n ,y n )中的一个点.(×) (3)若事件X ,Y 关系越密切,则由观测数据计算得到的K 2的观测值越小.(×) (4)两个变量的相关系数的绝对值越接近于1,它们的相关性越强.(√)2.(链接教材选修2-3 P 86例2)两个变量y 与x 的回归模型中,分别选择了4个不同模型,它们的相关指数R 2如下,其中拟合效果最好的模型是( )A .模型1的相关指数R 2为0.98B .模型2的相关指数R 2为0.80C .模型3的相关指数R 2为0.50D .模型4的相关指数R 2为0.25解析:在两个变量y 与x 的回归模型中,它们的相关指数R 2越接近于1,这个模型的拟合效果越好,观察选项可知0.98是相关指数最大的值.故选A .答案:A3.(链接教材必修3 P 94A 组T 2)为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验,得到5组数据(x 1,y 1),(x 2,y 2),(x 3,y 3),(x 4,y 4),(x 5,y 5),根据收集到的数据可知x =20,由最小二乘法求得回归直线方程为y ^=0.6x +48,则∑i =15y i =( )A .60B .120C .150D .300解析:选D 由题意,x =20,回归直线方程y ^=0.6x +48,所以y ^=0.6×20+48=60.则∑i =15y i =60×5=300.4.(链接教材选修2-3 P 97T 2)为了判断高三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:理科 文科 男 13 10 女720已知P (K 2≥3.841)≈0.05,P (K 2≥5.024)≈0.025. 根据表中数据,得到K 2的观测值 k =50×(13×20-10×7)223×27×20×30≈4.844.则认为选修文科与性别有关系出错的可能性为 . 答案:5%5.(忽视回归直线过样本点中心)已知变量x 和y 的统计数据如下表:x 3 4 5 6 7 y2.5344.56根据上表可得回归直线方程为y ^=b ^x -0.25,据此可以预测当x =8时,y ^=( ) A .6.4 B .6.25 C .6.55D .6.45解析:选C 由题中图表可知,x =5,y =4,因为回归方程经过样本的中心(x ,y ),则4=5b ^-0.25,得b ^=0.85,则回归方程为y ^=0.85x -0.25,再将x =8代入方程,得y ^=6.55.一、基础探究点——线性相关关系的判断(题组练透)1.对变量x ,y 有观测数据(x i ,y i )(i =1,2,…,10),得散点图如图①,对变量u ,v 有观测数据(u i ,v i )(i =1,2,…,10),得散点图如图②.由这两个散点图可以判断( )A.变量x与y正相关,u与v正相关B.变量x与y正相关,u与v负相关C.变量x与y负相关,u与v正相关D.变量x与y负相关,u与v负相关解析:选C由散点图可得两组数据均线性相关,且图①的线性回归方程斜率为负,图②的线性回归方程斜率为正,则由散点图可判断变量x与y负相关,u与v正相关.2.(2021·辽宁大连模拟)已知相关变量x和y的散点图如图所示,若用y=b1ln(k1x)与y =k2x+b2拟合时的相关系数分别为r1,r2,则比较r1,r2的大小结果为()A.r1>r2B.r1=r2C.r1<r2D.不确定解析:选C由散点图可知,y=b1ln(k1x)拟合比用y=k2x+b2拟合的程度高,故|r1|>|r2|;又因为此关系为负相关,∴-r1>-r2,r1<r2,故选C.判断相关关系的两种方法(1)散点图法:如果所有的样本点都落在某一函数的曲线附近,变量之间就有相关关系.如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系.(2)相关系数法:利用相关系数判定,当|r|越趋近于1相关性越强.二、应用探究点——线性回归分析(思维拓展)[典例剖析][例1] (2020·全国卷Ⅱ)某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据(x i ,y i )(i =1,2,…,20),其中x i 和y i 分别表示第i 个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得∑i =120x i =60,∑i =120y i =1200,∑i =120(x i -x)2=80,∑i =120(y i -y)2=9000,∑i =120(x i -x )(y i -y )=800.(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘以地块数);(2)求样本(x i ,y i )(i =1,2,…,20)的相关系数(精确到0.01);(3)根据现有统计资料,各地块间植物覆盖面积差异很大,为提高样本的代表性以获得该地区这种野生动物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由.附:相关系数r =∑i =1n(x i -x )(y i -y )∑i =1n(x i -x )2∑i =1n(y i -y )2,2≈1.414.解:(1)由已知得样本平均数y =120∑i =120y i =60,从而该地区这种野生动物数量的估计值为60×200=12 000.(2)样本(x i ,y i )(i =1,2,…,20)的相关系数r =∑i =120(x i -x )(y i -y )∑i =120(x i -x)2∑i =120(y i -y )2=80080×9000=223≈0.94.(3)分层抽样:根据植物覆盖面积的大小对地块分层,再对200个地块进行分层抽样. 理由如下:由(2)知各样区的这种野生动物数量与植物覆盖面积有很强的正相关.由于各地块间植物覆盖面积差异很大,从而各地块间这种野生动物数量差异也很大,采用分层抽样的方法较好地保持了样本结构与总体结构的一致性,提高了样本的代表性,从而可以获得该地区这种野生动物数量更准确的估计.模型拟合效果的判断(1)残差平方和越小,模型的拟合效果越好. (2)相关指数R 2越大,模型的拟合效果越好.(3)回归方程的拟合效果,可以利用相关系数判断,当|r |越趋近于1时,两变量的线性相关性越强.[学会用活]1.发展清洁能源,是改善能源结构、保障能源安全、推进生态文明建设的重要任务.十三五以来,我国加快调整能源结构,减少煤炭消费、稳定油气供应、大幅增加清洁能源比重,风电、光伏发电等可再生能源发电效率不断提高.据资料整理统计我国从2015年到2019年的年光伏发电量如表:(1)请用相关系数r 说明是否可用线性回归模型拟合年光伏发电量y 与x 的关系; (2)建立年光伏发电量y 关于x 的线性回归方程,并预测2021年年光伏发电量(结果保留整数).参考公式:相关系数r =∑i =1nx i y i -n x y∑i =1n(x i -x)2∑i =1n(y i -y )2,回归方程y ^=b ^x +a ^中斜率和截距的最小二乘估计公式分别为,b ^=∑i =1nx i y i -n x y∑i =1nx 2i -n (x )2,a ^=y -b ^x .解:(1)因为x =15(1+2+3+4+5)=3,∑i =15x i y i =23 574,∑i =15(x i -x)2∑i =15(y i -y )2≈4837.5,y =1251.2.所以相关系数r =∑i =1nx i y i -n x y∑i =1n (x i -x )2∑i =1n(y i -y )2=23 574-5×3×1251.24837.5≈0.993,所以y 与x 之间具有较强的线性相关关系,可用线性回归模型进行拟合. (2)因为∑i =15x 2i =12+22+32+42+52=55,所以b ^=∑i =1nx i y i -n x y∑i =1nx 2i -n x2=23 574-5×3×1251.255-5×32=480.6,a ^=y -b ^x =1251.2-480.6×3=-190.6, 所以回归方程为y ^=480.6x -190.6,因为2021年所对应的年份编号为7,所以当x =7时,y ^=480.6×7-190.6≈3174. 故预计2021年年光伏发电量为3174亿千瓦时.三、应用探究点——独立性检验(思维拓展)[典例剖析][例2] (2021·全国甲卷)甲、乙两台机床生产同种产品,产品按质量分为一级品和二级品,为了比较两台机床产品的质量,分别用两台机床各生产了200件产品,产品的质量情况统计如下表:(1)(2)能否有99%的把握认为甲机床的产品质量与乙机床的产品质量有差异? 附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),P (K 2≥k )0.050 0.010 0.001 k3.8416.63510.828解:(1)甲机床生产的产品中一级品的频率为150200=34;乙机床生产的产品中一级品的频率为120200=35.(2)由题意知, K 2=400×(150×80-120×50)2200×200×270×130≈10.256.由10.256>6.635知,有99%的把握认为甲机床的产品质量与乙机床的产品质量有差异.1.独立性检验的一般步骤(1)根据样本数据列出2×2列联表; (2)根据公式K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )计算K 2的值;(3)查表比较K 2与临界值的大小关系,作出统计判断. 2.解独立性检验的应用问题的关注点(1)两个明确:①明确两类主体;②明确研究的两个问题; (2)两个准确:①准确画出2×2列联表;②准确理解K 2.[学会用活]2.(2020·新高考全国卷Ⅰ)为加强环境保护,治理空气污染,环境监测部门对某市空气质量进行调研,随机抽查了100天空气中的PM2.5和SO 2浓度(单位:μg/m 3),得下表:SO 2PM2.5[0,50] (50,150] (150,475][0,35] 32 18 4 (35,75] 6 8 12 (75,115]3710(1)2”的概率; (2)根据所给数据,完成下面的2×2列联表:SO 2PM2.5[0,150] (150,475][0,75] (75,115](3)根据(2)中的列联表,判断是否有99%的把握认为该市一天空气中PM2.5浓度与SO 2浓度有关?附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),P (K 2≥k )0.050 0.010 0.001 k3.8416.63510.828解:(1)根据抽查数据,该市100天的空气中PM2.5浓度不超过75,且SO 2浓度不超过150的天数为32+18+6+8=64,因此,该市一天空气中PM2.5浓度不超过75,且SO 2浓度不超过150的概率的估计值为64100=0.64.(2)根据抽查数据,可得2×2列联表:SO 2PM2.5[0,150] (150,475] [0,75] 64 16 (75,115]1010(3)根据(2)的列联表得K 2=100×(64×10-16×10)280×20×74×26≈7.484.由于7.484>6.635,故有99%的把握认为该市一天空气中PM2.5浓度与SO 2浓度有关.限时规范训练 基础夯实练1.(2020·全国卷Ⅰ)某校一个课外学习小组为研究某作物种子的发芽率y 和温度x (单位:℃)的关系,在20个不同的温度条件下进行种子发芽实验,由实验数据(x i ,y i )(i =1,2,…,20)得到下面的散点图:由此散点图,在10 ℃至40 ℃之间,下面四个回归方程类型中最适宜作为发芽率y 和温度x 的回归方程类型的是( )A .y =a +bxB .y =a +bx 2C .y =a +b e xD .y =a +b ln x解析:选D 由散点图可以看出,点大致分布在对数型函数的图象附近. 2.(2021·安徽合肥一中模拟)下列有关回归分析的论断不正确的是( ) A .若相关系数r 满足|r |越接近1,则这两个变量相关性越强 B .若相关指数R 2越大,则模型的拟合效果越好 C .若所有样本点都在y ^=b ^x +a ^上,则线性相关系数r =1D .残差图的带状区域的宽度越窄,模型拟合的精度越高,回归方程的预报精度越高 解析:选C 若所有样本点都在y ^=b ^x +a ^上,则线性相关系数r =1或-1,所以C 选项错误,故选C .3.(2021·河南洛阳月考)某服装品牌市场部门为了研究销售情况,统计了一段时间内该品牌不同服装的单价x (元)和销售额y (元)的数据,整理得到下面的散点图:已知销售额y =单价x ×销量z ,根据散点图,下面四个回归方程类型中最适宜作为服装销量z 与单价x 的回归方程类型的是( )A .z =a +bxB .z =a +bxC .z =a +bx 2D .z =a +be x解析:选B 由散点图可知,y 与x 成线性相关,设回归方程为y =m +kx ,由题意z =yx ,所以z =mx+k ,对应B 最适合.故选B .4.(2021·安徽合肥二模)2020年初,从非洲蔓延到东南亚的蝗虫灾害严重威胁了国际农业生产,影响了人民的生活.世界性与区域性温度的异常、旱涝频繁发生给蝗灾发生创造了机会.已知蝗虫的产卵量y 与温度x 的关系可以用模型y =c 1e c 2x 拟合,设z =ln y ,其变换后得到一组数据:x 20 23 25 27 30 z22.4334.6由上表可得线性回归方程z =0.2x +a ,则c 1=( )A .-2B .e -2 C .3D .e 3解析:选B 由表格数据知:x =15(20+23+25+27+30)=25,z =15(2+2.4+3+3+4.6)=3,代入z ^=0.2x +a ^得a ^=3-0.2×25=-2,∴z =0.2x -2,即ln y =0.2x -2,∴y =e 0.2x-2=e -2·e 0.2x ,∴c 1=e -2,故选B .5.(2021·黑龙江大庆模拟)下列描述中正确命题的个数为( ) ①最小二乘法的原理是使得∑i =1n[y i -(a +bx i )]2最小②样本相关系数r 越大,相关程度越大③设有一个回归方程y ^=3-5x ,变量x 增加一个单位时,y 减少5个单位 A .0 B .1 C .2D .3解析:选B 对于①,最小二乘法是使得样本数据点到回归直线的距离的评分和最小的方法,即使得∑i =1n[y i -(a +bx i )]2最小,故①正确;对于②,相关系数r 为负数时,样本相关系数r 越大,相关程度越小,故②错误;对于③,变量x 增加一个单位时,y 平均减少5个单位,故③错误;所以正确命题的个数为1个.故选B .6.(2021·山西太原三模)某公交公司推出扫码支付乘车优惠活动,活动为期两周,活动的前五天数据如下表:由表中数据可得y 关于x 的回归方程为y =55x 2+m ,则据此回归模型相应于点(2,173)的残差为( )A .-5B .-6C .3D .2解析:选B 令t =x 2,则y =55t +m ,t =1+4+9+16+255=11,y =15+173+457+842+13335=564,所以564=55×11+m ,m =-41,所以y =55x 2-41,当x =2时,y =55×22-41=179,所以残差为173-179=-6.故选B .7.某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验.根据收集到的数据.(如下表),由最小二乘法求得回归方程y ^=0.67x +54.9.零件数x (个) 10 2030 40 50 加工时间y (min)62758189现发现表中有一个数据看不清,请你推断出该数据的值为 .解析:由x =30,得y =0.67×30+54.9=75. 设表中的“模糊数字”为a ,则62+a +75+81+89=75×5,解得a =68. 答案:688.为了研究工人的日平均工作量是否与年龄有关,从某工厂抽取了100名工人,且规定日平均生产件数不少于80件者为“生产能手”,列出的2×2列联表如下:生产能手 非生产能手总计 25周岁以上 25 35 60 25周岁以下10 30 40 总计3565100有 以上的把握认为“工人是否为‘生产能手’与工人的年龄有关”. 附:P (K 2≥k 0)0.10 0.05 0.025 k 02.7063.8415.024K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),n =a +b +c +d .解析:由2×2列联表可知,K 2=100×(25×30-10×35)240×60×35×65≈2.93,因为2.93>2.706,所以有90%以上的把握认为“工人是否为‘生产能手’与工人的年龄有关”.答案:90%9.(2021·安徽合肥模拟)树木根部半径与树木的高度呈正相关,即树木根部越粗,树木的高度也就越高.某块山地上种植了A 树木,某农科所为了研究A 树木的根部半径与树木的高度之间的关系,从这些地块中用简单随机抽样的方法抽取6棵A 树木,调查得到A 树木根部半径x (单位:米)与A 树木高度y (单位:米)的相关数据如表所示:(1)求y 关于x (2)对(1)中得到的回归方程进行残差分析,若某A 树木的残差为零则认为该树木“长势标准”,在此片树林中随机抽取1棵A 树木,估计这棵树木“长势标准”的概率.参考公式:回归直线方程为y ^=b ^x +a ^,其中b ^=∑i =1nx i y i -n x y∑i =1nx 2i -n x2=∑i =1n(x i -x )(y i -y )∑i =1n(x i -x )2,a ^=y -b ^x .解:(1)由x =16×(0.1+0.2+0.3+0.4+0.5+0.6)=0.35,y =16×(1.1+1.3+1.6+1.5+2.0+2.1)=1.6,∑i =16x i y i =0.1×1.1+0.2×1.3+0.3×1.6+0.4×1.5+0.5×2.0+0.6×2.1=3.71,∑i =16x 2i =0.12+0.22+0.32+0.42+0.52+0.62=0.91,有b ^=∑i =16x i y i -6x y∑i =16x 2i -6x2=3.71-6×0.35×1.60.91-6×0.352=2,a ^=y -b ^x =1.6-2×0.35=0.9,故y 关于x 的回归方程为y ^=2x +0.9.(2)当x =0.1时,y ^=2×0.1+0.9=1.1,残差为1.1-1.1=0, 当x =0.2时,y ^=2×0.2+0.9=1.3,残差为1.3-1.3=0, 当x =0.3时,y ^=2×0.3+0.9=1.5,残差为1.6-1.5=0.1, 当x =0.4时,y ^=2×0.4+0.9=1.7,残差为1.5-1.7=-0.2,当x =0.5时,y ^=2×0.5+0.9=1.9,残差为2.0-1.9=0.1, 当x =0.6时,y ^=2×0.6+0.9=2.1,残差为2.1-2.1=0, 由这6棵A 树木中残差为零的有3棵,占比为36=12,∴这棵树木“长势标准”的概率为12.综合提升练10.(2021·广东肇庆模拟)如图是相关变量x ,y 的散点图,现对这两个变量进行线性相关分析,方案一:根据图中所有数据,得到线性回归方程y ^=b 1x +a ^1,相关系数为r 1;方案二:剔除点(10,21),根据剩下数据得到线性回归直线方程y ^=b 2x +a ^2,相关系数为r 2.则( )A .0<r 1<r 2<1B .0<r 2<r 1<1C .-1<r 1<r 2<0D .-1<r 2<r 1<0解析:选D 根据相关变量x ,y 的散点图知,变量x ,y 具有负线性相关关系,且点(10,21)是离群值;方案一中,没剔除离群值,线性相关性弱些,成负相关;方案二中,剔除离群值,线性相关性强些,也是负相关.所以相关系数-1<r 2<r 1<0.故选D .11.(2021·南昌一模)某考察团对10个城市的职工人均工资x (千元)与居民人均消费y (千元)进行调查统计,得出y 与x 具有线性相关关系,且线性回归方程为y ^=0.6x +1.2.若某城市职工人均工资为5千元,估计该城市人均消费额占人均工资收入的百分比为( )A .66%B .67%C .79%D .84%解析:选D 因为y 与x 具有线性相关关系,且满足回归方程y ^=0.6x +1.2,该城市居民人均工资为x =5,所以可以估计该城市的职工人均消费水平y =0.6×5+1.2=4.2,所以可以估计该城市人均消费额占人均工资收入的百分比为4.25=84%.12.为了丰富教职工业余文化生活,某校计划在假期组织70名教师外出旅游,并给出了两种方案(方案一和方案二),每位老师均选择且只选择一种方案,其中有50%的男教师选择方案一,有75%的女教师选择方案二,且选择方案一的教师中女教师占40%,则参照附表,得到的正确结论是( )附:P (K 2≥k 0)0.10 0.05 0.025 k 02.7063.8415.024K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),n =a +b +c +d .A .在犯错误的概率不超过2.5%的前提下,认为“选择方案与性别有关”B .在犯错误的概率不超过2.5%的前提下,认为“选择方案与性别无关”C .有95%以上的把握认为“选择方案与性别有关”D .有95%以上的把握认为“选择方案与性别无关”解析:选C 设该校男教师的人数为x ,女教师的人数为y ,则可得如下表格:方案一 方案二男老师 0.5x 0.5x x 女老师 0.25y 0.75y y0.5x +0.25y0.5x +0.75yx +y由题意0.25y 0.5x +0.25y =0.4,可得y x =43,可得x =30,y =40,则K 2=70×(15×30-15×10)225×45×30×40≈4.667>3.841,但4.667<5.024,所以无97.5%以上但有95%以上的把握认为“选择方案与性别有关”.故选C .13.(2020·安徽蚌埠市第三次质检)某企业为了调查其产品在国内和国际市场的发展情况,随机抽取国内、国外各100名客户代表,了解他们对该企业产品的发展前景所持的态度,得到如图所示的等高条形图,则 (填“能”或“不能”)有99%以上的把握认为是否持乐观态度与国内外差异有关.附K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ).P (K 2≥k 0)0.0500.0100.0050.001k 0 3.841 6.635 7.879 10.828解析:由题意可得列联表如下:不乐观 乐观 合计 国内代表 40 60 100 国外代表 60 40 100 合计100100200则K 2=200×(40×40-60×60)2100×100×100×100=8>6.635,所以有99%以上的把握认为是否持乐观态度与国内外差异有关.答案:能14.已知某次考试之后,班主任从全班同学中随机抽取一个容量为8的样本,他们的数学、物理成绩(单位:分)对应如下表:学生编号 1 2 3 4 5 6 7 8 数学成绩 60 65 70 75 80 85 90 95 物理成绩7277808488909395给出散点图如下:根据以上信息,判断下列结论:①根据散点图,可以判断数学成绩与物理成绩具有线性相关关系; ②根据散点图,可以判断数学成绩与物理成绩具有一次函数关系;③从全班随机抽取甲、乙两名同学,若甲同学数学成绩为80分,乙同学数学成绩为60分,则甲同学的物理成绩一定比乙同学的物理成绩高.其中正确的个数为 .解析:由散点图知,各点都分布在一条直线附近,故可以判断数学成绩与物理成绩具有线性相关关系,但不能判断数学成绩与物理成绩具有一次函数关系,故①正确,②错误;若甲同学数学成绩为80分,乙同学数学成绩为60分,则甲同学的物理成绩可能比乙同学的物理成绩高,故③错误.综上,正确的个数为1.答案:1创新应用练15.(2021·江苏南通三模)机动车行经人行横道时,应当减速慢行;遇行人正在通过人行横道,应当停车让行,俗称“礼让行人”.下表是某市一主干道路口监控设备所抓拍的5个月内驾驶员不“礼让行人”行为统计数据:月份 1 2 3 4 5 违章驾驶人次1251051009080(1)y 关于x 的回归方程y ^=b ^x +a ^,并预测该路口7月份不“礼让行人”违规驾驶人次;(2)交警从这5个月内通过该路口的驾驶员中随机抽查90人,调查驾驶员“礼让行人”行为与驾龄的关系,得到下表:不礼让行人礼让行人 驾龄不超过2年 24 16 驾龄2年以上2624结论判断的体会.附:b ^=∑i =1n (x i -x )(y i -y )∑i =1n(x i -x )2=∑i =1nx i y i -n x y∑i =1nx 2i -n x2,a ^=y -b ^x . K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d .P (K 2≥k 0)0.15 0.10 0.05 0.025 0.010 k 02.0722.7063.8415.0246.635解:(1)由表中数据知,x =1+2+3+4+55=3,y =125+105+100+90+805=100,所以∑i =15(x i -x )(y i -y )=-50-5+0-10-40=-105,∑i =1n(x i -x )2=4+1+0+1+4=10,所以b^=∑i=1n(x i-x)(y i-y)∑i=1n(x i-x)2=-10510=-10.5,a^=100-(-10.5)×3=131.5.所以y^=-10.5x+131.5,所以令x=7,则y^=-10.5×7+131.5=58人,故预测该路口7月份不“礼让行人”违规驾驶人次为58人次.(2)根据表中的列联表补全得下表:故K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)=90×(24×24-16×26)250×40×40×50≈0.58<2.706,所以没有90%的把握认为“礼让行人行为”与驾龄有关.礼让行人是一种良好的驾驶习惯,无论驾龄多少,都需遵守规章,礼让行人.。

变量间的相关关系、统计案例

变量间的相关关系、统计案例

2.独立性检验思想的理解 独立性检验的思想类似于反证法,即要确定“两个变量 X 与 Y 有关 系”这一结论成立的可信度,首先假设结论不成立,即它们之间没有关 系,也就是它们是相互独立的,利用概率的乘法公式可推知, (ad-bc) nad-bc2 接近于零,也就是随机变量 K = 应该很小,如 a+bc+da+cb+d
A.y 与 x 具有正的线性相关关系 B.回归直线过样本点的中心( x , y ) C.若该大学某女生身高增加 1 cm,则其体重约增加 0.85 kg D.若该大学某女生身高为 170 cm,则可断定其体重必为 58.79 kg
【名师点评】 求样本数据的线性回归方程的步骤 第一步,计算平均数 x , y ;
2 第二步,求和i∑ x y , ∑ x ; i i =1 i=1 i n n
∑ xi- x yi- y ∑ x y -n x y =1 =1 i i i i ^= 第三步,计算b = n 2 , n 2 2 ∑ xi- x ∑ x -n x i=1 i=1 i ^= y -b ^x; a ^x+a ^. 第四步,写出回归方程^ y=b
2
由于 9.967>6.635, 所以在犯错误的概率不超过 0.01 的前提下认为该 地区的老年人是否需要帮助与性别有关.
• (3)由(2)的结论知,该地区老年人是否需 要帮助与性别有关,并且从样本数据能看 出该地区男性老年人与女性老年人中需要 帮助的比例有明显差异,因此在调查时, 先确定该地区老年人中男、女的比例,再 把老年人分成男、女两层并采用分层抽样 方法,比采用简单随机抽样方法更好.
• 考向二 回归方程的求法及回归分析 • [例2] (2013年淄博模拟)某种产品的宣传 费支出x与销售额y(单位:万元)之间有如 下对应数据:

2020届新高考数学艺考生总复习第八章统计与统计案例第3节变量间的相关关系与统计案例课件

2020届新高考数学艺考生总复习第八章统计与统计案例第3节变量间的相关关系与统计案例课件
高考总复习
第八章 统计与统计案例 第3节 变量间的相关关系与统计案例
艺考生山东版数学
最新考纲
1.会作两个相关变量的数据 的散点图,会利用散点图 认识变量间的相关关系. 2.了解最小二乘法的思想, 能根据给出的线性回归方 程系数公式建立线性回归 方程. 3.了解独立性检验(只要求 2×2列联表)的基本思想、 方法及其简单应用. 4.了解回归分析的基本思 想、方法及其简单应用
2.为调查中学生近视情况,测得某校男生 150 名中有 80 名近视,
在 140 名女生中有 70 名近视.在检验这些学生眼睛近视是否与性别
有关时,用下列哪种方法最有说服力( )
A.回归分析
B.期望与方差
C.独立性检验
D.概率
解析:C [“近视”与“性别”是两类变量,其是否有关,应该
用独立性检验判断.故选 C .]
(3)如果散点图中点的分布从整体上看大致在 一条直线 附 近,称两个变量具有线性相关关系.
2.线性回归方程 (1)最小二乘法:使得样本数据的点到回归直线的 距离的平方 和 最小的方法叫做最小二乘法.
3.残差分析 (1)残差:对于样本点(x1,y1),(x2,y2),…,(xn,yn),它们的随 机误差为 ei=yi-bxi-a,i=1,2,…,n,其估计值为^ei=yi-^yi=yi -b^xi-a^,i=1,2,…,n.^ei 称为相应于点(xi,yi)的残差.
①若 K2 的观测值为 k=6.635,我们有 99%的把握认为吃零食与 性别有关系,那么在 100 个吃零食的人中必有 99 人是女性;
②从独立性检验可知有 99%的把握认为吃零食与性别有关系时, 我们说某人吃零食,那么此人是女性的可能性为 99%;
③若从统计量中求出有 99%的把握认为吃零食与性别有关系, 是指有 1%的可能性使得出的判断出现错误.

第九章 第三节 变量间的相关关系、统计案例

第九章  第三节  变量间的相关关系、统计案例

[究 疑 点] 1.相关关系与函数关系有何异同点? 提示:相同点:两者均是指两个变量的关系. 不同点:(1)函数关系是一种确定关系,相关关系是一 种非确定的关系;
(2)函数关系是一种因果关系,而相关关系不一定是因
果关系,也可能是伴随关系.
2.根据独立性检验的基本思想,得出的两个分类变量有 关系,这样的结论一定是正确的吗? 提示:在实际问题中,独立性检验的结论仅仅是一种 数学关系,得出的结论也可能犯错误,比如:在推测 吸烟与肺癌是否有关时,通过收集、整理、分析数据,
得到如下一组数据: 年龄 23 27 39 41 45 49 51 53
脂肪 9.5 17.8 21.2 25.9 27.5 26.3 28.2 29.6
判断它们是否有相关关系,若有作一回归直线.
解:以年龄作为x轴,脂肪含量为y轴,可得相应散点图:
由散点图可见,两者之间具有相关关系.
3.下面是水稻产量与施化肥量的一组观测数据:
解析:用回归模型y=7.19x+73.93,只能作预测其结果, 不一定是个确定值. 答案:C
2.已知回归方程 ^ =4.4x+838.19,则可估计x与y的增长 y 速度之比约为________.
解析:x与y的增长速度之比即为回归方程的斜率的倒数 1 5 = . 4.4 22
5 答案: 22
3.若施化肥量x与水稻产量y的回归直线方程为 ^ =5x+250, y 当施化肥量为80 kg时,预计水稻产量为________.
[题组自测]
1.下面是一个2×2列联表 y1 x1 a y2 21 总计 73
x2
总计
2
b
25
46
27
则表中a、b处的值分别为 A.94、96 C.52、54 B.52、50 D.54、52
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
3.已知变量x和y满足关系y=-0.1x+1,变量y与z正相关.下列结论中正确的 是 ( C ) A.x与y正相关,x与z负相关 B.x与y正相关,x与z正相关 C.x与y负相关,x与z负相关 D.x与y负相关,x与z正相关 答案 C 由y=-0.1x+1,知x与y负相关,即y随x的增大而减小,又y与z正 相关,所以z随y的增大而增大,所以z随x的增大而减小,即x与z负相关,故 选C.
A.①② B.②③ C.③④ D.①④
答案 D
^^ ^
^
^
解析 由回归直线方程 y = bx+ a,知当 b>0时,y与x正相关;当 b<0时,y与x负
相关,∴①④一定不正确.故选D.
考点突破 栏目索引
方法技巧 判定两个变量正、负相关性的方法 (1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从 左上角到右下角,两个变量负相关. (2)相关系数:r>0时,正相关:r<0时,负相关. (3)线性回归方程: b^ >0时,正相关: b^ <0时,负相关.
教材研读 栏目索引
(3)线性相关关系、回归直线 如果散点图中点的分布从整体上看大致在⑤ 一条直线附近 ,就称这 两个变量之间具有线性相关关系,这条直线叫做回归直线. (4)最小二乘法 求回归直线,使得样本数据的点到它的⑥ 距离的平方和最小 的方法 叫做最小二乘法.
教材研读 栏目索引
(5)回归方程
考点突破 栏目索引
(1)依据折线图计算相关系数r(精确到0.01),并据此判断是否可用线性回 归模型拟合y与x的关系.(若|r|>0.75,则线性相关程度很高,可用线性回归 模型拟合) (2)蔬菜大棚对光照要求较高,某光照控制仪商家为该基地提供了部分
考点突破 栏目索引
光照控制仪,但每周光照控制仪运行台数受周光照量X限制,并有如下 关系:
周光照量X/小时 光照控制仪运行台数
30<X<50 3
50≤X≤70 2
X>70 1
考点突破 栏目索引
对商家来说,若某台光照控制仪运行,则该台光照控制仪产生的周利润为 3 000元;若某台光照控制仪未运行,则该台光照控制仪周亏损1 000元.若 商家安装了3台光照控制仪,求商家在过去50周的总利润的平均值.

2
nx
,

i1
i1
a^


y
^
b
x .
教材研读 栏目索引
2.回归分析
(1)回归分析是对具有⑧ 相关关系 的两个变量进行统计分析的一种 常用方法. (2)样本点的中心
对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn),我们知道 x =
1 n
ni1 xi ,
y

1 n
n

i1
yi ,则将⑨
( x, y ) 称为样本点的中心.
教材研读 栏目索引
n
(3)相关系数:r
xi yi nx y
i1

n

i1
xi2

2
nx

n

i1
yi2

n
2
y

.
当r>0时,表明两个变量⑩ 正相关 ;
当r<0时,表明两个变量 负相关 .
求得回归直线方程,分别得到以下四个结论:
①y与x负相关且 y^ =2.347x-6.423;
^
②y与x负相关且 y =-3.476x+5.648;
^
③y与x正相关且 y =5.437x+8.493;
^
④y与x正相关且 y =-4.326x-4.578.
考点突破 栏目索引
其中一定不 正确 的结论的序号是 ( D )
教材研读 栏目索引
5.某校为了研究学生的性别和对待某一活动的态度(支持和不支持两种
态度)的关系,运用2×2列联表进行独立性检验,经计算K2=7.069,则所得
到的统计学结论是有
的把握认为“学生性别与支持该活动有
关系”. ( C ) 附:
P(K2≥k0)
0.100
0.050
0.025
0.010
0.001
回归分析
考点突破 栏目索引
命题方向一 线性回归方程及应用
典例2 (2018湖南湘东五校联考)某兴趣小组欲研究昼夜温差大小与患 感冒人数多少之间的关系,他们分别到气象局与某医院调查了1月份至6 月份每月10号的昼夜温差情况与因患感冒而就诊的人数,得到如下数据:
日期 昼夜 温差x/℃ 就诊 人数y/个
1月10日 10
22
2月10日 11
25
3月10日 13
29
4月10日 12
26
5月10日 8
16
6月10日 6
12
考点突破 栏目索引
该兴趣小组确定的研究方案是:先从这6组数据中选取2组,用剩下的4组 数据求线性回归方程,再用被选取的2组数据进行检验. (1)求选取的2组数据恰好是相邻两个月的概率; (2)若选取的是1月份与6月份的两组数据,请根据2月份至5月份的数据, 求出y关于x的线性回归方程 y^ = b^ x+ a^ ; (3)若由线性回归方程得到的估计数据与所选出的检验数据的误差均不 超过2,则认为得到的线性回归方程是理想的,试问该小组所得线性回归 方程是否理想?
考点突破 栏目索引
1-1 在一组样本数据(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn不全相等)的
散点图中,若所有样本点(xi,yi)(i=1,2,…,n)都在直线y= 12 x+1上,则这组样
本数据的样本相关系数为 ( D )
A.-1 B.0 C. 1 D.1
(2)列联表:列出两个分类变量的 频数表 ,称为列联表.假设有两个
分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联 表(称为2×2列联表)为
y1
y2
总计
x1
a
b
a+b
x2
c
总计
a+c
d
c+d
b+d
a+b+c+d
教材研读 栏目索引
则可构造一个随机变量K2=
n(ad bc)2
77
= 18,则 a^ = y - b^ x =- 30 ,所以y关于x
7
7
(3)当x=10时, y^ = 150 , 150 22 <2; 77
当x=6时, y^ = 78 , 78 12 <2. 77
所以该小组所得线性回归方程是理想的.
考点突破 栏目索引
考点突破 栏目索引
命题方向二 相关系数及应用 典例3 (2018广东广州调研)某基地蔬菜大棚采用无土栽培方式种植各 类蔬菜.过去50周的资料显示,该地周光照量X(单位:小时)都在30小时以 上,其中不足50小时的有5周,不低于50小时且不超过70小时的有35周,超 过70小时的有10周.根据统计,该基地的西红柿增加量y(单位:千克)与使 用某种液体肥料的质量x(单位:千克)之间的对应数据为如折线图所示.
数据的情况有5种,所以P(A)= 5 = 1.
15 3
(2)由题表中2月份至5月份的数据可得 x =11, y =24,
4
4
xi yi
i1
1
4
092, xi2 i1

^
498,所以b

xi yi 4x y
i1
4

xi2

2
4x
的线性回归方程为 y^ = 18x- 30 .i1
方程 y^ = b^ x+ a^ 是两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2), …,(xn,yn)的回归方程,其中 a^ , b^是待定参数.
b^

n
(xi x)( yi
i1 n
(xi x)2
y)

n
xi yi nx y
i1
n

xi2
教材研读 栏目索引
(4)事件X,Y关系越密切,则由观测数据计算得到的K2的观测值越大. (√) 答案 (1)√ (2)√ (3)✕ (4)√
2.观察下列各图:
教材研读 栏目索引
其中两个变量x,y具有线性相关关系的图是 ( C ) A.①② B.①④ C.③④ D.②③ 答案 C
教材研读 栏目索引
教材研读 栏目索引
4.已知x,y的对应取值如下表,从散点图可以看出y与x线性相关,且回归方 程为 y^ =0.95x+ a^ ,则 a^ = ( B )
x
0
1
3
4
y
2.2
4.3
4.8
6.7
A.3.25 B.2.6 C.2.2 D.0
^
答案 B 由题意知 x=2, y =4.5,因为回归直线经过点( x, y),所以 a=4.50.95×2=2.6,故选B.
栏目索引
第三节 变量间的相关关系、 统计案例(数学建模八)
教 1.两个变量的线性相关
材 2.回归分析 研 读 3.独立性检验
总纲目录 栏目索引
考 考点一 相关关系的判断
点 突
考点二 回归分析
破 考点三 独立性检验
总纲目录 栏目索引
教材研读
教材研读 栏目索引
1.两个变量的线性相关
(1)正相关 在散点图中,点散布在从① 左下角 到② 右上角 的区域,对于两 个变量的这种相关关系,我们将它称为正相关. (2)负相关 在散点图中,点散布在从③ 左上角 到④ 右下角 的区域,对于两 个变量的这种相关关系,我们将它称为负相关.
相关文档
最新文档