相关关系和最小二乘法
相关性与最小二乘估计

02
最小二乘估计
最小二乘法的起源与原理
起源
最小二乘法最早由法国数学家勒让德于1805年提出,作为解决误差分析问题的数学工具。
原理
最小二乘法基于最小化预测值与实际观测值之间的平方误差和,通过求解线性方程组来找到最佳参数 估计值。
最小二乘估计的步骤
构建模型
根据问题背景和数据特征,选 择合适的数学模型,通常为线 性模型。
对异常值敏感
最小二乘法对异常值比较敏感,异常值可能会对参数估计造成较大影 响。
无法处理非线性关系
最小二乘法只适用于线性回归模型,对于非线性关系的数据无法给出 准确的参数估计。
无法处理分类变量
最小二乘法无法直接处理分类变量,需要将其转化为虚拟变量或哑变 量才能使用。
05
相关性与最小二乘估计的实际应用
相关性系数
计算方法
相关性系数通过计算两个变量之间的皮尔逊积矩相关系数、斯皮尔曼秩相关系数等来获得。
解释
相关性系数的大小和方向可以用来判断两个变量之间的关联程度和方向。
相关性检验
方法
相关性检验通常采用皮尔逊相关系数 检验、斯皮尔曼秩相关检验等统计方 法。
目的
通过相关性检验可以判断两个变量之 间是否存在显著的相关性,以及这种 关系的强度和方向。
相关性与最小二乘估计
• 相关性概念 • 最小二乘估计 • 相关性与最小二乘估计的关系 • 最小二乘估计的优缺点 • 相关性与最小二乘估计的实际应用 • 案例分析
01
相关性概念
定义与性质
定义
相关性描述两个或多个变量之间关系 的强度和方向,通常用相关系数表示。
性质
相关性系数介于-1和1之间,其中1表 示完全正相关,-1表示完全负相关, 0表示无相关性。
偏相关与偏最小二乘

偏相关与偏最小二乘
偏相关分析和偏最小二乘回归是两种常用的多元统计分析方法,用于处理多个预测变量和一个响应变量的关系。
偏相关分析是一种确定多个变量之间相关性的方法,它控制其他变量的影响,只考虑特定两个变量之间的相关性。
这种方法用于探索变量之间的依赖关系,并通过控制其他变量的影响来理解变量之间的纯粹关系。
偏相关分析可以揭示变量之间的真实关系,即使它们受到其他变量的影响。
偏最小二乘回归是一种回归分析技术,用于建立因变量和自变量之间的关系模型。
它通过迭代过程同时估计回归系数和提取对因变量有最大影响的自变量特征。
在每一步迭代中,它使用最小二乘法估计回归系数,并提取新的特征,直到达到收敛或达到预设的迭代次数。
总之,偏相关分析用于探索和理解变量之间的相关性,而偏最小二乘回归则用于建立预测模型和预测因变量的值。
这两种方法在多元统计分析中都是非常重要的工具,可以根据具体的数据和分析目标选择使用其中一种或结合使用。
最小二乘法在回归分析和趋势预测中的应用

(3) 最小二乘法在回归分析和趋势预测中的应用最小平方法, 又称最小二乘法。
其方法的计算依据是利用算术平均数的数学性质, 在我 们介绍算术平均数的数学性质时, 有两条性质分别是: 一、 各个变量值与平均数的离差之和 等于零,用表达式表示即 (x x) 0;二、各个变量值与平均数的离差平方之和为最小 值,用表达式表示为(x x) 最小值。
这两条数学性质已证明过, 我们把它们应用到 回归分析和趋势预测中来。
回归分析和时间序列趋势预测中, 主要是为求得回归方程或趋势 方程,但在求得方程的参数时,就要用到上面的两条数学性质。
最小平方法的数学依据是实际值 (观察值 )与理论值 (趋势值 )的离差平方和为最小。
据此 来拟合回归方程或趋势方程。
1、利用最小平方法拟合直线回归方程拟合直线回归方程的主要问题就在于估计待定参数 a和b之值,而用最小平方法求出的 回归直线是原有资料的“最佳”拟合直线。
假设直线回归方程为:yc a bx,其中 a 是直线的截距, b 是直线的斜率,称回归 系数。
a和 b 都是待定参数。
将给定的自变量 x 之值代入上述方程中,可求出估计的因变量 y之值。
这个估计值不是一个确定的数值, 而是 y许多可能取值的平均数, 所以用 yc 表示。
当 x 取某一个值时, y有多个可能值。
因此,将给定的 x 值代入方程后得出的 yc 值,只能 看作是一种平均数或期望值。
配合直线方程的具体方法如下:用直线方程 yc a bx代入式 (1)得:分别求 Q 关于 a 和Q 关于 b 的偏导,并令它们等于 0:Q2(y a bx)( 1) 0 a Q2(y a bx)( x) 0 b整理后得出由下列两个方程式所组成的标准方程组:y na b x xy a x b x 2根据已知的或样本的相应资料 x 、 y值代入式 (3),可求出 a 和b 两个参数:Q (y y c )2最小值(1)Q (y a bx) 2 最小值(2)(8)n xy x yb22n x 2 ( x)2 a y bxabn n(4) 只要把 a 和b两个参数代入 y c ,就可得到直线回归方程 y c a bx。
第九章 第四节 相关性、最小二乘估计、回归分析与独立性检验

分析与独立性检验
9/30/2013
9/30/2013
1.相关性 (1)散点图:在考虑两个量的关系时,为了对_____之间的关 变量 系有一个大致的了解,人们通常将___________的点描出来, 变量所对应 这些点就组成了变量之间的一个图,通常称这种图为变量之间 的散点图.
1.利用统计量χ 2来判断“两个变量X,Y有关系”计算公式为:
2
(A)ad-bc越小,说明X与Y关系越弱
(B)ad-bc越大,说明X与Y关系越强 (C)(ad-bc)2越大,说明X与Y关系越强 (D)(ad-bc)2越接近于0,说明X与Y关系越强
a b c d a c b d
1 2
9/30/2013
【拓展提升】线性相关关系与函数关系的区别 (1)函数关系中的两个变量间是一种确定性关系.例如,正 方形面积S与边长x之间的关系S=x2就是函数关系.
(2)相关关系是一种非确定性关系,即相关关系是非随机变
量与随机变量之间的关系.例如,商品的销售额与广告费是相
关关系.两个变量具有相关关系是回归分析的前提.
50 13 20-10 7) ( 4.844, 23 27 20 30
2
因为χ 2≥3.841,所以有
答案:95%
9/30/2013
考向 1
相关关系的判断
【典例1】(1)对变量x,y有观测数据(xi,yi)(i=1,2,„,
10),得散点图(1);对变量u,v有观测数据(ui,vi)(i=1,
9/30/2013
3.独立性检验
(1)2×2列联表
设A,B为两个变量,每一个变量都可以取两个值,变量A:
偏最小二乘回归分析

x y xy 101.8389 b 2 2 , x x a y b x -28.6883
y
2 [ y ( a bx )] i i
n2
0.931912
利用肖维涅舍弃判据来剔除测量值中带有粗差的数 据,列表如下(n=16时,Cu=2.15):
递推关系:
P0(x)=1, P1(x)=x,
2 P2 ( x) 1 ( 3 x 1) 2
则: a 28.7 0.4 b 101.8 0.1
即回归方程为:
y 28.7 101.8 x
附:临界相关系数 R表
N-2 a
0.05 0.01
1
2
3
4
5
6
7
8
9
10
0.997 0.950 0.878 0.811 0.754 0.707 0.666 0.632 0.602 0.576 1.000 0.990 0.959 0.917 0.874 0.834 0.798 0.765 0.735 0.707
1.3 相关关系
相关关系的描述 相关关系最直观的描述方式——坐标图(散点图)
非线性相关
零相关
正相关
负相关
相关系数 — 相关程度的度量
X和Y的总体 相关系数: •
Cov( X , Y ) Var ( X )Var (Y )
其中: Var(X)-----X 的方差 Var(Y)-----Y的方差 Cov(X,Y)-----X和Y的协方差
解: 1.列表
n x
y x2 y2 xy
1 2 3 4 5 6 7 8 9
1.11
82.5 1.2321 6806.25 91.575
最小二乘法原理

最小二乘法最小二乘法是一种在误差估计、不确定度、系统辨识及预测、预报等数据处理诸多学科领域得到广泛应用的数学工具。
最小二乘法还可用于曲线拟合,其他一些优化问题也可通过最小化能量或最大化熵用最小二乘法来表达。
最小二乘法公式:设拟合直线的公式为,其中:拟合直线的斜率为:;计算出斜率后,根据和已经确定的斜率k,利用待定系数法求出截距b。
在我们研究两个变量(x, y)之间的相互关系时,通常可以得到一系列成对的数据(x1, y1),(x2, y2).. (xm , ym);将这些数据描绘在x -y 直角坐标系中(如图1), 若发现这些点在一条直线附近,可以令这条直线方程如(式1-1)。
Y计= a0 + a1 X (式1-1)其中:a0、a1 是任意实数为建立这直线方程就要确定a0和a1,应用《最小二乘法原理》,将实测值Yi与利用(式1-1)计算值(Y计=a0+a1X)的离差(Yi-Y计)的平方和〔∑(Yi - Y计)²〕最小为“优化判据”。
令: φ= ∑(Yi - Y计)² (式1-2)把(式1-1)代入(式1-2)中得:φ= ∑(Yi - a0 - a1 Xi)2 (式1-3)当∑(Yi-Y计)²最小时,可用函数φ对a0、a1求偏导数,令这两个偏导数等于零。
(式1-4)(式1-5)亦即m a0 + (∑Xi ) a1 = ∑Yi (式1-6)(∑Xi ) a0 + (∑Xi2 ) a1 = ∑(Xi, Yi) (式1-7)得到的两个关于a0、a1为未知数的两个方程组,解这两个方程组得出:a0 = (∑Yi) / m - a1(∑Xi) / m (式1-8)a1 = [∑Xi Yi - (∑Xi ∑Yi)/ m] / [∑Xi2 - (∑Xi)2 / m)] (式1-9) 这时把a0、a1代入(式1-1)中, 此时的(式1-1)就是我们回归的元线性方程即:数学模型。
相关性及最小二乘估计

1.散点图 在考虑两个量的关系时,为了对变量之间的关系有一个大致的了 解,人们通常将变量所对应的点描出来,这些点就组成了变量之间的一 个图,通常称这样的图为变量之间的 散点图 . 2.线性相关 (1)从散点图上看,如果变量之间存在某种关系,这些点有一个集 中的大致趋势通常可以用一条光滑的曲线来近似,这样近似的过程称 为 曲线拟合 . (2)若两个变量x和y的散点图中所有点看上去都在 一条直线 附近 波动,则称变量间是 线性相关 的.此时,我们可以用 一条直线 近 拟.
【解析】 (1)由题设所给数据,可得散点图如图.
(3)由(2)的回归方程及技改前生产100吨甲产品的生产能耗,得 降低的生产能耗为:90-(0.7×100+0.35)=19.65(吨标准煤).
3.(2009年河源模拟)回归方程y=bx+a必过( )
A.(0,0) B.( x ,0) C.(0, y ) D.( x , y )
(3)若所有点看上去都在某条曲线(不是直线)附近波动,则 称此相关为非线性相关的.
(4)如果所有的点的散点图中没有显示任何关系,则称变量 间是 不相关 的.
3.回归方程 (1)最小二乘法:使得样本数据的点到回归直线的 距离的
平方和 最小的方法叫做最小二乘法. (2)回归方程:两个具有线性相关关系的变量的一组数据: (x1,y1),(x2,y2),…,(xn,yn).其回归方程为y=bx+a,则
1.(2009年宁夏、海南高考)对变量x,y有观测数据(xi,yi)(i= 1,2,…,10),得散点图1;对变量u、v有观测数据(ui,vi)(i=1,2, …,10),得散点图2.由这两个散点图可以判断( )
A.变量x与y正相关,u与v正相关 B.变量x与y正相关,u与v负相关 C.变量x与y负相关,u与v正相关 D.变量x与y负相关,u与v负相关
最小二乘法标准偏差(se)和相关系数

最小二乘法标准偏差(se)和相关系数随着数据分析的不断深入和发展,最小二乘法标准偏差和相关系数作为两种重要的统计量,在许多领域的应用逐渐受到重视。
它们能够帮助我们对数据进行更深入的分析和推断,从而更好地理解数据之间的关系和趋势。
本文将分别从最小二乘法标准偏差和相关系数两个方面进行介绍和讨论。
最小二乘法标准偏差(se)1. 最小二乘法的基本概念最小二乘法是一种常见的参数估计方法,其基本思想是通过最小化观测值与拟合值之间的残差平方和来确定参数的估计值。
上线性回归分析中,我们常常通过最小二乘法来拟合一条直线,使得残差最小。
而最小二乘法标准偏差(se)则是衡量残差的离散程度,它是残差的标准差的估计值。
2. 计算公式最小二乘法标准偏差的计算公式如下:se = √(Σ(yi - ŷi)² / (n - 2))其中,se代表最小二乘法标准偏差,yi代表观测值,ŷi代表拟合值,n代表样本量。
通过该公式,我们可以得到最小二乘法标准偏差的估计值,进而对数据的拟合程度有一个直观的认识。
3. 应用范围最小二乘法标准偏差主要用于评估最小二乘法拟合的准确度,当se较小时,说明残差较小,拟合效果较好;反之,se较大时,说明残差较大,拟合效果较差。
最小二乘法标准偏差可以帮助我们评价拟合模型的表现,并据此进行进一步的分析和推断。
相关系数1. 相关系数的概念相关系数是用来衡量两个变量之间线性关系密切程度的统计量,它能够帮助我们判断两个变量之间的相关性强弱。
在实际应用中,我们通常使用皮尔逊积差相关系数来进行相关性的分析,其取值范围为-1到1,分别表示负相关、无相关和正相关。
2. 计算公式皮尔逊积差相关系数的计算公式如下:r = Σ((xi - x̄) * (yi - ȳ)) / √(Σ(xi - x̄)²* Σ(yi - ȳ)²)其中,r代表相关系数,xi和yi分别代表两个变量的观测值,x̄和ȳ分别代表两个变量的平均值。
相关性和最小二乘法

函数表示方法
列表
画图像
求解析式
散点图
最小二乘法
在一次对人体脂肪含量和年龄关系的研究中,研 究人员获得了一组样本数据: 根据上述数据,人 体的脂肪含量与年龄之间有怎样的关系?
年 23 27 39 41 45 49 50 53 54 56 57 58 60 61 龄
脂 9.5 17.8 21.2 25.9 27.5 26.3 28.2 29.6 30.2 31.4 30.8 33.5 35.2 34.6 肪
不相关: 数据在图中没有显示任何关系, 则是 不相关
非线性相关
非线性相关
线性相关
不相关
正相关
负相关
就像函数中的增函数和减函数。即一
个变量从小到大,另一个变量也从小到 大,或从大到小。对于图1中的两个变量 的相关关系,我们称它为正相关。图2中 的两个变量的相关关系,称为负相关。
走进高考
【1】(2009·海南)对变量x, y有观测数据(xi , yi) (i=1, 2,…,10), 得散点图(1); 对变量u, v,有观测数据(ui , vi)(i=1, 2,…, 10), 得散
(1)根据表中数据,确定家庭的年收入和年饮食支出 是否具有相关关系;
(2)若(1)具有线性相关关系,求出y关于x的线性回归 方程.
解:(1)由题意知, 年收入 x 为解释变量,年饮食支出 y 为 预报 变量, 作散点图如图所示.
从图中可以看出,样本点呈条状分布, 年收入和年饮食支出具有线性相关关系, 因此可以用线性回归方程刻画它们之间的关系.
题 型 三 利用线性回归方程对总体进行估计
【例3】某种产品的宣传费支出x与销售额y (单位:万元)之 间有如下对应数据:
x2 4 5 6 8
最小二乘法的原理及其应用

最小二乘法的原理及其应用一、研究背景在科学研究中,为了揭示某些相关量之间的关系,找出其规律,往往需要做数据拟合,其常用方法一般有传统的插值法、最佳一致逼近多项式、最佳平方逼近、最小二乘拟合、三角函数逼近、帕德(Pade)逼近等,以及现代的神经网络逼近、模糊逼近、支持向量机函数逼近、小波理论等。
其中,最小二乘法是一种最基本、最重要的计算技巧与方法。
它在建模中有着广泛的应用,用这一理论解决讨论问题简明、清晰,特别在大量数据分析的研究中具有十分重要的作用和地位。
随着最小二乘理论不断的完善,其基本理论与应用已经成为一个不容忽视的研究课题。
本文着重讨论最小二乘法在化学生产以及系统识别中的应用。
二、最小二乘法的原理人们对由某一变量t或多个变量t1…..tn 构成的相关变量y感兴趣。
如弹簧的形变与所用的力相关,一个企业的盈利与其营业额,投资收益和原始资本有关。
为了得到这些变量同y之间的关系,便用不相关变量去构建y,使用如下函数模型,q个相关变量或p个附加的相关变量去拟和。
通常人们将一个可能的、对不相关变量t的构成都无困难的函数类型充作函数模型(如抛物线函数或指数函数)。
参数x是为了使所选择的函数模型同观测值y相匹配。
(如在测量弹簧形变时,必须将所用的力与弹簧的膨胀系数联系起来)。
其目标是合适地选择参数,使函数模型最好的拟合观测值。
一般情况下,观测值远多于所选择的参数。
其次的问题是怎样判断不同拟合的质量。
高斯和勒让德的方法是,假设测量误差的平均值为0。
令每一个测量误差对应一个变量并与其它测量误差不相关(随机无关)。
人们假设,在测量误差中绝对不含系统误差,它们应该是纯偶然误差,围绕真值波动。
除此之外,测量误差符合正态分布,这保证了偏差值在最后的结果y上忽略不计。
确定拟合的标准应该被重视,并小心选择,较大误差的测量值应被赋予较小的权。
并建立如下规则:被选择的参数,应该使算出的函数曲线与观测值之差的平方和最小。
用函数表示为:用欧几里得度量表达为:最小化问题的精度,依赖于所选择的函数模型。
2023年高考数学(文科)一轮复习讲义——变量间的相关关系与统计案例

第4节 变量间的相关关系与统计案例考试要求 1.会作两个有关联变量的数据的散点图,会利用散点图认识变量间的相关关系;2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程(线性回归方程系数公式不要求记忆);3.了解独立性检验(只要求2×2列联表)的基本思想、方法及其简单应用;4.了解回归分析的基本思想、方法及其简单应用.1.相关关系与回归分析回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法;判断相关性的常用统计图是:散点图;统计量有相关系数与相关指数.(1)在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关.(2)在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.(3)如果散点图中点的分布从整体上看大致在一条直线附近,称两个变量具有线性相关关系. 2.线性回归方程(1)最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法.(2)回归方程:两个具有线性相关关系的变量的一组数据:(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其回归方程为y ^=b ^x +a ^__,则b ^=, a ^=y --b ^x -.其中,b ^是回归方程的斜率,a ^是在y 轴上的截距.回归直线一定过样本点的中心(x -,y -). 3.回归分析(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法.(2)样本点的中心:对于一组具有线性相关关系的数据(x 1, y 1)(x 2, y 2),…,(x n, y n ), 其中(x -,y -)称为样本点的中心. (3)相关系数当r >0时,表明两个变量正相关; 当r <0时,表明两个变量负相关.r 的绝对值越接近于1,表明两个变量的线性相关性越强.r 的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r |大于0.75时,认为两个变量有很强的线性相关性.(4)相关指数:R 2=.其中是残差平方和,其值越小,则R 2越大(接近1),模型的拟合效果越好. 4.独立性检验(1)利用随机变量K 2来判断“两个分类变量有关系”的方法称为独立性检验. (2)列联表:列出的两个分类变量的频数表,称为列联表.假设有两个分类变量X 和Y ,它们的可能取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(2×2列联表)为y 1 y 2 总计 x 1 a b a +b x 2 c dc +d总计a +cb +d a +b +c +d则随机变量K 2=n (ad -bc )2(a +b )(a +c )(b +d )(c +d )n =a +b +c +d 为样本容量.1.求解回归方程的关键是确定回归系数a ^,b ^,应充分利用回归直线过样本点的中心(x -,y -).2.根据回归方程计算的y ^值,仅是一个预报值,不是真实发生的值.3.根据K 2的值可以判断两个分类变量有关的可信程度,若K 2越大,则两分类变量有关的把握越大.1.思考辨析(在括号内打“√”或“×”)(1)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系.( )(2)通过回归直线方程y ^=b ^x +a ^可以估计预报变量的取值和变化趋势.( ) (3)只有两个变量有相关关系,所得到的回归模型才有预测价值.( ) (4)事件X ,Y 关系越密切,则由观测数据计算得到的K 2的观测值越大.( ) 答案 (1)√ (2)√ (3)√ (4)√2.(易错题)(2022·兰州模拟)在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,n ∈N *,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =12x +1上,则这组样本数据的样本相关系数为( ) A.-1 B.0C.12D.1答案 D解析 由题设知,所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =12x +1上,可知这组样本数据完全正相关,故其相关系数为1,故选D.3.两个变量y 与x 的回归模型中,分别选择了4个不同模型,它们的相关指数R 2如下,其中拟合效果最好的模型是( ) A.模型1的相关指数R 2为0.98 B.模型2的相关指数R 2为0.80C.模型3的相关指数R2为0.50D.模型4的相关指数R2为0.25答案 A解析在两个变量y与x的回归模型中,它们的相关指数R2越近于1,拟合效果越好,在四个选项中A的相关指数最大,所以拟合效果最好的是模型1.4.(2020·全国Ⅰ卷)某校一个课外学习小组为研究某作物种子的发芽率y和温度x(单位:℃)的关系,在20个不同的温度条件下进行种子发芽实验,由实验数据(x i,y i)(i=1,2,…,20)得到下面的散点图:由此散点图,在10 ℃至40 ℃之间,下面四个回归方程类型中最适宜作为发芽率y和温度x的回归方程类型的是()A.y=a+bxB.y=a+bx2C.y=a+b e xD.y=a+b ln x答案 D解析由散点图可以看出,这些点大致分布在对数型函数的图象附近.故选D. 5.为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:理科文科男1310女720已知P(K2≥3.841)≈0.05,P(K2≥5.024)≈0.025.根据表中数据,得到K2的观测值k=50×(13×20-10×7)223×27×20×30≈4.844.则认为选修文科与性别有关系出错的可能性为________.答案 5%解析 K 2的观测值k ≈4.844,这表明小概率事件发生.根据假设检验的基本原理,应该断定“是否选修文科与性别之间有关系”成立,并且这种判断出错的可能性约为5%.6.(2022·银川模拟)某车间为了提高工作效率,需要测试加工零件所花费的时间,为此进行了5次试验,这5次试验的数据如下表:零件数x (个) 10 20 30 40 50 加工时间y (min)62a758189若用最小二乘法求得回归直线方程为y ^=0.67x +54.9,则a 的值为________. 答案 68解析 x -=10+20+30+40+505=30,y -=62+a +75+81+895=61+2+a 5,所以61+2+a5=0.67×30+54.9, 解得a =68.考点一 相关关系的判断1.某商家今年上半年各月的人均销售额(单位:千元)与利润率统计表如下:月份 1 2 3 4 5 6 人均销售额 6 5 8 3 4 7 利润率(%)12.610.418.53.08.116.3根据表中数据,下列说法正确的是( ) A.利润率与人均销售额成正相关关系 B.利润率与人均销售额成负相关关系 C.利润率与人均销售额成正比例函数关系D.利润率与人均销售额成反比例函数关系 答案 A解析 由统计表可得利润率与人均销售额不是正比例关系,也不是反比例关系,排除C 和D ;其属于正相关关系,A 正确,B 错误.2.对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是( )A.r 2<r 4<0<r 3<r 1B.r 4<r 2<0<r 1<r 3C.r 4<r 2<0<r 3<r 1D.r 2<r 4<0<r 1<r 3 答案 A解析 由散点图知图①与图③是正相关,故r 1>0,r 3>0, 图②与图④是负相关,故r 2<0,r 4<0,且图①与图②的样本点集中在一条直线附近,因此r 2<r 4<0<r 3<r 1,故选A. 3.(2022·合肥模拟)根据如下样本数据,得到回归直线方程y ^=b ^x +a ^,则( )x 3 4 5 6 7 8 y-3.0 -2.00.5-0.52.54.0A.a ^>0,b ^>0 B.a ^>0,b ^<0 C.a ^<0,b ^>0D.a ^<0,b ^<0答案 C解析 作出散点图(图略),由散点图可知,a ^<0,b ^>0. 感悟提升 判断相关关系的两种方法:(1)散点图法:如果样本点的分布从整体上看大致在某一曲线附近,变量之间就有相关关系;如果样本点的分布从整体上看大致在某一直线附近,变量之间就有线性相关关系.(2)相关系数法:利用相关系数判定,|r |越趋近于1,相关性越强. 考点二 回归分析 角度1 线性回归方程及应用例1 (2021·成都诊断)某种机械设备随着使用年限的增加,它的使用功能逐渐减退,使用价值逐年减少,通常把它使用价值逐年减少的“量”换算成费用,称之为“失效费”.某种机械设备的使用年限x (单位:年)与失效费y (单位:万元)的统计数据如下表所示:使用年限x (单位:年) 1234567失效费y (单位:万元)2.903.30 3.604.40 4.805.20 5.90(1)由上表数据可知,可用线性回归模型拟合y 与x 的关系,请用相关系数加以说明;(精确到0.01)(2)求出y 关于x 的线性回归方程,并估算该种机械设备使用10年的失效费. 参考公式:相关系数r =∑ni =1 (x i -x -)(y i -y -)∑ni =1 (x i -x -)2∑ni =1(y i -y -)2.线性回归方程y ^=b ^x +a ^中斜率和截距最小二乘估计计算公式:b ^=∑ni =1(x i -x -)(y i -y -)∑ni =1(x i -x -)2,a ^=y --b ^x -. 参考数据:∑7i =1(x i -x -)(y i -y -)=14.00, ∑7i =1(y i -y -)2=7.08,198.24≈14.10.解 (1)由题意,知x -=1+2+3+4+5+6+77=4,y -=2.90+3.30+3.60+4.40+4.80+5.20+5.907=4.30,∑7i =1(x i -x -)2=(1-4)2+(2-4)2+(3-4)2+(4-4)2+(5-4)2+(6-4)2+(7-4)2=28, ∴r =14.0028×7.08=14.00198.24≈14.0014.10≈0.99.因为y 与x 的相关系数近似为0.99,所以y 与x 的线性相关程度相当大,从而可以用线性回归模型拟合y 与x 的关系. (2)∵b ^=∑7i =1 (x i -x -)(y i -y -)∑7i =1 (x i -x -)2=1428=0.5, ∴a ^=y --b ^x -=4.3-0.5×4=2.3.∴y 关于x 的线性回归方程为y ^=0.5x +2.3.将x =10代入线性回归方程,得y ^=0.5×10+2.3=7.3, ∴估算该种机械设备使用10年的失效费为7.3万元. 角度2 非线性回归方程及应用例2 (2022·郑州调研)人类已经进入大数据时代.目前,数据量级已经从TB(1 TB =1 024 GB)级别跃升到PB(1 PB =1 024 TB),EB(1 EB =1 024 PB)乃至ZB(1 ZB =1 024 EB)级别.国际数据公司(IDC)研究结果表明,2008年全球产生的数据量为0.49 ZB ,2009年数据量为0.8 ZB ,2010年增长到1.2 ZB ,2011年数据量更是高达1.82 ZB.下表是国际数据公司(IDC)研究的全球近6年每年产生的数据量(单位:ZB)及相关统计量的值:表中z i =ln y i ,z -=16∑6i =1z i . (1)根据上表数据信息判断,方程y =c 1·e c 2x (e 是自然对数的底数)更适宜作为该公司统计的年数据量y 关于年份序号x 的回归方程类型,试求此回归方程(c 2精确到0.01);(2)有人预计2022年全世界产生的数据规模将超过2011年的50倍.根据(1)中的回归方程,说明这种判断是否准确,并说明理由. 参数数据:e4.56≈95.58,e4.58≈97.51,回归方程y ^=a ^+b ^x 中,b ^=∑n i =1(x i -x -)(y i -y -)∑ni =1 (x i -x -)2=∑ni =1x i y i -nx - y -∑n i =1x 2i -nx -2, a ^=y --b ^x -.解 (1)由y =c 1·e c 2x 得ln y =c 2x +ln c 1, 即z =c 2x +ln c 1,∴c 2=∑6i =1(x i -x -)(z i -z -)∑6i =1(x i -x -)2=6.7317.5≈0.38.又∵z -=c 2x -+ln c 1,0.38×3.5+ln c 1=2.85,ln c 1=1.52. ∴ln y =0.38x +1.52,即y =e 0.38x +1.52为所求的回归方程. (2)根据(1)知回归方程为y =e 0.38x +1.52.当x =9时,y =e 0.38×9+1.52=e 4.94>e 4.56≈95.58,95.581.82≈52.52.据此可以判断2022年全球产生的数据量超过2011年的50倍,因此,这种判断是准确的.感悟提升 回归分析问题的类型及解题方法 (1)求回归方程①根据散点图判断两变量是否线性相关,如不是,应通过换元构造线性相关. ②利用公式,求出回归系数b ^.③待定系数法:利用回归直线过样本点的中心求系数a ^.(2)利用回归方程进行预测,把线性回归方程看作一次函数,求函数值. (3)利用回归直线判断正、负相关,决定正相关还是负相关的是系数b ^.(4)回归方程的拟合效果,可以利用相关系数判断,当|r |越趋近于1时,两变量的线性相关性越强.训练1 下面给出了根据我国2015~2021年水果人均占有量y (单位:kg)和年份代码x 绘制的散点图和线性回归方程的残差图.(2015年~2021年的年份代码x 分别为1~7)(1)根据散点图分析y 与x 之间的相关关系;(2)根据散点图相应数据计算得∑7i =1y i =1 074,∑7i =1x i y i =4 517,求y 关于x 的线性回归方程;(精确到0.01)(3)根据线性回归方程的残差图,分析线性回归方程的拟合效果. 附:回归方程y ^=a ^+b ^x 中斜率和截距的最小二乘估计公式分别为 b ^=∑ni =1 (x i -x -)(y i -y -)∑ni =1 (x i -x -)2=∑ni =1x i y i -nx - y -∑n i =1x 2i-nx -2, a ^=y --b ^x -.解 (1)从散点图可以看出,这些点的分布整体上在一条直线附近,且当x 由小变大时,y 也由小变大,所以y 与x 之间具有线性相关关系,且是正相关. (2)由题意可知,x -=1+2+3+4+5+6+77=4,y -=17∑7i =1y i=1 0747, ∑7i =1x 2i =12+22+32+42+52+62+72=140, ∴b ^=∑7i =1x i y i-7x - y -∑7i =1x 2i -7x -2=4 517-7×4×1 0747140-7×42=22128≈7.89,∴a ^=y --b ^x -=1 0747-7.89×4≈121.87,∴y 关于x 的线性回归方程为y ^=7.89x +121.87.(3)由残差图可以看出历年数据的残差均分布在-2~2之间,且图中各点比较均匀地分布在数值0所在直线附近,带状区域很窄,说明对应的回归直线拟合效果较好.考点三 独立性检验例3 (2021·武汉质检)有关研究表明,正确佩戴安全头盔,规范使用安全带能够将交通事故死亡风险大幅降低,对保护群众生命安全具有重要作用.2020年4月,“一盔一带”安全守护行动在全国各地开展,行动期间,公安交管部门将加强执法管理,依法查纠摩托车和电动自行车骑乘人员不佩戴安全头盔,汽车驾乘人员不使用安全带的行为,助推养成安全习惯,该行动开展一段时间后,某市针对电动自行车骑乘人员是否佩戴安全头盔问题进行调查,在随机调查的1 000名骑行人员中,记录其年龄和是否佩戴头盔情况,得到统计图如图所示.(1)估算该市电动自行车骑乘人员的平均年龄; (2)根据所给的数据,完成列联表:是否佩戴头盔是否(3)根据(2)中的列联表,判断是否有99%的把握认为佩戴安全头盔与年龄有关. 附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ).解 (1)该市电动自行车骑乘人员平均年龄为25×0.25+35×0.35+45×0.2+55×0.15+65×0.05=39(周岁). (2)完成2×2列联表如下:(3)K 2的观测值k =1 000×(60×540-60×340)2600×400×880×120=12522≈5.682<6.635.故没有99%的把握认为佩戴安全头盔与年龄有关.感悟提升 1.在2×2列联表中,如果两个变量没有关系,则应满足ad -bc ≈0. |ad -bc |越小,说明两个变量之间关系越弱;|ad -bc |越大,说明两个变量之间关系越强.2.解决独立性检验的应用问题,一定要按照独立性检验的步骤得出结论.独立性检验的一般步骤:(1)根据样本数据制成2×2列联表:(2)根据公式K2=n(ad-bc)2(a+b)(a+c)(b+d)(c+d)计算K2的观测值k;(3)通过比较观测值k与临界值的大小关系来作统计推断.训练2 (2022·南宁模拟)第五代移动通信技术(5G技术)是最新一代蜂窝移动通信技术,也是继4G、3G和2G系统之后的延伸.5G的性能目标是高数据速率、减少延迟、节省能源、降低成本、提高系统容量和大规模设备连接.某大学为了解学生对“5G”相关知识的了解程度,随机抽取100名学生参与测试,并根据得分划分成“不太了解”或“比较了解”两类后整理得到如下列联表:(1)补全列联表,并判断是否有99.9%的把握认为“学生对5G的了解程度与性别有关”;(2)从“不太了解”的学生中按性别分层抽取6人,再从这6人中随机选取2人参加“5G”知识讲座,求抽到的2人中恰有1名女生的概率.附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)(n=a+b+c+d). 临界值表:解(1)补全的列联表如下:不太了解 比较了解 总计 男生 25 33 58 女生 5 37 42 总计3070100所以K 2的观测值k =100×(25×37-33×5)258×42×30×70≈11.291>10.828,故有99.9%的把握认为“学生对5G 的了解程度与性别有关”. (2)“不太了解”的男生有25人,女生有5人,按性别分层抽样从中抽取6人,则男生应抽取5人,记为a ,b ,c ,d ,e ,女生应抽取1人,记为x ,再从这6人中随机抽取2人共有15种情况:xa ,xb ,xc ,xd ,xe ,ab ,ac ,ad ,ae ,bc ,bd ,be ,cd ,ce ,de ,抽到恰有1名女生有5种情况:xa ,xb ,xc ,xd ,xe , 所以所求的概率为515=13.1.为调查中学生近视情况,测得某校在150名男生中有80名近视,在140名女生中有70名近视.在检验这些学生眼睛近视是否与性别有关时,用下列哪种方法最有说服力( ) A.回归分析 B.均值与方差 C.独立性检验 D.概率答案 C解析 “近视”与“性别”是两类变量,其是否有关,应用独立性检验判断. 2.对变量x ,y 有观测数据(x i ,y i )(i =1,2,…,10),得散点图(1);对变量u ,v ,有观测数据(u i ,v i )(i =1,2,…,10),得散点图(2),由这两个散点图可以判断( )A.变量x 与y 正相关,u 与v 正相关B.变量x 与y 正相关,u 与v 负相关C.变量x 与y 负相关,u 与v 正相关D.变量x 与y 负相关,u 与v 负相关 答案 C解析 由题图(1)可知,y 随x 的增大而减小,各点整体呈下降趋势,x 与y 负相关,由题图(2)可知,u 随v 的增大而增大,各点整体呈上升趋势,u 与v 正相关. 3.有下列说法:①在残差图中,残差点比较均匀地落在水平的带状区域内,说明选用的模型比较合适;②用相关指数R 2来刻画回归的效果,R 2值越接近于1,说明模型的拟合效果越好;③比较两个模型的拟合效果,可以比较残差平方和的大小,残差平方和越小的模型,拟合效果越好.正确的是( ) A.①② B.②③ C.①③ D.①②③答案 D4.(2022·昆明诊断)下表是关于某设备的使用年限x (单位:年)和所支出的维修费用y (单位:万元)的统计表:x 2 3 4 5 6 y3.44.25.15.56.8由表可得线性回归方程y ^=0.81x +a ^,若规定:维修费用y 不超过10万元,一旦大于10万元时,该设备必须报废.据此模型预测,该设备使用年限的最大值约为( ) A.7B.8C.9D.10答案 D解析 由已知表格,得x -=15×(2+3+4+5+6)=4, y -=15×(3.4+4.2+5.1+5.5+6.8)=5,因为回归直线恒过样本点的中心(x -,y -), 所以5=0.81×4+a ^,解得a ^=1.76, 所以回归直线的方程为y ^=0.81x +1.76,由y ≤10,得0.81x +1.76≤10,解得x ≤82481≈10.17,由于x ∈N *,所以据此模型预测,该设备使用年限的最大值为10.故选D. 5.某高校为调查学生喜欢“应用统计”课程是否与性别有关,随机抽取了选修课程的55名学生,得到数据如下表:附表:参考公式:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d .参照附表,得到的正确结论是( )A.在犯错误的概率不超过0.1%的前提下,认为喜欢“应用统计”课程与性别有关B.在犯错误的概率不超过0.1%的前提下,认为喜欢“应用统计”课程与性别无关C.有99.99%以上的把握认为喜欢“应用统计”课程与性别有关D.有99.99%以上的把握认为喜欢“应用统计”课程与性别无关 答案 A解析 ∵K 2的观测值k =55×(20×20-5×10)225×30×30×25≈11.978>10.828,所以有99.9%的把握认为喜欢“应用统计”课程与性别有关,即在犯错误的概率不超过0.1%的前提下,认为喜欢“应用统计”课程与性别有关. 6.下列说法:①残差可用来判断模型拟合的效果;②设有一个回归方程:y ^=3-5x ,变量x 增加一个单位时,y 平均增加5个单位; ③线性回归直线:y ^=b ^x +a ^必过点(x -,y -);④在一个2×2列联表中,由计算得K 2的观测值k =6.665,则有99%的把握确认这两个变量间有关系(其中P (K 2≥6.635)=0.010), 其中错误的个数是( ) A.0 B.1 C.2 D.3答案 B解析 对于①,残差可用来判断模型拟合的效果,残差越小,拟合效果越好,∴①正确;对于②,回归方程y ^=3-5x 中,变量x 增加一个单位时,y 平均减少5个单位,∴②错误;对于③,线性回归直线y ^=b ^x +a ^必过样本点的中心(x -,y -),∴③正确; 对于④,在2×2列联表中,由计算得k =6.665,对照临界值得,有99%的把握确认这两个变量间有关系,∴④正确. 综上,其中错误的命题是②,共1个,故选B.7.已知x 和y 的散点图如图所示,在相关关系中,若用y =c 1e c 2x 拟合时的相关指数为R 21,用y ^=b ^x +a ^拟合时的相关指数为R 22,则R 21,R 22中较大的是________.答案 R 21解析 由散点图知,用y =c 1e c 2x 拟合的效果比y ^=b ^x +a ^拟合的效果要好,所以R 21>R 22,故较大者为R 21.8.某医疗研究所为了检验某种血清预防感冒的作用,把500名使用血清的人与另外500名未使用血清的人一年中的感冒记录作比较,提出假设H 0:“这种血清不能起到预防感冒的作用”,利用2×2列联表计算得K 2的观测值k ≈3.918,经查临界值表知P (K 2≥3.841)≈0.05.则下列结论中,正确结论的序号是________. ①有95%的把握认为“这种血清能起到预防感冒的作用”;②若某人未使用该血清,那么他在一年中有95%的可能性得感冒;③这种血清预防感冒的有效率为95%;④这种血清预防感冒的有效率为5%. 答案 ①解析 k ≈3.918≥3.841,而P (K 2≥3.814)≈0.05,所以有95%的把握认为“这种血清能起到预防感冒的作用”.要注意我们检验的是假设是否成立和该血清预防感冒的有效率是没有关系的,不是同一个问题,不要混淆.9.在一次对人体脂肪含量和年龄的关系的研究中,研究人员获得了一组样本数据,并制成如图所示的人体脂肪含量与年龄的关系的散点图,下列结论中正确的是________(填序号).①人体脂肪含量与年龄正相关,且脂肪含量的中位数等于20%; ②人体脂肪含量与年龄正相关,且脂肪含量的中位数小于20%;③人体脂肪含量与年龄负相关,且脂肪含量的中位数等于20%; ④人体脂肪含量与年龄负相关,且脂肪含量的中位数小于20%. 答案 ②解析 观察图形,可知人体脂肪含量与年龄正相关,且脂肪含量的中位数小于20%.10.(2022·河南名校联考)某学校食堂统计了最近5天到餐厅就餐的人数x (单位:百人)与食堂向食材公司购买所需食材(原材料)的数量y (单位:袋),得到如下统计表:(1)根据所给的5组数据,求出y 关于x 的线性回归方程y ^=b ^x +a ^;(2)已知购买食材的费用C (单位:元)与数量y (单位:袋)的关系为C =⎩⎨⎧400y -20,0<y <36(y ∈N ),380y ,y ≥36(y ∈N ),投入使用的每袋食材相应的销售单价为700元,多余的食材必须无偿退还食材公司,据悉下周一大约有1 500人到食堂餐厅就餐,根据(1)中求出的线性回归方程,预测食堂应购买多少袋食材,才能获得最大利润,最大利润是多少?(注:利润L =销售收入-原材料费用)参考公式:b ^=∑ni =1(x i -x -)(y i -y -)∑ni =1 (x i -x -)2=∑ni =1x i y i -nx - y -∑n i =1x 2i-nx -2,a ^=y --b ^x -. 参考数据:∑5i =1x i y i =1 343,∑5i =1x 2i =558,∑5i =1y 2i=3 237. 解 (1)由所给数据可得x -=13+9+8+10+125=10.4,y -=32+23+18+24+285=25,所以b ^=∑5i =1x i y i -5x - y -∑5i =1x 2i-5x -2=1 343-5×10.4×25558-5×10.42=2.5,又a ^=y --b ^x -=25-2.5×10.4=-1, 所以y 关于x 的线性回归方程为y ^=2.5x -1. (2)由(1)中求出的线性回归方程知,当x =15时,y =36.5,即预计需要购买食材36.5袋. 因为C =⎩⎪⎨⎪⎧400y -20,0<y <36(y ∈N ),380y ,y ≥36(y ∈N ),所以当y <36时,利润L =700y -(400y -20)=300y +20,y ∈N , 此时当y =35时,利润L max =300×35+20=10 520(元);当y ≥36时,根据线性回归方程预测需要购买食材36.5袋,并且剩余的食材只能无偿退还,此时当y =36时,利润L =700×36-380×36=11 520(元), 当y =37时,利润L =700×36.5-380×37=11 490(元).综上,食堂应购买36袋食材,才能获得最大利润,最大利润为11 520元. 11.(2022·“四省八校”开学考试)据我国一项专题调查显示,某市高级职称的中年知识分子中竟有高达75.3%的人处于亚健康状态,更令人担忧的是85%以上的企业管理者处于慢性疲劳状态或亚健康状态,这是由他们所处的特殊工作及生活的环境和行为模式所决定的.亚健康是指非病非健康的一种临界状态.如果这种状态不能及时得到纠正,非常容易引起身心疾病.某高科技公司为了了解亚健康与性别的关系,对本公司部分员工进行了不记名问卷调查,该公司处于正常工作状态的员工(包括管理人员)共有8 000人,其中男性员工有6 000人,女性员工有2 000人,从8 000人中用分层抽样的方法随机抽取了400人作为样本进行健康状况的调查.(1)求男性员工、女性员工各抽取多少人?(2)通过调查得到如图所示的统计图,其中a=0.2,b=0.1.根据统计图,完成下面2×2列联表,健康亚健康总计男员工女员工总计400问是否有97.5%的把握认为人处于亚健康状态与性别有关?参考公式:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),n=a+b+c+d. 参考数据:P(K≥k0)0.050.0250.0100.005k0 3.841 5.024 6.6357.879解(1)由题意知样本容量与总体的比值为4008 000=120,∴男性员工抽取了6 000×120=300(人),女性员工抽取了2 000×120=100(人).(2)由统计图可知,样本中男员工处于亚健康状态的人数为300×0.2=60,样本中女员工处于亚健康状态的人数为100×0.1=10,2×2列联表为健康 亚健康 总计 男员工 240 60 300 女员工 90 10 100 总计33070400则K 2的观测值k =400×(240×10-60×90)2300×100×330×70≈5.195>5.024,∴有97.5%的把握认为人处于亚健康状态与性别有关.12.已知某次考试之后,班主任从全班同学中随机抽取一个容量为8的样本,他们的数学、物理成绩(单位:分)对应如下表:学生编号 1 2 3 4 5 6 7 8 数学成绩 60 65 70 75 80 85 90 95 物理成绩7277808488909395给出散点图如下:根据以上信息,判断下列结论:①根据散点图,可以判断数学成绩与物理成绩具有线性相关关系; ②根据散点图,可以判断数学成绩与物理成绩具有一次函数关系;③从全班随机抽取甲、乙两名同学,若甲同学数学成绩为80分,乙同学数学成绩为60分,则甲同学的物理成绩一定比乙同学的物理成绩高. 其中正确的为________(填序号). 答案 ①解析 由散点图知,各点大致分布在一条直线附近,故可以判断数学成绩与物理成绩具有线性相关关系,但不能判断数学成绩与物理成绩具有一次函数关系,故①正确,②错误;若甲同学数学成绩为80分,乙同学数学成绩为60分,则甲同学的物理成绩可能比乙同学的物理成绩高,故③错误.13.在一组样本数据(x 1,y 1),(x 2,y 2),…,(x 6,y 6)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,6)都在曲线y =bx 2-12附近波动.经计算∑6i =1x i =12,∑6i =1y i =14,∑6i =1x 2i =23,则实数b 的值为________. 答案 1723解析 令t =x 2,则曲线的回归方程变为线性的回归方程,即y =bt -12, 此时t -=∑6i =1x 2i 6=236,y -=∑6i =1yi 6=73,代入y =bt -12,得73=b ×236-12,解得b =1723.14.近年来,国资委、党委高度重视扶贫开发工作,坚决贯彻落实中央扶贫工作重大决策部署,在各个贫困县全力推进定点扶贫各项工作,取得了积极成效,某贫困县为了响应国家精准扶贫的号召,特地承包了一块土地,已知土地的使用面积以及相应的管理时间的关系如下表所示:并调查了某村300名村民参与管理的意愿,得到的部分数据如下表所示:(1)求y 关于x 的线性回归方程(计算结果保留两位小数);(2)是否有99.9%的把握认为村民的性别与参与管理的意愿具有相关性?参考公式:b ^=∑ni =1(x i -x -)(y i -y -)∑ni =1(x i -x -)2,a ^=y --b ^x -,K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d .临界值表:解 (1)依题意得,x -=1+2+3+4+55=3,y -=8+10+13+25+245=16,故∑5i =1(x i -x -)(y i -y -)=(-2)×(-8)+(-1)×(-6)+1×9+2×8=47, ∑5i =1(x i -x -)2=4+1+1+4=10,则b ^=∑5i =1(x i -x -)(y i -y -)∑5i =1 (x i -x -)2=4710=4.7,a ^=y --b ^x -=16-4.7×3=1.9.所以y 关于x 的线性回归方程为y ^=4.7x +1.9. (2)依题意,女性不愿意参与管理的人数为50, 计算得K 2的观测值为k =300×(150×50-50×50)2200×100×200×100=300×5 000×5 000200×100×200×100=18.75>10.828, 故有99.9%的把握认为村民的性别与参与管理的意愿具有相关性.。
相关性、最小二乘估计、回归分析与独立性检验

【例1】关于人体的脂肪含量(百分比)和年龄关系的研究中, 得到如下一组数据:
年龄 23 27 39 41 45 49 50 51 脂肪 9.5 17.8 21.2 25.9 27.5 26.3 28.2 29.6 含量 判断它们是否有相关关系.
【解题指南】判断有无相关关系,一种常用的简便方法就是绘 制散点图. 【规范解答】本题涉及两个变量:年龄与脂肪含量,可以以年 龄为自变量,考查脂肪含量的变化趋势,分析相关关系通常借 助散点图.
高(x) 60
62 64 65
66 67
68
70 72 74
儿子身 63.6 65.2 66 65.5 66.9 67.1 67.4 68.3 70.1 70 高(y)
①画出散点图,说明变量y与x的相关性;
②如果y与x之间具有线性相关关系,求线性回归方程.
(已知:
2
x=66.8,y=67.01,x
【即时应用】
(1)由一组样本数据(x1,y1),(x2,y2),…,(xn,yn)得到回 归直线方程y=a+bx,判断下面说法是否正确.(请在括号内打
“√”或“×”)
①任何一组观测值都能得到具有代表意义的回归直线方程;
()
②直线y=a+bx至少经过点(x1,y1),(x2,y2),…,(xn,yn)
(2)x与y的增长速度之比即约为回归方程的斜率的倒数
1 10 5 . 4.4 44 22
答案:(1)①× ②× ③√ ④√ (2)
5
22
3.独立性检验
(1)2×2列联表
设A,B为两个变量,每一个变量都可以取两个值,变量A:A1,
A2= A1 ;变量B:B1,B2= B1,通过观察得到如表所示的数据:
最小二乘法

数值分析作业最小二乘法最小二乘法是提供“观测组合”的主要工具之一,它依据对某事件的大量观测而获得最佳”结果或最可能”表现形式。
如已知两变量为线性关系y= a+ bx,对其进行n(n> 2)次观测而获得n对数据。
若将这n对数据代入方程求解a,b之值则无确定解。
最小二乘法提供了一个求解方法,其基本思想就是寻找最接近”这n 个观测点的直线。
最小二乘法不仅是19世纪最重要的统计方法,而且还可以称为数理统计学之灵魂。
相关回归分析、方差分析和线性模型理论等数理统计学的几大分支都以最小二乘法为理论基础。
作为其进一步发展或纠正其不足而采取的对策,不少近现代的数理统计学分支也是在最小二乘法基础上衍生出来的。
正如美国统计学家斯蒂格勒(S.M. Stigler)所说,最小二乘法之于数理统计学犹如微积分之于数学”最小二乘法创立的历史过程充满着丰富的科学思想,这些对今日的数学创造仍有着重要的启示意义。
本文旨在全面认识最小二乘法的历史系统发育过程以及创立者的思路。
一先驱者的相关研究天文学和测地学的发展促进了数理统计学及其他相关科学的发展。
丹麦统计史家哈尔德曾指出天文学在数理统计学发展中所起的作用。
“天文学自古代至18 世纪是应用数学中最发达的领域。
观测和数学天文学给出了建立数学模型及数据拟合的最初例子,在此种意义下,天文学家就是最初的数理统计学家。
天文学的问题逐渐引导到算术平均,以及参数模型中的种种估计方法,以最小二乘法为顶峰。
” 这也说明了最小二乘法的显著地位。
有关统计计算思想记载的著作要首推天文学家罗杰柯茨的遗作,即1715年其所发论文中所蕴含的统计方法,亦即对各种观测值赋予加权后求其加权平均。
尽管当时得到认可,然而事实证明如此计算的结果不太精确。
1749年,欧拉(L. Euler,1707—1783)在研究木星和土星之间相互吸引力作用对各自轨道影响时,最后得到一个含8个未知量75个方程的线性方程组。
欧拉的求解方法繁杂而奇特,只能看作是一次尝试。
线性回归的经验公式与最小二乘法

a,b的方法称为最小二乘法. LSE (Least Square Estimation)
10
n
a, b 的求解: Q(a, b) [ yi (a bxi )]2
i 1
Q
n
a
Q
b
2 2
i 1 n
i 1xi
)] )]xi
0 0
na nxb ny
nxa
(
i
n 1
xi2 )b
n i 1
——
xi yi
称为正规方程组
其中
x
1 n
n i 1
xi
,
y
1 n
n i 1
yi
11
na nxb ny
nxa
n
(
i 1
xi2 )b
n i 1
xi
yi
系数行列式
n D nx
nx
n
n
n
xi2
n(
x
2 i
nx
2
)
n
(xi x)2,
i 1
i 1
i 1 n
i1 n
.
xi2 nx 2
(xi x)2
i 1
i 1
n
n
记 lxx
(xi x)2
x
2 i
nx 2
,
i 1
i 1
n
n
l yy ( yi y)2 yi2 ny2 ,
i 1
i 1
n
n
lxy ( xi x)( yi y) xi yi nxy ,
i 1
i 1
• 皮肌炎是一种引起皮肤、肌肉、 心、肺、肾等多脏器严重损害的, 全身性疾病,而且不少患者同时 伴有恶性肿瘤。它的1症状表现如 下:
相关关系和最小二乘法

题型分类 深度剖析
题型一 利用散点图判断两个变量的相关关系 例 1 山东鲁洁棉业公司的科研人员在 7 块并排、形状大小
相同的试验田上对某棉花新品种进行施化肥量 x 对产量 y 影响的试验,得到如下表所示的一组数据(单位:kg). 施化肥量 x 15 20 25 30 35 40 45 棉花产量 y 330 345 365 405 445 450 455 (1)画出散点图; (2)判断是否具有相关关系.
5.(2010·湖南)某商品销售量 y(件)与销售价格 x(元/件)负相
关,则其回归方程可能是
(A )
A.y=-10x+200
B.y=10x+200
C.y=-10x-200
D.y=10x-200
解析 由于销售量 y 与销售价格 x 成负相关,故排除 B、
D.C 中 y 值恒为负,不符合题意,故选 A.
思维启迪:(1)用 x 轴表示化肥施用量,y 轴表示棉花产量, 逐一画点. (2)根据散点图,分析两个变量是否存在相关关系. 解 (1)散点图如图所示
(2)由散点图知,各组数据对应点大致都在一条直线附 近,所以施化肥量 x 与产量 y 具有线性相关关系.
探究提高:散点图是由大量数据点分布构成的,是定义在 具有相关关系的两个变量基础之上的,对于性质不明确的 两组数据可先作散点图,直观地分析它们有无关系及关系 的密切程度.
31.264(x 为身高,y 为扎长,单位:cm),则当扎长为 24.8 cm 时,身高约为__1_8_5_._0_3___ cm. 解析 将 y=24.8 代入,得 x≈185.03.
2.已知 x,y 的取值如下表所示:
x0
1
3
4
y 2.2 4.3 4.8 6.7
第十章第三节相关性最小二乘法

第十章第三节相关性最小二乘法第十章第三节相关性、最小二乘法谋节柞业KEXJAZUOYL1•以下变量之间的关系是函数关系的是()A. 二次函数y=ax?+bx+c,其中,a, c是常数,取b为自变量,因变疑是那个函数的判不式△=2—4acB. 光照时刻和果树亩产量C. 降雪疑和交通事故发生率D. 每亩施用肥料量和粮食亩产量解析:由函数关系和相关关系的定51可知,①中△=/—4ac,因为a、c是常数,b为自变量,因此给定一个b的值,就有唯独确定的△与之对应,因此△与b之间是一种确定的关系,是函数关系.②③④中两个变量之间的关系差不多上随机的、不确定的,因此不是函数关系.答案:A2.给出以下关系:①正方形的边长与面积之间的关系;②某化妆品的销售量与广告宣传费之间的关系:③人的身高与视力之间的关系:④雾天的能见度与交通事故的发生率之间的关系:⑤学生与貝学号之间的关系.扶中具有相关关系的是 _______ .解析:①正方形的边长与面积之间的关系是函数关系;②化妆品的销傳量与广告宣传费之间的关系不是严格的函数关系,然而具有相关性,因而是相关关系;③人的身高与视力之间的关系既不是函数关系,也不是相关关系;④能见度与交通事故的发生率之间具有相关关系:⑤学生与其学号之间的关系是一种确定的对应关系.综合以上可知,②④具有相关关系,而①⑤是确定性的函数关系.答案:②④3x y那么这两个变量间的线性回来方程为()A. y=x2B. y=^/xC. y=9x-15 D・ y=15x-9解析:依照数据可得T =4.5, y =25.5,Xxr=204,工xy = 1 296.i"l i"ln工xy-nx y_ 2 _________ 1 296-8X4.5X25.5 _b=- 2Z~=204—8X4.52_=9,Exr-nT2a= y —b x =25.5—9X4.5 = —15・Ay=9x—15 ・答案:c4・下表是某厂1〜4月份用水量(单位:百吨)的一组数据,由其散点图知,用水量y x y=一0.7x+a,那么a= ________ ・解析:x =2.5, y =3.5,/.a= y —b x =3.5—(—0.7)X 2.5=5.25.答案:5.255.在一段时刻内,某种商品价格x(万元)和需求量y(吨)之间的一组数据为:⑴画出散点图:(2)求岀y对x的线性回来方程,并在(1)的散点图中画出它的图像;(3)假如价格肚为1.9万元,推测需求呈大约是多少(精确到0.01吨)? 解:(1)散点图,如图.(2)釆纳列表的方法运算a与回来系数b.序号—1 — 1x =§X9=1・ & y =§X37=7・4.62-5X1.8X7.4b= = = -11516.6-5X1.82"2a=7.4+11.5X1.8 = 2y对x的线性回来方程为y=a+bx=28・l — 11.5x.(3)当x=1.9 时,y=28.1-11.5X 1.9=6.25,因此价格定为1.9万元时,需求量大约是6.25吨.6•对有线性相关关系的两个变量建立的回来直线方程y=a+bx中,回来系数区 )A.能够小于0B.大于0C.能等于0D.只能小于0解析:因为b=0时,r=0,这时不具有线性相关关系,但b能大于0也能小于0. 答案:A7.回来方程y=4.4x + 838.19,那么可估疑x与y的增长速度之比约为______________ .解析:x与y的增长速度之比即为回来方程的斜率的倒数占=吕=寻.答案:务8. 某肉食鸡养殖小区某种病的发病鸡只数呈上升趋势,统计近4个月这种病的新发病鸡只数的线性回来分析如下表所示:假如不加操纵,仍按那个趋势进展下去,请推测从9月初到12月底的4个月时刻里.该养殖小区这种病的新发病鸡总只数约为 ________ ・解析:由上表可得:y=94・7x+l 924.7,当x分不取9,10,11,12时,得估量值分不为:2 777,2 871.7,2966.4,3 061.1,那么总只数约为2777+2871.7+2966.4+3061.1^11 676.答案:11 6769. (2018•苏北三市联考)某电脑公司有6名产品推销员,其工作年限与年推销金额数据如下表:(1) y x(2) 求年推销金额y关于工作年限x的线性回来方程:(3) 假设第6名推销员的工作年限为11年,试估量他的年推销金额.(参考数据:VT04^1.02:由检验水平0.01及n—2=3,查表得r0.01 =0.959.) 解:(1)由S(Xi-X )(y - y )=10, 土(Xi- x )2=20, 士⑶一y )2=5.2,i-l i-1 i-1n __ __________工(Xi- x )(yi — y )io叮得尸 u —_ =吋°%A /刀(Xi — x尸工⑶一y )2•••年推销金额y与工作年限x之间的相关系数约为0.98.(2)由(1)知,r=O.98>O.959=ro,()1,・•.能够认为年推销金额y与工作年限x之间具有较强的线性相关关系. 设所求的线性回来方程为y=bx+a,x )(比一y )ri jo _ _那么b= ---------------------------- =百=0・5, a= y —b x =0.4.E(XI-T)2•••年推销金额y关于工作年限x的线性回来方程为y=0.5x+0.4 ・(3)由(2)可知,当x = ll时.y=0・5x+0・4=0.5 X 11 +0.4=5.9 万元.•••能够估董第6名推销员的年推销金额为5.9万元.。
标准曲线的最小二乘法拟合和相关系数

标准曲线的最小二乘法拟合和相关系数(合肥工业大学控释药物研究室尹情胜)1 目的用最小二乘法拟合一组变量(,,i=1-n)之间的线性方程(y=ax+b),表示两变量间的函数关系;(开创者:德国数学家高斯)一组数据(,,i=1-n)中,两变量之间的相关性用相关系数(R)来表示。
(开创者:英国统计学家卡尔·皮尔逊)2 最小二乘法原理用最小二乘法拟合线性方程时,其目标是使拟合值()与实测值()差值的平方和(Q)最小。
式(1)3 拟合方程的计算公式与推导当Q最小时,;得到式(2)、式(3):式(2)式(3)由式(3)和式(4),得出式(4)和式(5):式(4)式(5)式(4)乘以n,式(5)乘以,两式相减并整理得斜率a:斜率(k=xy/xx,n*积和-和积)式(6)截距b的计算公式为公式(5),也即:截距b=(y-x)/n,差平均差)式(7)4 相关系数的意义与计算公式相关系数(相关系数的平方称为判定系数)是用以反映变量之间相关关系密切程度的统计指标。
相关系数(也称积差相关系数)是按积差方法计算,同样以两变量与各自平均值的离差为基础,通过两个离差相乘来反映两变量之间相关程度;着重研究线性的单相关系数。
相关系数r xy取值在-1到1之间。
r xy = 0时,称x,y不相关;| r xy | = 1时,称x,y完全相关,此时,x,y之间具有线性函数关系;| r xy | < 1时,X的变动引起Y的部分变动,r xy的绝对值越大,x的变动引起y的变动就越大,|r xy | > 0.8时称为高度相关,当0.5< | r xy|<0.8时称为显著相关,当0.3<| r xy |<0.5时,成为低度相关,当| r xy | < 0.3时,称为无相关。
(式(7)5 临界相关系数的意义5.1 临界相关系数中显著性水平(α)与置信度(P)的关系显著性水平取0.05,表示置信度为95%;取0.01,置信度就是99%。
最小二乘法线性详细说明

利用最小二乘法计算出b, a得出回归方程即两个变 量之间的关系式。
计算 s ,并利用肖维涅准则判断有无粗差。
如果有粗差,剔除后重复①,②,③步骤计算。
如无粗差,计算b , a ,给出最后的回归方程。
26
〔例题〕
用伏安法测电阻,测量数据如表。问能否拟 合成线性关系曲线?若可以,试判断有无粗
只有相关系数 R≥ R时0 ,才能用线性回归方程
y=a+bx来描述数据的的分布规律。否则毫无 意义。
24
回归方程的精密度
根据统计理论还可以求出a和b的标准偏差分别 为:
b s
sx x
a b
xi2 n
xi2
s
nsxx
25
回归分析法的运算步骤
首先计算R,判断是否能拟合成线性曲线。 R≥ R0
b2 s11 s2 y s12 s1y
s s s 11 22
2 12
a y b1x1 b2 x 2
32
公式中:
s11
x2 1i
(
x1i)2 n
s22
x2 2i
(
x2i)2 n
s12
b=0,a= y , 从而得到y= y 的错误结论。这说明数据点
的分布不是线性,不能拟合为线性关系曲线。
标准曲线的最小二乘法拟合和相关系数

标准曲线的最⼩⼆乘法拟合和相关系数标准曲线的最⼩⼆乘法拟合和相关系数(合肥⼯业⼤学控释药物研究室尹情胜)1 ⽬的⽤最⼩⼆乘法拟合⼀组变量(,,i=1-n)之间的线性⽅程(y=ax+b),表⽰两变量间的函数关系;(开创者:德国数学家⾼斯)⼀组数据(,,i=1-n)中,两变量之间的相关性⽤相关系数(R)来表⽰。
(开创者:英国统计学家卡尔·⽪尔逊)2 最⼩⼆乘法原理⽤最⼩⼆乘法拟合线性⽅程时,其⽬标是使拟合值()与实测值()差值的平⽅和(Q)最⼩。
式(1)3 拟合⽅程的计算公式与推导当Q最⼩时,;得到式(2)、式(3):式(2)式(3)由式(3)和式(4),得出式(4)和式(5):式(4)式(5)式(4)乘以n,式(5)乘以,两式相减并整理得斜率a:斜率(k=xy/xx,n*积和-和积)式(6)截距b的计算公式为公式(5),也即:截距b=(y-x)/n,差平均差)式(7)4 相关系数的意义与计算公式相关系数(相关系数的平⽅称为判定系数)是⽤以反映变量之间相关关系密切程度的统计指标。
相关系数(也称积差相关系数)是按积差⽅法计算,同样以两变量与各⾃平均值的离差为基础,通过两个离差相乘来反映两变量之间相关程度;着重研究线性的单相关系数。
相关系数r xy取值在-1到1之间。
r xy = 0时,称x,y不相关;| r xy | = 1时,称x,y完全相关,此时,x,y之间具有线性函数关系;| r xy | < 1时,X的变动引起Y的部分变动,r xy的绝对值越⼤,x的变动引起y的变动就越⼤,|r xy | > 0.8时称为⾼度相关,当0.5< | r xy|<0.8时称为显著相关,当0.3<| r xy |<0.5时,成为低度相关,当| r xy | < 0.3时,称为⽆相关。
(式(7)5 临界相关系数的意义5.1 临界相关系数中显著性⽔平(α)与置信度(P)的关系显著性⽔平取0.05,表⽰置信度为95%;取0.01,置信度就是99%。
相关性、平均值、标准差、相关系数、回归线及最小二乘法概念

平均值、标准差、相关系数、回归线及最小二乘法?相关性线性相关数据在一条直线附近波动,则变量间是线性相关非线性相关数据在一条曲线附近波动,则变量间是非线性相关不相关数据在图中没有显示任何关系,则不相关平均值N个数据的平均值计算公式:标准差标准差表示了所有数据与平均值的平均距离,表示了数据的散度,如果标准差小,表示数据集中在平均值附近,如果标准差大则表示数据离标准差比较远,比较分散。
标准差计算公式:x、y两个变量组成了笛卡尔坐标系中的一坐标(x,y),这个坐标标识了一个点个的位置。
各包含n个常量的X,Y两组数据在笛卡尔坐标系中以n个点来进行表示。
相关系数相关系数用字母r来表示,表示两组数据线性相关的程度(同时增大或减小的程度),从另一方面度量了点相对于标准差的散布情况,它没有单位。
包含n个数值的X、Y两组数据的相关系数r的计算方法:简单的说,就是?r=[(以标准单位表示的x )X(以标准单位表示的y )]的平均数根据上面点的定义,将X、Y两组数据的关系以点的形式在笛卡尔坐标系中画出,SD线表示了经过中心点(以数据组X、Y平均值为坐标的点),当r>0时,斜率=X的标准差/Y的标准差;当r<0时,斜率=-X的标准差/Y的标准差;的直线。
通常用SD线来直观的表示数据的走向:1、当r<0时,SD线的斜率小于0时,则说明数据负相关,即当x增大时y减少。
2、当r>0时,SD线的斜率大于0时,则说明数据正相关,此时当x增大时y 增大。
3、相关系数r的范围在[-1,1]之间,当r=0时表示数据相关系数为0(不相关)。
当r=正负1时,表示数据负相关,此(x,y)点数据都在SD线上。
4、r的值越接近正负1说明(x,y)越靠拢SD线,说明数据相关性越强,r的值越接近0说明(x,y)点到SD线的散度越大(越分散),数据相关性越小。
回归方法主要描述一个变量如何依赖于另一个变量。
y对应于x的回归线描述了在不同的x值下y的平均值情况,它是这些平均值的光滑形式,如果这些平均值刚好在一条直线上,则这些平均值刚好和回归线重合。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
5
n
代入公式,得 b=-3.2,所以,a= y -b x =40, 故线性回归方程为 y=-3.2x+40.
答案 y=-3.2x+40
题型三 利用线性回归方程对总体进行估计 例 3 下表提供了某厂节能降耗技术改造后在生产甲产品过 程中记录的产量 x(吨)与相应的生产能耗 y(吨标准煤)的几 组对照数据. x y 3 2.5 4 3 5 4 6 4.5
题型分类 深度剖析
题型一 利用散点图判断两个变量的相关关系 例 1 山东鲁洁棉业公司的科研人员在 7 块并排、形状大小 相同的试验田上对某棉花新品种进行施化肥量 x 对产量 y 影响的试验,得到如下表所示的一组数据(单位:kg). 施化肥量 x 棉花产量 y 15 330 20 345 25 365 30 405 35 445 40 450 45 455
2 2 2 2 2 ∑ x i =3 +4 +5 +6 =86, =
4
i= 1 ∴b= 4
∑xiyi-4 x · y
2 2 ∑ x - 4 x i = i 1
4
66.5-4×3.5×4.5 = =0.7, 86-4×4.52
a= y -b x =3.5-0.7×4.5=0.35. ∴所求的线性回归方程为 y=0.7x+0.35. (3)现在生产 100 吨甲产品用煤 y=0.7×100+0.35=70.35(吨), ∴90-70.35=19.65(吨). ∴比技改前大约降低 19.65 吨标准煤.
(1)请画出上表数据的散点图; (2)请根据上表提供的数据,用最小二乘法求出 y 关于 x 的 线性回归方程 y=bx+a; (3)已知该厂技改前 100 吨甲产品的生产能耗为 90 吨标准 煤.试根据(2)求出的线性回归方程,预测生产 100 吨甲产 品的生产能耗比技改前降低多少吨标准煤? (参考数值:3×2.5+4×3+5×4+6×4.5=66.5)
审题视角
规范解答 解
(1)先用散点图判断 x、y 的线性相关关系;
.
[难点正本 疑点清源] 1.相关关系与函数关系的区别 相关关系与函数关系不同.函数关系中的两个变量间是一 种确定性关系.例如正方形面积 S 与边长 x 之间的关系 S =x2 就是函数关系.相关关系是一种非确定性关系,即相 关关系是非随机变量与随机变量之间的关系.例如商品的 销售额与广告费是相关关系.两个变量具有相关关系是回 归分析的前提.
(1)根据表中数据,确定家庭的年收入和年饮食支出的相 (2)如果某家庭年收入为 9 万元,预测其年饮食支出.
思维启迪:画出散点图,判断其线性相关性,求出线 性回归方程.
解
(1)由题意知,年收入 x 为解释变量,年饮食支出 y 为预
报变量,作散点图如图所示.
从图中可以看出,样本点呈条状分布,年收入和年饮食支出 有比较好的线性相关关系,因此可以用线性回归方程刻画它 们之间的关系.
探究提高:利用线性回归方程可以对总体进行预测估计,线 性回归方程将部分观测值所反映的规律进行延伸, 是我们对 有线性相关关系的两个变量进行分析和控制的依据, 依据自 变量的取值估计和预报因变量的值, 在现实生活中有广泛的 应用.
变式训练 3 某企业上半年产品产量与单位成本资料如下: 月份 1 2 3 4 5 6 (1)求出线性回归方程; (2)指出产量每增加 1 000 件时,单位成本平均变动多少? (3)假定产量为 6 000 件时,单位成本为多少元? 产量(千件) 2 3 4 3 4 5 单位成本(元) 73 72 71 73 69 68
答题模板 12.线性回归问题 试题: (12 分)某电脑公司有 6 名产品推销员,其工作年 限与年推销金额的数据如下表: 推销员编号 工作年限 x/年 推销金额 y/万元 1 3 2 2 5 3 3 6 3 4 7 4 5 9 5
(1)以工作年限为自变量 x,推销金额为因变量 y,作出 散点图; (2)求年销售金额 y 关于工作年限 x 的线性回归方程; (3)若第 6 名推销员的工作年限为 11 年,试估计他的年 推销金额.
a= y -b x =71+1.82×3.5=77.37, ∴线性回归方程为 y=a+bx=77.37-1.82x. (2)因为单位成本平均变动 b=-1.82<0, 且产量 x 的计量 单位是千件,所以根据回归系数 b 的意义有: 产量每增加一个单位即 1 000 件时,单位成本平均减少 1.82 元. (3)当产量为 6 000 件时,即 x=6,代入线性回归方程, 得 y=77.37-1.82×6=66.45(元) ∴当产量为 6 000 件时,单位成本大约为 66.45 元.
§10.3 变量间的相关关系 基础知识 自主学习
要点梳理 1.两个变量的线性相关 若两个变量 x 和 y 的散点图中,所有点看上去都在一条直 线附近波动,则称变量间是线性相关的. 2.回归方程 (1)最小二乘法 n 个点 (x1, y1),(x2, y2),„,(xn, yn),用表达式 [y1- (a + bx1)]2+ [y2- (a+ bx2)]2+„+ [yn- (a+ bxn)]2 来刻画这 些点与直线 y= a+ bx 的接近程度,使得上式达到最小值 的直线 y= a+ bx 就是我们所要求的直线,这种方法称为 最小二乘法.
思维启迪:画散点图,对变量的相关关系作出评估;求线性 回归方程,由线性回归方程进行回归分析预测.
解 (1)散点图如下图:
3+4+5+6 2.5+3+4+4.5 (2) x = =4.5, y = =3.5, 4 4
i 1 4 i 1
∑ xiyi=3×2.5+4×3+4×5+6×4.5=66.5, =
A.变量 x 与 y 正相关,u 与 v 正相关 B.变量 x 与 y 正相关, u 与 v 负相关 C.变量 x 与 y 负相关,u 与 v 正相关 D.变量 x 与 y 负相关,u 与 v 负相关
解析 图(1)中的数据随着 x 的增大 y 减小, 因此变量 x 与变 量 y 负相关;图(2)中的数据随着 u 的增大,v 也增大,因此 u 与 v 正相关.
探究提高:从本题可以看出,求线性回归方程,关键在于 正确求出系数 a,b,由于计算量较大,所以计算时要仔细 谨慎,分层进行,避免因计算产生失误,特别注意,只有 在散点图大体呈线性时,求出的线性回归方程才有意义.
变式训练 2 在 2009 年春节期间,某市物价部门对本市五个 商场销售的某商品一天的销售量及其价格进行调查,五个 商场的售价 x 元和销售量 y 件之间的一组数据如下表所示: 价格 x 销售量 y 9 11 9.5 10 10 8 10.5 6 11 5
答案 C
5.(2010· 湖南)某商品销售量 y(件)与销售价格 x(元/件)负相 关,则其回归方程可能是 A.y=-10x+200 C.y=-10x-200 B.y=10x+200 D.y=10x-2 x 成负相关,故排除 B、 D.C 中 y 值恒为负,不符合题意,故选 A.
(1)画出散点图; (2)判断是否具有相关关系.
思维启迪:(1)用 x 轴表示化肥施用量,y 轴表示棉花产量, 逐一画点. (2)根据散点图,分析两个变量是否存在相关关系.
解 (1)散点图如图所示
(2)由散点图知,各组数据对应点大致都在一条直线附 近,所以施化肥量 x 与产量 y 具有线性相关关系.
“是”与“否”)
解析
从散点图看,散点图的分布成团状,无任何规
律,所以两个变量不具有线性相关关系.
题型二 如下:
求线性回归方程
例 2 某地 10 户家庭的年收入和年饮食支出的统计资料
年收入 x(万元) 年饮食支出 y (万元) 关关系;
2
4
4
6
6
6
7
7
8
10
0.9 1.4 1.6 2.0 2.1 1.9 1.8 2.1 2.2 2.3
通过分析,发现销售量 y 与商品的价格 x 具有线性相关关 系,则销售量 y 关于商品的价格 x 的线性回归方程为 ∑ xiyi- n x y i=1 ____________.(参考公式:b= n 2 ,a= y -b x ) 2 ∑ xi -n x =
i 1 n
2 解析 ∑ x y = 392 , x = 10 , y = 8 , ∑ x i i i =502.5, = = i 1 i 1
探究提高:散点图是由大量数据点分布构成的,是定义在 具有相关关系的两个变量基础之上的, 对于性质不明确的 两组数据可先作散点图, 直观地分析它们有无关系及关系 的密切程度.
变式训练 1 根据两个变量 x,y 之间的观测数据画成散点图
否 .(填 如图所示, 这两个变量是否具有线性相关关系______
③ 填序号). 乘法的思想得拟合程度最好的直线是___(
解析 由题意知 x =4, y =6, ∑ (xi- x )(yi- y ) 8 = i 1 ∴b= = , n 2 5 ∑ ( x - x ) i =
i 1 n
2 8 2 ∴a= y -b x =- ,∴y= x- ,故选③. 5 5 5
4.对变量 x, y 有观测数据(xi, yi)(i= 1,2,„,10),得散点 图 (1);对变量 u, v 有观测数据(ui,vi)(i= 1,2,„,10), 得散点图(2).由这两个散点图可以判断( )
解
6
(1)n=6,∑ xi=21,∑ yi=426, x =3.5, y =71, = =
i 1 i 1
6
6
6 2 ∑xi =79,∑ xiyi=1 i= 1 i= 1 6
481,
b=
i= 1
∑xiyi-6 x y
i 1 2 2 ∑ x - 6 x i = 6
1 481-6×3.5×71 = =-1.82, 79-6×3.52
解析 将 y=24.8 代入,得 x≈185.03.
2.已知 x,y 的取值如下表所示: x y