回归直线方程

合集下载

回归直线方程的三种推导方法

回归直线方程的三种推导方法

回归直线方程的三种推导方法(总3页)--本页仅作为文档封面,使用时请直接删除即可----内页可以根据需求调整合适字体及大小--2回归直线方程的三种推导方法 巴州二中母润萍回归直线方程是新课改新增内容之一,在必修数学3中对两个具有线性相关关系的变量利用回归分析的方法进行了研究,书中直接给出了回归直线方程系数的公式,在选修2-3中给出了回归直线方程的截距和斜率的最小二乘法估计公式的另一种形式的推导方法,根据所学知识,我总结了3种推导回归直线方程的方法:设x 与y 是具有线性相关关系的两个变量,且相应于样本的一组观测值的n 个点的坐标分别是:112233()()()()n n x y x y x y x y ,,,,,,,,,设所求的回归方程为i i y bx a =+,(123)i n =,,,,.显然,上面的各个偏差的符号有正、有负,如果将他们相加会相互抵消一部分,因此他们的和不能代表n 个点与回归直线的整体上的接近程度,因而采用n 个偏差的平方和Q 来表示n 个点与相应直线(回归直线)在整体上的接近程度,即求出当Q 取最小值时的a b ,的值,就求出了回归方程. 下面给出回归方程的推导方法一:一、先证明两个在变形中用到的公式公式(一)22211()nni ii i x x x nx ==-=-∑∑,其中12nx x x x n +++=证明:2222121()()()()ni n i x x x x x x x x =-=-+-++-∑∵22221212()2n n x x x x x x nx nxn+++=+++-+222222222212121()2()nnni i x x x nx nx x x x x nx==+++-+=+++=-∑22211()n ni i i i x x x nx==-=-∑∑∴.公式(二)11()()nnii i i i i xx y y x y nx y==--=-∑∑证明:11221()()()()()()()()ni i n n i x x y y x x y y x x y y x x y y =--=--+--++--∑∵11221122()()n n n n x y x y x y x y y x x y y x x y y x nx y=+++-+++++++12121[()()]ni i n n i x y x x x y y y y x nx y==-++++++++∑12121()()n n n i i i x x x y y y x y n y x nx y n n=++++++⎡⎤=-++⎢⎥⎣⎦∑112nni i i i i i x y nxy nxy x y nxy===-+=-∑∑,11()()nni i i i i i x x y y x y nx y==--=-∑∑∴.二、推导:将Q 的表达式的各项先展开,再合并、变形2222112233()()()()n n Q y bx a y bx a y bx a y bx a =--+--+--++--2222121122()[2()2()]n y y y y bx a y bx a =+++-+++展开222211111222n n nnni i i i ii i i i i i y b x y a y bxab x na ======--+++∑∑∑∑∑合并同类项22221111122nnii n n ni i i i i i i i i y x na na b b x b x y y nn =====⎛⎫ ⎪ ⎪=--+-+ ⎪ ⎪⎝⎭∑∑∑∑∑以a b ,的次数为标准整理22221112()2nn nii i i i i i na na y bx bxb x y y ====--+-+∑∑∑转化为平均数x y,22222111[()]()2nnnii i i i i i n a y bx n y bx bxb x y y ====----+-+∑∑∑配方法32222222111[()]22nn nii i ii i i n a y bx ny nbxy nb x bxb x y y====---+-+-+∑∑∑展开222222111[()]()2()()nnni i i i i i i n a y bx b x nx b x y nxy y ny ====--+---++∑∑∑整理2222111[()]()2()()()nnnii i i i i i n a y bx bxx b x x y y y y ====--+----+-∑∑∑用公式(一)、(二)变形22212111()()[()]()()()ni i n ni i i n i i i i x x y y n a y bx x x b y y x x ====⎡⎤--⎢⎥⎢⎥=--+--+-⎢⎥-⎢⎥⎣⎦∑∑∑∑配方22212212211111()()()()()()()()()n ni i i i n n i i i i n n i i i i i x x y y x x y y n a y bx x x b y y x x x x ======⎡⎤⎡⎤----⎢⎥⎢⎥⎣⎦⎡⎤⎢⎥=--+---+-⎣⎦⎢⎥--⎢⎥⎣⎦∑∑∑∑∑∑配方法在上式中,共有四项,后两项与a b ,无关,为常数;前两项是两个非负数的和,因此要使得Q 取得最小值,当且仅当前两项的值都为0.所以或1221ni ii n i i x ynxyb x nx==-=-∑∑用公式(一)、(二)变形得上述推导过程是围绕着待定参数a b ,进行的,只含有i i x y ,的部分是常数或系数,用到的方法有:① 配方法,有两次配方,分别是a 的二次三项式和b 的二次三项式;② 形时,用到公式(一)、(二)和整体思想; ③ 用平方的非负性求最小值.④ 实际计算时,通常是分步计算:先求出x y,,再分别计算1()()nii i xx y y =--∑,21()nii xx =-∑或1ni i i x y nx y=-∑,221ni i x nx=-∑的值,最后就可以计算出a b ,的值.推导方法二:注意到因此,在上式中,后面两项和无关,前两项为非负数,因此,要使Q达到最小值,当且仅当前两项均为0,即有总结:这种方法难想到为什么要这样处理,并且计算量很大。

求线性回归直线方程的步骤

求线性回归直线方程的步骤

请同学们回忆一下,我们以前是否学过 变量间的关系呢?
两个变量间的函数关系.
相关关系与函数关系的异同点:
相同点:两者均是指两 个变量间的关系. 不同点:①函数关系是一种确定的关系; 相关关系是一种 非确定的关系.事实上,函数关系是两个非 随机变量的关系,而相关关系是随机变量 与随机变量间的关系. ②函数关系是一种因果关系,而相关关系 不一定是因果关 系,也可能是伴随关系.
20
30
40
^ (4)当x=2时,y=143.063, 因此,这天大 约可以卖出143杯热饮。
小结:
(1)判断变量之间有无相关关系,简便方 法就是画散点图。 (2)当数字少时,可用人工或计算器,求 回归方程;当数字多时,用Excel求回归方 程。 (3)利用回归方程,可以进行预测。
热饮杯数 156 150 132 128 130 116 104 89 93 76 54
(1)画出散点图;
(2)从散点图中发现气温与热饮销售杯数之间关系的一
般规律; (3)求回归方程; (4)如果某天的气温是 2 C,预测这天卖出的热饮杯数。
0
解: (1)散点图
160 150 140 130 120 110 100 90 80 70 60 50 40 -10 0
10x y
2
x
i 1

2 i
10 x
110 10 0 1 110 10 0
a y bx 0 b 0 0
∴所求回归直线方程为 ^ y=x
小结:求线性回归直线方程的步骤: 第一步:列表 x , y , x y ;
i i i i
第二步:计算
x, y, xi , xi y
脂肪含量 40 35 30 25 20 15 10 5 0 20 25 30 35 40 年龄 45 50 55 60 65

回归直线方程b尖的公式推导

回归直线方程b尖的公式推导

回归直线方程b尖的公式推导为了推导回归直线方程的一般形式,我们首先需要了解回归分析的基本概念和假设。

回归分析是一种用于研究变量之间关系的统计技术,它假设自变量和因变量之间存在线性关系,并通过拟合一条直线来描述这种关系。

假设我们有一个自变量x和一个因变量y,我们的目标是找到一条最佳拟合直线来描述x和y之间的关系。

回归直线的一般形式可以表示为:y=b0+b1x其中,y是因变量的预测值,x是自变量的值。

b0和b1是回归方程的系数,它们的值取决于数据样本的特点。

b0是截距,表示当自变量x等于0时,因变量y的值。

b1是斜率,表示当自变量x增加1个单位时,因变量y的变化值。

为了推导最佳拟合直线的回归系数,我们需要使用最小二乘法。

最小二乘法是一种常见的回归分析方法,它通过最小化预测值与实际值之间的差异来确定回归系数。

首先,我们定义回归方程的残差(error)为实际值y与预测值y的差异。

对于每个观察值,残差可以表示为:ei = yi - (b0 + b1xi)然后,我们定义回归方程的残差平方和(SSE)为所有观察值的残差平方之和:SSE = Σ(ei^2)我们的目标是找到能够最小化SSE的回归系数b0和b1、为了达到这个目标,我们需要对SSE进行求导,并令导数等于0。

首先,我们对b0求导数,得到:∂SSE/∂b0 = -2Σ(yi - (b0 + b1xi))然后,我们对b1求导数,得到:∂SSE/∂b1 = -2Σxi(yi - (b0 + b1xi))接下来,我们令导数等于0,并求解b0和b1:∂SSE/∂b0 = 0 => Σ(yi - (b0 + b1xi)) = 0∂SSE/∂b1 = 0 => Σxi(yi - (b0 + b1xi)) = 0通过求解这两个方程,我们可以得到b0和b1的估计值,进而确定回归直线的方程。

一般情况下,这些方程的解没有闭式解,需要使用数值优化方法进行求解。

常见的数值优化方法包括梯度下降法和牛顿法。

线性回归直线方程-PPT课件

线性回归直线方程-PPT课件

零件数x(个) 10 20 30 40 50 60 70 80
加工时间y (分钟)
62 68 75 81 89 95 102 108
(1)画出散点图;
(2)根据系数公式求线性回归直线方程;
(3)关于加工零件的个数与加工时间,
你能得出什么结论?
120 100
80 60 40 20
0 0
图表标题
20
40
• 当各点总体上很接近回归直线时,两变量的相关关系 较强,反之相关关系就较弱。
• 当线性关系很弱时,即使可求出线性回归直线方程, 但由于各点总体上离此直线较远,用它作估值时偏差 较大,也就没有实际意义了。这时也可以说线性回归 方程没有意义,两变量不具有线性相关关系。
Байду номын сангаас 问:如何判断两个变量相关关系的强弱?
(2)估计工龄为20年的职工工资是多少? (先不用计算器计算后,再用计算器验算)
工资y千元
3.5
3
2.5
2
1.5
1
0.5
0
0
2
4
6
8
10
12
工龄
总结
• 对具有相关关系的两个变量进行统计分析的方法叫做回归 分析。
• 运用回归分析的方法来分析、处理数据的一般步骤是: • ①收集数据,并制成表格; • ②画出数据的散点图; • ③利用散点图直观认识变量间的相关关系;可通过计算相
60
80 100
项目 类型
零件数x 加工时间y
x2
A
10
62
100
B
20
68
400
C
30
75
900
D
40

回归直线方程计算

回归直线方程计算
-87ຫໍສະໝຸດ 45167 1093.145833
两变量偏差积和及变量χ偏差平方和
说明: 相关关系强弱判断标准: 1、相关系数R的符号决定正、负关系; 2、当∣R∣∈[0.75,1]时,相关关系很强; 3、当∣R∣∈[0.3,0.75]时,相关关系一般; 4、此外,相关关系很弱或者不能用线性相关来描述; 5、绿色区域输入数据,蓝色区域为计算结果。
yba变量变量y变量偏差变量y偏差变量偏差平方变量y偏差平方回归方程系常数a相关系数r两变量偏差积和及变量偏差平方和说明
回归直线方程: 回归直线方程:Y=bχ+a
变量χ 变量y 10 20 变量 30 40 45 50 平均数 32.5 210.6 281.5 320.8 350.11 229.052 8383.425 1187.5 59204.91608 -2.5 7.5 12.5 17.5 -18.45167 46.12916667 52.448333 393.3625 6.25 56.25 156.25 306.25 340.4640028 2750.827669 7.0597 91.748333 1146.854167 121.05833 2118.520833 8417.756669 14655.12007 -0.3894 0.9998 69.7 141.6 变量χ偏差 变量y偏差 两变量偏差积 -22.5 -12.5 -159.3517 3585.4125 变量χ偏差平 方 506.25 156.25 变量y偏差平方 25392.95367 7647.794003 回归方程 常数a 系数b 相关系 数R

回归直线方程

回归直线方程

(3)90-(0.7×100+0.35)=19.65(t) ∴降低了19.65吨.
建立i起1 来了.
为了使计算更加有条理,我们通过制作表格来先计算出
再计算出 n
n
n
n
xi, yi, xi 2, yi 2;
i 1
i 1
i 1
i 1
y

1 n
n i 1
yi , x

1 n
n i 1
xi,
最后 利用公式
Lxx
n
xi2

2
nx , Lyy
8
70
68.3
4900
4664.89
4781
9
72
70.1
5184
4914.01
5047.2
10
74
70
5476
4900
5180

668
670.1
44794
44941.93
44842.4
回归直线方程
【典型例题】
上表可计算 x
10

668 10
10

66.8,
y

670.1 10

67.01,
10 i 1
xi
yi

44842.4
xi2 44794, yi2 44941.93, 代入公式
i 1 10
i 1
b
xi yi nx y
i 1
n
xi2

2
nx

44842.4 10 66.8 67.01 79.72
44974 10 66.82

高考数学复习点拨 回归直线方程的推导

高考数学复习点拨 回归直线方程的推导
i 1 n ( x x2 xi yi n 1 n i 1 n
yn ) x] nx y yn ) x nx y
y
( y1 y2 n
xi yi 2nx y nx y xi yi nx y ,
i 1 n i 1
步计算: 先求出 x, 再分别计算 ( xi x)( yi y ) , ( xi x)2 或 xi yi nx y , xi2 nx y,
i 1 i 1 i 1 i 1
n
n
n
n
2
的值,最后就可以计算出 a,b 的值.
婚博会资讯网-一网打尽全国各城市婚博会信息 崤孞尛
i 1 i 1 n n
( yn bxn a) 2 .
求出当 Q 取最小值时的 a,b 的值,就求出了回归方程. 一、先证明两个在变形中用到的公式 公式(一) ( xi x)2 xi2 nx ,其中 x
2 i 1 i 1 n n
x1 x2 n
xn
nx y nx
2
x
i 1
用公式(一) 、 (二)变形得
2 i
三、总结规律 上述推导过程是围绕着待定参数 a,b 进行的,只含有 xi,yi 的部分是常数或系数,用到 的方法有:①配方法,有两次配方,分别是 a 的二次三项式和 b 的二次三项式;②变形时, 用到公式(一) 、 (二)和整体思想;③用平方的非负性求最小值.④实际计算时,通常是分
回归直线方程的推导
设 x 与 y 是具有线性相关关系的两个变量,且相应于样本的一组观测值的 n 个点的坐标 分别是: ( x1,y1 ), ( x2,y2 ), ( x3,y3 ), , ( xn,yn ) ,下面给出回归方程的推导. 设所求的回归方程为 yi bxi a ,(i 1 显然, 上面的各个偏差的符号有正、 , 2, 3, ,n) . 有负,如果将他们相加会相互抵消一部分,因此他们的和不能代表 n 个点与回归直线的整体 上的接近程度,因而采用 n 个偏差的平方和 Q 来表示 n 个点与相应直线(回归直线)在整体 上的接近程度, 即 Q ( yi yi )2 ( yi bxi a)2 ( y2 bx2 a)2 ( y3 bx3 a) 2

回归直线方程

回归直线方程

课本P90习题3.1 V1
3.1回归分析的基本思想 及其初步应用(3)
建立回归模型的基本步骤 1)确定解释变量和预报变量; 2)画出散点图; 3)确定回归方程类型; 4)求出回归方程; 5)利用相关指数或残差进行分析.
问题:一只红铃虫的产卵数y与温度x有关,现收 集了7组观测数据,试建立y与x之间的回归方程
相关程度越小.
r∈[-1,-0.75]--负相关很强; r∈[0.75,1]—正相关很强; r∈[-0.75,-0.25]--负相关一般; r∈[0.25, 0.75]—正相关一般; r∈[-0.25, 0.25]--相关性较弱;
例题1 从某大学中随机选出8名女大学生,其身 高和体重数据如下表:
编号 1
160 170 180
它的均值E(e)= 0,方差D(e)=σ2 > 0
探究:在线性回归模型中,e是一个不可观测 的量,那么应该怎样研究随机误差?如何衡量 预报的精度?
为了衡量预报的精度,需要估计的σ2值?
n
Q( , ) ( yi xi )2 i 1
随机误差ei yi bxi a(i 1, 2,....n) 其估计值为: eˆi yi yˆi yi bˆxi aˆ eˆi称为相应点(xi,yi )的残差
果这种分析工作称为残差分析
了解残差图的制作及作用。P85 坐标纵轴为残差变量,横轴可以有不同的选择; 若模型选择的正确,残差图中的点应该分布在以横轴为 心的带形区域; 对于远离横轴的点,要特别注意。身高异与常体 重

残 差 图
• 错误数据 • 模型问题
总偏差平方和,残差平方和,回归平方和三者的 含义与它们间的关系:
yˆ = 0.849x - 85.172

回归性方程

回归性方程

回归性方程
回归方程是根据样本资料通过回归分析所得到的反映一个变量(因变量)对另一个或一组变量(自变量)的回归关系的数学表达式。

回归直线方程用得比较多,可以用最小二乘法求回归直线方程中的a,b,从而得到回归直线方程。

原理
对变量之间统计关系进行定量描述的一种数学表达式。

指具有相关的随机变量和固定变量之间关系的方程。

回归直线方程指在一组具有相关关系的变量的数据(x与Y)间,一条最好地反映x与y之间的关系直线。

离差作为表示Xi对应的回归直线纵坐标y与观察值Yi的差,其几何意义可用点与其在回归直线竖直方向上的投影间的距离来描述。

数学表达:Yi-y^=Yi-a-bXi.
总离差不能用n个离差之和来表示,通常是用离差的平方和,即(Yi-a-bXi)^2计算。

线性回归方程的公式为:b=(x1y1+x2y2+…xnyn-nxy)/(x1+x2+…xnNX)。

线性回归方程是数理统计中使用回归分析来确定两个或多个变量之间定量关系的统计分析方法之一。

回归直线法应用的原理

回归直线法应用的原理

回归直线法应用的原理1. 简介回归直线法(Linear Regression)是统计学中常用的一种分析方法,用于研究自变量与因变量之间的关系。

该方法可以通过拟合一条直线来描述自变量和因变量之间的线性关系,从而进行预测、推断和探索性分析。

2. 原理回归直线法的原理基于最小二乘法,通过寻找一条直线使得观测值与预测值之间的残差平方和最小化。

该直线由两个参数确定:截距(intercept)和斜率(slope)。

直线的方程可以表示为:Y = a + bX,其中Y表示因变量,X表示自变量,a表示截距,b表示斜率。

3. 应用步骤回归直线法的应用通常包括以下几个步骤:3.1 数据收集首先需要收集自变量和因变量的相关数据。

数据的质量和完整性对回归分析的结果具有重要影响,因此保证数据的准确性和可靠性是非常重要的。

3.2 数据预处理在进行回归分析之前,需要对数据进行预处理。

这包括数据清洗、缺失值处理、异常值处理、数据标准化等步骤,以确保数据的合理性和一致性。

3.3 模型拟合模型拟合是回归直线法的核心步骤。

通过最小二乘法,寻找最佳的直线拟合数据,使得观测值和预测值之间的残差平方和最小化。

计算得到的拟合直线的截距和斜率可以描述自变量和因变量之间的线性关系。

3.4 模型评估模型评估是判断模型质量的重要步骤。

常见的评估指标包括决定系数(R^2)、均方误差(MSE)和标准误差(SE)等。

这些指标可以用于评估模型的拟合程度和预测能力。

3.5 结果解释和应用最后,根据拟合的回归直线和模型评估结果,进行结果解释和应用。

通过该直线可以进行因变量的预测、因素分析、趋势预测等应用。

4. 注意事项在进行回归直线法分析时,需要注意以下几点:4.1 线性关系假设回归直线法的前提是自变量和因变量之间存在线性关系。

在进行分析前,需要先验证自变量和因变量之间的线性关系假设。

4.2 多重共线性多重共线性是指自变量之间存在高度相关性的情况。

当存在多重共线性时,会影响回归分析的结果和可靠性。

回归直线方程b尖的公式推导

回归直线方程b尖的公式推导

回归直线方程b尖的公式推导
最小二乘法是一种常用的回归分析方法,它的目标是找到最小化误差平方和的回归直线。

首先,我们定义误差e_i为观测值y_i和回归预测值\hat{y_i}之间的差异,即e_i = y_i - \hat{y_i}。

1.求解斜率m:
斜率m可以通过计算协方差cov(X, Y)除以X的方差var(X)来得到,即m = cov(X, Y) / var(X)。

其中,X和Y分别是自变量和因变量,
cov(X, Y)是X和Y的协方差,var(X)是X的方差。

2.求解截距b:
截距b可以通过计算Y的平均值减去斜率m乘以X的平均值来得到,即b = mean(Y) - m 某 mean(X)。

其中,mean(Y)是Y的平均值,mean(X)是X的平均值。

通过以上两个方程,我们可以得到回归直线方程y=m某+b的斜率m
和截距b。

这样就完成了回归直线方程b的公式推导。

需要注意的是,在实际应用中,我们通常会使用统计软件或计算工具来进行回归分析和参数估计。

这些工具会自动计算回归直线方程的斜率和截距,从而避免了手动推导的繁琐过程。

总结起来,回归直线方程b的公式可以通过最小二乘法计算得到。

我们先计算回归直线的斜率m,然后利用斜率m、自变量X的平均值和因变
量Y的平均值来计算截距b。

这样就得到了回归直线方程y=m某+b中的斜率m和截距b。

回归直线方程ab

回归直线方程ab

回归直线方程ab
回归直线方程ab是统计学中一种基本的线性模型,也是最广泛使用的回归模型之一。

它的形式可以表示为:Y=a+bX,其中a和b是未知的参数,Y是观测在X点上的响应变量值,X是一个(或多个)自变量。

回归直线方程ab在统计学中有着极其重要的意义,其被称为一个“统一的”线性模型,它可以描述很多类型的数据点之间的关系。

通常情况下,我们可以假定数据点之间是正相关,即当X值变大时,Y值也会变大;也可以假定数据点之间是负相关,即当X值变大时,Y值会变小。

因此,通过拟合数据点,我们可以计算出a、b的值,从而确定一条最佳的回归曲线,其可以用来描述数据点之间的关系。

另外,回归直线方程ab还可以应用于对数据的分析。

假设我们要对某一组数据进行分析,我们可以计算出这组数据彼此之间的回归直线方程,从而确定不同数据之间的相关程度。

例如,如果我们计算出这组数据之间的回归直线方程ab,并发现方程的a、b两个参数值相近,那么这就可以证明这两组数据之间有着密切的联系。

当然,通过回归直线方程ab我们还可以进行判别分析,即进行类别判断,以确定某一组数据是否属于某一特定类别。

此外,回归直线方程ab还可以用于进行局部线性回归。

局部线性回归可以用于预测受试者响应变量的值,其原理是假设每一点处的X和Y之间的关系可以用一个曲线或直线来拟合。

而局部线性回归就是其中一种,它利用回归直线方程ab来进行拟合,从而实现局部的
精确预测。

总之,回归直线方程ab在统计学中有着重要的作用,它可以用于描述数据点之间的关系,也可以用于对数据的分析等,以及进行局部线性回归。

因此,它是统计学研究中必不可少的模型,也是目前最有效、最常用的回归模型之一。

线性回归方程的知识要点

线性回归方程的知识要点

线性回归方程的知识要点1.回归直线如果散点图中点的分布从整体上看大致在一条直线附近,我们就称这两个变量之间具有线性相关关系,这条直线叫作回归直线。

2.回归直线方程ˆˆˆybx a =+ 对于一组具有线性相关关系的数据11(,)x y ,22(,)x y ,……,(,)n n x y ,其回归直线ˆˆˆybx a =+的截距和斜率的最小二乘法估计公式分别为: 121()()ˆ()niii nii x x y y bx x ==--=-∑∑,ˆˆay bx =- 其中表示数据x i (i=1,2,…,n )的均值,表示数据y i (i=1,2,…,n )的均值,表示数据x i y i (i=1,2,…,n )的均值.、的意义是:以为基数,x 每增加一个单位,y 相应地平均变化个单位. 要点诠释:①回归系数121()()ˆ()niii nii x x y y bx x ==--=-∑∑,也可以表示为1221ˆni ii nii x y nx ybxnx==-=-∑∑,这样更便于实际计算。

②12111()n i n i x x x x x n n===+++∑;12111()n i n i y y y y y n n===+++∑。

③(,)x y 称为样本中心点,回归直线ˆˆˆya bx =+必经过样本中心点(,)x y 。

④回归直线方程ˆˆˆya bx =+中的表示x 增加1个单位时的变化量,而表示不随x 的变化而变化的量。

3.求回归直线方程的一般步骤: ①作出散点图由样本点是否呈条状分布来判断两个量是否具有线性相关关系,若存在线性相关关系,进行第二步。

②求回归系数、 计算121()n x x x x n=+++,121()n y y y y n=+++,11221ni in n i x yx y x y x y ==++∑,2222121ni n i x x x x ==+++∑,利用公式1221ˆni ii nii x y nx ybxnx==-=-∑∑求出,再由ˆˆay bx =-求出的值; ③写出回归直线方程;④利用回归直线方程ˆˆˆya bx =+预报在x 取某一个值时y 的估计值。

第22讲 回归直线方程(解析版)

第22讲 回归直线方程(解析版)

第22讲 回归直线方程一、必备秘籍 1.两个变量线性相关(1)散点图:将样本中n 个数据点(,)i i x y (i =1,2,…,n )描在平面直角坐标系中得到的图形. (2)正相关与负相关①正相关:散点图中的点散布在从左下角到右上角的区域. ②负相关:散点图中的点散布在从左上角到右下角的区域. 2.回归直线的方程(1)回归直线:如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.(2)回归方程:回归直线对应的方程叫回归直线的方程,简称回归方程. (3)回归方程的推导过程:①假设已经得到两个具有线性相关关系的变量的一组数据11(,)x y ,22(,)x y ,33(,)x y (,)n n x y .②设所求回归方程为y bx a =+,其中,a b 是待定参数. ③由最小二乘法得1122211()(),()nnii i ii i nniii i xx y y x ynx yb a y bx xx xnx ====---===---∑∑∑∑其中,b 是回归方程的斜率,a 是截距. 二、例题讲解1.(2021·哈尔滨市呼兰区第一中学校高三模拟预测(文))十三届全国人大三次会议表决通过了《中华人民共和国民法典》这部法律自2021年1月1日起施行,某市相关部门进行法律宣传,某宣传小分队记录了前5周每周普及宣传的人数与时间的数据,得到下表:(2)利用(1)的回归方程,预测该宣传小分队第7周普及宣传(民法典)的人数.参考公式及数据:回归方程ˆˆˆybx a =+中斜率和截距的最小二乘估计公式分别为()()()121ˆniii nii x x y y b x x ==--=-∑∑,ˆa y bx=-,()()51430i ii x x y y =--=∑.【答案】(1)4341y x =+;(2)预测该宣传小分队第7周普及宣传《民法典》的人数为342. 【分析】(1)求出x 、y 的值,将表格中的数据代入最小二乘法公式,求出b 、a 的值,可得出y 关于x 的线性回归方程;(2)将7x =代入回归直线方程,可得出结果. 【详解】(1)由题意得()11234535x =++++=,()1901201702102601705y =++++=, ()()()()()()52222221132333435310ii x x =-=-+-+-+-+-=∑,所以()()()51521430ˆ4310iii ii x x y y bx x ==--===-∑∑,所以ˆ17043341a y bx=-=-⨯=, 所以线性回归方程为4341y x =+;(2)由(1)知4341y x =+,令7x =,解得43741342y =⨯+=, 故预测该宣传小分队第7周普及宣传《民法典》的人数为342.2.(2021·合肥市第六中学高三模拟预测(文))树木根部半径与树木的高度呈正相关,即树木根部越粗,树木的高度也就越高.某块山地上种植了A 树木,某农科所为了研究A 树木的根部半径与树木的高度之间的关系,从这些地块中用简单随机抽样的方法抽取6棵A 树木,调查得到A 树木根部半径x (单位:米)与A 树木高度y (单位:米)的相关数据如表所示:(2)对(1)中得到的回归方程进行残差分析,若某A 树木的残差为零则认为该树木“长势标准”,在此片树木中随机抽取1棵A 树木,估计这棵树木“长势标准”的概率.参考公式:回归直线方程为y bx a =+,其中()()()1122211n ni iiii i b nnixii i x y nxy x x y y xnx x ==-==---==--∑∑∑∑,a y bx =-.【答案】(1)ˆ 20.9y x =+;(2)12【分析】(1)由最小二乘法先求样本点中心(),x y ,再代入公式求ˆ2b=,即可得到答案;(2)先计算6棵A 树木中残差为零的有3棵,占比为3162=,即可得到答案; 【详解】(1)由1(0.10.20.30.40.50.6)0.356x =⨯+++++=,1(1.1 1.3 1.6 1.5 2.0 2.1) 1.66y =⨯+++++=,610.1 1.10.2 1.30.3 1.60.4 1.50.5 2.00.6 2.1 3.71i ii x y==⨯+⨯+⨯+⨯+⨯+⨯=∑,6222222210.10.20.30.40.50.60.91ii x==+++++=∑,有62261216 3.7160.35 1.6ˆ20.9160.356i ii ii x yxybxx ==--⨯⨯===-⨯-∑∑,ˆˆ 1.6020.350.9ay bx =-=-⨯=, 故y 关于x 的回归方程为:ˆ 20.9yx =+. (2)当0.1x =时,ˆ20.10.9 1.1y=⨯+=,残差为1.1 1.10-=, 当0.2x =时,ˆ20.20.9 1.3y=⨯+=,残差为1.3 1.30-=, 当0.3x =时,ˆ20.30.9 1.5y=⨯+=,残差为1.6 1.50.1-=, 当0.4x =时,ˆ20.40.9 1.7y=⨯+=,残差为1.5 1.70.2-=-, 当0.5x =时,ˆ20.50.9 1.9y=⨯+=,残差为2.0 1.90.1-=, 当0.6x =时,ˆ20.60.9 2.1y=⨯+=,残差为2.1 2.10-=, 由这6棵A 树木中残差为零的有3棵,占比为3162=,∴这棵树木“长势标准”的概率为12.1.(2021·湖南师大附中高三月考)今年五月,某医院健康管理中心为了调查成年人体内某种自身免疫力指标,从在本院体检的人群中随机抽取了100人,按其免疫力指标分成如下五组:(10,20],(20,30],(30,40],(40,50],(50,60],其频率分布直方图如图1所示.今年六月,某医药研究所研发了一种疫苗,对提高该免疫力有显著效果.经临床检测,将自身免疫力指标比较低的成年人分为五组,各组分别按不同剂量注射疫苗后,其免疫力指标y 与疫苗注射量x 个单位具有相关关系,样本数据的散点图如图2所示.(1)健管中心从自身免疫力指标在(40,60]内的样本中随机抽取3人调查其饮食习惯,记X 表示这3人中免疫力指标在(40,50]内的人数,求X 的分布列和数学期望;(2)由于大剂量注射疫苗会对身体产生一定的副作用,医学部门设定:自身免疫力指标较低的成年人注射疫苗后,其免疫力指标不应超过普通成年人群自身免疫力指标平均值的3倍.以健管中心抽取的100人作为普通人群的样本,据此估计疫苗注射量不应超过多少个单位.附:对于一组样本数据()()()1122,,,,,,n n x y x y x y ⋅⋅⋅,其回归直线ˆybx a =+的斜率和截距的最小二乘估计值分别为()()()1122211,nniii ii i nniii i x x yy x ynxyb a y bx x xxnx ====---===---∑∑∑∑. 【答案】(1)分布列见解析,125;(2)疫苗注射量不应超过80个单位. 【分析】(1)根据频率分布直方图分别求出自身免疫力指标在(40,50]内和在(50,60]内的人数,写出X 的可能取值,求出对应概率,即可写出分布列,再根据期望公式即可求得数学期望;(2)根据最小二乘法求得回归方程,然后求出免疫力指标的平均值,根据题意列出不等式,从而可得答案. 【详解】解:(1)由直方图知,自身免疫力指标在(40,50]内的人数为0.008101008⨯⨯=,在(50,60]内的人数为0.002101002⨯⨯=,则X 的可能取值为1,2,3.其中122130828282233101010177(1),(2),(3)151515C C C C C C P X P X P X C C C =========.所以X 的分布列为()7121231515155E X =⨯+⨯+⨯=. (2)由散点图知,5组样本数据(,)x y 分别为(10,30),(30,50),(50,60),(70,70),(90,90),且x 与y 具有线性相关关系. 因为50,60x y ==,则22222210303050506070709090550607103050709055010b ⨯+⨯+⨯+⨯+⨯-⨯⨯==++++-⨯,760502510a =-⨯=,所以回归直线方程为ˆ0.725yx =+. 由直方图知,免疫力指标的平均值为26402482152535455527100100100100100⨯+⨯+⨯+⨯+⨯=. 由27381ˆy≤⨯=,得0.72581x +≤,解得80x ≤. 据此估计,疫苗注射量不应超过80个单位.2.(2021·安徽师范大学附属中学(理))根据国际疫情形势以及传染病防控的经验,加快新冠病毒疫苗接种是当前有力的防控手段,我国正在安全、有序加快推进疫苗接种工作,某乡村采取通知公告、微信推送、广播播放、条幅宣传等形式,积极开展疫苗接种社会宣传工作,消除群众疑虑,提高新冠疫苗接种率,让群众充分地认识到了疫苗接种的重要作用,自宣传开始后村干部统计了本村200名居民(未接种)的一个样本,5天内每天新接种疫苗的情况,如下统计表:(2)假设全村共计2000名居民(均未接种过疫苗),用样本估计总体来预测该村80%居民接种新冠疫苗需要几天?参考公式:回归方程y bx a =+中斜率和截距的最小二乘估计公式分别为:1221ˆi ii nii x ynxybxnx π==-=-∑∑,ˆˆay bx =-. 【答案】(1)222955y x =+;(2)7. 【分析】(1)根据公式求线性回归方程即可; (2)根据线性回归方程可设222955n a n ,求出67,S S ,与200080%1600⨯=比较即可求解. 【详解】 (1)1234535x ++++==,1015192328195y ++++==,则51522222222110305792140531922ˆ12345535i ii ii x y nxybxnx ==-++++-⨯⨯===++++-⨯-∑∑,222919355ˆa =-⨯=, 故y 关于x 的线性回归方程222955y x =+. (2)设222955na n ,数列{}n a 的前n 项和为n S ,易知数列{}n a 是等差数列, 则()12222922291155558225n n n a a S n n n n⎛⎫+++ ⎪+⎝⎭=⋅=⋅=+, 因为6127.2S ,7163.8S , 所以6101272S =,7101638S =200080%1600⨯=(人),所以预测该村80%居民接种新冠疫苗需要7天.3.(2021·九龙坡·重庆市育才中学高三月考)随着城市规模的扩大和人们生活水平的日益提高,某市近年机动车保有量逐年递增.根据机动车管理部门的统计数据,以5年为一个研究周期,得到机动车每5年纯增数据情况为:其中,时间变量i 对应的机动车纯增数据为i ,且通过数据分析得到时间变量与对应的机动车纯增数量y (单位:万辆)具有线性相关关系.(1)求机动车纯增数量y (单位:万辆)关于时间变量x 的回归方程,并预测2025~2030年间该市机动车纯增数量的值;附:回归直线方程y bx a =+中斜率和截距的最小二乘估计公式分别为:()()()1122211n ni iiii i nniii i x y nx y x x y y b xnxx x ====-⋅--==--∑∑∑∑;a y bx =-.(2)该市交通管理部门为了了解市民对“单双号限行”的赞同情况,随机采访了200名市民,将他们的意见和是否拥有私家车情况进行了统计,得到如下的22⨯列联表:附:()()()()()22n ad bc K a b c d a c b d -=++++,n a b c d =+++.【答案】(1) 5.7 5.1y x =-,2025~2030年间,机动车纯增数量的值约为34.8万辆;(2)没有95%的把握认为“对限行的意见与是否拥有私家车有关”. 【分析】(1)根据最小二乘法求得线性回归方程,再求估计值即可; (2)根据列联表求得卡方观测值,再对照表即可得解. 【详解】 (1)由 51132639415527237i ii x y=⨯+⨯+⨯+=⨯+⨯=∑.()12222222212375312575.755451234553ni ii ni i x y nx yb x nx==-⋅-⨯⨯====-++++-⨯-∑∑. 因为y bx a =+过点(),x y ,所以 5.7y x a =+,5.1a =-,所以 5.7 5.1y x =-.2025~2030年时,7x =,所以 5.77 5.134.8y =⨯-=, 所以2025~2030年间,机动车纯增数量的值约为34.8万辆.(2)根据列联表,由()()()()()22n ad bc K a b c d a c b d -=++++得观测值为()2220025 3.12510085251575100160084K ⨯⨯-⨯⨯=⨯⨯==,3.125 3.841<,所以没有95%的把握认为“对限行的意见与是否拥有私家车有关”.4.(2021·贵州贵阳·高三月考(理))据贵州省气候中心报,2021年6月上旬,我省降水量在15.2-170.3mm 之间,毕节市局地、遵义市北部、铜仁市局地和黔东南州东南部不足50mm ,其余均在50mmm 以上,局地超过100mm.若我省某地区2021年端午节前后3天,每一天下雨的概率均为50%.通过模拟实验的方法来估计该地区这3天中恰好有2天下雨的概率,利用计算机或计算器可以产生0到9之间取整数值的随机数x (x ∈N ,且09x ≤≤)表示是否下雨:当[]()0,x k k Z ∈∈时表示该地区下雨,当[]1,9x k ∈+时,表示该地区不下雨.因为是3天,所以每三个随机数作为一组,从随机数表中随机取得20组数如下: 332 714 740 945 593 468 491 272 073 445 992 772 951 431 169 332 435 027 898 719(1)求出k 的值,使得该地区每一天下雨的概率均为50%;并根据上述20组随机数估计该地区这3天中恰好有2天下雨的概率;(2)2016年到2020年该地区端午节当天降雨量(单位:mm )如表:回归直线方程y bt a =+.并预测该地区2022年端午节有降雨的话,降雨量约为多少?参考公式:()()()1122211nniii ii i nniii i tty y t y nt yb tttnt====---==--∑∑∑∑,a y bt =-.【答案】(1)4, 25;(2)814955y t =-+,935mm .【分析】(1)由于该地区每一天下雨的概率均为50%,所以150%10k +=,从而可求出k 的值,在所给的20组数据中找出有两天小于等于k 的数,从而利用古典概型的概率公式可求出概率,(2)直接利用所给的数据和公式求出回归直线方程。

(完整版)回归直线方程的三种推导方法

(完整版)回归直线方程的三种推导方法

回归直线方程的三种推导方法 巴州二中母润萍回归直线方程是新课改新增内容之一,在必修数学3中对两个具有线性相关关系的变量利用回归分析的方法进行了研究,书中直接给出了回归直线方程系数的公式,在选修2-3中给出了回归直线方程的截距和斜率的最小二乘法估计公式的另一种形式的推导方法,根据所学知识,我总结了3种推导回归直线方程的方法:设x 与y 是具有线性相关关系的两个变量,且相应于样本的一组观测值的n 个点的坐标分别是:112233()()()()n n x y x y x y x y ,,,,,,,,,设所求的回归方程为i i y bx a =+,(123)i n =,,,,.显然,上面的各个偏差的符号有正、有负,如果将他们相加会相互抵消一部分,因此他们的和不能代表n 个点与回归直线的整体上的接近程度,因而采用n 个偏差的平方和Q 来表示n 个点与相应直线(回归直线)在整体上的接近程度,即Q =∑(y i −y i ̂)2ni=1=∑(y i −bx i −a )2ni=1求出当Q 取最小值时的a b ,的值,就求出了回归方程. 下面给出回归方程的推导方法一:一、先证明两个在变形中用到的公式公式(一)22211()nni ii i x x x nx ==-=-∑∑,其中12nx x x x n +++=证明:2222121()()()()ni n i x x x x x x x x =-=-+-++-∑∵22221212()2n n x x x x x x nxnxn+++=+++-+222222222212121()2()nnni i x x x nx nx x x x x nx==+++-+=+++=-∑22211()nni i i i x x x nx==-=-∑∑∴.公式(二)11()()nnii i i i i xx y y x y nx y==--=-∑∑证明:11221()()()()()()()()ni i n n i x x y y x x y y x x y y x x y y =--=--+--++--∑∵11221122()()n n n n x y x y x y x y y x x y y x x y y x nx y=+++-+++++++12121[()()]ni i n n i x y x x x y y y y x nx y==-++++++++∑12121()()n n n i i i x x x y y y x y n y x nx y n n=++++++⎡⎤=-++⎢⎥⎣⎦∑112nni i i i i i x y nxy nxy x y nxy===-+=-∑∑,11()()nni i i i i i x x y y x y nx y==--=-∑∑∴.二、推导:将Q 的表达式的各项先展开,再合并、变形 2222112233()()()()n n Q y bx a y bx a y bx a y bx a =--+--+--++--2222121122()[2()2()]n y y y y bx a y bx a =+++-+++展开222211111222n n nnni i i i ii i i i i i y b x y a y bxab x na ======--+++∑∑∑∑∑合并同类项22221111122nnii n n ni i i i i i i i i y x na na b b x b x y y nn =====⎛⎫ ⎪ ⎪=--+-+ ⎪ ⎪⎝⎭∑∑∑∑∑以a b ,的次数为标准整理22221112()2nn nii i i i i i na na y bx bxb x y y ====--+-+∑∑∑转化为平均数x y,22222111[()]()2nnnii i i i i i n a y bx n y bx bxb x y y ====----+-+∑∑∑配方法2222222111[()]22nnnii i i i i i n a y bx ny nbxy nb x bxb x y y ====---+-+-+∑∑∑展开222222111[()]()2()()nnni i i i i i i n a y bx b x nx b x y nxy y ny ====--+---++∑∑∑整理2222111[()]()2()()()nnnii i i i i i n a y bx bxx b x x y y y y ====--+----+-∑∑∑用公式(一)、(二)变形22212111()()[()]()()()ni i n ni i i nii i i x x y y n a y bx x x b y y x x ====⎡⎤--⎢⎥⎢⎥=--+--+-⎢⎥-⎢⎥⎣⎦∑∑∑∑配方22212212211111()()()()()()()()()nni i i i n n i i i i n ni i i i i x x y y x x y y n a y bx x x b y y x x x x ======⎡⎤⎡⎤----⎢⎥⎢⎥⎣⎦⎡⎤⎢⎥=--+---+-⎣⎦⎢⎥--⎢⎥⎣⎦∑∑∑∑∑∑配方法在上式中,共有四项,后两项与a b ,无关,为常数;前两项是两个非负数的和,因此要使得Q 取得最小值,当且仅当前两项的值都为0.所以b =∑(x i −x̅)(y i −y ̅)n i=1∑(x i−x̅)2n i=1 a =y ̅−bx̅ 或1221ni ii n i i x ynxyb x nx==-=-∑∑用公式(一)、(二)变形得上述推导过程是围绕着待定参数a b ,进行的,只含有i i x y ,的部分是常数或系数,用到的方法有: ① 配方法,有两次配方,分别是a 的二次三项式和b 的二次三项式; ② 形时,用到公式(一)、(二)和整体思想; ③ 用平方的非负性求最小值.④ 实际计算时,通常是分步计算:先求出x y,,再分别计算1()()nii i xx y y =--∑,21()nii xx =-∑或1ni ii x ynx y=-∑,221nii xnx=-∑的值,最后就可以计算出a b ,的值.推导方法二:Q =∑(y i −y i ̂)2ni=1=∑(y i −bx i −a )2ni=1=∑[y i −bx i −(y ̅−bx̅)+(y ̅−bx̅)−a ]2ni=1=∑{[y i −bx i −(y ̅−bx̅)]2+2[y i −bx i −(y ̅−bx̅)]∗[(y ̅−bx̅)−a ]+[(y ̅−bx̅)−a ]2}ni=1=∑[y i −bx i −(y ̅−bx̅)]2+2∑[y i −bx i −(y ̅−bx̅)]∗[(y ̅−bx̅)−a ]ni=1+n (y ̅−bx̅−a )2ni=1注意到∑[y i −bx i −(y ̅−bx̅)]∗[(y ̅−bx̅)−a ]=(y ̅−bx̅−a )∑[y i −bx i −(y ̅−bx̅)]ni=1ni=1=(y ̅−bx̅−a )[∑y i −b ∑x i −n (y ̅−bx̅)ni=1n i=1]=(y ̅−bx̅−a )[ny ̅−nbx̅−n (y ̅−bx̅)]=0因此,Q =∑[y i −bx i −(y̅−bx̅)]2+n (y ̅−bx̅−a )2n i=1 =b 2∑(x i −x̅)2ni=1−2b ∑(x i −x̅)(y i −y ̅)+∑(y i −y ̅)2ni=1ni=1+n (y ̅−bx̅−a )2=n (y ̅−bx̅−a )2+∑(x i −x̅)2[b −∑(x i −x̅)(y i −y ̅)n i=1∑(x i −x̅)2n i=1]2ni=1−[∑(x i −x̅)(y i −y ̅)n i=1]2∑(x i −x̅)2n i=1+∑(y i −y ̅)2ni=1在上式中,后面两项和a,b 无关,前两项为非负数,因此,要使Q 达到最小值,当且仅当前两项均为0,即有b =∑(x i −x̅)(y i −y ̅)n i=1∑(x i −x̅)2n i=1a =y ̅−bx̅ 总结:这种方法难想到为什么要这样处理,并且计算量很大。

直线回归方程的统计意义

直线回归方程的统计意义

直线回归方程的统计意义一、引言直线回归分析是统计学中常用的一种方法,它可以通过对两个变量之间的关系进行建模,从而预测一个变量对另一个变量的影响。

在直线回归分析中,直线回归方程是非常重要的一个概念。

本文将从统计意义的角度出发,对直线回归方程的意义进行全面详细地阐述。

二、直线回归方程的定义在直线回归分析中,我们通常使用最小二乘法来拟合数据点。

最小二乘法就是寻找一条直线,使得该直线到所有数据点的距离之和最小。

这条直线就被称为“最佳拟合直线”,其方程为y=a+bx,其中a和b分别表示截距和斜率。

三、斜率b的统计意义1. 斜率b代表了自变量x对因变量y的影响程度。

当斜率b为正数时,说明自变量x增加1个单位会导致因变量y增加b个单位;当斜率b为负数时,说明自变量x增加1个单位会导致因变量y减少|b|个单位。

2. 斜率b还可以用来检验两个变量之间是否存在显著相关性。

在假设检验中,我们通常使用t检验来检验斜率b是否显著不为0。

如果t值大于临界值,则我们可以拒绝原假设,认为两个变量之间存在显著相关性。

四、截距a的统计意义1. 截距a代表了当自变量x为0时,因变量y的取值。

2. 截距a还可以用来检验两个变量之间是否存在显著相关性。

在假设检验中,我们通常使用F检验来检验截距a是否显著不为0。

如果F值大于临界值,则我们可以拒绝原假设,认为两个变量之间存在显著相关性。

五、直线回归方程的拟合优度1. 直线回归方程的拟合优度可以用R平方来衡量。

R平方是一个介于0和1之间的数值,表示因变量y中有多少比例可以被自变量x解释。

当R平方越接近1时,说明直线回归方程对数据点的拟合越好。

2. R平方还可以用来判断直线回归分析是否适用于数据集。

如果R平方接近于0,则说明直线回归分析并不适用于该数据集;如果R平方接近于1,则说明直线回归分析非常适用于该数据集。

六、直线回归方程的预测能力1. 直线回归方程可以用来预测因变量y的取值。

当给定自变量x的取值时,我们可以使用直线回归方程来预测因变量y 的取值。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

回归直线方程
若:在一组具有相关关系的变量的数据(x与Y)间,通过散点图我们可观察出所有数据点都分布在一条直线附近,这样的直线可以画出许多条,而我们希望其中的一条最好地反映x与Y之间的关系,即我们要找出一条直线,使这条直线“最贴近”已知的数据点,记此直线方程为(如右所示,记为①式)这里在y的上方加记号“^”,是为了区分Y的实际值y,表示当x取值xi=1,2,……,6)时,Y相应的观察值为yi,而直线上对应于xi的纵坐标是①式叫做Y对x的回归直线方程,相应的直线叫做回归直线,b叫做回归系数。

要确定回归直线方程①,只要确定a与回归系数b。

回归直线的求法。

最小二乘法:总离差不能用n个离差之和来表示,通常是用离差的平方和,即作为总离差,并使之达到最小,这样回归直线就是所有直线中除去最小值的那一条,这种使“离差平方和最小”的方法,叫做最小二乘法用最小二乘法求回归直线方程中的a,b有下面的公式:
回归直线方程求a b公式。

相关文档
最新文档