第九章--线性回归与方差分析.
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
其中yi是x=xi时随机变量Y的观测结果.将n对观测结 果(xi,yi)(i=1,…,n)在直角坐标系中进行描点, 这种描点图称为散点图.散点图可以帮助我们精略 地看出Y与x之间的某种关系.
例1 对某广告公司为了研究某一类产品的广告费用x 与其销售额Y之间的关系,对多个厂家进行调查, 获得如下数据
第九章 线性回归分析与方差分析
第一节 第二节 第三节 第四节 一元线性回归分析 可线性化的非线性回归 多元线性回归简介 方差分析
第一节 一元线性回归分析
在许多实际问题中,我们常常需要研究多 个变量之间的相互关系。 一般来说,变量之间的关系可分为两类: 一类是确定性关系,确定性关系是指变量之间的关 系可以用函数关系来表达,例如电流I电压V电 阻R之间有关系式V=IR。 另一类是非确定性关系,有些变量之间的关系是非 确定性的关系,这种关系无法用一个精确的函数 式来表示。
例如,农作物的单位面积产量与施肥量之间有 密切的关系,但是不能由施肥量精确知道单位面积 产量,这是因为单位面积产量还受到许多其他因素 及一些无法控制的随机因素的影响。 又如,人的身高与体重之间存在一种关系,一般来 说,人身高越高,体重越大, 但同样高度的人,体重却往往不同。这种变量之间 的不确定性关系称之为相关关系。 对于具有相关关系的变量,虽然不能找到他们之间 的确定表达式,但是通过大量的观测数据,可以发 现他们之间存在一定的统计规律, 数理统计中研究变量之间相关关系的一种有效方法 就是回归分析。
这样a,b的估计值可写成
ˆ b a ˆ
S xy S xx 1 ˆ 1 yi x i b n i 1 n i 1
二、 参数a、b、 2 的估计
现在我们用最小二乘法来估计模型(1)中的 未知参数a,b. 记 Q Q(a, b) i2 ( yi a bxi ) 2
i 1 i 1 n n
称Q(a, b)为偏差平方和 最小二乘法就是选择a,b的估计 Q(a, b)为最小(图9-2)
一般地,假设x与Y之间的相关关系可表示为 (1) Y a bx 其中:a, b为未知常数 为随机误差且 ~ N (0, 2 ) 2 未知,
x与Y的这种关系称为一元线性回归模型 y=a+bx称为回归直线 b称为回归系数
此时
Y ~ N (a bx, 2 )
yi a bxi i i 1, , n 2 ~ N ( 0 , ) 1 , , n相互独立 i
ˆ ,使得 ˆ, b a
图9-2
为了求Q(a, b)的最小值,分别求Q关于a, b的偏导数,并令它们等于零:
n a Q(a, b) ( y i a bxi )(2) 0 i 1 n Q ( a, b) ( y i a bxi )(2 xi ) 0 i 1 b
经整理后得到
n n na xi b bi i 1 i 1 n n 2 xi a xi b i 1 i 1
(2)
x
i 1
n
i
yi
式(2)称为正规方程组.
由正 规方程组解得
一、 一元线性回归模型
假定我们要考虑自变量x与因变量Y之间的相关关系 假设x为可以控制或可以精确观察的变量,即x为普 通的变量。由于自变量x给定后,因变量Y并不能确 定,从而Y是一个与x有关的随机变量 我们对于可控制变量x取定一组不完全相同的值 x1,…,xn,作n次独立试验,得到n对观测结果:
(x1,y1) ,(x2,y2),…,(xn, yn)
ˆ b
(x
i 1 n
n
i
x )( y i y )
2 ( x x ) i i 1
ˆx ˆ y b a
其中
1 n 1 n x xi , y yBiblioteka Baidui n i 1 n i 1
ˆ 分别称为a、b的最 用最小二乘法求出的估计 a ˆ、 b 小二乘估计 ˆ ˆ a ˆ bx y 此时,拟合直线为
或
ˆ( x x) y y b
拟合直线也称为y关于x的经验回归方程、 有时也称为y关于x的一元线性回归方程
为了计算上的方便, 引入下述记号:
2 n n n 1 2 2 S xx ( xi x ) xi xi n i 1 i 1 i 1 n n n 1 n S xy ( xi x )( yi y ) xi yi xi yi . n i 1 i 1 i 1 i 1 2 n n n 1 2 S ( y y )2 yi yi yy i n i 1 i 1 i 1
厂 家 1 6 31 2 10 58 3 21 124 4 40 220 5 62 299 6 62 190 7 90 320 8 100 406 9 120 380 广告费 销售额
广告费与销售额之间不可能存在一个明确的 函数关系,事实上,即使不同的厂家投入了相同 的广告费,其销售额也不会是完全相同的。影响 销售额的因素是多种多样的,除了广告投入的影 响,还与厂家产品的特色、定价、销售渠道、售 后服务以及其他一些偶然因素有关。
对于(x, Y)的样本(x1,y1),…,(xn,yn)有:
ˆ, 如果由样本得到式(1)中,a, b的估计值 a ˆ, b ˆx为拟合直线或经验回归直线,它 则称 y ˆ a ˆ b 可作为回归直线的估计
一元线性回归主要解决下列一些问题: 2 (1)利用样本对未知参数a、b、 进行估计; (2)对回归模型作显著性检验; (3)当x=x0时对Y的取值作预测,即对Y作区间 估计.
例1 对某广告公司为了研究某一类产品的广告费用x 与其销售额Y之间的关系,对多个厂家进行调查, 获得如下数据
第九章 线性回归分析与方差分析
第一节 第二节 第三节 第四节 一元线性回归分析 可线性化的非线性回归 多元线性回归简介 方差分析
第一节 一元线性回归分析
在许多实际问题中,我们常常需要研究多 个变量之间的相互关系。 一般来说,变量之间的关系可分为两类: 一类是确定性关系,确定性关系是指变量之间的关 系可以用函数关系来表达,例如电流I电压V电 阻R之间有关系式V=IR。 另一类是非确定性关系,有些变量之间的关系是非 确定性的关系,这种关系无法用一个精确的函数 式来表示。
例如,农作物的单位面积产量与施肥量之间有 密切的关系,但是不能由施肥量精确知道单位面积 产量,这是因为单位面积产量还受到许多其他因素 及一些无法控制的随机因素的影响。 又如,人的身高与体重之间存在一种关系,一般来 说,人身高越高,体重越大, 但同样高度的人,体重却往往不同。这种变量之间 的不确定性关系称之为相关关系。 对于具有相关关系的变量,虽然不能找到他们之间 的确定表达式,但是通过大量的观测数据,可以发 现他们之间存在一定的统计规律, 数理统计中研究变量之间相关关系的一种有效方法 就是回归分析。
这样a,b的估计值可写成
ˆ b a ˆ
S xy S xx 1 ˆ 1 yi x i b n i 1 n i 1
二、 参数a、b、 2 的估计
现在我们用最小二乘法来估计模型(1)中的 未知参数a,b. 记 Q Q(a, b) i2 ( yi a bxi ) 2
i 1 i 1 n n
称Q(a, b)为偏差平方和 最小二乘法就是选择a,b的估计 Q(a, b)为最小(图9-2)
一般地,假设x与Y之间的相关关系可表示为 (1) Y a bx 其中:a, b为未知常数 为随机误差且 ~ N (0, 2 ) 2 未知,
x与Y的这种关系称为一元线性回归模型 y=a+bx称为回归直线 b称为回归系数
此时
Y ~ N (a bx, 2 )
yi a bxi i i 1, , n 2 ~ N ( 0 , ) 1 , , n相互独立 i
ˆ ,使得 ˆ, b a
图9-2
为了求Q(a, b)的最小值,分别求Q关于a, b的偏导数,并令它们等于零:
n a Q(a, b) ( y i a bxi )(2) 0 i 1 n Q ( a, b) ( y i a bxi )(2 xi ) 0 i 1 b
经整理后得到
n n na xi b bi i 1 i 1 n n 2 xi a xi b i 1 i 1
(2)
x
i 1
n
i
yi
式(2)称为正规方程组.
由正 规方程组解得
一、 一元线性回归模型
假定我们要考虑自变量x与因变量Y之间的相关关系 假设x为可以控制或可以精确观察的变量,即x为普 通的变量。由于自变量x给定后,因变量Y并不能确 定,从而Y是一个与x有关的随机变量 我们对于可控制变量x取定一组不完全相同的值 x1,…,xn,作n次独立试验,得到n对观测结果:
(x1,y1) ,(x2,y2),…,(xn, yn)
ˆ b
(x
i 1 n
n
i
x )( y i y )
2 ( x x ) i i 1
ˆx ˆ y b a
其中
1 n 1 n x xi , y yBiblioteka Baidui n i 1 n i 1
ˆ 分别称为a、b的最 用最小二乘法求出的估计 a ˆ、 b 小二乘估计 ˆ ˆ a ˆ bx y 此时,拟合直线为
或
ˆ( x x) y y b
拟合直线也称为y关于x的经验回归方程、 有时也称为y关于x的一元线性回归方程
为了计算上的方便, 引入下述记号:
2 n n n 1 2 2 S xx ( xi x ) xi xi n i 1 i 1 i 1 n n n 1 n S xy ( xi x )( yi y ) xi yi xi yi . n i 1 i 1 i 1 i 1 2 n n n 1 2 S ( y y )2 yi yi yy i n i 1 i 1 i 1
厂 家 1 6 31 2 10 58 3 21 124 4 40 220 5 62 299 6 62 190 7 90 320 8 100 406 9 120 380 广告费 销售额
广告费与销售额之间不可能存在一个明确的 函数关系,事实上,即使不同的厂家投入了相同 的广告费,其销售额也不会是完全相同的。影响 销售额的因素是多种多样的,除了广告投入的影 响,还与厂家产品的特色、定价、销售渠道、售 后服务以及其他一些偶然因素有关。
对于(x, Y)的样本(x1,y1),…,(xn,yn)有:
ˆ, 如果由样本得到式(1)中,a, b的估计值 a ˆ, b ˆx为拟合直线或经验回归直线,它 则称 y ˆ a ˆ b 可作为回归直线的估计
一元线性回归主要解决下列一些问题: 2 (1)利用样本对未知参数a、b、 进行估计; (2)对回归模型作显著性检验; (3)当x=x0时对Y的取值作预测,即对Y作区间 估计.