《回归分析》ppt课件之一
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第一章 统计案例
在现实中 , 我们经常会遇到类似下 面的问题 : 肺癌是严重威胁人类性命的一种疾病 , 吸烟 与患肺癌有关系吗 ? 肥胖是影响人类健康的 一个重要因素,身高和 体重之间是否存在 线 性相关关系 ? 等等.
为了回答这些问题 ,必须明确问题涉及的对 象 (总体) 是什么, 用怎样的量来描述要解 决的问 题, 并确定获取变量值 (数据)的方法,然后用恰 当的方法分析数据 ,以得到最可靠的结论 .
思考 当样本容量为 1或2时残差平方和为多少 ? 用这样的样本建立的线 性回归方程的预报误差 为0 吗? 在研究两个变量间的关 系时, 首先要根据散点图 来粗略判断它们是否相 线性相关, 是否可以用线 性回归模型来拟合数据 .然后, 可以通过残差 ˆ 1, e ˆ 2 , , e ˆn e 来判断模型拟合的效果 , 判断原始数据中是否存 残差分析. 在可疑数据 .这方面的分析工作称为
2 n i1
由于Qα,β yi βxi y βx y βx α
n
2
y βx α y βx α
2 n 2
yi βxi y βx 2yi βxi y βx
解决问题的途径是通过 样本的估计值来估计 σ 2 . 根据截距和斜率的估计 公式1和2,可以建立回 ˆx a ˆ, ˆ b 归方程 y ˆ 是5中~ 因此 y y的估计值 .由于随机误差 e y ~ y,
ˆ yy ˆ 是e的估计量 . 所以 e
对于样本点x1, y1 , x 2 , y 2 , , x n , y n 而言, 相应它们的随机误差为 ei y i ~ yi y i bxi a,i 1 ,2, , n.
ˆ 与真实值y 之间的误差的原因之一 值y , 其大小 取决于随机误差的方差 . ˆ 为截距和斜率 ˆ 和b 另一方面 ,由于公式1和2中a 的估计值 ,它们与真实值a 和 b 之间也存在误差 , ˆ 与真实值y之间误差的 这种误差是引起预报值 y 另一个原因 .
思考 产生随机误差项 e的原因是什么 ?
求根据一名女大学生的 身高预报她的体重的回 归方程, 并预报一名身高为 172cm的女大学生的体重 . 70 y 解 由于问题中要求根
65
Biblioteka Baidu
据身高预报体重 ,因此选 取身高为自变量 x , 真实 体重为因变量 y .作散点 图 (图1.1 1) :
60 55 50 45 40 150 155 160 165 170 175
探究 对于一组具有线性相关关系的数据 x1, y1 , x 2 , y 2 , , xn , yn , 我们知道其回归方程的截距和斜率的最小 二乘估计公式分别为: n
ˆx ˆ y b a
1
ˆ b
x
i1 n
i
x y i y
i
x
i1
x
2 i1 n 2
β2 x i x 2β x i x y i y
2 i1 i1
n
n
y i y ny βx α
2 i1
n
2
xi x yi y n 2 2 ny βx α xi x β i1 n 2 i1 x x i i1
2 i1
n
i1
yi βxi y βx 2 yi βxi y βx
n
y βx α ny βx α ,
2
i1
i1
注意到 yi βxi y βx y βx α
i1
n
图1.1 1
ˆ 0.849x ˆ 85.712. 于是得到回归方程 y 所以, 对身高为172cm的女大学生 ,由回归方程可以 预报其体重为 y 0.849 172 85.712 60.316kg .
b 0.849是斜率的估计值 ,说明身高 x每增加 1个单位时 , 体重 y就增加0.849个单位, 这表明 体重与身高具有正的线 性相关关系 .如何描述 它们之间线性相关关系 的强弱 ? 在必修 3中, 我们介绍了用相关系数 r来衡量 两个变量之间线性相关 关系的方法 .样本相 关系数的具体计算公式 为
n
2
x i x y i y n 2 i1 y i y . n 2 i1 x x i
n i1
2
在上式中,后两项和 α,β无关,而前两项为非负 数,因此要使 Q取最小值 ,当且仅当前两项的值 均为0,即有
β
x
x
180
图1.1 1
从图 1.1 1中可以看出 , 样本点呈条状分布, 身 高和体 重有比 较好的 线性相关关系,因此可 以用线 性回归方程刻
y
70 65 60 55 50 45 40 150 155 160 165 170 175
x
180
画它们之间的关系 . 根据探究中的公式 1和2,可以得到 ˆ 0.849. ˆ 85.712, b a
i1 n
n
i
x y i y
i
x
i1
x
, α y βx .
2
这正是我们所要推导的 公式.
下面我们通过案例 , 进一步学习回归分析的 基本思想及其应用 .
例1 从某大学中随机选取8名女大学生, 其身高和体 重数据如表1 1所示. 编号 1 2 3 4 5 6 7 8 身高/ cm 165 165 157 170 175 165 155 170 体重 / kg 48 57 50 54 64 61 43 59
其估计值为 ˆ xi a ˆ i yi y ˆ,i 1 ˆ i yi b e ,2, ,n,
ˆ i称为相应于点x i , y i 的残差(residual).类比样本方 e 差估计总体方差的思想 , 可以用 n 1 1 2 2 ˆ n 2 ˆ ˆ ˆ,b σ e Qa n 2 i1 n2 公式中的分母取 n 2是为了达到更好的估计 效果.
在必修模块中 , 我们学习过关于抽样、 用 样本估计总体、线性回 归等基本知识.本 章中 , 我们将在此基础上 , 通过对典型例案 的讨论, 进一步讨论线性回归分 析方法及 其应用, 并初步了解独立性检验 的基本思 想, 认识统计方法在决策中 的作用 .
1.2 回归分析
我们知道 ,函数关系是一种确定 性关系 , 而相关关系是一种非确 定性关系 .回归分 析(regression analysis ) 是对具有相关关 系的两个变量进行统计 分 析的一种常用 方法.在《 数学3 》 中, 我们对两个具有线 性相关关系的变量利用回归分析 的方法 进行了研究, 其步骤为画散点图, 求回归 直线方程 , 并用回归直线方程进行预报.
实际上 , 一个人的体重值除了受身高的影响外, 还受 许多其他因素的影响 . 例如饮 食习惯、是否喜欢运 动、度量误差等.另外 , 我们选用的线性模 型往往只 是一种近似的模型 .所有这些因素都会导致随 机 误 差项e的产生.
探究 在线性回归模型中, e是用y预报真实值y的 误差, 它是一个不可观测的量, 那么应该怎样研究 随机误差 ? 如何衡量预报的精度 ? 因为随机误差是随机变 量,因此可以通过这个随 机变量的数字特征来刻 画它的一些总体特征 .均 值是反映随机变量取值 平均水平的数字特征 ,方 差是反映随机变量集中 于均值程度的数字特征 , 而随机误差的均值为 0,因此可以用方差 σ 2来衡量 随机误差的大小 . 为了衡量预报的精度 ,需要估计σ 2 的值.一个自然 的想法是通过样本方差 来估计总体方差.如何得 3或 4中的e 到随机变量e的样本呢?由于模型 隐含在预报变量 y中, 我们无法精确地把它从 y中 分离出来,因此也就无法得到随机 变量e的样本.
ˆ x. ˆ y b 公式 1 : a
ˆ 公式 2 b
x
i1 n
n
i
x y i y
1
x
i1
x
.
2
ˆ 由公式12 给出, Q a ˆ ˆ 和b ˆ,b 作为σ 2的估计值, 其中a 称为残差平方和(residual sum of squares).可以用 ˆ 2衡量回归方程的预报精 ˆ 2越小, 预报精度越高 σ 度.σ .
探究 身高 172cm的 女大学生的体重一定 是 60.316kg 吗? 如果 不是, 其原因是什么 ? 显然, 身高172cm的女
大学生的体重不一定 是60.316kg但一般可
70 65 60 55 50 45 40 150 155 160 165 170 175 180
图1.1 2
以认为她的体重接近于60.316kg.图1.1 2中的样 本点和回归直线的相互位置说明了这一点. 由于所有的样本点不共线, 而只是散布在某一条直 线的附近, 所以身高和体重的关系可用下面的线性 3 回归模型来表示 : y bx a e,
表1 2列出女大学生身高和体重的原始数据以及 相应的残差数据.
编号
1
2
3
4 170
5
6
7 155
8 170
身高/ cm 165
165 157
175 165
体重 / kg 48 57 50 54 64 61 43 59 ˆ 6.373 2.627 2.419 4.618 1.137 6.627 2.883 0.382 残差e
,
2
2
n 1 n 其中x x i , y yi .x, y 称为样本点的 n i1 i1 公式吗? 中心.你能推导出这两个计算
回归直线过样本点的中 心.
ˆ 分别是使 ˆ 和斜率 b 从已经学过的知识知道 , 截距a Qα,β yi βxi α 取最小值时 α,β的值.
y βx α yi βxi y βx
i1
n
n n y βx α yi β xi ny βx i1 i1
y βx αny nβx ny βx 0,
所以 Qα, β y i βx i y βx ny βx α
4中,随机误差e的方差σ 2越小, 在线性回归模型 5 通过回归直线~ y bx a, 预报真实值y的精度越高 .随机误差是引起预报
与函数关系不同 , 在回归模型中 , y 的值由x 和随机因 素e共同确定 ,即x只能解释部分 y的变化,因此我们把 x称为解释变量 , 把y称为预报变量 . 这里a和b为模型的未知参数 , e是y与y bx a之间 的误差.通常e为随机变量 , 称为随机误差 , 它的均值 Ee 0, 方差De σ 2 0.这样线性回归模型的完 整表达式为: y bx a e , 4 2 Ee 0,De σ .
r
x x y y
i i i1
n
x
i1
n
i
x
2
y
i1
n
i
y
.
2
当r 0 时, 表明两个变量正相关 ;当r 0 时, 表明两个变量负相关 .r的绝对值越接近 1, 表 明两个变量的线性相关 性越强 ; r越接近于 0 时, 表明两个变量之间几乎 不存在线性相关 关系.通常,当r大于0.75时认为两个变量有很 强的线性相关关系 . 在本例中,可以计算出 r 0.798, 这表明体重 与身高有很强的线性相 关关系 , 从而也表明 我们建立的回归模型是 有意义的 .
在现实中 , 我们经常会遇到类似下 面的问题 : 肺癌是严重威胁人类性命的一种疾病 , 吸烟 与患肺癌有关系吗 ? 肥胖是影响人类健康的 一个重要因素,身高和 体重之间是否存在 线 性相关关系 ? 等等.
为了回答这些问题 ,必须明确问题涉及的对 象 (总体) 是什么, 用怎样的量来描述要解 决的问 题, 并确定获取变量值 (数据)的方法,然后用恰 当的方法分析数据 ,以得到最可靠的结论 .
思考 当样本容量为 1或2时残差平方和为多少 ? 用这样的样本建立的线 性回归方程的预报误差 为0 吗? 在研究两个变量间的关 系时, 首先要根据散点图 来粗略判断它们是否相 线性相关, 是否可以用线 性回归模型来拟合数据 .然后, 可以通过残差 ˆ 1, e ˆ 2 , , e ˆn e 来判断模型拟合的效果 , 判断原始数据中是否存 残差分析. 在可疑数据 .这方面的分析工作称为
2 n i1
由于Qα,β yi βxi y βx y βx α
n
2
y βx α y βx α
2 n 2
yi βxi y βx 2yi βxi y βx
解决问题的途径是通过 样本的估计值来估计 σ 2 . 根据截距和斜率的估计 公式1和2,可以建立回 ˆx a ˆ, ˆ b 归方程 y ˆ 是5中~ 因此 y y的估计值 .由于随机误差 e y ~ y,
ˆ yy ˆ 是e的估计量 . 所以 e
对于样本点x1, y1 , x 2 , y 2 , , x n , y n 而言, 相应它们的随机误差为 ei y i ~ yi y i bxi a,i 1 ,2, , n.
ˆ 与真实值y 之间的误差的原因之一 值y , 其大小 取决于随机误差的方差 . ˆ 为截距和斜率 ˆ 和b 另一方面 ,由于公式1和2中a 的估计值 ,它们与真实值a 和 b 之间也存在误差 , ˆ 与真实值y之间误差的 这种误差是引起预报值 y 另一个原因 .
思考 产生随机误差项 e的原因是什么 ?
求根据一名女大学生的 身高预报她的体重的回 归方程, 并预报一名身高为 172cm的女大学生的体重 . 70 y 解 由于问题中要求根
65
Biblioteka Baidu
据身高预报体重 ,因此选 取身高为自变量 x , 真实 体重为因变量 y .作散点 图 (图1.1 1) :
60 55 50 45 40 150 155 160 165 170 175
探究 对于一组具有线性相关关系的数据 x1, y1 , x 2 , y 2 , , xn , yn , 我们知道其回归方程的截距和斜率的最小 二乘估计公式分别为: n
ˆx ˆ y b a
1
ˆ b
x
i1 n
i
x y i y
i
x
i1
x
2 i1 n 2
β2 x i x 2β x i x y i y
2 i1 i1
n
n
y i y ny βx α
2 i1
n
2
xi x yi y n 2 2 ny βx α xi x β i1 n 2 i1 x x i i1
2 i1
n
i1
yi βxi y βx 2 yi βxi y βx
n
y βx α ny βx α ,
2
i1
i1
注意到 yi βxi y βx y βx α
i1
n
图1.1 1
ˆ 0.849x ˆ 85.712. 于是得到回归方程 y 所以, 对身高为172cm的女大学生 ,由回归方程可以 预报其体重为 y 0.849 172 85.712 60.316kg .
b 0.849是斜率的估计值 ,说明身高 x每增加 1个单位时 , 体重 y就增加0.849个单位, 这表明 体重与身高具有正的线 性相关关系 .如何描述 它们之间线性相关关系 的强弱 ? 在必修 3中, 我们介绍了用相关系数 r来衡量 两个变量之间线性相关 关系的方法 .样本相 关系数的具体计算公式 为
n
2
x i x y i y n 2 i1 y i y . n 2 i1 x x i
n i1
2
在上式中,后两项和 α,β无关,而前两项为非负 数,因此要使 Q取最小值 ,当且仅当前两项的值 均为0,即有
β
x
x
180
图1.1 1
从图 1.1 1中可以看出 , 样本点呈条状分布, 身 高和体 重有比 较好的 线性相关关系,因此可 以用线 性回归方程刻
y
70 65 60 55 50 45 40 150 155 160 165 170 175
x
180
画它们之间的关系 . 根据探究中的公式 1和2,可以得到 ˆ 0.849. ˆ 85.712, b a
i1 n
n
i
x y i y
i
x
i1
x
, α y βx .
2
这正是我们所要推导的 公式.
下面我们通过案例 , 进一步学习回归分析的 基本思想及其应用 .
例1 从某大学中随机选取8名女大学生, 其身高和体 重数据如表1 1所示. 编号 1 2 3 4 5 6 7 8 身高/ cm 165 165 157 170 175 165 155 170 体重 / kg 48 57 50 54 64 61 43 59
其估计值为 ˆ xi a ˆ i yi y ˆ,i 1 ˆ i yi b e ,2, ,n,
ˆ i称为相应于点x i , y i 的残差(residual).类比样本方 e 差估计总体方差的思想 , 可以用 n 1 1 2 2 ˆ n 2 ˆ ˆ ˆ,b σ e Qa n 2 i1 n2 公式中的分母取 n 2是为了达到更好的估计 效果.
在必修模块中 , 我们学习过关于抽样、 用 样本估计总体、线性回 归等基本知识.本 章中 , 我们将在此基础上 , 通过对典型例案 的讨论, 进一步讨论线性回归分 析方法及 其应用, 并初步了解独立性检验 的基本思 想, 认识统计方法在决策中 的作用 .
1.2 回归分析
我们知道 ,函数关系是一种确定 性关系 , 而相关关系是一种非确 定性关系 .回归分 析(regression analysis ) 是对具有相关关 系的两个变量进行统计 分 析的一种常用 方法.在《 数学3 》 中, 我们对两个具有线 性相关关系的变量利用回归分析 的方法 进行了研究, 其步骤为画散点图, 求回归 直线方程 , 并用回归直线方程进行预报.
实际上 , 一个人的体重值除了受身高的影响外, 还受 许多其他因素的影响 . 例如饮 食习惯、是否喜欢运 动、度量误差等.另外 , 我们选用的线性模 型往往只 是一种近似的模型 .所有这些因素都会导致随 机 误 差项e的产生.
探究 在线性回归模型中, e是用y预报真实值y的 误差, 它是一个不可观测的量, 那么应该怎样研究 随机误差 ? 如何衡量预报的精度 ? 因为随机误差是随机变 量,因此可以通过这个随 机变量的数字特征来刻 画它的一些总体特征 .均 值是反映随机变量取值 平均水平的数字特征 ,方 差是反映随机变量集中 于均值程度的数字特征 , 而随机误差的均值为 0,因此可以用方差 σ 2来衡量 随机误差的大小 . 为了衡量预报的精度 ,需要估计σ 2 的值.一个自然 的想法是通过样本方差 来估计总体方差.如何得 3或 4中的e 到随机变量e的样本呢?由于模型 隐含在预报变量 y中, 我们无法精确地把它从 y中 分离出来,因此也就无法得到随机 变量e的样本.
ˆ x. ˆ y b 公式 1 : a
ˆ 公式 2 b
x
i1 n
n
i
x y i y
1
x
i1
x
.
2
ˆ 由公式12 给出, Q a ˆ ˆ 和b ˆ,b 作为σ 2的估计值, 其中a 称为残差平方和(residual sum of squares).可以用 ˆ 2衡量回归方程的预报精 ˆ 2越小, 预报精度越高 σ 度.σ .
探究 身高 172cm的 女大学生的体重一定 是 60.316kg 吗? 如果 不是, 其原因是什么 ? 显然, 身高172cm的女
大学生的体重不一定 是60.316kg但一般可
70 65 60 55 50 45 40 150 155 160 165 170 175 180
图1.1 2
以认为她的体重接近于60.316kg.图1.1 2中的样 本点和回归直线的相互位置说明了这一点. 由于所有的样本点不共线, 而只是散布在某一条直 线的附近, 所以身高和体重的关系可用下面的线性 3 回归模型来表示 : y bx a e,
表1 2列出女大学生身高和体重的原始数据以及 相应的残差数据.
编号
1
2
3
4 170
5
6
7 155
8 170
身高/ cm 165
165 157
175 165
体重 / kg 48 57 50 54 64 61 43 59 ˆ 6.373 2.627 2.419 4.618 1.137 6.627 2.883 0.382 残差e
,
2
2
n 1 n 其中x x i , y yi .x, y 称为样本点的 n i1 i1 公式吗? 中心.你能推导出这两个计算
回归直线过样本点的中 心.
ˆ 分别是使 ˆ 和斜率 b 从已经学过的知识知道 , 截距a Qα,β yi βxi α 取最小值时 α,β的值.
y βx α yi βxi y βx
i1
n
n n y βx α yi β xi ny βx i1 i1
y βx αny nβx ny βx 0,
所以 Qα, β y i βx i y βx ny βx α
4中,随机误差e的方差σ 2越小, 在线性回归模型 5 通过回归直线~ y bx a, 预报真实值y的精度越高 .随机误差是引起预报
与函数关系不同 , 在回归模型中 , y 的值由x 和随机因 素e共同确定 ,即x只能解释部分 y的变化,因此我们把 x称为解释变量 , 把y称为预报变量 . 这里a和b为模型的未知参数 , e是y与y bx a之间 的误差.通常e为随机变量 , 称为随机误差 , 它的均值 Ee 0, 方差De σ 2 0.这样线性回归模型的完 整表达式为: y bx a e , 4 2 Ee 0,De σ .
r
x x y y
i i i1
n
x
i1
n
i
x
2
y
i1
n
i
y
.
2
当r 0 时, 表明两个变量正相关 ;当r 0 时, 表明两个变量负相关 .r的绝对值越接近 1, 表 明两个变量的线性相关 性越强 ; r越接近于 0 时, 表明两个变量之间几乎 不存在线性相关 关系.通常,当r大于0.75时认为两个变量有很 强的线性相关关系 . 在本例中,可以计算出 r 0.798, 这表明体重 与身高有很强的线性相 关关系 , 从而也表明 我们建立的回归模型是 有意义的 .