回归分析的基本思想
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
个原因.
思考:相关系数r与随机误差e有什么关系?
13
14
课后作业
作业
见B本第5a bx e
其中a和b为模型的未知参数,e是y与 y bx a 之间的误差,通常e为随机变量,称为随机误差.
y bx a e 线性回归模型的完整表达式为: 2 E (e ) 0, D(e )
线性回归模型适用范围比一次函数的适用范围大得多.
虽然这种向中心回归的现象只是特定领域里的结论,并不具有 普遍性,但从它所描述的关于X为自变量,Y为不确定的因变量这种 变量间的关系看,和我们现在的回归含义是相同的。
不过,现代回归分析虽然沿用了“回归”一词,但内容已有很大变 化,它是一种应用于许多领域的广泛的分析研究方法,在经济理论 5 研究和实证研究中也发挥着重要作用。
当随机误差e恒等于0时,线性回归模型就变成一次函 数模型.即:一次函数模型是线性回归模型的特殊形式, 线性回归模型是一次函数模型的一般形式.
12
其中:均值E(e)=0,方差D(e)=σ2>0
其他因素的影响
ˆ 与真实值y之间的误差的原因 随机误差是引起预报值 y 之一,其大小取决于随机误差的方差. ˆ 为截距和斜率的估计值,它们与真实值a和b之间 ˆ和 b a ˆ 与真实值y之间的误差的另一 存在误差是引起预报值 y
估计值 60.316kg. P83 认为她的平均体重的估计值是
10
因为所有的样本点不共线,所以线性函数 模型只能近似地刻画身高和体重之间的关系, 即:体重不仅受身高的影响,还受其他因素的 影响,把这种影响的结果用e来表示,从而把 线性函数模型修改为线性回归模型: y=bx+a+e.其中,e包含体重不能由身高的线性 函数解释的所有部分(如:饮食/运动/遗传…).
根据遗传学的观点,子辈的身高受父辈影响,以X记父辈身高, Y记子辈身高。虽然子辈身高一般受父辈影响,但同样身高的父亲, 其子身高并不一致,因此,X和Y之间存在一种相关关系。 一般而言,父辈身高者,其子辈身高也高,依此推论,祖祖辈 辈遗传下来,身高必然向两极分化,而事实上并非如此,显然有一 种力量将身高拉向中心,即子辈的身高有向中心回归的特点。“回 归”一词即源于此。
i=1
n
i
- x)
(y
i=1
n
i
- y)
2
相关系数r的性质 (1)|r|≤1. (2)|r|越接近于1,相关程度越强;|r|越接近于0, 相关程度越弱. 注:b 与 r 同号(见课本82页最后第2段)
9
某大学中随机选取8名女大学生,其身高和体重数据 如下表所示. 编号 体重/kg 1 48 2 57 3 50 4 54 5 64 6 61 7 43 8 59 身高/cm 165 165 157 170 175 165 155 170
(在有的书籍上有体重=身高-110的计算方法)
6
解:取身高为解释变量x,体重为预报变量y,作散点图:
体重 70 60 50 40 30 20 10 0 150 155 160 165 身高 170 175 180
体重
体重
样本点呈条状分布,身高和体重有较好的线性相关关 系,因此可以用回归方程来近似的刻画它们之间的关 系. 7
例1、某大学中随机选取8名女大学生,其身高 和体重数据如下表所示.
编号 体重/kg 1 48 2 57 3 50 4 54 5 64 6 61 7 43 8 59
身高/cm 165 165 157 170 175 165 155 170
求根据女大学生的身高预报体重的回归方程, 并预报一名身高为172cm的女大学生的体重.
2
ˆ 表示有一组具体的数据估计得到的截距和斜率; ˆ,b a
ˆ b
xi yi n x y ( x X )( y Y ) i 1
n i 1 i i
n
(X
i 1
n
i
X)
2
x
i 1
n
2
i
nx
2
ˆ Y bX a
我们一般用a,b,y表示真实值;
ˆ a ˆ 所确定的值. ˆ bx ˆ 表示由估计值 a ˆ,b y
y bx a 表示由真实值a,b所确定的值.
3
两个具有线性相关关系的变量的统计分析: 样本点: ( x1 , y1 ),( x2 , y2 ), ... ,( xn , yn ) (1)画散点图;
ˆ (2)求回归直线方程(最小二乘法):y
ˆ b
( x X )( y Y )
i 1 i i
一般而言父辈身高者其子辈身高也高依此推论祖祖辈辈遗传下来身高必然向两极分化而事实上并非如此显然有一种力量将身高拉向中心即子辈的身高有向中心回归的特点
选修2-3之第三章《统计案例》
3.1 回归分析的基本思想 及其初步应用(一)
1
温故知新 不相关
两个变量的关系 函数关系 线性相关
相关关系
非线性相关 相关关系:对于两个变量,当自变量取值一定时,因 变量的取值带有一定随机性的两个变量之间的关系 . 函数关系中的两个变量间是一种确定性关系。 相关关系是一种非确定性关系。 函数关系是一种理想的关系模型。 相关关系在现实生活中大量存在,是更一般的情况。
由
ˆ b
( x X )( y Y )
i 1 i i
n
(X
i 1
n
i
X)
2
ˆ Y bX a
ˆ 0.849 x 85.712 y 故所求回归方程为:
因此,对于身高172cm的女大学生,由回归方程可以 预报其体重为: ˆ 0.849 172 85.712 60.316(kg ) y
ˆ 0.849, a 得: ˆ 85.712 b
ˆ 0.849 是斜率的估计值,说明身高x每增加1个单 b
位时,体重y就增加0.849个单位,这表明 体重与身高具有正的线性相关关系.
如何描述它们之间线性相关关系的强弱?
8
相关系数 r
r=
(x
i=1
n
i
- x)(yi - y)
2
(x
n
ˆ a ˆ bx
(X
i 1
n
ˆ Y bX a
( X ,Y ) 为样本点的中心
i
X)
2
(3)利用回归直线方程进行预报; 这种方法称为回归分析.
回归分析是对具有相关关系的两个变量进行统计分析 的一种常用方法.
4
什么是回归分析:
“回归”一词是由英国生物学家F.Galton在研究人体身高的遗传问 题时首先提出的。
求根据女大学生的身高预报体重的回归方程,并预报 一名身高为172cm的女大学生的体重.
ˆ 0.849 x 85.712 y 故所求回归方程为:
r=0.798 表明体重与身高有很强的线性相关性,从 而说明我们建立的回归模型是有意义的.
ˆ 0.849 172 85.712 60.316(kg ) y
思考:相关系数r与随机误差e有什么关系?
13
14
课后作业
作业
见B本第5a bx e
其中a和b为模型的未知参数,e是y与 y bx a 之间的误差,通常e为随机变量,称为随机误差.
y bx a e 线性回归模型的完整表达式为: 2 E (e ) 0, D(e )
线性回归模型适用范围比一次函数的适用范围大得多.
虽然这种向中心回归的现象只是特定领域里的结论,并不具有 普遍性,但从它所描述的关于X为自变量,Y为不确定的因变量这种 变量间的关系看,和我们现在的回归含义是相同的。
不过,现代回归分析虽然沿用了“回归”一词,但内容已有很大变 化,它是一种应用于许多领域的广泛的分析研究方法,在经济理论 5 研究和实证研究中也发挥着重要作用。
当随机误差e恒等于0时,线性回归模型就变成一次函 数模型.即:一次函数模型是线性回归模型的特殊形式, 线性回归模型是一次函数模型的一般形式.
12
其中:均值E(e)=0,方差D(e)=σ2>0
其他因素的影响
ˆ 与真实值y之间的误差的原因 随机误差是引起预报值 y 之一,其大小取决于随机误差的方差. ˆ 为截距和斜率的估计值,它们与真实值a和b之间 ˆ和 b a ˆ 与真实值y之间的误差的另一 存在误差是引起预报值 y
估计值 60.316kg. P83 认为她的平均体重的估计值是
10
因为所有的样本点不共线,所以线性函数 模型只能近似地刻画身高和体重之间的关系, 即:体重不仅受身高的影响,还受其他因素的 影响,把这种影响的结果用e来表示,从而把 线性函数模型修改为线性回归模型: y=bx+a+e.其中,e包含体重不能由身高的线性 函数解释的所有部分(如:饮食/运动/遗传…).
根据遗传学的观点,子辈的身高受父辈影响,以X记父辈身高, Y记子辈身高。虽然子辈身高一般受父辈影响,但同样身高的父亲, 其子身高并不一致,因此,X和Y之间存在一种相关关系。 一般而言,父辈身高者,其子辈身高也高,依此推论,祖祖辈 辈遗传下来,身高必然向两极分化,而事实上并非如此,显然有一 种力量将身高拉向中心,即子辈的身高有向中心回归的特点。“回 归”一词即源于此。
i=1
n
i
- x)
(y
i=1
n
i
- y)
2
相关系数r的性质 (1)|r|≤1. (2)|r|越接近于1,相关程度越强;|r|越接近于0, 相关程度越弱. 注:b 与 r 同号(见课本82页最后第2段)
9
某大学中随机选取8名女大学生,其身高和体重数据 如下表所示. 编号 体重/kg 1 48 2 57 3 50 4 54 5 64 6 61 7 43 8 59 身高/cm 165 165 157 170 175 165 155 170
(在有的书籍上有体重=身高-110的计算方法)
6
解:取身高为解释变量x,体重为预报变量y,作散点图:
体重 70 60 50 40 30 20 10 0 150 155 160 165 身高 170 175 180
体重
体重
样本点呈条状分布,身高和体重有较好的线性相关关 系,因此可以用回归方程来近似的刻画它们之间的关 系. 7
例1、某大学中随机选取8名女大学生,其身高 和体重数据如下表所示.
编号 体重/kg 1 48 2 57 3 50 4 54 5 64 6 61 7 43 8 59
身高/cm 165 165 157 170 175 165 155 170
求根据女大学生的身高预报体重的回归方程, 并预报一名身高为172cm的女大学生的体重.
2
ˆ 表示有一组具体的数据估计得到的截距和斜率; ˆ,b a
ˆ b
xi yi n x y ( x X )( y Y ) i 1
n i 1 i i
n
(X
i 1
n
i
X)
2
x
i 1
n
2
i
nx
2
ˆ Y bX a
我们一般用a,b,y表示真实值;
ˆ a ˆ 所确定的值. ˆ bx ˆ 表示由估计值 a ˆ,b y
y bx a 表示由真实值a,b所确定的值.
3
两个具有线性相关关系的变量的统计分析: 样本点: ( x1 , y1 ),( x2 , y2 ), ... ,( xn , yn ) (1)画散点图;
ˆ (2)求回归直线方程(最小二乘法):y
ˆ b
( x X )( y Y )
i 1 i i
一般而言父辈身高者其子辈身高也高依此推论祖祖辈辈遗传下来身高必然向两极分化而事实上并非如此显然有一种力量将身高拉向中心即子辈的身高有向中心回归的特点
选修2-3之第三章《统计案例》
3.1 回归分析的基本思想 及其初步应用(一)
1
温故知新 不相关
两个变量的关系 函数关系 线性相关
相关关系
非线性相关 相关关系:对于两个变量,当自变量取值一定时,因 变量的取值带有一定随机性的两个变量之间的关系 . 函数关系中的两个变量间是一种确定性关系。 相关关系是一种非确定性关系。 函数关系是一种理想的关系模型。 相关关系在现实生活中大量存在,是更一般的情况。
由
ˆ b
( x X )( y Y )
i 1 i i
n
(X
i 1
n
i
X)
2
ˆ Y bX a
ˆ 0.849 x 85.712 y 故所求回归方程为:
因此,对于身高172cm的女大学生,由回归方程可以 预报其体重为: ˆ 0.849 172 85.712 60.316(kg ) y
ˆ 0.849, a 得: ˆ 85.712 b
ˆ 0.849 是斜率的估计值,说明身高x每增加1个单 b
位时,体重y就增加0.849个单位,这表明 体重与身高具有正的线性相关关系.
如何描述它们之间线性相关关系的强弱?
8
相关系数 r
r=
(x
i=1
n
i
- x)(yi - y)
2
(x
n
ˆ a ˆ bx
(X
i 1
n
ˆ Y bX a
( X ,Y ) 为样本点的中心
i
X)
2
(3)利用回归直线方程进行预报; 这种方法称为回归分析.
回归分析是对具有相关关系的两个变量进行统计分析 的一种常用方法.
4
什么是回归分析:
“回归”一词是由英国生物学家F.Galton在研究人体身高的遗传问 题时首先提出的。
求根据女大学生的身高预报体重的回归方程,并预报 一名身高为172cm的女大学生的体重.
ˆ 0.849 x 85.712 y 故所求回归方程为:
r=0.798 表明体重与身高有很强的线性相关性,从 而说明我们建立的回归模型是有意义的.
ˆ 0.849 172 85.712 60.316(kg ) y