回归分析PPT课件
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(x2 , y2)
(x1 , y1)
} ei = yi-^yi
(xi , yi)
理学院
yˆ aˆ bˆx
.
6
回归分析的主要内容
理学院
①从一组数据出发确定某些变量之间的定量关系式,即建立数学模型 并估计其中的未知参数。估计参数的常用方法是最小二乘法。 ②对这些关系式的可信程度进行检验。 ③在许多自变量共同影响着一个因变量的关系中,判断哪个(或哪些) 自变量的影响是显著的,哪些自变量的影响是不显著的,将影响显著 的自变量选入模型中,而剔除影响不显著的变量,通常用逐步回归、 向前回归和向后回归等方法。 ④利用所求的关系式对某一生产过程进行预测或控制。回归分析的应 用是非常广泛的,统计软件包使各种回归方法计算十分方便。
.
11
1.回归模型
一元线性回归分析
理学院
若两个变量x, y之间有线性相关关系,其回归模型为:
yi abixi
y 称为因变量,x 称为自变量, 称为随机误差,a, b 称为待估计的回
归参数,下标 i 表示第 i 个观测值。
对于回归模型,我们假设: i ~N(0,2),i1,2, ,n E(ij)0,i j
.
4
回归分析的分类
理学院
涉及的自变量的多少——分为回归和多重回归分析; 因变量的多少——分为一元回归分析和多元回归分析; 自变量和因变量之间的关系类型——分为线性回归分析和非线性回归分析
一元线性回归——最简单的情形是只包括一个自 变量和一个因变量,且它们大体上有线性关系, 这叫一元线性回归,即模型为Y=a+bX+ε,这里X 是自变量,Y是因变量,ε是随机误差。 正态线性模型——若进一步假定随机误差遵从正 态分布,就叫做正态线性模型。
数学建模培训——插值与拟合
王惠群 2015年9月2日
.
1பைடு நூலகம்
主要内容:
* 线性回归 * 非线性回归 * 回归分析的Matlab函数
主要掌握:
*回归分析的基本理论 *用数学软件求解回归分析问题
理学院
在实际生活中,某种现象的发生与某种结果的得出往往与 其他某个或某些因素有关,但这种关系又不是确定的,只 是从数据上可以看出有“有关”的趋势。
可得到: yi ~N(abix , 2)
.
12
例 测16名成年女子的身高与腿长所得数据如下:
身 高 1 4 31 4 51 4 61 4 71 4 91 5 01 5 31 5 41 5 51 5 61 5 71 5 81 5 91 6 01 6 21 6 4 腿 长 8 8 8 5 8 8 9 1 9 2 9 3 9 3 9 5 9 6 9 8 9 7 9 6 9 8 9 91 0 01 0 2
.
7
理学院
在回归分析中,把变量分为两类。一类是因变量,它们通常是实际 问题中所关心的一类指标,通常用Y表示;而影响因变量取值的的 另一变量成为自变量,用X来表示。 回归分析研究的主要问题是: (1)确定Y与X间的定量关系表达式。这种表达式成为回归方程; (2)对求得的回归方程的可信度进行检验; (3)判断自变量X对Y有无影响; (4)利用所求得的回归方程进行预测和控制。
.
13
2.回归方程
去掉回归模型中的扰动项,得理论回归方程为:
yi abxi
如果给出a 和b 的估计量分别为 ,则经验回归方程为:
ˆyi aˆ bˆxi 一般地, ei yi yˆi 称为残差,
e 残差 i 可视为误差 i 的“估计量”。
.
理学院
14
3.一元线性回归图示
y (xn , yn)
.
9
理学院
3)进行相关分析
回归分析是对具有因果关系的影响因素(自变量)和预测对象( 因变量)所进行的数理统计分析处理。只有当变量与因变量确实 存在某种关系时,建立的回归方程才有意义。因此,作为自变量 的因素与作为因变量的预测对象是否有关,相关程度如何,以及 判断这种相关程度的把握性多大,就成为进行回归分析必须要解 决的问题。进行相关分析,一般要求出相关关系,以相关系数的 大小来判断自变量和因变量的相关的程度。
.
8
回归分析的步骤
理学院
1)根据预测目标,确定自变量和因变量
明确预测的具体目标,也就确定了因变量。如预测具体目标是下 一年度的销售量,那么销售量Y就是因变量。通过市场调查和查阅 资料,寻找与预测目标的相关影响因素,即自变量,并从中选出 主要的影响因素。
2)建立回归预测模型
依据自变量和因变量的历史统计资料进行计算,在此基础上建立 回归分析方程,即回归分析预测模型。
.
5
理学院
一般的情形,有多个自变量和一个因变量(多元回归),因变量的值 可以分解为两部分:一部分是由自变量的影响,即表示为自变量的函 数,其中函数形式已知,但含一些未知参数;另一部分是由于其他未 被考虑的因素和随机性的影响,即随机误差。 当函数形式为未知参数的线性函数时,称线性回归分析模型; 当函数形式为未知参数的非线性函数时,称为非线性回归分析模型; 当回归分析中包括两个或两个以上的自变量,且因变量和自变量之间 是线性关系,称为多重线性回归分析模型。
.
10
理学院
4)检验回归预测模型,计算预测误差
回归预测模型是否可用于实际预测,取决于对回归预测模型的 检验和对预测误差的计算。回归方程只有通过各种检验,且预 测误差较小,才能将回归方程作为预测模型进行预测。
5)计算并确定预测值
利用回归预测模型计算预测值,并对预测值进行综合分析,确 定最后的预测值。
以身高x为横坐标,以腿长y为纵坐标将这些数据点(xI,yi)在平面直角 坐标系上标出.
102
100
98 96 94
yi abixi
92
90
88
腿长Y随身高X的增加而增
86
大且呈直线趋势,但并非
84
140
145
150
155
160
165 每个点都恰好在一条直线
散点图
上,这与两变量间严格的
直线函数关系不同。
血压和体 重指数间 的关系
回归分析就是用来研究具有这种特征的变量之间的相关关 系的。
.
3
什么是回归分析?
1)从一组样本数据出发,确定变量之间的数学关系式
2)对这些关系式的可信程度进行各种统计检验,并从影响某 一特定变量的诸多变量中找出哪些变量的影响显著,哪 些不显著
3)利用所求的关系式,根据一个或几个变量的取值来预测或 控制另一个特定变量的取值,并给出这种预测或控制的 精确程度