数学建模-回归分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
对 X 和 Y 进行观测得到样本:
( x1 , y1 ), ( x2, y2 ),
其中
50 40 30 20 10 0 2 4 6 X 8
Y
, ( xn, yn )
xi 不全相等。做散点图如下:
10
12
14
2、数据结构(模型) 设变量 x 与 y 适合:
y a bx 2 N (0, )
i 1 n
(2)最小一乘法
Q(a, b) yi (a bxi )
i 1 n
利用微分法,有 n Q(a, b) 2 ( yi a bxi ) 0 a i 1 n Q(a, b) 2 ( yi a bxi ) xi 0 b i 1 整理后得
回归分析
一、变量之间的两种关系
1、函数关系:y f ( x) 。
2、相关关系:X ,Y 之间有联系,但由 其中一个不能唯一的确定另一个的值。 如: 年龄 X ,血压 Y ; 单位成本 X ,产量 Y ; 高考成绩 X ,大学成绩 Y ; 身高 X ,体重 Y 等等。
二、研究相关关系的内容有
1、相关分析——相关方向及程度(第九章)。 增大而增大——正相关; 增大而减小——负相关。 2、回归分析——模拟相关变量之间的内在 联系,建立相关变量间的近似表达式 (经验 公式)(第八章)。 相关程度强,经验公式的有效性就强, 反之就弱。
ˆ ˆ a ˆ bx y
(8.1.4)
(一元经验线性回归模型),检验(判断) 该模型是否有效。
二、基本原理
1、a 、b 估计值 思想:假定 y a bx 已建立,要使各散点到 y a bx 的垂直距离之和最小。 (1)最小二乘法
Q(a, b) ( yi (a bxi )) 2
2
(8.1.1)
其中 a, b, 是与 x 无关的常数,该模型称 为一元线性回归模型,b 称为回归系数。 (a、b 称为回归参数)
3、基本任务
(1)根据样本 ( xi , yi ) ,如何得到
y a bx
(8.1.2)
的近似表达式,即估计 a ,b (记 a 、b ˆ )。 的估计值为 a ˆ, b (2)由(1)建立
ˆ 于是 b
Lxy Lyy
ˆ 。 ˆ y bx , a
从而得到一元经验线性回归模型
由
ˆ y y ˆi ˆi a ˆ bx y i 2、检验回归方程的显著性
xi
Βιβλιοθήκη Baidu
预测
得
ˆ ˆ a ˆ bx y
, 称为预测值。
欲检验 接受 拒绝
H0 : b 0 H1 : b 0 :表示回归方程无效;
i 1
n
ˆ S剩 S回
其中,S剩 为剩余平方和(或残差平方和), 表示随机误差;S回 为回归平方和,表示回 归效果。 (2)检验统计量: 在 H 0 成立下,即当 b 0 时有
F S回 S剩 (n 2) F (1, n 2) (8.1.5)
代入具体数值得 F值 ,若 Sig. P(F F值 ) 则回归模型显著( 0.01非常显著, 0.05 显著)。
三、回归分析分类标准
1、按自变量个数多少来分类: 如:一个自变量称为一元回归;两个 变量称为二元回归;多个变量称为多元回归。 2、按表达式关系分类: 线性(直线);非线性(曲线)。
四、SPSS 软件中的回归过程有以下 几个方面,见下表:
Linear Curve Estimation Binary Logistic Multinomial Logistic Probit Nonlinear Weight Estimation 2-Stage Least Squares 线性回归 曲线估计 二元逻辑斯谛回归 多元逻辑斯谛回归 概率单位回归 非线性回归 加权估计 二阶段最小二乘法
H0
:表示回归方程有效。
H0 具体方法:
(1)平方和分解
ST ( yi y ) 2
i 1 n n
ˆi ) ( y ˆi y ) ( yi y
i 1 n n
2
2 2 ˆ ˆ ( yi yi ) ( yi y ) i 1 i 1
ˆi )( y ˆi y ) 2 ( yi y
3、衡量模型拟合度的几个指标
(1)标准误差(或标准残差)
S S剩 n2
当 S 越大,拟合越差,反之,S越小, 拟合越好。 (2)复相关函数
R S回 ST 0 R 1
当 R 越大,拟合越好,R 越小,拟合越差。
(3)修正复相关系数
n 1 R 1 (1 R ) n2
2
仍是 R 越大拟合越好。 注: a、修正的原因:R 的大小与变量的个数以及样本 个数有关; R 比 R 要常用。 b、S 和 R 是对拟合程度进行评价,但S与 R 的分 布没有给出,故不能用于检验。 用处:在多种回归模型(线性,非线性)时, 用来比较那种最好;如:通过回归方程显著性检验 得到:
ˆ b
( x x )( y y )
i 1 i i
n
(x x )
i 1 i
n
ˆ ˆ y bx a
2
其中
n
1 n 1 n x xi , y yi n i 1 n i 1
n
引入一些记号:
n 1 2 2 2 Lxx ( xi x ) xi ( xi ) n i 1 i 1 i 1 n 1 Lyy ( yi y ) 2 yi2 ( yi )2 n i 1 i 1 i 1 n 1 n Lxy ( xi x )( yi y ) xi yi xi yi n i 1 i 1 i 1 i 1 n n n n
第一节 一元线性回归模型
一、基本问题
1、样本资料: 变量 X ——一般变量,在实验中人为可以 控制,如年龄 X。 变量 Y ——随机变量,可能发生,也可能 不发生,实验中不能人为控制,如血压 Y。 注:也有两个变量都是无法控制的(都是随 机变量),如高考成绩,大学成绩;身高, 体重等等。哪个作为自变量,哪个作为因变 量都可以,所得结论和上述情况结论类似。