回归分析(5)
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2016/5/10 27
而知。 为此,研究者选用二元二次多项 式回归模型 2 y 0 1 x1 2 x2 11 x1
2 22 x2
12 x1 x2
并检验交互效应和风险反感度的二次 效应。
2016/5/10 28
序号
x1
x2
y
1
2 3 4
66.29
40.964 72.996 45.01
7
5 10 6
196
63 252 84
5
6
57.204
26.852 38.122 35.84
4
5 4 6
126
14 49 49
数 据 表
7 8
9
10 11 12
75.796
37.408 54.376 46.186
9
5 2 7
266
49 105 98
13
14 15 16
第10章 非线性回归
线性回归的理论较为成熟,应用 也较为广泛。但当被解释变量与解释 变量之间呈某种曲线关系时,就必须 用非线性回归。 本章首先介绍可线性化的非线性 回归,然后介绍多项式回归,最后简 要介绍了一般的非线性回归模型。
2016/5/10 2
§1 可线性化的非线性回归
1. 线性化的含义及途径 因为线性回归的“线性”是针对 参数而言,而不是针对自变量而言, 所以有些非线性回归模型可以通过变 量代换转化为线性回归模型。 例如, bx y 0 1e (b已知)
首先做三元线性回归,结果如下:
2016/5/10 37
线性回归
2016/5/10
38
显然,回归效果极差。 可将所有项选入,然后选择逐步 回归法,结果如下:
2016/5/10
39
逐步回归
2016/5/10
40
2016/5/10
41
2016/5/10
42
具体回归方程为 y 16.170 9.017 x1 0.400 x2
2016/5/10 11
(1) 双曲函数 x 1 1 y 即 ab ax b y x
2016/5/10
12
(2) S型函数II
1 y x a be
2016/5/10
13
此函数显然有两条渐近线y=0和y =1/a。 S 型函数有多种,其共同特点是 曲线首先缓慢增长,在达到某点后迅 速增长,在超过某点后又缓慢增长, 最终趋于一个稳定值。 S 型函数在许多领域都有广泛的 应用,例如产品的销售量、农作物的
例10.1 对下表中的GDP数据进行 非线性回归。 解 首先做数据散点图。 分析->回归->曲线估计。 分别选线性和复合函数进行回归, 结果见下。
2016/5/10
16
年份 1981
t 1
y 4862.4
y1 4296.35
e 566.05
1982
1983 1984 1985
2
3 4 5
5294.7
46.13
30.366 39.06 79.38
4
3 5 1
77
14 56 245
17
2016/5/10
52.766
55.916
8
6
133
133
29
18
为了清楚地看到各项对回归的贡 献,使显著性检验更加明确,采用逐 个引入自变量的方法。 2 2 首先由x1和x2的值求出 x1 , x2 , x1 x2 的值,然后用下列方法依次引入变量 2 2 x1 , x2 , x1 , x2 , x1 x2 : 先选入y和x1, 然后下一张,再选 入x1, x2 , 然后再下一张, 再选入x1 , x2 ,
2016/5/10 14
生长、病毒的传播速率与时间的关系 等都可以用S型函数研究。 SPSS 中的 S 型函数 y=exp(b0+b1/t) 当b1<0时属通常意义的S型函数; 当b1 >0时不属通常意义的S型函数。 另外, SPSS 中的 Logistic 函数也 是S型函数。
2016/5/10 15
1994
1995 1996 1997
2016/5/10
14
15 16 17
46759.4
58478.1 67884.6 74462.6
42331.77
50477.13 60189.80 71771.35
4427.63
8000.97 7694.80 2691.25
1998
18
79395.7
85581.38
2016/5/10 22
Origin拟合效果图
90000
60000
adj. R 0.9934
2
B
30000
0
0
8
16
A
2016/5/10
23
§2 多项式回归
多项式回归是一种较为重要的非 线性回归模型,有较广泛的应用。 1. 几种常见的多项式回归模型
常见的多项式回归模型有一元二 次模型 2 y 0 1 x 11 x
和一元三次模型
y 0 1 x 11 x 111 x
2 3
2016/5/10 25
三次及以上的多项式回归模型较 少使用,因为此时回归系数的解释比 较困难,回归模型的数值稳定性也不 太高,不利于应用。 多元多项式回归比较复杂,较少 使用。二元多项式回归模型为
y 0 1 x1 2 x2
其标准化形式为
2 0.0135 x1 x3 0.0799 x2
y 16.170 1.825 x1 0.264 x2 0.203 x1 x3
2 2.710 x2
2016/5/10
43
从标准化回归方程中可以看出, 2 四个变量的作用由大到小依次为:x2 x1 , x2 , x1 x3 。 根据回归方程分析,提取时间还 有必要延长; 提取温度和提取液pH值 有交互作用,且系数为正,故较高的 温度更有利于提取蛋白; pH 值应稍 低些更佳。
-6185.68
17
数据散点图
2016/5/10
18
线性回归
2016/5/10
19
指数回归
2016/5/10
20
回归效果图
2016/5/10
21
需要说明的是,回归分析的一个 重要应用是预测,而预测的方法有多 种,如拟合 ( 回归 ) 、灰色模型、时间 序列和神经网络等。 相比较而言, Origin 的拟合功能 更强,提供了更多的线型,可以图形 的帮助下选择较合适的线型。
2016/5/10 44
由于本例中最好的实验条件是 x1 13.1, x2 48.0, x3 60 根据前述分析,影响蛋白提取浓度的 最主要因素是提取时间,提取时间应 在48h以上;提取液pH值是第二重要 因素, pH 值应比 13.10 再低些;提取 温度应该控制在60º C以上。
2016/5/10 45
2016/5/10 5
y 0 1 x1 p x p
对模型3,可先两边取对数,得 ln y ln a bx 然后再令
பைடு நூலகம்
y ln y, 0 ln a, 1 b 原模型化为线性回归模型 y 0 1 x
2016/5/10 6
2016/5/10 36
数据表
x1 10.00 1.56 13.10 6.00 0.86 12.40 3.00 x2 32.00 8.00 48.00 24.00 2.00 40.00 16.00 x3 100.00 80.00 60.00 45.00 35.00 20.00 10.00 y 8.50 5.80 73.60 2.20 8.30 19.60 3.50
34
具体回归方程为 y 62.349 0.840 x1
5.685 x2 其标准化形式为 0.164 x2
2 0.037 x1
y 62.349 0.164 x1
2 0.785 x1
2016/5/10
35
例10.3 用均匀设计法研究从烤烟 中提取粗蛋白的实验条件。目标变量 y 是提取的蛋白质尝试,三个实验因 子分别为:提取液pH值x1,提取时间 x2的,提取温度x1。 采用U7(73)均匀设计表, 试验安排 与结果如下表:
类似于例 10.3 寻找最优生产条件 的问题在医药、食品行业较为常见。 解决此类问题较适当的方法是将试验 设计方法与回归分析方法相结合—— 响应面分析。 相关内容见下学期的试验设计与 分析课程。
2016/5/10 46
§3 非线性回归模型
1. 非线性最小二乘估计 非线性回归模型一般可记为 yi f xi , i , i 1,2,, n T xi xi 1 , xi 2 ,, xik 其中 yi 是因变量, 是自变量, 是未知 0 ,1 ,, p i 是随机误差项并满足独 参数向量, 立同分布假设,即
(1) 新引进的自变量只能依赖于 原始变量,而不能与未知参数有关。 若模型 1 中的 b 未知,则模型 1 不能线 性化。 可线性化的非线性回归模型称为 本质线性回归模型,不可线性化的非 线性回归模型称为本质非线性回归模 型。
2016/5/10 7
(2) 非线性化模型能否线性化不 仅与回归函数的形式有关,而且与误 差项的形式也有关。 例如,模型 3 的误差项为乘性误 差项,可以线性化,而模型 4 的误差 项为加性误差项,不可以线性化。 在对非线性回归模型进行线性化 时,总是假定误差项满足可线性化条
y 0 1 x p x
p
2016/5/10 4
y ae e
bx
bx
y ae 对模型1,只要令 x e bx 即可化
为线性回归模型 y 0 1 x 对模型2,令 2 p x1 x , x2 x , , x p x 原模型化为多元线性回归模型
2016/5/10 48
T
E i 0, i 1, 2, , n, 2 , i j , i , j 1, 2, , n cov i , j 0, i j .
-154.96
-387.56 201.88 -650.84
1990
1991 1992 1993
10
11 12 13
18547.9
21617.8 26638.1 34634.4
20938.89
24967.89 29772.14 35500.81
-2390.99
-3350.09 -3134.04 -866.41
2016/5/10 8
析,所以通常略去误差项,而仅写出 回归函数。 bx 例如,模型3常简记为 y ae 。
2. 常用可线性化的曲线回归方程 SPSS 中给出了 11 种常见的可线 性化的非线性回归方程,见下表。
2016/5/10
9
2016/5/10
10
显然,上述曲线中的复合函数、 增长函数和指数函数等价,只是形式 不同。 若选用上述曲线进行回归,只需 选用分析->回归->曲线估计菜单即可, 而不必做任何变换。 除了上述曲线外,还有下列几种 常用回归曲线。
2016/5/10 30
2 x1 ,
以此类推。方差分析表如下:
2016/5/10
31
根据下列公式计算得偏F统计量 SSR( i ) 1 Fi SSE n p 1
2016/5/10
32
下面检验交互效应和风险反感度 的二次效应。 因为交互影响项系数显著性检验 的偏 F 值 =2.00 ,临界值 F(1,2)=4.75 , 交互影响项系数没通过显著性检验, 所以回归模型中不应该包含交互作用 项x12。 又风险反感度二次效应项的偏F=
2016/5/10
2 11 x1
2 22 x2
12 x1 x2
26
2. 多项式回归应用实例 例10.2 根据下表研究给定年龄组 内经理的人寿保险额 y 与年均收入 x1 和风险反感度x2的关系。 研究者认为年均收入与人寿保险 额有二次关系,风险反感度与人寿保 险额只有线性关系,年均收入风险反 感度对人寿保险额有无交互效应不得
5934.5 7171.0 8964.4
5123.04
6108.80 7284.24 8685.86
171.66
-174.30 -113.24 278.54
1986
1987 1988 1989
6
7 8 9
10202.2
11962.5 14928.3 16909.2
10357.16
12350.06 14726.42 17560.04
2016/5/10 33
0.93,临界值F(1,13)=4.67,也没通过 显著性检验,所以回归模型中也不应
2。 该包含二次效应项 x2 2 类似可验证, x1 项通过显著性检
验。 综上,最终选用下列回归模型
y 0 1 x1 2 x2
2016/5/10
2 11 x1
而知。 为此,研究者选用二元二次多项 式回归模型 2 y 0 1 x1 2 x2 11 x1
2 22 x2
12 x1 x2
并检验交互效应和风险反感度的二次 效应。
2016/5/10 28
序号
x1
x2
y
1
2 3 4
66.29
40.964 72.996 45.01
7
5 10 6
196
63 252 84
5
6
57.204
26.852 38.122 35.84
4
5 4 6
126
14 49 49
数 据 表
7 8
9
10 11 12
75.796
37.408 54.376 46.186
9
5 2 7
266
49 105 98
13
14 15 16
第10章 非线性回归
线性回归的理论较为成熟,应用 也较为广泛。但当被解释变量与解释 变量之间呈某种曲线关系时,就必须 用非线性回归。 本章首先介绍可线性化的非线性 回归,然后介绍多项式回归,最后简 要介绍了一般的非线性回归模型。
2016/5/10 2
§1 可线性化的非线性回归
1. 线性化的含义及途径 因为线性回归的“线性”是针对 参数而言,而不是针对自变量而言, 所以有些非线性回归模型可以通过变 量代换转化为线性回归模型。 例如, bx y 0 1e (b已知)
首先做三元线性回归,结果如下:
2016/5/10 37
线性回归
2016/5/10
38
显然,回归效果极差。 可将所有项选入,然后选择逐步 回归法,结果如下:
2016/5/10
39
逐步回归
2016/5/10
40
2016/5/10
41
2016/5/10
42
具体回归方程为 y 16.170 9.017 x1 0.400 x2
2016/5/10 11
(1) 双曲函数 x 1 1 y 即 ab ax b y x
2016/5/10
12
(2) S型函数II
1 y x a be
2016/5/10
13
此函数显然有两条渐近线y=0和y =1/a。 S 型函数有多种,其共同特点是 曲线首先缓慢增长,在达到某点后迅 速增长,在超过某点后又缓慢增长, 最终趋于一个稳定值。 S 型函数在许多领域都有广泛的 应用,例如产品的销售量、农作物的
例10.1 对下表中的GDP数据进行 非线性回归。 解 首先做数据散点图。 分析->回归->曲线估计。 分别选线性和复合函数进行回归, 结果见下。
2016/5/10
16
年份 1981
t 1
y 4862.4
y1 4296.35
e 566.05
1982
1983 1984 1985
2
3 4 5
5294.7
46.13
30.366 39.06 79.38
4
3 5 1
77
14 56 245
17
2016/5/10
52.766
55.916
8
6
133
133
29
18
为了清楚地看到各项对回归的贡 献,使显著性检验更加明确,采用逐 个引入自变量的方法。 2 2 首先由x1和x2的值求出 x1 , x2 , x1 x2 的值,然后用下列方法依次引入变量 2 2 x1 , x2 , x1 , x2 , x1 x2 : 先选入y和x1, 然后下一张,再选 入x1, x2 , 然后再下一张, 再选入x1 , x2 ,
2016/5/10 14
生长、病毒的传播速率与时间的关系 等都可以用S型函数研究。 SPSS 中的 S 型函数 y=exp(b0+b1/t) 当b1<0时属通常意义的S型函数; 当b1 >0时不属通常意义的S型函数。 另外, SPSS 中的 Logistic 函数也 是S型函数。
2016/5/10 15
1994
1995 1996 1997
2016/5/10
14
15 16 17
46759.4
58478.1 67884.6 74462.6
42331.77
50477.13 60189.80 71771.35
4427.63
8000.97 7694.80 2691.25
1998
18
79395.7
85581.38
2016/5/10 22
Origin拟合效果图
90000
60000
adj. R 0.9934
2
B
30000
0
0
8
16
A
2016/5/10
23
§2 多项式回归
多项式回归是一种较为重要的非 线性回归模型,有较广泛的应用。 1. 几种常见的多项式回归模型
常见的多项式回归模型有一元二 次模型 2 y 0 1 x 11 x
和一元三次模型
y 0 1 x 11 x 111 x
2 3
2016/5/10 25
三次及以上的多项式回归模型较 少使用,因为此时回归系数的解释比 较困难,回归模型的数值稳定性也不 太高,不利于应用。 多元多项式回归比较复杂,较少 使用。二元多项式回归模型为
y 0 1 x1 2 x2
其标准化形式为
2 0.0135 x1 x3 0.0799 x2
y 16.170 1.825 x1 0.264 x2 0.203 x1 x3
2 2.710 x2
2016/5/10
43
从标准化回归方程中可以看出, 2 四个变量的作用由大到小依次为:x2 x1 , x2 , x1 x3 。 根据回归方程分析,提取时间还 有必要延长; 提取温度和提取液pH值 有交互作用,且系数为正,故较高的 温度更有利于提取蛋白; pH 值应稍 低些更佳。
-6185.68
17
数据散点图
2016/5/10
18
线性回归
2016/5/10
19
指数回归
2016/5/10
20
回归效果图
2016/5/10
21
需要说明的是,回归分析的一个 重要应用是预测,而预测的方法有多 种,如拟合 ( 回归 ) 、灰色模型、时间 序列和神经网络等。 相比较而言, Origin 的拟合功能 更强,提供了更多的线型,可以图形 的帮助下选择较合适的线型。
2016/5/10 44
由于本例中最好的实验条件是 x1 13.1, x2 48.0, x3 60 根据前述分析,影响蛋白提取浓度的 最主要因素是提取时间,提取时间应 在48h以上;提取液pH值是第二重要 因素, pH 值应比 13.10 再低些;提取 温度应该控制在60º C以上。
2016/5/10 45
2016/5/10 5
y 0 1 x1 p x p
对模型3,可先两边取对数,得 ln y ln a bx 然后再令
பைடு நூலகம்
y ln y, 0 ln a, 1 b 原模型化为线性回归模型 y 0 1 x
2016/5/10 6
2016/5/10 36
数据表
x1 10.00 1.56 13.10 6.00 0.86 12.40 3.00 x2 32.00 8.00 48.00 24.00 2.00 40.00 16.00 x3 100.00 80.00 60.00 45.00 35.00 20.00 10.00 y 8.50 5.80 73.60 2.20 8.30 19.60 3.50
34
具体回归方程为 y 62.349 0.840 x1
5.685 x2 其标准化形式为 0.164 x2
2 0.037 x1
y 62.349 0.164 x1
2 0.785 x1
2016/5/10
35
例10.3 用均匀设计法研究从烤烟 中提取粗蛋白的实验条件。目标变量 y 是提取的蛋白质尝试,三个实验因 子分别为:提取液pH值x1,提取时间 x2的,提取温度x1。 采用U7(73)均匀设计表, 试验安排 与结果如下表:
类似于例 10.3 寻找最优生产条件 的问题在医药、食品行业较为常见。 解决此类问题较适当的方法是将试验 设计方法与回归分析方法相结合—— 响应面分析。 相关内容见下学期的试验设计与 分析课程。
2016/5/10 46
§3 非线性回归模型
1. 非线性最小二乘估计 非线性回归模型一般可记为 yi f xi , i , i 1,2,, n T xi xi 1 , xi 2 ,, xik 其中 yi 是因变量, 是自变量, 是未知 0 ,1 ,, p i 是随机误差项并满足独 参数向量, 立同分布假设,即
(1) 新引进的自变量只能依赖于 原始变量,而不能与未知参数有关。 若模型 1 中的 b 未知,则模型 1 不能线 性化。 可线性化的非线性回归模型称为 本质线性回归模型,不可线性化的非 线性回归模型称为本质非线性回归模 型。
2016/5/10 7
(2) 非线性化模型能否线性化不 仅与回归函数的形式有关,而且与误 差项的形式也有关。 例如,模型 3 的误差项为乘性误 差项,可以线性化,而模型 4 的误差 项为加性误差项,不可以线性化。 在对非线性回归模型进行线性化 时,总是假定误差项满足可线性化条
y 0 1 x p x
p
2016/5/10 4
y ae e
bx
bx
y ae 对模型1,只要令 x e bx 即可化
为线性回归模型 y 0 1 x 对模型2,令 2 p x1 x , x2 x , , x p x 原模型化为多元线性回归模型
2016/5/10 48
T
E i 0, i 1, 2, , n, 2 , i j , i , j 1, 2, , n cov i , j 0, i j .
-154.96
-387.56 201.88 -650.84
1990
1991 1992 1993
10
11 12 13
18547.9
21617.8 26638.1 34634.4
20938.89
24967.89 29772.14 35500.81
-2390.99
-3350.09 -3134.04 -866.41
2016/5/10 8
析,所以通常略去误差项,而仅写出 回归函数。 bx 例如,模型3常简记为 y ae 。
2. 常用可线性化的曲线回归方程 SPSS 中给出了 11 种常见的可线 性化的非线性回归方程,见下表。
2016/5/10
9
2016/5/10
10
显然,上述曲线中的复合函数、 增长函数和指数函数等价,只是形式 不同。 若选用上述曲线进行回归,只需 选用分析->回归->曲线估计菜单即可, 而不必做任何变换。 除了上述曲线外,还有下列几种 常用回归曲线。
2016/5/10 30
2 x1 ,
以此类推。方差分析表如下:
2016/5/10
31
根据下列公式计算得偏F统计量 SSR( i ) 1 Fi SSE n p 1
2016/5/10
32
下面检验交互效应和风险反感度 的二次效应。 因为交互影响项系数显著性检验 的偏 F 值 =2.00 ,临界值 F(1,2)=4.75 , 交互影响项系数没通过显著性检验, 所以回归模型中不应该包含交互作用 项x12。 又风险反感度二次效应项的偏F=
2016/5/10
2 11 x1
2 22 x2
12 x1 x2
26
2. 多项式回归应用实例 例10.2 根据下表研究给定年龄组 内经理的人寿保险额 y 与年均收入 x1 和风险反感度x2的关系。 研究者认为年均收入与人寿保险 额有二次关系,风险反感度与人寿保 险额只有线性关系,年均收入风险反 感度对人寿保险额有无交互效应不得
5934.5 7171.0 8964.4
5123.04
6108.80 7284.24 8685.86
171.66
-174.30 -113.24 278.54
1986
1987 1988 1989
6
7 8 9
10202.2
11962.5 14928.3 16909.2
10357.16
12350.06 14726.42 17560.04
2016/5/10 33
0.93,临界值F(1,13)=4.67,也没通过 显著性检验,所以回归模型中也不应
2。 该包含二次效应项 x2 2 类似可验证, x1 项通过显著性检
验。 综上,最终选用下列回归模型
y 0 1 x1 2 x2
2016/5/10
2 11 x1