第7讲 统计回归模型

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

x 2 --教育 x 3 , x 4 组合间的关系。 --教育 组合间的关系。
从左图看,残差大概分成3个水平,这是由于6种管理—教育组合混 从左图看,残差大概分成3个水平,这是由于6种管理— 在一起,在模型中未被正确反映的结果; 在一起,在模型中未被正确反映的结果;
从右图看,对于前4个管理—教育组合,残差或者全为正,或者全为负, 从右图看,对于前4个管理—教育组合,残差或者全为正,或者全为负,也 表明管理--教育组合在模型中处理不当 教育组合在模型中处理不当。 表明管理--教育组合在模型中处理不当。
模型的进一步假设: 模型的进一步假设:
(1)为了简单起见,我们假定资历( (1)为了简单起见,我们假定资历(年)对薪金的作用是线性的,即资历 对薪金的作用是线性的, 为了简单起见 每加一年,薪金的增长是常数; 每加一年,薪金的增长是常数; (2)管理责任、教育程度、资历诸因素之间没有交互作用,建立线性回归 管理责任、教育程度、资历诸因素之间没有交互作用, 管理责任 模型。 模型。
ε 与 x 的关系
1
ε 与 x2 x3, x4 组合的关系
从上图,还可以发现一个异常点:具有10年资历、 从上图,还可以发现一个异常点:具有10年资历、大学程度的管理 10年资历 人员(编号33 的实际薪金明显低于模型的估计值, 33) 人员(编号33)的实际薪金明显低于模型的估计值,也明显低于与他有 类似经历的其他人的薪金。这可能是由我们未知的原因造成的。 类似经历的其他人的薪金。这可能是由我们未知的原因造成的。 为了使个别数据不致影响整个模型,应该将这个异常数据去掉, 为了使个别数据不致影响整个模型,应该将这个异常数据去掉,对模 型重新估计回归系数,得到的结果如表。残差分析见图。可以看到, 型重新估计回归系数,得到的结果如表。残差分析见图。可以看到,去掉 异常数据后结果又有改善。 异常数据后结果又有改善。
模型(2)的参数回归分析数据 模型(
比较可知,模型(2)的 R 2和 比较可知,模型(
值都比上一个模型有所改进, F 值都比上一个模型有所改进,
并且所有回归系数的置信区间都不含零点,表明这个模型完全可用。 并且所有回归系数的置信区间都不含零点,表明这个模型完全可用。
做该模型(2)的两个残差分析图,可以看出,已经消除了不正常 做该模型( 的两个残差分析图,可以看出, 现象,这也说明了模型的适用性。 现象,这也说明了模型的适用性。
资 历 1 1 1 1 1 2 2 2 2 3 3 3
管理 1 0 1 0 0 1 0 0 0 0 1 1
教 育 1 3 3 2 3 2 2 1 3 2 1 2
编 号 17 18 19 20 21 22 23 24 25 26 27 28
薪金 1284 4 1324 5 1367 7 1596 5 1236 6 2135 2 1383 9 2288 4 1697 8 1480 3 1740 4 2218
开 发 人 员 的 薪 金 与 其 资 历 、 管 理 责 任 、 教 育 程 度
编 号 01 02 03 04 05 06 07 08 09 10 11 12
薪金 1387 6 1160 8 1870 1 1128 3 1176 7 2087 2 1177 2 1053 5 1219 5 1231 3 1497 5 2137
(2)
参数 参数估计值
置信区间 [10258, [10258,11807] [484, [484,608] [6248, [6248,7517] [-3826,-2162] 3826, [-636,931] 636,
参数 参数估计值
置信区间 [11044, [11044,11363] [486, [486,508] [6841, [6841,7255] [-1939,-1514] 1939, [-545,-152] 545, [-3372,-2769] 3372, [1571, [1571,2101]
资 历 10 11 11 12 12 13 13 14 15 16 16 16
管理 1 1 0 0 1 0 1 0 1 1 0 0
教 育 2 2 1 2 3 1 2 2 3 2 2 1
分析与假设
按照常识,薪金自然按照资历( 按照常识,薪金自然按照资历(年)的增长而增加,管理 的增长而增加, 人员的薪金高于非管理人员,教育程度越高薪金越高。 人员的薪金高于非管理人员,教育程度越高薪金越高。
x 2 的系数为6883,说明管理人员的薪金比非管理人员多6883; 的系数为6883,说明管理人员的薪金比非管理人员多6883; 6883 6883
x
3
的系数为-2994,说明中学程度的薪金比研究生少2994; 的系数为-2994,说明中学程度的薪金比研究生少2994; 2994 的系数为148, 大学程度的薪金比研究生多148, 的系数为148,说明大学程度的薪金比研究生多 ,但是应该 148
资历、管理人员的薪金为: 资历、管理人员的薪金为:
y = a0 + a1 ×2 + a2 ×0 + a3 ×0 + a4 ×1 =12273
模型中各个回归系数的含义可初步解释如下: 模型中各个回归系数的含义可初步解释如下:
x 1 的系数为546,说明资历每增加一年,薪金增长546; 的系数为546,说明资历每增加一年,薪金增长546; 546 546
x
2
与教育 x 3 , x 4
2、模型改进
增加 x 2 与 x 3 , x 4 的交互项后,模型记作 的交互项后,
y = a0 + a1x1 + a2 x2 + a3x3 + aБайду номын сангаас x4 + a5x2 x3 + a6 x2 x4 +ε
利用MATLAB的统计工具箱得到的结果如表: 利用MATLAB的统计工具箱得到的结果如表: MATLAB的统计工具箱得到的结果如表
x
4
区间包含零点,所以这个系数的解释是不可靠的。 注意到 a 4 的置信区间包含零点,所以这个系数的解释是不可靠的。
【注意】上述解释是就平均值来说的,并且,一个因素改变引起的因变 注意】上述解释是就平均值来说的,并且, 量的变化量,都是在其它因素不变的条件下才成立的。 量的变化量,都是在其它因素不变的条件下才成立的。
我们将影响因素分成资历—教育组合、与管理— 我们将影响因素分成资历—教育组合、与管理—教育组两类。管理--教育 两类。管理---教育 组合定义如表: 组合定义如表: 定义如表 组合 管理 教育 1 0 1 2 1 1 3 0 2 4 1 2 5 0 3 6 1 3
管理—教育组合 管理 教育组合
的关系, 为了对残差进行分析, 为了对残差进行分析,下图给出ε 与资历 x 1的关系,及 ε 与管理
第7讲
统计回归模型
软件开发人员的薪金 农作物施肥效果分析
统计模型 如果由于客观事物内部规律的复杂性及人们 认识程度的限制, 认识程度的限制,无法分析实际对象内在的因果 关系,建立合乎机理规律的模型, 关系,建立合乎机理规律的模型,那么通常要搜 集大量的数据,基于对数据的统计分析建立模型, 集大量的数据,基于对数据的统计分析建立模型, 这就是本章还要讨论的用途非常广泛的一类随机 模型—统计回归模型。 模型—统计回归模型。
资历( 薪金记作 y ,资历(年)记作 x
1
为了表示是否为管理人员,作如下定义: 为了表示是否为管理人员,作如下定义:
x2 =
1,管理人员 0,非管理人员
为了表示三种教育程度, 为了表示三种教育程度,定义
x3 =
1,中学 0,其它
x4 =
1,大学 0,其它
表示, 表示, 这样, 这样,中学用x 3 = 1, x 4 = 0 表示,大学用 x3 = 0, x4 = 1 表示, 表示。 研究生则用 x3 = 0, x4 = 0 表示。
参数
参数估计值 11032 546 6883 -2994 148
置信区间 [10258 [484 [6248 [-3826 [-636 11807] 608] 7517] -2162] 931]
a0
a1
a2
a3
a4
R 2 = 0.957, F = 226, p = 0
结果分析: 结果分析:
R 从表中, 从表中, 2 = 0.957 ,即因变量(薪金)的95.7%可由模型确定, 即因变量(薪金) 95.7%可由模型确定 可由模型确定, 检验的临界值, F 值超过 F 检验的临界值,p 远小于 α ,因而模型从整体来看时可 用的。比如,利用模型可以估计(或估计)一个大学毕业、 用的。比如,利用模型可以估计(或估计)一个大学毕业、有2年
资 历 4 5 5 5 6 6 6 6 7 8 8 8
管理 0 0 0 1 0 1 0 1 1 0 1 1
教 育 2 2 3 1 1 3 2 2 1 2 1 3
编 号 33 34 35 36 37 38 39 40 41 42 43 44
薪金 2378 0 2541 0 1486 1 1688 2 2417 0 1599 0 2633 0 1794 9 2568 5 2783 7 1883 8 1748
进一步讨论: 进一步讨论:
之差,是基本模型中随机误差 ε 的估计值,这里用同一个符号)。 的估计值,这里用同一个符号)。 之差,
的方向,常用残差分析法( 的方向,常用残差分析法(残差 ε 指薪金的实际值 y 与模型估计的薪金 y
a 4 的置信区间包含零点,说明上述基本模型存在缺点。为了寻找改进 的置信区间包含零点,说明上述基本模型存在缺点。
a0
a1 a2
a3
11032 546 6883 -2994 148
2
a0
a1 a2 a3
11204 497 7048 -1727 -348 -3071 1836
a4
a5 a6
a4
R = 0.957, F = 226, p = 0
模型(1)的参数回归分析数据 模型(
R 2 = 0.999, F = 554, p = 0
案例1 案例1
软件开发人员的薪金
【问题】一家高技术公司人事部门为研究软件开发人员的薪金与他们的 问题】 资历、管理责任、教育程度等因素之间的关系,要建立一个数学模型, 资历、管理责任、教育程度等因素之间的关系,要建立一个数学模型, 以便分析公司人士策略的合理性,并作为新聘用人员工资的参考。 以便分析公司人士策略的合理性,并作为新聘用人员工资的参考。他们 认为目前公司人员的薪金总体上是合理的,可以作为建模的依据, 认为目前公司人员的薪金总体上是合理的,可以作为建模的依据,于是 调查了46名开发人员的档案资料,如表。 调查了46名开发人员的档案资料,如表。其中资历一列指从事专业工作 46名开发人员的档案资料 的年数,管理一列中1表示管理人员, 表示非管理人员,教育一列中1 的年数,管理一列中1表示管理人员,0表示非管理人员,教育一列中1 表 示中学程度, 表示大学程度, 表示更高程度(研究生) 示中学程度,2表示大学程度,3表示更高程度(研究生).
ε与资历
x 的关系 1
ε与 x x , x 组合的关系
2 3 4
在模型中,管理责任和教育程度是分别起作用的,事实上, 在模型中,管理责任和教育程度是分别起作用的,事实上,二者可 能起着交互作用, 能起着交互作用,如大学程度的管理人员的薪金会比二者分别的薪金之 和高一点。 和高一点。
以上分析提示我们, 以上分析提示我们,应在基本模型中增加管 理 的交互项,建立新的回归模型。 的交互项,建立新的回归模型。
模型建立与求解 1.基本模型 1.基本模型
建立薪金 y 与资历 x 1 ,管理责任 x 2 ,教育程度 x3 , x4 之间的 多元线性回归模型: 多元线性回归模型:
y = a0 + a1x1 + a2 x2 + a3x3 + a4 x4 + ε
(1)
其中, 其中,a 0 , a1 , L , a 4 是待估计的回归系数, 是随机误差。 是待估计的回归系数, 是随机误差。 ε 利用MATLAB的系统工具箱可以得到回归系数及其置信区间(置信水平 利用MATLAB的系统工具箱可以得到回归系数及其置信区间( MATLAB的系统工具箱可以得到回归系数及其置信区间 )、检验统计量 的结果,见表。 α = 0.05)、检验统计量 R 2 , F , p 的结果,见表。
相关文档
最新文档