A题思路之一多元非线性回归分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
A题思路之一——多元非线性回归分析
本题求解关键为建立工资与其他7个因素之间的关系模型,可以考虑采用回归分析法,也可以考虑其他方法;
以下仅以回归分析法过程为例给出分析思路,仅供参考:
注意:根据下述结果发现本问题应该考虑为多元非线性回归,因此请大家优先挑出使用非线性回归模型的论文,其余酌情考虑。
1.数据预处理
1)为数据分析方便,应该考虑名义变量或有序变量的量化处理(编码),如可以考虑如下编码方案(含符号约定):
y-日平均工资的对数,便于回归分析;作为因变量。
11~ 0~
x
⎧
=⎨
⎩
男性
女性
;
2
x:工龄
31~ 0~
x
⎧
=⎨
⎩
男性或单身女性
已婚女性
;
40
x ⎧
⎪
⎪
⎨
⎪
⎪⎩
~本科1~硕士
(受教育状况)=
2~博士
3~博士后
;
5
1~ ()
0~
x
⎧
=⎨
⎩
管理岗位
工作部门性质
技术岗位
;
61~ 0~
x
⎧
=⎨
⎩
受过培训
(培训情况)
未受过培训
;
71~ 0~
x
⎧
=⎨
⎩
两年以上未从事一线工作
(一线工作情况)
其它情况
2)分别作出y与各自变量之间的散点图,发现与x2非线性关系较为明显(下图所示),所以应该考虑为非线性模型,
data=xlsread('Adata.xls',2);
y=data(:,1);
x=data(:,2:8);
plot(x(:,2),y,'r*')
title('lny vs x2')
050100150200250300350400450500
3.4
3.63.84
4.24.44.64.8
5lny vs x2
3)相关性分析
data=xlsread('Adata.xls',2); y=data(:,1); x=data(:,2:8); s=corrcoef(data); xlswrite('coef.xls',s)
lny X1 X2 X3 X4
X5 X6 X7 1
0.266995
0.775291 0.286135 0.505526 0.277929 0.199178 0.489786 0.266995 1
0.160389
0.679446 0.312348 0.417621 -0.10498 0.316025 0.775291 0.160389 1
0.226096
0.103146 0.098854 0.151146 0.156321 0.286135 0.679446 0.226096 1
0.266937
0.213363 -0.27966 0.229535 0.505526 0.312348 0.103146 0.266937 1
0.412745
0.219762 0.855236 0.277929 0.417621 0.098854 0.213363 0.412745 1
-0.05307
0.423355 0.199178 -0.10498 0.151146 -0.27966 0.219762 -0.05307 1
0.255665
0.489786 0.316025 0.156321 0.229535 0.855236 0.423355 0.255665 1
相关系数表也提示y 仅与x2,x4关系密切.与婚姻状况x1,x3关系不明显.
2、建模及简易求解(第1、3问)
以下考虑分别用多元线性回归模型、线性逐步回归模型、非线性模型分析,从中选择相对最优的模型。
1).多元线性回归结果 源程序:
data=xlsread('Adata.xls',2); Y=data(:,1); x=data(:,2:8); X=[ones(90,1),x];
[b,bint,r,rint,stats]=regress(Y ,X); b,bint,stats
结果:
b (系数) =
3.6623 常数项 0.0044 x1 0.0016 x2 -0.0010 x3 0.1713 x4 0.0170 x5 -0.0012 x6 0.0143 x7
Bint (系数95%置信区间) =
3.5957 3.7289 -0.0828 0.0917 0.0014 0.0019 -0.0930 0.0910 0.0849 0.2577 -0.0536 0.0876 -0.0798 0.0773 -0.1254 0.1540
置信区间包含零点,可认为在95%置信度下,相应变量对y 影响不显著,应该考虑改进模型。
stats (统计量)=
0.7852 (决定系数) 42.8304(F 值) 0 (P 值) 0.0193
关于异常值:
利用上述多元线性回归模型分析结果,继续做异常点分析,
rcoplot(r,rint)
发现5个异常点: 43 52 60 61 90
Residual Case Order Plot
R e s i d u a l s
Case Number
从原始数据中将其剔除后,重新做多元线性回归, 源程序:
data=xlsread('Adata.xls',4);
Y=data(:,1);
x=data(:,2:8);
X=[ones(85,1),x];
[b,bint,r,rint,stats]=regress(Y,X);
b,bint,stats
结果
b =
3.6502
0.0055
0.0017
-0.0282
0.1752
0.0188
-0.0076
0.0330
bint =
3.5949 3.7055
-0.0688 0.0798
0.0015 0.0019
-0.1056 0.0493
0.1026 0.2477
-0.0406 0.0782
-0.0739 0.0587
-0.0880 0.1539
stats =
0.852663.6071 0 0.0132
可见决定系数与F值均提高!
2)线性逐步回归结果(考虑采用逐步回归方法)data=xlsread('Adata.xls',4);
y=data(:,1);
x=data(:,2:8);
stepwise(x,y);
系数:beta =
0.0017
0.1926
系数95%置信区间:betaci =
0 0
0.0015 0.0019
0 0
0.1566 0.2287
0 0
0 0
0 0
统计量
stats =
intercept: 3.6449(常数项)
rmse: 0.1124
rsq: 0.8495(决定系数)adjrsq: 0.8440
fstat: 231.4507(F值)
pval: 0(P值)
较多元线性模型相比,尽管决定系数略有下降,但F值上升很快,逐步回归整体效果优于多元线性模型。
3)多元非线性回归(含平方项、交叉项)
模型:y=a+b*x2+c*x2^2+d*x4+e*x5*x6
(仅为一特例,考虑工资可能与x5,x6有一定的关系。
另外其他组合较多,留给大家更多思考空间!)data=xlsread('Adata.xls',4);
y=data(:,1);
x=data(:,2:8);
% rstool(x,y,'quadratic')
X=[ones(85,1) x(:,2),x(:,2).^2,x(:,4),x(:,5).*x(:,6)];
[b,bint,r,rint,stats]=regress(y,X);
b,bint,stats
b =
3.5285
0.0038
-0.00000505057598
0.1629
0.0300
bint =
3.4841 3.5730
0.0032 0.0043
-0.00000638020871 -0.00000372094326
0.1307 0.1950
-0.0412 0.1011(包含零点)
stats =
0.9122(决定系数)207.8439(F值)0 (P值)0.0075
可见上述交叉项对y影响不够显著,考虑剔除。
4)多元非线性回归(仅含平方项)
模型:y=a+b*x2+c*x2^2+d*x4
data=xlsread('Adata.xls',4);
y=data(:,1);
x=data(:,2:8);
X=[ones(85,1) x(:,2),x(:,2).^2,x(:,4)];
[b,bint,r,rint,stats]=regress(y,X);
b,bint,stats
结果:
b =
3.5282
0.0038
-0.00000499497561 0.1691
bint =
3.4839 3.5726 0.0032 0.0043
-0.00000631534196 -0.00000367460927 0.1406 0.1976
stats =
0.9115(决定系数) 277.9148(F 值) 0 (P 值) 0.0075
本模型较带交叉项模型决定系数减小,但是系数95%置信区间均显示各变量对y 影响显著,并且F 大幅提升,因此最终选择模型如下:
2
2243.52820.00380.00000490.1691y x x x =+-+
特别注意:本问题可能还有更加优秀的模型及结果!
3、第二问
关于女工是否受到不公正待遇,以及她们的婚姻状况是否影响其收入,可以从以下几个角度之一
考虑:
y 与x3相关系数;
逐步回归结果中剔除了x1和x3; 也可采用单因素方差分析考虑。
其他做法。
**********************完!****************************。