A题思路之一多元非线性回归分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

A题思路之一——多元非线性回归分析

本题求解关键为建立工资与其他7个因素之间的关系模型,可以考虑采用回归分析法,也可以考虑其他方法;

以下仅以回归分析法过程为例给出分析思路,仅供参考:

注意:根据下述结果发现本问题应该考虑为多元非线性回归,因此请大家优先挑出使用非线性回归模型的论文,其余酌情考虑。

1.数据预处理

1)为数据分析方便,应该考虑名义变量或有序变量的量化处理(编码),如可以考虑如下编码方案(含符号约定):

y-日平均工资的对数,便于回归分析;作为因变量。

11~ 0~

x

=⎨

男性

女性

2

x:工龄

31~ 0~

x

=⎨

男性或单身女性

已婚女性

40

x ⎧

⎪⎩

~本科1~硕士

(受教育状况)=

2~博士

3~博士后

5

1~ ()

0~

x

=⎨

管理岗位

工作部门性质

技术岗位

61~ 0~

x

=⎨

受过培训

(培训情况)

未受过培训

71~ 0~

x

=⎨

两年以上未从事一线工作

(一线工作情况)

其它情况

2)分别作出y与各自变量之间的散点图,发现与x2非线性关系较为明显(下图所示),所以应该考虑为非线性模型,

data=xlsread('Adata.xls',2);

y=data(:,1);

x=data(:,2:8);

plot(x(:,2),y,'r*')

title('lny vs x2')

050100150200250300350400450500

3.4

3.63.84

4.24.44.64.8

5lny vs x2

3)相关性分析

data=xlsread('Adata.xls',2); y=data(:,1); x=data(:,2:8); s=corrcoef(data); xlswrite('coef.xls',s)

lny X1 X2 X3 X4

X5 X6 X7 1

0.266995

0.775291 0.286135 0.505526 0.277929 0.199178 0.489786 0.266995 1

0.160389

0.679446 0.312348 0.417621 -0.10498 0.316025 0.775291 0.160389 1

0.226096

0.103146 0.098854 0.151146 0.156321 0.286135 0.679446 0.226096 1

0.266937

0.213363 -0.27966 0.229535 0.505526 0.312348 0.103146 0.266937 1

0.412745

0.219762 0.855236 0.277929 0.417621 0.098854 0.213363 0.412745 1

-0.05307

0.423355 0.199178 -0.10498 0.151146 -0.27966 0.219762 -0.05307 1

0.255665

0.489786 0.316025 0.156321 0.229535 0.855236 0.423355 0.255665 1

相关系数表也提示y 仅与x2,x4关系密切.与婚姻状况x1,x3关系不明显.

2、建模及简易求解(第1、3问)

以下考虑分别用多元线性回归模型、线性逐步回归模型、非线性模型分析,从中选择相对最优的模型。

1).多元线性回归结果 源程序:

data=xlsread('Adata.xls',2); Y=data(:,1); x=data(:,2:8); X=[ones(90,1),x];

[b,bint,r,rint,stats]=regress(Y ,X); b,bint,stats

结果:

b (系数) =

3.6623 常数项 0.0044 x1 0.0016 x2 -0.0010 x3 0.1713 x4 0.0170 x5 -0.0012 x6 0.0143 x7

Bint (系数95%置信区间) =

3.5957 3.7289 -0.0828 0.0917 0.0014 0.0019 -0.0930 0.0910 0.0849 0.2577 -0.0536 0.0876 -0.0798 0.0773 -0.1254 0.1540

置信区间包含零点,可认为在95%置信度下,相应变量对y 影响不显著,应该考虑改进模型。

stats (统计量)=

0.7852 (决定系数) 42.8304(F 值) 0 (P 值) 0.0193

关于异常值:

利用上述多元线性回归模型分析结果,继续做异常点分析,

rcoplot(r,rint)

发现5个异常点: 43 52 60 61 90

Residual Case Order Plot

R e s i d u a l s

Case Number

从原始数据中将其剔除后,重新做多元线性回归, 源程序:

相关文档
最新文档