【原创】r语言收入逻辑回归分析报告附代码数据
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
逻辑回归对收入进行预测
1逻辑回归模型
回归是一种极易理解的模型,就相当于y=f(x),表明自变量x与因变量y的关系。最常见问题有如医生治病时的望、闻、问、切,之后判定病人是否生病或生了什么病,其中的望闻问切就是获取自变量x,即特征数据,判断是否生病就相当于获取因变量y,即预测分类。
最简单的回归是线性回归,在此借用Andrew NG的讲义,有如图1.a所示,X为数据点——肿瘤的大小,Y为观测值——是否是恶性肿瘤。通过构建线性回归模型,如h θ (x)所示,构建线性回归模型后,即可以根据肿瘤大小,预测是否为恶性肿瘤h θ(x)≥.05为恶性,h θ (x)<0.5为良性。
Zi=ln(Pi1−Pi)=β0+β1x1+..+βnxn Zi=ln(Pi1−Pi)=β0+β1x1+..+βnxn
2数据描述
该数据从美国人口普查数据库抽取而来,可以用来预测居民收入是否超过50K$/year。该数据集类变量为年收入是否超过50k$,属性变量包含年龄,工种,学历,职业,人种等重要信息,值得一提的是,14个属性变量中有7个类别型变量。
3问题描述
其实对于收入预测,主要是思考收入由哪些因素推动,再对每个因素做预测,最后得出收入预测。这其实不是一个财务问题,是一个业务问题。
对于某企业新用户,会利用大数据来分析该用户的信息来确定是否为付费用户,弄清楚用户属性,提高运营人员的办事效率。
流失预测。这方面会偏向于大额付费用户,提取额特征向量运用到应用场景的用户流失和预测里面去。
我们尝试并预测个人是否可以根据数据中可用的人口统计学变量使用逻辑回归预测收入是否超过$ 50K的资金。在这个过程中,我们将:
1.导入数据
2.检查类别偏差
3.创建训练和测试样本
4.建立logit模型并预测测试数据
5.模型诊断
4数据描述分析
查看部分数据
AGE WORKCLASS FNLWGT EDUCATION EDUCATIONNUM MARITALSTATUS
1 39 State-gov 77516 Bachelors 13 Never-married
2 50 Self-emp-not-inc 83311 Bachelors 1
3 Married-civ-spouse
3 38 Private 215646 HS-grad 9 Divorced
4 53 Private 234721 11th 7 Married-civ-spouse
5 28 Private 338409 Bachelors 13 Married-civ-spouse
6 3
7 Private 284582 Masters 14 Married-civ-spouse occupation RELATIONSHIP RACE SEX CAPITALGAIN CAPITALLOSS
1 Adm-clerical Not-in-family White Male 2174 0
2 Exec-managerial Husband White Male 0 0
3 Handlers-cleaners Not-in-family White Male 0 0
4 Handlers-cleaners Husband Black Male 0 0
5 Prof-specialty Wife Black Female 0 0
6 Exec-managerial Wife White Female 0 0 HOURSPERWEEK NATIVECOUNTRY ABOVE50K
1 40 United-States 0
2 1
3 United-States 0
3 40 United-States 0
4 40 United-States 0
5 40 Cuba 0
6 40 United-States 0
对数据进行描述统计分析:
AGE WORKCLASS FNLWGT
Min. :17.00 Private :22696 Min. : 12285
1st Qu.:28.00 Self-emp-not-inc: 2541 1st Qu.: 117827
Median :37.00 Local-gov : 2093 Median : 178356
Mean :38.58 ? : 1836 Mean : 189778
3rd Qu.:48.00 State-gov : 1298 3rd Qu.: 237051
Max. :90.00 Self-emp-inc : 1116 Max. :1484705
(Other) : 981
EDUCATION EDUCATIONNUM MARITALSTATUS
HS-grad :10501 Min. : 1.00 Divorced : 4443
Some-college: 7291 1st Qu.: 9.00 Married-AF-spouse : 23
Bachelors : 5355 Median :10.00 Married-civ-spouse :14976
Masters : 1723 Mean :10.08 Married-spouse-absent: 418
Assoc-voc : 1382 3rd Qu.:12.00 Never-married :10683
11th : 1175 Max. :16.00 Separated : 1025
(Other) : 5134 Widowed : 993
OCCUPATION RELATIONSHIP RACE
Prof-specialty :4140 Husband :13193 Amer-Indian-Eskimo: 311
Craft-repair :4099 Not-in-family : 8305 Asian-Pac-Islander: 1039
Exec-managerial:4066 Other-relative: 981 Black : 3124
Adm-clerical :3770 Own-child : 5068 Other : 271
Sales :3650 Unmarried : 3446 White :27816
Other-service :3295 Wife : 1568
(Other) :9541
SEX CAPITALGAIN CAPITALLOSS HOURSPERWEEK
Female:10771 Min. : 0 Min. : 0.0 Min. : 1.00
Male :21790 1st Qu.: 0 1st Qu.: 0.0 1st Qu.:40.00
Median : 0 Median : 0.0 Median :40.00