【IT专家】python数据分析与挖掘实战

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

本文由我司收集整编,推荐下载,如有疑问,请与我司联系

python数据分析与挖掘实战

2018/03/29 11 第六章分别使用了LM神经网络和CART 决策树构建了电力窃漏电用户自动识别模型,章末提出了拓展思考--偷漏税用户识别。

 第六章及拓展思考完整代码https://github/dengsiying/Electric_leakage_users_automatic_identify.git

 项目要求:汽车销售行业在税收上存在多种偷漏税情况导致政府损失大量税收。汽车销售企业的部分经营指标能在一定程度上评估企业的偷漏税倾向,附件数据提供了汽车销售行业纳税人的各个属性和是否偷漏税标识,请结合各个属性,总结衡量纳税人的经营特征,建立偷漏税行为识别模型。

 项目步骤:

 数据初步探索分析数据预处理模型选择与建立模型比较1.数据初步探索分析 一共124个样本,16个属性。

 先用Excel看下不同销售类型和销售模式下的输出频率分布。

 图1 不同销售类型下的偷漏税频率分布 

 图2 不同销售模式下的偷漏税频率分布 可以看到所有销售类型和销售模式都有异常偷漏税情况,由图1可以看出来国产轿车异常数最高,但是与正常数相比,可以明显看出来大客车的异常数远高于正常数,说明大客车更多的存在偷漏税情况。同样由图2可以看出来一级代理商、二级及二级以下代理商的更多的多的存在偷漏税情况。

 接下来用python进行分析。分异常和正常两类看下数值型经营指标。

 datafile = ‘Taxevasion identification.xls’df = pd.read_excel(datafile)#print(data.describe().T)df_normal = df.iloc[:,3:16][df[u”输出”]==“正常”]df_abnormal=df.iloc[:,3:16][df[u’输出’]==‘异

常’]df_normal.describe().T.to_excel(‘normal.xls’)df_abnormal.describe().T.to_excel(‘abn

相关文档
最新文档