第四届泰迪杯技能赛a题解题思路

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第四届泰迪杯技能赛a题解题思路问题一、筛选重要指标,本质上是一个数据降维问题。

首先应该考虑指标与指标间的相关性,据此筛选;其二考虑指标对FLAG的决定性,据此筛选。

前者本文用了偏相关分析、后者本文结合决策树模型,进行递归删除特征,并比较删除前后模型效果是否降低,来考虑时候确认或回滚删除操作。

问题一需要注意,在使用递归删除特征时,训练决策树时,样本的类别不均衡问题。

难点在于对数据的预处理,不单单要宏观地扫一眼,而且要细致去发现。

问题二、求制造业内,第六年(发布数据应是第七年)造假的企业。

如何分析呢?机器学习、深度学习皆可。

问题二的难点在于如何写得出彩。

神经网络人人会,就看你怎么玩出花样。

根据“没有午餐定则”嘛,大家可以在模型的超参数,和模型选择上下功夫,多说多写。

本文用的网格寻优加交叉验证,筛选模型、超参数。

问题三、制造业的数据量大,可以分析。

而问题三行业多、数据却少。

对于那些数据量多的行业,大可使用问题二的方法分析。

但数据量小的,可以考虑用聚类合并,再用第二问的方法。

这题难点在于编程吧,感觉问题二写得太麻烦,问题三就够你受的。

给一点建议就是:照着题目顺序做,先仅对制造业分析,再修改成for循环。

相关文档
最新文档