机器学习实践中常见的七种错误盘点

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

机器学习实践中常见的七种错误盘点

在机器学习领域，每个给定的建模问题都存在几十种解法，本文作者认为，模型算法的假设并不一定适用于手头的数据；在追求模型最佳性能时，重要的是选择适合数据集（尤其是“大数据”）的模型算法。

统计建模和工程开发很相似。

在工程开发中，人们有多种方法搭建一套键-值存储系统，每种设计针对使用模式有一套不同的假设。在统计建模中，也有很多算法来构造一个分类器，每种算法对数据也有各自的假设集合。

当处理少量数据时，因为实验成本很低，我们尽可能多的尝试各种算法，从而选出效果最优的算法。但提到“大数据”，提前分析数据，然后设计相应“管道”模型（预处理，建模，优化算法，评价，产品化）是事半功倍的。

正如在我以前的文章里提到，每个给定的建模问题都存在几十种解法。每个模型会提出不同的假设条件，我们也很难直观辨别哪些假设是合理的。在业界，大多数从业人员倾向于挑选他们熟悉的建模算法，而不是最适合数据集的那个。在这篇文章中，我将分享一些常见的认识误区（要避免的）。在今后的文章中再介绍一些最佳实践方法（应该做的）。

1. 想当然地使用默认损失函数

很多从业者喜欢用默认的损失函数（比如平方误差）来训练和选择最优模型。事实上，默认的损失函数很少能满足我们的业务需求。拿诈骗检测来说。当我们检测诈骗交易时，我们的业务需求是尽量减少诈骗带来的损失。然而现有二元分类器默认的损失函数对误报和漏报的危害一视同仁。对于我们的业务需求，损失函数不仅对漏报的惩罚要超过误报，对漏报的惩罚程度也要和诈骗金额成比例。而且，诈骗检测的训练数据集往往正负样本极度不均衡。在这种情况下，损失函数就要偏向于照顾稀少类（如通过升/降采样等）。

2. 用普通线性模型处理非线性问题

当需要构建一个二元分类器时，很多人马上就想到用逻辑回归，因为它很简单。但是，他