ML：机器学习模型的稳定性分析简介、常见的解决方法之详细攻略

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

ML：机器学习模型的稳定性分析简介、常见的解决方法之详细攻略
ML：机器学习模型的稳定性分析简介、常见的解决方法之详细攻略
ML：机器学习模型的稳定性分析简介、常见的解决方法
1、增强稳健性的通用方法
(1)、加入噪声数据—加扰动：比如在图像识别场景中，训练CNN 识别图片时，常用的数据增强技术包括选择、拉伸、增加白噪声等方法。

而在风控场景里，由于数据一般都是标签不平衡的(一般5%左右的bad rate)，我只SMOTE方法来对bad的部分进行upsample。

SMOTE方法通过对bad的部分加扰动，产生新的数据，这样就能平衡训练集中的各标签比例。

(2)、使用统计特征：比如，在2000年逾期5000元，是很严重的事件，意味着高风险；但2022年逾期5000元，却是低风险的。

所以，如果只用金额数据，模型的预测往往不够精准。

此时，可以利用统计特征来代表实际值。

例如使用Z-Score，z的绝对值值越高，代表他和其他客户的差异越大。

风控领域由于对解释性有一定要求，所以很难使用神经网络等深度学习模型。

2、提高模型稳定性—适合泛线性模型(如逻辑回归)—幅度过大的变量进行分箱处理
对于逻辑回归模型，单个变量的变动会影响模型的输出，而且这种影响是线性的。

这会造成两个因素影响稳定性，
3,1、基于树模型的2个天然优势
(1)、自带的自动分箱理念：由于树的split是基于阈值的，即相当于进行自动分箱，这也是基于树模型的好处之一。

(2)、基于树的模型，一般对数据的波动不敏感：数据分布发生微小偏移时，仍能表现稳定。

比如决策树，数据的准备往往是简单的甚至是不必要的。

3.2、降低树模型的过拟合问题
但是，使用单棵决策树容易过拟合。

为了防止过拟合我们一般会：
(1)、使用单棵决策树顺丰需要修剪枝叶技巧：但是这种方法，需要大量的分析与尝试，所以大多数人，很少使用单颗决策树作为ML模型。

(2)、使用随机森林算法：三个臭皮匠顶过一个诸葛亮，RF在解决回归问题时，并没有像它在分类中表现的那么好，这是因为它并不能给出一个连续的输出。

(3)、使用XGBoost算法：Kaggle比赛中的利器，XGBoost具有非常好的非线性拟合能力，以及对超参数的鲁棒性。

但依赖统计特征，特征的准备需要积累一定周期才有足够置信度，比如一年的数据量。

其实，无论稳定性做得多好，模型总有效用递减的时候。

下一步就是要如何实现模型监控。