机器学习的目标与评价指标

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

一、评价指标

创建机器学习模型之前需要先确定我的模型是为了什么去创建的,只有确定了目标才能确定使用哪种模型。一般机器学习的目标有两种:一种是预测分类,另一种是推理数值回归。

1、预测分类

通过输入的特征变量去预测分类,比如在房地产的例子中,预测模型将会解决这样的问题:我的房子目前价格是被高估还是低估,非线性模型比较适合这种预测。

2、推理数值回归

该种方式的目标是通过模型获取预测的连续数值变量。比如,如果我的房子在海边,他的价格预计是多少。线性模型更加适合此类问题。

二、评价指标

评价指标用于反映模型的效果,一般模型的效果使用两种或者两种以上的指标来进行评估。

常见的评估指标有:混淆矩阵、准确率,f1分数,ROC曲线,方差-偏差权衡,拟合优度、均方差、误差率等。

1、混淆矩阵

混淆矩阵比模型的精度的评价指标更能够详细地反映出模型的”好坏”。模型的精度指标,在正负样本数量不均衡的情况下,会出现容易误导的结果。

2、准确率

所有预测正确的类别占总体的百分比,但是当数据类别不平衡时,最终结果是不可靠的。比如黑白样本比为2:8时,将所有样本全部预测成白样本吗,依旧有80%的准确率。

3、f1分数

F1分数(F1 Score),是统计学中用来衡量二分类(或多任务二分类)模型精确度的一种指标。它同时兼顾了分类模型的准确率和召回率。F1分数可以看作是模型准确率和召回率的一种加权平均,它的最大值是1,最小值是0,值越大意味着模型越好。假如有100个

样本,其中1个正样本,99个负样本,如果模型的预测只输出0,那么正确率是99%,这时候用正确率来衡量模型的好坏显然是不对的。

其中precison为精准度,recall为召回率。

4、ROC曲线

ROC 曲线(接收者操作特征曲线)是一种显示分类模型在所有分类阈值下的效果的图表。该曲线绘制了以下两个参数:真正例率、假正例率。

真正例率 (TPR) 是召回率的同义词,因此定义如下:

假正例率 (FPR) 的定义如下:

ROC 曲线用于绘制采用不同分类阈值时的 TPR 与 FPR。降低分类阈值会导致将更多样本归为正类别,从而增加假正例和真正例的个数。下图显示了一个典型的 ROC 曲线。

为了计算 ROC 曲线上的点,我们可以使用不同的分类阈值多次评估逻辑回归模型,但这样做效率非常低。所以我们可以使用AUC(曲线下面积)来进行寻找最优质。

曲线下面积:ROC 曲线下面积

曲线下面积表示“ROC 曲线下面积”。也就是说,曲线下面积测量的是从 (0,0) 到 (1,1) 之间整个 ROC 曲线以下的整个二维面积(参考积分学)。

曲线下面积对所有可能的分类阈值的效果进行综合衡量。曲线下面积的一种解读方式是看作模型将某个随机正类别样本排列在某个随机负类别样本之上的概率。以下面的样本为例,逻辑回归预测从左到右以升序排列:

曲线下面积表示随机正类别(绿色)样本位于随机负类别(红色)样本右侧的概率。

曲线下面积的取值范围为 0-1。预测结果 100% 错误的模型的曲线下面积为 0.0;而预测结果 100% 正确的模型的曲线下面积为 1.0。

曲线下面积因以下两个原因而比较实用:

曲线下面积的尺度不变。它测量预测的排名情

况,而不是测量其绝对值。

曲线下面积的分类阈值不变。它测量模型预测

的质量,而不考虑所选的分类阈值。

不过,这两个原因都有各自的局限性,这可能会导致曲线下面积在某些用例中不太实用:

并非总是希望尺度不变。 例如,有时我们非常

需要被良好校准的概率输出,而曲线下面积无法告

诉我们这一结果。

并非总是希望分类阈值不变。 在假负例与假正

例的代价存在较大差异的情况下,尽量减少一种类

型的分类错误可能至关重要。例如,在进行垃圾邮

件检测时,您可能希望优先考虑尽量减少假正例

(即使这会导致假负例大幅增加)。对于此类优

化,曲线下面积并非一个实用的指标。

5、方差-偏差权衡

偏差指的是通过一个简单的模型来近似一个可能极其复杂的现实问题所引入的误差量。如果偏差很高,或者算法在训练数据上表现不佳,可以尝试添加更多特征,或者更灵活的模型。

一般来说,如果算法模型的方差高,这说明模型存在欠拟合;如果模型的方差低,偏差高说明模型存在过拟合风险。

6、拟合优度

在统计学中,拟合优度是指模型的预测值与观测值(真实)的匹配程度。一个学习了噪声而不是信号的模型被认为是“过拟合”的,因为它适合训练数据集,但与新数据集的拟合度较差。

7、均方差

这个应用应该是最广的,因为他能够求导,所以经常作为loss function。计算的结果就是你的预测值和真实值的差距的平方和。

8、误差率

分类错误的样本数占样本总数的比例。

相关文档
最新文档