《机器学习》的总结与心得_深圳光环大数据培训

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

《机器学习》的总结与心得_深圳光环大数据培训

这段时间利用下班晚上和周末在家的时间把《机器学习》看了一遍，总的来说，除了前两章是基础，其余章节都是介绍模型方法，应用场景、理论推导、优化过程、算法等，每章都可独立阅读而不受其他章节影响。

如果只是每一章都看完，顶多就是了解了一种方法，相互之间是割裂的，这样当碰到一个实际问题，仍然无法思路完整的求解，因而有必要在阅读时就要有意识甚至刻意的建立起知识架构。实际上，所谓的机器学习，是面对一个具体的问题，从给定的数据中产生模型的算法，也就是说脱离了实际问题谈机器学习算法是毫无意义的。

参考本书的章节内容，加上自己在读书、工作中的一些理解，简单总结一下基于机器学习的一般性问题解决方法。

前面提到，脱离实际问题谈机器学习是毫无意义的，那么在给定数据集（所谓大数据）和具体问题的前提下，一般解决问题的步骤可以概括如下：

1、数据抽象

将数据集和具体问题抽象成数学语言，以恰当的数学符号表示。这样做自然是为了方便表述和求解问题，而且也更加直观。

2、设定性能度量指标

机器学习是产生模型的算法，一般来说模型都有误差。如果模型学的太好，把训练样本自身的一些特点当成所有潜在样本具有的一般性质，这种情况称为过拟合，这样的模型在面对新样本时就会出现较大误差，专业表述就是导致模型的泛化性能下降。

与之相对的是欠拟合，模型对样本的一般性质都没学好，这种情况一般比较好解决，扩充数据集或者调整模型皆可。

而一般来说无论是机器学习还是现在很火的深度学习，面对的主要问题都是过拟合。那么为了保证模型的泛化能力足够强，必须要有衡量模型泛化能力的评价标准，也就是性能度量的设定。

很显然不同的性能度量会导致不同的评判结果，好的性能度量能够直观的显示模型的好坏，同时也能看到不同模型，或者模型的不同参数下对解决问题的程度好坏。

进一步，有的问题可以直接基于设定的性能度量直接做最优化，得出该问题的一般求解模型。

比如回归任务最常用的性能度量就是均方误差，目标就是让均方误差最小，这就直接转化成了一个最优化问题。

其他一些常用的有错误率与精度、查准查全率、ROC与AOC等。

当然更为重要的是，仅仅设定好性能度量是不够的，不同模型或者不同参数下得到的性能度量结果一般是不同的，一般来说不能简单的比较结果，而应该基于统计假设检验来做效果判定。也就是说通过比较检验的方法，我们就可以判断，如果观察到A比B好，在统计意义上A的泛化性能是否优于B，以及这个判断的把握有多大。

3、数据预处理

之所以要做数据预处理，是因为提供的数据集往往很少是可以直接拿来用的。

可能的情况有：

样本某些属性值缺失

有未标记样本

样本的属性太多

样本量不足

没有分出测试集和验证集

不同类的样本数相差比较大

这就是所谓类别不平衡问题。举个例子，样本里有998个反例，2个正例，如果一个模型对任何的新样本都预测为反例，那么它的精度为99.8%，虽然很高，但没有任何价值。

这种情况使用的基本策略是再缩放，具体方法则是采样。通过不同的采样方法来使类别达到平衡。

没有分出测试集和验证集

再说第五种情况，为了方便训练和验证模型好坏，数据集一般会以9：1或者其他合适比例（比例选择主要基于实际问题）分为测试集和验证集。如果给定

的数据集只是已经标记好的样本，那么划分时必须保证数据集和测试集的分布大致均匀，这就涉及到具体的划分算法了。

样本量不足

第四种情况一般图像问题比较常遇到，如果样本量不足，不够模型来学习，效果自然很差。常见的方法一般有两种：

基于原数据集做扩充。比如对于图片，可以做各种处理，比如旋转、crop、对比度、亮度等基于像素值的调整，使得一个样本能够生成多个样本，从而达到扩充数据集的目的。

通过人工标注生成样本。比如大名鼎鼎的ImageNet数据集就是通过全球众包完成的，当然这个不仅耗时长，人工成本也很高，需谨慎考虑。

样本的属性太多

对于第三种情况，如果样本属性太多，为了保证模型的泛化性能足够强，则理论上必须保证数据集包括有所有属性的所有值，而这随着属性数目以及属性值是呈指数上升，很有可能达到天文数字，不仅难以计算，在现实情况也不可能收集到这么多的样本。

从数学角度看，每个样本的属性可以看成向量，属性数目是向量的维数，解决第三种情况一般有两种方法：

降维

特征选择

特征选择比较好理解，就是选择有用相关的属性，或者用另外一种表达方式：选择样本中有用、跟问题相关的特征。事实上这也很正常，并不一定样本的所有属性对具体问题都是有用的，通过一定的方法选择合适的特征可以保证模型更优。常用的方法大致分三类：过滤式、包裹式和嵌入式。

所谓的降维，即是多属性意味着是高维空间，在很多时候可以等价的映射到低维而不丢失主要信息。从空间映射的角度看，我们可以通过主成分分析PCA（线性映射）和核化主成分分析（非线性映射）来达到降维的目的。（补充：PCA是无监督降维方法，线性判别分析LDA则是监督降维防范）

有未标记样本

现实情况下往往很多数据集都有大量的未标记样本，有标记的样本反而比较少。如果直接弃用，很大程度上会导致模型精度低。这种情况解决的思路往往是结合有标记的样本，通过估计的方法把未标记样本变为伪的有标记样本。基本的方法有主动学习和半监督学习两种方法。

样本某些属性值缺失

样本的属性值缺失是很常见的一种情况。比如做书籍、视频、音乐等的个性化推荐时，需要用户对不同种类的偏好或评价。而用户不一定听过所有种类的歌，也不一定做出了评价。这就需要通过他已产生的样本数据和与之相类似的用户的数据来恢复和补全。

从原理上讲，这和压缩感知根据部分信息恢复全部信息是有类似的。

常用的方法涉及到协同过滤、矩阵补全等技术和方法。