机器学习算法优缺点改进总结
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Lecture 1 Introduction to Supervised Learning
(1)Expectatin Maximization(EM) Algorithm (期望值最大)
(2)Linear Regression Algorithm(线性回归)
(3)Local Weighted Regression(局部加权回归)
(4)k-Nearest Neighbor Algorithm for Regression(回归k近邻)
(5)Linear Classifier(线性分类)
(6)Perceptron Algorithm (线性分类)
(7)Fisher Discriminant Analysis or Linear Discriminant Analysis(LDA)
(8)k-NN Algorithm for Classifier(分类k近邻)
(9)Bayesian Decision Method(贝叶斯决策方法)
Lecture 2 Feed-forward Neural Networks and BP Algorithm (1)Multilayer Perceptron(多层感知器)
(2)BP Algorithm
Lecture 3 Rudiments of Support Vector Machine
(1)Support Vector Machine(支持向量机) (此算法是重点,必考题)
此处有一道必考题
Lecture 4 Introduction to Decision Rule Mining
(1)Decision Tree Algorithm
(2)ID3 Algorithm
(3)C4.5 Algorithm
(4)粗糙集……
Lecture 5 Classifier Assessment and Ensemble Methods (1)Bagging
(2)Booting
(3)Adaboosting
Lecture 6 Introduction to Association Rule Mining
(1)Apriori Algorithms
(2)FP-tree Algorithms
Lecture 7 Introduction to Custering Analysis
(1)k-means Algorithms
(2)fuzzy c-means Algorithms
(3)k-mode Algorithms
(4)DBSCAN Algorithms
Lecture 8 Basics of Feature Selection
(1)Relief Algorithms
(2)ReliefF Algorithms
(3)mRMR Algorithms最小冗余最大相关算法
(4)attribute reduction Algorithms
比较了几种分类算法性质。(以下两个表格来自两篇该领域经典论文)
Lecture 1 Introduction to Supervised Learning
(1)Expectatin Maximization(EM) Algorithm (期望值最大)
①算法思想:
EM算法又称期望最大化算法,是对参数极大似然估计的一种迭代优化策略,它是一种可以从非完整的数据集中对参数进行极大似然估计的算法,应用于缺损数据,截尾数据,带有噪声的非完整数据。
最大期望算法经过两个步骤交替进行计算:
第一步计算期望(E):也就是将隐藏的变量对象能够观察到的一样包含在内,从而计算最大似然的期望值;
另外一步是最大化(M),也就是最大化在E步上找到的最大似然期望值,从而计算参数的似然估计。M 步上找到的参数然后用于另一个E步计算。
重复上面2步直至收敛。
②优点:1)M步仅涉及完全数据极大似然,通常计算比较简单
2)收敛是稳定的,因为每次迭代的似然函数是不断增加的。
③缺点:1)表现在对缺失数据较多或是多维高斯分布的情形下,计算量大,收敛速度较慢。
2)对于某些特殊的模型,要计算算法中的M步,即完成对似然函数的估计是比较困难的。
3)在某些情况下,要获得EM算法中E步的期望显式是非常困难的。
4)EM算法的收敛速度,非常依赖初始值的设置,设置不当,计算代价相当大。
5)EM算法中的M-Step依然是采用求导函数的方法,所以它找到的是极值点,即局
部最优解,而不一定是全局最优解。
④改进:针对1)改进:扩大参数空间来加快收敛
针对2)改进:ECM算法,该算法通过在M步构建计算比较简单的小循环对EM
算法进行了改进,从而使期望函数极大化更加容易和有效,从而解决这一问题。
针对3)改进:MCEM算法,将E步积分求期望用蒙特卡洛模拟方法来实现,使
得E步求期望更容易实现。
针对4)初始值的获取可以通过k-means算法,层次聚类算法或是数据数据进行随
机分割,然后重复EM效果进行初始点选择。
针对5)结合遗传算法的全局搜索能力,扩大EM算法的搜索空间,有效降低EM
算法对初始值的依赖度,改善局部最优值的缺陷。
(2)Linear Regression Algorithm(线性回归)
①算法思想:
线性回归(Linear Regression)是利用称为线性回归方程的最小平方函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。这种函数是一个或多个称为回归系数的模型参数的线性组合。只有一个自变量的情况称为简单回归,大于一个自变量情况的叫做多元回归。
回归模型:
其中 和C是未知参数,对于每个训练样本(x i,y i)可得到)
h,用来预测真实值y i。损失函数:
(x i
即误差值的平方。
1:对于训练集,求取θ,使得损失函数最小。(使用最小二乘法,梯度下降法)
2:对于新输入x,其预测输出为θTx
②优点:结果易于理解,实现简单,计算简单
③缺点:1)对于非线性的数据拟合效果不好(原因:因为线性回归将数据视为线性的,
可能出现欠拟合现象,导致结果不能取得最好的预测效果)
2)如果训练数据如果有些数据偏差特别大,这回造成最后训练的模型可能对整体数据都不具备很好的准确性
④改进:针对2)改进:局部加权回归
(3)Local Weighted Regression(局部加权回归)
①算法思想:
给每个待预测点周围的点赋予一定的权重,越近的点权重越高,以此来选出该预测点对应的数据子集,然后在此数据子集上基于最小均方差进行普通的回归.局部加权回归实质上是对于需要预测的点,只是根据其附近的点进行训练,其他的没有改变。
对于局部线性加权算法:
1:对于输入x,找到训练集中与x邻域的训练样本
2:对于其邻域的训练样本,求取θ,使得其∈x的邻域)最小。其中w(i)为权重值。
3.预测输出为θTx
4.对于新输入,重复1-3过程。
其中τ为带宽(bandwidth)常量,距离输入越远,权重越小,
反之越大。
②优点:1)局部加权回归还是对训练数据拟合的比较好
2)不太依赖特征的选择,而且只需要用线性模型就能够训练出不错的拟合模型、
③缺点:1)计算量较大。(因为局部加权回归的损失数随着预测值的不同而不同,这样θ