机器学习经典算法 ppt课件

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

K的值一般选取为√q (q为训练元组的数目,商业算法通常以10作为默认值)
三、朴素贝叶斯
• 机器学习的任务:在给定训练数据D时,确定假设 空间H中的最佳假设。
• 最佳假设:一种方法是把它定义为在给定数据D以 及H中不同假设的先验概率的有关知识下的最可能 假设。贝叶斯理论提供了一种计算假设概率的方法, 基于假设的先验概率、给定假设下观察到不同数据 的概率以及观察到的数据本身。
有监督学习(用于分类)
• 标定的训练数据 • 训练过程:根据目标输出与实际输出的误差信号来调节参
数 • 典型方法
– 全局:BN, NN,SVM, Decision Tree – 局部:KNN、CBR(Case-base reasoning)
X2 (area)
Object Feature Representation
S(x)>=0 Class A
S(x)<0 Class B
S(x)=0
(perimeter) X1
Objects
无监督学习(用于聚类)
• 不存在标定的训练数据 • 学习机根据外部数据的统计规律(e.g. Cohension &
divergence )来调节系统参数,以使输出能反映数据的某 种特性。 • 典型方法 – K-means、SOM….
经典算法
机器学习十大经典算法
1. C4.5 2. 分类与回归树 3. 朴素贝叶斯Hale Waihona Puke Baidu4. 支持向量机(SVM) 5. K近邻(KNN) 6. AdaBoost 7. K均值(K-means) 8. 最大期望(EM) 9. Apriori算法 10.Pagerank
机器学习方法的分类
基于学习方式的分类
(2)在面对诸如存在缺失值、变量数多等问题时C&RT 显得非常稳健( robust);
(3)估计模型通常不用花费很长的训练时间; (4) 推理过程完全依据属性变量的取值特点(与 C5.0不同,C&RT的输
出字段既可以是数值型,也可以是分类型) (5)比其他模型更易于理解——从模型中得到的规则能得到非常直观的
• 主要应用在电子邮件过滤和文本分类的研究
朴素贝叶斯算法原理:
四、KNN
• K-近邻分类算法(K Nearest Neighbors,简称 KNN)通过计算每个训练数据到待分类元组的距 离,取和待分类元组距离最近的K个训练数据,K 个数据中哪个类别的训练数据占多数,则待分类元 组就属于哪个类别。
决策树停止生长的条件
满足以下一个即停止生长。 • (1) 节点达到完全纯性; • (2) 数树的深度达到用户指定的深度; • (3) 节点中样本的个数少于用户指定的个数; • (4) 异质性指标下降的最大幅度小于用户指定的
幅度。
• 剪枝:完整的决策树对训练样本特征的描述可能“ 过于精确”(受噪声数据的影响),缺少了一般代 表性而无法较好的用对新数据做分类预测,出现 ” 过度拟合”。
解释,决策推理过程可以表示成 IF…THEN的形式 (6)目标是定类变量为分类树,若目标变量是定距变量,则为回归树; (7)通过检测输入字段,通过度量各个划分产生的异质性的减小程度,
找到最佳的一个划分。 (8)非常灵活,可以允许有部分错分成本,还可指定先验概率分布,可
使用自动的成本复杂性剪枝来得到归纳性更强的树
• 设S代表训练数据集,由s个样本组成。A是S的某个属 性,有m个不同的取值,根据这些取值可以把S划分为 m个子集,Si表示第i个子集(i=1,2,…,m),|Si|表 示子集Si中的样本数量。
数据集如图1所示,它表示的是天气情况与去不去打高尔夫球之间的关系
二、分类和回归树(Classification and Regression Trees——CART,可简写为C&RT)
决策树的优势在于不需要任何领域知识或参数 设置,产生的分类规则易于理解,准确率较高。适 合于探测性的知识发现。
缺点是:在构造树的过程中,需要对数据集进 行多次的顺序扫描和排序,因而导致算法的低效。
• 增益比率度量是用增益度量Gain(S,A)和分裂信息度 量SplitInformation(S,A)来共同定义的
(1)有监督学习:输入数据中有导师信号,以概率函数、代 数函数或人工神经网络为基函数模型,采用迭代计算方法 ,学习结果为函数。
(2)无监督学习:输入数据中无导师信号,采用聚类方法, 学习结果为类别。典型的无导师学习有发现学习、聚类、 竞争学习等。
(3)强化学习(增强学习):以环境反馈(奖/惩信号)作 为输入,以统计和动态规划技术为指导的一种学习方法。
移去对树的精度影响不大的划分。使用 成本复杂度 方法,即同时度量错分风险和树的复杂程度,使二 者越小越好。
• 剪枝方式:
A、 预修剪(prepruning):停止生长策略
B、后修剪(postpruning):在允许决策树得到最充 分生长的基础上,再根据一定的规则,自下而上逐 层进行剪枝。
优点
(1)可自动忽略对目标变量没有贡献的属性变量,也为判断属性变量的 重要性,减少变量数据提供参考;
• CART算法中的每一次分裂把数据分为两个子集,每 个子集中的样本比被划分之前具有更好的一致性。 它是一个递归的过程,也就是说,这些子集还会被 继续划分,这个过程不断重复,直到满足终止准则 ,然后通过修剪和评估,得到一棵最优的决策树。
在ID3算法中,用“熵”来度量数据集随机性的 程度。在CART中我们把这种随机性的程度称为“杂 度”(impurity,也称为“不纯度”),并且用“ 吉尼”(gini)指标来衡量它。
示例:聚类
半监督学习
• 结合(少量的)标定训练数据和(大量的)未标定 数据来进行学习
• 典型方法 – Co-training、EM、Latent variables….
一、C4.5
C4.5由J.Ross Quinlan在ID3的基础上提出的 。ID3算法用来构造决策树。决策树是一种类似流 程图的树结构,其中每个内部节点(非树叶节点) 表示在一个属性上的测试,每个分枝代表一个测试 输出,而每个树叶节点存放一个类标号。一旦建立 好了决策树,对于一个未给定类标号的元组,跟踪 一条有根节点到叶节点的路径,该叶节点就存放着 该元组的预测。
相关文档
最新文档