第七章 机器学习
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
解释过程
从实例中抽象出一般 性的知识的归纳过程
实例空间
规划过程
规则空间
向系统提供的示 教例子的集合
从实例空间中选择新的实例, 对刚刚归纳出的规则做进一 步的验证和修改
事务所具有的各 种规律的集合
7.3.1 归纳学习的模式和规则
例:学习“同花”概念
实例空间:{(2, 梅花), (3, 梅花), (5, 梅花), (J, 梅花), (K, 梅花)} 规则空间:描述一手牌的全部谓词表达式的集合 符号:SUIT(花色),RANK(点数) 常量:梅花,方块,A,1,2… 规则:SUIT(c1,x)∧SUIT(c2,x)∧SUIT(c3,x)∧SUIT(c4,x) ->同花 (c1,c2,c3,c4)
基尼值度量的)纯度的加权和。属性a的基尼指数定义如下:
我们在属性集合A中选择划分属性的时候,就选择使得划分后基尼指数最小的属性作为最 优划分属性。CART就是用基尼指数来选择划分属性的。
7.4.1 决策树和决策树构造算法
决策树的学习过程
✓ 信息熵 “信息熵”是度量样本纯度最常用的一种指标。所谓样本纯度,相反而言之就是凌乱
02 机器学习的主要 策略与基本结构
7.2.1 机器学习的发展史
机器学习的主要策略
按照学习中使用推理的多少,机器学习所采用的策略大体上可分为4种 机械学习:记忆学习方法,即把新的知识存储起来,供需要时检索调用,而不需要计算
和推理。 示教学习:外界输入知识与内部知识的表达不完全一致,系统在接受外部知识时需要推
7.3.1 归纳学习的模式和规则
执行过程描述
首先由施教者给实例空间提供一些初始示教例子,由于示教例子在形式上往往和 规则形式不同,因此需要对这些例子进行转换,解释为规则空间接受的形式。然后利用 解释后的例子搜索规则空间,由于一般情况下不能一次就从规则空间中搜索到要求的规 则,因此还要寻找一些新的示教例子,这个过程就是选择例子。程序会选择对搜索规则 空间最有用的例子,对这些示教例子重复上述循环。如此循环多次,直到找到所要求的 例子。
04 决策树学习
7.4.1 决策树和决策树构造算法
什么是决策树
决策树又称判定树,是数据挖掘技术中的一种重要的分类方法,它是一种以树 结构(包括二叉树和多叉树)形式来表达的预测分析模型。
决策树的表示
✓ 决策树的根节点和内部节点对应于对实例的某个属性 ✓ 每个节点的所有分支对应于该节点所对应属性的全部可能取值 ✓ 叶子节点给出实例的正确分类 ✓ 从根节点到叶子节点的每一条路径对应一组属性测试的合取,整棵树对应这些路径的析取。
7.1.1 机器学习的定义
什么是学习
学习可能只是一个简单的联想过程,给定了特定的输入,就会产生特定的输出。如:狗
✓ 命令“坐” ✓ 行为“坐”
经典定义:利用经验改善系统自身的性能
7.1.1 机器学习的定义
机器学习
顾名思义,机器学习是研究如何使用机器来模拟人类学习活动的一门学科。 稍为严格的提法是:机器学习是一门研究机器获取新知识和983):学习就是系统中的适应性变化,这种变化使系统在重复同样工作
正常 干鸣音
正常 干鸣音
正常
7.3.2 归纳学习方法
观察发现学习
观察发现学习分为观察学习与机器发现。前者对事例进行概念聚类,形成概念描述; 后者用于发现规律,产生定律或规则。
概念聚类
基本思想是把事例按一定的方式和准则进行分组,如划分为不同的类,不同的层次等, 使不同的组代表不同的概念,并且对每一个组及西宁特征概括,得到一个概念的语义符号描述。 ✓ 例如:喜鹊、麻雀、布谷鸟、乌鸦、鸡、鸭、鹅,……,可根据它们是否家养分为如下两类:
定的不同对象被划分在不相交的区域。 泛化能力:从有限样本集合中获得的规律是否对学习集以外的数据仍然有效。泛化能力
决定模型对世界的有效性。
7.1.2 机器学习的发展史
机器学习的发展分为4个时期
第一阶段是在50年代中叶到60年代中叶,属于热烈时期。 第二阶段在60年代中叶至70年代中叶,被称为机器学习的冷静时期。 第三阶段从70年代中叶至80年代中叶,称为复兴时期。 机器学习的最新阶段始于1986年 。
7.1.2 机器学习的发展史
神经元模型研究
20世纪50年代中期到60年代初期,也被称为机器学习的热烈时期,最具有代表性的工作是 罗森勃拉特1957年提出的感知器模型。
符号概念获取
20世纪60年代中期到70年代初期。其主要研究目标是模拟人类的概念学习过程。这一阶段 神经学习落入低谷,称为机器学习的冷静时期。
鸟={喜鹊、麻雀、布谷、乌鸦……} 家禽={鸡、鸭、鹅……} 这里“鸟”和“家禽”就是由分类得到的新概念,而且根据相应动物的特征还可得知: “鸟有羽毛、有翅膀、会飞、会叫、野生”,“家禽有羽毛、有翅膀、不会飞、会叫、家养”,
7.3.2 归纳学习方法
观察发现学习
机器发现
机器发现是指从观察的事例或经验数据中归纳出规律或规则,这是最困难且最富创造性 的一种学习。它可分为经验发现与知识发现两种,前者指从经验数据中发现规律和定律,后者是 指从已观察的事例中发现新的知识。
一棵决策树的生成过程主要分为以下3个部分: 特征选择:特征选择是指从训练数据中众多的特征中选择一个特征作为当前节点的
分裂标准,如何选择特征有着很多不同量化评估标准标准,从而衍生出不同的决策 树算法。 决策树生成: 根据选择的特征评估标准,从上至下递归地生成子节点,直到数据集 不可分则停止决策树停止生长。 树结构来说,递归结构是最容易理解的方式。 剪枝:决策树容易过拟合,一般来需要剪枝,缩小树结构规模、缓解过拟合。剪枝 技术有预剪枝和后剪枝两种。
环境:环境向系统提供信息的水平(一般化程度)和质量(正确性) 知识库:表达能力,易于推理,容易修改,知识表示易于扩展。
03 归纳学习
7.3.1 归纳学习的模式和规则
归纳学习是目前研究得最多的学习方法,其学习目的是为了获得新概念、构造 新规则或发现新理论。 根据归纳学习有无教师指导,可把它分为
知识强化学习
20世纪70年代中期到80年代初期。人们开始把机器学习与各种实际应用相结合,尤其是专 家系统在知识获取方面的需求,也为机器学习的复兴时期。
连接学习和混合型学习
20世纪80年代中期至21世纪初。把符号学习和连接学习结合起来的混合型学习系统研究已 成为机器学习研究的一个新的热点。
大规模学习与深度学习
7.1.1 机器学习的定义
机器学习的任务
根据有限样本集Q ,推算这个世界 W 的模型,使得其对这个世界为真。
7.1.1 机器学习的定义
机器学习的三要素
一致性假设:假设世界W与样本集Q具有某种相同性质机器学习的条件。 样本空间划分:将样本集放到一个n维空间,寻找一个决策面(等价关系),使得问题决
21世纪初以来,深度学习提出,一个以深度学习为标志的机器学习热潮比较明显;同时,
7.1.2 机器学习的发展史
机器学习进入新阶段的表现
机器学习已成为新的边缘学科并在高校形成课程。 综合各种学习方法 机器学习与人工智能问题的统一性观点正在形成。 各种学习方法的应用范围不断扩大。 数据挖掘和知识发现的研究已形成热潮 。 与机器学习有关的学术活动空前活跃 。
还可以表示成IF-THEN规则:
IF(Outlook=Sunny Humidity=Normal) V
(Outlook=Overcast)V (Outlook=Rain Wind=Weak) THEN PlayTennis=yes
No
Yes
No
Yes
7.4.1 决策树和决策树构造算法
决策树的学习过程
7.4.1 决策树和决策树构造算法
什么是决策树
例如,根据天气情况分类“星期六上午是否适合打网球”的决策树如下图所示。
Outlook
Sunny Overcast Rain
Humidity
Yes
Wind
High Normal
Strong Weak
对应的概念可以用如下表达式表示: (Outlook=SunnyHumidity=Normal)V (Outlook=Overcast) V (Outlook=Rain Wind=Weak)
1
2
肺炎
3
4
5
1
2
肺结核 3
4
5
发烧
高 中度 低 高 中度 无 高 低 无 低
咳嗽
剧烈 剧烈 轻微 中度 轻微 轻微 剧烈 轻微 轻微 中度
症状 X光图
象 片状 片状 点状 片状 片状 索条状 空洞 索条状 点状 片状
血沉
正常 正常 正常 正常 正常 快 快 快 快 快
听诊
水泡音 水泡音 干鸣音 水泡音 水泡音
发烧(无、低、高), 咳嗽(轻微、中度、剧烈), X光所见阴影(点状、索条状、片状、空洞)、 血沉(正常、快), 听诊(正常、干鸣音、水泡音)。
示例学习可从病例中归纳如下诊断规则:
(1)血沉=正常∧(听诊=干鸣音∨水泡音)→诊断=肺炎 (2)血沉=快→诊断=肺结核
7.3.2 归纳学习方法
示例学习
项目 病例号
第七章 机器学习
01 机器学习的定义和发展历史 02 目录 机器学习的主要策略与基本结构
CONTENTS
03 归纳学习
04 决策树学习 05 类比学习
06 解释学习 07 神经网络学习 08 知识发展 09 增强学习 10 深度学习
目录
CONTENTS
01 机器学习的定 义和发展历史
7.1.1 机器学习的定义
2016年3月 AlphaGo,以4:1战胜了李 世石九段。2015年底,战胜了一位欧洲 冠军。2016年底,Master 在围棋对弈网 站上横扫60局不输。在16年年中时,它 还是一个跟人类九段选手持平的水平,而 到了16年年底,它已经远远高出了人类的 最高水平,因为保持60局不败是任何人类 九段选手都不可能达到的水平。
理、翻译和转化。 类比学习:需要发现当前任务与已知知识的相似之处,通过类比给出完成当前任务的方
案。 示例学习:需要从一组正例和反例中分析和总结出一般性的规律,在新的任务中推广、
验证、修改规律
7.2.1 机器学习的发展史
学习系统的基本结构
环境
学习
知识库
执行
7.2.1 机器学习的发展史
影响学习系统设计的要素
7.4.1 决策树和决策树构造算法
决策树的学习过程
如何切分特征(选择节点)--特征选择
✓ 通过一种衡量标准,来计算通过不同特征进行分支选择后的分类情况,找出来最好的那个当 成根节点,以此类推。
✓ 决策树是根据“纯度”来构建的,如何量化纯度呢?这里介绍三种纯度计算方法。
✓ 基尼指数 基尼指数是针对于属性定义的,其反映的是,使用属性a进行划分后,所有分支中(使用
或类似工作时,能够做得更好。 明斯基(Minsky,1985):学习是在人们头脑里(心理内部)有用的变化。 学习是一个有特定目的知识获取和能力增长过程,其内在行为是获得知识、积累经验、
发现规律等,其外部表现是改进性能、适应环境、实现自我完善等。 机器学习是研究如何使用机器来模拟人类学习活动的一门学科。
7.3.1 归纳学习的模式和规则
归纳概括规则
选择性概括规则
✓ 取消部分条件 ✓ 放松条件 ✓ 沿概念树上溯 ✓ 形成闭合区域 ✓ 将常量转化为变量
构造性概括规则
7.3.2 归纳学习方法
示例学习
又称实例学习,它是通过环境中若干与某概念有关的例子,经归纳得出一般性概念的 一种学习方法
在这种学习方法中,外部环境提供的是一组例子(正例和反例),示例学习就是要从这些特殊 知识中归纳出适用于更大范围的一般性知识,以覆盖所有的正例并排除所有反例。取消部分条 件
示例学习(有师学习):给学习者提供某一概念的一组正例和反例,学习者归纳出一 个总的概念描述(规则),并使这个描述适合于所有的正例,排除所有的反例。
观察发现学习(无师学习):
✓ 概念聚类:按照一定的方式和准则分组,归纳概念 ✓ 机器发现:从数据和事例中发现新知识
7.3.1 归纳学习的模式和规则
归纳学习的模式
例如:用一批动物作为示例,并且告诉学习系统哪一个动物是“马”,哪一个不是,当示例足 够多时,学习系统就能够概括出关于“马”的概念模型,使自己能识别马,并且能把马与其他 动物区别开来,这个过程就是示例学习。
7.3.2 归纳学习方法
示例学习
例:下表给出肺炎与肺结核两种病的部分病例。每个病例都含有5种症状: