机器学习及其应用-应用数学系讲座
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• 算盘 • 帕斯卡加法机
4
巴贝奇
• 差分机 • 分析机
5
莱布尼兹
• • • • 二进制 乘法机 猜测人类的思想可以简化为机械计算 形式推理
6
数理逻辑——离散数学第一部分
• 20世纪,数理逻辑研究上的突破使得人工 智能好像呼之欲出。 • 布尔 《思维的定律》 • 弗雷格 《概念文字》 • 罗素、怀特海 《数学原理》中对数学的基 础给出了形式化描述。 • 希尔伯特 “能否将所有数学推理形式化?” • 哥德尔不完备定理 图灵机 丘奇 λ演算
Google掘到的第一桶金,来源于其创始人 Larry Page和Sergey Brin提出的PageRank算 法
机器学习技术正在支撑着各类 26 26 搜索引擎
例5:色彩空间转换
常用技术: 神经网络 支持向量机 聚 隐马尔可夫模型 贝叶斯分类器 类 …… ……
27
27
How:机器如何学习?
28
pixel 2
Raw image
Motorbikes “Non”-Motorbikes
pixel 2
pixel 1
31 24
Andrew Ng
Machine learning and feature representations
pixel 1
Learning algorithm
Input
pixel 2
Andrew Ng
Why is this hard?
You see this:
But the camera sees this:
30 23
Andrew Ng
Machine learning and feature representations
pixel 1
Learning algorithm
Input
What do we want computers to do with our data?
Images/video
Label: “Motorcycle” Suggest tags Image search …
Audio
Speech recognition Speaker identification Music classification …
7
冯·诺伊曼
• 二进制 • 101页报告 EDVAC报告书 • 冯·诺伊曼结构
8
• Can Machines Think? • 图灵测试 • 图灵机
9
• 图灵在1950年发表的一篇催生现代智能机器研究 的著名论文中称,“我们只能看到眼前的一小段 距离……但是,我们可以看到仍有许多工作要 做”。 • 邱奇-图灵论题暗示,一台仅能处理0和1这样简单 二元符号的机械设备能够模拟任意数学推理过程。 这里最关键的灵感是图灵机:这一看似简单的理 论构造抓住了抽象符号处理的本质。这一创造激 发科学家们探讨让机器思考的可能。
Text
Web search Anti-spam Machine translation …
Machine learning performs well on many of these problems, but is a lot of work. What is it about machine learning that makes it so hard 29 22 to use?
从用户节点流过的数据巨大,但大多数无 意义,例如,网络信息分析。
多示例学习 Multi-instance learning
Ranking学习 Learning for ranking
规则+例外学习
Rule+Exception Learning
数据流学习 Data stream learning 20
机器学习及其应用 ——从离散数学谈起
Machine Learning and Its Applications ——To Begin with Discrete Mathematics 李 军 应用数学系 2013.10.30
1
我的离散数学考试题
• 1、哪个悖论是罗素提出的?( ) A、理发师悖论 B、说谎者悖论 C、芝诺悖论 D、言尽悖 • 5、相比之下,与计算机科学发展史最不相关的是( A、图灵 B、莱布尼兹 C、哈密顿 D、哥德尔 )
流形学习 Manifold Learning
半监督学习
Semi-supervised learning
关系学习 Relational learning 19
19
近年机器学习的发展趋势
问题驱动的机器学习研究(应用类型)
一个对象同时有多个描述,不知道哪个 描述是决定对象性质(例如类别),“对 象:描述:类别”之间呈现1:N:1关系。例 如,基因功能分析。 假设用户的需求不能简单地表示为“喜 欢”或“不喜欢”,而需要将“喜欢” 表示为一个顺序,如何学习获得这个“ 喜欢”顺序的模型。例如,信息检索。 模型重要,不满足模型的个例更为重要 ,例外相对特定模型存在。例如,科学 与情报数据分析。
应用驱动的机器学习研
统计机器学习 集成机器学习 符号机器学习 增强机器学习
流形机器学习 半监督机器学习 多实例机器学习 Ranking机器学 数据流机器学习
18
18
近年机器学习的发展趋势
问题驱动的机器学习研究(基础类型)
很多问题的表示方法,使得信息十分 稀疏,且具有强的非线性特性,将信 息稠密化、可视化是重要任务。例如 ,图像、文本等处理。 观测数据不能决定其类别标号,需要 根据已知类别标号的样本与领域知识 来推测。例如,医学影像,质谱蛋白 质结构分析。 数据存储在关系数据库中,它们不能 表示为属性-值表形式。只能使用一阶 谓词来描述,例如,金融数据分析。
我的离散数学考试题
• 1、哪个悖论是罗素提出的?( ) A、理发师悖论 B、说谎者悖论 C、芝诺悖论 D、言尽悖 • 5、相比之下,与计算机科学发展史最不相关的是( A、图灵 B、莱布尼兹 C、哈密顿 D、哥德尔 )
• 6、许多计算机科学的先驱者既是数学家,也是计算机科学 家,但下列哪个选项例外?( ) A、冯.诺依曼 B、图灵 C、 罗素 D、高德纳 • 10、离散数学能够培养学生严密的抽象思维和严格的逻辑推 理能力,离散数学研究离散量的结构和相互关系,充分描述 了计算机科学离散性的特点。离散数学的英语表示是( ) A、Fuzzy Mathematics B、Discrete Mathematics C、Computing Mathematics D、Continuous Mathematics • 15、离散数学与下列哪个研究方向最无关( ) 3 A、人工智能 B、机器学习 C、模式识别 D、函数论
13
机器学习的发展历史(1)
• 1950s:神经科学的理论基础
–James关于神经元是相互连接的发现 –McCullon & Pitts的神经元模型 –Hebb 学习律(相互连接强弱度的变换规则) 1960s:感知器(Perceptron)时代 –1957年Rosenblatt首次提出
14
机器学习的发展历史(2)
12
What:什么是机器学习?
• 机器学习(Machine Learning)是一门多领域 交叉学科,涉及概率论、统计学、逼近论、 凸分析、算法复杂度理论等多门学科。专 门研究计算机怎样模拟或实现人类的学习 行为,以获取新的知识或技能,重新组织 已有的知识结构使之不断改善自身的性能。 它是人工智能的核心,是使计算机具有智 能的根本途径,其应用遍及人工智能的各 个领域,它主要使用归纳、综合而不是演 绎。
–符号机器学习 –计算机器学习(统计学习理论,典型例子:SVM) –集群机器学习(典型代表:Boosting) –强化机器学习 –流形机器学习 –监督学习,非监督学习 –半监督学习、 –….
17
机器学习研究的变
Carbonell(1989)展 Dietterich(1997)展
连接机器学习 符号机器学习 遗传机器学习 分析机器学习
10
What:什么是机器学习? Why:为什么需要机器学习? How:机器如何学习? 机器学习的未来 如果你学会机器学习
11
What:什么是机器学习?
• 机器学习是近20多年兴起的一门多领域交叉学科,涉及概 率论、统计学、逼近论、凸分析、算法复杂度理论等多门 学科。机器学习理论主要是设计和分析一些让计算机可以 自动“学习”的算法。机器学习算法是一类从数据中自动 分析获得规律,并利用规律对未知数据进行预测的算法。 因为学习算法中涉及了大量的统计学理论,机器学习与统 计推断学联系尤为密切,也被称为统计学习理论。算法设 计方面,机器学习理论关注可以实现的,行之有效的学习 算法。 • 机器学习已经有了十分广泛的应用,例如:数据挖掘、计 算机视觉、自然语言处理、生物特征识别、搜索引擎、医 学诊断、检测信用卡欺诈、证券市场分析、DNA序列测序、 语音和手写识别、战略游戏和机器人运用。
• 6、许多计算机科学的先驱者既是数学家,也是计算机科学 家,但下列哪个选项例外?( ) A、冯.诺依曼 B、图灵 C、 罗素 D、高德纳 • 10、离散数学能够培养学生严密的抽象思维和严格的逻辑推 理能力,离散数学研究离散量的结构和相互关系,充分描述 了计算机科学离散性的特点。离散数学的英语表示是( ) A、Fuzzy Mathematics B、Discrete Mathematics C、Computing Mathematics D、Continuous Mathematics • 15、离散数学与下列哪个研究方向最无关( ) A、人工智能 B、机器学习 C、模式识别 D、函数论 2
如何检测?
•历史数据:以往的正常
访问模式及其表现、以往 的入侵模式及其表现……
•对当前访问模式分类
这是一个典型的机器学习问题
常用技术: 神经网络 支持向量机 k近邻 …… …… 23
23
决策树 贝叶斯分类器 序列分析 聚类
例2:生物信息学
常用技术: 神经网络 贝叶斯分类器 决策树 序列分析 聚类 …… …… 支持向量机 k近邻 隐马尔可夫模型
Motorbikes “Non”-Motorbikes
pixel 2
pixel 1
33 26
Andrew Ng
What we want
handlebars
wheel
Feature representation
E.g., Does it have Handlebars? Wheels?
20
Why:为什么需要机器学习?
21
机器学习的重要性
美国航空航天局JPL实验室的科学家在《Science》(2001 年9月)上撰文指出:机器学习对科学研究的整个过程正起 到越来越大的支持作用,……,该领域在今后的若干年内 将取得稳定而快速的发展
22
22
例1:网络安全 入侵检测:
是否是入侵?是何种入侵?
• 1969年:《Perceptron》出版,提出著名 的XOR问题 • 1970s:符号主义,逻辑推理 • 1980s:MLP+BP算法成功解决XOR问 题,从此进入神经网络时代(连接主义) • 1960s-1970s: 统计学习理论创立
–VC维的基本概念 –结构风险最小化原则 –概率空间的大数定律
Raw image
Motorbikes “Non”-Motorbikes
pixel 2
pixel 1
32 ห้องสมุดไป่ตู้5
Andrew Ng
Machine learning and feature representations
pixel 1
Learning algorithm
Input
pixel 2
Raw image
24
24
例3:计算语言学
常用技术: 神经网络 贝叶斯分类器 隐马尔可夫模型 决策树
25
25
序列分析 聚类 …… ……
例4:搜索引擎
Google的成功,使得Internet 搜索引擎成为一个新兴的产业 不仅有众多专营搜索引擎的公司出 现(例如专门针对中文搜索的就有 百度、慧聪等),而且Microsoft等 巨头也开始投入巨资进行研发
15
机器学习的发展历史(3)
• 1990s:统计学习理论的发展及完善
–典型代表:SVM (Vapnik,Bell实验室) –结构风险最小化 –最小描述长度原则 –小样本问题 –核函数、核空间变化 –PAC理论下的弱可学习理论的建立 –支持向量机 –…
16
机器学习的发展历史(4)
• 2000s:各种机器学习理论及算法得以充分发展