机器学习研究及最新进展
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
>How Are Memories Stored and Retrieved? >How Did Cooperative Behavior Evolve? ……….
谭营---机器学习研究及最新进展 20
http://www.sciencemag.org/sciext/125th/
记忆的模型与过程
•记忆的模型
2005-12-1
unkown
谭营---机器学习研究及最新进展 10
Application 6
Classifying Astronomical Objects Class of Tasks: Knowledge: Learning to classify new objects. database of images with correct classification.
2005-12-1 谭营---机器学习研究及最新进展 8
class 2 steer to the right
Application 4
Automatic Car Drive Class of Tasks: Knowledge: Learning to drive on highways from vision stereos. Images and steering commands recorded while observing a human driver.
2005-12-1 谭营---机器学习研究及最新进展 12
机器学习的任务
• 令W是这个给定世界的有限或无限所有对象的集合,由于 观察能力的限制,我们只能获得这个世界的一个有限的子 集Q⊂W,称为样本集。 • 机器学习就是根据这个有限样本集Q ,推算这个世界的模 型,使得其对这个世界为真。
泛化 W
Model
机器学习研究及最新进展
谭营 教授
北京大学智能科学系 视觉与听觉信息处理国家重点实验室
2005-12-1
谭营---机器学习研究及最新进展
1
题目:机器学习研究及最新进展 目录
• • • • • 机器学习的定义和任务 机器学习的发展历史 机器学习的主要方法 机器学习面临的挑战 最新发展方向
谭营---机器学习研究及最新进展 2
访问模式及其表现、以往 的入侵模式及其表现…… 这是一个典型的机器学习问 题
常用技术: 神经网络,决策树,支持向量机, 贝叶斯分类器,k近邻,聚类,序 列分析,免疫网络等
2005-12-1 谭营---机器学习研究及最新进展
•对当前访问模式分类
……
5
实例2:天气预报 如何预测?
•气象历史数据:以往的
2005-12-1
学习系统基本构成
学习环节: 感知环 境,获取知识
环境
学习环节
知识库
常用的学习方法 机械式学习 指导式学习 归纳式学习 类比学习
执行环节
一个基于知识库的智能系统
2005-12-1
谭营---机器学习研究及最新进展
3
机器学习的定义
通过经验提高系统自身的性能的过程 (系统自我改进)。 机器学习的重要性:
2005-12-1
建模
Q
13
谭营---机器学习研究及最新进展
机器学习的三要素
(1)一致性假设:机器学习的条件。 (2)样本空间划分:决定模型对样本集合 的有效性。
(3)泛化能力:决定模型对世界的有效性。
2005-12-1
谭营---机器学习研究及最新进展
14
要素1:一致性假设
• 假设世界W与样本集Q具有某种相同的性质。 • 原则上说,存在各种各样的一致性假设。 • 在统计意义下,一般假设:
要素3: 泛化能力
• 通过机器学习方法,从给定有限样本集合计算一个 模型,泛化能力是这个模型对世界为真程度的指标。
泛化值
样本1
样本2
新样本 样本3
2005-12-1
谭营---机器学习研究及最新进展
17
关于三要素
不同时期,研究的侧重点不同 • 划分:早期研究主要集中在该要素上 • 泛化能力(在多项式划分):80年代以来的近期 研究 • 一致性假设:未来必须考虑
2005-12-1 谭营---机器学习研究及最新进展 18
机器学习是多学科交叉
统计学 数学 计算复杂性 机器学习 哲学 其他学科 应用领域
2005-12-1
人工智能 控制论
信息论 认知科学 生物学
19
谭营---机器学习研究及最新进展
THE QUESTIONS--The Top 25
On 25 big questions facing science over the next quarter-century. (1 July 2005)
Performance Module: Accuracy in classification
2005-12-1
谭营---机器学习研究及最新进展
11
Other Applications
Bio-Technology Protein Folding Prediction Micro-array gene expression Computer Systems Performance Prediction Banking Applications Credit Applications Fraud Detection Character Recognition (US Postal Service) Web Applications Document Classification Learning User Preferences
Google掘到的第一桶金,来源于其创始人Larry Page和Sergey Brin提出的PageRank算法 机器学习技术正在支撑着各类搜索引擎 (尤其是贝叶斯学习技术)
2005-12-1 谭营---机器学习研究及最新进展 7
Application 4
Automatic car drive (ALVINN 1989)
• 记忆的模型与过程通常包括三个相互联系的阶段:
1、编码(encoding),2、存储(storage)3、提取(retrieval)
2005-12-1 谭营---机器学习研究及最新进展 21
工作记忆(Working Memory)
• 工作记忆系统能同时储存和加工信息,这和短 时记忆概念仅强调储存功能是不同的。 • 工作记忆分成:中枢执行系统、视空初步加工 系统和语音环路。 • 工作记忆与语言理解能力、注意力及推理能力 等联系紧密,工作记忆蕴藏智能的玄机。
• 1 if ∑ xiwi > t • 0 otherwise
– Supervised learning, perceptron changes weights based on correct results
• If output is correct, do nothing • If output is 0 and should be 1, increment weights on the active lines (input of 1) by some amount d. • If output is 1 and should be 0, decrement weights on the active lines by some amount d.
• • • • • • • • • • • • • • • •
2005-12-1
>What Is the Universe Made Of? >What is the Biological Basis of Consciousness? >Why Do Humans Have So Few Genes? >To What Extent Are Genetic Variation and Personal Health Linked? >Can the Laws of Physics Be Unified? >How Much Can Human Life Span Be Extended? >What Controls Organ Regeneration? >How Can a Skin Cell Become a Nerve Cell? >How Does a Single Somatic Cell Become a Whole Plant? >How Does Earth's Interior Work? >Are We Alone in the Universe? >How and Where Did Life on Earth Arise? >What Determines Species Diversity? >What Genetic Changes Made Us Uniquely Human?
– W与Q具有同分布。或, – 给定世界W的所有对象独立同分布。
2005-12-1
谭营---机器学习研究及最新进展
15
要素2:对样本空间的划分
• 样本集合模型: 将样本集放到一个n 维空间,寻找一个超 平面(等价关系),使 得问题决定的不同对 象被划分在不相交的 区域。
2005-12-1 谭营---机器学习研究及最新进展 16
• 自用户化程序
– 新闻阅读器学习用户的阅读兴趣。 返回
2005-12-1 谭营---机器学习研究及最新进展 24
机器学习早期研究
• • • • Rosenblatt的感知机(1956)。 Widrow的Madline (1960)。 Samuel的符号机器学习(1965)。 Minsky的“Perceptron”著作(1969,1988)。
2005-12-1
谭营---机器学习研究及最新进展
ຫໍສະໝຸດ Baidu
25
Perceptrons
• Devised by Frank Rosenblatt in the late 1950s
– A single-layer network where all inputs and activation values are either 0 or 1, and the weights are real valued – Activation function is a simple linear threshold
Performance Module: Accuracy in classification
谭营---机器学习研究及最新进展
2005-12-1
9
Application 5
Learning to classify astronomical structures.
galaxy stars Features: o Color o Size o Mass o Temperature o Luminosity
• 机器学习是人工智能的主要核心研究领域之 一, 也是现代智能系统的关键环节和瓶颈。 • 很难想象: 一个没有学习功能的系统是能被 称为是具有智能的系统。
2005-12-1 谭营---机器学习研究及最新进展 4
实例1:网络安全问题 入侵检测系统IDS:
是否是入侵?是何种入侵?
如何检测?
•历史数据:以往的正常
2005-12-1
谭营---机器学习研究及最新进展
22
Working Memory Model
2005-12-1
谭营---机器学习研究及最新进展
23
机器学习的分支
• 数据挖掘:利用历史数据来改进决策
– 例如:医学记录 ——> 医学知识
• 软件应用(不能手工编程的应用)
– 汽车自动驾驶 – 语音识别 等
Train computer- controlled vehicle to steer correctly when driving on a variety of road types.
computer (learning algorithm)
class 1 steer to the left class 3 continue straight
各种气象数据及其变化特 点…… 这是一个典型的机器学习 问题
常用技术: 统计多参数模型,神经网络, 贝叶斯分类器,k近邻,聚类
•对未来一周天气的预 报
……
2005-12-1
谭营---机器学习研究及最新进展
6
实例3:搜索引擎
Google的成功,使得Internet搜 索引擎成为一个新兴的产业出现 有众多专营搜索引擎的公司(例 如百度等专门针对中文搜索), 而且Microsoft等巨头也开始投入 巨资进行搜索引擎的研发