机器学习研究进展
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2. 集成可理解性 (con’t)
• 提出了二次学习 (twice-learning)
• 提出了C4.5Rule-PANE算法
获得: 强泛化能力 + 好可理解性
Z.-H. Zhou and Y. Jiang. Medical diagnosis with C4.5 rule preceded by artificial neural network ensemble. IEEE Transactions on Information Technology in Biomedicine, 2003, 7(1): 37-42. 据ISI统计, 该文被引次数在2003年1月以来该刊发表 的所有论文(共160篇)中排第5
机器人 行星 地质学
遥感信 息处理
……
机 器 学 习
美国航空航天局JPL实验室的科学家在《Science》(2001 年9月)上撰文指出:机器学习对科学研究的整个过程正起到
越来越大的支持作用,……,该领域在今后的若干年内将取得稳定 而快速的发展
机器学习的重要性
美国航空航天局JPL实验室的科学家在《Science》(2001 年9月)上撰文指出:机器学习对科学研究的整个过程正起到
机器学习研究进展
机器学习研究进展
国际动向 我们的一些工作
机器学习
机器学习是人工智能的核心研究领域之一
经典定义:利用经验改善系统自身的性能
随着该领域的发展,主要做智能数据分析
典型任务:根据现有数据建立预测模型
机器学习的重要性
……
分子 生物学
工业过 程控制 生物 信息学 计算 金融学
信息 安全
1. 选择性集成 (con‟t)
选择性集成思想的一般性:利用多个个体, 并对个体进行选择,可以获得更好的结果
问题
个体解
… ... … ... 个体解
个体解
选择性集成的思想可以用到更多的领域中去
选择的基本原则:个体的效用高、差异大
1. 选择性集成 (con‟t)
国际上的一些研究:
• 基于选择性集成的时序预报 [S. Chiewchanwattana
2. 集成可理解性
理想的学习系统
– 强泛化能力
– 好可理解性 (comprehensibility)
在很多应用中,学习系统只是一种辅助手段, 最终的决策还是需要由用户来做
“增强集成可理解性是一个有待研究的问题” [T.G. Dietterich, AIMag97]
2. 集成可理解性 (con’t)
k近邻 序列分析 …… ……
例2:生物信息学
常用技术:
神经网络 支持向量机
Biblioteka Baidu
隐马尔可夫模型
贝叶斯分类器 k近邻 聚类 决策树 序列分析 …… ……
例3:搜索引擎
Google的成功,使得Internet 搜索引擎成为一个新兴的产业
不仅有众多专营搜索引擎的公司出现(例如专 门针对中文搜索的就有百度、慧聪等),而且 Microsoft等巨头也开始投入巨资进行研发
美国的PAL计划: RADAR子计划
RADAR (Reflective Agents with Distributed Adaptive Reasoning),承担单位为CMU, 首期7百万美元
目标:“the system will help busy managers to cope with time-consuming tasks” “RADAR must learn by interacting with its human master and by accepting explicit advice and instruction”
从CALO的目标来看,DARPA已经开始把机器学习 技术的重要性放到了国家安全的角度来考虑
美国的PAL计划: CALO子计划(3)
我们最近关于集成学习的一些工作
为什么要研究集成学习?
泛化能力
泛化能力是机器学习关注的一个根本问题 泛化能力 (generalization ability) 表征 了学习系统对新事件的适用性
performs better than well-established ensembling approaches,…, at a much lower computational cost”)
– C. Torras – N. Garcia-Pedrajas 《IEEE Trans. EC》
• “开辟了广阔的领域” (“opens a wide field” )
美国的PAL计划: CALO子计划(1)
CALO (Cognitive Agent that Learns and Observes), 承担单位为SRI,首期2千2百万美元 除SRI外,这个子计划的参加单位有20家: Boeing, CMU, Dejima Inc., Fetch Tech Inc., GATech, MIT, Oregon HSU, Stanford, SUNY-Stony Brook, UC Berkeley, UMass, UMich, UPenn, Rochester, USC, UT Austin, UW, Yale, … CALO无疑是PAL中更核心的部分
1. 选择性集成 (con‟t)
• 提出了GASEN算法
显示出选择性集成理 论的可操作性 使用少得多的个体学 习器,取得了比 Bagging和Boosting 更高的精度
回归: 19% 分类: 36%
Z.-H. Zhou, J. Wu, and W. Tang. Ensembling neural networks: many could be better than all. Artificial Intelligence, 2002, 137(1-2): 239-263. 据ISI统计, 该文被引次数在 2002年1月以来该刊发表的所有论文(共278篇)中排第4 Z.-H. Zhou, J.-X. Wu, Y. Jiang, and S.-F. Chen. Genetic algorithm based selective neural network ensemble. In: Proc. IJCAI'01, Seattle, WA, pp.797-802.
et al., ICONIP‟02]
• GASEN的Grid实现 [T.K. Vin et al., IEEE ICDFMA‟05]
• 新的选择性集成方法 [N. Garcia-Pedrajas, TEC‟05]
•……
1. 选择性集成 (con‟t)
• top 1% cited paper since 2000 -ISI
个体的增加将使得个体间的差异越来越难以获得
1. 选择性集成 (con‟t)
• 提出了选择性集成(Selective Ensemble)
• 证明了 “Many Could be Better Than All” Theorem
在有一组个体学习器可用时,从中选择一部分进行集成,可能比用 所有个体学习器进行集成更好
2 N 1 Cij 2 N Cik N 2 Ek
2 i 1 j 1 i 1 ik
N
N
N
in classification
j j Sum j 1
m
j 1
Sgn Sum j f kj d j 0
in regression
Z.-H. Zhou, J. Wu, and W. Tang. Ensembling neural networks: many could be better than all. Artificial Intelligence, 2002, 137(1-2): 239-263. 据ISI统计, 该文被引次数在 2002年1月以来该刊发表的所有论文(共278篇)中排第4 Z.-H. Zhou, J.-X. Wu, Y. Jiang, and S.-F. Chen. Genetic algorithm based selective neural network ensemble. In: Proc. IJCAI'01, Seattle, WA, pp.797-802.
越来越大的支持作用,……,该领域在今后的若干年内将取得稳定 而快速的发展
例1:网络安全
入侵检测:
是否是入侵?是何种入侵?
如何检测?
•历史数据:以往的正常
访问模式及其表现、以往 的入侵模式及其表现……
•对当前访问模式分类
这是一个典型的机器学习问题
常用技术: 神经网络 决策树
支持向量机
贝叶斯分类器
聚类
– IJCAI‟01 Review
• “非常重要,非常新颖” (“very significant, very original”)
• “优秀论文” (“excellent paper”)
– 《AIJ》 editor
• “最佳论文之一” (“one of the best papers” ) – 《IJCIA》 editor • “了不起的是,该方法比以往著名的集成方法性能更好,而且 只用了较小的计算代价” (“It is remarkable that this strategy
Google掘到的第一桶金,来源于其创始人 Larry Page和Sergey Brin提出的PageRank 算法
机器学习技术正在支撑着各类 搜索引擎
美国的PAL计划
DARPA 2003年开始启动PAL(Perceptive Assistant that Learns)计划
5年期,首期(1-1.5年)投资2千9百万美元
以机器学习为核心的计划(涉及到AI的其他分支,如知识表示和
推理、自然语言处理等);包含2个子计划
总目标:
“is expected to yield new technology of significant value to the military, business, and academic sectors” “develop software that will help decision-makers manage their complex worlds of multiple simultaneous tasks and unexpected events”
我们的一些工作
1. 选择性集成 2. 集成可理解性
3. 多示例集成
4. 应用
1. 选择性集成
既然多个学习器的集成比单个学习器更好,那 么是不是学习器越多越好?
更多的个体意味着:
• 在预测时需要更大的计算开销,因为要计算更多的个体预测 • 更大的存储开销,因为有更多的个体需要保存
EEA
[A. Krogh & J. Vedelsby, NIPS94]
• 提出了REFNE方法
从功能分析的角度出发
S
lim func R func E
可以从集成中抽取符号规则, 使得集成的功能可以由符号规 则来描述
Z.-H. Zhou, Y. Jiang, and S.-F. Chen. Extracting symbolic rules from trained neural network ensembles. AI Communications, 2003, 16(1): 3-15. 据ISI统计, 该文被引次数在2003年1月以来 该刊发表的所有论文(共67篇)中排第1
美国的PAL计划: CALO子计划(2)
目标: “the name CALO was inspired by the Latin word
„calonis‟, which means „soldier‟s assistant‟”
“the CALO software, which will learn by working with and being advised by its users, will handle a broad range of interrelated decision-making tasks … It will have the capability to engage in and carry out routine tasks, and to assist when the unexpected happens”
泛化能力越强越好
提高泛化能力是机器学习永远的追求
集成学习
集成学习(Ensemble Learning)是一种机器学习范式, 它使用多个学习器来解决同一个问题
问题 问题
… ... … ... 由于集成学习可以有效地提高学习系统的泛化能力,因此它成 为国际机器学习界的研究热点
“当前机器学习四大研究方向之首” [T.G. Dietterich, AIMag97]