机器学习与数据挖掘 - 大眼睛实验室

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

Machine Learning and Data Mining 2009
求解Bayes问题的策略
中 国 使用Markov网表示Bayes问题。 科 (1)连接的节点保持连接。(2)X与Y有共同子孙,X与Y连接。 学

由于Bayes网可以简单地

转化为Markov网,因此,
动 化 研 究
在统计上,这个方法可 以归入Bayes范畴, Markov网成为求解 Bayes问题的一个方法。
P(G | I, D)


L
P(L | I, D, G) L只与G有关,与其他独立

P(S | I, D, G, L) S只与I有关,与其他独立
究 所
P(D, I)=P(D)P(I)
P(L, I|G)=P(L|G)P(I|G)
P(L, D|G)=P(L|G)P(D|G)
I-map={ DI L I L D S D S G S L }
研 究 所
过分强调独立性,使得描述任何一个问题,需要穷举出 所有可能。80年代,耗资巨大的CYC“失败”了。
需要统计方法成为共识。
Machine Learning and Data Mining 2009
20世纪80年代面临的选择

国 概率图模型(Bayes学派):

Markov随机场

Bayes网
人工神经网络(频率学派):
BP 统计机器学习

自 动 化
Gibbs[1902], Wright[1935]
Clifford[1971] Pearl[1988,89]
选择

结构学习的困难
字符识别,网络数据建模

先验的结构
误差界指导算法设计

先验概率分布
算法基于线性感知机
推断是NPC
无需先验知识,无推断
所 新世纪开始,统计学家加入SML,完全放弃PAC(Hastie)。
从ANN到SML,发展得力于对字符识别的成功
Machine Learning and Data Mining 2009
维数灾难

国 在高维空间(成百上千)建模,最大的危险就是空间大
科 的程度使得再多的样本,在这个空间上也是稀疏的。
总结:我们的纠结

国 统计机器学习以“泛化”为核心。

学 泛化:大量不确定观察的平均是确定的,排中。iid
院 自
难以割舍:
动 (1)大量实际问题需要建立的模型是可泛化的;
化 研
(2)泛化使得建立的模型是实际问题有依据的近似;
究 (3)不知什么新的标准可以代替泛化。
所 Koller这本书并没有以泛化为核心,她的宗旨与AI相似。
第九届机器学习 及其应用研讨会 2011年11月,清华大学
机器学习的困惑 与历史的启示
王珏
中国科学院自动化研究所
Machine Learning and Data Mining 2009
统计机器学习的麻烦
[采样]
统计机器学习

样本集
假设iid

[算法]
模 ?????
模型
[交叉验证]
型 [设计实验]
特殊函数的逼近
如果数据不充分,在大变量集合下,
问题:模型是自中然国模科型吗学?院自如动何设化计研实究验所,获得新数据。
Machine Learning and Data Mining 2009
统计机器学习的困难:实验设计存在组合问题。iid成为与自然模 型无关的假设!
Machine Learning and Data Mining 2009
院 自 动 化
假设:结构未知,但是,样本完整。 任务:学习结构和参数。 考虑一个可能结构的假设空间,结构选择变为优化问题。
研 究 所
假设:样本不完整,或某些变量未知。 任务:发现非显现表现的变量,知识发现。
Machine Learning and Data Mining 2009
学习结构的两种策略
科 在证据E=e条件下,Y出现的概率(边缘概率)。
学 院
(1)根据给定BN,计算联合分布:P() = P(Xi | PaXi)
自 (2)计算在E下变量Y的边缘分布:P(Y | E) = X-{Y}-EP()
动 化
计算是NPC问题(或多重积分,Bayes问题)。
研 求解Bayes问题的两条路线(Duda(1973), Koller(2009)):

国 假设空间:对结构,就是变量连接的全组合。
A
科 学习结构:根据某种准则,求出I-map

院 I(G)={A B} I(G)={A C} I(G)={A E} B
C

I(G)={A E,B E, C D, A C}
动 准则:对某个结构 目标:从假设空间中选择似
化 的评价---评分。 然最大的模型(结构和参数)
复杂信息系统(结构): 专家系统
句法模式识别
自 Duda and Hart[73]
If [D=0][G=A] then[L=0]
选择 动 从Bayes判别(分类),
化 引入损失函数,变为正
If [I=0][G=A] then[L=0] If [D=1][I=1][G=A] then [L=1]
结构(符号计算)
人工智能


D. Rumelhart等, Parallel Distributed Processing, 1986

V. Vapnik, The nature of statistical learning theory, 1995

T.Hastie等, The Elements of Statistical Learning, 2003

自 1991年,Vapnik借用在AI中的 贡献: (1)基于iid的误差界指导算法设
动 化
PAC,给出基于iid的误差界, 基于PAC的统计开始成为主流
计,(2)算法设计返回感知机,线性 算法,寻找线性空间(核映射)。
研 基于PAC理论,误差界以1-概率成立。这个参数在泛化意义下的解释: 究 理想,应该趋于0,但是,误差界将趋于无穷,成为平凡界。
研 究 2000-今后 所 平均+结构?
概率图模型?
D. Koller等
1986-今天
Probabilistic Graphical Models: 平均(数值计算) Principles and Techniques, 2009 统计机器学习
Machine Learning and Data Mining 2009
愚者浅谈,不足为凭 痴人梦语,切勿轻信 旧路沿袭,艰难度日 新盘洞察,激动人心
谢谢
中国科学院自动化研究所
Machine Learning and Data Mining 2009
自 动 化
金融和生物等领域,计算机科学有两个策略:其一,代替领域专 家(从数据建立可靠(泛化)的模型),其二,为领域提供工具,简 化专家的工作(知识发现)。对这些领域,描述可能更好。对网络、
研 语言、图像等领域,泛化是重要的,但是,发现同样重要。
究 所
概率图模型为“描述”与“描述后的预测”提供基础。


科 学
一、表示

自 动
二、推断
化 研
三、学习


Machine Learning and Data Mining 2009
表示---I-map

国D
I
P(I,D,G,L,S)= P(I) P(D) P(G|I,D) P(L|G) P(S|I)


P(I)
院G
S
P(D | I) I与D相互独立

Machine Learning and Data Mining 2009
前途:“预测”与“描述”

国 预测与描述是数据挖掘提出的两个任务,但是,数据挖掘的描述
科 任务一直开展不好(啤酒和尿布)。被嘲笑!
学 图模型既可以消除噪音且表示紧凑(相对AI的穷举),还可以对模
院 型的各个部分可解释。前者是预测(泛化),后者是描述(发现)。
研 则化问题
究 所
非线性问题 计算效率
专家系统合理 复杂问题求解
实现智能系统的理想
Machine Learning and Data Mining 2009
AI

国 1956年,以复杂信息处理为契机,提出AI。其动机有二:
科 其一,发展处理符号的方法,其二,处理非线性问题。

院 自 动 化
1969年,M.Minsky发表颠覆性的报告, “Perceptron”。 表象是以XOR问题向以平均为基础的感知机发难,本质是 试图以结构方法代替平均。全书使用拓扑作为工具。
社会的需求

国 生物、网络、金融、经济和安全等众多领域,大变
科 学 院
量集合的海量数据不断涌出,社会迫切需要分析与 处理这些数据的有效理论、方法与技术。

动 寻找分析与处理大变量集合海量数据的新理念、理
化 研
论、方法与技术成为当前迫切的任务。


历史的故事
中国科学院自动化研究所
Machine Learning and Data Mining 2009

求解Bayes问题有两个途径:(1)直接求解,困难;(2)变换为Markov网,
使用优化方法求解。(与Duda & Hart的思考一致)。
Machine Learning and Data Mining 2009
推断---Bayes问题

国 推断,概率查询(Y边缘):根据给定图,计算P(Y | E = e)。
考虑泛化为核心
Machine Learning and Data Mining 2009
统计机器学习

国 神经网络基于PAC的机器学习基于统计学的机器学习
科 学
1986年, Remulhart发表PDP报告,包含非线性BP算法,解决XOR,逼 近非线性函数。学术价值不大,人们开始重新尝试“平均”方法。

D
E

所 更为重要的是:通过知识库建立结构(或减小假设空间)。
Machine Learning and Data Mining 2009
历史进程---20年河东,20年河西?

国 1943-1969
M. Minsky等
1956-1986
科 学
平均(数值计算) 感知机
Perceptrons: An introduction to computational geometry. 1969
科 著(近1200页),概率图模型。

院 自
结构(全局) + 平均(局部)


研 将平均放在局部,避免了维数灾问题,同时保证了泛化和
究 模型的可解释性,关键是结构,将局部的平均构造起来。

将问题考虑为求解Bayes问题
Machine Learning and Data Mining 2009
概率图模型的三个要素
Machine Learning and Data Mining 2009
线性感知机

国 1902年,James的神经元相互连接
科 1943年,McCulloch和Pitts的神经元工作方式
学 1949年,Hebb的学习律。


动 基于最小二乘的Rosenblatt的感 基函数:
化 知机(1956),其本质是多变量空 L = 1D + 2I + 3G + 4S
究 所
(1)直接求解:动态规划、Clique树,蒙特卡洛等。
(2)变分求解:设定目标函数(损失),化为正则化问题。
Machine Learning and Data Mining 2009
学习

国 假设:给定结构且样本完整(所有变量被赋值)。
科 任务:学习参数,参数估计。CPD
学 方法:(1)最大似然估计, (2)Bayes预测
研 间上的平均(回归)。
设计算法,确定,获得模型
究 所
贡献是:多变量回归的计算方法(神经网络)。
疑问是:只能解决线性问题,不能满足实际的需要。埋下
被批评的口实。
Machine Learning and Data Mining 2009
Hale Waihona Puke Baidu
20世纪70年代面临的选择

国 科 学 院
统计优化(平均): 线性感知机 统计模式识别

院 自 高维空间上的统计理论,多重积分是麻烦,补充“合适”
动 样本是麻烦。“同分布”只能停留在假设上,无法实施。



由于困难具有本质性,平均遇到大麻烦!

Machine Learning and Data Mining 2009
概率图模型

国 基于平均的研究已经过去20余年,2009年,Koller出版巨
相关文档
最新文档