读DaphneKoller的“概率图模型”

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

究 If [D=1][I=0][G=A] then [L=?] 高维数据,不知道!模型不可解释
所 这就是人工智能遇到的难题!无 这就是统计机器学习遇到的难题。
法泛化!不同查询,不同规则! 可以泛化,精度未知,不可解释。
Machine Learning and Data Mining 2009
问题本身的语义

国 课程难易程度与考试分数有关。 这种语义可以根据统
科 学生智力与考试成绩有关。
计分布获得,也可以
学 学生智力与SAT有关。
根据常识经验获得。
院 考试成绩与“推荐信强弱”有关。
自 动
AI方案充分考虑了这种语义, 统计学习方案完全不考虑这
化 但是,将这种语义强化到唯 种语义,尽管具有灵活性(泛
研 一表示程度(当且仅当),缺 化),但是,需要充分的观察
自 型,验证,误报5%。误报中有一个样本,预报大暴雨,实
动 际是晴天,各种因素均说明有暴雨,但是,

研 究
湿度指标低,没有水!当然没有暴雨!平均将这个重要指 标与其他指标一起平均了。小学生不会犯的差错(80年代末)

单纯结构或单纯平均需要满足严厉的条件,否则无效
Machine Learning and Data Mining 2009
这本著作包罗万象(1200页),这个讲座是根据我个人偏好,抽出最 基本的思考、研究方法,以及实现这个思考的基本理论。而书中 罗列的大量具体的方法则认为:不是解决问题的唯一途径,而是 存在的问题。这本著作数学符号体系繁杂,谈不上“优美”。著 作有四个部分:表示、推断、学习和action and decision,我们只 讨论前三个部分。
究 失灵活性。
样本。
所 两者的共同代价是:维数灾难。前者,需要考虑所有可能
的组合的规则集合,后者,需要考虑充分的样本集合。
ML强调给定变量集合张成的空间上计算平均的方法,抹煞 变量之间的结构;AI强调变量的独立性,忽视变量之间的条 件独立关系。是否可将变量子集(甚至一个变量)的局部分布, 根据变量之间内在的结构,转变为对变量集合整体的联合分 布。这样,就可以既顾及了变量之间存在结构,又考虑了平 均的必要性。概率图模型应该是一个这样的方案。
中国科学院自动化研究所
Machine Learning and Data Mining 2009
致谢
在我准备这个“笔记”之前,王飞跃、宗成庆和我的12个 学生参加了我们的一个讨论班,大家一起通读了Koller的这 本书。这个讨论班对我准备这个“笔记”有很大的帮助, 这些学生是:王飞跃教授的学生,顾原、周建英、陈诚和 李泊;宗成庆教授的学生,庄涛和夏睿;我的学生韩彦军、 马奎俊、孙正雅、黄羿衡和吴蕾,以及吴高巍博士。在此 表示谢意。特别感谢韩素青和韩彦军帮助我检查和修改了 全部ppt。
书中“学生”的例子

国 课程(D:{难=0,易=1})
科 学
考试(G: {A, B, C}) 推荐(L: {强=0,弱=1})。
智力(I: {聪明=0,一般=1}) SAT (S: {好=0,坏=1}) 以推荐作为查询变量(L)
院 根据观察和专家经验,构造规则集 构造一个函数:L = f (,D,I,G,S)
折衷的理念。Koller这本书应该是这种折中的理念。
Machine Learning and Data Mining 2009
极端的例子

国 对任意三角形识别(最简单的图形),如果采用句法(单纯结
科 构)方法,需要“上下文敏感文法”描述,没有Parsing算法。
学 院 成都地区暴雨预报,十年的数据。神经网络(平均),获得模
中国科学院自动化研究所
Machine Learning and Data Mining 2009
Machine Learning and Data Mining 2009
标题,AI与ML
中 国 采用“结构+平均”作为标题,没有使用“结构+统计”或 科 者“人工智能+统计学”,或“图+概率”。“结构”与 学 “统计”似乎不具有同等地位,“人工智能”与“统计学” 院 水火不相容,“图+概率”直观确切,其本质对应“结构” 自 与“平均”,对中文,“结构+平均”更美一些。 动 化 思考:人工智能(AI)与统计机器学习(ML)是否存在一个结 研 合点。但是,在理念上,AI强调因果率(结构),不惜对排中 究 率破缺,统计方法强调排中率,不惜对因果率破缺,两者 所 水火不相容。鉴于两者均已遇到根本性困难,有没有一种
自 If [D=0][G=A] then[L=0] 动 If [I=0][G=A] then[L=0] 化 If [D=1][I=1][G=A] then [L=1]
观察一组学生,获得样本集。基函
数L = 1D + 2I + 3G + 4S 设计算法,确定,获得模型。
ቤተ መጻሕፍቲ ባይዱ
研 问题是:
问题:模型为真需要多少样本,对
为什么“表示”是一个专题
中 国 统计机器学习的表示---基函数。确定基函数,没有表示问题。
科 学
给定变量集,完全图或 完全不连接,平凡!

不完全图---条件独立, 两种表示。非平凡

A
A
图的结构(不完全连接)
中国科学院自动化研究所
Machine Learning and Data Mining 2009
一、引子 二、表示 三、推断 四、学习 五、结束语
中国科学院自动化研究所
Machine Learning and Data Mining 2009
Machine Learning and Data Mining 2009
中国科学院自动化研究所 模式识别国家重点实验室
2011年4月7日
结构+平均
---读Daphne Koller的“概率图模型”
王珏
中国科学院自动化研究所
Machine Learning and Data Mining 2009
一、引子 二、表示 三、推断 四、学习 五、结束语
讲座分为五个部分,开头一个引 子,说明讲座的动机,最后一个 结束语,从历史发展的角度讨论 关注概率图模型的原因,中间三 个部分,介绍Koller这本书的三 个部分:表示(representation)、 推断(inference)和学习(learning) 的基本思想和主要方法。
相关文档
最新文档