最大熵模型
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
ቤተ መጻሕፍቲ ባይዱ
最大熵模型的学习
最大熵模型的学习
最大熵模型的学习
最大熵模型的学习
最大熵模型的学习
最大熵模型的学习
最大熵模型的学习
最大熵模型的学习
最大熵模型与极大似然估计
最大熵模型与极大似然估计
最大熵模型与极大似然估计
模型学习的最优化算法
模型学习的最优化算法
模型学习的最优化算法
模型学习的最优化算法
通常,一个信源发送出什么符号是不确定的,衡量它可以根据其出现的概率来 度量。概率大,出现机会多,不确定性小;反之就大。在信源中,考虑的不是 某一单个符号发生的不确定性,而是要考虑这个信源所有可能发生情况的平均 不确定性。若信源符号有n种取值:U1…Ui…Un,对应概率为:P1…Pi…Pn,且各 种符号的出现彼此独立。这时,信源的平均不确定性应当为单个符号不确定性logPi的统计平均值(E),可称为信息熵,即:
熵的概念与性质
信息学概念
• –信息熵 度量信息的不确定性,不确定性越大,熵值越大 (Shannon 1948) 其它领域 • –数学 Relative entropy Topological entropy • –生命科学 用熵来分析一个生命体从生长、衰老、病死的全过程,称为“生 命熵”
(信息)熵的基本内容
一个有趣的问题
• 低信息熵和高信息熵的文字会是什么样子?
最大熵理论的由来
• 熵增原理 (Principle of Entropy Increase)
▫ 自然界中的熵增原理 一个孤立系统的熵,自发性地趋于极大,随着熵的增加,有序状态逐步 变为混沌状态,不可能自发的产生新的有序结构 当熵处于最小值,即能量集中程度最高、有效能量处于最大值时,那么 整个系统也处于最有序的状态,相反为最无序状态 ▫ 熵增原理预示着自然界越变越无序 ▫ 性质 在无外力作用下,事物总是朝着最混乱的方向发展 –事物总是在约束下争取最大的自由权,这是自然界的根本原则 –熵增原理类似同能量守恒定律要求每时每刻都成立
例子
密封箱子中间放一隔板 ,隔 板左边空间注入烟,右边真 空
去掉隔板会怎样 ? 左边的烟就会自然 (自发)地 向右边扩散,最后均匀地占 满整个箱体
非适定问题
• 适定问题
▫ 解存在(存在性) ▫ 解唯一(唯一性) ▫ 解连续地依赖于定解数据(稳定性)
• 非适定问题
▫ 不满足以上至少一个条件
例如:图像去噪、恢复、放大、修补、去马赛克等
最大熵模型
重庆大学
余俊良
内容提要
• • • • • • 信息熵 最大熵原理 最大熵模型 最大熵模型与极大似然估计 最大熵模型求解 最大熵模型的最优化算法
熵的概念与性质
物理学概念
• –热力学(thermodynamic) 体系的熵变等于可逆过程吸收或者耗散的热量除以它的绝对温度——热 力学定律 (Calusius 1865) • –统计力学(statistical mechanics) 熵是大量微观粒子的位置和速度分布概率的函数,是描述系统大量微观 粒子无序性的宏观参数(Boltzmann 1887) • –量子力学(quantum mechanics) 度量系统中量子的纠缠,也叫冯· 诺依曼熵(Neumann 1932)
存在性:解集非空 唯一性:有关解的可能集被唯一确定
问题求解——最大熵原理
• 欠定问题的可行解多于一个 ▫ –这变成了一个估计问题 ▫ –究竟取哪一个解才最合理? • 最大熵原理 ▫ –1957年由Jaynes提出 ▫ –本质上是一种统计推断方法 ▫ –类比熵增原理 • 掌握部分信息情况下要对分布做出判断 • 取符合约束条件但熵值取最大的概率分布,这是我们可以做出的唯 一的不偏不倚的选择 • 任何其他选择都意味着增加了其它的约束或假设,这些约束或假设 无法根据所掌握的信息作出
• 性质
–非负性:������(������)≥0,������(������)=0 if ������是确定性分布:H(1,0)=H(0,1)= H(0,1,0,…)=0 –对称性:概率分布下标置换不影响熵,H(P1,…,Pn)与P1,…,Pn的排列 次序无关; –极值性,当P=0.5时,H(X)最大;而且H(X)是P的上凸函数。
模型学习的最优化算法
模型学习的最优化算法
模型学习的最优化算法
模型学习的最优化算法
模型学习的最优化算法
参考资料
最大熵模型学习还可以应用牛顿法或拟牛顿法。参阅《统计学习方法》 1、《统计学习方法》 2、《数值最优化方法》 李航 高立
3、http://www.mamicode.com/info-detail-971416.html 4、http://www.kuqin.com/shuoit/20141027/342889.html 5、http://www.zhihu.com/question/27403427
式中对数一般取2为底,单位为比特。但是,也可以取其它对数底,采用其它相 应的单位,它们间可用换底公式换算。 不确定性函数f是概率P的单调递降函数;两个独立符号所产生的不确定性应等 于各自不确定性之和,即f(P1,P2)=f(P1)+f(P2),这称为可加性。同时满足这两个 条件的函数f是对数函数,即
最大熵原理
最大熵原理
最大熵模型
最大熵模型
最大熵模型
最大熵模型
(6.13)条件熵公式的推 导:
条件熵:在X发生的前提下,Y发 生所“新”带来的熵定义为Y的 条件熵,用H(Y|X)表示。且有此 式子成立:H(Y|X) =H(X,Y) – H(X),整个式子表示(X,Y)发生 所包含的熵,减去X单独发生包 含的熵。至于怎么来的请看推导:
非适定问题
• 科学研究面临的问题
▫ –过定:所给出的条件过多 ▫ –欠定:条件不够,数据不足、不确定或不准确
• 非适定性问题
▫ –由欠定导致解不存在、不唯一或不稳定(不连续)其中之一 的问题 ▫ –涉及存在性、唯一性、稳定性
解非适定问题思路
• 非适定性问题的求解
▫ –综合理论知识,先验知识和实验数据三方面,给出一种可 能解集的概率分布 ▫ –解的特性
*这也是为什么信息熵选用对数函数表示 ,另外普通的概率区间为[0,1]而取熵之后的取值 范围是[0,正无穷大]这样数的熵值就会比单纯的小数更明显更明确。另外概率越大信息量 越小,是一个负相关关系,而用熵来度量概率,熵值越大信息量越大
(信息)熵的性质
• 定义
������=2,单位比特(bit),缺省状态 ������=������,单位奈特(nat) 最简单的单符号信源仅取0和1两个元素,即二元信源,其概率为P和 Q=1-P,该信源的熵即为右图所示。