化学及热力学中所指的熵

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

化学及热力学中所指的熵,是一种测量在动力学方面不能做功的能量总数。熵亦被用于计算一个系统中的失序现象,用来衡量一个系统混乱程度的度量。

热力学熵

熵是什么呢?宏观上--体系的熵等于可逆过程吸收或耗散的热量除以它的绝对温度,也就是一种测量在动力学方面不能做功的能量总数。微观上--熵是大量微观粒子的位置和速度的分布概率的函数,是描述系统中大量微观粒子的无序性的宏观参数。

举例来讲果我们能看到橡皮筋的分子结构,我们会发现它的结构在拉紧和放松的状态时是不一样的。放松的时候它的分子结构像一团乱麻交织在一起。而在把橡皮筋拉长的时候,那些如同链状的分子就会沿着拉伸的方向比较整齐地排列起来。于是我们可以看到两种状态:一种是自然,或者自发的状态。在这种状态下结构呈混乱或无序状。而另一种是在外界的拉力下规则地排列起来的状态。这种无序的状态还可以从分子的扩散中观察到。用一个密封的箱子,中间放一个隔板。在隔板的左边空间注入烟。我们把隔板去掉,左边的烟就会自然(自发)地向右边扩散,最后均匀地占满整个箱体。这种状态称为无序。

在物理学里我们可以用熵的概念来描述某一种状态自发变化的方向。比如把有规则排列的状态称为低熵而混乱的状态对应于高熵而熵则是无序性的定量量度。热力学第二定律的结论是:一个孤立系统的熵永不减少。换句话说,物质世界的状态总是自发地转变成无序;从低熵变到高熵。比如,当外力去除之后,整齐排列的分子就会自然地向紊乱的状态转变;而箱子左边的烟一定会自发地向右边扩散。这就是著名的熵增定律,熵增原理表示自然界会越来越无序。

信息熵

那么信息熵是什么呢?

一个X 值域为x1,...,x n的随机变量的熵值H 定义为:

H(X)=E(I(X)) ,

其中,E 代表了期望函数,而I(X) 是X 的信息量(又称为信息本体)。I(X) 本身是个随机变量。如果p 代表了X 的机率质量函数(probability mass function),则熵的公式可以表示为:

H(X)=∑ni=1p(xi)I(xi)=−∑ni=1p(xi)logbp(xi)

信息熵可以认为是系统中所含有的平均信息量大小,也可以认为是描述一个系统需要的最小存储空间长度,即最少用多少个存储空间就可以描述这个系统。

信息熵与热力学中的熵有什么关系呢?

举一个高中课本上的例子,我们存放在抽屉中的火柴,火柴都是整齐排列的,这时熵比较小;散落在地上的火柴是混乱,熵比较大。

同样,放在抽屉中的火柴我们用来描述它的所需要的存储单元就少,我们可以用一句话就可以描述;50根火柴朝右。但是散落在地上的火柴,却需要这样描述,有50根火柴,其中10根朝向左,10根朝向右,10

根朝上,20根朝下……。

可见:信息熵和热力学熵是正相关的,热力学熵越大,系统越混乱,需要用越多的存储单元来描述,信息熵也就越大;热力学熵越小,系统越有序,需要越小的存储单元来描述,信息熵也就越小。

最小编码长度

学数据结构时我们都学过huffman编码,比如有

P(X=A) = 1/2 P(X=B) = 1/4 P(X=C) = 1/8 P(X=D) = 1/8

信息熵为:−1/2log1/2−1/4log1/4−1/8log1/8−1/8log1/8=1.75

huffman编码所要解决的问题是如何编码获得最小的编码长度,可以证明huffman编码就是满足最小信息熵的编码。

最大熵原理

在机器学习中经常用到最大熵原理:我们有以下限制

求maxS=−p1logp1−p2logp2

p1+p2=1

求什么情况下信息熵会最大

任何物质系统除了都受到或多或少的外部约束外,其内部总是具有一定的自由度,这种自由度导致系统内的各元素处于不同的状态。而状态的多样性,状态的丰富程度(混乱程度、复杂程度)的定量计量标尺就是熵,熵最大就是事物状态的丰富程度自动达到最大值。换句话说,事物总是在约束下争取(或呈现)最大的自由权,也就是保留全部的不确定性把风险降到最低,不要把鸡蛋放在同一个篮子里说的也就是这个道理。

最大熵原理:也就是承认事物已知的约束条件,对事物未知的约束条件不带有任何假设和偏见。这样子概率分布最均匀,整个系统能够产生的状态也就越多,整个系统越混乱,描述系统也需要的存储空间越大,熵越大,信息熵也就越大。

在决策树算法中用到了最大熵的原理:决策树是为了解决分类问题,分类的过程其实是熵减少的过程,让原先混杂在一起的类找到相应的类别,因此每次我们应该选择具有最小上的分类面。比如:如果选择 B 作为分类面,那么左右两边0 1 的个数相同这时候熵最大,而选择A或C做分类面则熵比较小。

(在数据挖掘或者机器学习的书中会选择具有最大信息增益的分界面,其实是一个道理)

A B C

0 0 | 1 1 | 0 0 | 1 1

0 0 | 1 1 | 0 0 | 1 1

最终的决策树可以是这个样子:

x <= A

/ \

0 x <= B

/ \

1 x <= C

/\

0 1

虽然按照最大信息熵选出的分类面最容易把事物分开,但是决策树的高度会很大,因此在预测阶段我们可以调整树的结构从而达到较快的预测速度。

参考文献

/tutorials/infogain.html

/wiki/%E7%86%B5

/wiki/%E7%86%B5_(%E4%BF%A1%E6%81%AF%E8%AE%BA) 附:

<信息熵与统计力学中熵关系的简单证明>

在统计力学中,玻尔兹曼发现单一系统中的熵跟构成热力学性质的微观状态数量相关。

S=k(lnΩ)

Ω则为该宏观状态中所包含之微观状态数量。

统计力学熵:

有A B两个粒子它们总共有6种状态,

maxS=k(lnΩ)

x+y=6

Ω=x∗y即:S=kln(x∗y) , 由于我们之关系信息熵与热力学熵的关系,

为了和信息熵比较我们令p1=x/6,p2=y/6

热力学熵S=kln(x∗y)=klnx/6∗y/6∗62=k∗(lnp1+lnp2+2ln6)

信息熵:

maxS=−p1logp1−p2logp2

p1+p2=1

函数图象为:

相关文档
最新文档