关于熵的连续性定理的证明

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

关于熵的连续性定理的证明

吕以茜

(盐城师范学院数学与统计学院ꎬ江苏盐城２２４０００)

摘要:介绍了信息论中熵的概念ꎬ给出了ＰｒｏｂａｂｉｌｉｔｙａｎｄＭａｔｈｅｍａｔｉｃａｌＳｔａｔｉｓｔｉｃｓ书中一个引理ꎬ引理给出了熵的连续性ꎬ通过运用中值定理ꎬ给出了正确的证明.关键词:熵ꎻ中值定理ꎻ连续性

图分类号:Ｏ２１１.６２㊀㊀㊀㊀文献标志码:Ａ㊀㊀㊀㊀文章编号:１００９－７９６１(２０１９)０３－００９８－０３

ＴｈｅＰｒｏｏｆｏｆａＴｈｅｏｒｅｍａｂｏｕｔＣｏｎｔｉｎｕｉｔｙｏｆＥｎｔｒｏｐｙ

ＬＶＹｉ－ｑｉａｎ

(ＳｃｈｏｏｌｏｆＭａｔｈｅｍａｔｉｃｓａｎｄＳｔａｔｉｓｔｉｃｓꎬＹａｎｃｈｅｎｇＴｅａｃｈｅｒｓＵｎｉｖｅｒｓｉｔｙꎬＹａｎｃｈｅｎｇＪｉａｎｇｓｕ２２４０００ꎬＣｈｉｎａ)

Ａｂｓｔｒａｃｔ:ＩｎｔｈｉｓｐａｐｅｒꎬｔｈｅｃｏｎｃｅｐｔｏｆｅｎｔｒｏｐｙｉｎＩｎｆｏｒｍａｔｉｏｎＴｈｅｏｒｙｉｓｓｔａｔｅｄ.ＴｈｅｐａｐｅｒｇｉｖｅｓａｌｅｍｍａｏｆｔｈｅｂｏｏｋｏｆＰｒｏｂａｂｉｌｉｔｙａｎｄＭａｔｈｅｍａｔｉｃａｌＳｔａｔｉｓｔｉｃｓ.Ｔｈｅｌｅｍｍａｇｉｖｅｕｓｔｈｅｃｏｎｔｉｎｕｉｔｙｏｆｔｈｅｅｎｔｒｏｐｙ.Ｔｈｏｕｇｈｕｓｉｎｇｍｅａｎｖａｌｕｅｔｈｅｏｒｅｍꎬｗｅｇｉｖｅｔｈｅｃｏｒｒｅｃｔｐｒｏｏｆ.Ｋｅｙｗｏｒｄｓ:ｅｎｔｒｏｐｙꎻｍｅａｎｖａｌｕｅｔｈｅｏｒｅｍꎻｃｏｎｔｉｎｕｉｔｙ

收稿日期:２０１８－０９－２６

作者简介:吕以茜(１９７９－)ꎬ女ꎬ江苏盐城人ꎬ讲师ꎬ硕士ꎬ主要从事概率研究ꎮ

０㊀引言

㊀㊀所谓信息熵[１]ꎬ是一个数学上颇为抽象的概念ꎬ信息熵往往被理解成某种特定信息的出现概率ꎮ在信息论中ꎬ熵常常用来表示某事件的不确定性ꎬ也常用来表示弄清一件事所需信息量的度量ꎮ变量的不确定性越大ꎬ熵也就越大ꎬ把它搞清楚所需要的信息量也就越大ꎮ例如某同学申请某上市公司的实习生职位ꎬ把他是否被聘这个事件记为Ｘꎮ如果我们对他一无所知ꎬ那么ꎬ这个事件的不确定性就很大ꎬ即变量Ｘ的熵很大ꎮ但是ꎬ如果知道他是剑桥的本科㊁硕士及博士ꎬ那他十有八九会被聘用ꎬ这时这个事件的信息量越大ꎬ不确定性也就小很多了ꎬ在此情况下变量Ｘ的熵也就很小ꎮ

对于离散变量[２]ꎬ比如上面的变量Ｘꎬ当Ｘ是均匀分布ꎬ即Ｖ取每个值的概率相等时ꎬ该变量的熵最

大ꎮ对于上例而言ꎬ如果对该同学一无所知ꎬ那他被聘用的概率[３]是１/２ꎬ这时信息熵达到最大ꎮ如果变量Ｘ分布不均匀ꎬ集中分布在某几个值上时信息熵就比较小ꎮ对于连续变量ꎬ平稳的高斯[４]随机过程的熵最大ꎮ

１㊀引理证明

㊀㊀ＰｒｏｂａｂｉｌｉｔｙａｎｄＭａｔｈｅｍａｔｉｃａｌＳｔａｔｉｓｔｉｃｓ[５]书中有如下的引理:若Ｘ上的两个分布ＰꎬＱ满足

ðｘɪＸ

｜Ｐ(ｘ)－Ｑ(ｘ)｜＝☉ɤ

１２ꎬ则｜Ｈ(Ｐ)－Ｈ(Ｑ)｜ɤ－☉☉

｜Ｘ｜

ꎬ此引理在«信息论»中起很大的作用ꎬ它说明了熵关于分布式连续的ꎬ即给出了熵的连续性.下面将给出它的证明.

证明:记θ(ｘ)＝ә

｜Ｐ(ｘ)－Ｑ(ｘ)｜.对于ｆ(ｔ)＝ә

－ｔｌｏｇｔ是凹的ꎬ且满足ｆ(０)＝ｆ(１)＝０ꎮ

第２８卷第３期㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀淮阴工学院学报㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀Ｖｏｌ.２８Ｎｏ.３２０１９年６月㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀ＪｏｕｒｎａｌｏｆＨｕａｉｙｉｎＩｎｓｔｉｔｕｔｅｏｆＴｅｃｈｎｏｌｏｇｙ㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀Ｊｕｎ.２０１９

第３期㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀吕以茜:关于熵的连续性定理的证明㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀９９

对∀ｔ:０ɤｔɤ１－τꎬ０ɤτɤ１２有｜ｆ(ｔ)－ｆ(ｔ＋τ)｜ɤｍａｘ(ｆ(τ)ꎬｆ(１－τ))＝－τｌｏｇτ.(１)因此ꎬ对０ɤ☉ɤ１２有｜Ｈ(Ｐ)－Ｈ(Ｑ)｜ɤðｘɪＸ｜ｆ(Ｐ(ｘ))－ｆ(Ｑ(ｘＸ))｜ɤðｘɪＸθ(ｘ)ｌｏｇ(ｘ)＝☉(－ðｘɪＸθ(Ｘ)☉ｌｏｇθ(Ｘ)☉－ｌｏｇ☉)ɤ☉ｌｏｇ｜Ｘ｜－☉ｌｏｇ☉ꎮ

而为何∀ｔ:０ɤｔɤ１－τꎬ０ɤτɤ１２有｜ｆ(ｔ)－ｆ(ｔ＋τ)｜ɤｍａｘ(ｆ(τ)ꎬｆ(１－τ))＝－τｌｏｇτ?要使得(１)成了ꎬ就要先证下面的命题成立:

已知:函数ｆ(ｔ)＝－ｔｌｏｇｔꎬ其中ꎬ０ɤｔɤ１－τꎬ０ɤτɤ１２ꎬ求证:

｜ｆ(ｔ)－ｆ(ｔ＋τ)｜＝ｍａｘ(ｆ(τ)ꎬｆ(１－τ))＝－τｌｏｇτ＝ｆ(τ)(２)证明:Ｆ(０)＝Ｆ(１)＝０ꎬＦ(Ｔ)＝－ｌｏｇｔ－１ｌｎ２ꎬｆ''(ｔ)＝－１ｔｌｎ２<０ꎬｔɪ(０ꎬ１)

所以ｆ(ｔ)在[０ꎬ１]上是凹函数ꎮ

令ｆ(ｔ)＝０可知ｔ０＝２１ｌｎ２为ｆ(ｔ)在[０ꎬ１]上的最大值点ꎮ

对此要证三种情形:

(１)当ｔꎬｔ＋τɪ[０ꎬｔ０]时ꎬ｜ｆ(ｔ)－ｆ(ｔ＋τ)｜＝ｆ(ｔ＋τ)－ｆ(ｔ)ɤｆ(τ)－ｆ(０)ꎻ(３) (２)当ｔꎬｔ＋τɪ[ｔ０ꎬ１]时ꎬ｜ｆ(ｔ)－ｆ(ｔ＋τ)｜＝ｆ(ｔ)－ｆ(ｔ＋τ)ɤｆ(１－τ)－ｆ(１)ꎻ(４) (３)当ｔɪ[０ꎬｔ０]ꎬｔ＋τɪ[ｔ０ꎬ１]时ꎬ上述两种情况都有可能ꎮ(５)先证(３)式ꎬ将其分成两种情形:

ａ)㊀τɤｔ时ꎬ由中值定理[６]有ｆ(ｔ＋τ)－ｆ(ｔ)＝ｆ'(ξ１)τꎬξ１ɪ(ｔꎬｔ＋τ)

ｆ(τ)－ｆ(０)＝ｆ'(ξ２)τꎬξ２ɪ(０ꎬτ)

由于ｆ'(ξ２)>ｆ'(ξ１)ꎬ故ｆ(ｔ＋τ)－ｆ(ｔ)ɤｆ(τ)－ｆ(０).

ｂ)㊀τ>ｔ时ꎬ由中值定理有

ｆ(ｔ＋τ)－ｆ(ｔ)＝ｆ(ｔ＋τ)－ｆ(τ)＋ｆ(τ)－ｆ(ｔ)＝ｆ'(ξ３)τ＋ｆ(τ)－ｆ(ｔ)ꎬξ３ɪ(τꎬｔ＋τ)

ｆ(τ)－ｆ(０)＝ｆ(τ)－ｆ(ｔ)＋ｆ(ｔ)－ｆ(０)＝ｆ(τ)－ｆ(ｔ)＋ｆ'(ξ４)τꎬξ４ɪ(０ꎬｔ)

由于ｆ'(ξ３)ɤｆ'(ξ４)ꎬ故ｆ(ｔ＋τ)－ｆ(ｔ)ɤｆ(τ)－ｆ(０).

再证(４)式ꎬ也将其分成两种情形:

ａ)㊀ｔ＋τɤ１－τ时ꎬ由中值定理有

ｆ(ｔ)－ｆ(ｔ＋τ)＝ｆ'(ξ３)(－τ)ꎬξ３ɪ(ｔꎬｔ＋τ)

ｆ(１－τ)－ｆ(１)＝ｆ'(ξ６)(－τ)ꎬξ６ɪ(１－ｔꎬ１)

由于ｆ'(ξ６)<ｆ'(ξ５)ꎬ故ｆ(ｔ)－ｆ(ｔ＋τ)ɤｆ(１－τ)－ｆ(１).

ｂ)㊀ｔ＋τ>１－τ时ꎬ由中值定理有

ｆ(ｔ)－ｆ(ｔ＋τ)＝ｆ(ｔ)－ｆ(１－τ)＋ｆ(１－τ)－ｆ(ｔ＋τ)

＝ｆ'(ξ７)(ｔ－１＋τ)＋ｆ(１－τ)－ｆ(ｔ＋τ)ꎬξ７ɪ(ｔꎬｔ＋τ)

ｆ(１－τ)－ｆ(１)＝ｆ(１－τ)－ｆ(ｔ＋τ)＋ｆ(ｔ＋τ)－ｆ(１)

＝ｆ(１－τ)－ｆ(ｔ＋τ)＋ξ８ɪ(ｔ＋τꎬ１)

由于ｆ'(ξ８)<ｆ'(ξ７)ꎬ所以ｆ(ｔ)－ｆ(ｔ＋τ)ɤｆ(１－τ)－ｆ(１)

最后证明(５)式ꎬ