关于熵的连续性定理的证明

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

关于熵的连续性定理的证明

吕以茜

(盐城师范学院数学与统计学院ꎬ江苏盐城224000)

摘要:介绍了信息论中熵的概念ꎬ给出了ProbabilityandMathematicalStatistics书中一个引理ꎬ引理给出了熵的连续性ꎬ通过运用中值定理ꎬ给出了正确的证明.关键词:熵ꎻ中值定理ꎻ连续性

图分类号:O211.62㊀㊀㊀㊀文献标志码:A㊀㊀㊀㊀文章编号:1009-7961(2019)03-0098-03

TheProofofaTheoremaboutContinuityofEntropy

LVYi-qian

(SchoolofMathematicsandStatisticsꎬYanchengTeachersUniversityꎬYanchengJiangsu224000ꎬChina)

Abstract:InthispaperꎬtheconceptofentropyinInformationTheoryisstated.ThepapergivesalemmaofthebookofProbabilityandMathematicalStatistics.Thelemmagiveusthecontinuityoftheentropy.Thoughusingmeanvaluetheoremꎬwegivethecorrectproof.Keywords:entropyꎻmeanvaluetheoremꎻcontinuity

收稿日期:2018-09-26

作者简介:吕以茜(1979-)ꎬ女ꎬ江苏盐城人ꎬ讲师ꎬ硕士ꎬ主要从事概率研究ꎮ

0㊀引言

㊀㊀所谓信息熵[1]ꎬ是一个数学上颇为抽象的概念ꎬ信息熵往往被理解成某种特定信息的出现概率ꎮ在信息论中ꎬ熵常常用来表示某事件的不确定性ꎬ也常用来表示弄清一件事所需信息量的度量ꎮ变量的不确定性越大ꎬ熵也就越大ꎬ把它搞清楚所需要的信息量也就越大ꎮ例如某同学申请某上市公司的实习生职位ꎬ把他是否被聘这个事件记为Xꎮ如果我们对他一无所知ꎬ那么ꎬ这个事件的不确定性就很大ꎬ即变量X的熵很大ꎮ但是ꎬ如果知道他是剑桥的本科㊁硕士及博士ꎬ那他十有八九会被聘用ꎬ这时这个事件的信息量越大ꎬ不确定性也就小很多了ꎬ在此情况下变量X的熵也就很小ꎮ

对于离散变量[2]ꎬ比如上面的变量Xꎬ当X是均匀分布ꎬ即V取每个值的概率相等时ꎬ该变量的熵最

大ꎮ对于上例而言ꎬ如果对该同学一无所知ꎬ那他被聘用的概率[3]是1/2ꎬ这时信息熵达到最大ꎮ如果变量X分布不均匀ꎬ集中分布在某几个值上时信息熵就比较小ꎮ对于连续变量ꎬ平稳的高斯[4]随机过程的熵最大ꎮ

1㊀引理证明

㊀㊀ProbabilityandMathematicalStatistics[5]书中有如下的引理:若X上的两个分布PꎬQ满足

ðxɪX

|P(x)-Q(x)|=☉ɤ

12ꎬ则|H(P)-H(Q)|ɤ-☉☉

|X|

ꎬ此引理在«信息论»中起很大的作用ꎬ它说明了熵关于分布式连续的ꎬ即给出了熵的连续性.下面将给出它的证明.

证明:记θ(x)=ә

|P(x)-Q(x)|.对于f(t)=ә

-tlogt是凹的ꎬ且满足f(0)=f(1)=0ꎮ

第28卷第3期㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀淮阴工学院学报㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀Vol.28No.32019年6月㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀JournalofHuaiyinInstituteofTechnology㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀Jun.2019

第3期㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀吕以茜:关于熵的连续性定理的证明㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀99

对∀t:0ɤtɤ1-τꎬ0ɤτɤ12有|f(t)-f(t+τ)|ɤmax(f(τ)ꎬf(1-τ))=-τlogτ.(1)因此ꎬ对0ɤ☉ɤ12有|H(P)-H(Q)|ɤðxɪX|f(P(x))-f(Q(xX))|ɤðxɪXθ(x)log(x)=☉(-ðxɪXθ(X)☉logθ(X)☉-log☉)ɤ☉log|X|-☉log☉ꎮ

而为何∀t:0ɤtɤ1-τꎬ0ɤτɤ12有|f(t)-f(t+τ)|ɤmax(f(τ)ꎬf(1-τ))=-τlogτ?要使得(1)成了ꎬ就要先证下面的命题成立:

已知:函数f(t)=-tlogtꎬ其中ꎬ0ɤtɤ1-τꎬ0ɤτɤ12ꎬ求证:

|f(t)-f(t+τ)|=max(f(τ)ꎬf(1-τ))=-τlogτ=f(τ)(2)证明:F(0)=F(1)=0ꎬF(T)=-logt-1ln2ꎬf''(t)=-1tln2<0ꎬtɪ(0ꎬ1)

所以f(t)在[0ꎬ1]上是凹函数ꎮ

令f(t)=0可知t0=21ln2为f(t)在[0ꎬ1]上的最大值点ꎮ

对此要证三种情形:

(1)当tꎬt+τɪ[0ꎬt0]时ꎬ|f(t)-f(t+τ)|=f(t+τ)-f(t)ɤf(τ)-f(0)ꎻ(3) (2)当tꎬt+τɪ[t0ꎬ1]时ꎬ|f(t)-f(t+τ)|=f(t)-f(t+τ)ɤf(1-τ)-f(1)ꎻ(4) (3)当tɪ[0ꎬt0]ꎬt+τɪ[t0ꎬ1]时ꎬ上述两种情况都有可能ꎮ(5)先证(3)式ꎬ将其分成两种情形:

a)㊀τɤt时ꎬ由中值定理[6]有f(t+τ)-f(t)=f'(ξ1)τꎬξ1ɪ(tꎬt+τ)

f(τ)-f(0)=f'(ξ2)τꎬξ2ɪ(0ꎬτ)

由于f'(ξ2)>f'(ξ1)ꎬ故f(t+τ)-f(t)ɤf(τ)-f(0).

b)㊀τ>t时ꎬ由中值定理有

f(t+τ)-f(t)=f(t+τ)-f(τ)+f(τ)-f(t)=f'(ξ3)τ+f(τ)-f(t)ꎬξ3ɪ(τꎬt+τ)

f(τ)-f(0)=f(τ)-f(t)+f(t)-f(0)=f(τ)-f(t)+f'(ξ4)τꎬξ4ɪ(0ꎬt)

由于f'(ξ3)ɤf'(ξ4)ꎬ故f(t+τ)-f(t)ɤf(τ)-f(0).

再证(4)式ꎬ也将其分成两种情形:

a)㊀t+τɤ1-τ时ꎬ由中值定理有

f(t)-f(t+τ)=f'(ξ3)(-τ)ꎬξ3ɪ(tꎬt+τ)

f(1-τ)-f(1)=f'(ξ6)(-τ)ꎬξ6ɪ(1-tꎬ1)

由于f'(ξ6)<f'(ξ5)ꎬ故f(t)-f(t+τ)ɤf(1-τ)-f(1).

b)㊀t+τ>1-τ时ꎬ由中值定理有

f(t)-f(t+τ)=f(t)-f(1-τ)+f(1-τ)-f(t+τ)

=f'(ξ7)(t-1+τ)+f(1-τ)-f(t+τ)ꎬξ7ɪ(tꎬt+τ)

f(1-τ)-f(1)=f(1-τ)-f(t+τ)+f(t+τ)-f(1)

=f(1-τ)-f(t+τ)+ξ8ɪ(t+τꎬ1)

由于f'(ξ8)<f'(ξ7)ꎬ所以f(t)-f(t+τ)ɤf(1-τ)-f(1)

最后证明(5)式ꎬ

相关文档
最新文档