关于熵的连续性定理的证明
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
关于熵的连续性定理的证明
吕以茜
(盐城师范学院数学与统计学院ꎬ江苏盐城224000)
摘要:介绍了信息论中熵的概念ꎬ给出了ProbabilityandMathematicalStatistics书中一个引理ꎬ引理给出了熵的连续性ꎬ通过运用中值定理ꎬ给出了正确的证明.关键词:熵ꎻ中值定理ꎻ连续性
图分类号:O211.62㊀㊀㊀㊀文献标志码:A㊀㊀㊀㊀文章编号:1009-7961(2019)03-0098-03
TheProofofaTheoremaboutContinuityofEntropy
LVYi-qian
(SchoolofMathematicsandStatisticsꎬYanchengTeachersUniversityꎬYanchengJiangsu224000ꎬChina)
Abstract:InthispaperꎬtheconceptofentropyinInformationTheoryisstated.ThepapergivesalemmaofthebookofProbabilityandMathematicalStatistics.Thelemmagiveusthecontinuityoftheentropy.Thoughusingmeanvaluetheoremꎬwegivethecorrectproof.Keywords:entropyꎻmeanvaluetheoremꎻcontinuity
收稿日期:2018-09-26
作者简介:吕以茜(1979-)ꎬ女ꎬ江苏盐城人ꎬ讲师ꎬ硕士ꎬ主要从事概率研究ꎮ
0㊀引言
㊀㊀所谓信息熵[1]ꎬ是一个数学上颇为抽象的概念ꎬ信息熵往往被理解成某种特定信息的出现概率ꎮ在信息论中ꎬ熵常常用来表示某事件的不确定性ꎬ也常用来表示弄清一件事所需信息量的度量ꎮ变量的不确定性越大ꎬ熵也就越大ꎬ把它搞清楚所需要的信息量也就越大ꎮ例如某同学申请某上市公司的实习生职位ꎬ把他是否被聘这个事件记为Xꎮ如果我们对他一无所知ꎬ那么ꎬ这个事件的不确定性就很大ꎬ即变量X的熵很大ꎮ但是ꎬ如果知道他是剑桥的本科㊁硕士及博士ꎬ那他十有八九会被聘用ꎬ这时这个事件的信息量越大ꎬ不确定性也就小很多了ꎬ在此情况下变量X的熵也就很小ꎮ
对于离散变量[2]ꎬ比如上面的变量Xꎬ当X是均匀分布ꎬ即V取每个值的概率相等时ꎬ该变量的熵最
大ꎮ对于上例而言ꎬ如果对该同学一无所知ꎬ那他被聘用的概率[3]是1/2ꎬ这时信息熵达到最大ꎮ如果变量X分布不均匀ꎬ集中分布在某几个值上时信息熵就比较小ꎮ对于连续变量ꎬ平稳的高斯[4]随机过程的熵最大ꎮ
1㊀引理证明
㊀㊀ProbabilityandMathematicalStatistics[5]书中有如下的引理:若X上的两个分布PꎬQ满足
ðxɪX
|P(x)-Q(x)|=☉ɤ
12ꎬ则|H(P)-H(Q)|ɤ-☉☉
|X|
ꎬ此引理在«信息论»中起很大的作用ꎬ它说明了熵关于分布式连续的ꎬ即给出了熵的连续性.下面将给出它的证明.
证明:记θ(x)=ә
|P(x)-Q(x)|.对于f(t)=ә
-tlogt是凹的ꎬ且满足f(0)=f(1)=0ꎮ
第28卷第3期㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀淮阴工学院学报㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀Vol.28No.32019年6月㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀JournalofHuaiyinInstituteofTechnology㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀Jun.2019
第3期㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀吕以茜:关于熵的连续性定理的证明㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀99
对∀t:0ɤtɤ1-τꎬ0ɤτɤ12有|f(t)-f(t+τ)|ɤmax(f(τ)ꎬf(1-τ))=-τlogτ.(1)因此ꎬ对0ɤ☉ɤ12有|H(P)-H(Q)|ɤðxɪX|f(P(x))-f(Q(xX))|ɤðxɪXθ(x)log(x)=☉(-ðxɪXθ(X)☉logθ(X)☉-log☉)ɤ☉log|X|-☉log☉ꎮ
而为何∀t:0ɤtɤ1-τꎬ0ɤτɤ12有|f(t)-f(t+τ)|ɤmax(f(τ)ꎬf(1-τ))=-τlogτ?要使得(1)成了ꎬ就要先证下面的命题成立:
已知:函数f(t)=-tlogtꎬ其中ꎬ0ɤtɤ1-τꎬ0ɤτɤ12ꎬ求证:
|f(t)-f(t+τ)|=max(f(τ)ꎬf(1-τ))=-τlogτ=f(τ)(2)证明:F(0)=F(1)=0ꎬF(T)=-logt-1ln2ꎬf''(t)=-1tln2<0ꎬtɪ(0ꎬ1)
所以f(t)在[0ꎬ1]上是凹函数ꎮ
令f(t)=0可知t0=21ln2为f(t)在[0ꎬ1]上的最大值点ꎮ
对此要证三种情形:
(1)当tꎬt+τɪ[0ꎬt0]时ꎬ|f(t)-f(t+τ)|=f(t+τ)-f(t)ɤf(τ)-f(0)ꎻ(3) (2)当tꎬt+τɪ[t0ꎬ1]时ꎬ|f(t)-f(t+τ)|=f(t)-f(t+τ)ɤf(1-τ)-f(1)ꎻ(4) (3)当tɪ[0ꎬt0]ꎬt+τɪ[t0ꎬ1]时ꎬ上述两种情况都有可能ꎮ(5)先证(3)式ꎬ将其分成两种情形:
a)㊀τɤt时ꎬ由中值定理[6]有f(t+τ)-f(t)=f'(ξ1)τꎬξ1ɪ(tꎬt+τ)
f(τ)-f(0)=f'(ξ2)τꎬξ2ɪ(0ꎬτ)
由于f'(ξ2)>f'(ξ1)ꎬ故f(t+τ)-f(t)ɤf(τ)-f(0).
b)㊀τ>t时ꎬ由中值定理有
f(t+τ)-f(t)=f(t+τ)-f(τ)+f(τ)-f(t)=f'(ξ3)τ+f(τ)-f(t)ꎬξ3ɪ(τꎬt+τ)
f(τ)-f(0)=f(τ)-f(t)+f(t)-f(0)=f(τ)-f(t)+f'(ξ4)τꎬξ4ɪ(0ꎬt)
由于f'(ξ3)ɤf'(ξ4)ꎬ故f(t+τ)-f(t)ɤf(τ)-f(0).
再证(4)式ꎬ也将其分成两种情形:
a)㊀t+τɤ1-τ时ꎬ由中值定理有
f(t)-f(t+τ)=f'(ξ3)(-τ)ꎬξ3ɪ(tꎬt+τ)
f(1-τ)-f(1)=f'(ξ6)(-τ)ꎬξ6ɪ(1-tꎬ1)
由于f'(ξ6)<f'(ξ5)ꎬ故f(t)-f(t+τ)ɤf(1-τ)-f(1).
b)㊀t+τ>1-τ时ꎬ由中值定理有
f(t)-f(t+τ)=f(t)-f(1-τ)+f(1-τ)-f(t+τ)
=f'(ξ7)(t-1+τ)+f(1-τ)-f(t+τ)ꎬξ7ɪ(tꎬt+τ)
f(1-τ)-f(1)=f(1-τ)-f(t+τ)+f(t+τ)-f(1)
=f(1-τ)-f(t+τ)+ξ8ɪ(t+τꎬ1)
由于f'(ξ8)<f'(ξ7)ꎬ所以f(t)-f(t+τ)ɤf(1-τ)-f(1)
最后证明(5)式ꎬ