数学建模的基本思想
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
各种信息量单位
若取a=2,C=1,此时信息量单位称为比特 , 若取 若取a=10,C=1,此时信息量单位称为迪吉特 若取 , 若取a=e,C=1,此时信息量单位称为奈特 , 若取
设剧院有1280个座位,分为 排,每排 座。现欲从 个座位, 例14 设剧院有 个座位 分为32排 每排40座 中找出某人,求以下信息的信息量。(i)某人在第十排; 中找出某人,求以下信息的信息量。( )某人在第十排; 。( (ii)某人在第 座;( )某人在第十排第 座。 )某人在第15座;(iii)某人在第十排第15座 在未知任何信息的情况下, 解: 在未知任何信息的情况下, 此人在各排的概率可以认 对于相应不独立的信息, 对于相应不独立的信息,要计算 这一例子反映了对完全独立的 为是相等的,他坐在各座号上的概率也可以认为是相等的, 为是相等的,他坐在各座号上的概率也可以认为是相等的,故 几条信息, 在已获得某信息后其余信息的信 几条信息,其总信息量等于各 条信息的信息量之和。 条信息的信息量之和。 息量时,需要用到条件概率公式, 息量时,需要用到条件概率公式, (i)“某人在第十排”包含的信息量为 ) 某人在第十排” 可以参阅信息论书籍。 可以参阅信息论书籍。 1 − log2 = 5 比特) (比特) 32 (ii)“某人在第 座”包含的信息量为 ) 某人在第15座 5bit+5.32bit=10.32bit
例13 假如在盛夏季节气象台突然预报“明天无雪”的消 假如在盛夏季节气象台突然预报“明天无雪”
息。在明天是否下雪的问题上,根本不存在不确定性,所 在明天是否下雪的问题上,根本不存在不确定性, 以这条消息包含的信息量为零。 以这条消息包含的信息量为零。
是否存在信息量的度量公式
基于前面的观点,美国贝尔实验室的学者香农( 基于前面的观点,美国贝尔实验室的学者香农(Shannon) ) 应用概率论知识和逻辑方法 概率论知识和逻辑方法推导出了信息量的计算公式 应用概率论知识和逻辑方法推导出了信息量的计算公式
平均信息量( 平均信息量(熵)问题
设某一实验可能有N种结果,它们出现的概率分别为 设某一实验可能有 种结果,它们出现的概率分别为p1,…,pN,则 种结果 则 事先告诉你将出现第i种结果的信息 其信息量为- 种结果的信息, 事先告诉你将出现第 种结果的信息,其信息量为-log2pi,而该 实验的不确定性则可用这组信息的平均信息量(或熵) 实验的不确定性则可用这组信息的平均信息量(或熵)
In his words "I just wondered how things were put toge来自百度文库her."
Claude Elwood Shannon (April 30, 1916 - February 24, 2001) has been called "the father of information theory".
于是对一切正有理数 m/n,g(m/n) =(m/n)C。 , 。
1 1 1 1 1 g = g (1) g(1) = g + L+ = ng 。 n n n ,可得 n n
由连续性可知:对一切非负实数x,有g(x)=Cx 连续性可知:对一切非负实数 , 可知 取负实数时, 当x取负实数时,由g(x)+g(-x)=g(0)=0,可得 取负实数时 - , 对一切实数x, 也成立, 出g(x)=―g(―x)=cx也成立,从而对一切实数 ,g(x)=Cx, 也成立 从而对一切实数 故g(q)=Cq。 。 现作逆变换q=- 现作逆变换 -logap, , 得I(M)=f(P)=-ClogaP (11.3) - ) 证毕。 证毕。
H = −∑ pi log 2 pi 来表示
投掷一枚骼子的结果有六种,即出现1—6点 例15 投掷一枚骼子的结果有六种,即出现1—6点、出现每 种情况的概率均为1/6, 种情况的概率均为 ,故熵 H=log26≈2.585(比特)。 (比特)。 投掷一枚硬币的结果为正、反面两种, 投掷一枚硬币的结果为正、反面两种,出现的概率均 为1/2,故熵 H=log22=1(比特)。 , (比特)。 向石块上猛摔一只鸡蛋,其结果必然是将鸡蛋摔破, 向石块上猛摔一只鸡蛋,其结果必然是将鸡蛋摔破,出 现的概率为1,故熵H=log21=0 现的概率为 ,故熵 从例子可以看出,熵实质上反映的是问题的“模糊度” 从例子可以看出,熵实质上反映的是问题的“模糊度”,熵为 零时问题是完全清楚的, 零时问题是完全清楚的,熵越大则问题的模糊程度也越大
Shannon提出的四条基本性质(假设不妨称它们为公理 ) 提出的四条基本性质(假设不妨称它们为公理 提出的四条基本性质 公理1 公理 信息量是该事件发生概率的连续函数 公理2 如果事件A发生必有事件 发生 则得知事件A发生 公理 如果事件 发生必有事件B发生,则得知事件 发生 发生必有事件 发生, 的信息量大于或等于得知事件B发生的信息量 发生的信息量。 的信息量大于或等于得知事件 发生的信息量。 公理3 如果事件 和事件B的发生是相互独立的 公理 如果事件A和事件 的发生是相互独立的,则获知 和事件 的发生是相互独立的, A、B事件将同时发生的信息量应为单独获知两事件 、 事件将同时发生的信息量应为单独获知两事件 发生的信息量之和。 发生的信息量之和。 公理4 任何信息的信息量均是有限的。 公理 任何信息的信息量均是有限的。 上述公理怎样推出信息量的计算公式呢 将某事件发生的信息记为M,该事件发生的概率记为 , 将某事件发生的信息记为 ,该事件发生的概率记为p,记 M的信息量为 (M)。 的信息量为I( )。 的信息量为
1 − log2 ≈ 5.32 比特) (比特) 40
(iii)“某人在第十排第 座”包含的信息量为 ) 某人在第十排第15座
1 − log2 = 10.32 比特) (比特) 1280
至此,我们已经引入了信息度量的定量公式。如前 至此,我们已经引入了信息度量的定量公式。 所述,它是信息对消除问题的不确定性的度量。 所述,它是信息对消除问题的不确定性的度量。这种讲 法似乎有点难以为人们所接受,其实, 法似乎有点难以为人们所接受,其实,这只是人们的习 惯在起作用。这里,我们不妨来作一比较。 惯在起作用。这里,我们不妨来作一比较。在人们搞清 热的奥秘以前,温度也是一个较为抽象的概念, 热的奥秘以前,温度也是一个较为抽象的概念,因它实 质上是物体分子运动平均速度的一种映。人们天生就知 质上是物体分子运动平均速度的一种映。 道冷和热,但如何来度量它却曾经是一个难题。 道冷和热,但如何来度量它却曾经是一个难题。只有在 解决了这一问题以后, 解决了这一问题以后,以定量分析为主的热力学才能得 到飞速的发展。信息问题也是这样, 到飞速的发展。信息问题也是这样,人们对各种信息包 含的实质“内容”究竟有多少往往也有一个直观的感觉, 含的实质“内容”究竟有多少往往也有一个直观的感觉, 但用什么方法来度量它,却比“今天15度 但用什么方法来度量它,却比“今天 度”这样的讲法 更不易理解,因为它是通过较为抽象的概率来计算的。 更不易理解,因为它是通过较为抽象的概率来计算的。
定理11.2
满足公理1—公理 的信息量计算公式为 (M)=-Clogap, 公理4的信息量计算公式为 满足公理 公理 的信息量计算公式为I( ) - , 其中C是任意正常数 对数之底a可取任意为不为 是任意正常数, 可取任意为不为1的正实 其中 是任意正常数,对数之底 可取任意为不为 的正实 数。 由公理1 ( ) 连续。 由公理 I(M)=f(p),函数 连续。 ,函数f连续 由公理2 发生必有B发生 由公理 若A发生必有 发生,则pA≤pB, 发生必有 发生, 有f(pA)≥f(PB) ,故函数f是单调不增的。 故函数 是单调不增的。 是单调不增的 由公理3 是两个独立事件, 由公理 若A、B是两个独立事件,则A、B同时发生 、 是两个独立事件 、 同时发生 的概率为p 。 的概率为 ApB,有f(PAPB)=f(pA)+f(pB)。 先作变量替换 令p=a-q,即q=-logaP 记 -
定理9.5 对于一般连续型随机试验,在方差一定的前提下,正 对于一般连续型随机试验,在方差一定的前提下,
态分布具有最大的熵。 态分布具有最大的熵。
定理9.6 最大熵原理,即受到相互独立且均匀而小的随机因素 最大熵原理,
影响的系统,其状态的概率分布将使系统的熵最大。 影响的系统,其状态的概率分布将使系统的熵最大。 上述结果并非某种巧合。根据概率论里的中心极限定理,若试 上述结果并非某种巧合。根据概率论里的中心极限定理, 验结果受到大量相互独立的随机因素的影响, 验结果受到大量相互独立的随机因素的影响,且每一因素的影 响均不突出时,试验结果服从正态分布。最大熵原理则说明, 响均不突出时,试验结果服从正态分布。最大熵原理则说明, 自然现象总是不均匀逐步趋于均匀的, 自然现象总是不均匀逐步趋于均匀的,在不加任何限止的情况 系统将处于熵最大的均匀状态。 下,系统将处于熵最大的均匀状态。
证明: 证明:
f ( p ) = f ( e − q ) = g ( q ) ,又 p A p B = e − ( q A + q B ) 有: g (q A + q B ) = g (q A ) + g (q B ) ,g亦为连续函数。 亦为连续函数。 亦为连续函数
g(x+y)=g(x)+g(y)的连续函数有怎样的性质 的连续函数有怎样的性质 首先, 得出g(0)=0或g(0)=∞。 首先,由g(0)=g(0+0)=2g(0)得出 得出 或 。 但由公理4,后式不能成立,故必有g(0)=0。 但由公理 ,后式不能成立,故必有 。 一般地, 记g(1)=C,容易求得 ,容易求得g(2)=2C,g(3)=3C,…,一般地, 一般地 有g(n)=nC。进而 。
不确定度A 不确定度
不确定度B 不确定度
不确定度C 不确定度
几个例子: 几个例子:
当你要到大会堂去找某一个人时,甲告诉你两条消息: 例12 当你要到大会堂去找某一个人时,甲告诉你两条消息: ,(2)他也不坐在后十排; (1)此人不坐在前十排,( )他也不坐在后十排;乙只告 )此人不坐在前十排,( 诉你一条消息:此人坐在第十五排。问谁提供的信息量大? 诉你一条消息:此人坐在第十五排。问谁提供的信息量大? 乙虽然只提供了一条消息, 乙虽然只提供了一条消息,但这一条消息对此人在什么 位置上这一不确定性消除得更多, 位置上这一不确定性消除得更多,所以后者包含的信息量应 比前者提供的两条消息所包含的总信息量更大
数学建模的基本思想
从信息的度量谈起
信息的度量与应用
怎么度量信息 对于系统, 对于系统,可以利用守恒 关系有 A+I=B,得I=B-A。 , 。
首先分析一下问题的认识过程 1.对一问题毫无了解,对它的认识是不确定的 对一问题毫无了解, 对一问题毫无了解 2. 通过各种途径获得信息,逐渐消除不确定性 通过各种途径获得信息, 3. 对这一问题非常的了解,不确定性很小 对这一问题非常的了解, 可否用消除不确定性的多少来度量信息! 可否用消除不确定性的多少来度量信息! 黑箱 信息I 信息 灰箱 信息II 信息 白箱
i =1
N
离散型概率分布的随机试验, 离散型概率分布的随机试验,熵的定义为 :
H = −∑ pi log2 pi
i =1
N
(11.5) )
连续型概率分布的随机试验, 连续型概率分布的随机试验,熵的定义为 : 此定理既可化为条件极值问 题证明之, 题证明之,也可以利用凸函 +∞ H ( p) =数性质来证明,请大家自己 − ∫ p( x) log 2 p( ) 数性质来证明, x)dx(11.6) −∞ 去完成 熵具有哪些有趣的性质
定理11.3 若实验仅有有限结果 1,…,Sn,其发生的概率分别为 若实验仅有有限结果S
P1,…,Pn,则当
1 p1 =L= pn = 时,此实验具有最大熵。 此实验具有最大熵。 n
定理9.4 若实验是连续型随机试验,其概率分布 若实验是连续型随机试验,其概率分布P(x)在[a,b] 在
区间以外均为零, 平均分布时具有最大熵。 区间以外均为零,则当 P(x)平均分布时具有最大熵。 平均分布时具有最大熵