信息熵 条件熵 信息增益
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
信息熵条件熵信息增益
一、信息熵:
信息熵(Entropy)是描述系统复杂程度的概念。
它是由美国数学家弗里德曼(Claude Shannon)提出的,又称熵,英文叫information entropy,代表着未知系统的不确定性,越大表示系统的不确定性越大,即信息量越大。
信息熵的正式定义为:
设X是取有限个值的离散型随机变量,其概率分布为p1,p2,…pn,则X的信息熵定义为:
H(X)=∑pi log2pi
其中pi是X取第i个值的概率。
二、条件熵:
条件熵(Conditional Entropy)又称为条件信息熵,是描述随机变量X关于随机变量Y所产生的不确定性。
它是系统中由Y变量引起的,关于X变量的不确定性的度量。
条件熵的正式定义为:
设X和Y是离散随机变量,则Y给定X的条件下X的条件熵定义为:
H(X|Y)=∑p(x,y)log2p(x,y)
其中p(x,y)是X和Y同时取第x个和第y个值的概率。
三、信息增益:
信息增益(Information Gain)是信息论中的一个术语,中文译
为“信息增益”,是熵的减少,用来衡量待分类特征与被预测属性之间的相关性。
它实际上代表了由一个特征值划分数据集的有效性,也就是说,该特征能够带来多大的“信息量”,也就是减少多少的熵值。
信息增益的正式定义为:
设X是随机变量,Y是类别变量,H(X),H(Y) 分别表示X,Y的信息熵,那么,X给Y带来的信息增益g(X,Y)定义为:
g(X,Y)=H(Y)-H(Y|X)
即信息增益等于类别Y的信息熵减去给定X后类别Y的条件熵。