基于粗糙集和决策树法的认知无线电知识挖掘
基于粗糙集的数据挖掘在无线网络入侵检测中的应用

(总 坏和劫持、跟踪难。决策分散缺乏集中则攻击可破坏
第 网络算法的节点协作。
二
无线网加密和认证不能抵御已破坏节点攻击, 因
五
五 其带有私钥, 点而限于临近节点, 检测需局部运行。断
)
!"# MO D E R N C OMP U T E R 2007.3
应度;进化更优参数组产生更优解。启发式约简:R 为
属性集, ( b1, b2...) =τ( a1, a2, ...) 为属性的一个有序队
列 ;对 i=1 到 n , 执 行 ( R←R- bi;若 R 不 是 约 简 , R=
R∪bi) 。解是约简且依赖于 τ(a1, a2, ...)。
1994 年 Skowron 等将容差关系引入粗糙 集[7], 可
检测法可分: 异常检测如统计分析、贝叶斯推理/网络/
聚类、神经网络、机器学习等, 能识别未知入 侵, 但漏
检误检突出; 根据已知特征码匹配审计, 准确但不能检
测未知攻击。按数据来源分基于主机和基于网络。
( 2) 入侵检测系统中的数据挖掘
IDS 应 准 确 、全 面 、可 扩 展 伸 缩 、适 应 环 境 和 健
IP(x)表示属性集 P 上满足关系 T(x, y)对象 y 的集合, 即
对象 x 容差类。用阈值法判定特征项, f (ti, tj)大于阈值 0
时为容差。对给定特征项 t, 与之容差的特征项构成一容
差类。据上下近似可定义 3 种关系。两集合上下近似相
同则粗略相等。一个的上下近似包含另一个的则粗略包
空 P"R 产生 IND(P)的等价类关系集 U/IND(P)称基本
知识, 相应等价类称基本概 念;Q∈R 则 Q 称 初 等 知
基于粗糙集和遗传算法的数据挖掘方法

基于粗糙集和遗传算法的数据挖掘方法摘要:运用粗糙集和遗传算法的理论,为大型的数据挖掘提供了一种新的方法。
首先通过粗糙集理论对数据进行预处理, 然后对属性简约, 最后通过遗传算法进行规则提取, 寻找最优解。
关键词:粗糙集;遗传算法;数据挖掘;知识发现Data Extraction Based on Rough Set and Genetic Algorithm Abstract: A new approach for data mining by using rough set and genetic algorithm is introducedin this article. First of all we pretreat our data with rough set, and then reduce attributes, finally weextract the best rule through genetic algorithm.Key Words: Rough Set; Genetic Algorithm; Data Extration; Knowledge Discovery0 引言数据挖掘[1]又称知识发现, 是从大量的、不完全的、有躁声的、模糊的实际数据中, 提取隐含在其中的、人们事先不知道的、但又很有用的知识和信息的过程。
它的一般步骤如下: 提出问题→数据准备→数据整理→建立模型→评价和解释。
它是数据库研究、开发和应用最活跃的一个分支, 是多学科的交叉领域, 涉及数据库技术、人工智能、机器学习、神经网络、数学、统计学、模式识别、知识库系统、知识获取、信息提取、高性能计算、并行计算、数据可视化等多方面的知识。
1 粗糙集与遗传算法的基本概念粗糙集( Rough Set, RS)[2]作为一种全新的数学概念,为处理具有不完整、不一致及不确定性特征的信息提供了新的有效工具, 它的主要特点之一是无须提供问题所需处理的数据集合之外的任何先验信息。
三支决策基于粗糙集与粒计算研究视角

三支决策基于粗糙集与粒计算研究视角在决策问题中,粗糙集和粒计算是两种重要的决策方法。
粗糙集理论是由波兰学者Zdzisław Pawlak于1982年提出的一种模糊集理论,其主要思想是通过划分决策属性值之间的粗糙程度来对决策对象进行分类,从而实现决策的目的。
粒计算是一种模型或工具,用于处理信息的随机性、不确定性和不完全性,它模拟了人类在面对模糊、局部性和模式的信息时的认知过程,可以用于决策问题的分析和解决。
在研究视角中,粗糙集和粒计算可以相互结合,实现更好的决策效果。
粗糙集通过划分属性值的粗糙程度来对数据进行分类,然后根据决策的目标,进行决策对象的选择。
而粒计算则是在粗糙集的基础上,进一步考虑数据的模糊性和不确定性,对数据进行模糊处理,以提高决策的准确性和可靠性。
粗糙集与粒计算结合的决策方法可以分为三个步骤:数据处理、知识提取和决策生成。
首先,通过粗糙集的方法,对数据进行处理,划分出决策属性值之间的粗糙程度,得到决策属性的一组模糊集合。
然后,利用粒计算的方法,提取出决策属性值之间的模糊关系,并根据这些关系进行决策的生成。
最后,通过对决策结果的评估和优化,得到最终的决策结果。
在实际应用中,粗糙集和粒计算可以应用于各个领域的决策问题。
例如,在医疗领域中,可以利用粗糙集的方法,对患者的病情进行分类,然后结合粒计算的方法,进一步考虑患者的模糊性和不确定性,制定个性化的治疗方案。
在金融领域中,可以利用粗糙集的方法,对股票市场的变化进行分类,然后结合粒计算的方法,考虑股票市场的模糊性和不确定性,制定相应的投资策略。
粗糙集与粒计算的结合在决策问题中具有很大的潜力和优势。
通过对数据的处理和知识的提取,可以更好地理解决策对象的特征和属性,从而制定出更准确、可靠的决策方案。
同时,粗糙集和粒计算的方法都考虑了数据的模糊性和不确定性,可以应对现实世界中复杂、多变的决策环境,提高决策的效果和质量。
总之,粗糙集与粒计算是两种重要的决策方法,在研究视角中可以相互结合,实现更好的决策效果。
基于粗糙集及AC聚类算法的用电客户信用知识挖掘

基于粗糙集及AC聚类算法的用电客户信用知识挖掘【摘要】用电客户信用关系是供电企业客户关系管理的重要内容。
在分析对用电客户的信用评价指标体系的基础上,提出基于粗糙集及AC聚类算法的用电客户信用评价模型。
首先借助粗糙集理论,对指标进行属性约简,并运用自组织数据挖掘中的Knowledge Miner软件,采用AC聚类算法对用电客户进行聚类分析,从而得到各个用电客户的信用等级。
最后结合聚类结果,利用ID3算法,建立决策规则,得出具有一般指导意义的用电客户信用评价的规则知识。
【关键词】粗糙集属性简约;AC聚类;ID3算法;用电客户1.引言(1)随着电力体制改革的推进和电力市场化进程的加快,供电企业在电力市场上面临着越来越激烈竞争。
一方面,用电客户逐渐成为竞争的焦点,提高用电客户满意度与供电企业自身的经济效益紧密相关;另一方面,供电企业先消费后付款的特殊交易方式,造成有些用电客户拖欠电费。
因此,供电企业需要对用电客户进行有效的信用评价,对不同信用等级的客户采用不同的营销策略,建立信用激励机制,提高供电企业用电营销辅助决策水平。
(2)目前,随着用电客户信用评价成为供电企业客户关系管理的重要内容,有关用电客户信用评价方面的研究成果也在不断的增多。
目前常用的方法主要有综合评估法[3]、模糊多属性方法[4]、主客观评价的方法[5]、模糊偏序方法[6]等。
这些研究从不同角度,为解决用电客户信用评价问题提供了一些值得借鉴的思路和方法。
上述方法在进行用电客户信用评价时各有特点,但其评价指标较多,精炼性稍显不足。
随着信用评价体系指标不断增多,指标之间不可避免的存在一定的关联性、交叉性,其重要性也不尽相同,从复杂的指标体系中筛选出重要的指标也是进行用电客户信用评价的一个重要方面,因而本文把在指标属性约简方面具有强大优势的粗糙集理论引入用电客户的信用评价中。
(3)粗糙集是一种处理不精确、不相容和不完全数据的数学工具,这一理论主要的应用是对含有大量冗余信息的知识系统进行约简,它不仅具有模拟人类逻辑思维的能力,而且能有效地分析和处理不精确、不一致、不完整的信息[9]。
基于粗糙集理论的知识发现与推理技术研究

基于粗糙集理论的知识发现与推理技术研究随着信息技术的飞速发展,我们所接触到的数据越来越庞大,如何从这些数据中提取出有价值的信息,成为了信息学界的一个重要研究方向。
其中,基于粗糙集理论的知识发现与推理技术,成为了近年来研究的热点之一。
本文将对该领域的研究现状和前沿做一个总结和介绍。
一、粗糙集理论粗糙集理论是Polkowski和Skowron于1982年提出的,是一种从不完备和模糊的数据中提取知识的方法。
其主要思想是在给定的数据集中寻找属性间的约简,以建立一个简化后的数据模型,用来代表原始数据的识别需求。
粗糙集理论的应用广泛,在数据挖掘、模式识别、决策分析等领域都有重要应用。
粗糙集理论的关键概念包括:等价类、下近似集和上近似集等,这些概念的具体解释和使用在不同的应用场景下各有侧重。
二、基于粗糙集理论的知识发现基于粗糙集理论的知识发现是指从粗糙集的等价类中发现存在的规律、模式和特征。
这些规律和模式则可以进一步用于分类、聚类和数据降维等,从而在更广泛的应用中得到具体的应用。
在知识发现的过程中,粗糙集理论可以用在数据特征选择和数据分类等场景下。
以特征选择为例,基于粗糙集理论可以解决多特征冗余的问题。
对于每个特征,可以计算它对分类结果的影响程度,从而保留对分类结果有较大影响的特征,使特征的维度不至于过高,在减少计算复杂度的同时,尽可能保证分类准确率。
三、基于粗糙集理论的知识推理基于粗糙集理论的知识推理是指根据已知的规则和模式,对新数据进行分类或预测等,以逐渐完善数据模型。
知识推理可以采用分类规则、决策树等多种方式来实现,而采用粗糙集理论的知识推理方式,通常使用下近似集和上近似集等概念来进行分类。
在基于粗糙集理论的知识推理中,一般存在两种方式:一种是确定性知识推理,另一种是不确定性知识推理。
其中确定性知识推理通常采用约简算法,用于对数据进行二元分类,而不确定性知识推理则涉及模糊分类和模糊决策等模糊理论中的概念。
粗糙集理论如何指导决策树算法的改进与优化

粗糙集理论如何指导决策树算法的改进与优化随着人工智能技术的不断发展,决策树算法在数据挖掘和机器学习领域中得到了广泛应用。
然而,传统的决策树算法在处理不确定性和冲突信息方面存在一定的局限性。
为了克服这些问题,粗糙集理论被引入到决策树算法中,以指导其改进与优化。
粗糙集理论是由波兰学者Zdzislaw Pawlak于1982年提出的一种处理不确定性和不完全信息的数学工具。
它通过将数据集划分为等价类来描述数据之间的关系,从而揭示出数据中的规律和模式。
决策树算法则是一种基于树状结构的分类与回归方法,通过一系列的判定条件将数据集划分为不同的类别或预测值。
在传统的决策树算法中,信息增益或基尼指数通常被用来选择最佳的属性进行划分。
然而,这种方法往往忽略了属性之间的相互依赖关系和不确定性。
而粗糙集理论则可以通过计算属性的约简度来评估属性的重要性,从而更准确地选择最佳的划分属性。
在决策树的构建过程中,粗糙集理论可以通过约简算法来减少决策树的规模和复杂度。
约简算法通过删除冗余和无关的属性,从而简化决策树的结构,提高算法的效率和准确性。
同时,粗糙集理论还可以通过计算属性的依赖度来优化决策树的划分过程,从而提高算法的鲁棒性和泛化能力。
此外,粗糙集理论还可以用于处理决策树中的冲突信息。
在现实生活中,数据往往存在不一致和冲突的情况,而传统的决策树算法往往难以处理这些问题。
粗糙集理论通过计算冲突度来评估数据的不一致程度,从而提供了一种处理冲突信息的方法。
通过引入冲突度的概念,决策树算法可以更好地处理不一致和冲突的数据,提高算法的可靠性和鲁棒性。
总之,粗糙集理论可以有效指导决策树算法的改进与优化。
通过引入粗糙集理论的思想和方法,决策树算法可以更好地处理不确定性和冲突信息,提高算法的准确性和效率。
未来,随着粗糙集理论和决策树算法的进一步研究,相信它们将在数据挖掘和机器学习领域中发挥更大的作用,为实际问题的解决提供更好的方法和工具。
一种基于粗糙集的数据挖掘模型

一种基于粗糙集的数据挖掘模型摘要:粗糙集理论是一种处理不确定和不精确问题的数学工具。
运用模拟例子通过不同简化层次的算法导出每个层次上的信息集,最后得到规则集来说明如何建立和运用这种数据挖掘模型。
关键词:粗糙集;数据挖掘;规则提取;算法数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
按照数据挖掘技术所能发现的规律,可以将挖掘任务分成5种:①总结规则挖掘:从指定的数据中,从不同的角度或层次上挖掘出平均值、极小值、极大值、总和、百分比等;②关联规则挖掘:从数据库中挖掘出满足一定条件的依赖性关系;③分类规则挖掘:在已知训练集的特征和分类结果的基础上,为每一种类别找到一个合理的描述或模型;④聚类规则挖掘:客观地按被处理对象的特征分类,将有相同特征的对象归为一类;⑤预测及趋势性规则挖掘:对数据进行分类或回归分析,或对数据将来的发展进行估计。
粗糙集(Rough Set)理论是由波兰数学家Z.Pawlak于1982年提出的一种处理不确定性问题的数学工具。
所谓粗糙集方法,是基于一个机构(或一组机构)关于一些现实的大量数据信息,以对观察和测量所得数据进行分类的能力为基础,从中发现推理知识和分辨系统的某些特点、过程、对象等。
粗糙集理论不仅为信息科学和认知科学提供了新的科学逻辑和研究方法,而且为智能信息处理提供了有效的处理技术。
粗糙集理论运用于数据挖掘中所带来的优点有以下几方面:①不需要数据集合之外的任何先验知识,仅利用数据本身所提供的信息;②可以从不同的抽象层次来对数据进行建模和分析,以更好地揭示数据间的依赖关系,发现数据间的规律;③基于集合理论,有效地分析和处理不精确、不完备和不一致数据,简化输入信息的表达空间;④生成规则简洁准确、易于验证。
1 粗糙集的基本概念决策表信息系统是Rough Set理论的主要研究对象。
基于粗糙集理论的数据挖掘方法ppt课件

资金是运动的价值,资金的价值是随 时间变 化而变 化的, 是时间 的函数 ,随时 间的推 移而增 值,其 增值的 这部分 资金就 是原有 资金的 时间价 值
粗糙集理论的特点
将知识定义为不可区分关系的一个族集, 使得知识具有了清晰的数学意义,便于 用集合运算处理。 不需要关于数据的附加信息
资金是运动的价值,资金的价值是随 时间变 化而变 化的, 是时间 的函数 ,随时 间的推 移而增 值,其 增值的 这部分 资金就 是原有 资金的 时间价 值
区分矩阵将此问题巧妙地转化成了布尔 推理问题.
区分矩阵D是|U|*|U|矩阵, 每一项Dij表示 能把对象i, j区分开来的属性集合.在存在 类属性时, 同类对象不做区分.
区分函数是区分矩阵每一项的和, 代表了 能区分开所有对象的属性组合. 化简后就 得到了所有可能的约简.
Diplo Experie 资金是运动的价值,资金的价值是随时间变化而变化的,是时间的函数,随时间的推移而增值,其增值的这部分资金就是原有资金的时间价值
ma
nce
Fren ch
Reference
Decisio n
x1 MBA Medium Yes Excellent Accept
x2 MSc High
Yes Neutral
Accept
x3 MSc High
Yes Excellent Accept
x4 MBA High
No Good
Accept
x5 MBA Low
资金是运动的价值,资金的价值是随 时间变 化而变 化的, 是时间 的函数 ,随时 间的推 移而增 值,其 增值的 这部分 资金就 是原有 资金的 时间价 值
快速约简算法的考虑
区分函数的化简仍旧是NP-hard问题 启发式算法 - 属性重要性作为启发信息(X.HU) - 条件信息熵作为启发式信息(王国胤) - 充分利用区分矩阵的信息作为启发 - 基于进化计算方法(GA,PSO)的方法
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Gain(s, a)
GainRatio =
(1)
SplitInfo(s,a)
式中:Gain(s, a) 为信息增益; SplitInfo(s,a) 为分裂信息,代表了按照属性 a 把样本 s 分裂成 n 部分而生成的潜在广
度信息和均匀性信息。
⎧
k
⎪⎪Gain
决策树的主要方法有Quinlan J R提出的ID3算法和C4.5算法[12-13]等;其基本思想为:不断地选择最优的属性, 并 据 此 来 划 分 数 据 样 本 ,建 立 相 应 的 节 点 ,直 至 把 具 有 最 高 信 息 增 益 的 属 性 作 为 当 前 节 点 的 测 试 属 性 。C4.5 是 从 ID3演变而来的,它用信息增益率来选择属性,解决了数值缺失、属性值的范围连续、决策树的修剪及规则导出 等问题。另外,利用C4.5 算法建立决策树的速度较ID3 算法快,而且决策树结构也较ID3 算法合理,同时也找 到了较好的规则信息。
模型的准确性及性能进行评价。实验结果表明,该方法设计模型的分类准确率高,增强了知识的
可解释性,能够初步达到认知无线电知识挖掘和对以往经验学习的目的。
关键词:认知无线电;知识挖掘;决策树;粗糙集;C4.5算法
中图分类号:TN914;TP274
文献标识码:A
Knowledge discovery for cognitive radio based on rough set and decision tree method
收稿日期:2010-01-21;修回日期:2010-03-12 基金项目:西安电子科技大学综合业务网理论及关键技术国家重点实验室资助项目(ISN10-09)
608
信息与电子工程
第8卷
显示该模型算法的分类准确度和稳定度能够初步达到对认知无线电知识挖掘和对以往经验学习的要求。
1 基于粗糙集和决策树的数据挖掘方法设计
第8卷 第5期 2010 年 10 月
信息与电子工程
INFORMATION AND ELECTRONIC ENGINEERING
Vo1.8,No0607-06
基于粗糙集和决策树法的认知无线电知识挖掘
余晓航 1a,李磊民 1b,黄玉清 1b
主要步骤如下: 1) 数据的采集,利用基于 MATLAB 802.11a 物理层仿真平台收集的数据作为 CR 感知样值,该平台采用正 交频分数字复用技术,调制方式有 BPSK,QPSK,16-QAM 和 64-QAM,对应星座点数为 2,4,16,64;编码效率有 1/2,2/3 和 3/4。该平台可模拟的数据率为 6 Mbps,9 Mbps,12 Mbps,18 Mbps,24 Mbps,36 Mbps,48 Mbps,54 Mbps,共包括 8
Abstract:It is one of the key issues that making knowledge discovery effectively in a Cognitive Radio(CR) engine design. Basing on the research about Rough Set Theory and C4.5 algorithm of decision tree, this study presented a model of CR knowledge discovery designed by combination of rough set and decision methods and studied its feasibility through a case. Using data based on simulation platform of MATLAB 802.11a physical layer as CR perception sample, decision tree sequence was trained, and decision tree was built for knowledge extraction. Then the accuracy and performance of the design model was evaluated by confusion matrix. The simulation results show that the proposed design model gets high classification accuracy rate, can enhance the interpretability of knowledge,and therefore has preliminarily achieved the purpose of knowledge discovery for cognitive radio and learning from the experiences.
第5期
余晓航等:基于粗糙集和决策树法的认知无线电知识挖掘
609
个调制参数:BPSK-1/2,BPSK-3/4,QPSK-1/2,QPSK-3/4,16QAM-1/2,16QAM-3/4,64QAM-2/3,64QAM-3/4。
YU Xiao-hang1a,LI Lei-min1a,HUANG Yu-qing1b
(1a.School of Information Engineering;1b.School of Manufacturing Science and Engineering,Southwest University of Science, Mianyang Sichuan 621010,China)
粗 糙 集 和 决 策 树 是 知 识 挖 掘 和 学 习 的 重 要 方 法 ,通 常 用 来 分 析 数 据 和 形 成 预 测 模 型 。本 文 利 用 基 于 MAT L A B 802.11a物 理 层 仿 真 平 台 收 集 的 数 据 作 为 CR感 知 样 值 , 在 对 粗 糙 集 和 决 策 树 C4.5算 法 进 行 研 究 的 基 础 上 , 提 出 用 一种基于粗糙集理论和信息熵概念决策树的改进方法[9]来设计CR知识挖掘模型,从而获取知识。认知引擎通过 对 获 取 知 识 的 学 习 推 理 进 行 知 识 库 的 积 累 和 更 新 ,随 着 不 断 的 学 习 ,认 知 引 擎 存 入 知 识 库 中 的 知 识 又 作 为 推 理 引 擎 后 续 工 作 的 基 础 。通 过 案 例 研 究 结 果 显 示 :该 模 型 既 能 够 保 留 原 始 信 息 特 点 ,又 能 够 保 持 较 高 的 知 识 约 简 效 率 , 准 确 地 对 模 拟 用 户 的 需 求 信 息 进 行 知 识 性 描 述 。此 外 ,文 中 采 用 混 淆 矩 阵 方 法 对 分 类 方 法 进 行 了 评 估 ,评 估 结 果
1.1 粗糙集和决策树方法概述
粗糙集[9-10]是用来研究不完整数据和不精确知识的表达、学习、归纳的一套理论,由波兰理工大学 Pawlak Z 教授提出。
粗 糙 集 理 论 的 知 识 表 达 方 式 通 常 采 用 信 息 系 统 (Information System)的 形 式 , 它 可 以 表 现 为 四 元 有 序 组 IS = (U, A,V , f ) ,其中 U 为有限对象的全体集合,即论域;A 为全体属性的非空有限集合, A = C U D 且 C I D = ∅ , C 为全体条件属性集合, D 为全体决策属性集合;V 是属性 A 的值域; f 为一个信息函数,反映了对象 x 在 IS 中 的全部信息。假设 x∈U, ∀q∈A,U 中的每个对象 x 都可以由属性集合 A 的值表示,该值就是从对象 x 中提取出的 知 识 信 息 或 称 为 规 则 。信 息 系 统 中 ,在 保 证 划 分 决 策 表 原 始 的 分 类 能 力 不 变 的 情 况 下 ,应 该 保 持 较 高 的 约 简 效 率 即以最简单的决策属性对条件属性集合进行分类[11],最终达到利用 C 相对于 D 的任一约简来代替 C 作为一条知 识或规则的目的。
1) 其能处理浩瀚的数据,消除冗余信息;2) 其分类速度要快,描述应尽可能简单并易于转换为数据库查询 语言;3) 能及时准确地提取认知引擎优化控制无线通信系统所需的决策知识。
通 常 ,数 据 挖 掘 的 方 法 有 神 经 网 络 方 法 、遗 传 算 法 、决 策 树 方 法 、粗 集 方 法 、覆 盖 正 例 排 斥 反 例 方 法 、统 计 分 析 方 法 和 模 糊 集 方 法 等 。基 于 上 述 设 计 要 求 以 及 粗 糙 集 和 决 策 树 强 大 的 优 势 互 补 性 ,本 文 将 两 种 方 法 有 机 结 合 , 即采用粗糙集进行数据约简,去除冗余属性,然后利用决策树方法来产生分类规则提取知识。设计框图如图 1 所示。图 1 中,数据样本模块利用基于 MATLAB 802.11a 物理层仿真平台收集的数据作为 CR 感知样值。粗糙集 方法预处理模块采用粗糙集属性约简原理[14],在不减少数据有效信息前提下,对冗余属性进行合并或删除。采 用 C4.5 算法对经过预处理后的低维样本数据进行决策建树,与此同时选用 k 次迭代交叉验证,将最小误分代价 对应的决策树作为最终构建的决策树。混淆矩阵法评估模块用来对决策树模型的准确性和性能的优劣进行评价。
(s,
a)=Info
(si
)
-
∑
i =1
⎨
si s
Info(si );
n
SplitInfo(s, a) = -∑
i =1
si s
lg 2(
si s
)
(2)
⎪⎪⎩Info(s)
=
−
m
∑
j =1
freq(c
j
,
s)lg
2
⎡⎣
freq(c j