基于模糊软集合理论的文本分类方法

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

4.2 软集合(F,E)对照表的构造 一个含有n个对象的软集合(F,E)其对照表由n行n列构成,其中,n为 软集合中对象个数,表中单元格记为Cij ,其取值为:在软集合(F,E)中对 象Xi 的取值大于等于Xj 值所对应的参数个数。显然有 0≤Cij≤d 且 Cij = d, ∀i,j,d 为参数集E中参数个数,因此,Cij 为对象oi 在Cij 个属性上取 值上大于等于oj ,表1所对应的对比表如表2所示:
方法进行分类精度测试,其中,KNN方法选择K=35;SVM方法选择LIBSVM 包 作为分类器,具体分类结果如表 3 所示。
从表 3 实验数据可以得出以下结论: (1)基于软集合理论的文本分类与宏平均指标和微平均指标相比,KNN, SVM 算法都有所提高。
(2)当选择的特征数增多时,基于软集合理论的分类方法在查准率与 查全率上也会相应的提高,但当特征数达到一定数量时,相应指标变化甚 微,有时甚至出现略微下降情况。
文本分类算法的研究不完整、文本的特征选择和特征抽取方法有待进一步 改进,基于此,本文首先在文本特征选择阶段提出一种新的基于正则化互 信息的特征选择算法,然后结合软集合理论与文本分类的特点提出一种基 于软集合理论的文本分类新方法。
2 软集合相关理论
为了叙述方便,给出软集合相关理论: 定义1 设U是给定的论域,E 是一个参数集,一个集合对 (F,E)被称 为域U上的一个软集合(soft set)当且仅当F是E到所有的U子集中某集合的 映射,如 F:E → P(U),其中,P(U )是U的幂集。 软集合是U的子集的一个参数族。该参数族中每个集合F(ε)(ε∈ E) 可以看成软集合(F,E)的ε个元素的集合,或者是软集合的ε个相似元素 的集合。 定义2 若有一个二元运算符,记为*,(F,A) 与(G,B)为论域U上的 2 个软集,那么在软集上的运算*可以定义为:(F,A) * (G,B)= (H,A×B), 其中,H(α,β)= F(α)* G(β),a ∈ A, b ∈ B,A×B是集合A与集合B的 笛卡尔集。

(2)从F中选择满足式(1)的 fi 并设臵 S fi , F F \ fi 。




4 基于软集合的文本分类方法
4.1 文本的软集合表示 按照第3节方法对训练集中文本进行特征选择得到文本的特征属性集, 对所有训练集中的文本提取得到文本的特征向量。在进行文本分类时,以 文本的特征属性作为参数集为训练集中的样本文本,按文献[2]中类似的 图表方式,文本知识系统表示见表 1(因为文本特征属性有几千维,样本 量很大,所以表中只给出部分样本及部分属性)。
5 实验结果分析
为了验证基于软集合理论的文本分类方法的性能采用复旦大学国际数 据库中心李荣陆提供的中文文本分类语料库作为训练集和测试集,从中提 取知识并对分类算法进行评价,1882 篇文本作为训练集,934 篇文本作 为测试集,其中的文本涉及 10 个主题:即交通、体育、军事、医药、政 治、教育、环境、经济、艺术、计算机。 评价分类性能[7]的 2 种常用指标是准确率 p 和召回率 r 。为了评 估算法在整个数据集上的性能,有 2 种平均的方法可供使用,分别称为 宏平均(macro_average)和微平均(micro_average)。宏平均是每一个类的 性能指标的算术平均值,而微平均是每一个实例(文档)的性能指标的算术 平均。分别从以下 2 个方面来对基于软集合理论的分类方法进行测试: (1)选不同数量的特征时分类器的性能; (2)与 KNN 和 SVM 分类器的性能比较。 在实验中选择特征数从 400~2 800 之间对 KNN, SVM 及基于软集合
基于模糊软集合理论的文本分类方法
摘 要:为提高文本分类精度,提出一种基于模糊软集合理论的文本分类方 法。该方法把文本训练集表示成模糊软集合表格形式,通过约简、构造软集 合对照表方法找出待分类文本所属类别,并针对文本特征提取过程中由于相 近特征而导致分类精度下降问题给出一种基于正则化互信息特征选择算法, 有效地解决了上述问题。与传统的 KNN 和 SVM 分类算法相比,模糊软集合 方法在文本分类的精度和准度上都有所提高。 关键词:文本分类;软集合;模糊软集合;特征选择;互信息
基于软集合理论的文本分类算法首先要把文本特征向量表示为软集 合图表,再根据最优值不变原则进行约简,最后选择最佳分类,具体算 法如下: 算法2 基于软集合理论的分类算法 输入 训练样本的特征向量与待选择的文本特征向量 输出 所属类别 (1)由训练样本的特征向量,构造软集合图表。 (2)采用正则化参数约简法[3]进行约简。 (3)计算每个文本类别的聚类中心特征向量。 (4)重复步骤(3)直到求出所有类别的中心特征向量。 (5)由步骤(4)中c个类别中心向量构造一个C×M 软集合图表,其中, M为约简后的文本的特征属性个数;C为预先划分好的文本类别数,每个 单元格为 Vij(i=1,2,…,n,j=1,2,…,m),矩阵每一行Ci为一个文本类别 的中心特征向量。
(6)给定一个待分类的文本,计算出其特征向量 Vf 。 (7)由 Vf与步骤(5)中所得的表格构成新的表格,新表单元格 Vij计算公 式如下:
ຫໍສະໝຸດ Baidu
Vij 1
| Vij V fj | max(Vij )
(8)根据步骤(7)得到的软集合图表求出其对照表。 (9)由式(2)~式(4)求出步骤(8)中对照表的 Si,i =1,2,…,C。 (10)求出最优 Ci = maxi Si ,即待分类文本的所属类别。
r i
c
j 1
n
n
ij
,i =1,2,…,n
(2)
第j列总和记为 tj ,其计算如式(3)所示:
tj
c , j =1,2,…,n
i 1 ij
(3)
给每个对象 oi 赋于一个重要性值Si ,其计算公式如下: Si = ri − ti i =1,2,…,n (4)
4.3 基于软集理论的分类算法
算法1 基于 NMIFS 特征选择算法 输入 N个样本χ,目标类别c(每个样本含M个属性 F={fi,i=1,2,…,M}) 输出 特征子集 S Step1 初始化:给出特征集F={fi ,i=1,2,…,M},S = {φ}为空集。 Step2 对每个特征 fi ∈ F,计算I(fi, c)。 fi max I ( f , c ) F F \ fi 。 Step3 选出第1个特征 ,使得 S fi , i i 1,2,..., M Step4 进行贪心选择:重复以下(1)、(2)直到 |S| = k,其中,|S| 为候选集合S的维度。 (1)对所有的 (fi,fs)计算 I(fi,fs ),其中,fi ∈ F,fs∈ S且 (fi,fs) 这一对互信息没有被计算过;
1 概述
软集合理论是学者于 1999 年提出的一种新的处理不确定、模糊及未被 清楚定义的对象的数学工具。目前被广泛应用处理不确定性问题的数学理论 和工具有:概率论,模糊集理论,区间数学,粗糙集等,但是所有这些理论 和结果都有其不完善的方面,产生这些问题的主要原因在于参数化工具的不 足。而软集合理论就是处理不确定性且不存在上述问题的强有力数学工具。 当前,有越来越多的学者投入到软集理论及应用的研究,有文献对软集的基 本理论进行了研究,并给出软集在决策中的一些应用;Cheng 和 Tsang 给 出了基于软集理论的属性约简方法并和粗糙集中的属性约简作了相应的比较; 有文献在考虑增加属性及次优选择问题上给出了正则化属性约简原理并给出 相应的约简算法;Zhou 和 Xiao给出使用软集来分析不完备信息系统的方法。 文本自动分类是信息检索与数据挖掘领域的研究热点与核心技术,数量 巨大的训练样本和过高的向量维数是文本分类的 2 大特点。这 2 个特点决 定了文本分类问题是一个运算时间和空间复杂度很高的问题。目前产生一些 可用的分类系统,并取得了一定的成果,但仍然存在很多尚未解决的问题,
定义3 P(U)为U上所有模糊集,E 为一参数集,Ai ⊂ E,集合( Fi , Ai )被称为U上的一个模糊软集当且仅当 Fi 是Ai到P(U)的一个映射,如 : Fi: Ai → P(U) 。 定义4 一个信息系统可以形式化为 S=(U,A),其中,U为对象的非空 有限集合;A 为属性的非空有限集合,并且使得满足对于任意的 a ∈ A 有 :a:U → Va,V为属性 a 的值域。 定义5 对模糊软集(F,E), E ={e1,e2,…,em},若存在E的子集 A ={e`1,e`2,…,e`p}满足 h h h ,则A不是必要的,否则A是必要的。 若B是必要的且 h h h ,则B为E的一个正则化约简,即E-B是 满足fE-B( .)为一常数的E的最大子集。
ek A 1k ek A 2k ek A nk ek E B 1k ek E B 2k ek E B nk
3 基于 NMIFS 的特征选择算法
文本分类中的训练集的向量维数往往非常庞大,可以达到几万维,所 以,要对维数进行压缩是文本分类的主要任务之一,它一方面提高了程序 的效率和运行速度,另一方面也是关键的方面,由于各个类别都普遍存在 对分类没有多大影响的词,因此去掉那些词不仅能压缩维数,而且还能把 对分类起代表性的词体现出来,提高了分类精度。本文采用正则化互信息 特征选择方法(NMIFS),并且提出一种贪心选择算法对文本集进行特征选 择,该方法既考虑了特征与类别的互信息,也计算了特征与特征之间的互 信息,解决了文本中相近的特征同时被选择而导致的性能下降问题,并且 能够得到较优的特征子集,具体算法如下: 设给定输入数据χ含N个样本,每个样本有M个属性F={fi,i=1,2,…,M}, 目标类别变量为c,特征选择问题就是要找出最能刻化c的一个含有m个特征 {fi}的特征子集 S,NMIFS第m个特征选择公式如下:
相关文档
最新文档