一种新的基于软集合理论的文本分类方法
知识增益_文本分类中一种新的特征选择方法_徐燕
第22卷 第1期2008年1月中文信息学报JOU RNAL OF CH INESE INFORM AT ION PROCESSIN GV ol.22,No.1Jan.,2008文章编号:1003-0077(2008)01-0044-07知识增益:文本分类中一种新的特征选择方法徐燕,王斌,李锦涛,孙春明(中国科学院计算技术研究所,北京100080)摘 要:特征选择在文本分类中起重要的作用。
文档频率(DF )、信息增益(IG )和互信息(M I )等特征选择方法在文本分类中广泛应用。
已有的实验结果表明,IG 是最有效的特征选择算法之一,该方法基于申农提出的信息论。
本文基于粗糙集理论,提出了一种新的特征选择方法(K G 算法),该方法依据粗糙集理论关于知识的观点,即知识是分类事物的能力,将知识进行量化,提出知识增益的概念,得到基于知识增益的特征选择方法。
在两个通用的语料集OH SU M ED 和New sGro up 上进行分类实验发现:K G 算法均超过IG 的性能,特别是在特征空间的维数降到低维时尤其明显,可见K G 算法有较好的性能;关键词:计算机应用;中文信息处理;文本分类;特征选择;粗糙集;信息检索中图分类号:T P391 文献标识码:AKnowledge Gain:An New Feature Selection Method in Text CategorizationXU Y an,WAN G Bin,LI Jin -t ao,SU N Chun -ming(Institute of Computing T echnolog y,Chinese Academ y of Sciences,Beijing 100080,China)Abstract:Feature selection(F S)plays an impor tant r ole in text categ or izat ion (T C).A utomatic featur e selection met ho ds such as do cument frequency thresholding (DF ),informat ion ga in (IG),mutual info rmation (M I),and so on ar e co mmonly applied in text categ o rizatio n [J].Exist ing ex per iments sho w I G is o ne o f the most effectiv e met ho ds.I n this paper ,a feature selectio n method is pr oposed based on Roug h Set theory.A ccording to Rough set theo ry ,know ledg e about a univer se of objects may be defined as classificat ions based on cer tain pr operties of the objects,i.e.r ough set theo ry assume that kno wledg e is an ability to part itio n objects.We quantify the ability o f classify objects,and call the amount of this ability as kno wledg e quantity and then fo llow ing this quantificat ion,w e put for wa rd a no tio n /kno wledg e Ga in 0and put forw ar d a kno wledg e g ain -based feature select ion method (KG met ho d).Ex per iments o n New sG ro up collectio n and O HSU M ED co llection sho w that K G perfor ms better than the IG method,specially,on extr emely ag g ressive r eduction.Key words:computer applicatio n;Chinese info rmation pr ocessing ;feature selectio n;t ex t catego rization;ro ug h set;informat ion retr ieval收稿日期:2007-05-29 定稿日期:2007-12-02基金项目:国家973资助项目(2004CB318109);国家自然科学基金资金项目(60473002,60603094);北京市自然科学基金资助项目(4051004)作者简介:徐燕(1968)),女,博士,主要研究方向包括数据挖掘和信息检索;王斌(1972)),男,博士,副研究员,主要研究方向为信息检索和自然语言处理;李锦涛(1962)),男,博士,研究员,博导,主要研究方向为跨媒体检索和数字化技术。
基于粒子群智能的中文文本分类模型比较研究
基于粒子群智能的中文文本分类模型比较研究
罗新
【期刊名称】《农业图书情报学刊》
【年(卷),期】2018(030)004
【摘要】面对海量、异构、动态的文本信息,对文本进行自动分类具有重要的意义.近年来,逐步发展起来的群集智能理论和方法为文本分类提供了一种新的智能化手段.笔者将群集智能中发展较为成熟的粒子群智能算法尝试性地引入到文本分类领域.构建了文本预处理模型,该模型是文本分类模型的基础.构建了基于PSO的文本分类模型Text PSO-Miner,并在文本集的向量空间矩阵上进行测试和比较.Text PSO-Miner的各项性能指标都优于经典的分类模型(SVM,KNN,NB)和基于ACO 的文本分类模型.结果表明:Text PSO-Miner文本分类模型能够更好地应用于文本分类.
【总页数】5页(P18-22)
【作者】罗新
【作者单位】华南理工大学工商管理学院,广东广州510640
【正文语种】中文
【中图分类】TP391
【相关文献】
1.基于分层Attention机制的Bi-GRU中文文本分类模型 [J], 胡玉兰;赵青杉;牛永洁;陈莉
2.基于改进ERNIE-DPCNN模型的中文文本分类 [J], 牛玉婷;陈伯琪;陈彬
3.基于改进ERNIE-DPCNN模型的中文文本分类 [J], 牛玉婷;陈伯琪;陈彬
4.基于分层Attention机制的Bi-GRU中文文本分类模型 [J], 胡玉兰;赵青杉;牛永洁;陈莉
5.基于改进TF-IDF和ABLCNN的中文文本分类模型 [J], 景丽;何婷婷
因版权原因,仅展示原文概要,查看原文内容请购买。
知识增益:文本分类中一种新的特征选择方法
知识增益:文本分类中一种新的特征选择方法
徐燕;王斌;李锦涛;孙春明
【期刊名称】《中文信息学报》
【年(卷),期】2008(22)1
【摘要】特征选择在文本分类中起重要的作用.文档频率(DF)、信息增益(IG)和互信息(MI)等特征选择方法在文本分类中广泛应用.已有的实验结果表明,IG是最有效的特征选择算法之一,该方法基于申农提出的信息论.本文基于粗糙集理论,提出了一种新的特征选择方法(KG算法),该方法依据粗糙集理论关于知识的观点,即知识是分类事物的能力,将知识进行量化,提出知识增益的概念,得到基于知识增益的特征选择方法.在两个通用的语料集OHSUMED和NewsGroup上进行分类实验发现:KG算法均超过IG的性能,特别是在特征空间的维数降到低维时尤其明显,可见KG算法有较好的性能;
【总页数】7页(P44-50)
【作者】徐燕;王斌;李锦涛;孙春明
【作者单位】中国科学院,计算技术研究所,北京,100080;中国科学院,计算技术研究所,北京,100080;中国科学院,计算技术研究所,北京,100080;中国科学院,计算技术研究所,北京,100080
【正文语种】中文
【中图分类】TP391
【相关文献】
1.文本分类中一种特征选择方法的改进 [J], 胡改蝶;马建芬
2.文本分类中一种新的特征选择方法 [J], 王秀娟;郭军;郑康锋
3.文本分类中一种基于互信息改进的特征选择方法 [J], 田野;郑伟
4.文本分类中一种特征选择方法研究 [J], 赵婧;邵雄凯;刘建舟;王春枝
5.文本分类中一种改进的特征选择方法 [J], 刘海峰;王元元;张学仁
因版权原因,仅展示原文概要,查看原文内容请购买。
一种新的基于软集合理论的文本分类方法
第 1 期
广西 师范 大学 学报 : 自然科 学 版
Ju n l f a g i r l ies y Naua S i c dt n o ra o n x Noma Unv ri : trl c n eE io Gu t e i
V o .2 N o.1 1 9
表 l J 个 n项 式 实 验 的 m ×n列 联 表 , 1
Ta b.1 J × n ab e , l t l
1Oi 示 第 J个 试验 的 第 i 观 察 值 ; i 示 第 个 随 机 变 量 在 所 有 m 次 试 验 中 的 观察 值 之 和 ; 表 示 第 J 试 验 中 所 有 一个 观 察 值 之 .) 表 个 O表 D 次 和 ; . 示所有试验中的所有观察值之和 。 o 表
软 集合 理 论是 1 9 9 9年提 出的 处理 模糊 对 象 的数 学工 具 , 年 来许 多 学 者对 其 理 论 和应 用 进行 研 究 。 近
如 文献 [ ] 出一种 基 于软 集合 文本 分类 方 法 。 7提 本文 在 文本 特征 选 择 阶段 采 用一 种新 的基于 独 立度 和齐性 C i 假 设 检验 的特 征选 择 方法 , 所 获取 h2 将
零假设 H。 : 为 随机 变 量 t与试 验 无关 , 0 =D 。 . =Oi。它 的检验 统计 量 表示 为 : 有 = . = _ ・
收 稿 日期 :0 01 —0 2 1—22
基金项 目: 国家 自然科学基金重 大研究计划培育项 目( 0 1 00 ; 9 7 8 2 )澳大利亚 A RC项 目( 0 6 0 0 DP 6 7 6 )
第2 8卷
。
㈩
当 日。 真时 , 为 第 个 多项式 实验 的第 个 观察值 的期 望可 表示 为 :
基于软集理论的新产品开发创意方案选择方法
Approach of Idea Scheme Selection on New Product Development Based on Soft Set Theory 作者: 尤天慧[1];曹兵兵[1]
作者机构: [1]东北大学工商管理学院,沈阳110819
出版物刊名: 技术经济
页码: 35-39页
年卷期: 2012年 第9期
主题词: 新产品开发;创意方案;软集理论;软矩阵;方案选择
摘要:针对新产品开发创意方案选择问题,在考虑不同部门的评审专家关注不同的评价指标集的情形下,给出了一种基于软集理论的新产品开发创意方案选择方法。
即:首先介绍了软集、软矩阵、两个软矩阵的^积运算及极大一极小决策函数等的相关定义;然后通过对两个软
矩阵的极大一极小决策函数进行有效扩展,给出了集结基于不同的评价指标集的评价信息的创
意方案初选准则,并定义通过初选的各方案的优先序来选择最终方案。
最后,运用算例说明了
该方法的可行性和有效性。
一种新型文本分类方法的研究
手工 定义 一些规则来对文本进行分类 ,这种方法费时费力 , 且必须对某一领域有足够的 了解 ,才能写 出合适的规则 。
到上世纪九十年代 , 随着 网上在线文本 的大量涌现和机 器学 习的兴起 ,大规模的文本 ( 括网页)分类和检索重新 包
体 遗 传 进 化 机 制 的 搜 索 算 法 ,它 是 由美 国 密西 根 大 学
H ln ol d教授 于 17 a 9 5年提 出来 。 它与一般 的搜索算 法不 同,它模拟 自然界生物进 化过
程,采用人工进化 的方式对 目标空 间进行随机搜索 。 它将 问 题域 中的可能解看作是群体的一个个体或染色体, 并将每一 个体 编码 成符号串形式 , 模拟孟德尔的遗传学说和达尔文 自
微型 电脑 应 甩
20 第 2 第 8 08年 4卷 期
种 新 型 文本 分 类 方 法 的研 究
吴降龙 周一 民
摘
要 :主要介绍 了一种新 型文本分类方法。 文本分类 中应 用遗传算法优化各种参数 , 在 显著提 高 了文本分 类的查全率 , 差
准率 ,并节省 了大的搜 索时间。 关键 词:文本分类;遗传算 法;参数优化 ;机 器学习 中图分类号 :T 1 P8 文献标识码 :A
的鲁棒性 ,所以被广 泛地 应用 于很多学科。其中就包括机器 学 习领域 ,特别是文本分类器系统 。
文本分类 中应用遗传算法,对各种参数进行优化 , 使得分类
的效 果 达 到 最 佳 。
而如何评价评价分类器好坏 主要有 以下的指标 : 查全率 (ea ) rcl :正确判别为正例的测试样本个数 占正 1 例样本个数的 比例 ,即: 查 全 率 = 分 类 的 正确 文 本 数 /应 有 文 本 数 。 差准率 (rc i :正确 判别为正例 的测试样本 个数 peio s n)
基于PU学习算法的文本分类研究与实现
基于PU学习算法的文本分类研究与实现
郭亚玲;徐振明;王亚强
【期刊名称】《信息通信》
【年(卷),期】2016(000)003
【摘要】PU学习文本分类指的是从只包含一类的正例文档(P)和包含很多类别的未标记文档(U)建立文本分类器最终进行文本分类的问题,U包含正例和反例文档.两步策略是解决PU学习问题的一种最常用的方法.实际问题中,当正例P数量太少的时候,这种方法分类的效果并不好.为了解决P代表性不足的问题,文章提出了一种改进方法旨在解决PU学习问题中正例P数量较少的情况,在两步方法中的第二步不断扩大P的数量来提高分类器的效果,实验结果表明与以往方法结果对比,改进的方法F值有将近30%的提高.
【总页数】2页(P27-28)
【作者】郭亚玲;徐振明;王亚强
【作者单位】成都信息工程大学计算机学院,四川成都610225;成都信息工程大学计算机学院,四川成都610225;成都信息工程大学计算机学院,四川成都610225【正文语种】中文
【中图分类】TP311.1
【相关文献】
1.基于SVM主动学习技术的 PU 文本分类 [J], 富震
2.基于特征词匹配的政策文本分类算法研究与实现 [J], 王丽鹏;张鹏云;和志强
3.基于脉冲神经网络与移动GPU计算的图像分类算法研究与实现 [J], 徐频捷; 王诲喆; 李策; 唐丹; 赵地
4.基于多元线性回归算法的精准ARPU客户价值提升的研究与实现 [J], 袁鸢;付文豪;李成奇
5.GCN-PU:基于图卷积网络的PU文本分类算法 [J], 姚佳奇;徐正国;燕继坤;王科人
因版权原因,仅展示原文概要,查看原文内容请购买。
一种基于迭代学习的文本分类器构造方法
一种基于迭代学习的文本分类器构造方法
檀林;张永奎
【期刊名称】《电脑开发与应用》
【年(卷),期】2004(017)002
【摘要】文本自动分类系统是信息处理的重要研究方向.针对文本分错类和相似度低找不到合适类别等两种错误,提出一种迭代的学习算法,它利用分错的文本向量来提高或降低相应类别向量的权重,从而纠正分类错误,提高了分类准确率,并且最终得到了较精确的类别描述向量和较优的分类器.
【总页数】2页(P5-6)
【作者】檀林;张永奎
【作者单位】山西大学,太原,030006;山西大学,太原,030006
【正文语种】中文
【中图分类】TP3
【相关文献】
1.一种基于改进贝叶斯分类器的基本信任分配构造方法 [J], 苑津莎;何亚军;秦英
2.一种基于完全性的不可能差分区分器构造方法 [J], 李俊志;关杰
3.一种基于粗糙集理论的组合分类器构造方法 [J], 刘新华;旷海兰;眭仁武
4.一种基于线性SVM的级联分类器的构造方法 [J], 安平;吴涛;贺汉根
5.一种基于粗糙集理论的组合分类器构造方法 [J], 旷海兰;罗可;刘新华;徐雨明;王樱
因版权原因,仅展示原文概要,查看原文内容请购买。
基于模糊软集合理论的文本分类方法
定义 1设 是给定的论 域, 是一个参数集 , 一个集合
对 (,) F E 被称为域 【上的一个软集合( f st , s t e) o 当且仅 当 F是 E到所有的 u子集 中某集合的映射 , F: P U , 中, 如 E () 其
i ma p d o t u z o tst h ae oy oft en w e tc n b c iv d tr u h te rd cin o o e a l nd c n tu to fte s p e no a fz y s f e,te c tg r h e tx a e a h e e h o g h e u to fs f s ttbe a o srcin o t h
[ y r s e t l sf ain sfstfzysfstfa r e cin muu lnomain Ke d ]tx a ict ;o ;uz o e;et e l t ; ta ifr t wo csi o te t u se o o
一种文本分类方法及系统[发明专利]
专利名称:一种文本分类方法及系统专利类型:发明专利
发明人:胡加学,孙瑜声,金重九,赵乾申请号:CN201610141931.2
申请日:20160311
公开号:CN107180023A
公开日:
20170919
专利内容由知识产权出版社提供
摘要:本发明公开了一种文本分类方法及系统,该方法包括:预先构建基于分类特征进行文本分类的文本分类模型,所述分类特征包括以下任意一种或多种:字特征、词特征,还包括以下任意一种或多种:词性特征、依存句法特征;获取待分类文本数据;提取待分类文本数据的分类特征;将所述分类特征输入所述文本分类模型,得到待分类文本数据的文本类别。
由于本发明提供的方法可以用字特征、词特征、词性特征、依存句法特征等特征从多角度表达文本数据的语义信息,能更完整的表达文本数据的信息,使得利用所述分类特征进行文本类型预测时,获取的预测结果的准确度更高。
申请人:科大讯飞股份有限公司
地址:230088 安徽省合肥市高新开发区望江西路666号
国籍:CN
代理机构:北京维澳专利代理有限公司
更多信息请下载全文后查看。
一种基于聚类的PU主动文本分类方法_刘露
E-mail: jos@ Tel/Fax: +86-10-62562563
Clustering-Based PU Active Text Classification Method
LIU Lu1,2,
1 2 3
PENG Tao1,2,3,
ZUO Wan-Li1,3,
DAI YaΒιβλιοθήκη -Kang1(College of Computer Science and Technology, Jilin University, Changchun 130012, China) (Department of Computer Science, University of Illinois at Urbana-Champaign, Urbana, USA) (Key Laboratory of Symbol Computation and Knowledge Engineering (Jilin University), Ministry of Education, Changchun 130012, China)
通讯作者 : 彭涛 , E-mail: tpeng@, taopeng@
摘
要:
文本分类是信息检索的关键问题之一.提取更多的可信反例和构造准确高效的分类器是 PU(positive and
unlabeled)文本分类的两个重要问题.然而,在现有的可信反例提取方法中,很多方法提取的可信反例数量较少,构建 的分类器质量有待提高.分别针对这两个重要步骤提供了一种基于聚类的半监督主动分类方法.与传统的反例提取 方法不同,利用聚类技术和正例文档应与反例文档共享尽可能少的特征项这一特点,从未标识数据集中尽可能多地 移除正例 , 从而可以获得更多的可信反例 . 结合 SVM 主动学习和改进的 Rocchio 构建分类器 , 并采用改进的 TFIDF(term frequency inverse document frequency)进行特征提取,可以显著提高分类的准确度.分别在 3 个不同的数 据集中测试了分类结果(RCV1,Reuters-21578,20 Newsgoups).实验结果表明,基于聚类寻找可信反例可以在保持较 低错误率的情况下获取更多的可信反例,而且主动学习方法的引入也显著提升了分类精度. 关键词: PU(positive and unlabeled)文本分类 ; 聚类 ;TFIPNDF(term frequency inverse positive-negative document frequency);主动学习;可信反例;改进的 Rocchio 中图法分类号: TP391 文献标识码: A
一种基于采样遗传的文本软聚类方法
球 型F C M
S GF CM
2 l
2 4
l 3
1 6
7
1 1
9
1 4
从表 l 可 以看 出三 种 方 法 都 能 发 现 属 于 多 个 类 的 文 本 ,而S G F C M L L F C M和 球 型F C M更 有效 。 由于球 型F C M只 是 对 F C M算 法 中 的 向量 和 类 中心 进 行 了 正 规 化 处 理 , 它们 的 耗 时 是 基 本 一 致 的 , 这 里 只 对 S G F C M和 F C M作 了 比较 。表 2 对 两 种 方法 分 别做 了三次 实 验 ,每 次 的F C M迭代 次数 不 同 ,分别 为5 0 ,1 0 0 和3 0 0 。表 中可 以看 出第 2 次和第3 次 的 精度 是 一样 的 ,虽 然 S G F C M 用 了较 多 的时 间在 初 始 中心 优化 上 ,但是 该 时 间仍 然可 以 接 受 ,而 且 如果 处 理 的数据 量 很 大 时F C M算 法 的每 次迭 代 将 花 很长 时间 ,这 时 通过 减 少迭 代 次 数反 而 可 能会 节省 更
[ 2 ] Y i h — J e n H o r n g , S h y i - M i n g C h e n e t c . A n e w m e t h o d f o r f u z z y i n f o r mt i o n r e t r i e v a 1 b a s e d O 1 2 f u z z y h i e r a r c h i c a 1 C 1 u s t e r i n g a n d f u z z y i n f e r e n c e t e c h n i q u e s [ C ] . F u z z y S y s t e m s , I E E E T r a n s a c t i o n s , 2 0 0 5 ( 0 2 ) : 2 1 6 - 2 2 8 .
TCBLSA:一种中文文本聚类新方法
TCBLSA:一种中文文本聚类新方法
王国勇;徐建锁
【期刊名称】《计算机工程》
【年(卷),期】2004(030)005
【摘要】根据隐含语义分析(LSA)理论,提出了一种文本聚类的新方法.该方法应用LSA理论来构建文本集的向量空间模型,在词条的权重中引入了语义关系,消减了原词条矩阵中包含的"噪声"因素,从而更加突出了词和文本之间的语义关系.通过奇异值分解(SVD),有效地降低了向量空间的维数,从而提高了文本聚类的精度和速度.【总页数】3页(P21-22,37)
【作者】王国勇;徐建锁
【作者单位】天津大学系统工程研究所,天津,300072;天津大学系统工程研究所,天津,300072
【正文语种】中文
【中图分类】TP301.6
【相关文献】
1.一种基于自组织神经网络的中文文本聚类新方法 [J], 徐建锁;王正欧;王莉
2.一种基于小生境遗传算法的中文文本聚类新方法 [J], 赵亚琴;周献中
3.一种高效中文文本聚类算法 [J], 马甲林;刘金岭;于长辉
4.一种应用于中文文本聚类的适应值函数 [J], 朱征宇;李力沛;罗颖;周智;朱庆生
5.一种新的Web中文文本聚类方法研究 [J], 叶宇飞;安世全;代劲
因版权原因,仅展示原文概要,查看原文内容请购买。
一种基于粗糙集的文本分类规则抽取方法_孟庆春
一种基于粗糙集的文本分类规则抽取方法X 孟庆春1,2 王汉萍1 魏天滨1 葛 艳1 高 云1(1中国海洋大学计算机系,青岛266071;2清华大学智能技术与系统国家重点实验室,北京100004)摘 要: 随着文本数据库的日益增大,寻找新的文本数据处理方法变得十分紧迫。
本文将粗糙集理论应用于文本自动分类的规则提取,提出了基于粗糙集理论的文本分类方法。
把文本特征项的权值进行离散化处理后,作为规则的条件属性,文本所属的类别用作决策属性,构造决策表,然后通过决策表的知识约简算法提取出文本的分类规则。
实验结果表明,该方法提取规则的分类正确率较高,分类速度较快。
关键词: 文本分类;粗糙集;决策表;属性约简;规则提取中图法分类号: T P 391.6 文章编号: 1001-1862(2003)06-943-070 引言万维网的飞速发展使得网上的文本信息量急剧增长,整个Internet 网可以看作1个庞大的、异构的、互连的动态文本数据库。
但是w eb 上的信息只有很小的一部分是相关的,一般来说99%的w eb 信息对于99%的用户是无用的。
因此对于文本自动分类技术的研究是1项非常有价值的课题。
利用文本分类技术,将文本分配到1个类别结构体系中,可以限定文本的查找范围,使得用户更容易找到所需要的资料,还可以用来整理内部互联网的文本,节省大量的人力物力。
文本的自动分类技术是1种典型的有教师的机器学习问题,一般分为训练和分类2个阶段。
常用的文本分类方法主要有基于向量比较的文本分类技术和基于规则抽取的文本分类技术。
基于向量比较的文本分类技术[1],如:简单中心向量比较算法、K 近邻算法、支持向量机算法等等。
首先将文本用1个特征矢量(V (d )=(t 1,X 1(d );…;t n ,X n (d )),其中t i 为词条项,X i (d )为t i 在d 中的权值来表示,在训练阶段由人工给出分类的类别集合和训练文档的集合,并且每个训练文档被标上所属的类别标志。
一种文本分类方法、装置及计算机设备[发明专利]
专利名称:一种文本分类方法、装置及计算机设备专利类型:发明专利
发明人:吴俊江,雷植程
申请号:CN201910568634.X
申请日:20190627
公开号:CN110362684A
公开日:
20191022
专利内容由知识产权出版社提供
摘要:本发明公开了一种文本分类方法、装置及计算机设备,其中,文本分类方法包括:获取待分类文本以及预设类别标签向量;基于文本分类模型的编码通道对待分类文本进行内容编码处理,得到内容编码向量;根据预设类别标签向量和内容编码向量确定待解码向量;基于文本分类模型的解码通道、目标条件向量和所述解码通道前一时刻所输出的目标类别标签向量对待解码向量解码,得到待分类文本的类别标签;所述目标条件向量为根据内容编码向量和解码通道前一时刻的隐层状态向量确定的向量。
本发明提升了捕获待分类文本与类别标签间关系以及类别标签与类别标签间关系的能力,使输出的待分类文本的类别标签更加准确,提升了文本分类的准确率。
申请人:腾讯科技(深圳)有限公司
地址:518057 广东省深圳市南山区高新区科技中一路腾讯大厦35层
国籍:CN
代理机构:广州三环专利商标代理有限公司
更多信息请下载全文后查看。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第29卷 第1期2011年3月 广西师范大学学报:自然科学版Jour nal o f Guangx i N o rmal U niv ersity:Na tur al Science EditionV o l.29 No.1M ar.2011收稿日期:2010-12-20基金项目:国家自然科学基金重大研究计划培育项目(90718020);澳大利亚A RC 项目(DP 0667060)通讯联系人:袁鼎荣(1967—),男,广西全州人,广西师范大学副教授,硕士。
E-mail:dr yuan@mailbox.g x 一种新的基于软集合理论的文本分类方法袁鼎荣1,2,谢扬才2,陆广泉2,刘 星2(1.北京工业大学计算机学院,北京100124;2.广西师范大学计算机科学与信息工程学院,广西桂林541004)摘 要:文本分类技术是文本信息处理的核心技术之一,主要包括文本的向量模型表示、文本特征选择和分类器训练三大过程。
本文提出了一种混合(EIBA +D HChi2)特征选择算法,并将所获取的特征作为软集合理论中的参数集进行文本分类,从而建立了一种新的基于软集合理论的文本分类技术。
实验表明查准率与查全率比原有算法都有所提高,说明新的基于软集合理论的文本分类算法是有效的。
关键词:文本分类;特征选择;Chi2假设检验;独立度;模糊软集合中图分类号:T P 391 文献标识码:A 文章编号:1001-6600(2011)01-0129-04文本分类技术是文本信息处理的核心技术之一,主要包含文本的向量模型、特征选择和分类器训练等3个过程,其任务是指依据文本的内容,将文本判分为预先定义好的类别。
虽然,已经建立了许多可用的文本分类系统,并取得了一定的成果,但仍需继续完善。
比如:文本特征的选择和抽取技术不完善,导致文本分类结果不理想。
特征选择是从确定的特征空间中选取能够充分代表文档内容的特征子集的过程,是文本分类中的关键,目前已经存在许多相关工作,如:文献[1]基于独立性理论、文献[2-4]基于贝叶斯粗糙集方法、文献[5]基于粗糙集和灰色关联度的综合、文献[6]结合优化的文档频和PA 方法进行文档特征选择。
软集合理论是1999年提出的处理模糊对象的数学工具,近年来许多学者对其理论和应用进行研究。
如文献[7]提出一种基于软集合文本分类方法。
本文在文本特征选择阶段采用一种新的基于独立度和齐性Chi 2假设检验的特征选择方法,将所获取的特征作为软集合理论中的参数集进行文本分类,从而建立一种新的文本分类技术。
1 相关理论基础1.1 齐性C hi 2假设检验齐性Chi 2假设检验的目的是检验随机变量在m 次试验中的独立性假设。
对于n 个m 项式试验可以用n ×m 的联表表示(表1)。
其中:m 表示试验次数,n 表示每次试验中随机变量的个数。
表1 m 个n 项式实验的m ×n 列联表1Tab .1 m ×n table变量C 1C 2…C m 总数t 1O 11O 12…O 1m O 1.t 2O 21O 22…O 2m O 2. t n O n 1O n 2…O nm O n .总数O .1O .2…O .mO .. 1.O ij 表示第j 个试验的第i 个观察值;O i .表示第i 个随机变量在所有m 次试验中的观察值之和;O .j 表示第j 次试验中所有n 个观察值之和;O ..表示所有试验中的所有观察值之和。
零假设H 0为:随机变量t i 与试验无关,有O i 1=O i 2=…=O im 。
它的检验统计量表示为:x 2= m j =1 ni =1(O ij -E ij )2E ij 。
(1)当H 0为真时,第j 个多项式实验的第i 个观察值的期望可表示为:E ij =O i .O .jO ..,(2)因此式(1)近似服从自由度为(m -1)(n -1)的Chi2分布。
式(1)的值越大,相关性越高。
1.2 随机事件的独立度我们定义随机事件独立度如下:设样本空间中的2个事件A 和B ,我们称 P (A ,B )-P (A )P (B ) 的值为随机变量A 和B 之间的独立程度(依赖度)。
1.3 软集合相关理论定义1 设U 是给定的论域,E 是一个参数集,一个集合对(F ,E )被称为域U 上的一个软集合(softset ),当且仅当F 是E 到所有U 子集中某集合的映射,如F :E >P (U ),其中,P (U )是U 的幂集。
软集合是U 的子集的一个参数族。
该参数族中每个集合F (e )(e ∈E )可以看成软集合(F ,E )的e 个元素的集合,或者是软集合的e 个相似元素的集合。
定义2 P (U )为U 上所有模糊集,E 为一参数集,A i ∈E ,集合对(F i ,A i )被称为U 上的一个模糊软集合,当且仅当F i 是A i 到P (U )的一个映射,如F i :A i >P (U )。
2 基于DHChi 2与EIBA 的特征选择算法2.1 DHC hi 2(Distributed Homogeneous C hi 2)特征选择方法按照分布式思想,将假设检验的零假设分解成多个零假设,使表1中每一行对应的观察值代表一个零假设,那么各行对应的观察值之间可以通过其对多个试验的独立度(依赖度)进行比较筛选确定。
其方法描述如下:设t i 为特征空间中的第i 个特征,c 1,c 2,…,c i ,…,c m 对应于m 个文档类,假设t i 文档类无关,则通过式(3)计算统计量,统计量越大则t i 对文档依赖性越强。
x 2(t i )= mj =1(O ij -E ij )2E ij ,(3)其中E ij =O i .m。
(4)2.2 EIBA (Event IndependenceBased Approach )特征选择方法对于特征t i 和文档类c j ,P (t i )≠0且P (c j )≠0,t i 与c j 相互独立的充分必要条件为P (t i ,c j )=P (t i )P (c j )。
则t i 相对c j 的独立程度或依赖度表示为式(5),评价函数表示为式(6):EIBA (t i ,c j )= P (t i ,c j )-P (t i )P (c j ) ,(5)EIBA max (t i )=max mj =1{EIBA(t i ,c j )},(6)评价函数值越大,t i 对文本c j 具有越好的代表性。
2.3 混合(EIBA +DHChi 2)特征选择算法我们给出EIBA 和DHChi2的组合方法,记为EIBA +DHChi2。
算法1 EIBA +DHChi2。
输入:n 个初始特征和m 个文档类输出:k 个特征属性步骤: 基于EIBA ,利用式(5)、(6)先计算每个特征对各个文档类的依赖度;计算表1中的观察值O ij ,累计行、列的观察值之和;基于DH Chi 2,利用式(3)作为评价函数选择特征子集; 当x 2(t i )≥k ,选取符合条件的k 个特征子集。
130 广西师范大学学报:自然科学版 第28卷3 改进的基于软集合的文本分类方法3.1 文本的软集合表示文本分类时,选择的文本特征{C 1,C 2,…,C k },{T 1,T 2,…,T k }为待分类的文本样例。
构造文本软集合如表2。
表2 软集合表Tab .2 Soft set tableU C 1C 2…C k T 10.60.8…0.9T 20.30.4…0.8 T k0.40.3…0.6表3 软集合对照表Tab .3 Sof t set compared tableU T 1T 2...T k T 144...3T 204...2 T k 12 (4)3.2 构造软集合(F ,E )对照表一个含有n 个对象的软集合(F ,E ),其对照表由n 行n 列构成,其中,n 为软集合中对象个数,单元格记为C ij ,其取值为:在软集合(F ,E )中对象x i 的取值大于等于x j 值所对应的参数个数,则表2所对应的对照表如表3所示。
3.3 文本分类算法算法2 新的基于软集合理论的分类算法。
输入:算法1选择的k 个特征属性与待选择的文本特征向量输出:待选择的文本所属类别步骤 由C 个分类类别M 个特征属性构造一个C ×M 软集合图表;给定一个待分类的文本,计算出其符合条件的k 个特征向量V f ; 由V f 与软集合表构成新的表格,单元格V ij =1- V ij -V fmax (V ij );计算单元格的权重S i =r i -r j 其中r i 、r j 为行列的累加和; 则C =m ax S i 就是待分类文本的所属类别。
4 实验结果分析我们采用新浪网站提供的1000篇文档作为训练集和测试集,从中提取知识并对分类算法进行评价,训练集800篇文档,测试集200篇文档,其中的文本涉及8个主题:新闻、体育、财经、娱乐、科技、汽车、房产、生活。
评价分类性能[8-9]的2种常用指标是查准率和查全率。
为了评估算法在整个数据集上的性能,分别与KNN 文本分类算法和基于软集合文本分类算法的性能进行比较(表4)。
表4 3种算法性能比较Tab .4 Three algorithms compare特征数K N N查全率/%查准率/%软集合方法查全率/%查准率/%新的软集合方法查全率/%查准率/%10088.8486.5889.8787.3690.1388.5640090.1287.6291.9889.1992.3690.45100093.7890.4193.3591.2194.5692.01150093.8991.6693.9592.0294.7893.52200093.1291.3593.8991.8994.2193.09 从表4实验数据可以得出以下结论:新的基于软集合理论的文本分类算法与KNN 算法、基于软集合理论算法相比,查准率和查全率有所提高。
131第1期 袁鼎荣等:一种新的基于软集合理论的文本分类方法 132 广西师范大学学报:自然科学版 第28卷 当特征数达到一定数量时,3种算法的性能均有所下降。
5 结 语本文提出一种混合(EIBA+DHChi2)特征选择算法,将所获取的特征作为软集合理论中的参数集进行文本分类,从而建立一种新的基于软集合理论的文本分类技术。
实验表明其查准率与查全率比原来算法都有所提高,说明本文提出的新的基于软集合理论文本分类算法是有效的。
特征数在什么情况下使得算法查准率和查全率最大,这将是我们下一步要做的研究。
参 考 文 献:[1] 冯霞,刘志辉,田继存.基于独立性理论的文本分类特征选择方法[J].计算机工程,2010,36(12):22-27.[2] 朱颢东,钟勇.基于贝叶斯粗糙集的文本特征选择方法[J].河南师范大学学报:自然科学版,2009,37(4):31-35.[3] 袁野,封化民.基于Va gue集的W eb内容安全文本分类[J].广西师范大学学报:自然科学版,2010,28(1):147-152.[4] 吕小勇,石洪波.基于粗糙集的多标签文本分类算法[J].广西师范大学学报:自然科学版,2009,27(3):150-153.[5] 黄玉龙,王翰虎,陈梅.基于粗糙集理论的K N N分类[J].广西师范大学学报:自然科学版,2007,25(4):75-79.[6] 朱颢东,钟勇.结合优化的文档频和PA的特征选择方法[J].计算机应用研究,2010,27(1):36-38.[7] 洪智勇,秦克云.基于模糊软集合理论的文本分类方法[J].计算机工程,2010,36(13):90-92.[8] 柴玉梅,朱国重,咎红英.基于质心的文本分类算法[J].计算机工程,2009,35(20):83-85.[9] 苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(5):1848-1859.A N ew T ex t Classification A pproach Based o n Fuzzy Soft Set T heoryYUAN Ding-rong1,2,XIE Yang-cai2,LU Guang-quan2,LIU Xing2(1.Co lleg e of Computer Science and T echno lo gy,Beijing U niver sity o f T echnolog y,Beijing100124,China;2.Co lleg e of Computer Science and Infor matio n T echno lo gy,G uang x i N or mal U niver sity,G uilin Guangx i541004,China)Abstract:T ext classification is one of the key techniques in tex t inform ation process,w hich includes ho w to establish v ector mo del,select feature and train classifier.EIBA and DHCHi2ar e integr ated to select the features of text and the features are used as parameter s in a fuzzy soft set theory.Then a new tech-nique of tex t classificatio n is established based on a fuzzy soft set.Ex periments show that the technique is effective,and the r atios of accuracy and recall ar e impr oved com paring with o ther m ethods.Key words:tex t classificatio n;feature select;Chi2hapothesis testing;independent degree;fuzzy soft set(责任编辑 王龙杰)。