一种新的基于软集合理论的文本分类方法

合集下载

基于领域知识的文本分类

基于领域知识的文本分类
朱靖波;陈文亮
【期刊名称】《东北大学学报（自然科学版）》
【年(卷),期】2005(026)008
【摘要】提出了一种基于知识的文本分类方法,其中引入领域知识,利用领域特征作为文本特征,增强文本表示能力,将文本分类过程看作集聚计算过程.文本索引过程采用了改进型特征选取和权重计算方法.提出了一种基于互信息的学习算法,从训练语料中自动学习领域特征集聚计算公式.实验结果显示基于领域知识的文本分类技术总体性能优于传统的贝叶斯分类模型,领域知识的应用能够有效改善对相似主题和相反主题的分类性能.
【总页数】3页(P733-735)
【作者】朱靖波;陈文亮
【作者单位】东北大学,信息科学与工程学院,辽宁,沈阳,110004;东北大学,信息科学与工程学院,辽宁,沈阳,110004
【正文语种】中文
【中图分类】TP391
【相关文献】
1.基于文本分类领域中文本分类和主题分析 [J], 郭艳芳;郑金芳;赵连荣
2.领域知识在文本分类中的应用 [J], 吴国祥
3.IT职业培训机构学员领域知识不足的原因探析——基于北大青鸟和安卓越的案
例分析 [J], 董志霞
4.基于CiteSpace的中国客家文化领域知识图谱研究 [J], 曹小琴;陈嘉鸿;许芳婷
5.基于领域知识图谱的短文本实体链接 [J], 黄金杰;赵轩伟;张昕尧;马敬评;史宇奇因版权原因，仅展示原文概要，查看原文内容请购买。

知识增益_文本分类中一种新的特征选择方法_徐燕

第22卷第1期2008年1月中文信息学报JOU RNAL OF CH INESE INFORM AT ION PROCESSIN GV ol.22,No.1Jan.,2008文章编号:1003-0077(2008)01-0044-07知识增益:文本分类中一种新的特征选择方法徐燕,王斌,李锦涛,孙春明(中国科学院计算技术研究所,北京100080)摘要:特征选择在文本分类中起重要的作用。

文档频率(DF )、信息增益(IG )和互信息(M I )等特征选择方法在文本分类中广泛应用。

已有的实验结果表明,IG 是最有效的特征选择算法之一,该方法基于申农提出的信息论。

本文基于粗糙集理论,提出了一种新的特征选择方法(K G 算法),该方法依据粗糙集理论关于知识的观点,即知识是分类事物的能力,将知识进行量化,提出知识增益的概念,得到基于知识增益的特征选择方法。

在两个通用的语料集OH SU M ED 和New sGro up 上进行分类实验发现:K G 算法均超过IG 的性能,特别是在特征空间的维数降到低维时尤其明显,可见K G 算法有较好的性能;关键词:计算机应用;中文信息处理;文本分类;特征选择;粗糙集;信息检索中图分类号:T P391 文献标识码:AKnowledge Gain:An New Feature Selection Method in Text CategorizationXU Y an,WAN G Bin,LI Jin -t ao,SU N Chun -ming(Institute of Computing T echnolog y,Chinese Academ y of Sciences,Beijing 100080,China)Abstract:Feature selection(F S)plays an impor tant r ole in text categ or izat ion (T C).A utomatic featur e selection met ho ds such as do cument frequency thresholding (DF ),informat ion ga in (IG),mutual info rmation (M I),and so on ar e co mmonly applied in text categ o rizatio n [J].Exist ing ex per iments sho w I G is o ne o f the most effectiv e met ho ds.I n this paper ,a feature selectio n method is pr oposed based on Roug h Set theory.A ccording to Rough set theo ry ,know ledg e about a univer se of objects may be defined as classificat ions based on cer tain pr operties of the objects,i.e.r ough set theo ry assume that kno wledg e is an ability to part itio n objects.We quantify the ability o f classify objects,and call the amount of this ability as kno wledg e quantity and then fo llow ing this quantificat ion,w e put for wa rd a no tio n /kno wledg e Ga in 0and put forw ar d a kno wledg e g ain -based feature select ion method (KG met ho d).Ex per iments o n New sG ro up collectio n and O HSU M ED co llection sho w that K G perfor ms better than the IG method,specially,on extr emely ag g ressive r eduction.Key words:computer applicatio n;Chinese info rmation pr ocessing ;feature selectio n;t ex t catego rization;ro ug h set;informat ion retr ieval收稿日期:2007-05-29 定稿日期:2007-12-02基金项目:国家973资助项目(2004CB318109);国家自然科学基金资金项目(60473002,60603094);北京市自然科学基金资助项目(4051004)作者简介:徐燕(1968)),女,博士,主要研究方向包括数据挖掘和信息检索;王斌(1972)),男,博士,副研究员,主要研究方向为信息检索和自然语言处理;李锦涛(1962)),男,博士,研究员,博导,主要研究方向为跨媒体检索和数字化技术。

知识增益:文本分类中一种新的特征选择方法

知识增益：文本分类中一种新的特征选择方法
徐燕;王斌;李锦涛;孙春明
【期刊名称】《中文信息学报》
【年(卷),期】2008(22)1
【摘要】特征选择在文本分类中起重要的作用.文档频率(DF)、信息增益(IG)和互信息(MI)等特征选择方法在文本分类中广泛应用.已有的实验结果表明,IG是最有效的特征选择算法之一,该方法基于申农提出的信息论.本文基于粗糙集理论,提出了一种新的特征选择方法(KG算法),该方法依据粗糙集理论关于知识的观点,即知识是分类事物的能力,将知识进行量化,提出知识增益的概念,得到基于知识增益的特征选择方法.在两个通用的语料集OHSUMED和NewsGroup上进行分类实验发现:KG算法均超过IG的性能,特别是在特征空间的维数降到低维时尤其明显,可见KG算法有较好的性能;
【总页数】7页(P44-50)
【作者】徐燕;王斌;李锦涛;孙春明
【作者单位】中国科学院,计算技术研究所,北京,100080;中国科学院,计算技术研究所,北京,100080;中国科学院,计算技术研究所,北京,100080;中国科学院,计算技术研究所,北京,100080
【正文语种】中文
【中图分类】TP391
【相关文献】
1.文本分类中一种特征选择方法的改进 [J], 胡改蝶;马建芬
2.文本分类中一种新的特征选择方法 [J], 王秀娟;郭军;郑康锋
3.文本分类中一种基于互信息改进的特征选择方法 [J], 田野;郑伟
4.文本分类中一种特征选择方法研究 [J], 赵婧;邵雄凯;刘建舟;王春枝
5.文本分类中一种改进的特征选择方法 [J], 刘海峰;王元元;张学仁
因版权原因，仅展示原文概要，查看原文内容请购买。

一种新型文本分类方法的研究

手工定义一些规则来对文本进行分类，这种方法费时费力，且必须对某一领域有足够的了解，才能写出合适的规则。
到上世纪九十年代，随着网上在线文本的大量涌现和机器学习的兴起，大规模的文本（括网页）分类和检索重新包
体遗传进化机制的搜索算法，它是由美国密西根大学
Ｈｌｎｏｌｄ教授于１７ａ９５年提出来。它与一般的搜索算法不同，它模拟自然界生物进化过
程，采用人工进化的方式对目标空间进行随机搜索。它将问题域中的可能解看作是群体的一个个体或染色体，并将每一个体编码成符号串形式，模拟孟德尔的遗传学说和达尔文自
微型电脑应甩
２０第２第８０８年４卷期
种新型文本分类方法的研究
吴降龙周一民
摘
要：主要介绍了一种新型文本分类方法。文本分类中应用遗传算法优化各种参数，在显著提高了文本分类的查全率，差
准率，并节省了大的搜索时间。关键词：文本分类；遗传算法；参数优化；机器学习中图分类号：Ｔ１Ｐ８文献标识码：Ａ
的鲁棒性，所以被广泛地应用于很多学科。其中就包括机器学习领域，特别是文本分类器系统。
文本分类中应用遗传算法，对各种参数进行优化，使得分类
的效果达到最佳。
而如何评价评价分类器好坏主要有以下的指标：查全率（ｅａ）ｒｃｌ：正确判别为正例的测试样本个数占正１例样本个数的比例，即：查全率＝分类的正确文本数／应有文本数。差准率（ｒｃｉ：正确判别为正例的测试样本个数ｐｅｉｏｓｎ）

基于PU学习算法的文本分类研究与实现

基于PU学习算法的文本分类研究与实现
郭亚玲;徐振明;王亚强
【期刊名称】《信息通信》
【年(卷),期】2016(000)003
【摘要】PU学习文本分类指的是从只包含一类的正例文档(P)和包含很多类别的未标记文档(U)建立文本分类器最终进行文本分类的问题,U包含正例和反例文档.两步策略是解决PU学习问题的一种最常用的方法.实际问题中,当正例P数量太少的时候,这种方法分类的效果并不好.为了解决P代表性不足的问题,文章提出了一种改进方法旨在解决PU学习问题中正例P数量较少的情况,在两步方法中的第二步不断扩大P的数量来提高分类器的效果,实验结果表明与以往方法结果对比,改进的方法F值有将近30％的提高.
【总页数】2页(P27-28)
【作者】郭亚玲;徐振明;王亚强
【作者单位】成都信息工程大学计算机学院,四川成都610225;成都信息工程大学计算机学院,四川成都610225;成都信息工程大学计算机学院,四川成都610225【正文语种】中文
【中图分类】TP311.1
【相关文献】
1.基于SVM主动学习技术的 PU 文本分类 [J], 富震
2.基于特征词匹配的政策文本分类算法研究与实现 [J], 王丽鹏;张鹏云;和志强
3.基于脉冲神经网络与移动GPU计算的图像分类算法研究与实现 [J], 徐频捷; 王诲喆; 李策; 唐丹; 赵地
4.基于多元线性回归算法的精准ARPU客户价值提升的研究与实现 [J], 袁鸢;付文豪;李成奇
5.GCN-PU:基于图卷积网络的PU文本分类算法 [J], 姚佳奇;徐正国;燕继坤;王科人
因版权原因，仅展示原文概要，查看原文内容请购买。

基于模糊软集合理论的文本分类方法

（．ｃｏｌｆｔｅｔｓＳｕｈｓＪｏｏｇｉｅｓｙＣｅｇｕ６０３；．ｃｏｌｆｏｕｅｃｅｃ，ｙＵｉｅｓｙＪｎｍｅ２００１ＳｈｏＭａｍａｉ，ｏｔｗｅｔｉｔｎＵｎｖｒｉ，ｈｎｄ１０１２ＳｈｏＣｍｐｔｒｉｅＷｕｉｎｖｒｉ，ｉｇｎ５９２）ｏｈｃａｔｏＳｎｔａ［ｓａｔＡｔｘａｓｃｔｎａｐｏｃａｅｎｓｆｓｔｈ０ｙｉｐｏｏｅｎａｃｅａｃｒｃｆｈｘｌｓｆａｉｎＴｅｔｔａｎｎｔＡｂｔｅ］ｔｌｓｉａｏｐｒａｈｂｓｄｏｔｅｔｅｒｒｐｓｄｔｅｈｎｅｈｃｕａｙｏｔｅｅｔａｉｃｔ，ｈｘｉｉｇｓｒｅｃｆｉｉｏｓｏｔｔｃｓｉｏｅＩｒｅ
定义１设是给定的论域，是一个参数集，一个集合
对（，）ＦＥ被称为域【上的一个软集合（ｆｓｔ，ｓｔｅ）ｏ当且仅当Ｆ是Ｅ到所有的ｕ子集中某集合的映射，Ｆ：ＰＵ，中，如Ｅ（）其
ｉｍａｐｄｏｔｕｚｏｔｓｔｈａｅｏｙｏｆｔｅｎｗｅｔｃｎｂｃｉｖｄｔｒｕｈｔｅｒｄｃｉｎｏｏｅａｌｎｄｃｎｔｕｔｏｆｔｅｓｐｅｎｏａｆｚｙｓｆｅ，ｔｅｃｔｇｒｈｅｔｘａｅａｈｅｅｈｏｇｈｅｕｔｏｆｓｆｓｔｔｂｅａｏｓｒｃｉｎｏｔｈ
［ｙｒｓｅｔｌｓｆａｉｎｓｆｓｔｆｚｙｓｆｓｔｆａｒｅｃｉｎｍｕｕｌｎｏｍａｉｎＫｅｄ］ｔｘａｉｃｔ；ｏ；ｕｚｏｅ；ｅｔｅｌｔ；ｔａｉｆｒｔｗｏｃｓｉｏｔｅｔｕｓｅｏｏ

一种基于聚类的PU主动文本分类方法_刘露

软件学报 ISSN 1000-9825, CODEN RUXUEW Journal of Software,2013,24(11):25712583 [doi: 10.3724/SP.J.1001.2013.04467] ©中国科学院软件研究所版权所有 .
E-mail: jos@ Tel/Fax: +86-10-62562563
Clustering-Based PU Active Text Classification Method
LIU Lu1,2,
1 2 3
PENG Tao1,2,3,
ZUO Wan-Li1,3,
DAI YaΒιβλιοθήκη -Kang1(College of Computer Science and Technology, Jilin University, Changchun 130012, China) (Department of Computer Science, University of Illinois at Urbana-Champaign, Urbana, USA) (Key Laboratory of Symbol Computation and Knowledge Engineering (Jilin University), Ministry of Education, Changchun 130012, China)
通讯作者 : 彭涛 , E-mail: tpeng@, taopeng@
摘
要:
文本分类是信息检索的关键问题之一.提取更多的可信反例和构造准确高效的分类器是 PU(positive and
unlabeled)文本分类的两个重要问题.然而,在现有的可信反例提取方法中,很多方法提取的可信反例数量较少,构建的分类器质量有待提高.分别针对这两个重要步骤提供了一种基于聚类的半监督主动分类方法.与传统的反例提取方法不同,利用聚类技术和正例文档应与反例文档共享尽可能少的特征项这一特点,从未标识数据集中尽可能多地移除正例 , 从而可以获得更多的可信反例 . 结合 SVM 主动学习和改进的 Rocchio 构建分类器 , 并采用改进的 TFIDF(term frequency inverse document frequency)进行特征提取,可以显著提高分类的准确度.分别在 3 个不同的数据集中测试了分类结果(RCV1,Reuters-21578,20 Newsgoups).实验结果表明,基于聚类寻找可信反例可以在保持较低错误率的情况下获取更多的可信反例,而且主动学习方法的引入也显著提升了分类精度. 关键词: PU(positive and unlabeled)文本分类 ; 聚类 ;TFIPNDF(term frequency inverse positive-negative document frequency);主动学习;可信反例;改进的 Rocchio 中图法分类号: TP391 文献标识码: A

TCBLSA:一种中文文本聚类新方法

TCBLSA：一种中文文本聚类新方法
王国勇;徐建锁
【期刊名称】《计算机工程》
【年(卷),期】2004(030)005
【摘要】根据隐含语义分析(LSA)理论,提出了一种文本聚类的新方法.该方法应用LSA理论来构建文本集的向量空间模型,在词条的权重中引入了语义关系,消减了原词条矩阵中包含的"噪声"因素,从而更加突出了词和文本之间的语义关系.通过奇异值分解(SVD),有效地降低了向量空间的维数,从而提高了文本聚类的精度和速度.【总页数】3页(P21-22，37)
【作者】王国勇;徐建锁
【作者单位】天津大学系统工程研究所,天津,300072;天津大学系统工程研究所,天津,300072
【正文语种】中文
【中图分类】TP301.6
【相关文献】
1.一种基于自组织神经网络的中文文本聚类新方法 [J], 徐建锁;王正欧;王莉
2.一种基于小生境遗传算法的中文文本聚类新方法 [J], 赵亚琴;周献中
3.一种高效中文文本聚类算法 [J], 马甲林;刘金岭;于长辉
4.一种应用于中文文本聚类的适应值函数 [J], 朱征宇;李力沛;罗颖;周智;朱庆生
5.一种新的Web中文文本聚类方法研究 [J], 叶宇飞;安世全;代劲
因版权原因，仅展示原文概要，查看原文内容请购买。

一种基于粗糙集的文本分类规则抽取方法_孟庆春

一种基于粗糙集的文本分类规则抽取方法X 孟庆春1,2　王汉萍1　魏天滨1　葛　艳1　高　云1(1中国海洋大学计算机系,青岛266071;2清华大学智能技术与系统国家重点实验室,北京100004)摘　要:　随着文本数据库的日益增大,寻找新的文本数据处理方法变得十分紧迫。

本文将粗糙集理论应用于文本自动分类的规则提取,提出了基于粗糙集理论的文本分类方法。

把文本特征项的权值进行离散化处理后,作为规则的条件属性,文本所属的类别用作决策属性,构造决策表,然后通过决策表的知识约简算法提取出文本的分类规则。

实验结果表明,该方法提取规则的分类正确率较高,分类速度较快。

关键词:　文本分类;粗糙集;决策表;属性约简;规则提取中图法分类号:　T P 391.6 文章编号:　1001-1862(2003)06-943-070　引言万维网的飞速发展使得网上的文本信息量急剧增长,整个Internet 网可以看作1个庞大的、异构的、互连的动态文本数据库。

但是w eb 上的信息只有很小的一部分是相关的,一般来说99%的w eb 信息对于99%的用户是无用的。

因此对于文本自动分类技术的研究是1项非常有价值的课题。

利用文本分类技术,将文本分配到1个类别结构体系中,可以限定文本的查找范围,使得用户更容易找到所需要的资料,还可以用来整理内部互联网的文本,节省大量的人力物力。

文本的自动分类技术是1种典型的有教师的机器学习问题,一般分为训练和分类2个阶段。

常用的文本分类方法主要有基于向量比较的文本分类技术和基于规则抽取的文本分类技术。

基于向量比较的文本分类技术[1],如:简单中心向量比较算法、K 近邻算法、支持向量机算法等等。

首先将文本用1个特征矢量(V (d )=(t 1,X 1(d );…;t n ,X n (d )),其中t i 为词条项,X i (d )为t i 在d 中的权值来表示,在训练阶段由人工给出分类的类别集合和训练文档的集合,并且每个训练文档被标上所属的类别标志。

一种基于采样遗传的文本软聚类方法

球型ＦＣＭ
ＳＧＦＣＭ
２ｌ
２４
ｌ３
１６
７
１１
９
１４
从表ｌ可以看出三种方法都能发现属于多个类的文本，而ＳＧＦＣＭＬＬＦＣＭ和球型ＦＣＭ更有效。由于球型ＦＣＭ只是对ＦＣＭ算法中的向量和类中心进行了正规化处理，它们的耗时是基本一致的，这里只对ＳＧＦＣＭ和ＦＣＭ作了比较。表２对两种方法分别做了三次实验，每次的ＦＣＭ迭代次数不同，分别为５０，１００和３００。表中可以看出第２次和第３次的精度是一样的，虽然ＳＧＦＣＭ用了较多的时间在初始中心优化上，但是该时间仍然可以接受，而且如果处理的数据量很大时ＦＣＭ算法的每次迭代将花很长时间，这时通过减少迭代次数反而可能会节省更
［２］Ｙｉｈ — ＪｅｎＨｏｒｎｇ，Ｓｈｙｉ－ＭｉｎｇＣｈｅｎｅｔｃ．Ａｎｅｗｍｅｔｈｏｄｆｏｒｆｕｚｚｙｉｎｆｏｒｍｔｉｏｎｒｅｔｒｉｅｖａ１ｂａｓｅｄＯ１２ｆｕｚｚｙｈｉｅｒａｒｃｈｉｃａ１Ｃ１ｕｓｔｅｒｉｎｇａｎｄｆｕｚｚｙｉｎｆｅｒｅｎｃｅｔｅｃｈｎｉｑｕｅｓ［Ｃ］．ＦｕｚｚｙＳｙｓｔｅｍｓ，ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓ，２００５（０２）：２１６－２２８．

一种文本分类方法及系统[发明专利]

专利名称：一种文本分类方法及系统专利类型：发明专利
发明人：胡加学,孙瑜声,金重九,赵乾申请号：CN201610141931.2
申请日：20160311
公开号：CN107180023A
公开日：
20170919
专利内容由知识产权出版社提供
摘要：本发明公开了一种文本分类方法及系统，该方法包括：预先构建基于分类特征进行文本分类的文本分类模型，所述分类特征包括以下任意一种或多种：字特征、词特征，还包括以下任意一种或多种：词性特征、依存句法特征；获取待分类文本数据；提取待分类文本数据的分类特征；将所述分类特征输入所述文本分类模型，得到待分类文本数据的文本类别。

由于本发明提供的方法可以用字特征、词特征、词性特征、依存句法特征等特征从多角度表达文本数据的语义信息，能更完整的表达文本数据的信息，使得利用所述分类特征进行文本类型预测时，获取的预测结果的准确度更高。

申请人：科大讯飞股份有限公司
地址：230088 安徽省合肥市高新开发区望江西路666号
国籍：CN
代理机构：北京维澳专利代理有限公司
更多信息请下载全文后查看。

基于软集理论的新产品开发创意方案选择方法

Approach of Idea Scheme Selection on New Product Development Based on Soft Set Theory 作者：尤天慧[1];曹兵兵[1]
作者机构： [1]东北大学工商管理学院,沈阳110819
出版物刊名：技术经济
页码： 35-39页
年卷期： 2012年第9期
主题词：新产品开发;创意方案;软集理论;软矩阵;方案选择
摘要：针对新产品开发创意方案选择问题，在考虑不同部门的评审专家关注不同的评价指标集的情形下，给出了一种基于软集理论的新产品开发创意方案选择方法。

即：首先介绍了软集、软矩阵、两个软矩阵的^积运算及极大一极小决策函数等的相关定义；然后通过对两个软
矩阵的极大一极小决策函数进行有效扩展，给出了集结基于不同的评价指标集的评价信息的创
意方案初选准则，并定义通过初选的各方案的优先序来选择最终方案。

最后，运用算例说明了
该方法的可行性和有效性。

一种基于迭代学习的文本分类器构造方法

一种基于迭代学习的文本分类器构造方法
檀林;张永奎
【期刊名称】《电脑开发与应用》
【年(卷),期】2004(017)002
【摘要】文本自动分类系统是信息处理的重要研究方向.针对文本分错类和相似度低找不到合适类别等两种错误,提出一种迭代的学习算法,它利用分错的文本向量来提高或降低相应类别向量的权重,从而纠正分类错误,提高了分类准确率,并且最终得到了较精确的类别描述向量和较优的分类器.
【总页数】2页(P5-6)
【作者】檀林;张永奎
【作者单位】山西大学,太原,030006;山西大学,太原,030006
【正文语种】中文
【中图分类】TP3
【相关文献】
1.一种基于改进贝叶斯分类器的基本信任分配构造方法 [J], 苑津莎;何亚军;秦英
2.一种基于完全性的不可能差分区分器构造方法 [J], 李俊志;关杰
3.一种基于粗糙集理论的组合分类器构造方法 [J], 刘新华;旷海兰;眭仁武
4.一种基于线性SVM的级联分类器的构造方法 [J], 安平;吴涛;贺汉根
5.一种基于粗糙集理论的组合分类器构造方法 [J], 旷海兰;罗可;刘新华;徐雨明;王樱
因版权原因，仅展示原文概要，查看原文内容请购买。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

第２９卷
第１期
广西师范大学学报：自然科学版
ＪｕｎｌｆａｇｉｒｌｉｅｓｙＮａｕａＳｉｃｄｔｎｏｒａｏｎｘＮｏｍａＵｎｖｒｉ：ｔｒｌｃｎｅＥｉｏＧｕｔｅｉ
Ｖｏ．２Ｎｏ．１１９
表ｌＪ个ｎ项式实验的ｍ ×ｎ列联表，１
Ｔａｂ．１Ｊ × ｎａｂｅ，ｌｔｌ
１Ｏｉ示第Ｊ个试验的第ｉ观察值；ｉ示第个随机变量在所有ｍ次试验中的观察值之和；表示第Ｊ试验中所有一个观察值之．）表个Ｏ表Ｄ次和；．示所有试验中的所有观察值之和。ｏ表
软集合理论是１９９９年提出的处理模糊对象的数学工具，年来许多学者对其理论和应用进行研究。近
如文献［］出一种基于软集合文本分类方法。７提本文在文本特征选择阶段采用一种新的基于独立度和齐性Ｃｉ假设检验的特征选择方法，所获取ｈ２将
零假设Ｈ。：为随机变量ｔ与试验无关，０＝Ｄ。．＝Ｏｉ。它的检验统计量表示为：有＝．＝＿・
收稿日期：００１ —０２１—２２
基金项目：国家自然科学基金重大研究计划培育项目（０１００；９７８２）澳大利亚ＡＲＣ项目（０６００ＤＰ６７６）
第２８卷
。
㈩
当日。真时，为第个多项式实验的第个观察值的期望可表示为：
Ｅ＝＝＝，（）２
因此式（）似服从自由度为（１近一１（一１的Ｃｉ））ｈ２分布。式（）１的值越大，相关性越高。
文本分类技术是文本信息处理的核心技术之一，主要包含文本的向量模型、征选择和分类器训练等特３个过程，任务是指依据文本的内容，文本判分预先定义好的类别。其将虽然，已经建立了许多可用的文
本分类系统，并取得了一定的成果，仍需继续完善。比如：本特征的选择和抽取技术不完善，但文导致文本
分类结果不理想。
特征选择是从确定的特征空间中选取能够充分代表文档内容的特征子集的过程，文本分类中的关是键，目前已经存在许多相关工作，：献［］于独立性理论、如文１基文献［ — ］２４基于贝叶斯粗糙集方法、文献［］５基于粗糙集和灰色关联度的综合、文献［］合优化的文档频和Ｐ方法进行文档特征选择。６结Ａ
１２随机事件的独立度．
我们定义随机事件独立度如下：样本空间中的２个事件Ａ和Ｂ，们称Ｉ，一Ｐ（Ｐ（Ｉ设我Ｐ（Ｂ）Ａ）Ｂ）的值为随机变量和Ｂ之间的独立程度（依赖度）。
摘
要：本分类技术是文本信息处理的核心技术之一，要包括文本的向量模型表示、本特征选择和分类文主文
器训练三大过程。本文提出了一种混合（ＩＡ＋Ｄｈ２特征选择算法，将所获取的特征作为软集合理论ＥＢＨＣｉ）并中的参数集进行文本分类，而建立了一种新的基于软集合理论的文本分类技术。实验表明查准率与查全率从比原有算法都有所提高，明新的基于软集合理论的文本分类算法是有效的。说关键词：本分类；征选择；ｈ２假设检验；立度；糊软集合文特Ｃｉ独模中图分类号：Ｐ９Ｔ３１文献标识码：Ａ文章编号：０１６０（０１０ — １９０１０：６０２１）１０２ —４
的特征作为软集合理论中的参数集进行文本分类，而建立一种新的文本分类技术。从
１相关理论基础
１１齐性Ｃｉ．ｈ２假设检验
齐性Ｃｉｈ２假设检验的目的是检验随机变量在ｍ次试验中的独立性假设。对于个ｍ项式试验可以用 ×ｍ的联表表示（１。其中：表），示试验次数， ”表 ”表示每次试验中随机变量的个数。
通讯联系人：鼎荣（９７）男，袁１６一，广西全州人，广西师范大学副教授，士。Ｅｍａｌｒｕｎ硕 — ｉ：ｙａ＠ｍａｌｏ．ｘｕｅｕｃｄｉｘｇｎ．ｄ．ｎｂ
１Ｏ３
广西师范大学学报：自然科学版
Ｍａ２０１ｒ１
２１０１年３月
一
种新的基于软集合理论的文本分类方法
袁鼎荣，扬才。陆广泉刘。谢，，星。
（．北京工业大学计算机学院，京１０２；．广西师范大学计算机科学与信息工程学院，１北０１４２广西桂林５１０）４０４