一种新的基于软集合理论的文本分类方法

合集下载

基于领域知识的文本分类

基于领域知识的文本分类

基于领域知识的文本分类
朱靖波;陈文亮
【期刊名称】《东北大学学报(自然科学版)》
【年(卷),期】2005(026)008
【摘要】提出了一种基于知识的文本分类方法,其中引入领域知识,利用领域特征作为文本特征,增强文本表示能力,将文本分类过程看作集聚计算过程.文本索引过程采用了改进型特征选取和权重计算方法.提出了一种基于互信息的学习算法,从训练语料中自动学习领域特征集聚计算公式.实验结果显示基于领域知识的文本分类技术总体性能优于传统的贝叶斯分类模型,领域知识的应用能够有效改善对相似主题和相反主题的分类性能.
【总页数】3页(P733-735)
【作者】朱靖波;陈文亮
【作者单位】东北大学,信息科学与工程学院,辽宁,沈阳,110004;东北大学,信息科学与工程学院,辽宁,沈阳,110004
【正文语种】中文
【中图分类】TP391
【相关文献】
1.基于文本分类领域中文本分类和主题分析 [J], 郭艳芳;郑金芳;赵连荣
2.领域知识在文本分类中的应用 [J], 吴国祥
3.IT职业培训机构学员领域知识不足的原因探析——基于北大青鸟和安卓越的案
例分析 [J], 董志霞
4.基于CiteSpace的中国客家文化领域知识图谱研究 [J], 曹小琴;陈嘉鸿;许芳婷
5.基于领域知识图谱的短文本实体链接 [J], 黄金杰;赵轩伟;张昕尧;马敬评;史宇奇因版权原因,仅展示原文概要,查看原文内容请购买。

知识增益_文本分类中一种新的特征选择方法_徐燕

知识增益_文本分类中一种新的特征选择方法_徐燕

第22卷 第1期2008年1月中文信息学报JOU RNAL OF CH INESE INFORM AT ION PROCESSIN GV ol.22,No.1Jan.,2008文章编号:1003-0077(2008)01-0044-07知识增益:文本分类中一种新的特征选择方法徐燕,王斌,李锦涛,孙春明(中国科学院计算技术研究所,北京100080)摘 要:特征选择在文本分类中起重要的作用。

文档频率(DF )、信息增益(IG )和互信息(M I )等特征选择方法在文本分类中广泛应用。

已有的实验结果表明,IG 是最有效的特征选择算法之一,该方法基于申农提出的信息论。

本文基于粗糙集理论,提出了一种新的特征选择方法(K G 算法),该方法依据粗糙集理论关于知识的观点,即知识是分类事物的能力,将知识进行量化,提出知识增益的概念,得到基于知识增益的特征选择方法。

在两个通用的语料集OH SU M ED 和New sGro up 上进行分类实验发现:K G 算法均超过IG 的性能,特别是在特征空间的维数降到低维时尤其明显,可见K G 算法有较好的性能;关键词:计算机应用;中文信息处理;文本分类;特征选择;粗糙集;信息检索中图分类号:T P391 文献标识码:AKnowledge Gain:An New Feature Selection Method in Text CategorizationXU Y an,WAN G Bin,LI Jin -t ao,SU N Chun -ming(Institute of Computing T echnolog y,Chinese Academ y of Sciences,Beijing 100080,China)Abstract:Feature selection(F S)plays an impor tant r ole in text categ or izat ion (T C).A utomatic featur e selection met ho ds such as do cument frequency thresholding (DF ),informat ion ga in (IG),mutual info rmation (M I),and so on ar e co mmonly applied in text categ o rizatio n [J].Exist ing ex per iments sho w I G is o ne o f the most effectiv e met ho ds.I n this paper ,a feature selectio n method is pr oposed based on Roug h Set theory.A ccording to Rough set theo ry ,know ledg e about a univer se of objects may be defined as classificat ions based on cer tain pr operties of the objects,i.e.r ough set theo ry assume that kno wledg e is an ability to part itio n objects.We quantify the ability o f classify objects,and call the amount of this ability as kno wledg e quantity and then fo llow ing this quantificat ion,w e put for wa rd a no tio n /kno wledg e Ga in 0and put forw ar d a kno wledg e g ain -based feature select ion method (KG met ho d).Ex per iments o n New sG ro up collectio n and O HSU M ED co llection sho w that K G perfor ms better than the IG method,specially,on extr emely ag g ressive r eduction.Key words:computer applicatio n;Chinese info rmation pr ocessing ;feature selectio n;t ex t catego rization;ro ug h set;informat ion retr ieval收稿日期:2007-05-29 定稿日期:2007-12-02基金项目:国家973资助项目(2004CB318109);国家自然科学基金资金项目(60473002,60603094);北京市自然科学基金资助项目(4051004)作者简介:徐燕(1968)),女,博士,主要研究方向包括数据挖掘和信息检索;王斌(1972)),男,博士,副研究员,主要研究方向为信息检索和自然语言处理;李锦涛(1962)),男,博士,研究员,博导,主要研究方向为跨媒体检索和数字化技术。

知识增益:文本分类中一种新的特征选择方法

知识增益:文本分类中一种新的特征选择方法

知识增益:文本分类中一种新的特征选择方法
徐燕;王斌;李锦涛;孙春明
【期刊名称】《中文信息学报》
【年(卷),期】2008(22)1
【摘要】特征选择在文本分类中起重要的作用.文档频率(DF)、信息增益(IG)和互信息(MI)等特征选择方法在文本分类中广泛应用.已有的实验结果表明,IG是最有效的特征选择算法之一,该方法基于申农提出的信息论.本文基于粗糙集理论,提出了一种新的特征选择方法(KG算法),该方法依据粗糙集理论关于知识的观点,即知识是分类事物的能力,将知识进行量化,提出知识增益的概念,得到基于知识增益的特征选择方法.在两个通用的语料集OHSUMED和NewsGroup上进行分类实验发现:KG算法均超过IG的性能,特别是在特征空间的维数降到低维时尤其明显,可见KG算法有较好的性能;
【总页数】7页(P44-50)
【作者】徐燕;王斌;李锦涛;孙春明
【作者单位】中国科学院,计算技术研究所,北京,100080;中国科学院,计算技术研究所,北京,100080;中国科学院,计算技术研究所,北京,100080;中国科学院,计算技术研究所,北京,100080
【正文语种】中文
【中图分类】TP391
【相关文献】
1.文本分类中一种特征选择方法的改进 [J], 胡改蝶;马建芬
2.文本分类中一种新的特征选择方法 [J], 王秀娟;郭军;郑康锋
3.文本分类中一种基于互信息改进的特征选择方法 [J], 田野;郑伟
4.文本分类中一种特征选择方法研究 [J], 赵婧;邵雄凯;刘建舟;王春枝
5.文本分类中一种改进的特征选择方法 [J], 刘海峰;王元元;张学仁
因版权原因,仅展示原文概要,查看原文内容请购买。

一种新型文本分类方法的研究

一种新型文本分类方法的研究

手工 定义 一些规则来对文本进行分类 ,这种方法费时费力 , 且必须对某一领域有足够的 了解 ,才能写 出合适的规则 。
到上世纪九十年代 , 随着 网上在线文本 的大量涌现和机 器学 习的兴起 ,大规模的文本 ( 括网页)分类和检索重新 包
体 遗 传 进 化 机 制 的 搜 索 算 法 ,它 是 由美 国 密西 根 大 学
H ln ol d教授 于 17 a 9 5年提 出来 。 它与一般 的搜索算 法不 同,它模拟 自然界生物进 化过
程,采用人工进化 的方式对 目标空 间进行随机搜索 。 它将 问 题域 中的可能解看作是群体的一个个体或染色体, 并将每一 个体 编码 成符号串形式 , 模拟孟德尔的遗传学说和达尔文 自
微型 电脑 应 甩
20 第 2 第 8 08年 4卷 期
种 新 型 文本 分 类 方 法 的研 究
吴降龙 周一 民

要 :主要介绍 了一种新 型文本分类方法。 文本分类 中应 用遗传算法优化各种参数 , 在 显著提 高 了文本分 类的查全率 , 差
准率 ,并节省 了大的搜 索时间。 关键 词:文本分类;遗传算 法;参数优化 ;机 器学习 中图分类号 :T 1 P8 文献标识码 :A
的鲁棒性 ,所以被广 泛地 应用 于很多学科。其中就包括机器 学 习领域 ,特别是文本分类器系统 。
文本分类 中应用遗传算法,对各种参数进行优化 , 使得分类
的效 果 达 到 最 佳 。
而如何评价评价分类器好坏 主要有 以下的指标 : 查全率 (ea ) rcl :正确判别为正例的测试样本个数 占正 1 例样本个数的 比例 ,即: 查 全 率 = 分 类 的 正确 文 本 数 /应 有 文 本 数 。 差准率 (rc i :正确 判别为正例 的测试样本 个数 peio s n)

基于PU学习算法的文本分类研究与实现

基于PU学习算法的文本分类研究与实现

基于PU学习算法的文本分类研究与实现
郭亚玲;徐振明;王亚强
【期刊名称】《信息通信》
【年(卷),期】2016(000)003
【摘要】PU学习文本分类指的是从只包含一类的正例文档(P)和包含很多类别的未标记文档(U)建立文本分类器最终进行文本分类的问题,U包含正例和反例文档.两步策略是解决PU学习问题的一种最常用的方法.实际问题中,当正例P数量太少的时候,这种方法分类的效果并不好.为了解决P代表性不足的问题,文章提出了一种改进方法旨在解决PU学习问题中正例P数量较少的情况,在两步方法中的第二步不断扩大P的数量来提高分类器的效果,实验结果表明与以往方法结果对比,改进的方法F值有将近30%的提高.
【总页数】2页(P27-28)
【作者】郭亚玲;徐振明;王亚强
【作者单位】成都信息工程大学计算机学院,四川成都610225;成都信息工程大学计算机学院,四川成都610225;成都信息工程大学计算机学院,四川成都610225【正文语种】中文
【中图分类】TP311.1
【相关文献】
1.基于SVM主动学习技术的 PU 文本分类 [J], 富震
2.基于特征词匹配的政策文本分类算法研究与实现 [J], 王丽鹏;张鹏云;和志强
3.基于脉冲神经网络与移动GPU计算的图像分类算法研究与实现 [J], 徐频捷; 王诲喆; 李策; 唐丹; 赵地
4.基于多元线性回归算法的精准ARPU客户价值提升的研究与实现 [J], 袁鸢;付文豪;李成奇
5.GCN-PU:基于图卷积网络的PU文本分类算法 [J], 姚佳奇;徐正国;燕继坤;王科人
因版权原因,仅展示原文概要,查看原文内容请购买。

基于模糊软集合理论的文本分类方法

基于模糊软集合理论的文本分类方法
(. co l f te t sS uh sJ oo g iesy C eg u6 0 3 ; . co l f o ue cec , y U iesy J n me 2 0 0 1 Sh o Ma mai , o tweti tn Unv ri , hn d 10 12 S h o C mp tr i eWu i nv ri ,i g n5 9 2 ) o h c a t o S n t a [ s at Atx as ct napo c ae nsfsth0yipo oe n ac eacrc fh x l sf ain T et t ann t Abt e] t lsi ao prahb sdo t e ter rp sdt eh n eh c uayo tee t a ict , h x iigs r e c f i i o s o t t csi o e I r e
定义 1设 是给定的论 域, 是一个参数集 , 一个集合
对 (,) F E 被称为域 【上的一个软集合( f st , s t e) o 当且仅 当 F是 E到所有的 u子集 中某集合的映射 , F: P U , 中, 如 E () 其
i ma p d o t u z o tst h ae oy oft en w e tc n b c iv d tr u h te rd cin o o e a l nd c n tu to fte s p e no a fz y s f e,te c tg r h e tx a e a h e e h o g h e u to fs f s ttbe a o srcin o t h
[ y r s e t l sf ain sfstfzysfstfa r e cin muu lnomain Ke d ]tx a ict ;o ;uz o e;et e l t ; ta ifr t wo csi o te t u se o o

一种基于聚类的PU主动文本分类方法_刘露

一种基于聚类的PU主动文本分类方法_刘露
软件学报 ISSN 1000-9825, CODEN RUXUEW Journal of Software,2013,24(11):25712583 [doi: 10.3724/SP.J.1001.2013.04467] ©中国科学院软件研究所版权所有 .
E-mail: jos@ Tel/Fax: +86-10-62562563
Clustering-Based PU Active Text Classification Method
LIU Lu1,2,
1 2 3
PENG Tao1,2,3,
ZUO Wan-Li1,3,
DAI YaΒιβλιοθήκη -Kang1(College of Computer Science and Technology, Jilin University, Changchun 130012, China) (Department of Computer Science, University of Illinois at Urbana-Champaign, Urbana, USA) (Key Laboratory of Symbol Computation and Knowledge Engineering (Jilin University), Ministry of Education, Changchun 130012, China)
通讯作者 : 彭涛 , E-mail: tpeng@, taopeng@

要:
文本分类是信息检索的关键问题之一.提取更多的可信反例和构造准确高效的分类器是 PU(positive and
unlabeled)文本分类的两个重要问题.然而,在现有的可信反例提取方法中,很多方法提取的可信反例数量较少,构建 的分类器质量有待提高.分别针对这两个重要步骤提供了一种基于聚类的半监督主动分类方法.与传统的反例提取 方法不同,利用聚类技术和正例文档应与反例文档共享尽可能少的特征项这一特点,从未标识数据集中尽可能多地 移除正例 , 从而可以获得更多的可信反例 . 结合 SVM 主动学习和改进的 Rocchio 构建分类器 , 并采用改进的 TFIDF(term frequency inverse document frequency)进行特征提取,可以显著提高分类的准确度.分别在 3 个不同的数 据集中测试了分类结果(RCV1,Reuters-21578,20 Newsgoups).实验结果表明,基于聚类寻找可信反例可以在保持较 低错误率的情况下获取更多的可信反例,而且主动学习方法的引入也显著提升了分类精度. 关键词: PU(positive and unlabeled)文本分类 ; 聚类 ;TFIPNDF(term frequency inverse positive-negative document frequency);主动学习;可信反例;改进的 Rocchio 中图法分类号: TP391 文献标识码: A

TCBLSA:一种中文文本聚类新方法

TCBLSA:一种中文文本聚类新方法

TCBLSA:一种中文文本聚类新方法
王国勇;徐建锁
【期刊名称】《计算机工程》
【年(卷),期】2004(030)005
【摘要】根据隐含语义分析(LSA)理论,提出了一种文本聚类的新方法.该方法应用LSA理论来构建文本集的向量空间模型,在词条的权重中引入了语义关系,消减了原词条矩阵中包含的"噪声"因素,从而更加突出了词和文本之间的语义关系.通过奇异值分解(SVD),有效地降低了向量空间的维数,从而提高了文本聚类的精度和速度.【总页数】3页(P21-22,37)
【作者】王国勇;徐建锁
【作者单位】天津大学系统工程研究所,天津,300072;天津大学系统工程研究所,天津,300072
【正文语种】中文
【中图分类】TP301.6
【相关文献】
1.一种基于自组织神经网络的中文文本聚类新方法 [J], 徐建锁;王正欧;王莉
2.一种基于小生境遗传算法的中文文本聚类新方法 [J], 赵亚琴;周献中
3.一种高效中文文本聚类算法 [J], 马甲林;刘金岭;于长辉
4.一种应用于中文文本聚类的适应值函数 [J], 朱征宇;李力沛;罗颖;周智;朱庆生
5.一种新的Web中文文本聚类方法研究 [J], 叶宇飞;安世全;代劲
因版权原因,仅展示原文概要,查看原文内容请购买。

一种基于粗糙集的文本分类规则抽取方法_孟庆春

一种基于粗糙集的文本分类规则抽取方法_孟庆春

一种基于粗糙集的文本分类规则抽取方法X 孟庆春1,2 王汉萍1 魏天滨1 葛 艳1 高 云1(1中国海洋大学计算机系,青岛266071;2清华大学智能技术与系统国家重点实验室,北京100004)摘 要: 随着文本数据库的日益增大,寻找新的文本数据处理方法变得十分紧迫。

本文将粗糙集理论应用于文本自动分类的规则提取,提出了基于粗糙集理论的文本分类方法。

把文本特征项的权值进行离散化处理后,作为规则的条件属性,文本所属的类别用作决策属性,构造决策表,然后通过决策表的知识约简算法提取出文本的分类规则。

实验结果表明,该方法提取规则的分类正确率较高,分类速度较快。

关键词: 文本分类;粗糙集;决策表;属性约简;规则提取中图法分类号: T P 391.6 文章编号: 1001-1862(2003)06-943-070 引言万维网的飞速发展使得网上的文本信息量急剧增长,整个Internet 网可以看作1个庞大的、异构的、互连的动态文本数据库。

但是w eb 上的信息只有很小的一部分是相关的,一般来说99%的w eb 信息对于99%的用户是无用的。

因此对于文本自动分类技术的研究是1项非常有价值的课题。

利用文本分类技术,将文本分配到1个类别结构体系中,可以限定文本的查找范围,使得用户更容易找到所需要的资料,还可以用来整理内部互联网的文本,节省大量的人力物力。

文本的自动分类技术是1种典型的有教师的机器学习问题,一般分为训练和分类2个阶段。

常用的文本分类方法主要有基于向量比较的文本分类技术和基于规则抽取的文本分类技术。

基于向量比较的文本分类技术[1],如:简单中心向量比较算法、K 近邻算法、支持向量机算法等等。

首先将文本用1个特征矢量(V (d )=(t 1,X 1(d );…;t n ,X n (d )),其中t i 为词条项,X i (d )为t i 在d 中的权值来表示,在训练阶段由人工给出分类的类别集合和训练文档的集合,并且每个训练文档被标上所属的类别标志。

一种基于采样遗传的文本软聚类方法

一种基于采样遗传的文本软聚类方法

球 型F C M
S GF CM
2 l
2 4
l 3
1 6

1 1

1 4
从表 l 可 以看 出三 种 方 法 都 能 发 现 属 于 多 个 类 的 文 本 ,而S G F C M L L F C M和 球 型F C M更 有效 。 由于球 型F C M只 是 对 F C M算 法 中 的 向量 和 类 中心 进 行 了 正 规 化 处 理 , 它们 的 耗 时 是 基 本 一 致 的 , 这 里 只 对 S G F C M和 F C M作 了 比较 。表 2 对 两 种 方法 分 别做 了三次 实 验 ,每 次 的F C M迭代 次数 不 同 ,分别 为5 0 ,1 0 0 和3 0 0 。表 中可 以看 出第 2 次和第3 次 的 精度 是 一样 的 ,虽 然 S G F C M 用 了较 多 的时 间在 初 始 中心 优化 上 ,但是 该 时 间仍 然可 以 接 受 ,而 且 如果 处 理 的数据 量 很 大 时F C M算 法 的每 次迭 代 将 花 很长 时间 ,这 时 通过 减 少迭 代 次 数反 而 可 能会 节省 更
[ 2 ] Y i h — J e n H o r n g , S h y i - M i n g C h e n e t c . A n e w m e t h o d f o r f u z z y i n f o r mt i o n r e t r i e v a 1 b a s e d O 1 2 f u z z y h i e r a r c h i c a 1 C 1 u s t e r i n g a n d f u z z y i n f e r e n c e t e c h n i q u e s [ C ] . F u z z y S y s t e m s , I E E E T r a n s a c t i o n s , 2 0 0 5 ( 0 2 ) : 2 1 6 - 2 2 8 .

一种文本分类方法及系统[发明专利]

一种文本分类方法及系统[发明专利]

专利名称:一种文本分类方法及系统专利类型:发明专利
发明人:胡加学,孙瑜声,金重九,赵乾申请号:CN201610141931.2
申请日:20160311
公开号:CN107180023A
公开日:
20170919
专利内容由知识产权出版社提供
摘要:本发明公开了一种文本分类方法及系统,该方法包括:预先构建基于分类特征进行文本分类的文本分类模型,所述分类特征包括以下任意一种或多种:字特征、词特征,还包括以下任意一种或多种:词性特征、依存句法特征;获取待分类文本数据;提取待分类文本数据的分类特征;将所述分类特征输入所述文本分类模型,得到待分类文本数据的文本类别。

由于本发明提供的方法可以用字特征、词特征、词性特征、依存句法特征等特征从多角度表达文本数据的语义信息,能更完整的表达文本数据的信息,使得利用所述分类特征进行文本类型预测时,获取的预测结果的准确度更高。

申请人:科大讯飞股份有限公司
地址:230088 安徽省合肥市高新开发区望江西路666号
国籍:CN
代理机构:北京维澳专利代理有限公司
更多信息请下载全文后查看。

基于软集理论的新产品开发创意方案选择方法

基于软集理论的新产品开发创意方案选择方法

Approach of Idea Scheme Selection on New Product Development Based on Soft Set Theory 作者: 尤天慧[1];曹兵兵[1]
作者机构: [1]东北大学工商管理学院,沈阳110819
出版物刊名: 技术经济
页码: 35-39页
年卷期: 2012年 第9期
主题词: 新产品开发;创意方案;软集理论;软矩阵;方案选择
摘要:针对新产品开发创意方案选择问题,在考虑不同部门的评审专家关注不同的评价指标集的情形下,给出了一种基于软集理论的新产品开发创意方案选择方法。

即:首先介绍了软集、软矩阵、两个软矩阵的^积运算及极大一极小决策函数等的相关定义;然后通过对两个软
矩阵的极大一极小决策函数进行有效扩展,给出了集结基于不同的评价指标集的评价信息的创
意方案初选准则,并定义通过初选的各方案的优先序来选择最终方案。

最后,运用算例说明了
该方法的可行性和有效性。

一种基于迭代学习的文本分类器构造方法

一种基于迭代学习的文本分类器构造方法

一种基于迭代学习的文本分类器构造方法
檀林;张永奎
【期刊名称】《电脑开发与应用》
【年(卷),期】2004(017)002
【摘要】文本自动分类系统是信息处理的重要研究方向.针对文本分错类和相似度低找不到合适类别等两种错误,提出一种迭代的学习算法,它利用分错的文本向量来提高或降低相应类别向量的权重,从而纠正分类错误,提高了分类准确率,并且最终得到了较精确的类别描述向量和较优的分类器.
【总页数】2页(P5-6)
【作者】檀林;张永奎
【作者单位】山西大学,太原,030006;山西大学,太原,030006
【正文语种】中文
【中图分类】TP3
【相关文献】
1.一种基于改进贝叶斯分类器的基本信任分配构造方法 [J], 苑津莎;何亚军;秦英
2.一种基于完全性的不可能差分区分器构造方法 [J], 李俊志;关杰
3.一种基于粗糙集理论的组合分类器构造方法 [J], 刘新华;旷海兰;眭仁武
4.一种基于线性SVM的级联分类器的构造方法 [J], 安平;吴涛;贺汉根
5.一种基于粗糙集理论的组合分类器构造方法 [J], 旷海兰;罗可;刘新华;徐雨明;王樱
因版权原因,仅展示原文概要,查看原文内容请购买。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第2 9卷
第 1 期
广西 师范 大学 学报 : 自然科 学 版
Ju n l f a g i r l ies y Naua S i c dt n o ra o n x Noma Unv ri : trl c n eE io Gu t e i
V o .2 N o.1 1 9
表 l J 个 n项 式 实 验 的 m ×n列 联 表 , 1
Ta b.1 J × n ab e , l t l
1Oi 示 第 J个 试验 的 第 i 观 察 值 ; i 示 第 个 随 机 变 量 在 所 有 m 次 试 验 中 的 观察 值 之 和 ; 表 示 第 J 试 验 中 所 有 一个 观 察 值 之 .) 表 个 O表 D 次 和 ; . 示所有试验中的所有观察值之和 。 o 表
软 集合 理 论是 1 9 9 9年提 出的 处理 模糊 对 象 的数 学工 具 , 年 来许 多 学 者对 其 理 论 和应 用 进行 研 究 。 近
如 文献 [ ] 出一种 基 于软 集合 文本 分类 方 法 。 7提 本文 在 文本 特征 选 择 阶段 采 用一 种新 的基于 独 立度 和齐性 C i 假 设 检验 的特 征选 择 方法 , 所 获取 h2 将
零假设 H。 : 为 随机 变 量 t与试 验 无关 , 0 =D 。 . =Oi。它 的检验 统计 量 表示 为 : 有 = . = _ ・
收 稿 日期 :0 01 —0 2 1—22
基金项 目: 国家 自然科学基金重 大研究计划培育项 目( 0 1 00 ; 9 7 8 2 )澳大利亚 A RC项 目( 0 6 0 0 DP 6 7 6 )
第2 8卷


当 日。 真时 , 为 第 个 多项式 实验 的第 个 观察值 的期 望可 表示 为 :
E = = = , () 2
因此 式 ( ) 似服 从 自由度 为 ( 1近 一1 ( 一1 的 C i ) ) h2分布 。式 ( ) 1 的值 越 大 , 相关 性 越高 。
文本 分类 技术 是文 本 信 息处 理的 核心 技 术之一 , 主要 包含 文本 的 向量 模 型 、 征选 择和 分 类器训 练 等 特 3个 过程 , 任务 是 指依 据文 本 的 内容 , 文 本判 分 预先 定 义好 的类 别 。 其 将 虽然 , 已经建 立 了许 多可用 的文
本 分类 系 统 , 并取得 了一定 的成 果 , 仍需 继续 完善 。 比如 : 本特 征 的选 择和 抽取 技 术不 完善 , 但 文 导致 文 本
分 类结 果 不理 想 。
特 征选 择 是 从确 定 的特 征 空 间 中选取 能 够 充分 代表 文 档 内容 的 特征 子 集 的过 程 , 文 本 分类 中的关 是 键, 目前 已经 存 在许 多 相关 工作 , : 献 [ ] 于独 立性 理论 、 如 文 1基 文献 [ — ] 24 基于 贝叶斯 粗 糙集 方 法 、 文献 [ ] 5 基 于粗糙 集 和 灰色关 联 度 的综 合 、 文献 [ ] 合优 化 的 文档频 和 P 方 法进 行 文档 特 征选 择 。 6结 A
1 2 随 机事 件 的独立 度 .
我 们定 义随 机事 件独立 度如 下 : 样本 空 间中的 2个 事件 A 和 B, 们称 I , 一P( P( I 设 我 P( B) A) B) 的 值 为 随机变 量 和 B之 间的独 立程度 ( 依赖度 ) 。

要 : 本 分 类 技 术 是 文 本 信 息 处 理 的核 心 技 术 之 一 , 要 包 括 文 本 的 向量 模 型 表 示 、 本 特 征 选 择 和 分 类 文 主 文
器 训 练 三 大过 程 。本 文 提 出 了 一 种 混 合 ( I A+D h2 特 征 选 择 算 法 , 将 所 获 取 的 特 征 作 为 软 集 合 理 论 EB HC i) 并 中的 参 数 集进 行 文 本 分 类 , 而 建 立 了一 种 新 的 基 于 软 集 合 理 论 的 文 本 分 类 技 术 。实 验 表 明 查 准 率 与 查 全 率 从 比原 有 算 法 都 有 所 提 高 , 明 新 的 基 于 软 集 合理 论 的 文 本 分 类 算 法 是 有 效 的 。 说 关 键 词 : 本 分 类 ; 征 选 择 ; h2假 设 检 验 ; 立 度 ; 糊 软 集 合 文 特 Ci 独 模 中 图 分 类 号 : P 9 T 31 文献标识码 : A 文 章 编 号 :0 16 0 (0 10 — 1 90 1 0 :6 0 2 1 ) 10 2 —4
的特 征作 为 软集 合理 论 中的参 数 集进 行文 本 分类 , 而建 立一 种 新 的文本 分类 技 术 。 从
1 相 关 理 论 基 础
1 1 齐性 C i . h2假设 检 验
齐性 C i h2假设 检验 的 目的 是检 验 随机变 量 在 m 次试 验 中的 独立性 假 设 。对 于 个 m 项式 试验 可 以 用 ×m 的联表 表示 ( 1 。其 中 : 表 ) , 示试 验次 数 , ”表 ”表示 每次 试 验 中随机 变 量 的个数 。
通 讯 联 系 人 : 鼎 荣 (9 7 ) 男 , 袁 16 一 , 广西 全 州 人 , 广西 师 范 大 学 副 教 授 , 士 。E mal ru n 硕 — i: y a @malo . x u eu c d i x g n . d .n b
1O 3
广西师范大学学报 : 自然 科学 版
M a 201 r 1
21 0 1年 3月

种 新 的 基 于 软 集 合 理 论 的文 本 分 类 方 法
袁 鼎 荣 , 扬才 。陆 广 泉 刘 。谢 , , 星。
(.北 京工 业大 学 计 算 机 学 院 , 京 1 0 2 ;.广西 师 范 大 学 计 算 机 科 学 与 信 息工 程 学 院 , 1 北 0142 广西 桂 林 5 1 0 ) 4 0 4
相关文档
最新文档