基于关联分析的文本分类特征选择算法
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
词组,而这些特征词组 中的每个单词在传统单独打分策略的特征选择算法 中很可能会 因分值过低而被丢弃。在 R t s1 7 、2 N w gop u r 5 8 0 e sr e2 u 文本数据集上进行实验 ,将算法与广泛应用 的特征选择算法( 信息增益、C I 进行对比、分析。实验结果表 明该方法是一种有特点 , H 等) 有
[ src]T ip p r rp ss to , hc o s esh lt nhpbt ent od auesl t n T erlt nhpb t e Abta t hs ae o oe me d w ihcni r er a osi ew e w rs nf tr ee i . h ai si ewent p a h d t e i wo i e co e o wo
DL ) X (l i KJI =∑尸 )g )’ (I PQ o2x L )  ̄
2 An u rvn e y a o a r r o uiga dCo . h i o ic b rt yf mp t n mmu ia o o t r , f i 3 0 7 C ia P Ke L o oC n nc t nS f i wae Hee 2 0 2 , hn )
wo d i h h v i n f a ti a to l s i c to smi e , n wo wo d s t r o n u . o ewo d n t e e s t ma ed s a d d d et r swh c a e s g i c n mp c n c a sf a i n i n d a d t - r — e sa e f u d o t S m r si s e s i i h y b i c r e u o
1 概述
在进行 自动文本分类时 ,由于 维数过高带来的维灾难 ,
给传统的分类器造成 了困难,不仅会降低分类的准确度 ,而 且还大大增加 了空 间、时间复杂度 。因此 ,特征 空间的降维 操作成为 了提高文本分类准确率和效率的关键 。好 的降维不 仅 可 以提 高 机 器 学 习任 务 的效 率 ,而 且 还 能 改善 分 类 性 能 和 节省大量的存储空间。在进行维数约简时,实 际是将高维空
第 3 卷 第 2 期 6 2
V1 o. 36
・
计
算
机
工
程
21 00年 1 月 1
No e b r2 1 v m e 0 0
N o22 .
Comput rEng ne r n e i eig
人工 智 能及识 别技 术 ・
文章编号: 0 32( 1) _08 _ 文献标识码: 1o_ 48 oo 2_ 4 o 2 2_l — 3 A
l w c r s a h e e h o g t e c n e to a e t r ee to o s o e c i v d t r u h h o v n i n l f a u e s l ci n me o s h t d .Th l o i m s c mp e t t e o v n i n lf au e s l ci n e a g rt h i o  ̄ d wi o h r c n e t a e t r e e to h o
a p o c e :n o ma o an I ) C , t. x ei na rs l nR tr2 5 8d ts t n 0 ws ru a st rv a epo o e to p r a h s If r t nG i(G , HI ec E p r i me tl eut o u es 1 7 aae d2 Ne g o pd t e po et t rp s dme d s a a h t h h
中田分类 P9 号z 31 T
基 于 关联 分析 的 文本 分 类特征 选择 算 法
张 彪 ,刘贵全
(.中国科 学技术大学计算机科学与技术学院 ,合肥 2 0 2 ;2 1 3 0 7 .安徽省计算与通 讯软ห้องสมุดไป่ตู้ 重点实验 室,合肥 2 0 2 ) 3 0 7
摘
要 : 出一种在选取特征 时考虑特征与特征之间联系的算法。对特征 词之间的关联 关系进行挖掘 ,找出那些对类另 有重要影响的特征 提
i f e t et t e s se f c i v oo r. h
[ ywod ]faueslcin coset p ;e t lsict n asca o nn Ke r s etr e t ;rs—nr y tx as ai ; so iin e o o c i f o t miig
Z HANG a . U i u n , Bi o , LI Gu . a 一 q
( . c o f mpu e c e c n e h o o y Un v r i fS i n e a d T c n l g fCh na He e 3 02 Ch n ; 1 S h ol Co o trS i n e a d T c n l g , i e st o c e c n e h o o y o y i , f i2 0 7, i a
效 的特 征 选 择 方 法 。
关健词 :特征选择 ;交叉熵 ;文本分类 ;关联挖掘
Fe t r ee to e h d Ba e nAs o i to a y i 0 a u eS l c i n M t o s d 0 s ca i n An l ssf r
Te tCl s i c to x a sf a i n i