文本分类中的特征降维方法研究
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
t r i n in me o u e d me so t d.r s l n iae b t refc n C i e e tx ae o z t n h e ut i d c t et f ti h n s e tc tg r ai . s e e i o Ke r s:tx a e o z t n e t r i n in r d cin;c n e tain;d s eso y wo d e tc t g r ai ;f au e d me s e u t i o o o o c nrt o ip r in;a s s me t u cin se s n n t f o
c n e ta o mo g ca s s ip ri n w  ̄i etx l s sa d w r e u n y c n e t t n a n l s s o c nr t n a n ls e .d s eso i n t e tca e n o d f q e c o c n r i mo g ca e .W h】 et g i h s r ao s i g tn e i
பைடு நூலகம்
关键词 :文本 分类 ; 特征 降维 ; 中度 ; 集 分散 度 ; 评估 函数
中图分 类号 :T 3 1 6 P0. 文献标 志码 :A 文章编号 :10 - 6 5 2 1 ) 7 2 4 - 3 0 13 9 (0 2 0 - 5 10
di1 .9 9 ji n 10 -6 5 2 1 .7 0 7 o :0 3 6 /.s .0 1 3 9 .0 2 0 . 3 s
Re e r h o e tr i n in r d cin i e tca sfc t0 s a c n fau e d me so e u to n tx ls i ain i
Z HANG Yu fn ・ g,W A B n h u,XI NG h n — a g a N i — o O Z o gy n
whc a h i ee c f h x mu a d te s c n a g s v u .T et s c mp r d t i meh d wi eta i o a e . ih w st e d f r n eo e ma i m n e o d lr e t a  ̄ h e t o a e h s t o t t d t n l a f t h l h h r i f
c r c f e t r i n in rd ci n s lc h r s t a a it g i ae o e fe t ey, n l maey i rv h u a y o au e d me so e u t , e e tt e wo d h t c n d si u s c tg r s e c i l a d ut t l mp o e t e f o n h i v i
ef c f e t ls i c t n ti a e rp s d an w p ra h f rfau es lcin b o r h n ie y tk n c o n ftx f to x a s ai ,h sp p rp o o e e a p o c o t r ee t y c mp e e sv l a i g a c u to t e t c i f o e o e
( ol eo o p t c ne hn qn nvrt,C og i 0 0 4, hn ) C lg e fC m ue Si c,C og i U i sy hn qn 40 4 C ia r e g ei g
Ab t a t F au e dme s n rd c in i a o tn ato ep o e u eo x ae o z t n,i r e r v h c sr c : e t r i n i e u t n i o o S mp r tp r ft r c d r f e t tg r ai a h t c i o n o d rt i o et e a — o mp
第2 9卷 第 7期
21 0 2年 7月
计 算 机 应 用 研 究
Ap l a in Re e r h o o u e s p i t s a c f C mp tr c o
V0 . 9 No 7 12 .
J 12 1 u. 0 2
文本 分 类 中的特 征 降维 方 法研 究
张玉芳 , 万斌候 , 熊忠 阳
( 重庆 大学 计算机 学院 , 重庆 4 04 ) 004 摘 要 :特征 降维是 文本 分类过 程 中的一个 重要环 节 , 了提 高特征 降维 的 准确 率 , 出 能有 效 区分 文本 类 另 为 选 1
的特 征 词 , 高文本 分 类的效 果 , 出 了结合 文本类 间集 中度 、 提 提 文本类 内分散 度和 词频 类间集 中度 的特 征 降维 方
法。 当获取特征 词在 文本 集上的 整体评 价 时 , 出了一种 新 的全 局评 估 函数 , 最 大值 与 次大值 之 差 作 为最 终 提 用 的评价 函数值 。 实验 比较 了该方 法与传 统 的特 征 降维方 法 , 结果表 明该 方法在 中文文本 分 类 中具 有较 好 的 降维
效果 。
o e al s sme t fte wo d i e t e .t r p s d n w u c in o v r l a s sme t y u ig t e f a s e s n au v r l a e s n r n tx t i p o o e e f n t fo e al s e s n sn h i l a s sme tv e. s o h s o b n l
c n e ta o mo g ca s s ip ri n w  ̄i etx l s sa d w r e u n y c n e t t n a n l s s o c nr t n a n ls e .d s eso i n t e tca e n o d f q e c o c n r i mo g ca e .W h】 et g i h s r ao s i g tn e i
பைடு நூலகம்
关键词 :文本 分类 ; 特征 降维 ; 中度 ; 集 分散 度 ; 评估 函数
中图分 类号 :T 3 1 6 P0. 文献标 志码 :A 文章编号 :10 - 6 5 2 1 ) 7 2 4 - 3 0 13 9 (0 2 0 - 5 10
di1 .9 9 ji n 10 -6 5 2 1 .7 0 7 o :0 3 6 /.s .0 1 3 9 .0 2 0 . 3 s
Re e r h o e tr i n in r d cin i e tca sfc t0 s a c n fau e d me so e u to n tx ls i ain i
Z HANG Yu fn ・ g,W A B n h u,XI NG h n — a g a N i — o O Z o gy n
whc a h i ee c f h x mu a d te s c n a g s v u .T et s c mp r d t i meh d wi eta i o a e . ih w st e d f r n eo e ma i m n e o d lr e t a  ̄ h e t o a e h s t o t t d t n l a f t h l h h r i f
c r c f e t r i n in rd ci n s lc h r s t a a it g i ae o e fe t ey, n l maey i rv h u a y o au e d me so e u t , e e tt e wo d h t c n d si u s c tg r s e c i l a d ut t l mp o e t e f o n h i v i
ef c f e t ls i c t n ti a e rp s d an w p ra h f rfau es lcin b o r h n ie y tk n c o n ftx f to x a s ai ,h sp p rp o o e e a p o c o t r ee t y c mp e e sv l a i g a c u to t e t c i f o e o e
( ol eo o p t c ne hn qn nvrt,C og i 0 0 4, hn ) C lg e fC m ue Si c,C og i U i sy hn qn 40 4 C ia r e g ei g
Ab t a t F au e dme s n rd c in i a o tn ato ep o e u eo x ae o z t n,i r e r v h c sr c : e t r i n i e u t n i o o S mp r tp r ft r c d r f e t tg r ai a h t c i o n o d rt i o et e a — o mp
第2 9卷 第 7期
21 0 2年 7月
计 算 机 应 用 研 究
Ap l a in Re e r h o o u e s p i t s a c f C mp tr c o
V0 . 9 No 7 12 .
J 12 1 u. 0 2
文本 分 类 中的特 征 降维 方 法研 究
张玉芳 , 万斌候 , 熊忠 阳
( 重庆 大学 计算机 学院 , 重庆 4 04 ) 004 摘 要 :特征 降维是 文本 分类过 程 中的一个 重要环 节 , 了提 高特征 降维 的 准确 率 , 出 能有 效 区分 文本 类 另 为 选 1
的特 征 词 , 高文本 分 类的效 果 , 出 了结合 文本类 间集 中度 、 提 提 文本类 内分散 度和 词频 类间集 中度 的特 征 降维 方
法。 当获取特征 词在 文本 集上的 整体评 价 时 , 出了一种 新 的全 局评 估 函数 , 最 大值 与 次大值 之 差 作 为最 终 提 用 的评价 函数值 。 实验 比较 了该方 法与传 统 的特 征 降维方 法 , 结果表 明该 方法在 中文文本 分 类 中具 有较 好 的 降维
效果 。
o e al s sme t fte wo d i e t e .t r p s d n w u c in o v r l a s sme t y u ig t e f a s e s n au v r l a e s n r n tx t i p o o e e f n t fo e al s e s n sn h i l a s sme tv e. s o h s o b n l