基于LSI和SVM的文本分类研究
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
L I o ie n a et eg b r( S mbn dK— e rs n ih o KNN) b t rp r r n ei a h i e . t h ws a h l t en mb r f ae o e l a dt ec t o e c , et e o ma c c ev d I s o t i u e tg r si s ln ae r s e f s h t w eh o c i s ma , h gi
p p r r p s s a tn ma t d xn L I i u e r e tr xrc o dd me s n i d c o , u p r v co c ie S a e o o e t a t e n i i e ig( S ) s sdf auee t t na i n i a t r u t n s p o t et r p h t le s cn of ai n oi y e i ma hn ( VM) s s d iue
o e tca sf ai frtx lsi c t . er s l s o a o ae t eca sfe s nv co p c d l o ie VM n eca sfe a e n i on T e ut h wst tc mp d wi t lsi rbae o e t rs a e mo e mbn d S h h r hh i d c a d t lsi rb s o h i d
清晰 的情况下可 以达到实 用效 果。 关健诃 :特征提取 ;潜在 语义 索引 ;支持向量机
Re e r h o e t a sfc to s d o Ia d S s a c n T x si a i n Ba e n LS n VM Cl i
LI M e - u U ir ( tf o o o ue, r i i yT c nc l olg , rbn 1 0 8 ) S a Ro m f mp t Hab n C r Ral e h ia C l e Ha i 5 0 6 wa e
) 方法相 比,取得 了更好 的效 果 , 文本类别数较少、类别划分 比较 在
文本分类 中两个最关键 的技术 ,该文提出了利用潜在语义索 引进行特征提取 和降维 ,并结合支持向量机(V 算法进行多类分类 ,实验结 s M)
果显示与向量空 间模型( s 结合 S M 方法 和 L I V M) V S 结合 K近邻(
文 ■ 0 一 4 ( 0 1_ 2 — 3 文 标识 t 章 号t 0 3 8 0 ) 一 1 1 o 2 2 75 o 7 献 码 A
中 分类 tP9 啊 号 T3 1
基 于 L I和 S S VM 的 文 本 分 类研 究
刘美茹
( 哈尔滨铁道职业技术学院计 算机教 研室 ,哈尔滨 108 ) 506 摘 要 :文本分类技术是文本数据挖掘 的基础 和核 心,是基于 自然语言处 理技术 和机 器学 习算法的一个具体应 用。特征选择和分类算法是
r i i e i t c l t t d C b s d f r ci a pl to a ed v d d d s n t , e me o a e u e rp a tc l p i a i n. i yh h n o a c
[ ywo d ]faueet cin ltn e n t d xL I;u p rv c r c ieS Ke r s etr x a t ;a t ma i i e ( S)sp o et hn (VM) r o e s cn t o ma
[ b ta t et lsict ni efu dt nadcu il rbe o x a nn ,ts napia o ae ntetcn lg fntrl A src]T x as a o st o n ai n rca o l ft t t miig ii a p l t nb sdo h oo yo a a c f i i h o p m e d a ci h e u
维普资讯 http://www.cqvip.com
第 3 卷 第 1 期 3 5
V L3 o 3
・
wenku.baidu.com
计
算
机
工
程
2 0 年 8月 07
Au u t2 0 g s 0 7
No l S
Co p t r g n e i g m u e En i e r n
人工智能及识别技术 ・
l g a ep o e sn n c i elann . au ee ta t n a d c tg rz t n ag i h a etemos r ca e h oo isfrti r b e . i n a u g rc sig a d ma h n e r ig Fe tr xrci n ae o a o lor m r o i i t h tc iltc n lg e o spo lm Ths u h
在 因特 网上大多数 的信息表现形 式是文 本形式 ,而其中
的文本数据缺乏结构化、组织 化的规整性 ,大大降低了 网络
文本在预处理后 ,分类器根据 训练过程 中得 到的特征 信息将 新文本表示成 向量 ,然 后进行 分类 ,并输 出结果 。 1 文本顶处理 . 1 文本 内容是 自 然语言表示 的,计算机难 以理 解其语义 。 文本信息源 的这些特殊性使得现 有的数 据挖 掘技 术不能直 接 应用于其上 ,需要先对文 本进行预 处理 和特征表 示。在中文 文本分类 中,预处理主要指 中文 的分词 。将原文 本通 过分词 表示成词的序列 ,将所有 的词作为候选 的特征项 ,也 有些 学 者提出对文本进行按定长切词 ,选用 14个字长 的相邻字段 - 作为特征项 。有实验表明 ,在很多情况下 ,采 用两个字长 的 字段 比单纯采 用词作 为特征项效果 要好 u。本文依然采 用分 J 词技 术对 文本进行预处理 。 1 特征提 取 . 2 目前中文文本分类主要还是选择词作为特征项 ,这就产 生了一个特征 空间维数过高的问题 ,如何解决维数过高和数 据稀疏 问题 ,如何 筛选出最有效的特征项是 目前研究文本分 类最 大的特点和难点之一。经常使用的特征提取 的评价函数 有文本频率(ou etr unyD ) ciqa (H) 信息 dcm nf qec, F、 h sur C I e - e 、 增益( fr t ng i,G 、互信息( taifr t n MI i oma o a I ) n i n muu lnomai , ) o 、 t mseg (S、G S ofc n dsao J ag e r t T ) S e iet d ri 等 。Yn 等 r tn h C i 、o t 在 R u r 17 et s 58语料 库上试验 了前面 5 方法 ,认 为 D 、 e2 种 F C II H 、 G更为有效 4 l。国内的有些学者则认为 MID >G【。 J > F I 5 】