中文文本分类器的设计

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

（文本细降维。只有文本粗降维往往是不够的，采用奇异 .）
’&( 对文本进一步降维，值分解（ /01） /01 的作用是能够删除噪
"
" - $
） !%&’%（ #， !） !（
$ "
音，并进一步提高聚类的效果；并且降维后大大减少了词的数目，能够加快计算的时间。文本预处理后，设所有词组成的集合为 .)2!$， …，这 !!， !/3，样就将 ( 个文本转化为 ( 个 / 维的单位向量，不妨仍记为 0 ) …， 2#$， #!， #(3。下面将采用球形的 $-均值算法对语料库中的文本聚类，先给出一些记号的说明。设 0 )2#$， …， #!， #(3被划分成 $ 个不相交的类 !$， …，每个类的质心为 ," + $ !!， !$ ， ("
9:#.)0;.： BFS+ >9+F.)I,T9+,)- ,* UFG,-FU 9* +PF +9*4 )G 9**,.-,-. VIF5UFG,-FU >9+F.)IM :9WF: +) 9 -FX +FS+#NVPFI,>9: 45 8F9-* 9:.)I,+P8 ,* 9VV:,FU +) )W+9,- +PF >9+F.)IM :9WF: )G F9>P +FS+， 9-U 9 >:9**,FI ,* WE,:+ W9*FU )- +PF ())*+,-. 9:.)I,+P8#BP,* >:9**,FI P9* G)::)X,-. >P9I9>+FI,*+,>*： .))U VI9>+,>9W,:,+M ， .))U FS+F-*,W,:,+M 9-U .))U >9+F.)IM VIF>,*,)-# <"=>()?#： +FS+ >9+F.)I,T9+,)-， HP,-F*F +FS+， 89>P,-F :F9I-,-. ， *VPFI,>9: 458F9-* 9:.)I,+P8， ())*+,-. 9:.)I,+P8
!#$
文本预处理
（文本分词。中文文本的自然语言中词与词之间没有明 $）
显的切分标志，所以首先需对文本进行分词处理。中文文本分词有不少成熟的方法，例如基于字符串匹配的分词方法，基于理解的分词方法和基于统计的分词方法；文本粗降维。文本分词后可以通过计算每个词在语料（ !）库中的词频进行粗略的降维，方法是删除一些频率很高与很低的词，这些词对聚类作用不大或是没有实际意义的功能词；
#," #
$"" "$ ， ,"
（ !6$ ）
是 !"
的质心；
（给定 "，如果 2 # .） " 是任意小的实数， !"
%
（ !）
（ !6$） -2 % ’ # & & !" ’ "+$ "+$
$
$
得到 .!（， …， …， #" ， 1& ） " )$ ， 8， &+$ ， ,；（重复 !5. 操作得到第二个弱假设 %! （，此过程一 A） #" ， 1& ）直进行下去，最终得到 / 个弱分类器 %5（， …， #， 1） 5+$ ， /；
())*+,-. 算法
文章编号 $""!5&??$5（ !""! ） $%5""@’5"?
中图分类号 BC$&
!"#$%& ’() *+$&"#" ,"-. */0##$")
$
12 3$0&4$0&%5 6+0&% 7"&-$0&8 （ D-*+,+E+F )G H)88E-,>9+,)-* 7-.,-FFI,-. ， CJA K-,LFI*,+M )G N>,F->F O BF>P-):).M ， Q9-;,-. !$"""6） ! （ N>,F->F R9>E:+M ， CJA K-,LFI*,+M )G N>,F->F O BF>P-):).M ， Q9-;,-. !$"""6）
$
+;
% &
:$ : -$
#&$
#&$
。对所有的 / ，弱假设即弱分类器取 $/+$ 。对所有的 / ，
# 1" 。
3
!#!
球形的 45均值算法
’.(
（ "）
为： %/ （ #" ， 1& ） )
#
1 "& *$" )" 1 $& *$" )$
,
8 $
。计算 < $)
!!.
& + $" + $
（ #" ， 1& ） >?@ （ 5$$・ 7
基金项目：国家自然科学基金重点项目（编号： <’’?$"@" ）
作者简介：陆建江，男，博士，副教授，主要研究领域为数据挖掘、数据仓库、模糊理论。张文献，男，讲师，主要研究领域为计 $’<& 年生， $’<? 年生，算数学、数据挖掘。
计算机工程与应用
!""!#$%
@’
（文本数字化。文本数字化即是把文本表示成一个稀疏 &）向量 ’!(，向量的分量是词的权重，词 !" 在文本 #$ 上的权重记为，其中 *（表示词语 !" !%&’% （ #$ ， !" ） !%&’% （ #$ ， !" ） )* （ #$ ， !" ） +,- ( ， #$ ， !" ） ’" 在文本 #$ 中出现的次数， ’" 表示文本集中包含词语 !" 的文本个因数。通常将文本向量表示为单位向量，即 ) ! 模为 $ 的向量，此需对权重进行余弦正规化处理： *$"+
（将 0 )2#$， …， $） #!， #(3任意划分成 $ 个不相交的类 # !"
（ "） # 为类的概念向量，置迭代次数 !+" ； 1" ’ "+$
’ ， "+$
$
"
・），当 !$ 在文本中出现时，为 1 $& ，否则为 ’1 & ( %$ （ #" ， 1& ） %$ （ #" ， 1& ）对 2!$， …，取出 <$ 最（ .） !93 中所有的词都执行第三步操作，
!
确定文本类标签
设 % 12&$， …，语料库中的 &!， &’3 是中文文本组成的语料库，
文本没有经过分类，即没有类标签的。文中将通过此语料库构造一个基于 ())*+,-. 算法的文本分类器， ())*+,-. 算法需要预先知道语料库中文本的类标签。在实际应用中，语料库往往存在大量的文本，人工去确定文本的类标签会存在一些问题。一方面需要花费很长时间；另一方面，人工定类标签的方法存在一定的主观倾向性。文中将采用球形的 45 均值算法对语料库中的文本聚类，并确定文本的类标签，为此首先需对文本预处理。
$" !#，
# ! !"
其中 (" 为类 !" 中的文本个数。类的质心不是一个单位向 " "$ ， ," ，其中 #," # 量，将类的质心向量余弦正规化，得到 1 " + #," # 是向量 ," 的 ) ! 模，称为类的概念向量。记 2
!
! $& +! ! # %
$ " "+$ " + $ # ! !"
$
1 "& ；
小的 !$ ，最终得到第一个弱假设为 % （ # ， 1 ）)
（通过 # !） 1"
（ !）
’ 计算 # !" "+$
$
$
（ !6$ ）
’ ， !" "+$
$
（ !6$ ）
+2# !0 ： #31 " 41 5 ， $"
（ !）
（ !）
$
"
&
其中 #31 " 表示两个向量的内积； 5"$ ， 5$" 3， $"" "$ ，（通过 # &） !"
7,,89:;- 分类算法
（初始化 .$（ …， …， $） #" ， 1 &） ) $ ， " )$ ， 8； &)$ ， ,
,8
"
8
（计算 : ቤተ መጻሕፍቲ ባይዱ + !）
#&$
#， 1） #（ * !. （
$ & " + $
$"
。其中 1 &!7" +# ） #（ 7" ’1 & (); ）
时，否则为 5$ 。; !2$ ， …， 7" （ 1& ） )$ ， 5$3， #!2" ， $3， &!2$ ， ,3， $! …，表示假设函数的特征（即如 ! 为真返回 $，否则 2$ ， 93， #（ !）返回 " ）。 *$")$ 表示词在文本中出现， *$")" 表示词在文本中没有出现；（在所有 2!$， …， …，计算 1 #&+ $ &） !93中取定一个词 !$， $+$ ， 9，
值算法）来确定类标签，这样可以节省大量时间；同时对于机器学习方法可能发生错误的少量文本，采用人工监督的方法来确定类标签，这样又可以弥补机器学习方法的不足。
&
构建分类器
设由上节的方法得到文本类标签的集合为 7)21 $， 1 !， … ，
!%&’%（ #$ ， !" ）
中文文本分类器的设计
陆建江 $
$
张文献 !
（解放军理工大学通信工程学院，南京 !$"""6） ! （解放军理工大学理学院，南京 !$"""6 ）
7589,:： :;;<<<=*,-9#>)8
摘
要
文本分类是指在给定分类体系下，根据文本的内容自动确定文本类型的过程。文章应用球形的 45 均值算法确
（ !6$）（ !6$） ’ 计算新的概念向量 # ： 1" 1" ’ "+$ "+$ （ !6$ ）
（ !）
#
1 "& !$ 不在第 " 个文本中 1 $& !$ 在第 " 个文本中
第一个弱假设完全由。 !$ 称为中心词，
$
（ !6$）
+
,"
（ !6$）（ !6$）
，
中心词 !$ 确定；（由公式 ./6$ （ %） #" ， 1& ） + ・） #" ， 1& ） >?@（ 5$/・ 7" ’1 & ( %/ （ #" ， 1& ） ./ （ =/
$
引言
文本分类是指根据文本的内容自动确定文本类别的过程。
分类器的设计具有以下特点：分类器的设计针对未知类标签的语料库，因此实用性好；分类器能随着语料库中文本的变化而增加新的类，因此具有很好的可扩展性；分类器基于 ())*+,-. 算法，因此具有很好的分类精度。
文本分类是自然语言处理的一个重要应用领域，但直到 &" 年代末，在文本分类方面占主导地位的一直是基于知识工程的分类方法，即是由专业人员手工编写分类规则来指导分类。’" 年代以来，随着信息存储技术和通信技术的迅速发展，大量的文字信息开始以计算机可读形式存在，并且其数量每天仍在急剧增加。这一方面增加了对于快速、自动的文本分类的迫切需求，另一方面又为基于机器学习的文本分类方法准备了充分的资源。在这种情况下，机器学习的文本分类方法逐渐替代了知识工程的分类方法。基于机器学习的自动分类方法有贝叶斯分类、决策树、最近邻分类、回归模型、推导规则、神经网络和支持向量机等。近年一种决策委员会的方法日益流行，这种方法基于这样一个思想：对一个需要专家知识介入的任务， ! 个独立的专家的判断经过适当合并比他们其中一个人做出的判断要好。而在文本分类中，指用 ! 个不同的分类器去判断一个文本的类别，然后对判断的结果适当合并。 ())*+,-. 算法是一种特殊的决策委员会方法，因为其决策委员会中的 ! 个分类器 !$， …，称为弱假设）是一个接一个序列式地进行训练。即假设 !"（
定每个文本的类标签，并通过 ())*+,-. 算法构建分类器。构建的分类器具有以下特点：分类器的设计针对未知类标签的语料库，实用性好；分类器能随着语料库中文本的变化而增加新的类，具有很好的可扩展性；分类器基于 ())*+,-. 算法，具有很好的分类精度。关键词文本分类中文文本机器学习球形的 45均值算法文献标识码 A
,
；
!
将所有的文本分成两部分，一部分为训练集，另一部分为 7,3，测试集。设训练集为 3)2<#$， …，其中 7&%7 是每 7$=， <#8， 78=3，个文本归入类的集合，这里允许每个文本可以归入多个类。训练集中至少出现一次的词与采用奇异值分解降维后得到的词的公共部分组成一个新的词集合 2!$， …， !93。
!$ 需要考虑假设 !$，…， !#$$ 在训练集上的效果，并集中处理 …，因此基于 ())*+,-. 算法的分 !$， !#$$ 分类效果不佳的文本，
类器比其它的分类器具有更好的分类精度 /$0。该文提出一种以机器学习为主、人工监督为辅的中文文本分类器的设计方法。