中文文本分类器的设计
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
( 文本细降维。 只有文本粗降维往往是不够的, 采用奇异 .)
’&( 对文本进一步降维, 值分解( /01) /01 的 作 用 是 能 够 删 除 噪
"
" - $
) !%&’%( #, !) !(
$ "
音, 并进一步提高聚类的效果; 并且降维后大大减少了词的数 目, 能够加快计算的时间。 文本预处理后, 设 所 有 词 组 成 的 集 合 为 .)2!$, …, 这 !!, !/3, 样就将 ( 个文本转化为 ( 个 / 维的单位向量,不妨仍记为 0 ) …, 2#$, #!, #(3。下面将采用球形的 $-均值算法对语料库中的文 本聚类, 先给出一些记号的说明。 设 0 )2#$, …, #!, #(3被划分成 $ 个 不 相 交 的 类 !$, …, 每 个 类 的 质 心 为 ," + $ !!, !$ , ("
9:#.)0;.: BFS+ >9+F.)I,T9+,)- ,* UFG,-FU 9* +PF +9*4 )G 9**,.-,-. VIF5UFG,-FU >9+F.)IM :9WF: +) 9 -FX +FS+#NVPFI,>9: 45 8F9-* 9:.)I,+P8 ,* 9VV:,FU +) )W+9,- +PF >9+F.)IM :9WF: )G F9>P +FS+, 9-U 9 >:9**,FI ,* WE,:+ W9*FU )- +PF ())*+,-. 9:.)I,+P8#BP,* >:9**,FI P9* G)::)X,-. >P9I9>+FI,*+,>*: .))U VI9>+,>9W,:,+M , .))U FS+F-*,W,:,+M 9-U .))U >9+F.)IM VIF>,*,)-# <"=>()?#: +FS+ >9+F.)I,T9+,)-, HP,-F*F +FS+, 89>P,-F :F9I-,-. , *VPFI,>9: 458F9-* 9:.)I,+P8, ())*+,-. 9:.)I,+P8
!#$
文本预处理
( 文本分词。中文文本的自然语言中词与词之间没有明 $)
显的切分标志, 所以首先需对文本进行分词处理。中文文本分 词有不少成熟的方法, 例如基于字符串匹配的分词方法, 基于 理解的分词方法和基于统计的分词方法; 文本粗降维。文本分词后可以通过计算每个词在语料 ( !) 库中的词频进行粗略的降维, 方法是删除一些频率很高与很低 的词, 这些词对聚类作用不大或是没有实际意义的功能词;
#," #
$"" "$ , ,"
( !6$ )
是 !"
的质心;
( 给定 ", 如果 2 # .) " 是任意小的实数, !"
%
( !)
( !6$) -2 % ’ # & & !" ’ "+$ "+$
$
$
得到 .!( , …, …, #" , 1& ) " )$ , 8, &+$ , ,; ( 重复 !5. 操作得到第二个弱假 设 %! ( , 此过程一 A) #" , 1& ) 直进行下去, 最终得到 / 个弱分类器 %5( , …, #, 1) 5+$ , /;
())*+,-. 算法
文章编号 $""!5&??$5( !""! ) $%5""@’5"?
中图分类号 BC$&
!"#$%& ’() *+$&"#" ,"-. */0##$")
$
12 3$0&4$0&%5 6+0&% 7"&-$0&8 ( D-*+,+E+F )G H)88E-,>9+,)-* 7-.,-FFI,-. , CJA K-,LFI*,+M )G N>,F->F O BF>P-):).M , Q9-;,-. !$"""6) ! ( N>,F->F R9>E:+M , CJA K-,LFI*,+M )G N>,F->F O BF>P-):).M , Q9-;,-. !$"""6)
$
+;
% &
:$ : -$
#&$
#&$
。对所有的 / , 弱假设即弱分类器取 $/+$ 。对所有的 / ,
# 1" 。
3
!#!
球形的 45均值算法
’.(
( ")
为: %/ ( #" , 1& ) )
#
1 "& *$" )" 1 $& *$" )$
,
8 $
。计算 < $)
!!.
& + $" + $
( #" , 1& ) >?@ ( 5$$・ 7
基金项目: 国家自然科学基金重点项目( 编号: <’’?$"@" )
作者简介: 陆建江, 男, 博士, 副教授, 主要研究领域为数据挖掘、 数据仓库、 模糊理论。张文献, 男, 讲师, 主要研究领域为计 $’<& 年生, $’<? 年生, 算数学、 数据挖掘。
计算机工程与应用
!""!#$%
@’
( 文本数字化。文本数字化即是把文本表示成一个稀疏 &) 向 量 ’!(, 向量的分量是词的权重, 词 !" 在 文 本 #$ 上 的 权 重 记 为 , 其 中 *( 表 示 词 语 !" !%&’% ( #$ , !" ) !%&’% ( #$ , !" ) )* ( #$ , !" ) +,- ( , #$ , !" ) ’" 在文本 #$ 中出现的次数, ’" 表示文本集中包含词语 !" 的文本个 因 数。通常将文本向量表示为单位向量, 即 ) ! 模为 $ 的向量, 此需对权重进行余弦正规化处理: *$"+
( 将 0 )2#$, …, $) #!, #(3任意划分成 $ 个不相交的类 # !"
( ") # 为类的概念向量, 置迭代次数 !+" ; 1" ’ "+$
’ , "+$
$
"
・ ) , 当 !$ 在文本中出现时, 为 1 $& , 否则为 ’1 & ( %$ ( #" , 1& ) %$ ( #" , 1& ) 对 2!$, …, 取 出 <$ 最 ( .) !93 中 所 有 的 词 都 执 行 第 三 步 操 作 ,
!
确定文本类标签
设 % 12&$, …, 语料库中的 &!, &’3 是中文 文 本 组 成 的 语 料 库 ,
文本没有经过分类, 即没有类标签的。文中将通过此语料库构 造 一 个 基 于 ())*+,-. 算 法 的 文 本 分 类 器 , ())*+,-. 算 法 需 要 预 先知道语料库中文本的类标签。在实际应用中, 语料库往往存 在大量的文本, 人工去确定文本的类标签会存在一些问题。一 方面需要花费很长时间; 另一方面, 人工定类标签的方法存在 一定的主观倾向性。文中将采用球形的 45 均值算法对语料 库 中的文本聚类, 并确定文本的类标签, 为此首先需对文本预 处理。
$" !#,
# ! !"
其中 (" 为类 !" 中的文本个数。类的质心不是一个单位向 " "$ , ," , 其中 #," # 量, 将类的质心向量余弦正规化, 得到 1 " + #," # 是向量 ," 的 ) ! 模, 称为类的概念向量。记 2
!
! $& +! ! # %
$ " "+$ " + $ # ! !"
$
1 "& ;
小 的 !$ , 最 终 得 到 第 一 个 弱 假 设 为 % ( # , 1 ))
( 通过 # !) 1"
( !)
’ 计算 # !" "+$
$
$
( !6$ )
’ , !" "+$
$
( !6$ )
+2# !0 : #31 " 41 5 , $"
( !)
( !)
$
"
&
其中 #31 " 表示两个向量的内积; 5"$ , 5$" 3, $"" "$ , ( 通过 # &) !"
7,,89:;- 分类算法
( 初始化 .$( …, …, $) #" , 1 &) ) $ , " )$ , 8; &)$ , ,
,8
"
8
( 计算 : ቤተ መጻሕፍቲ ባይዱ + !)
#&$
#, 1) #( * !. (
$ & " + $
$"
。 其中 1 &!7" +# ) #( 7" ’1 & (); )
时, 否则为 5$ 。; !2$ , …, 7" ( 1& ) )$ , 5$3, #!2" , $3, &!2$ , ,3, $! …, 表示假设函数的特征( 即 如 ! 为 真 返 回 $, 否则 2$ , 93, #( !) 返回 " ) 。 *$")$ 表示词在文本中出现, *$")" 表示词在文本 中 没 有出现; ( 在所有 2!$, …, …, 计算 1 #&+ $ &) !93中取定一个词 !$, $+$ , 9,
值算法) 来确定类标签, 这样可以节省大量时间; 同时对于机器 学习方法可能发生错误的少量文本, 采用人工监督的方法来确 定类标签, 这样又可以弥补机器学习方法的不足。
&
构建分类器
设 由 上 节 的 方 法 得 到 文 本 类 标 签 的 集 合 为 7)21 $, 1 !, … ,
!%&’%( #$ , !" )
中文文本分类器的设计
陆建江 $
$
张文献 !
( 解放军理工大学通信工程学院, 南京 !$"""6) ! ( 解放军理工大学理学院, 南京 !$"""6 )
7589,:: :;;<<<=*,-9#>)8
摘
要
文本分类是指在给定分类体系下, 根据文本的内容自动确定文本类型的过程。文章应用球形的 45 均值算法确
( !6$) ( !6$) ’ 计算新的概念向量 # : 1" 1" ’ "+$ "+$ ( !6$ )
( !)
#
1 "& !$ 不在第 " 个文本中 1 $& !$ 在第 " 个文本 中
第一个弱假设完全由 。 !$ 称为中心词,
$
( !6$)
+
,"
( !6$) ( !6$)
,
中心词 !$ 确定; ( 由公式 ./6$ ( %) #" , 1& ) + ・ ) #" , 1& ) >?@( 5$/・ 7" ’1 & ( %/ ( #" , 1& ) ./ ( =/
$
引言
文本分类是指根据文本的内容自动确定文本类别的过程。
分类器的设计具有以下特点: 分类器的设计针对未知类标签的 语料库, 因此实用性好; 分类器能随着语料库中文本的变化而 增加新的类, 因此具有很好的可扩展性; 分 类 器 基 于 ())*+,-. 算法, 因此具有很好的分类精度。
文本分类是自然语言处理的一个重要应用领域,但直到 &" 年 代末, 在文本分类方面占主导地位的一直是基于知识工程的分 类方法, 即是由专业人员手工编写分类规则来指导分类。’" 年 代以来, 随着信息存储技术和通信技术的迅速发展, 大量的文 字信息开始以计算机可读形式存在, 并且其数量每天仍在急剧 增加。 这一方面增加了对于快速、 自动的文本分类的迫切需求, 另一方面又为基于机器学习的文本分类方法准备了充分的资 源。在这种情况下, 机器学习的文本分类方法逐渐替代了知识 工程的分类方法。基于机器学习的自动分类方法有贝叶斯分 类、 决策树、 最近邻分类、 回归模型、 推导规则、 神经网络和支持 向量机等。近年一种决策委员会的方法日益流行, 这种方法基 于这样一个思想:对一个需要专家知识介入的任 务 , ! 个独立 的专家的判断经过适当合并比他们其中一个人做出的判断要 好。而在文本分类中, 指用 ! 个不同的分类器去判断一个文本 的类别, 然 后 对 判 断 的 结 果 适 当 合 并 。 ())*+,-. 算 法 是 一 种 特 殊的决策委员会方法, 因为其 决 策 委 员 会 中 的 ! 个 分 类 器 !$, …, 称为弱假设) 是一个接一个序列式地进行训练。即假设 !"(
定每个文本的类标签, 并通过 ())*+,-. 算法构建分类器。构建的分类器具有以下特点: 分类器的设计针对未知类标签的 语料库, 实用性好; 分类器能随着语料库中文本的变化而增加新的类, 具有很 好 的 可 扩 展 性 ; 分 类 器 基 于 ())*+,-. 算 法 , 具有很好的分类精度。 关键词 文本分类 中文文本 机器学习 球形的 45均值算法 文献标识码 A
,
;
!
将所有的文本分成两部分, 一部分为训练集, 另一部分为 7,3, 测试集。设训练集为 3)2<#$, …, 其中 7&%7 是每 7$=, <#8, 78=3, 个文本归入类的集合, 这里允许每个文本可以归入多个类。训 练集中至少出现一次的词与采用奇异值分解降维后得到的词 的公共部分组成一个新的词集合 2!$, …, !93。
!$ 需要考虑假设 !$,…, !#$$ 在训练集上的效果,并集中处理 …, 因 此 基 于 ())*+,-. 算 法 的 分 !$, !#$$ 分 类 效 果 不 佳 的 文 本 ,
类器比其它的分类器具有更好的分类精度 /$0。该文提出一种以 机器学习为主、人工监督为辅的中文文本分类器的设计方法。