基于Python的中文文本分类的实现

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
文 本 分 词 可 以采 用 结 巴 分 词 ( j i e b a ) 实 现 。J i e b a . c u t 方 法 可 以实现文本 的分词 , 该 方法需要 两个输入参 数 , 第 一 个 参 数 是
权重, 便于 区分 不同特 征对于文档 的重要程度 。在文本处 理领 域 中,使用最广泛 的权重 计算方 法是 T F I D F( T e m r F r e q u e n —
# … … … 一 计算特征权重一 … 一 一 t i f d l f r a n s f o me r r = T i f d f T r a n s f o me r r ( )
t r a i nx = t id f f t r a ns f o m e r r . it t f r a n s f o r m( t r a i n x )
第j 方庠, 以 及 良好 的 嵌 入 扩 展 与“ 胶水 ” 能力 , 使 得 文 本 分 类 的需 求 得 以顺 利 实 现 [ 2 1 。 本文基 于 P y t h o n语 言 , 结 合 第 三 方 库 j i e b a 和s k l e a m库, 实 现 中文 文 本 的 自动 分 类 。 2文本 分 类 文 本分类过 程…般包 括文本预 处理 、 特征选 择、 特 征 权 重 计 算、 训 练 和 分 类 。 下 面 按 照 文 本 分 类 的 过程 介 绍 基 于 P y t h o n 的 中文 文 本 分 类 的实 现 。 2 . 1文 本预 处理
【 关键词 】 P y t h o n ; 中文; 文本分类; 实现
1引 言
p a t h =” s t o p wo r d s . t x t ”
随着 网络和信息技术 的迅 猛发展, 网络 上出现的文档越来
越 多, 数量越来越大 , 如 何 对 网 络 上 的大 量 文 档 进 行 自动 分 类 , 成 为 了一 个 重 要 的研 究 方 向。
箍… 一 缝 一 … 鸭, … 碴~ … , 一 …… ,
U Jl A C 0 P j T 鞲鞴
一 一
D O I : 1 0 . 1 6 7 0 7  ̄ . c n k i . f j p c . 2 0 1 6 . 1 2 . 0 0 3
基于 P y t h o n的 中文文本分类 的实现
t r a i n s pa c e =v e c t o r i z e r . it t f r a n s f o r m( t r a i n )
_
P y t h o n语言是一种简单但功能强大 的编程语言 , 其 自带 的 函数非常适合处理语言数据_ 】 l 。P y t h o n具有许 多特 点, 使得该语 言在文本分类等计算领域有广泛应用 。P y t h o n语言具有 良好 的 可读性 , 内置常用 的数据 结构与算法 , 丰 富和强大 的标准库和
t e s t s pa c e :v e c t o r i z e r t es t . it t f r a n s f o m( r t e s t )
_
t e s t s p a c e . v o c a b u l a y= r t r a i n s p a y * I n v e l s e D o c u m e n t F r e q u e n c y ) 权 重方法 。s k l e a r n库 提 供 了 T i f d f r r a n s f o r me r 类, 可 以很 方 便 实现 特 征 权 重 的 计 算 , 下 面 是 实 现代码。
t r a i n s p a c e . v o c a b u l a r y = v e c t o r i z e r . v o c a b u l a r y


# … … 一 i 贝 0 试样本特征 向量表示… 一 …
v e c t o r i z e r t e s t = C o u n t V e c t o r i z e r ( v o c a b u l a y= r t r a i n s p a c e . v o c a b u — l a y) r
_
t e s t x = c h 2 . t r a n s f o r m( t e s t s p a e e ) 2 . 4特 征 权 重 在对 文 本 进 行 特 征 选 择 后 , 需 要 对 选 取 的 特 征 赋 予 一 定 的
进 行文本 分类之前 , 首 先要对文 本进行预处 理 , 对于 中文 文本分类来说 , 主要是分词、 去停用词 。
} } 一 … … 选择 K个最好 的特征 ,返 回选 择特 征后 的数
据… … …
c h 2 = S e 1 e c t K B e s t ( c h i 2 . k = 5 0 0 0 )
t r a i n x = c h 2 . i f tt r a n s f o m( r t r a i n s p a c e , t r a i n . 1 a b e 1 )
s t p w r d l s t = r e a d s t o p l i s t ( p a t h ) v e c t o r i z e r = C o u n t V e c t o r i z e r ( s t o p — w o r d s = s t p w r d l s t )
廖 一星 , 严 素 蓉
( 浙 江财经大学 东方学院 浙江 海宁 3 1 4 4 0 8 )
【 摘 要】 随着网络技术 的迅猛发展 , 中文 文本 的 自 动分 类成 为了一个重要 的课 题。文章基于 P y t h o n实现 了中文文
本的 自动分 类, 实现过 程比较 简单, 分类效果 良好 。
相关文档
最新文档