结合聚类思想神经网络文本分类技术研究
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
结构 , 训练速度快 , 不存 在局部 最小 问题 。R F神 经网络 的特 B 性使其在越来越多 的领 域取代 B P神 经 网络。 目前 R F神 经 B
均运算得到 的中心 向量 , 分类精 度不高 ; 因而 传统 的神 经网
络对文本分类规则 的判别 具有 独特的优势 , 但文本特 征维数过
高导致神经 网络不 易 收敛 , 习时 问太 长 。所 以 目前 很难 学
图1 文本分类系统
找到一个执 行 效 率 高、 确率 和 召 回率 都 很理 想 的算 法 J 精 。
w r o ol h s i e sedads ogr o l er pigcp cy b tl a s r ovrec pe n e e ac— oknt n a g r p e n r e nni a pn ai ,u s hs a e negnesedadbt r eu y hh t n n ma a t ao ft c t
一
个典型 的文本分类系统如 图 1 所示。
目前 已有大量 的统计 分类技术应用于文本 自动分类 中 , 这
些传统 的分类方法有 着不 同的缺 陷。传统 的支持 向量机 方法
具有较好 的分 类 精度 , 但其 训 练 时 间较 长… ; 向量距 离 分类
法 具 有算 法简单 、 分类 速度快等 特点 , 但是过 于依 赖经过平
n ua n to , n t d cdtecr ie f l t iga oi m,t i poeteb c—rp gt n( P er e o erl e r a di r u e oe d ao u e n l rh w k no h csr g t o m rv h akpo aai B )n ua nt r o l w k
小的指定区域 内隐层神经元 的径 向基 函数 才会作 出有意义 的
非 零 回应 。
采 词 类 的信 量g 用和别互息 l o (
的判断标准 。其 中:
) 特项取 作 征 抽 为
b 中心对称衰减是指与径向基 函数 中心点 C 径 向距 离相 ) j
同的输入都会产生相同的输出 , 并且 输入 向量与 c越 近 , j 隐层 神经元的 回应越大 。 R F神经 网络 的隐层径 向基 函数 选用如下 非线性 高斯 函 B
关键技术 。
的 内容 自动地确定文本 关联 的类别 。 自动 文本分类 即根 据统
计模式识别思想 , 将文本表示 成特征 向量 ; 后用训 练文本对 然 事先选定 的分类器进行训练 , 直接或间接地 提取 出蕴涵在训练 文本 中有关各个文本类 的统计特性 , 并根据这些特性确定 出分 类准则 ; 最后依据这些准则对未知文本 进行 分类决策 。
di1 . 9 9 ji n 1 0 — 6 5 2 1 . 10 4 o:0 3 6 / .s .0 13 9 .0 2 0 . 4 s
Te tca sfc t n ag rt m e e r h b s d o lse i g a d n u a ewo k x ls i ai loih rs a c a e n cu trn n e rln t r i o
第2 9卷 第 1期
21 0 2年 1月
计 算 机 应 用 研 究
Ap l ain Re er h o o u e pi t sa c fC mp t ̄ c o
Vo . 9 No 1 12 .
Jn 2 2 a . 01
当口 口
聚 类 思 想 神 经 网络 文 本 分 类 技 术研 究 水
文本分类是 中文信息处 理 的一 个重要 的研 究领域 。其 目 标是在分析 文本 内容的基础上 , 给文本 分配一个或多个 比较合 适 的类别 , 从而提高文 本检索 、 存储 等应用 的处 理效率 。 目前 国内外基于 内容信息 过滤的研究主要集 中在核心算法上 , 基本 上可 以概括 为用 户模 板的构建 及其算 法研究 和用户 模板 与文 本 的匹配技术两个方 面。这两 个方 面是文本 信息过 滤 的两大
朱云霞
(. 1 南京 大 学 信 息管理 系,南京 209 ; . 103 2 南京人 口管理 干部 学院 信 息科 学 系, 南京 204 ) 102
摘
要 :针对传统的基于神经网络文本分类算法收敛速度慢等缺点, 在分析 了文本分类 系统的一般模型, 以及
在 应 用 了互信 息 量的特 征提取 方 法提取 特征 项后 , 出了一种 基 于样 本 中心 的径 向基 神 经 网络 文本 分 类算 法 ; 提 并 引入 了聚 类算 法的核 心 思想 , 改进 误差反 向传播神 经 网络 分 类算 法 收敛 速 度较 慢 的缺 点 。 实验 结 果表 明, 提
Ⅳ W, ) ( d 为词 在 d 中的词频 ; 1 l 为 类 的总词数 ;
Ⅳ( , 为所有 词在 该类 的词频 和。而 P( ) d) 与计 算式 ( ) 2
相同 , 只是把所有 的训练样本组成一个“ 总类 ”, 就是计算词条
在总类中的 比重 。
I 1 q
ZHU n. i Yu xa ,
( . eto fr tnMaa e et N nigU i rt, n 10 3 C ia 2 Dp.o fr ainSi c, aj gPp lt nMa — 1D p.fI omai ngm n, aj n esy Na g2 09 , hn ; . et fI om t c ne N n n ouai n n o n v i n o e i o a e n a r C lg , aj g2 04 ,C ia gmetC de ol e N ni 10 2 hn ) e n
出的改进算法与传统的 B P神经网络分类算法相比, 具有较 高的运算速度和较强的非线性映射能力, 在收敛速度
和 准确程 度上 也有 更好 的分 类效果 。 关键 词 :文本 分 类 ; 经 网络 ;聚 类算 法 ;互信 息量 神
中图分 类号 :T 13 P 8
文 献标志 码 :A
文章 编 号 :10 —65 2 1 ) 105 —3 0 139 (02 0 —150
点通常是简单 的线性 函数 。
所属 的类 , m是分类体 系的类 别数 ; 为 d 所属 的类 G 的第 Wk
k个特征相的权重 ; C 包含的特征项数 目。 n为 J
R F分类算法基本思想是用径 向基 函数作为 隐层神经元 B
2 样 本特 征提 取
向量空间模型表达文档效果 的优劣 直接依赖 于特征项 的 选取 以及权重的计算 , 如何选择和提取文本 的特征是提高分类 器的效率和分类准确性 的关键 和基础性 工作 。常用的特征 提 取方法有潜在语 义索引 、 文档频数 、 信息增 益 、 期望 交叉熵 、 互
・
1 6・ 5
计 算 机 应 用 研 究
第2 9卷
其 中: d 属于 ( =l … , , 示要处 理 的文本 , 是 d , m) d 表
典型前 向神经网络 。输入层节点传递输入信号 到隐含层 , 隐含 层节点 由像高斯 函数那样的辐射状作用函数构成 , 而输 出层节
Ab ta t T i p p ra ay e h e e a d lo e tc tg r ain s s m e h oo y,at rte a p i ain o e mu u l s r c : h s a e n l z d t e g n r lmo e f x ae o i t y t tc n l g t z o e f h p l t ft t a e c o h
本文提出 了一种基于样本 中心 的径 向基 神经 网络文本 分类算
在对文档进行 特 征提 取前 , 采用 中 国科学 院 的 IT L S CCA
分词系统进行分词处理 。 目前 , 文本信 息处理 问题 上 , 本 在 文 的表示主要采用向量空间模 型。向量空 间模 型的基本思想是
法 , 引人 了聚类算 法的核心 思想 , 并 改进 了误差 反 向传 播神经
信息 、 文本证据权 、 H 统计 等 。 CI
的基 , 构成隐层空间 , 实现输入空 间到输 出空 间的映射 。
构成 R F神经 网络 隐层 的径 向基 函数 是一种 局部分 布 、 B 中心对称衰减的非负非线性函数 :
a 局部分布是指 当且仅 当输 入 向量 落在输入 空间一个 很 )
ca s ia in ag r h c n e g n e s w rs o to n s l si c t lo i m o v r e c l e h r mi g .Ex e i na e u ss o h t c mp r d wi P n t o k, F n t f o t o c pr me tl s h h w t a , o a e t B ew r RB e— r h
if mao a r et c o ,rpsdat t hsf ai lo tm b s nasm l cne d t bs nt n( B ) n r t nf t e xr tn pooe x c tict na rh ae o pe etr ai e ai f ci R F o i eu ai e s i o gi d a r a su o
网络分类 算法收敛速度较慢 的缺点 。
以向量的形式 来表示文本 , 如相似度 :
( ×w/ )
1 文本分 类原 理
文本 分类 系统的任务 是 : 给定 的分 类体 系下 , 在 根据 文本
收稿 日期 :2 1 -8 0 ;修 回日期 :2 1 -7 2 0 10 .4 0 10 — 5
为词条 在类别 c 中占的比重;D { c 类的训练文本数; , l, 为 ,
l f l I D
赫
() 3
( : )
() Biblioteka Baidu
隐层 神经元采用径 向基 函数使得 R F神经 网络模拟 了人 B 脑中局部 调整 、 相互覆盖感 受域 的特性 。因此 , B R F神经 网络 是一种局部逼 近神经 网络 。现 已证 明了 R F神经 网络能 以任 B 意精度逼近任 一连续 函数 , 并且可以根据问题确定相应 的网络
u n r cia p l a in p o p c . e a d p a t la p i t r s e t c c o
Ke y wor : tx ls i c to ds e tca sf ai n;n u a ewo k; cu t rng ag rt ; mu u n om ain i e r ln t r l se i l oihm t li f r t o
s ( ) i dJ m c
—。 面
×
()
√善2√ w×
基金项 目:江 苏省 高校 自然科学研 究计 划资助 目
作者简介 : 朱云 霞 ( 99 ) 女, 17 - , 江苏镇 江人 , 师, =研 究生, 讲 博 } 主要研 究方 向数据挖掘和智能信 息处理 (hy ni a h 13 e zuux l si 6 .o ao @ m)
r c n ca sfc to fe t Co i i h l t rn h u h RBF t x ls i c to lo t m sl re he r e e r h v l a y o ls i ai n ef c. mb nng te cuse g t o g t, i e tca sf ai n ag r h ha a g rt oy r s a c a— i i