基于卷积神经网络的文本分类算法
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第 3期
王美荣:基于卷积神经网络的文本分类算法
355
xk+1,i =Fk,lxk,l+bk( l,i) +Bk,iwk,i (2)
zk+1,i = C x k+1 k+1,i+vk+1,i
(3)
其 中,xk,i
=
[
p ,p ,p ,p ] k,xk,i k,xk,i k,yk,i k,yk,i
0 引 言
随着网络的飞速发展,社交网络逐渐成熟[1]。 国外出现了 Facebook,Twitter等社交平台,而国内 则是新浪微博、博客等社交平台。越来越多的人喜 欢在这些平台上发表自己的言论或者是点评被人 所发表 的[2]。 这 些 评 论 通 常 都 是 比 较 简 短 的,字 数受到一定的限制而且用语也有些不规范。内容 涉及十分的广阔,比如教育、政治、经济、文化、医疗 卫生等等[3]。这些文本里面包含了许多有用的信 息,但是因为网络的更新速度太快,这些文本内容 又没文本分类由多个相互协作的文本构成[4]。传 统文本分类算法一般假设文本种类固定且不受分 类干扰,基于 RFS的分类算法可以有效解决上述 问题并且还能够避免数据关联过程[5]。从这个角 度来讲,RFS更适合于解决文本的分类问题。为了 得到各文本的轨迹分类本文在标签 RFS框架下,采 用 CNN算法。在目前已有的文本分类算法中,都没 有描述到文本的结构信息[6]。
本的个数分类。在获得文本中各成员的词向量分 类基础上,通过计算每时刻的偏差矩阵分类获得邻 接矩阵分类。
1 卷积神经网络
开始先定义卷积神经网络,如下内容:
定义 Ve和 Ed这两个集合组成了卷积神经网 络,将这个记为 G = ( Ve,Ed) 。其中 Ed 表示边的 有限集合,Ve则表示节点的非空有限集合,当这些 边有方向时则称为有向卷积神经网络,反之,称为
第 36卷 第 3期 佳 木 斯 大 学 学 报 ( 自 然 科 学 版 ) 2018 年 05月 JournalofJiamusiUniversity(NaturalScienceEdition)
文章编号:1008-1402(2018)03-0354-04
Vol.36 No.3 May 2018
别为卷积神经网络噪声和观测噪声且都服从正态
分布。
通过研究邻接矩阵就可以轻松的判断出群中
各个文本之间的关系和连接,比如父子关系。若没
有父亲节点,那么就将这个文本称呼为头节点。头
节点的分类会影响到其文本,而头节点自身分类不
受其他文本影响。因此,头节点分类模型中补偿向
量 b为 0,并且 xk,l为它自身在 k时刻的词向量。否 则,该文本存在着父节点并且该文本的分类受其父
T
,pk,xk,i,
p 和 k,yk,i pk,xk,i,pk,yk,i分别表示文本 i在 x和 y轴上
的位置和速度;xk,i∈ Xk.l表示 i文本的父节点.
bk( l,i) 为一个补偿向量,表示文本 i与其父节点之
间的位置关系;F和 C分别表示词向量转移矩阵
和观测矩阵;B为词向量噪声系数矩阵;w和 v分
基于卷积神经网络的文本分类算法①
王美荣
(安徽新华学院信息工程学院,安徽 合肥 230088)
摘 要: 为了解决分类算法在文本分类时出现特征维度过高和数据稀疏的间题,提出了一种基 于卷积神经网络(convolutionalneuralnetwork,CNN)的文本分类算法,该算法结合卷积神经网络 论中的邻接矩阵对文本分类进行动态建模。对文本的词向量进行训练,并且通过分类邻接矩阵 得到群的结构和个数分类。在提取出文本抽象特征的基础上用 CNN分类器来进行分类。仿真 分析表明:该算法在在进行文本分类效果显著。 关键词: 文本分类;卷积神经网络;动态建模;词向量 中图分类号: TP18 文献标识码: A
采用了卷积神经网络理论对文本进行分类计 算。首先,通过借助卷积神经网络理论对文本进行 动态建 模。 在 此 基 础 上,再 针 对 文 本 进 行 分 类 分 类。因为不知道最初始的文本的协作关系,所以可 以先 假 设 文 本 之 间 没 有 关 系,是 独 立 的。 采 用 CNN获得各文本的词向量分类和轨迹分类以及文
其 中, P( i) 等 价 于 {P1( i) ,P2( i) ,…,Pjn( i) } ,
Pj( i) 表示 i文本的第 j个父节点。
根据该卷积神经网络算法获得文本的邻接矩
阵,文本 1是头节点,文本 2和文本 3是文本 1的
子节点,因此该群的分类模型如下:
{ xk+1,1 =Fk,1xk,1 +Bk,1wk,1 xk+1,2 =Fk,2xk,1 +bk( 1,2) +Bk,2wk,2 xk+1,3 =Fk,3xk,1 +bk( 1,3) +Bk,3wk,3
a( n,1) a( n,2) …
0
其中,当 第 i个 文 本 是 第 j个 文 本 父 节 点 时 则
a( i,j) 等于 1;其他情况下,a( i,j) 等于 0。
若文本存在单个父节点时,该文本分类模型如
下:
① 收稿日期:2018-04-05 基金项目:2016年 安 徽 省 高 等 学 校 省 级 质 量 工 程 项 目 (2016mooc198);2018年 安 徽 高 校 自 然 科 学 研 究 项 目 重 点 项 目 (KJ2018A0587)。 作者简介:王美荣(1978-),女,皖蚌埠人,讲师,硕士,研究方向:数据挖掘及软件测试.。
பைடு நூலகம்
无向卷积神经网络。
借助卷 积 神 经 网 络 结 构 和 群 结 构 的 相 似 性。
使用的邻接矩阵不需要知道文本之间的距离,这样
可以大大的降低难度,便于得到一个文本邻接的矩
阵,如下所示:
0 a( 1,2) … a( 1,n)
Ad
=
a(
2,1)
0
…
a( 2,n)
(1)
节点影响,所以通过这个文本分类模型,我们可以
发现补偿向量 b包含该节点与其父亲节点之间的
方向和距离信息,当文本存在多个父节点时,线性
条件下 xk+1,i如下式表示:
∑ xk+1,i =
wk( l,i) [ Fk,lxk,l+bk( l,i) ] +Bk,iwk,i
l∈P( i)
(4)
∑ xk,i∈ Xk, wk( l,i) =1,wk( l,i) ∈ [ 0,1) (5) l∈P( i)