融合词向量及BTM模型的问题分类方法

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

2019年2月计算机工程与设计 Feb.2019

第 %〇卷第 2 期 COMPUTER ENGINEERING ANDDESIGN Vol.40 No.2融合词向量及BTM模型的问题分类方法

黄贤英,谢晋+,龙姝言

(重庆理工大学计算机科学与工程学院,重庆400054)

摘要:针对传统短文本分类算法对问题分类效果不佳的问题,提出一种融合词向量及B T M模型的问题分类方法。使用 Word2vec对问题语料库进行训练得到词向量;对语料进行基于吉布斯采样的B T M主题模型构建,得到文本主题扩展向 量;将文本主题扩展向量与词向量拼接得到新的问句扩展文本,利用S V M进行文本分类。实验结果表明,该方法在准确 率、召回率及F值上的表现均有提高。

关键词:问答系统'问题分类;词向量'B T M主题模型;问句扩展

中图法分类号!TP391 文献标识号:A文章编号$ 1000-7024 (2019) 02-0384-05

doi: 10. 16208!. issnl000-7024. 2019. 02. 015

Q u estio n classification m ethod com bining w ord vector and B T M m odel

H U A N G X ia n-y in g,X IE J in+ &L O N G S hu-yan

(College of Computer Science and Engineering,Chongqing University of Technology,Chongqing 400054, China) Abstract:As the traditional short text classification algorithms do not work well in classification,a problem classification method based on the fusion of word vector and B TM model was proposed.Word2vec was used to train the corpus and word vector was obtained.The B TM t opic modd was constructed based on Gibbs sampling of data.The text topic extension vector and the word vector were spliced to ge t the new ques t ion extension text and text classification was implemented based resu1t s show t h a t using t h e proposed me t hod improves t h e accuracy,recall rat e and F valu.. Keywords:Q A#question classification;w ordvector;B TM m odel;questionexpansion

/引言

问答系统(Q A)的任务是快速的为用户提出的问题提 供一个用户满意的答案[1],而在回答问题的过程中蕴含着许 多信息检索领域息息相关的技术。通常来说,问答系统包括 三个重要模块:对用户所提出问题的分析、对信息进行检索 和抽取出最优答案集合)]。问题分析作为问答系统的第一项 关键技术,其主要工作是分析用户问句所包含的信息,而分 析问句的关键环节就是对问题进行分类,所以从某种程度上 来说,问题分类效果影响着问答系统的工作效率)]。

问题文本指的是要求问答系统回答或者解释的文本,一般来说问题文本的长度较短且重复的词项较少,所以问 题分类不可以看作为一般的文本分类任务)]。与文本分类 相比,问题分类存在不少难题,首先问题文本长度较短,形成的特征向量空间存在较大的稀疏性;其次,问题文本难以找到合适的方法或者模型来表示;再次,由于问题文 本中的重复的词项较少,那么词频就不能作为问句特征的衡量标准)5]。

目前在问题分类研究领域,使用的工具和方法与短文 本分类相似,大致分为两个方向,第一种是基于规则的分 类方式;第二种是基于数理统计的机器学习算法。张栋 等[6]在扩充问句特征的过程中,将答案语料融人原始的问 句文本;冶忠林等)]利用搜索引擎来扩展知识库,并结合 L D A来进行主题模型的构建;文献)]中引人词向量模 型来代替传统的空间向量模型;张青等[9]提出一种优质主 题的思想,并使用L D A模型扩展文本的特征项。近些年,随着信息检索、文本表示相关领域的飞速发展,专家学者 意识到L D A主题模型对短文本建模的稀疏问题。Yan 等)0]提出中文短文本双词主题模型BTM(biterm topic model),改善了 L D A主题模型的建模缺陷;刘良选等)1]

收稿日期:2017-12-26;修订日期:2019-01-08

基金项目:国家社会科学基金项目(17XXW004);重庆市教委基金项目(15YK790061)

作者简介:黄贤英(1967 -)女,重庆人,硕士,教授,CCF会员,研究方向为信息检索;+通讯作者:谢晋(1993 -)男,湖北 十堰人,硕士研究生,研究方向为信息检索、文本挖掘;龙姝言(1992-)女,重庆人,硕士研究生,研究方向为推荐系统。

E-mail:895309382@

第40卷第2期黄贤英,谢晋,龙姝言:融合词向量及BTM模型的问题分类方法•385 •

提出基于词向量参数分布的文本分类算法,并采用B T M主

题建模;郑诚等[12]在进行文本分类时,两次使用B T M建

模,达到扩充训练集的效果,得到最大的语料库,从而提

高文本分类的准确率。

现存的问题文本语句较短、特征稀疏,使用传统的短

文本分类算法无法解决数据稀疏的问题,从而导致分类效

果较差。本文针对传统短文本分类算法存在的不足,提出

融合词向量及B T M模型的问题分类方法,核心思想是首先

融合全部的问题语料文本及答案语料,随后对该大规模文

本进行词向量的扩充,然后使用B T M主题模型建模,最后 将上述过程形成的向量进行组合,得到最终的问答语料向 量,使用SVM(support vectormachine)来进行问题分类 检验。对比传统算法及单一模型,分析实验结果。

1词向量及B T M建模

1.1 利用word2vec产生词向量

T om asM ikolov在N N L M和R N N L M的基础上提出了 Word2vec,传统的N N LM(前馈神经网络模型)由输入 层、映射层、隐藏层和输出层4部分构成,而随后产生的 R N N L M在N N L M基础上对于使用环境进行了优化)3]。W o d2vec可以在百万数量级的词典和上亿的数据集上进行 高效的训练,该工具得到的词向量(word embedding),可 以很好地度量词与词之间的相似性)4]。作者提出了两种计 算模型分别是C BO W和Skip-gram。这两个模型的区别在 于CBOW模型是输入当前词项相邻的4个词项来进行预测 并输出当前词项,而Skip-gram模型是输入当前词项来进 行预测并输出当前词相邻的4个词,如图1和图2所示。

图1CBOW模型的工作原理

1.2 B T M主题建模

传统的主题模型主要是通过计算词项在文档中的重要 程度来进行模型建立,当语料较短时难以计算词项的重要 性,导致数据稀疏。针对L D A对短文本建模的缺陷,B TM 主题模型应运而生,B T M模型的思想是对训练集中的同一 上下文共同出现的一对无序词项进行建模。通过分析建模 的结果,两个词项是否属于同一类别取决于它们的共现次

图2 Skip-gram模型的工作原理

数。在B T M模型中,假设多个主题模型的混合分布产生全 部的训练集,全局的主题分布中产生每个主题。

D表示训练集语料,W${it#,…,_}表示从训练集语 料中建模得到的双词集合,圳表示一个双词单元$,,,也2)。假定a和卢是D irichlet先验参数。利用B T M模型进 行模型建立的全过程如图3所示。

上图中,K为人为确定的主题个数,彡为文本语料库上 的主题分布,^为该主题下的词项分布,M^()为多项分 布,D ir()表示D irichlet分布。Z为主题0的D irichlet分布。

B T M模型建立步骤如下:

$)通过D irichlet分布从参数^中抽样出一个主题下的词分布〜D V$) #

$)在a的D irichlet分布中,抽样出文本训练集的全 局主题分布^〜D V$) #

$)从短文本语料库共同参数彡抽取主题Z,服从 Z〜M tdt$) #

$)设语料中的一个词对为6,6 $ (l o i),从上述 抽取的主题Z中抽取^,i•这两个词,并使其服从取,10 〜M idt('(p Z) #

()从短文本语料库共同参数彡抽取主题Z,服从 Z〜Midt() #

(6)设语料中的一个词对为6,6 $ (l o i),从上述 抽取的主题Z中抽取这两个词,并使其服从取,U0 〜MidtC(p Z)

相关文档
最新文档