计算机论文:融合隐式评价内容的意见挖掘技术之计算机研究与实现
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
计算机论文:融合隐式评价内容的意见挖掘技术之计算机研究与实现
本文是一篇计算机论文,
第1 章绪论
1.1 研究背景及意义
近些年,政府持续增加“供给侧改革”力度,意在以“互联网+”的形式完成传统企业转型升级。
中国电子商务研究中心公开的《2018 年(上)中国B2B 电子商务市场数据监测报告》,显示中国电子商务交易规模为11.2 万亿元,同比增长14.2%。
电子商务发展依旧快速增长,大众的消费模式也在转变。
消费者的主要购物方式慢慢由线下实体店购物转变为线上各大网络平台购物。
一方面,大部分的网络购物平台都为消费者搭建意见反馈窗口,以便得到消费者对商品满意度和购物体验的评论内容。
商家通过对主客观评价的分析,了解消费者的好恶可以对开发新产品[1]以及对已有产品的管理和改进都有所帮助[2]。
另
一方面,购买商品之前,消费者无法亲自体会该商品的价值,而是通过浏览该商品的评论信息了解该商品的一些属性价值。
很多消费者受到自身在互联网上找到的信息的影响,这对于影响购买行为的产品评论更是如此[3]。
此外,互联网上用户提供的信息被认为比供应商提供的信息更可靠[3]。
观察淘宝、京东等网站的评价窗口,可以发现这些网站有诸如“价格优惠”、“质量不错”等评价对象与意见词的搭配,消费者可以直观的感受到该商品的某个属性以及对该属性的评价。
但是也还存在不足之处,例如仅能对部分商品属性进行总结,并且大部分意见都是褒义词。
在此问题上可增加评价对象的个数,或者抽取出某一评价对象的不同的意见词。
此外,存在一些文本中只描述了用户的意见,其没有说明该意见是针对哪种属性进行评价的。
Wang 等人统计分析爬取得到的商品评论,发现隐式句子至少占30%,同时每条隐式句子中至少有一个隐式评价对象,在商品评论中其抽取任务的地位不可忽视[4]。
因此,本文针对中文商品评论数据,结合自然语言处理、统计学等,更好的挖掘评论内容中的显式评价对象与隐式评价对象。
全面且准确地提取出评价对象,使得评论挖掘的分析更加可信。
同时为中文领域内的消费者和商家提供更为方便的判断依据。
.....................
1.2 国内外研究现状
在电商网站不断增加的时代,消费者的评论信息也在不断的增多。
消费者所描述的评论信息一般都是非结构化、长短不一的,因此读取所有的评论信息并且抽取该商品以及对于该商品的某种属性的评论对消费者来说变得非常困难,并且这是一项工作非常耗时[5]。
为了解决这些难题,产生了关于评论数据的意见挖掘技术,该技术用于从用户的意见中挖掘有用的信息[6]。
意见挖掘的主要任务是抽取评价对象(Feature)、意见(Opinion)、评价对象与意见的搭配及意见的情感倾向(Positive褒义和Negative 贬义等)[7]。
Kim 以为意见由4 个元素组成,分别是主题(或特征、评价对象、评价要素)、意见持有者、陈述和情感,4 个元素之间的联系为意见持有者对某个主题所陈述某种情感[7]。
特征可分为两种,一种是显式特征,另一种是隐式特征。
显式特征即显式评价对象,指的是评论句中包含具体的表示领域相关的术语或概念;隐式特征即隐式评价对象,指的是评论句中缺乏具体的与领域相关的术语或概念[8]。
意见挖掘是文本挖掘中细分研究领域[9]。
一般情况下,其包含评论文本的主客观分类、评价对象及相关评价词的识别和评价对象特征或属性的情感极性分类[10]。
目前,评价对象抽取和情感分析是意见
挖掘领域主要的研究工作。
其中,评价对象的抽取是细粒度意见挖掘的关键任务,而对评价对象的研究又分为显式评价对象和隐式评价对象两个方面[11]。
因此本文从显式评价对象抽取、隐式评价对象预测和情感分析这三个角度来介绍国内外相关工作研究。
1.2.1 显式评价对象抽取方法
直接以文字形式出现在评论中的显式评价对象,如:“手机外观很漂亮”,其中,“外观”则属于显式评价对象。
关于文本中的显式评价对象的提取任务可以概括为两方面。
一方面是基于规则的方法。
另一方面是基于机器学习的方法。
Yi 等在语料库中通过建立三条词性规则获得评价对象,这三条规则采用等级程度递进的方式获得,该方法对语料数据的依赖性强并且需要大量的人工标注操作[12]。
Kim 等通过构造修饰词库来辨别评论信息中的修饰词[13]。
Poria 等在评论语料中,使用基于关联规则的方法抽取出频繁出现的词语[14]。
田卫东等通过依存关系对短文本进行初始标注,利用错误驱动框架提取出可以推断出评价对象特征规则集,并利用频繁子树模式有序模式规则集抽取出评价对象[15]。
.......................
第2 章相关工作综述
2.1 Biterm Topic Model
传统的主题模型通过对每个文档中词或词组的生成进行建模,利用词汇共生模式以隐式方式揭示语料库的潜在语义结构。
这些方法对短文本很敏感,因为每个短文档中的单词共现模式是稀疏的,而且不可靠。
相反,如果将语料库中所有的单词共现模式聚合起来,它们的频率就会更稳定,更清楚地揭示出单词之间的相关性。
基于这一思想,产生了双词话题模型(Biterm Topic Model)[44]。
Biterm Topic Model(BTM)打破传统主题模型的文档-主题层,通过将文档转换为词对,来处理短文本的特殊性。
双词(Biterm)表示一个短的上下文中的无序且共同出现词对。
这里一个短的上下文是指一个术语序列上的一个小固定大小的窗口。
在文档长度有限的短文本中,比如推文和文本消息,可以简单地将每个文档作为单独的上下文单元。
在这种情况下,文档中的任何两个不同的单词构成一个词对。
例如,一个文本中有三个不同的词或者词组,组成的三个词对如下:
.......................
2.2 文本向量化
嵌入(Embedding)相当于一个将数据结构映射的单射函数。
语料库中的每个元素定义one-hot 时,都要为每个元素定义一个唯一的索引,类似的使用嵌入的方法也要为每个元素定义一个索引,这些索引作为表中查找的键。
嵌入存储在|E|×D 的矩阵,D 代表嵌入的维度,E 是语料库中所有的元素。
某个被指定的索引i 嵌入将存储在矩阵的第i 行。
词嵌入(Word Embedding)算法经常被应用于自然语言处理、句法分析和实体识别等领域,并且得到了越来越广泛的应用。
在机器学习中,解决自然语言处理问题的前提是将文本转化为向量化。
常用的方法包括独热编码(One-Hot Encoding)、词袋模型、词频-逆文档频率、词嵌入方法、加入文档id 的Doc2vec 和词共现的GloVe
(Global Vectors)模型[46]。
词嵌入方法中最常用的是Word2Vec[47-48]。
一种能够将词性以及语义信息影射到为向量的方法。
Word2Vec 得处理流程大致分为三步。
第一对语句进行切分,识别文本中的句子边界。
第二是分词,得到具体的词汇。
第三是每个词赋予词性与语义信息。
Word2Vec 能够利用向量空间,在其内按词的相似性将词进行分组。
利用该算法生成的向量,通过分布式的数值的形式表示词的特征。
GloVe 是一种用于获得单词矢量表示的无监督学习算法。
该算法对来自语料库的聚合全局词-词共现统计进行训练,并且所得到的表示展示词向量空间的线性子结构.
........................
第 3 章显式评价对象与评价词抽取模型 (11)
3.1 基于B*TM 的语料级别评价对象抽取 (11)
3.1.1 具有某种特定语义依存关系的词 (12)
3.1.2 B*TM 建模 (12)
第 4 章隐式评价对象预测与情感极性判别的方法研究 (23)
4.1 多输入的卷积神经网络 (23)
4.2 构建时间序列数据 (25)
第5 章应用系统设计 (37)
5.1 系统总体设计 (37)
5.2 系统功能模块 (37)
第5 章应用系统设计
5.1 系统总体设计
本文应用评论数据构建了融合隐式评价内容的意见挖掘系统。
本系统对这些不同来源数据分别进行存储、分析以及相关预处理操作。
对处理后的数据进行评价对象抽取、隐式评价对象预测以及情感极性的判别。
系统结构图如图5-1 所示
............................
结论
电子商务的快速发展,使用意见挖掘技术从海量的评论数据中获取有用信息变得更有价值。
本文对用户的评论内容进行意见挖掘技术的研究;对用户评论中的显式评价对象以及评价词进行抽取;同时将包含隐式评论内容的文本中所具有的隐式评价对象考虑进来,实现对显式和隐式的评价对象的共同研究。
本文利用开源数据集和自爬取的电商数据集作为评测数据集,并对这些数据进行数据预处理,例如,
断句、分词、词性标注、去停用词、标注标签信息等。
本文主要
完成工作如下:
(1)评价对象抽取根据其抽取任务的粒度不同,将其整理为语料级别和语句级别的抽取。
针对语料级别的抽取任务,本文采用一种融合语义依存关系的Biterm*Topic Model的语料级别评价对象抽取模型;针对语句级别的抽取本文采用不同权值的词嵌入和词性嵌入与BiLSTM-CRF相结合的Weight N-BiLSTM-CRF语句级别评价对象抽取模型。
使用不同的抽取模型抽取出不同级别的文本中的评价对象与评价词。
(2)本文利用包含显式评价对象的评论文本作为训练集,对评价对象聚类整合将其作为类别标签。
之后将句子中的词或词组以及对应的相关词性标注信息进行向量化,作为卷积神经网络的两种不同的输入,经过维度的转换得到的矩阵作为长短期记忆神经网络的输入,最终得到分类模型从而实现对隐式评价对象的预测。
针对评论数据中带有情感极性的文本,基于多输入卷积的长短期记忆神经网络的分类模型对用户评论数据进行正面、中立、负面情感极性判别。
实验表明,本文提出的评价对象获取方法和情感极性判别都取得了良好的实验结果,证明了本文所提出的方法是可行并有效的,但是本文依然存在需要完善的地方。
首先采用基于Weight N-BiLSTM-CRF 模型抽取评价对象和评价词,虽然有一定的准确率,但是还是要通过
人工校正后才能作为训练数据。
其次采用相同的分类方法对隐式评价对象预测以及情感极性判断,它们的准确率不同。
需要在对包含隐式评论内容进行进一步的研究其表达方式或者在分类模型中加入注意力机制,这些都是后续研究工作的重点。
参考文献(略)。