基于SVM和LSTM两种模型的商品评论情感分析研究
电子商务网站用户评论情感分析与评价预测方法研究
电子商务网站用户评论情感分析与评价预测方法研究概述:电子商务网站近年来蓬勃发展,用户评论已成为用户购买决策的重要参考依据。
因此,对用户评论进行情感分析与评价预测已成为电子商务领域的研究热点。
本文将深入研究电子商务网站用户评论的情感分析和评价预测方法,探讨其在提升用户体验和增加销售额方面的潜力。
一、情感分析方法的研究1. 传统机器学习方法传统机器学习方法是对用户评论进行情感分类的一种常用方法。
该方法首先从用户评论中提取特征,例如词袋模型、TF-IDF权重等,然后使用分类器(如SVM、朴素贝叶斯、决策树等)进行情感分类。
此方法能够有效地为评论进行情感划分,但对于评论中更复杂的情感表达和语言的理解较为有限。
2. 深度学习方法近年来,深度学习方法在情感分析领域取得了显著的进展。
利用深度学习算法,如循环神经网络(RNN)和长短时记忆(LSTM),可以更好地理解评论中的语义和上下文信息。
此外,卷积神经网络(CNN)还可以对评论中的特定词语和短语进行有效的情感推测。
深度学习方法在情感分析中可以提供更好的性能和更高的准确率。
二、评价预测方法的研究1. 基于用户评价历史的方法基于用户评价历史的方法是一种常用的评价预测方法。
该方法通过对用户历史评论进行统计和分析,挖掘用户的购买偏好和倾向,从而预测其未来的购买行为。
通过建立用户评分历史的模型,可以更好地理解用户的消费喜好和需求,为用户提供个性化的推荐服务。
2. 基于文本内容的方法基于文本内容的方法通过分析用户评论的文本内容,从中提取相关特征,以预测商品的评价和销售。
该方法可以利用自然语言处理和机器学习技术,对用户评论进行文本分析、主题建模和情感识别,从而预测商品的评价和销售情况。
三、应用前景及挑战电子商务网站用户评论情感分析与评价预测方法在提升用户体验和增加销售额方面具有广阔的应用前景。
通过准确分析用户评论的情感和评价,电商平台可以根据用户需求进行产品改进和优化,提供更好的商品和服务,从而增加用户满意度和忠诚度。
基于SVM的用户评论情感分析方法研究
2019年03月第36卷第2期枣庄学院学报JOURNAL OF ZAOZHUANG UNIVERSITYMar. 2019Vol. 36 NO. 2基于SVM的用户评论情感分析方法研究常丹2,王玉珍1>2(1、兰州财经大学丝绸之路经济研究院,甘肃兰州730020;2、兰州财经大学信息工程学院,甘肃兰州730020)[摘要]由于中文文本的情感分析较为复杂,传统的基于词典的情感分析方法不适合用于大量的文本分析,因此本文将w〇rd2vec和支持向量机算法相结合,用来分析用户评论信息中的情感倾向.通过wonEvec训练词向量模型,将文本转换成词向量作为模型的输入,然后训练模型分析情感倾向.实验结果表明,融人词向量的支持向量机模型能够提高情感分析的准确率,为商家的用户行为分析提供理论支持.[关键词]SVM; word2vec;情感分析①[中图分类号]TP391 [文献标识码]A [文章编号]1004 - 7077 ( 2019 ) 02 - 0073 - 06〇引言近年来,随着自然语言处理和数据挖掘技术的成熟,情感分析成了文本分析领域研究的热点,目前的主要研究成果概括如下:支淑婷[1]等人认为不同类型的注意力机制和神经网络独立编码的属 性上下语义信息,能够有效识别情感极性,并在SemEva]2014 Task4和Twitter数据集上进行实验, 结果表明,这种融合多注意力和属性上下文的长短时记忆神经网络模型能够改善传统神经网络模型 存在的问题,从而提高情感分析的准确率;曾子明[2]等人基于LDA主体识别模型和Ada Boost集成 分类方法,在微博文本的主题特征中融人情感特征,提高了微博文本的情感分类准确性,从而有效 地区分用户的情感倾向;吴鹏[3]等人针对现有方法难以自动识别网络舆情中的负面情感问题,提出 网民负面情感识别模型,这种模型在判断情感极性的基础上能够识别网民的不同负面情感;胡荣 磊[4]等人在文本情感分析过程中,将长短期记忆网络和前馈注意力模型进行结合,结果表明,这种 文本情感分析方法比传统的情感分析方法更具优势;赵冬梅[5]等人认为用户本身和评价对象的属性 对情感分析至关重要,他通过计算用户兴趣分布矩阵,融合SVD分解和LSTM模型,实现情感分 类,实验表明,LSTM-CFA方法能够有效提取用户个性和产品属性信息;刘续乐[6]等人以微博文 本为研究对象,结合知网相似度,选择情感基准词,构建情感词典,运用到S V M模型中,并通过 条件随机场模型对文本进行分类,结果表明,这种分类效果更好;陈珂[7]等人针对文本分类存在的 耗时长和一致性差等问题,提出基于多分类器集成的self-training的情感分类方法,实验表明,这 种方法能够提髙情感分类的效率和准确性;Makoto Nakayama[8]等人通过研究日本与西方国家针对用 餐体验的评论,认为民族文化会影响用户评论的内容,弥补了社会商业中文化影响的研究空白,等 等.可见,随着互联网技术的发展,情感分析掀起了国内外研究的热潮.然而由于数据收集的难度 较大,目前的情感分析方法大都基于英文文本数据,而中英文思维方式和审美情趣的不同,导致中①[收稿日期]2018-11-08[基金项目]兰州财经大学科研项目(Lzufe2018B -04 )[作者简介]常丹( 1995 -),女,陕西延安人,兰州财经大学信息工程学院2017级管理科学与工程在读研究生硕士,主 要从事电子商务数据挖掘、情感分析研究.• 73 •率庄学院学报2019年第2期英文在用词、句式、修辞等方面都各有特点[9],因此,对于中文文本来说,英文文本的情感分析方 法并不完全适用.目前面向中文文本的情感分析方法还较少,一方面由于中文文本数据收集起来较 为困难,另一方面,相对来说中文存在很多意译,研究起来较为复杂.因此,本文将基于用户的中 文评论文本,运用支持向量机模型对其进行情感分析,从而为商家优化决策提供一定的参考.1基于SVM 的情感分析方法建立自然语言处理领域的文本一般分为三个级别的粒度:词语级、语句级和篇章级.情感分析的观 念在于分析文本,理解其所要表达的观点和情绪,即研究语句级文本,包括语句情感属性的识别、 客观性文本提取和分析以及情感极性分析等.英语注重“形合”,而汉语注重“意合”[1°],本文所 研究的情感分析方法主要是基于中文的用户评论信息的情感极性研究,即通过构建SV M 分类模型,融合word 2v e c 词向量技术,研究文本情感极性的分类方法.1. 1支持向量机支持向量机S V M (Support Vector M a c h i n e )是一种常见的判别方法,主要用于分类、回归、异 常值或离群点的检测,主要思想是输人一组数据映射到较高维上,为高维特征空间建立一个超平 面,使得这个超平面和与超平面距离最近的样本数据点之间的距离最大化.在支持向量机数据挖掘 算法中,其核心是支持向量和最优分割超平面,而S V M 的主要工作就是要找到这样一个超平面, 从而使模型达到最优的分类效果.假设训练数据集包含(f ,7l ),…(S ,y …)这个数据点,类变量h e {-1,1}表示数据点对应的类, S V M 超平面即满足所有二1 + 6 = 0的点的集合,由两个超平面丑,:娜+ 6 = - 1和//2 + 6 = + 1作为边界形成了最大超平面,其中为权重,为偏倚参数.这两个边界之间的距离越大时,支持向量机的 分类器的误差就会越小,如图1所示.支持向量机的分类效果较好,在很多领域都成功应用,如基于支 持向量机的羽绒自动识别就是羽绒检测领域的一次尝试和创新[11 ].目前来说,基于监督学习的情感分析方法仍是研究的热点,支持向量机针对其他传统的机器学习 方法来说,由于它构建出了最优超平面,分类效果更好,因此本文通过支持向量机训练情感分析模型, 并使用准确率(A c c u r a c y )来判定模型的预测性能,计算公式如下:w>: + b =-二图1 S V M 最优分割超平面图*74 *常丹,王玉珍基于SVM 的用户评论情感分析方法研究Accuracy = p~^_ jy x 100% ( 1 )其中,TP 表示正确判断的所有属于积极倾向的数据集合,77V 表示正确判断的所有属于消极倾 向的数据集合,p +iv 表示总的文本数据集.1.2 word 2vecword 2v e c 词向量技术是G o o g l e 开源推出的一'个工具包,是在Distributed representation 词向量的 基础上产生的,包含C B 0W 和skip - g r a m 两个模型,主要思想是在较大的语料集上进行高效训练, 得到训练结果词向量,再通过词向量模型,将文本数据转化成对应的词向量从而进行计算•词向量 技术可以用来做聚类、词性分析和其他自然语言处理的相关工作.在情感分析方面,w 〇rd 2v e c 算法 能够利用文本中心词进行特征词向量的训练,训练结果具有良好的语义特征,因此w 〇rd 2veC 训练的 特征词向量被用作情感分析模型的输人.1. 3方法建立基于S V M 情感分析方法的建立主要包括两个方面,一是构建词向量,由于模型的输人必须是 数值型数据,为了得到模型中输入文本对应的数据,文章通过训练词向量模型,将评论文本转换成 词向量作为模型的输人;二是分类器的训练,即训练分类器对文本数据进行积极和消极的分类.具 体方法如下:步骤一:数据收集,下载维基百科中文语料集,并将其转换成计算机可读取的文本格式;步骤二:数据预处理,维基百科中文语料集包含繁体中文,对词向量训练以及文本转换有一定 影响,因此用简体中文替换语料集中的繁体中文;步骤三:分词,使用结巴分词系统对语料集进行分词处理;步骤四:模型训练,将分词后的文本导入P y t h o n 中,使用g e n s i m w o r d 2v e c 训练脚本获得词向 量;步骤五:模型测试,输入文本,并获取相应的词向量;步骤六:数据集划分,将原始数据按比例划分成训练集和测试集;步骤七:数据集预处理,对训练集数据进行结巴分词和停用词处理;步骤八:获取特征词向量,从词向量模型中获取能够描述文本的特征词向量;5 0 50 zLLo -o _—lij u u m j 」0>l p 3uI d s图2 P C A 维度结果图•75 *率庄学院学报2019年第2期图3部分原始数据2.2数据预处理及分析在进行方法验证之前,首先要对文本数据进行预处理,即对收集到的语料集进行分词和去除停 用词处理.文中采用结巴分词系统对文本进行分词处理,这种分词系统可以通过p y t h o n 命令直接调 用结巴包,不仅方便,而且分词速度较快.在分词完成后,使用停用词表去除文本停用词.经过预处理的数据采用本文所建立的方法进行分析,由于训练词向量时设定的维度是300维, 而通过主成分分析得到前50维度的数据能够很好的反应原始数据的情感内容,因此对模型进行降 维处理,选择前50维作为特征向量输入模型,从而训练分类模型,通过参数调整,最终确定当支 持向量机的惩罚参数设为2时分类效果最好,最后将测试集文本输人模型测试这种方法的有效性.2. 3验证结果本文通过测试集文本情感极性分类的准确率来验证模型的有效性,并通过R 0C 曲线来反应模 型的准确性.测试结果表明,融合了 w 〇rd 2veC 的SV M 情感分析方法准确率达到87% , R 0C 曲线如图4所示.步骤九:降维,利用主成分分析法减少特征词向量的维数(如图2所示);步骤十:模型训练,通过p y t h o n 导人S c i k i t -L e a m 库,训练SV M 分类器.2基于S V M 的情感分析方法验证本文的实验环境为w i n d o w s 7操作系统,应用p y t hon3. 6作为编程语言,来验证基于SV M 的情感分析方法的有效性.2_1数据来源为挖掘中文评论文本的情感倾向,本文选用了中科院谭松波博士收集整理的酒店评论语料集进 行实验.该语料集规模为10000篇,共分为四个子集,经整理汇总有积极语料7000篇左右,消极语 料3000篇左右,部分数据如图3所示.文章将根据7:3的比例构建训练集与测试集,即随机抽取 7000条数据(包含积极语料和消极语料)作为训练集训练模型,3000数据作为测试集,测试模型 的有效性.线身 路本 的间 别房 用 〇 议了 建圈麻常r 话雲的歪t 車I ' 龆实店 g 济酒 1经1&1 "r 环^+4。
基于SVM的文本情感分析研究
基于SVM的文本情感分析研究在大数据时代,文本情感分析成为了一项非常重要的研究领域。
通过分析每个人在社交媒体上发布的内容,可以更好地了解现实世界的态度和情感。
因此,基于SVM的文本情感分析研究具有重要的意义。
一、SVM介绍支持向量机(SVM)是一种非常常用的监督学习算法。
它具有高度的准确性,对于大规模数据集有着很好的表现。
SVM算法通过对训练样本进行合理的分类,来构建分类器。
其中,核函数的选择非常重要,可以根据不同的情况选择不同的核函数,例如线性核函数、多项式核函数和高斯核函数等等。
二、文本情感分析文本情感分析是一种分析文本情感倾向性的方法。
它可以将一段文字进行情感分类,例如正面情感,负面情感和中性情感等几种情感。
文本情感分析有许多实际应用,例如在营销和品牌推广中,可以通过文本情感分析获取到消费者的真实想法和态度,从而更好地了解市场需求,优化产品。
三、基于SVM的文本情感分析研究基于SVM的文本情感分析研究已经被广泛应用于监督学习中。
首先,需要对文本进行预处理,例如去掉停用词、词干提取和词向量化等。
然后,将文本数据分为训练集和测试集,使用SVM算法进行训练和预测。
在SVM算法中,文本特征的选择非常关键。
通常情况下,文本特征使用一些统计量来提取,例如词频、逆文档频率、文本长度和情感词典等等。
在特征选择方面,还可以使用一些高级技术,例如主成分分析和神经网络等。
特征选择的目的在于减少特征数量,提高分类准确率。
对于文本情感分析研究的最新成果,Chin-Hua Tai等人提出了一种新的SVM模型,用来提高情感分析的准确性。
该模型基于多元高斯分布和马尔可夫随机场,将文本分类的准确性提高到了90%以上。
通过该研究,可以看出SVM算法在文本情感分析技术领域具有非常广阔的应用前景。
四、结论在大数据时代,文本情感分析是一项非常关键的技术。
我们可以通过分析社交媒体等互联网平台上的数据,了解现实世界的态度和情感。
基于SVM的文本情感分析研究,可以帮助我们更好地实现数据分类和预测,提高预测的准确性。
基于SVM的产品评论情感分析系统的设计与实现
基于SVM的产品评论情感分析系统的设计与实现作者:彭德焰胡欣宇来源:《物联网技术》2016年第11期摘要:各大电商的产品留言体现了消费者对商品的主观情感,海量的评论信息要用人工来收集和处理是不可能完成的任务,因此需要利用专门的情感分析技术来帮助解决这些问题,文中将属性词词典,情感词词典以及程度词词典和否定词词典作为基础,通过SVM分类法对属性词和程度词的搭配进行识别,以此构造一个产品评论文本分析系统,测试表明系统对产品评论的情感分析具有较高的准确率。
关键词:产品评论;SVM;搭配识别;情感分析中图分类号:TP393 文献标识码:A 文章编号:2095-1302(2016)11-00-040 引言随着Web技术和电子商务的发展,越来越多的人在各大电商上对自己买过的产品发表评论,这些信息绝大部分代表着发布者的观点或主观情感。
商家如果能够得到用户的这些反馈,将有助于商家的下一步生产和销售决策。
而其他准备购买该商品的顾客也可以根据这些反馈来更好地帮助自己决定该商品是否值得购买。
因此对这些情感信息进行有效的自动分析并构建相应系统成了当今的热门研究问题之一。
产品评论的挖掘分析主要是基于句子级别的情感分析,其主要任务有识别并获取产品的特征或属性,定位用户的主观性评论,抽取评论搭配,判别用户评论的褒贬[1]。
本文构造的系统以属性词词典,情感词词典以及程度词词典和否定词词典为基础,通过SVM分类法对属性词和程度词的搭配进行识别,进而分析评论的褒贬。
1 相关研究Probst等[2]利用监督学习技术抽取属性词—评论词关系对。
Yohan等[3]基于LDA模型提出SLDA模型。
实验表明,该类方法在抽取产品特征中有一定的效果。
栗春亮等[4]利用百度百科和分词后相邻的词语同现比例来识别专业领域内的生词,在中文产品评论语料中设计词性组合模板来得到候选属性词集,然后利用一定的规则对其过滤。
Qiu[5]等通过研究评价词和评价对象间的关系模式,提出用一种双向传播算法进行抽取。
基于深度学习的用户评论情感分析与商品推荐模型研究
基于深度学习的用户评论情感分析与商品推荐模型研究引言:随着互联网和社交媒体的快速发展,用户评论在购物和产品选择过程中扮演着重要角色。
为了帮助消费者做出理性的购买决策,现代电商平台和零售商通常会收集用户对商品的评价。
这些评论中蕴含了丰富的情感和观点。
因此,分析这些评论并从中提取有用信息成为一项关键任务。
本文将探讨基于深度学习的用户评论情感分析与商品推荐模型的研究。
1. 用户评论情感分析用户评论情感分析是一种通过自然语言处理和机器学习技术来分析用户情感和意见的方法。
深度学习模型在用户评论情感分析领域取得了广泛的应用。
其中,循环神经网络(RNN)和卷积神经网络(CNN)是两种常用的深度学习模型。
1.1. 循环神经网络循环神经网络是一种具有循环结构的神经网络,在处理序列数据(如文本和语音)时具有优势。
在用户评论情感分析中,循环神经网络可以通过学习上下文信息和序列依赖关系来捕捉评论中隐含的情感或观点。
研究者们通过调整循环神经网络的结构和参数来提高模型的性能。
例如,长短时记忆网络(LSTM)和门控循环单元(GRU)是两种常见的循环神经网络结构,可以有效地解决梯度消失和梯度爆炸的问题,同时捕捉更长期的依赖关系。
1.2. 卷积神经网络卷积神经网络是一种在图像和文本处理任务中广泛应用的深度学习模型。
在用户评论情感分析中,卷积神经网络可以通过卷积层和池化层来提取评论中的关键特征,从而判断其情感极性。
研究者们通过改变卷积神经网络的层数、卷积核大小和池化方式等因素来优化模型。
同时,一些改进的卷积神经网络结构,如多通道卷积神经网络(MC-CNN)和递归卷积神经网络(RCNN),在评论情感分类任务上取得了显著的性能提升。
2. 商品推荐模型研究基于用户评论情感分析的商品推荐模型是一种利用用户评论数据并结合推荐算法的模型,旨在为用户提供个性化的商品推荐。
2.1. 基于情感分析的商品推荐基于情感分析的商品推荐模型将用户的情感偏好融入到推荐过程中。
基于LSTM的商品评论情感分析
Sentiment Analysis of Commodi ̄. Reviews Based on LS TM
① 基 金 项 目:国家 自然 科学 基金 (NSFC61573095) Foundation item:National Namral Science Fou n dation ofChina(NSFC6l573O95) 收稿 时间 :2017.12,18;修 改 时 间:2018一O1—04;采 用 时间 :2018.0l一16;csa在 线 出版时 间 :2018.07 28
Key words:sentiment analysis;product review;Long Short—Term Memory(LSTM);natural language processing;deep
lear n ing
引 言
互联 网的飞速发展改变 了人 民的生 活方式给人们 的生 活带来 了很大 的便 利,也极大 地推 动 了电子商务 的发展,网络购物也逐渐 进入人们 的生活 中.但是 网络 购 物在给 人们带来便捷 的 同时也具有很 多不可避 免的 弊 端,无法 真实 的感受 到商品 的属性,就 为我们购 买商
计 算 机系 统应 用 ISSN 1003—3254,CODEN CSAOBN
Computer Systems& Applications,2018,27(8):159—163[doi:10.15888 ̄.cnki.csa.006483] ◎中国科 学 院软件 研 究所 版权所 有 .
基于SVM的电影评价情感分析研究
基于SVM的电影评价情感分析研究随着人们对电影的需求不断提高,电影评价也成为了一个热门的话题。
如何对电影的评价进行分析,从中提取有用的信息,就成为一个重要的研究课题。
在这方面,基于SVM的电影评价情感分析就成为了一个受到广泛关注的领域。
SVM,即支持向量机,是一种机器学习算法。
它可以将数据进行非线性映射,将数据转变为高维空间,从而实现对复杂分类的解决。
在情感分析领域,SVM也被广泛应用。
通过对电影评论的情感分析,可以帮助电影制作人员了解观众对电影的反应,从而进行改进。
不过,在进行电影评价情感分析的过程中,有几个问题需要注意。
首先,在对评论进行情感分析时,需要考虑到文本中的语言特点,比如词语之间的关系、情感的多样性等。
其次,需要对训练集进行提取和过滤,保证模型的准确性和可靠性。
最后,需要根据模型的结果进行评估,判断模型的优劣和可用性。
为了解决这些问题,我们可以采用一些经典的方法。
首先,我们可以通过情感词典的方式,将文本中的词语按照其与情感词的相关性进行打分,并将这些分数进行加权平均,从而计算出整个文本的情感得分。
另外,我们也可以采用深度学习的方式,通过神经网络的方式来预测文本的情感得分。
这种方法需要针对大量的数据进行训练,而且需要进行各种优化,以提高模型的准确性。
值得一提的是,电影评价情感分析的研究对于电影行业的发展有着重要的作用。
通过对观众的反应进行分析,电影制作人员可以更好的了解观众的需求和口味,从而更好地满足市场需求。
而对于普通观众,情感分析也帮助我们更好地了解电影的质量和口碑,从而更好地选择电影。
综上所述,基于SVM的电影评价情感分析的研究是一个受到广泛关注的领域。
通过运用机器学习和深度学习的方法,我们可以提取出电影评论中的有用信息,从而更好地了解观众的反应和市场需求。
毋庸置疑,情感分析的研究对于电影行业的可持续发展有着重要的作用。
基于svm算法的微博评论数据情感分析
0 引言微博由于其内容简短且十分丰富,时时性强且连接范围广而在Internet 用户中非常受欢迎。
它已逐渐成为人们表达意见和发泄情绪的一种方式。
微博文本的情感分析的主要目的是从微博文本中分析用户对产品、新闻、热点事件和其他评论信息的看法和态度。
它也是对用户思维活动和情感的分析。
使用深度学习模型分析情感时,必须将文本转换为机器可识别的形式。
常用的方法是为文本训练单词矢量,但是以传统方式训练的单词矢量没有充分利用情感信息,人们都在微博在表达情感时,表情符号通常用于表达用户感受。
一些研究表明,表情符号比情感词具有更强的情感区别。
因此,表情符号的情感特征可以用作分析训练情感的模型的特征向量。
1 相关工作国外许多著名的国际会议情感分析的趋势持续走高,相关的研究成果层出不穷。
Bang 等使用电影评论为实验数据,运用机器学习算法对评论进行情感分析的判断。
在实验中,预先处理了评论,并分别使用朴素贝叶斯和极端熵模型以不同方式(包括标记语音部分、单个组、双组、否定单词提取等)选择了功能。
SVM 来确定文本的情感倾向,即正面或负面情绪。
最终的实验结果表明,SVM 的准确性为83%,在三种机器学习方法中表现最佳。
人们渴望通过微博学习信息,并与他人互动并分享自己的情感。
这吸引了越来越多的研究人员来分析用户情感。
2 基于话题聚类与情感强度的中文微博舆情分析模型2.1 数据集成获取与预处理(1)数据预处理。
文字处理是一种非常成熟的自然语言处理技术,包括标记语音部分,分词,标记的实体识别和停用词过滤。
根据规则提取微博中的文本,照片,视频和其他信息。
根据微博文本的属性过滤URL 等,以清除无意义的微博文本。
(2)微博情感信息抽取。
单词提取是在预处理数据集中提取用于分类任务的向量的功能。
在提取标注词的方法中,使用提取算法来识别高频词,即标注词,其可以代表总体评估中的情感方向特征。
2.2 S VM 分类算法SVM 其主要思想是对两类进行分类,并在高维空间中找到理想平面。
基于LSTM的评论文本情感分析方法研究
文章编号!007-757X(2020)05-0001-04基于LSTM的评论文本情感分析方法研究李井辉,孙丽娜,李晶(东北石油大学计算机与信息技术学院,黑龙江大庆163318)摘要:长短时记忆神经网络(long short-term memory,LSTM)是一种特殊形式的循环神经网络$是为了解决基于长文本序列的模型训练过程中的梯度消失和梯度爆炸等问题而提出的$相对于传统的循环神经网络丄STM在长序列上有更好的表现$LSTM是一种包含重复神经网络模块的链式形式,在该链式模式中,重复的模块有着不同的结构,其中包括输入门、遗忘门和输出门$介绍了LSTM的工作原理并将其应用到文本情感分析领域,然后,结合Word2Vec词嵌入技术在大规模文本情感分析数据集上进行实验,将LSTM与基于卷积神经网络(CNN)的方法进行实验对比,最终发现LSTM相较于传统的CNN 方法在文本情感分类的准确率方面取得了更好的表现$关键词:文本情感分析;LSTM长短时记忆神经网络;卷积神经网络;词嵌入技术中图分类号:TP39141文献标志码:AA Study on the Affective Analysis of Comment Text Based on LSTMLI Jinghui,SUN Lina,LI Jing(School of Computer and Information Technology,North East Petroleum University,Daqing,Heilongjiang163318,China) Abstract:Long short-term memory(LSTM)is a special form of recurrent neural network.It was proposed to solve the problems of gradient vanish and gradient explosion in the training of long text pared with the traditional recurrent neural network,i has better performance on long sequences.LSTM is a chained form that contains repetitive neural network modules which have different structures including input gates,forgetting gates,and output gates.This paper introduces the main theory of LSTM and applies it to the field of text sentiment analysis.Then,we combine the word embedding t e chnique Word2Vec and conduc t experiment s on large-scale t e xt sentiment analysis da t aset,compare t h e LSTM w i t h convolutional neural network(CNN).We finally find t h at LSTM performs better in t e rms of the accuracy on the task of text sentiment classiii-cation compared with t h e t r aditional CNN me t h od.Keywords:t e x t sen t i m en t analysis%long-t e rm memory neural ne t w ork;convolutional neural ne t w ork;word embedding t e ch-nology0引言情感分析是自然语言处理NLP领域最受欢迎的应用之一(1)由于其应用的广泛性及重要性,近年来,越来越多的研究者专注于分析从公司调查到电影评论等各种数据集的情感。
基于SVM算法的情感分析技术研究
基于SVM算法的情感分析技术研究近年来,随着社交媒体的兴起和人们对情感的日益关注,情感分析成为了一项热门研究话题。
基于SVM算法的情感分析技术具有精准性高、数据处理速度快等优势,因此被广泛应用于评论、新闻报道等领域。
一、SVM算法的基本原理SVM(Support Vector Machine)算法是一种二分类模型,通过寻找最优的分割超平面来实现分类问题的解决。
具体而言,SVM算法通过将原始数据从高维空间映射到低维空间,从而可用一个超平面将数据分为两部分。
同时,SVM算法还能充分利用数据之间的关系,提高分类结果的准确性。
二、情感分析的基础情感分析,即对文本中所包含的情感进行分析和分类,并据此提供相应的评价。
情感一般分为积极情感和消极情感两类。
在情感分析中,需要对文本进行分词、去除停用词、提取特征词等预处理操作,以便得出分类结果。
三、基于SVM的情感分析技术SVM算法由于其优秀的分类性能和适应性广泛应用于情感分析中,具体而言,主要分为两种类型的情感分析。
1、基于词汇表的情感分析基于词汇表的情感分析是指通过构建词汇表并对文本进行匹配来实现情感分类的一种方法。
针对不同的情感分类问题,需要构建相应的词汇表,并在实际应用中进行跟新和优化。
在词汇表的处理中,需要考虑到同义词和简写词等问题。
2、基于机器学习的情感分析基于机器学习的情感分析是指基于SVM算法等机器学习技术来训练分类器,从而实现情感分类的一种方法。
相比于基于词汇表的情感分析,基于机器学习的情感分析具有更高的精度和更好的适应性,尤其在处理长文本时,效果尤其明显。
四、基于SVM算法的情感分析技术应用举例随着社交媒体和网络评论的日益发展,基于SVM的情感分析技术也被广泛应用于各类网络数据的分析和分类,例如:1、商品评价分析:通过对消费者商品评价进行情感分析,企业可以了解产品的缺点和优势,从而及时进行改进和升级;2、舆情监测:通过对网络舆情的情感分析,政府和企业可以掌握公众对事件、产品等的真实情感,以便及时回应;3、新闻报道:通过对新闻报道进行情感分析,可以快速了解事件的情况和不同群体的情感倾向,从而为新闻报道提供科学的依据。
基于SVM算法的情感分析研究
基于SVM算法的情感分析研究机器学习是当下最火热的领域之一,其中自然语言处理和情感分析是有着广泛应用的热门研究方向。
情感分析旨在通过对文本进行处理,挖掘出其中所蕴含的情感信息,可用于商业、政治以及社会生活等各个领域。
在情感分析中,SVM(Support Vector Machines)算法是一种被广泛运用于分类问题的机器学习算法。
其基本思路是将数据集映射到高维空间中,找到一个超平面来分割样本数据。
在情感分析中,SVM算法可以通过“一个样本对应着一个点,其对应的感情类型为数据的分类”这种思想来进行。
例如,在进行情感分析时,我们可以将一个句子映射到一个高维向量中,然后在该向量中寻找一个超平面,将其正面情感和负面情感分开。
这种方法可以有效避免数据不均衡导致的分析偏差,并可以提升分析效率。
然而,在实际应用中,SVM算法在情感分析中也面临一些挑战。
首先,SVM 算法对于特征的选取十分敏感。
需要谨慎挑选相关的特征,否则结果可能很差。
其次,数据量的大小也会影响SVM算法的表现。
数据集较小时,算法可能会出现欠拟合现象。
反之,如果数据集较大,算法可能会出现过拟合现象,导致预测效果下降。
为了减少这些问题,并提高情感分析的准确性,研究人员们通过不断探索进行了升级优化。
例如,在特征选择方面,除了传统的TF-IDF等方法外,现在还可以采用深度神经网络等先进算法,以提高准确度和时间效率。
除了算法本身的优化,情感分析的数据处理也至关重要。
对于在社交媒体上产生的除错误标记外的表情符号、缩写和笑声等类型的文本,其多样性和复杂性远远超过传统文本。
因此,需要在全面理解情境和应用各种NLP技术后,才能更精准地识别情感。
此外,情感分析的可靠性还需要做到合适的领域感知和对结果后续操作的正确解释。
总的来说,基于SVM算法的情感分析是一种十分有前景的研究方向。
显然,随着人工智能的不断发展,我们将看到更多的应用程序在情感分析领域得到优化和改进。
基于LSTM的情感分析算法研究与应用
基于LSTM的情感分析算法研究与应用随着社交媒体的兴起,人们在互联网上产生了大量的文字数据。
这些数据不仅仅反映了人们的观点和情绪,还反映了人类社会的一些现象。
情感分析是一种通过对这些数据进行分析和处理,来了解社会现象和人们情感的方法。
然而,情感分析的准确性和效率一直是研究者们关注的问题,近年来,基于LSTM的情感分析算法受到了越来越多的关注。
LSTM(Long Short-Term Memory)是一种递归神经网络的变种,可以有效地处理序列数据。
它具有记忆单元和门控单元的结构,可以有效地捕捉序列数据中的长期依赖关系。
在情感分析中,LSTM可以用来处理文本数据,并将其转化为矩阵,以便进行分类和预测。
LSTM的优点是可以自动学习历史数据和规律,并能够自适应不断变化的数据。
基于LSTM的情感分析算法可以分为两类:有监督学习和无监督学习。
有监督学习是指在训练模型时,使用标注好的数据集进行训练。
无监督学习是指利用未标注的数据集进行训练。
在训练过程中,LSTM会不断地调整参数,以达到最优化的效果。
在有监督学习中,训练集的标注数据可以根据情感分析的目的进行分类。
常见的标注分类方法有二元分类、多元分类和评分分类。
二元分类一般将数据分为积极和消极两类;多元分类可以将数据分为积极、消极和中性三类,同时也可以划分为更多类别;评分分类是将数据按照一定的得分划分为不同的类别,一般用于评价系统的用户体验。
在无监督学习中,LSTM可以使用自编码器(autoencoder)来对数据进行处理。
自编码器是一种神经网络模型,可以高效地从原始数据中提取特征。
LSTM可以通过自编码器,将文本数据转化为高维矩阵,从而更好地进行分类和预测。
与传统的情感分析算法相比,基于LSTM的情感分析算法具有很多优势。
首先,LSTM能够处理序列数据,能够有效地捕捉数据中的长期依赖关系,这样可以提高情感分析的准确性和效率。
其次,LSTM具有自适应能力,能够自动学习数据的规律,这样可以减少人工干预的成本。
基于LSTM的主题情感分析技术研究
基于LSTM的主题情感分析技术研究近年来,随着社交媒体和在线论坛的普及,人们可以方便地在网络上发布各种言论。
这些言论涵盖了各种主题,从政治、经济到个人日常生活等。
然而,随着信息量的快速增长,人们阅读和理解这些言论的难度也随之增加。
因此,研究如何自动地确定这些言论的情感和主题,成为了一个热门研究方向。
本文将研究基于LSTM的主题情感分析技术。
LSTM是一种能够捕捉时序信息的神经网络模型,常被用于自然语言处理任务中。
在情感分析任务中,LSTM可以用来识别文本中的情感,并输出相应的情感极性(如正面、负面或中性)。
此外,它还可以用于确定文本的主题。
在本文中,我们将介绍使用LSTM的主题情感分析技术的实现步骤和结果。
首先,我们需要准备用于训练和测试LSTM模型的数据集。
数据集需要包含多个样本,每个样本都应标注有情感和主题信息。
例如,一个样本可以是一篇关于旅游的评论,它的情感为积极,主题为旅游。
我们可以从各种渠道收集包含情感和主题标注的数据集,如亚马逊评论、新闻文章或推特数据等。
接着,我们需要对文本数据进行预处理。
预处理的主要目的是将文本转换为有意义的数字表示,以供LSTM模型使用。
具体来说,我们需要将文本分词、去除停用词、转换为词向量等。
这些步骤的目的是去除文本中的噪声和冗余信息,并将其转换为计算机可以处理的格式。
此外,我们需要对情感和主题标注进行编码,以便它们可以作为LSTM模型的目标输出。
在准备好数据后,我们可以设计LSTM模型。
LSTM模型可以包含多个隐藏层,每个隐藏层都包含多个神经元。
在这里,我们将使用单层的LSTM模型。
模型的输入是预处理后的文本数据,输出是情感和主题的预测结果。
在训练模型时,我们将使用反向传播算法,以最小化训练集和验证集的损失函数。
在完成模型训练后,我们需要对模型进行测试,以评估其性能。
我们可以使用测试集来评估模型的准确度、召回率、F1值等性能指标。
这些指标可以帮助我们判断模型是否达到了高水平,并且有助于我们进一步改进模型。
基于机器学习的电商评论情感分析与用户行为预测
基于机器学习的电商评论情感分析与用户行为预测近年来,电商行业迅速发展,越来越多的用户在网上购物时会选择查看其他用户的商品评论和评价,以获取有关商品的情感信息和其他用户的购买体验。
对于电商平台来说,分析用户评论中的情感倾向并预测用户的行为是非常重要的,因为它可以帮助他们改进产品、定制推荐和提高用户满意度。
为了满足这一需求,基于机器学习的电商评论情感分析和用户行为预测技术应运而生。
这种技术结合了自然语言处理和机器学习算法,旨在从用户评论中识别出情感倾向,并根据这些情感倾向预测用户的行为。
下面将详细介绍这个技术的实施过程和它的应用潜力。
首先,基于机器学习的电商评论情感分析是通过训练机器学习模型来识别评论中的情感倾向。
这个过程通常首先需要构建一个标记的数据集,该数据集包含大量的评论样本,并且每个样本都有一个情感标签,比如“正面”、“负面”或“中性”。
然后,通过在这个数据集上训练监督学习算法,比如支持向量机(SVM)或递归神经网络(RNN),来构建一个模型,这个模型可以对新的评论进行情感分类。
在模型构建之后,这个模型可以应用于电商平台上的实时评论数据,以提供即时的情感分析。
通过将情感标签与商品属性和用户信息相关联,电商平台可以了解不同商品在不同用户之间的情感倾向,并可以及时采取相应的行动。
比如,如果一个商品收到了很多负面评论,平台可以考虑暂停销售该商品或与供应商进行沟通以改进产品质量。
其次,基于机器学习的电商用户行为预测是通过分析用户评论中的情感倾向来预测用户的行为。
这种技术可以利用情感分类模型识别出用户评论中的情感倾向,并将这些情感倾向与用户的历史购买行为和其他个人信息相关联,从而预测用户未来的购买行为。
举例来说,如果一个用户在评论中表达了对某个商品的高度满意,机器学习模型可以预测该用户将再次购买该商品或推荐给其他人。
另一方面,如果一个用户在评论中表达了对某个商品的不满意,模型可以预测该用户将不会再购买该商品或对该商品进行负面推荐。
基于LSTM的情感分析模型优化研究
基于LSTM的情感分析模型优化研究引言情感分析是自然语言处理领域中的重要一环,通过分析文本中的情感色彩,可以帮助人们了解人们对于某个话题的看法和态度。
长期以来,情感分析已经成为了广泛的研究领域,基于LSTM的情感分析模型也一直是学术界和工业界的热点研究方向,本文将从优化LSTM模型的角度来逐一探讨模型的构建和应用。
一、LSTM模型简介LSTM是一种长短期记忆循环神经网络模型,其主要用于对序列的记忆和预测。
LSTM模型主要包括四个神经网络层,分别是输入层、遗忘门层、输入门层和输出门层。
LSTM模型的核心思想是通过遗忘门和输出门来控制模型的输入和输出,从而在长短期记忆的过程中起到一定的作用。
二、LSTM模型在情感分析中的应用LSTM模型在情感分析的应用主要是在文本分析领域中,它可以通过对文本序列进行分析,给出文本中的情感极性和强度等信息。
在实际的应用中,LSTM模型在情感分析中已经有了广泛的应用,如网络舆情分析、产品评论分析、社交媒体分析等。
三、LSTM模型的优化方法1. 参数优化LSTM模型中的参数优化是提高模型性能的一个关键因素,参数的数量和初始值都会对LSTM模型的训练和优化效果产生一定的影响。
因此,在进行模型训练时,需要对模型的参数进行精确调整和优化,以期获得更好的训练和预测效果。
2. 网络结构优化LSTM模型的网络结构是影响其性能的另一个重要因素。
当前,有许多关于LSTM网络结构改进优化的研究,如使用多层LSTM网络、增加输入字符长度、引入预训练LSTM网络等。
3. 数据处理数据处理是影响LSTM模型训练和优化的另一个重要因素。
当前,LSTM模型在训练和优化时需要用到大量的数据集和多种数据预处理技术,如停用词过滤、文本分词处理、数据标准化处理等。
四、LSTM模型的应用案例以网络舆情分析为例,LSTM模型可以通过对网络上发布的新闻、评论等文本进行分析,提取出其中的情感极性和强度等信息,从而为舆情分析提供基础数据。
基于双向LSTM的情感分析算法研究
基于双向LSTM的情感分析算法研究一、绪论:情感分析是一种运用自然语言处理技术对文本进行分类,并确定其中传达的情感极性的任务。
情感分析能够分析社交媒体数据、产品评论、电影评论和新闻报道等海量数据,从而为企业和个人提供有用的信息。
双向LSTM(Bidirectional LSTM)是一种经典的循环神经网络模型,能够对输入序列进行双向处理,提高了模型的学习能力。
本文主要研究基于双向LSTM的情感分析算法。
二、相关技术:1. LSTMLSTM(Long Short-Term Memory)是一种循环神经网络的变种,可以解决普通循环神经网络存在的长时依赖和梯度消失问题,从而更好地处理文本序列。
LSTM包含三种门控单元:遗忘门、输入门、输出门,可以控制信息的流通。
2. 双向LSTM双向LSTM是一种能够对输入序列进行双向处理的模型,它在训练时从前向后和后向前两个方向对输入进行处理,并将两个方向的输出合并起来得到最终的输出结果。
相比于单向LSTM,双向LSTM能够更好地捕捉文本序列中的上下文信息。
3. 词向量词向量是将词语映射为实数向量的方法,是自然语言处理领域中的核心技术之一。
通过词向量可以将文本信息转化为数字信息,提高模型的学习能力。
三、情感分析算法:本研究使用基于双向LSTM的情感分析算法,具体步骤如下:1.文本预处理对输入的文本进行处理,包括去除无关词汇、分词、去除停用词和进行词性标注等。
2.词向量嵌入将每个词语转化为对应的词向量,并对句子中的每个词向量拼接成一个矩阵,作为LSTM的输入。
3.双向LSTM网络对输入矩阵进行双向LSTM处理,得到每个时刻的隐状态向量,将正向和反向的隐状态向量合并得到最终的输出结果。
4.分类器将LSTM的输出结果输入到分类器中,进行情感分类并确定情感的极性。
四、实验结果与分析:本文使用IMDB电影评论数据集进行实验,该数据集包含50000条电影评论,其中25000条为训练数据,25000条为测试数据。
基于机器学习的商品评论情感分析方法研究
基于机器学习的商品评论情感分析方法研究随着电子商务的发展,越来越多的人选择在网上购买商品。
然而,在没有实体店面的情况下,消费者只能通过阅读其他人的商品评论来了解商品的质量和性能。
因此,对商品评论的情感分析变得非常重要。
本文将探讨一种基于机器学习的方法,用于对商品评论的情感进行自动分析。
首先,为了进行情感分析,我们需要构建一个训练数据集。
这个数据集包含了丰富的商品评论样本,这些样本被人工标注了情感极性(正面、负面或中性)。
为了确保数据集的准确性,我们应该选择专业的标注人员来进行标注工作。
此外,还应该确保数据集中的样本数量足够大,以涵盖各种商品和评论类型。
接下来,我们需要对评论文本进行预处理。
首先,我们将使用分词技术将文本划分为单独的词语或短语。
然后,我们可以删除停用词,例如“的”、“是”等无情感色彩的常用词汇。
此外,我们还可以使用词干提取或词形还原技术来将词语还原为其原始形式,以避免词形变化对情感分析的干扰。
在数据预处理之后,我们可以利用机器学习算法来训练情感分类模型。
常见的算法包括朴素贝叶斯分类器、支持向量机和深度学习模型如卷积神经网络(CNN)和长短期记忆网络(LSTM)。
这些算法可以根据评论的特征来分类情感,例如词频、词性、句法结构等。
为了选择最佳的算法,我们可以在训练数据集上进行实验,比较不同算法的性能,并选择最准确的模型进行后续分析。
然后,我们可以使用训练好的模型对未标记的商品评论进行情感分析。
在这一步中,首先需要对未标记的评论进行与训练数据集相同的预处理步骤。
然后,我们可以将评论输入到情感分类模型中,得到相应的情感极性。
根据模型的输出,我们可以将评论分类为正面、负面或中性。
通过分析分类结果的准确性和一致性,我们可以了解模型的性能和可靠性。
最后,为了进一步提高情感分析的准确性,我们可以使用一些技术和方法来优化模型。
例如,我们可以使用词向量表示将词语转换为连续的向量空间,并且利用词语之间的语义关系来丰富特征表示。
基于SVM的情感分析算法研究
基于SVM的情感分析算法研究随着社交媒体和互联网的迅猛发展,我们生活在一个充满信息和数据的时代。
这些数据中包含了大量的情感信息,这些信息可以为企业、政府等提供宝贵的参考。
因此,情感分析这一技术应运而生,在社交媒体、市场营销、社会舆论等领域都得到了广泛的应用。
本文将从算法角度,深入探讨基于支持向量机(SVM)的情感分析技术研究。
一、SVM简介SVM由Vapnik在20世纪90年代开发出来,在机器学习领域得到了广泛应用。
SVM是一种监督学习方法,可以用于分类与回归,解决二元或多元数据分类问题。
SVM的核心思想是构建一个空间,将不同的数据分隔开。
SVM最早的应用是解决线性分类问题。
后来人们发现,在高维空间中,SVM可以用非线性函数将不同类别的数据分隔开。
SVM的主要优点是具有很好的泛化性能和较快的训练速度。
二、情感分析简介情感分析是指从大量的文本数据中,识别文本的情感倾向,分为正向、负向和中性。
情感分析技术包括自然语言处理、机器学习和数据挖掘等,目前常用的方法是基于机器学习的方法。
情感分析的应用场景非常广泛,例如:监测用户对品牌产品或服务的评价、分析消费者的兴趣和购买行为、预测股票市场情绪等。
三、SVM在情感分析中的应用SVM在情感分析中被广泛应用,主要分为两个方面:一是基于词频的SVM方法,使用文本分类算法进行情感分析;二是基于word2vec的SVM方法,使用词向量进行情感分析。
下面我们将详细介绍这两种算法。
1、基于词频的SVM方法基于词频的SVM方法是情感分析中最常用的方法。
该方法的核心思想是利用常用词汇在情感分析中的特性,将文本进行向量化。
为了达到这个目的,首先需要将文本进行分词处理,然后将文本转换成向量,最后通过SVM模型对向量进行分类。
换句话说,基于词频的SVM方法是将文本分成一系列单独的词(称为词汇单元),在这些词汇单元的基础上构建向量表示。
然而,基于词频的SVM方法存在一个缺点,就是忽略了词汇的上下文和语义信息。
基于LSTM的情感分析研究
基于LSTM的情感分析研究近年来,随着社交媒体的兴起和快速发展,人们的社交行为逐渐从传统形式转向线上交流平台。
在这个时代里,大量的用户在日常生活中产生的信息已经达到了前所未有的高度。
用户们产生的数据,比如文字,图片,音频和视频等等,被广泛的应用于商业和社交领域。
如何高效准确的对这些信息进行处理已成为一个重要的问题,其中情感分析便是这个问题中的一个重要方面。
情感分析基于自然语言处理技术,旨在识别文本语言中的主观性和个人情感。
它可以帮助分析师和企业进行有针对性的市场调研、宣传和销售等方面的决策。
由于情感分析的实际应用场景较为复杂,其分类的准确性也很大程度上决定了分析结论的可靠性。
目前,基于深度学习的情感分析算法,尤其是循环神经网络(RNN)的变种模型LSTM已成为主流。
LSTM全名为Long Short-Term Memory,这个名字中包含了这一模型的特点。
与RNN相比,LSTM通过增加“记忆细胞”,来解决长序列训练过程中梯度消失问题。
这一点对于长文本的情感分析是非常有用的。
在LSTM中,有三个重要的门,它们分别是输入门、遗忘门和输出门。
这些门的设计使得 LSTM 在处理长序列数据时具有更好的记忆和长期依赖能力。
在情感分析中,LSTM模型可以被看作是一个二分类问题,即对输入文本进行正面和负面情感的分类。
在模型训练之前,需要进行数据预处理,如对于英文文本,通常需要进行词汇的分词和词性标注。
对于中文文本,汉字的分词是非常必要的。
此外,预处理中还会对文本进行去除停用词等操作,以减少模型训练时的噪声。
在预处理之后,需要将文本序列表示为向量。
一种常见的方法是使用词向量,如Google推出的Word2Vec模型。
将每个词表示为语义通用的低维向量,可以在一定程度上解决词汇等因素对模型训练的影响。
模型训练方面,LSTM模型采用误差反向传递算法进行学习,目的是最大化分类的准确性和泛化能力。
在大量训练数据与合适的超参数的情况下,LSTM可达到很高的分类精准度。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基金项目: 国家科技重大专项(批准号:2017YFB0803001) 作者简介: 谷利泽(1965),男,教授,主要研究方向:密码学,态势感知分析,网络舆情分析;孙斌,女,副教授,主要研究方向: 云计算,网络舆情分析;彭丹蕾(1992),女,研究生,主要研究方向:网络舆情分析。
【Abstract】: With the popularity of online shopping, the number of product reviews has increased dramatically, and its contents are becoming more and more diverse. How to efficiently mine these reviews is a very valuable thing. Emotional analysis of product reviews is an important aspect of these reviews. The most commonly used methods in sentiment analysis are machine-based learning and sentiment knowledge analysis at present. In this paper, SVM method in machine learning and LSTM method in depth learning are used to model the product reviews crawled from Jingdong website. Because LSTM method can maintain long-term memory, it can overcome the shortcoming of losing the order information between words in each sentence by SVM method, so the accuracy of LSTM method in test set is much higher than that of SVM method. 【Key words】: Product reviews; Sentiment analysis; SVM; LSTM
由于lstm能够保持长期的记忆间的顺序信息的缺点保留了词与词之间的语义信息如词序信息上下文信息等并且通过复杂的非线性计算更好地提取词向量中隐藏的情感信息
2019 年 第 40 卷 第 1 期
软
件
COMPUTER ENGINEERING & SOFTWARE
Sentiment Analysis of Chinese Product Reviews Based on Models of SVM and LSTM
PENG Dan-lei, GU Li-ze, SUN Bin
(School of Cyberspace Security, Beijing University of Posts and Telecommunications, Beijing, 100876)
2019, Vol. 40, No. 1 国际 IT 传媒品牌
基于 SVM 和 LSTM 两种模型的商品 评论情感分析研究
彭丹蕾,谷利泽,孙 斌
(北京邮电大学 网络空间安全学院,北京 100876)
摘 要: 随着网购的盛行,商品评论数量急剧增长,内容也越来越五花八门。如何高效挖掘处理这些评论是一 件非常有价值的事情。对商品评论做情感分析是关于这些评论研究的一个重要方向。现阶段在情感分析研究中最常 用的有基于机器学习的方法和基于情感知识分析的方法。本文主要采用机器学习中的 SVM 方法和深度学习中的 LSTM 方法分别对从京东网站爬取的商品评论进行模型搭建,然后对比分析。由于 LSTM 能够保持长期的记忆性, 它很好地克服在 SVM 分类中每个句子的词向量求平均丢失了句子词语之间的顺序信息的缺点,保留了词与词之间 的语义信息(如词序信息、上下文信息等),并且通过复杂的非线性计算更好地提取词向量中隐藏的情感信息。因 此使用 LSTM 方法准确率比 SVM 方法提高不少,在情感分析上表现出非常好的效果。
关键词: 商品评论;情感分析;SVM;LSTM 中图分类号: TP181 文献标识码: A DOI:10.3969/j.issn.1003-6970.2019.01.009 本文著录格式:彭丹蕾,谷利泽,孙斌. 基于 SVM 和 LSTM 两种模型的商品评论情感分析研究[J]. 软件,2019, 40(1):4145
第 40 卷 第 1 期
软件
自动分析某种商品评论的文本内容,发现人们对这 种商品的好评差评。现阶段在情感分析领域常用的 有基于情感知识的方法和基于机器学习的方法[2-4]。 基于情感知识的方法主要是利用一些已有的情感词 典和语言知识对评论的情感倾向进行分类,包括 SentiWordNet、General Inquire、POS tragger 等等。 它主要是以自然语言处理为基础,但因为现在 NLP 领域还存在着很多尚未攻克的难关。本文将研究基 于机器学习的情感分析方法,具体选择的是机器学 习中的支持向量机(Support Vector Machine, SVM)[5]。 随着深度学习目前已经在图像处理和语音识别等领 域得到了广泛地应用,它开始运用到情感分析研究 中。因此本文也将研究基于深度学习的情感分析方 法,具体选择的是深度学习中的长短时记忆网络 (Long Short-Term Memory,LSTM)[6]。通过 SVM 和 LSTM 结果对比,得出结论。
0 引言
随着电子商务的快速发展,网购已经被越来越 多的人接受。它在给人们带来方便体验、低价产品 的同时,也受到了由于无地域限制导致的购物质量 匮乏,远距离鉴别困难,商品在网站的描述信息与 现实实物不符等多种问题。所以,人们在网购某商
品时越来越依赖已购客户对此商品的评价。但由于 商品评论数量急剧增长以及内容五花八门,使得人 们很难迅速准确地获取有价值的信息。所以如何有 效挖掘处理这些评论显得非常重要。关于这方面的 研究有很多,其中一个重要方向就是对这些商品评 论做情感分析[1]。