中文网络客户评论的产品特征挖掘方法研究
中文在线评论中的商品特征聚类研究
第33卷第7期2016年7月计算机应用与软件Computer Applications and SoftwareVol.33 No.7Ju l.2016中文在线评论中的商品特征聚类研究秦成磊魏晓$(上海应用技术大学计算机科学与信息工程学院上海201418)摘要针对评论中蕴含的商品特征数目繁多且同一特征具有多种不同描述的情况,提出一种基于语义相似度的商品特征聚类 算法。
算法包括“分配”和“转移”两个过程。
“分配”过程对特征词进行聚类得到初始簇序列;“转移”过程依次遍历初始簇序列将 簇内可能存在的与其他簇语义相似度更高的特征词转移到对应的簇。
实验结果表明该算法聚类质量高、时间复杂度小且对数据输 入次序不敏感。
关键词 商品特征聚类特征聚类语义相似度评论挖掘中图分类号 TP3 文献标识码 A D01:10.3969/j.issn.1000-386x.2016.07.015RESEARCH ON COMMODITY FEATURES CLUSTERING INCHINESE ONLINE COMMENTSQin Chenglei Wei Xiao *(School of Computer Science and Information Engineering, Shanghai Institute of Technology, Shanghai 201418,China)Abstract I n light of the situation that in comments there are so many commodity feature numbers while multiple different descriptions are just for one f eature,we proposed a semantic similarity-based commodity features clustering algorithm.The algorithm includes two processes, the “allocation”and the “transfer”.The “allocation”process clusters the feature words t o get primary clusters sequence;and the “transfer”process traverses the primary clusters sequence in turn and transfers the feature words within a cluster which possibly have higher similarity in semantics as of other clusters t o the corresponding cluster.Experimental results indicate that the algorithm has complexity and i s insensitive t o data input order.Keywords Commodity features clustering Features clustering Semantic similarity Comment mining〇引言Godes David等[1]早在2204年针对服装、计算机、旅游等行 业的研究发现,有近半数以上的网购消费者在做出购买决定前 参考了该商品的评论信息。
挖掘中文网络客户评论的产品特征及情感倾向_李实
收稿日期: 2010-01-25; 修回日期: 2010-03-08 基金项目: 国家自然科学基金资助项目( 70971033) 作者简介: 李实( 1976-) ,女,黑龙江哈尔滨人,博士,主要研究方向为电子商务、商务智能( shishili@ gmail. com) ; 叶强( 1972-) ,男,教授,博士, 主要研究方向为商务智能、电子商务; 李一军( 1957-) ,教授,博士,主要研究方向为管理信息系统、决策支持系统等; 罗嗣卿( 1964-) ,男,副教授,硕 士,主要研究方向为管理信息系统等.
也有一些研究 人 员 采 用 了 其 他 方 法 实 现 这 一 功 能,比 如 Kobayashi 等人[4]采用了一个半自动化的循环方法提取产品特 征和用户观点,但是需要大量的人工参与; Popescu 等人[5]利用 研发的 KonwItAll 系统进行贝叶斯分类,从而提取产品特征,提 高 Hu 的准确率,但是查准率却有所下降。
由于网络评论的信息挖掘是噪声很大的领域,网络上的评 论大多由非专业人员写的,文献[9]指出对于评论作者这一传 播者的专业性对于网络评论这一口碑传播方式之一是具有很 大影响的。而且 不 论 是 数 量 还 是 风 格,网 络 上 的 评 论 变 化 很 快。由于网络客户评论的异步性[10],既有的知识库结构和内 容可能会带来一些延时性误差,需要人工参与的监督型方法对 于面向网络评论的挖掘都有所局限,特别是监督型方法对中文 评论进行挖掘,需要首先从语言学的角度对这种主观性的文本 进行研究,包括语料收集、分析语言规律、研究标注规范和方法 等。但在国内的研究中,这方面的基础研究还做得很少[6],所 以非监督型方法更为适合面向电子商务的中文评论产品特征 挖掘。
中文评论中产品特征挖掘的剪枝算法研究
长 ,信 息内容越来越庞杂 ,导致客户评论 中有用信息难 以获 取 。因此,迫切需要借助一定的技术手段使这一过程变得更
准确和便捷 。
评论挖 掘是一种以有效获取 网络用户评论信息为 目标 的 非结构化数 据分析技术 ,主要涉及情感分析、评论 中产 品特 征挖掘 以及 评论 中主观内容识别等 。在英文评论领域 ,研究
合, 设计邻 近规则剪枝算法和最小独立支持度剪枝 算法,并通过实验确定邻近规 则距离值和 最小独 立支持 度。实验结果表 明,这 2 种剪枝
算法 均能有效提高产 品特征挖掘 的查 准率和 查全率 。 关健 诃 :评论挖掘 ;关联规则 ;产 品特征 ;剪枝 ;非结构化信息 ;非监督学 习
Re e r h 0 u i gAl o ih f o u t a u eM i i g s a c n Pr n n g r t m 0 d c Pr Fe t r n n
中 分 号 9 . 田 类 t 36 C 1
中文评论 中产 品特征挖 掘 的 剪枝 算 法研 究
李 实。 ,李秋实
( 东北林业大 学 a 信息与计算机工程 学院;b 土木工程 学院,哈尔滨 104) . . 50 1 摘 要 :针对 中文 网络客户评论 中的产品特征 挖掘问题 ,提出一种基于 A r r算法 的非监 督挖 掘方法。利用 A r r算法挖掘候选特征集 poi i pii o
s o t a e p e ii n e a l fmi i t o ee e tv mp o e y t r p s d p n n l o t ms h w t r c son a d r c l o n ng me d a f c i ei r v d b wo p o o e r i g ag r h . h t h h r u i
基于中文在线评论的产品特征提取与情感分析研究
基于中文在线评论的产品特征提取与情感分析研究一、内容简述随着互联网的普及和发展,网络评论已经成为了衡量产品受欢迎程度和产品质量的重要指标。
然而由于网络评论中存在大量的虚假、重复和无关信息,因此对这些评论进行有效的特征提取和情感分析显得尤为重要。
本文旨在研究如何从中文在线评论中提取关键产品特征,以及如何对这些特征进行情感分析,从而为企业和消费者提供有价值的参考信息。
首先本文将对中文在线评论数据进行预处理,包括去除无关信息、停用词过滤和词干提取等。
接下来本文将尝试提取文本中的关键词、主题和观点等关键产品特征。
为了提高特征提取的准确性和可解释性,本文还将采用多种机器学习和自然语言处理技术,如文本分类、聚类、主题模型和情感词典等。
在完成特征提取后,本文将对这些特征进行情感分析,以了解用户对产品的喜好和不满。
为了实现这一目标,本文将采用情感词典构建方法,根据预先定义的情感极性对文本进行情感分类。
此外本文还将探讨如何利用深度学习方法(如循环神经网络和长短时记忆网络)进行更准确的情感分析。
1.1 研究背景和意义随着互联网的普及和发展,网络评论已经成为了人们获取信息、了解产品和企业的重要途径。
尤其是在电子商务领域,产品评论对于消费者购买决策具有重要的影响。
因此对产品评论进行有效的情感分析和特征提取,有助于企业更好地了解消费者的需求和喜好,从而提高产品质量和服务水平。
中文在线评论作为一种新兴的数据来源,具有丰富的信息量和较高的可信度。
通过对中文在线评论进行情感分析和特征提取,可以挖掘出潜在的市场机会和竞争优势,为企业的产品研发、市场营销和品牌建设提供有力支持。
同时这也有助于提高中文自然语言处理技术的研究水平,推动相关领域的发展。
然而目前针对中文在线评论的情感分析和特征提取研究还存在一定的局限性。
例如现有方法往往过于依赖于人工标注的数据集,难以覆盖大量的实际场景;此外,针对中文语境的特点,如歧义消解、词性标注等方面仍存在较多的技术挑战。
中文在线产品评论中“特征观点对”的挖掘方法
2019年12期(4月)摘要:文章主要针对中文在线产品评论进行研究,识别与抽取其中的基本评价单元———“特征、观点对”(Feature-Opin -ion Pair ,FOP ),提出基于语义词典的特征观点对提取方法。
先通过分词与词性标注产生实词序列,并保留其中特定的名词、动词、形容词与副词生成产品特征与观点词序列,再通过进一步的精炼与映射成为评论特征与观点词序列,最后运用匹配与抽取算法自动生成特征观点对。
实验结果表明,本方法的查全率约为87.62%,查准率约为79.44%,其性能与基线方法相比,有明显地提高。
关键词:在线产品评论;产品特征;特征观点对;语义一、引言随着口碑营销等新型营销模式的兴起,在线评论的挖掘受到越来越多的关注。
用户往往是根据产品的不同特征发表相应的观点,所以评论中的产品特征及其观点便成为反应用户对产品认知和评价的基本单元。
特征观点对的提取是挖掘评论商业价值的最重要一步。
现有的方法多为针对英文评论中特征观点对的提取。
英文评论句式固定、语法规范,而中文评论则存在口语化严重、语法不规范、语义模糊及主语缺失的特点,在一定程度上加大了评论挖掘的难度。
由于中文与英文在表达方式上的较大差别,英文评论挖掘的方法无法直接应用到中文评论中。
因此,本文主要针对中文产品评论中的特征观点对进行挖掘,在已有研究的基础上,提出基于语义词库的挖掘方法,并通过实验来验证该方法的有效性,最后再分类统计特征观点,实现评论信息的有效组织。
二、文献综述基于统计的方法利用基于统计的算法识别特征词,再采用邻近原则来判断相应的观点。
例如,Liu (2006)首先识别句子中的名词或名词短语,然后使用关联规则挖掘出频繁项作为产品特征,将离产品特征最近的形容词作为评论观点。
Scaffidi (2007)通过人工建立特定产品的特征集合来识别评论中的产品特征,再将与产品特征相邻的形容词作为评论观点。
Zhang 等(2010)通过条件随机场识别产品特征,再基于邻近原则与语法树识别与产品特征相对应的评价观点。
如何使用数据挖掘技术挖掘用户评论
如何使用数据挖掘技术挖掘用户评论使用数据挖掘技术挖掘用户评论随着互联网的普及和发展,用户评论已成为了人们获取产品和服务信息的重要途径。
然而,随着评论数量的不断增加,如何从海量的评论中提取有用的信息成为了一个挑战。
数据挖掘技术的发展为我们解决这个问题提供了新的思路和方法。
一、数据挖掘技术在用户评论中的应用数据挖掘技术在用户评论中的应用主要包括情感分析、主题提取和用户行为分析等方面。
1. 情感分析情感分析是通过对用户评论中的情感倾向进行分析,来了解用户对产品或服务的评价。
情感分析可以帮助企业了解用户对产品的满意度,发现产品的优点和不足之处,从而进行改进和优化。
通过情感分析,企业可以快速了解用户对产品的整体评价,为产品的改进提供方向。
2. 主题提取主题提取是通过对用户评论中的关键词和短语进行分析,来提取用户对产品或服务关注的主题。
主题提取可以帮助企业了解用户对产品的关注点,从而进行产品的定位和市场推广。
通过主题提取,企业可以了解用户对产品的需求和期望,为产品的研发和推广提供依据。
3. 用户行为分析用户行为分析是通过对用户评论中的行为数据进行分析,来了解用户的行为习惯和偏好。
用户行为分析可以帮助企业了解用户的购买决策过程,从而进行精准的市场推广。
通过用户行为分析,企业可以了解用户的购买偏好和购买动机,为产品的定价和促销策略提供参考。
二、数据挖掘技术在用户评论中的挑战尽管数据挖掘技术在用户评论中有广泛的应用,但也面临着一些挑战。
1. 数据量大随着互联网的普及,用户评论的数量呈指数级增长。
海量的评论数据给数据挖掘带来了巨大的挑战。
如何高效地处理和分析海量的评论数据成为了一个问题。
2. 数据质量差用户评论的质量参差不齐,有些评论存在虚假和恶意的情况。
如何过滤掉虚假和恶意评论,提取真实和有用的信息成为了一个难题。
3. 多样性和复杂性用户评论的多样性和复杂性给数据挖掘带来了困难。
用户评论涉及的领域和行业广泛,涉及的主题复杂多样。
从评论语料库中挖掘产品特征词论文(DOC 36页)
从评论语料库中挖掘产品特征词论文(DOC 36页)重庆科技学院毕业设计(论文)题目从评论语料库中挖掘产品特征词院(系)电子信息工程学院专业班级计科应2006-01 学生姓名程学伟学号2006540220 指导教师黄永文职称讲师评阅教师___ _ 职称___2010年 6 月 10 日注意事项1.设计(论文)的内容包括:1)封面(按教务处制定的标准封面格式制作)2)题名页3)中文摘要(300字左右)、关键词4)外文摘要、关键词5)目次页(附件不统一编入)6)论文主体部分:引言(或绪论)、正文、结论、参考文献7)附录(对论文支持必要时)2.论文字数要求:理工类设计(论文)正文字数不少于1万字(不包括图纸、程序清单等),文科类论文正文字数不少于1.2万字。
3.附件包括:任务书、文献综述、开题报告、外文译文、译文原文(复印件)。
4.文字、图表要求:1)文字通顺,语言流畅,书写字迹工整,打印字体及大小符合要求,无错别字,不准请他人代写2)工程设计类题目的图纸,要求部分用尺规绘3)4)5)重庆科技学院本科生毕业设计(论文)从评论语料库中挖掘产品特征词院(系)电子信息工程学院专业班级计科应2006-01学生姓名程学伟指导教师黄永文讲师2010年 6月 10日学生毕业设计(论文)原创性声明本人以信誉声明:所呈交的毕业设计(论文)是在导师的指导下进行的设计(研究)工作及取得的成果,设计(论文)中引用他(她)人的文献、数据、图件、资料均已明确标注出,论文中的结论和结果为本人独立完成,不包含他人成果及为获得重庆科技学院或其它教育机构的学位或证书而使用其材料。
与我一同工作的同志对本设计(研究)所做的任何贡献均已在论文中作了明确的说明并表示了谢意。
毕业设计(论文)作者(签字):年月日摘要随着web的广泛应用,用户购买和实用产品之后会在web上发表对产品的评论,这些评论中包含用户对产品性能或者功能等方面持有肯定还是否定的态度,生产厂商和用户对产品的评论的分析可以获得大量有用信息:生产厂商不仅可以了解用户对产品目前已经提供的性能的评价和产品的不足,还可以了解用户的需求,找出用户最感兴趣和最希望提供的功能,从而改进产品。
挖掘中文网络客户评论的产品特征及情感倾向
h l n fcu e n e vc rvd r i r v h i p o u t a d s r ie , n a nc mp t iea v n a e .T i p p r m・ ep ma ua t rs a d s r iep o i e s mp o et er r d cs n e vc s a dg i o ei v d a tg s h s a e t p p s d a p ra h b s d O p ir ag r h wh c n u e i d fau ee t ci n ag r h n u evs d s n i n n l- o e n a p o c a e n A r i l o t m ih u s p r s e t r xr t l o t m a d s p r ie e t o i v e a o i me t ay a sstc n l g or a i h u i h o o y t e l e t e s mmey i fr t n o u tme e iws n h n r n e h o k f au e n p no sb s d e z r no mai f so rrv e .A d t e a k d t e w r e t r sa d o i in a e o c
李 实 叶 , 强 李一军 罗嗣卿 , ,
(. 1 东北林业 大 学 信 息与计算 机工程 学 院, 尔滨 104 ; . 尔滨 工业 大学 经济与 管理 学院 , 尔滨 100 ) 哈 500 2哈 哈 50 1 摘 要 :为探 索 中文客 户评论 中的产 品特征及 相关情 感倾 向的挖 掘 , 以帮助 生产 商和服 务 商改 进产 品 、 改善 服
务 , 高竞 争力 , 出采 用基 于 A ff算法 的非监督 型产品特征挖 掘 算 法 , 提 提 po ii 结合监 督 型情 感分析 技 术 , 实现对 于
修正中文评论挖掘中产品特征词序的实验研究
第2 1期
2 1 7月 0 2年
科
学
技
术
与
工
程
Vo. 2 No 2 J 1 0 2 11 .1 u .2 1
17 一 11 (0 2 2 - 1 10 6 l 8 5 2 1 、 15 8 .6
S inc c oo y a gne rn ce e Te hn lg nd En i e g i
当然 网络评 论作 为 网络 口碑 的一 种 形 式 , 具 还
有 它本 身所 特有 的 问题 , 研 究 根 据 国 内外 相 关 领 本 域学 者 的观 点 综 合 而 网 络 客 户评 论 挖 掘 技 术 的难
点 主要在 以下 几个 方面 :
许客 户 针对 不 同 的产 品 进 行讨 论 , 这使 得 对 于评 论
客户 对 于他 们产 品 或 者 服务 的更 多 的反 馈 , 样 可 这 以改 进 服 务 , 升 产 品 , 而 提 高 市 场 竞 争 力 。例 提 从 如 图 1 是利 用用 户评 论 中的产 品特征 和客 户观 点 就
总结 出来 的直 观 图。其 中对 于 产 品 的 喜 好 , 以至 于 对 于 产 品某 一 属性 的喜 好 , 以提 供 给 他 们 更 为具 可
关键词
产 品特征
We b挖掘
情感分析
用 户评论
中图法分类号
T 3 13 P 1 ; P9. 31 T
文献 标志码
B
随着 电子商 务 的 日益 广 泛 的应 用 , 速 地 创 新 飞
发展 , 网络 已经成 为 收集 客户 对 于产 品和 服 务 观 点
内容主要从客户评论信息中挖掘有用的信 息, 包括
中文产品评论的意见挖掘研究论文
硕士学位论文中文产品评论的意见挖掘研究Research on Opinion Mining of Product Reviews in Chinese作者:严孙荣导师:瞿有利北京交通大学2010年5月学位论文版权使用授权书本学位论文作者完全了解北京交通大学有关保留、使用学位论文的规定。
特授权北京交通大学能够将学位论文的全部或部分内容编入有关数据库进行检索,提供阅览服务,并采纳影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。
同意学校向国家有关部门或机构送交论文的复印件和磁盘。
(保密的学位论文在解密后适用本授权讲明)学位论文作者签名:导师签名:签字日期:年月日签字日期:年月日中图分类号:TP391.3 UDC:620学校代码:10004密级:公开北京交通大学硕士学位论文中文产品评论的意见挖掘研究Research on Opinion mining of Product Reviews in Chinese 作者姓名:严孙荣学号:08120510导师姓名:瞿有利职称:副教授学位类不:工学学位级不:硕士学科专业:计算机科学与技术研究方向:自然语言处理北京交通大学2010年5月致谢本论文的工作是在我的导师瞿有利副教授的悉心指导下完成的,瞿有利副教授严谨的治学态度和科学的工作方法给了我极大的关心和阻碍。
在此衷心感谢两年来瞿有利老师对我的关怀和指导。
尹传环老师悉心指导我们完成了实验室的科研工作,在学习上和生活上都给予了我专门大的关怀和关心,在此向尹传环老师表示衷心的谢意。
王志海和田盛丰教授关于我的科研工作和论文都提出了许多的宝贵意见,在此表示衷心的感谢。
在实验室工作及撰写论文期间,张美珍、张彦博和张尚超等同学对我论文中的意见挖掘研究工作给予了热情关心,在此向他们表达我的感激之情。
另外也感谢女朋友符蓉,他们的理解和支持使我能够在学校用心完成我的学业。
严孙荣2010年5月于北京摘要随着电子商务的迅猛进展,用户购买和使用产品之后会在Web 上发表对产品的评论,产品评论的自动挖掘关于商家和潜在的消费者有着重要意义。
网络评论方面级观点挖掘方法研究综述
观点列表
基于关键词分析的结果,我们可以将网络评论的观点分为积极、消极和中性 三种。积极观点通常包含褒义、赞扬、认同等词汇,而消极观点则包含批评、不 满、反对等词汇。中性观点则不包含明显的情感色彩,可能是一些客观的描述或 者事实陈述。在列出观点的同时,我们也将对每个观点进行阐述和解释,以便更 好地理解用户的意图和态度。
例如,政府可以实时监测民众对社会热点问题的看法和态度,以便做出及时 有效的应对措施。
五、未来展望
随着中文Web评论观点挖掘技术的不断发展和应用场景的扩大,未来的研究 方向和发展前景值得期待。首先,随着深度学习技术的进步,可以预见该领域的 研究将更多地于构建更加复杂和精准的模型,以提高情感分析和观点挖掘的准确 性。其次,中文分词、词性标注等自然语言处理技术的进一步优化和完善,将有 助于更好地理解和处理中文文本。
此外,如何将观点挖掘技术应用于更多的领域和场景,也是未来研究的重要 方向。例如,在医疗健康领域,对患者的评论进行分析,有助于了解患者的病情 和需求,从而提供更加个性化的医疗服务。
总之,中文Web评论观点挖掘关键技术的研究和应用前景广阔。通过深入挖 掘用户评论中的情感信息和观点立场,可以为企业、政府和社会各界提供更加准 确、及时和有用的决策支持。在未来的研究中,需要不断探索新的技术和方法, 以适应不断变化的应用需求和挑战。
网络评论方面级观点挖掘方法 研究综述
目录
01 网络评论挖掘的研究 现状和发展历程
02
级观点挖掘的方法和 技术研究
03
基于不同数据集的实 验对比和分析
04
论文成果和不足以及 未来研究方向
05 参考内容
随着互联网的快速发展,网络评论已经成为人们表达意见和观点的重要渠道。 在这个信息爆炸的时代,如何高效地挖掘和分析网络评论中的观点和情感,成为 了研究热点。本次演示将综述网络评论方面级观点挖掘方法的研究现状、应用场 景、挑战以及未来研究方向。
顾客评论观点的特征挖掘
顾客评论的特征挖掘摘要商人在网上出售商品后请求顾客对产品和相关服务进行评论是一种常见做法。
随着电子商务越来越热门,一件商品得到的顾客评论数目也变得越来越多。
对于一件热门商品,评论的数目可能是成百上千。
这使得有购买意愿的顾客通过阅读产品评论来决定是否购买变得非常困难。
在这个课题里面,我们意在总结出一件商品的所有评论。
这种总结不同于传统的文本总结因为我们只对产品的某些属性关于顾客发表的评论及这些评论是否有用感兴趣。
我们不会像传统的文本总结通过选择或重写一系列评论中的句子来捕捉要点。
在这篇论文中,我们只集中于挖掘已有的产品评论的特征。
大量的技术方法会被应用于挖掘,我们的实验结果会展示出这些方法非常有效。
介绍随着电子商务的迅速膨胀,越来越多的产品通过网上销售,越来越多的人选择网上消费。
为了掌握顾客的满意度和他们的购物经验,商家选择让网上顾客通过评论或表达关于对他们购买的产品的意见。
随着越来越多的网上使用者,写评论的人数不断增加。
这导致,产品评论的数目增长越来越块。
一些热门商品在一些大的消费网站上得到的用户评论成百上千。
这使得对于想要购买的顾客通过阅读评论来决定是否购买变得非常困难。
在这篇研究中,我们意在研究网上售出商品的基于商品特征的顾客评论的总结的有关问题。
这个任务被呈现出2步:1.定义顾客评论的产品特征和根据出现在评论中的特征的频率进行排名。
2.对于每一个特征,我们分辨出有多少顾客评论是积极的或者消极的意见。
这些区别的评论和表达的类似观点将附属于这类特征。
这些将有助于潜在顾客的浏览。
我们给出简单的例子的说明。
假设我们总结了一款特定的数码相机(相机1)的评论,总结的结果如下:相机1:图形质量:积极的:253消极的:6大小:积极的:134消极的:10…图形质量和大小作为评论的特征。
有253位顾客的评论表达了图形质量的积极的观点,只有6位表达了消极的观点。
个人评论意见被指向区分的观点,给出关于一类特征的积极或消极的评论。
用户评论中的产品特征抽取方法研究
l引 言
繁 的候 选 特 征 词 . 再 利 用 修 剪 规 则 对 候 选 特 征词 进 行 过 滤 处 理 ,特 征词 抽 取 获 得 了较 高 的 召 回率 ,但 准 确 率 较 低 。 P o p e s c u和 E t z i o n i 等掰 也 是 先 抽 取 频 繁 的 名 词 和 名 词 短 语 作为候选 产品特征 . 然 后 再 计 算 候 选 特 征 与 产 品 类 别 的 点
第 2 2卷 第 6期
V0 1 . 2 2 N o . 6
鄂
州 大
学
学
报
2 0 1 5年 6月
J u n . 2 0 1 5
J o u r n a l o f Ez h o u Un i v e r s i t y
用户评 论 中的产 品特征抽取方法研 究
徐 凯 . 周 先 琳
( 1 . 合 肥 工 业 大 学 管理 学 院 , 安 徽 合肥 2 3 0 0 0 9 ;2 . 教 育 部过 程 优 化 与 智 能 决 策 重点 实验 室 , 安 徽 合肥 2 3 0 0 0 9 )
摘 要 : 产品 特 征 抽 取 是 产 品 评 论挖 掘 中的 关键 一 步 , 针 对 现 有 产品 评 论 挖 掘 方 法 对 产 品特 征 抽 取 的 不 足 。 提 出 了一 种
A p r i o r i 算 法和 文本 模 式 相 结合 的 产 品 特征 抽 取 方法 , 并 运 用特 征 修 剪 算 法 对 候 选 产 品 特 征进 行 过 滤 。 实验 结 果表 明 , 该 方 法 具有较好的效果。
关 键 词 :特征 抽 取 ; 产品评论 ; A p i f o i算法; f 文 本模 式 中图 分 类 号 :T P 3 9 l 文 献 标 识 码 :A 文章 编 号 :1 0 0 8 — 9 0 0 4 ( 2 0 1 5 ) 0 6 — 0 1 0 7 — 0 3
中文在线评论的产品特征与观点识别:跨领域的比较研究
管 理 工 程 学 报 J o n ma l o f I n d u s t r i a l E n g i n e e r i n g / E n g i n e e i r n g Ma n a g e me n t
2 0 1 7年 第 4期
词之 间 的 关 系 [ ” 】 。
各种算法 的性 能及 其适用范围 ,尚无定论 。特别是,算 法的鲁棒性及可移植 性,都不 尽理想 。究其原因 ,是缺乏基 于统一 的有代表 性语 料的跨领域对 比研 究。另外 ,现 有算法 大多基于英文语境 ,由于语 言结构 的差异 ,针对英文 的识 别
用户会借助在线评论对产 品的各种特征发表 意见 。有 效识别 产生较 多无 关特征 ,同时 容易丢失非频 繁产品特征 。另外 ,
基于规则 的特征挖掘算 法[ I 7 】 根据构 成句 子的词汇规则 , 提取类似于“ 形容词修饰名词” 的句法 结构 ,被修饰 的名词为 候选产品特征 ,形容词则为特征观点 。这种方 法并没有区分 频繁特征和非频繁特征 ,后来 的改进 之一是依据关联规则挖 掘算法来识别产 品特征【 3 ] 。 基本 思路是人们通 常使 用相 同的 词来描述产 品特征 ,因此频 繁名词项更 有可能是产 品特征 , 而非频繁名词项则不太可 能是产 品特 征。然后采用频繁项集 挖掘算法口 】 进行紧凑剪 枝和 冗余剪枝 。基于本体 的算法 也采 用了类似 的模式[ 1 o , n ] , 根据 We b语义识别产 品特征 以及 用户 】 。类似 的,混合识别模式也被用来识别观 点词和 背景 基于规则的算法大多忽视 了语 言的使用 习惯 ,因此 有研 究提 出具有语法格式的关联规则挖掘算法[ 1 4 - 1 6 ] 。根据英 语使 用 习惯 , 把 英文 语法规则提取为 5类 , 例如“ C P+w i t h+NP ” , 其中“ C P ” 代表整体概念词 , ‘ ' N P ” 代表部分特证词 ,典型 的例
中文网络产品评论中的评价对象抽取方法研究的开题报告
中文网络产品评论中的评价对象抽取方法研究的开题报告一、题目中文网络产品评论中的评价对象抽取方法研究二、研究背景随着互联网技术的发展和全民网络化的趋势,越来越多的人在网络上进行产品消费,网络产品评论也因此成为影响消费者购买决策的重要因素。
然而,众多网络产品评论的复杂多样性给消费者带来了困扰,其中最关键的问题就是如何快速准确地抽取出评论中的评价对象,即消费者对于某款产品所涉及的具体物品、机构、人员等信息,对于评价对象的准确抽取,有助于消费者更快速、更准确地了解产品的性能和特征,从而更好地进行购买决策。
因此,本研究旨在通过深入分析中文网络产品评论,并运用自然语言处理技术,提出一种有效的评价对象抽取方法,为消费者提供更好的产品购买体验。
三、研究目的本研究的主要目的是:1.了解中文网络产品评论的基本特征和评价对象抽取方法的研究现状;2.提出一种基于自然语言处理技术的中文网络产品评论评价对象抽取方法,并通过实验验证其准确性和有效性;3.为网络消费者提供更可靠、更快速、更准确的评价对象信息,提高消费者对产品的认知度和购买效率。
四、研究内容及方法本研究将主要从以下几个方面展开:1.中文网络产品评论的基本特征和评价对象抽取方法的研究现状分析,包括文本前处理、特征选择、对象分类等技术,研究目前主流的方法,比较各种方法的优缺点。
2.提出一种基于自然语言处理技术的中文网络产品评论评价对象抽取方法。
首先,使用分词技术将评论文本进行处理,去除无关词汇,提取出关键词。
然后,通过规则匹配、机器学习等方法来识别评价对象,实现快速准确的抽取。
3.针对提出的方法,对其进行实验验证,获得其准确度、召回率和F1值等评价指标,并与现有方法进行比较和分析。
五、研究意义本研究意义在于:1.对中文网络产品评论评价对象抽取方法进行深入研究,提高抽取评价对象的准确性和效率,为消费者提供更好的购买体验。
2.促进互联网社会的健康发展,提高网络产品消费的质量和效率,引导消费者进行理性消费。
中文网络评论中提取产品特征的研究
中文网络评论中提取产品特征的研究祖李军;王卫平【期刊名称】《计算机系统应用》【年(卷),期】2014(000)005【摘要】大量的网络评论已经成为挖掘用户意见、改进产品质量的重要信息来源,而特征抽取作为后续分析的基础,直接影响到最终意见挖掘结果的准确性。
本文提出了一种PMI-Bootstrapping算法,并结合了语言规则实现中文网络评论的产品特征抽取。
首先利用语言规则产生候选特征集,计算每个候选特征与初始给定种子集的加权平均互信息,将满足阈值的候选特征添加到种子集中,如此循环迭代,直到种子集合收敛,输出排队后的种子集合作为抽取结果。
实验证明,该算法取得良好的准确率和召回率。
%Now online reviews have become an important resource for mining users’opinion and refining products. As a foundation of further analysis, features extraction influences the precision of the opinion mining results. This paper proposes a PMI-Bootstrapping algorithm which realizes extracting product features from Chinese online reviews by combining three language rules. First, utilize the language rules to get a candidate feature set. Then, calculate the weighted average PMIfor each candidate feature with the seeds in the initial seed set. Add the candidate feature which satisfies the threshold to the seed set. Iterate until the seed set is convergent. Output the seed set as the extraction result. Experimental results show that the algorithm achieved very good precision and recall rate.【总页数】6页(P196-201)【作者】祖李军;王卫平【作者单位】中国科学技术大学管理学院,合肥 230026;中国科学技术大学管理学院,合肥 230026【正文语种】中文【相关文献】1.中文网络评论中的产品特征情感倾向提取算法研究 [J], 王永;陶娅芝;张勤2.中文网络评论的产品特征提取及情感倾向判定 [J], 任远远;王卫平3.中文网络评论的隐式产品特征提取方法研究 [J], 陈可嘉; 骆佳艺4.一种Windows10中文用户输入痕迹信息提取方法研究与实现 [J], 周凯5.中文文本分类中基于词性的特征提取方法研究 [J], 胡燕;吴虎子;钟珞因版权原因,仅展示原文概要,查看原文内容请购买。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
① 收稿日期 : 2007 - 11 - 23; 修订日期 : 2008—04—25. 基金项目 : 国家自然科学基金资助项目 (70771032, 70501009) ; 香港理工大学研究基金资助项目 ( G - YX93). 作者简介 : 李 实 (1976—) , 女 , 黑龙江哈尔滨人 , 博士生. Email: shishili@ gmail. com
但是 ,随着网络评论数量的飞速增长 ,庞杂的 信息使得人工方法难以获得全部客户评论中的有 用信息. 因此 ,迫切需要借助一定的技术手段来使 这一过程变得更为便捷. 近来 ,以有效获取网络用
户评论信息为目标的非结构化数据分析技术 ——— “评论挖掘 ”吸引了很多学者关注 [ 4 ]. 评论挖掘作 为非结构化信息挖掘的一个新兴领域 ,主要涉及 网络评论情感倾向的分析 ,评论中产品特征的提 取 ,以及评论中产品比较信息挖掘等等 [ 5 ~ 8 ]. 消 费者可以借助于评论挖掘工具了解产品的性能和 其他用户对该产品的态度 ;同时 ,网络客户评论作 为反馈机制 ,可以为销售商和生产商提供哪些产 品特征是客户所关注的以及客户对于产品的情感 倾向分布等信息 ,从而可以帮助企业改进产品 、改 善服务 ,获得竞争优势. 面向网络用户评论的产品 特征提取研究 ,作为评论挖掘的研究方向之一 ,旨 在从客户评论中挖掘出备受关注的产品特征信 息 ,并且总结基于这些产品特征的观点 ,依靠情感 分类 ( sentim ent classification) 技术自动得出用户 对各个属性的态度倾向 ,从而可以为用户提供更 为具体和有价值的信息 [ 9 ]. 在英文世界的评论挖
基于机器学习的情感分类方法在针对每一种 产品使用前 ,都需要用大量的训练样本对分类模 型进行训练 ,而训练样本集的建立则需要采用人 工方法对大量的评论文章逐一阅读甄别 ,并进行 手工标识 ,这与利用自动情感分类降低人的阅读 负担这一初衷还有着一定的差距. 因此 ,近来许多 研究者将情感分析研究的重点集中在对训练样本 的需求量较低的语义方法上. Turney[ 6 ]最早提出 了基于 PM I2IR算法的语义情感分类思想 ,该方法 将点互信息 ( PM I)与信息汲取方法 ( IR )相结合 , 借助搜索引擎的后台数据库获得语义倾向信息 , 从而做出情感判断 ,得到汽车评论的准确率是 84% ,电影评论的准确率是 66%. 其可靠性已经 在英文客户情感分类的研究中得到了初步的验 证. 2003 年 , D ave[ 20 ] 利 用 该 方 法 对 亚 马 逊 (Amazon)和 C2Net等网上商店的客户评论进行 了情感分析 ,再次验证了该方法的性能. Zhou[ 15 ]
第 12卷第 2期 2009年 4月
JOURNAL
管 理 科 学 学 报 OF MANAGEM ENT SC IENCES
IN
Vol. 12 No. 2
CH INA
Ap r. 2009
中文网络客户评论的产品特征挖掘方法研究①
李 实 1 , 叶 强 1, 2 , 李一军 1 , Rob Law2
(1) 文化差异导致语言表达方式不同. 正如 Rosenzweig[ 11 ]曾指出的 ,文化差异将导致管理研 究的不等价性 ;而网络评论这一文本的风格毋庸 置疑和商品评论的撰写者 ———客户的文化背景深 刻相关 [ 12 ] .
(2) 语言结构的差异. 例如 ,英语中的单词是 自然分开的 ,而中文评论的分析首先要进行分词 处理 ;
(1. 哈尔滨工业大学管理学院 , 哈尔滨 150001; 2. 香港理工大学 , 中国香港 100085)
摘要 : 随着互联网的广泛应用 ,在 B log、BBS、W iki等网络站点中出现了大量的针对商品或服 务的客户评论 ,这些客户评论中所包含的丰富信息 ,对企业管理具有重要的价值. 通过数据挖 掘算法对客户针对某一产品的大量评论进行分析 ,可以挖掘出这些产品的主要特征 ,并有望进 一步发现客户对这些特征的意见和态度. 在英文世界中已经有学者开始对这一研究进行探索 , 然而由于语言结构等方面的差异 ,英文的研究成果尚无法直接应用于中文客户评论的挖掘中. 本研究针对中文的特点 ,提出了面向中文的客户评论挖掘方法. 该方法基于改进关联规则算法 实现了针对中文产品评论的产品特征信息挖掘. 本研究采用通过互联网获得的针对手机 、数码 相机 、书籍等 5种产品的评论语料 ,对该方法进行了数据实验 ,实验结果初步验证了该方法有 效性. 关键词 : 用户评论 ; 产品特征 ; 关联规则 ; 数据挖掘 中图分类号 : TP311 文献标识码 : A 文章编号 : 1007 - 9807 (2009) 02 - 0142 - 11
1 相关研究背景
近年来在客户关系管理的研究中有学者强调 客户感知利失在影响顾客满意 、品牌忠诚和 CRM 效果中的作用必将逐渐增大 [ 13 ]. 而目前网络经济 时代中 ,从网络评论中挖掘客户的感知利失信息 是新兴起的研究领域. 对于网络评论的挖掘问题 , 学者 Popescu[ 4 ] 明确将其分为以下几个子任务 :
0 引 言
过去十几年中 , Internet技术与应用的快速发 展不仅给企业的业务流程带来了巨大的变革 ,也 对消费者的行为模式产生了深刻的影响. 一方面 改变了消费者表达对于产品观点和看法的方 式 ———他们可以在销售网站 ,网络论坛 ,讨论小 组 ,以及博客 (B log)中撰写产品评论 ;另一方面这 些产品的“口碑 ”也反过来影响其他消费者做出 购买决策 [ 1, 2 ]. DoubleC lick Inc. 进行了针对美国 服装业 、计算机硬件设备业 、运动健身产品行业及 旅游业网络客户的研究 [ 3 ] ,发现这些行业中 ,近 一半以上的互联网用户做出购买决定前 ,会在互 联网上搜索有关产品介绍及商品评论等信息.
(3) 中英文词汇语法的差别. 与英文评论相 比较 ,中文词性标注算法更为复杂 ,词性标注工具 本身的研究还在不断完善中.
本文正是在中英文语言差异存在的条件下 , 探索中文网络客户评论的产品特征信息提取技 术. 通过对基于关联规则的产品特征挖掘方法进 行原理创新和技术拓展 ,把目前主要面向英文的 评论挖掘方法拓展到中文世界 ,从而解决中文环 境下 ,如何对客户评论中所蕴含的产品特征信息 进行自动挖掘的问题. 该方法的应用 ,将有望帮助 企业和客户在商务过程中更便捷地获取其他客户 对相应产品或者服务的反馈信息.
© 1994-2010 China Academic Journal Electronic Publishing House. All rights reserved.
— 144 —
管 理 科 学 学 报
2009年 4月
利用电影评论数据对基于语义倾向的情感分类方 法和基于机器学习的情感分类方法进行了对比分 析 ,发现语义方法的结果与机器学习方法具有相 似性. 上述研究均证实了该语义倾向的客户情感 分析方法的有效性. 除此之外 ,还有一些学者采用 由普林斯顿大学开发的英文词网 (wo rdnet) [ 21 ]进 行英文语义方法的情感分析 ,也取得了较好的分 析结果 . [ 22 ] L iu[ 5 ]等在对于产品特征挖掘后 ,针对 某一特征的情感导向分析正是利用了英文词网中 对于词的语义关系定义.
© 1994-2010 China Academic Journal Electronic Publishing House. All rights reserved.
第 2期
李 实等 : 中文网络客户评论的产品特征挖掘方法研究
— 143 —
掘领域 ,研究者已经初步取得一些成果 ,而针对中 文网络用户评论的研究还处于起步阶段. 随着我 国网络用户群的不断壮大 ,中国电子商务的发展 也逐渐为世界所瞩目. 截至 2007年 12月 ,中国网 民人数已经达到 2. 1亿 ,预计 2008年将超过美国 成为世界第一 [ 10 ]. 不断增长的中文评论已经成为 互联网上一个重要的组成部分 ,为了给企业和个 人提供更为方便的工具 ,自动化和智能化地挖掘 中文评论中的有价值信息是非常必要的. 但是由 于中英文语言存在着较大的差异 ,目前针对英文 评论的研究成果很多无法直接应用于中文评论. 这些差异主要根源在如下一些问题上 :
而由于语言结构的差别 ,现有的面向英文客 户评论情感分类的语义方法 ,无法直接用于中文 客户评论的情感分类. 叶强 ,李一军等探索了中文 环境下的情感分析理论与方法 ,在 PM I2IR方法基 础上 ,初步建立了中文语义倾向情感分析方法 ,并 分别将中文搜索引擎 www. Google. com 和 www. B aidu. com 提供的 AP I集成于实验平台中 ,对手 机 、图书 、电影的中文客户评论进行分析上的应用前景 [ 23 ~ 26 ]. 另 外 , Yao[ 27 ]等在研究中提出了使用电子汉英翻译 词典结合英文词网的方法 ,也是对中文评论情感 分析的一个有益尝试. 1. 2 网络客户评论的主客观分析
用户的情 感 倾 向 主 要 是 通 过 主 观 句 来 表 达 的 ,所以在现有的评论挖掘技术中 ,主观性模式的 自动 识 别 与 判 断 是 非 常 重 要 的 基 础 性 技 术. W iebe等 [ 14 ]针对英文主观情感识别进行了研究 , 选择某些词类 (代词 、形容词 、序数词 、情态动词 和副词 ) 、标点和句子位置作为特征 ,实现对主观 句识别的平均准确率 72. 17%. R iloff等 [ 28 ] 利用 boot2strapp ing算法学习得到了 1052 个主观性名 词 ,单独使用主观性名词为特征 ,采用朴素贝叶斯 分类器对主观句识别的查准率为 77% ,查全率为 64% ;如果加上先前确定的主观线索 (来自词典 和已有的研究结论 )和句子的背景信息 ,那么分 类器对主观句判断的查准率和查全率分别能达到 81%和 77%. R iloff和 W iebe[ 29 ] 进一步提出了从 未经过人工标注的文本中自动提取主观句的方 法. 他们依靠先前研究中确定的主观特征 ,分别建 立了主观分类器和客观分类器 ,自动从未标注的 文本中获得大量主观句 (查准率为 91. 5% ,查全