基于网络的评论褒贬分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第21卷第3期苏州市职业大学学报V ol.21,No.3 2010年9月Journal of Suzhou V ocational University Sep., 2010
基于网络的评论褒贬分析
许璐蕾
(苏州市职业大学 计算机工程系,江苏 苏州 215104)
摘 要:针对网络中主观感情色彩的评论性文本进行处理可以获得有用的意见、结论.介绍文本倾向性分类技术,并基于该技术分析网络中对商品的评论信息.提出构建商品评价模型的方法.
关键词:文本分类;情感词;文本倾向性;机器学习
中图分类号:TP393文献标志码:A文章编号:1008-5475(2010)03-0056-04
Analysis of Comments on the Web
XU Lu-lei
(Department of Computer Engineering, Suzhou Vocational University, Suzhou 215104, China) Abstract: The processing of subjective comments on the web yields useful opinions and conclusions.
The paper introduces text tendency classification technology, on the basis of which web comments on the merchandise are analyzed and merchandise evaluation model is proposed.
Key words:text classification; emotional words; text tendency; machine learning
在Web2.0得到应用的今天,人们的生活和网络越来越紧密相连.特别是像当当、卓越、淘宝等电子商务网站的盛行,使得在家中购物从可能走到现实.人们已经习惯在网络上寻找自己的商品,或者对自己使用的商品发表一些评论.即使人们准备出门去商场购买一部手机,也会很自然地先去网上探寻一番.
尽管如此,大家得到的信息还只是分散在网络中的主观性文本,而且褒贬不一,对人们的帮助并不大.如何从这些观点信息中得到对某些商品的比较有意义的评价,需要对这些观点的倾向性进行分析[1].在文本倾向性分析技术的帮助下,可以快速的获得商品的综合评价.
1 语言资源
文本褒贬分析的语言资源主要是语义词典和标注数据集.其中,英文词典包括General Inquirer 词典、WordNet等.中文词典包括知网语义词典(HowNet)、同义词词林词典.
General Inquirer(GI)词典是1996年开发的,其中部分词汇手工标注了正面或负面属性,是英文文本褒贬分析研究中常用的基础资源之一.WordNet按照单词的意义组成一个表示词汇概念的词集,每个词集又有若干个指针分别指向上位、下位、反义、部分等关系的词,从而构成一个词汇语义的网络体系.知网是一个以汉语和英语的词语所代表的概念为描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库.知网基于汉语中最基本的、不易于再分割的最小语义单位“义
收稿日期:2010-04-14;修回日期:2010-04-27
作者简介:许璐蕾(1979-),女, 江苏苏州人,讲师,主要从事计算机网络研究.