基于半监督学习的微博情感分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
∗ 收稿日期:2018 年 3 月 13 日,修回日期:2018 年 4 月 25 日 基 金 项 目 :广 东 省 自 然 科 学 基 金 项 目(编 号 :2016A030307049);大 学 生 创 新 创 业 训 练 项 目(编 号 :201611656002, 201611656029,2016pyA033)资助。 作者简介:陈珂,男,硕士,教授,研究方向:数据挖掘与机器学习。黎树俊,男,研究方向:Web 数据挖掘。谢博,男,研 究方向:文本挖掘。
Abstract Chinese Micro-blog sentiment analysis refers to use Micro-blog text for emotional automaticclassification. In the large-scale Chinese micro-blog short text classification,there is a time consuming and poor consistency problem. In order to solve above problems,this paper uses semi-supervised emotion classification based on multiple classifier integration on self-training to classify. On the basis of emotion marked sample on a small scale,multiple classifiersin classification prediction is used. The confi⁃ dence of classification by setting the weight contribution of the subclassifier. High confidence level samples are chosen to expand the training set,update training model,so as to improve the efficiency and accuracy of sentiment classification. In this paper,com⁃ pared with traditional semi-supervised emotional analysis method,the experiments show that this algorithm has higher efficiency and accuracy.
Vol. 46 No. 9 1850
计算机与数字工程 Computer & Digital Engineering
总第 347 期 2018 年第第469 卷期
基于半监督学习的微博情感分析∗
陈 珂 黎树俊 谢 博
(广东石油化工学院计算机科学与技术系 茂名 525000)
摘 要 微博情感分析指利用微博文本进行情感的自动分类。在对大规模的中文微博短文本进行分类时,存在着耗时 长和一致性差等问题。针对以上问题,论文采用基于多分类器集成的 self-training 的半监督情感分类方法。在小规模的情 感标注样本的基础上,使用多个分类器参与分类预测,通过设置子分类器的情感贡献权重来得到分类的情感置信度,选出置 信度高的样本来扩大训练集,更新训练模型,从而提高情感分类的效率和准确性。并于传统的半监督情感分析方法进行比 较,实验证明,论文算法具有更高的效率和准确性。
关键词 情感分析;半监督学习;分类器集成 中图分类号 TP391.1 DOI:10. 3969/j. issn. 1672-9722. 2018. 09. 031
Sentiment Analysis of Chinese Micro-blog Based on Semi-Supervised
CHEN Ke LI Shujun XIE Bo (Department of Computer Science and Technology,Guangdong University of Petrochemical Technology,Maoming 525000)
2018 年第 9 期
计算机与数字工程
Hale Waihona Puke Baidu
1851
实际应用中,微博的数据容易获得但它并没有情感 标注,所以它需要大量的人工来标注样本,其工作 量大大增加,降低其工作效率。面对这种情况,半 监督学习方法[4~5]解决办法。半监督学习是利用少 量已标注的样本和大量未标注样本来进行有效的 情感分类。本文就是利用基于分类器集成的 self-training 半监督学习方法来分析微博的情感倾 向。在半监督学习中,对于已标注文本数量比较少 时,集成分类器能比较好地判定样本的情感倾向, 其预测的能力比单个分类器的能力要强,子分类器 的意见越统一,说明置信度越高,分歧越大,说明置 信度越低。这样进行情感分类准确率更高。这方 面也有不少的人进行研究[6~7],得到可观的分类效 果。子分类器并不是越多越好,子分类器太多不但 增加计算的复杂性,也增加了时间复杂度。根据训 练集的大小和分类器的分类特点,合理地选择分类 器起到关键的作用。
数据来进行产品的生产调整和改进营销策略,政府 可以利用这些数据了解民意,进行舆论监督,合理 地进行制度的改进和提高工作效率。
所谓微博情感分析,也就是对用户情感倾向的 判定。如今情感分类的方法很多,典型的方法有基 于情感词典的分类方法[1~2],该方法不需要任何标 注样本,但是其性能并无明显优势。比较流行的分 析算法有监督学习方法[3],它是利用大量已经有情 感标注的样本来训练分类器,其准确性高,但是在
Key Words sentiment analysis,semi-supervised learning,classifier integration Class Number TP391.1
1 引言
随着互联网的发展,作为社交应用的微博,已 经逐渐改变人们的交流方式。微博的注册用户已 经超过 5 亿,每天的微博发博量超过 1 亿条,这些庞 大的数据蕴含着很高的价值,其中包含着用户的情 感和观点。通过对这些数据的分析,可以了解用户 对某个事件的看法和观点,对某种产品的评价与满 意度和对热门事件的态度倾向,企业可以利用这些