HITIRSYS情感分析系统

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

句子 文本
哈哈工工大大社社会会计计算算与与信信息息检检索索研研究究中中心心
句子 极性
9
主干分析
主干成分
句子中可以强调、概括和汇总整个句子语义的 成分
领域
句子内容
汽车领域
(1)这款车的离合匹配感觉有些不习惯, (2)但是稳定还是非常不错的
10
哈哈工工大大社社会会计计算算与与信信息息检检索索研研究究中中心心
有指导的方法
训练数据 特征提取 分类器的选取
12
哈哈工工大大社社会会计计算算与与信信息息检检索索研研究究中中心心
自动获取训练数据
京东评论数据
数据格式
自动获取策略
4分、5分评论 优点 => 褒义句 1分、2分评论 缺点 => 贬义句 50000褒义句、50000贬义句
5 分表示强烈褒义,1 分表示强烈贬义
两方面影响因素
篇章文本的词语或短语
“非常好” “非常满意” 、“太差了”
篇章的褒义句比例
90%的句子是褒义句
18
哈哈工工大大社社会会计计算算与与信信息息检检索索研研究究中中心心
总体流程
评论 文本
哈哈工工大大社社会会计计算算与与信信息息检检索索研研究究中中心心
假设
上下文相似的词语具有相似的情感极性
步骤
N
候选情感词获取
构建大规模图结构
图传播算法
P
6
哈哈工工大大社社会会计计算算与与信信息息检检索索研研究究中中心心
大纲
词典资源构建 句子级倾向性分析(任务一) 篇章级倾向性打分(任务三) 结论
7
哈哈工工大大社社会会计计算算与与信信息息检检索索研研究究中中心心
24
哈哈工工大大社社会会计计算算与与信信息息检检索索研研究究中中心心
谢谢!
25
哈哈工工大大社社会会计计算算与与信信息息检检索索研研究究中中心心
主干分析
词典资源
总结性连词(10)---总之、因此 等
转折关系连词(9)---但是、但 等
总结规律
总结性连词 所在子句
转折关系连词
所在子句
后一邻接子句
当前子句到最后一个子句
最后一个子句
11
哈哈工工大大社社会会计计算算与与信信息息检检索索研研究究中中心心
子句极性识别
23
哈哈工工大大社社会会计计算算与与信信息息检检索索研研究究中中心心
小结
HITIRSYS系统参与COAE2012的句子级倾 向性分析任务和篇章级倾向性打分任务
提出了基于主干分析的句子极性识别方法
结合文本文类和情感相似度的方法计算篇 章的倾向性打分
本系统在两个任务中均取得了较好的成绩
(2010 NAACL)
4
哈哈工工大大社社会会计计算算与与信信息息检检索索研研究究中中心心
基于同义词词林构建情感词典
假设
同义词具有相似的情感极性
步骤
候选情感词获取 构建同义词关系图 主题相关的链接信信息息检检索索研研究究中中心心
基于微博构建情感词典
词典资源纵览
情感词典
修饰词典 连词词典
3
哈哈工工大大社社会会计计算算与与信信息息检检索索研研究究中中心心
情感词典构建
基于同义词词林
主题相关的链接分析算法 PageRanking WordNet Synsets (2007 ACL)
基于微博
图传播算法 The viability of web-derived polarity lexicons
倾向性 打分
19
基于文本分类
有指导的方法
训练语料自动获取
京东评论数据、新浪汽车
特征提取
分类器的选取
最大熵、LibSVM、SVM Regression
20
哈哈工工大大社社会会计计算算与与信信息息检检索索研研究究中中心心
基于情感相似度
基于褒义句比例(PSP)的篇章表示
褒义句 个数
微平均、宏平均实验结果
16
哈哈工工大大社社会会计计算算与与信信息息检检索索研研究究中中心心
大纲
词典资源构建 句子级倾向性分析(任务一) 篇章级倾向性打分(任务三) 结论
17
哈哈工工大大社社会会计计算算与与信信息息检检索索研研究究中中心心
篇章级倾向性打分
任务描述与分析
对给定的篇章评论进行打分,分值范围是 (1~5)分
13
哈哈工工大大社社会会计计算算与与信信息息检检索索研研究究中中心心
特征提取
特征选择
分类器选择
最大熵
14
哈哈工工大大社社会会计计算算与与信信息息检检索索研研究究中中心心
实验结果(一)
汽车、数码领域实验结果
15
哈哈工工大大社社会会计计算算与与信信息息检检索索研研究究中中心心
实验结果(二)
句子级倾向性分析
任务描述与分析
检测系统在面对包含否定句时的倾向性判别能 力
目标是判断句子的整体倾向性,而不是否定句 的极性
领域
句子内容
汽车领域
(1)这款车的离合匹配感觉有些不习惯, (2)但是稳定还是非常不错的
8
哈哈工工大大社社会会计计算算与与信信息息检检索索研研究究中中心心
基于主干分析的句子极性识别
贬义句 个数
计算训练数据与待测文本的相似度,以投 票的方式判断篇章的倾向性打分
21
哈哈工工大大社社会会计计算算与与信信息息检检索索研研究究中中心心
实验结果
汽车、数码领域实验结果
22
哈哈工工大大社社会会计计算算与与信信息息检检索索研研究究中中心心
大纲
词典资源构建 句子级倾向性分析(任务一) 篇章级倾向性打分(任务三) 结论
HITIRSYS: 情感分析系统
唐都钰,石秋慧,王沛,赵妍妍,秦兵,刘挺 哈工大社会计算与信息检索研究中心 2012年11月30日
哈工大社会计算与信息检索研究中心
大纲
词典资源构建 句子级倾向性分析(任务一) 篇章级倾向性打分(任务三) 结论
2
哈哈工工大大社社会会计计算算与与信信息息检检索索研研究究中中心心
相关文档
最新文档