汉语语句主题语义倾向分析方法的研究

相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
否则表示谓语动词没有极性,执行 4)。 4) 找到含有该动词的 VOB 关系对,
a) 如 果 宾 语 是 形 容 词 adjective1, 则 ModifiedPolarity(predicate) ← ModifiedPolarity(adjective1);
b) 如果宾语是名词noun,则找到含有noun的DE(“的”字结构)关系对。其中,记 形 容 词 为 adjective2, 则 ModifiedPolarity(predicate) ← ModifiedPolarity(adjective2)。
predicate,ModifiedPolarity(predicate) ← PriorPolarity(predicate)。 2) 如果 ModifiedPolarity(predicate) ≠ 0
a) 如 果 谓 语 是 形 容 词 , 则 TopicPolarity(subject) ← ModifiedPolarity(predicate);
{(03) [7] 内饰 ~ [6] 的 (ATT) }
{(07) [9] <EOS>~ [3] 喜欢 (HED) }
{(04) [3] 喜欢 ~ [1] 我 (SBV) }
VOB
主题
情感描述项
主题极性值
(05) [3] 喜欢 ~ [4] 蒙迪欧 (VOB)
[4] 蒙迪欧
<不> +”喜欢”
-(+2 -(+2)/2) = -1
Abstract: This paper presents how to identify the topics in a Chinese sentence as well as the relationships bewteen topics and sentimental descriptive terms and how to compute the polarity of topics. We extract the topics and their attributes from a sentence with the help of an ontology, identify the relations between topics and sentimental descriptive terms beased on parsing results, and finally determine the polarity of each topic in a sentence. The experiment has shown that the adopted approach in the investigation is reasonable and effective. Keywords: topic, semantic orientation, Web review, parsing, opinion mining.
句法分析后得到下列结果,主题与情感描述项关系的识别以及主题极性的计算结果见表 1。
{(01) [3] 喜欢 ~ [2] 不 (ADV) }
{(05) [3] 喜欢 ~ [4] 蒙迪欧 (VOB) }
{(02) [6] 的 ~ [5] 单调 (DE) }
{(06) [3] 喜欢 ~ [7] 内饰 (VOB) }
汉语语句主题语义倾向分析方法的研究
姚天昉 娄德成
上海交通大学计算机科学与工程系 上海 200240 E-mail: yao-tf@cs.sjtu.edu.cn lou-dc@163.com
摘 要:本文介绍了如何识别汉语语句主题和它与情感描述项之间的关系以及计算主题的极性。我们利用本 体来抽取语句主题以及它的属性,然后在句法分析的基础上,识别主题和情感描述项之间的关系,从而决定 语句中每个主题的极性。实验结果显示,我们在研究中所采用的方法是合理和有效的。 关键词:主题,语义倾向,网络评论,句法分析,意见挖掘
本文的研究工作涉及对汉语汽车网络评论进行意见挖掘。主要介绍如何识别语句的主题、 它和情感描述项(sentimental descriptive term)之间的关系以及计算主题的极性。它涉及 主题抽取子任务以及主题和情感描述项之间关系的识别和主题极性的计算。
2 主题和情感描述项关系的识别以及主题极性的计算
5) 找到含有predicate的ADV(状中结构)关系对。其中,记形容词为adjective3,则 ModifiedPolarity(predicate) ← ModifiedPolarity(adjective3);
6) TopicPolarity(subject) ← ModifiedPolarity(predicate)。 在上述算法中,PriorPolarity(predicate)表示谓语的原极性。它可以通过访问极性词 词 典 ( 我 们 通 过 Harvard &Lasswell[5] 和 HowNet[6] 构 建 了 情 感 词 词 典 ) 得 到 。 ModifiedPolarity(predicate)是谓语的修饰极性。它是指由于语句中修饰词的出现, 改变了情 感 词 原 极 性 的 方 向 或 强 度 , 例 如 , 否 定 和 强 调 修 饰 [7 , 8] 。 TopicPolarity(subject) 和 TopicPolarity (noun)是主语和宾语分别为主题时的极性。后者区别主语是意见持有者的情况。 所以,算法第三步被称为 VOB 极性传递。下面举例说明上述算法。 例如,“我也不喜欢蒙迪欧单调的内饰。”
b) 否则表示谓语为动词,则执行 3)。 3) 如果 ModifiedPolarity(predicate) ≠ 0,则
a) TopicPolarity (subject) ← ModifiedPolarity (predicate);
b) 继续查找含有谓语动词 predicate 的 VOB(动宾结构)关系对。如果该关系对含 有的名词 noun 为主题词,则 TopicPolarity (noun) ← ModifiedPolarity (predicate);
(06) [3] 喜欢 ~ [7] 内饰 (VOB)
[7] 内饰
Biblioteka Baidu
<不> +”喜欢”
-(+2 -(+2)/2) = -1
表 1 SBV(VOB)极性传递算法的计算结果
表 中 主 题 极 性 值 是 通 过 下 列 的 计 算 公 式 得 到 的 : ModifiedPolarity( 喜 欢 )= -
{ (10) [11] 稳重 ~ [10] 内饰 (SBV)}
{ (03) [9] 的 ~ [8] 深色 (DE) }
{ (11) [3] 显得 ~ [5] 沉闷 (VOB)}
{ (04) [10] 内饰 ~ [9] 的 (ATT) }
{ (12) [11] 稳重 ~ [7] 满眼 (SBV)}
{ (05) [15] 显得 ~ [14] 又 (ADV) }
(PriorPolarity(喜欢)- PriorPolarity(喜欢)/2) = -(+2 -(+2)/2) = -1。这里之所
以除以 2,是因为否定结构带有语气弱化倾向。如果直接对情感词语义倾向取反则不合理。事实
上,“不喜欢”并不表示“讨厌”等强烈情感。
此外,由于一个长句中会包含子句。而且,网络评论中断句不规范,有时候一个句子会很长。
而 SBV 分析算法可以覆盖的范围有限。例如,“蒙迪欧就显得比较沉闷,满眼深色的内饰稳重有
余却又显得单调。” 它的依存关系对分析如下:
{ (01) [5] 沉闷 ~ [4] 比较 (ADV) }
{ (09) [12] 有余 ~ [15] 显得 (VOB)}
{ (02) [3] 显得 ~ [2] 就 (ADV) }
意见挖掘的过程就是要在自然语言主观性(subjective)文本中自动确定这些元素以及它 们之间的关系。一般来说,它有四个子任务:1)主题抽取(topic extraction):识别主题术语 和领域相关的本体概念;2)意见持有者识别(holder identification):确定意见表述的作者 和说话者;3)陈述的选择(claim selection):确定意见表述的范围和过滤客观性表述;4)情 感分析(sentimental analysis):决定意见陈述的语义倾向(semantic orientation),即极性 (polarity)。
Research on Semantic Orientation Analysis for Topics
in Chinese Sentences
Yao Tianfang Lou Decheng
Department of Computer Science and Engineering, Shanghai Jiao Tong University, Shanghai 200240 E-mail: yao-tf@cs.sjtu.edu.cn lou-dc@163.com
主题是句子中情感描述的对象。在实际应用中,用户往往关注某类产品的特征(feature), 一个特征词需要满足以下三个条件之一[2]:1)给定主题的一部分;2)给定主题的一个属性;3) 给定主题的部分的一个属性。在研究中,我们选取了四类特征:1)汽车的品牌和型号(make & model),如蒙迪欧,奥迪A6等;2)汽车的机械部件(part of automobile),如车窗,制动系统 等;3)汽车的性能指标(index),如速度,外观等;4)汽车的总体评价(general valuation), 如品质,气度等。
{ (13) [12] 有余 ~ [11] 稳重 (ADV)}
1 概述
目前,英特网上的信息与日剧增,蕴藏着巨大的信息量。但是,要想在很短的时间内获得 人们对于诸如人物、事件、传媒、产品等有价值的评价信息,往往是十分困难的。面对这样的现 实问题,意见挖掘(opinion mining)技术应运而生。
根据美国南加州大学 Kim 和 Hovy 对意见的定义[1],意见由四个元素组成,即主题(topic)、 持有者(holder)、陈述(claim)和情感(sentiment)。这四个元素之间存在着内在的联系,即 意见的持有者针对某主题发表了具有情感的意见陈述。例如,“我昨天买了一辆汽车,它不但外 观漂亮,而且性能很好。”在这句语句中,一共有三句子句。第一句是客观句,所以它不包含意 见的陈述。第二、三句子句则是主观句,而且是包含意见的陈述。对于这两个陈述,它们的主题 分别是“外观”和“性能”,它们都是“汽车”的属性(特征)。这两个陈述的意见持有者是作者 “我”。在陈述中所描述的情感词(sentimental word)是“漂亮”和“好”,都是褒义的。另外, “很”是一个修饰词,用以修饰情感词,以加强褒义的程度。
但是,如果一个句子中同时出现多个或多类特征词,就需要明确它们之间的从属关系。由 于在汽车本体 CarOntology[3]中针对上述四类特征定义了一个层次式分类体系,以树的结构表 示。我们可以通过遍历这棵树,利用父子节点的关系,确定特征词之间的从属关系。为了避免混 淆,本文中把特征词统称为主题词。
我们把情感词或情感词和它的修饰部分的组合称为情感描述项。例如上例中的“漂亮”和“很 好”就是两个情感描述项。对于一个带有情感描述项的句子,仅仅知道它的极性是不够的。用户 希望知道所涉及的主题是什么。因为单独采用统计学方法无法可靠地解决这一问题,需要对句子 进行句法分析。本文工作使用了哈尔滨工业大学信息检索实验室开发的汉语句法分析器 DeParser[4]。
通过对句法分析结果的依存关系的分析,我们发现 SBV 结构(主谓结构)可以提供主语和谓语 的修饰关系等信息。在大部分 SBV 结构中,主语要么是意见的持有者,要么是主题。而谓语部分 的词性可能有两种情况,一种是形容词,另一种是动词。
下面介绍一下 SBV 极性传递算法: 1) 寻找语句中所有含有 SBV 结构的关系对。对每个关系对,记主语为 subject,谓语为
相关文档
最新文档