观点词提取方法整理

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

1.Bo Wang, Houfeng Wang在Bootstrapping Opinion Words from Chinese Custer

Reviews(面向产品评价信息的观点词自动识别)中提出,将观点词的识别转化为二元分类,每个观点词候选通过布尔特征向量来刻画,基本的分类器使用朴素贝叶斯。

2.在[3]中,Hu和Liu利用了词性标注技术来提取观点词,在经过词性标注的

文档中,先找出含有特征词的句子作为opinion sentence,然后再句子中提取所有的形容词作为候选观点词,并将特征词附近的形容词作为有效观点

(effective opinion)。此方法的优点是有效避免提取出的形容词不是观点词的情况,但观点词不都是形容词,只用形容词来提取观点词势必会影响召回率。

3.[13]利用句法分析技术进行观点词提取。句法分析是指对句子中的词语语法

功能进行分析,首先利用MINIPAR[23]构建出句子中单词或短语间的句法依赖分析,然后利用这些依赖关系归纳出四种规则来提取观点词。

po=potential opinion(潜在观点词), M=modifier(修饰词), NP=noun phrase(名词短语),S=subject(主语), P=predicate(谓语), O=object(宾语).

中文文本的依存关系中,情感极性词多出现在以下几种依存关系对中:

ADV(状中结构)、CMP(动补结构)、DE(的字结构)和VOB(动宾结构)。

词与词之间直接发生依存关系,构成一个依存对,其中一个是核心词也称为支配词,另一个叫修饰词,也叫从属词。

特征词模式:

两个词是的字结构(n+的),修饰词提取为特征词

两个词是主谓关系,支配词提取为特征词

两个词是ATT关系(的+n),支配词是特征词

观点词模式:

句法分析五种基本类型

主语+谓语(S+V)

主语+系动词+表语(S+V+P)

主语+谓语+宾语(S+V+DO)

主语+谓语+间接宾语+直接宾语(S+V+IO+DO)

主语+谓语+宾语+宾补(S+V+DO+OC)

复句中分句关系

否定词

比较词()

相关文档
最新文档