现在标准阿拉伯语的主观性和情感分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
现代标准阿拉伯语的主观性和情感分析
摘要:尽管现在主观性和情感分析已经应用在一系列小说的研究上,但是很少有尝试去给语言的丰富的形态建立一个主观性和情感分析系统。在目前的研究中,我们的努力,部分地填补了这一空白。我们提出了一个新开发的人工标注的现代标准阿拉伯语(MSA)语料库和一个新的完全对立的词库。这个语料库是一些新闻专线文档在句子级注释的集合。我们还描述了一个可以用于开发注释数据的自动主观性和情感分析标记系统。我们研究在主观性和情感分析分类工作中预处理设置不同级别的影响,我们证明这个系统可以大大的提高对丰富的语法明确的解释的效率。
1,介绍
主观性和情感分析已经被应用在一系列小说方面的研究,在自然语言界,主观性指意见表达、评估、感情和猜测(班菲尔德,1982;wiebe,1984),因此包含情绪。主观性分类过程是指从分类文本中区分出主观性(例如:穆巴拉克,可恶的独裁者,下台)和客观性(例如:穆巴拉克下台),主观性文本是情感和极性的进一步分类,对于情绪分类,任务是指辨别出主观性文本是积极地(例如:一个优秀的照相机),消极的(例如:我讨厌这相机),中立的(例如:我相信这将是一个会议),或者,有时是混合的(例如:它很好,但是我讨厌它)文本。
大多数的主观性和情感分析文献都集中在英语或者其他欧洲殖民地的土著语言,很少有研究去解决丰富的语言语法的问题,例如阿拉伯语,土耳其希伯来语,捷克语等。(Tsarfaty et al., 2010)。一般来说,大量语言语法问题是对自然语言处理系统的重大的挑战,主观性和情感分析也不例外,在一些语言语法上,由于缺少主观性和情感分析的资源,这个问题甚至更加明显,例如有注释的语料库,和有极性的词典。
在当前的研究中,我们的任务是从新闻专线类别现代标准阿拉伯语文本句子级的主观性和情感分析研究。我们在应用阿拉伯树图资料库(Maamouri et al., 2004),和使用两个独立语言以及阿拉伯语的特性的已标记的文本的基于数学形态学特征的三个不同的过程设置去进行实验,我们的工作表明,在我们的模型中明确的应用基于数学的形态学特征证明这个系统的性能,我们也估计在改善分类性能应用一个覆盖面广
的极性词典和演示应用一个定做的资源的影响。
2,方法
从我们知道的知识,没有带注释的现代标准阿拉伯语主观性和情感分析数据存在。因此我们决定建立一个我们自己的主观性和情感分析注释数据。
2.1数据集和注释
语料库:两个受过大学教育的母语为阿拉伯语的人士在PATB中的第一部分V3.0注释了2855个句子。这些句子组成这部分PATB的第一个400份文档总计约PATB第一部分数据集的54.5%,对于每个句子,注释者指定了4个可能的标签:(1)客观的(OBJ),(2)主观的-积极地(S-POS),(3)主观的-消极的(S-NEG),(4)主观的-中立的(S-NEUT)。
然后(Wiebe et al., 1999),如果一个句子的标签是OBJ第一印象就是根据报告的信息判断句子是客观的。否则,这个句子就是其他三个之中一个主观性分类,多个注释者一起可以达到88.06%。在我们的数据集中级别的描述如下:1281个客观的,1574个主观的,有491个被认为是S-POS,689个是S-NEG,394个事S-NEUT。此外,在我们的数据集中的每个句子都是用一个领域的标签手动标注的。这个领域标签来自于新闻专线分类和采用(Abdul-Mageed, 2008)。
极性词典:我们手动创建了一个有3982个形容词且贴有以下标记的{积极地,消极的,中性}标签的的词典。这些形容词从属于新闻领域。
2.2 自动分类
标记化方案和设置:我们在PATB上的金色标记的文本上进行实验,我们采用PATB+A1的标记化方案,我们采用PATB+AL标记化方案,这种方案后接的和附属词都是从主茎中分离得出。我们尝试使用三个不同的针对词干词的预处理单词配置:(1)表面,词干的表面是由最小的曲折词素组成的;(2)词元,词干词是减少他们的词元引用形式,举个动词的例子来说,男性第三人称单数的完成时;(3)词干,就是表面减去屈折语素,这种配置能导致非适当的阿拉伯语词汇(按信息检索),表1说明了这三种配置方案的例子。
特点:我们采用的产品特征主要有两种:独立的语言特征和形态特征。独立的语言特征:这种特性已经被应用于各种各样的SSA研究。
域:如下(Wilson,2009),我们用一个特征来表明句子归属的文档的域。正如前面所提到的,每一个句子都有一个文档域手动的标签与之关联。
独特性:如韦伯等其他人(2004)应用的一个独特性。即单词,发生在我们的语料库的的绝对次数小于五,就替换为令牌“独特”。
N-GRAM:我们对N-GRAM小于等于4的所有可能的组合进行试验。
形容词:对于主观分类,(我们在一个句子中根据Bruce & Wiebe的添加一个有形容词特征的来表明是否有任何形容词存在于我们手动创建的极性词典中),我们按照布鲁斯·韦博(1999年)中添加一个具有二分特征的形容词,不论这些我们手动创建的形容词是否能在句子里创造出来极性词典。对于情绪分类,我们应用两个特性,积极性的形容词和消极性的形容词,在一个句子中的任何一个二分特征表明是积极性的形容词还是消极性的。
MSA形态学特征:MSA表现出了非常丰富的形态系统,它是商业的,凝集的,基于派生性和屈折性的。我们明确了人、状态、性别、时态、外貌、和数字的形态特征模型。我们不适用POS信息,我们假设我们模型中是未评论的的文本。
2.3 方法:两级分类过程
在目前的研究中,我们采用两级分类方法。在第一个阶段(即主观的),我们建立一个二分分类器从主观性容器中分出客观的,第二阶段(即情感)我们采用二分分类法从S-NEG中区分出SPOS。我们忽视试验中的中立信息。我们使用一个SVM(支持向量机)分类器,SVM包
(J oachims, 2008)。我们尝试各种各样的核心程序和参数设置使线性内核产生最好的性能。我们用存在向量运行实验:在每个句子矢量中,每个容器的值都是二进制的,不是0就是1(不管有多少次特性发生)。实验条件:我们首先使用3个词形归并的全部运行实验,并应用各种各样的N-grams和N-gram组合甚至迭加其他性能设置表面,引理,枝干。形态特征(即变形)仅仅添加了枝干设置。独立语言特性(即从下面的设置{DOMAIN,ADJ,UNIQUE})加入到引理和枝干
+语素设置,这是三个设置中,附着词素就是在句子向量中保持独立特性的分裂词。
3 结论和评价
我们把我们的数据80%划分用于5层交叉检验,20%用于测试。相对于实