机器学习关于词性标注的翻译

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

机器学习翻译姓名:陈伟

学号:20124227003

班级:01

机器学习的词性标注

摘要

我们应用统计决策树学习和自然语言处理解决形态语句的消歧问题。这个学习的过程是为了获得一个语言模型,来解决词性标注模糊的问题,在一些相关的文章中,词性标注组成了统计决策树的标签和一些单词。得到的决策树已经直接应用在标签中,这个标签相对简单而且效率较高,在华尔街语料库的精确测量中它得到了检测,价值得到了肯定。但是如果把决策树翻译成支持灵活标签的规则会得到更好的结果。在这个领域,我们描述一个标签是指它能够应用任何信息,特别是机器学习决策树。同时,在解决标签问题时,我们只有有限的培训材料,任何从无到有的建设过程中,标注语料库是至关重要的。我们发现,在这个学习体系中我们的系统可以获得更高的精度,并且可以在开发550万字的西班牙语料库中获得一些结果。

关键词:词性标注基于语料库的统计语言模型决策树归纳满意度约束松弛标签

1.简介

词性标注是一个非常基本的、众所周知的自由自然语言处理问题,这个问题是如何为文章中每个单词在文章的语境中分配正确的形态句法。它对许多自然语言处理问题都非常有用,例如:作为句法分析的前处理工具,信息检索和提取,从文本到语音系统,语料库语言学等。

习性标注的基础是很多单词相对于它们的标签是模糊的,而且在大多数情况下,这些单词可以通过考虑上下文消除歧义。例如表一中出现的句子,单词shot 通过前文将它理解成过去分词,这样就可以消除歧义了。虽然在这种情况下,单词的歧义可以简单的通过前面的标记来消除,但是前面的单词不明确的情况必须考虑,或者说上下文相对于前字的复杂程度是必须考虑的。此外,在一些例子中,仅仅通过上下文是不能够解决模糊性的,这就需要语义或是语法知识。表1如下:

1.1 现有的词性标注方法

使用标注的先驱是TAGGIT,布朗大学最早使用原始的标注,为了提高准确性和效率,人们做了许多的努力。现有的标注使用者可以根据他们所使用的知识分为三个主要群体:语言、统计和机器学习。当然,有些标注者很难进行分类,使用混合方法的人我们也要考虑。

在使用语言的方法中,编译系统所使用的规则是由语言学家来写的。这些语言模型的范围从几百到几千,他们需要付出数年的劳动。在这个领域,TOSCA 的工作和最近赫尔辛基大学对于约束语法的发展是最重要的。

现在大多数扩展的方法是统计的人做的(显然是因为有限的人的工作量)。基本上,它包括建立一个语言的统计模型并利用该模型消除单词的歧义。这个语言模型对不用的语言现象进行同频率的编码。

这种统计结果的获得通常是基于n-gram收集方法,即,一个可能长度为n 的句子通常是看它在训练预料中出现的频率。

在词性标注中,通常的模型是由bi-grams和tri-grams组成的。一旦n-grams 方法已经估计过了,新的例子可能被标注,通过选择最大概率的序列。这个技术是根据隐马尔科夫模型。虽然模型的形成以及决定模型序列可以通过几种方法,但是大多数系统将模型降解成uni-grams,bi-grams或者tri-grams。这个领域的开创性工作是CLAWS系统,它使用bi-grams信息并且是TAGGIT版本。这个系统在1988年被DeRose用动态编程进行了改进。Church的标注者使用了tri-grams 模型。其他的标注者试图减少估计模型所需要的训练数据,用Bsum-Welch重新估计算法,从一个小的手工语料库中反复提炼一个原始的模型。这是Xerox标注者和他的继任者所做的工作。对这个主题感兴趣的人可以通过Merialdo找到一个很好的概括。

其他的标注工作者可以定义在Schmid统计大家庭中,他们用神经网络实现了能源功能的优化。Chanod、Tapanainers和V outilainen代表了目前语言学和统计学之间的比较。

其他的工作方法和通过统计的方法比较接近。语音识别领域是非常有成效的,n-grams建模中使用语音识别比使用词性标注更早。最近,在这个领域中的工作不再限制建模模型,而是通过不同顺序的n-grams、形态学信息、长距离的n-grams或是触发对建立混合模型。在短期内我们可能会看到有一些方法和词性标注任务不一致。

尽管统计方法从训练语料中涉及某种学习,或是不确定性,但是我们只是在机器学习中替换掉那些比n-gram模型需要更多信息的模型。Brill标注者学习一系列能最好的修改错误的转换规则,Samuelsson,Tapanainen和V outilainen从cor-pora中获得了限制语法规则。我们这里展示的工作都是应用标记语料库的来的决策树,这些语料和其他的统计数据以及语言信息,在混合环境中通过轻松的技巧并越过约束规则被利用起来。

绝大多数的统计标记方式的报告精度超过了96-97%,而应用语言限制语法的精度超过了99%,允许剩余的每个单词有1.026个含糊不清的标记。这些精度值通常在还没有被训练阶段使用的测试语料上进行计算。一些语料库经常被用作

测试样本,它包括布朗大学,华尔街日报,柏林墙和英国国家语料库。

1.2 动力和目标

考虑到上面的精确度可能可想到词性标注是一个能被多数自然语言处理系统很好的兼容的已经解决的问题。因此,为什么还要浪费时间设计另外一个标记方式呢?精度0.3%的提升又意味着什么呢?

考虑的原因有几个,在自动标注方面还有许多工作要做。

当在处理巨大的运行文本,并考虑每句话的长度在25-30单词时,如果我们允许错误率在3-4%,那么每句话都会有错误。自从词性标注在大多数自然语言处理系统中成为了一个基本任务,每个句子中出现错误将会是一个严重的缺陷,特别是在考虑到这些错误可能线性增长时。其他的自然语言处理任务对词性标注消岐错误非常敏感,这一点可以在词性的域名消歧和信息检索中得到印证。

另外的一个问题是涉及到适应和调整时,已经从一个文本到另一个文本获得了参数标注,其中包含的文本可能来自其他的域,以尽量减少运输文本。

标注的精确度通常通过对测试语料库相同特性的测试来衡量。虽然,一直没有认真的努力对来自其他域中来的语料库或是不同的特征的可能性进行标注。

最后,当对不是英语的其他语言进行应用词性标注时的明确问题必须进行解决。除了来自一些特殊语言丰富的形态问题时,有一个更普遍的问题,这个问题的产生是因为训练缺乏大型的手动注释语料库。

虽然一个引导的方法能够通过使用低精度的为产生注释文本的标注得到实现,其中,低精度的标记可以用来反复训练标记并学习一个更高精度的模型,这种方法的有用性在很大程度上依赖于再训练材料的质量。因此,如果我们想保证低噪声的再培训语料库,我们必须提供一个无论是对于已知或是未知的单词并且应用一个小的高质量的语料库都能得到更高精度的方法。

在这个方向上,我们参与了一个为西班牙和加泰罗尼亚语料库进行标注并且限制了语言来源的的项目。为了具有可比性,我们对一个参照的英语语料库进行了实验。我们也汇报了通过应用目前的技术对西班牙语料库进行注释所取得的成果,证明了投入相当低的劳动成本也可以达到很好的精度。

本文的结构如下:在第二部分描述应用领域,语言模型的学习算法和模型评估。第三和第四部分我们通过两个标记描述语言模型的应用。包括:一个基于标

相关文档
最新文档