自然语言句子级结构表示的建模与学习
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
自然语言句子级结构表示的建模与学习
表示学习方法可以为自然语言处理任务学习低维的平滑特征表示,从而缓解数据稀疏问题对于基于有监督学习的自然语言处理方法的影响。近年来,服务于如短语和句法树等自然语言结构的表示学习方法得到了广泛的关注。
然而已有方法往往局限于对于特定类型结构的表示,而且只能使用受限的语言学标注信息从而描述能力有限。受到以上现状的启发,本文考虑通过结合语言学知识和无监督的表示学习方法,从而更好地建立自然语言的结构表示。
为了实现这一目标,本文提出了一种新的结构表示模型,并为该模型的训练过程提出了新的方法。同时本文对于结构表示在自然语言处理中的应用进行了新的探索。
本文研究的核心在于表示自然语言结构各关键信息之间的合取。第一,为了说明合取思想的重要性,本文首先从最简单的n元词组表示的构造方法及应用开始,基于n元词组本身是其各组成词之间的合取这一事实,展示了词表示的合取对于构建n元词组表示的重要性。
传统的基于词嵌入的n元词组表示方法通过对词嵌入向量进行拼接来表示n 元词组,然而正如本文的的分析所示,这样的方法不能反映n元词组各组成词之间的合取信息。本文则通过对词嵌入进行聚类,并对离散的聚类进行合取对n元词组进行表示。
这一方法相比词嵌入拼接得到了更好的实验结果,从而证明了合取信息的重要性。本文进一步在训练样本的去噪问题中展示了上述n元词组表示的有效性。
第二,本文提出了一个通用的结构表示模型。对于任意的输入结构,只要我们可以将其表示为以词为节点的图,该模型便可为其构造结构表示。
本文的这一模型首先将输入结构分解为子结构,每个子结构包含了一些词节点(表示为词嵌入),和一些带有结构信息属性的边(表示为语言学特征)。本文的模型通过对上述两种信息对应的向量求外积来获得它们的合取信息,从而得到每个子结构的表示。
我们对所有子结构表示求和,得到原始输入结构的表示。在上述结构表示的基础上,本文的模型通过一个参数张量获得目标任务的输出。
这一模型被称为基于丰富特征的结构表示合成模型(Feature-rich Compositional Embedding Model,FCM)。本文主要关注该模型在句子级别结构的表示任务上的应用,并证明该模型在多个关系抽取任务上都获得了业界领先的结果。
第三,上面的FCM模型当子结构包含词节点较多,或者当张量的某个输入视
角维度较高时,会因为模型的参数过多而易于过拟合。本文通过张量低秩近似的
方法,对FCM进行了近似,得到一种称为低秩FCM的新模型(Low-Rank FCM,LRFCM)。
这一近似的结果是每一个视角上的输入都被映射到更低维的向量,减小了模型的参数空间。同时,通过张量的CP模式近似,我们将原本耗时的张量乘法近似为上述低维向量之间的点积。
上述改进有效地减小了FCM的参数空间并提升了模型的运行速度,并在多个任务上取得了实验结果的提升。第四,本文提出了一种基于有标记数据和无标记数据的联合训练方法,用于对上述模型进行更充分的训练。
相比传统的流水线式半监督训练方法,本文提出的方法有利于更充分地训练未被有标记数据覆盖的词的词嵌入。为了利用无标记数据,本文提出了一种基于语言模型思想的方法,使用一个结构的表示预测该结构的上下文词。
最后,本文以短语嵌入的学习为例,展示了本文所提出的通用表示模型(及其低秩近似)以及联合训练方法的重要作用。上述方法在多个短语相似度任务上都取得了较大的提升。
本文提出的方法在包括关系抽取、短语相似度、序列标注和跨语言映射等多个任务上都取得了业界领先的结果。同时本文所提出的基于合取的表示建模思想也为未来的表示学习的研究提供了新的方法和视角。