信息抽取新SOTA!首个结构化生成式信息抽取预训练模型,一统信息抽取四大任务

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

通用信息抽取预训练语言模型实验
实验介绍
本实验基于四个关键任务:命名实体识别、关系抽取、事件抽取和观点抽取。 使用了共计13个不同的数据集,涵盖了广泛的信息抽取场景。
全监督实验
在全监督设置下,我们讨论了两种不同微调方法:T5-v1.1-large 和 UIE-large 。 结果表明,不仅在数据集数量上取得SOTA结果,而且在泛化能力方面也有很 大提升。
信息抽取新SOTA!结构化生成式信 息抽取预训练模型,一统信息抽取
四大任务
目录
一、研究背景与动机 二、如何统一信息抽取任务 三、预训练与微调 四、预训练任务 五、微调 六、通用信息抽取预训练语言模型实验
研究背景与动机
ቤተ መጻሕፍቲ ባይዱ息抽取的四大任务
命名实体识别 关系抽取 事件抽取 观点抽取
信息抽取任务的不同结构
预训练任务 2
针对 D_record ,这部分输入只有结构化数据record,输入前面的部分 ,使其生成剩余部分,并且只训练UIE的decoder部分,使其学会SEL语 法,计算的Loss
预训练任务 3
针对 D_text ,这部分做的是无监督的masked language model任务, 和T5中的预训练任务一样,在原始句子中MASK掉15%的tokens,然后 生成MASK的部分,输入中已经呈现的部分输出MASK,计算的Loss如 式 (7) 所示。
预训练与微调
UIE的预训练模型
UIE采用T5-v1.1-base和T5-v1.1-large作为UIE-base和UIE-large模型。 参数初始化直接使用了T5-v1.1的参数,进行了二次预训练。
预训练数据来源
UIE的预训练数据主要来自三部分:Wikipedia、Wikidata和ConceptNet 。 这三部分数据构造了不同形式的预训练数据,包括结构化记录和原始文 本数据。
指导模型的结构化模式指导器SSI
如何引导模型执行特定信息抽取任务呢?这里介绍SSI(Structural Schema Instructor)。 SSI是一种基于Schema的prompt,通过将SSI添加到输入句子前 ,可以指导模型执行特定任务。 SSI格式示例包括关系抽取、事件抽取和实体识 别,每个任务都有对应的SSI格式。 SSI的灵活性使其适用于多种信息抽取场景 。
如何统一信息抽取任务
统一信息抽取任务输出结构的结构化抽取语言SEL
本节将介绍如何使用SEL(Structured Extraction Language)来统一不同信息 抽取任务的输出结构。 SEL包括Spot Name、Info Span和Asso Name三个核心元 素,用于描述任务的输出结构。 SEL的设计使得不同信息抽取任务可以用相同的 语法进行建模,简化了任务建模的复杂性。
任务统一化
最终将三个Loss相加作为最终Loss。 作者并不是分开做这三个预训练任务的,而是将其统一化,全部表示为 三元组 (s, x, y),其中 s 是加在输入句子前面的prompt, x 是输入的原 始句子, y 是需要生成的目标句子,在每一个batch中随机抽取每一个 任务的数据去训练。 D_pair 数据表示为 (s, x, y), D_record 数据表示为 (None, None, y), D_text 数据表示为 (None, x', x''),这样无论是哪种任务都是输入一个三 元组,即可统一训练。
信息抽取任务的原子操作
每个信息抽取任务都可以拆解为两个原子操作:Spotting和Associating 。 Spotting是在输入句子中定位目标信息片段,比如实体识别中的实体、 事件抽取中的触发词。 Associating则涉及信息片段之间的关系,例如关系抽取中的实体关系、 事件抽取中的触发词和论元之间的关系。 这种通用的拆解方式为SEL语法的设计提供了基础。
消融实验 - 小样本情景
我们特别关注了小样本情景下的实验,验证了插入负样本的有效性。 这种方法 在小样本情况下表现显著,提高了模型的准确率。
总结与展望
本研究提出了通用信息抽取预训练语言模型,刷新13个数据集的SOTA 。 尤其在小样本/低资源情境下表现出显著的提升,为未来研究提供了有 趣的思路。 我们鼓励研究者设计与下游任务相近的预训练任务,以进一步提高性能 。
SEL语法详解
SEL语法的三个核心元素: - Spot Name:表示信息片段的类别,如实体类别、事件类型等。 - Info Span:代表Spotting操作的输出,即句子中的目标信息片段。 - Asso Name:用于表示信息片段之间的关系类型,即Associating操作 的输出。 这些元素的组合能够精确描述不同信息抽取任务的输出结构。
UIE模型总架构
UIE模型(Unified Information Extraction)采用SEL语法和SSI来完成信息抽 取任务。 UIE由Transformer的Encoder和Decoder组成,它将输入句子和SSI结合 ,生成结构化数据。 这种结构化数据有助于多种自然语言处理任务,包括关系 抽取、事件抽取和实体识别。 UIE模型的总架构为信息抽取任务提供了一个统一 的解决方案。
关系抽取需要实体识别结果 事件抽取中的论元是实体 特定任务模型无法共享实体知识
问题3: 数据标注的耗时耗力
信息抽取任务需要独立标注数据 耗费时间和人力资源
文章的贡献
设计结构化抽取语言(SEL)统一描述任务结构 引入结构化模式指导器(SSI)来指导模型 为text to structure结构预训练大模型
SEL语法的应用示例
让我们看一个具体的示例,以演示如何使用SEL语法来描述不同信息抽 取任务。 以句子“Steve became CEO of Apple in 1997.”为例,不同信息抽取任 务的SEL表示如下: a) 关系抽取任务:Spot Name: 实体1 Info Span (Asso Name: 实体2 Info Span) b) 事件抽取任务:Spot Name: 事件类型 Info Span (Asso Name: 论元1 Info Span) (Asso Name: 论元2 Info Span) ... c) 命名实体识别任务:(Spot Name: 实体1 Info Span) (Spot Name: 实 体2 Info Span) ...
不同任务和数据集的SSI示例
不同信息抽取任务和数据集通常需要不同的SSI格式。 SSI包括spot、entity类 型、关系类型等信息,以告诉模型如何执行特定任务。 灵活的SSI格式使其可以 适应各种信息抽取需求,不同数据集有不同的SSI格式。 作者的附录中列出了每 个数据集和任务对应的SSI格式,以供模型训练和应用。
类型1数据:(s, x, y)
数据类型1,表示为 (token sequence x, structured record y)。 这种数据包含了文本序列x和结构性记录y的关联信息。
类型2数据:(None, None, y)
数据类型2,只包含基于SEL语法的结构性记录。 没有文本序列x,只有结构性记录y的信息。
微调
微调部分数据形式
数据形式是 (s, x, y) 微调的Loss计算方式如式 (9) 所示
微调中的负样本
微调部分依然加入了负样本 随机插入一些原标签中没有的信息,即 (Spot Name: [NULL])或(Asso Name: [NULL]) 图5中输入句子中并没有facility的实体 ,而标签中插入了 (facility: [NULL])
低资源(Low-resource)实验
我们针对低资源情况进行了多种实验,包括1/5/10-shot和1/5/10%的数据采样。 UIE在小样本情况下表现出卓越的泛化能力,明显超越了T5微调结果,实现了 SOTA水平。
消融实验 - 预训练部分
我们进行了消融实验,分析预训练任务的重要性。 结果表明不同任务对于不同 信息抽取任务有不同的贡献,如关系抽取、事件抽取和观点抽取。
实体识别采用span及实体类别表示 关系抽取采用三元组(triplet)结构表示 事件抽取采用记录(record)表示 观点抽取采用三元组(triplet)表示
问题1: 针对特定情况的模型设计
不同任务需要设计特定模型 资源和样本不同,需要多个模型 任务应用场景多样,需要大量模型
问题2: 任务间共享知识
感谢!
类型3数据:(None, x', x'')
数据类型3,只包含无结构的原始文本数据。 用于做masked language model任务,数据表示为 (None, x', x'')。
预训练任务
预训练任务 1
针对 D_pair ,输入数据为SSI+原始文本 x ,使其生成结构化的数据 record,不同的是作者在record中不仅加入了原本存在的正样本,也加 入了一些负样本作为噪音,比如 (Spot Name: [NULL]),此任务计算的 Loss
相关文档
最新文档