一种基于自训练与噪声模型的因果事件抽取方法[发明专利]
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(19)中华人民共和国国家知识产权局
(12)发明专利申请
(10)申请公布号 (43)申请公布日 (21)申请号 202010397785.6
(22)申请日 2020.05.12
(71)申请人 哈尔滨工业大学
地址 150001 黑龙江省哈尔滨市南岗区西
大直街92号
(72)发明人 丁效 刘挺 秦兵 廖阔
(74)专利代理机构 哈尔滨市松花江专利商标事
务所 23109
代理人 时起磊
(51)Int.Cl.
G06F 40/284(2020.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种基于自训练与噪声模型的因果事件抽
取方法
(57)摘要
一种基于自训练与噪声模型的因果事件抽
取方法,本发明涉及因果事件抽取的方法。
本发
明的目的是解决现有基于深度学习模型的因果
事件抽取方法在有标注数据不足的领域或场景
中效果有限的问题。
过程为:一、收集已标注的目
标领域文本;二、计算一个向量表示;三、计算出
概率最大的标签序列;四、训练三中的模型,并对
二中的模型进行微调;五、得到大量自标注数据;
六、为每个单词计算一个向量表示,计算单词序
列生成每个可能的标签序列的概率;七、计算自
标注文本中每个单词的噪声矩阵;八、得到由单
词序列生成自标注标签序列的概率;九、使用一
中有标注数据与五中自标注数据共同训练二、
三、六、七中的整体模型。
本发明用于因果事件抽
取领域。
权利要求书4页 说明书12页 附图1页CN 111651983 A 2020.09.11
C N 111651983
A
1.一种基于自训练与噪声模型的因果事件抽取方法,其特征在于:所述方法具体过程为:
步骤一、收集已标注的目标领域文本,或对目标领域的无标注文本进行标注,标注出因果事件对,标注时,采用序列标注任务的标注方法,为文本中为每个单词标记一个标签,表示该单词属于原因事件、结果事件或其他成分;
步骤二、先用已有的分词工具对步骤一中有标注文本进行分词,使用一种神经网络结构为分词后有标注文本中的单词计算一个向量表示;
步骤三、使用条件随机场模型,由步骤二中的向量表示计算出概率最大的标签序列;
步骤四、利用步骤一中已标注的目标领域文本或对目标领域的无标注文本进行标注的文本数据训练步骤三中的条件随机场模型,并对步骤二中的模型进行微调;
步骤五、搜集同领域大量无标注文本数据,先用已有的分词工具对搜集的同领域大量无标注文本数据进行分词,得到自标注文本分词后的单词序列,利用步骤四中训练好的模型对同领域大量无标注词语进行标注,得到大量自标注数据;
所述步骤四中训练好的模型为步骤二中训练好的预训练词向量矩阵、神经网络模型,以及步骤三中的条件随机场模型的整体;
步骤六、对步骤五中自标注文本分词后的单词序列,使用步骤四中训练好的词向量矩阵、神经网络模型为每个单词w i计算一个向量表示并使用步骤四中训练好的的条件随机场模型计算单词序列生成每个可能的标签序列的概率;
步骤七、使用全连接神经网络,由步骤六中单词的向量表示计算自标注文本中每个单词的噪声矩阵;
步骤八、使用另一个条件随机场计算任意标签序列经过噪声信道得到自标注标签序列的概率,并乘以步骤六中由单词序列生成任意标签序列的概率,得到考虑噪声信道情况下由单词序列生成自标注标签序列的概率;
步骤九、使用步骤一中有标注数据与步骤五中自标注数据共同训练步骤二、三、六、七中的整体模型。
2.根据权利要求1所述一种基于自训练与噪声模型的因果事件抽取方法,其特征在于:所述步骤一中序列标注任务的标注方法为采用BIO或BIOES标注规范。
3.根据权利要求1或2所述一种基于自训练与噪声模型的因果事件抽取方法,其特征在于:所述步骤二中先用已有的分词工具对步骤一中有标注文本进行分词,使用一种神经网络结构为分词后有标注文本中的单词计算一个向量表示;具体过程为:
从预训练的词向量矩阵中查找到分词后有标注文本中的每个单词对应的词向量,并将分词后有标注文本中的每个单词对应的词向量输入一个神经网络得到每个单词融合上下文信息的向量表示;
所述神经网络为循环神经网络、长短时记忆网络或基于自注意力机制的神经网络;
具体过程为:
先用已有的分词工具对步骤一中有标注文本进行分词,对于步骤一中有标注文本进行分词后的具有n个单词{w1,...,w i,...,w n}的文本s,从预训练的词向量矩阵中查找到分词后有标注文本中的每个单词对应的词向量{e1,...,e i,...e n},之后,使用深度神经网络计
算出每个单词考虑上下文信息的向量表示{h1,...,h i,...h n},其中h n=F(e1,...,e i, ...e n),函数F为BERT深度神经网络结构。
4.根据权利要求3所述一种基于自训练与噪声模型的因果事件抽取方法,其特征在于:所述步骤三中使用条件随机场模型,由步骤二中的向量表示计算出概率最大的标签序列;具体过程为:
步骤三一、使用一个全连接神经网络计算出由单词w i生成正确标签j i的未归一化对数概率
logP(j i|w i)=w′h i+b1
其中,w′为全连接神经网络的权重,b1为全连接神经网络的偏置,正确标签序列j={j1,...,j i,...,j n};
步骤三二、用一个转移矩阵T1建模标签间的转移概率,即正确标签j i转移到正确标签
j i-1的未归一化对数概率为
步骤三三、以单词w i生成正确标签j i的未归一化对数概率logP(j i|w i)作为条件随机场
模型的发射势,以正确标签j i转移到正确标签j i-1的未归一化对数概率为作为条件随
机场模型的转移势,则对一个正确标签序列{j1,,...,j i,...,j n},由条件随机场模型计算出的生成该正确标签序列的未归一化对数概率为
式中,为标签j i-1转移到标签j i的未归一化对数概率。
5.根据权利要求4所述一种基于自训练与噪声模型的因果事件抽取方法,其特征在于:所述步骤四中利用步骤一中已标注的目标领域文本或对目标领域的无标注文本进行标注的文本数据训练步骤三中的条件随机场模型,并对步骤二中的模型进行微调;具体过程为:使用最小化正确标签序列{j1,...,j i,…,j n}的负对数似然
作为训练目标,基于L1值并采用梯
度下降与反向传播算法对步骤二中的预训练词向量矩阵、神经网络模型、以及步骤三中的条件随机场模型的整体进行训练,直至模型收敛,得到训练好的步骤二中的预训练词向量矩阵、神经网络模型,以及步骤三中的条件随机场模型的整体;
所述为所有可能标签序列。
6.根据权利要求5所述一种基于自训练与噪声模型的因果事件抽取方法,其特征在于:所述步骤六中对步骤五中自标注文本分词后的单词序列,使用步骤四中训练好的词向量矩阵、神经网络模型为每个单词w i计算一个向量表示并使用步骤四中训练好的的条件随机场模型计算单词序列生成每个可能的标签序列的概率,具体过程为:
对步骤五中分词后的单词序列,使用步骤四中训练好的词向量矩阵、神经网络模型为
每个单词w i计算一个向量表示
对于每个可能的标签序列使用步骤四中训练好的条件随机场模型计算单词序列{w1,...,w i,...,w n}生成该标签序列的未归一化对数概率
7.根据权利要求6所述一种基于自训练与噪声模型的因果事件抽取方法,其特征在于:所述步骤七中使用全连接神经网络,由步骤六中单词的向量表示计算自标注文本中每个单词的噪声矩阵,具体过程为:
使用全连接神经网络,由步骤六中计算的无标注文本中的每个单词w i的向量计算出自标注文本中每一个单词的噪声矩阵
其中,w″为全连接神经网络的权重,b2为全连接神经网络的偏置;
该矩阵行列的元素表示该单词的位置上,步骤六中条件随机场输出的标签
经过噪声信道变为自标注标签的概率。
8.根据权利要求7所述一种基于自训练与噪声模型的因果事件抽取方法,其特征在于:所述步骤八中使用另一个条件随机场计算任意标签序列经过噪声信道得到自标注标签序列的概率,并乘以步骤六中由单词序列生成任意标签序列的概率,得到考虑噪声信道情况下由单词序列生成自标注标签序列的概率,具体过程为:
用一个转移矩阵T2建模经过噪声信道后相邻标签间的转移概率,即标签转移到标签
的未归一化对数概率
以任意标签经过噪声信道得到自标注标签的概率作为条件随机场的发射势,
经过噪声信道后相邻标签间的转移概率作为条件随机场的转移势,计算出任意标签序列经过噪声信道得到自标注标签序列的未归一化对数概率:
将步骤六中计算的由单词序列生成任意标签序列的未归一化对数概率,与该步骤计算的任意标签序列经过噪声信道得到自标注标签序列的未归一化对数概率相加,并对所有可能的标签序列求和,得到考虑噪声信道的情况下由单词序列生成自标注标签序列的未归一化对数概率:
9.根据权利要求8所述一种基于自训练与噪声模型的因果事件抽取方法,其特征在于:所述步骤九中使用步骤一中有标注数据与步骤五中自标注数据共同训练步骤二、三、六、七
中的整体模型,具体过程为:
使用步骤一中的有标注数据,训练步骤三中的条件随机场模型,并对步骤二中的预训练词向量矩阵、神经网络模型进行微调,训练目标L1的计算方法同步骤四;
使用步骤五中的自标注数据,训练步骤三与步骤七中的两个条件随机场模型和步骤六中全连接神经网络,并对步骤二中的预训练词向量矩阵、神经网络模型进行微调,训练目标为最小化自标注标签序列考虑噪声信道的负对数似然:
基于L1与L2值,采用梯度下降与反向传播算法对步骤二、步骤三、步骤六、步骤七中的模型的整体进行训练,直至模型收敛。
10.根据权利要求9所述一种基于自训练与噪声模型的因果事件抽取方法,其特征在于:所述步骤九中直到模型收敛中的模型为步骤二中的预训练词向量矩阵、神经网络模型,步骤三中的条件随机场模型,步骤六中的全连接神经网络模型,以及步骤七中的另一个条件随机场模型合在一起的模型。
一种基于自训练与噪声模型的因果事件抽取方法
技术领域
[0001]本发明涉及基于自训练与噪声模型进行因果事件抽取的方法。
背景技术
[0002]近年来,深度学习方法在各项具有挑战性的自然语言处理任务上取得了令人印象
深刻的结果,如机器翻译(Kyunghyun Cho,Bart Van Caglar Gulcehre, D z m i t r y B a h d a n a u,F e t h i B o u g a r e s,H o l g e r S c h w e n k,a n d Y o s h u a Bengio.2014.Learning phrase representations using RNN encoder-decoder for statistical machine translation.In Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing(EMNLP).)与阅读理解(Danqi Chen,Adam Fisch,Jason Weston,and Antoine Bordes.2017.Reading wikipedia to answer open-domain questions.In Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics,pages 1870–1879.)。
深度学习方法使用深度神经网络自动学习输入与输出数据间的函数关系,与传统机器学习方法相比,深度神经网络可以自动为最终任务学习出有效的特征,而无需依赖特征工程,从而使模型的学习过程能够以端到端的方式进行,大大提高了其实用性。
然而,端到端的深度学习模型由于结构复杂、参数量大,往往需要大量有标注的数据才能较好地训练。
获取标注数据需要人类专家的参与,其代价是十分昂贵的,限制了深度学习方法在低资源语言、领域上的应用。
[0003]另一方面,无标注的数据往往很容易获取,即使是在有标注数据较少的语言和领域上。
半监督学习方法提出同时使用大量无标注数据与少量有标注数据训练模型,这一方法仅需较少的人力进行数据标注,并且往往能够取得比仅使用有标注数据更好的结果,因此在理论和实践上都广受关注。
在半监督学习方法中,自训练(Self-Training)(Yarowsky, D.(1995).Unsupervised word sense disambiguation rivaling supervised methods.Proceedings of the 33rd Annual Meeting of the Association for Computational Linguistics(pp.189–196).)是一种实用的包装方法。
该方法首先在少量有标注的种子数据上训练模型,之后使用模型对无标注数据进行标注,构造自标注数据,并筛选出置信度较高的自标注数据用来进一步训练模型。
该方法对模型的结构与任务的形式不做任何假设,因此可以很好地与结构复杂的深度神经网络结合,并应用于各种任务上。
[0004]然而,在少量有标注数据上训练的模型效果有限,因此其标注的数据中往往存在很多错误,直接在这些数据上进行自训练难以带来较大的提升。
(Alan Joseph Bekker and Jacob Goldberger.2016.Training deep neural-networks based on unreliable labels.In IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP).)假设在不可靠的标签是由隐含的真实标签通过一个噪声信道得到的,提出使用转移矩阵对噪声信道进行建模,采用EM算法交替地对真实标签进行估计以及训练原模型和噪声模型,并将该方法应用在分类任务上。
(Jacob Goldberger and Ehud Ben-Reuven.2017.Train-ing deep neural-networks using a noise adaptation
layer.In Int.Conference on Learning Representations (ICLR).)提出使用全连接神经网络由输入动态计算噪声信道的转移矩阵,使用标准的反向传播算法代替EM算法。
(Michael A.Hedderich and Dietrich Klakow.2018.Training a neural network in a low-resource setting on automatically annotated noisy data.In Proceedings of the Workshop on Deep Learning Approaches for Low-Resource NLP,pages 12–18.Association for Computational Linguistics.)将该方法推广到序列标注任务上,但仅仅将序列标注视为对每个单词进行分类。
(Debjit Paul,Mittul Singh,Michael A.Hedderich,Dietrich Klakow.2019.Handling Noisy Labels for Robustly Learning from Self-Training Data for Low-Resource Sequence Labeling.In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics:Student Research Workshop,pages 29–34.Association for Computational Linguistics)提出使用噪声信道建模自训练方法中的噪声。
序列标注任务通常采用特定的标注规范,例如BIO或BIOES,标签序列的组成不是随意的,每种标签后面只能跟随特定种类的标签,因此简单地将其建模为单词或字符上的分类任务不尽合理。
(John Lafferty,Andrew McCallum,and Fernando CN Pereira.2001.Conditional random fields:Probabilistic models for segmenting and labeling sequence data.In Proceedings of ICML-2001,volume 951,pages 282–289.)提出条件随机场(CRF)模型,除了由单词生成单个标签的发射势外,还使用转移势建模相邻两个标签间的转移概率,其训练目标为最大化正确标签序列考虑发射势和转移势的联合概率,相比仅考虑单个单词上的标签分类更为合理,并在多项序列标注任务上取得了最佳的效果(Xuezhe Ma and Eduard Hovy.2016.End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF.In Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics,pages 1064–1074.Association for Computational Linguistics)。
但目前的研究尚未考虑如何将噪声模型与条件随机场相结合,限制了其在自训练等半监督学习方法中的应用。
[0005]信息抽取是自然语言处理中的一类重要研究内容,包含命名实体识别、事件抽取等,目的在于从无结构的自然语言文本中自动抽取出实体、关系、事件等事实信息,并以结构化的形式输出。
其中,事件间的因果关系在帮助计算机认识事理演化规律、进行事件推理、辅助决策等方面有着重要作用,受到了广泛的关注。
许多工作使用规则模板抽取文本中的因果事件(Sendong Zhao,Quan Wang,Sean Massung,Bing Qin,Ting Liu,Bin Wang,and ChengXiang Zhai.2017.Constructing and embedding abstract event causality networks from text snippets.In Proceedings of the Tenth ACM International Conference on Web Search and Data Mining,pages 335–344.ACM.),其优点是方法简单,无需标注数据,且往往可以获得较高的准确率,但缺点是召回率低,无法处理自然语言中多种多样的因果关系表达方式。
(R.Girju,B.Beamer,A.Rozovskaya,A.Fister,and S.Bhat,“A knowledge-rich approach to identifying semantic relations between nominals,”Information processing&management,vol.46,no.5,pp.589–610,2010., A.Sil,F.Huang,and A.Yates,“Extracting action and event semantics from web text.”in AAAI Fall Symposium:Commonsense Knowledge,2010.)等一系列工作使用机器
学习方法进行因果关系分类,取得了一定的效果,但是依赖其他方法先抽取出文本的事件,使得其实用性大打折扣。
(T.Dasgupta,R.Saha,L.Dey,A.Naskar,Automatic extraction of causal relations from text using linguistically informed deep neural networks,in:Proceedings of the 19th Annual SIGdial Meeting on Discourse and Dia-logue,Melbourne,Australia,July 12-14,2018,2018,pp.306–316.)等工作提出将因果事件抽取建模为序列标注任务,将输入的文本表示为单词或字符的序列,由深度学习模型输出一个等长的标签序列,由标签序列识别出原因、结果事件在文本中的位置,是一种端到端的方法,具有较高的实用性。
但这一系列工作收到有标注数据的制约,目前公开发表的有标注因果数据集规模较小,且各数据集间标注规范均有不同,限制了基于序列标注的因果抽取方法在实际中的应用。
发明内容
[0006]本发明的目的是解决现有基于深度学习模型的因果事件抽取方法依赖大量有标注数据,导致其在有标注数据不足的领域或场景中效果有限的问题,而提出一种基于自训练与噪声模型的因果事件抽取方法。
[0007]一种基于自训练与噪声模型的因果事件抽取方法具体过程为:
[0008]步骤一、收集已标注的目标领域文本,或对目标领域的无标注文本进行标注,标注出因果事件对,标注时,采用序列标注任务的标注方法,为文本中为每个单词标记一个标签,表示该单词属于原因事件、结果事件或其他成分;
[0009]步骤二、先用已有的分词工具对步骤一中有标注文本进行分词,使用一种神经网络结构为分词后有标注文本中的单词计算一个向量表示;
[0010]步骤三、使用条件随机场模型,由步骤二中的向量表示计算出概率最大的标签序列;
[0011]步骤四、利用步骤一中已标注的目标领域文本或对目标领域的无标注文本进行标注的文本数据训练步骤三中的条件随机场模型,并对步骤二中的模型进行微调;
[0012]步骤五、搜集同领域大量无标注文本数据,先用已有的分词工具对搜集的同领域大量无标注文本数据进行分词,得到自标注文本分词后的单词序列,利用步骤四中训练好的模型对同领域大量无标注词语进行标注,得到大量自标注数据;
[0013]所述步骤四中训练好的模型为步骤二中训练好的预训练词向量矩阵、神经网络模型,以及步骤三中的条件随机场模型的整体;
[0014]步骤六、对步骤五中自标注文本分词后的单词序列,使用步骤四中训练好的词向量矩阵、神经网络模型为每个单词w i计算一个向量表示并使用步骤四中训练好的的条件随机场模型计算单词序列生成每个可能的标签序列的概率;
[0015]步骤七、使用全连接神经网络,由步骤六中单词的向量表示计算自标注文本中每个单词的噪声矩阵;
[0016]步骤八、使用另一个条件随机场计算任意标签序列经过噪声信道得到自标注标签序列的概率,并乘以步骤六中由单词序列生成任意标签序列的概率,得到考虑噪声信道情况下由单词序列生成自标注标签序列的概率;
[0017]步骤九、使用步骤一中有标注数据与步骤五中自标注数据共同训练步骤二、三、
六、七中的整体模型。
[0018]本发明的有益效果为:
[0019]采用本发明,我们提出了一种基于自训练与噪声模型,在有标注数据与无标注数据上同时训练因果事件抽取模型的方法,该方法不依赖大量有标注数据,可以充分利用无标注数据中的信息进一步提升模型的效果。
特别地,我们让模型自行对无标注数据进行标注,将这些数据用于训练,并使用噪声条件随机场建模这部分数据标签中的噪声。
我们在中文、英文两个因果事件抽取数据集上进行了评估。
实验结果表明,我们的方法在有标注数据较少时,可以取得比很强的基线方法更优的结果。
[0020]1、在中文因果事件抽取任务上,我们采用9687条有标注的数据与大量无标注数据进行训练,并在2768条数据上进行测试,我们的方法原因事件抽取的F1值达到了92.58,结果事件抽取的F1值达到了93.96,因果触发词抽取的F1值达到了94.40,三种指标的micro-F1值达到了93.62,比只使用有标注数据的基线方法提升了0.55。
该任务上,基线方法的性能较高,而我们的方法仍能带来提升,表明无标注数据中蕴涵着大量有助于提升模型性能的信息。
[0021]2、在英文因果事件抽取任务上,我们采用1960条有标注的数据与大量无标注数据进行训练,并在560条数据上进行测试,我们的方法原因事件抽取的F1值达到了83.04,结果事件抽取的F1值达到了76.11,两种指标的micro-F1值达到了79.58,比只使用有标注数据的基线方法提升了1.63。
该任务上的有标注数据更少,待标注文本平均长度更长,难度明显高于中文数据集,而我们的方法也取得了更大的提升,表明在标注数据匮乏的情况下,我们的方法能有效地从无标注数据中学习到有用的信息,提升模型的效果。
[0022]3、序列标注模型通常先使用一个文本编码器为单词生成向量表示,再使用一个输出层模型由向量表示解码出标签序列。
我们采用条件随机场模型作为输出层,并与另一种常用的输出层模型Softmax输出层进行了对比。
仅用有标注数据训练时,中文上条件随机场比Softmax输出层的micro-F1值低0.09,英文上低0.56;但使用我们的方法,加入无标注数据与噪声模型训练后,中文上条件随机场比Softmax输出层的micro-F1值高0.33,英文上高0.67,同时我们观察加入无标注数据前后条件随机场的转移矩阵,发现合理的标签转移概率变高了,不合理的标签转移概率降低了,表明条件随机场这一输出层模型更能够从无标注数据中学习到更多知识,我们的方法采用条件随机场模型是十分有效的。
附图说明
[0023]图1为本发明流程图。
具体实施方式
[0024]具体实施方式一:本实施方式一种基于自训练与噪声模型的因果事件抽取方法具体过程为:
[0025]步骤一、收集少量已标注的目标领域文本,或对目标领域的少量无标注文本进行标注,标注出因果事件对,标注时,采用序列标注任务的标注方法,为文本中为每个单词标记一个标签,表示该单词属于原因事件、结果事件或其他成分;
[0026]步骤二、先用已有的分词工具对步骤一中有标注文本进行分词,使用一种神经网
络结构,例如基于自注意力机制的预训练语言模型,为分词后有标注文本中的单词计算一个向量表示;
[0027]步骤三、使用条件随机场模型,由步骤二中的向量表示计算出概率最大的标签序列;
[0028]步骤四、利用步骤一中已标注的目标领域文本或对目标领域的少量无标注文本进行标注的文本数据训练步骤三中的条件随机场模型,并对步骤二中的模型进行微调;[0029]步骤五、搜集同领域大量无标注文本数据,先用已有的分词工具对搜集的同领域大量无标注文本数据进行分词,得到自标注文本分词后的单词序列,利用步骤四中训练好的模型对同领域大量无标注词语进行标注,得到大量自标注数据;
[0030]所述步骤四中训练好的模型为步骤二中训练好的预训练词向量矩阵、神经网络模型,以及步骤三中的条件随机场模型的整体;
[0031]整体是一起训练的,不是每个部分单独训练的,因为收敛的判断条件是训练目标数值是否继续下降,这个训练目标需要所有模型共同计算,所以是模型整体一起开始训练,一起结束;
[0032]步骤六、对步骤五中自标注文本分词后的单词序列,使用步骤四中训练好的词向
量矩阵、神经网络模型为每个单词w i计算一个向量表示(使用一种神经网络结构,例如基于自注意力机制的预训练语言模型,为分词后无标注文本中的每个单词计算一个向量),并使用步骤四中训练好的的条件随机场模型计算单词序列生成每个可能的标签序列的概率;[0033]步骤七、使用全连接神经网络,由步骤六中单词的向量表示计算自标注文本中每个单词的噪声矩阵,
[0034]步骤八、使用另一个条件随机场计算任意标签序列经过噪声信道得到自标注标签序列的概率,并乘以步骤六中由单词序列生成任意标签序列的概率,得到考虑噪声信道情况下由单词序列生成自标注标签序列的概率;
[0035]步骤九、使用步骤一中少量有标注数据与步骤五中大量自标注数据共同训练步骤二、三、六、七中的整体模型。
[0036]具体实施方式二:本实施方式与具体实施方式一不同的是:所述步骤一中序列标注任务的标注方法为采用BIO或BIOES等标注规范,例如“货币/超发/导致/了/房价/的/快速/上涨”在BIO标注规范下的标签为“B-cause/I-cause/O/O/B-effect/I-effect/I-effect/I-effect”,其中B-cause表示原因的开始,I-cause表示原因的中间,B-effect表示结果的开始,I-effect表示结果的中间,O表示不属于原因、结果的其他文本。
[0037]其它步骤及参数与具体实施方式一相同。
[0038]具体实施方式三:本实施方式与具体实施方式一或二不同的是:所述步骤二中先用已有的分词工具对步骤一中有标注文本进行分词,使用一种神经网络结构,例如基于自注意力机制的预训练语言模型,为分词后有标注文本中的单词计算一个向量表示;具体过程为:
[0039]从预训练的词向量矩阵中查找到分词后有标注文本中的每个单词对应的词向量,并将分词后有标注文本中的每个单词对应的词向量(每个单词对应的词向量是预训练的向量矩阵中的一行)输入一个神经网络得到每个单词融合上下文信息的向量表示;。