【CN110020434A】一种自然语言句法分析的方法【专利】

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

(19)中华人民共和国国家知识产权局

(12)发明专利申请

(10)申请公布号 (43)申请公布日 (21)申请号 201910258045.1

(22)申请日 2019.04.01

(66)本国优先权数据

201910224013.X 2019.03.22 CN

(71)申请人 北京语自成科技有限公司

地址 100080 北京市海淀区中关村东路1号

院6号楼二层KJ202-162号

(72)发明人 秦一男 朱江 

(74)专利代理机构 北京睿派知识产权代理事务

所(普通合伙) 11597

代理人 刘锋

(51)Int.Cl.

G06F 17/27(2006.01)

(54)发明名称一种自然语言句法分析的方法(57)摘要公开了一种自然语言句法分析的方法。本发明指出了当今计算机科学界公认的两种国际领先的自然语言句法分析装置——伯克利解析器(Berkeley Parser)和斯坦福解析器(Stanford Parser)存在的一些严重的技术漏洞,并针对这些漏洞,给出了解决问题的技术方案。本发明建立了一套全新的用于刻画语句的数学模型,并在此基础之上提出了一套计算机句法分析的方法。本发明通过技术手段,将计算机自然语言处理中的词法分析、句法分析、语义分析三个方面有机地统一起来,加强了这三个方面之间的互相约束,从而改善了计算机消解结构歧义的效果。本发明技术难度较高,综合性强,适用范围广,计算量非常大,符合数学和计算机科学的自然规律,

有助于提高计算机句法分析的准确率。权利要求书9页 说明书56页 附图26页CN 110020434 A 2019.07.16

C N 110020434

A

权 利 要 求 书1/9页CN 110020434 A

1.一种自然语言句法分析的方法,包括:

S1、读取待解析的语句数据结构,并针对待解析的语句数据结构进行预处理操作;

S2、针对每一个词语列表(i),读取待解析的经过前述的预处理的语句数据结构:如果在待解析的语句中存在谓语动词单元,那么生成词语列表(ii);如果在待解析的语句中不存在谓语动词单元,那么改为采用概率结合句法规则的方法或依存分析方法对该语句进行分析,取前述分析的结果作为计算机的最终分析结果,进而清除对应的词语列表(i)且不生成词语列表(ii);

S3、针对每一个谓语元素,生成对应的谓语向量;所述谓语向量包括并列引导语元素、从属引导语元素、主语元素、谓语元素、第一位置宾语元素、第二位置宾语元素;

其中,所述谓语元素是对应的谓语动词单元,或对应的相邻并列的谓语动词组合单元;所述谓语元素编号是对应的谓语动词单元编号,或对应的相邻并列的谓语动词组合单元编号;

其中,所述并列引导语元素的可能取值是编号小于对应的谓语元素编号的用于连接句子的并列关联词单元之一,或空单元;不用于连接句子的并列关联词单元,不能作为并列引导语元素的可能取值;

其中,所述从属引导语元素的可能取值是编号小于对应的谓语元素编号的从属关联词单元之一,或编号小于对应的谓语元素编号的相邻并列的从属关联词组合单元之一,或编号小于对应的谓语元素编号的疑问词单元之一,或编号小于对应的谓语元素编号的相邻并列的疑问词组合单元之一,或空单元;

其中,所述主语元素的可能取值是编号小于对应的谓语元素编号的基本名词单元之一,或编号小于对应的谓语元素编号的相邻并列的基本名词组合单元之一,或编号小于对应的谓语元素编号的不定式元素对应的不定式向量之一,或编号小于对应的谓语元素编号的动名词-现在分词元素对应的动名词-现在分词向量之一,或比对应的谓语元素编号小的谓语元素对应的谓语向量之一,或空单元;

其中,所述第一位置宾语元素的可能取值是编号大于对应的谓语元素编号且小于在所述谓语元素之后出现的第一个谓语元素编号的基本名词单元之一,或编号大于对应的谓语元素编号且小于在所述谓语元素之后出现的第一个谓语元素编号的相邻并列的基本名词组合单元之一,或编号大于对应的谓语元素编号且小于在所述谓语元素之后出现的第一个谓语元素编号的不定式元素对应的不定式向量之一,或编号大于对应的谓语元素编号且小于在所述谓语元素之后出现的第一个谓语元素编号的动名词-现在分词元素对应的动名词-现在分词向量之一,或比对应的谓语元素编号大的谓语元素对应的谓语向量之一,或空单元;谓语元素对应的符合前述要求的表语成分,也当作第一位置宾语元素处理;

其中,如果对应的谓语元素是由可接双宾语的动词或可接宾语结合宾语补足语的动词构成的单元,且对应的第一位置宾语元素是一个基本名词单元或一个相邻并列的基本名词组合单元,那么所述第二位置宾语元素的可能取值是编号大于对应的第一位置宾语元素编号且小于在所述谓语元素之后出现的第一个谓语元素编号的基本名词单元之一,或编号大于对应的第一位置宾语元素编号且小于在所述谓语元素之后出现的第一个谓语元素编号的相邻并列的基本名词组合单元之一,或比对应的谓语元素编号大的谓语元素对应的谓语向量之一,或空单元;如果对应的谓语元素是由可接双宾语的动词或可接宾语结合宾语补

2

相关文档
最新文档