最大熵方法及其在自然语言处理中的应用研究

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

1 自然语言处理现状
采用自语言与现代化的设备相交流,是人们的一个长远性发展目标,不仅可以改变人们的生活方式,还会有助于信息技术的高速发展。

在生活中,人们可以使用自己的语言来掌控计算机系统,并不需要主动的去学习计算机原因和内容的编程操作,可以利用其进一步的增强对人类语言文化的使用以及对现代化设备的智能操作。

自然语言的探索可以实现人类和计算机的无隔阂互动,从而更加高效率的理论交流,是将现代化设备从科学领域转变为人工智能的过渡环节,一旦实现就可以带领当前的科学技术进入到下一个发展阶段中。

要想切实的减少人机交流过程中的阻碍,需要在编制程中加强计算机设备对于自然语言的多重性领会,可以领悟到自然语言本身所具有的思想意识。

上述两种阶段,前一种被称作是自然语言理解,后一种责备称作为自然语言生成。

自然语言的处理总体上包含着自然语言的领会以及语言意识生成两种环节,在过去的几年中,研究人员对于自然语言的研究频率较为广泛,但是自然语言的生成探索程度较为薄弱,此种情况正在随着探究而发生转变。

无论是自然语言的生成还是对其的本身领悟,都较为复杂,研究的过程还需要很长一段时间,针对当前的科学技术发展状态而言,还需应当着重处理高质量的自然语言处理程序,在社会中,已经有多种系统正在服务于社会发展,例如:多种类型的数据库、专家系统的自然语言接口、语言的自动翻译设备以及信息检索程序[1]。

2 最大熵方法的历史发展
最大熵方法本质上就是在遵守相应的最大熵原理建模,需要选用一个可以满足在限制模型中最大熵值,此基本原理
是因为在局部信息数据在被推算的过程中,需要满足已知的多种条件,并从中感受到最大熵值的概率估算和建模过程是一个不包括偏见的研究结果。

此类结果可以满足全部既定事实,可以不进行对未知结果推算和前提性研究。

利用最大熵方式进行建模时的主要优势就是能够将各种不特点选取一种框架进行刻画,无需单独性质的前提构建,但是此种探究也具备一定的劣势,就是运算时内部的时间和空间构成较为困难,其中的数据量较为庞大,资源的消耗量也无法合理的控制。

举一个例子,在为“打”设立一个专属的模型建设,此种模型会被注释为P,其中的可能性词汇就会存在多种概率,但是要想从中获取更多注释性词汇就应当在此研究的过程中玄功既定的客观事实作为依据,从而建立此类模型。

在上述的例子中,可以分析出一个较为显性的可能性词汇,在“打”的使用过程中,它可能会存在量词、动词或者介词三种含义的区分,从而就可以在输入计算机系统的过程中设置第一个模型约束:P
(量词+动词+介词)=1[2]。

3 最大熵方法在自然语言处理中的适用区域
根据推算的理论过程而言,自然语言处理会根据词性、句子以及章节采用三个不同种类的结构进行划分,句子是整个语言信息传递过程中最常见的形式,也是能够联系上下文语境的主要连接媒介。

例如,在以词性为主要的单词划分单元处理期间,需要检索最优的句子标注,其中对语法的研究应当针对语句中的每一个单词内所存在的修饰性联系。

因为句子是一种主要的连接媒介,所以要想探究文章的承上启下内容,就应当以它为主要的研究方向。

利用最大熵方法就可以在内部模型的结构理论中,找寻有效的自然语言处理,从而实现对语言的加工。

二值的作用,可以在训练语表中使用。

第四,左词和右词以候选串为主要的衡量标准,为其左侧词汇和右侧词汇。

第五,左词以及右词专属于列表内,具备二值特点,存在于训练语表中。

第六,候选串存有的数字,在0-9中的一个字符中。

3.2 英文词性标注
英文词性中的标准器会有45个词汇,根据最大熵方法的理论研究,其中的英文词性解注选用十八种特点,总的概括分类,可以将其分为以下几个方面。

第一,五个单词,视为前一个词汇的前后第一和第二单词的本身含义。

第二,两个单词的性质含义标注,即为前一个和前两个单词词性的解释。

第三,前一个词汇的三种拼写特点,首字母的大写问题、是否存在数字、转接符号的问题。

第四和第五分别为前一个单词的四个前缀特点以及四个后缀特点。

可以采用专用的WSJ02-21以及WSJ00-02试验,系统会采用十七个专属的模板,设定频数阈值为10,并选择64864个特点,借助beam 检索的方式,当其大小值控制在5范围内,需要控制其准确值为96.5%。

3.3 基本短语识别
在对自然语言的研究过程中,名词短语的机械式译文、文本的搜索、信息的提取以及文章属性的分类都有着关键性的作用,第一,短语具备更加明显的内容,增加情感结构,可以不再采用单一式的短语构成分词做以展示,比如在英语的使用中,会有动词以及介词的使用,并在此基础之上构建短语。

第二,大量的专有性单词本质上就是一种短语,比如:自然语言采集,最惠国待遇等,此类专有性单词会在专业术语
短语,其中分为形容词、副词、连词、叹词以及名词等多种形式的短语。

最大熵方式可以是英文的基本短语构造在专属设备的运行状态下,采同和中文短语识别设备相同的分析方式,并将其分为十二个专有的属性,可以为左侧第一个词汇的前后第一、第二个词性注解,仔细研究单词的专属词汇,并对前两个专有的词性进行标注,和中文的短语分析设备运行方式基本存在相同之处,能够将其分为二十四种特点模板,并进行有针对性的分析。

程序的运行会采用WSJ15-18训练,在测试时会使用WSJ20,借助SGC 运算方式采集信息合同中的6000个特点,获取最佳的准确程度,并将召回率调节为92.37%以及92.55%,通过最大熵值的方式的KOELING 2000的运行系统性价比较高。

4 结论
在本文的阐述中分析了自然语言处理以及最大熵值方法,研究其两者的应用范围,并详细的阐述在现代化设备文本智能化自然语言处理系统中对多种语言的处理。

参考文献
[1]王文婷,王淑璠,张炜.基于最大熵方法的未来气候变
化下狼毒在中国潜在分布的预测[J].植物保护学报, 2019, 46(01) : 136-141.
[2]申屠帅. 海洋声层析最大熵粒子滤波方法[D].浙江大学,
2018.
[3]姚成乾.基于最大熵区间分析的测量不确定度评定[J].计
量学报, 2019, 40(01) : 172-176.。

相关文档
最新文档