汉英机器翻译兼类词与多义词处理探析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

Nov. 2020Vol. 46 No. 6
2020年11月 第46卷第6期
西南民族大学学报(自然科学版)
Journal of Southwest Minzu University ( Natural Science Edition)
doi :10. 11920/xnmdzk. 2020. 06. 010
汉英机器翻译兼类词与多义词处理探析
杨驰',杨宪泽2
(1.成都东软学院,成都611844;2.西南民族大学计算机科学与工程学院,成都610041)
摘要:在汉英机器翻译处理的过程中,兼类词与多义词处理是重要的问题.研究背景是汉语对英语的机器翻译系统,
相关的探讨涉及的技术很多.包括:汉语句自动分词、兼类词处理、多义词处理、成语处理、单词复数处理、形态问题、人 名问题和地名问题等等.其中,兼类词与多义词处理是机器翻译影响准确率最为急迫解决的问题之一.主要阐述做的
两项工作:①分析了汉英机器翻译中出现兼类的特点,给出一些兼类词语的例子,探讨解决兼类问题的一种构思;②阐 述多义词在汉英机器翻译中出现的各种状况,进行解决问题餉基本设计,探讨构造一种解决问题妁方法.
关键词:汉英机器翻译;兼类词处理;多义词处理中图分类号:TP391.2
文献标志码:A
文章编号:2095-4271 (2020 )06-0619-04
Analysis of processing multi - category and polysemic words in the
Chinese 一 English machine translation
YANG Chi' ,YANG Xian - ze 2
(1. Chengdu Neu s oft University , Chengdu 611844, China ; 2. School of Computer
Science and Engineering, Southwest Minzu University , Chengdu 610041, China)
Abstract : In the process of Chinese 一 English machine translation, it is important to deal with both multi - category and polyse ­
mic words. The research background of this paper is the Chinese - English machine translation system , which involves many technologies , such as Chinese sentence automatic segmentation , multi — category word processing, polysemy processing, idiom
processing , plural word processing, morphological problems , names of persons and places , etc. Among them , the processing of multi 一 category words and polysemy words is one of the most urgent problems affecting the accuracy of machine translation.
This paper analyzes the characteristics of the multi - category words in Chinese 一 English machine translation , gives some exam ­
ples of the multi - category words , and discusses a solution to the problem ; It expounds various situations of polysemy in Chi ­nese —English mac h i n e translation , conducts basic design and discusses a method to solve the problem.
Keywords : Chinese 一 English machine translation ; processing of multi - category words ; processing of polysemic words
机器翻译是用计算机软件编程序做两种语言语 句的自动翻译,例如汉语句子翻译成英语句子、英语
句子翻译成汉语句子等等•机器翻译是21世纪人们
试图解决的科技难题之一,无论是语言学工作者,还 是软件编程者,或者其它方面科技人员,都会在机器
翻译软件研发过程中面临两种不同的自然语言出现 的困难,比如语句间不同层次上的歧义.要解决这些 问题,还需要很长的时间,还有很长的路要走[1-6i .
机器翻译软件成果的好坏,是用高准确率来评价
的•这些成果,如果达到了高准确率,就能很好的推广
收稿日期:2020-09-24
作者简介:杨驰(1987-),女,讲师,研究方向:英语语法与汉英机器翻译
基金项目:成都东软学院项目(NSUJG2018 - 049)
620西南民族大学学报(自然科学版)第46卷
应用•在应用中,我们会看到它的重要性,它可以在全球范围内实现不同民族人们用不同语言自动交流,在旅游、涉外工作、政务交流、商务谈判和科学技术合作探讨发挥重要的作用•做好机器翻译,至少需要语言学专业与软件专业人员密切合作,解决翻译过程中面临的许多难题,例如汉语句自动分词、兼类词处理、多义词处理、成语处理、单词复数处理、形态问题、人名问题和地名问题等等.其中,兼类词与多义词处理是机器翻译影响准确率最为急迫解决的问题之一7".
本文主要阐述做的两项工作:①分析了汉英机器翻译中岀现兼类的特点,给出一些兼类词语的例子和解决兼类问题的一种构思;②阐述多义词在汉英机器翻译中出现的各种状况,进行解决问题的基本设计,探讨构造一种解决问题的方法.
1汉英机器翻译中兼类问题分析及处理构思
1.1汉语句子机译英语句子面临的单词兼类问题
所谓汉语句子单词兼类,就是一个单词属于两个及两个以上不同的的词性.例如,“报告”至少可以作为动词和名词使用:我作学术报告(报告为名词);我报告一个情况(报告为动词)•而对汉语句子机译英语句子,汉语单词与英语单词之间采用模式匹配的方法,即,整体看待一个输入句子并给以相应的解释,不再考虑句子中的单词更多的语法关系与语义关系•这样,只要汉语句子单词事先标注的词性符号串能够与英语句子单词事先标注的词性符号串匹配,机译的基本目的就达到了•其实,这非常象我们学习英语时使用的替换练习句型,如果我们要机译的每一个汉语句子都能够匹配一个相对应的英语句子,模式匹配的基本机译任务就容易完成.这里的模式就是词性符号串,或者称为目标表达式,串中的词性标注符不允许有两种及两种以上的解释,所以必须解决单词词性兼类问题.
世界上各民族的自然语言,存在着多种歧义.词性兼类是突出的问题之--.在众多的语言中,汉语没有形态变化,它的单词的使用灵活,在句子中可以成为不同的成分•研究统计表明,汉语的单词兼类要算多的,而且复杂;另一方面,在英语句子中的单词兼类问题也多,其比例认为比汉语单词的兼类率还要高.因此,研究兼类词的词性在机器翻译中显得特别重要,它是保证汉语句子机译成英语句子正确率能否提高重要的一环.
非常多的研究表明,词性标注正确与否是解决兼类问题的主要途径•基本作法是:在机器翻译的汉语与英语双语电子词典中,对每一个源语句句子中的每一个单词标上对应的词性.作为每一个源语句特定的句子,它的单词词性肯定是确定的.从汉语翻译英语的机器翻译这一角度来看,词性标注将为相关的句法分析的准确性奠定基础,进而缩小英语译词选择的范围.
1.2处理汉语和英语单词有兼类词性的一些方法探讨
我们的课题研究中,采用了下述一些方法进行处理:
(1)对于汉语句子中的形容词来说,它们的语法功能包括:(A)句子前面有“很”;(B)句子后面有“的”;(C)或者句子后面有“了”…….我们完全可以利用这些语法功能来进行词类的区别,例如名词不可能(A)、(C).或者作谓语;动词不可能(A)、或者作定语.
(2)对于汉语和英语单词的词性标注,要进行多方面考虑,比如英语动词就不能只标注V,要全面考虑它的形态,包括第三人称单数,过去分词、现在分词,过去时等等,一般我们采用多个符号来区别这些特殊情况.
(3)对于动词,如果在这样一些句法位置出现,那么它应该就是属于名词兼类:
1)作为数+量词的中心语:比如说几笔补贴、几篇报道、儿种爱好、一项服务等等这样一些情况下;
2)—般来说,“有”的宾语均属名词兼类:例如有变动、有影响、有希望、有报道、有暗示等等;
3)如果遇见“+和+名词”的并列情况,例如激情和希望、意见和建议等等,应该属于名词兼类;
4)如果遇见“体宾动词+”的情况,例如提出建议、作了决定等等,应该属于名词兼类;
5)如果遇见“区别词+”作中心语的情况,例如双向选择、大型调查等等,应该属于名词兼类;
6)如果遇见“定语+"作短语的中心语情况,例如钢琴伴奏、工作安排、语法研究等等,应该属于名词
第6期杨驰,等:汉英机器翻译兼类词与多义词处理探析621
兼类;
7)如果遇见动词后面加名词,即直接修饰名词这种情况,例如生存空间、学习进度、研究成果等等,应该属于名词兼类.
1.3处理汉语和英语单词有兼类词性的一种标注方法
结合语言学(英语与汉语)和计算机科学专业,在处理汉语和英语单词有兼类词性的情况下,我们采用了以下词性标注方法:
(1)与规则结合的方法:具体做法是,先为语料库中收集的每个句子赋以初始词性序列,然后把已经初始标注的句子与正确词性标注的句子一一比较.研究出相应的一些结构转换规则.这些规则要进行多个环节的检查,可以作用于新的初始序列的句子上,反反复复,最后得到正确的词性标注.
(2)归结为统计的一种方法:具体做法是,先对语料库中收集的部分句子进行手工标注,然后对标注的语料进行统计计算,产生标记与标记同现的频率,最后就有了一个标记同现的频率矩阵.当然,具体标注工作时,应该考虑从文本中取一个两端由两个没有词性歧义的词限制的词串,进一步利用标记同现频率的乘积去计算这些词串所有可能的标记组成的标记串的权值,慎重进行选择,权值最大的标记串把它作为统计结果.
2机器翻译汉译英汉语多义词问题与处理
2.1机器翻译汉译英汉语多义词问题
每一种自然语言语句都可能含有多义词,多义词是每一种自然语言语句不同意义的现象,句子中的某个词可能有几个不同的意义•这是人工翻译和机器翻译都面临的问题,但机器翻译可能成为不可回避的难点.
对于汉语句子来说,有的汉语句子单词只有一个意义,而有的汉语句子单词具有多种意义.如果不考虑上下文关系,这些单词具有多种意义的句子可能使整篇文章产生歧义,使翻译发生偏差,甚至出现不能理解的情况.
我们再强调一下,各民族自然语言普遍存在一词多义现象.例如,汉语单词“打”就有多种意思,“一打笔”、“打仗”等等;英语单词“bank”在金融学中作银行讲,水力学中作“河堤”讲.人们统计过,物理学方面的单词其多义词约占30%;其它科学的单词多义词要占43%.
总之,在汉译英机器翻译中,一个句子出现多义词是在所难免的.目前还没有研究透彻的现象是,人们在日常的交流中,多义词的口译并没有给人们带来太大的影响,解释为人们在长期生活、工作中积累了大量的人头脑中的包括语用、语法、词法、语义等等知识,还提出了直觉这个概念.直觉是什么迄今还众说纷纭,机器翻译使用的电脑更是一无所知了.当然,语义和语用的知识机器翻译软件也比较难于获得,因此,对机器翻译软件目前来说,确定翻译句子中单词准确的词义还是非常困难的[1°-'21.
经过多方面研究,人们发现句子中的多义词有些不同意义之间存在一定联系,有可能是从基本意义中派生出来的.可以举一个例子,汉语语句中单字词“开”,最基本意义就是打开关闭的东西,例如“开门”、在进一步-“开门了”、在扩充-“开口说话”等等;这就是说,从“开”的基本意义,可以进一步派生出多种含义.
沿着上述研究思路,可以从三个方面去考虑分析单词多义现象:
(1)有些单词虽然有多个意义,但意义是相关的:这就是说,这样的单词词的多个意义有一定的联系甚至可能是近似的.比如“open”这个英语单词就有两个近似的意义,“开着的”、“公开的”.
(2)有些单词虽然有多个意义,但意义无关:这就是说,这样的单词词的多个意义没有相关性.比如“bank”这个英语单词就有两个截然不同的意义,在金融学中作为“银行”、在水利学中作为“河堤”.
(3)有些单词的不同意义与该单词的词性有关:这就是说,这样的单词在不同词性下有不同的意义.比如“hit”与“dozen”,虽然都翻译成“打”,但“hit是动词,可能为打架、打仗等等;而“dozen”是量词,可能为一打笔等等•
2.2机器翻译汉译英汉语多义词消歧的基本思路
在机器翻译汉译英过程中,汉语多义词量非常大,机器翻译质量受影响的重要因素来源于它,因此,必须花大力气在这个方面进行研究.现在,大多数的
622西南民族大学学报(自然科学版)第46卷
研究考虑是在特定的上下文以及不同的专业、类型环境中确定多义词的意思•研究把消歧工作大量集中在同一个双语单词词的不同词义的区分,当然,也可以利用机器翻译系统中建立的同义词词典,注意词典中单词的定义,做好分类划分・
此外,有两个方面需要强调:
(1)对于机器翻译汉译英面临的每一个单词,必须统一用一部电子词典,因为不同的电子词典对于单词的分类往往不一致,甚至有不同的定义,这是不同的专业角度造成的,目前若统一不了,就只能以某一部电子词典为准.
(2)考虑不同的专业,不同的文章类型,机器翻译中的双语单词词义的含义可能不相同.比如,汉译英机器翻译区分一个句子中的单词词义往往把重点放在这个句子的目标词,而在广泛使用的信息检索中区分一个句子中的单词词义考虑的是这个单词在句子中要表达的概念,也考虑这个单词在句子中与其它词的近似度.
3结论
从语言学的角度与软件研发的角度分析,汉语句子机器翻译成英语句子都很难,兼类问题和多义词问题仅仅是难点之一•我们还必须花较多的时间、下较大的功夫解决许多基本问题:举例来说,当汉语句子翻译成英语句子时,译文输出英语字母大写怎么自动加入;“the”怎么自动加入等等,这些都是在考虑译文的准确率面临的问题.此外,汉语句子机器翻译成英语句子时,汉语句子的特点-自动分词的歧义问题以及句子的语义问题等等都会出现•我们一致认为,世界上各民族,各个国家的自然语言发展历史悠久,其思维模式、传统的理念和文化方式都会有不同的特点,这会使双语机器翻译有许多不同的成分,在其单词和短语方面都会遇到不同的问题.
在下一步的工作中,我们必须首先扩充规则集,有许多问题需要深入研究和解决U3-|4!.包括:(1)掌握形容词加“er”的变化规律,制定相应规则;(2)注意一般名词加“s”变复数的规律,制定相应规则;(3)在汉语句子与英语句子中,侧重研究语义与语境方面的分析规则;(4)集中研究复合句,制定一套更符合需要的时态转换规则;(5)扩大研究范围,分析短语、副词、助词的规律,制定相应的规则.
参考文献
[1]YAELKAROV,S EDELMAN.Similarity-based Word Sense Disam­
biguation[J].Computational Linguistics,1998,24(1):41-59. [2]SERGEI NIRENBURG,CONSTANTINE DOMASHENY,DEAN J
GRANNESL.Two Approaches Matching in Example-Based Machine Translationf A].In Proceedings of TMI-93,1993,47-57.
[3]GEOFF W,MICHAEL J P,DANIEL B.Machine learning for User
Modeling[J er Modeling and User-Adapted Interaction,2001, 11:19-29.
[4]HAMMOND T.A Domain Description Language for Sketch Recognition
[M].MIT Student Oxygen Workshop.2002.
[5]WANG CHAO,MICHAEL COLLINS,PHILIPP KOEHN.Chinese
Syntactic Reordering for Statistical Machine Translation[A J.In Pro­ceedings of the2007Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning (EMNLP-CoNLL).2007:737-745.
[6]XIONG DEYI,ZHANG MIN,AITI AW,et al.A linguistically Anno­
tated Reordering Model for BTG-based Statistical Machine Translation
[A].In Proceedings of ACL-08:HLT,Short papers(Companion
Volume),Columbus,Ohio,USA,June2008:149-152.
[7]杨宪泽.汉英机器翻译中短语处理与译文生成研究[J]•西南民族
大学学报:自然科学版,2013;39(3):456-460
[8]杨宪泽,等•一种混合式机器翻译方法的分析研究[J]•计算机工程
与科学.2012;34(2):168—171
[9]魏玮,杜金华,徐波.基于分层语块分析的统计翻译研究[J].中文
信息学报.2007,21(5):87-91.
[10]杨宪泽.人工智能与机器翻译[M].成都:西南交通大学出版社,
2006.
[11]杨宪泽•汉英机器翻译研究的方法与难点[J].成都东软学院学
刊,2018,1:11-15.
[12]杨驰.智能语言学初步研究-以汉英机器翻译为例.第5届中国
心理语言学国际研讨会论文集[M]•成都:电子科技大学出版社, 2019,10:365-367.
[13]杨宪泽.自然语言处理的原理及其应用[M].成都:西南交通大
学出版社,2007.
[14]赵铁军.机器翻译原理[M].哈尔滨:哈尔滨工业大学出版社,
2001.
(责任编辑:张阳,付强,李建忠,罗敏;英文编辑:周序林)。

相关文档
最新文档