基于规则的英汉翻译技术报告

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

• • • • • • • • • •
that 是从句引导词---表语从句 ---that---是从句引导词 ---it---是代词短语 ------it---是代词短语 ---will not create---是谓语短语 ------will not create---是谓语短语 ---any pollution---是名词短语 ------any pollution---是名词短语 . 是标点-----.---是标点
2 系统结构
• FreeartTrans从结构上分搜索引擎、成分识别、释义选择三 个大部分。
2.1 搜索引擎
• 搜索引擎首先对要翻译的英文资料标点符号等纠错,保留 格式后,分成单句。分句中还要处理直接引语和缩写识别 等问题。Say、think、shout、muse、clamor、clamour、 state、announce、declare、assert、respond、return、 continue、greet、exclaim、remark、whisper、order、call、 suggest、advise、urge、cry、answer、add、reply、 acknowledge、retort、quiz、complain、query、demand、 inquire、counsel、proclaim、cheer、hail、mumble、mutter、 murmur、utter、laugh、smile、answer、argue、report、 persuade、go on等引导的直接引语需要对引号内的句子分 句,如果有主谓语倒置的情况还需要对主谓语还原。
2.2.3.1短语识别的基础上进行短语的合并 2.2.3.1短语识别的基础上进行短语的合并
• 短语合并是为了解决短语的修饰关系与句子的结构问题, 短语合并后的层次关系描述了句子的结构。名词短语后的 介词短语如果是修饰名词短语做后定语,从修饰关系来判 断应该将短语合并,同时给出短语的成分,这样便于对合 并后的短语给出翻译模式。通常情况下不定式、ing分词、 ed分词后面可以带自己的宾语、状语等,对这些成分也需 要进行短语的合并。从句中可能有自己的主、谓、宾结构, 同时从句也是主句的一个成分,如宾语从句中,整个从句 是主句的宾语,状语从句中,整个从句是主句的状语。为 了实现句子的层次结构,也需要对短语进行合并。
• • • • • • • •
An advantage 是名词短语---主语 ---An advantage---是名词短语 ---of using---是介词短语 ------of using---是介词短语 ------the solar energy---是名词短语 ---------the solar energy---是名词短语 is 是谓语短语---谓语 ---is---是谓语短语
2.2成分识别 2.2成分识别
• 成分识别的工作过程就是利用在数据库中的上千个属性和 定义对英语进行解析的过程。这个解析的过程是 FreeartTrans最核心的部分,需要解析出所有的词性、底层 短语、底层短语内成分、所有一级成分(就是能够在主句 中担任成分的成分)、所有的从句等。分析出的结果还要 进行各自环节的进一步处理,比如识别出一个短语后,要 对短语内所有成分进行分析;比如识别出一个一级成分后, 要对这个成分进行翻译方案确定和翻译定位,同时还要对 这个一级成分中所有的内成分进行处理等。 • 成分识别的目的就是要让机器“看懂”英语,通过英语的 最小的要素一步一步地分析出一级成分来。这个过程需要 解决很多语言多重理解、多词性词的处理和语义歧义等问 题。英语句子解析完毕后,整个句子的整体工作就已经完 成了大半。
2.2.3.2短语合并基础上识别 2.2.3.2短语合并基础上识别 合并后短语的一级成分
• 短语的一级成分即句子的主语、谓语、宾语、表语、状语 等语法成分。一级成分识别是分层次实现的,对于从句也 需要进行一级成分的识别。不定式、ing分词、ed分词可以 带自己的宾语、状语等,对这些成分也需要进行一级成分 识别。一级成分识别首先需要确定短语合并的位置(相对 谓语的位置),然后根据短语合并的类型进行一级成分识 别。 • 如:An advantage of using the solar energy is that it won't create any pollution.一级成分识别后的结构:
基于规则的英汉翻译技术报告
景元 西安汇申软件有限公司 西安 7100075 E-mail:freeartsoft@126.com
1 背景情况
• FreeartTrans英汉全文翻译系统是由西安汇申软件有限公司 自主投资研发的基于规则的英汉全文全自动精确翻译软件。 基于规则的机器翻译系统就是对语言语句的词法、语法、 语义和句法进行分析、判断和取舍,然后重新排列组合, 生成等价的目标语言。本系统是根据全新的机器翻译理论 (MT)建立起的“翻译仿生学”模型,依托本公司独创的 “成分识别系统”和“综合立体释义选择系统”在机器翻 译过程中尽可能地模拟人类的翻译行为,从而大幅度提高 机器翻译的准确率。 • FreeartTrans参加了本次第四届全国机器翻译研讨会 (CWMT2008)英汉新闻领域机器翻译评测项目。
2.2.3一级成分识别 2.2.3一级成分识别
• 一级成分识别需要在短语合并的基础上识别句子的主语、谓语、 宾语、表语、状语等语法成分。最终需要识别出的一级成分有39 种:1)句首连词、2)谓语前独立成分、3)语前状语、4)主语、 5)主语同位语、6)谓语前主语补足语、7)主语后状语、8)形 式主语it、 9)谓语中状语、10)谓语中否定副词、11)谓语 中情态动词、助动词、12)谓语、13)系动词、14)谓语后单一 状语、15)宾语前状语、16)单一宾语、17)形式宾语it、18) 间接宾语、19)直接宾语、20)真正宾语、21)宾语后状语、22) 宾语补足语、23)单一宾语同位语、24)表语前状语、25)表语、 26)表语后状语、27)表语同位语、28)谓语后真正主语、29) 谓语后主语补足语、30)被动语态by主语、31)间接宾语同位语、 32)直接宾语同位语、33)谓语后独立成分、34)谓语前状语从 句、35)谓语后状语从句、36)主句从句、37)宾语从句、38) 表语从句、39)同位语从句
• He found a way to take an udder cell and make it grow into a new cloned lamb.需要还原成He found a way to take an udder cell and make it to grow into a new cloned lamb. • 一般疑问句,可以先还原成陈述句,并给出翻译模式,句 尾加“吗”。 • Do you think the proposal is acceptable?可以还原成you think the proposal is acceptable? • Is the station clock accurate?可以还原成the station clock is accurate? • 常见需要转换的句型有疑问句(包括一般疑问句、反义疑 问句、特殊疑问句、倒装句、强调句等)。
• The boy’s looking at the tall tree.需要还原成The boy is looking at the tall tree. • He’s finished the work.需要还原成He has finished the work. • The boy’s book is lost.需要将boy’s识别成所属格。 • He'd finished.需要还原成He had finished. • I'd like to have a cup of tea with you on this Sunday.需要还原 成I would like to have a cup of tea with you on this Sunday.
Baidu Nhomakorabea
2.3 释义选择
• 释义选择是在一级成分识别后的基础上按短语类型分层次 进行的。
2.3.1 翻译模式
• 翻译模式在对短语中每个单词的内成分识别、短语的一级成分 识别的基础上给出的。名词短语需要识别限定词、前定语、中 心名词等(如An advantage的内成分识别结果:An(限定词) advantage(中心名词)(数:单数)---中心名词不并列---限定词不 并行---前定语数量:0)。根据每个单词的词性给出翻译模式。 An advantage of using the solar energy是一个合并后的名词短语。 of using the solar energy是一个合并后的介词短语。the solar energy是一个名词短语做介宾using的宾语。of using the solar energy翻译成“使用太阳能”。我们给出后定语的翻译模式, 翻译到修饰的名词短语中心词前。a(一)+advantage的量词(种) +of using the solar energy做后定语的翻译(使用太阳能的)+ advantage(优势)。最终我们得到了An advantage of using the solar energy的翻译:一种使用太阳能的优势。谓语短语需要给 出谓语中情态动词、谓语中否定副词、谓语中副词、谓语中助 动词等的翻译模式。
• 如:“People have a variety of emotion,” argues Harvard, “Some people handle anger well but can‘t handle fear. So each emotion has to be viewed differently.”需要还原成Harvard argues ,“People have a variety of emotion,Some people handle anger well but can’t handle fear. So each emotion has to be viewed differently.”。型如U.S.、Mr.、www.等带.标点的缩 写从形式上会对分句产成干扰,对缩写的识别可以消除这 一问题。 • 搜索引擎完成了搜索句中每个单词的词性,释义,合成词 识别、数词识别,时间年月识别,固定表达等识别,短语、 模式、规则等的搜索匹配。搜索引擎是句子翻译的起点, 同时贯穿释义选择的整个过程。搜索引擎首先建立每个单 词的词性、属性、文体属性、语义属性等信息,为成分识 别和释义选择提供服务,在释义选择的过程中搜索引擎需 要针对一些短语、模式或规则进行关联搜索匹配,提供翻 译的服务。
2.2.1底层短语识别 底层短语识别
• 在词库详尽的词性、属性基础上实现了语法意义上短语的 识别。底层短语需要识别出12种不同的短语来,同时要对 这些短语进行解析和翻译定位。 • 短语的类别包括:名词短语、介词短语、代词短语、数词 短语、形容词短语、副词短语、动词短语、不定式短语、 ing分词短语、ed分词短语、从句引导词、并列连词 • 短语识别需要在一般陈述句的基础上进行识别。英语句子 的多样性会对短语识别的结果产生影响。为了避免影响需 要处理一些特殊情况,我们引进了省略还原、句型转化等 机制。如’s、’d的省略,动词不定式符号to的省略等语 言现象,需要先还原正常表达形式,再进行识别。
• 为了降低单词多词性的干扰和利用不同短语类型的分类识别, 短语识别采用从句子的最后一个单词向前推进,从而识别短语 的类别。如果短语的最后一个的单词具有唯一的词性,短语的 类型相对确定;如果短语的最后一个的单词词性不确定,需要 结合前后环境进行多词性单词的识别,从而确定短语最后一个 单词的词性。 • 对于短语前面修饰成分的识别,合并成一个短语。确定短语最 后一个单词的词性后,根据短语最后一个单词的词性不同,分 为不同类型短语,进行短语前面修饰成分的识别,最终将相关 联的单词组合成一个短语。 • 如An advantage of using the solar energy is that it won't create any pollution.短语识别的结果为:An advantage是名词短语、of using是介词短语、the solar energy是名词短语、is是谓语短语、 that是从句引导词、it是代词短语、will not create是谓语短语、 any pollution是名词短语、.是标点。
相关文档
最新文档