宗成庆机器翻译概要

合集下载

评估方法研究——中科院自动化所硕士论文导师宗成庆

评估方法研究——中科院自动化所硕士论文导师宗成庆
UDC编号
中国迷信院研讨生院
硕士学位论文
汉语词与句子切分技术及机器翻译评价方法研讨
刘丁
指点教员宗成庆 研讨员 博士 中国迷信院自动化研讨所
央求学位级别工学硕士学科专业称号形式识别与智能系统
论文提交日期2004年6月论文争辩日期2004年6月
培育单位中国迷信院自动化研讨所
ABSTRACT
This thesis proposed our novel statistical approaches on Chinese word analysis,utterance segmentationand automatic evaluation of machinetranslation (MT).Word analysis is the first step for most application based on Chinese language technologies; utterance segmentation is the bridge which connects speech recognition and text translation in a speech translation system; automatic evaluation ofmachine translation(MT) systemcan speed the research and development of a MT system, reduce its developing cost.In short,the three aspectsall belong to the basic research area ofNatural Language Processing(NLP) and have significant meaning to manyimportantapplications such as text translation, speech translation and so on.

(3) CASIA SMT系统与口语翻译

(3)  CASIA SMT系统与口语翻译
- Arabic numbers: telephone No., room No. etc. - Number written in Chinese, such as “一百 one hundred” - Ordinal numbers: - Dates - Combination of the different expressions
NLPR, CASIA 2006-5-9 宗成庆:《自然语言理解》讲义
NLPR
10.3.3 Experiments
Methods M+NF0+BACK2 M+NF0+BACK1 M+F0+BACK2 M+F0+BACK1 GIZA++ +NF0+BACK2 GIZA++ +NF0+BACK1 GIZA++ +F0+BACK2 GIZA++ +F0+BACK1 EDM+NF0+BACK1 EDM+F0+BACK1 GIZA++ +F0+BACK1+NUM NLPR, CASIA 2006-5-9 Bleu (4-gram) 0.1833 0.1919 0.2372 0.2663 0.2730 0.2864 0.2763 0.2882 0.1978 0.2683 0.3177 宗成庆:《自然语言理解》讲义
NLPR, CASIA 2006-5-9
NLPR
Num of Phrases 187,011 278,770 695,486
BLEU4 0.2751 0.2637 0.2882
宗成庆:《自然语言理解》讲义

宗成庆统计自然语言处理

宗成庆统计自然语言处理

宗成庆统计自然语言处理自然语言处理(Natural Language Processing, NLP)是计算机科学与人工智能领域的一个重要研究方向。

它旨在让计算机能够理解、分析和生成自然语言的能力,使计算机能够更好地与人类进行沟通和交互。

NLP的研究范围非常广泛,涵盖了词法分析、句法分析、语义分析、机器翻译、情感分析等多个子领域。

通过对自然语言的分析和处理,NLP可以帮助计算机理解人类的意图和情感,实现智能化的交互和应用。

在词法分析方面,NLP可以对文本进行分词、词性标注和命名实体识别等处理,从而将一段文本切分成一个个具有意义的词语,并为它们赋予相应的词性和语义信息。

通过这种方式,计算机可以更好地理解文本的语义和结构。

句法分析是NLP的另一个重要研究方向,它的目标是分析句子的结构和语法关系。

通过句法分析,计算机可以理解句子中不同词语之间的依存关系,从而更好地理解句子的含义。

语义分析是NLP的核心任务之一,它的目标是理解文本的语义和逻辑关系。

通过语义分析,计算机可以挖掘出文本中隐藏的含义和逻辑结构,实现更精确的理解和推理。

机器翻译是NLP的一个重要应用领域,它旨在将一种语言的文本自动翻译成另一种语言。

通过机器翻译,人们可以更方便地进行跨语言交流和理解。

情感分析是NLP的一个新兴研究方向,它的目标是分析文本中的情感和情绪。

通过情感分析,计算机可以识别文本中的情感倾向和情绪状态,从而更好地理解人类的情感需求。

总的来说,自然语言处理是一门充满挑战和机遇的研究领域。

通过不断地深入研究和创新,NLP将会在人工智能和社会应用中发挥越来越重要的作用。

希望今后能有更多的科学家和工程师致力于NLP 的研究和应用,为人类创造更智能、更便捷的交互方式。

(2) 统计机器翻译

(2)  统计机器翻译
NLPR, CAS-IA 2006.5.9 宗成庆:《自然语言理解》讲义
10.2.1 统计翻译基本原理
噪声信道模型
一种语言T (信道意义上的输入,翻译意义上的目标 语言) 由于经过一个噪声信道而发生变形,从而在信道的 另一端呈现为另一种语言 S (信道意义上的输出,翻译意 义上的源语言)。翻译问题实际上就是如何根据观察到的 S,恢复最为可能的T 问题。这种观点认为,任何一种语 言的任何一个句子都有可能是另外一种语言中的某个句子 的译文,只是可能有大有小[Brown et. al, 1990]。 噪声信道 T
NLPR
Le(1) renard(2) rapide(2) saut(4) par(5) –(6) dessus(7) le(8) chien(9) parasseux(10)
P(S , A | T ) =
ε
(8 + 1)
10
× [ p( Le | The) × p(renard | fox) × L× p( parasseux| lazy)]
NLPR
Le1 programme2
NLPR, CAS-IA
a3
été4
mis5 en6 application7
宗成庆:《自然语言理解》讲义
2006.5.9
10.2.1 统计翻译基本原理
不妨,我们用A(S, T) 表示源语言句子S与目
NLPR
标语言句子 T 之间所有对位关系的集合。在目标 语言句子 T 的长度(单词的个数)为 l,源语言句 子S的长度为m 的情况下,T和S的单词之间有l×m 种不同的对应关系。由于一个对位是由词之间的 对应关系决定的,并且不同的对应方式应该是 2l×m的子集,因此,A(S, T)中共用2l×m 种对位。

融合篇章结构位置编码的神经机器翻译

融合篇章结构位置编码的神经机器翻译

2020年6月Chinese Journal of Intelligent Science and Technology June 2020 第2卷第2期智能科学与技术学报V ol.2No.2 融合篇章结构位置编码的神经机器翻译亢晓勉1,2,宗成庆1,2(1. 中国科学院自动化研究所模式识别国家重点实验室,北京 100190;2. 中国科学院大学,北京 100049)摘 要:现有的文档级神经机器翻译方法在翻译一个句子时大多只利用文档的上下文词汇信息,而忽视了跨句子的篇章语义单元之间的结构关系。

针对此问题,提出了多种篇章结构位置编码策略,利用基于修辞结构理论的篇章树结构,对篇章树上位于不同篇章单元的单词之间的位置关系进行了表示。

实验表明,通过位置编码的方式,在基于Transformer框架的神经机器翻译模型中有效地融合了源端的篇章结构信息,译文质量得到了显著提升。

关键词:神经机器翻译;篇章结构;位置编码;篇章分析;修辞结构理论中图分类号:TP391文献标识码:Adoi: 10.11959/j.issn.2096−6652.202016Fusion of discourse structural position encoding for neuralmachine translationKANG Xiaomian1,2, ZONG Chengqing1,21. National Laboratory of Pattern Recognition, Institute of Automation, Chinese Academy of Sciences, Beijing 100190, China2. University of Chinese Academy of Sciences, Beijing 100049, ChinaAbstract: Most of existing document-level neural machine translation (DocNMT) methods focus on exploring the utili-zation of the lexical information of context, which ignore the structural relationships among the cross-sentence discourse semantic units. Therefore, multiple discourse structural position encoding strategies were proposed to represent the posi-tional relationships among the words in discourse units over the discourse tree based on rhetorical structure theory (RST).Experimental results show that the source-side discourse structural position information is effectively fused into the DocNMT models underlying the Transformer architecture by the position encoding, and the translation quality is im-proved significantly.Key words: neural machine translation, discourse structure, position encoding, discourse analysis, rhetorical structure theory1引言近年来,随着人工智能技术在自然语言处理任务中的广泛应用[1-4],机器翻译(machine translation,MT)得到了快速发展。

宗成庆《机器翻译概要》-中国民族信息技术研究院

宗成庆《机器翻译概要》-中国民族信息技术研究院

2 机器翻译的产生与发展
1982 ~ 1986,日本在提出第五代机的同时,研 究日英双向机器翻译系统 Mu 和亚洲多语言机 器翻译(日语、汉语、印尼语、马来西亚语、 泰国语)
1990年,IBM 提出统计机器翻译模型,机器翻 译研究进入了一个空前辉煌的繁荣时期
2 机器翻译的产生与发展
概括为三个阶段:
1000
汉英两大强势语言的自 Spanish 动翻译问题是人类语言技术 Hindi/Urdu 500 English Arabic 300 Portuguese 中最具挑战性的研究课题! Japanese
100 0
French
1950 1970 1990 2010 2030 2050
(Year)
பைடு நூலகம் 1 概述
机器翻译概论
宗成庆 中国科学院自动化研究所 模式识别国家重点实验室
北京市海淀区中关村东路95号 邮编:100190
主页:/cip/cqzong.htm 邮件:cqzong@
内容提要
1、概述
2、机器翻译的产生与发展
3、机器翻译的困难
3 机器翻译的困难
We do chicken right.
(1) 我们做鸡是对的。 (2) 我们做鸡正点耶。 (3) 我们就是做鸡的。 (4) 我们有做鸡的权利。 (5) 我们只做鸡的右边。 (6) 我们可以做鸡,对吧! (7) 我们行使了鸡的权利。 (8) 我们只做右边的鸡。 (9) 我们主张鸡权。 (10)我们公正地做鸡! (11) 我们要把鸡打成右派。 (12) 我们做鸡肉权利。 (13) 我们还是做鸡好。 (14) 我们用正确的方法炸鸡。 (15) 我们做鸡有理! (16) 我们让鸡向右看齐. (17) 我们肯定是鸡,对! (18) 我们做的鸡才是正宗。

基于篇章结构多任务学习的神经机器翻译

基于篇章结构多任务学习的神经机器翻译

基于篇章结构多任务学习的神经机器翻译
亢晓勉;宗成庆
【期刊名称】《软件学报》
【年(卷),期】2022(33)10
【摘要】篇章翻译方法借助跨句的上下文信息以提升篇章的翻译质量.篇章具有结构化的语义信息,可以形式化地表示为基本篇章单元之间的依存关系.但是目前的神经机器翻译方法很少利用篇章的结构信息.为此,提出了一种篇章翻译模型,能够在神经机器翻译的编码器-解码器框架中显式地建模基本篇章单元切分、篇章依存结构预测和篇章关系分类任务,从而得到结构信息增强的篇章单元表示.该表示分别通过门控加权和层次注意力的方式,与编码和解码的状态向量进行融合.此外,为了缓解模型在测试阶段对篇章分析器的依赖,在训练时采用多任务学习的策略,引导模型对翻译任务和篇章分析任务进行联合优化.在公开数据集上的实验结果表明,所提出的方法能够有效地建模和利用篇章单元间的依存结构信息,从而达到提升译文质量的目的.
【总页数】13页(P3806-3818)
【作者】亢晓勉;宗成庆
【作者单位】模式识别国家重点实验室(中国科学院自动化研究所);中国科学院大学人工智能学院
【正文语种】中文
【中图分类】TP18
【相关文献】
1.基于多任务学习的汉语基本篇章单元和主述位联合识别
2.基于篇章上下文的蒙汉神经机器翻译方法
3.基于补全信息的篇章级神经机器翻译
4.跨语言多任务学习深层神经网络在蒙汉机器翻译的应用
5.层次化结构全局上下文增强的篇章级神经机器翻译
因版权原因,仅展示原文概要,查看原文内容请购买。

宗成庆自然语言处理讲义

宗成庆自然语言处理讲义

宗成庆自然语言处理讲义
宗成庆教授是中国著名的计算机科学家,他在自然语言处理领
域有着丰富的研究和教学经验。

他所著的《自然语言处理》讲义是
该领域的经典教材之一,被广泛应用于大学本科和研究生的自然语
言处理课程中。

这本讲义系统地介绍了自然语言处理的基本概念、技术和应用。

宗成庆教授从语言学、计算机科学和人工智能等多个角度深入浅出
地阐述了自然语言处理的理论和实践,涵盖了词法分析、句法分析、语义分析、文本分类、信息抽取、机器翻译等多个方面的内容。

在这本讲义中,宗成庆教授结合自己多年的教学和研究经验,
将复杂的理论和算法以通俗易懂的方式呈现给读者,使得初学者能
够迅速掌握自然语言处理的基本原理和方法。

同时,这本讲义也涵
盖了大量的案例分析和实践操作,有助于学生将理论知识应用到实
际项目中去。

总的来说,宗成庆教授的《自然语言处理》讲义是一本权威、
全面且深入浅出的教材,对于想要深入了解自然语言处理领域的学
生和研究人员来说,具有非常重要的参考价值。

构建树结构及基于树结构的机器翻译系统的方法[发明专利]

构建树结构及基于树结构的机器翻译系统的方法[发明专利]

专利名称:构建树结构及基于树结构的机器翻译系统的方法专利类型:发明专利
发明人:宗成庆,翟飞飞
申请号:CN201210068782.3
申请日:20120315
公开号:CN102662932A
公开日:
20120912
专利内容由知识产权出版社提供
摘要:本发明涉及一种构建树结构及基于相应树结构的机器翻译系统的方法,所述方法包括如下步骤:对所述双语语料中的双语句子对进行分词、词性标注和词对齐;根据所述词对齐的结果,对所述双语句子对进行双语切分,生成比双语句子对长度更短的双语子句对,并对生成的所述双语子句对重新进行词对齐;根据所述双语子句对词对齐的结果,进行子句合并以获得所述双语句子对的词对齐,并为所述双语句子对构造压缩森林;从所述压缩森林中选择适合于机器翻译的树结构。

本发明无需任何句法树资源,只要有词性标注资源的语言对,就可以构建基于树结构的翻译系统。

申请人:中国科学院自动化研究所
地址:100190 北京市海淀区中关村东路95号
国籍:CN
代理机构:中科专利商标代理有限责任公司
代理人:宋焰琴
更多信息请下载全文后查看。

基于多层过滤的统计机器翻译

基于多层过滤的统计机器翻译

基于多层过滤的统计机器翻译
周玉;宗成庆;徐波
【期刊名称】《中文信息学报》
【年(卷),期】2005(19)3
【摘要】本文提出了一种基于多层过滤的算法.该算法主要实现从对齐的中英文句子中自动的抽取与对齐双语语块.根据不同语块具备的不同特性,采用不同的层次对其处理.该算法不同于传统的算法,它不需要对句子进行标注,句法分析,词法分析甚至不需要对汉语句子进行分词等操作.初步的实验结果表明该算法性能较好,测试的结果是:抽取语块的准确率能达到F=0.70,对齐语块的准确率能达到F=0.80;而且将此算法获得的对齐双语语块用于统计机器翻译系统,跟基于词的系统做对比,结果表明基于语块的翻译系统明显提高了翻译水平,差不多能提高10%.
【总页数】7页(P54-60)
【作者】周玉;宗成庆;徐波
【作者单位】中国科学院,自动化研究所,模式识别国家重点实验室,北京,100080;中国科学院,自动化研究所,模式识别国家重点实验室,北京,100080;中国科学院,自动化研究所,模式识别国家重点实验室,北京,100080
【正文语种】中文
【中图分类】TP391.2
【相关文献】
1.基于多层过滤的光度法微生物鉴定算法的研究 [J], 张绍康;林勇
2.基于多层次混合相似度的协同过滤推荐算法 [J], 袁正午;陈然
3.基于短语的统计机器翻译中短语表的过滤 [J], 狄萍;周宥良;贡正仙;周国栋
4.基于虚拟上下文的统计机器翻译短语表的过滤 [J], 殷乐;张玉洁;徐金安
5.基于多层过滤和动态概率模型的试题抽取算法研究 [J], 傅勉
因版权原因,仅展示原文概要,查看原文内容请购买。

语音翻译系统技术分析

语音翻译系统技术分析

语音翻译系统技术分析
宗成庆;陈肇雄
【期刊名称】《计算机科学》
【年(卷),期】1997(024)005
【摘要】语音翻译(SPeech Translation)技术作为一门综合性的计算机应用技术,近年来得到了广的关注。

有关专家曾指出,语音翻译是自然语言处理、语音识别及其人工智能研究的最终目标一,是当今世界对计算机科学和工程最大的挑战[1]。

【总页数】4页(P12-15)
【作者】宗成庆;陈肇雄
【作者单位】中国科学院计算技术研究所机译中心;中国科学院计算技术研究所机译中心
【正文语种】中文
【中图分类】TP391.2
【相关文献】
1.网络语音翻译系统问世 [J],
2.语音特征和情感特征的翻译系统与实现 [J], 曹春香
3.基于语音识别的密语口令翻译系统 [J], 赵文杰;薛永奎;陈磊;刘镇瑜;霍烁烁
4.多语言语音识别翻译系统 [J], 莫沛;梁伟鄯;殷浩天;倪志平
5.基于RIA模型的网上语音翻译系统的研究 [J], 陈再兴;王大震
因版权原因,仅展示原文概要,查看原文内容请购买。

基于统计学习的机器翻译模板自动获取方法

基于统计学习的机器翻译模板自动获取方法

基于统计学习的机器翻译模板自动获取方法
胡日勒;宗成庆;徐波
【期刊名称】《中文信息学报》
【年(卷),期】2005(19)6
【摘要】本文提出了一种从未经深层次处理的双语口语语料库中自动获取机器翻译模板的方法.这种算法是一种无监督的、基于统计的、数据驱动的方法.这种方法有两个基本的步骤.首先,通过语法归纳分别从源语言和目标语言中获取语义类和短语结构类.然后,利用双语划界文法将短语结构类进行对齐.对齐的结果经过后处理就可以得到翻译的模板.初步的试验结果表明,本方法是有效的和切实可行的.
【总页数】6页(P1-6)
【作者】胡日勒;宗成庆;徐波
【作者单位】中国科学院,自动化研究所,模式识别国家重点实验室,北京,100080;中国科学院,自动化研究所,模式识别国家重点实验室,北京,100080;中国科学院,自动化研究所,模式识别国家重点实验室,北京,100080
【正文语种】中文
【中图分类】TP391.2
【相关文献】
1.基于错误驱动的翻译模板自动获取 [J], 张春祥;梁颖红;于林森
2.基于句对比较的自动获取翻译模板方法改进 [J], 方淼;关小薇;高庆狮
3.基于模板的机器翻译系统中模板库的自动构建技术 [J], 林贤明;李堂秋;史晓东
4.水书异体字机器翻译的自动获取方法 [J], 罗俊才;陈笑蓉
5.机器翻译系统中词类搭配规则的自动获取方法 [J], 孙杰;李晶皎;张俐;姚天顺因版权原因,仅展示原文概要,查看原文内容请购买。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

2 机器翻译的产生与发展
1964年,美国科学院成立语言自动处理咨询委员 会(Automatic Language Processing Advisory Committee, ALPAC),调查机器翻译的研究情况, 并于1966年11月公布了一个题为“语言与机器” 的报告,简称 ALPAC 报告,宣称:“在目前给 机器翻译以大力支持还没有多少理由”,“机器 翻译遇到了难以克服的语义障碍 (semantic barrier)”。从此,机器翻译研究在世界范围内进 入低迷状态。
Байду номын сангаас
(1) 翻译类似于解读密码的过程:当我阅读一 篇用俄语写的文章时,我可以说这篇文章 实际上是用英文写的,只不过它用另外一 种奇怪的符号编了码,当我阅读时,我是 在进行解码;
2 机器翻译的产生与发展
(2) 原文和译文“说的是同样的事情”,因此, 当把语言A 翻译为语言B 时,就意味着, 从语言A 出发,经过某一“通用语言 (universal language)” 或“中间语言 (interlingua)”,然后转换为语言B,这种 “通用语言”或“中间语言”可以假定是 全人类共同的。
2 机器翻译的产生与发展
1947年3月, W. Weaver 给 N. Wiener 写信,讨论机 器翻译问题,但遭到了 N. Wiener 的反对。
1949年,W. Weaver 发表了以 ‘Translation’为题目 的备忘录,正式提出机器翻译问题。
2 机器翻译的产生与发展
Weaver 的两个基本观点:
机器翻译概论
宗成庆 中国科学院自动化研究所 模式识别国家重点实验室
北京市海淀区中关村东路95号 邮编:100190
主页:/cip/cqzong.htm 邮件:cqzong@
内容提要
1、概述
2、机器翻译的产生与发展
3、机器翻译的困难
2 机器翻译的产生与发展
1933年,前苏联发明家特洛扬斯基设计了用机械 方法把一种语言翻译成为另一种语言的机器。
1946年 ,世界上第一台电子计算机 ENIAC 诞生 以后,英国工程师 A. D. Booth 和美国洛克菲勒基 金会 (Rockefeller Foundation) 副总裁 W. Weaver 提出了利用计算机进行机器翻译的设想。
2 机器翻译的产生与发展
美国和英国的学术界对机器翻译产生了浓厚的兴 趣,并得到了实业界的支持。
1954年 Georgetown 大学在 IBM 协助下,用IBM701计算机实现了世界上第一个 MT 系统,实现 俄译英翻译,1954年1月该系统在纽约公开演示。 系统只有250条俄语词汇,6 条语法规则,可以翻 译简单的俄语句子。 随后10 多年里,MT研究在国际上出现热潮。
1000
汉英两大强势语言的自 Spanish 动翻译问题是人类语言技术 Hindi/Urdu 500 English Arabic 300 Portuguese 中最具挑战性的研究课题! Japanese
100 0
French
1950 1970 1990 2010 2030 2050
(Year)
1 概述
4、机器翻译研究现状
5、机器翻译基本方法
1 概述
有关专家已经指出,语言障碍是21世纪国际 社会全球化面临的主要困难之一; 机器翻译涉及语言学、计算语言学、认知科 学和数学等多种学科,具有重要的科学意义; 具有巨大的社会需求,以欧洲为例,有380多 种语言,2004年5月1日以前欧盟有11种官方 语言,每年为这11种语言翻译、转录文件耗 费的人力费用大约 549M 欧元。目前欧盟20 多种工作语言; 汉语已经不再仅仅是中国人关注的语言。
1 概述
(Million)
Chinese
1000
Spanish English
500 300
Hindi/Urdu
Arabic
100 0
1950 1970 1990 2010 2030
Portuguese Japanese French (Year)
2050
1 概述
(Million)
Chinese
机器翻译 MT 源语言 (SL) 目标语言(TL)
2 机器翻译的产生与发展
古希腊时期
17世纪:笛卡儿(Descartes)莱布尼兹(Leibniz)试图 用统一的数字代码编写词典;17世纪中页贝克 (Cave Beck)等人出版类似的词典。 1930s:亚美尼亚法国工程师阿尔楚尼(G. B. Arsouni)提出了用机器来进行语言翻译的想法, 并在1933年7月22日获得了一项“翻译机”的专 利,叫做机器脑 (mechanical brain)。
2 机器翻译的产生与发展
1970 ~1976年,法国、日本、加拿大等国,仍 坚持机器翻译研究,而且,在这一阶段语法与 算法分开,机器翻译研究开始复苏。代表系统: 法国 GETA, IMAG-CLIPS 开发的 ARIANE-78 系统。
2 机器翻译的产生与发展
1976~至今,繁荣时期:
加拿大蒙特利尔大学与加拿大联邦政府翻译局 联合开发的实用机器翻译系统 TAUM-METEO, 用于天气预报翻译。每小时可以翻译6 ~ 30万个 词;每天翻译1500-2000篇天气预报资料,并 通过电视、报纸等立即公布 1978年欧共体启动多语言机器翻译计划
2 机器翻译的产生与发展
1982 ~ 1986,日本在提出第五代机的同时,研 究日英双向机器翻译系统 Mu 和亚洲多语言机 器翻译(日语、汉语、印尼语、马来西亚语、 泰国语)
1990年,IBM 提出统计机器翻译模型,机器翻 译研究进入了一个空前辉煌的繁荣时期
少数民族语言信息处理意义重大
- 经济、文化、教育、体育、旅游… - 国家安全 - 民族团结
2、机器翻译的产生与发展
2 机器翻译的产生与发展
概念:机器翻译 (machine translation, MT) 是用计 算机把一种语言(源语言, source language) 翻译成 另一种语言(目标语言, target language) 的一门学 科和技术。
相关文档
最新文档