藏汉翻译系统实验

合集下载

藏汉翻译系统实验 - ICT NLP GROUP

藏汉翻译系统实验 - ICT NLP GROUP

藏汉翻译系统及系统融合实验1 新旧语料的对比实验新语料是评测以来一直不断修正过并且使用最新的前处理脚本的语料。

旧语料是去年经过过滤的12月份语料。

原则说,新语料效果更好,实验结果表明,旧语料更好一些。

系统Chiero 开发集(650)测试集(517)新语料51.85 40.10旧语料52.80 41.122 新旧语言模型的对比实验新语言模型是目前评测使用的语言模型,旧语言模型是去年12月份的语言模型。

实验结果表明,可能由于分词等原因,两种语言模型效果差不多。

系统Chiero 开发集(650)测试集(517)新语言模型48.38 39.38旧语言模型51.85 40.103 修正ICTCLAS分词工具EditSegmentor的实验使用的语料是去年12月份的语料,下面是使用EditSegmentor的实验效果,结果表明,使用EditSegmentor会降低系统的性能。

系统Chiero 开发集(650)测试集(517)未使用52.80 41.12使用50.66 39.344 不同对齐实验使用的语料是去年12月份的语料,针对Mose-giza,berkeley对齐以及5月份采用的对齐工具进行对比实验,实验结果表明,Moses Giza的性能要更好一些,建议使用Moses Giza。

系统Chiero 开发集(650)测试集(517)目前采用50.72 37.28Berkeley对齐52.85 40.31Moses Giza 52.80 41.125 系统融合1)相关系统融合程序的bug修复。

2)各个单系统的nbest处理程序的开发。

3)词典文件格式处理程序的开发。

4)系统融合训练以及测试的脚本开发。

注:相关工具的目录为: /home3/jwb/zhb/CWMT2013/toolsChieroNbest是处理Chiero的Nbest文件的程序。

MosesNbest是处理Moses系统的Nbest文件的程序。

基于双语对齐句型库的藏汉机器翻译方法研究

基于双语对齐句型库的藏汉机器翻译方法研究

基于双语对齐句型库的藏汉机器翻译方法研究通过藏汉双语句子中词语序列异同点的比较,研究藏汉双语句型对齐方法,建立了一个小规模藏汉对齐句型库和对照词典库,在此基础上提出了基于藏汉双语对齐句型库的机器翻译算法。

标签:机器翻译藏语句型对照词典双语对齐句型库一、藏、汉句子中词语序列的对比分析藏汉两种语言在语法(包括词序、虚词的运用、动词的形态变化)上的区别,给藏汉双语对齐句型库的构建带来了一定的难度。

除了在句子的词序和词数上变化上有明显的区别外,在虚词的运用和动词的形态变化上也不同。

例如:5.汉语动词没有形态变化,而藏语动词具有形态变化在藏文文法中,对动词的形态变化、及物性及分类等方面的研究很丰富,是藏语动词的复杂性增强。

据统计,现代藏语动词1453个,其中,756个动词本身有形态变化,而汉语动词没有形态变化,这给藏汉对齐句型库的建设和规范化带来了汉语与藏语动词的比较。

例如:实例例6中的藏语动词以”/”分开的四个形态分别是动词的未来式、现在式、过去式、命令式。

在建立藏汉对齐字形库时,第1种对齐句型因词性、词序都相同,容易建立,但对第2、3、4、5、6种对齐句型的处理就变得相对复杂,将在后续内容中详细描述。

二、对照词典的设计与句型库的建设1.对照词典的设计与实现基于双语对齐句型库的藏汉机器翻译方法研究需要设计实现一个添加了详细词性标记的藏汉对照词典的设计与实现。

本文涉及的机器翻译方法,需要一个对照词典的支持,而这个对照词典不是一般意义上的简单对照词典,而是一个添加了词性标记的对照词典。

表3-1为其基本结构和功能:因页面大小,此处只列举了整个对照词典的一小部分内容,第一行中除”word”以外的其他英文标记表示词性,它们分别表示连词(cd)、及物动词现在式(vt)、动名词(nv)、及物动词过去式(vi)、随立名(nn)、指示代词(rz)、属格助词(gz)、使格助词(gx)、位格助词(gl),对照词典里的词性种类及数目远不止这些,总共有80余个词性。

藏汉翻译技巧研究报告

藏汉翻译技巧研究报告

藏汉翻译技巧研究报告研究报告:藏汉翻译技巧一、引言藏汉翻译是将藏语文本转化为汉语文本的过程,涉及到语言、文化和认知等多个领域的知识。

本报告旨在探讨一些常用的藏汉翻译技巧,以帮助翻译人员在处理藏语文本时提高翻译质量。

二、上下文理解上下文理解是一项重要的技巧,对于准确翻译藏语文本至关重要。

通过仔细阅读和分析上下文,翻译人员可以更好地理解作者的意图,并准确传达信息。

此外,了解不同领域的专业术语和上下文背景也是提高翻译的关键。

三、等效表达在藏汉翻译过程中,翻译人员需要寻找汉语的等效表达,以准确传达原文的含义。

有时候,直译可能无法完全表达原文的意思,因此翻译人员需要动态调整语言表达方式,以达到最合适的翻译效果。

四、文化转换藏汉翻译涉及到两种不同的文化背景,因此在翻译过程中,翻译人员需要充分考虑目标文化的习惯和传统。

充分理解目标文化的背景可以帮助翻译人员选择更合适的词汇和表达方式,使翻译结果更易于被目标读者理解和接受。

五、平衡准确性与流畅性翻译的目标是准确传达原文的意思,但同时也需要保持译文的流畅性和自然性。

在藏汉翻译中,翻译人员需要权衡准确性和流畅性,尽可能地找到一个平衡点。

译文不应只是死板地堆砌单词和短语,而应具备自然流畅的汉语表达。

六、词语选择词语选择是翻译的核心环节之一。

在进行藏汉翻译时,翻译人员需要仔细选择适当的词语,以准确传达原文的语义。

对于涉及特定领域的文本,翻译人员还需要了解相关的术语和表达方式,从而提高翻译的准确性。

七、参考文献和工具在进行藏汉翻译时,翻译人员可以借助各种参考文献和工具,以提高翻译效率和质量。

这些参考文献和工具可以提供词汇、短语、句型等方面的帮助,同时也可以为翻译人员提供文化背景和专业知识的支持。

八、结论本报告主要探讨了一些常用的藏汉翻译技巧,包括上下文理解、等效表达、文化转换、平衡准确性与流畅性、词语选择以及参考文献和工具的使用。

这些技巧可以帮助翻译人员提高翻译质量,准确传达原文的意思,并使译文更加符合目标文化读者的习惯和要求。

基于WAMP的藏汉英互译在线词典的设计与实现

基于WAMP的藏汉英互译在线词典的设计与实现

码 。 经 测 试 , 在 线词 典 根 据 用 户 的 需 要 , 入 单 字 和 词 就 可 以 在 藏 汉 英 三 语 问 交 互 查 询 并 快 速 检 索 到 对 应 的 译 该 输
词 。词 典 采 用 B S结 构 , 的 实现 有 助 于藏 汉 英 三语 间 的 交 流 和 学 习 。 / 它 关 键 词 : 文 ;在 线 词 典 ; AMP; / 藏 W B S结 构 ;数 据 库
wh c sn AM P a e in p a f r ,a d as ie u h p cfcd sg t o n h i o eo h h — ih u ig W s ad sg l to m n lo g v s o t e s e i e i n me h d a d t e man c d f e t e t i t s u u a a a e a d t e q e y p g . Th x e i n r v d t a t e t e o l e d c i n r a n t n l e u n t e a r sd tb s n h u r a e e e p rme t p o e h h h n i i t a y c n i s a t r t r h n o y c r e tt i n u lwo d ( b t n o r c rl g a i r s Ti ea ,Ch n s n g ih f r t e q e y e t r d b h u t m e . Th i t n r s i e e a d En l ) o h u r n e e y t e c s o r s e dci a y i o
6 4
中 文 信 息 学 报
线 多语 词典 通 过十 余 年 来 的 迅 速发 展 , 已经 初 见 规 模 , 成 了各具 特色 的 在线 词典 资源 , 形 部分 在线 词典 已经 商品化 。相 较 之 下 , 文单 语 及 多 语 在 线 词 藏 典 仍 处于起 步 阶段 , 过 网络 能 够 搜 索 到 的藏 文 单 通 语 或 多语 在线 词 典很 少 。近 年来 , 着 时代 的发 展 随

藏文翻译系统的研发与实现

藏文翻译系统的研发与实现

藏文翻译系统的研发与实现随着中国与藏区交流的不断增加,对藏文翻译系统的需求也越来越大。

然而,由于汉藏语系的不同,藏文语法的复杂性以及字母的独特性,要实现高质量的藏文翻译并不容易。

因此,本文将探讨一下目前藏文翻译系统的研发与实现。

一、藏文基础知识要了解藏文翻译系统的研发,我们需要首先了解一些藏文的基础知识。

藏文是一种借用了梵文的字母表,一个字母通常代表一个音节。

藏文中还有表示词性和语法关系的后缀,这使得藏文的语法非常复杂。

藏文中还有很多词汇是由词根和后缀组成的,因此藏文单词的长度通常比较长。

此外,不同的字母组合在一起代表不同的音节,这也增加了藏文翻译系统的难度。

二、藏文翻译系统的研发由于藏文的特殊性,目前的翻译系统很难满足人们的需要。

因此,一些专家和学者正在研发新的藏文翻译系统,以提升翻译的质量和准确性。

目前的藏文翻译系统主要分为两种,即基于规则的系统和统计机器翻译系统。

基于规则的系统依靠人工编写的规则来进行翻译,这种方法需要大量的人工投入,但是可以比较好地解决藏文翻译中的一些语法和语义问题。

统计机器翻译系统是另一种常见的翻译方法,它利用大量的双语语料库进行训练,然后通过概率模型来估计最适合的翻译结果。

这种方法比较适合解决一些翻译中的词汇和单词组合问题。

三、实现藏文翻译系统的挑战实现藏文翻译系统面临很多挑战,其中最大的挑战是藏文的语法和词汇系统。

藏文的语法比较复杂,有很多种类型的词缀和语法现象需要处理。

这就要求翻译系统需要对语法和词汇系统有很好的了解,才能进行正确和合理的翻译。

此外,藏文单词的长度比较长,这也是困扰藏文翻译系统开发者的一大难题。

翻译系统需要能够分离一个长单词的词根和后缀,同时还要识别不同的字母组合代表的不同音节,才能进行正确的翻译。

四、未来的发展方向虽然藏文翻译系统还存在许多问题和挑战,但是我们相信在不久的将来,随着技术的不断进步和现有翻译系统的不断完善,藏文翻译质量会不断提高,为汉藏交流提供更好的帮助。

班智达汉藏公文翻译系统中基于二分法的句法分析方法研...

班智达汉藏公文翻译系统中基于二分法的句法分析方法研...

班智达汉藏公文翻译系统中基于二分法的句法分析方法研究才藏太 李延福(青海师范大学藏文智能信息处理中心 中国 青海 西宁 810008)caizangt@摘要机器翻译系统是一种典型的自然语言处理系统,语言技术是机器翻译系统中居于核心地位的技术,实用化的机器翻译系统一般是采用自然限制的受限语言的翻译,且以基于规则的方法为主流方法。

本文结合863项目《班智达汉藏公文机器翻译系统》的研制实践,论述了词项信息同语法规则相结合的原则,提出了以动词为中心的句法分析二分法,从而在受限语言的范围内,为建立有较大适应性的机器翻译规则系统,有效地提高机器翻译语法分析的效率提供了有益的方法。

关键词:机器翻译二分法语句结构句法分析1、引言随着计算机技术的不断普及,如何将大量的汉语和外语的科技信息、教材、参考读物、科普读物等及时地翻译成藏语,进而为广大藏区科技、教育、文化事业服务已成为制约广大藏区社会经济发展的关键问题。

在汉藏科技翻译人员极端缺乏的今日,班智达汉藏机器翻译系统的研制和推广应用必将有助于促进这一问题的尽快解决。

在机器翻译系统中,语言技术是居于核心地位的技术,因而讨论机器翻译系统的句法分析问题便是一个重要的问题。

机器翻译的方法有多种,但基于规则和词典的方法仍然是到目前为止的一直采用的主流方法。

我们研制的863项目班智达汉藏公文机器翻译系统是采用基于规则的翻译系统。

机器翻译进行的是两个语言无限集之间的转换,在现有的科学水平之下,计算机科学还不能从理论上证明,用一个有限的机器翻译规则系统来进行原语和译语的无限集之间的转换的可能性,因此实践上比较可行的办法是采用自然限制的受限语言。

我们研制的班智达汉藏公文机器翻译系统就是一种受限语言的机器翻译系统。

2、系统结构班智达汉藏机器翻译系统由科技系统、公文系统和电子词典三部分组成,采用C++语言在Windows环境下实现。

考虑到实际应用中用户的需要,系统设有译前和译后编辑功能。

融合单语语言模型的藏汉机器翻译方法研究

融合单语语言模型的藏汉机器翻译方法研究

网络机器翻译模型,最后将藏语单语语言模型融合到藏汉神经网络机器翻译中。实验表明,该方法能显著提升藏
汉神经网络机器翻译质量。基线系统藏语到汉语的BLEU值为21.1,汉语到藏语的BLEU值为1& 6,融合藏语单
语语言模型后,藏语到汉语的BLEU值为24.5,汉语到藏语的BLEU值为23.3,比原有基线系统的BLEU值分别
o引言
早期的语言模型和机器翻译方法受限于人工构 建的规则,由于语言的复杂性和多样性,基于规则的 方法需要构建规模庞大的规则库才能刻画语言的特 性,但规则库的维护和复杂性又依赖于人类专家的 经验和知识,无法对语言现象进行完备的描述。为 解决规则机器翻译的缺陷和不足,基于统计的机器 翻译研究开始涌现,其方法是通过大规模的标注语
3. Department of Computer Science» Tsinghua University, Beijing 100084, China)
Abstract: To better utilize the monolingual Tibetan texts in Tibetan-Chinese neural machine translation( NMT), we propose to pre-train a Tibetan neural language model and then integrate it into a Transformer-based Tibetan-Chinese NMT model. Experiments indicate our approach can boost the Tibetan-Chinese results from 21. 1 to 24. 5, and the Chinese-Tibetan form 18. 6 to 23. 3 in terms of BLEU score. Keywords: Tibetan;language model;machine translation;fusion;neural net

藏汉翻译中遇到的问题和措施探究

藏汉翻译中遇到的问题和措施探究

藏汉翻译中遇到的问题和措施探究摘要:语言是人与人之间进行沟通交流的重要桥梁,而所处不同地域,其地域语言同样存在明显差异,语言文化是联系各族各区人际关系的基础。

在当前交流密切的藏汉民族之间,随着愈发频繁的商业贸易交流,藏汉文化之间的沟通交流随之紧密。

因此,藏汉翻译工作对于两族文化的交流尤为重要,解决当前藏汉翻译上的问题至关重要。

关键词:语言文化;藏汉文化;藏汉翻译一、藏汉翻译的原则语言翻译是一种基于语文应用,并且由技术性和创造性两者相结合的脑力劳动,也是一种关于社会文化交流的活动。

翻译的目的是为了输入或输出一种新的文化,包括新的思想、新的技术等。

各民族或各国之间采取输入亦或是输出的交流模式,即文化交流,不但对社会的发展,而且对语言的发展,也会带来深远的影响。

在藏汉翻译的过程中,联系翻译理论,对藏汉翻译提出对应要求是必然的。

关于翻译的原则和标准,我国近代史上提出翻译标准而且影响最大的是严复。

他在译察《天演论》时所写的《译例言》中说:“事三难信达雅。

求其信已大难矣。

”严复提出的“信、达、雅”,虽然并未被列为具体的翻译标准,但长期以来,其已成为公认的翻译标准。

而当前人们在提到“信、达、雅”时,除了“信”的含义和严复提出的相同,即翻译内容“忠实”外,“达”和“雅”的含义往往已经改变或者作出了其他新的解释。

藏汉翻译应保持原作品的思想内容不变,针对译文阐述的中心思想,保证完整地将其运用另一语言进行翻译,这是藏汉翻译的第一个原则“内容忠实”。

在确保译文表现得思想内容并未改变得情况下,翻译工作者在藏汉翻译过程中,应认真分析观察译文得结构、语言风格以及行文笔调,译文工作的进行需要保证译文与原作品在风格、笔调上的统一性质,这是藏汉翻译的第二个原则“语言通顺”。

最后,在译文与原作平保持一致的思想、写作风格、用语笔调的同时,译文应对照原作品的表述,进行流畅地翻译表达,保证译文流畅自然地表述藏汉翻译的第三个原则“风格相当”。

面向自然语言处理的大规模汉藏(藏汉)双语语料库构建技术研究

面向自然语言处理的大规模汉藏(藏汉)双语语料库构建技术研究

面向自然语言处理的大规模汉藏(藏汉)双语语料库构建技术研究才让加【摘要】双语语料库建设及其自动对齐研究对计算语言学的发展具有重要的意义.目前国内外已建立了各类汉荚双语语料库以及服务于汉英机器翻译的双语对齐语料库和短语库.为了少数民族语言的机器翻译的研究从一开始就从较高起点起步,需要对汉藏双语文本的篇章级、段落级、句子级自动对齐技术进行研究,为开发和研究汉藏机器翻译奠定基础.主要研究汉藏双语语料库对齐、汉藏双语词典抽取、双语语料的收集、整理、存储以及检索等关键技术.最终研究结果是藏文编码的自动识别与转换技术,藏语语料库构建技术、汉藏双语词典抽取技术、汉藏平行语料库句子和词语对齐技术,并建立面向汉藏机器翻译的大规模汉藏双语对齐语料库.%The obstruction of bilingual Corpus and its automatic alignment research are of vital importance for the development of the computational linguistics. So far various types of Chinese-English bilingual corpus, including substantial sentnece aligned corpus for MT, have been developed both in China and abroad. In order to start the MT research involving minority with the state-of-arts technology, the research on the automatic alignments at the discourse level, paragraph level and sentence level between the Chinese and Tibetan vi-texts are necessary. This paper introduces a project on the Sino-Tibetanbilingual corpus alignments, the Chinese -Tibetan bilingual dictionary extraction, and the key technologies in the corpus collection, storage and retrieval. The project has accomplished such technologies as the Tibetan coding identification and conversion, thTibetan corpus construction, the Sino-Tibetan bilingual dictionary extraction, the Sino-Tibetan sentence alignment and word alignments, and finally achieving a large-scale aligned Sino-Tibetan bilingual corpus for Chinese-Tibetan machine translation.【期刊名称】《中文信息学报》【年(卷),期】2011(025)006【总页数】5页(P157-161)【关键词】汉藏机器翻译;汉藏双语语料库;编码;对齐技术【作者】才让加【作者单位】青海师范大学计算机学院青海师范大学藏文信息处理省部共建教育部重点实验室青海省藏文信息研究中心,青海西宁810008【正文语种】中文【中图分类】FP3911 序言近年来,语料库资源对于自然语言处理研究的巨大价值已经得到越来越多学者的认可。

多注意力机制的藏汉机器翻译方法研究

多注意力机制的藏汉机器翻译方法研究

多注意力机制的藏汉机器翻译方法研究刘赛虎,珠杰*(西藏大学信息科学技术学院,西藏拉萨850000)摘要:互联互通时代了解和掌握不同语言的区域文化和信息十分重要,机器翻译是目前广泛应用的交流媒介。

本文以藏汉机器翻译为研究对象,利用Transformer框架和模型,研究了基于Transformer多注意力机制的藏汉机器翻译方法。

经过实验,评估了多语料融合实验、语料双切分实验对比效果,得到了BLEU值32.6的实验结果。

关键词:藏汉;Transformer;机器翻译;注意力机制;多语料中图分类号:TP399文献标识码:A文章编号:1009-3044(2021)10-0004-04开放科学(资源服务)标识码(OSID):Research on Tibetan-Chinese Machine Translation Method Based on Multi-Attention MechanismLIU Sai-hu,ZHU Jie*(Tibet University School of Information Science and Technology,Lhasa850000,China)Abstract:It is very important to understand and master regional culture and information in different languages in the age of inter⁃connection.Machine translation is a widely used communication medium.This paper takes Tibetan-Chinese machine translation as the research object,and uses the Transformer framework and model to study the Tibetan-Chinese machine translation method based on Transformermechanism.Through experiments,the comparison effect of multi-corpus fusion experiment and corpus dou⁃ble-segmentation experiment was evaluated,and the experimental results of BLEU32.6were obtained.Key words:Tibetan-Chinese;Transformer;machine translation;attention mechanism;multilingual corpus机器翻译(Machine Translation,MT)是借助机器的高计算能力,自动地将一种自然语言(源语言)翻译为另外一种自然语言(目标语言)[1]。

关于藏汉翻译过程中的音译规范理论探究

关于藏汉翻译过程中的音译规范理论探究

翻译成 “ 多吉坚赞 ” ,而不翻译成 “ 多尔 吉坚木参 ” ;B s o d n a l l s d a r r g - y a s 一般直接 翻译成 “ 索南达吉” ,而不 翻译成 “ 索特那木 达尔吉 ”等 。 这样的翻译方式最大限度地保 证了藏汉 翻译 的准确性与规范性 。
关 键 词 :藏 汉 翻 译 ;音 译 ;规 范
对任何语种 的翻译来说 ,都是离 不开音译 的 ,何谓 “ 音译 ” ,就 是 指在原语 的音位在发声过程 中用最近接 、最相似 的音 色来 表达 。音译 主 要是表达它 的声符 ,在藏 汉翻译 的过程 中,经 常会 出现专用的名 称 ,如 寺庙名 、人名 、地名等特殊 的词 汇。虽然汉语 和藏语在发 音上各有 自己 独特 的发音技巧和发音特 色,但是在音译过程 中都能 找出相似 、相近 的 词语进行表达 。 音 译 规 范 概 述 音译 即译音 ,就是把 一种语 言的词语用另一种语 言中相似或相近 的 词语表达 出来 。在实际 中,音译是一种 翻译手段 ,音译是伴 随着翻译 的 产生而产生 的。因此 ,在 翻译 的过程 中,音译有着非 常重 要的作用 ,它 不仅仅是权宜之计 ,而且还是常用之法 、可用之法 以及有效之法 。 二 、藏汉翻译音译现状 ( 一) 藏语没有通用语言 藏语的地方方 言种类 繁多 , 目前来 看 主要 分为 三大类 型 :康 巴方 言 、前后的方言 以及安多方言 。其 中康 巴方言 的使用 区一般 是云南迪庆 藏族 自治州 、西藏东部 昌都地区 以及青海玉树州 、甘孜藏族 自治州与凉 山牡蛎藏族 自治县等 ;前后藏方言一般用于西藏 中西部 的地区 ,而安 多 方言用于除 了青海玉树州之外 的各个藏族地 区、天祝藏族 自治县 、阿坝 藏羌族 自治州以及甘肃甘南藏族州等地 区。每一种方言之 间存 在着很大 的区别 ,自然而然对 于不 同方 言 的翻译 ,其音译 也就 有所 不 同。例如 b y a m S p a 这个词语 ,有过 “ 祥巴”、“ 强 巴” 、“ 向 巴”等音 译 ,这主要 是 由于对于 b y a 这个词语 ,前后藏方言和康 巴方言有不 同的音译 ,前后 藏方言一般会读成 “ q i a ”音 ,而康 巴方言会读成 “ x i a ”音 。 ( 二 ) 音 译 和 意 译 名 称 通 用 由于藏汉翻译的历史 比较久远 ,因此从事翻译工作的人 员一般都 了 解 和熟悉藏文和汉语 的特色 。但是 由于汉 族 的翻译 者来 自于不 同的地 方 ,所说的方言和汉字习惯也有所不 同,因此很容易 出现在 翻译 同一个 藏文词语 的时候 使用 不 同汉 字 的现 象 。例 如 ,藏 语 中 的 t s h e r i n g就有 “ 泽让 ” 、“ 泽里 ” 、“ 策里” 、“ 才 让” 等 多种 翻译 。这是 由于并 且没有 统 一的规范标准 ,因此就 出现 了上述的多种情况。 ( 三) 译名存在差异 例如 ,t h n a m i s a m b h o t a这个词语 曾有 “ 吐弥三步杂 ” 、“ 吞米桑 布杂” 、“ 瑞美三菩提 ”等 多种译写法 ,如果根据藏文 书面语中的用法 , 应该 译写成 “ 屯弥桑布扎”、“ 吞米桑布扎 ”或者是 “ 擞密桑布扎 ” 。又 例如r g y am t s h o 这个词 语曾有 “ 嘉措 ”、 “ 加 措”、 “ 甲措 ” 等书面语 , 而 口语却是 I l 江措” 、“ 降措 ” 以及 “ 将初 ”等 。总之从 目前来看 。译 名之间存在着很大 的差异 ,混乱不规范 的形式 已经成 为普遍 现象 ,这主 要 是因为 :第一 ,汉语翻译的用字缺乏统一的标准规 范,辞书不齐 、欠 缺资料 ,使翻译者只能凭着 自己多年的工作经验进行 翻译 ,从 而使得 同 个 任命 出现许多译写法 ;第二 ,是俗名今译不一样 ,由于汉藏 翻译拥 有 多年的历史 ,很多藏文名词有 了比较 固定的译写 ,使得后 面的翻译者 墨守成规 ,沿用传统的译写法 ,而又 由于缺乏对于汉藏两族历史 知识 的 了解 ,出现 了一名多译 ,甚至在翻译一个新的名词时 ,还会按 照传统 的 方 法 去译 写 。 三 、藏 汉 翻 译 中音 译 规 范 需 要 注 意 的 问 题 ( 一 ) 词 音 的 规 范 性 在藏汉翻译的过程 中,一定不能使用多余 的音节 。一旦 在翻译 中使 用 多音节就会造成被译词 汇音节增 长或增多 ,从 而影 响翻译 的准确性 。 因此 ,在翻译若是遇到音节不明显或不 自成的 ,那么其前 、后或上 、下 的读音就可 以不进行翻译 。如 在翻译 R d o r j e r g y a l m t s h a n时,一 般直接

汉藏翻译的起源与理论研究

汉藏翻译的起源与理论研究

汉藏翻译的起源与理论研究作者:公保杰来源:《大经贸》2018年第04期【摘要】不同文化之间想要实现传播,首先应该具有统一的文字意义,其中翻译是传播不同文化的关键载体,在我们的生活中,翻译也有着重要的作用,与此同时,翻译是需要根据本土文化进行的,任何语言的翻译都需要建立在文化因素之上,如果离开了文化因素进行翻译,那么其准确度就会大大折扣。

在不同文化之间的翻译需要相互了解彼此的文化,这样才能让翻译更加的准确,本文对汉藏翻译进行了研究,对汉藏文化的传播有着重要的意义。

【关键词】汉藏文化翻译理论研究前言藏族是我国五十六个民族中不可缺少的一员,在经过不断的发展之后其文化和历史都是非常深厚的,但是因为很多客观因素的影响,汉族和藏族之间的交流有着很大的障碍,其中有民族文化的差异,在翻译的过程中是非常的困难的,因此本文对汉藏翻译进行了研究,让更多的汉藏文化研究者能够克服翻译的难题,从而达到文化交流的目的。

1.汉藏翻译的起源与发展在两种文化之间翻译是最大的困难,尤其是在藏族和汉族文化之间的翻译,更是极为困难,在汉藏翻译的过超过中因为不同文化的存在,因此在翻译的过程中经常会出现各种各样的问题,如果忽略了文化的差异,那么翻译是非常失败的,由此可见文化因素在汉藏翻译中的地位。

1.1 汉藏翻译的发展历史汉藏之间的交流应该是从唐朝开始的,在盛唐时期,汉藏两族之间经常交流和来往,为了加深对彼此的了解,开始了相互的学习,因此翻译工作也是必不可少的,而在汉藏翻译上,两族的上层领导者做出了巨大的贡献,而两族的百姓之间也是经常进行一些贸易,经常可以见到在汉族和藏族出现两族人民的出现,这也极大的促进了汉族文化的交流,更是让汉藏翻译工作能够顺利进行。

通过查阅资料得知,在盛唐时期,吐蕃与唐朝的来往有数百年之久,其中正式的官方来往就达到了300次,有一些对汉语和藏语比较熟悉的人,对于两族之间的文化也是非常的了解,这对于汉藏翻译工作的进行提供了重要的帮助。

关于汉藏翻译中的文化差异研究

关于汉藏翻译中的文化差异研究

关于汉藏翻译中的文化差异研究汉藏翻译是一项重要的跨文化交流工作,涉及到汉藏两个文化体系之间的语言、文字、文化传统等方面的交流和翻译。

在进行汉藏翻译的过程中,不可避免地会遇到文化差异的问题。

本文将从文化差异的角度探讨汉藏翻译中的相关问题,并提出相应的研究和解决方法。

一、文化差异对汉藏翻译的影响1.1 语言和文字语言是文化的载体,不同的文化背景会造成语言的差异。

在汉藏翻译中,很多时候单词和词语的直译并不能完全表达原文的意思,因为原文所蕴含的文化内涵在汉藏两种语言和文化中可能并不相同。

“天堂”一词在汉语中指代众神居住的地方,而在藏语中指代幸福快乐的境地。

在汉藏翻译中,需要结合原文的文化内涵来选择合适的词语,而不是简单地进行直译。

汉藏两种文字系统也存在着很大的差异。

汉字是象形文字,每个汉字都具有独特的意义,而藏文则是一种拼音文字,需要通过组合字母来表达意义。

这种文字系统的差异在翻译过程中会造成一定的困难,需要翻译人员有一定的文字学和文化背景知识。

1.2 文化传统在进行汉藏翻译时,还需要考虑到汉藏两个文化传统之间的差异。

比如在中文中,立春是中国二十四节气中的第一个节气。

而在藏文中,也有自己的传统节日和习俗。

在翻译立春这个词语时,需要考虑到这种文化差异,不能简单地进行直译,而是要结合藏文的传统习俗和文化内涵来进行翻译。

二、解决方法2.1 加强文化意识在进行汉藏翻译时,翻译人员需要加强文化意识,深入了解汉藏两个文化的差异和共同点,了解两种文化背后的历史、宗教、习俗等方面的知识。

只有具备了足够的文化背景知识,才能够更准确地理解原文的文化内涵,选择合适的词语进行翻译。

2.2 掌握专业知识在进行汉藏翻译时,翻译人员需要具备一定的专业知识,尤其是文字学和文化传统方面的知识。

只有具备了足够的专业知识,才能够更好地理解原文的意义,准确地表达出来。

2.3 与当地人员合作在进行汉藏翻译时,可以和当地的文化专家合作,了解当地的文化传统和习俗,获取更准确的信息。

藏文智能信息处理实验室简介

藏文智能信息处理实验室简介

青海师范大学藏文智能信息处理省级重点实验室简介扳档︽才稗︽拜扁︽涤邦︽蝶搬︽惭稗︽捶拜︽翟罢︽地罢︽忱稗︽搬郴︽伴窗稗︽败罢︽罢采拜︽尝︽罢稗邦﹀青海师范大学藏文信息处理与机器翻译实验室是依托国家高技术“863”计划项目建立起来的。

1994筹建,2001年经青海省教育厅评估验收,正式命名为“省级重点实验室”,被评为“优秀实验室”。

是集科研和教学为一体的计算机藏文信息处理与汉藏机器翻译方面的省级重点实验室。

实验室承担了1986年以来,青海省获得的第一个“863”项目——《汉藏科技机器翻译系统》,于1998年8月通过国家级鉴定,该项目填补了国内汉藏英语言文字机器翻译领域的空白,技术上处于国际先进水平,并于2001年获青海省科技进步二等奖;1999年承担了第二个“863”项目,—《实用化汉藏科技机器翻译系统》,是青海省获得的第二个“863”项目,于2000年通过了“863”计划智能计算机系统主题专家组的验收;另外还承担了《藏文自动分词系统》、《科技藏文名称术语翻译方法与标准研究》、《藏文视窗平台研究》和《藏文属性统计研究》等国家和省级项目。

2003年9月通过了《藏汉西文计算机操作平台设计与实现》省级鉴定,该项目填补了藏文词组输入法的国内空白,处于国际先进水平,同时鉴定了《藏汉英三语互译电子词典》的研制开发,填补了藏汉英三语互译电子词典的国内空白,处于国际领先水平,对于足进汉藏英文化交流,加速藏区的发展以及藏语言文字信息化建设具有重要意义。

《班智达汉藏翻译系统》分为科技翻译系统和公文翻译系统。

汉藏科技机器翻译系统经青海省科委组织的专家组测试表明:该系统对科技领域内封闭语料句子和文章的翻译可读性可达95%以上,对开放语料的翻译可读性可达80%以上。

同时,为提高翻译的正确性和加强规则的针对性,整个科技系统分为以下四个子系统:汉藏物理翻译系统、汉藏数学翻译系统、汉藏化学翻译系统、汉藏计算机翻译系统,从而使系统的翻译可读性在原有基础上有了很大的提高。

汉藏翻译系统中的动词处理研究

汉藏翻译系统中的动词处理研究

汉 语 句 子 汉 语 结构
藏语句子
藏 语 结构
我 老 S + 是 师 +0 V
气 自 1 S+ + V Βιβλιοθήκη ( 老师+ ) 我+ 是
二、 汉藏动词特点 的比较
将现代 汉语 同现 代藏语 的语句结构 进行 比
较, 从大的方面说 , 差别主要有两点 : 一是语序不

() 2 两个或多个相连动词作谓语时 , 大多数动
维普资讯
‘ 术语标准化与信患技术 o6 2o 年第 3 期
・ 言信 息处 理 ・ 语
汉藏翻译 系统 【 昀 l 】
◇看卓才旦
金为勋
李延福
洛智华
朋毛扎西( 青海师范大学)
关键 词 : 汉藏 ; 器翻译 ; 机 动词 处理

要 : 器翻译 系统 中 , 言技 术是居 于核 心 地位 的 ; 机 语 谓语是 句子 结构 的核 心 , 动词 又是 谓语
类型看 , 汉语是孤立语 , 而藏语是粘着特征很 明显
的语 言 。汉 藏语 的这 两 个基 本特 征 也突 出地 反 映
在动词特点上。汉语动词和藏语动词 的特点大体 上有以下三点不同:
1 语 序 不 同 .
汉藏语序不同表现在 以下两点上 : () 1谓宾的语序不同, 见表 1 。
表 1
J ∞ c 帆 v JN iu L h h a 船 ⅣG M a z a i I Wex n UO Z iu o h x
Ke r s C i e e T b tn, ma h n r n l t n, a ay e v r s y wo d : h n s - i e a c i e ta sa i o n lz eb Ab t a t I h c i e r n l t n s se s r c :n t e ma h n t sa i y t m,l n u g t c n l g s o sd r d s t e e t l a o a g a e e h oo y i c n i e e a h c n r a t c n l g 。t e p e i ae s t e e h oo y h r d c t i h mo t i o t n a f a s n e c t c u e h e b i h ma n s mp ra t p r o e tn e sr t r ,t e v r s t e t u i f r o r d c t .T e e r ,i' v r mp r t t n lz e b n t n l t n s se o m f a p e i ae h r f e t e y i o a o a a y e v r s i r sai y t m.T i a i o s t n a o hs r- t ce s a o t t e r q ie n f C i e e Ti ea r n l t n s se 一 I d s u s s t e c a s c t n l i b u h e u r me t o h n s - b t n t sa i y tm. t ic s e h l s i a i a o i f o o e b , d f r n f r s f v r s n h c a g a l r g lr at r o eb wh n h y r e n f v r s i e e t o m o e b a d t e h n e b e e a p t n f v r s u e e t e a i d f r n e s s t a s u g s e e a t o s t mp o e t e q ai f t n l t n i e e t t n e .I lo s g e t s v r l meh d o i r v h s u l y o r sa i . t a o

基于藏语语义分析的机器翻译技术研究

基于藏语语义分析的机器翻译技术研究

基于藏语语义分析的机器翻译技术研究何向真;万福成;于洪志;吴玺宏【摘要】Tibetan-Chinese machine translation is different from Chinese-English machine translation. One important rea-son, Tibetan is more dependent on the role of function word like the case-auxiliary word in the sentences. Classes of case-auxiliary words are various and the use of them is extremely different. This paper is to analyze the Tibetan case-auxil-iary words, integrate the semantic cues on the basis of Tibetan syntax tree, form the method of Tibetan-Chinese machine translation which is based on semantic cues. Through the experiment between the model of phrase and semantic, this method can be useful for Tibetan-Chinese machine translation.%藏汉机器翻译技术跟汉英机器翻译技术有所不同,其中,很重要的一个方面,藏语更依赖于格助词等虚词在句子中的作用,格助词种类繁多,用法差异很大。

针对藏语格助词进行分析,在藏语短语句法树库的基础上,加入了藏语本体特征的语义信息,形成融合藏语语义信息的藏汉机器翻译方法。

机器翻译用藏文自动分词探究

机器翻译用藏文自动分词探究

机器翻译用藏文自动分词探究官却多杰【摘要】According to the Tibetan and Chinese Machine Translation pretreatment process, put forward phrases as segmentation unit, so as to reduce the complexity of the Tibetan word segmentation algorithm. The test can improve the effect of Tibetan and Chinese Machine Translation effectively, meet Tibetan and Chinese Machine Translation source text pretreatment requirements.%针对藏汉机器翻译过程中的藏文预处理,提出切分单元尽可能短语化,从而降低藏文分词算法的复杂度。

经测试能有效提高藏汉机器翻译的效果,符合藏汉机器翻译源文预处理的需求。

【期刊名称】《电子测试》【年(卷),期】2015(000)022【总页数】3页(P46-48)【关键词】机器翻译;藏文;自动分词【作者】官却多杰【作者单位】青海师范大学民族师范学院,青海共和,813000【正文语种】中文【中图分类】TP391在藏汉机器翻译过程中,首先要对源文藏文部分进行分词预处理。

源文切分粒度直接影响分词算法的复杂度,单纯意义的分词算法将会以词为单位进行自动切分,尽可能切分到最细小的词语单元。

但在藏汉机器翻译时,切分粒度太小则翻译单元随之增加,并且需要进一步考虑这些细小的翻译单元在目标语言中的位置。

由此可知,采用纯粹的分词算法进行藏汉机器翻译源文预处理,既增加了分词算法的复杂度,又降低了藏汉机器翻译的效率。

本文提出在藏汉机器翻译源文预处理时,藏文分词粒度尽可能短语化,与翻译词典中最长的词条匹配,减少翻译单元和语序调整等额外的开销,从而缩短预处理时间并有效提高藏汉机器翻译的效率和质量。

简析汉藏传统翻译实践的特点

简析汉藏传统翻译实践的特点

现代性 对 立 的层面 。学 者普 遍接 受 的现 代概 念是 指启 蒙时代 以来 的以西 方文 明为 核 心 的新 世 界体 系形 成 的 时期 , 中人们 秉 持一 种 社 会 持 续 进 步 和 理 性 的发 展 其 观 。现代 性最 突 出地 表 现 在下 列历 史 事 实 中 : 民族 国 家 的兴起 ; 资本 主 义与 工业 化 、 业化 、 场化 、 市化 商 市 城 的发 展 ; 学技 术 的 突飞 猛 进 以及 大 众媒 体 的 日益 发 科 达 。这些 历史 事件 使得 传统 翻译 实践 据 以展 开 的基础 不复存 在 , 直接 引 导 了翻 译 活 动 在 现 代语 境 下 的转 并 型 。因此 , 就汉 藏语 翻译 活 动 的具体 历史 而 言 , 章对 文 “ 传统 ” 的起讫 时 限定 为 : 语 传 统 翻 译 实 践—— 从 先 汉 秦至 清末 , 藏语 传 统 翻译 实 践 —— 从公 元 7世 纪 至 2 O
世纪 中期 。
发展 , 响 了藏 民族 的风 俗 习惯 , 强 了 民族 交往 和文 影 加 化 交流 。通 过 翻译 活动 , 教 从 印度 和 祖 国 内地 传人 佛 藏 区 , 仅从 心 理层 面 上 给藏 民族 带 来 了新 的终极 关 不
怀 、 生 理 想 、 值 理 性 , 且 还 从 心 物 结 合 的 层 面 上 人 价 而
们 都十 分重 视译 文 的准确 和 畅达 , 力求 旨意 的不 违 、 不 失、 不滞 、 衍 。《 高僧 传 》 2曾记 载 隋代 译 师彦琮 不 续 卷
的“ 八备 ” , 说 要求 译 师具 备“ 心爱 法 , 诚 志愿 益人 , 不惮
久 时” 并且 “ 晓三 藏 , 贯 两乘 ” “ 涉坟 史 , , 荃 义 ,旁 工缀 典

藏汉神经网络机器翻译研究

藏汉神经网络机器翻译研究

藏汉神经网络机器翻译研究李亚超;熊德意;张民;江静;马宁;殷建民【摘要】Neural machine translation(NMT),which is a new machine translation method based on sequence-to-se-quence learning via neural network,has surpasses statistical machine translation(SM T)in several language pairs gradually.This paper conducted experiment of attention based NMT on Tibetan-Chinese translation task,and adopted transfer learning to overcome the data sparsity problem.Experimental results show that the transfer learn-ing method proposed is simple andeffective,resulting 3 BLEU score improvement compared with the phrase-based SM T.Analysis of translations is also conducted to discusses the merits and shortcomings of NM T.%神经网络机器翻译是最近几年提出的机器翻译方法,在多数语言对上逐渐超过了统计机器翻译方法,成为当前机器翻译研究前沿热点.该文在藏汉语对上进行了基于注意力的神经网络机器翻译的实验,并采用迁移学习方法缓解藏汉平行语料数量不足问题.实验结果显示,该文提出的迁移学习方法简单有效,相比短语统计机器翻译方法,提高了三个BLEU值.从译文分析中可以看出藏汉神经网络机器翻译的译文比较流畅,远距离调序能力较强,同时也存在过度翻译、翻译不充分、翻译忠实度较低等神经网络机器翻译的共同不足之处.【期刊名称】《中文信息学报》【年(卷),期】2017(031)006【总页数】7页(P103-109)【关键词】藏语;神经网络机器翻译;注意力机制;循环神经网络;迁移学习【作者】李亚超;熊德意;张民;江静;马宁;殷建民【作者单位】甘肃省民族语言智能处理重点实验室(西北民族大学),甘肃兰州730030;苏州大学计算机科学与技术学院,江苏苏州215000;苏州大学计算机科学与技术学院,江苏苏州215000;苏州大学计算机科学与技术学院,江苏苏州215000;甘肃省民族语言智能处理重点实验室(西北民族大学),甘肃兰州730030;甘肃省民族语言智能处理重点实验室(西北民族大学),甘肃兰州730030;潍坊北大青鸟华光照排有限公司,山东潍坊261000【正文语种】中文【中图分类】TP3910 引言机器翻译研究如何利用计算机自动实现不同语言之间的相互转换,是自然语言处理的重要研究领域。

浅谈藏汉翻译软件问题

浅谈藏汉翻译软件问题

浅谈藏汉翻译软件问题
达瓦曲珍
【期刊名称】《时代人物》
【年(卷),期】2024()8
【摘要】在藏汉民族交流交往交融的深入和涉藏地区基层宣传党的路线方针政策的深化,以及涉藏地区游客接待量的持续走高的大背景下,手机藏汉翻译软件市场前景广阔。

但在实际操作中,不乏不符合藏文语法规则,甚至错译的情况存在。

本文将以苹果手机应用商店App Store下的翻译软件“藏汉翻译官”翻译结果的译文和原文进行对比研究,举例分析,抛砖引玉。

【总页数】3页(P0017-0019)
【作者】达瓦曲珍
【作者单位】西南民族大学
【正文语种】中文
【中图分类】C
【相关文献】
1.现状、问题与改革:问诊甘肃省藏区藏汉双语教育——“全省藏汉双语教育研讨会”综述
2.努力推动藏区地名汉藏翻译规范化取得新成效——青川甘滇四省藏区地名汉藏翻译规范化问题的调研及对策
3.浅谈汉藏新闻翻译中存在的术语不统一问题和解决办法
4.数学藏汉双语教师职前培养研究——基于四川藏区数学藏汉双语教师专业现状
因版权原因,仅展示原文概要,查看原文内容请购买。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
系统版本
开发集(650)
测试集(500)
服务器版本
ICTCHIERO
52.80
41.12
实验结果:上一次蔡洽吴做过实验,并无差别,只是时间快慢的差别。
6利用命名实体词典修正ICTCLAS分词
大约7000句/秒,效率是O(10n).
如果随着词典规模的增大,可以很好的弥补ICTCLAS对于命名实体的分词上的不足。
4 GIZA工具不同版本对比
系统版本
开发集(650)
测试集(500)
目前采用
50.72
37.28
Moses Giza
52.80
41.12
实验结果:使用目前版本的GIZA降低了翻译系统的性能,测试集约降了4个点,开发集降了2.1个点。Moses Giza效果要更好一些。
5服务器版本chiero和12月ict-chiero对比
藏汉翻译系统实验
1藏汉双语语料标点处理
双引号、单引号、尾部连续标点以及开头不合法标点的处理
系统Chiero
开发集
测试集(1250)
短语表3.6G
52.02
31.62(0.2↑)
实验结果:测试集上升了0.2个点,说明对于语料的细节处理提升了翻译系统的性能。
尾部非成对标点删除进行实验
系统Chiero
开发集(650)
人名:
<不久前阿诺德向艾丽斯求婚。
---
>不久前阿诺德向艾丽斯求婚。
地名:
<佛罗伦萨是文艺复兴的圣地。
---
>佛罗伦萨是文艺复兴的圣地。
成语:
<忠言逆耳,良药苦口
---
>忠言逆耳,良药苦口
对于翻译系统的影响,目前正在进行相关的实验。
测试集(1250)
短语表3G
51.11
30.31
实验结果:不管在开发和测试集上都降低了,说明去除尾部标点的方法对于藏语不适合。
2藏汉新老开发集的对比实验
系统Chiero
开发集(650)
测试集(1250)
老的开发集(650)
52.02
31.62
新开发集(1259)
60.86
32.56
实验结果:在使用新开发集进行调参的情况下,开发集和测试集性能都提升了。由于之前开发集650句,不能很好的覆盖语料中的情况,新的开发集具有更好的覆盖。
3重现孙萌2012年12月藏汉翻译系统
系统Chiero
开发集(650)
测试集(50后
52.80
41.12
实验说明:开发集有34.9%的在训练集中出现,过滤后因此降低了5.6个点。由于赵老师的测试集没有进行测试,据李响统计,测试集和训练集有重合,因此12月份的结果偏高。
相关文档
最新文档