班智达汉藏公文翻译系统中基于二分法的句法分析方法研...
藏汉语言文学翻译中的表达问题探讨
藏汉语言文学翻译中的表达问题探讨一、引言藏汉语言文学翻译是一项较为复杂的工作,其中存在着诸多表达问题。
这些问题不仅仅涉及到语言层面,更关乎文化、历史、宗教等多个方面的因素。
本文将探讨藏汉语言文学翻译中的表达问题,以期为相关研究和实践工作提供一些参考和思路。
二、译语的选择在进行藏汉语言文学翻译时,译语的选择是一个至关重要的问题。
不同的语言文化背景下,同一现象、概念或者事物可能有着截然不同的表达方式。
在这种情况下,翻译人员需要根据具体的语境和背景信息,进行合适的选择。
藏汉语言中有一种特有的文学体裁,称为“格萨尔”,而汉语中并没有完全相对应的概念。
翻译者在翻译这类文学作品时,需要考虑如何向汉语读者介绍和解释这一概念,以使其能够更好地理解和欣赏藏族文学的独特魅力。
同样的,在涉及历史、宗教、民俗等方面的表达中,译语的选择也是一个非常关键的问题。
这些方面的文化现象和概念,在藏汉两种语言文化中可能有着不同的表达方式,因此需要翻译人员根据具体的语境,进行灵活的选择和调整。
三、语法和句式在藏汉语言文学翻译中,语法和句式也是一个非常重要的问题。
不同的语言有着不同的语法结构和句式特点,这就导致了在翻译过程中可能出现的语法不匹配、句式不协调等问题。
在藏语中,修饰成份通常位于被修饰成份的前面,而在汉语中则通常是相反的。
这就需要翻译人员在进行翻译时,进行适当的调整和变换,以使得目标语言的表达更加贴近原文的意思和表达方式。
在句式方面,不同文化语境中的句式结构也可能存在着较大的差异。
在处理这些问题时,翻译人员需要根据具体的语境和背景信息,进行适当的调整和变化,以使得目标语言的表达更加贴近原文的风格和特点。
四、文化背景和历史传统在藏汉语言文学翻译中,文化背景和历史传统往往也是一个比较困难的问题。
不同的文化和历史传统背景下,人们对于同一事物、现象和概念通常会有着不同的认知和理解。
在进行翻译时,翻译人员需要考虑如何将源语言文学作品中所包含的文化和历史元素,有效地转化为目标语言所对应的文化和历史元素。
藏汉语言文学翻译中的表达问题分析
藏汉语言文学翻译中的表达问题分析摘要:自20世纪80年代以来,随着“西藏热”在全国的蔓延,西藏文学在整个文坛上的地位随之提升。
由于藏文是世界上最为复杂的语言文字之一,是一种具有逻辑格语法体系的拼音文字,所以如何在藏汉语言文学翻译中准确表达文学作品的真正意图,成为了西藏文学研究的重点和难点。
基于此点,本文对藏汉语言文学翻译中的表达问题进行分析。
关键词:西藏文学;汉语;翻译当前,对藏文汉语言文学的翻译掀起了一股热潮,导致近年来,藏文汉语言文学翻译作品呈现着今年井喷般的势态,出现了许多藏文翻译作品。
但与此同时,作品的翻译水平良莠不齐,出现了一批歪曲了原文意思或语句不通的翻译作品,既不利于读者阅读,也不利于将来提高藏语言文学翻译的水平。
翻译作品中需要考虑的对照因素有很多,尤其是一些特殊的谚语、诗歌、颂偈体等等,向来是翻译中的难点,翻译不当则很容易造成读者的阅读困难。
所以,必须要注重汉文翻译中表达手法,在翻译过程中灵活恰当地运用表达技巧,适应读者的汉文语言习惯,才能提高藏文翻译的水平。
一、藏汉语言文学翻译应遵循的原则(一)忠实性忠实性是藏汉语言文学翻译的基本原则,是指在翻译中要做到不肆意添加内容,也不随意删减内容。
忠实性原则主要体现在以下两个方面:一方面是在形式上的忠实,利用译文与原文在结构、修辞、选词上的相似,传达和再现原文信息;另一方面是意义上的忠实,力求做到译文与原文在内容和精神上保持一致。
就藏汉语言文学翻译而言,要重在传达原作的意义,体现原作的思想意境,并可在遵循忠实性原则的基础上,适当运用例译、简译、改译、增译、减译等翻译技巧。
(二)创造性文学作品翻译是一项创造性的活动,译者不仅要用自己的审美理解原文,还要充分发挥自己创造性的天赋重现原文中美好的意境,抓住原文精髓。
这就要求译者必要了解原文的时代背景、创作手法和作者的思想情感,准确地传达原文的风格、思想。
以《仓央嘉措诗歌》为例,在进行翻译时明确藏文化的时代背景,了解仓央嘉措的生平经历、生活处境和行为举止等情况,而后再研究诗歌的形式、韵律、手法、意象等翻译要素,创造性地抓住原诗精髓。
基于双语对齐句型库的藏汉机器翻译方法研究
基于双语对齐句型库的藏汉机器翻译方法研究通过藏汉双语句子中词语序列异同点的比较,研究藏汉双语句型对齐方法,建立了一个小规模藏汉对齐句型库和对照词典库,在此基础上提出了基于藏汉双语对齐句型库的机器翻译算法。
标签:机器翻译藏语句型对照词典双语对齐句型库一、藏、汉句子中词语序列的对比分析藏汉两种语言在语法(包括词序、虚词的运用、动词的形态变化)上的区别,给藏汉双语对齐句型库的构建带来了一定的难度。
除了在句子的词序和词数上变化上有明显的区别外,在虚词的运用和动词的形态变化上也不同。
例如:5.汉语动词没有形态变化,而藏语动词具有形态变化在藏文文法中,对动词的形态变化、及物性及分类等方面的研究很丰富,是藏语动词的复杂性增强。
据统计,现代藏语动词1453个,其中,756个动词本身有形态变化,而汉语动词没有形态变化,这给藏汉对齐句型库的建设和规范化带来了汉语与藏语动词的比较。
例如:实例例6中的藏语动词以”/”分开的四个形态分别是动词的未来式、现在式、过去式、命令式。
在建立藏汉对齐字形库时,第1种对齐句型因词性、词序都相同,容易建立,但对第2、3、4、5、6种对齐句型的处理就变得相对复杂,将在后续内容中详细描述。
二、对照词典的设计与句型库的建设1.对照词典的设计与实现基于双语对齐句型库的藏汉机器翻译方法研究需要设计实现一个添加了详细词性标记的藏汉对照词典的设计与实现。
本文涉及的机器翻译方法,需要一个对照词典的支持,而这个对照词典不是一般意义上的简单对照词典,而是一个添加了词性标记的对照词典。
表3-1为其基本结构和功能:因页面大小,此处只列举了整个对照词典的一小部分内容,第一行中除”word”以外的其他英文标记表示词性,它们分别表示连词(cd)、及物动词现在式(vt)、动名词(nv)、及物动词过去式(vi)、随立名(nn)、指示代词(rz)、属格助词(gz)、使格助词(gx)、位格助词(gl),对照词典里的词性种类及数目远不止这些,总共有80余个词性。
藏语文语转换系统关键技术的研究
2 藏 语 文 本 预 处 理
2 . 1 藏 文分词
藏 文分词 是 藏文信 息处 理 的一项基 础性 工作 。它
换系统 就显 得尤 为 重 要 。 同时 , 藏 语 文语 转 换 的实 现 将 会大 大 丰富藏 族地 区人 民 的生活 , 拓宽 信息 获取 、 发
布 和交 流 的渠道 , 对 藏 族 地 区 的社 会 稳 定 、 民族 团结 、 和谐进 步 有着重 要 意义 。
1 . 2 语音 合成历 史及 现状 回顾
是将 连 续 的藏 文文 本按 照一定 的算 法根 据藏 语语 法规 则切 分成 词 的过 程 。藏文 分 词 作 为语 音合 成 、 机 器 翻 译、 语 音识别 等研 究工作 的必 要前 提 , 在藏 文信 息处 理 领 域 很 是 重 要 。 下 面 本 文 就 藏 文 分 词 来 加 以 探 讨
行 了相关 文献 的研 究 和实 验 , 但 对 藏 语 语 音研 究 还 不
够深 入 , 国外对 藏语 语音 合成 方面 也未 曾有 相关报 告 。
答系统 , 电子邮件 的语音服务 以及残疾人语音辅助等
领 域 。藏语 文语转 换 系统 的研究 及应 用具 有很 重要 的 意义 , 尤其 是对 于藏 族地 区 的幼儿 和老人 , 藏语 文语 转
藏文分词方法跟其他语言分词方法类似, 都可以
用 基于 规则 的或 基于统 计 的方法 , 目前 , 作 者 阅读 过 的
诸 多文 献 中 , 处 理藏 文分 词 大 多 是用 基 于规 则 的正 向 最大 匹配上 加格 助词 的正 向最 大 匹配 , 另 外 有 逆 向的
在 2 0 世纪末 , 可训练 的语 音合 成 方法 诞 生 。而后 又
基于混合策略的藏文句子边界识别
基于混合策略的藏文句子边界识别却措卓玛;华却才让;才让当知;夏吾吉【摘要】藏文句子边界识别作为藏文信息处理研究领域中的一项重要工作,在词法分析、句法分析、语义分析和机器翻译等领域都具有广泛的应用.在分析藏语句子的概念、分类和边界特征的基础上,提出一种基于混合策略的藏文句子边界识别方法.经实验模型在测试数据集上的F值达99.25%.【期刊名称】《内蒙古师范大学学报(自然科学汉文版)》【年(卷),期】2019(048)005【总页数】6页(P400-405)【关键词】藏文句子;边界特征;规则;支持向量机【作者】却措卓玛;华却才让;才让当知;夏吾吉【作者单位】青海师范大学计算机学院 ,青海西宁 810016;藏文信息处理教育部重点实验室 ,青海西宁 810008;青海省藏文信息处理与机器翻译重点实验室 ,青海西宁 810008;青海省藏文信息处理与机器翻译重点实验室 ,青海西宁 810008【正文语种】中文【中图分类】TP391.1藏语是一种古老的语言,具有自成体系的语言、语法、文字和标点符号.藏文标点符号体系中的楔形符存在较多歧义和功能不确定的问题,藏文中的楔形符具汉语句子中的顿号、逗号、感叹号和句号等功能,这种问题导致无法准确的识别藏文句子边界.然而藏文句子边界识别的结果会直接影响到词法分析、句法分析、机器翻译和语义分析等性能.因此,解决这个问题显得日益重要.藏文信息处理领域中也有部分专家和学者研究了藏文句子边界识别的问题,现有的藏文句子边界识别主要采用规则和统计的方法.李响等[1]采用规则和最大熵相结合的方法,在规模为48000句的测试集上识别了藏文句子边界,F值达到97.78%.赵维纳等[2]提出了基于法律文本的藏文句子边界识别方法,利用规则的方法对法律文本的句式特点进行了初步的分析和探讨.马伟诊等[3]提出了藏文句子边界的识别方法,根据边界符前后的词性来识别藏文句子,准确率达到96.37%.但以上文献未涉及藏文紧缩楔形符的自动识别问题,即藏文句子书写时句子边界词以“后加字”、“辅音字母”和“辅音字母”等结尾后不加空格的情况.藏文紧缩楔形符的自动识别对研究藏文句子边界具有很大帮助,同时非常必要.因此,本文提出了基于混合策略的藏文句子边界识别方法,探讨藏文紧缩楔形符的自动识别问题.经测试,其F值达到99.25%.1 藏文句子及句子边界特征1.1 藏文句子定义及分类藏文句子是表达相对完整意义的语言单位,由词和词组成,后加谓语成分,表明所述内容完整及具有语气鲜明的特点[6],藏文句子分为单句()和复句().1.1.1 藏文单句藏文单句是表达完整意义并且结构简单的句子,句中基本没有联词.藏文单句可以按语义和语气进行分类.藏文单句边界符为楔形符号,一般以边界词结尾,在疑问句中边界词后出现疑问词.按语气分为陈述句()、疑问句()、祈使句()和感叹句()四类简单句型;按语义分为有主句()、无主句()、存在句()、事物及特点相结合的句子()、本述句()和神态句()六类句型[6].1.1.2 藏文复句藏文复句是由两个或两个以上的意义上相关、结构上不构成句子成分的分句组成.其中分句是指结构上类似单句而没有完整句调的语法单位.复合句中的各分句之间一般有停顿,英汉语书面语中用标点符号表示,但由于藏文标点符号的特殊性,在书面语中用关联词来表示[3].藏文复句的句式按关联词在分句中所处的位置和整体结构层次关系,可以分为启下式、承上式和承上启下式三类,每类句式都有其自身的结构特征[6].其中启下式复句的关联词在前一分句的句尾或谓语动词之后出现,将直接连接后一个分句,构成连贯、停顿较小的复合句,如(公园里开满了鲜艳的花朵,其中最为亮丽的是玫瑰花和荷花.)承上式复合句的前一个分句是完整的单句,关联词在后一个分句的句首,构成不连贯、停顿较大的复句,如“”(人总是要死的,但死的意义不同.)承上启下复句中前一个分句的句末或后一个分句句首,会有出现相应的关联词,关联词的搭配要得当,如“”(现在许多地方的党委没有抓思想问题,或者抓得很少.)1.2 藏文句子的边界特征1.2.1 边界符特征藏文句子边界符特征需要考虑三个方面,第一,考虑标点符号(边界符),汉语的句子边界可以通过逗号、顿号和句号等的位置来准确识别,而对应的藏文标点符号只有楔形符号,因此导致无法准确识别藏文句子边界.楔形符包括单垂符()“”、双楔形符号“”()和四楔形符号“”().第二,考虑紧缩楔形符(以后加字为结尾的句子),藏文句子除了边界符还涉及到紧缩楔形符的问题,如“”(我想没有其他办法,不写作业老师肯定不会认同),本文共统计了361个紧缩楔形符(以为结尾的字),部分内容见表1.第三,考虑边界符号的特殊性,如结束符的添接法与离合词()相同,按同音原则,在后加字[]后面用[],[]后面用[],以此类推,如“”中的“”符合结束符的添接法,表示句子已经结束,但不按同音原则的结束符就不确定句子已结束,如“”中的“”跟前面的音节搭配为一个名词,表示句子还没结束.1.2.2 边界词特征藏文句子的语序结构跟英语和汉语的语序结构不同,属于SOV型语序结构,即{主语+宾语+谓语}的语序结构,动词始终位于句子的结尾部分,其句法功能是谓语的核心,也是整个句子的核心.一般藏文句子谓语部分的核心动词后会附加包含一些其他成分,这些成分可统称为动词的谓语,谓语的语序格式为{(谓语动词(+状语补语)(+助动词([情态和趋向])(+体貌-示正标记)(语气词))}[7].本文从不同类型的藏文文献中统计出了500多个藏文边界词,根据训练语料建立一个需要切分的300多个边界词和不需要切分的100多个歧义边界词,部分边界词和歧义边界词的内容见表1.藏文中充当关联成分的词有格助词、联词、副词、虚词结合的词语,共有四种形式[7].利用这些成分建立关联词表,共统计了92个关联词,部分关联词见表1.表1 特征词表Tab.1 Feature vocabulary紧缩楔形符边界词边界词歧义边界词关联词再后加字“”的词藏文句子的切分不同于汉语句子的切分,存在很大的歧义.因此本文首先利用规则的方法对藏文句子边界进行识别,然后对无法识别的歧义句子边界利用支持向量机做识别和切分处理.2 藏文句子切分图1 藏文句子边界识别系统框架Fig.1 Framework of Tibetan sentence boundary detection system2.1 藏文句子边界识别系统框架藏文句子边界识别分两层模式,第一层利用规则方法对测试语料做句子边界识别,若存在规则方法无法识别的歧义句子边界,则采用第二层支持向量机的方法进行处理.支持向量机模型的训练部分,首先在已标注好的训练语料中依据本文设计的特征模板抽取并生成句子边界特征向量,其次分别利用高斯(Rbf)、线性(Linear)、多项式(Poly)和S型(Sigmoid)等四种支持向量机核函数做训练模型,以解决歧义句子边界的切分问题,系统总体框架如图1所示.2.2 规则本文用规则进行藏文句子边界识别考虑的内容:藏文标点符号(边界符)、结束符和紧缩楔形符的句子边界识别.2.2.1 藏文边界识别及终结词的识别藏文句子边界符的多样性给藏文句子边界识别带来很大困难,并影响到机器翻译等研究工作.本文通过边界词表和关联表的规则,基本上能有效识别句子边界.其方法是:读入训练文本进行音节切分,其中藏文的编码范围是0F00-0FFF,藏文数字符号的编码范围是0F20-0F3D,藏文标点符号等可以在该范围内的字符两边添加分隔符进行切分,基本的音节切分(不含严格意义上的音节切分,如“紧缩词的处理”)后对文本进行读取,若楔形符之前的字为边界词或终结词,且楔形符之后的字或词不是关联词,则换行处理.2.2.2 紧缩楔形符边界词的自动识别依据藏文文法,藏文句子书写时句子边界词以“后加字”、“辅音字母”和“辅音字母”等结尾,在该句子末尾不会写楔形符号,以这些字符的部件(纵向最长的竖杠)表示藏文楔形符号,称之为紧缩楔形边界符号,这类边界词之后一般用空格进行分句,但是文献语料中总是会出现没有空格的情况,如中“”之后丢失了空格,导致无法识别该藏语句子的边界,增加了藏语句子切分的难度,本文利用紧缩楔形边界词表和长度异常音节间的字符串模式匹配算法,判断是否存在句子边界词,若存在紧缩楔形边界词,则作为句子边界进行句子切分处理.另外,模式匹配时已找到的紧缩楔形边界词后存在字符“”和“”的问题,如“”中的“”,因其中存在再后加字“”,通过匹配再后加字词表,将“”不会判断为紧缩楔形边界词,也不会把句子切分成“ ① ② ”的错误形式.紧缩楔形边界词和再后加字词表的部分内容见表1.2.3 支持向量机2.3.1 SVM模型支持向量机(Support Vector Machine,SVM)模型是有关监督学习的模型,是一种线性不可分变换到线性可分的问题过程,可以分析数据、识别模式、用于分类和回归分析的问题,给定一组训练样本,标记归为两类,将两类样本在特征空间进行线性分类,并在此特征空间中寻找最优样本进行线性分类(最优分类超平面)[8],其分类决策函数为f(x)=sgn(g(x))=sgn(w x+b),其中w是权重向量,x是特征向量,b是参数.核函数是SVM的核心的问题之一,常用的核函数有[11]线性核函数(Linear):k(xi,xj)=xiTxj,多项式核函数(Poly:k(xi,xj)={(xiTx)+1}δ,高斯核函数S型核函数(Sigmoid):k(xi,xi)=tanh {b(xiTxj)+c}.图2 SVM最优分类超平面Fig.2 Optimal classification hyperplane of SVM上述4个核函数中高斯核函数(Rbf)的性能最优,其次为线性核函数(Linear)和多项式核函数(Poly),S型核函数(Sigmoid)相对性能差.藏文句子边界识别中,本文将是否切分句子视作SVM的分类问题,如图2所示.从图2可知,通过支持向量机(SVM)的两类样本被超平面H线进行分隔,使得H1线和H2的距离最大.在藏文句子边界识别过程中,把藏文句子需要切分和不切分作为两类样本:需要切分(图2中“”)和不需要切分(图2中“ ”).2.3.2 特征模板的设计藏文训练语料中以边界符和紧缩楔形符为当前音节(S0)进行抽取句子并固定其位置,并从当前音节(S0)左右各抽取5个音节,进行人工标记,标记时需要切分的句子为1,不需要切分的句子为0,中性标为2.例如存在歧义边界词为“”的句子“”,抽取结果为“”,进行人工标记为0,不需要切分.如“”抽取结果为“”,进行人工标记为1,需要切分,其生成特征模板库及特征向量见表2和表3.表2 特征模板Tab.2 Feature templates音节特征实例特征值2S-1S02S0S+1223S+1S+200S-2S-1S001S-1S0S+1015S-2S-1S0S+1S+201S-4S-3S-2S-1S0016S-4S-3S-2S-1S0S+101S-3Ss-2S-1S0S+1s+20111S-5S-4S-3S-2S-1S0S+1S+2S+3S+4S+5013 实验3.1 歧义边界词的实验结果本文从各类藏文网站中获取的新闻、经书、小说和法律等藏文语料,通过整理和标注完成了规模达8000句的训练语料,其中包含300多个边界词和100多个歧义边界词.依据句子切分特征向量模板对训练语料进行生成特征库和特征向量化后,分别采用支持向量机(SVM)中常用的4个核函数进行实验,结果见表4.表3 句子边界特征向量化表Tab.3 Quantization of sentence boundary feature 音节句子块向量标注S-5S-4S-3S-2S-1S0S+1S+2S+3S+4S+5(2,2,0,0,0,0,0,0,0,0,0)0(2,2,0,1,1,1,1,1,1,1,1)1表4 歧义边界词的实验结果Tab.4 Experimental results of ambiguous boundary words核函数循环次数实验次数准确率第一次第二次第三次平均准确率高斯核(Rbf)100399.9599.9899.9799.96线性核(Linear)1000399.9599.9699.9899.96多项式(Poly)200398.9298.6697.5298.36S型(Sigmoid)1000389.2487.1487.7588.04 表4的结果表明,核函数中高斯核函数(Rbf)的性能最优,其次是线性核函数(Linear)和多项式核函数(Poly),S型核函数(Sigmoid)相对的性能差.3.2 评价指标为了评价本文提出的基于混合策略的藏文句子边界识别方法的性能,从准确率、召回率和F值三方面对藏文句子边界识别的系统性能进行评价,计算公式为[1]召回率F值3.3 实验结果实验从8000句切分标注语料中随机抽取285个句子作为测试语料,其余7715句作为训练语料,经统计测试语料中包含27个歧义边界词和100多个关联词.分别对相同的测试语料用规则方法、规则和支持向量机相结合的方法进行实验,验证不同方法对藏文句子边界识别的影响,实验结果见表5.表5 不同方法对藏文句子边界识别的影响Tab.5 The influence of different methods for boundary identification of Tibetan sentence方法训练语料的句子数测试语料的句子数系统切分的句子数系统正确切分的句子数准确率/%召回率/%F值%规则 800028525423793.3183.1687.94规则+SVM800028528228099.3098.9599.25实验结果表明,规则和支持向量机方法相结合识别性能较强.规则的方法解决了藏文边界符和紧缩楔形符的问题,并提高了藏文句子边界识别的性能,减少支持向量机对藏文句子边界歧义的误判,因此两种方法相结合提高了藏文句子边界识别的准确率.4 结语藏文句子边界符的多样性和紧缩楔形符的特性,给藏文句子边界识别带来很大困难,从而影响词法分析、句法分析、语义分析和机器翻译等藏文自然语言处理工作.针对该问题,本文提出了基于混合策略的藏文句子边界识别方法,主要结果为:(1)规则方法对藏文句子边界进行识别,利用特征词表解决了终结词和紧缩楔形符的藏文句子边界识别问题;(2)规则方法无法识别的藏文歧义句子边界,用支持向量机训练好的模型进行处理.从实验结果可以看出,本文提出的方法能有效识别藏文句子边界,F值达到99.25%.后期工作中,将扩充语料规模和补充开放语料进行测试,尝试用神经网络的方法自动识别藏文句子边界识别的问题,对不同的方法进行研究.参考文献:【相关文献】[1] 李响,才藏太,姜文斌,等.最大熵和规则相结合的藏文句子边界识别方法 [J].中文信息报,2011,25(4):39-45.[2] 赵维纳,刘汇丹,于新,等.基于法律文本的藏语句子边界识别 [C]//第五届全国青年计算语言学研讨会论文集,武汉:第五届全国青年计算语言学研讨会(YWCL 2010),2010:480-486.[3] 马伟珍,完么扎西,尼玛扎西.藏语句子边界识别方法 [J].西藏大学学报:自然科学版,2012(2):70-76.[4] 仁青吉,安见才让.藏文句子边界自动识别方法的研究 [J].信息与电脑:理论版,2014(8):62-63.[5] 格桑居,格桑央金.实用藏文文法教程 [M].成都:四川民族出版社,2004.[6] 吉太加.现代藏语文法通论 [M].兰州:甘肃民族出版社,2000.[7] 格桑居冕.藏语复句的句式 [J].中国藏学,1996(1):132-141.[8] 张学工.模式识别 [M].3版.北京:清华大学出版社,2010.[9] 赵维纳,于新,刘汇丹,等.现代藏语助动词结尾句子边界识别方法 [J].中文信息学报,2013,27(1):115-120.[10] 才藏太.基于最大熵分类器的藏文句子边界自动识别方法研究 [J].计算机工程与科学,2012,34(6):187-190.[11] 胡书津.简明藏文文法 [M].昆明:云南民族出版社,1998.[12] 夏吾吉,华却才让,色差甲,等.融合藏族人名音节特征的性别自动识别 [J].西北民族大学学报:自然科学版,2017(3):1-5.[13] 华却才让,姜文斌,赵海兴,等.基于感知机模型藏文命名实体识别 [J].计算机工程与应用,2014,50(15):172-176.[14] 李航.统计学习方法 [M].北京:清华大学出版社,2012:95-133.。
藏汉语言文学翻译中的表达问题探讨
藏汉语言文学翻译中的表达问题探讨【摘要】藏汉语言文学翻译涉及词汇、句式和文化差异等多方面的挑战。
本文针对这些问题展开探讨,分析了藏汉语言文学翻译的特点,并探讨了词汇表达和句式结构的翻译难点以及文化差异对翻译的影响。
从翻译策略的角度,提出了解决问题的方法和思考。
结合挑战与解决方法,对藏汉语言文学翻译进行了总结与展望,指出了未来研究的方向。
这篇文章旨在加深对藏汉语言文学翻译的理解,为未来的翻译工作提供启示和借鉴。
【关键词】藏汉语言文学翻译、表达问题、文化差异、翻译策略、挑战与解决方法、思考、未来研究方向1. 引言1.1 背景介绍藏文具有自己独特的音韵体系和语法结构,与汉语有着明显的差异。
在进行藏汉语言文学翻译时,译者需要面对词汇表达、句式结构、文化背景等诸多挑战。
深入探讨藏汉语言文学翻译中的表达问题,对于促进藏文经典作品在汉语世界的传播具有重要意义。
本文旨在分析藏汉语言文学翻译中的表达问题,探讨翻译过程中的挑战和解决方法,为提升藏文经典作品的翻译质量和深化藏汉文化交流提供参考。
通过对藏文和汉文的语言特点和文化内涵进行比较,探讨藏汉文学翻译中的表达问题,旨在拓展翻译研究领域,促进汉藏文化的互补与交流。
1.2 研究目的研究目的:本文旨在探讨藏汉语言文学翻译中的表达问题,分析其中存在的挑战与困难。
通过对藏汉语言文学翻译的特点、词汇表达的翻译问题、句式结构的翻译挑战、文化差异对翻译的影响以及翻译策略的探讨,旨在深入剖析藏汉语言文学翻译中遇到的种种问题,为研究人员提供更多的思考和启发。
本文还希望能够总结出在藏汉语言文学翻译中的挑战与解决方法,对藏汉语言文学翻译进行思考,并展望未来的研究方向,为开展更深入的研究奠定基础。
通过本文的研究,旨在促进藏汉语言文学翻译领域的发展,推动藏文化的传播和交流,以期在藏汉语言文学翻译领域取得更多的成果和突破。
2. 正文2.1 藏汉语言文学翻译的特点藏汉语言的语法结构与汉语有很大差异,这对翻译工作提出了挑战。
藏汉语言文学翻译中的表达问题探讨
藏汉语言文学翻译中的表达问题探讨藏汉语言文学翻译是一项极具挑战性的任务,它涉及到两种截然不同的语言和文化体系。
在进行翻译时,译者需要克服许多困难,例如语言差异、文化差异和表达方式的差异。
深入探讨藏汉语言文学翻译中的表达问题是非常必要的。
一、语言差异藏汉语言之间存在着明显的语言差异,这是翻译中最基本的挑战之一。
在藏语中,词汇的使用、语法结构、语音语调等方面都与汉语有着明显的不同。
在词汇的使用上,藏语的词汇量相对较小,而且词汇的地域差异也非常大,同一概念可能存在多个不同的词汇来表达。
这就给译者带来了很大的困难,因为他们需要在保持原文意思的基础上,尽可能地选择符合汉语语境的词汇。
语法结构的不同也给翻译带来了很大的挑战。
在藏语中,名词、动词、形容词等词性的变化是通过后缀的形式来体现的,而在汉语中这种变化是通过词序和助词来表达的。
译者需要具备较高的语言功底才能很好地处理这种语法结构的差异。
二、文化差异除了语言上的差异外,藏汉文化差异也是翻译中需要克服的障碍之一。
文化是语言的载体,语言和文化之间存在着密不可分的联系。
在进行藏汉语言文学翻译时,译者不仅需要掌握两种语言的语言特点,还需要了解两种文化的差异,这样才能更好地理解原文的内涵和情感。
在藏族文化中,信仰、婚姻、礼仪等方面的习俗和观念都与汉族文化有着明显的差异。
这就需要译者具备较高的跨文化沟通能力,能够理解和表达原文中所蕴含的文化内涵,从而使译文更加贴近原文的意思。
三、表达方式的差异在进行藏汉文学翻译时,译者还需要克服表达方式的差异。
不同的民族和地域在表达方式上有着不同的特点,这就需要译者具备较高的语言感知能力,能够准确地把握原文的语言风格和表达方式。
在藏语文学作品中,常常出现寓意深远、含蓄隐晦的表达方式,这与汉语的表达方式有着明显的不同。
译者需要具备一定的文学素养和语言功底,才能够较好地处理原文的表达方式,使译文更贴近原文的艺术魅力。
四、应对策略针对藏汉语言文学翻译中的表达问题,译者需要采取一些应对策略:增强语言功底。
浅析汉藏机器翻译中的问题及解决对策
浅析汉藏机器翻译中的问题及解决对策完代草次登多吉(西藏大学文学院,西藏拉萨850000)摘要:汉藏机器翻译是一项计算机学科领域的成果,也是翻译界的发展。
在信息发达的当今社会,靠传统的翻译来完成现代多领域的翻译是有相当的困难,为此我们就要借助电子计算机来完成人工翻译难以完成的任务。
文章从机器翻译的现状出发,通过机器翻译软件对一些例子进行分析,总结了在机器翻译中出现的问题,以及对此类问题的解决对策的探讨,使研究者们进一步认识电子计算机汉藏互译中的种种弊端,从而更加有效地改善汉藏机器翻译软件的运用。
关键词:机器翻译实例分析解决对策随着时代的发展,人类知识的更新,机器翻译的需求越来越迫切,也引起了人们广泛的关注。
为了让汉藏民族之间的交流更加便捷以及藏汉文明的传播和发展,进一步推动计算机软件的运用。
在运用机器翻译软件的过程中产生的译文质量仍然无法达到“信、达、雅”的标准程度。
笔者通过实例来分析汉藏机器翻译中出现的问题,为不断深入研究机器翻译提供可靠的信息,用人机互补的模式提高当前的翻译质量,加强汉藏机器翻译研究的进一步发展。
1汉藏机器翻译的概念与现状1.1汉藏机器翻译的概念机器翻译是指利用电子计算机把一种自然语言转换为另一种自然语言的过程。
那么汉藏机器翻译就是使用电子计算机将由汉语言文字或藏语言文字记载的信息,转换成藏语言文字或汉语言文字记述的过程。
⑴这是通过使用电子计算机为工具或媒介,把汉藏两种语言文字进行互译的过程。
这种利用软件实现从一种自然语言到另一种自然语言的翻译方法恰恰是信息时代的巨大发展和应用。
1.2汉藏机器翻译的现状随着时代的发展,在信息全球化的时代,电子信息的发展是越来越让人瞩目可待,信息传播的速度之快、范围之广、精确之度等有着很大的进步。
在科学技术突飞猛进的当今社会,人类知识更新速度空前加快,很多新鲜事物不断充斥着我们的生活,使我们加快步伐跟紧时代的旋律,来适应社会的高速发展,在学习和接受外来事物的过程中翻译起到了至关重要的作用。
班智达藏文自动分词系统的设计与实现
藏文和汉文一样都是字的序列 , 之间没有 间隔 词 标记 , 使得词的界定缺乏 自然标准 , 这就需要 通 过人工或机器对其进行分词。 近年来 随着藏文信息处理技术的发展 , 研究 人员已意识到藏文 自动分词的重要性 , 在借鉴亲 属语言汉语分词研究 的已有成果和成功经验 , 藏 文自 动分词方面取得 了一些有价值的研究成果 。 我课题组在国家评委 的支持下研制开发 了《 8 万字节藏语语 料的统计分析 和藏语词 的分布特 点、 法功能的研 究 , 5 语 设计开发 了 于词典库 的班智 迭藏文 自 基 动分词 系统 。系 统的研制为藏文输入法研究 、 藏文电子词典建设、 藏文字词频统计、 搜索 引擎的设计和 实现、 机器翻 译 系统的开发 、 网络信 息安全、 文 藏 语料库建设 以及藏语语义分析研 究奠定 了 基础 。
收稿 日期 :09 0 — 1 2 0 — 9 1
作者简介 : 才智杰(90 )男 , , 海乐都人。青海 师范大学副教授 。研 究方向: 17- , 藏族 青 藏文信 息处理。
7 5
才智杰 : 班智达藏文 自动分词系统的设计与实现
由知识库管理模块 、 知识库模块 、 句子分块模块 、 块分词模块和校正模块等五个主要部分。分词需
计 结果 见 表 1 。
图 2 分词流程
33 词典 库设 计 .
表 中词条指单个词 中所包含 的藏字个 数, 词条数指该词长下所包含词 的个 数 , 占百 所 分 比指该 词长下所包含 的词数在词库 中所 占的 比例 。
由于班智达藏文 自动分词系统采用 的是基 于词典 匹配的分词方法 , 因而词典库是该分词系
表 1 词长统计表
词长( 字符 )
l
词条数( ) 条
藏汉句子局部对齐策略的研究
齐 双语 语料 以支持藏 文信 息处 理 的研究 和应用 .国 内外 学 者把 自动 双语语 料对 齐作 为 一个 重 要 的研 究
课 题 进 行 了 大 量 的研 究 T 作 , 得 了 一 系 列 重 要 成 果 . 如 , 双 语 句 子 对 齐 方 面 , rwn W iim A. 取 例 在 B o 、 la l Gae Ke n t .C u c 、 沐 昀 博 士 等 提 出 了 比较 有 效 的 算 法 , 些 算 法 可 以 归 结 为 两 类 : 于 长 度 l、 n ehW h rh 杨 这 基 的 对 齐 算 法 、 于 词 汇 或 词 典 译 文 的 对 齐 算 法 . 述 算 法 在 印 欧 语 系 语 言 以及 英 语 和 汉 语 之 间 的 句 子 自 基 上 动 对 齐 方 面 取 得 了 很 好 的 效 果 , 对 藏 语 言 和 汉 语 言 之 问 到 目前 还 没 有 研 究 出具 体 可 行 的 自动 对 齐 策 但
20 0 生 1
青 海师 范大 学学 报 ( 自然科 学版 )
J u n l fQig a No m a ie st ( t r lS in e o r a n h i o r l Un v r i Na u a ce c ) y
2 0 O1 NO 4 .
第 4期
藏 汉 句 子 局 部 对 齐 策 略 的 研 究
1 引 言
机器 翻译 是 自然语 言处 理 的一个 重要 研究 内容 , 器翻 译 主要 有 3类 方法 : 于 规则 的方 法 , 于 机 基 基
统 计 的 方 法 和 基 于 实 例 的 方 法 . 智 达 汉 藏 机 器 翻 译 系 统 是 基 于 二 分 法 、 分 法 和 其 它 规 则 的 翻 译 系 班 三
藏文分词总结
藏文分词总结摘要:一、藏文分词的重要性二、藏文分词的方法三、藏文分词的实践应用四、藏文分词的发展前景正文:一、藏文分词的重要性藏文作为一种独特的文字体系,承载着我国丰富的历史文化遗产。
随着现代科技的发展,对藏文进行分词处理成为了研究和传播藏文化的重要手段。
藏文分词不仅可以帮助我们更好地理解藏文文献,还可以推动藏文信息处理技术的发展,为藏文在数字化时代的传播提供便利。
二、藏文分词的方法藏文分词的方法主要包括以下几种:1.基于词典的分词方法:通过建立藏文词典,分析词汇之间的关联性,从而实现分词。
这种方法的优点是准确性较高,但需要大量的人力物力来建立和维护词典。
2.基于统计的分词方法:通过对大量藏文文本进行分析,计算词汇出现的概率,实现分词。
这种方法的优点是自动化程度较高,但可能受到文本质量的影响。
3.基于机器学习的分词方法:通过训练模型,让计算机自动学习藏文分词规律。
这种方法的优点是适应性强,但需要大量的训练数据和合适的模型。
三、藏文分词的实践应用藏文分词在实际应用中具有重要价值,例如:1.藏文信息检索:通过对藏文文本进行分词,可以提高信息检索的准确性和效率。
2.藏文自然语言处理:分词是自然语言处理的基础,对藏文进行分词可以为语音识别、机器翻译等任务提供支持。
3.藏文教育教学:藏文分词可以为藏文教学提供辅助工具,帮助学生更好地掌握藏文词汇。
四、藏文分词的发展前景随着人工智能技术的不断发展,藏文分词技术也将取得更多突破。
未来,藏文分词技术将进一步提升准确性和效率,为藏文信息处理、传播和研究提供更加强大的支持。
藏汉语言文学翻译中的表达问题探讨
藏汉语言文学翻译中的表达问题探讨引言:藏汉语言文学翻译是文化交流的一种重要方式,它在促进藏汉两个民族之间的相互了解和交流方面发挥着重要作用。
在进行藏汉语言文学翻译时,经常会遇到一些表达问题,这不仅涉及语言的翻译,还包括文化的传递。
本文将从不同的角度探讨藏汉语言文学翻译中的表达问题,并提出相关解决方法。
一、语言表达问题:1. 词汇差异:藏文和汉语在词汇上存在较大的差异,两个民族的生活环境和文化背景不同,导致了词汇的差异。
在进行翻译时,需要寻找相应的汉语词汇来准确地表达藏文的意思,但有时会出现找不到合适的词语的情况。
解决方法:对于词汇差异较大的问题,可以使用注释或者适当的解释来帮助读者理解。
翻译时可以灵活运用词汇,采用意译或者换一种表达方式来传递原文的意思。
2. 语法结构:藏汉两种语言的语法结构也存在一定的差异,这使得译者在进行翻译时需要对语法结构进行调整,以保持译文的流畅和准确。
解决方法:熟悉藏汉两种语言的语法结构,灵活运用不同的表达方式来确保译文的准确性和可读性。
3. 情感表达:藏汉两种语言的情感表达方式也存在一定的差异,有时会导致翻译时情感的丧失或变形。
藏文中常用直接表达的方式来表达情感,而汉语中则常使用间接或隐晦的方式来表达情感。
解决方法:在翻译时要注意文化差异,了解原文中的情感表达方式,尽可能在译文中保留原文的情感色彩。
如果不可避免地涉及到情感上的差异,可以通过其他方式来传达原文的情感,如通过语气、词语的选择等。
二、文化表达问题:1. 文化隐喻:文化隐喻是指一个文化中特有的、以暗示或比喻的形式出现的想象、概念、行为等。
文化隐喻常常根植于一个文化的背景和语境中,对于文化之外的人来说,理解起来会存在一定的困难。
解决方法:在翻译时要注意对文化隐喻的理解和转换,尽量使用与读者所处文化相关的隐喻来替代原文的隐喻,以便更好地传达原文的意思。
2. 礼貌用语:各个民族的礼貌用语也存在差异,尤其是对于身份和地位的称呼。
藏汉语言文学翻译中的表达问题探讨
藏汉语言文学翻译中的表达问题探讨藏汉语言文学翻译中可能出现的表达问题有很多,以下是其中一些常见的问题和解决方法的探讨。
语言差异是翻译中最大的挑战之一。
汉语和藏语在词汇、语法和表达方式上有许多不同之处。
译者需要仔细考虑如何将原文的意思准确地传达到目标语言中。
文化背景差异也是一个重要的问题。
汉藏两个民族有不同的历史、宗教和价值观等。
在翻译文学作品时,译者需要了解原文的文化背景,并尽可能地将这些背景元素传达到目标语言中。
文字特点也是一个需要注意的问题。
藏文是一种音节文字,而汉字则是一种表意文字。
这就意味着,有时候一个汉字可以对应多个藏文音节。
在翻译时,译者需要根据上下文和意思选择适当的词语来传达原文的含义。
诗歌和散文之间的翻译也存在一定的困难。
诗歌通常使用押韵和节奏等修辞手法来表达情感和意义,而散文则更加注重文字的直观理解。
在翻译过程中,译者需要创造性地寻找适当的表达方式来传达原文的美感和意义。
在面对这些问题时,翻译者可以采取以下一些策略来确保翻译质量。
要进行深入的文化研究,并具备扎实的语言基础。
只有了解原文的文化背景和意义,才能更好地将其传达到目标语言中。
译者需要灵活运用各种翻译技巧,如意译、直译、借用等。
不同的翻译手法可以根据具体情况进行选择。
要注重审校和修改。
在翻译完成后,译者需要仔细检查和修改译文,确保意义准确传达。
藏汉语言文学翻译中存在许多表达问题,但通过深入研究原文的文化背景、灵活运用各种翻译技巧以及仔细审校和修改,译者可以解决这些问题,尽可能准确地传达原文的意义和感情。
机器翻译用藏文自动分词探究
机器翻译用藏文自动分词探究官却多杰【摘要】According to the Tibetan and Chinese Machine Translation pretreatment process, put forward phrases as segmentation unit, so as to reduce the complexity of the Tibetan word segmentation algorithm. The test can improve the effect of Tibetan and Chinese Machine Translation effectively, meet Tibetan and Chinese Machine Translation source text pretreatment requirements.%针对藏汉机器翻译过程中的藏文预处理,提出切分单元尽可能短语化,从而降低藏文分词算法的复杂度。
经测试能有效提高藏汉机器翻译的效果,符合藏汉机器翻译源文预处理的需求。
【期刊名称】《电子测试》【年(卷),期】2015(000)022【总页数】3页(P46-48)【关键词】机器翻译;藏文;自动分词【作者】官却多杰【作者单位】青海师范大学民族师范学院,青海共和,813000【正文语种】中文【中图分类】TP391在藏汉机器翻译过程中,首先要对源文藏文部分进行分词预处理。
源文切分粒度直接影响分词算法的复杂度,单纯意义的分词算法将会以词为单位进行自动切分,尽可能切分到最细小的词语单元。
但在藏汉机器翻译时,切分粒度太小则翻译单元随之增加,并且需要进一步考虑这些细小的翻译单元在目标语言中的位置。
由此可知,采用纯粹的分词算法进行藏汉机器翻译源文预处理,既增加了分词算法的复杂度,又降低了藏汉机器翻译的效率。
本文提出在藏汉机器翻译源文预处理时,藏文分词粒度尽可能短语化,与翻译词典中最长的词条匹配,减少翻译单元和语序调整等额外的开销,从而缩短预处理时间并有效提高藏汉机器翻译的效率和质量。
藏汉语言文学翻译中的表达问题探讨
藏汉语言文学翻译中的表达问题探讨语言文学翻译是一个复杂而又微妙的过程,在翻译过程中常常存在着种种表达问题,这些问题会影响到翻译的准确性和完整性。
本文将重点探讨藏汉语言文学翻译中的表达问题,并探讨如何解决这些问题。
一、多义性问题语言是一个具有多样性的系统,在不同的语境中同一个单词或短语的含义可能会不同。
在藏汉语言文学翻译中,若未能准确捕捉到原文中的多义性,就可能会导致翻译的失误,从而影响到译文的质量。
比如,有些词在藏语中可以有多种含义,这就需要依据具体语境来进行准确的翻译。
解决方法:在翻译过程中,要准确把握原文的语境,通过获取上下文信息来判断单词或短语的具体含义,并将其正确翻译出来。
同时,译者需要广泛了解当地的语言文化,尽可能多地了解句子中的隐含含义,并在翻译中思考和挖掘意义,达到准确表达的目的。
二、语法结构问题在语言文学翻译中,语法结构问题往往是导致翻译不准确和翻译歧义的主要原因之一。
语言的清晰性和准确性在很大程度上取决于其语法结构的正确使用。
在藏汉翻译过程中,由于两种语言的语言结构和语法规则不同,需要译者对藏语的语法结构和汉语的语法结构做全面了解,确保翻译的准确性和完整性。
在翻译中正确把握语言的语法结构,要充分考虑两种语言的语法规则和语言结构,严格按照语义和语法特征来进行翻译,确保译文的语言规范和专业性,并避免模糊不清或者歧义的翻译结果。
三、文化背景问题在语言文学翻译中,文化背景是一个非常重要的因素,是语言文学翻译中的一个关键因素。
文化背景不同,语言含义的体现也不同,在翻译中,要理解原文的文化背景,并通过精确定位和记录来表达原文的含义。
译者在进行藏汉语言文学翻译时,需要具备深入了解藏汉两种语言的文化背景的能力,了解译文涵盖的文化体系,注意跨文化交流,避免出现意译。
同时,在翻译过程中,要注意准确表达原文的社会和文化内涵,使译文在文化上更贴切,从而保证翻译的正确性和完整性。
四、语体问题语体是语言使用的形式和语境,是语言使用者根据不同的情境选择的一种语言形式。
基于CYK的藏语句法分析器研究与实现
基于CYK的藏语句法分析器研究与实现作者:尕藏扎西安见才让来源:《计算机时代》2018年第06期摘要:句法分析是自然语言处理中一个很复杂的研究内容。
藏语句法分析更是目前藏文信息处理中的一个基本问题,许多藏文信息处理任务都依赖着句法分析的精确度。
文章根据常用的藏文短语,总结出一套基于短语结构语法的藏文单句规则库,然后在Windows平台上用C#实现基于CYK算法来分析和生成句法树的藏语句法分析器。
实验结果表明,在人工标注的测试集上,藏语单句的句法分析准确率达到了81%。
关键词:规则库; CYK算法;乔姆斯基范式;句法树;句法分析中图分类号:TP39 文献标志码:A 文章编号:1006-8228(2018)06-53-04Research and implementation of Tibetan sentence analyzer of CYK algorithmGazang Zhaxi, Anjian Cairang(school of computing, Qinghai University for Nationalities, Xining, Qinghai 810007,China)Abstract: Syntactic analysis is a very complex research content in natural language processing. The Tibetan sentence analysis is a basic problem in Tibetan information processing. Many Tibetan information processing tasks rely on the accuracy of syntactic analysis. According to the commonly used Tibetan phrases, this paper summarizes a set of Tibetan single sentence rule bases based on the phrase structure grammar. Then C# is used to implement the Tibetan sentence analyzer which uses CYK algorithm to parse and generate syntactic tree, on Windows platform. The experimental results show that the accuracy of the syntactic analysis of a single sentence in Tibetan reaches 81% on the manually labeled test set.Key words: rule base; CYK algorithm; Chomsky paradigm; syntactic tree; syntax analysis0 引言目前,藏语句法分析的研究在藏文信息处理领域处于萌芽阶段,因此还要借鉴和吸收英汉语句法分析方法及相应的算法。
基于自顶向下剖析算法的藏语句法分析系统的研究与实现
2018年第8期信息通信2018 (总第188 期)INFORMATION & COMMUNICATIONS (Sum. No 188)基于自顶向下剖析算法的藏语句法分析系统的研究与实现相毛吉,安见才让(青海民族大学,青海西宁8100〇7)摘要:句法分析是自然语言处理(Natural Language Procession,NLP)领域中的关键问题之一,同时它也是公认的一个研究 难题,其主要任务是自动分析出句子的语法结构,也就是说,将一个线性序列的句子转换成一个结构化的句法树。
藏语 句法分析是藏语自然语言处理的重点。
它的发展能带动其他后继工程如机器翻译、问答系统、信息抽取等的发展。
为了 实现具有可行的,有效的藏文句法系统。
文章在Windows平台上使用Visual Studio 2015开发工具及C#语言研究并设 计实现了基于自顶向下剖析算法的藏语句法分析系统,该系统通过小规模的藏语句子进行测试并验证了句法分析准确 率达到了可以使用的水平。
关键词:自顶向下剖析;藏语句法分析;生成树中图分类号:H214 文献标识码:A 文章编号:1673-1131(2018)08-0092-02〇引言藏语句法研究的时间虽不短,但是到目前还没有可以共 用的藏语句法系统。
并且对句法分析的过程用人工分析是非 常复杂而成本又高。
因此,对于藏语句法的研究并设计具有 实用性的藏文句法系统已迫在眉睫。
该系统根据藏语句法的特殊性,对藏语的基本句型进行 人工句法分析标注,进一步研究基于自顶向下剖析算法的句 法结构,并且在分析过程中生成句法树。
1藏语句法分析算法1.1基于乔姆斯基范式的现代藏语语法规则为了用短语结构语法来描述和生成自然语言,乔姆斯基 提出了乔姆斯基范式:任何的由上下文无关语法生成的语言,均可由重写规则为A—BC或A—a的生成,其中A, B, C是非 终极符号,a是终极符号。
具有这样的重写规则的上下文无关 语法,它的句法树均可简化为二元形式,这样就可以采用二分 法来分析自然语言,采用二叉树来表示自然语言的句子结构。
简析汉藏公文翻译中的汉语化问题
简析汉藏公文翻译中的汉语化问题
阿顿·华多太
【期刊名称】《民族翻译》
【年(卷),期】2008(000)002
【摘要】本文通过解析汉藏公文翻译过程中一味跟随汉文而出现的汉语化的翻译方式,论述说明产生这种问题的原因、性质及其解决措施。
【总页数】5页(P23-27)
【作者】阿顿·华多太
【作者单位】青海省海西州民族语文工作办公室
【正文语种】中文
【中图分类】H
【相关文献】
1.班智达汉藏公文翻译系统中基于二分法的句法分析方法研究 [J], 才藏太;华关加
2.汉藏翻译中音译规范化问题探究 [J], 完玛道吉
3.汉藏机器翻译中汉族人名翻译问题探讨 [J], 项保;张国喜
4.努力推动藏区地名汉藏翻译规范化取得新成效——青川甘滇四省藏区地名汉藏翻译规范化问题的调研及对策 [J], 李万瑛;
5.翻译实践中汉语负向迁移现象简析 [J], 毕胜利
因版权原因,仅展示原文概要,查看原文内容请购买。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
班智达汉藏公文翻译系统中基于二分法的句法分析方法研究才藏太 李延福(青海师范大学藏文智能信息处理中心 中国 青海 西宁 810008)caizangt@摘要机器翻译系统是一种典型的自然语言处理系统,语言技术是机器翻译系统中居于核心地位的技术,实用化的机器翻译系统一般是采用自然限制的受限语言的翻译,且以基于规则的方法为主流方法。
本文结合863项目《班智达汉藏公文机器翻译系统》的研制实践,论述了词项信息同语法规则相结合的原则,提出了以动词为中心的句法分析二分法,从而在受限语言的范围内,为建立有较大适应性的机器翻译规则系统,有效地提高机器翻译语法分析的效率提供了有益的方法。
关键词:机器翻译二分法语句结构句法分析1、引言随着计算机技术的不断普及,如何将大量的汉语和外语的科技信息、教材、参考读物、科普读物等及时地翻译成藏语,进而为广大藏区科技、教育、文化事业服务已成为制约广大藏区社会经济发展的关键问题。
在汉藏科技翻译人员极端缺乏的今日,班智达汉藏机器翻译系统的研制和推广应用必将有助于促进这一问题的尽快解决。
在机器翻译系统中,语言技术是居于核心地位的技术,因而讨论机器翻译系统的句法分析问题便是一个重要的问题。
机器翻译的方法有多种,但基于规则和词典的方法仍然是到目前为止的一直采用的主流方法。
我们研制的863项目班智达汉藏公文机器翻译系统是采用基于规则的翻译系统。
机器翻译进行的是两个语言无限集之间的转换,在现有的科学水平之下,计算机科学还不能从理论上证明,用一个有限的机器翻译规则系统来进行原语和译语的无限集之间的转换的可能性,因此实践上比较可行的办法是采用自然限制的受限语言。
我们研制的班智达汉藏公文机器翻译系统就是一种受限语言的机器翻译系统。
2、系统结构班智达汉藏机器翻译系统由科技系统、公文系统和电子词典三部分组成,采用C++语言在Windows环境下实现。
考虑到实际应用中用户的需要,系统设有译前和译后编辑功能。
系统所带的汉藏英三语对照的电子词典达到18.6万条,科技系统的翻译规则达到1500余条,公文系统的翻译规则达到1300余条。
科技系统对约30万词条、5万多个句子的实际语料的实验测试表明:译文的可读性总体达到80%以上,翻译速度为1050字/分(DELL PII300微机)。
公文系统对约1800多个句子的实验测试表明:译文的可读性总体达到78%,翻译速度为1100字/分(同上)。
下面对班智达汉藏公文机器翻译系统的系统结构作一介绍。
2.1 模块划分班智达汉藏公文机器翻译系统总体上可分为词典知识库维护、规则知识库维护、自动分词、汉藏翻译、系统设置等五部分组成(见图1)。
图中各模块的主要功能如下:● 词典维护模块负责管理用于汉语词切分、汉藏双语的词典,主要功能有词典的排序、词条的添加、删除、修改。
同时具备动态查询汉藏词汇的功能。
● 规则维护模块负责管理规则知识库,主要功能有规则库的排序、规则的添加、删除、修改。
同时按规则号或驱动词具备动态查询规则的功能。
为便于管理和减少规则冲突、提高规则的有效性,将所有规则分为短语规则、句型规则两大类实行分级管理及维护。
● 分词标注模块采用最大匹配算法并辅之于切分规则,对汉语文本进行自动分词;对分词结果进行词性标注时根据实际语料分为三类进行标注:一是对词典中存在的二字或二字以上词按词典提供的词性标注;二是对各类汉语标点符号、非汉语字符串、数字串(标为数词类)以及ASCII串分类进行标注;三是对判定为未登录词的汉字串进行标注(一般标为名词)。
● 汉藏翻译模块规则消歧包括语法规则消歧和语义规则消歧两部分,语法规则消歧又分为个性规则和通用规则两级;统计消歧是系统的辅助消歧手段,是根据不同的词在不同学科领域内使用的概率不等,同形异词在不同学科领域内所指的意义的概率也不等这一特点,采用“高频先见”的原则以提高系统的相对正确性。
短语合并的过程是将句子中的词按一定顺序合并构成短语,每个短语的句法功能和语义信息都和它的中心词相同,系统采用“孤立中心动词”的短语合并法。
句型匹配规则也分个性规则和共性规则,执行顺序是先个性后共性。
系统采用边分析边转换边生成的策略,最后对译文统一扫描一遍,生成藏译文。
● 系统设置模块系统设置模块向用户提供系统参数(词典、规则目录)的修改和设置功能。
图1: 班智达汉藏公文机器翻译系统结构2.2 工作流程系统工作流程如图2所示,图中各部分的主要功能如下:● 词典库词典采用数据库文件格式,在信息表示上采用了框架多值表示法,词条数据结构的一般形式如下:词典数据结构 ={汉语原词;控制信息;语法语义信息;藏语译文;}其中,汉语原词包括汉语常用词、成语、习用语和科技常用短语;控制信息用来控制词处理的流程,主要在处理词的搭配关系、动态词组的插入等操作时起制导作用;语法语义信息主要包括汉语词类信息、子类信息、语义信息,藏语词类、语义及格助词添接信息等。
这些信息在规则合并过程中将会动态地发生变化,特别是动词时态信息只有在规则中动态地体现;藏语译文为汉语原词对应的藏译词。
● 规则库规则的数据结构如下:规则={<头部><动态信息域><转换域><生成域><类别域><维护域>} 其中,头部包括关键驱动词、规则左部和右部,主要供汉语分析使用;动态信息域纪录合并前后的词、词组或短语的语法、语义及时态信息;转换域供汉藏结构转换使用;生成域主要供格助词添接使用;类别域用于区分不同属性的规则类别;维护域仅供在维护规则时使用。
图2:班智达汉藏公文机器翻译系统工作流程● 原文的输入可采用文本文件、键盘输入以及扫描输入。
● 建立切分文本、并完成词性标注。
● 利用规则库的消歧规则排除兼类歧义,若无消歧规则则默认第一词性。
●依次调用短语四级规则完成短语合并。
● 逐次扫描句型规则完成句型匹配,对复句利用标点符号进行合成。
● 逐句扫描译文、添接藏文格助词、输出汉藏对照译文。
3、句法分析正如在引言中所谈到的,在机器翻译系统中,语言技术是居于核心地位的技术,下面就班智达汉藏公文机器翻译系统的句法分析的一些问题作一讨论。
3.1词项信息同语法规则相结合随着技术的发展,词典在自然语言处理系统中的地位越来越重要,电子词典已成为自然语言处理实用系统开发的基础。
词典作为语法的一个重要的有机组成部分,在实用系统中,词典中每个词项所附加的信息需要同语法规则相结合,以实现由词项驱动规则,这是因为机器翻译的核心技术之一就是在两种不同语言的内部结构之间实现转换。
要实现两种语言的内部结构的转换,就得了解两种语言的语句结构的特点。
将现代汉语同现代藏语的语句结构进行比较,从大的方面说,差别主要有三条:(1) 语序不同。
汉语的语序通常是SVO(S是主语,V是谓语,O是宾语),藏语的语序是SOV。
例如:汉语句子汉语结构藏语句子藏语结构a. 我是教师S+V+O S+O+Vb. 我看了书S+V+O S+(格助词)+O+(格助词)+Vc. 学生在教室里.S+V+O S+O+(格助词)+V语序不同的另一个表现是:形容词、数词、代词作定语时,汉语中它们都在中心词的前面,而藏语中它们一般在中心词的后面,如:汉语句子汉语结构藏语句子藏语结构d. 新兵...+形容词.形容词+中心词...中心词e. 三国.数词+中心词...+数词...中心词f. 那个人.代词+中心词...+代词...中心词语序不同还表现在介词与名词的关系上,如:我用钢笔写字S+介+名+V+O S+(格助词)+名+介+O+V (2)形态变化不同。
汉语缺少形态变化,而藏语有形态变化,动词的时态形式就是一个突出表现。
藏语动词有时态形式,如“吃”有(现在式),(过去式)和(未来式)三种时态形式;而汉语动词没有时态形式,如“吃”,汉语中只有一种形式,时态是用特定词汇表示的,若表示过去式加“了”,表示未来式加“将”。
(3) 表达方式不同。
汉语句子主要靠词序来表达,而藏语句子主要借助格助词来表达,藏语句子中格助词的添接直接关乎句子所表达意思的正确与否。
这里就将汉语动词和藏语动词进一步比较一下: 汉语的动词有及物和不及物之分,藏语动词同样有及物和不及物之分,但又有明显区别。
在汉语中及物动词与主语、宾语的关系一般地只有一种形式,即SVO,但在藏语中,及物动词同主语、宾语的关系有多种形式,需要加不同的格助词;还有,汉语的及物动词没有自动和他动之区分,在藏语中及物动词有自动和他动之分(自动词的动作是可以由主观决定的,他动词的动作是不能由主观决定的),自动及物动词和他动及物动词同主语、宾语的搭配关系有不同的结构,这样一来,词典中动词所附加的信息就要反映出藏语动词的这个特点,才能做到同语法规则的结合,现举例说明之:若以t和i分别表示及物和不及物,以z、t和l分别表示及物动词的藏语自动、藏语他动和藏语领属关系,以x、l和k表示藏语及物动词的三种动词与主语、宾词的搭配关系,以X表示施动格用字,以L 表示示宾词,在藏语中,宾语表示谓语动作的对象,宾语还可以表示动作的地点、动作的结果和动作的工具。
L还表示做“领有”的主语的格助词。
则可将动词的词性标注的词项信息同藏语语法结构的信息联系起来,如下面的示例:动词词项信息汉语句子汉语结构藏语句子藏语结构a.来到 vvttl 我们来到北京S+V+O S+O+L+Vb. 保持 vvttx 我们 保持 联系 S+V+O S+X+O+Vc. 研究 vvttk 我们 研究 问题 S+V+O S+X+O+L+Vd.有vvtl 我有书S+V+O S+L+O+Ve. 来自vvtz 我来自青海S+V+O S+O+L+Vf. 得出结论 vvitl 我得出结论S+V S+L+Og. 讲课vvitx 老师讲课S+V S+X+V上述例子表明,词项信息同语法规则相结合,就能在受限语言的范围内,建立有较大适应性的机器翻译规则系统。
3.2 以动词为中心的句法分析二分法任何一个机器翻译系统都是要经过长期的调试和不断优化后才可能建成,这是因为词典中每增加一个常用词,就有可能增加新的规则,或者要修改原有的规则,而新规则的增加又往往导致整个系统中的规则重新组合和调整;因此,在机器翻译系统的研制中,尽量减少调整的工作量或缩短调整的时间,则是一个重要的问题。
这里,结合班智达汉藏公文机器翻译系统的研制介绍一种句子分析生成的方法,应用它可有效地减少规则数量,从而减少规则重组和调整的工作量。
现有的机器翻译系统一般都是以句子为单位进行翻译的,语法分析算法也是得到句子作为分析的结果的。
由于汉语和藏语,都有主语、谓语和宾语,因而也会很自然地采用三分法,即把句子按主、谓、宾三部分进行合成和转换。
我们在班智达汉藏公文翻译系统的研制中,采用了句法分析二分法,同样达到三分法的效果,但语法规则数量却大大减少了。