【CN110110336A】一种面向藏汉机器翻译的藏语句法语料库的构建方法【专利】

合集下载

面向机器翻译的多语言语料库建立技术研究

面向机器翻译的多语言语料库建立技术研究

面向机器翻译的多语言语料库建立技术研究随着全球化进程的推进,跨语言交流需求越来越大,机器翻译技术因此应运而生。

而要将机器翻译技术提升到更高的水平,一个必不可少的环节就是多语言语料库的建立。

一、什么是多语言语料库多语言语料库,即涵盖多种语言的文本数据集合,是机器翻译技术的重要基础。

通过对多语言语料库进行分析和处理,机器翻译系统可以利用其中的语法、词汇等信息,进行翻译工作。

多语言语料库的构建主要分为两个过程:首先是语料库的采集,即收集多种语言的文本数据;接着是语料库的处理,即对采集到的文本数据进行格式化、去重、分类等操作,为机器翻译系统提供有效的数据资源。

二、多语言语料库的建立技术手段1. 语料库采集语料库的采集是多语言语料库建立的第一个关键步骤。

在这个过程中,采用的技术手段包括:(1)爬虫技术:通过网络爬虫程序爬取公开的网页、文档等信息,并将其存储下来。

(2)对齐技术:将同一篇文本在不同语言中的版本进行对齐,以便对机器翻译系统进行训练和优化。

(3)有偏采样技术:在语料库采集过程中,可以使用有偏采样技术,如基于关键词的采样、基于语言家族的采样等,以提高语料库的质量和效率。

2. 语料库处理语料库的处理是多语言语料库建立的第二个关键步骤。

在这个过程中,采用的技术手段包括:(1)文本清洗技术:去除文本中的无效信息,如标点符号、HTML标签等,以确保语料库的干净和有效。

(2)分词技术:将文本中的词语切分出来,为机器翻译系统提供词汇数据。

(3)句子对齐技术:将多种语言的句子进行对齐处理,以便机器翻译系统更好地利用语法和词汇信息。

(4)语言模型技术:使用统计方法对多语言语料库进行建模,以提高机器翻译系统的翻译准确度。

三、多语言语料库对机器翻译的影响多语言语料库的建立对机器翻译的影响是多方面的。

其中最显著的影响是:1. 提高机器翻译的翻译准确度机器翻译系统的翻译效果与所使用的语料库质量有着密切的关系。

通过建立多语言语料库,机器翻译系统可以更好地利用多种语言的信息,提高翻译准确度和效率。

面向自然语言处理的大规模汉藏(藏汉)双语语料库构建技术研究

面向自然语言处理的大规模汉藏(藏汉)双语语料库构建技术研究

面向自然语言处理的大规模汉藏(藏汉)双语语料库构建技术研究才让加【摘要】双语语料库建设及其自动对齐研究对计算语言学的发展具有重要的意义.目前国内外已建立了各类汉荚双语语料库以及服务于汉英机器翻译的双语对齐语料库和短语库.为了少数民族语言的机器翻译的研究从一开始就从较高起点起步,需要对汉藏双语文本的篇章级、段落级、句子级自动对齐技术进行研究,为开发和研究汉藏机器翻译奠定基础.主要研究汉藏双语语料库对齐、汉藏双语词典抽取、双语语料的收集、整理、存储以及检索等关键技术.最终研究结果是藏文编码的自动识别与转换技术,藏语语料库构建技术、汉藏双语词典抽取技术、汉藏平行语料库句子和词语对齐技术,并建立面向汉藏机器翻译的大规模汉藏双语对齐语料库.%The obstruction of bilingual Corpus and its automatic alignment research are of vital importance for the development of the computational linguistics. So far various types of Chinese-English bilingual corpus, including substantial sentnece aligned corpus for MT, have been developed both in China and abroad. In order to start the MT research involving minority with the state-of-arts technology, the research on the automatic alignments at the discourse level, paragraph level and sentence level between the Chinese and Tibetan vi-texts are necessary. This paper introduces a project on the Sino-Tibetanbilingual corpus alignments, the Chinese -Tibetan bilingual dictionary extraction, and the key technologies in the corpus collection, storage and retrieval. The project has accomplished such technologies as the Tibetan coding identification and conversion, thTibetan corpus construction, the Sino-Tibetan bilingual dictionary extraction, the Sino-Tibetan sentence alignment and word alignments, and finally achieving a large-scale aligned Sino-Tibetan bilingual corpus for Chinese-Tibetan machine translation.【期刊名称】《中文信息学报》【年(卷),期】2011(025)006【总页数】5页(P157-161)【关键词】汉藏机器翻译;汉藏双语语料库;编码;对齐技术【作者】才让加【作者单位】青海师范大学计算机学院青海师范大学藏文信息处理省部共建教育部重点实验室青海省藏文信息研究中心,青海西宁810008【正文语种】中文【中图分类】FP3911 序言近年来,语料库资源对于自然语言处理研究的巨大价值已经得到越来越多学者的认可。

面向机器翻译的藏语短语句法研究

面向机器翻译的藏语短语句法研究

关键 词 : 句பைடு நூலகம்树库 ; 藏语 句法; 藏汉机器翻译
文献标志码 : A 中 图分 类 号 : T P 3 9 1 d o i : 1 0 . 3 7 7 8 J . i s s n . 1 0 0 2 - 8 3 3 1 . 1 4 0 3 - 0 2 4 0
目前 , 藏汉机 器 翻译技术 正在 起步 阶段 , 跟英 汉机 器 翻译相比 , 藏汉机器翻译 的难 度体现在 : ( 1 ) 藏 语和 汉语 的语序不 同 , 最明显 的特 征就是 谓
1 0 08 71 , Chi n a
W AN Fu c h e ng ,YU Ho ng z hi ,W U Xi ho ng ,e t a 1 .Re s e a r c h o f Ti b e t a n s y n t a x f o r ma c hi n e t r a ns l a t i o n.Co mp ut e r
2 . S p e e c h a n d H e a r i n g R e s e a r c h C e n t e r , Ke y L a b o r a t o r y o f Ma c h i n e P e r c e p t i o n a n d I n t e l l i g e n c e , P e k i n g Un i v e r s i t y , B e i j i n g
语 置后 , 即中心语后置 , 在基 于短语 的翻译模 型 中, 长距 离调序问题难 以解决 。
的难度也就更大 。 基于 以上藏 汉机器翻译 的难 度 , 藏 汉机器翻译系统 正在 由基于 短语的模型转 向为基 于句法的模型 , 基于句 法 的模 型在 机器翻译 中融入 了句法特征 , 更为重要 的是 可 以解决长 距离调序 的问题 , 这是 基于短语 的模型一直 需要解决 的问题 。 本文首 先针对藏语本体词法 、 句法进行 了分类和标 记研 究 , 然 后在确 定标 记集的基础 上 , 参 照宾大 中文树 库 的结构 , 构建 了藏 语短 语句法树 , 并 建立 了藏 语短语 树库编辑 工具 , 用于动态扩 展树 库规模 ; 最后 , 在藏语短 语树 库基础 上 , 提 出一种基 于句法并融合 了反 向转换文

藏族文学典籍藏英汉语料库多模态建设框架

藏族文学典籍藏英汉语料库多模态建设框架

3具体实施策略
3 . 1创建过程中的难点及解决办法
创 建 语 料 库 的 过 程 中 , 难 点 在 于 语 料 对 齐 。 语 料 对 齐 有 篇 章 、段 落 、句 子 、短 语 、 词
够体现 t } l 国特 色的文化要 采。少数民族文化作
为 其 不 可 或 缺 的重 要组 成 部 分 , 是 我 国 各 族 人 民 共 同 拥 有 的 宝贵 精 神 财 富 和 资 源 。 而 少 数 民 族 文 献 是 记录 有关 少 数 民 族 在 I 司时 期 、 不 同 地 域 、 不 同 学 科 , 以 不 同 方 式进 行 社 会 实 践 的 知识和经验总结的所有载体 。 通 过 文字 、图 像 、
对译者提比很高要求 ,若是少数 民族译 者,需
精通 英 语 并 对 其 民 族 的文 化 有 所 感 悟 总 结 ,若 是 英 语 困 家 译 者 , 需 要 长 期 生 活 住 少数 民族 地 区 , 深 入 了 解 至 少 一 个 少 数 民族 的 生活 习惯 、
对少 数 民 族 语 言 并 多 见 涉 及 少 数 民 族 语 占
【 关键词 】语料 库 建设 框 架 藏 族文 学典籍
计算机辅助翻译
与英 语 的双 语 语料 库 , 更 是 少 之 又 少 : 而 考 虑 到 翻 译 成本 、 时 间 、 精 确 度 以 及 双 语 翻 译 人 才 的缺 乏 ,建 立 一个 这 样 的 双 语语 料 库 尤 为 癌 得
L P CC (L i t e r a t u r e P a r a l l e l C o pu r s f o r C h i l d r e n ・
生 成 人 名库 ,利 用 传 统 文 法 中 人 名 下 文 信 息 译 本 语 料

机器翻译中的平行语料库构建方法研究

机器翻译中的平行语料库构建方法研究

机器翻译中的平行语料库构建方法研究机器翻译(Machine Translation,MT)是指利用计算机自动将一种语言的输入文本翻译成另一种语言的过程。

而构建一个高质量的机器翻译系统需要大量的平行语料库(Parallel Corpus)作为训练数据。

平行语料库是指包含源语言和目标语言对应句子的文本集合。

本文将探讨机器翻译中平行语料库的构建方法研究。

一、平行语料库的来源平行语料库的构建是机器翻译研究的基础,平行语料库的来源可以有多种途径:1. 已有翻译文本:可以利用已有的翻译文本作为平行语料库,这些文本可以是各种领域的翻译作品、新闻报道、书籍等。

这类平行语料库数量庞大,但质量参差不齐。

2. 在线平行语料库:互联网上有很多平行文本资源,比如双语网站、双语新闻等。

可以通过网络爬虫工具获取这些数据集,然后进行清洗和预处理。

3. 语料库对齐:对于只有源语言或目标语言的文本集合,可以通过语料库对齐技术,将源语言和目标语言的句子进行匹配,构建平行语料库。

二、平行语料库的清洗和预处理平行语料库获取后,需要进行清洗和预处理,以去除噪声和提高质量。

主要的清洗和预处理方法有以下几种:1. 句子对齐:对于一个源语言句子和一个目标语言句子,需要确保它们是对应的关系。

利用句子对齐技术,可以自动找到对应的源语言和目标语言句子。

2. 噪声去除:平行语料库中可能包含一些噪声数据,如乱码、标签、重复句子等。

可以使用正则表达式或其他文本处理工具去除这些噪声数据。

3. 分词和标记:对于中文和其他分词语言,需要进行分词处理,将文本按照词语进行切分。

同时,还可以使用词性标注、命名实体识别等工具对句子进行标记。

4. 数据过滤:对于大规模的平行语料库,可以使用一些质量评估指标过滤出高质量的数据。

例如,句子长度、词汇覆盖度、语法正确性等。

三、平行语料库的增强方法在构建平行语料库的过程中,常常会面临数据不足的问题。

可以采用以下方法增强平行语料库的规模和质量:1. 人工翻译:通过雇佣专业翻译人员进行人工翻译,获得高质量的平行语料库。

基于ocr技术辅助构建藏汉音译数据集的方法及系统

基于ocr技术辅助构建藏汉音译数据集的方法及系统

一、概述OCR(Optical Character Recognition,光学字符识别)技术是一种通过对文本图像进行分析、识别和理解来实现文字转换的技术。

在信息化时代,随着数字化转型的加速发展,OCR技术在图像处理、文字识别、自然语言处理等领域得到了广泛应用。

其中,文字识别是OCR 技术的核心应用方向之一,它可以将图像中的文字转换成可编辑的文本或数字形式,从而帮助人们更方便地进行信息检索、存储和管理。

藏汉音译数据集是用于汉藏语言文本处理、机器翻译、语音识别等领域的重要资源。

但由于藏文和汉文字符之间的差异性和复杂性,传统的基于规则的音译方法在构建藏汉音译数据集时存在一定的局限性。

本文提出了一种基于OCR技术辅助构建藏汉音译数据集的方法及系统,通过文字识别技术实现对藏文文本的快速扫描和识别,进而提高音译数据集构建的效率和准确性。

二、方法与系统设计1. 基于OCR技术的藏文文字识别a. 文本图像预处理:对藏文文本图像进行去噪、二值化、分割等预处理操作,以提高文字识别的准确性和稳定性。

b. 文字特征提取:利用图像处理技术和特征提取算法,提取藏文文字的特征信息,如轮廓、笔画等。

c. 字符识别与校正:采用OCR引擎对藏文文字进行识别,并通过校正算法对识别结果进行修正和优化。

2. 藏汉音译数据集构建a. 藏文文字识别:利用基于OCR技术的藏文文字识别模块,快速实现对藏文文本的扫描和识别。

b. 音译关系提取:通过规则匹配和自然语言处理技术,从识别的藏文文本中提取出对应的汉字音译信息。

c. 数据集组织与存储:将提取的音译信息按照一定的数据格式组织和存储,构建起完整的藏汉音译数据集。

三、实验与结果分析本文设计了基于OCR技术辅助构建藏汉音译数据集的系统,并在实际的藏文文本数据集上进行了验证和实验。

实验结果表明,基于OCR技术的藏文文字识别模块能够有效地识别藏文文本,并且在音译数据集构建过程中能够提高效率和准确性。

一种融合句法结构的藏汉语言神经机器翻译方法[发明专利]

一种融合句法结构的藏汉语言神经机器翻译方法[发明专利]

专利名称:一种融合句法结构的藏汉语言神经机器翻译方法专利类型:发明专利
发明人:史树敏,罗丹,武星,苏超,黄河燕
申请号:CN202011500300.8
申请日:20201218
公开号:CN112613326A
公开日:
20210406
专利内容由知识产权出版社提供
摘要:本发明涉及一种融合句法结构的藏汉语言神经机器翻译方法,属于机器翻译及特征融合应用技术领域。

本方法旨在在神经机器翻译的框架中,引入更多语言本身的句法结构,从而帮助提升机器翻译质量,通过优化transformer的位置编码技术问题,提出相对位置编码的方法,进行句法结构信息的融入。

本方法通过提取基于依存关系的结构位置编码方法优化transformer,最终达到提升藏语‑汉语神经机器翻译质量的目的。

本方法能有效提高自注意力神经网络在学习两种语言之间的关联的效率,缓解两种语言由于句法结构不同带来的问题,降低算法的时间复杂度,解决了传统模型采用绝对位置编码造成的上下文信息丢失问题,减少了低资源神经机器翻译的误翻译、漏翻译的发生。

申请人:北京理工大学
地址:100081 北京市海淀区中关村南大街5号
国籍:CN
代理机构:北京正阳理工知识产权代理事务所(普通合伙)
代理人:张利萍
更多信息请下载全文后查看。

面向藏汉数字翻译的研究

面向藏汉数字翻译的研究

面向藏汉数字翻译的研究摘要:一、引言1.藏汉数字翻译的重要性2.研究背景与现状3.本文目的与结构二、藏汉数字系统概述1.藏文数字系统2.汉文数字系统3.数字翻译的挑战三、藏汉数字翻译方法与技术1.基于规则的翻译方法2.基于实例的翻译方法3.基于机器学习的翻译方法4.跨学科研究方法四、面向藏汉数字翻译的应用案例1.文献资料翻译2.藏族地区信息化建设3.民族文化交流五、面向藏汉数字翻译的未来研究方向1.提高翻译准确性与效率2.拓展数字翻译应用场景3.促进民族语言信息化发展六、结论正文:一、引言藏汉数字翻译在民族文化交流、藏族地区信息化建设等方面具有重要意义。

随着我国民族政策的不断优化和完善,藏汉数字翻译的需求日益增长。

本文旨在对面向藏汉数字翻译的研究进行综述,以期为该领域的发展提供参考。

二、藏汉数字系统概述藏文和汉文数字系统具有各自的特点和规律。

藏文数字系统以音节为单位,采用独特的计数法;汉文数字系统则采用十进制计数法。

这两种数字系统在表达数字时存在较大差异,给藏汉数字翻译带来挑战。

三、藏汉数字翻译方法与技术藏汉数字翻译方法主要包括基于规则的翻译方法、基于实例的翻译方法、基于机器学习的翻译方法等。

其中,基于机器学习的翻译方法在近年来取得了显著的进展,如基于深度学习的神经网络翻译模型。

此外,跨学科研究方法如语言学、计算机科学等的融合也为藏汉数字翻译提供了新的思路。

四、面向藏汉数字翻译的应用案例藏汉数字翻译在多个领域有广泛应用。

例如,文献资料翻译可以帮助研究人员更好地理解和交流藏族文化;藏族地区信息化建设需要将汉文数字系统翻译成藏文数字系统,以便于当地居民使用;民族文化交流则需要克服藏汉数字系统的差异,实现顺畅沟通。

五、面向藏汉数字翻译的未来研究方向未来,面向藏汉数字翻译的研究应关注提高翻译准确性与效率,拓展数字翻译应用场景,促进民族语言信息化发展等方面。

此外,跨学科研究方法将继续发挥重要作用,推动藏汉数字翻译取得更大突破。

一个面向藏族学生双语教学的汉藏语料库建设

一个面向藏族学生双语教学的汉藏语料库建设

第37卷第6期2023年11月兰州文理学院学报(自然科学版)J o u r n a l o fL a n z h o uU n i v e r s i t y ofA r t s a n dS c i e n c e (N a t u r a l S c i e n c e s )V o l .37N o .6N o v .2023收稿日期:2023G02G20基金项目:兰州文理学院杰出青年科研人才培育计划项目(2018J C Q N 010);甘肃省高校教师创新基金项目(2023B G258)作者简介:梁青青(1983G),女,河北涞源人,讲师,硕士,研究方向为语音信号处理.E Gm a i l :281930976@q q.c o m.㊀㊀文章编号:2095G6991(2023)06G0036G05一个面向藏族学生双语教学的汉藏语料库建设梁青青,周小燕,赵春艳(兰州文理学院传媒工程学院,甘肃兰州730000)摘要:为了使用计算机辅助语言学习系统(C o m p u t e rA i d e dL a n g u a g eL e a r n i n g ,C A L L )帮助藏族学生在学习普通话时及时发现和纠正错误发音,构建了一个适用于藏族学生普通话发音评估的语料库.从声母㊁韵母及声调的概念来比较分析藏语学生的普通话语音特征,归纳出藏族学生易混淆的声㊁韵㊁调,并进行文本语料的设计和语音语料的录制.对录制的音频文件用国际通用标注软件P R A A T 进行分层标注,对标注好的语料进行分类编号.实验结果证明,该语料库可以及时纠正藏族学生学习普通话时的错误发音.关键词:计算机辅助语言学习系统;文本语料;藏汉语料库;标注中图分类号:T P 391㊀㊀㊀文献标志码:AC o n s t r u c t i o no f aC h i n e s e GT i b e t a nC o r pu s f o r B i l i n g u a l T e a c h i n g ofT i b e t a nS t u d e n t s L I A N GQ i n g Gq i n g ,Z H O U X i a o Gy a n ,Z HA OC h u n Gya n (S c h o o l o fM e d i aE n g i n e e r i n g ,L a n z h o uU n i v e r s i t y ofA r t s a n dS c i e n c e ,L a n z h o u730000,C h i n a )A b s t r a c t :I n o r d e rt o u s e C o m p u t e r A i d e d L a n g u a g e L e a r n i n g (C A L L )t o h e l p Ti b e t a n s t u d e n t s t i m e l y d e t e c t a n dc o r r e c tw r o n gp r o n u n c i a t i o n w h e nl e a r n i n g P u t o n g h u a ,ac o r pu s s u i t a b l e f o rP u t o n gh u a p r o n u n c i a t i o na s s e s s m e n t o fT i b e t a ns t u d e n t sw a s c o n s t r u c t e d .F r o m t h e c o n c e p t o f i n i t i a l c o n s o n a n t ,f i n a l c o n s o n a n t a n d t o n e ,t h i s p a p e r c o m p a r e da n da n a l yz e d t h e p h o n e t i c f e a t u r e s o fT i b e t a ns t u d e n t s i nP u t o n g h u a ,s u mm e du p t h e s o u n d s ,r h ym e s a n d t o n e s e a s i l y c o n f u s e db y T i b e t a ns t u d e n t s ,a n dc a r r i e do u t t h ed e s i g no f t e x t c o r p u s a n d t h e r e c o r d i n g o f p h o n e t i c c o r p u s .T h e r e c o r d e d a u d i o f i l e sw e r e l a b e l e d b y t h e i n t e r n a t i o n a l ge n e r Ga l l a b e l i n g s of t w a r eP R A A T ,a n dt h em a r k e dc o r p u sw a s c l a s s i f i e da n dn u m b e r e d .T h ee x Gp e r i m e n t a l r e s u l t ss h o w e dt h a tt h ec o r p u sc a nc o r r e c tt h e w r o n gpr o n u n c i a t i o no fT i b e t a n s t u d e n t s i n l e a r n i n g P u t o n gh u a i n t i m e .K e y wo r d s :C A L L ;t e x t c o r p u s ;C h i n e s e GT i b e t a n s p e e c hc o r p u s ;l a b e l ㊀㊀我国是多民族国家,除汉族外,藏族是人口众多的少数民族之一,在我国约有七百万人口(2016),主要分布在西藏自治区㊁青海省㊁四川省西部㊁云南迪庆和甘肃甘南等地区.生活在这些少数民族地区的人们,藏语是他们的主要语言[1].国家为了民族统一和共同发展,目前正在积极推广普通话.«国家中长期教育改革和发展规划纲要(2010-2020年)»中第九章民族教育的第二十七条指出:大力推进双语教学,全面开设汉语言文学课程,全面推广国家通用语言文字[2].因此,面向藏族学生的双语教学对于提高他们的普通话水平尤为重要.然而,藏族人的普通话发音容易受到其母语发音习惯的影响,总会带有一些固定类型的错误发音,这就需要有专业教师对其普通话发音进行针对性的纠正.这种方式费时费力,效率也不高.随着语音信号处理技术的不断成熟以及智能语音技术的快速发展,计算机辅助语言学习系统(C o m p u t e rA i d e dL a n g u a g eL e a r n i n g,C A L L)[3]用于藏族学生的普通话发音评估越来越受到人们的青睐.构建一个适用于藏族学生普通话发音评估的语料库是其应用的基础.关于藏语信息技术方面的研究起步较晚,资源也相对缺乏.根据知网查询发现,已有的成果有:西北民族大学藏文信息处理研究所设计的安多藏语语音合成语料库;中国社会科学院民族学与人类学研究所㊁西藏语委㊁新疆大学和西南民族大学共同完成的 藏㊁维㊁彝民语语音参数数据库 ;西藏大学藏文信息技术研究中心的 面向藏语声纹识别的语料库 [4].这些数据库主要用于语音合成和语音识别,大部分还处于语料收集和研究阶段,而且现有的语料库也未涉及普通话声韵调发音特征和藏语声韵调发音特征的差异.因此,本文以甘肃地区藏族学生在双语教学中学习普通话发音为研究内容,先从语言学角度对比分析藏语和标准普通话的发音特征,归纳总结出藏语语者普通话的发音特征,在此基础上进行文本设计和语音录制,构建合适的语料库.进一步对录制的音频文件进行分层标注:短语层用汉字标注;音节层用汉语拼音标注;利用计算机可读音标(S p e e c h A s s e s s m e n t M e t h o d sP h oGn e t i cA l p h a b e t,S AM P A)来标注音素层;用调值来标注声调信息,最后,将所有标注信息写入.T e x t G r i d文件中.1㊀语料库设计在设计文本语料库的过程中,需要科学地设计语料内容,用尽量少的语料覆盖语言的所有发音现象.藏族人在说普通话时容易受到母语的影响,说出的普通话具有明显藏腔藏调.由于藏语和汉语在结构上具有相似性,所以采用汉语中拼音的构成,即声母㊁韵母以及声调的概念来比较分析藏语语者的普通话语音特征.本文结合藏族小学的课本,从声母㊁韵母以及声调上对比藏族学生的普通话与标准普通话的差异,归纳出藏族学生易混淆的声韵调,进行文本语料的设计.1.1㊀汉藏双语的发音特点汉语是音节型语言.汉语拼音有23个声母,24个韵母,每个汉字的拼音都有声母(零声母)㊁韵母和声调.声母起辅音作用.韵母由单元音或者元音与辅音构成,可以分为单韵母㊁复韵母和鼻韵母.声调分为阴平㊁阳平㊁上声和去声.藏语和汉语属于同一个语系,并且藏语也是音节型语言.目前藏语方言主要分为3类:卫藏方言(拉萨话)㊁康方言(德格话㊁昌多话)和安多方言,本文以卫藏方言中的拉萨藏语为研究对象.藏语和汉语不同,藏语是由字母组合形成的文字,每个字母都有自己的发音,字母的组合实际上就是音与音之间的拼合,所以称之为拼音文字[5].1.2㊀藏语和汉语的主要区别1.2.1㊀声母发音特征的区别根据拉萨藏语声母系统来进行分析,藏语和普通话共享20个声母,如表1所列.除此之外,藏语和普通话还有其特有的声母,如表2所列.通过对比发现藏语相对普通话多出4个声母,但藏语声母系统缺少清擦音f[f]和h[x],藏族人通过借用其他音来发这两个音[6].例如,有时会将f[f]音发成[p h],有时会用藏语声母中的[h]来匹配普通话中的h[x],或者用浊擦音[ ]来发h[x].赵金灿[7]在调查中发现,藏语中的送气声母在双音节词中的后位会变成不送气,这个习惯导致他们学习普通话时声母被替换.因此,藏族人在学习 c z s c h z h s h 时会遇到较大困难,在普通话声母中还容易混淆p[p h]-b[p]㊁t[t h]-d表1㊀藏语和普通话共享的声母藏语汉语国际音标S AM P A藏语汉语国际音标S AM P A g g[k]g z z[t s]d z k k[k h]k c c[t s h]c j j[ ]d z`w w[w]w q q[ h]t s`x x[]s` d d[t]d s s[s]s t t[t h]t y y[j]y n n[n]n l l[l]l b b[p]b z h z h[ ]z h p p[p h]p c h c h[ h]c h m m[m]m s h s h[ ]s h 73第6期梁青青等:一个面向藏族学生双语教学的汉藏语料库建设表2㊀藏语和普通话各自特有的声母藏语国际音标S AM P A汉语国际音标S AM P A n g[ ]n g f[f]f n y[ɲ]n y h[x]x r[ᶎ]r r[ɻ]v h[h]hg y[c]k lk y[c h]k hl h[ɟ]l h [t]㊁k[k h]-g[k]㊁c[ʦh]-z[ʦ]㊁c h[ʦh]-z h[ʦ].1.2.2㊀韵母发音特征的区别藏语和普通话共享11个韵母,具体情况如表3所列,藏语34个特有韵母如表4所列.从表中可以发现,藏语和普通话的韵母差异比声母系统大.藏语中特有的鼻化元音是普通话中没有的,但是藏语中缺少了普通话中的复元音.另外,丰富的辅音韵尾是藏语韵母区别于普通话的另一个主要特征.表3㊀藏语和普通话共享的韵母藏语汉语国际音标S AM P A藏语汉语国际音标S AM P A a a[a]a a u a u[a u]a u o o[o]o a n g a n g[a ]a n i i[i]i e n g e n g[ə ]e n u u[u]u u n g o n g[u ]o n üü[y]y i n g i n g[i ]i n i e i e[iɛ]i e表4㊀藏语特有的韵母韵母国际音标韵母国际音标韵母国际音标韵母国际音标a a[a a]i m[i m]u u[u u]e n[e n] a g[a k]i n[i]u n[u n]o g[o k] a b[a p]i b[i p]e[e]o b[o p] a m[a m]i g[i k]e g[e k]o m[o m] a r[a r]i r[iɹ]e u[e u]o r[o r] a i l[ɛ]u g[u k]e b[e p]o i[⌀] a i n[ɛn]u b[u p]e m[e m]o o[o o] i i[i i]u m[u m]e r[e r]o i n[oõ] i u[i u]u r[u r]㊀㊀根据赵金灿等人的调查显示,藏族人在学习普通话时,容易发生偏误的韵母有:①把o[o]发音成u[u];②普通话中的e[ə],在藏族人中容易发成[ɛ],藏族人容易出现舌位的错误;③藏语中没有儿化音,因此,藏族人在在带儿化音的词中儿化音常常发音为零声母;④藏语中因缺乏普通化的o u[o u],常常与[u]混淆;⑤藏族人在学习a n [a n]㊁a n g[ɒ ]时容易将两者混淆;⑥藏族人在学习e n[ən]㊁i n[i n]时也极易出错.1.2.3㊀声调发音特征的区别藏语和普通话一样都是声调语言,不同的声调可以表达不同的语义,也可以表达不同的语法功能.对于声调的研究通常会用 五度值记调法 来表示不同的调音[8],藏语和普通话的调型调值如表5所列.表5㊀藏语和普通话的调型调值普通话声调普通话调值藏语声调普通话调值阴平55高平调44阳平35低升调13上声214低升降调132去声51高降调51通过对比发现,普通话的阴平调值高于藏语的高平调,二者的调值略有差异;普通话的去声和藏语的高降调在调型和调值上都一样.这两种语言的差别在升调和曲降调,普通话的阳平是中升调,而藏语是低升调,藏语调值整体比普通话要低.普通话的上声调值是214,属于中降升调,而与其对应的藏语调值是132,属于是低升降调.从83㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀兰州文理学院学报(自然科学版)㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀第37卷调值可以发现,普通话的上声是先降后升,而藏语的是先升后降,二者差异较大.因此,藏族人学习普通话声调的难点主要在于阳平和上声.1.3㊀文本语料设计本文主要从藏语和普通话在声母㊁韵母和声调上的主要差别出发来设计文本语料库.由于双语教学语料库既能对小学生普通话发音进行纠正,也能用来研究藏语的语音分析㊁韵律建模㊁语音转换和语音合成等,因此,该语料库应满足以下条件:(1)应尽可能覆盖汉语普通话中所有由声母㊁韵母和声调组合而成的音节;(2)藏语音节中的浊辅音和辅音韵尾在日常发音中经常被简化,进而会给藏族学生学习普通话发音造成一定影响.因此,在构建文本语料库中需要重点考虑对这种情况的覆盖;(3)需要考虑声调发生变化的情况,例如:由两个三声的字组成词时,第1个字通常会变为二声;一些词语及句子中存在声调变成轻声的情况.基于以上条件,结合小学阶段的科学课教材,通过对比普通话和藏语在声韵母㊁声调㊁语调㊁节律㊁语速等方面的异同,设计面向藏族学生学习普通话的双语教学文本语料[9],语料库要包含单字㊁词组和连续语句.单字要包含藏语和普通话里面所有的声韵母组合以及不同声调组合;词组需要包含所有不同声调组合的词语;连续语句要包含陈述句㊁祈使句㊁疑问句等不同句型.最后,我们构建单字500字㊁双字词1000词㊁三字词400词和语句800句4种藏语的文本语料.以下为设计的4种藏语的文本语料实例.单字:(我)(叶)(大);双字词:(科学)(今天);三字词:(大自然);(温度计);语句:(水都到哪儿去了?);(校园里的植物);(今天天气怎么样?).2㊀语音语料录制选择甘南州以普通话为主要教学语言的合作第一小学的藏族学生录制藏语,录制藏语的学生既会说藏语,也会说普通话,录制普通话的汉族学生只会说普通话.最后,从一到六年级,每个年级挑选10名学生,5名藏族学生和5名汉族学生,共60名学生,其中男生28名,女生32名,录制全部文本语料.所有的语音语料都是在专门的录音环境中通过专业的录音设备录制的.录音设备采用高保真话筒和外置声卡,保证音频采集质量,利用笔记本电脑安装的C o o l E d i t 软件进行音频录制.录音过程中C o o l E d i t 软件可以实时显示语音波形,根据波形幅值大小的变化来保证录音人最佳音量和语速,这样可以最大限度避免反复录制,保证录音质量.最后录制好的语音语料以单声道㊁16位采样精度㊁44.1k H z 采样频率保存为WA V 格式的文件.从录制的具体内容来看,首先录制了单字,单字简单,录制时不易出错;然后录制了双字和三字,词语在朗读的时候会有变调的情况,需要录音人仔细斟酌;最后录制了语句,语句较长,需要把控好语速和语调.录音的音频总时长大约为8h ,为了使用方便,后期通过专门的音频软件C o o l E d i t 对所有的音频文件进行编辑切分,并保存为对应的文件.对于单字㊁二字词和三字词,根据字数分类,分别保存为对应文件;一个语句保存为一个文件,并按照类别进行编号.3㊀数据集标注普通话和藏语都是音节作为最小发音单位,阅读㊁分析也都以音节为单位,因此要将双字词㊁三字词和句子切分成单个音节,标注出每个音节的起止位置,得到每个音节的时长.普通话和藏语每个音节的基本发音都由声母㊁韵母和声调决定,根据这些语音特征,本文采用国际上通用语音标注软件P r a a t ,对语料库进行标注[10].其标注分为5个层级:第1层为l i n e,表示汉字标注;第2层是p i n y i n ,是语音针对汉语拼音的标注;第3层为P h o n e 层,利用国际上通用的机读音标方案S AM P A 来标注音素;第4层为m i s t a k e 层,标注可能的发音偏误信息;第5层为t o n e 层,标注声调信息.汉语具体标注的实例如图3所示,具体标注说明如表6所列.对标注过的语料编写脚本程序,将标注好的内容按照和语音文件一一对应的关系写入.T e x GG r i d 文件,里面包含了标注的所有层级信息.最后通过P r a a t 软件自动提取基频值和共振峰,以93第6期梁青青等:一个面向藏族学生双语教学的汉藏语料库建设供后续分析使用.图3㊀汉语标注实例表6㊀标注符号说明示例标注层级标注符号举例说明L i n e汉字北风p i n yi n 汉语拼音s h u o p h o n e S AM P A 转写声母s h 转写m i s t a k e 声母㊁韵母㊁声调e n gt o n e调值(轻声不标注)51表示去声4㊀结语本文主要介绍了如何构建一个面向藏族学生在双语教学中学习普通话发音评估研究的语料库.从语言学角度对比分析藏语和标准普通话的发音特征,归纳总结出藏语语者普通话的发音特征.基于此设计文本语料,录制语音语料.用P r a a t 软件对录制好的语音语料进行5层标注,并将其独立保存为.T e x t G r i d 格式文件,获得该语音信息的相关特征.所构建的语料库既可以用来研究藏语计算机辅助发音系统设计,也可以用来进行藏语的实验语音学研究.今后将会从覆盖性㊁全面性㊁质量和可重复使用性等指标,对该语料库进行评估.参考文献:[1]李荣.中国语言地图集[M ].香港:朗文出版社,1987.[2]国家中长期教育改革和发展规划纲要(2010G2020年)[E B /O L ].(2010G07G29).h t t p ://w w w.g o v .c n /j r z g /2010G07/29/c o n t e n t _1667143.h t m .[3]张劲松,高迎明,解焱陆.基于D N N 的发音偏误趋势检测[J ].清华大学学报(自然科学版),2016,56(11):1220G1225.[4]周雁,西绕多吉.面向藏语声纹识别的语料库建设[J ].计算机工程与科学,2008,40(11):2080G2084.[5]根呷翁姆.藏语的方言分类及其特点[J ].中国语言学研究,2022(2):247G261.[6]珠杰,欧珠,格桑多吉,等.藏文音节规则库的建立与应用分析[J ].中文信息学报,2013,27(2):103G111.[7]赵金灿.卫藏方言区藏族汉语普通话语音特征分析[D ].昆明:云南师范大学,2007.[8]G U O W T ,Y A N G H W ,P E ID.P r o s o d y co n v e r s i o n o f c h i n e s en o r t h w e s t m a n d a r i nd i a l e c tb a s e do nf i v e d e g r e e t o n em o d e l [J ].I n t e r n a t i o n a l J o u r n a l o fD i gi t a l C o n t e n t T e c h n o l o g y a n d I t s A p p l i c a t i o n s ,2012,6(17):323G332.[9]HU W ,Q I A N Y ,S O O N GFK.An e wn e u r a l n e t w o r kb a s e d l o g i s t ic r e g r e s s i o n c l a s s i f i e r f o r i m p r o v i n g m i s Gp r o n u n c i a t i o nde t e c t i o no fL 2l a n g u a ge l e a r n e r s [C ]//C h i n e s eS p o k e nL a n g u a g eP r o c e s s i n g (I S C S L P ),S i n Gg a p o r e ,S e pt o m b e r 12G14,2014.N e w Y o r k :I E E E ,2014:245G249.[10]徐世鹏,杨鸿武,王海燕.面向藏语语音合成的语音基元自动标注方法[J ].计算机工程与应用,2015,51(6):199G203.[责任编辑:李㊀岚]04㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀兰州文理学院学报(自然科学版)㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀第37卷。

藏汉跨语言话题模型构建及对齐方法研究

藏汉跨语言话题模型构建及对齐方法研究

藏汉跨语言话题模型构建及对齐方法研究孙媛;赵倩【摘要】In contrast to the,To discover synchronication topics associated in Tibetan and Chinese social networking,we build LDA topic model on the basis of Tibetan-Chinese comparable corpus,with word2vec as the input and Gibbs sampling to estimate model parameters.To align Tibetan topics and Chinese topics,we calculate the similarity between Tibetan and Chinese topics according to the distribution of text-topic disctrbution via a voting method based on cosine distance,Euclidean distance,Hellinger distance and KL distance.%如何获取藏文话题在其他语种中的相关信息,对于促进少数民族地区的社会管理科学化水平、维护民族团结和国家统一、构建和谐社会具有重要意义.目前大多数研究集中在英汉跨语言信息处理方面,针对藏汉跨语言研究较少.如何根据藏语、汉语的特点,并结合目前藏语信息处理的研究现状,实现藏汉多角度的社会网络关系关联,同步发现关注话题并进行数据比较,是迫切需要解决的问题.该文在藏汉可比语料的基础上,利用词向量对文本词语进行语义扩展,进而构建LDA话题模型,并利用Gibbs sampling进行模型参数的估计,抽取出藏语和汉语话题.在LDA话题模型生成的文档-话题分布的基础上,提出一种基于余弦相似度、欧氏距离、Hellinger距离和KL距离四种相似度算法的投票方法,来实现藏汉话题的对齐.【期刊名称】《中文信息学报》【年(卷),期】2017(031)001【总页数】10页(P102-111)【关键词】藏汉跨语言;话题抽取;LDA;话题对齐【作者】孙媛;赵倩【作者单位】中央民族大学信息工程学院,北京100081;国家语言资源监测与研究中心少数民族语言分中心,北京100081;中央民族大学信息工程学院,北京100081;国家语言资源监测与研究中心少数民族语言分中心,北京100081【正文语种】中文【中图分类】TP391我国是一个统一的多民族国家,由56个民族组成,有着丰富的语言资源。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

(19)中华人民共和国国家知识产权局
(12)发明专利申请
(10)申请公布号 (43)申请公布日 (21)申请号 201910368324.3
(22)申请日 2019.05.05
(71)申请人 西北民族大学
地址 730030 甘肃省兰州市城关区西北新
村1号
(72)发明人 万福成 
(74)专利代理机构 西安研创天下知识产权代理
事务所(普通合伙) 61239
代理人 杨凤娟
(51)Int.Cl.
G06F 17/28(2006.01)
G06F 17/27(2006.01)
(54)发明名称
一种面向藏汉机器翻译的藏语句法语料库
的构建方法
(57)摘要
本发明公开了一种面向藏汉机器翻译的藏
语句法语料库的构建方法,包括以下步骤:A、将
具有句对齐结构的平行语料库中的藏语句子进
行词性标记;B、利用词对齐工具将藏语句子中的
词汇进行词对齐,形成藏语词、汉语词对齐匹配
形式;C、利用树库制作工具,将具有词性标记和
词对齐信息的藏语词逐个进行短语标记;D、运用
自增模式,扩展藏语句法语料库。

本发明能够解
决藏语句法语料库稀缺的问题,从而提高翻译质
量。

权利要求书1页 说明书3页CN 110110336 A 2019.08.09
C N 110110336
A
权 利 要 求 书1/1页CN 110110336 A
1.一种面向藏汉机器翻译的藏语句法语料库的构建方法,其特征在于,包括以下步骤:
A、将具有句对齐结构的平行语料库中的藏语句子进行词性标记;
B、利用词对齐工具将藏语句子中的词汇进行词对齐,形成藏语词、汉语词对齐匹配形式;
C、利用树库制作工具,将具有词性标记和词对齐信息的藏语词逐个进行短语标记,并逐层进行合并直至形成一个完整的句法树;
D、运用自增模式,扩展藏语句法语料库。

2.根据权利要求1所述的一种面向藏汉机器翻译的藏语句法语料库的构建方法,其特征在于,所述步骤B中将藏语句子中的词汇进行词对齐的方法包括以下步骤:
a、运用词对齐工具训练双语句对齐平行语料库;
b、以词对齐中间结果作为藏语汉语词匹配形式,并形成具有类似括号匹配的形式;
c、将词对齐的结果以及词性标注的结构统一处理成具有括号匹配形式的内容,提供下一步处理作为输入。

3.根据权利要求1所述的一种面向藏汉机器翻译的藏语句法语料库的构建方法,其特征在于,所述步骤C中逐层进行合并直至形成一个完整的句法树的方法包括以下步骤:
a、将具有括号匹配形式的带有词性标记和词对齐信息的各个单元输入到树库制作工具中;
b、以词性为基础,逐个将以词为单元的内容合并,并以短语标记结尾;
c、逐个合并短语结构标记为新的短语结构标记,最终合并成一个句子,并标注以句子标记结尾。

4.根据权利要求1所述的一种面向藏汉机器翻译的藏语句法语料库的构建方法,其特征在于,所述步骤D中运用自增模式扩展藏语句法语料库的方法包括以下步骤:
a、将人工制作的藏语句法语料库作为训练语料库,运用BerkerleyParser句法分析器作为句法分析工具;
b、解码测试语料库,得到待人工校对的藏语句法树;
c、人工校对藏语句法树的结果,将校对后的结果加入到训练语料库中,继续步骤a,以这种模式扩展藏语短语句法树库。

2。

相关文档
最新文档