基于平行语料库的文献术语抽取研究

合集下载

基于语料库的对外汉语教学领域术语提取

基于语料库的对外汉语教学领域术语提取作者：***来源：《中国科技术语》2024年第01期摘要：文章介绍了自动提取对外汉语教学领域术语的方法。

以对外汉语教学领域文本为目标文本，遵循主题取向、语料科学性、样本代表性、规模有限性等原则，建立专用语料库，并对其进行分词标注等加工；将统计学和语言学规则相结合，引用C-value方法计算术语度值，探索该领域内不同长度术语的发现、辨识及提取的“混合方法”（hybrid solution），最终建立对外汉语教学术语集，其中包含单词型术语238个，两词术语375个，三词术语121个和50个由4～6个单词组成的长术语。

关键词：专用语料库；术语提取；对外汉语教学；对外汉语教学术语集；C-value算法中图分类号：H083；TP391 文献标识码：A DOI：10.12339/j.issn.1673-8578.2024.01.002Corpus-Based Term Extraction in Field of Chinese Teaching as a Foreign Language//LU YixinAbstract：This paper introduces a method to extract terms of Chinese teaching as a foreign language. We take the text in the field of Chinese teaching as a foreign language as the target text，follow the principles of subject orientation， scientific corpus， and limited sample representation to establish a specialized corpus， and process it such as word segmentation and POS tagging. We combine statistical and linguistic rules， use the C-value method to calculate the term degree value，and explore the “hybrid solution” to find， define and extract terms of different lengths in this field. Finally a terminology base for Chinese teaching as a foreign language is established， including 238 single word terms， 375 two word terms， 121 three word terms， and 50 long terms （consisting of 4-6 words）.Keywords： specialized corpus; term extraction; Chinese teaching as foreign language; terminology base for Chinese teaching; C-value algorithm收稿日期：2023-07-09 修回日期：2023-08-25 網络出版日期：2023-11-16基金项目：“中国外语教育基金”项目“基于语料库的汉俄对外语言教学术语词典编纂方式探究”（ZGWYJYJJ11A102）阶段性成果0 引言术语作为描述和传播科学概念、定义和规律的基本要素，集中体现和负载了一个学科领域的核心知识，是人类科学知识在语言中的结晶，也是促进学科建设的有力工具。

教学型汉英口语平行语料库语料研究

教学型汉英口语平行语料库语料研究1. 引言1.1 研究背景随着全球化的推进，汉英口语交流在教育、商务、科技等领域中变得越来越频繁。

在这种背景下，教学型汉英口语平行语料库的建立和研究变得尤为重要。

目前，虽然存在一些通用的口语平行语料库，但由于教学型口语在语言理解和应用方面具有特殊性，因此有必要针对教学型汉英口语建立专门的平行语料库。

这将有助于教师在教学过程中更好地辅助学生进行口语表达，提高口语交流能力。

当前存在的教学型汉英口语平行语料库往往过于简单或者过于专业化，无法满足广泛教学需求。

有必要对现有的教学型汉英口语平行语料库进行深入分析，挖掘其中的优点并加以改进，以进一步提高教学效果。

本研究旨在探讨教学型汉英口语平行语料库的建立与应用，为教学型口语的提升提供理论支持和实践指导。

通过对现有教学型汉英口语平行语料库的研究，我们将更好地了解其发展现状、面临的挑战以及未来的发展趋势，为口语教学领域的发展贡献力量。

1.2 研究目的Overall, the goal of this research is to contribute to the field of language education by highlighting the potential benefits ofusing a Chinese-English parallel corpus in the classroom. Through this investigation, we hope to uncover new perspectives on language learning and teaching strategies, ultimately enhancing the learning experience for students of Chinese and English.1.3 研究意义教学型汉英口语平行语料库的研究意义体现在以下几个方面：1.促进语言教学与学习：通过构建教学型汉英口语平行语料库，可以为教师和学生提供更丰富、更真实的语言素材，帮助学生更好地理解和掌握汉语和英语口语表达方式，提高他们的口语交流能力。

基于平行语料库的《论语》核心哲学术语翻译研究

基于平行语料库的《论语》核心哲学术语翻译研究本文在自建《论语》与理雅各、韦利和许渊冲英译本的平行语料库基础上，探讨《论语》核心词“仁”“义”“礼”“智”“信”的英译。

通过对这三个英译本进行对比，分析译者的文化身份与造成这些差异的联系，指出三位译者的生活时代不同以及教育背景不同势必会在《论语》英译本中留下不同的时代烙印。

标签：论语平行语料库哲学术语翻译一、引言随着计算机语料库技术的发展，语料库语言学已经从方法论和语言研究手段成长为一门完整的学科，既有纯理论研究，也有应用研究（Laviosa，2002）。

基于语料库的翻译研究，我们可称为语料库翻译学，其主要含义是：以语言理论和翻译理论为指导，以概率和统计为手段，以大规模双语真实语料为对象，采用语内对比与语际对比相结合的方法，对翻译现象进行历时或共时的描述和解释，探索翻译的本质（王克非、黄立波，2007）。

可以说，基于语料库的研究方法的出现为翻译研究带来了新的体验。

《论语》作为儒家最具代表性的著作，阐释了儒家思想的精髓，在我国文学史和思想史上具有极其重要的地位，在世界思想文化中也起着举足轻重的作用，因此，研究《论语》核心词在英译本中的翻译对于中西文化的交流和传播极具意义。

《论语》整体围绕着“仁”“义”“礼”“智”“信”这五个重要的哲学术语。

随着翻译研究方法的日趋多元化，翻译研究也越来越注重文化传承和弘扬。

而语料库方法的应用就为翻译研究提供了新视角，同时也进一步促进了翻译研究。

本文主要基于平行语料库，针对《论语》中的核心哲学术语在理雅各、韦利以及许渊冲这三个英译本中的翻译，对研究对象进行定量与定性研究。

以三者作为比较对象，指出他们各自的特色和不足之处，探究这些翻译差异出现的原因。

两千多年来，《论语》不断向周边地区传播，在亚洲形成了一个儒家文化的扩散地。

17世纪的来华传教士曾将《论语》《大学》等译为拉丁文并在欧洲出版，为儒家思想在欧美等西方发达国家的流传奠定了基础，东西方文明开始碰撞出火花。

基于平行语料库的《论语》核心哲学术语翻译研究

基于平行语料库的《论语》核心哲学术语翻译研究【摘要】本研究基于平行语料库，探讨了《论语》核心哲学术语的翻译研究。

引言部分介绍了研究背景和目的。

正文首先阐述了平行语料库的概念和应用，然后提取整理了《论语》核心哲学术语，探讨了翻译方法和策略，并进行了语料库翻译实践案例分析。

最后对翻译效果进行评估。

结论部分总结了研究成果，并展望了未来研究方向。

通过本研究，不仅可以为《论语》的翻译提供参考和借鉴，同时也为基于平行语料库的翻译研究提供了新的思路和方法。

【关键词】平行语料库、《论语》、核心哲学术语、翻译研究、研究背景、研究目的、概念、应用、提取、整理、翻译方法、策略、实践案例、效果评估、研究成果、未来展望。

1. 引言1.1 研究背景《论语》作为中国传统文化的经典之一，在国内外具有重要的影响力。

由于语言和文化的差异，对《论语》的翻译一直是一个具有挑战性的问题。

随着翻译领域的不断发展和技术的进步，利用平行语料库进行翻译研究成为了一种新的解决方案。

平行语料库是指对照的文本数据集合，其中包括源语言和目标语言之间的对应关系。

基于平行语料库的翻译研究已经在许多领域取得了显著的成果，但在《论语》这样的古典文化经典中的核心哲学术语翻译方面仍然存在一定的挑战。

本研究旨在通过对《论语》中的核心哲学术语进行提取和整理，探讨翻译方法和策略，并进行实践案例分析，从而评估翻译效果，为《论语》的翻译工作提供新的思路和方法。

通过这一研究，我们希望能够为古代中国哲学文化的传播和交流做出贡献，同时也为平行语料库在翻译研究中的应用提供一个具体的案例。

1.2 研究目的《论语》作为中国传统文化的重要经典之一，在全球范围内具有广泛的影响力。

由于语言和文化的差异，将《论语》中的核心哲学术语准确翻译成其他语言面临着一定的挑战。

本研究旨在基于平行语料库的方法，对《论语》中的核心哲学术语进行翻译研究，探讨如何准确传达原文的思想和内涵，促进不同文化之间的交流与理解。

基于平行语料库的双语协同中文关系抽取

ＧＵＯＢｏ，ＦＥＮＧＸｕｐｅｎｇ，ＬＩＵＬｉｊｕｎ，ＨＵＡＮＧＱｉｎｇｓｏｎｇ，。
（１．ＦａｃｕｌｔｙｏｆＩｎｆｏｒｍ￣ｔｏｉｎＥｎｇｉｎｅｅｒｉｎｇａｎｄＡｕｔｏｍａｔｉｏｎ，ＫｕｎｍｉｎｇＵｎｉｖｅｒｓｉｔｙｆＳｏｃｉｅｎｃｅａｎｄＴｅｃｈｎｏｌｏｇｙ，ＫｕｎｍｉｎｇＹｕｎｎａｎ６５０５００，Ｃｈｉｎａ；２．ＥｄｕｃａｔｉｏｎａｌＴｅｃｈｎｏｌｏｇｙａｄｎＮｅｔｗｏｒｋＣｅｎｔｅｒ，ＫｕｎｍｉｎｇＵｎｉｖｅｒｓｉｔｙｆＳｏｃｉｅｃｅｎａｎｄＴｅｃｈｏｌｎｏｇｙ，ＫｕｎｍｉｎｇＹｕｎｎａｎ６５０５００，Ｃｈｉａ；ｎ３．ＹｕｎａｎｎＰｒｏｖｉｎｃｉａｌＫｅｙＬａｂｏｒａｔｏｒｙｆＣｏｏｍｐｕｔｅｒＴｅｃｈｎｏｌｏｇｙＡｐｐｌｉｃａｔｉｏｎｓ（ＫｕｎｍｉｎｇＵｎｉｖｅｒｓｉｔｙｆｏＳｃｉｅｎｃｅａｄ￣ｃｎｈｏｌｎｏｇｙ），ＫｕｎｍｉｎｇＹｕｎａｎｎ６５０５００，Ｃｈｉｎａ）
郭勃，冯旭鹏，刘利军，黄青松

基于平行语料库的学术语篇摘要中元话语汉译英研究

形式多样。译文中的一些长句，无论其子句前后关系如何，译者都以关联词ａｎｄ连接。与对应原生汉语相比，翻译文本中的过渡语也显著多用。如前所述，英语的关联词外显，而汉语的连贯却内隐，包含在意义之中。因此，汉语中过渡语一般会少于英语。在汉译英中，译者也意识到了英汉之间连接方式的差异，因此，在
堕墼
Ｎｏ．１１ＴＩＭＥＥＤＵＣＡＴＩＯＮＮｏｖｅｍｂｅｒ
基于平行语料库的学术语篇摘要中元话语汉译英研究
阮先玉胥瑾
摘要：本文基于平行语料库研究元话语在学术语篇摘要汉译英中的特点。通过分别与汉语源语文本和原生英
要汉译英文本中的元话语使用频率和分布规律；比较其与汉语源
语文本、英语原生文本的差异，并简要描述其翻译策略的特征。
２研究方法
交际元话语表明作者关注读者是否参与话语理解，并组织语言、构建读者友好型的话语环境。英语是形合语言，汉语是意合语言，以这两种语言写就的语篇必然在交际元话语的使用上存在差异。由汉语翻译为英语的学术语篇则可能受两种语言特点的影响，从而产生自己的独特性。
１引言
的特殊性。
４讨论
元话语指语篇中用于协商互动意义的自我投射表达。元话语一方面协助作者表述命题内容，另一方面使读者作为某一特定语言社团成员参与理解过程，是任何话语中都不可或缺的语言要素ｎ。目前，国内对元话语在学术体裁中的英汉对比研究已有一定成果，对不同母语背景的学者的英语学术论文中的元话语对比研究也有一定进展。但是基于平行语料库研究元话语翻译尚属空白。为了加深认识元话语在翻译文本中的使用特点，我们有必要在平行语料库的基础上对其汉译英展开深入研究。本文拟以石油学术论文为例，自建小型平行语料库展开研究，侧重翻译语言的微观层面，结合现有语料检索和分析技术，统计此类论文摘

教学型汉英口语平行语料库语料研究

教学型汉英口语平行语料库语料研究一、教学型汉英口语平行语料库简介教学型汉英口语平行语料库是一种专门为口语教学设计的语料库，它包含了大量的汉语和英语口语对照的语料，可以为学习者提供丰富的口语实践材料。

在教学型汉英口语平行语料库中，通常会包括各种日常口语对话、情景会话、口语练习题等内容，以满足学习者在口语交流方面的需求。

这种语料库还能够帮助学习者比较汉语和英语之间的口语表达方式，促进语言对比和语言习得。

二、教学型汉英口语平行语料库的语料研究内容1. 口语对话的语料分析教学型汉英口语平行语料库中的口语对话是学习者进行口语练习的重要素材，因此需要对这部分语料进行深入的分析研究。

语料分析可以包括对口语对话的话题、语言风格、语用习惯等方面的研究，以便于为口语教学提供恰当的语料资源。

2. 口语练习题的设计与评估教学型汉英口语平行语料库中通常还会包括各种口语练习题，这些练习题的设计对于口语教学的有效性起着重要的作用。

因此需要对口语练习题的设计原则、难易度、语言情境等方面进行评估和研究，以保证这些练习题能够符合学习者的口语水平和学习需求。

三、教学型汉英口语平行语料库的语料研究方法1. 语料采集语料采集是教学型汉英口语平行语料库语料研究的基础工作。

在语料采集过程中，可以通过录音、采访、调查等方式获取口语对话和练习题的语料，同时还可以收集学习者的口语表达数据，以丰富语料库的内容。

2. 语料整理与分类采集到的口语语料需要进行整理与分类，以便于后续的语料分析和研究。

在整理与分类的过程中，可以依据口语对话的话题、语言风格、语用习惯等特点进行分类，同时还可以根据口语练习题的难易度、语言情境等进行整理。

3. 语料分析与评估对整理分类好的口语语料进行深入分析和评估是教学型汉英口语平行语料库语料研究的重点工作。

在分析与评估过程中，可以使用语言学、教育学、心理学等学科的理论和方法，对口语语料的特点、难点、习得路径等进行科学研究。

2. 口语教学方法的探索教学型汉英口语平行语料库可以为口语教学方法的探索提供重要的参考依据。

基于平行语料库的双语术语抽取系统研究

基于平行语料库的双语术语抽取系统研究蒋俊梅【期刊名称】《现代电子技术》【年(卷),期】2016(039)015【摘要】针对双语术语抽取系统在处理多种语言时大量耗费人力、财力、物力等的局限性问题，提出基于平行语料库的双语术语抽取方法，同时，分析此方法的不足，结合多种方法进行改善。

在此基础上开发了一个双语术语抽取系统，并通过实验分析了相似度函数、语料规模以及改进后方法对术语抽取结果的影响，而且该系统已经作为商品化软件投入实际应用。

%Since the bilingual terminology extraction system exists the limitation problems of consuming massive manpower, financial resources and material resources while treating with multilingual languages,the bilingual terminology extraction method based on parallel corpus is put forward. The shortcomings of this method are analyzed,and improved with a variety of methods. On the basis of the above,a bilingual terminology extraction system was developed. The similarity function,corpus scale,and the effect of the improved method on terminology extraction results are analyzed with the experiment. The extraction system was put into practical application as a commercial software.【总页数】4页(P108-111)【作者】蒋俊梅【作者单位】河南师范大学外国语学院，河南新乡 453002【正文语种】中文【中图分类】TN911-34;TP391.7【相关文献】1.基于平行语料库的文献术语抽取研究 [J], 钟玉峰2.基于英汉平行语料库术语词典的自动抽取 [J], 梁铭3.平行语料库中双语术语词典的自动抽取 [J], 孙乐;金友兵;杜林4.基于英汉平行语料库的术语组块自动抽取 [J], 杨福义5.基于英汉平行语料库术语词典的自动抽取 [J], 梁铭因版权原因，仅展示原文概要，查看原文内容请购买。

平行语料库文献综述

平行语料库文献综述
平行语料库是指以两种或多种不同语言写成的文本之间存在对应关系的语料库。

平行语料库的建立对于机器翻译、跨语言信息检索等自然语言处理任务具有重要意义。

在文献综述中，我们可以从以下几个方面来全面了解平行语料库的相关研究和应用：
1. 平行语料库的构建方法，文献综述可以介绍平行语料库的构建方法，包括基于双语对齐的方法、基于互联网的抓取方法、基于翻译记忆库的获取方法等。

不同的构建方法各有优缺点，可以从实验效果、数据规模、成本等方面进行比较和分析。

2. 平行语料库在机器翻译中的应用，可以对平行语料库在统计机器翻译、神经网络机器翻译等不同类型的机器翻译模型中的应用进行综述。

可以介绍平行语料库对机器翻译模型训练的影响，以及不同规模、不同领域的平行语料库对机器翻译效果的影响。

3. 平行语料库在跨语言信息检索中的应用，可以介绍平行语料库在跨语言信息检索中的利用情况，包括基于翻译模型的跨语言检索方法、基于双语对齐的检索方法等。

可以综述不同类型的平行语料库对跨语言信息检索效果的影响。

4. 平行语料库的质量评估和改进方法，可以综述现有的平行语料库质量评估方法，包括双语对齐质量、翻译质量等评估指标，以及改进平行语料库质量的方法，如基于自动对齐的质量改进方法、基于人工校对的质量改进方法等。

5. 平行语料库在其他自然语言处理任务中的应用，可以介绍平行语料库在句子对齐、多语言信息抽取、跨语言情感分析等其他自然语言处理任务中的应用情况。

通过对以上几个方面的综述，可以全面了解平行语料库的研究现状、应用领域和未来发展方向。

基于平行语料库的双语术语抽取系统研究

基于平行语料库的双语术语抽取系统研究作者：蒋俊梅来源：《现代电子技术》2016年第15期摘要：针对双语术语抽取系统在处理多种语言时大量耗费人力、财力、物力等的局限性问题，提出基于平行语料库的双语术语抽取方法，同时，分析此方法的不足，结合多种方法进行改善。

关键词：平行语料库；词对齐；共现矩阵；相似度函数；双语术语抽取中图分类号： TN911⁃34； TP391.7 文献标识码： A 文章编号： 1004⁃373X（2016）15⁃0108⁃04Abstract： Since the bilingual terminology extraction system exists the limitation problems of consuming massive manpower， financial resources and material resources while treating with multilingual languages， the bilingual terminology extraction method based on parallel corpus is put forward. The shortcomings of this method are analyzed， and improved with a variety of methods. On the basis of the above， a bilingual terminology extraction system was developed. The similarity function， corpus scale， and the effect of the improved method on terminology extraction results are analyzed with the experiment. The extraction system was put into practical application as a commercial software.Keywords： parallel corpus； word alignment； co⁃occurrence matrix； similarity function；bilingual terminology extraction0 引言术语是人类智慧和知识的结晶，包含着丰富的信息，双语术语自动抽取任务早已引起学术界和工业界广泛的关注[1]。

基于中英平行专利语料的短语复述自动抽取研究

基于中英平行专利语料的短语复述自动抽取研究
李莉，刘知远，孙茂松
（清华大学计算机系，智能技术与系统国家重点实验室；清华信息科学与技术国家实验室（筹），北京１０００８４）
摘要：短语复述自动抽取是自然语言处理领域的重要研究课题之一，已广泛应用于信息检索、问答系统、文档分类等任务中。而专利语料作为人类知识和技术的栽体，内容丰富，实现基于中英平行专利语料的短语复述自动抽
取对于技术主题相关的自然语言处理任务的效果提升具有积极意义。该文利用基于统计机器翻译的短语复述抽
取技术从中英平行专利语料中抽取短语复述，并利用基于组块分析的技术过滤短语复述抽取结果。而且，为了处理对齐错误和翻译歧义引起的短语复述抽取错误，我们利用分布相似度对短语复述抽取结果进行重排序。实验表明，基于统计机器翻译的短语复述抽取在中英文上准确率分别为４３．２Ｏ和４３．６Ｏ，而经过基于组块分析的过滤技术后准确率分别提升至７５．５Ｏ和５２．４Ｏ。同时，利用分布相似度的重排序算法也能够有效改进抽取效果。

基于 Web 的中英文术语自动抽取技术

作者签名：日期：
导师签名：日期：
摘
要
摘
要
术语广泛的存在于科技文档中，如何提取、分析、理解以至翻译这些术语成为现在自然语言处理的一个研究方向。随着当今世界信息量的急剧增加和国际交流的日益频繁，计算机网络技术迅速普及和发展，语言障碍愈加明显和严重，对机器翻译的潜在需求也越来越大。双语术语散落在这些海量的互联网文本数据中，靠人工进行检测和提取是不可想象的。本文所要解决机器翻译中如何快速地对网络文本进行处理，从中抽取出较为准确的术语中英文互译候选，以减轻人工筛选的工作量。目前，双语术语的研究一般是运用句法分析或者引入双语词典的方法，实现句子对齐，而后从对齐的句子运用算法，抽取互译词。而本文的基本思路是在无监督的情况下，利用网络上大量存在的中英文术语互译信息，达到自动抽取中英文术语候选的目的。我们通过对互联网上大量文本信息的观察，选取一类符合规则的文本，针对文本建立一个语言模板，运用网络爬虫，抓取网页生成网络文本语料库；而后，在 MapReduce 架构下对网络文本语料进行处理，抽取符合该语言模板规定的大量中英文词对；对抽取出来的大量中英文双语术语候选进行预处理，过滤掉部分噪声；对预处理后的数据运用多种优化的 LCS 算法加以抽取，生成中英文双语术语互译词典，并对结果加以评测。本文的研究工作主要包括在以下几个方面： 1. 在 MapReduce 架构下，对抓取的文本语料库数据快速处理，以获得所需文本数据资源。 2. 设计了一套无监督的双语术语自动抽取软件系统，能较为及时准确地发现并更新术语库。 3. 基于 LCS 算法提出并建立了两种将规则和统计的方法相结合的双语术语自动抽取模型。 4 用 CRFs 辅助优化 LCS 算法，对比试验结果，分析 CRFs 分词对 LCS 算法的影响。关键词：术语自动抽取机器翻译中文信息处理自然语言处理

基于平行语料库的中医典籍基本概念英译研究的开题报告

基于平行语料库的中医典籍基本概念英译研究的开题报告题目：基于平行语料库的中医典籍基本概念英译研究研究背景和意义：中医典籍是我国传统医学的重要文献，对研究中医理论、临床应用等领域具有重要的价值。

然而，这些典籍的多数是用古汉语书写的，对于外语研究者来说，理解和翻译这些文献是十分复杂和困难的。

随着计算机技术的不断发展，平行语料库作为一种新的研究方法被越来越多地应用于语言学、翻译学、计算语言学等领域。

基于平行语料库，可以更加准确地理解和翻译古汉语文献。

因此，本研究拟基于平行语料库，对中医典籍的基本概念进行英语翻译的研究。

这对于中医文化的传播和推广，以及中医理论的全球化应用，具有重要意义。

研究内容和方法：本研究将选取多部具有代表性的中医典籍作为研究对象，包括《黄帝内经》、《伤寒杂病论》、《金匮要略》等。

首先，将建立中英文平行语料库，包括中医典籍的原文和相应的英文翻译。

接下来，将挖掘中医典籍中的基本概念，如“气”、“血”、“脉”、“经络”等。

然后，对这些基本概念在中英两种文化中的语义及其差异进行分析。

最后，将针对这些基本概念进行英语翻译，尝试找到最为恰当和准确的表达方式，使翻译更贴近中医理论本身的内在意义。

研究方法主要包括文献研究、平行语料库分析、语义分析等。

预期成果：本研究将挖掘中医典籍中的基本概念，在中英两种文化中进行语义对比分析，并就这些基本概念的英语翻译进行研究，旨在探索一种更加恰当和准确的翻译方式。

研究结果可作为中医典籍翻译的参考，使中医理论更好地被各国人民所理解和应用。

同时，本研究还可为平行语料库的构建方法和应用实践提供借鉴和参考。

关键词：平行语料库；中医典籍；基本概念；英语翻译。

基于平行语料库的汉英文学翻译研究与词典编纂_以_红楼梦_吃_熟语及其英译为例

1. 引言1980年，COBUILD 项目的正式启动标志着“语料库辞典学”的兴起，随之带动的“牛津系列”词典、“朗文系列”词典以及90年代出版的“柯林斯系列”辞典都是语料库词典学的直接产物（李德俊，2006；Rundell ，2009）。

在国外，语料库已成为现代辞书编纂重要的资源支持和技术手段，应用语料库、引入语料库分析方法是辞书编纂的发展趋势(王永耀，2010:111)，但是基于平行语料库的汉英双语词典至今还没有产品问世，这无疑是汉英翻译及汉英词典编纂领域的遗憾。

无论是汉英文学翻译还是词典编纂，其转换准则“大体一致”，即“尽可能准确传递原文的信息内容”（姜秋霞，2001:56）。

但从认知结构上，双语词典的编纂过程始终以词为核心；而文学翻译始终以语篇为着眼点。

从语义层面上，双语词典编纂的任务是将源语词典的内容转换为目的语；文学翻译的使命“主要体现其语用色彩，传递形象意义”（同上），同时创造新词新义。

词典本身的历时局限性要求词典必须及时跟进并反映语言使用的现实，而文学文本是记录语言使用和语言变迁的活的宝藏，当之无愧地成为词典的重要参考和生命源泉。

就双语词典编纂而言，能否选取文本数量庞大、具有普遍语用代表性，且质量上乘的同源多译本双语对照语料，建立以词典编纂为目的的平行语料库，将是不容置疑的现实和挑战。

本文拟尝试在两者之间建立一所桥梁，将基于语料库的汉英文学翻译研究与汉英词典编纂进行有机的结合。

基于平行语料库的同源多译本语料，尤其是具有“中华文化百科全书”之称的《红楼梦》及其近两个世纪以来国内外著名翻译家们对其钟情数十载呕心沥血之译作，为汉英辞典编纂提供了同语境下横向拓展和纵向延伸的空间，使广大翻译工作者和辞典参阅者可以有幸“站在巨人的肩膀上”，看得更多更远。

钱厚生（2001：37）指出：“真正贴切的对应词大都存在于好的翻译材料之中, 值得大力搜寻。

”本文基于《红楼梦》汉英平行语料库的检索结果，以源语中103例引申义“吃”熟语以及其四个译本的翻译为例，尝试验证基于名家名译同源多译本平行库的汉英文学翻译研究对汉英词典编纂及汉英翻译实践的借鉴和反哺作用。

基于平行语料库的文献术语抽取研究

基于平行语料库的文献术语抽取研究钟玉峰【摘要】首先介绍文献术语的重要性和分布情况,归纳常用的文献术语抽取方法,进而提出一种从英汉平行语料库中自动抽取术语的算法.主要采用基于字符长度的改进的统计方法对平行语料进行句子级的对齐,并对英文语料和中文语料分别进行词性标注.统计已对齐和标注的双语语料中的名词和名词短语生成候选术语集.然后对每个英文候选术语计算与其相关的中文翻译之间的翻译概率.最后针对平行语料库《中华人民共和国著作权法实施条例》进行术语抽取实验.【期刊名称】《黑龙江工程学院学报（自然科学版）》【年(卷),期】2011(025)004【总页数】4页(P60-62,71)【关键词】术语抽取;平行语料库;算法;翻译【作者】钟玉峰【作者单位】黑龙江工程学院计算机科学与技术系,黑龙江哈尔滨150050【正文语种】中文【中图分类】TP391随着各学科的不断发展，文献术语也表现出飞速的变化，这种变化主要体现在词汇这个层面上，大量的新术语不断产生，一批旧的术语逐渐消亡。

作为自然语言处理领域的重要知识资源，文献术语[1]为特定领域的知识发现与研究提供了数据基础，反映了现代科学技术的发展轨迹与趋势，有利于衍生和扩展新的科学概念。

因此，为快速准确地从急剧增长的科技文献等自由文本中获取知识，基于动态更新语料库的术语抽取就显得很有必要。

但是单纯靠语言学专家抽取文献术语费时费力，很难形成规模。

所以，开发一种自动化方法来辅助术语抽取显得尤为必要，进而可为许多面向文献的应用提供重要语言学资源。

与文献检索相比，文献术语抽取在获取信息的准确性和概念描述的完整性上要求更高。

文献术语的抽取是信息抽取的重要研究内容之一，该研究对于构建术语知识库，编撰机器翻译词典和研究术语本体等方面具有重要意义。

1 文献中术语的分布情况专业文献中的术语分布主要有3种情况[2]：①术语处于特殊的位置，比如关键词和注释中的术语等；②在新出现的或作者认为比较新、比较难懂的术语后加上注释，并把注释用括号括起来。

基于平行语料库的专利摘要术语和词汇量化分析

学科探索
ＤｉｓｃｉｐｌｉｎｅｓＥｘｐｌｏｒａｔｉｏｎ
基于平行语料库的专利摘要
术语和词汇量化分析
孕诗占古
（重庆邮电大学外国语学院重庆４０００６５）
摘要谷歌专利（ＧｏｏｇｌｅＰａｔｅｎｔ）为广大用户提供了便利的专利检索和翻译服务，但其（ＧｏｏｇｌｅＰａｔｅｎｔ）翻译文本仍然
存在着一定的不足。本文基于谷歌专利（ＧｏｏｇｌｅＰａｔｅｎｔ）的检索文本，探讨美国专利局专利摘要在专利词汇层面的差异，
进而探讨计算机通信领域专利摘要中存在的翻译共性。本文从谷歌专利（ＧｏｏｇｌｅＰａｔｅｎｔ）中随机选取１００篇专利摘要
文本，借助Ａｎｔｃｏｎｃ文本分析工具和微型平行语料库探究其词汇层面的翻译共性。研究表明，谷歌专利（ＧｏｏｇｌｅＰａｔｅｎｔ）
文献标识码：Ａ
ＤＯＩ：１０．１６４００／ｊ．ｃｎｋｉ．ｋｊｄｋｓ．２０１８．０８．０３０
ＱｕａｎｔｉｔａｔｉｖｅＡｎａｌｙｓｉｓｏｆＰａｔｅｎｔＡｂｓｔｒａｃｔＴｅｒｍｓａｎｄ
ＶｏｃａｂｕｌａｒｙＢａｓｅｄｏｎＰａｒａｌｌｅｌＣｏｒｐｕｓ
ＬＩＳｈｉｐｉｎ（ＳｃｈｏｏｌｏｆＦｏｒｅｉｇｎＬａｎｇｕａｇｅｓ，ＣｈｏｎｇｑｉｎｇＵｎｉｖｅｒｓｉｔｙｏｆＰｏｓｔｓａｎｄＴｅｌｅｃｏｍｍｕｎｉｃａｔｉｏｎｓ，Ｃｈｏｎｇｑｉｎｇ４０００６５）
ＡｂｓｔｒａｃｔＧｏｏｇｌｅＰａｔｅｎｔｐｒｏｖｉｄｅｓａｃｏｎｖｅｎｉｅｎｔｐａｔｅｎｔｓｅａｒｃｈａｎｄｔｒａｎｓｌａｔｉｏｎｓｅｒｖｉｃｅｆｏｒｕｓｅｒｓ，ｂｕｔｔｈｅｒｅａｒｅｓｔｉｌｌｓｏｍｅｓｈｏｒｔ— ｃｏｍｉｎｇｓｉｎｉｔｓｔｒａｎｓｌａｔｉｏｎ．ＢａｓｅｄｏｎｔｈｅｓｅａｒｃｈｔｅｘｔｏｆＧｏｏｇｌｅＰａｔｅｎｔ，ｔｈｉｓｐａｐｅｒｅｘｐｌｏｒｅｓｔｈｅｄｉｆｆｅｒｅｎｃｅｓｉｎｐａｔｅｎｔｖｏｃａｂｕｌａｒｙ．ｂｅｔｗｅｅｎＵＳＰａｔｅｎｔＯｆｆｉｃｅｐａｔｅｎｔａｂｓｔｒａｃｔｓ，ａｎｄｔｈｅｎｅｘｐｌｏｒｅｓｔｈｅｃｏｍｍｏｎａｌｉｔｉｅｓｏｆｔｒａｎｓｌａｔｉｏｎｉｎｐａｔｅｎｔａｂｓｔｒａｃｔｓｉｎｃｏｍｐｕｔｅｒｃｏｍｍｕｎｉｃａｔｉｏｎｓ．Ｔｈｉｓｐａｐｅｒｒａｎｄｏｍｌｙｓｅｌｅｃｔｓ１００ｐａｔｅｎｔａｂｓｔｒａｃｔｔｅｘｔｓｆｒｏｍＧｏｏｇｌｅＰａｔｅｎｔ，ａｎｄｅｘｐｌｏｒｅｓｔｈｅｃｏｍｍｏｎａｌｉｔｙｏｆｔｒａｎｓｌａｔｉｏｎａｔｔｈｅｌｅｘｉｃａｌｌｅｖｅｌｂｙｍｅａｎｓｏｆＡｎｔｃｏｎｃｔｅｘｔａｎａｌｙｓｉｓｔｏｏｌｓａｎｄｍｉｃｒｏ—ｐａｒａｌｌｅｌｃｏｒｐｕｓ．ＳｔｕｄｉｅｓｈａｖｅｓｈｏｗｎｔｈａｔＧｏｏｇｌｅＰａｔｅｎｔａｔｔｈｅｌｅｖｅｌｏｆｔｅｒｍｉｎｏｌｏｇｙ，ａｌｔｈｏｕｇｈｍｏｓｔｏｆｔｈｅｃｏｒｅｗｏｒｄｓｃａｎａｃｈｉｅｖｅａｒｅｌａｔｉｖｅｌｙａｃｃｕｒａｔｅｃｏｒｒｅｓｐｏｎｄｅｎｃｅ，ｔｈｅｒｅａｒｅｓｔｉｌｌｓｏｍｅｎｏｕｎｓｏｆｔｈｅｄｅｖｉａｔｉｏｎｏｆｔｈｅｒｅｆｅｒｅｎｃｅ．ｍｏｄｉｆｉｅｒｃｏｌｌｏｃａｔｉｏｎｄｅｖｉａｔｉｏｎａｎｄｔｅｒｍｓｔｒｕｃｔｕｒｅｏｒｄｅｒｄｅｖｉａｔｉｏｎ．Ｉｎｔｅｒｍｓｏｆｖｏｃａｂｕｌａｒｙｄｅｎｓｉｔｙａｎｄｃｌａｓｓｐｒｏｐｏｒｔｉｏｎｓ，ｔｈｅＵＳＰａｔｅｎｔＯｆｆｉｃｅ’ＳｐａｔｅｎｔａｂｓｔｒａｃｔｔｅｘｔａｎｄＧｏｏｇｌｅｐａｔｅｎｔａｂｓｔｒａｃｔｓｒｅ— ｆｌｅｃｔａｃｅｒｔａｉｎｄｅｇｒｅｅｏｆｔｒａｎｓｌａｔｉｏｎｃｏｍｍｏｎａｌｉｔｙ．Ｋｅｙｗｏｒｄｓｍａｃｈｉｎｅｔｒａｎｓｌａｔｉｏｎ；ｐａｔｅｎｔａｂｓｔｒａｃｔｓ；ｐａｒａｌｌｅｌｃｏｒｐｕｓ；ｔｒａｎｓｌａｔｉｏｎｃｏｍｍｏｎａｌｉｔｙ

基于语料库的中文信息抽取技术研究

基于语料库的中文信息抽取技术研究随着互联网的普及和大数据时代的到来，信息平台上海量的中文信息变得越来越丰富，而这些信息的挖掘和抽取是信息智能化时代的一个重要研究方向。

中文信息抽取技术是自然语言处理领域中的关键技术之一，涉及到语音识别、文本分析、语义理解等多个方面，其主要目的是从海量的中文信息中提取有用的实体、关系和事件等信息，帮助数据分析和决策支持等业务。

一、中文信息抽取技术的基本原理中文信息抽取技术的基本原理是基于大规模的文本语料库，通过计算机自动化地分析语言现象和语言规律，从而抽取出符合特定需求的信息。

它主要包括三个子任务：实体识别、关系抽取和事件抽取。

实体识别是指从文本中识别和抽取出具有特定概念意义的实体，如人名、地名、组织机构名等。

这需要运用自然语言处理技术中的序列标注、统计学习、规则匹配等方法。

关系抽取是指从文本中抽取出不同实体之间的语义关系，如主谓关系、动宾关系等。

而事件抽取则是指从文本中抽取出具有某种类型的事件，如宣布、签署、会晤等。

这需要运用知识表示和推理等技术。

二、中文信息抽取技术的应用领域中文信息抽取技术的应用领域非常广泛，包括但不限于以下几个方面：1、文本分类和路径分析。

中文信息抽取技术可用于文本分类和路径分析中，帮助企业和政府机构筛选并分析大量的文字数据，协助其制定决策和发展战略。

2、知识图谱和智慧城市建设。

知识图谱是指从大规模的结构化和非结构化的文本中提取实体、关系和事件等信息，构建出具有丰富语义的知识网络模型。

智慧城市建设则是指将大规模的数据资源进行整合和智能化运用，提升城市管理和服务水平。

而中文信息抽取技术可以帮助实现智慧城市建设的核心特征，即信息融通与智能化。

3、金融领域风险控制和大数据市场分析。

中文信息抽取技术可用于金融领域的风险控制和大数据市场分析中，协助保险、银行业等金融机构提高风险管理能力，优化投资组合，探索新的市场机会。

三、中文信息抽取技术的研究难点中文信息抽取技术的研究难点主要有以下几个方面：1、数据量和质量。

基于英汉平行语料库术语词典的自动抽取

基于英汉平行语料库术语词典的自动抽取梁铭【期刊名称】《电脑知识与技术》【年(卷),期】2009(005)019【摘要】In the field of natural language processing, the importance of bilingual parallel corpus is increasing. In recent years, many research institutions at home and abroad are building bilingual corpus, and many of the bilingual corpus researchers conducted extensive research,Sentence alignment is an important component of bilingual corpus building, and also the basis work of the machine translation.This paper describes the research background and current situation of the terminology extraction based on the bilingual parallel corpus, and then introduced several ways and basic principles used in the sentence alignment. The bilingual corpus the experiment used is already good alignment,which after a Chinese word processing. Use English and Chinese POS tagging tools to tag the Chinese and English Corpus respectively.The term candidate set is produced by statistical the nouns and noun phrases of both corpus. Then translation probability between every English candidate term and its Chinese translation term are calculated. By setting the threshold to filter out some candidates with the English word unrelated to the Chinese translation, finally, select the greatest probability of the English word as a candidate of the Chinese translation of the word by greedy algorithm.%该文提出了一种从英汉平行语料库中自动抽取术语词典的算法.采用的是已对齐好的双语语料,中文经过了分词处理.利用英文和中文词性标注工具对英文语料和中文语料分辨进行词性标注.统计双语语料库中的名词和名词短语生成候选术集.然后对每个英文候选术语计算与其相关的中文翻译问的翻译概率.再通过设定阈值过滤掉一些与该英文候选词无关的中文翻译,最后通过贪心算法选取概率最大的词作为该英文候选词的中文翻译.【总页数】3页(P5081-5083)【作者】梁铭【作者单位】苏州大学计算机科学与技术学院,苏州,江苏,215000;苏州工业园区职业技术学院,苏州,江苏,215021【正文语种】中文【中图分类】TP391【相关文献】1.基于平行语料库的科技术语英汉翻译研究 [J], 马金海2.平行语料库中双语术语词典的自动抽取 [J], 孙乐;金友兵;杜林3.基于英汉平行语料库的术语组块自动抽取 [J], 杨福义4.基于英汉平行语料库术语词典的自动抽取 [J], 梁铭5.基于英汉平行语料库的词典编写系统CpsDict的研制 [J], 李德俊因版权原因，仅展示原文概要，查看原文内容请购买。

汉维双语平行词汇语料库构建技术研究

汉维双语平行词汇语料库构建技术研究【摘要】本文介绍了汉维双语平行词汇语料库构建技术的研究，首先在引言部分探讨了研究背景、研究意义和研究目的。

然后在正文部分详细介绍了汉维双语平行词汇的概述、语料库构建方法的分析、双语对齐技术的研究、平行语料挖掘技术的实践以及研究现状和挑战。

在对技术发展趋势进行了展望，提出了未来研究方向，并进行了总结。

通过本文的内容，读者可以了解到汉维双语平行词汇语料库构建技术的关键要素和面临的挑战，为相关研究和实践提供了有益的参考信息。

【关键词】汉维双语平行词汇, 语料库构建方法, 双语对齐技术, 平行语料挖掘技术, 技术发展趋势, 未来研究方向, 研究现状, 挑战, 总结.1. 引言1.1 研究背景汉维双语平行词汇语料库构建技术研究的研究背景主要包括两个方面。

随着中文和维吾尔语双语交流的增加，人们对于构建一种涵盖双语平行词汇的语料库的需求也日益增加。

此种语料库不仅可以用于机器翻译等自然语言处理任务，还可以促进中汉文化之间的交流和理解。

现有的中文和维吾尔语双语平行词汇数据集较为有限，而且质量参差不齐，缺乏系统性和规范性。

需要对汉维双语平行词汇语料库构建技术进行深入研究，以更好地满足实际应用需求。

针对这一背景，本研究旨在探索汉维双语平行词汇语料库构建技术，并提出相应的方法和技术，以促进中文和维吾尔语之间的交流与合作。

1.2 研究意义汉维双语平行词汇语料库构建技术研究在当前语言翻译领域具有重要的意义。

汉维双语平行词汇是中汉和维吾尔语之间的重要桥梁，对于促进两种语言之间的交流与理解具有重要意义。

通过构建汉维双语平行词汇语料库，不仅可以提高中汉和维吾尔语之间的翻译质量，还可以促进两种语言的文化交流和学术研究。

汉维双语平行词汇语料库构建技术研究对于机器翻译技术的发展具有重要的意义。

随着信息技术的快速发展，机器翻译技术在国际交流和商务合作中的应用越来越广泛。

而构建高质量的汉维双语平行词汇语料库，可以为机器翻译系统提供更准确、更准确的翻译输出，提高机器翻译系统的性能和效率。