汉英对应语料库翻译句对检索问题
利用双语翻译对社区问答进行问题检索
TITLEຫໍສະໝຸດ ANDABSTRACT
IN ANOTHER LANGUAGE ,
L2 (OPTIONAL,
AND ON SAME PAGE )
利用双语翻译对社区问答进行问题检索
由于互联网上社区问答数据集的流行,使得社区问答的研究变得越来越流行。本文 关注的是问题检索。 问题检索的目的是从历史问题数据集中查找与查询问题语义等价或相 关的历史问题。然而,问题检索的挑战主要是词汇歧义和查询问题与历史问题 之间的词汇 鸿沟。为了解决这些问题,我们提出利用翻译词来丰富问题的表示,而不单纯利用原始语 言的词来表示问题。 在本文中,通过机器翻译,每个原始语言(例如:英语)的问题都被 自动翻译成另一种外国语言(例如:汉语), 经过翻译后的问题可以作为一种增强的语义 表示来辅助原始的基于词袋的表示方法。在真实社区问答数据集上的实验表明,我们的方 法可以极大提升基线系统的方法 并取得了最好的性能。
KEYWORDS: Community Question Answering, Question Retrieval, Bilingual Translation. KEYWORDS
IN
L2 : 社区问答,问题检索,双语翻译
1
引言
在过去的若干年中,大规模的问答数据集成了互联网上的重要信息资源。 这些资源包括 传统的由专家或公司为他们的产品提供的常见问题解答集以及新出现的基于社区的在线 服务,例如Yahoo! Answers和Live QnA,在这些在线社区上,人们可以回答他人提出的问 题。这种在线社区称为基于社区的问答服务。 在这些社区中,任何人都可以提问和回答关 于任何主题的问题,寻找信息的人与那些知道答案的人就联系起来了。 由于社区问答上的 答案通常以显式的形式由人们提供,它们对回答真实问题起到了很好的作用 (Wang et al., 2009)。 为了更好地利用大规模的问答对,具备帮助用户检索先前答案的功能非常必 要 (Duan et al., 2008)。因此, 检索与查询问题语义等价或相关的问题是一件非常有意 义的任务。然而,问题检索的挑战主要是词汇歧义和查询问题与历史问题 之间的词汇鸿 沟。词汇歧义通常会引发问题检索模型检索出许多与用户查询意图不匹配的历史问题。 这也是由问题和用户的高度多样化造成的。例如,依据不同的用户,词"interest"既可以 指"curiosity"也可以指"a charge for borrowing money"。另外一个挑战是查询问题与历史问 题的词汇鸿沟。查询问题中的词不同于历史问题中的词但是它们之间是相关的词。 词汇鸿 沟问题对社区问答的问题检索而言更加严重,主要是问答对通常很短,查找相同的内容表 达往往使用不同的词(Xue et al., 2008)。 为了解决词汇鸿沟问题,大多数学者将问题检索任务看作是一个统计机器翻译的问题, 并 利 用IBM模 型1(Brown et al., 1993)来 学 习 词 与 词 之 间 的 翻 译 概 率(Berger et al., 2000; Jeon et al., 2005; Xue et al., 2008; Lee et al., 2008; Bernhard and Gurevych, 2009)。 实验 结果一致表明基于词的翻译模型取得了比传统检索方法更好的性能。 最近,Riezler et al. (2007)和Zhou et al. (2011)提出了基于统计短语翻译的问题和答案检索方法。基于短语的 翻译模型可以刻画上下文信息,在翻译的过程中对整个短语建模, 从而在某种程度上降低 了词汇歧义的问题。然而,目前公开发表的工作都是基于单语的方法,仅仅利用了原始语 言的信息, 而没有利用来自其它语言潜在的丰富的语义信息。通过其它语言,可以利用各 种方法增加原始问题的语义信息,从而提高仅仅利用原始语言方法的性能。 通过利用外国语言,我们提出利用翻译表示通过外国语言词汇来替换原始语言中的词, 其中外国语言是指不同于原始语言的。 利用双语信息进行问题检索的基本思想如下: (1)从一种语言翻译成另一种语言的过程中可以利用上下文信息,如表1所示,英文 单词"interest"和 "bank"在不同的上下文中有多种意思,在利用Google Translate (GoogleTrans)翻译的过程中正确的意思可以得到纠正。因此,问题中词的歧义在翻译的过程中可 以根据上下文信息得到解决。 (2)多个语言相关的词在某种语言中可以被翻成另外一种 语言的唯一表示。如表1所示,英文单词例如"company"和"firm"可以被翻译成中文单词"公 司 (gōngsī)","rheum"和"catarrh"可以被翻译成中文单词"感冒(gǎnmào)"。 在本文中,通过机器翻译,每个原始语言(例如:英语)的问题都被自动翻译成另一种外 国语言(例如:汉语), 经过翻译后的问题可以作为一种增强的语义表示来辅助原始的基 于词袋的表示方法。具体来说, 原始语言与外国语言的词汇之间通过翻译联系起来,对解 决上述两个问题的解决起到重要的作用。 首先,每个原始语言句子中的词可以被翻译成另 一种语言中的多个词,因此在给定原始语言中词的上下文的情况下, 词汇歧义在翻译的过 程中可以得到解决。同时,语义相关的多个词可以被翻译成另一外国语言中的一个词。 因 此,原始语言中的词汇鸿沟在某种程度上可以通过另一种外国语言中的翻译词来解决。 我 们 利 用 来 自Yahoo! Answers的 大 规 模 数 据 集 做 实 验 。 采 用 两 种 商 业 翻 译 服 务 ( 例 如,Google Translate和Yahoo Babel Fish和一种基于词典的基线翻译将大规模的英文问 题翻译成中文问题。 实验表明,我们的方法可以极大提升基线系统的方法并取得了最好的
《基于汉语语料库的中文词句快速检索算法研究》
《基于汉语语料库的中文词句快速检索算法研究》篇一一、引言随着信息技术的飞速发展,海量的中文信息数据不断涌现,如何快速、准确地从这些数据中检索出用户所需的词句成为了一个重要的研究课题。
基于汉语语料库的中文词句快速检索算法的研究,对于提高信息检索的效率与准确性,满足用户的需求具有重要意义。
本文旨在探讨基于汉语语料库的中文词句快速检索算法的研究,为相关领域的研究提供参考。
二、汉语语料库的建设首先,建立一个完善的汉语语料库是进行中文词句快速检索的基础。
汉语语料库应包含丰富的文本资源,如新闻报道、学术论文、网络文章等,同时应具备较高的文本质量与规范性。
在建设语料库的过程中,应注重数据的来源多样性、数据量的大小以及数据的时效性。
此外,还需要对语料库进行预处理,如分词、去停用词等操作,以提高检索的准确性。
三、中文词句快速检索算法研究1. 基于倒排索引的检索算法倒排索引是一种常用的中文词句检索算法。
该算法将文档中的词项与其在文档中的位置信息进行索引,从而实现在较短的时间内找到包含特定词项的文档。
在基于倒排索引的检索算法中,首先需要对语料库进行分词处理,然后构建倒排索引表。
当用户输入查询词时,系统通过查询倒排索引表,快速找到包含该查询词的文档列表。
2. 基于深度学习的检索算法随着深度学习技术的发展,基于深度学习的中文词句检索算法逐渐成为研究热点。
该算法通过训练深度神经网络模型,学习文本的语义信息,从而实现更准确的检索。
在基于深度学习的检索算法中,可以使用词向量、卷积神经网络、循环神经网络等技术,对文本进行表示与学习。
通过训练大量的文本数据,模型可以学习到文本的语义信息,从而提高检索的准确性。
四、实验与分析为了验证基于汉语语料库的中文词句快速检索算法的有效性,我们进行了实验与分析。
首先,我们构建了一个包含大量中文文本数据的语料库,并进行了预处理操作。
然后,我们分别使用了基于倒排索引的检索算法和基于深度学习的检索算法进行实验。
《基于汉语语料库的中文词句快速检索算法研究》范文
《基于汉语语料库的中文词句快速检索算法研究》篇一一、引言随着信息技术的飞速发展,中文语料库在各行各业的应用日益广泛。
无论是自然语言处理、搜索引擎优化还是信息挖掘,快速准确的中文词句检索都成为关键任务。
为了应对海量中文文本的检索需求,基于汉语语料库的中文词句快速检索算法研究显得尤为重要。
本文旨在探讨基于汉语语料库的中文词句快速检索算法的原理、方法及其实验结果。
二、研究背景与意义随着互联网的普及,网络信息呈爆炸式增长。
如何在海量信息中快速找到用户关注的词句成为一项挑战。
汉语作为世界上最难掌握和运用的语言之一,其复杂性和丰富性使得词句检索更加困难。
因此,研究基于汉语语料库的中文词句快速检索算法具有重大意义。
三、算法原理及方法1. 分词技术:首先,对中文文本进行分词处理,将连续的文本序列切分成单个的词语或词组。
分词技术是中文词句检索的基础。
2. 索引构建:将分词后的结果建立索引,便于后续的检索操作。
常用的索引结构包括倒排索引、前缀树等。
3. 算法优化:针对中文语言的特性,如多义词、同义词等,采用多种算法优化手段,如基于统计的算法、基于深度学习的算法等,提高检索准确率。
4. 检索流程:用户输入查询语句后,系统通过匹配算法在索引中查找与查询相关的词句,返回给用户。
四、算法实现与实验结果1. 算法实现:采用多种技术手段实现基于汉语语料库的中文词句快速检索算法,包括分词技术、索引构建、算法优化等。
2. 实验数据:采用大规模的汉语语料库进行实验,包括新闻报道、学术论文、网络文章等。
3. 实验结果:通过对比不同算法在实验数据上的表现,发现基于深度学习的算法在准确率和效率方面具有明显优势。
此外,针对多义词和同义词等问题,通过算法优化提高了检索效果。
五、实验分析1. 准确性分析:实验结果表明,基于深度学习的检索算法在准确性方面具有显著优势,能够更准确地理解用户意图并返回相关词句。
2. 效率分析:在处理大规模语料库时,该算法能够在较短时间内完成检索任务,满足用户的实时需求。
《基于汉语语料库的中文词句快速检索算法研究》
《基于汉语语料库的中文词句快速检索算法研究》篇一一、引言随着信息技术的飞速发展,中文信息处理已成为当前研究的热点。
在众多领域中,基于汉语语料库的中文词句快速检索算法研究显得尤为重要。
该研究旨在提高中文文本检索的效率和准确性,为中文信息处理提供强有力的技术支持。
本文将详细探讨基于汉语语料库的中文词句快速检索算法的研究背景、目的、方法及贡献。
二、研究背景及目的随着互联网的普及和大数据时代的到来,海量的中文信息给人们带来了极大的便利,同时也带来了信息检索的挑战。
传统的中文词句检索算法在处理大规模语料库时,往往存在检索速度慢、准确率低等问题。
因此,研究基于汉语语料库的中文词句快速检索算法,对于提高中文文本检索的效率和准确性具有重要意义。
本研究的目的在于:1. 提出一种高效的中文词句快速检索算法;2. 优化算法性能,提高检索速度和准确率;3. 为中文信息处理提供技术支持,推动相关领域的发展。
三、研究方法本研究采用以下方法:1. 语料库构建:构建大规模的汉语语料库,包括文本、词汇、句法等多个层面;2. 算法设计:针对中文词句检索的特点,设计一种高效的检索算法;3. 实验验证:通过实验验证算法的性能,分析其优点和不足;4. 优化改进:根据实验结果,对算法进行优化改进,提高其检索速度和准确率。
四、算法设计本研究提出的中文词句快速检索算法主要包括以下步骤:1. 预处理:对语料库进行分词、去除停用词等预处理操作;2. 索引构建:根据预处理后的结果,构建倒排索引;3. 查询处理:将用户输入的查询语句进行分词、去停用词等操作,生成查询关键词;4. 检索匹配:根据查询关键词,在倒排索引中进行检索匹配;5. 结果输出:将匹配结果按照相关度排序后输出。
五、实验验证及结果分析本研究通过实验验证了所提出算法的性能。
实验结果表明,该算法在处理大规模语料库时,具有较高的检索速度和准确率。
具体分析如下:1. 检索速度:该算法采用倒排索引技术,大大提高了检索速度。
《基于汉语语料库的中文词句快速检索算法研究》范文
《基于汉语语料库的中文词句快速检索算法研究》篇一一、引言随着信息技术的迅猛发展,中文词句检索技术在众多领域得到了广泛应用。
在海量数据中快速、准确地检索出所需的词句信息,已成为当今研究的重要课题。
本文针对基于汉语语料库的中文词句快速检索算法进行研究,旨在提高检索效率和准确性,满足不同领域的应用需求。
二、汉语语料库概述汉语语料库是中文词句检索的基础。
本文所使用的汉语语料库应具备以下特点:1. 丰富性:包含各类文本资源,如新闻、小说、论文等,以支持不同领域的检索需求。
2. 准确性:词汇、语法等信息的标注应准确无误,以提高检索的准确性。
3. 更新性:随着新词汇、新表达方式的不断涌现,语料库应具备更新能力,以保持其时效性。
三、中文词句快速检索算法研究针对中文词句检索的特点,本文提出以下几种快速检索算法:1. 基于倒排索引的检索算法倒排索引是中文词句检索中常用的技术。
该算法将文本中的词汇与其在文本中的位置信息进行关联,构建倒排索引表。
在检索时,根据用户输入的词句,快速查找倒排索引表,获取相关文本的位置信息,从而实现快速检索。
2. 基于词向量模型的检索算法词向量模型是一种将词汇转换为向量表示的方法。
通过训练大量文本数据,得到词汇的向量表示。
在检索时,将用户输入的词句转换为向量表示,然后与语料库中的文本向量进行相似度计算,从而找到相关文本。
该算法可以充分考虑词汇的语义信息,提高检索的准确性。
3. 融合多种算法的混合检索策略针对不同领域、不同需求,可以采用融合多种算法的混合检索策略。
例如,先使用倒排索引进行初步筛选,再结合词向量模型进行精确匹配。
此外,还可以引入其他技术手段,如自然语言处理、知识图谱等,进一步提高检索的效果。
四、实验与分析为验证本文提出的中文词句快速检索算法的有效性,我们进行了实验分析。
实验数据来源于一个大型汉语语料库,实验环境为高性能计算机集群。
通过对比不同算法的检索速度、准确率、召回率等指标,我们发现:1. 基于倒排索引的检索算法在速度上具有明显优势,适用于大规模语料库的快速检索。
英汉平行语料库在跨语言信息检索中的应用分析
户 以汉字 作 为检 索 词 ,检 索 到 所 需 要 的英 文 信 息 ,
1 引 言
随着 因特 网的飞速 发 展 和 信息 化 进 程 的不 断 深
并 且 可 以选 择 性地 将英 文 翻译成 汉 语 ,语 言 障碍 将
不再 影 响网络信 息 资源共 享 。 入 ,我 国 网络 用户 不断 增 多 ¨ 。 网 民数 量 的增 加 使 1 J 得信 息需 求不 断增 加 ,世 界 网络 资源 大 多 是英 文 资 源 ,中、西 、法等语 种 的网 络信 息 资 源 所 占的 比例 很少 ,然 而使用 英语 的用 户仅 有 4 % _ 。 由于语 言 3 2 J 障碍使 得 信息得 不 到 很好 地 传 播 和利 用 ,影 响 网络 信 息 资源 的共享 。跨 语 言 信 息 检索 可 以满 足广 大 用
R tea,C I ) 指 用 户 以熟 悉 的语 言 来 构 建 和 提 er v l L R i
交 检 索提 问多
个 语种 的相 关 信 息 。用 户 查 询 所 使 用 的 检 索 词 语
言 ,一 般 为用户 的母 语 或 其熟 悉 的 第二 语 言 ,称 为 源 语 言 (oreL nug) Suc agae ,而 系统检 索到 的用户 想 要 获得 的信 息 所 使 用 的语 言 ,称 为 目标语 言 ( a一 Tr
is p o lms i t r be n CLI a lc to n o n em e s r s o a e h d a tg sa d dia v na e mo gpa allc r s,ma h n r sa R ppia in a d c u t r a u e ,c mp ste a v na e n s d a tg sa n r le opu r c i e ta l — n
《基于汉语语料库的中文词句快速检索算法研究》
《基于汉语语料库的中文词句快速检索算法研究》篇一一、引言随着信息技术的发展和互联网的普及,信息量的急剧增长使得文本数据的检索成为了一项重要任务。
而作为全球最大的汉语使用者群体,中文词句检索在众多领域具有重要应用价值。
本文旨在研究基于汉语语料库的中文词句快速检索算法,以提升检索效率和准确性。
二、汉语语料库概述汉语语料库是用于自然语言处理和文本分析的数据库,包含了大量的中文文本数据。
这些数据可以用于训练和测试中文词句检索算法。
汉语语料库的构建需要考虑词汇的丰富性、句子的多样性以及文本的时效性等因素。
三、中文词句快速检索算法研究1. 分词技术分词是中文词句检索的基础。
本文采用基于统计和规则相结合的分词方法,将文本数据切分成单个词汇。
同时,为了处理未登录词和专有名词等问题,引入了词典扩展和机器学习等技术。
2. 索引构建索引是提高检索速度的关键。
本文采用倒排索引技术,将词汇与其在文本中的位置信息建立映射关系。
同时,为了进一步提高检索效率,采用了压缩存储和优化索引结构等技术。
3. 检索算法本文研究了一种基于向量空间模型的检索算法。
该算法通过计算查询与文档之间的相似度,返回与查询最相关的词句。
为了提高检索准确性,引入了词频、词性、语义等信息。
4. 算法优化针对中文词句检索的特点,本文提出了一种基于词汇关联性的优化策略。
通过对词汇之间的关联性进行分析,提高检索结果的准确性和相关性。
同时,采用多线程技术和并行计算等技术,进一步提高检索速度。
四、实验与分析为了验证本文提出的算法的有效性,我们采用了一个大型汉语语料库进行实验。
实验结果表明,本文提出的算法在检索速度和准确性方面均取得了较好的效果。
与传统的检索算法相比,本文算法在处理大规模语料库时具有更高的效率和更好的性能。
五、结论与展望本文研究了基于汉语语料库的中文词句快速检索算法,通过分词技术、索引构建、检索算法和算法优化等方面的研究,提高了检索速度和准确性。
实验结果表明,本文提出的算法在处理大规模语料库时具有较高的效率和性能。
英汉双语平行语料库在翻译教学中的运用研究
校园英语 / 高等教育研究英汉双语平行语料库在翻译教学中的运用研究哈尔滨理工大学荣成校区/夏菲菲 张祎【摘要】本文探讨了英汉双语平行语料库在翻译教学中的运用,主要是针对一线翻译教师如何自建小型语料库并在翻译课堂上予以运用,因为一线翻译教师的实践是语料库在翻译中运用最为重要的环节。
本文对于语料的准备、处理、标注和检索都进行了比较具体的总结。
尤其是对标注部分进行了重点阐述,因为这一点最能体现自建小型语料库的优势。
【关键词】英汉双语平行语料库 翻译教学 标注一、引言语料库是指在随机采样的基础上收集到有代表性的真实语言材料集合,是语言运用的样本。
兴起于上世纪60年代的语料库研究已经被广泛运用到语言研究与教学的各个领域。
然而语料库与翻译领域的结合相对较晚。
传统的翻译教学模式主要包含理论技巧讲解、举例说明和练习巩固三个步骤,该翻译教学模式仍然广泛使用在我国和很多国外的外语专业翻译课堂上,为翻译教学做出了巨大贡献,也培养了大批优秀的翻译人才。
然而该模式也存在很多问题。
首先传统翻译课堂以教师讲解为主,学生难以发挥主观能动性进行自主学习,被动接受技巧知识难以将所学知识进行内化。
同时由于课时和教材的限制,传统翻译教学无法提供大量实例供学生学习,有限的语言输入量无法帮助学生将所学知识真正内化为翻译能力。
而语料库恰好可以帮助解决传统翻译教学中学生被动学习和语料输入量不足的问题。
因为在语料库条件下进行翻译教学,学生可以采取“发现式学习和数据驱动的学习方式训练掌握翻译技巧,提高翻译技能,熟悉翻译职业特征”。
语料库分为单语语料库和双语或多语语料库。
前者主要收集本族语者的语言实例,后者顾名思义是由两种或者两种以上的语言材料组成,其中平行语料库作为能将源语言文本和其对应的译语文本进行全文检索并对照显示的语料库对翻译教学的辅助作用尤为明显。
二、平行语料库与翻译教学的研究现状平行语料库与翻译教学的结合起步较晚,国外相关的应用研究有近二十年的历史,发展较快的是西语间的平行语料库的建立。
语料库搭配检索与英语同义词辨析
语料库搭配检索与英语同义词辨析
中文语料库搭配检索用于分析句子中词语之间的关系和上下文,以判断词语之间的同义词关系。
通常将词语放入语料库搭配,将它们转换成一系列由特定编码代表的短语,并在语料库中搜索是否可以找到与给定词语的短语相匹配的短语。
具有完整的语料库表示的特定词语搭配可以用来帮助判断两个词语之间的相似
程度,因此可以确定它们是否具有同义词关系。
更具体地说,句子中的每个词语被提取出来,并给出其特定的搭配词。
然后,比较句子中两个词语的特定搭配,看它们是否拥有相同的搭配词。
如果这些特定搭配词相同则说明它们可以是同义词,否则不能表示同义词关系。
语料库与英汉对比下的翻译写作学课堂检视
语 料 库 与 英 汉 对 比 下 的翻 译 写作 学课 堂检 视
朱 玉敏
( 厦 门理 工学院外 国语学院 ,福建 厦 门 3 6 1 0 2 4 )
[ 摘
要]检视 是对翻译写作过程 的一 个重要 补 充和 创新 ,可 以通过 作 者对 文本 的重新 审视 和修 改,
使文本质 量得 以大幅提 升。传统的课 堂检视方 式,或 目的性 不强 ,或缺 乏 系统性 ,收 效甚微 。建议 教 师在
一
、
翻 译 写作 学 课 堂 检 视 的 重 要 性
目前 翻译 界亟 需 的是 以翻译 实 践为 研究 对 象 、 以中 国翻译 理论 为 主要 依 托 的翻译 理 论研 究 , “ 翻
译写作学”正是顺应 了这种需求 。它立足 内向型本体 翻译研究的翻译理论 ,重点探讨翻译写作过程 中译者的译文写作能力与质量问题 ,并据此对各种翻译研究观点和译文加 以评判。翻译写作学提出了 “ 感知一 运 思一 表述 一检 视 ” 的 翻译 写作 过 程 。 “ 感 知 就是 了解原 作 者 的创 作 心理 ,洞悉 其 遣 词 造句 的用心。运思揭示翻译写作中思路和思维运动的规律 ,了解信息和符号在译文孕育过程 中的作用 。运 思就是运用心思 ,就是构思译文 ,是一种高级思维活动 ;而表述就是将感知、运思的结果付诸文字 , 形成译文。 ” _ 1 J 4 “ 翻译写作学的宗旨是指导人们的翻译写作实践 ,增强译者的译写能力 ,提高译者的 翻译写作水平 。翻译写作学的研究 目的之一就在于阐明翻译写作规律 ,指导翻译写作实践 ,去掉盲 目
第2 1 卷
第 4期
厦 门理 工学院学报
J o u na r l o f Xi a me n Un i v e r s i t y o f T e c h n o l o g y
基于语料库的英汉语比较与翻译考察
们的翻译水平得到了提高。); 4)“是…V的”句(那台电脑是上个月才买的。)等等。
• 翻译转换不仅涉及词语、短语、修辞手法,也涉及各种句 式,除被动句外,还有把字句、存在句、无主句、省略句 等等。
• 具体实证研究占86%以上,宏观的理论研究少。 • 基于语料库的研究日渐增多,已达60%。
二、双语语料库及相关研究
• 单语语料库(monolingual corpus) • 双语语料库(bilingual corpora) • 翻译语料库(translational corpus) • 对应语料库(parallel corpora) • 类比语料库(comparable corpora)
显化在词汇上有更多的体现。如英译挪文本中的347处显化, 其中112处体现在语法上,而词汇方面则有235处,占2/3 强;挪译英文本中的显化有82处是语法上的,而词汇上 的有166处,也占2/3。区别只是显化在英译挪文本中比 在相反方向的翻译文本中更为显著。
4.1 汉英互译的例证
• “靠山吃山,靠水吃水,我老汉靠沙子,当然要吃沙!” • "If you live on a mountain, you live off the mountain; if
2.2 语料与自动翻译研究
1)广收语料 2)标注、切分、对齐等
(三峡水库上比不上好,早上比晚上好)
3)相似度
• (我昨天坐火车来到北京。) • (他上周乘飞机去了上海。)
2、3双语词典研编
“得意忘形”:grow dizzy with success / have one’s head turned by success(据汉英词典)
英汉/汉英对译语料库对应词检索器
A Concordancer of Equivalent Words in English-
Chinese/Chinese-English Parallel Corpora 作者: 陈国华[1] 王立欣[2] 梁茂成[1] 刘树杰[3] 许家金[1]
作者机构: [1]北京外国语大学中国外语教育研究中心,北京100089 [2]哈尔滨工业大学外国语学院,哈尔滨150001 [3]哈尔滨工业大学计算机学院,哈尔滨150001
出版物刊名: 外语电化教学
页码: 11-16页
主题词: 对译语料库 双语词语检索器 对应词 英汉/汉英词典学
摘要:英汉/汉英对译语料库对应词检索器是为英剐汉英词典学设计的一种词语检索软件。
与普通双语语料库词语检索软件不同的是,该检索器统计对译语料库源语词和译语候选对应词的共现概率,根据统计结果建立索引文件并将候选对应词按照共现概率排序,从而达到便捷提取对译语料库中对应词的目的。
该词语检索器为英汉/汉英词典学家确定译语对应词提供了一种客观而便捷的方法。
基于英汉平行语料库的翻译语言分析——以“tend to + 动词”结构为例
校园英语 / 翻译探究基于英汉平行语料库的翻译语言分析——以“tend to + 动词”结构为例曲阜师范大学外国语学院/邹涛【摘要】本文基于英汉平行语料库,对“tend to + 动词”结构及其汉语译文对应结构进行检索和分析。
分析结果显示:1.存在该结构与“倾向于”的对应,但不是主要形式,主要对应形式是,“tend to”对应汉语概率及频率副词修饰不定式动词对应的汉语谓语;2.与该结构对应的“倾向于”可以替换成概率副词;3.有少数零对应和对应能愿动词的情况。
【关键词】翻译语言 tend to 对应 平行语料库引言对翻译语言特征的系统描写出现在上世纪80年代至90年代。
这些方面的研究发现,译语语言通常会“偏离”(decenter)目的语而更靠向源语。
之所以出现偏离,是因为译语语言受到源语文本的干预,其中的一些语言形式明显偏离了目的语语言的一般模式。
如Blum-Kulka(1986)发现译语语言中衔接手段会受源语文本影响。
译语文本在产生过程中或多或少受到源语语言对目的语施加的影响,这样的译文语言通常被称为翻译腔。
但也有人认为,翻译语言是两种语言之间的“中间地带”。
这种处于中间阶段的语言在翻译理论中被称为“语际语”,既包含着源语的分析特征,也有目的语语篇的合成特征。
然而,对于翻译语言的研究要突破直觉和感性认识,就需要充分的语料支持。
因此,语料库语言学与描述翻译学的结合恰恰起到了推动作用。
Baker(1993)预见,语料库能收录大量源语文本及译语文本,辅以新的语料库研究方法,翻译学者能揭示译语文本的内在规律。
Tymoczko(1998)也表示基于语料库的翻译研究能使翻译学者查询并获得大量数据。
这些数据能帮助翻译学者更全面客观地描写和分析翻译语言。
随着众多英汉/汉英平行语料库的创建和应用,涌现出一批针对汉语翻译语言的研究。
其中,汉语翻译语言中词汇-句法特征受到广泛的关注。
秦洪武、王克非(2004)利用“北外通用汉英平行语料库”,发现“so…that”的主要对应形式是零对应,而非“如此……以致”等“前后对应”结构,且汉语原文中没有与“so…that”对应的固定结构;胡开宝(2009)基于莎士比亚戏剧翻译语料库,分析了“把”字句在《哈姆雷特》两个译本中的分布和应用,以及英语语句译为“把”字句的规律和特点,得出其动因分别为认知、句法和语用;胡显耀、曾佳(2010)基于“当代汉语翻译小说语料库”, “兰开斯特现代汉语语料库”及其汉语原创小说子库,分析了现代汉语翻译小说中“被”字句的使用频率及其对应结构,并指出汉语翻译语言中“被”字句体现出“传统化”的特征,即趋从和夸大汉语自身传统的趋势;许文胜、张柏然(2006)利用学英汉名著翻译语料库,对英汉因果关系连词的使用进行了对比分析;类似的研究还涉及“and”的汉语翻译、人称代词及连接词的翻译等。
基于英汉平行语料库的翻译语言分析
基于英汉平行语料库的翻译语言分析作者:邹涛来源:《校园英语·上旬》2016年第11期【摘要】本文基于英汉平行语料库,对“tend to + 动词”结构及其汉语译文对应结构进行检索和分析。
分析结果显示:1.存在该结构与“倾向于”的对应,但不是主要形式,主要对应形式是,“tend to”对应汉语概率及频率副词修饰不定式动词对应的汉语谓语;2.与该结构对应的“倾向于”可以替换成概率副词;3.有少数零对应和对应能愿动词的情况。
【关键词】翻译语言 tend to 对应平行语料库引言对翻译语言特征的系统描写出现在上世纪80年代至90年代。
这些方面的研究发现,译语语言通常会“偏离”(decenter)目的语而更靠向源语。
之所以出现偏离,是因为译语语言受到源语文本的干预,其中的一些语言形式明显偏离了目的语语言的一般模式。
如Blum-Kulka (1986)发现译语语言中衔接手段会受源语文本影响。
译语文本在产生过程中或多或少受到源语语言对目的语施加的影响,这样的译文语言通常被称为翻译腔。
但也有人认为,翻译语言是两种语言之间的“中间地带”。
这种处于中间阶段的语言在翻译理论中被称为“语际语”,既包含着源语的分析特征,也有目的语语篇的合成特征。
然而,对于翻译语言的研究要突破直觉和感性认识,就需要充分的语料支持。
因此,语料库语言学与描述翻译学的结合恰恰起到了推动作用。
Baker(1993)预见,语料库能收录大量源语文本及译语文本,辅以新的语料库研究方法,翻译学者能揭示译语文本的内在规律。
Tymoczko(1998)也表示基于语料库的翻译研究能使翻译学者查询并获得大量数据。
这些数据能帮助翻译学者更全面客观地描写和分析翻译语言。
随着众多英汉/汉英平行语料库的创建和应用,涌现出一批针对汉语翻译语言的研究。
其中,汉语翻译语言中词汇-句法特征受到广泛的关注。
秦洪武、王克非(2004)利用“北外通用汉英平行语料库”,发现“so…that”的主要对应形式是零对应,而非“如此……以致”等“前后对应”结构,且汉语原文中没有与“so…that”对应的固定结构;胡开宝(2009)基于莎士比亚戏剧翻译语料库,分析了“把”字句在《哈姆雷特》两个译本中的分布和应用,以及英语语句译为“把”字句的规律和特点,得出其动因分别为认知、句法和语用;胡显耀、曾佳(2010)基于“当代汉语翻译小说语料库”,“兰开斯特现代汉语语料库”及其汉语原创小说子库,分析了现代汉语翻译小说中“被”字句的使用频率及其对应结构,并指出汉语翻译语言中“被”字句体现出“传统化”的特征,即趋从和夸大汉语自身传统的趋势;许文胜、张柏然(2006)利用学英汉名著翻译语料库,对英汉因果关系连词的使用进行了对比分析;类似的研究还涉及“and”的汉语翻译、人称代词及连接词的翻译等。
基于语料库的英汉语比较与翻译考察
• 语言比较研究: 语言比较研究:
应用的(教学、翻译、双语词典研编) 应用的(教学、翻译、双语词典研编)
• 比较:纵向的(历时) 比较:纵向的(历时) • 横向的(共时) 横向的(共时) • 理论视角: 理论视角: • 传统语言学的 • 形式语言学的 • 功能语言学的 • 认知语言学的
近年语言对比倾向实证和依据语料库
• 从2008年第五届对比语言学大会(The Fifth 年第五届对比语言学大会( 年第五届对比语言学大会 International Contrastive linguistics Conference)200多篇论文看: ) 多篇论文看: 多篇论文看 • 句法 语义的比较研究占据大多数,约占全部论文 句法-语义的比较研究占据大多数 语义的比较研究占据大多数, 的60%,其次有语用语篇的分析,词汇学方面的 ,其次有语用语篇的分析, 比较研究等。 比较研究等。 • 具体实证研究占86%以上,宏观的理论研究少。 具体实证研究占 以上,宏观的理论研究少。 以上 • 基于语料库的研究日渐增多,已达 基于语料库的研究日渐增多,已达60%。 。
1)a With my present level (of French), I can not read French newspaper easily. • 1 ) b 以我现在的 ( 法语 ) 水平 , 我还不能轻松 以我现在的( 法语) 水平, 地读法文报纸。 地读法文报纸。 • 1)c 我的法语,看报很吃力。 我的法语,看报很吃力。 • • 2)a If you take this medicine, your illness will surely be cured. 你要是服用这个药,你的病肯定能治好。 • 2)b 你要是服用这个药,你的病肯定能治好。 • 2)c 这药吃了准好。 这药吃了准好。
如何将语料库中的词语和短语进行对齐,以帮助机器翻译系统进行翻译
如何将语料库中的词语和短语进行对齐,以帮助机器翻译系统进行翻译摘要:随着机器翻译技术的发展,研究人员越来越依赖于庞大的语料库来训练和提升翻译系统的性能。
然而,语料库中的词语和短语往往存在着不完全对齐的情况,这给机器翻译的质量带来很大挑战。
本文将介绍如何将语料库中的词语和短语进行对齐,以帮助机器翻译系统实现更准确、流畅的翻译。
引言:语言是人类思维和交流的重要工具,而机器翻译则是帮助人们进行语言交流的关键技术之一。
然而,不同语言之间的差异和复杂性使机器翻译面临很多挑战。
为了解决这些问题,研究人员通过构建庞大的语料库来训练和提升机器翻译系统的性能。
然而,语料库中的词语和短语通常存在着不完全对齐的情况,这对机器翻译的质量带来了很大的影响。
一、语料库中的词语和短语对齐问题在构建用于训练机器翻译系统的语料库时,常常需要从不同来源的文本中收集大量的句对数据,包括源语言文本和目标语言文本。
然而,语言之间的差异和表达方式的多样性导致了对齐问题的出现。
1. 词汇差异:不同语言之间的词汇差异是机器翻译中常见的挑战之一。
同一个概念在不同语言中可能有不同的表达方式,而且词语的顺序也可能不同。
当词语之间存在着不完全对应关系时,机器翻译系统很难准确地翻译文本。
2. 短语结构差异:除了词汇上的差异外,不同语言的短语结构以及语法规则也存在差异。
例如,英语中的形容词通常出现在名词前,而法语中的形容词通常出现在名词后。
这种差异导致了短语之间的不完全对齐问题,给机器翻译带来了困难。
二、对齐方法与技术为了解决语料库中词语和短语对齐的问题,研究人员提出了许多方法和技术。
以下是几种常用的对齐方法:1. 基于规则的对齐方法:基于规则的对齐方法依赖于预定义的规则和词典来对齐词语和短语。
这些规则可以从语言学知识或专业人员的经验中获取。
例如,可以使用词性标注和句法分析等技术来辅助对齐。
虽然这种方法易于理解和实现,但对于复杂的语言对和文本结构,规则往往不够灵活和全面。
论语料库与英汉词典配例
论语料库与英汉词典配例郭启新国外英语学习词典例证概况及其对语料库的应用国外的语文词典历来重视例证。
捷克词典学家兹古斯塔(L.Zgusta)认为,词条内的例子应看做是“整个词条不可分割的部分”。
他还说,绝对没有例子就会使得词典的质量严重降低(兹古斯塔,1983)。
以历史原则编纂的OED ( Oxford English Dictionary )搜罗了大量的用法实例自不待言。
针对英语作为第二语言读者的英语学习词典尤其如此。
以1995年英国出版的CEED ( Chambers Essential English Dictionary )、COBUILD ( Collins COBUILD English Dictionary ,2nd ed.)、LDOCE ( Longman Dictionary of Contemporary English ,3rd ed.)、OALD ( Oxford Advanced Learner s Dictionary of Current English ,5th ed.)和CIDE ( Cambridge International Dictionary of English )这些英语学习词典为例,它们更是让例证唱重头戏。
国外英语学习词典例证概况及其对语料库的应用国外的语文词典历来重视例证。
捷克词典学家兹古斯塔(L.Zgusta)认为,词条内的例子应看做是“整个词条不可分割的部分”。
他还说,绝对没有例子就会使得词典的质量严重降低(兹古斯塔,1983)。
以历史原则编纂的OED ( Oxford English Dictionary )搜罗了大量的用法实例自不待言。
针对英语作为第二语言读者的英语学习词典尤其如此。
以1995年英国出版的CEED ( Chambers Essential English Dictionary )、COBUILD ( Collins COBUILD English Dictionary ,2nd ed.)、LDOCE ( Longman Dictionary of Contemporary English ,3rd ed.)、OALD ( Oxford Advanced Learner s Dictionary of Current English ,5th ed.)和CIDE ( Cambridge International Dictionary of English )这些英语学习词典为例,它们更是让例证唱重头戏。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1.引言 受统计机器翻译成功应用的影响,当前一些从事机器翻译的研究机构为建立较好的语 言模型和翻译模型,搜集整理了一批双语语料,语料库越建越大;有的更进一步利用网络 爬虫等技术手段从互联网上获取了更多翻译语料来丰富语料库。然而建库本身并不是目的, 为较好地利用这些语言资源,于是更多检索工具也开发问世了。由于版权限制等各方面原 因,目前能够下载或在互联网上运行的双语语料库检索系统并不多见。即使部分能够运行, 检索界面也往往比较简单,比如只提供简单的中英文字词的语言内容查找,有些甚至没有 进行基本的英语词形还原,使得由于检索词和语料中的词语不一致造成的漏检现象频繁发 生。同时对检索的元属性限制条件,譬如翻译方向的汉译英、还是英译汉;语体特征的书 面语还是口语等属性检索基本没有提供。由于设计上的这些缺憾,使得以机器翻译为主的 语料库检索对面向翻译研究者和学习者的贡献打了一个折扣。 近年来,在国家社会科学基金项目和教育部人文社科重点研究基地重大项目的支持下, 我们初步建成了当今世界上经过专业人员校对、规模最大的汉英平衡对应语料库(王克非 2004) 。本着切实为翻译教学与研究服务的目的,我们设计了一个用户检索系统,希望通过 简单的人机交互接口,使得更多用户能够方便地获取利用这一宝贵的语言资源。最近我们 在北京外国语大学中国外语教育研究中心的“中国外语教研网”发布了一个 Web 版的原型检 索系统,以听取更多用户的意见和建议。 2.语料库的数据库转化设计 语料库作为海量语言事实材料的集合,一般来说,数量相对较大。采用一般的文件处 理系统难以管理。譬如我们创建的汉英对应语料库的总字数就以千万计。搜集本身不是目 的,更关键的是加工利用。对语料的处理既可以自行设计数据结构或采用专门软件进行管 理。 为简化开发时间,我们在汉英双语对应语料库平台中,采用关系型数据保存、管理、 检索语料。因为数据库本身具有良好的数据存储及管理与维护功能,方便后续语料库不断 追加;数据库还提供较好的检索二次开发接口设计,能在此基础上方便快捷地定制特定的
字段名 英文句 中文句 源语言 作者 篇名 类型 文体 语体 时代 段落 ID 句子 ID 文件名 类型 字符型(5000) 字符型(2000) 字符型(1) 字符型(50) 字符型(50) 字符型(1) 字符型(1) 字符型(1) 字符型(1) 数值型 数值型 字符型(50) 备注 一个英文句子不超过 5000 字母 一个中文句子不超过 2000 汉字 当前句子的源语言(英语或汉语) 当前句子的作者名 当前句子所在文本的篇名 当前句子所属的类型(取规定值之一) 当前句子所属的文体(取规定值之一) 当前句子所属的语体(取规定值之一) 当前句子所属的时代(取规定值之一) 当前句子所在段落相对全文偏移量 当前句子相对段落的偏移量 当前句子所在文件名
《中国英语教育》2009 年第 1 期,总第 23 期 English Education in China Number 1, 2009
汉英对应语料库翻译句对检索问题*
王克非, 熊文新
(北京外国语大学中国外语教育研究中心, 北京 10089)
提要: 英汉双语对应语料在经过对齐标注校对入库之后,便转化为可管理的数据库系统。 为使这一宝贵的语言资源能够更好地服务于翻译教学与翻译教学,我们制作了一个前端用 户访问后台数据库的服务接口,通过较好的人机交互界面,提供一个对双语语言事实进行 更多复合条件查询的检索系统。本文简要介绍这一系统的设计开发思想及其应用。 关键词: 汉英对应语料库;检索系统;翻译句对
《中国英语教育》2009 年第 1 期,总第 23 期 English Education in China Number 1, 2009 英文,抑或是两者混合;查询长度不一,既可能只有一个词语,也可能是若干个短语;查 询主体不同,可能是词,也可能是码,或是词加码的组合;查询性质不同,可能是需要在 目标句对中出现的词语,也有可能是不需要在目标句对中出现的过滤词。 词类赋码是一个封闭的标记集,这些标记可以悉数枚举,检索起来并不构成困难。用 户输入的查询词与实际在语料库中出现的词可能由于词形的不一致而造成漏检或误检。有 鉴于此,我们在本系统中分别采用模糊检索和词形还原来解决此类问题。 (1) 解决汉语分词不一致的模糊检索 为满足用户对词类的检索,数据库中存储的中文句子都是已经过分词和词类赋码的文 本,汉语词之间都已经添加了空格,并且每个词之后都缀上了相应的词类码。因此有可能 出现语料库中分词系统切分出来的词语与普通用户输入词语不一致的情况。譬如假定用户 输入字符串“中国人民解放军”,认定这是一个词,因此没有以空格隔开。而在语料库中,串 “中国人民解放军”实际被切分成“中国_np 人民_n 解放军_n”等三个“词+码”的子串拼接形 式。这样将检索不到用户希望得到的句对。由用户和分词系统对词的认识不一致,采用字 符严格匹配的方式容易导致漏检。 我们的处理策略是,首先将查询字符串拆解,汉语以单字、英语以单词为基本单位; 对各基本单位后采用正则表达式加接 0 或 1 个词类编码形式,构造新的基本单位;然后再 拼接各基本单位构造新的查询表达式,这样能够检索得到与原查询串基本单位序列相同并 且字形一致但可能被打散或整合的汉语句子,以防止对分词理解不同造成的漏检。应该注 意的是,这种处理也有可能误检出基本单位字形相同并且排列相同但实际并非用户希望检 出的句子。如假定要检索“华人”,切分查询串为字后,语料库中的“中华人民共和国”将被检 出。因此模糊检索是强调检出率优先的可靠选择,适用于用户追求全面结果,不希望有任 何遗漏,然后再人工逐一检查这样一种后处理。 (2) 解决英语词语匹配不一致的词形还原 作为一种形态相对比较丰富的语言,英语的词形变化可能导致字符串匹配的困难。譬 如可数名词有单复数的屈折变化;动词也有现在分词、过去分词及过去完成式等各种不规 则变化形式。因此,对用户输入的英语查询串,需要有个词形还原形式。假定输入的是词 典词的原型形式,则需将其在实际文本中可能呈现的其他屈折变化形式都能检索出来。譬 如待查询的是原型动词“go”, 则需要将实际例句中可能出现的 going/went/gone 等其他变体 形式也包罗进来。 我们建造了一个包含 4 万个词语及其相应不规则形式的词表,包括词典词的原型及其 衍生出来的名词单复数、动词时态还有形容词比较级及最高级等形态变化。采用查词表的 方式对输入查询串中的英语词尝试进行扩展。其中新扩展的词语与原查询串中的原型词之 间保留逻辑上的“或”关系,即在语料库的句子中只要能找到原词或其扩展词的任意其一,都 将视作对查询条件的满足。 3.2 Web 和桌面应用程序设计 目前我们实现了两种检索方式的雏形,一是网络查询,是桌面查询。前者通过 Web 浏 览器联网注册成为用户后,登录指定网站,根据界面指导完成查询工作;后者采用光盘将 系统安装在用户计算机桌面使用,通过用户图形界面检索。 网络版检索系统在后台选用开源数据库 MySQL 作为语料库的管理查询工具, 前端采用 脚本语言 Php 制作用户交互式的 Web 查询界面。 通过文本框接受用户输入, 下拉框的设计 用来接受用户对特定属性的限制,构造一个可直接对数据库检索的查询语句,并将执行结 果输出到用户浏览器页面。其中用户指定的查询词语将以高亮形式凸显。这是典型的瘦客 户端工作方式。用户自身的计算机无需安装特别的程序或其他系统,只要浏览器能联网就 能访问建好的双语对应语料库系统。相应的缺陷是对服务器负担较重,如果某一时段的并
图 版用户查询 图 5 和图 6 分别显示 Web 和桌面应用下的查询实例。 其中, Web 方式显示的是用户查询“克
《中国英语教育》2009 年第 1 期,总第 23 期 English Education in China Number 1, 2009 服 困难 difficulty overcome”,系统设计查询串的所有原子之间缺省为逻辑“并”的关系,因 此所有中文句子带有“克服 困难”并且对应的英文句子带有“overcome difficulty”等词形的实 例将作为结果输出,同时这些查询词语将高亮显示,其中英语词可能的其他变体形式,如 overcame 和 difficulties 等视作查询原词。桌面应用程序显示的是用户查询“克服 困难 -overcome difficulty”,根据系统设计前加“-”的查询词语被视作排除词,将被过滤,因此所 有中文句子含有“克服 困难”而相应的英文句子带有“difficulty”,没有“overcome”的句对将被 检索出来。 采用这种限制方式, 能够检索出汉语“克服困难”在“困难”翻译成“difficulty”的时候, “克服”还可以用除 overcome 之外英语翻译。 4.汉英翻译单位的对应检索 在将句子层面的对齐语料库转换为数据库后,借助用户图形界面,人们就能方便地利 用 SQL 语言进行各种组合条件的全方面查询。元属性的限制条件通常是一个确定值或多个 确定值的组合。 确定值是二选一或多选一, 比如翻译对的属性值是{英译汉, 汉译英}取其一; 时代属性值是{20 世纪前, 20 世纪上半期, 20 世纪下半期}取其一。 对语言及翻译形式的检索 则相对复杂。 当前针对翻译的查询方式主要有两种: (1)语言学意义上的单语词或词与码的结合, 如检索“研究”做动词和名词翻译成英语时采用什么样的译法。 (2)翻译研究意义上的源语言 和目标语言之间的对应单元不同译法的检索,譬如中英文词语混合检索及出现与否的检索。 除了一些固定用法及成语(idiom)只能借助词典编码外,大多数翻译是按照源语言的组 合方式,在目标语言中将与源语言对应的翻译单位重新组合而成,其中语法(如动宾关系) 语义(如施事受事关系)等限制条件保持不变。以下以汉语动宾结构“克服 困难”为例介绍 如何应用我们开发的检索工具,在英译汉及汉译英的翻译文本中检索相关的语言翻译现象, 现在假定对文体、时代等其他任何元属性不做任何限制。语料规模为 200 万中英文字词。
《中国英语教育》2009 年第 1 期,总第 23 期 English Education in China Number 1, 2009 发访问过多则有可能造成服务器宕机;另外对用户的网络连接速度要求也较高,否则有可 能因访问超时浏览器停止工作。 至于单机版检索系统,我们曾在项目组内部采用 C#和嵌入式数据库 Sqlite 在微软 DotNet Framework 平台下完成了一个集语料校对、 数据入库等内部处理和查询检索等外部 工作为一体的开发平台。查询界面与 Web 方式基本相同,也是通过文本框和下拉框实现用 户输入查询串和选择元属性,经由程序将用户输入内容翻译为等价 SQL 命令语句,将结果 高亮呈现在浏览器 webBrowser 控件中。