语料库与翻译学24页PPT
双语语料库建设PPT课件
第22页/共24页
搭配统计分析
2-Left 2 his 2 perpetuate 2 to 1 officer 1 perpetuating 1 peretuation
1-Left 2 present 1 any 1 give 1 in 1 of 1 perpetuate 1 such 1 the
第10页/共24页
整理目标
• 1) 格式统一; • 2) 篇章级对齐; • 3) 消除噪音信息;
第11页/共24页
语料库编码
• CES和TEI(基于SGML),很复杂 • 我们也曾经提出一个基于XML的编码方案
第12页/共24页
基于XML的编码方案
(1)标记文本结 构
(2)标记切词、 词性等
(3)各个层级的 对齐关系
• 双语语料库建设 为机器翻译研究服务,同时兼顾其它应用类型
第8页/共24页
双语语料库建设的三个层次
• 1) 语料库收集、整理和编码 • 2) 语料库对齐和加工 • 3) 语料库的呈现和应用
第9页/共24页
语料库整理
• 语料的存放方式各异 • 语料的文件格式不同 • 语料中有不利于加工的噪音信息 • 语料的文体、领域、语式、创作时期不同 • ……
<p
id=2><a
id=2
no=1><s
id=1><Time>January
12,
1938</Time></s></a></p>
<p id=3><a id=3 no=1><s id=1><Subtitle>I</Subtitle></s></a></p>
语料库的研究PPT
词类标注
句法树库 已完成5000万字词语切分和词类标注语料库
201308041041 0109
语料库标注加工
语料库加工软件系统
分词词表
201308041041
0109
现代汉语词语切分歧义数据库
歧义点,歧义类型,歧义消解结果 基于国家语委语料库 2002, 863项目 1亿字 基于国家语委语料库选材原则 网络电子文本为主 段落级XML标注
刊物
• 每本刊物上所选的总字数原则上不超过5000字。样 本容量2000字,允许±500字的伸缩。
201308041041 0109
对同一版面的不同文章,按从上至下、从左到右 的顺序选取。 一个样本必为同一作者的同一篇文章,限字数不 限样本数(报刊除外)。 每个样本之中必为连续的语料内容。 应用文(包括广告、说明书等)
201308041041
0109
设计样本分布
科 目
表一:人文与社会科学类
比 例 字 数 1919-1925 1926-1949 1950-1965 1966-1976 19775% 15% 37.5 37.5 37.5 37.5 37.5 225 37.5 201308041041 25% 62.5 62.5 62.5 62.5 62.5 375 62.5 5% 12.5 12.5 12.5 12.5 12.5 75 12.5 50% 125 125 125 125 125 750 125 0109
2000字以内的应用文宜整篇选用。对于篇幅较长的应 用文,所选样本的容量为2000字,允许±500字的伸缩。
201308041041
《国家语委语料库》课件
语料库的共享机制和平台
添加 标题
国家语委语料库的共享机制:介绍语料库的共 享机制,包括共享方式、共享范围、共享内容 等。
添加 标题
国家语委语料库的合作平台:介绍语料库的合 作平台,包括合作方式、合作内容、合作对象 等。
添加 标题
国家语委语料库的共享和合作的意义:介绍语 料库的共享和合作的意义,包括促进语言研究、 推动语言教育、促进文化交流等。
• 案例3:国家语委语料库在语言规划中的应用 • 提供数据支持,为国家制定语言政策提供科学依据。 • 促进语言的规范化、标准化,提高语言的交际效率。 • 推动语言的健康发展,促进社会的和谐稳定。 案例4:国家语委语料库在文化传承中的应用
• 案例4:国家语委语料库在文化传承中的应用 • 保存和传承文化遗产,为后人留下宝贵的文化遗产。 • 促进文化的交流与传播,推动文化的多元化发展。 • 推动文化的创新与发展,为现代社会注入新的文化元素。
添加 标题
国家语委语料库的未来发展:介绍语料库的未 来发展,包括扩大语料库规模、提高语料库质 量、加强语料库应用等。
语料库的合作模式和案例
• 合作模式:国家语委语料库与高校、研究机构等合作,共同开展语言研究、教学等工作。 • 案例:国家语委语料库与某高校合作,共同开展汉语词汇研究,为汉语教学提供支持。 语料库的共享和合作
数字化语料库的建设和发展
数字化语料库的背 景和意义
数字化语料库的建 设过程
数字化语料库的智 能化发展
数字化语料库的应智能化语料库的定义和特 点
智能化语料库的应用场景
智能化语料库的发展趋势
智能化语料库的未来展望
未来数字化和智能化语料库的趋势
添加标题
数字化语料库的全面升级:随着技术的不断发展,数字化语料库将更加全面、高效地升级, 实现更加精准、快速的数据检索和分析。
语料库ppt课件
• 从研究路径上看,基于语料库的译学研究表现为 自上而下和自下而上方法相结合的特征,而语料 库驱动的译学研究主要采用自下而上的方法。
三:什么是语料库翻译学
• 语料库翻译学是指采用语料库方法,在观 察大量翻译事实或翻译现象并进行相关数 据统计的基础上,系统分析翻译本质和翻 译过程的研究。
四:语料库翻译学的发展
• 语料库翻译学的发展相当迅速。许多翻译 语料库、平行语料库和可比语料库先后建 成并投入使用,如:
• 翻译英语语料库(Translation English Corpus)
• 2)提取研究所需的语料和数据,进行数据统计和 分析;(自下而上)
• 3)描写数据所反映的总体特征和趋势,归纳出关 于某一翻译事实或翻译现象的结论;(自下而上)
• 4)解释有关翻译事实的成因。(自下而上)
• 语料库驱动的译学研究所采取的步骤与基于语料 库的译学大体相同,不过没有后者的第一个研究 步骤。
studied both quantitatively and qualitatively
二:语料库的分类
• Specialized corpus • General corpus • Comparable corpus • Parallel corpora • learner corpus • Pedagogical corpus • Historical/diachronic corpus • Monitor corpus
4)定量研究方法的应用
• 定量研究方法是指提取关于研究对象的数据,并 对数据进行检验和分析,以测定关于研究对象特 征的数值或求出因素间量的变化规律,以获取有 意义的结论。
国内语料库翻译学
详细描述
翻译错误分析研究通常包括对翻译文本进行 对比分析、错误标注和分类,以及解释错误 产生的原因和对译文质量的影响。此外,该 研究还涉及对不同类型翻译错误的分布和频 率进行统计和分析,以发现翻译过程中的普 遍问题和难点。这些研究结果可以为翻译教
育、培训和评估提供有益的参考和指导。
基于语料库的翻译风格对比研究
基于语料库的口译质量评估研究
总结词
口译质量评估是语料库翻译学的新兴研究领域,通过对 口译语料库进行分析和评估,可以客观地评价口译员的 翻译质量和工作表现,为提高口译教学和评估水平提供 有益的指导。
详细描述
口译质量评估研究通常采用实验设计和数据分析方法, 通过对口译语料库进行录音转写、标注、分析和评估, 以客观地评价口译员的翻译质量和工作表现。该研究可 以采用自动化评估和人工评估相结合的方式,通过对口 译语料的语音、语调、词汇、语法等方面进行分析,以 实现对口译质量的全面评估和准确评价。这些研究成果 可以为口译教学、培训和评估提供有益的参考和指导。
国内语料库翻译学
2023-11-06
contents
目录
• 语料库翻译学概述 • 语料库的建立与使用 • 翻译理论与研究 • 语料库翻译学的实践与应用 • 语料库翻译学的挑战与未来发展 • 语料库翻译学案例分析
01
语料库翻译学概述
定义与特点
定义
语料库翻译学是以语料库为基础,对翻译现象进行描述和分析的学科。它通过收集和分析大量的翻译文本,研 究翻译规律、翻译策略和翻译方法。
在20世纪末和21世纪初,随着全球化 和跨文化交流的加速,翻译需求不断 增加,语料库翻译学得到了进一步的 发展和应用。在这个时期,研究者们 开始将语料库方法应用于翻译研究, 通过对大量翻译文本的分析和比较, 探讨翻译规律和策略。
语料库与翻译
语料库与翻译语料库的翻译研究室20世纪90年代兴起的全新研究模式。
语料库不仅为纯翻译研究提供了有力的工具,而且语料库在翻译过程、翻译教学、翻译研究中充当的角色也越来越重,发挥的作用也越来越大。
本为将对语料库的分类,及语料库在翻译过程、翻译教学、翻译研究中的作用一一描述,并进行概括。
【关键词】语料库;翻译;教学;研究一、语料库的分类语料库,依据它的研究目的和用途进行分类,课分为四类:①异质的(Heterogeneous):即没有特定的语料收集原则,广泛收集并原样存储的各种语料;②同质的(Homogeneous):只收集同一类内容的语料;③系统的(Systematic):根据预先确定的原则和比例进行语料收集,是语料具有平衡性和系统性,能够代表某一范围内的预言的事实性;④专用的(Specialized):只收集用于某种特定用途的语料。
另外,按照语料的语种,语料库也可以分为单语的(Monolingual)、双语的(Bilingual)和多语的(Multilingual).按照语料的采集单位,语料库又可以分为语篇的、语句的、短语的。
双语的和多语的语料库按照语料的组织形式,还可以分为平行(对齐)语料库和比较语料库,前者的语料构成译文关系,多用于机器分宜、双语词典编撰等应用领域,后者将表述同样内容哦那个的不同语言文本收集到一起,多用于语言对比研究。
二、语料库对翻译的辅助语料库,尤其是双语语料库,能为英汉翻译提供巨大真实的参考译文质量,从而帮助译者改进译文质量。
同时,双语语料库,双语语料库中的大量对应文本还有助于进一步认识和研究翻译过程。
对于翻译实践来说,双语语料库还可以作为翻译人员的参考工具,帮助议员提高翻译质量和效率。
具体而言,英汉双语语料库在英汉翻译教学中的应用主要有三种:1、在英汉翻译过程中检验搭配组合是否恰当。
词与词的搭配对于产出自然地道的英语及其重要,在英汉翻译教学中,双语语料库对培养学生的搭配能力有着至关重要的作用。
语料库语言学PPT
用途
第一个大型计算机语料库
以计算机自动化处理方式获取SEU语 料库的英语口语原始语料
SEU
LLC BROWN LOB COBUILD LONGMAN
1959年起
1975-1981 1960s 1970s 1980s 1988-1990
100万
50万 100万 100万 3.2亿 2800万
口语 书面语 书面语
语料库语言学的发展史
一般以乔姆斯基(N.Chomsky)转换生成 语法的兴衰史为参照点,将语料库语言学 的发展史大致分为三个时期: • 早期的语料库语言学 • 乔姆斯基的转换生成语法时期 • 语料库语言学的复苏时期
早期的语料库语言学
早期的语料库语言学是指20世纪50年代中期以前, 即以乔姆斯基提出转换生成语法理论之前的所有 基于语言材料的语言研究。在50年代,语料库语 言学曾被广泛使用,主要集中体现在以下几个方 面: 1)语言习得 2)方言学 3)语言教学 4)句法和语义 5)音系研究
基于语料库的方法 corpus-based approach
• 由研究者根据以往的语言研究成果或对语言的认 识,首先提出假设,然后到语料库中去验证假设。 假设是否成立取决于语料库中的语言实例。基于 语料库的研究方法以概率为基础,是统计学和实 证研究方法在语料库语言学领域的具体应用。 17
语料库驱动的方法 corpus-driven approach
语料库研究方法的局限性
• • • • (1)语料库语言学理论尚需要体系化和简约化。 (2)其研究思路和方法存在一定的分歧。 (3)分析方法和技术需要进一步突破 (4)语料库研究的应用尚需要更深入的探讨。
国内语料库研究的局限性
(1)缺乏应有的精密分析过程,显示不出应有的分析力 量(analytical power)。 (2)一些研究将事实与译论混在一起,将语料库数据与 直觉数据杂合,宏观概述多而语境分析少。 (3)数据与观察与结论之间,不同理论之间跳跃大,缺 失环节多,没有语料库语言学所熟悉的范式特征。
语料库翻译学讲习班语料库翻译学概论课件
语料库可以提供不同版本的翻译对比,帮助学生理解不同翻译风格 的差异,提高对翻译评价和鉴赏的能力。
基于语料库的翻译实践研究
1 2
探究翻译普遍规律
通过分析大量语料,可以总结出翻译中的普遍规 律和趋势,为翻译实践提供指导和借鉴。
发现特殊译法和技巧
基于语料库的翻译实践研究有助于发现一些特殊 的译法和技巧,丰富翻译方法和策略。
发展历程
早期阶段
20世纪90年代初,随着计算机技术的 普及,学者们开始尝试利用计算机技 术进行翻译研究。
发展阶段
成熟阶段
近年来,随着大数据和人工智能技术 的不断发展,语料库翻译学的研究更 加深入和广泛,逐渐成为翻译学领域 的重要分支。
20世纪90年代末至21世纪初,随着语 料库技术的不断完善,越来越多的学 者开始关注语料库翻译学的研究。
下的意义和用法。
社会学视角
从社会学的视角出发,基于语料 库的翻译研究可以探究社会因素 对翻译的影响,以及翻译在社会
文化交流中的作用。
心理学视角
从心理学的视角出发,基于语料 库的翻译研究可以探究译者的认 知过程和心理活动,以及译者在
翻译过程中的决策和策略。
THANKS
感谢观看
研究领域与方向
研究领域
语料库翻译学的研究领域包括翻 译语言特征、翻译过程、翻译方 法、翻译教学等方面。
研究方向
目前,语料库翻译学的研究方向 主要包括基于语料库的翻译语言 研究、机器翻译与人工翻译的对 比研究、翻译教学研究等。
02
语料库的构建与使用
Chapter
语料库的分类
01
通用语料库
收集各种领域和语境 下的语言数据,用于 语言学研究和自然语 言处理。
汉语中介语语料库介绍幻灯片PPT
四 常用中介语语料库
〔一〕北语HSK动态作文语料库 〔二〕中山大学中介语语料库 〔三〕暨南大学中介语语料库
〔一〕北语HSK动态作文语料库
北语HSK作文语料库是在北京语言大学崔希亮教授的主持下开发建 成的。它以母语为非汉语的外国人参加高等汉语水平考试 ( HSK高等 ) 作文考试的答卷内容为语料,并从字、词、句、篇、标点符号等角度进展 全面标注,语料收集的时间范围是 1992 -2005年。语料总数到达11569 篇 ,共计 424万字,是目前汉语中介语语料库中规模最大的语料库。北 语HSK作文语料库是最早在网上公布偏误标注标准的中介语语料库,因 此之后的许多语料库在进展偏误分类标注时,都以它为根底,做适当的 修改。
“汉字偏误标注版〞是只有错别字标注的语料,但也可供用户进展一般的 词汇语言搜索,同时可以供大家对汉字偏误进展分析研究。 “错字数据库〞是该库一大重要特色。错字数据库中收集了语料库中的所 有错字使用情 况,可供大家查询、分析。“汉字标注版〞截止 2021 年 8 月 共有大约 310 万字,目前还在不 断增加更新改善。本语料库收集的主要 是中山大学国际汉语学院留学生日常作文和综合课的写话,语料涵盖初、 中、高级阶段,但因为初级阶段的学生本身输出就少,收集困难度高,所 以初级水平的 语料偏少,中级较多,高级最多。
其中现代汉语语料库和古代汉语语料库主要是面向汉语研究和教学使 用的大规模语料库及其在线检索系统。目前该语料库收集了大约4.77亿 字语料,现代汉语和古代汉语大体上各占一半。现代汉语语料库主要收 录1696部作品,9711字的查询。古代汉语语料库,涉及从周代到民国 时期,22580字的查询。该语料库主要特色包括: 可以查询不连续的词语,可以指定词语之间的距离〔比方“帮… 忙〞〕;可以查询汉语特有的重叠模式;支持对标点符号的查询等等。
基于语料库的翻译研究ppt课件
4. Conclusions
— Corpus-based Interpreting Studies are still at a less advanced stage of development than Corpus-based (written) Translation studies.
• Early attempts
2. CIS: an overview
2.2 ‘Manual’ corpora and early machine-readable corpora
—based on relatively small samples —not available in electronic form —use different transcription conventions
—the audio/video recordings and transcripts are not directly
available to the scientific community
• Early machine-readable corpora
—Television Interpreting Corpus (TIC) created by Cencini (2000) —a parallel corpus and a comparable corpus created by Fumagalli (1999-2000)
—Variables should be concerned
• The type of interpreter-mediated event • Interpreting mode • Speakers and speeches • The target audience • Interpreters
《语料库语言学》PPT课件
语料库研究方法的局限性
• (1)语料库语言学理论尚需要体系化和简约化。 • (2)其研究思路和方法存在一定的分歧。 • (3)分析方法和技术需要进一步突破 • (4)语料库研究的应用尚需要更深入的探讨。
国内语料库研究的局限性
(1)缺乏应有的精密分析过程,显示不出应有的分析力 量(analytical power)。
而对语料库标准化提出的更高要求。
•
检索实例
参考文献
• /
• /
• 杨惠中等:语料库语言学导论 上海外语教育出版社 2002
• 梁茂成,李文中,许家金: 语料库应用教程 外语教育与研究出版社
2010
• Kennedy, G. 语料库语言学入门 外语教育与研究出版社
LLC
1975-1981 50万
BROWN
1960s
100万
LOB
1970s
100万
COBUILD 1980s
3.2亿
LONGMAN 1988-1990 2800万
BNC
1991-1995 1亿
ICE
1988年起 2000万
语料
用途
书面语50% 口语50%
口语
第一个大型计算机语料库
以计算机自动化处理方式获取SEU语 料库的英语口语原始语料
静态和监控语料库译语学习者语料库国外语料库的介绍类型时间容量语料用途seu1959年起100万书面语50口语50第一个大型计算机语料库llc1975198150万口语以计算机自动化处理方式获取seu语料库的英语口语原始语料brown1960s100万书面语研究当代美国英语lob1970s100万书面语研究当代英国英语cobuild1980s32亿书面语75口语25在语料库支持下从事词典学研究longman198819902800万书面和口语编纂词典和供学术界使用bnc199119951亿书面语90口语10其口语语料库可以精细分析语音研究ice1988年起2000万书面语40口语60对讲英语的不同国家的英语进行对比研究国内语料库介绍????汉语现代文学作品语料库1979年527万字武汉大学现代汉语语料库1983年2000万字北京航空航天大学现代汉语词频统计语料库1983年182万字北京语言大学台湾中央研究院平衡语料库500万词是世界上第一个带有完整词类标记的汉语平衡语料库
语料库翻译学
语料库翻译学一引言二语料库/语料库翻译学三语料库翻译学的研究内容四Content译学研究语料库的种类一、引言Example:Start or begin?在口语中哪个更常用?在BNC等语料库中查到,在口语中,start更常用。
一、引言◆在口头表达、写作或翻译中如何确定某些用法是地道的?◆学习者一般要有多大词汇量才能读懂英文报纸?◆哪些是商务英语中最常用的单词和短语?◆某种考试中,哪些单词、词组等语言现象出现频率偏高?◆如何通过量化统计来分析文学作品的写作风格?语料库的方法基于真实的语言使用情况。
一、引言语料库具有以下特征:➢语料库建设有系统的语言学理论为指导,开发有明确又具体的目的。
➢语料是按照明确的语言学原则采用随机抽样的方法得到的语言运用的自然语料,不是随意的语言材料的堆积,更不是由某人杜撰的。
语料库的容量和语料采用方法保证了语料具有代表性,也由此保证语料库的语言研究科学性、客观性。
一、引言➢语料库以先进的计算机技术为技术手段,语料通过电子文本形式存储并且是通过计算机处理的,具有资源优势和处理速度优势。
➢基于语料库的研究以量化研究为基石,以概率统计为手段,以数据驱动为基本理念。
➢语料库既是一种研究方法,又代表着一种新的研究思维。
二、语料库通俗意义:语言材料库严格意义:语料库是指按照一定的语言学原则,运用随机抽样方法,收集自然出现的连续的语言运用文本或话语片断而建成的具有一定容量的大型电子文本库。
以语料库为基础,真实的双语语料或翻译语料为研究对象,数据统计和理论分析为研究方法,依据语言学、文学和文化理论及翻译理论,系统分析翻译本质、翻译过程和翻译现象等内容的研究。
语料库翻译学语料库语料库建设有特定研究目的和具体用途,在语料抽样范围和文类覆盖方面力求平衡,在收集语料时需要考虑到每一文类、体裁、语域、主题类型等的抽样比例。
大型电子文档目标在于搜集任何可获得的语言材料或所限定的语种文类语料,其语言材料之间关系松散。
语料库翻译学讲习班语料库翻译学概论.正式版PPT文档
Shanghai Jiao Tong University
二、 背景
1)语料库语言学
语料库语言学主张语言研究应以真实语料为基 础,描写语言使用的客观规律。
语料库语言学形成于20世纪50年代前期。
50年代中期,乔姆斯基理论和笛卡尔的理性 主义占了上风,经验主义思想受到压制,作为经 验主义产物的语料库语言学自然陷入停滞状态。
Ge Lingling
因此,质有必。要开她展(语料1库9驱9动6的:翻译1学7研5究-1,7以6拓)展语强料库调翻语译学料研究库的翻深度译和广学度研。 究的最终目的在于探 2基)于语平料讨行库语翻翻料译库译学的论语术著语言的自发动规表抽与律取出及及版双语其术内语词在典编动纂因研究,以及对翻译文本特征产生影响的各种因 R数e字ig可em素作(为,)对强齐语调成料原分文的库和标记译在。文译之间学的平研行究对齐中处理的应应注意用两个具个体参数表: 现1)锚在点译词汇者表,风即格重要和常见翻词译汇的共双语性词研表,究2)等专用词汇和 领域。 Jennifer Pearson(2003)指出,平行语料库可用于揭示职业译者采取的翻译策略,帮助学生解决所遇到的翻译问题,形成自己的翻译
原则,而可比语料库可用于检查译文中术语和搭配的应用是否符合语言规范,解释具体翻译问题的解决是否合理、妥当。
2法)的根综据合S运ar用a L,2a是v)io定sa根性-B研r据a究iw和aSit定ae的量ra观研点究L,的a语v有i料机o库结s翻合a译。-B学r的a主iw要研a究it内e容的是观各类点翻译,现语象的料特征库,翻研究译方法学是的自下主而上要方研法和自上而下方 Size of究dat内a (la容rge是) 各类- 翻译现+/- 象的+特征,研究方法是自下而上方法和自上而下方