语料库简单dye 第二讲

合集下载

语料库2——精选推荐

语料库2——精选推荐

语料库2由于语料库⽂体学特别注重⽂学语篇语⾔特征的分析, 到⽬前为⽌,基于语料库的⽂学语篇语⾔⽂体特征的分析主要集中在以下⼏个⽅⾯:1.利⽤语料库的词汇统计原理识别某个语篇的作者 2.主题词(Key Words)分析:对语篇的关键词进⾏统计,得出关于该语篇的主题相关性;3.两种语⾔风格对⽐:以平⾏语料库的⽅法对不同作家或同⼀作家不同时期⽂学语篇、不同作家的同类语篇或⽂体特征进⾏⽐较研究;4.⽂学⼿段如象征⼿法等的运⽤;5.利⽤词汇频率(包括使⽤频率、覆盖率和分布率)的统计对⽂学⽂本进⾏体裁特征及体裁差异分析;6.词语搭配(修辞搭配、异常搭配等)的⽂体意义分析。

语料库⽂体学:⽂学⽂体学研究的新途径对⽂学作品主题、⼈物形象的塑造、叙事的发展以及作家风格等进⾏研究。

纵观⽂学⽂体的语料库研究,根据研究⾓度的不同,⼤致可分为以下三个主要研究领域:1)以个体语⾔特征的⽂体研究为⽬的的语料库标注和分析;2)对作品主题的语⾔表现⽅式的研究;3)作家风格研究搭配研究可以⽤于语⾔创造性使⽤、⽂体变异、作家风格等研究⽬的《警察与赞美诗》的语料库检索分析⽤语料库⽅法分析美国⼩说家欧·亨利的⼩说《警察与赞美诗》,能揭⽰⼩说的情节、⼈物的塑造及作者的写作技巧。

最近⼏年来语料库语⾔学正以其独特的优势得以迅猛发展,语料库(Corpus)被⼴泛应⽤于与语⾔相关的各个领域。

语料库检索软件(Concordancer)在语⾔学领域,尤其是在⽂本分析中已被⼴泛使⽤。

语料库检索结果就是在语料库中抽取⼀个⽂本的⼀个检索词班代及其出现的语境按字母顺序罗列出来,语料库检索软件是提供这些词的罗列结果的系统。

它使⽤既简单⼜省时,因为它可以快速有效地显⽰出检索词的搭配词频。

作为⼀种建⽴在庞⼤的数据基础上的极有威⼒的假设检验设置,语料库索引可以使⽂本隐含的结构显现出来,同时⼜激发⼈的想像⼒,并能检验⽂本对读者的感染⼒,具有很强的客观检验性。

语⾔学并不是语料库检索软件应⽤的惟⼀领域,它也可以⽤于⽂学批评领域来分析⽂学⽂本。

语料库的研究PPT

语料库的研究PPT


词类标注


句法树库 已完成5000万字词语切分和词类标注语料库
201308041041 0109

语料库标注加工

语料库加工软件系统
分词词表

201308041041
0109

现代汉语词语切分歧义数据库

歧义点,歧义类型,歧义消解结果 基于国家语委语料库 2002, 863项目 1亿字 基于国家语委语料库选材原则 网络电子文本为主 段落级XML标注

刊物
• 每本刊物上所选的总字数原则上不超过5000字。样 本容量2000字,允许±500字的伸缩。
201308041041 0109



对同一版面的不同文章,按从上至下、从左到右 的顺序选取。 一个样本必为同一作者的同一篇文章,限字数不 限样本数(报刊除外)。 每个样本之中必为连续的语料内容。 应用文(包括广告、说明书等)
201308041041
0109
设计样本分布

科 目
表一:人文与社会科学类
比 例 字 数 1919-1925 1926-1949 1950-1965 1966-1976 19775% 15% 37.5 37.5 37.5 37.5 37.5 225 37.5 201308041041 25% 62.5 62.5 62.5 62.5 62.5 375 62.5 5% 12.5 12.5 12.5 12.5 12.5 75 12.5 50% 125 125 125 125 125 750 125 0109

2000字以内的应用文宜整篇选用。对于篇幅较长的应 用文,所选样本的容量为2000字,允许±500字的伸缩。
201308041041

语料库概念

语料库概念

语料库概念
嘿,朋友!咱今天来聊聊语料库这个听起来有点专业,但其实挺有意思的东西。

你知道吗,语料库就像是一个超级大的语言宝库。

想象一下,有一个巨大的仓库,里面堆满了各种各样的语言材料,有文章、句子、单词,就像一个装满了宝贝的百宝箱。

比如说,你写一篇文章,想知道某个词常见的用法和搭配,这时候语料库就能帮上大忙啦!它就像一位知识渊博的老师,能给你准确又实用的建议。

语料库可不是随随便便收集的一些文字哦。

它得经过精心的挑选和整理,就跟咱们整理自己的衣柜一样,把合适的放一起,不合适的扔掉。

而且,不同类型的语料库还有不同的用途呢!
有的语料库专门收集学术文章,那对于做研究的人来说,简直是如获至宝。

有的呢,收集日常的口语表达,能让你学到最地道的交流方式。

再打个比方,语料库就像一本超级详细的菜谱。

你想做一道美味的菜肴,菜谱告诉你需要什么食材,怎么搭配,怎么做。

语料库也是这样,告诉你语言怎么用才能更准确、更生动。

而且呀,语料库还在不断发展壮大。

随着互联网的发展,新的语言
不断涌现,语料库也在不停地更新,就像我们的生活一直在变化一样。

你想想,如果没有语料库,我们学习语言得多费劲呀!就像在黑暗
中摸索,不知道方向。

语料库对于语言学习和研究的重要性,那可真是不言而喻。

它能帮
助我们提高语言表达能力,让我们的文字更有魅力。

所以说,朋友,可别小看了这个语料库,它可是我们在语言世界里
的好帮手,能让我们的语言之路更加顺畅,更加精彩!。

当代大学生普通话水平测试语料库建立

当代大学生普通话水平测试语料库建立

当代大学生普通话水平测试语料库建立为了建立当代大学生普通话水平测试语料库,我们收集并整理了以下2000字的语料库,以供测试使用:第一部分:听力理解1. 听力理解测试将包括听取两段录音,并根据问题回答问题。

录音1:你好,我是王小明,来自北京。

我现在在上海读大学。

我学的是经济学,我很喜欢我的专业。

我平时喜欢听音乐,打篮球和跑步。

我觉得学习之余,还要有充实的课外生活。

我觉得大学生活很丰富多彩,我很享受大学生活。

录音2:大家好,我是李华,来自广州。

我在上海读大学,学的是计算机科学。

我对编程特别感兴趣,我平时喜欢写代码和做项目。

我觉得计算机科学是一个非常有前景的专业,对我的未来发展很有帮助。

我觉得大学生活是我人生中最美好的时光。

问题1:王小明的专业是什么?问题2:李华来自哪里?第二部分:口语表达2. 口语表达测试将包括两个话题,学生需要根据话题进行口语表达。

话题1:我的家乡,话题2:我的未来规划。

话题1:我来自四川成都,一个风景秀丽的城市。

成都是一个美食之都,有很多著名的四川菜。

我最喜欢的地方是宽窄巷子,那里有很多有趣的小店和美丽的景色。

我觉得成都是一个很有魅力的城市,我爱我的家乡。

话题2:我的未来规划是成为一名优秀的软件工程师。

我对计算机编程很有兴趣,我希望能够在未来的工作中取得进步。

我会努力学习,提高我的专业技能,为实现我的梦想而努力奋斗。

短文1:大学生活大学生活是人生中最宝贵的时光之一,是我们学业和个人成长的重要阶段。

在大学里,我们不仅要学习各种知识,还要培养自己的兴趣爱好,积极参加各种社团活动。

大学生活是多姿多彩的,我们要珍惜这段宝贵的时光,努力学习,丰富自己的人生。

问题1:大学生活为什么是人生中最宝贵的时光之一?短文2:学习中文的重要性学习中文是非常重要的,它不仅是一门语言,也是一门文化。

学习中文可以帮助我们更好地了解中国的历史和传统文化,也可以帮助我们更好地与中国人交流。

随着中国的不断发展,学习中文对我们未来的发展也是非常有帮助的。

语料库基本知识

语料库基本知识

.
6
计算语言学
◦ “计算语言学是研究用机器来处理自然语言的学科。它是由信息技
术和语言学交叉而成的”(CuS:1)。SLP没有直接提出计算语言 学的确切定义。SLP的作者在开篇借用了Stanley Kubrick科幻片中 的人物HAL,HAL是一个通晓英语的机器人。作者引入HAL的目 的在于说明,为了构建这样一个可与人通过自然语言进行交流的机 器人,需要哪些知识和技术:语言理解方面有语音识别和自然语言 理解(包括唇读技术),表达方面需要自然语言生成和语音合成, 另外HAL也需要信息检索、信息提取和推理方面的技能。而解决这 些问题一般涉及以下学科:自然语言处理,计算语言学,语音识别 和合成。SLP的作者将这三者合起来称为语音及语言处理,除了以 上HAL所用的这些技能外,SLP也囊括了其他重要的语言处理领域, 如:拼写校正、语法检查和机器翻译。
.
42
语言设定
.
43
.
44
(如逗号、句号等) 包括在内,但这一点有例外,如数字3.1415925 和整数的千分位分隔符(如100,000) 中的逗号等。
为了便于统计,对英语进行分词时通常在以上我们所说的“ 形符” 后加空格,使得他们与文本中的其他形符或符号分离开来。
.
11
类符(type)作为一个统计量,指语料库文本中任何一个独特的词形(word form)。换言之,在一个文本中,重复出现的形符只能记作一个类符。
◦ 都可以对语言学的语音、词汇、句法和语义等层面进行
统计和研究。
.
8
联系: ◦ 统计语言学和计量语言学都是利用统计方法来实现对语言成
分的统计,计量语言学以发现语言成分或语言成分间的数学 规律为目标。而统计语言学以所统计的语言特征在统计学上 显著和不显著为目标。

语料库基础知识

语料库基础知识

/yingyong/courses/corpusbase.htm语料库研究与应用综述语料库研究与应用综述 一 概述 语料库通常指为语言研究收集的、用电子形式保存的语言材料,由自然出现的书面语或口语的样本汇集而成,用来代表特定的语言或语言变体。

经过科学选材和标注、具有适当规模的语料库能够反映和记录语言的实际使用情况。

人们通过语料库观察和把握语言事实,分析和研究语言系统的规律。

语料库已经成为语言学理论研究、应用研究和语言工程不可缺少的基础资源。

语料库有多种类型,确定类型的主要依据是它的研究目的和用途,这一点往往能够体现在语料采集的原则和方式上。

有人曾经把语料库分成四种类型:(1)异质的(Heterogeneous ):没有特定的语料收集原则,广泛收集并原样存储各种语料;(2)同质的(Homogeneous ):只收集同一类内容的语料;(3)系统的(Systematic ):根据预先确定的原则和比例收集语料,使语料具有平衡性和系统性,能够代表某一范围内的语言事实;(4)专用的(Specialized ):只收集用于某一特定用途的语料。

除此之外,按照语料的语种,语料库也可以分成单语的(Monolingual )、双语的(Bilingual )和多语的(Multilingual )。

按照语料的采集单位,语料库又可以分为语篇的、语句的、短语的。

双语和多语语料库按照语料的组织形式,还可以分为平行(对齐)语料库和比较语料库,前者的语料构成译文关系,多用于机器翻译、双语词典编撰等应用领域,后者将表述同样内容的不同语言文本收集到一起,多用于语言对比研究。

语料库建设中涉及的主要问题包括:(1) 设计和规划:主要考虑语料库的用途、类型、规模、实现手段、质量保证、可扩展性等。

(2) 语料的采集:主要考虑语料获取、数据格式、字符编码、语料分类、文本描述,以及各类语料的比例以保持平衡性等。

(3) 语料的加工:包括标注项目(词语单位、词性、句法、语义、语体、篇章结构等)标记集、标注规范和加工方式。

语料库的创建与应用ppt课件

语料库的创建与应用ppt课件
2
Liver function tests gave normal results.肝功能检验均无异常发现。 normal saline生理盐水
2
Disease management is an approach to coordinate resources acro ss the health care.疾病管理是一种协调医疗卫生系统资源的手段。 The mortality rate of patients with no change in their antibiotic ma nagement抗生素治疗未改变的患者死亡率
1
1
制作语料库的有效方式: ABBYY Aligner + 自编软件 + ParaConc等
2
使用英文或汉语(须经切分)单语导入WordSmith或AntConc进行词频 排序 进入双语界面进行检索查询:ParaConc或Trados记忆库界面
2
2
专业通用词(General Words for Specific Purposes) 法律(action, award, damage) 医学(normal , management) 海洋工程(high, sea)
3
可比语料库:语料具有可比性 单语可比语料库:翻译文本+原创文本(政府工作报告英文版+美国国情 咨文) 双语可比语料库:无翻译关系的双语文本(德国有限责任公司法和中华 人民共和国公司法——术语) 语料可比性
4
翻译语料库:翻译文本 口语语料库:标注?(蒙特雷)
5
代表性或影响力原则 可及性原则 时间原则(胡开宝,2011:45-46)
202011011语料库与翻译创造力kirstenmalmkjr语料库与译者培养外研社2007202011011语料库与翻译创造力语料库的使用关键在译者语料库质量水平翻译项目委托的各种苛刻要求根据不同的文体来对待翻译实践译创transcreation202011012语料库的应用collins出版社语料库证据在美国的法庭应用jdest学术英语语料库航天局学生自学习海洋工程图书系列翻译等等2020110翻译能力语料库2020110谢谢大家

01103047韩蕾-语料库语言学大纲

01103047韩蕾-语料库语言学大纲

课程名称:语料库语言学导论(An Introduction to Corpus Linguistics)一、课程目的、任务:通过本课程的学习,学生能初步了解语料库语言学这门新兴学科在国内、国外的发展概貌。

更重要的是,可以学以致用,能够直接利用已有语料库资源进行语言学研究,并能够自己建设研究用小型语料库,切实掌握现代语言学三大研究方法之一的基于语料库的方法。

通过从理论学习到实践操作这一过程,深化对以往所学相关语言学理论的理解。

二、课程内容:本课程主要介绍:一、语料库研究的历史与现状。

二、语料库的建设与加工。

三、在语料库基础上开展的语言学专题研究。

三、教学方式、实践环节的特色:课堂内教师讲解理论、并实际演示操作。

课外学生上网、上机实验,撰写论文。

让学生真切体会到语料库的实证性研究可以为语言学中难以解决的课题提出新的解决方法。

四、教材及参考书目:教材:杨惠中著:《语料库语言学导论》,上海外语教育出版社,2002年版。

参考书目:黄昌宁、李涓子著:《语料库语言学》,商务印书馆,2002年版。

五、考核方式与评价结构比例:平时:书面作业,占20%。

期中:开卷考试,占20%。

期末:提交论文,占60%六、讲授大纲:第一章绪论第一节什么是语料库语言学第二节语料库语言学的发展历史第二章语料库概述第一节语料库的类型第二节国外语料库介绍第三节汉语语料库介绍第四节我国的外语语料库第三章语料库的建设第一节与语料库建设相关的问题第二节语料库的开发与加工第三节语料库加工实例第四章基于语料库的语言学研究第一节词汇研究第二节语法研究第三节语义研究第四节话语分析研究第五节社会语言学研究第六节语言习得与对外汉语教学七、教学时数分配:。

语料库与语料库建设

语料库与语料库建设

语料库和语料库建设一、什么叫语料库1、定义语料库,通俗意义上指的是语言材料库。

严格意义上的语料库(corpus)是指按照一定的语言学原则,运用随机抽样方法,收集自然出现的连续的语言运用文本或话语片断而建成的具有一定容量的大型电子文本库。

目前,语言学家对于语料库的定义不尽相同,如辛克莱(Sinclair)认为语料库是“按照明确的语言学标准选择并排序的语言运用材料汇集,旨在用作语言的样本”。

阿特金斯等(Atkins & Clear)认为语料库是“按照明确的设计标准,为某一具体目的而集成的大型文本库”。

赫努(Renouf)认为语料库是“由大量收集的书面语或口头语构成,并通过计算机储存和处理,用于语言学研究的文本库”。

我们看到,以上关于语料库的几种定义相同之处在于都谈到语料库是语言材料的汇集;不同之处在于前两个定义指出语料库的设计是有明确的设计标准的,赫努的定义明确指出语料库“通过计算机储存和处理”这一特点。

语料库不同于电子文档,语料库的建设有特定的研究目的和具体用途,因此在语料抽样范围和文类覆盖方面都力求取得平衡,在收集语料时需要考虑到每一文类、体裁、语域、主题类型等的抽样比例。

而大型文档目标在于搜集任何可获得的语言材料或所限定的数种文类语料,其语言材料之间的关系较为松散。

语料库具有以下特征:1、语料库的设计与建设有系统的语言学理论指导,语料库的开发具有明确而又具体的目的;如,布朗语料库用于对20世纪60年代的美国英语的研究,LOB是与布朗语料库对齐的同时期的英国英语语料库,可用以对英国英语进行研究,也可与布朗语料库加以对比进行美国英语和英国英语的对比研究。

2、语料库的语料是按照明确的语言学原则采用随机抽样的方法得到的语言运用的自然语料,不是随意的语言材料的堆积,更不是由某个个人杜撰出来的。

语料库的容量和语料采用随机抽样方式都保证了语料具有代表性,由此保证基于语料库的语言研究的科学性、客观性。

当代大学生普通话水平测试语料库建立

当代大学生普通话水平测试语料库建立

当代大学生普通话水平测试语料库建立随着社会的发展和进步,普通话已经成为中国的国家通用语言,也是大学生必备的基本技能之一。

为了提高和评估大学生的普通话水平,建立一个有效的普通话水平测试语料库已经变得至关重要。

本文将探讨当代大学生普通话水平测试语料库的建立,以及其在教学和评估方面的应用。

一、语料库的概念和重要性语料库是指收集和整理大量语言材料的数据库,通过对这些语料的分析和研究,可以了解语言的使用规律和变化趋势。

在普通话教学和评估方面,语料库可以提供大量真实的语言样本,帮助学生更好地理解和掌握标准的普通话表达方式。

二、语料库的建立过程语料库的建立过程包括语料的采集、录音、整理和标注等环节。

在采集语料的过程中,可以通过问卷调查、口语测试和录音等方式收集大学生的口语表达样本。

录音可以使用专业设备进行,同时也可以使用手机等普通设备进行录音。

采集到的语料需要经过整理和标注,以方便后续的分析和利用。

三、语料库的应用价值1. 教学辅助通过语料库,教师可以选择适当的语料进行教学示范,并根据学生的不同问题提供相应的解决方案。

语料库中的实际样本可以更好地帮助学生理解标准的普通话表达方式,以及不同语境下的语言应用规范。

2. 大数据分析语料库中的大量语料可以作为研究对象,通过对语料的分析和统计,可以得出普通话的一些使用规律和变化趋势。

这对于普通话教学的改进和课程开发都具有重要的参考价值。

3. 普通话水平评估建立一个全面的普通话水平测试语料库,可以通过与学生的口语和听力测试相结合,更准确地评估大学生的普通话水平。

通过对大量的语料进行分析,可以提供参考标准,对学生的发音、语调等方面进行评估。

四、基于语料库的教学改进方案在利用语料库进行普通话教学时,可以结合现代技术手段,将语料进行数字化处理和呈现。

通过构建普通话学习平台,学生可以根据个人需求和兴趣选择适当的语料进行学习。

同时,还可以通过语音识别技术对学生的发音进行实时纠错,提高学生的普通话水平。

语料库 入门

语料库 入门
热烈欢迎来自全国各地的老师们!
语料库入门
OUTLINE
1.
基本概念 2. 著名网络语料库 3. 常用软件
Corpus(语料库,尸体): (pl. corpora or corpuses): a collection of text, now usually in machine-readable form and compiled to be representative of a particular kind of language and often provided with some kind of annotation(标注). 按照一定的采样标准采集而来的、能 代表一种语言或者某语言的一种变体 或文类的电子文本集。
在口语中,start更常用。
语料库的方法基于真实的语言
使用情况,事实胜于雄辩
我们通过对语料库的检索结果进行分析,可以找到很多问 题的答案,例如: “学知识”在英语中是“study knowledge”吗? “快速导航”翻译成“fast guide”对不对? “只为点滴幸福”这句广告语,对应的英文翻译是“Little happiness matters.”吗? 为何“The bad weather set in on Monday.”是正确的, 但“The good weather set in on Monday.”却是错误的?
熟 语 语 料 库
语料库语言学常用术语
Types

of corpora
General corpus通用语料库 Annotated标注 corpus: a corpus enhanced with various types of linguistic information (or tagged corpus). An annotated corpus may be considered to be a repository of linguistic information, because the information which was implicit in the plain text has been made explicit through concrete annotation (“added value附加值”).

国家语委现代汉语语料库介绍

国家语委现代汉语语料库介绍
2003年通过国家语委标准化委员会的审定 2006年成为国家标准,标准号GB/T 20532-2006 词类标记集规范的原则是有利于数据交换和资源共享
样例 分词和词性标注语料
样例 词类标记集
样例 句法树库标记集(1)
(一)短语功能分类
样例 句法树库标记集(2)
(二)短语结构分类
综合类
应用文 难于归类的语料
人文与社会科学类
人文与社会科学类划分为8个大类和30个小类:
政法:哲学、政治、宗教、法律; 历史:历史、考古、民族; 社会:社会学、心理、语言文字、教育、文艺理论、新闻、
民俗; 经济:工业经济、农业经济、政治经济、财贸经济; 艺术:音乐、美术、舞蹈、戏剧; 文学:小说、散文、传记、报告文学、科幻、口语; 军体:军事、体育; 生活。
人文与社会科学类约占语料总量的50%
自然科学类
自然科学划分为6类:
数理 生化 天文地理 海洋气象 农林 医药卫生
自然科学类约占语料总量的30%,
综合类
综合类语料由应用文和难于归类的其他语料两部分组成。 应用文主要包括以下6类:
行政公文:请示、报告、批复、命令、指示、布告、纪要、 通知等;
语料抽样数量
书籍
抽样数量一般占全书字数的3~5%,字数最多不超过 10000字。样本容量2000字,允许±500字。
报纸
采用整版(4版或8版)选用的方式。不同的报纸选用不 同的月份,以免内容重复。
报纸上的广告、启事等归在应用文类,不在报刊类语料 的统计之列。
刊物
每本刊物上所选的总字数原则上不超过5000字。样本容 量2000字,允许±500字。

语料库及其基本操作-烟台大学外语教育技术研究中心

语料库及其基本操作-烟台大学外语教育技术研究中心

1 语料库的概念及其发展简述
热点: 网络语料库
WaC Wa/fC
WfC
2 语料库工具、软件
检索工具、软件
1. WordSmith Tools 2. MonoConc / ParaConc 3. AntConc: freeware, copyleft 4. Xaira: BNC 5. CQPWeb: Sketch Engine, BFSU CQPWeb 6. WebCorp
1980s: LONGMAN/LANCSTER Corpus. As part of the Longman Corpus Network, the Longman/Lancaster Corpus is not available for public access.
1 语料库的概念及其发展简述
语料库及其基本操作
杨林伟 烟台大学外语教育技术研究中心
1 语料库的概念及其发展简述 语料库工具、软件
2
3
4
自建小型语料库
教学实践与应用
1 语料库的概念及其发展简述
语料库 的定义
A corpus is a collection of pieces of language text in electronic form selected according to external criteria to represent as far as possible a language or language variety as a source of data for linguistic research. (Sinclair, 1991) a collection of sampled texts, written or spoken, in machine readable form which may be annotated with various forms of linguistic information. (McEnery et al. 2006)

语料库的设计与开发-PPT课件

语料库的设计与开发-PPT课件
10
2019/2/21
规模(2)



齐夫(Zipf’s)律,若按照词频f由高到低的排列顺序给语料 库中每个词指派一个由小到大的整数秩(rank),则f与r近似 成反比,即 f*r=k 极少数高频次的出现次数已经覆盖了语料库总词次数的绝 大部分,而词(型)总数中大约一半的词在这个语料库中却 只出现一次。 齐夫律不仅适用于一种语言的词汇分布,也反映了句法规 则的分布状态。极少数常用句法规则覆盖了语料库中绝大 多数的句法结构现象,而很多规则只出现一次。并且,语 料库规模的扩大,句法规则的数目也不断增长,与乔姆斯 基的著名假设—句法规则数目的有限性和句子数目的无限 性,提出了挑战。
第二讲 语料库的设计和开发 统计的一些基本概念
2019/2/21
1
语料库的设计与开发



语料库设计与编纂 建设一个语料库 语料库的类型 国外语料库介绍 汉语语料库介绍
2019/2/21
2
从事语料库语言学研究的人员首先面临的任务 是建立语料库。他们必须对语料库应该包含哪 些语料以及如何组织这些语料等问题作出决定, 并且能够控制以后在使用语料库的过程中将要 发生的事情。语言学家则要能够处理语料中的 任何语言实例。
2019/2/21
3Leabharlann 语料库设计与编纂中的问题
出发点是:如何使得在其基础上开展的语言调 查是合理的和可靠的。 Kennedy(2019)指出了语料库设计师所面临的 最基本问题:这个语料库所采集的语言数据是 否真正代表了某种期望的语言或语体。语料库 的建设与编纂过程中应考虑的问题包括:



例如,SEU语料库试图以静态方式在不同使用领域的口语和 书面语材料中选择英国英语的样本,使语料库可以作为英语 共时的代表。设计这样的语料库,需小心处理如下问题:特 定的体裁、特定的样本规模等 1985年夸克(Quirk)出版的英语语法大全是以SEU为基础编 撰的。他认为SEU语料库是英国英语的一种快照,语料库象 一幅风景照,目的是抓住风景的主要特征。只收集主要的体 裁,并非所有语言现象。

语料库翻译学讲习班语料库翻译学概论课件

语料库翻译学讲习班语料库翻译学概论课件
提供翻译对比和分析
语料库可以提供不同版本的翻译对比,帮助学生理解不同翻译风格 的差异,提高对翻译评价和鉴赏的能力。
基于语料库的翻译实践研究
1 2
探究翻译普遍规律
通过分析大量语料,可以总结出翻译中的普遍规 律和趋势,为翻译实践提供指导和借鉴。
发现特殊译法和技巧
基于语料库的翻译实践研究有助于发现一些特殊 的译法和技巧,丰富翻译方法和策略。
发展历程
早期阶段
20世纪90年代初,随着计算机技术的 普及,学者们开始尝试利用计算机技 术进行翻译研究。
发展阶段
成熟阶段
近年来,随着大数据和人工智能技术 的不断发展,语料库翻译学的研究更 加深入和广泛,逐渐成为翻译学领域 的重要分支。
20世纪90年代末至21世纪初,随着语 料库技术的不断完善,越来越多的学 者开始关注语料库翻译学的研究。
下的意义和用法。
社会学视角
从社会学的视角出发,基于语料 库的翻译研究可以探究社会因素 对翻译的影响,以及翻译在社会
文化交流中的作用。
心理学视角
从心理学的视角出发,基于语料 库的翻译研究可以探究译者的认 知过程和心理活动,以及译者在
翻译过程中的决策和策略。
THANKS
感谢观看
研究领域与方向
研究领域
语料库翻译学的研究领域包括翻 译语言特征、翻译过程、翻译方 法、翻译教学等方面。
研究方向
目前,语料库翻译学的研究方向 主要包括基于语料库的翻译语言 研究、机器翻译与人工翻译的对 比研究、翻译教学研究等。
02
语料库的构建与使用
Chapter
语料库的分类
01
通用语料库
收集各种领域和语境 下的语言数据,用于 语言学研究和自然语 言处理。

语料库概念与语料库语言学基础知识

语料库概念与语料库语言学基础知识

语料库概念与语料库语言学基础知识语料库语言学是以语料库为基础的语言学研究方法。

语料库指的是大量真实语言使用情况的集合,可以包含各种类型的语言材料,例如口语、书面语和专业语言等。

语料库语言学主要涉及以下几个方面:1、语言描述和分析:通过对语料库中的语言数据进行收集、注释和分析,得到关于语言结构和功能的描述和分析。

2、语言学习和教育:通过语料库分析和应用,为语言学习者提供更真实、生动和有效的语言学习材料,同时也可以开发出更优质的语言教学软件。

3、自然语言处理:语料库作为自然语言处理技术的基础数据,能够为机器翻译、文本分类、信息检索等领域提供重要支持。

4、语言变化研究:通过比较不同时间段、地区和社会群体的语料库,可以研究语言变化的规律和特点。

在实际应用中,语料库语言学能够促进语言技术的发展,提高语言学研究的精度和可靠性,同时也给我们带来了更深入的语言理解和认知。

标题:语料库语言学研究的重要性一、语料库语言学的概念及发展历程语料库语言学,是指使用语料库进行研究的语言学分支,其研究对象是自然语言。

语料库是一个按照某种原则建立的、用于语言研究的庞大数据集合。

语料库语言学的理论基础是结构主义语言学、生成语法和实证语言学。

随着计算机技术的飞速发展,语料库规模越来越大,语料质量也越来越高,语料库语言学得以迅速发展。

二、语料库语言学的重要性1、提高语言教学效果语料库语言学可以通过收集大量语言数据来提高语音、词汇、语法和语用的教学效果。

比如,通过语料库分析来确定常见的语言错误类型,帮助学生避免这些错误;通过语料库调查来了解实际使用情况,让教学更接近实际使用。

2、推动语言研究发展语料库语言学以语料为基础,通过数据驱动的方法对语言进行分析,可以帮助我们更好地理解语言的本质和变化规律。

语料库语言学可以帮助我们更好地研究语音、词汇、句法和语用等多个方面,也能够关注不同社会群体间语言使用的差异,因此为语言研究提供了新的视角。

3、促进跨学科研究语料库语言学的方法论在不同领域都有应用。

自然语言理解-语料库

自然语言理解-语料库

已有的相关研究成果
3.《现代汉语语料库文本分词规范》 北京语言文化大学语言信息处理研究所 清华大学计算机科学与技术系 1998年 4.《北大语料库加工规范: 切分、词性标注、注音》 北京大学计算语言学研究所 2003年 5.《資讯处理用中文分词标准》 台湾计算语言学学会 ,1996年
语料库加工规范的总原则
汉语语料库建设规范 ——语料库分词和标注规范
语料库建设规范

选材规范 文本描述规范 加工规范 体系构造规范
主要内容

已有的相关内容 语料库的加工规范的总原则 结构化词表构造原则 切分标注原则
已有的相关研究成果
1.《信息处理用现代汉语分词规范》 中国国家标准GB13715,1992年 2.《信息处理用现代汉语词类标记集规范》 教育部语言文字应用研究所 2002年
第一代语料库2

LOB语料库


始建于1970年代初 由英国 Lancaster大学著名语言学家 Geoffrey Leech 倡议 挪威Oslo大学StigJohansson主持完成 安装在挪威Bergen大学挪威人文科学计算中心 规模于Brown语料库相当 主要代表当代英国英语

不矛盾性原则:指切分标注时不能出现两可 的情况,即可以同时适用两条或两条以上的 规则的情况。

完备性原则:指规范能够覆盖文本的全部, 即不能出现没有适用的规则的情况。
词表原则


切分标注一般都遵循一个原则——词表原则 把词表中已经收录的词语都作为一个分词单位,不再切分, 所以几乎每一个规范的背后都有一个相应的词表。

转引自Tony McEnery& Andrew Wilson, 1996, Corpus Linguistics, p55,
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

2008/7/31语料库简单DIY 第二讲语料库软件初探--语料库软件初探--MonoConcPro 2.2本软件是Athelstan开发小组/ ,于1996年开发的语料库比较检索工具。

目前,我的服务器上提供学术性下载,下载地址: http://vu.flare.hiroshima-u.ac.jp/whistle/corpus/MoconcPro2.2.rar(本软件为学术交流使用,所有权归本软件开发小组所有,一切商务性盈利目的的违法使用,所带来的连带责任关系与本人及本论坛无关。

请慎重下载,小心使用!!!)功能介绍:软件主界面基本功能:MonoConc Pro 2.2 的软件界面比较简单。

适合语料库初学者和初级研究人员使用。

本软件据作者的研究,其内部主核使用UTF-8编码,基本支持欧洲几种主要语言。

当然,其主要的应用领域还是针对英语。

本软件主要处理的文本素材是以TXT结尾的记事本文件,当然,本软件还可以导入RTF文档和其他格式的操作系统默认文档格式。

不过,从DIY的角度来说,我们自己收集到的语料,为了免除格式,字体,行距等等文本要求,最好全部使用TXT文档,方便,省事!用了都说好!(谁用谁知道)我们按照自己的研究目的,研究方向,收集我们所需要的语料素材,具体的收集方法因人而异。

可以从报纸杂志的电子文文档上直接下载,也可以从网站上直接下载整理好的TXT版本的小说,资料素材等,还可以直接从各大语料库中检索需要的语用素材,然后拷贝粘贴到TXT文本中。

由于MonoConc Pro强大的跨文档处理系统,一次可以同时导入多个TXT文档进行比较处理,所以我们可以把文章或者资料按照自己喜好的分类标准进行分类,然后存成不同的TXT文件名。

检索的时候,只需要同时导入这些文件就可以了。

(异常强大~)下载好软件,解压缩,然后打开MP22.EXE文件,你就可以看到上图那个简单的主界面了。

之后,选择File→Lord Corpus File(s),找到你需要导入处理的TXT文档,一个或者多个都可以,然后选择[打开]。

指定的TXT文件就被全部导入进MonoConc Pro中了。

如果导入了过多的TXT文档,比如您导入了莎士比亚全集+马克思选+恩格斯选+列宁选+毛泽东选+邓小平选.....(不能否认,真的有这样的朋友存在)。

那么,为了方便您查询检索结果所出现的文章,你可以选择File→View Corpus File/URL,这样就能看到查询结果所在的文章,还可以删除不需要的文章,或者添加新的文章,非常简单。

*这里的URL,指的是在HTTP或者FTP上,可以直接打开的文字页面的链接。

一般朋友们DIY的语料库都是存在本地硬盘上的,所以基本上可以无视这个选项。

不过,将来我们的个人语料库要实现点对点,点对多的平台连接。

连接后,我们就可以相互查询对方个人语料库中的资料,此时在导入对方语料库中的文档的时候,就要用这个了。

(这个目前还很遥远,大家还是踏踏实实做自己的DIY语料库吧!)当我们要删除所有的文章的时候,这个时候仅仅关闭文章的窗口,是不能实现删除文章内容的。

关闭了窗口,只是你看不见了而已,但是文章实际上已经写入了内存,你必须将它清除出内存,才能在搜索的结果中排出掉不需要使用的文章。

这个时候,你就需要File→Unload Corpus功能了。

这里Unload只是卸载掉内存中的TXT文档,不是删除你的文章,所以不要害怕,大胆卸。

以上就是MonoConc Pro操作的基本功能。

这里需要说明一个问题,MonoConc Pro的File里面有一个Language的选项,里面你可以发现软件支持很多语言。

这里所谓的支持,只是显示TXT文档时所支持的语言编码。

也就是说,在MonoConc Pro里面是可以显示字母体系文字,和汉字体系文字的。

但是,但是,但是!在内存中处理的时候,软件是使用UTF-8欧洲语言进行处理的(ANSI),所以无法直接处理汉字编码Unicode或者ASCII编码。

不过,通过WORD或者其他的专码工具,也可以进行操作,但是本人研究了很多编,对于汉字编码的处理,系统总是出现很多错误,所以建议不要使用这个软件来处理汉字文本。

当然,有钻研精神的人,还是很鼓励的。

没有钻研精神也不要怕,MonoConc Pro介绍完了之后,我们会介绍专门处理汉字编码的软件Antconc3.2.0W,要好好支持我,我才讲哦!*有的朋友在打开自己所整理的TXT文本文件时,在MonoConc Pro进行操作的时候,会出现软件报错,或者软件自动关闭等状况。

这就是我在上面提到的编码问题。

在我们进行MonoConc Pro操作之前,我们有必要将我们的TXT 文档,用写字板打开,然后选择另存为,编码选择ANSI ,然后用新保存的文件进行MonoConc Pro操作,就会避免这个问题;当然也可以使用Word等更加强大的软件进行编码转换。

如果在这一点上有疑问,请联系我。

--------------------------------------------------课间休息------------------------------------------课间休息-------------------------------------------------进阶功能介绍:前半节的课程上,我们认识了MonoConc Pro软件的基本功能。

现在我们来学习今天课程的精华中的精华中的精华部分。

要好好听,不要走神哦! Word List 功能这个功能看名字很简单,但是实际上这是一个很了不起的功能。

首先我发上来两个图,大家可以参考一下。

第一副图是对于英文文章Word List---词汇频率出现的统计;第二幅图是对于汉语文章Word List 的统计结果。

从第一幅图上我们就可以很清楚的看到(可能这里看得不是很清楚),软件能够把英文单词准确地提取出来,按照单个词来统计频率。

而第二幅图就明显地看到,软件不能把汉字处理成为单个汉字来统计,那么Word List当你导入文件之后,你会发现,主页面的登陆画面上,这个选项。

这个也是一个很有用的选项。

它会将Word List的统计结果,按照字母表顺序排列,这样你就可以看到,同一个字母开头的词汇,哪些词出现的频率较高,对于词性研究,词类对比,使用对比等,想必是非常有用处的吧。

我也不是语言学的专家,有用没有用,还需要大家自己的判断。

Frequency下面还有一个选项,Frequency Options。

这个选项主要对于我们的频率检索做一些简单的设定。

里面规定了,结果显示行数,最低频率数,最高频率数,大小写区别,TAG区别等,没有特殊的需求,初学者一般不要修改这个选项比较好。

好了!我们现在已经学习了Word List的制作方法,也懂得了一些查询的选项。

在开头我也提到了,语料库软件的学习,其实也是培养一种理性地逻辑思维能力。

用这种逻辑思维去思考和设计语料库检索处理软件,来为自己的语料研究服务。

刚才我们讲了单词频率的统计。

那么,我向大家提出一个问题,如果遇到了两篇巨长的文章,我们要同时比较某个单词在这两篇文章中的出现频率,应该怎么做呢?!细心的你,一定注意到,在Frequency项。

这是一个伟大的选项。

虽然实现的是一个很不起眼,Save 存储这样的小破功能。

但是,对于后来我们的比较研究,确是必不可少的一步。

在我给大家提供的下载文件里面,我放入了很多DEMO用的TXT文档文件在SIMPLE文件夹中,还有一篇巨长的小说《罪与罚》。

这都是用来讲解和大家实践用的。

首先,我们运行软件,导入SIMPLE中的TXT文档(poorfolk.txt,demo.txt,demo2.txt,demo3.txt)!对!就是不要那个《罪与罚》。

然后我们统计这四篇TXT文档的Word List。

具体统计的操作方法,不会的朋友看上面的教程。

然后我们就看到了下面这个图:然后我们选择Frequency→Save as File 这个时候会出现一个对话框,这个对话框是提示需要用多少行来表示所统计的数据,一般我们默认为0,也就是用无限行来表示。

然后选择OK,这个时候出现保存程序的对话框。

我强烈建议,大家把文件不要存成TXT,存文件的时候,把保存类型选择为All files。

然后我们给文件随便命名为mantou。

这样就保存成了一个叫做mantou,但是不能直接运行的程序文件。

为什么这样?呵呵!这是一个小诀窍。

使用All files还可以用SQL,MYSQL,ACCESS等数据库文件打开这个叫做mantou好了,继续!现在我们使用Unload Corpus,卸载掉驻留内存的所有文档,然后打开罪与罚.txt (抱歉里面使用了日语,将就吧)。

然后对这一篇文章进行Word List频率统计。

就会出现下图:同样地,为了保险起见,我们也把这篇文章的Word List 存成名叫qianqian 的无指定程序运行的文件。

这个时候,我们选择Frequency→Corpus Comparison,在打开的对话框的文件类型中选择All Files。

然后我们就可以看到mantou那个文件了,选中它,然后打开。

这个时候我们就能看到下面这个图。

多数比,也就是复数文章以上的,针对指定单词的出现频率和出现次数的比较的话,那么最好是用EXCEL打开多个保存Word List的文件,直接在EXCEL上做统计,表格,图形处理,会比较直观(大家现在也明白我要把文件保存成那样哦。

至于要保存什么格式,大家自己决定吧!有了这些统计和比较的表格,是不是我们的语言研究就会更加理性一些呢?有兴趣的朋友,还可以尝试看看Frequency下的Sort命令,这个是对于比较统计结果的表格进行排列顺序以及显示方式的调整。

好了~罗嗦了一下午,也不知道大家感觉如何?是不是很久没有听计算机课的感觉?在今天的课里,我们主要讲解了MonoConc Pro 2.2的基本使用功能,并介绍了MonoConc Pro的一种进阶处理功能。

通过本次课的学习,我希望让大家从宏观上,对于DIY语料库时,所必需的语料检索和处理工具有一个大的了解。

不要看到电脑程序就头疼,其实这些东西都是人开发出来服务于人的,如果让你感到困惑了,那就违背了软件开发的初衷了!下节课我们将继续研究MonoConc Pro中,针对语料库中的语料定性,定向,定类等方面的检索和处理。

程序是很枯燥的,我尽量用通俗易懂的语言来讲解,希望大家能够认真学习。

如果有疑问和需要帮助,请在QQ群里直接提出来,我会尽力帮助大家解答。

版权所有,如果需要转载请注明出处和作者!谢谢。

相关文档
最新文档