国内语料库建设一览表 宁静以致远~~ csdnblog

合集下载

大学英语四、六级考试语料库建设分析3页

大学英语四、六级考试语料库建设分析3页

大学英语四、六级考试语料库建设剖析大学英语四、六级考试是我国高等教育最重要大规模,标准化外语考试,对促进我国大学生整体外语水平提高发挥了重要作用。

同时,这项考试对于国家、社会各类用人单位公正,科学评估大学生外语水平,合理选拔录用人才,也发挥了积极作用。

因此,我们语料库语言学研究也应理论联系实际,注重研究考试语料库开发建设问题,特别应着手建立像大学英语四、六级考试这类关系重大大规模外语考试试题语料库。

正是出于这一理念,我们以过去十一年这两项考试真题及模拟试题为原始语料,采用手工标注试卷主要语法特征模式,花费了近两年时间建立了《大学英语四、六级考试语料库》。

我们相信,作为一种新网络信息资源,一个新媒体工具,这一试卷语料库将会为大学外语教学提供有价值新信息。

因为这个语料库对于大学英语辞书、语法、词汇、阅读教材、参考资料编写,老师、同学把握四、六级考试重点,都提供了真实、量化、可靠依据。

广大英语教师与同学可以方便地把它联接在大学网站、教育网站上,拷入学校计算机室、网络教室计算机内,或装入自己计算机中检索、研究、使用。

现将这个语料库设计理念、建设过程及其对大学英语教学、四、六级考试复习、备考意义简要介绍如下。

1 建立大学英语四、六级考试语料库重点剖析与解决问题在建设这一语料库时,我们特别留意观察国内外专门用途语料库建设现状,研究了当前国际语言学界较为流行几款语料库软件不同特点,如Wordcruncher, Concordance,Lexa,TACT及Wordsmith等软件。

在对这些软件优点及缺陷进行系统剖析基础上,根据对四、六级试卷语法特征进行检索专门要求,我们设计出了这一项目专用语料库检索软件,“四、六级考试语法特征检索软件”,并反复实验,多次上机运行,检测软件各项指标,不断改进,直到软件运行平稳,达到了较为理想效果。

这样就为科学、便利地检索出四、六级考试各项语法考查重点提供了可靠技术保障。

同时我们也剖析了考查要点内容定位与标注模式符号统一问题。

国内语料库建设一览表 宁静以致远~~ csdnblog

国内语料库建设一览表 宁静以致远~~ csdnblog

国内语料库建设一览表- 宁静以致远~~ - CSDNBlog 国内语料库建设一览表类型语料库名称及大小建设单位英语学习者语料库(书面语及口语)中国学习者语料库CLEC(100万)广外、上海交大大学英语学习者口语语料库COLSEC (5万)上海交大香港科技大学学习者语料库HKUST Learner Corpus香港科技大学中国英语专业语料库CEME(148万)南京大学中国英语学习者口语语料库SECCL (100万)南京大学国际外语学习者英语口语语料库中国部分LINSEI-China (10万)华南师大硕士写作语料库MWC(12万)华中科技大学平行语料库汉英平行语料库PCCE北外南大-国关平行语料库南京大学英汉文学作品语料库;外研社冯友兰《中国哲学史》汉英对照语料库李约瑟(JoselfNeedham)《中国科学技术史》英汉对照语料库计算机专业的双语语料库;国家语言文字工作委员会语言文字应用研究所柏拉图(Plato)哲学名著《理想国》的双语语料库英汉双语语料库(15万对)中科院软件所英汉双语语料库:LDC香港新闻英汉双语对齐语料36294段以及香港法律英汉双语对齐语料31万句子对中国科学院自动化研究所英汉双语语料库(100万),网上英汉语段电子词典及网上电子英汉搭配词典(1000万)东北大学英汉双语语料库(40-50万句子对)哈尔滨工业大学双语语料库(5万多对)北京大学计算语言学研究所对比语料库LIVAC(Linguistic variety in Chinese communities)香港城市理工大学平衡语料库(Sinica Corpus);树图语料库(Sinica Treebank) 台湾特殊英语语料库中国英语(China English)语料库河南师范大学军事英语语料库(Corpusof Military Texts)解放军外语学院新视野大学英语教材语料库上海交通大学汉语语料库汉语现代文学作品语料库(1979年,527万字) 武汉大学现代汉语语料库(1983年,2000万字)北京航空航天大学中学语文教材语料库(1983年,106万8000字) 北京师范大学现代汉语词频统计语料库(1983年,182万字) 北京语言学院国家级大型汉语均衡语料库(2000万字) 国家语言文字工作委员会《人民日报》语料库(2700万字)北京大学计算机语言学研究所大型中文语料库(5亿字,10分库)北京语言文化大学现代汉语语料库(1亿字)清华大学汉语新闻语料库;(1988年,250万字) 山西大学标准语料库(2000年,70万字)生语料库(3000万字);《作家文摘》的标注语料库(100万字) 上海师范大学现代自然口语语料库中国社会科学院语言所旅游咨询口语对话语料库和旅馆预定口语对话语料库中国科学院自动化所。

汉语语料库的建设及其在汉语教学中的应用(精华)

汉语语料库的建设及其在汉语教学中的应用(精华)

汉语语料库的建设及其在汉语教学中的应用(精华)汉语语料库的建设及其在汉语教学中的应用*俞士汶北京大学信息科学技术学院北京大学计算语言学研究所1. 引言语言学家历来重视第一手语言资料的获取和运用。

在个人计算机普及以前,语言学家只能靠手工用卡片收集少量的典型的资料。

所以,中国前辈语言学家曾感叹他们是在用小本钱做大买卖。

计算语言学把传统的语言学研究同自然语言信息处理技术结合起来,为语言学的发展、为语言教学研究注入了新的活力。

计算语言学(Computational Linguistics)这个专业术语自 1960 年代在文献中出现以来[1],这门学科已经有了40 多年的发展历史。

1990 年代,语料库语言学异军突起,这是计算语言学发展历史上的一个重要的里程碑。

由于计算机以及应用技术(电子排版、因特网等等)的发展,大规模的电子文本唾手可得,自然语言处理技术专家有了从大规模真实文本中获取语言知识(词频、词义、词语搭配、句子结构规则等等)的物质基础,基于大规模语料库的统计语言模型(如:n 元语法、隐马尔可夫模型、向量空间模型等)在诸如词性标注、文本分类等语言工程中的成功应用[2]更加有力地推动了语料库语言学的发展,至今仍是方兴未艾。

语料库语言学发展的基础设施是由大规模真实文本资料构成的语料库。

可以引用以下事实作为语料库价值的佐证。

2002 年 3 月,中国教育部和国家语委发布《第一批异形词整理表》时,李行健先生解释了整理异形词所遵循的三个原则:通用性、理据性、系统性。

并进一步说明:“通用性怎么确定呢,就是用计算机做词频统计。

”这项词频统计工作是应用计算机技术、选用1995 年至2000 年6 年共计1.5 亿字的《人民日报》语料作为对象进行的。

如果没有理解错,笔者以为李行健先生所做的“词频统计”是仅仅针对预先收集到的几百组(最多不过1500 组)异形词进行的。

即使针对性如此明确,在中文文本中统计这些异形词的时候,仍会遇到困难。

语料库的建设和应用

语料库的建设和应用

❖ Corpus linguistics is the kind of research, carried out in university departments of linguistics, computer science, and related subjects (and nowadays often in industrial research labs too), which makes crucial use of language corpora. (G. Sampson & D. McCarthy)
在英国和欧洲却得到迅猛的发展,ICAME(International Computer Archive of Modern English)在挪威的建立。
美国人开始觉醒, 1999在Michigan召开了”北美语料库语言学讨论会。Simpson和 Swales在论文集呼吁要像人造卫星和汽车工业那样迎头赶上。ANC正在积极进行, LDC(Linguistic Data Consortium)收集了许多语料。LDC的口号是No data like more data。
精选ppt课件
9
3. 语料库的设计和制作
❖ 又如我们最近想建一个《语言学及应用语言学语料库》,其 目的是(1)供研究生论文写作查阅语言搭配;(2)建立次 专业性(sub-technical terms)词汇表。我们定了14个领域, 包括理论、心理、社会、应用、语用、神经、认知、语音、 语法、语义(词汇)、语料、语体(语篇)、生物语言学和 自然语言处理,随机抽样500篇,每篇2000字上下。这也是 一个方案。
did_DOD find_VB that_CS many_AP of_IN Georgia's_NP$ registration_NN and_CC election_NN laws_NNS are_BER outmoded_JJ or_CC inadequate_JJ and_CC often_RB ambiguous_JJ ._.

古今汉语平行语料库的语料构建-2019年精选文档

古今汉语平行语料库的语料构建-2019年精选文档

古今汉语平行语料库的语料构建一缘起“汉语是世界上正在使用的语言中最古老的语种之一。

汉语古籍无论是数量还是涉及的范围及其历史跨度,在世界上都是无与伦比的。

”①灿烂悠久的中国思想文化,通过这些典籍得以保存、传承,在历经千载的延续过程中,又得后人的认识和研究,融入新的内涵,由此构筑了中国的古代文明。

今天,这些承载着中华民族灿烂文明的典籍仍在被广泛地使用着,尤其在人文学科领域的应用价值更是显而易见。

同时,随着大众文化水平的提高、经济的发展与对外往来的增加,越来越多的非专业人士希望深入了解中国传统的思想文化,但古代汉语与现代汉语之间存在着的明显差异使得很多现代人难以理解以古汉语为载体的传统典籍。

有鉴于此,我们提出要建设一个大型、开放的古今汉语平行语料库及其应用平台,为古籍整理和翻译(含机器翻译或机器辅助翻译)、古代汉语教学与研究以及辞书编纂提供基础资源,为需要了解中国传统思想文化的普通读者及相关学科的专家提供阅读、翻译、检索、统计服务,并为与现有的汉英双语语料库的对接奠定基础,从而为实现古汉语和英语的翻译(含机器翻译或机器辅助翻译)创造条件。

平行语料原指使用不同语言撰写、相互间具有“翻译关系”的文本,本文将其延展为基于同一语言且不同历史时期兼具有“翻译关系”的文本,就汉语而言,即指“古今汉语”。

平行语料库已被系统地应用到自然语言处理中,包括建立翻译记忆、编纂词典和双语术语表、跨语言信息检索、计算机辅助教学、语言对比研究等。

国外涉及汉语的平行语料库中影响较大的是与Freiburg-LOB Corpus of British English (即FLOB 平行对应的汉语语料库LCM②(The Lan caster Corpus of Ma ndarin Chinese )。

国内的主要研究有北京大学计算语言学研究所的汉英双语语料库以及北京外国语大学拥有的目前国内最大的双语平行语料库(含汉英和汉日两个库)等[1] 。

国家语言资源监测语料库介绍

国家语言资源监测语料库介绍

国家语言资源监测语料库介绍何婷婷杨尔弘侯敏华中师范大学计算机科学系国家语言资源监测与研究中心网络媒体语言分中心北京语言文化大学国家语言资源监测与研究中心平面媒体语言分中心中国传媒大学国家语言资源监测与研究中心有声媒体语言分中心2005年,教育部语言文字信息管理司开始和国内若干高校陆续联合建设语言资源监测中心,其中包括与北京语言文化大学共建的平面媒体语言分中心、与中国传媒大学共建的有声媒体语言分中心、与华中师范大学共建的平面媒体语言分中心。

这三个分中心分别建设了平面媒体动态流通语料库、有声媒体监测语料库、网络媒体监测语料库,它们共同构成国家语言资源监测语料库。

语料库包括网页、纯文本,并采用中科院自动化所的自动分词工具做了自动分词。

欢迎各界同仁共同开发、建设使用该语料库。

1、语料库现状1.1 平面媒体动态流通语料库(DCC)平面媒体语言分中心自2001年以来,每年根据“发行量、发行地域、发行周期、媒体价值、阅读率”等因素,选择15种网络版报纸的内容,作为平面媒体动态流通语料库的语料采集内容,目前,已经形成了近30亿字的语料库。

语料进行了元数据的标注、自动分词标注,语料库提供了生语料、分词标注语料的检索功能,并能够历时地查询词语使用的情况。

网址/。

根据网页栏目的分类体系,所有语料进行了分类。

类别包括15类:娱乐,游戏,文艺,体育,时政新闻_社会,时政新闻_军事,时政新闻_国内,时政新闻_国际,生活男女,汽车,旅游,科技,经济,教育,房产。

为实现语料库中的文本分类,建立了60万个文本的训练语料,语料规模约6亿字次。

1.2有声媒体监测语料库有声媒体语言分中心自2001年开始语料库的建设。

到目前为止,已建起一个多功能的、跨媒体的汉语传媒有声语言语料库。

每年以收视率为基本条件,综合考虑了“传播媒介(广播、电视)、媒体级别(中央、地方)、播出时间(黄金时间、非黄金时间)、节目样态(独白、对话、综合)、文本现存(是否有转写好的文本)”五个因素,采集了电台、电视台播出的有声节目的录音或录像及由其转写成的文本语料。

【推荐】语料库语言学各种常用软件下载

【推荐】语料库语言学各种常用软件下载

【推荐】语料库语言学各种常用软件下载资料来源:博主按:以下文字和软件等版权属原作者,使用请注意版权。

部分网址可能失效,但是可以按图索骥。

博主对原文和原软件作者深表谢意!作者:张义出自:张义的语言学博客浏览/评论:3,577/5日期:2005年10月20日18:011.concapp04(concapp03的修订版,可支持超大字符集)软件下载地址;(concapp03版)2.Wconcord--语料库分析软件软件介绍:A slow but very stable concordancer that can create concordances,collocation tables,and frequency lists.Unfortunately,the output is limited to 16,000 lines.下载地址3.WordSmith Tools 4--语料库分析软件介绍Michael Scott's brilliant software.下载地址中科院计算所汉语词法分析系统ICTCLAS软件介绍:词是最小的能够独立活动的有意义的语言成分。

但汉语是以字为基本的书写单位,词语之间没有明显的区分标记,因此,中文词语分析是中文信息处理的基础与关键。

为此,我们中国科学院计算技术研究所在多年研究基础上,耗时一年研制出了汉语词法分析系统ICTCLAS(Institute of Computing Technology,Chinese Lexical Analysis System),该系统的功能有:中文分词;词性标注;未登录词识别。

分词正确率高达97%以上,未登录词识别召回率均高于90%,其中中国人名的识别召回率接近98%处理速度为31.5Kbytes/s。

ICTCLAS的特色还在于:可以根据需要输出多个高概率结果,有多种输出格式,支持北大词性标注集,973专家组给出的词性标注集合。

现代汉语语料库建设及深加工项目总结报告

现代汉语语料库建设及深加工项目总结报告

a6写作时间;a7书刊名称;a8编著者; a9出版社; a10所在省;
a11出版日期;a12期号; a13版次(初版印数); a14本版印数;
a15总印数; a16总页数; a17开本;
a18选择方式;
a19起止页数;a20样本字数;a21样本总字数;a22文章总字数;
a23简繁体; a24抽样文章。
科研成果在多个方面体现了创新性和 先进性
该语料库样本的平衡性,体现在历时的时间平 衡和共时的分布平衡等方面;
该语料库是目前最大规模的现代汉语标注语料 库,时间跨度最大、类别分布最广;
语料库加工、检索、统计、管理形成了一整套 完整的软件系统,等等。
国家语委现代汉语语料库加工遵循国内外信息 处理领域通用的语料库加工路线,重视为语言 学研究服务,采用机助人校的加工方式,通过 开发语料库切分标注、校对、质量检查等软件 工具来提高校对精度和控制加工质量。
在加工过程中制定了《信息处理用词类标记集 规范》等语料库建设规范。为兼容不同词语颗 粒度,专门建立了层次化结构化的分词词表, 分词词表的词条数量超过88000条。
结构化词表示例:
标注语料库主要词类分布频率表:
6000000 5000000 4000000 3000000 2000000 1000000
语料库应用设想
1) 网络有偿或无偿使用,提供语言学、计算语言学、 对外汉语教学等研究者和外国留学生作各种常规查询, 包括字、词搭配、例句抽取、句型、句法结构、某种历 时的研究。
2) 提供计算语言学研究的各种统计数据,例如字频、 词频、句型句法结构统计、人名地名用字统计。
根据各种中文信息处理的方法和流派的不同,研究 相适应的评测标准,提供标准测试集。充分发挥语用所 在资源(国家级)、标准、规范上的权威性和协调作用, 体现公允性、引导性和先进性。

中国语料库研究的历史与现状

中国语料库研究的历史与现状

中国语料库研究的历史与现状冯志伟语言学的研究必须以语言事实作为根据,必须详尽地、大量地占有材料,才有可能在理论上得出比较可靠的结论。

传统的语言材料的搜集、整理和加工完全是靠手工进行的,这是一种枯燥无味、费力费时的工作。

计算机出现后,人们可以把这些工作交给计算机去作,大大地减轻了人们的劳动。

后来,在这种工作中逐渐创造了一整套完整的理论和方法,形成了一门新的学科-- 语料库语言学(corpus linguistics),并成为了自然语言处理的一个分支学科。

语料库语言学主要研究机器可读自然语言文本的采集、存储、检索、统计、语法标注、句法语义分析,以及具有上述功能的语料库在语言定量分析、词典编纂、作品风格分析、自然语言理解和机器翻译等领域中的应用。

多年来,机器翻译和自然语言理解的研究中, 分析语言的主要方法是句法语义分析。

因此,在很长一段时间内,许多系统都是基于规则的,而根据当前计算机的理论和技术的水平很难把语言学的各种事实和理解语言所需的广泛的背景知识用规则的形式充分地表达出来,这样,这些基于规则的机器翻译和自然语言理解系统只能在极其受限的某些子语言(sub-language)中获得一定的成功。

为了摆脱困境,自然语言处理的研究者者们开始对大规模的非受限的自然语言进行调查和统计,以便采用一种基于统计的模型来处理大量的非受限语言。

不言而喻,语料库语言学将有可能在大量语言材料的基础上来检验传统的理论语言学基于手工搜集材料的方法所得出的各种结论,从而使我们对于自然语言的各种复杂现象获得更为深刻全面的认识。

本文首先简要介绍国外语料库的发展情况,然后,比较详细地介绍中国语料库的发展情况和主要的成绩,使我们对于语料库研究得到一个鸟瞰式的认识。

1.国外语料库概况现在,美国Brown大学建立了BROWN语料库(布朗语料库),英国Lancaster 大学与挪威Oslo大学与Bergen大学联合建立了LOB 语料库。

欧美各国学者利用这两个语料库开展了大规模的研究,其中最引人注目的是对语料库进行语法标注的研究。

国家语委语料库

国家语委语料库
家语委现代汉语语料库。
国家语委现代汉语语料库是一个大型的通用的语料库,以语言文字的信息处理、语言文
字规范和标准的制定、语言文字的学术研究、语文教育和语言文字的社会应用为主要服务目
标。国家语委现代汉语语料库作为国家级语料库,在汉语语料库系统开发技术上具有国际领
先水平,在语料可靠、标注准确等方面具有权威性。国家语委现代汉语语料库面向国内外的
b)切分结果层次(结构)化:
8
切分结果层次(结构)化使得语料库能够更好地满足不同研究应用需要。
2.机助人校的语料校对工具软件
校对软件界面:
..校对者可与后台词典交互,直接获取词和词类信息
..软件自动通过色彩标识出语料校对信息
..严格的自动格式检查,防止用户误操作等带来的错误
经完成词语切分和标注加工的约5000万字语料是语料库中1919~1992时间段的大部分语料
以及1992~2002时间段的部分语料。
二、国家语委语料库建设与深加工
1.主要科研成果
国家语委现代汉语语料库建设已经完成的主要内容是:
2
1)完成 5000万字语料词语切分和词性标注加工。词语切分校对精度达到万分之五,词
a14 本版印数
a15 总印数
a16 总页数
a17 开本
a18 选择方式
a19 起止页数
a20 样本字数
a21 样本总字数
a22 文章总字数
a23 简繁体
a24 抽样文章
国家语委现代汉语语料库的数据量包括新增的 1000万字新语料已经达到了 1亿字,已
“大规模”和“真实”这两个特点,因此是最理想的语言知识资源,是直接服务于语言文字

语料库与语料库建设

语料库与语料库建设

语料库和语料库建设一、什么叫语料库1、定义语料库,通俗意义上指的是语言材料库。

严格意义上的语料库(corpus)是指按照一定的语言学原则,运用随机抽样方法,收集自然出现的连续的语言运用文本或话语片断而建成的具有一定容量的大型电子文本库。

目前,语言学家对于语料库的定义不尽相同,如辛克莱(Sinclair)认为语料库是“按照明确的语言学标准选择并排序的语言运用材料汇集,旨在用作语言的样本”。

阿特金斯等(Atkins & Clear)认为语料库是“按照明确的设计标准,为某一具体目的而集成的大型文本库”。

赫努(Renouf)认为语料库是“由大量收集的书面语或口头语构成,并通过计算机储存和处理,用于语言学研究的文本库”。

我们看到,以上关于语料库的几种定义相同之处在于都谈到语料库是语言材料的汇集;不同之处在于前两个定义指出语料库的设计是有明确的设计标准的,赫努的定义明确指出语料库“通过计算机储存和处理”这一特点。

语料库不同于电子文档,语料库的建设有特定的研究目的和具体用途,因此在语料抽样范围和文类覆盖方面都力求取得平衡,在收集语料时需要考虑到每一文类、体裁、语域、主题类型等的抽样比例。

而大型文档目标在于搜集任何可获得的语言材料或所限定的数种文类语料,其语言材料之间的关系较为松散。

语料库具有以下特征:1、语料库的设计与建设有系统的语言学理论指导,语料库的开发具有明确而又具体的目的;如,布朗语料库用于对20世纪60年代的美国英语的研究,LOB是与布朗语料库对齐的同时期的英国英语语料库,可用以对英国英语进行研究,也可与布朗语料库加以对比进行美国英语和英国英语的对比研究。

2、语料库的语料是按照明确的语言学原则采用随机抽样的方法得到的语言运用的自然语料,不是随意的语言材料的堆积,更不是由某个个人杜撰出来的。

语料库的容量和语料采用随机抽样方式都保证了语料具有代表性,由此保证基于语料库的语言研究的科学性、客观性。

国内汉语语料库概况

国内汉语语料库概况
第一轮实验中袁我们比较了不同英语水平的学生在开展合作学习
时的区别遥 我们选取了我校 2011 级医学影像技术 1101-02 班作为实 验班袁影像 1103-04 班作为对照班袁研究者以高考英语成绩作为分组 标准袁把实验班的学生分成十个小组袁每组由 5 到 6 人组成袁分别来自 高分段袁中分段和低分段袁保证其组间同质袁组内异质袁同时把对照班 的学生随机分成十个小组袁对这两个班级进行同一内容的教学渊董亚 芬主编叶大学英语曳第二册第二单元袁上海外语教育出版社出版冤遥 单元 测试的结果显示实验班的平均成绩渊78.3冤要高于控制班的平均成绩 渊72.5冤袁这说明由不同英语水平的学生构成的小组获得了更好的学习 效果遥
. Al语l言材R料i是gh真t实s的尧可Re观s存e在r的v袁e因d此.袁通过概率统计手段在语料库语 言学研究中得到的语言使用情况是真实客观的袁排除掉了语言学家的 主观性袁研究结果更加真实可靠遥 员援圆 语料库在语言学研究领域的应用 语料库应用对语言学研究的主要改进有院 渊1冤保证了语料的客观真实性袁排除了语言学家的主观性曰渊2冤借 助计算机的储存能力袁 提高了研究的广度和深度曰渊3冤 提高了工作效 率袁减少了人工误差曰渊4冤使语料资源具有共享性遥 语料库在语言学研究中主要的应用领域有: 渊1冤词典编纂曰渊2冤语言统计曰渊3冤语言监控袁包括新词尧新用法的发 现曰渊4冤语言教学曰渊5冤语言信息处理曰渊6冤语法尧语义尧词汇尧语音等各种 语言问题的研究曰渊7冤方言研究等等遥
揖关键词铱汉语曰语料库曰语言学
0 引言
自 20 世纪 60 年代计算机问世袁计算机技术就迅速应用到了以语 料库为基础的语言学研究中袁随着计算机技术的迅速发展袁世界各国 在语料库的建设上成绩显著遥 不同语言尧不同类型尧不同规模的语料库 越来越多遥语料库的广度越来越大袁开发加工的深也日益加深遥语料库 在语言学研究和自然语言处理中发挥的作用越来越大遥

国家语委现代汉语语料库介绍

国家语委现代汉语语料库介绍
2003年通过国家语委标准化委员会的审定 2006年成为国家标准,标准号GB/T 20532-2006 词类标记集规范的原则是有利于数据交换和资源共享
样例 分词和词性标注语料
样例 词类标记集
样例 句法树库标记集(1)
(一)短语功能分类
样例 句法树库标记集(2)
(二)短语结构分类
综合类
应用文 难于归类的语料
人文与社会科学类
人文与社会科学类划分为8个大类和30个小类:
政法:哲学、政治、宗教、法律; 历史:历史、考古、民族; 社会:社会学、心理、语言文字、教育、文艺理论、新闻、
民俗; 经济:工业经济、农业经济、政治经济、财贸经济; 艺术:音乐、美术、舞蹈、戏剧; 文学:小说、散文、传记、报告文学、科幻、口语; 军体:军事、体育; 生活。
人文与社会科学类约占语料总量的50%
自然科学类
自然科学划分为6类:
数理 生化 天文地理 海洋气象 农林 医药卫生
自然科学类约占语料总量的30%,
综合类
综合类语料由应用文和难于归类的其他语料两部分组成。 应用文主要包括以下6类:
行政公文:请示、报告、批复、命令、指示、布告、纪要、 通知等;
语料抽样数量
书籍
抽样数量一般占全书字数的3~5%,字数最多不超过 10000字。样本容量2000字,允许±500字。
报纸
采用整版(4版或8版)选用的方式。不同的报纸选用不 同的月份,以免内容重复。
报纸上的广告、启事等归在应用文类,不在报刊类语料 的统计之列。
刊物
每本刊物上所选的总字数原则上不超过5000字。样本容 量2000字,允许±500字。

分享丨翻译和语言研究必备:国内外23个语料库推荐

分享丨翻译和语言研究必备:国内外23个语料库推荐

分享丨翻译和语言研究必备:国内外23个语料库推荐点击上方“能源舆情”可以订阅哦!书到用时方恨少,还不赶快来收藏?!国内语料库资源1. 国家语委现代汉语语料库现代汉语通用平衡语料库现在重新开放网络查询了。

重开后的在线检索速度更快,功能更强,同时提供检索结果下载。

现代汉语语料库在线提供免费检索的语料约2000万字,为分词和词性标注语料。

2. 国家语委古代汉语语料库/login.aspx网站现在还增加了一亿字的古代汉语生语料,研究古代汉语的也可以去查询和下载。

同时,还提供了分词、词性标注软件、词频统计、字频统计软件,基于国家语委语料库的字频词频统计结果和发布的词表等,以供学习研究语言文字的老师同学使用。

展开剩余92%3. 北京大学“《人民日报》标注语料库”/icl_res4. 北大语料库——北京大学中国语言学研究中心/corpus.asp北大语料库由“现代汉语语料库”、“古代汉语语料库”、“汉英双语语料库”三个语料库组成。

其中,北大计算语言学研究所的双语语料库,英汉对齐的句子已有5万多对,并开发了相应的对齐工具和双语语料库管理软件。

正在此基础上做汉英对照短语库,预计规模将达数十万条。

(汉英双语语料库目前仅对北大校内用户开放)5. 北京语言大学高翻学院的“高翻记忆库”6. 清华大学汉语均衡语料库TH-ACorpus/ainlp/source.htm(似乎在改版,一直上不去)7. 中央研究院“现代汉语平衡语料库”/SinicaCorpus专门针对语言分析而设计的,每个文句都依词断开,并标示词类。

语料的搜集也尽量做到现代汉语分配在不同的主题和语式上,是现代汉语无穷多的语句中一个代表性的样本。

现有语料库主要针对语言分析而设计,由中央研究院信息所、语言所词库小组完成,内含有简介、使用说明,现行的语料库是4.0的版本。

8. 中央研究院“近代汉语标记语料库”/kiwi/pkiwi/index.html9. 中央研究院汉籍电子文献(瀚典全文检索系统)包含整部25史整部阮刻13经、超过2000万字的台湾史料、1000万字的大正藏以及其他典籍。

“中国英语”语料库建设路线图

“中国英语”语料库建设路线图

无人建立 “ 中国英语”语料库 ,而建设该语 料库具有重要 的作用和意义。 “ 中国英语”语料库的建设可 以借鉴
国际英 语 语 料 库 ( E)各 个 分 库 的 建 设 经验 。众 多 的 文 本来 源 使 建设 “ 国英 语 ”语 料库 成 为 可 能 。 I C 中 【 词 】中 国英 语 ;中 式英 语 ;中介 语 ;语 料 库 ;路 线 图 关键
维普资讯
第 1 3卷
第 2期
井 冈 山 医 专 学 报
J RN I OU AL OF JNGG ANGS HAN MEDIAL C L E C OL EG
V0.3 No2 11 . Ma .0 6 r o 2
20 0 6年 3月
‘ ‘ 中国英语 "语料库建设路线 图
11 “ 圈 ” 国家 包 括 所 有 的传 统 的 盎 格 鲁 一 克 逊 人 文 化 . 内 撒 圈 国 家 ,有 英 国 、美 国 、加拿 大 、澳 大 利 亚 、新 西 兰 、爱 尔
兰 等 国 家 。 “ 圈 ” 是 规 范 提 供 ( o - rvdn) 者 。 内 N r poi g m i “ 内圈 ”英 语 规 范 了各 种 英 语 的共 核 ( e cnnn cr) 但 t ol o oe 。 h l “ 圈 ” 英 语 的 口音 、语 法 、正 字 法 、标 点 符 号 使 用 法 、 词 内 汇 、 习 语 等 方 面 也 没 有 一 个 统 一 的 标 准 。 澳 大 利 亚 、加 拿 大 、新西 兰 等 国家 不 再 以英 美 的 英 语 为 规 范 ,如 澳 大 利 亚 编 写 了 反 映澳 洲 英 语 的 M q ai Dcinr。 aur it ay e o 1 “ 圈 ”国 家 是 把 英 语 当 作 官 方 语 言 或 官 方 语 言 之 一 , . 2 外 或 把 英 语 当作 辅 助 语言 或 第 二 语 言 ,如 印 度 、马 来 西 亚 、新

第六章语料库

第六章语料库

第六章语料库詹卫东/doubtfire/提纲1 什么是语料库2 语料库的发展简史3 语料库的设计4 语料库的加工5 语料库的应用1 什么是语料库在今天,仅仅将语料库视为存放语言材料的仓库,是令人无法忍受的观点。

新一代的兆亿级的大规模语料库可以作为语言模型的训练和测试手段,来评价一个语言模型的质量;此外,诸如困惑度之类的统计方法也可利用语料库来评估一个语法模型对语料的解释能力。

——Geoffrey Leech, The State of The Art inCorpus Linguistics, 1991, In Aijmar, K.and Altenberg, B. , eds. , English CorpusLinguistics: Studies in Honor of JanSvartvik, London:Longman, 1991.关于语料库的三点基本认识语料库中存放的是在语言的实际使用中真实出现过的语言材料;语料库是以电子计算机为载体承载语言知识的基础资源;真实语料需要经过加工(分析和处理),才能成为有用的资源;语料库示例(一)北京大学计算语言所富士通人民日报标注语料库样例:历史/n 将/d 铭记/v 这个/r 坐标/n :/w 北纬/b 41.1/m 度/q 、/w 东经/b 114.3/m 度/q ;/w 人们/n 将/d 铭记/v 这/r 一/m 时刻/n :/w 1998年/t 1月/t 10日/t 11时/t 50分/t 。

/w……[中国/ns 政府/n]nt 顺利/ad 恢复/v 对/p 香港/ns 行使/v 主权/n ,/w 并/c 按照/p “/w 一国两制/j ”/w 、/w “/w 港人治港/l ”/w 、/w 高度/d 自治/v 的/u 方针/n 保持/v 香港/ns 的/u 繁荣/an 稳定/an 。

/w语料库示例(二)London-Lund英语口语语料库样例^what a_bout a cigar\ette# ./*((4sylls))*/*I ^w\on't have one th/anks#* ---/^aren't you .going to sit d/own# -/^[/\m]# -/^have my _coffee in p=eace# ---/^quite a nice .room to !s\it in ((actually))#/*^\isn't* it#/*^y/\es#* ---/转引自Tony McEnery& Andrew Wilson, 1996, Corpus Linguistics, p55,语料库与语言知识库语言知识库(Linguistic Database)语料库(corpora/corpus)2 语料库发展简史20世纪50年代Chomsky的影响 第一代(1970-80年代)第二代(1980-90年代)第三代(1990年代)?第四代(21世纪)UPenn Treebank美国Pennsylvania大学1980年代末开始发起 由该校计算机系M.Marcus主持1993年,完成了对近300万英语词的句子语法结构标注2000年发布中文树库(第一版)10万词,4185个句子,325data files(新华社语料)2004年发布中文树库4.0版404,156 words, 664,633Hanzi, 15,162 sentences, and 838 data files(大陆、香港、台湾语料)宾州大学中文树库示例他还提出一系列具体措施和政策要点。

国内汉语语料库概况

国内汉语语料库概况

国内汉语语料库概况作者:郑萌来源:《科技视界》2014年第27期【摘要】本文概述了语料库的起源和发展的历史,着重从中国语料库的建设与发展出发,列举近二十年常用的大型语料库,并对中国语料库语言学研究存在的问题和发展趋势等方面进行了分析,为语料库的建设和语言学研究提供参考建议。

【关键词】汉语;语料库;语言学0 引言自20世纪60年代计算机问世,计算机技术就迅速应用到了以语料库为基础的语言学研究中,随着计算机技术的迅速发展,世界各国在语料库的建设上成绩显著。

不同语言、不同类型、不同规模的语料库越来越多。

语料库的广度越来越大,开发加工的深也日益加深。

语料库在语言学研究和自然语言处理中发挥的作用越来越大。

自第一代大型电子语料库BROWN建立至今,语料库语言学的研究已经有50多年的历史。

而国内的语料库研究也有30多年的历史,并在上世纪90年代得到飞速发展,语言学与计算机技术加速融合,不同的学者和专家秉着不同的出发点,在各种角度和各种层次上进行了大量实证研究,这使得我国的语料库语言学迅速发展繁荣。

1 语料库和语料库语言学1.1 语料库和语料库语言学的定义语料库(corpus 或corpora,corpuses[复]):是指按照一定的语言学原则,运用随机抽样方,收集自然出现的连续语言运用文本或话语片段而建成的具有一定容量的大型电子文本库。

语料库语言学:在文本语料的基础上进行语言研究的一门学科。

语料库语言学通过语言现象出现的概率对语言材料进行研究。

这里的语言材料是真实的、可观存在的,因此,通过概率统计手段在语料库语言学研究中得到的语言使用情况是真实客观的,排除掉了语言学家的主观性,研究结果更加真实可靠。

1.2 语料库在语言学研究领域的应用语料库应用对语言学研究的主要改进有:(1)保证了语料的客观真实性,排除了语言学家的主观性;(2)借助计算机的储存能力,提高了研究的广度和深度;(3)提高了工作效率,减少了人工误差;(4)使语料资源具有共享性。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

国内语料库建设一览表- 宁静以致远~~ - CSDNBlog 国内语料库建设一览表
类型
语料库名称及大小
建设单位
英语学习者语料库(书面语及口语)
中国学习者语料库CLEC(100万)
广外、上海交大
大学英语学习者口语语料库
COLSEC (5万)
上海交大
香港科技大学学习者语料库
HKUST Learner Corpus
香港科技大学
中国英语专业语料库CEME
(148万)
南京大学
中国英语学习者口语语料库
SECCL (100万)
南京大学
国际外语学习者英语口语语料库中国部分LINSEI-China (10万)
华南师大
硕士写作语料库MWC
(12万)
华中科技大学
平行语料库
汉英平行语料库PCCE
北外
南大-国关平行语料库
南京大学
英汉文学作品语料库;
外研社
冯友兰《中国哲学史》汉英对照语料库
李约瑟(Joself
Needham)《中国科学技术史》英汉对照语料库计算机专业的双语语料库;
国家语言文字工作委员会语言文字应用研究所
柏拉图(Plato)哲学名著《理想国》的双语语料库
英汉双语语料库(15万对)
中科院软件所
英汉双语语料库:LDC香港新闻英汉双语对齐语料36294段以及香港法律英汉双语对齐语料31万句子对
中国科学院自动化研究所
英汉双语语料库(100万),网上英汉语段电子词典及网上电子英汉搭配词典(1000万)
东北大学
英汉双语语料库(40-50万句子对)
哈尔滨工业大学
双语语料库(5万多对)
北京大学计算语言学研究所
对比语料库
LIVAC(Linguistic variety in Chinese communities)
香港城市理工大学
平衡语料库(Sinica Corpus);树图语料库(Sinica Treebank) 台湾
特殊英语语料库
中国英语(China English)语料库
河南师范大学
军事英语语料库(Corpus
of Military Texts)
解放军外语学院
新视野大学英语教材语料库
上海交通大学
汉语语料库
汉语现代文学作品语料库(1979年,527万字) 武汉大学
现代汉语语料库(1983年,2000万字)
北京航空航天大学
中学语文教材语料库(1983年,106万8000字) 北京师范大学
现代汉语词频统计语料库(1983年,182万字) 北京语言学院
国家级大型汉语均衡语料库(2000万字) 国家语言文字工作委员会
《人民日报》语料库(2700万字)
北京大学计算机语言学研究所
大型中文语料库(5亿字,10分库)
北京语言文化大学
现代汉语语料库(1亿字)
清华大学
汉语新闻语料库;(1988年,250万字) 山西大学
标准语料库(2000年,70万字)
生语料库(3000万字);《作家文摘》的标注语料库(100万字) 上海师范大学
现代自然口语语料库
中国社会科学院语言所
旅游咨询口语对话语料库和旅馆预定口语对话语料库
中国科学院自动化所。

相关文档
最新文档