大数据背景下BCC语料库的研制_荀恩东
“HSK动态作文语料库”说明
“HSK动态作文语料库”说明1“HSK动态作文语料库”是由北京语言大学崔希亮教授主持的一个国家汉办科研项目。
项目编号为:HBK01-05/023。
2“HSK 动态作文语料库”是母语非汉语的外国人参加高等汉语水平考试(HSK 高等)作文考试的答卷语料库,收集了1992-2005 年的部分外国考生的作文答卷。
语料库1.0 版收入语料10740 篇,约400 万字,于2006 年12 月下旬上网试运行。
经修改补充,语料库1.1 版语料总数达到11569 篇,共计424 万字。
3语料库提供给用户的作文语料有两种版本:标注语料和原始语料。
标注语料是把考生作文答卷人工录入电脑并经人工标注各种中介语偏误的语料,原始语料指的是考生原始作文的电子扫描语料。
4作文语料的加工处理包括下列内容:(1)字处理:包括错字标注、别字标注、繁体字标注、异体字标注、拼音字标注、漏字标注、多字标注,以及各种用字错误统计,总的字频统计等。
(2)标点符号处理:包括错误标点标注、空缺标点标注、多余标点标注,以及各种相关统计。
(3)词处理:包括错词标注、缺词标注、多词标注、外文词标注、离合词错误标注,以及各种用词错误统计,总的词频统计等。
(4)句处理:包括句子成分残缺或多余的错误标注,各种特殊句式的错误标注,语序、动词重叠、句式杂糅、未完句等方面的错误标注,以及各种句子错误的数据统计。
(5)篇章处理:包括句间连接手段的错误标注,语义表达方面的错误标注,以及篇章错误的数据统计。
为了方便用户更充分地使用这些作文语料,语料库还提供了历次考试的时间、地点和作文题目,以及下列考生信息:考生国籍、性别、作文分数、口试分数、客观试卷中听力、阅读、综合表达各部分分数和参加高等汉语水平考试的总分分数、是否得到汉语水平证书以及证书等级。
5本语料库在建设过程中,特别注重语料的真实性与平衡性,标注的全面性与科学性,软件系统的方便性与快捷性。
6本语料库是母语非汉语的汉语学习者学习汉语的中介语语料库。
2016国家社科基金项目立项名单
牛香兰 王辉 李艳 陈林俊 郝兴跃 尼玛普赤 王绍峰 孙汝建 刘立壹 夏历 潘艳艳 张颖炜 葛云锋 杨石乔 孙晓明 李慧敏 邹立志 陈宏俊 刘涛 赵硕 刘熠 韩宝成 陈建林 蔡基刚
青海民族大学 宁夏大学 首都师范大学 常州大学 昆明理工大学 西藏大学 湖州师范学院 华侨大学 山东建筑大学 沈阳师范大学 解放军国际关系学 院 南通大学 山东师范大学 深圳职业技术学院 中央民族大学 安徽大学 首都师范大学 大连理工大学 江苏师范大学 西北工业大学 东北大学 北京外国语大学 兰州大学 复旦大学
2246 韩国留学生汉语篇衔接手段习得研究 2247 基于可比语料库的核心区华语虚词比较研究 2248 基于虚拟现实的汉语国际教育发展新模式研究 2249 框架语义理论视角下的对外汉语句式系统研究 2250 留学生全程性中介字字库建设及汉字习得研究 2251 面向对外汉语教学的现代汉语常用形容词搭配研究 2252 多维参照的国别化汉语中介语动态语料库库群构建与 研究
田艳 任淑坤 杨春雷 刘云虹 黎昌抱 胡开宝 管兴忠 汪化云 杜兆金 周政 王振华 倪传斌 张文忠 莫再树 刘春燕 王强 武振玉 朱怀 傅惠钧 王立非 隋娜 钱建成 张克定 张立飞
上海交通大学 河北大学 上海外国语大学 南京大学 浙江财经大学 上海交通大学 北京语言大学 浙江财经大学 曲阜师范大学 安康学院 上海交通大学 南京师范大学 南开大学 湖南大学 江西师范大学 扬州大学 吉林大学 重庆师范大学 浙江师范大学 对外经济贸易大学 曲阜师范大学 郑州大学 河南大学 解放军外国语学院
2240 中外籍英语教师合作教学模式研究 2241 大学生外圈英语听辨能力研究 2242 基于复杂动态系统的学术英语语块能力发展建模研究 2243 基于语料库的中国学术英语口语研究 2244 2245 汉语作为第二语言学习者汉语语法习得的言语加工策 略研究 基于词汇类型学的CSL学习者空间量度范畴形容词的 习得研究
对外汉语教师备课找例句:一站即可
对外汉语教师备课找例句:一站即可语料库是对外汉语教师必不可少的好帮手,可以帮老师筛选例句、进行词汇对比、查看学生偏误。
今天的教程就是教对外汉语的老师们如何用目前全球最大的汉语语料库BCC来备课。
教程包含两个部分,其一是介绍BCC,其二是介绍BCC用法。
什么是BCC一BCC(BLCU Chinese Corpus)北京语言大学现代汉语语料库,总字数约150 亿字,是目前最大的汉语语料库,没有之一,语料多得让人兴奋。
简单说说它的特点吧,用四字概括,大、多、久、强。
怎么有点老司机上路的感觉。
哈哈。
1. 大字数规模大,150亿字的容量可以全面反映当今社会语言生活。
2. 多涵盖语体多,不同于以书面语体为主的CCL,BCC涵盖报刊(20 亿)、文学(30 亿)、微博(30 亿)、科技(30 亿)、综合(10 亿)和古汉语(20 亿)等多领域语料。
3. 久时间覆盖久,报刊中部分语料可以追溯至1945年。
4. 强搜索模式强,我在玩这些功能时,感觉自己摇身变成码农。
是不是已经被提起兴致来啦?想知道怎么用?跟着老司机走。
备课时怎么用BCC一网站入口:BCC在汉语教师备课时候,我觉得主要有5大功能,其他功能还有待大家开发,文章末尾有BCC提供的检索式示例。
1词语辨析在备课时,特别是中高级汉语课程,由于学生词汇量较多,他们常常会拿以前学过的词和新词做对比。
老师可以用“[ ]”这个符号进行语料搜集,“[ ]”的功能可以理解为“或者”。
比如想辨析“不料”和“竟然”,那么在搜索栏里添加[不料竟然]即可,注意“[ ]”是英文符号。
下图就是结果,有“不料”的语料,也有“竟然”的语料,老师即可通过语料去分析词语的差别。
点击大图查看2词语例句在备课时,词语是重要部分,要找适合学生水平的例句一点都不容易,但是有了BCC,so easy!比如想找“舍不得”+动词的例句,可以在搜索栏输入“舍不得v”,结果如下图:点击大图查看还有更牛的,点击界面中的“统计”按钮,就可以穷尽式地查找“舍不得”到底可以和哪些动词一起连用,数字表示出现频次。
bcc语料库学术语言
bcc语料库学术语言
bcc语料库是一个开放的学术语料库,用于研究领域内的语言学问题。
它包含了来自不同学科领域和语言背景的文章、论文、报告等学术文献,提供了大量的语言数据供研究者进行语言分析和研究。
bcc 语料库的数据来源广泛,包括了学术期刊、会议论文、学位论文等,覆盖了多个学科领域,如自然科学、社会科学、人文学科等。
其中,各类文章的单篇词数以万计,是一个非常宝贵的研究资源。
在研究语言问题时,bcc语料库可以帮助研究者进行定量分析和实证研究。
其丰富的语言数据不仅可以用于分析词汇、句法结构、语用等方面的语言问题,还可以用于研究各种语言现象,如语域、语言变体等问题。
更重要的是,bcc语料库的数据可以从多个角度研究同一问题,帮助研究者更全面地理解语言现象和规律,丰富我们对语言的认识。
然而,bcc语料库并不仅仅是一个语言数据的仓库,还是研究者共同探讨学术问题的平台。
在bcc语料库的网站上,人们可以通过在线交流和讨论,分享自己对语言问题的研究成果、见解和经验,从而促进彼此之间的学术交流和合作。
这为学术研究者提供了一个非常重要的交流平台,可以极大地促进学术研究的发展和进步。
综上所述,bcc语料库是一个非常宝贵的学术资源,对于研究不同领域的语言问题有着非常重要的作用。
通过分析bcc语料库的语言数据,研究者可以更全面地认识语言问题,并通过交流平台获得更多的学术研究成果和经验分享。
《殷虚文字丙编》图版捌捌词法研究
《殷虚文字丙编》图版捌捌词法研究陈莹(福建广播电视大学宁德分校,福建宁德352000)摘要:《殷虚文字丙编》图版捌捌卜辞是一条综合性卜辞,由八片碎甲缀合而成&本文通过对其进行词法分析研究,了解其语言使用情况&此图版共有七种词类,即名词、动词、形容词、数词、代词、副词、介词&其中名词使用频率最高,动词次之,副词第三&此图版名词的语法功能最全,作主语、宾语、定语、中心语、状语及受数词或数量词组修饰&关键词:殷虚文字丙编图版捌捌词法《殷虚文字丙编》是由乙编及其编余的甲骨拼兑、复原,重新传拓、编辑,加以考释而成的。
《殷虚文字丙编》图版捌捌在《甲骨文合集》中的编号为00376正*此版卜辞是一条综合性卜辞,内容主要涉及梦魇吉凶、疾病、祭祀、收成、生育等方面,由八片碎甲缀合而成。
笔者查阅黄天树《甲骨拼合集》《甲骨拼合续集》等相关书籍,暂无发现新的缀合情况*一、释文及译文乙丑卜,贞:甲子向乙丑,王梦,不隹I?隹又?一贞:甲(子)向乙丑,王梦牧石麋??。
一二贞:[王电]梦./余?一二贞:王梦余?一贞:其疾-一二三四五王隹,?一,?一贞:今般取于尻,王用,若?一贞:我受黍年?一其受黍年?一二贞:左三羌于宜,不左,若?一贞:王左三羌于宜,不左,若?二翌乙齟?一乙其?一乙層?一二告庚子卜,,,?-贞:,不其?-贞:于乙雷?一勿于来乙巳?一乙卜,贞:疾,其龙?一乙卜,贞:[疾/身其/?一[二][三]四五王曰:凤其,* -?-庚申卜,贞:于,:吉!!-贞:于,? -贞入人?-二乙丑卜,贞人:从甲子到乙丑这段时间,王梦的,?的助吗?问:从甲子到乙丑这段时间,王梦见自己追捕石地区的,?的?在。
问:王做梦喊“我要医治骨伤”?问:王做梦不喊“我要(医治)骨”?:王骨生病吗?祭,会不顺利吗?王祭,会不顺利吗?问:现在师般到尻地收取者贡,用(般尻收取者)?:我子的好收成?子的收成吗?:左边,,左,会顺:左,,左,第二天乙亥日天?第二天乙亥日天?未来的第一个乙要举行祷祭?子卜,贞人(问:),会生男孩吗?问:,不会生?:在的第一个乙祭?要在未来的第一个乙巳日举行祷祭吗?乙巳日占卜,贞人问:生病了,是 ?乙卜,贞:生病了,是 ?卜兆以说:风神说,在发生。
bcc语料库的使用心得
bcc语料库的使用心得1.引言1.1 概述概述部分的内容:引言部分是任何一篇文章的开端,通过对主题进行概括性介绍,让读者对整篇文章有一个初步了解。
在本文中,我们将讨论关于BCC语料库的使用心得。
BCC语料库是一个广泛应用于自然语言处理和文本挖掘的中文语料库。
它包含了大量的中文文本数据,涵盖了多个领域和主题,如新闻报道、社交媒体、网站论坛等。
这些文本数据的覆盖面广泛,并且涵盖了不同语言特点和文化背景,因此对于研究中文文本分析和语言模型的人来说,BCC 语料库是一个宝贵的资源。
本文的目的是总结我们在使用BCC语料库过程中的心得体会和经验教训。
我们将介绍BCC语料库的组织结构和数据格式,并探讨如何有效地利用这一资源进行文本分析和语言模型的训练。
此外,我们还将分享我们在使用BCC语料库过程中遇到的一些挑战,并提供一些解决方案和技巧。
在接下来的章节中,我们将系统地讨论BCC语料库的各个方面。
首先,我们将介绍BCC语料库的基本信息,包括数据规模、收录时间范围、来源等。
接着,我们将详细介绍BCC语料库的组织结构和数据格式,比如文档级别和句子级别的标注信息、文本分类和命名实体识别等。
其次,我们将探讨如何进行有效的数据预处理和清洗,以及如何进行数据的采样和划分。
最后,我们将分享一些使用BCC语料库进行文本分析和语言模型训练的实践经验,包括特征提取、模型选择和评估等方面的内容。
通过本文的阅读,读者将能够了解BCC语料库的基本情况,掌握其使用方法和技巧,并能够将其应用到自己的实际问题中。
希望本文能够为对中文文本分析和语言模型研究感兴趣的读者提供一些有价值的参考和指导。
文章结构部分的内容如下:1.2 文章结构本文主要包括以下几个部分:1)引言:介绍文章的背景和目的。
在这部分,我们将概述BCC语料库以及为什么使用它作为研究工具,解释本文的结构与目标。
2)正文:详细讨论BCC语料库的使用心得与体会。
在这部分,将介绍如何获取BCC语料库,详细解释其主要特点和用途。
北京语言大学bcc语料库
北京语言大学bcc语料库
北京语言大学BCC语料库是由北京语言大学所建立的一个大型语料库,为中国学术界和研究者提供高质量、有效的研究资源,秉承中国传统文化,以深化研究和发展中文言语文字文化为目标。
北京语言大学BCC语料库主要收集和处理中国言语文化的多种资料,其中主要包括汉语口语、书面语、视听语、新闻报刊、网络文本、书刊著作等。
其收录的资料也涵盖了中国语言研究、文字文化研究、以及数字语言学等多种领域。
其一级数据库拥有超过100万条汉语句子,能够为中国研究学者提供规模极其完整的历史档案、语料资料和信息检索体系,极大地改善了中国古代档案研究条件,为在教育、科学研究等方面的新的发现打开了有力的新窗口。
BCC语料库的建设也极大地鼓舞了中国高等教育的发展,为中国教师和学生提供了良好的探究空间,也为中国的研究学者提供了更多深入研究中国文化、历史和社会的资源支持。
至今,这一庞大的语料库已经为学术界提供了大量数据支持,也为中国学术界提供了重要的翻译参考资料。
经过多年的发展,BCC语料库已经成为中国学术界的重要研究基础,也是数字语言学研究最优质的资料和信息库。
正是凭借这一完善的高质量数据库,BCC语料库得以不断完善和发展,也为中国研究学者、教师和学生带来了丰富多彩的资源。
基于语料库“为难”和“难为”的偏误分析及教学策略
语言文学研究基于语料库"为难#和"难为#的偏误分析及教学策略穆国韬(陕西师范大学国际汉学院,陕西西安710062)摘要:“为难”和“难为”是极易混淆的一组同素异序词,为了使汉语学习者区分清楚两个词的意义和用法,通过检索语料库,总结出汉语学习者使用两个词时易产生的偏误,并对这些偏误进行分析,提出一些教学建议。
关键词:为难难为语料库偏误一、引言“为难”和“难为”无论在汉语口语交际还是书面写作中都是常用的一组词,它们是一组同素异序词,即构成这两个词的两个语素书写顺序不同,且在用法上也有差异,汉语学习者如不能掌握这两个词的意义和用法,则极易对二者产生混淆$为了更好地总结汉语学习者在学习和使用“为难”和“难为”这组同素异序词时的偏误类型,本文对HSK动态作文语料库和暨南大学中介语语料库中包含“为难”和“难为”的句子进行了分析,总结了偏误类型,了一些教学,能偏误的生,汉语学带来一定的启‘$二、“为难”和“难为”的意义和用法“为难”在《新HSK词汇大纲》中属于六级词,在《汉语水平词汇汉大纲》中属于词,在上述两个词汇大纲中,“难为”。
本文为,在对汉语学中,“为难”和“难为”这两个词的教学及辨析一般处于中$在《汉语词典(六版)》中,对“为难”和“难为”的释分为:为难:①形容词,感到难以应付;②动词,作对或刁难[11$,“为难”是一个词动词的类词$难为:动词,①使人为难;②(了不容易的事);③,用于[1]。
可见“难为”是一个动词,有个不同的义$在语言大学BCC语料库中回“为难”,在文学类语料库下搜索出2143条结果,经过抽样,发现“为难”常用于:表1“为难”筛选条件结果总数占比副词”为难62129.0%动词”为难34316.1%为难的”名词27412.0%使/令/让/叫”名词/代词”为难2129.0%可以看出,“为难”在做形容词时,常受程度副词的修饰,通过检索“副词+为难”,得出621条结果$经统计,“很为难”“有点为难”“非常为难”为出现频率最高的三组搭配,占如下:表2副词难'为难”结果占比很为难1很条22.0%有点为难61条9.0%非常为难31条 3.4%“为难”常跟在动词后面形成“动词+为难”的结构,通过检索“动词+为难”,343条结,中的“为难”99,“为难”21条;“为难”语词,如“为难的子”;“为难”做动词时,用在语语中,如“让儿女为难”“叫我们为难”“令为难”,且否词"不”的$在BCC文学类语料库中对“难为”进行检索,共得出1622条结$,本文动词“难为”的两个义项意义相似,用于“词+难为+名词/代词”这一结构中,其中尤以“太/真是/真+难为++了”,如“这件太难为你了”;一个义和动词“为难”的意义相近,用法上否词的,如“不难为你”“难为他了”;但“难为”不可用于“使/令//叫++难为”这一结构。
《2024年语料库研究》范文
《语料库研究》篇一一、引言随着信息技术和人工智能的快速发展,语料库研究已经成为了语言学、文学和人类学等领域内的一项重要研究手段。
语料库(corpus)即大量的电子文本资料,为我们提供了探究语言使用模式、词汇搭配、句法结构、语言变迁等重要问题的强大工具。
本文将围绕语料库研究的理论背景、研究方法以及在语言与文化领域的应用进行详细阐述。
二、语料库研究的理论背景语料库研究基于大量真实的文本数据,通过对这些数据的分析,我们可以获取关于语言使用的大量信息。
这些信息对于研究语言结构、语言演变、语言教学以及跨文化交际等方面具有重要的价值。
此外,语料库的多样性使得我们能够从不同角度、不同层面探究语言现象,为语言学和其他相关学科的研究提供了丰富的资源。
三、语料库研究的方法1. 语料库的构建:首先需要收集大量的文本数据,并按照一定的规则和标准进行整理和分类,构建成一个可供研究的语料库。
2. 数据处理:对语料库中的数据进行清洗和预处理,以便进行后续的分析和研究。
3. 统计分析:运用统计学和计算机辅助技术对数据进行处理和分析,提取出有用的信息。
4. 结果解读:根据分析结果,结合语言学、文学和人类学等相关知识,对结果进行解读和解释。
四、语料库在语言与文化领域的应用1. 语言结构研究:通过语料库分析,我们可以了解语言的词汇搭配、句法结构等语言特征,从而揭示语言的内在规律。
2. 语言教学:语料库可以用于语言教学,帮助教师和学生了解真实语言环境中的语言使用情况,提高语言学习的效果。
3. 文化研究:通过分析不同语料库中的文本数据,我们可以探究不同文化背景下语言使用的差异,揭示文化对语言的影响。
五、结论语料库研究作为一项重要的研究手段,已经广泛应用于语言学、文学和人类学等领域。
通过对语料库的深入研究,我们可以更好地了解语言的内在规律,揭示文化对语言的影响,为相关领域的研究提供有力的支持。
然而,语料库研究仍面临一些挑战,如语料库的构建、数据的处理和分析等。
基于数据挖掘技术的汉语教学语料库建构
2019年第1期(总第102期)海外华文教育OVERSEAS CHINESE EDUCATION No.12019General Serial No.102收稿日期:2017-06-12作者简介:李代鹏,云南民族大学助教。
Email :1032294493@qq.com感谢《海外华文教育》匿名专家的宝贵审查意见,文中不妥之处概由本人负责。
基于数据挖掘技术的汉语教学语料库建构李代鹏(云南民族大学应用技术学院,中国昆明653102)摘要:随着语料库语言学的兴起和发展,基于语料库进行的第二语言教学受到第二语言教学界的高度重视。
而在对外汉语教学界,并没有建立一个适应于汉语教学与学习需求的汉语教学语料库。
特别是随着数据驱动学习模式的产生,加之语料大数据时代的到来,促使个性化、需求型的汉语教学与学习成为成大数据时代外语教学或第二语言教学的必然趋势。
面对这一趋势,文章提出建构“汉语教学语料库”的基本设想。
汉语教学语料库的建构以汉语本体语料库和汉语中介语语料库为基础,以数据挖掘技术和可视化技术为支撑。
通过汉语教学语料库的建构,对于实现真正意义上的需求型、个性化学习具有重要的实践意义。
关键词:汉语教学语料库;数据挖掘;可视化;对外汉语教学中图分类号:H195文献标志码:A 文章编号:2221-9056(2019)01-0115-10DOI 编码:10.14095/j.cnki.oce.2019.01.014一、引言随着大数据时代的到来,教育生态化,个性化,多模态化已成为当代二语教学的新常态,为了实现高度自适应的个性化学习,营造具备生态性质的教学内容,教学方法,教学环境,以多模态的教学理念触发学习者的多元智能。
许多具备上述特点的二语学习软件与平台不断得到开发,其中最醒目的就是人工智能在第二语言教学中的应用。
顺应这一趋势,智能型计算机辅助第二语言教学的概念顺势而生,究其根本,其目的都是为了提升第二语言的教学效果。
在汉语作为第二语言的教学中,为提升汉语教学的效果,帮助学习者发展自主学习能力,趋向于生态化与个性化的教学模式,语料库在汉语教学中的运用,则成为大数据背景之下的一个重要手段。
专业的语料库与大数据分析
专业的语料库与大数据分析随着信息技术的发展和互联网的普及,大数据分析成为了当今互联网时代的热门话题。
在这个信息爆炸的时代,语料库作为一种用于语言学研究和文本分析的工具,与大数据分析相结合,正发挥着重要的作用。
本文将从专业的角度出发,探讨语料库与大数据分析的关系以及它们在不同领域中的应用。
一、语料库的定义与特点语料库是指按照一定的标准和规范建立起来的大规模语言文字数据库。
它以普通文本形式存储,可对其中的文字进行检索、分析和处理。
语料库的特点主要包括以下几个方面:1. 大规模性:语料库包含大量的文本材料,以满足大数据分析的需求。
2. 多样性:语料库中的文本覆盖不同媒体、不同语种和不同风格的内容,能够提供更加全面和多样的数据源。
3. 可检索性:语料库的文本数据可以进行检索和查询,以便研究者能够找到所需的信息。
4. 可再现性:语料库的数据可以被研究者或其他人重复使用和验证研究结果。
二、语料库在大数据分析中的应用1. 自然语言处理:语料库作为自然语言处理的重要数据源,可以用于机器翻译、情感分析、语音识别等领域。
通过分析语料库中的文本数据,可以提取出语言规律和模式,从而改进自然语言处理算法和系统。
2. 信息检索:语料库中的文本数据可以被用于信息检索系统的训练与评估。
通过对大规模的语料库进行分析,可以提取出关键词、主题模型等信息,从而提高信息检索的准确性和效率。
3. 文本挖掘:语料库作为文本挖掘的宝库,可以用于分析文本数据中的隐藏信息和模式。
通过利用大数据分析技术,可以从海量的文本数据中发现关联规则、文本分类、文本聚类等内容,挖掘出有价值的信息。
4. 语言学研究:语料库可以为语言学研究提供大规模、真实的语言数据,用于语言学理论的验证和发展。
通过对语料库中的文本进行分析,可以研究语言现象的规律和变异,深入了解语言的结构和使用。
三、语料库与大数据分析的相互影响语料库与大数据分析之间存在着密不可分的联系。
一方面,语料库提供了大数据分析的重要数据源,为大数据分析提供了可靠和高质量的文本材料;另一方面,大数据分析技术的发展也为语料库的应用带来了更多的机遇和挑战,提高了语料库的数据处理和分析能力。
近十年国内语料库语言学研究综述
近十年国内语料库语言学研究综述一、本文概述近年来,随着信息技术的飞速发展和大数据时代的来临,语料库语言学在国内语言学界的影响力逐渐增强。
本文旨在全面梳理近十年国内语料库语言学研究的发展脉络,总结研究成果,分析存在的问题,并展望未来的发展趋势。
本文将从语料库的建设、语料库语言学理论、语料库在语言教学和研究中的应用等方面展开综述,以期为国内语料库语言学的研究者提供一个清晰的研究全景和参考框架。
通过对近十年国内语料库语言学研究的系统回顾,本文旨在推动语料库语言学在国内的深入发展,为语言学研究的创新提供新的视角和方法。
二、语料库建设与研究近十年,我国语料库语言学在语料库建设方面取得了显著进展。
语料库作为语言学研究的基础资源,其规模和质量直接影响到研究的深度和广度。
在这一时期,我国学者和机构积极投入语料库的建设工作,不仅扩充了语料库的种类和数量,还提高了语料的质量和标注精度。
在语料库种类方面,除了传统的通用语料库外,还出现了专门针对某一领域或语体的语料库,如法律语料库、医学语料库、社交媒体语料库等。
这些专业语料库为相关领域的研究提供了丰富的数据支持。
在语料库规模方面,随着大数据技术的发展,语料库的规模不断扩大。
大型语料库如“国家语委现代汉语语料库”“古代汉语语料库”等,为语言学研究提供了海量的语料资源。
在语料质量方面,我国语料库建设注重语料的真实性和代表性。
通过严格的语料采集和筛选流程,确保语料的质量和准确性。
同时,采用自动化和半自动化的方法对语料进行预处理和标注,提高了语料的处理效率和质量。
在语料库研究方面,我国学者充分利用语料库资源进行各种语言学研究。
通过语料库的统计分析,揭示语言现象的本质和规律。
还利用语料库进行语言对比研究、语言演变研究、语言教学研究等,推动了语言学研究的深入发展。
近十年我国语料库语言学在语料库建设与研究方面取得了显著成就。
语料库的规模和质量不断提升,为语言学研究提供了强大的数据支持。
近十年国内语料库语言学研究综述
近十年国内语料库语言学研究综述一、概述近十年来,语料库语言学在国内的研究取得了显著的发展和突破。
随着信息技术的飞速进步和大数据时代的到来,语料库语言学在语言学研究中的地位日益凸显。
它基于大规模真实文本数据,运用统计学和计算机技术,对语言现象进行定量和定性的分析,为语言学研究提供了全新的视角和方法。
国内语料库语言学的研究范围广泛,涉及语言结构、语言变异、语言使用、语言教学等多个领域。
研究者们利用语料库资源,深入探讨了词汇、语法、语义、语用等层面的语言问题,揭示了语言现象的内在规律和特点。
同时,随着语料库建设的不断完善,语料库语言学在国内的应用也愈加广泛,为自然语言处理、机器翻译、信息检索等领域提供了强大的数据支持和技术基础。
近十年内,国内语料库语言学的研究呈现出以下几个特点:一是研究方法的多样化,不仅注重传统的统计分析方法,还引入了机器学习、深度学习等先进技术二是研究领域的拓展,语料库语言学不再局限于传统的语言结构研究,而是向语言教学、语言规划等应用领域延伸三是语料库资源的不断丰富,各类专题语料库、多语种语料库等不断涌现,为语料库语言学的研究提供了更为丰富和多样的数据来源。
总体而言,近十年国内语料库语言学的研究取得了丰硕的成果,不仅推动了语言学理论的发展,也为语言实践提供了有力的支持。
未来,随着技术的不断进步和语料库资源的日益丰富,语料库语言学在国内的研究将更加深入和广泛,为语言学研究和社会应用带来更多的创新和突破。
1. 语料库语言学的定义与重要性语料库语言学,作为一种独特的语言学研究方法,主要依赖于大规模、结构化的语言数据集合,即语料库,来进行语言分析和研究。
它通过对真实语料进行定量和定性的分析,旨在揭示语言的实际使用情况和内在规律。
近十年来,随着信息技术的飞速发展和语料库规模的日益扩大,语料库语言学在国内语言学界的地位逐渐提升,其重要性也日益凸显。
语料库语言学的定义在于其研究方法和数据基础。
其研究方法强调实证和量化,通过计算机技术和统计手段对语料库中的语言数据进行处理和分析,进而揭示语言的实际使用情况。
《2024年语料库研究》范文
《语料库研究》篇一一、引言随着科技的不断发展和信息化时代的到来,语言信息已经成为社会发展和科技进步的重要组成部分。
在这个大背景下,语料库研究作为一项重要工作,其意义日益凸显。
本文旨在探讨语料库研究的概念、目的、方法及其在语言学、文学、计算机科学等领域的应用,并着重分析其对于学术研究的重要性和作用。
二、语料库研究的概念与目的语料库研究是指以大量真实语言材料为基础,通过收集、整理、标注和统计等方法,对语言现象进行深入研究的一种方法。
其目的在于通过对大规模语料的分析,揭示语言的规律和特点,为语言学、文学、计算机科学等领域提供重要的数据支持。
三、语料库研究的方法语料库研究的方法主要包括以下几个方面:1. 语料收集:根据研究目的和需求,从各种渠道收集真实语言材料,如书籍、报纸、杂志、网络等。
2. 语料整理:对收集到的语料进行清洗、标注和分类等处理,以便于后续的统计分析。
3. 统计分析:利用计算机技术对语料进行统计分析,如词频统计、语义分析、情感分析等。
4. 结果解读:根据统计分析结果,结合语言学、文学等相关知识,对语言现象进行解读和解释。
四、语料库研究的应用1. 语言学领域:语料库研究为语言学提供了大量的真实语言材料,有助于揭示语言的规律和特点,为语言理论研究和语言教学提供重要的数据支持。
2. 文学领域:语料库研究可以用于文学作品的风格分析、作者识别、文本分类等方面,有助于深入挖掘文学作品的价值和特点。
3. 计算机科学领域:语料库研究在自然语言处理、机器翻译、智能问答等领域具有广泛的应用,为人工智能技术的发展提供了重要的数据支持。
五、语料库研究的重要性和作用1. 推动学术研究:语料库研究为学术研究提供了大量的真实语言材料和数据分析支持,有助于推动语言学、文学、计算机科学等领域的学术研究进展。
2. 促进跨学科交流:语料库研究涉及多个学科领域,有助于促进不同学科之间的交流和合作,推动跨学科研究的开展。
3. 服务社会:语料库研究可以为社会提供重要的数据支持和服务,如语言教学、文化传承、社会调查等方面。
2016国家社科基金项目立项名单
2253 基于ERP的汉英词汇语用信息加工处理研究 2254 基于交叉验证的汉语语体计量研究 2255 敦煌文献中的藏文咒语对音研究 2256 新发掘韵书五种与清代北京官话语音史研究
6
2246 韩国留学生汉语篇衔接手段习得研究 2247 基于可比语料库的核心区华语虚词比较研究 2248 基于虚拟现实的汉语国际教育发展新模式研究 2249 框架语义理论视角下的对外汉语句式系统研究 2250 留学生全程性中介字字库建设及汉字习得研究 2251 面向对外汉语教学的现代汉语常用形容词搭配研究 2252 多维参照的国别化汉语中介语动态语料库库群构建与 研究
牛香兰 王辉 李艳 陈林俊 郝兴跃 尼玛普赤 王绍峰 孙汝建 刘立壹 夏历 潘艳艳 张颖炜 葛云锋 杨石乔 孙晓明 李慧敏 邹立志 陈宏俊 刘涛 赵硕 刘熠 韩宝成 陈建林 蔡基刚
青海民族大学 宁夏大学 首都师范大学 常州大学 昆明理工大学 西藏大学 湖州师范学院 华侨大学 山东建筑大学 沈阳师范大学 解放军国际关系学 院 南通大学 山东师范大学 深圳职业技术学院 中央民族大学 安徽大学 首都师范大学 大连理工大学 江苏师范大学 西北工业大学 东北大学 北京外国语大学 兰州大学 复旦大学
2176 中国古代名物学史研究 2177 上古汉语动词词义系统演变研究 2178 基于语义地图的汉语连词语义专题研究 2179 基于学科互动的汉语修辞史研究 2180 2181 中外上市公司年报话语对资本市场的影响预测对比研 究 形式句法语段理论与名词短语的句法、语义和形态研 究
2182 认知语言学视阈下先秦典籍中的隐喻研究 2183 隐喻性空间关系构式的认知研究 2184 基于类比/平行语料库的英汉双及物结构对比研究
2230 中国英语教师专业能力测评研究 2231 藏族中学英语三语习得与教学研究 2232 中国大学生学术英语能力及素养等级量表建设和培养 路径研究
基于大数据的语料库设计
2023-11-09•引言•大数据语料库概述•基于大数据的语料库设计策略•大数据语料库的应用场景与案例•大数据语料库面临的挑战与未来发展目•结论录01引言研究背景与意义01随着大数据时代的到来,语料库作为一种重要的语言资源,在语言学、计算机科学、信息科学等领域的研究和应用中发挥着越来越重要的作用。
02传统的语料库建设方法已经无法满足现代语言处理领域对大规模、多样性、实时性等需求,因此基于大数据的语料库设计成为了研究的热点和难点。
03基于大数据的语料库设计能够提供更加全面、真实、多样的语言资源,有助于深入探究语言的本质和规律,为自然语言处理、语言教育、文化传承等领域提供更加精准、高效、智能的支持和服务。
研究目的与方法研究目的本研究旨在探索基于大数据的语料库设计方法和应用,构建一个大规模、多样性、实时性的语料库,以满足现代语言处理领域的需求,并探究其在实际应用中的效果和价值。
研究方法本研究采用文献综述、实证研究等方法,首先对基于大数据的语料库设计的相关研究进行综述和分析,然后设计并构建一个基于大数据的语料库,最后通过实际应用案例来验证该语料库的效果和价值。
02大数据语料库概述大数据语料库定义定义大数据语料库是一种基于大数据技术构建的,用于存储、管理和分析海量语言资源的数据库。
目的旨在提供一种高效、可扩展的语言处理解决方案,以满足不同领域的需求,如自然语言处理、机器翻译、舆情分析等。
海量数据大数据语料库具备海量的数据存储能力,能够涵盖多种语言资源,并支持实时数据更新。
深度分析通过对海量数据的深度分析,大数据语料库能够揭示语言现象和规律,为语言学研究提供有力支持。
高效查询借助大数据技术和分布式架构,大数据语料库具备高效的数据查询和处理能力,可快速响应大规模的数据请求。
灵活扩展大数据语料库具备灵活的可扩展性,可根据需求进行扩展和定制,满足不同领域的应用需求。
大数据语料库的特点大数据语料库的构建流程应用开发基于语料库的应用开发,如自然语言处理、机器翻译、舆情分析等。
论网络环境下词语语法功能的变化——以“套路”一词语法功能变化为例
总第503期Vol.503大学(社会科学)University (Social Science )2021年3月Mar.2021作者简介:余雅晨(2000—),女,学士在读,云南大学文学院,研究方向:中国语言文学。
论网络环境下词语语法功能的变化———以“套路”一词语法功能变化为例余雅晨(云南大学,云南昆明650091)摘要:网络环境下,词语语法功能发生变化,“套路”一词的语法功能就在网络广泛使用后发生了很大改变。
本文从认知语言学角度,以“套路”为例,探讨网络环境下词语语法功能变化,阐释词语语法功能改变后词意的新生。
如今,“套路”被活用作动词的频率越来越高,且随着权威报刊的大量使用,动词用法有被固定下来的倾向,可以推测,未来随着语言的不断发展,“套路”一词或许有成为兼类词的可能。
从“套路”一词语法功能的改变可以看出网络对现代汉语发展的巨大影响,这是现代汉语研究不能忽视的领域。
关键词:套路;网络词汇;认知语言学;转喻中图分类号:H146文献标识码:A文章编号:1673-7164(2021)09-0034-02随着时代变化,许多词语由于为网络广泛使用而有了极大的改变。
2016年,“套路”一词因网络影响力而为大众熟知,入选语言文字规范类刊物《咬文嚼字》发布的“2016年十大流行语”。
在这以前,该词就已然存在于现代汉语中,但其语法功能与如今相比有所不同。
一、“套路”语法功能的变化(一)最初的语法功能“套路”在成为网络热词前,是作为名词存在和使用的。
在《现代汉语词典》(第7版)中,其初始的含义是:编制成套的武术动作;成系统的技术、方式、方法等[1]。
通过北京语言大学BBC 语料库(以下简称语料库)[2],可检索到的“套路”最早见于1956年《人民日报》,早期出现频率低,语义以第一类为主;在改革开放后“套路”使用频率大幅度提升,且意义扩大,出现了上述第二种意义。
例:(1)目前我国的散手水平在国际上处于领先地位,武术套路近年也有一定发展,但仍要注意运动员身体素质的提高和基本技术的加强。
大数据背景下语料库在英语教学中的应用
942020年34期总第526期ENGLISH ON CAMPUS大数据背景下语料库在英语教学中的应用文/顾 菲学和学习过程中需要掌握的知识和单词量非常多,单纯的记忆是十分枯燥的,难以引起学习者的兴趣,学习效率也较低。
但是大数据下的语料库的使用,一方面,能够为使用者提供语料资源中的具体发生的环境,如:搜索的语料是在一场电影中收集而来的,单独看一个句子或单词,可能无法感受到其具体的用法和含义,学习者可以通过观看该电影,通过故事情节来了解语料的具体使用环境,了解语料的意义和用法。
通过这种方式,不仅能够加深对该语料的记忆,也能同时学习电影中出现的其他知识点,帮助学习者拓展学习的范围。
另一方面,语料库不仅能够为使用者提供搜索的资料,同时还能够提供相关联的语料资源,方便学习者架构知识框架,进而系统化地学习该语料知识,学习者对于相关资料的学习属于自主学习,通过大数据的相关推荐,引起学习者的兴趣,进而加大对资料的研究。
二、语料库在英语教学中的应用1.单词教学中的应用。
目前,大数据下的英语语料库在英语教学中已经被广泛地应用,其用途非常多,有着重要的作用,通过对语料库的使用,教师能够根据其中能够的资料来调整教学内容的专业程度,帮助提升课堂教学效果。
首先,教师可以利用大数据语料库将常用短语或句子中的单词提炼出来,并将其进行归纳总结,帮助学生更好的记忆,也可以将其中在不同语句中代表不同意思的相同单词为学生归纳整理,例如:what colour do you want to colour that T-shirt?在这种句子中,同样的单词colour代表不同的含义分别为颜色和染色,并且一个是名词,一个是动词,教师可以让学生找出一些相似的单词,帮助学生加强掌握;或者将汉语意思相同或相近的单词进行整理,如:表达希望的单词有很多,wish、hope、want、prospect、promise、except等,都有希望的意思,但具体的用法不同;或者教师将读音相同但意思不同的单词加以归类,如:see和sea,meet和meat,hear和here等等,通过记住其中的一个就能够联想起同样读音的另一个单词,增加了学生的词汇量。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
95
大数据背景下 BCC 语料库的研制
共时语料和历时语料兼备 BCC 对报刊语料和文学作品标注了时间信息,其中文学作品的时间信息体现 在 BCC 的“自定义”功能应用上,用户可以选定某时间的文学作品进行限定检 索;BCC“历时检索”主要是报刊语料,语料来自 1945 年至 2015 年的《人民日 报》 。历时检索是以图形可视化方式呈现的。 BCC 语料库使用了语料采集、加工和语言分析处理等多种工具,例如对现代 汉语进行分词和词性标注。为了完成语料采集、加工、标注等工作,开发了 BCC 语料库采集和加工平台,主要包括: 网上语料采集工具 BCC 语料库中的语料主要源自互联网的页面文本,利用采集工具自动下载网 页,把网页数据保存到本地。 语料加工整理工具 将网络作为语料库,是将以自然语言形式存在的整个网络电子文本当作一个 庞大的语料库,可以通过征调主流搜索引擎的应用程序调用接口,获取搜索引擎 。BCC 语料加工 的返回结果,再对其进行相应的语料库统计分析(熊文新 2015) 整理的方式主要为:从网页中提取原数据信息,包括名称、出处等;网页数据清 洗,从网页数据中剔除非内容数据,提取有效文本内容;对数据进行自动断句处 理,为后续语言分析做准备;异常重复句子甄别和处理,剔除网页数据清洗阶段 不能甄别的重复句子。 语言自动分析工具 原始语料完成断句后,在语言分析阶段对句子进行分词和词性标注处理。中 文词性标注采用北京大学计算语言研究所提出的词性标注体系(俞士汶等 2000, 2002) ,英文词性体系采用美国宾州大学词性体系。目前,BCC 可以对现代汉语、 英语、法语的语料进行自动分词和词性标注处理。 语料库标注平台 该平台的目标是通过人工标注来构建专门语料库。 2.2 BCC 检索引擎 语料库建设是围绕内容进行的,用户通过检索使用语料库数据,而使用的检 索功能是通过检索引擎实现的,因此检索引擎的性能直接影响语料库系统的使用 体验。使用体验体现在多个方面,包括对数据规模的支持程度、语料类型的支持 程度、响应检索的时空开销、检索式的支持功能、对服务器软硬件的适应性等。 BCC 检索引擎具有以下特点:
96
荀恩东 饶高琦 肖晓悦 臧娇娇
1)支持语言大数据。目前 BCC 检索内核支持建立超大规模语料库检索系统, 单机可以索引的语料库规模最大可以支持 64G(约 320 亿汉字) ,实际规模与机器 内存相关。 2)支持多语种检索。BCC 语料库检索内核技术支持中文、英文、日文等不同 语种的语料库。 BCC 语料库包含原始语料、分词语料、词性标注语料, 3)支持多种语料形式。 同时可以支持短语结构树的语料库检索。 4)支持功能强大的检索。BCC 定义一种用户友好且功能强大的语料库检索语 句,不仅具有模式查询和统计功能,支持带有词性的通配符和离合模式查询,还 可以支持二次查询、自定义语料查询等,同时 BCC 还实现了在线统计以及在线反 馈统计结果的功能。 2.3 语料库服务 BCC 语料库服务包括两种形式:一种是在线检索,即在浏览器内使用 BCC, 输入检索式,以页面形式返回结果;另外一种是云服务,通过编程使用 BCC 的 Web API 接口形式来调用 BCC。云服务一般用于 BCC 的二次开发,或者用于利用 BCC 进行语言的应用开发。 在 BCC 首页中可以选择不同语种的语料库,在输入框的上方,列出该语种的 不同语料频道(如图 2)如果想在某个频道中做更细化的查询,可以选择“自定 义”搜索(如图 3)通过点击语料库的组成窗口选择子语料库或者通过搜索定位子 语料库。当用户选择一个子语料时,页面会给出该子语料库的语料规模,后续检 索也会限定在该子语料库中进行。
二、BCC 语料库研制
一个语料库系统的建设,主要包括三方面工作:语料库资源建设、检索引擎 开发和提供语料库检索服务。如图 1 所示,语料库的资源建设是构建语料库数据 内容的基础。BCC 主要包括三种类型语料:多语种单语语料库、双语对齐语料库 和深加工的树库。语料库检索内核是实现语料库系统的技术基础,采用基于后缀 串的全文检索算法,并且支持通配符和离合模式匹配。检索服务是指使用语料库 系统的方式和方法。BCC 提供两种服务方式:在线检索和云调用。
BCC 形式化检索语言和在线系统的使用方法。
关键词:BCC 语料库、大数据、语言检索、检索式
一、引言
在大数据背景下,语言本体研究、语言教学和语言应用研究都离不开语料库 的支持。在语言本体研究中,利用大规模语料,对语言现象进行穷尽式考察,可 以归纳、完善、验证语言理论或观点,又可以通过实证方法,为语言理论的研究 提供数据支撑和量化分析;在语言教学中,语料库可以提供真实的语言素材,用 于教学内容制定和讲解,使语言教学内容选取和教学实施过程更加科学,并可以 支撑辞书和教材的编纂;同时,语料库作为模型训练知识库,在语言信息处理各 种应用中起着不可或缺的作用。 采用语料库进行实证研究历史悠久,国内外一系列语料库系统推动了语言研究 的进步和发展。中文语料库方面,有“国家语委语料库” 、 “北京大学现代(古代) 汉语语料库” 、 “中国台湾中央研究院语料库” 、 “兰卡斯特汉语语料库”等;在英 语语料库方面,有“英国国家语料库(BNC) ” 、 “美国当代英语语料库(COCA) ” 等。语料库发展到今天,出现了新的特点和需求: 1)语料库规模越来越大,逐渐进入大数据时代。随着信息社会的发展,个人 微机的迅猛发展和存储数据的硬盘造价持续下降,使得能够记录语言生活的终端 设备越来越普及,数据存储能力越来越强,网络传输速度越来越快,每天产生的 语料数量大大超过以往。这些发展都为大规模语料库的采集提供了技术支持。 2)语料库成为语言技术进步的知识库。在语言大数据基础上,语言应用技术 快速发展,人工智能在多个应用领域取得突破性进展。这些新技术进步,正在改
93
大数据背景下 BCC 语料库的研制
变社会语言生活,为语言研究不断提供新课题并提出新的挑战。 3)语料库形式多样。语料的领域越来越细化,语料加工越来越深入,网络社 交语料异军突起。 4)语料库使用越来越便捷。在线语料库查询和统计功能更加人性化,除了面 向个人在线使用外,语料库还利用云服务接口,通过云调用大大拓展了语料库的 应用范围。 “北京语言大学语料库中心(BCC) ” ()是以汉语为主、 兼有其他语种的语言大数据,目标是为语言本体研究提供一个使用简便的在线检 索系统和构建大数据的语言应用基础平台。BCC 支持云服务,通过 API 调用方式 为开展知识抽取、模型构建等研究和应用工作提供便利。 本文首先概述 BCC 研制的总体情况,重点介绍 BCC 检索式,并在附录中给出 了 BCC 检索式实例和中英文词性体系。
99
大数据背景下 BCC 语料库的研制
图 6. 检索式“改革”频次历时结果
2015 年底,历时检索第二代系统上线。历时语料库在分词的基础上增加了词 类标注,在保留原有用户体验的同时开始提供多模态检索功能。在该功能的支持 下,用户可以在对任意词串(不限于词)进行检索之外对词类串和字符词类混合 串进行检索。如图 7 所示。第二代历时语料库在国内外引起强烈反响,为语言学 和许多社会科学领域的相关研究提供了很大的便利(Rao & Xun 2015) 。
图 2. BCC 首页
97
大数据背景下 BCC 语料库的研制
图 3. 通过“自定义”选择语料及查看语料组成和规模
图 4. “帅气的 n”检索结果页
输入检索式,点击“搜索”后得到检索页面,其中包括检索总条数信息、分 页显示的检索实例等,如图 4 是“帅气的 n”的检索结果。在搜索结果页面,BCC 还提供在线统计、二次检索、下载结果、显示结果和查看原文等多个功能:
图 7. 检索式“弘扬 n”与“发扬 n”频次历时对比
三、BCC 检索式
一些语料库采用交互式生成检索式的设计,即以输入查询和界面控件设置相 结合的方式进行查询。这种方式有利有弊:如果设置项少,往往限制检索功能的 发挥;如果功能复杂,设置项过多,便会影响用户的使用体验。 BCC 设计简洁,在界面中没有各种复杂的控件,选定语料后,输入符合语法 的检索式可以直接搜索查询。检索式的设计也需要平衡考虑:一般来讲,检索式 的语法直接影响语料库功能和用户友好性。复杂的检索式设计可以支持强大的检 索功能,但是会对用户学习和使用造成负担。例如,检索系统采用正则表达式的 方式,虽然语句标准、功能强,但是不易理解,需要付出更多的学习代价。
语料库语言学 2016年 第3卷 第1期
大数据背景下 BCC 语料库的 研制
北京语言大学 荀恩东 饶高琦 肖晓悦 臧娇娇
“北京语言大学语料库中心(BLCU Corpus Center,简称 BCC) ”是以汉语为主、 提要: 兼有其他语种的在线语料库。BCC 总规模达数百亿字,是服务语言本体研究和语言应用研 究的在线大数据系统。BCC 检索式由字、词和语法标记等单元组成,并且支持通配符和离 合查询。本文将概述 BCC 的总体情况,包括语料库建设情况和检索引擎开发等,重点介绍
图 1. BCC 语料库系统示意图
94
荀恩东 饶高琦 肖晓悦 臧娇娇
2.1 语料库资源建设 语料库建设是指在确定语料库内容、规模和形式后,对语料进行采集、加工 和标注等,通过对自然语言文本的采集、存储、加工,可以凭借大规模语料库提 供的客观语言事实为语言学研究提供支撑(黄昌宁、李涓子 2002) 。BCC 语料库 具有以下特点: 语料库函盖多个语种 以汉语为主,兼顾其他语种的语料。目前 BCC 包含 9 种语言,如英语、西班 牙语、法语、德语、土耳其语等。其中的英文语料主要采自《华尔街日报》 ,规模 约为 12 亿单词。BCC 语料以单语语料为主,也包括双语平行语料,如英汉、英德 等双语对齐语料库。目前有 9 种语言互译,各类双语语料总规模约千万句。检索 时,汉语最小的单位是汉字,其他语种最小的单位是单词,但单词不支持词形变 化,保持原始语料中的形态,例如:英语 The 和 the 在语料库中是两个单词。 多层次语料加工 包括生语料、分词语料、词性标注语料和句法树。目前已对现代汉语、英语、 法语的语料进行词性标注,除此以外的其他语料都是未加工的生语料;句法树包 括中、英文树库,分别引自美国宾州大学的中文和英语树库。语料加工层次不同, 支持检索的功能也不同,例如:生语料不支持带有词性信息的检索,树库支持短 语类型标记的检索。 现代汉语语料和古代汉语语料兼具 对现代汉语语料进行了分词和词性标注,支持带有词性信息的检索;而古代 汉语没有进行分词和词性处理,只能以字为单位进行检索。 汉语多语体 现代汉语语料涵盖新闻、口语(微博) 、科技、文学、综合等多个语体。其中 新闻、文学和综合语料标注时间、作者等组成信息,可以用 BCC 的“自定义”功 能进行受限检索,即选择某一个子语料,限定在该语料中进行检索。 《厦门商报》 、 《厦门晚报》等; 、 新闻语料:采自《厦门日报》 口语(微博)语料:采自 2013 年新浪微博; 科技语料:采自国内学术期刊; 文学语料:采自国内外文学作品,对每个作品都标注了作品名称、作者、发 表时间等信息。 综合语料:包括报刊、文学、微博、科技四个领域,语料内容独立,与其他 语料不交叉,目标是建立一个“平衡”语料库。