汉语中介语语料库介绍
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
北语HSK作文语料库 http://202.112.195.192:8060/hsk/login.asp(维护中)
精选ppt
9
(二)中山大学中介语语料库
汉字偏误标注的汉语连续性中介语语料库,是在中山大学国际汉语学
院院长周小兵教授鼎力支持和率领下建设的,分为汉字偏误标注版和字、
词、句偏误标准版两个入口。
2
一 背景
自20世纪60年代计算机问世,计算机技术就迅速应用到了以语料库为 基础的语言学研究中,随着计算机技术的迅速发展,世界各国在语料库的 建设上成绩显著。不同语言、不同类型、不同规模的语料库越来越多。自 第一代大型电子语料库BROWN建立至今,语料库语言学的研究已经有50多 年的历史。而国内的语料库研究也有30多年的历史,并在上世纪90年代得 到飞速发展。
ห้องสมุดไป่ตู้
8
(一)北语HSK动态作文语料库
北语HSK作文语料库是在北京语言大学崔希亮教授的主持下开发建 成的。它以母语为非汉语的外国人参加高等汉语水平考试 ( HSK高等 ) 作文考试的答卷内容为语料,并从字、词、句、篇、标点符号等角度进行 全面标注,语料收集的时间范围是 1992 -2005年。语料总数达到11569 篇 ,共计 424万字,是目前汉语中介语语料库中规模最大的语料库。北 语HSK作文语料库是最早在网上公布偏误标注规范的中介语语料库,因 此之后的许多语料库在进行偏误分类标注时,都以它为基础,做适当的 修改。
使用该语料库,需要注册账号,填写自己的真实信息。注册后即可享
有查看和搜索全部语料的权利。
其中“字词句偏误标注版”做的较早,包含分词和词性标注预处理。 偏
误标注包括错别字、词汇、语法等各种偏误标注,大约44万字。
“汉字偏误标注版”是只有错别字标注的语料,但也可供用户进行一般 的
词汇语言搜索,同时可以供大家对汉字偏误进行分析研究。
汉语中介语料库的建设始于20世纪90年代。进入21世纪,汉语中介语语 料库引起了更多重视,语料库建设增多,建设速度加快。但是,目前对外 公开的语料库数量却很有限,主要有北京语言大学的HSK动态作文语料库 (简称“北语HSK作文语料库”)、中山大学的汉字偏误连续性中介语语料 库(简称“中大中介语语料库”)和台湾师范大学的汉语学习者汉字偏误数
就有了汉语的中介语语料库建设 。第一个问世的汉语中介语语料库是由、
北京语言学院开发研制的 “汉语中介语语料库系统”, 它是一个利用第 一
语言为非汉语的学生的汉语书面语料,全面、细致地记录他们汉语学习过
程中的语言表现和研究他们汉语习得过程的计算机软件。该语料库对语
料进行了分词和词性标注。
相继出现的汉语中介语语料库有 “留学生汉语中介语语料库 ”( 暨 南大
语料库在语言学研究中主要的应用领域有: 词典编纂;语言统计;语言监控,包括新词、新用法的发现;语言 教学;语言信息处理;语法、语义、词汇、语音等各种语言问题的研 究;方言研究等等。
精选ppt
4
三 汉语语料库和汉语中介语语料库建设
汉语语料库 我国汉语语料库的建设开始于20世纪八九十年代,取得了不少成果。
汉英双语语料库目前规模已经超过100万句对。汉英双语语料库对 于汉英语言对比研究有直接的帮助。
北大语料库 http://ccl.pku.edu.cn:8080/ccl_corpus/index.jsp?dir=gudaigudai
精选ppt
5
精选ppt
6
三 汉语语料库和汉语中介语语料库建设
中介语的理论在 20世纪 80年代被引入到我国( 鲁健骥 1993) 之后,
这里简单介绍北京大学CCL语料库极其特点,该语料库包含三个子语料 库:现代汉语语料库、古代汉语语料库和汉英双语语料库。
其中现代汉语语料库和古代汉语语料库主要是面向汉语研究和教学使 用的大规模语料库及其在线检索系统。目前该语料库收集了大约4.77亿 字语料,现代汉语和古代汉语大体上各占一半。现代汉语语料库主要收 录1696部作品,9711字的查询。古代汉语语料库,涉及从周代到民国 时期,22580字的查询。该语料库主要特色包括: 可以查询不连续的词语,可以指定词语之间的距离(比如“帮… 忙”);可以查询汉语特有的重叠模式;支持对标点符号的查询等等。
汉语中介语语料库简介
陈晨
精选ppt
1
目录
一 背景 二 语料库和语料库语言学 三 汉语语料库和汉语中介语语料库建设
北大语料库(现汉、古汉、英语) 四 常用中介语语料库
(一)北语HSK动态作文语料库 中介语口语语料库
(二)中山大学中介语语料库 (三)暨南大学中介语语料库 五 意义和局限 六 参考文献
精选ppt
学 )“外国学生汉语中介语偏误信息语料库”( 南京师范大学 ) 、“汉语 中介
语语料库 ”( 中山大学 )等 , 不过 ,很多语料库并不面向全社会开放使用 ,
许多人想用却没法用 ,导致语料库的使用率并不高。
中介语语料库的建立 ,是为了更好地进行汉语中介语研究 、第二语
言习得研究、对外汉语教学理论研究、对外汉语教材研究、汉语水平考
“错字数据库”是该库一大重要特色。错字数据库中收集了语料库中 的所
有错字使用情 况,可供大家查询、分析。“汉字标注版”截止 2013 年 8 月
据资料库(简称“台师大汉字偏误库”)等。
精选ppt
3
二 语料库和语料库语言学
语料库和语料库语言学的定义 语料库(corpus 或corpuses)是指按照一定的语言学原则,运用随
机抽样方,收集自然出现的连续语言运用文本或话语片段而建成的具有 一定容量的大型电子文本库。
语料库语言学:在文本语料的基础上进行语言研究的一门学科。语 料库语言学通过语言现象出现的概率对语言材料进行研究。这里的语言 材料是真实的、可观存在的,因此,通过概率统计手段在语料库语言学 研究中得到的语言使用情况是真实客观的,排除掉了语言学家的主观 性,研究结果更加真实可靠。
试研究以及与对外汉语教学相关的汉语本体研究等等 。这对于提高汉语
教学 、汉语测试 、汉语本体研究等方面的水平都具有重要的意义 ,接
下来对常用的对全社会公开的语料精库选p进pt 行介绍。
7
四 常用中介语语料库
(一)北语HSK动态作文语料库 (二)中山大学中介语语料库 (三)暨南大学中介语语料库
精选ppt
精选ppt
9
(二)中山大学中介语语料库
汉字偏误标注的汉语连续性中介语语料库,是在中山大学国际汉语学
院院长周小兵教授鼎力支持和率领下建设的,分为汉字偏误标注版和字、
词、句偏误标准版两个入口。
2
一 背景
自20世纪60年代计算机问世,计算机技术就迅速应用到了以语料库为 基础的语言学研究中,随着计算机技术的迅速发展,世界各国在语料库的 建设上成绩显著。不同语言、不同类型、不同规模的语料库越来越多。自 第一代大型电子语料库BROWN建立至今,语料库语言学的研究已经有50多 年的历史。而国内的语料库研究也有30多年的历史,并在上世纪90年代得 到飞速发展。
ห้องสมุดไป่ตู้
8
(一)北语HSK动态作文语料库
北语HSK作文语料库是在北京语言大学崔希亮教授的主持下开发建 成的。它以母语为非汉语的外国人参加高等汉语水平考试 ( HSK高等 ) 作文考试的答卷内容为语料,并从字、词、句、篇、标点符号等角度进行 全面标注,语料收集的时间范围是 1992 -2005年。语料总数达到11569 篇 ,共计 424万字,是目前汉语中介语语料库中规模最大的语料库。北 语HSK作文语料库是最早在网上公布偏误标注规范的中介语语料库,因 此之后的许多语料库在进行偏误分类标注时,都以它为基础,做适当的 修改。
使用该语料库,需要注册账号,填写自己的真实信息。注册后即可享
有查看和搜索全部语料的权利。
其中“字词句偏误标注版”做的较早,包含分词和词性标注预处理。 偏
误标注包括错别字、词汇、语法等各种偏误标注,大约44万字。
“汉字偏误标注版”是只有错别字标注的语料,但也可供用户进行一般 的
词汇语言搜索,同时可以供大家对汉字偏误进行分析研究。
汉语中介语料库的建设始于20世纪90年代。进入21世纪,汉语中介语语 料库引起了更多重视,语料库建设增多,建设速度加快。但是,目前对外 公开的语料库数量却很有限,主要有北京语言大学的HSK动态作文语料库 (简称“北语HSK作文语料库”)、中山大学的汉字偏误连续性中介语语料 库(简称“中大中介语语料库”)和台湾师范大学的汉语学习者汉字偏误数
就有了汉语的中介语语料库建设 。第一个问世的汉语中介语语料库是由、
北京语言学院开发研制的 “汉语中介语语料库系统”, 它是一个利用第 一
语言为非汉语的学生的汉语书面语料,全面、细致地记录他们汉语学习过
程中的语言表现和研究他们汉语习得过程的计算机软件。该语料库对语
料进行了分词和词性标注。
相继出现的汉语中介语语料库有 “留学生汉语中介语语料库 ”( 暨 南大
语料库在语言学研究中主要的应用领域有: 词典编纂;语言统计;语言监控,包括新词、新用法的发现;语言 教学;语言信息处理;语法、语义、词汇、语音等各种语言问题的研 究;方言研究等等。
精选ppt
4
三 汉语语料库和汉语中介语语料库建设
汉语语料库 我国汉语语料库的建设开始于20世纪八九十年代,取得了不少成果。
汉英双语语料库目前规模已经超过100万句对。汉英双语语料库对 于汉英语言对比研究有直接的帮助。
北大语料库 http://ccl.pku.edu.cn:8080/ccl_corpus/index.jsp?dir=gudaigudai
精选ppt
5
精选ppt
6
三 汉语语料库和汉语中介语语料库建设
中介语的理论在 20世纪 80年代被引入到我国( 鲁健骥 1993) 之后,
这里简单介绍北京大学CCL语料库极其特点,该语料库包含三个子语料 库:现代汉语语料库、古代汉语语料库和汉英双语语料库。
其中现代汉语语料库和古代汉语语料库主要是面向汉语研究和教学使 用的大规模语料库及其在线检索系统。目前该语料库收集了大约4.77亿 字语料,现代汉语和古代汉语大体上各占一半。现代汉语语料库主要收 录1696部作品,9711字的查询。古代汉语语料库,涉及从周代到民国 时期,22580字的查询。该语料库主要特色包括: 可以查询不连续的词语,可以指定词语之间的距离(比如“帮… 忙”);可以查询汉语特有的重叠模式;支持对标点符号的查询等等。
汉语中介语语料库简介
陈晨
精选ppt
1
目录
一 背景 二 语料库和语料库语言学 三 汉语语料库和汉语中介语语料库建设
北大语料库(现汉、古汉、英语) 四 常用中介语语料库
(一)北语HSK动态作文语料库 中介语口语语料库
(二)中山大学中介语语料库 (三)暨南大学中介语语料库 五 意义和局限 六 参考文献
精选ppt
学 )“外国学生汉语中介语偏误信息语料库”( 南京师范大学 ) 、“汉语 中介
语语料库 ”( 中山大学 )等 , 不过 ,很多语料库并不面向全社会开放使用 ,
许多人想用却没法用 ,导致语料库的使用率并不高。
中介语语料库的建立 ,是为了更好地进行汉语中介语研究 、第二语
言习得研究、对外汉语教学理论研究、对外汉语教材研究、汉语水平考
“错字数据库”是该库一大重要特色。错字数据库中收集了语料库中 的所
有错字使用情 况,可供大家查询、分析。“汉字标注版”截止 2013 年 8 月
据资料库(简称“台师大汉字偏误库”)等。
精选ppt
3
二 语料库和语料库语言学
语料库和语料库语言学的定义 语料库(corpus 或corpuses)是指按照一定的语言学原则,运用随
机抽样方,收集自然出现的连续语言运用文本或话语片段而建成的具有 一定容量的大型电子文本库。
语料库语言学:在文本语料的基础上进行语言研究的一门学科。语 料库语言学通过语言现象出现的概率对语言材料进行研究。这里的语言 材料是真实的、可观存在的,因此,通过概率统计手段在语料库语言学 研究中得到的语言使用情况是真实客观的,排除掉了语言学家的主观 性,研究结果更加真实可靠。
试研究以及与对外汉语教学相关的汉语本体研究等等 。这对于提高汉语
教学 、汉语测试 、汉语本体研究等方面的水平都具有重要的意义 ,接
下来对常用的对全社会公开的语料精库选p进pt 行介绍。
7
四 常用中介语语料库
(一)北语HSK动态作文语料库 (二)中山大学中介语语料库 (三)暨南大学中介语语料库
精选ppt