常用在线语料库使用简介65页PPT

合集下载

《语料库建设和应用》课件

《语料库建设和应用》课件
REPORT
CATALOG
DATE
ANALYSIS
SUMMARY
《语料库建设和应用 》ppt课件
目录
CONTENTS
• 语料库简介 • 语料库建设 • 语料库应用 • 语料库的未来发展 • 总结与展望
REPORT
CATALOG
DATE
ANALYSIS
SUMMAR Y
01
语料库简介
语料库的定义
语料库是一种语言数据的集合,用于 存储自然语言文本或话语的样本,以 便进行语言研究和分析。
REPORT
CATALOG
DATE
ANALYSIS
SUMMAR Y
04
语料库的未来发展
语料库的规模和多样性
总结词
随着信息技术的不断发展,语料库的规模和多样性将得到进一步提升。
详细描述
随着数据存储能力的提升和信息获取渠道的增多,未来的语料库将覆盖更广泛的领域和内容,不仅在 规模上实现大幅度增长,而且将更加注重多样性的提升,包括语言种类、领域、话题、语体等方面的 多样性。
语料库通常由大量真实的、未经过处 理的文本构成,这些文本可以是书面 语或口语,来自不同的领域和语境。
语料库的类型
单语语料库、双语语料库 、多语语料库。
通用语料库、专用语料库 。
小型语料库、中型语料库 、大型语料库。
按照规模
按照目的
按照语言
语料库的作用
提供语言研究的基础数据
支持语言分析
语料库为语言研究提供了大量真实、丰富 的语言数据,是语言学、自然语言处理等 领域研究的基础。
机器翻译
翻译质量评估
利用语料库对机器翻译的质量进行评估,通 过对比人工翻译和机器翻译的差异,不断优 化机器翻译的算法和模型。

常见语料库使用入门_图文

常见语料库使用入门_图文

10 公共语料库检索
小问题:
一种语言现象我们至少得收集多少条语料呢?
500 徐杰教授认为,语料多多益善,至少应收集
条。
大数定律(Law of Large Numbers): 指在随机试验中,每次出现的结果不同,但是大量重复
试验出现的结果的平均值却几乎总是接近于某个确定的值。
11 公共语料库检索
抽样与调查
9 公共语料库检索
国外18个知名英语语料库
10.LLC口语语料库: http://khnt.hit.uib.no/icame/manuals/ 11.COBUILD语料库:/Corpus/CorpusSearch.aspx 12.ICE东非等分库:/english-usage/ice/avail. htm 13.ARCHER语料库:/english/degree_programs. asp 14.CEECS语料库:http://www.eng.helsinki.fi/varieng/main/corporal.htm 15.SCTS语料库:http: /// 16.VOICE语料库:http: //www.univie.ac.at/Anglistik/voice/ 17.ELFA语料库:http: //www.uta.fi/laitokset/kielet/engf/research/elfa/ 18.朗曼语料库:http: ///dictionaries/corpus/index.html
40 个人语料库创建
熟语料库加工阶段
可以采用这个工具
双 击 打 开 软 件
41 个人语料库创建 熟语料库加工阶段
检 索 式 示 例
公共语料库的检索说明
——以BCC语料库为例
18 公共语料库检索

COCA语料库操作 演示.ppt知识讲解

COCA语料库操作 演示.ppt知识讲解

图2.4.1
规则:首先选择 COMPARE 显示。然后在WORDS的方格里分 别输入hot和warm,再在COLLOCATES方框里输入[n*],表示 后面所跟任何名词。当然也可以比较在某个子语料库中出 现的频率比较。
• 2.4.2 比较反义词
• 如:woman和man前面所跟的形容词的区 别(如图2.4.2)
图2.1.5-1
图2.1d的所有词组
• 2.2 搜索搭配词和出现的频率 • 如 “thick后跟的名词” (图2.2-1)
图2.2-1
规则:在COLLOCATES里输入[n*] 后选择4,表示 在thick后面(4跨距范围内)出现的任何名词
• 如跟在 “smile前面的形容词” (图2.2-2)
图1.1 COCA界面简介
1. 显示方式 2. 关键词输入栏
5. 结果栏
3. 子语料库 4. 最小匹配
6. KWIC 栏
2. 主要搜索功能
• 2.1 搜索words、phrases、lemmas、 wildcards和其他更加复杂的字词
• 2.1.1 输入单词“mysterious” (图2.1.1-1): • 得到相关结果(图2.1.1-2):在各子库中的频
形容词early的原形,比较级和最高级三种形式一次性检索出来检索
• 2.1.5 输入某种词性且部分带有某些字母的命令, 如要得到以un-开头、-ed结尾的所有形容词的所 有 形 式 ( 见 图 2.1.5-1 ) 和 得 到 动 词 + 任 何 词 +ground的所有词组(见图2.1.5-2):
图2.3-1
图2.3-2
图2.3-2
• 但是也可以之间对两者子语料库中它们出 现频率的对比,操作:分别选择section 1&2,如下图(图2.3-3):

最新常用在线语料库使用简介PPT课件

最新常用在线语料库使用简介PPT课件
进 入 夏 天 ,少 不了一 个热字 当头, 电扇空 调陆续 登场, 每逢此 时,总 会想起 那 一 把 蒲 扇 。蒲扇 ,是记 忆中的 农村, 夏季经 常用的 一件物 品。 记 忆 中 的故 乡 , 每 逢 进 入夏天 ,集市 上最常 见的便 是蒲扇 、凉席 ,不论 男女老 少,个 个手持 一 把 , 忽 闪 忽闪个 不停, 嘴里叨 叨着“ 怎么这 么热” ,于是 三五成 群,聚 在大树 下 , 或 站 着 ,或随 即坐在 石头上 ,手持 那把扇 子,边 唠嗑边 乘凉。 孩子们 却在周 围 跑 跑 跳 跳 ,热得 满头大 汗,不 时听到 “强子 ,别跑 了,快 来我给 你扇扇 ”。孩 子 们 才 不 听 这一套 ,跑个 没完, 直到累 气喘吁 吁,这 才一跑 一踮地 围过了 ,这时 母 亲总是 ,好似 生气的 样子, 边扇边 训,“ 你看热 的,跑 什么? ”此时 这把蒲 扇, 是 那 么 凉 快 ,那么 的温馨 幸福, 有母亲 的味道 ! 蒲 扇 是 中 国传 统工艺 品,在 我 国 已 有 三 千年多 年的历 史。取 材于棕 榈树, 制作简 单,方 便携带 ,且蒲 扇的表 面 光 滑 , 因 而,古 人常会 在上面 作画。 古有棕 扇、葵 扇、蒲 扇、蕉 扇诸名 ,实即 今 日 的 蒲 扇 ,江浙 称之为 芭蕉扇 。六七 十年代 ,人们 最常用 的就是 这种, 似圆非 圆 , 轻 巧 又 便宜的 蒲扇。 蒲 扇 流 传 至今, 我的记 忆中, 它跨越 了半个 世纪, 也 走 过 了 我 们的半 个人生 的轨迹 ,携带 着特有 的念想 ,一年 年,一 天天, 流向长
字串查询区
图5-1
COCA
5. COCA界面简介(图5-1)
语料库分类区
图5-1
COCA
5. COCA界面简介(图5-1)

COCA语料库操作演示.ppt教程

COCA语料库操作演示.ppt教程

图2.4.2
规则:在WORDS的方格里分别输入woman和man,再在 COLLOCATES方框里输入[j*],选在左3,表示前面3个跨 距内所有的形容词。当然也可以比较在某个子语料库中出 现的频率比较。
• 2.4.3 搜索近义词 • 如:搜索beautiful的所有近义词(如图2.4.3-1)
图2.3-1
图2.3-2
图2.3-2
• 但是也可以之间对两者子语料库中它们出 现频率的对比,操作:分别选择section 1&2,如下图(图2.3-3):
图2.3-3
• 2.4 进行语义倾向比较 • 2.4.1 比较近义词 • 如:近义形容词hot和warm后面所跟名词的 区别(如图2.4.1):
图2.4.1
规则:首先选择 COMPARE 显示。然后在WORDS的方格里分 别输入hot和warm,再在COLLOCATES方框里输入[n*],表示 后面所跟任何名词。当然也可以比较在某个子语料库中出 现的频率比较。
ቤተ መጻሕፍቲ ባይዱ
• 2.4.2 比较反义词 • 如:woman和man前面所跟的形容词的区 别(如图2.4.2)
图2.1.4-1
规则:若要得到某个单词的所有单复数和时态形式,那么 就要在输入时,在这个单词外加 [ ]。
图2.1.4-2
形容词early的原形,比较级和最高级三种形式一次性检索出来检索
• 2.1.5 输入某种词性且部分带有某些字母的命令, 如要得到以 un- 开头、 -ed 结尾的所有形容词的所 有 形 式 ( 见 图 2.1.5-1 ) 和 得 到 动 词 + 任 何 词 +ground的所有词组(见图2.1.5-2): • 规则:若要得到某种词性且词中带有部分带有某 些字母的形式时,如要得到以 un- 开头、 -ed 结尾 的所有形容词的所有形式,那么输入: un*ed.[aj*]; 若要得到动词+任何词+ground的所有词组,那么输 入: [vv*]*[ground]即可。前者用来研究词汇,后者 用来查询特定词性的搭配。

汉语中介语语料库介绍幻灯片PPT

汉语中介语语料库介绍幻灯片PPT

四 常用中介语语料库
〔一〕北语HSK动态作文语料库 〔二〕中山大学中介语语料库 〔三〕暨南大学中介语语料库
〔一〕北语HSK动态作文语料库
北语HSK作文语料库是在北京语言大学崔希亮教授的主持下开发建 成的。它以母语为非汉语的外国人参加高等汉语水平考试 ( HSK高等 ) 作文考试的答卷内容为语料,并从字、词、句、篇、标点符号等角度进展 全面标注,语料收集的时间范围是 1992 -2005年。语料总数到达11569 篇 ,共计 424万字,是目前汉语中介语语料库中规模最大的语料库。北 语HSK作文语料库是最早在网上公布偏误标注标准的中介语语料库,因 此之后的许多语料库在进展偏误分类标注时,都以它为根底,做适当的 修改。
“汉字偏误标注版〞是只有错别字标注的语料,但也可供用户进展一般的 词汇语言搜索,同时可以供大家对汉字偏误进展分析研究。 “错字数据库〞是该库一大重要特色。错字数据库中收集了语料库中的所 有错字使用情 况,可供大家查询、分析。“汉字标注版〞截止 2021 年 8 月 共有大约 310 万字,目前还在不 断增加更新改善。本语料库收集的主要 是中山大学国际汉语学院留学生日常作文和综合课的写话,语料涵盖初、 中、高级阶段,但因为初级阶段的学生本身输出就少,收集困难度高,所 以初级水平的 语料偏少,中级较多,高级最多。
其中现代汉语语料库和古代汉语语料库主要是面向汉语研究和教学使 用的大规模语料库及其在线检索系统。目前该语料库收集了大约4.77亿 字语料,现代汉语和古代汉语大体上各占一半。现代汉语语料库主要收 录1696部作品,9711字的查询。古代汉语语料库,涉及从周代到民国 时期,22580字的查询。该语料库主要特色包括: 可以查询不连续的词语,可以指定词语之间的距离〔比方“帮… 忙〞〕;可以查询汉语特有的重叠模式;支持对标点符号的查询等等。

COCA语料库操作 演示.ppt知识讲解

COCA语料库操作 演示.ppt知识讲解

图2.4.1
规则:首先选择 COMPARE 显示。然后在WORDS的方格里分 别输入hot和warm,再在COLLOCATES方框里输入[n*],表示 后面所跟任何名词。当然也可以比较在某个子语料库中出 现的频率比较。
• 2.4.2 比较反义词
• 如:woman和man前面所跟的形容词的区 别(如图2.4.2)
图2.3-1
图2.3-2
图2.3-2
• 但是也可以之间对两者子语料库中它们出 现频率的对比,操作:分别选择section 1&2,如下图(图2.3-3):
图2.3-3
• 2.4 进行语义倾向比较
• 2.4.1 比较近义词
• 如:近义形容词hot和warm后面所跟名词的 区别(如图2.4.1):
图2.4.3-3
思考:
• 1)如何查询多义词特定的词性的KWIC,如for 作连词或介词等?
• 2)如何查询某个词前/或者后面特定词性的若干 搭配词, 如confidence 前的形容词?
• 3)词性附码应放置在什么位置?
此课件下载可自行编辑修改,仅供参考! 感谢您的支持,我们努力做得更好!谢谢
图2.1.5-1
图2.1.5-2
动词+任何词+ground的所有词组
• 2.2 搜索搭配词和出现的频率 • 如 “thick后跟的名词” (图2.2-1)
图2.2-1
规则:在COLLOCATES里输入[n*] 后选择4,表示 在thick后面(4跨距范围内)出现的任何名词
• 如跟在 “smile前面的形容词” (图2.2-2)
COCA语料库操作 演示.ppt
图1.1 COCA界面简介
1. 显示方式 2. 关键词输入栏

《语料库语言学》PPT课件

《语料库语言学》PPT课件

语料库研究方法的局限性
• (1)语料库语言学理论尚需要体系化和简约化。 • (2)其研究思路和方法存在一定的分歧。 • (3)分析方法和技术需要进一步突破 • (4)语料库研究的应用尚需要更深入的探讨。
国内语料库研究的局限性
(1)缺乏应有的精密分析过程,显示不出应有的分析力 量(analytical power)。
而对语料库标准化提出的更高要求。

检索实例
参考文献
• /
• /
• 杨惠中等:语料库语言学导论 上海外语教育出版社 2002
• 梁茂成,李文中,许家金: 语料库应用教程 外语教育与研究出版社
2010
• Kennedy, G. 语料库语言学入门 外语教育与研究出版社
LLC
1975-1981 50万
BROWN
1960s
100万
LOB
1970s
100万
COBUILD 1980s
3.2亿
LONGMAN 1988-1990 2800万
BNC
1991-1995 1亿
ICE
1988年起 2000万
语料
用途
书面语50% 口语50%
口语
第一个大型计算机语料库
以计算机自动化处理方式获取SEU语 料库的英语口语原始语料
静态和监控语料库译语学习者语料库国外语料库的介绍类型时间容量语料用途seu1959年起100万书面语50口语50第一个大型计算机语料库llc1975198150万口语以计算机自动化处理方式获取seu语料库的英语口语原始语料brown1960s100万书面语研究当代美国英语lob1970s100万书面语研究当代英国英语cobuild1980s32亿书面语75口语25在语料库支持下从事词典学研究longman198819902800万书面和口语编纂词典和供学术界使用bnc199119951亿书面语90口语10其口语语料库可以精细分析语音研究ice1988年起2000万书面语40口语60对讲英语的不同国家的英语进行对比研究国内语料库介绍????汉语现代文学作品语料库1979年527万字武汉大学现代汉语语料库1983年2000万字北京航空航天大学现代汉语词频统计语料库1983年182万字北京语言大学台湾中央研究院平衡语料库500万词是世界上第一个带有完整词类标记的汉语平衡语料库

常用在线语料库使用简介分析

常用在线语料库使用简介分析

频数
图2.1-2
BNC
2.2 其他可下载的BNC产品
➢ BNC XML edition:BNC全库 ➢ BNC Baby:BNC子库,包含小说、新闻、科技、口语四
类文本各100万词 ➢ BNC sampler:BNC 子库,包含书面语、口语两类文本
各100万词 ➢ 注:以上语料库采用XML格式,需使用XAIRA软件检索
➢ 输入“feature”(图6.1.1-1)
图6.1.1-1
COCA
6.1.1 检索某一词形
➢ 在搜索结果区可得到“feature”的频数 (图6.1.1-2 ) ➢ 点击该词,可在例句显示区看到含有“feature”的词
条(图6.1.1-3)
图6.1.1-2
图6.1.1-3
COCA
6.1.1 检索某一词形
图5.3-1
COCA
5.3 语料库分类区
➢ 42个子语料库 (图5.3-2)
图5.3-2
COCA
5.3 语料库分类区
➢ 42个子语料库 (图5.3-3)
图5.3-3
COCA
5.4 查询结果排列方式区
➢ Sort by:检索结果的排列方式,可按频率、关联度、 或字母顺序排列,一般默认按频率排列 (图5.4-1)
➢ 在显示方式区选择KWIC 并再次点击search, 可得含有“feature”的词语 索引(图6.1.1-4)
Sketch Engine: 在线语料库管理及检索工具,可有 效总结词汇的语法及搭配行为。
BNC
1. BNC官网主界面(图1-1)
基本信息及 功能介绍区
简单搜索区 进入简单搜索功能介绍
图1-1
BNC
2. BNC在线检索功能介绍 2.1 BNC simple search
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
相关文档
最新文档