常见语料库使用入门_图文

合集下载

COCA语料库操作 演示.ppt知识讲解

COCA语料库操作 演示.ppt知识讲解

图2.4.1
规则:首先选择 COMPARE 显示。然后在WORDS的方格里分 别输入hot和warm,再在COLLOCATES方框里输入[n*],表示 后面所跟任何名词。当然也可以比较在某个子语料库中出 现的频率比较。
• 2.4.2 比较反义词
• 如:woman和man前面所跟的形容词的区 别(如图2.4.2)
图2.1.5-1
图2.1d的所有词组
• 2.2 搜索搭配词和出现的频率 • 如 “thick后跟的名词” (图2.2-1)
图2.2-1
规则:在COLLOCATES里输入[n*] 后选择4,表示 在thick后面(4跨距范围内)出现的任何名词
• 如跟在 “smile前面的形容词” (图2.2-2)
图1.1 COCA界面简介
1. 显示方式 2. 关键词输入栏
5. 结果栏
3. 子语料库 4. 最小匹配
6. KWIC 栏
2. 主要搜索功能
• 2.1 搜索words、phrases、lemmas、 wildcards和其他更加复杂的字词
• 2.1.1 输入单词“mysterious” (图2.1.1-1): • 得到相关结果(图2.1.1-2):在各子库中的频
形容词early的原形,比较级和最高级三种形式一次性检索出来检索
• 2.1.5 输入某种词性且部分带有某些字母的命令, 如要得到以un-开头、-ed结尾的所有形容词的所 有 形 式 ( 见 图 2.1.5-1 ) 和 得 到 动 词 + 任 何 词 +ground的所有词组(见图2.1.5-2):
图2.3-1
图2.3-2
图2.3-2
• 但是也可以之间对两者子语料库中它们出 现频率的对比,操作:分别选择section 1&2,如下图(图2.3-3):

最新常用在线语料库使用简介PPT课件

最新常用在线语料库使用简介PPT课件
进 入 夏 天 ,少 不了一 个热字 当头, 电扇空 调陆续 登场, 每逢此 时,总 会想起 那 一 把 蒲 扇 。蒲扇 ,是记 忆中的 农村, 夏季经 常用的 一件物 品。 记 忆 中 的故 乡 , 每 逢 进 入夏天 ,集市 上最常 见的便 是蒲扇 、凉席 ,不论 男女老 少,个 个手持 一 把 , 忽 闪 忽闪个 不停, 嘴里叨 叨着“ 怎么这 么热” ,于是 三五成 群,聚 在大树 下 , 或 站 着 ,或随 即坐在 石头上 ,手持 那把扇 子,边 唠嗑边 乘凉。 孩子们 却在周 围 跑 跑 跳 跳 ,热得 满头大 汗,不 时听到 “强子 ,别跑 了,快 来我给 你扇扇 ”。孩 子 们 才 不 听 这一套 ,跑个 没完, 直到累 气喘吁 吁,这 才一跑 一踮地 围过了 ,这时 母 亲总是 ,好似 生气的 样子, 边扇边 训,“ 你看热 的,跑 什么? ”此时 这把蒲 扇, 是 那 么 凉 快 ,那么 的温馨 幸福, 有母亲 的味道 ! 蒲 扇 是 中 国传 统工艺 品,在 我 国 已 有 三 千年多 年的历 史。取 材于棕 榈树, 制作简 单,方 便携带 ,且蒲 扇的表 面 光 滑 , 因 而,古 人常会 在上面 作画。 古有棕 扇、葵 扇、蒲 扇、蕉 扇诸名 ,实即 今 日 的 蒲 扇 ,江浙 称之为 芭蕉扇 。六七 十年代 ,人们 最常用 的就是 这种, 似圆非 圆 , 轻 巧 又 便宜的 蒲扇。 蒲 扇 流 传 至今, 我的记 忆中, 它跨越 了半个 世纪, 也 走 过 了 我 们的半 个人生 的轨迹 ,携带 着特有 的念想 ,一年 年,一 天天, 流向长
字串查询区
图5-1
COCA
5. COCA界面简介(图5-1)
语料库分类区
图5-1
COCA
5. COCA界面简介(图5-1)

收藏中文公开聊天语料库及使用方法(附链接)

收藏中文公开聊天语料库及使用方法(附链接)

收藏中文公开聊天语料库及使用方法(附链接)
该Github库是对目前市面上已有的开源中文聊天语料的搜集和系统化整理工作。

语料内容
该库搜集了包含chatterbot、豆瓣多轮、PTT八卦语料、青云语料、电视剧对白语料、贴吧论坛回帖语料、微博语料小黄鸡语料共8个公开闲聊常用语料和短信,并对其进行了统一化规整和处理,达到直接可以粗略使用的目的。

使用方法
下载语料
网盘链接:
https:///s/1szmNZQrw
h9y994uO8DFL_A 提取码:f2ex
将解压后的raw_chat_corpus文件夹放到当前目录下目录结构为:raw_chat_corpus
-- language
-- process_pipelines
-- raw_chat_corpus
---- chatterbot-1k
---- douban-multiturn-100w
---- ....
-- main.py
-- ...
执行命令即可
python main.py
每个来源的语料分别生成一个独立的*.tsv文件,都放在新生成的clean_chat_corpus文件夹下。

生成结果格式为tsv格式,每行是一个样本,先是query,再是answer
query \t answer
Github地址:。

最新常用在线语料库使用简介PPT课件

最新常用在线语料库使用简介PPT课件
呈现所检索词项在语法结构下所搭配的高频词汇54sketchenginesketchengine主要功能介绍91wordsketch选择所需的语料库后点击左侧功能区的wordsketch即可进入检索页面如图911图91155sketchengine91wordsketch以generate一词为例部分检索结果如图912图91256sketchengine91wordsketchsubject一栏显示与generate搭配的典型主语unaryrels一栏显示generate与主语搭配词的典型句法关系未带下划线的数值代表generate与搭配词的搭配强度带有下划线的数字代表频数点击即可查看词语索引如图914图91357sketchengine91wordsketch点击节点词可观察更多语境图91458sketchengine91wordsketchobject一栏显示与generate搭配的典型宾语ppbyp一栏显示该语法结构下的典型搭配词modifier一栏显示generate的高频修饰词图91559sketchengine92thesaurus点击页面左侧的thesaurus即可进入查询近义或同义词的页面如图921部分结果如922点击词条即可进行两词间比较图921图92260sketchengine93sketchdiff点击左侧功能区的sketchdiff即可进入该功能页面图931lemma后输入generatesecondlemma后输入create点击showdiff对比结果见图932图93161sketchengine93sketchdiff红色区的词趋向与create搭配绿色区的词趋向与generate搭配灰色区的词与create和generate的搭配强度相当图932图93262sketchengine93sketchdiff通过观察对比信息可得到比coca更详细的差异从动宾搭配的角度看generate和create两词均可与

语料库 入门

语料库 入门
热烈欢迎来自全国各地的老师们!
语料库入门
OUTLINE
1.
基本概念 2. 著名网络语料库 3. 常用软件
Corpus(语料库,尸体): (pl. corpora or corpuses): a collection of text, now usually in machine-readable form and compiled to be representative of a particular kind of language and often provided with some kind of annotation(标注). 按照一定的采样标准采集而来的、能 代表一种语言或者某语言的一种变体 或文类的电子文本集。
在口语中,start更常用。
语料库的方法基于真实的语言
使用情况,事实胜于雄辩
我们通过对语料库的检索结果进行分析,可以找到很多问 题的答案,例如: “学知识”在英语中是“study knowledge”吗? “快速导航”翻译成“fast guide”对不对? “只为点滴幸福”这句广告语,对应的英文翻译是“Little happiness matters.”吗? 为何“The bad weather set in on Monday.”是正确的, 但“The good weather set in on Monday.”却是错误的?
熟 语 语 料 库
语料库语言学常用术语
Types

of corpora
General corpus通用语料库 Annotated标注 corpus: a corpus enhanced with various types of linguistic information (or tagged corpus). An annotated corpus may be considered to be a repository of linguistic information, because the information which was implicit in the plain text has been made explicit through concrete annotation (“added value附加值”).

BNC和COCA语料库PPT课件

BNC和COCA语料库PPT课件

规则:输入名词的话用正 确表达式: [n*];动词: [v*]; 形容词: [aj*]; 副词:
[av*]……
White+名词的短语
3. 输入un*ly和r?n*,
Un开头 ly结尾的词
R开头中间有 N的词
4.输入lemma(即一个单词的单复数、时态等所 有形式)以sing为例
规则:若要得到某个单词的所有单复数和时态形式,那 么就要在输入时,在这个单词外加 [ ]。
形容词early的原型,比较级和最高级三种形式一次性检索出 来检索
5.若要得到某种词性且词中部分带有某些字母的形 式时,如要得到以un-开头、-ed结尾的所有形容 词的所有形式,那么输入: un*ed.[aj*]
6.若要得到动词+任何词+ground的所有词组,那么输入: [vv*]*[ground]即可。
11.搜索搭配词以及出现的频率 如:thick后跟的名词
规则:在context里输入[nn*] 后选择4,表示在thick后面(4跨距范围内)出现的任何 名词
写在最后
经常不断地学习,你就什么都知道。你知道得越多,你就越有力量 Study Constantly, And You Will Know Everything. The More
BNC COCA语料库
周Байду номын сангаас清 李杏
BNC
BNC特点
COCA
杨百翰大学(Brigham Young University)语料库
英国国家语料库BNC
当代美国的语料库COCA 不同年代的TIME做成的历史语料库Time
Corpus of American English
杨百翰大学BNC语料库使用方法说明

BCC语料库使用指南

BCC语料库使用指南

1 、字处理(包括标点符号)[C]:错字标记,用于标示考生写的不成字的字。

用[C]代表错字,在[C]前填写正确的字。

例如:地球[C](“球”是错字)、这[C]。

[B]:别字标记,用于标示把甲字写成乙字的情况。

别字包括同音的、不同音而只是形似的、既不同音也不形似但成字的等等。

把别字移至[B]中B的后面,并在[B]前填写正确的字。

例如:提[B题]高、考虑[B虎]。

[L]:漏字标记,用于标示作文中应有而没有的字。

用[L]表示漏掉的字,并在[L]前填写所漏掉的字。

例如:后悔[L],表示“悔”在原文中是漏掉的字。

农[L]药,表示“农”在原文中是漏掉的字。

[D]:多字标记,用于标示作文中不应出现而出现的字。

把多余的字移至[D]中D的后面。

例如:我的[D的],表示括号中的“的”是多余的字(原文中写了两个“的”)。

[F]:繁体字标记,用于标示繁体字。

把繁体字移至[F]中F的后面,并在[F]前填写简体字。

例如:记忆[F憶]、单{F單}纯、养{F養}分{F份}。

注意:1)繁体字标记标示的是使用正确的繁体字,如果该繁体字同时又是别字,则先标繁体字标记,再标别字标记。

例如:俭朴[F樸[B僕]]。

2)繁体字写错了,标为:后[F後[C]]。

[Y]:异体字标记,用于标示异体字。

把异体字移至[Y]中Y的后面,并在[Y]前填写简体字。

例如:偏[Y徧]、沉[Y沈]。

[P]:拼音字标记,用于标示以汉语拼音代替汉字的情况。

把拼音字移至[P]中P的后面,并在[P]前填写简体字。

例如:缘[Pyúan]分、保护[Phù]。

[#]:无法识别的字的标记,用于标示无法识别的字。

每个不可识别的字用一个[#]表示。

例如:更[#][#]保存自己的生命,……[BC]:错误标点标记,用于标示使用错误的标点符号。

把错误标点移至[BC]中BC的后面,并在[BC]前填写正确的标点符号。

例如:勤奋、[BC,]刻苦的精神。

[BQ]:空缺标点标记,用于标示应用标点符号而未用的情况。

语料库语言学PPT

语料库语言学PPT

用途
第一个大型计算机语料库
以计算机自动化处理方式获取SEU语 料库的英语口语原始语料
SEU
LLC BROWN LOB COBUILD LONGMAN
1959年起
1975-1981 1960s 1970s 1980s 1988-1990
100万
50万 100万 100万 3.2亿 2800万
口语 书面语 书面语
语料库语言学的发展史
一般以乔姆斯基(N.Chomsky)转换生成 语法的兴衰史为参照点,将语料库语言学 的发展史大致分为三个时期: • 早期的语料库语言学 • 乔姆斯基的转换生成语法时期 • 语料库语言学的复苏时期
早期的语料库语言学
早期的语料库语言学是指20世纪50年代中期以前, 即以乔姆斯基提出转换生成语法理论之前的所有 基于语言材料的语言研究。在50年代,语料库语 言学曾被广泛使用,主要集中体现在以下几个方 面: 1)语言习得 2)方言学 3)语言教学 4)句法和语义 5)音系研究
基于语料库的方法 corpus-based approach
• 由研究者根据以往的语言研究成果或对语言的认 识,首先提出假设,然后到语料库中去验证假设。 假设是否成立取决于语料库中的语言实例。基于 语料库的研究方法以概率为基础,是统计学和实 证研究方法在语料库语言学领域的具体应用。 17
语料库驱动的方法 corpus-driven approach
语料库研究方法的局限性
• • • • (1)语料库语言学理论尚需要体系化和简约化。 (2)其研究思路和方法存在一定的分歧。 (3)分析方法和技术需要进一步突破 (4)语料库研究的应用尚需要更深入的探讨。
国内语料库研究的局限性
(1)缺乏应有的精密分析过程,显示不出应有的分析力 量(analytical power)。 (2)一些研究将事实与译论混在一起,将语料库数据与 直觉数据杂合,宏观概述多而语境分析少。 (3)数据与观察与结论之间,不同理论之间跳跃大,缺 失环节多,没有语料库语言学所熟悉的范式特征。

COCA语料库操作 演示.ppt知识讲解

COCA语料库操作 演示.ppt知识讲解

图2.4.1
规则:首先选择 COMPARE 显示。然后在WORDS的方格里分 别输入hot和warm,再在COLLOCATES方框里输入[n*],表示 后面所跟任何名词。当然也可以比较在某个子语料库中出 现的频率比较。
• 2.4.2 比较反义词
• 如:woman和man前面所跟的形容词的区 别(如图2.4.2)
图2.3-1
图2.3-2
图2.3-2
• 但是也可以之间对两者子语料库中它们出 现频率的对比,操作:分别选择section 1&2,如下图(图2.3-3):
图2.3-3
• 2.4 进行语义倾向比较
• 2.4.1 比较近义词
• 如:近义形容词hot和warm后面所跟名词的 区别(如图2.4.1):
图2.4.3-3
思考:
• 1)如何查询多义词特定的词性的KWIC,如for 作连词或介词等?
• 2)如何查询某个词前/或者后面特定词性的若干 搭配词, 如confidence 前的形容词?
• 3)词性附码应放置在什么位置?
此课件下载可自行编辑修改,仅供参考! 感谢您的支持,我们努力做得更好!谢谢
图2.1.5-1
图2.1.5-2
动词+任何词+ground的所有词组
• 2.2 搜索搭配词和出现的频率 • 如 “thick后跟的名词” (图2.2-1)
图2.2-1
规则:在COLLOCATES里输入[n*] 后选择4,表示 在thick后面(4跨距范围内)出现的任何名词
• 如跟在 “smile前面的形容词” (图2.2-2)
COCA语料库操作 演示.ppt
图1.1 COCA界面简介
1. 显示方式 2. 关键词输入栏

语料库 入门

语料库 入门

何谓语料库检索
Concordancers are developed to produce concordance lines of a specific string of text.
Wordsmith Tools
AntConc
Many others
语义韵semantic prosody
• “快速导航”翻译成“fast guide” 对不对? • 上海世博会英文网站
• 在口头表达、写作或翻译中如何确定某些用 法是地道的? • 学习者一般要有多大词汇量才能读懂英文报 纸? • 哪些是商务英语中最常用的单词和短语? • 某种考试中,哪些单词、词组或其他语言现 象出现的频率特别高? • 如何通过量化统计来分析文学作品的写作风 格?
• 有专门的软件根据词形还原表,自动对文本进行 词形还原。
语料库语言学常用术语
• Keywords 关键词
– Keywords are words whose normalized frequency in one corpus (observed corpus) is significantly higher or lower than that in another comparable corpus (reference corpus). – Positive keywords and negative keywords
语料库语言学常用术语
• Token形符: an individual word • Type类符: word form. 指不重复计算 的形符数。"I see a cat and a dog" contains seven tokens but only six types (the type 'a' occurs twice).

第六章语料库

第六章语料库

第六章语料库詹卫东/doubtfire/提纲1 什么是语料库2 语料库的发展简史3 语料库的设计4 语料库的加工5 语料库的应用1 什么是语料库在今天,仅仅将语料库视为存放语言材料的仓库,是令人无法忍受的观点。

新一代的兆亿级的大规模语料库可以作为语言模型的训练和测试手段,来评价一个语言模型的质量;此外,诸如困惑度之类的统计方法也可利用语料库来评估一个语法模型对语料的解释能力。

——Geoffrey Leech, The State of The Art inCorpus Linguistics, 1991, In Aijmar, K.and Altenberg, B. , eds. , English CorpusLinguistics: Studies in Honor of JanSvartvik, London:Longman, 1991.关于语料库的三点基本认识语料库中存放的是在语言的实际使用中真实出现过的语言材料;语料库是以电子计算机为载体承载语言知识的基础资源;真实语料需要经过加工(分析和处理),才能成为有用的资源;语料库示例(一)北京大学计算语言所富士通人民日报标注语料库样例:历史/n 将/d 铭记/v 这个/r 坐标/n :/w 北纬/b 41.1/m 度/q 、/w 东经/b 114.3/m 度/q ;/w 人们/n 将/d 铭记/v 这/r 一/m 时刻/n :/w 1998年/t 1月/t 10日/t 11时/t 50分/t 。

/w……[中国/ns 政府/n]nt 顺利/ad 恢复/v 对/p 香港/ns 行使/v 主权/n ,/w 并/c 按照/p “/w 一国两制/j ”/w 、/w “/w 港人治港/l ”/w 、/w 高度/d 自治/v 的/u 方针/n 保持/v 香港/ns 的/u 繁荣/an 稳定/an 。

/w语料库示例(二)London-Lund英语口语语料库样例^what a_bout a cigar\ette# ./*((4sylls))*/*I ^w\on't have one th/anks#* ---/^aren't you .going to sit d/own# -/^[/\m]# -/^have my _coffee in p=eace# ---/^quite a nice .room to !s\it in ((actually))#/*^\isn't* it#/*^y/\es#* ---/转引自Tony McEnery& Andrew Wilson, 1996, Corpus Linguistics, p55,语料库与语言知识库语言知识库(Linguistic Database)语料库(corpora/corpus)2 语料库发展简史20世纪50年代Chomsky的影响 第一代(1970-80年代)第二代(1980-90年代)第三代(1990年代)?第四代(21世纪)UPenn Treebank美国Pennsylvania大学1980年代末开始发起 由该校计算机系M.Marcus主持1993年,完成了对近300万英语词的句子语法结构标注2000年发布中文树库(第一版)10万词,4185个句子,325data files(新华社语料)2004年发布中文树库4.0版404,156 words, 664,633Hanzi, 15,162 sentences, and 838 data files(大陆、香港、台湾语料)宾州大学中文树库示例他还提出一系列具体措施和政策要点。

语料库 入门

语料库 入门

在口语中,start更常用。
语料库的方法基于真实的语言
使用情况,事实胜于雄辩
我们通过对语料库的检索结果进行分析,可以找到很多问 题的答案,例如: “学知识”在英语中是“study knowledge”吗? “快速导航”翻译成“fast guide”对不对? “只为点滴幸福”这句广告语,对应的英文翻译是“Little happiness matters.”吗? 为何“The bad weather set in on Monday.”是正确的, 但“The good weather set in on Monday.”却是错误的?

以上问题也许在词典或语法书这样的工具书中是无法 找到答案的,但语料库能为我们提供方便快捷的解决 方案。 语料库可以辅助EFL学习的各个方面,如词汇、语法、 阅读、语体分析、翻译、口语、写作、测试和西方文 化学习等。
具体来说,本书中语料库辅助 EFL 自主学习的方法 (简称为“语料库方法”)主要指以下三种: (1) 直接在权威的语料库中查询语言和文化现象,如 英 国 国 家 语 料 库 ( BNC ) 和 美 国 当 代 英 语 语 料 库 (COCA); (2) 利用语料库软件进行文本分析,如 AntConc 和 Range; (3) 利 用 其 他 基 于 语 料 库 的 网 站 进 行 学 习 , 如 JustTheWord和Sketch Engine。
语料库语言学常用术语
standardized type/token ratio 标准化类符/形符比 例如,计算每个文本每1000词的 TTR,均值处理,得出STTR
语料库语言学常用术语
Frequencies/occurences(频数,出
现次数) Frequency(频率) 例如每一百万词、十万词中,某单词的 出现次数 常常将某个单词在两个语料库中出现的频 率参照两个语料库的容量,用卡方检验 或对数似然率进行对比,来确定两个语 料库中的该单词的使用上是否有差异
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

10 公共语料库检索
小问题:
一种语言现象我们至少得收集多少条语料呢?
500 徐杰教授认为,语料多多益善,至少应收集
条。
大数定律(Law of Large Numbers): 指在随机试验中,每次出现的结果不同,但是大量重复
试验出现的结果的平均值却几乎总是接近于某个确定的值。
11 公共语料库检索
抽样与调查
9 公共语料库检索
国外18个知名英语语料库
10.LLC口语语料库: http://khnt.hit.uib.no/icame/manuals/ 11.COBUILD语料库:/Corpus/CorpusSearch.aspx 12.ICE东非等分库:/english-usage/ice/avail. htm 13.ARCHER语料库:/english/degree_programs. asp 14.CEECS语料库:http://www.eng.helsinki.fi/varieng/main/corporal.htm 15.SCTS语料库:http: /// 16.VOICE语料库:http: //www.univie.ac.at/Anglistik/voice/ 17.ELFA语料库:http: //www.uta.fi/laitokset/kielet/engf/research/elfa/ 18.朗曼语料库:http: ///dictionaries/corpus/index.html
40 个人语料库创建
熟语料库加工阶段
可以采用这个工具
双 击 打 开 软 件
41 个人语料库创建 熟语料库加工阶段
检 索 式 示 例
公共语料库的检索说明
——以BCC语料库为例
18 公共语料库检索
检 索 式 示 例
公共语料库的检索说明
——以BCC语料库为例
19 公共语料库检索
特 殊 含 义 符 号
公共语料库的检索说明
——以BCC语料库为例
20 公共语料库检索
特 殊 含 义 符 号
公共语料库的检索说明
——以BCC语料库为例

离散与连续

样本与总体
由收集验证到实证分析
需要学点统计学
频率与分布
估计与检验 描述与图示
置信区间 T检验
12 公共语料库检索
由收集验证到实证分析
需要学点统计学
集中趋势的特征数:
平均数、众数、中位数、调和平均数、几何平均数
变异程度的特征数:
极差、四分位差、平均差、方差、标准差
参数估计与假设检验
——以样本对总体的推断
3 语料库及其分类
第二节 公共语料库检索
4 公共语料库检索
统计频率

于 检
查找例句

验证分析
参 数
带着 问题

收集

证据
5 公共语料库检索
我国21个知名语料库
01.中央研究院近代汉语标记语料:.tw/Early_Mandarin/ 02.中央研究院汉籍电子文献:.tw/ftms-bin/ftmsw3 03.国家现代汉语语料库:http://124.207.106.21:8080/ 04.国家语委现代汉语语料库:/retrieval/index.html 05.树图数据库:.tw/ 06.语料库语言学在线: 07.北京大学CCL语料库:/Yuliao_Contents.Asp
“宏”
1、电脑、办公软件 2、语料的选取标准 3、语料库大小设定 4、已收好集的语料 5、采取txt格式保存
词性标记 句法标记 词义标记 篇章指代标记 韵律标记 ……
生语料库 加 工 标 注 熟语料库
39 个人语料库创建
熟语料库加工阶段
需要工具/材料: 1、电脑、办公软件 2、语料库加工工具 2、语料的选取标准 3、语料库大小设定 4、已存的生语料库 5、采取txt格式保存
常见语料库使用入门
——语言研究中的小技能get√
华中师范大学语言研究所2015级 秦志君
0 PPT模板下载:/moban/ 行业PPT模板:/hangye/
节日PPT模板:www.1p pt.co m/ jieri/
PPT素材下载:/sucai/
三个基本点:
1)呈钟形,形态如 左图; 2)两个参数,均值 和标准差; 3)图象大致表示: 平均数周围的属性 值在总体上占到大 多数。
14 公共语料库检索
公共语料库的检索说明
——以BCC语料库为例
仅输入 关键字
查找
关键字 特殊符号 搜索 检索式
进库检索
7 公共语料库检索
我国21个知名语料库
15.浙江师范大学的历史文献语库:/xueke/hyywzx/xkjj.htm 16.中科院计算所语料库:/corpus/query_process.php 17.中文语言资源联盟:/xyzy.htm 18.SKETCHENGINE多语言语料库: 19.LIVAC共时语料库:/ 20.红楼梦汉英平行语料库:/hongloumeng/ 21.北京语言大学BCC语料库:/
6 公共语料库检索
我国21个知名语料库
08.北京大学《人民日报》标注语料库: 09.北京语言大学的语料库:/kych/H.htm 10.清华大学TH-ACorpus:/ainlp/source.htm 11.山西大学语料库:/homepage/cslab/sxuc1.htm 12.台湾南岛语典藏:.tw/Formosan/ 13.闽南语典藏:.tw/ 14.香港城市大学LIVAC共时语料库:/search.php
8 公共语料库检索
国外18个知名英语语料库
01.国际英语语料库 (ICE):http: ///english-usage/ice/htm 02.美国国家语料库(ANC):/ 03.美国当代英语语料库(COCA):/ 04.美国近当代英语语料库(COHA):/coha/ 05.英国国家语料库(BNC):/bnc/ 06.柯林斯英语语料库(BOE):/wordbanks/ 07.英国英语语料库(SEU):http: ///english-usage/ 08.澳大利亚英语语料库(ACE):http: //khnt.hit.uib.no/icame/manuals/ 09.新规范语料库(NMC):http: ///
公共语料库的检索说明
——以BCC语料库为例
34 公共语料库检索
公共语料库的检索说明
——以BCC语料库为例






如果想对检索结果进一步筛选, 可以使用筛选功能,对检索结

果进一步剔除或者仅仅保留符
合筛选检索式的实例。
35 公共语料库检索
下 载
高 级 设 置
公共语料库的检索说明
——以BCC语料库为例
PPT背景图片:/beijing/ PPT图表下载:/tubiao/
优秀PPT下载:www.1p pt.co m/ xiazai/
PPT教程: /powerpoint/
Word教程: /word/
Excel教程:www.1ppt.c om/excel/
36 公共语料库检索
句 法 树
公共语料库的检索说明
——以BCC语料库为例
37 公共语料库检索
注意检索格式 依据调查需要 学点儿统计学 多摸索多使用 设置调查项目 学点编程语言
第三节 个人语料库创建
38 个人语料库创建
材料/工具准备阶段
若只是要词频数据, 则生语料库足够, word/wps或txt记事本 都可以建立word/wps 的“查找替换”工具即可, txt记事本的“编辑-查找” 工具也行。
公共语料库的检索说明
——以BCC语料库为例
统 计
16 公共语料库检索
公共语料库的检索说明
——以BCC语料库为例
检索式说明
检索式可以是字串、词串、词性的组合而成的查询模式。 例如:如果检索“我想吃”后面紧接着一个名词的语言实例,检索式为: 我想吃n,这里 n 是词性符号,表示名词。
17 公共语料库检索
——以BCC语料库为例
构 式
30 公共语料库检索
自 定 义 搜 索
公共语料库的检索说明
——以BCC语料库为例
31 公共语料库检索
检 索 结 果
公共语料库的检索说明
——以BCC语料库为例
32 公共语料库检索
历 时 检 测
公共语料库的检索说明
——以BCC语料库为例
33 公共语料库检索
检 索 统 计
一般步骤
(1)明确问题 (2)收集信息 (3)提出假设 (4)构建模型 (5)模型求解 (6)分析检测
13 公共语料库检索
由收集验证到实证分析
需要学点统计学
正态分布
在自然现象和社会现象中,大量的随机变量都服从或近似地服从正 态分布。大部分参数检验,比如t检验,方差分析,回归分析等, 要求数据符合正态分布。
主要部分
第一节 第二节 第三节
语料库及其分类 公共语料库检索 个人语料库创建
第一节 语料库及其分类
1 语料库及其分类
语料库(corpus):存放语言材 料的仓库。
现代的语料库是指存放在计算 机里的原始语料文本或经过加 工后带有语言学信息标注的语 料文本的汇集。
三点基本认识:
A.必须是实际使用中真实出现 过的语言材料;
资料下载:www. 1ppt.co m/zilia o/
PPT课件下载:www.1p pt.co m/ kejian/
范文下载:www. 1ppt.co m/fan wen/
试卷下载:www.1ppt.c om/shiti /
教案下载:www. 1ppt.co m/jiao an/
PPT论坛:www.1ppt .cn
相关文档
最新文档