语料库课程(一)笔记解析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
般不在其它话题中出现
因此
某个特定话题的文本包含的独特词群具有异常 高频
参照语料库代表了某一类型语言运用的常态 对比两个词表,可以提取那些超常高频的词群
比什么:条件控制
控制相似变量 突出差异焦点
描述
观察文本 具有明确主题的完整文本或一致主题的文本集
参照语料库 具有足够的代表性 足够大 同质语料
replace
e.g.replace:空格1不填,空格2填 ST$,出现从1开始排序的新文件名。
3. 文本清理,元信息标记、语言学标记
8.1下午
(三)梁茂成 语料库的标注
标注与干净文本原则 标注的常见类型 词性标注 手工标注
标注与干净文本原则
标注(annotation): The process of applying additional information to corpus data.
④ context
二、为什么要研究语料库语言学
1)使语言学研究更具科学性 2)可验证,不是玩具 3)大数据,更具说服力 4)enables you to look at a lot of language at once
8.1上午
(二)李文中
Brown-Raw 语料库范例 Span 跨距 (KWIC,一般左5右5) 检索排序(sort),以necessarily为例,观 察得出结论:经常与not连用。
主题词表 观察文本 参照语料库
8.2上午
(三) 许家金
语料库三大功能 1. concordance 索引 2. N-gram 词表 3. 主题词表
Aspects of LT methodology
语言观 语言学习观 教学实施方案
两大教学法之一:听说法
语言观:结构主义 (音标、词汇等构成的)
8.1上午
(三)许家金
PowerConc设计原则 most powerful least effort doing more with less
基本操作
N-gram list:n词词表 Hits:相当于 Token概念 Items:相当于Type概念 Size:包括单词、符号、数字 Filter mode:过滤掉不需要的
论溯源与反思,《中国外语教育》(4):3845.
基本观点
词汇中心教学法坚持以词项(lexis)单词短 语结构为基本单位的语言观;重视频率在大缸 设计及教学中的作用;词汇中心教学法本质上 采取的是交际法,它强调将词项置于真实语言 素材中,并贯穿于真实任务中加以学习。同时 提倡学生自主的发现式学习。
2) Action type collect data, 并勾选Dot matches newlines 3) search:输入 (^\A.*?\z) ,需在英语状态下输入。
collect:输入 $1($指向括号,1代表第一个括号)
4) Target file creation 选择 save one file for each searched file Target file location 选择刚才新建文件夹referencecorpus Target file text encoding 选择 Windows936,即ANSI Back file naming style 选择 no backups
标记(mark-up)与标注
Sinclair和他的clean text policy (Sinclair认为语料库语言学应摒弃旧理论一切重来)
语料库语言学界对标注的态度(大部分研究者认为应该标 注),世界最大的语料库Bank of English可以进行词类检 索。
标注的主题
1. 人工标注 (Brown语料库) 2. 机器标注(准确率97-98%)
语言学习观:行为主义 (行为主义)
教学实施方案:句型操练
两大教学法之二:交际法
语言观:功能主义 语言学习观:交际与互动 教学实施方案:任务教学、小组活动
What and how
教什么 怎么教
词汇中心教学法
The Lexical Approach 许家金,2009,词汇中心教学法的交际观:理
8.2上午
(二)李文中 主题词分析
分析文本时注意备份,把需分析的语料放入 新建的文件夹中。
练习:使用语料: 04Academic/4Genres_RAW/Four_Genres/01 _General_corpora/Data
1. 创建2个对比文件夹,用PowerGREP转换 格式,并把text放入这2个文件夹
<by value>: datamin10, 即过滤掉频率<10的词 <by Regex>: I\S+|C\S+表示介词+连词 √ exclude 表排除
不勾选表示选中 “Save distribution” 保存分布信息,即按文本单独保存。
8.1下午
(一)李文中
1. 标注信息的添加与使用
e.g. 用PowerConc检索 dataleanerseccl 问题:男生与女生在口语中使用情态动词有无差异
Words cluster as people do
e.g. ห้องสมุดไป่ตู้earch: no attempt 用法 Regex: \bno\b\s\battempts?(ed/ing)\b 观察collocation and co-occurrence
作业:hair: 单数与复数的隐喻 body metaphor
Why concordancing? 上下看强形式搭配,左右看综合分析用法。
基本概念 type (独特词形),token,KW/SW/Node word span (一个span可视作一个mini text) collocates (观察从collocationcolligationsemantic meaning) cotext, context, co-occurrence(同现),recurrence(复现)
8.2上午
(一)梁茂成 手工标注
1)自动标注 TreeTagger
word_Pos word-Pos_Lemma(原形)
2) 手工标注: BFSU Qualitative Coder
语料库的手工标注
BFSU Qualitative Coder 1.1 1)根据codelist,修改制定需要的mycodelist 2)打开BFSU Qualitative Colder 3) 打开需标注的.txt文档,导入mycodelist,进 行手工标注 4)BFSU中可做统计(点statistics,跳出网页) 5)保存为.txt文档后,用powerconc检索分析, 如:检索<LIT> free hand</LIT>
得出结论: reporting verbs:
said told added
检索make,2-gram词表
make +adj
教学实施要点
真实语言材料,真实语境 频率优先原则(材料的编排与选择) 归纳式、发现式学习
5) 点击 collect 6) 回到新建文件夹referencecorpus查看,已有ANSI文档生成。
Step5 主题词表生成
1) 从referencecorpus中拷贝Text10到observeText文件夹中。 到此为止,人为做成两个用于练习的对比语料库。
2)生成主题词表
2)生成主题词表
语料库在外语教学研究中 的应用研修班
8.1-8.3
8.1上午
(一)梁茂成
一、基本概念
真正的研究要用语料库来验证结果 T’s ① Text (readable)
② Type 类符 ③ Token 形符 (语料库容量) C’s ① concordance 索引 ② collocation (词汇层面的搭配) ③ colligation (类联接)
出结果后,点击keyness,出现load Ref.wordlist,导入 academicOnewordlist, count ④自设主题词临界值,如前20词,按照by value进行比较。
理据
我们对真实世界的理解表达为知识 知识表现为不同的语义场 语义场表现为各种词语场 各种词语场实现为各个词群(单词或短语) 特定话题触发独特词群 具有特定话题的文本包含独特词群,该词群一
Caution: A tagset usually adheres to a particular decriptive …
词性标注
常见的词性标注工具 (POS-tagger) ANSI符号,_, / 1)Brill Tagger, 最早的词性标注,基于规则的 2)ClAWS,130多个代码,准确,但付费, Lancaster大学开发。 3)TreeTagger, 30多个代码,准确率高,免费, 能对多语言进行标注。
contrastive studies 3 建库准备
建库原则,文本收集,文本分类,文本处理, 标记(外部信息),标注(annotating notes, 语言学标注)
e.g. <Year>1990</Year><Sex>Male</sex>
8.1下午
(二)许家金 语料库采集与整理
1. 基本要素
① Text format: . txt ② Filename: short&alphanumeric(字母数字组
基本观点
然而,由于过分依赖频率信息,语言观和语言 教学完全基于词项,将词汇中心教学法嫁接于 任务型教学且缺乏创新,归纳式的自主。。。
实例演示
新闻英语教学设计 以新闻英语常用动词教学设计为例 powerConc with China Daily Political new 2011
Step1 打开Sub-corpus creator,导入seccel(只能导入 单个文件夹),显示文本文件,勾选case sensitive(区 分大小写),file contains “T1=”,获得男生/女生文本,保 存生成子库。
Step2 用PowerConc对两个子库进行比较。
2 趋势
small & specific
① 打开PowerConc, 导入referencecorpus进行N-gram统计, 结果save到PowerConc根目录下,命名为 academicOnewordlist.
② 打开academicOnewordlist, 删除前4行,保存。 ③ 再打开PowerConc,导入observetext,N-gram,count,
标注的客体
1. 语音与音调的标注 2. 词性标注(part-of-speech tagging) 3. 句法标注(parsing,斯坦福大学做的较好) 4. 语义标注(semantic tagging) 5. 错误标注(error tagging 学习者语言,人工) 6. 停顿标注等。。。
标注的常见类型
标注必须基于科学、合理的分类体系 1. 与研究目的相关 2. 分类的穷尽性 3. 各子类不应该相互重叠 4. 关于“其他”类(应该是最小类)
标注的常见类型
标注集/赋码集(tagset)是标注中所使用的代 码集,是对分类体系的操作化。
Tagset: A collection of tags (or coldes) in a tagging scheme.
合,不超过8词,不用汉字,不出现空格) ③ encoding ANSI:英语,汉语
三种格式: UTF8:平行语料库 Unicode:其他语言
④ versions of corpora: RAW, POS, with metadata
2. 批量文件名修改
insert
SuperbBatchRenamer
Step1:新建文件夹1:observeText 新建文件夹2:referenceCorpus
Step2:安装PowerGREP Step3: 设置PowerGREP (preferencegeneral,勾选1、2空格)
Step4: 格式转换(UTF-8转换成ANSI):
1) 找到04Academic,单击右键,出现search with PowerGREP(若有子文件,选第search subfolders)
因此
某个特定话题的文本包含的独特词群具有异常 高频
参照语料库代表了某一类型语言运用的常态 对比两个词表,可以提取那些超常高频的词群
比什么:条件控制
控制相似变量 突出差异焦点
描述
观察文本 具有明确主题的完整文本或一致主题的文本集
参照语料库 具有足够的代表性 足够大 同质语料
replace
e.g.replace:空格1不填,空格2填 ST$,出现从1开始排序的新文件名。
3. 文本清理,元信息标记、语言学标记
8.1下午
(三)梁茂成 语料库的标注
标注与干净文本原则 标注的常见类型 词性标注 手工标注
标注与干净文本原则
标注(annotation): The process of applying additional information to corpus data.
④ context
二、为什么要研究语料库语言学
1)使语言学研究更具科学性 2)可验证,不是玩具 3)大数据,更具说服力 4)enables you to look at a lot of language at once
8.1上午
(二)李文中
Brown-Raw 语料库范例 Span 跨距 (KWIC,一般左5右5) 检索排序(sort),以necessarily为例,观 察得出结论:经常与not连用。
主题词表 观察文本 参照语料库
8.2上午
(三) 许家金
语料库三大功能 1. concordance 索引 2. N-gram 词表 3. 主题词表
Aspects of LT methodology
语言观 语言学习观 教学实施方案
两大教学法之一:听说法
语言观:结构主义 (音标、词汇等构成的)
8.1上午
(三)许家金
PowerConc设计原则 most powerful least effort doing more with less
基本操作
N-gram list:n词词表 Hits:相当于 Token概念 Items:相当于Type概念 Size:包括单词、符号、数字 Filter mode:过滤掉不需要的
论溯源与反思,《中国外语教育》(4):3845.
基本观点
词汇中心教学法坚持以词项(lexis)单词短 语结构为基本单位的语言观;重视频率在大缸 设计及教学中的作用;词汇中心教学法本质上 采取的是交际法,它强调将词项置于真实语言 素材中,并贯穿于真实任务中加以学习。同时 提倡学生自主的发现式学习。
2) Action type collect data, 并勾选Dot matches newlines 3) search:输入 (^\A.*?\z) ,需在英语状态下输入。
collect:输入 $1($指向括号,1代表第一个括号)
4) Target file creation 选择 save one file for each searched file Target file location 选择刚才新建文件夹referencecorpus Target file text encoding 选择 Windows936,即ANSI Back file naming style 选择 no backups
标记(mark-up)与标注
Sinclair和他的clean text policy (Sinclair认为语料库语言学应摒弃旧理论一切重来)
语料库语言学界对标注的态度(大部分研究者认为应该标 注),世界最大的语料库Bank of English可以进行词类检 索。
标注的主题
1. 人工标注 (Brown语料库) 2. 机器标注(准确率97-98%)
语言学习观:行为主义 (行为主义)
教学实施方案:句型操练
两大教学法之二:交际法
语言观:功能主义 语言学习观:交际与互动 教学实施方案:任务教学、小组活动
What and how
教什么 怎么教
词汇中心教学法
The Lexical Approach 许家金,2009,词汇中心教学法的交际观:理
8.2上午
(二)李文中 主题词分析
分析文本时注意备份,把需分析的语料放入 新建的文件夹中。
练习:使用语料: 04Academic/4Genres_RAW/Four_Genres/01 _General_corpora/Data
1. 创建2个对比文件夹,用PowerGREP转换 格式,并把text放入这2个文件夹
<by value>: datamin10, 即过滤掉频率<10的词 <by Regex>: I\S+|C\S+表示介词+连词 √ exclude 表排除
不勾选表示选中 “Save distribution” 保存分布信息,即按文本单独保存。
8.1下午
(一)李文中
1. 标注信息的添加与使用
e.g. 用PowerConc检索 dataleanerseccl 问题:男生与女生在口语中使用情态动词有无差异
Words cluster as people do
e.g. ห้องสมุดไป่ตู้earch: no attempt 用法 Regex: \bno\b\s\battempts?(ed/ing)\b 观察collocation and co-occurrence
作业:hair: 单数与复数的隐喻 body metaphor
Why concordancing? 上下看强形式搭配,左右看综合分析用法。
基本概念 type (独特词形),token,KW/SW/Node word span (一个span可视作一个mini text) collocates (观察从collocationcolligationsemantic meaning) cotext, context, co-occurrence(同现),recurrence(复现)
8.2上午
(一)梁茂成 手工标注
1)自动标注 TreeTagger
word_Pos word-Pos_Lemma(原形)
2) 手工标注: BFSU Qualitative Coder
语料库的手工标注
BFSU Qualitative Coder 1.1 1)根据codelist,修改制定需要的mycodelist 2)打开BFSU Qualitative Colder 3) 打开需标注的.txt文档,导入mycodelist,进 行手工标注 4)BFSU中可做统计(点statistics,跳出网页) 5)保存为.txt文档后,用powerconc检索分析, 如:检索<LIT> free hand</LIT>
得出结论: reporting verbs:
said told added
检索make,2-gram词表
make +adj
教学实施要点
真实语言材料,真实语境 频率优先原则(材料的编排与选择) 归纳式、发现式学习
5) 点击 collect 6) 回到新建文件夹referencecorpus查看,已有ANSI文档生成。
Step5 主题词表生成
1) 从referencecorpus中拷贝Text10到observeText文件夹中。 到此为止,人为做成两个用于练习的对比语料库。
2)生成主题词表
2)生成主题词表
语料库在外语教学研究中 的应用研修班
8.1-8.3
8.1上午
(一)梁茂成
一、基本概念
真正的研究要用语料库来验证结果 T’s ① Text (readable)
② Type 类符 ③ Token 形符 (语料库容量) C’s ① concordance 索引 ② collocation (词汇层面的搭配) ③ colligation (类联接)
出结果后,点击keyness,出现load Ref.wordlist,导入 academicOnewordlist, count ④自设主题词临界值,如前20词,按照by value进行比较。
理据
我们对真实世界的理解表达为知识 知识表现为不同的语义场 语义场表现为各种词语场 各种词语场实现为各个词群(单词或短语) 特定话题触发独特词群 具有特定话题的文本包含独特词群,该词群一
Caution: A tagset usually adheres to a particular decriptive …
词性标注
常见的词性标注工具 (POS-tagger) ANSI符号,_, / 1)Brill Tagger, 最早的词性标注,基于规则的 2)ClAWS,130多个代码,准确,但付费, Lancaster大学开发。 3)TreeTagger, 30多个代码,准确率高,免费, 能对多语言进行标注。
contrastive studies 3 建库准备
建库原则,文本收集,文本分类,文本处理, 标记(外部信息),标注(annotating notes, 语言学标注)
e.g. <Year>1990</Year><Sex>Male</sex>
8.1下午
(二)许家金 语料库采集与整理
1. 基本要素
① Text format: . txt ② Filename: short&alphanumeric(字母数字组
基本观点
然而,由于过分依赖频率信息,语言观和语言 教学完全基于词项,将词汇中心教学法嫁接于 任务型教学且缺乏创新,归纳式的自主。。。
实例演示
新闻英语教学设计 以新闻英语常用动词教学设计为例 powerConc with China Daily Political new 2011
Step1 打开Sub-corpus creator,导入seccel(只能导入 单个文件夹),显示文本文件,勾选case sensitive(区 分大小写),file contains “T1=”,获得男生/女生文本,保 存生成子库。
Step2 用PowerConc对两个子库进行比较。
2 趋势
small & specific
① 打开PowerConc, 导入referencecorpus进行N-gram统计, 结果save到PowerConc根目录下,命名为 academicOnewordlist.
② 打开academicOnewordlist, 删除前4行,保存。 ③ 再打开PowerConc,导入observetext,N-gram,count,
标注的客体
1. 语音与音调的标注 2. 词性标注(part-of-speech tagging) 3. 句法标注(parsing,斯坦福大学做的较好) 4. 语义标注(semantic tagging) 5. 错误标注(error tagging 学习者语言,人工) 6. 停顿标注等。。。
标注的常见类型
标注必须基于科学、合理的分类体系 1. 与研究目的相关 2. 分类的穷尽性 3. 各子类不应该相互重叠 4. 关于“其他”类(应该是最小类)
标注的常见类型
标注集/赋码集(tagset)是标注中所使用的代 码集,是对分类体系的操作化。
Tagset: A collection of tags (or coldes) in a tagging scheme.
合,不超过8词,不用汉字,不出现空格) ③ encoding ANSI:英语,汉语
三种格式: UTF8:平行语料库 Unicode:其他语言
④ versions of corpora: RAW, POS, with metadata
2. 批量文件名修改
insert
SuperbBatchRenamer
Step1:新建文件夹1:observeText 新建文件夹2:referenceCorpus
Step2:安装PowerGREP Step3: 设置PowerGREP (preferencegeneral,勾选1、2空格)
Step4: 格式转换(UTF-8转换成ANSI):
1) 找到04Academic,单击右键,出现search with PowerGREP(若有子文件,选第search subfolders)