建立自己的语料库
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
设计阶段: 文本分类及标注方案
Without metadata, corpus linguistics would be virtually impossible (Burnard, 2004).
确定文本分类标准
外部标准
语料库识别信息:名称、生产者、发行者、 语料库识别信息:名称、生产者、发行者、建库 日期等 语料库派生信息:语料来源、语料状态、 语料库派生信息:语料来源、语料状态、语料目 标
确定标注方案和标记语言
标注的定义 分类信息及结构信息的编码 制定码集(tagset) 制定码集(tagset) 选择标记语言: 选择标记语言:Html, XML (see sample Tempest; files) Tempest; BNC files) 观察与评价:CLEC的头部信息及错误附码 观察与评价:CLEC的头部信息及错误附码
设计阶段: 文本分类及标注方案
内部标准
主题(topic) 主题(topic) 样式(style):正式程度、准备、交际分组、 ):正式程度 样式(style):正式程度、准备、交际分组、 交际方向 标题 段落 句子 EAGLES) 其它元素 (See demo: EAGLES)
文本结构信息
设计阶段: 文本分类及标注方案
建设自己的田野语料库 (Construct your own field corpus)
-- Make your own corpus and make the corpus your own 李文中
定义:田野语料库
教师在语言教学和学习环境中,为观察和 描述具体现象和难题,并通过行动研究寻 求解决难题方案和途径而建设的小型语料 库 田野语料库是一种专用语料库
准备阶段: 确定设计原则 --with reference to J. Sinclair
确定样本的语言取向
教学设计、难题解决、教学话语分析、 教学设计、难题解决、教学话语分析、评价
确定抽样标准
文本模式
口语 笔语 电子
文本来源
教材、讲义、课堂英语、 教材、讲义、课堂英语、其它材料 学生语言输出:作业、写作、日记、 学生语言输出:作业、写作、日记、论文等
文本录入及整理
执行阶段: 收集文本的工作流程
团队的分工与管理 工作计划 实施
完成阶段:应用与开发
开源语料库 新语料的补充 应用研究 软件开发及应用 资源共享
其它原则
一个文件一篇文本 文件夹结构反映文本分类信息 建立语料库档案(documentation) 手工附码与机助附码:a demo
执行阶段: 收集文本的工作流程
抽样范围和方法
样本数量和覆盖面 随机抽样 样本的平衡 工具:电子文本拷贝、扫描与识别、 工具:电子文本拷贝、扫描与识别、人工录入 文本整理 文本校对 标注信息插入:批量/ 标注信息插入:批量/人工
准备阶段: 确ቤተ መጻሕፍቲ ባይዱ设计原则
文本域:学术的、 文本域:学术的、非学术的 语言类型:教学输入、教师语言、 语言类型:教学输入、教师语言、学习者语言 文本产生位置:校园、 文本产生位置:校园、远程等 文本产生日期
准备阶段: 确定设计原则
确定样本的性质和维度
按交际功能选择内容 尽可能具有代表性 针对研究目的设计语料库的结构 语料库结构标准应简洁、独立、 语料库结构标准应简洁、独立、具有区分性 分离文本信息与文本本身 收集完整文本