语料库术语汇编
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
语料库术语汇编
语料库术语汇编:
Aboutness 所言之事
Absolute frequency 绝对频数
Alignment (of parallel texts) (平行或对应)语料的对齐
Alphanumeric 字母数字类的
Annotate 标注(动词)
Annotation 标注(名词)
Annotation scheme 标注方案
ANSI/American National Standards Institute 美国国家标准学会
ASCII/American Standard Code for Information Exchange 美国信息交换标准码Associate (of keywords) (主题词的)联想词
A WL/Academic word list 学术词表
Balanced corpus 平衡语料库
Base list 底表、基础词表
Bigram 二元组、二元序列、二元结构
Bi-hapax 两次词
Bilingual corpus 双语语料库
CA/Contrastive Analysis 对比分析
Case-sensitive 大小写敏感、区分大小写
Chi-square (χ2) test 卡方检验
Chunk 词块
CIA/Contrastive Interlanguage Analysis 中介语对比分析
CLA WS/Constituent Likelihood Automatic Word-tagging System CLA WS词性赋码系统Clean text policy 干净文本原则Cluster 词簇、词丛
Colligation 类联接、类连接、类联结
Collocate n./v. 搭配词;搭配
Collocability 搭配强度、搭配力
Collocation 搭配、词语搭配
Collocational strength 搭配强度
Collocational framework/frame 搭配框架
Comparable corpora 类比语料库、可比语料库
ConcGram 同现词列、框合结构
Concordance (line) 索引(行)
Concordance plot (索引)词图
Concordancer 索引工具
Concordancing 索引生成、索引分析
Context 语境、上下文
Context word 语境词
Contingency table 连列表、联列表、列连表、列联表
Co-occurrence/Co-occurring 共现
Corpora 语料库(复数)
Corpus Linguistics 语料库语言学
Corpus 语料库
Corpus-based 基于语料库的
Corpus-driven 语料库驱动的
Corpus-informed 语料库指导的、参考了语料库的
Co-select/Co-selection/Co-selectiveness 共选(机制)
Co-text 共文
DDL/Data Driven Learning 数据驱动学习
Diachronic corpus 历时语料库
Discourse 话语、语篇
Discourse prosody 话语韵律
Documentation 备检文件、文检报告
EAGLES/Expert Advisory Groups on Language Engineering Standards EAGLES文本规格embedded annotation 嵌入式标注Empirical Linguistics 实证语言学
Empiricism 经验主义
Encoding 字符编码
Error-tagging 错误标注、错误赋码
Extended unit of meaning 扩展意义单位
File-based search/concordancing 批量检索
Formulaic sequence 程式化序列
Frequency 频数、频率
General (purpose) corpus 通用语料库
Granularity 颗粒度
Hapax legomenon/hapax 一次词
Header/Text head 文本头、头标、头文件
HMM/Hidden Markov Model 隐马尔科夫模型
Idiom Principle 习语原则
Index/Indexing (建)索引
In-line annotation 文内标注、行内标注
Key keyword 关键主题词
Keyness 主题性、关键性
Keyword 主题词
KWIC/Key Word in Context 语境中的关键词、语境共现(方式)Learner corpus 学习者语料库
Lemma 词目、原形词、词元
Lemma list 词形还原对应表
Lemmata 词目、原形词、词元(复数)
Lemmatization 词形还原、词元化
Lemmatizer 词形还原(词元化)工具
Lexical bundle 词束
Lexical density 词汇密度
Lexical item 词项、词语项目
Lexical priming 词汇触发理论
Lexical richness 词汇丰富度
Lexico-grammar/Lexical grammar 词汇语法
Lexis 词语、词项
LL/Log likelihood (ratio) 对数似然比、对数似然率
Longitudinal/Developmental corpus 跟踪语料库、发展语料库、历时语料库Machine-readable 机读的
Markup 标记、置标
MDA/Multi-dimensional approach 多维度分析法
Metadata 元信息
Meta-metadata 元元信息
MF/MD (Multi-feature/Multi-dimensional) approach 多特征/多维度分析法Mini-text 微型文本
Misuse 误用
Monitor corpus (动态)监察语料库
Monolingual corpus 单语语料库
Multilingual corpus 多语语料库
Multimodal corpus 多模态语料库
MWU/Multiword unit 多词单位
MWE/Multiword expression 多词单位
MI/Mutual information 互信息、互现信息
N-gram N元组、N元序列、N元结构、N元词、多词序列
NLP/Natural Language Processing 自然语言处理
Node 节点(词)
Normalization 标准化
Normalized frequency 标准化频率、标称频率、归一频率
Observed corpus 观察语料库
Ontology 知识本体、本体
Open Choice Principle 开放选择原则
Overuse 超用、过多使用、使用过度、过度使用
Paradigmatic 纵聚合(关系)的
Parallel corpus 平行语料库、对应语料库
Parole linguistics 言语语言学
Parsed corpus 句法标注的语料库
Parser 句法分析器
Parsing 句法分析
Pattern/patterning 型式
Pattern grammar 型式语法
Pedagogic corpus 教学语料库
Phraseology 短语、短语学
POSgram 赋码序列、码串
POS tagging/Part-of-Speech tagging 词性赋码、词性标注、词性附码POS tagger 词性赋码器、词性赋码工具
Prefab 预制语块
Probabilistic (基于)概率的、概率性的、盖然的
Probability 概率
Rationalism 理性主义
Raw text/Raw corpus 生文本(语料)
Reference corpus 参照语料库
Regex/RE/RegExp/Regular Expressions 正则表达式
Register variation 语域变异
Relative frequency 相对频率
Representative/Representativeness 代表性(的)
Rule-based 基于规则的
Sample n./v. 样本;取样、采样、抽样
Sampling 取样、采样、抽样
Search term 检索项
Search word 检索词
Segmentation 切分、分词
Semantic preference 语义倾向
Semantic prosody 语义韵
SGML/Standard Generalized Markup Language 标准通用标记
语言
Skipgram 跨词序列、跨词结构
Span 跨距
Special purpose corpus 专用语料库、专门用途语料库、专题语料库
Specialized corpus 专用语料库
Standardized TTR/Standardized type-token ratio 标准化类符/形符比、标准化类/形比、标准化型次比
Stand-off annotation 分离式标注
Stop list 停用词表、过滤词表
Stop word 停用词、过滤词
Synchronic corpus 共时语料库
Syntagmatic 横组合(关系)的
Tag 标记、码、标注码
Tagger 赋码器、赋码工具、标注工具
Tagging 赋码、标注、附码
Tag sequence 赋码序列、码串
Tagset 赋码集、码集
Text 文本
TEI/Text Encoding Initiative 文本编码计划
The Lexical Approach 词汇中心教学法
The Lexical Syllabus 词汇大纲
Token 形符、词次
Token definition 形符界定、单词界定
Tokenization 分词
Tokenizer 分词工具
Transcription 转写
Translational corpus 翻译语料库
Treebank 树库
Trigram 三元组、三元序列、三元结构
T-score T值
Type 类符、词型
TTR/Type-token ratio 类符/形符比、类/形比、型次比Underuse 少用、使用不足
Unicode 通用码
Unit of meaning 意义单位
WaC/Web as Corpus 网络语料库
Wildcard 通配符
Word definition 单词界定
Word form 词形
Word family 词族
Word list 词表
XML/EXtensible Markup Language 可扩展标记语言Zipf's Law 齐夫定律
Z-score Z值。