语料库语言学术语集
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Wildcard
通配符
Word definition
单词界定
Word form
词形
Word family
词族
Word list
词表
XML/EXtensible Markup Language
可扩展标记语言
Zipf's Law
齐夫定律
Z-score
Z值
词汇触发理论
Lexical richness
词汇丰富度
Lexico-grammar/Lexical grammar
词汇语法
Lexis
词语、词项
LL/Log likelihood (ratio)
对数似然比、对数似然率
Longitudinal/Developmental corpus
跟踪语料库、发展语料库、历时语料库
底表、基础词表
Bigram
二元组、二元序列、二元结构
Bi-hapax
两次词
Bilingual corpus
双语语料库
CA/Contrastive Analysis
对比分析
Case-sensitive
大小写敏感、区分大小写
Chi-square (χ2) test
卡方检验
Chunk
词块
CIA/Contrastive Interlanguage Analysis
Observed corpus
观察语料库
Ontology
知识本体、本体
Open Choice Principle
开放选择原则
Overuse
超用、过多使用、使用过度、过度使用
Paradigmatic
纵聚合(关系)的
Parallel corpus
平行语料库、对应语料库
Parole linguistics
共现
Corpora
语料库(复数)
Corpus Linguistics
语料库语言学
Corpus
语料库
Corpus-based
基于语料库的
Corpus-driven
语料库驱动的
Corpus-informed
语料库指导的、参考了语料库的
Co-select/Co-selection/Co-selectiveness
正则表达式
Register variation
语域变异
Relative frequency
相对频率
Representative/Representativeness
代表性(的)
Rule-based
基于规则的
Samplen./v.
样本;取样、采样、抽样
Sampling
取样、采样、抽样
Search term
Machine-readable
机读的
Markup
标记、置标
MDA/Multi-dimensional approach
多维度分析法
Metadata
元信息
Meta-metadata
元元信息
MF/MD (Multi-feature/Multi-dimensional) approach
多特征/多维度分析法
文本编码计划
The Lexical Approach
词汇中心教学法
The Lexical Syllabus
词汇大纲
Token
形符、词次
Token definition
形符界定、单词界定
Tokenization
分词
Tokenizer
分词工具
Transcription
转写
Translational corpus
多词单位
MI/Mutual information
互信息、互现信息
N-gram
N元组、N元序列、N元结构、N元词、多词序列
NLP/Natural Language Processing
自然语言处理
Node
节点(词)
Normalization
标准化
Normalized frequency
标准化频率、标称频率、归一频率
检索项
Search word
检索词
Segmentation
切分、分词
Semantic preference
语义倾向
Semantic prosody
语义韵
SGML/Standard Generalized Markup Language
标准通用标记语言
Skipgram
跨词序列、跨词结构
Span
跨距
Special purpose corpus
Stop word
停用词、过滤词
Synchronic corpus
共时语料库
Syntagmatic
横组合(关系)的
Tag
标记、码、标注码
Tagger
赋码器、赋码工具、标注工具
Tagging
赋码、标注、附码
Tag sequence
赋码序列、码串
Tagset
赋码集、码集
Text
文本
TEI/Text Encoding Initiative
索引(行)
Concordance plot
(索引)词图
Concordancer
索引工具
Concordancing
索引生成、索引分析
Context
语境、上下文
Context word
语境词
Contingency table
连列表、联列表、列连表、列联表
Co-occurrence/Co-occurring
共选(机制)
Co-text
共文
DDL/Data Driven Learning
数据驱动学习
Diachronic corpus
历时语料库
Discourse
话语、语篇
Discourse prosody
话语韵律
Documentation
备检文件、文检报告
EAGLES/Expert Advisory Groups on Language Engineering Standards
Lemma
词目、原形词、词元
Lemma list
词形还原对应表
Lemmata
词目、原形词、词元(复数)
Lemmatization
词形还原、词元化
Lemmatizer
词形还原(词元化)工具
Lexical bundle
词束
Lexical density
词汇密度
Lexical item
词项、词语项目
Lexical priming
程式化序列
Frequency
频数、频率
General (purpose) corpus
通用语料库
Granularity
颗粒度
Hapax legomenon/hapax
一次词
Header/Text head
文本头、头标、头文件
HMM/Hidden Markov Model
隐马尔科夫模型
Idiom Principle
专用语料库、专门用途语料库、专题语料库
Specialized corpus
专用语料库
Standardized TTR/Standardized type-token ratio
标准化类符/形符比、标准化类/形比、标准化型次比
Stand-off annotation
分离式标注
Stop list
停用词表、过滤词表
Mini-text
微型文本
Misuse
误用
Monitor corpus
(动态)监察语料库
Monolingual corpus
单语语料库
Multilingual corpus
多语语料库
Multimodal corpus
多模态语料库
MWU/Multiword unit
多词单位
MWE/Multiword expression
Collocability
搭配强度、搭配力
Collocation
搭配、词语搭配
Collocational strength
搭配强度
Collocational framework/frame
搭配框架
Comparable corpora
Leabharlann Baidu类比语料库、可比语料库
ConcGram
同现词列、框合结构
Concordance (line)
美国国家标准学会
ASCII/American Standard Code for Information Exchange
美国信息交换标准码
Associate(of keywords)
(主题词的)联想词
AWL/Academic word list
学术词表
Balanced corpus
平衡语料库
Base list
习语原则
Index/Indexing
(建)索引
In-line annotation
文内标注、行内标注
Key keyword
关键主题词
Keyness
主题性、关键性
Keyword
主题词
KWIC/Key Word in Context
语境中的关键词、语境共现(方式)
Learner corpus
学习者语料库
词性赋码、词性标注、词性附码
POS tagger
词性赋码器、词性赋码工具
Prefab
预制语块
Probabilistic
(基于)概率的、概率性的、盖然的
Probability
概率
Rationalism
理性主义
Raw text/Rawcorpus
生文本(语料)
Reference corpus
参照语料库
Regex/RE/RegExp/Regular Expressions
中介语对比分析
CLAWS/Constituent Likelihood Automatic Word-tagging System
CLAWS词性赋码系统
Clean text policy
干净文本原则
Cluster
词簇、词丛
Colligation
类联接、类连接、类联结
Collocaten./v.
搭配词;搭配
Absolute frequency
绝对频数
Alignment (of parallel texts)
(平行或对应)语料的对齐
Alphanumeric
字母数字类的
Annotate
标注(动词)
Annotation
标注(名词)
Annotation scheme
标注方案
ANSI/American National Standards Institute
EAGLES文本规格
Empirical Linguistics
实证语言学
Empiricism
经验主义
Encoding
字符编码
Error-tagging
错误标注、错误赋码
Extended unit of meaning
扩展意义单位
File-based search/concordancing
批量检索
Formulaic sequence
言语语言学
Parsed corpus
句法标注的语料库
Parser
句法分析器
Parsing
句法分析
Pattern/patterning
型式
Pattern grammar
型式语法
Pedagogic corpus
教学语料库
Phraseology
短语、短语学
POSgram
赋码序列、码串
POS tagging/Part-of-Speech tagging
翻译语料库
Treebank
树库
Trigram
三元组、三元序列、三元结构
T-score
T值
Type
类符、词型
TTR/Type-token ratio
类符/形符比、类/形比、型次比
Underuse
少用、使用不足
Unicode
通用码
Unit of meaning
意义单位
WaC/Web as Corpus
网络语料库
通配符
Word definition
单词界定
Word form
词形
Word family
词族
Word list
词表
XML/EXtensible Markup Language
可扩展标记语言
Zipf's Law
齐夫定律
Z-score
Z值
词汇触发理论
Lexical richness
词汇丰富度
Lexico-grammar/Lexical grammar
词汇语法
Lexis
词语、词项
LL/Log likelihood (ratio)
对数似然比、对数似然率
Longitudinal/Developmental corpus
跟踪语料库、发展语料库、历时语料库
底表、基础词表
Bigram
二元组、二元序列、二元结构
Bi-hapax
两次词
Bilingual corpus
双语语料库
CA/Contrastive Analysis
对比分析
Case-sensitive
大小写敏感、区分大小写
Chi-square (χ2) test
卡方检验
Chunk
词块
CIA/Contrastive Interlanguage Analysis
Observed corpus
观察语料库
Ontology
知识本体、本体
Open Choice Principle
开放选择原则
Overuse
超用、过多使用、使用过度、过度使用
Paradigmatic
纵聚合(关系)的
Parallel corpus
平行语料库、对应语料库
Parole linguistics
共现
Corpora
语料库(复数)
Corpus Linguistics
语料库语言学
Corpus
语料库
Corpus-based
基于语料库的
Corpus-driven
语料库驱动的
Corpus-informed
语料库指导的、参考了语料库的
Co-select/Co-selection/Co-selectiveness
正则表达式
Register variation
语域变异
Relative frequency
相对频率
Representative/Representativeness
代表性(的)
Rule-based
基于规则的
Samplen./v.
样本;取样、采样、抽样
Sampling
取样、采样、抽样
Search term
Machine-readable
机读的
Markup
标记、置标
MDA/Multi-dimensional approach
多维度分析法
Metadata
元信息
Meta-metadata
元元信息
MF/MD (Multi-feature/Multi-dimensional) approach
多特征/多维度分析法
文本编码计划
The Lexical Approach
词汇中心教学法
The Lexical Syllabus
词汇大纲
Token
形符、词次
Token definition
形符界定、单词界定
Tokenization
分词
Tokenizer
分词工具
Transcription
转写
Translational corpus
多词单位
MI/Mutual information
互信息、互现信息
N-gram
N元组、N元序列、N元结构、N元词、多词序列
NLP/Natural Language Processing
自然语言处理
Node
节点(词)
Normalization
标准化
Normalized frequency
标准化频率、标称频率、归一频率
检索项
Search word
检索词
Segmentation
切分、分词
Semantic preference
语义倾向
Semantic prosody
语义韵
SGML/Standard Generalized Markup Language
标准通用标记语言
Skipgram
跨词序列、跨词结构
Span
跨距
Special purpose corpus
Stop word
停用词、过滤词
Synchronic corpus
共时语料库
Syntagmatic
横组合(关系)的
Tag
标记、码、标注码
Tagger
赋码器、赋码工具、标注工具
Tagging
赋码、标注、附码
Tag sequence
赋码序列、码串
Tagset
赋码集、码集
Text
文本
TEI/Text Encoding Initiative
索引(行)
Concordance plot
(索引)词图
Concordancer
索引工具
Concordancing
索引生成、索引分析
Context
语境、上下文
Context word
语境词
Contingency table
连列表、联列表、列连表、列联表
Co-occurrence/Co-occurring
共选(机制)
Co-text
共文
DDL/Data Driven Learning
数据驱动学习
Diachronic corpus
历时语料库
Discourse
话语、语篇
Discourse prosody
话语韵律
Documentation
备检文件、文检报告
EAGLES/Expert Advisory Groups on Language Engineering Standards
Lemma
词目、原形词、词元
Lemma list
词形还原对应表
Lemmata
词目、原形词、词元(复数)
Lemmatization
词形还原、词元化
Lemmatizer
词形还原(词元化)工具
Lexical bundle
词束
Lexical density
词汇密度
Lexical item
词项、词语项目
Lexical priming
程式化序列
Frequency
频数、频率
General (purpose) corpus
通用语料库
Granularity
颗粒度
Hapax legomenon/hapax
一次词
Header/Text head
文本头、头标、头文件
HMM/Hidden Markov Model
隐马尔科夫模型
Idiom Principle
专用语料库、专门用途语料库、专题语料库
Specialized corpus
专用语料库
Standardized TTR/Standardized type-token ratio
标准化类符/形符比、标准化类/形比、标准化型次比
Stand-off annotation
分离式标注
Stop list
停用词表、过滤词表
Mini-text
微型文本
Misuse
误用
Monitor corpus
(动态)监察语料库
Monolingual corpus
单语语料库
Multilingual corpus
多语语料库
Multimodal corpus
多模态语料库
MWU/Multiword unit
多词单位
MWE/Multiword expression
Collocability
搭配强度、搭配力
Collocation
搭配、词语搭配
Collocational strength
搭配强度
Collocational framework/frame
搭配框架
Comparable corpora
Leabharlann Baidu类比语料库、可比语料库
ConcGram
同现词列、框合结构
Concordance (line)
美国国家标准学会
ASCII/American Standard Code for Information Exchange
美国信息交换标准码
Associate(of keywords)
(主题词的)联想词
AWL/Academic word list
学术词表
Balanced corpus
平衡语料库
Base list
习语原则
Index/Indexing
(建)索引
In-line annotation
文内标注、行内标注
Key keyword
关键主题词
Keyness
主题性、关键性
Keyword
主题词
KWIC/Key Word in Context
语境中的关键词、语境共现(方式)
Learner corpus
学习者语料库
词性赋码、词性标注、词性附码
POS tagger
词性赋码器、词性赋码工具
Prefab
预制语块
Probabilistic
(基于)概率的、概率性的、盖然的
Probability
概率
Rationalism
理性主义
Raw text/Rawcorpus
生文本(语料)
Reference corpus
参照语料库
Regex/RE/RegExp/Regular Expressions
中介语对比分析
CLAWS/Constituent Likelihood Automatic Word-tagging System
CLAWS词性赋码系统
Clean text policy
干净文本原则
Cluster
词簇、词丛
Colligation
类联接、类连接、类联结
Collocaten./v.
搭配词;搭配
Absolute frequency
绝对频数
Alignment (of parallel texts)
(平行或对应)语料的对齐
Alphanumeric
字母数字类的
Annotate
标注(动词)
Annotation
标注(名词)
Annotation scheme
标注方案
ANSI/American National Standards Institute
EAGLES文本规格
Empirical Linguistics
实证语言学
Empiricism
经验主义
Encoding
字符编码
Error-tagging
错误标注、错误赋码
Extended unit of meaning
扩展意义单位
File-based search/concordancing
批量检索
Formulaic sequence
言语语言学
Parsed corpus
句法标注的语料库
Parser
句法分析器
Parsing
句法分析
Pattern/patterning
型式
Pattern grammar
型式语法
Pedagogic corpus
教学语料库
Phraseology
短语、短语学
POSgram
赋码序列、码串
POS tagging/Part-of-Speech tagging
翻译语料库
Treebank
树库
Trigram
三元组、三元序列、三元结构
T-score
T值
Type
类符、词型
TTR/Type-token ratio
类符/形符比、类/形比、型次比
Underuse
少用、使用不足
Unicode
通用码
Unit of meaning
意义单位
WaC/Web as Corpus
网络语料库