语料库术语表

合集下载

语料库语言学术语汇编V20-CORPUSnplcorpora

语料库语言学术语汇编V20-CORPUSnplcorpora
NLP/Natural Language Processing
自然语言处理
Node (word)
节点(词)
Normalization
标准化、(翻译)规范化
Normalized frequency
标准化频率、归一频率
Observed corpus
观察语料库
Ontology
知识本体、本体
Open-choice principle
Bi-hapax
两次词、二次词
Bilingual corpus
双语语料库
Bootcamp debate/discourse/discussion
(新手)训练营大辩论/话语/大探讨
CA/Contrastive Analysis
对比分析
Case-sensitive/case sensitivity
大小写敏感、区分大小写
语料库语言学术语汇编(V2.0)
Last updated2015-07-31by许家金
Aboutness
所言之事
Absolute frequency
绝对频数
Alignment (of parallel texts)
(平行或对应)语料的对齐
Alphanumeric
字母数字构成的
Annotate
标注(动词)、赋码
CLAWS词性赋码系统
Clean text policy
干净文本原则
Cluster
词丛、词簇
Colligation
类联接、类连接、类联结
Collocaten./v.
搭配词;搭配
Collocability
搭配强度、搭配力
Collocation

语料库术语表

语料库术语表
跟踪语料库、发展语料库、历时语料库
Machine-readable
机读的
Markup
标记、置标

MDA/Multi-dimensional approach
多维度分析法
Metadata
元信息
Meta-metadata
元元信息
MF/MD (Multi-feature/Multi-dimensional) approach
Absolute frequency
绝对频数
Alignment (of parallel texts)
(平行或对应)语料的对齐
Alphanumeric
字母数字类的
Annotate
标注(动词)
Annotation
标注(名词)
·
Annotation scheme
标注方案
ANSI/American National Standards Institute
样本;取样、采样、抽样
Sampling
取样、采样、抽样
Search term
检索项
Search word
检索词
}
Segmentation
切分、分词
Semantic preference
语义倾向
Semantic prosody
语义韵
SGML/Standard Generalized Markup Language

Collocability
搭配强度、搭配力
Collocation
搭配、词语搭配
Collocational strength
搭配强度
Collocational framework/frame

CLEC中国英语学习者语料库

CLEC中国英语学习者语料库

CLEC中国英语学习者语料库CLEC收集了包括中学生、大学英语4级和6级、专业英语低年级和高年级在内的5种学生的语料一百多万词,并对言语失误进行标注。

其目的就是观察各类学生的英语特征和言语失误的情况,希望通过定量和定性的方法对中国学习者英语作出较为精确的描写,为我国学生的英语教学提供有用的反馈信息。

表1 CLEC语料分布类型词次ST2 208088ST3 209043ST4 212855ST5 214510ST6 226106总计 1070602言语失误标注原则1. 简单合理,易于系统操作。

参与标注的人比较多,分类表过于繁复,就难于掌握。

我们采取两级分类,第一级有11类:词形(fm)、动词短语(vp)、名词短语(np)、代词(pr)、形容词短语(aj)、副词(ad)、介词短语(pp)、连词(cj)、词汇(wd)、搭配(cc)、句子(sn)。

每一类里再用数目字细分。

如[cc]为词语搭配不当,[cc1]表示名词和名词的搭配,[cc2]表示名词和动词的搭配,[cc3]表示动词和名词的搭配,等等。

2. 分类表的类别要适中。

过粗容易统一,但信息太少,不利于分析学习者的失误/过细难以统一,容易把同一种失误归到不同类别。

目前我们采取的办法是对常见的失误从细(如vp和np都有9小类),对少见的失误从粗(如cj只有两小类)。

现在的分类表有61个失误码,是属于中等规模的分类表。

提供足够的失误信息(失误本身、失误类型和失误发生范围)。

例如In the past,[vp6, 4-] kind to each other…, 失误用方括号表示,放在失误people are 之后。

[vp6]为vp(动词)第6种(时态)失误,4-为失误发生的范围,-表示失误的位置,4表示失误前有4个词。

要联系这4个词,才能判断are这个词用错了。

开放性。

容许研究者根据需要对失误类型进行补充或进一步再分出细类。

例如[sn8]为句子结构有缺陷,研究者可以对这种失误再分为若干细类来研究。

语料库语言学术语汇编Aglossaryofcorpuslinguistics.docx

语料库语言学术语汇编Aglossaryofcorpuslinguistics.docx

语料库语言学术语汇编 ( V2.0 )Last updated 2012-10-08 by许家金Aboutness所言之事Absolute frequency绝对频数Alignment (of parallel texts)(平行或对应)语料的对齐Alphanumeric字母数字构成的Annotate标注(动词)Annotated text/corpus标注文本 /语料库、赋码文本/语料库Annotation标注(名词)Annotation scheme标注方案ANSI/American National Standards Institute美国国家标准学会ASCII/American Standard Code for Information美国信息交换标准码ExchangeAssociates (of keywords)(主题词的)联想词AWL/academic word list学术词表Balanced corpus平衡语料库Base list/baselist底表、基础词表Bigram二元组、二元序列、二元结构Bi-text/bitext双语合并文本、双语分行对齐文本(一句源语一句目标语对齐后的文本)Bi-hapax两次词Bilingual corpus双语语料库Bootcamp debate/discourse/discussion(新手)训练营大辩论 /话语 /大探讨CA/Contrastive Analysis对比分析Case-sensitive/case sensitivity大小写敏感、区分大小写Category-based approach基于类(范畴)的方法Chi-square test/ 2χ卡方检验Chunk词块CIA/Contrastive Interlanguage Analysis中介语对比分析CLAWS/Constituent Likelihood Automatic Word-CLAWS 词性赋码系统tagging SystemClean text policy干净文本原则Cluster词簇、词丛Colligation类联接、类连接、类联结Collocate n./v.搭配词;搭配Collocability搭配强度、搭配力Collocation搭配、词语搭配Collocational strength搭配强度Collocational framework/frame搭配框架Collocational profile搭配概貌Collocational network搭配网络Comparable corpora类比语料库、可比语料库Computational Linguistics计算语言学ConcGram/concgram同现词列、框合结构Concord索引(行)(简略形式)Concordance (line)索引(行)Concordance plot(索引)词图Concordancer索引工具Concordancing索引分析Context语境、上下文Context word语境词Contextual prosody语境韵律Contingency table连列表、联列表、列连表、列联表Co-occurrence/Co-occurring共现、同现Corpus Linguistics语料库语言学Corpus, pl. corpora语料库Corpus-based基于语料库的Corpus-based translation studies基于语料库的翻译研究、语料库翻译学、基于语料库的译学研究Corpus-driven语料库驱动的Corpus-informed语料库指导下的、参考了语料库的Corpus size库容Corpus stylistics语料库文体学Co-select/co-selection/co-selectiveness共选(机制)Co-text共文Data mining数据挖掘DDL/Data Driven Learning数据驱动学习Dependency(句法)依存关系Dice coefficient Dice 系数Disambiguation消歧Diachronic corpus历时语料库Discourse话语、语篇Discourse prosody话语韵律Documentation文检报告、备检文件、说明文档EAGLES/Expert Advisory Groups on Language EAGLES 文本规格Engineering StandardsEmpirical linguistics实证语言学Empiricism经验主义Encoding字符编码Error-tagging错误标注、错误赋码Explicitation显化Extended unit of meaning扩展意义单位File-based search/concordancing批量检索Firthian (linguistics)弗斯(语言学)、弗斯学派的(语言学)Formulaic sequence程式化序列、套语Frequency频数、频率Frequency list词频表General (purpose) corpus通用语料库Genre语体、体裁Grammatical patterning语法型式Granularity颗粒度Hapax legomenon/hapax一次词Header/corpus head文本头、头标、头文件Hidden Markov model (HMM)隐马尔科夫模型、隐马模型Idiom principle习语原则、成语原则Idiomaticity习语性、地道程度Implicitation隐化Index/indexing(建)索引In-line annotation文内标注、行内标注Interlanguage中介语、过渡语Inter-coder agreement/reliability标注者间一致性/信度Introspection/introspective内省(式)(的)Intuition直觉Key keywords关键主题词Keyness主体性、关键性Keywords主题词KWIC/Key Word in Context语境中的关键词、语境共现(方式)KWIC sort语境共现排序、索引行排序Learner corpus学习者语料库Lemma, pl. lemmata/lemmas词目、原形词、词元Lemmatization词形还原、词元化Lemmatizer词形还原工具、词元化工具Lexical bundle词束Lexical density词汇密度Lexical frequency profile词频概貌Lexical grammar词汇语法Lexical item词项、词语项目Lexical patterning词语型式、词汇型式Lexical priming词汇触发理论、词汇启动理论Lexical profile词汇分布概貌Lexical richness词汇丰富度Lexico-grammar词汇语法Lexis词语、词项、词语学Log-likelihood ratio对数似然比、对数似然率Longitudinal/developmental corpus跟踪语料库、发展语料库、历时语料库Machine-readable机读的Machine translation机器翻译Manual annotation手工标注Markup/mark-up标记、置标MDA (Multi-dimensional analysis/approach)多维度分析法Metadata元信息Meta-metadata元元信息MF/MD approach/multi-feature/multi-dimensional多特征/多维度分析法analysisMisuse误用Monitor corpus(动态)监察语料库Monolingual corpus单语语料库Multilingual corpus多语语料库Multimodal corpus多模态语料库MWU/multiword unit多词单位MWE/multiword expression多词表达MI/mutual information互信息、互现信息N-gram N 元组、 N 元序列、 N 元结构、 N 元词、多词序列Neo-Firth (school)新弗斯学派Neo-Firthian新弗斯学派的NLP/Natural Language Processing自然语言处理Node (word)节点(词)Normalization标准化、(翻译)规范化、泛化Normalized frequency标准化频率、标称频率、归一频率Observed corpus观察语料库Ontology知识本体、本体Open choice principle开放选择原则OrthographicOrthography正字法Overuse过多使用、超用、使用过度、过度使用Paradigmatic纵聚合(关系)的Parallel corpus平行语料库、对应语料库Parole linguistics言语语言学Parsed corpus句法标注的语料库、树库Parser句法分析器Parsing句法标注、句法分析Pattern/patterning型式、模式Pattern grammar型式语法Pattern matching模式匹配Pedagogic corpus教学语料库Phraseology短语、短语学Phraseological unit/sequence短语单位 /序列Plain text纯文本POSgram赋码序列、码串POS sequence赋码序列、码串POS tagging/Part-of-Speech tagging词性赋码、词性标注、词性附码POS tagger词性赋码器、词性赋码工具Prefab预制语块Probabilistic(基于)概率的、概率性的、盖然的Probabilistic grammar概率语法、概率性语法、盖然语法Probability概率Query查询、检索Range分布(范围)、跨度Rationalism理性主义Raw frequency原始频数、生频数Raw text/corpus生文本 /生语料Reference corpus参照语料库Regex/RE/RegExp/regular expressions正则表达式、正则式Register variation语域变异Relative frequency相对频率Representative/representativeness代表性(的)Rule-based基于规则的S-universals源语型共性(特征)Sample n./v.样本;取样、采样、抽样Sampling取样、采样、抽样Sanitization净化Search term检索项Search word检索词Segmentation切分、分词Semantic association语义联想Semantic preference语义倾向、语义趋向Semantic prosody语义韵Sentence alignment句对齐、句级对齐SGML/Standard Generalized Markup Language标准通用标记语言Simplification简化Skipgram跨词序列、跨词结构Span跨距Specialized corpus专用语料库、专门用途语料库、专题语料库Standardized type/token ratio标准化类符 /形符比、标准化类/形比、标准化型次比Standardized TTR/STTR标准化类符 /形符比、标准化类/形比、标准化型次比Stand-off annotation分离式标注Stochastic随机的Stop list停用词表、过滤词表Stop word停用词、过滤词Synchronic corpus共时语料库Syntagmatic横组合(关系)的T score T 值T-universals目标语型共性(特征)Tag赋码、标记、附码Tagger赋码器、赋码工具、标注工具Tagging赋码、标注、附码Tag sequence赋码序列、码串Tagset赋码集、码集Tertium comparationis对比中立项、对比基础Text文本Text type文体、文类Text category文体、文类Text mining文本挖掘TEI/Text Encoding Initiative TEI 文本编码计划The Lexical Approach词汇中心教学法The Lexical Syllabus词汇大纲Token形符、词次Token definition/word definition形符界定、单词界定Tokenization分词Tokenizer分词工具Transcription转写Translation memory翻译记忆(库)Translation norms翻译规范Translationuniversals/Universal features of 翻译共性、翻译普遍特征translationTranslational corpus翻译语料库Translationese翻译体、翻译腔Treebank树库Trigram三元组、三元序列、三元结构T-score T 值Type类符、词种、词型TTR类符 /形符比、类 /形比、型次比Type/token ratio类符 /形符比、类 /形比、型次比Underuse少用、使用不足Unicode通用码Unicodify按通用码编码、转换为通用码Unit of meaning意义单位WaC/Web as Corpus网络语料库、网库Wildcard通配符Word alignment词对齐、词级对齐Word form词形Word family词族Word list词表Word sketch词语素描WSD/Word-sense disambiguation词义消歧XML/Extensible Markup Language可扩展标记语言Zipf ’ s Law/Zipfian Law齐夫定律Z score Z 值常用语料库ACE Australian Corpus of EnglishANC American National CorpusARCHER A Representative Corpus of Historical English Registers BASE British Academic Spoken English CorpusBAWE British Academic Written English CorpusBNC British National CorpusBoE Bank of EnglishBrown Brown CorpusCANCODE Cambridge and Nottingham Corpus of Discourse in English CEC China English CorpusCEM Corpus for English MajorsCHILDES Child Language Data Exchange SystemCIC Cambridge International CorpusCLEC Chinese Learners English CorpusCLOB2009 Brown family corpus of British EnglishCOBUILD Collins Birmingham University International Language Database COCA The Corpus of Contemporary American EnglishCOLSEC College Learners Spoken English CorpusCOLT Bergen Corpus of London Teenage LanguageCrown2009 Brown family corpus of American EnglishFLOB Freiburg-LOB Corpus of British EnglishFROWN Freiburg-Brown Corpus of American EnglishHelsinki Diachronic part of the Helsinki Corpus of English Texts DiachroniccorpusHKCSE Hong Kong Corpus of Spoken EnglishICE International Corpus of EnglishICE-GB International Corpus of English: Great BritainICLE International Corpus of Learner EnglishJEFLL Japanese EFL Learner CorpusLCMC Lancaster Corpus Mandarin ChineseLINDSEI Louvain International Database of Spoken English Interlanguage LIVAC Linguistic Variations in Chinese Speech CommunitiesLLC London Lund CorpusLOB Lancaster-Oslo/Bergen CorpusLOCNESS Louvain Corpus of Native English EssaysLONGDALE LONGitudinal DAtabase of Learner EnglishMICASE Michigan Corpus of Academic Spoken EnglishMICUSP Michigan Corpus of Upper-level Student PapersNESSIE Native English Speakers ’Similarly and Identically-prompted EssaysPACCEL Parallel Corpus of Chinese EFL LearnersSBCSAE Santa Barbara Corpus of Spoken American EnglishSCCSD The Spoken Chinese Corpus of Situated DiscourseSCORE Singapore Corpus of Research in EducationSEC Spoken English CorpusSECCL Spoken English Corpus of Chinese LearnersSECOPETS Spoken English Corpus of Public English Test SystemSEU Survey of English UsageSWECCL Spoken and Written English Corpus of Chinese Learners WECCL Written English Corpus of Chinese LearnersLast updated 2012-08-08 by许家金。

语料库语言学术语汇编Aglossaryofcorpuslinguistics

语料库语言学术语汇编Aglossaryofcorpuslinguistics

语料库语言学术语汇编Aglossaryofcorpuslinguistics语料库语言学术语汇编(V2.0)Last updated 2012-10-08 by 许家金Aboutness 所言之事Absolute frequency 绝对频数Alignment (of parallel texts)(平行或对应)语料的对齐Alphanumeric 字母数字构成的Annotate标注(动词)Annotated text/corpus 标注文本/语料库、赋码文本/语料库Annotation标注(名词)Annotation scheme标注方案ANSI/American National Standards Institute美国国家标准学会ASCII/American Standard Code for Information Exchange美国信息交换标准码Associates (of keywords)(主题词的)联想词AWL/academic word list 学术词表Balanced corpus 平衡语料库Base list/baselist 底表、基础词表Bigram 二元组、二元序列、二元结构Bi-text/bitext双语合并文本、双语分行对齐文本(一句源语一句目标语对齐后的文本)Bi-hapax 两次词Bilingual corpus双语语料库Bootcamp debate/discourse/discussion (新手)训练营大辩论/话语/大探讨CA/Contrastive Analysis 对比分析Case-sensitive/case sensitivity 大小写敏感、区分大小写Category-based approach 基于类(范畴)的方法Chi-square test/χ2 卡方检验Chunk词块CIA/Contrastive Interlanguage Analysis中介语对比分析CLAWS/Constituent Likelihood Automatic Word-tagging System CLAWS 词性赋码系统Clean text policy 干净文本原则Cluster 词簇、词丛Colligation 类联接、类连接、类联结Collocate n./v.搭配词;搭配Collocability 搭配强度、搭配力Collocation搭配、词语搭配Collocational strength 搭配强度Collocational framework/frame 搭配框架Collocational profile搭配概貌、管路敷设技术通过管线不仅可以解决吊顶层配置不规范高中资料试卷问题,而且可保障各类管路习题到位。

语料库语言学术语汇编A glossary of corpus linguistics

语料库语言学术语汇编A glossary of corpus linguistics
短语单位/序列
Plain text
纯文本
POSgram
赋码序列、码串
POS sequence
赋码序列、码串
POS tagging/Part-of-Speech tagging
词性赋码、词性标注、词性附码
POS tagger
词性赋码器、词性赋码工具
Prefab
预制语块
Probabilistic
(基于)概率的、概率性的、盖然的
同现词列、框合结构
Concord
索引(行)(简略形式)
Concordance (line)
索引(行)
Concordance plot
(索引)词图
Concordancer
索引工具
Concordancing
索引分析
Context
语境、上下文
Context word
语境词
Contextual prosody
NLP/Natural Language Processing
自然语言处理
Node (word)
节点(词)
Normalization
标准化、(翻译)规范化、泛化
Normalized frequency
标准化频率、标称频率、归一频率
Observed corpus
观察语料库
Ontology
知识本体、本体
随机的
Stop list
停用词表、过滤词表
Stop word
停用词、过滤词
Synchronic corpus
共时语料库
Syntagmatic
横组合(关系)的
T score
T值
T-universals
目标语型共性(特征)

语料库词汇表

语料库词汇表
MI/Mutual information 互信息、互现信息
N-gram N元组、N元序列、N元结构、N元词、多词序列
NLP/Natural Language Processing 自然语言处理
Node 节点(词)
Normalization 标准化
Normalized frequency 标准化频率、标称频率、归一频率
Concordance (line) 索引(行)
Concordance plot (索引)词图
Concordancer 索引工具
Concordancing 索引生成、索引分析
Context 语境、上下文
Context word 语境词
Contingency table 连列表、联列表、列连表、列联表
Granularity 颗粒度
Hapax legomenon/hapax 一次词
Header/Text head 文本头、头标、头文件
HMM/Hidden Markov Model 隐马尔科夫模型
Idiom Principle 习语原则
Index/Indexing (建)索引
In-line annotation 文内标注、行内标注
Co-select/Co-selection/Co-selectiveness 共选(机制)
Co-text 共文
DDL/Data Driven Learning 数据驱动学习
Diachronic corpus 历时语料库
Discourse 话语、语篇
Discourse prosody 话语韵律
Documentation 备检文件、文检报告
EAGLES/Expert Advisory Groups on Language Engineering Standards EAGLES文本规格

语料库语言学术语集

语料库语言学术语集
EAGLES文本规格
Empirical Linguistics
实证语言学
Empiricism
经验主义
Encoding
字符编码
Error-tagging
错误标注、错误赋码
Extended unit of meaning
扩展意义单位
File-based search/concordancing
批量检索
Formulaic sequence
中介语对比分析
CLAWS/Constituent Likelihood Automatic Word-tagging System
CLAWS词性赋码系统
Clean text policy
干净文本原则
Cluster
词簇、词丛
Colligation
类联接、类连接、类联结
Collocaten./v.
搭配词;搭配
词汇触发理论
Lexical richness
词汇丰富度
Lexico-grammar/Lexical grammar
词汇语法
Lexis
词语、词项
LL/Log likelihood (ratio)
对数似然比、对数似然率
Longitudinal/Developmental corpus
跟踪语料库、发展语料库、历时语料库
Absolute frequency
绝对频数
Alignment (of parallel texts)
(平行或对应)语料的对齐
Alphanumeric
字母数字类的
Annotate
标注(动词)
Annotation
标注(名词)
Annotation scheme

语料库术语中英对照

语料库术语中英对照

语料库术语中英对照Aboutness 所⾔之事Absolute frequency 绝对频数Alignment (of parallel texts) (平⾏或对应)语料的对齐Alphanumeric 字母数字类的Annotate 标注(动词)Annotation 标注(名词)Annotation scheme 标注⽅案ANSI/American National Standards Institute 美国国家标准学会ASCII/American Standard Code for Information Exchange 美国信息交换标准码Associate (of keywords) (主题词的)联想词AWL/Academic word list 学术词表Balanced corpus 平衡语料库Base list 底表、基础词表Bigram ⼆元组、⼆元序列、⼆元结构Bi-hapax 两次词Bilingual corpus 双语语料库CA/Contrastive Analysis 对⽐分析Case-sensitive ⼤⼩写敏感、区分⼤⼩写Chi-square (χ2) test 卡⽅检验Chunk 词块CIA/Contrastive Interlanguage Analysis 中介语对⽐分析CLAWS/Constituent Likelihood Automatic Word-tagging System CLAWS词性赋码系统Clean text policy ⼲净⽂本原则Cluster 词簇、词丛Colligation 类联接、类连接、类联结Collocate n./v. 搭配词;搭配Collocability 搭配强度、搭配⼒Collocation 搭配、词语搭配Collocational strength 搭配强度Collocational framework/frame 搭配框架Comparable corpora 类⽐语料库、可⽐语料库ConcGram 同现词列、框合结构Concordance (line) 索引(⾏)Concordance plot (索引)词图Concordancer 索引⼯具Concordancing 索引⽣成、索引分析Context 语境、上下⽂Context word 语境词Contingency table 连列表、联列表、列连表、列联表Co-occurrence/Co-occurring 共现Corpora 语料库(复数)Corpus Linguistics 语料库语⾔学Corpus 语料库Corpus-based 基于语料库的Corpus-driven 语料库驱动的Corpus-informed 语料库指导的、参考了语料库的Co-select/Co-selection/Co-selectiveness 共选(机制)Co-text 共⽂DDL/Data Driven Learning 数据驱动学习Diachronic corpus 历时语料库Discourse 话语、语篇Discourse prosody 话语韵律Documentation 备检⽂件、⽂检报告EAGLES/Expert Advisory Groups on Language Engineering Standards EAGLES⽂本规格Empirical Linguistics 实证语⾔学Empiricism 经验主义Encoding 字符编码Error-tagging 错误标注、错误赋码Extended unit of meaning 扩展意义单位File-based search/concordancing 批量检索Formulaic sequence 程式化序列Frequency 频数、频率General (purpose) corpus 通⽤语料库Granularity 颗粒度Hapax legomenon/hapax ⼀次词Header/Text head ⽂本头、头标、头⽂件HMM/Hidden Markov Model 隐马尔科夫模型Idiom Principle 习语原则Index/Indexing (建)索引In-line annotation ⽂内标注、⾏内标注Key keyword 关键主题词Keyness 主题性、关键性Keyword 主题词KWIC/Key Word in Context 语境中的关键词、语境共现(⽅式)Learner corpus 学习者语料库Lemma 词⽬、原形词、词元Lemma list 词形还原对应表Lemmata 词⽬、原形词、词元(复数)Lemmatization 词形还原、词元化Lemmatizer 词形还原(词元化)⼯具Lexical bundle 词束Lexical density 词汇密度Lexical item 词项、词语项⽬Lexical priming 词汇触发理论Lexical richness 词汇丰富度Lexico-grammar/Lexical grammar 词汇语法Lexis 词语、词项LL/Log likelihood (ratio) 对数似然⽐、对数似然率Longitudinal/Developmental corpus 跟踪语料库、发展语料库、历时语料库Machine-readable 机读的Markup 标记、置标MDA/Multi-dimensional approach 多维度分析法Metadata 元信息Meta-metadata 元元信息MF/MD (Multi-feature/Multi-dimensional) approach 多特征/多维度分析法Mini-text 微型⽂本Misuse 误⽤Monitor corpus (动态)监察语料库Monolingual corpus 单语语料库Multilingual corpus 多语语料库Multimodal corpus 多模态语料库MWU/Multiword unit 多词单位MWE/Multiword expression 多词单位MI/Mutual information 互信息、互现信息N-gram N元组、N元序列、N元结构、N元词、多词序列NLP/Natural Language Processing ⾃然语⾔处理Node 节点(词)Normalization 标准化Normalized frequency 标准化频率、标称频率、归⼀频率Observed corpus 观察语料库Ontology 知识本体、本体Open Choice Principle 开放选择原则Overuse 超⽤、过多使⽤、使⽤过度、过度使⽤Paradigmatic 纵聚合(关系)的Parallel corpus 平⾏语料库、对应语料库Parole linguistics ⾔语语⾔学Parsed corpus 句法标注的语料库Parser 句法分析器Parsing 句法分析Pattern/patterning 型式Pattern grammar 型式语法Pedagogic corpus 教学语料库Phraseology 短语、短语学POSgram 赋码序列、码串POS tagging/Part-of-Speech tagging 词性赋码、词性标注、词性附码POS tagger 词性赋码器、词性赋码⼯具Prefab 预制语块Probabilistic (基于)概率的、概率性的、盖然的Probability 概率Rationalism 理性主义Raw text/Raw corpus ⽣⽂本(语料)Reference corpus 参照语料库Regex/RE/RegExp/Regular Expressions 正则表达式Register variation 语域变异Relative frequency 相对频率Representative/Representativeness 代表性(的)Rule-based 基于规则的Sample n./v. 样本;取样、采样、抽样Sampling 取样、采样、抽样Search term 检索项Search word 检索词Segmentation 切分、分词Semantic preference 语义倾向Semantic prosody 语义韵SGML/Standard Generalized Markup Language 标准通⽤标记语⾔Skipgram 跨词序列、跨词结构Span 跨距Special purpose corpus 专⽤语料库、专门⽤途语料库、专题语料库Specialized corpus 专⽤语料库Standardized TTR/Standardized type-token ratio 标准化类符/形符⽐、标准化类/形⽐、标准化型次⽐Stand-off annotation 分离式标注Stop list 停⽤词表、过滤词表Stop word 停⽤词、过滤词Synchronic corpus 共时语料库Syntagmatic 横组合(关系)的Tag 标记、码、标注码Tagger 赋码器、赋码⼯具、标注⼯具Tagging 赋码、标注、附码Tag sequence 赋码序列、码串Tagset 赋码集、码集Text ⽂本TEI/Text Encoding Initiative ⽂本编码计划The Lexical Approach 词汇中⼼教学法The Lexical Syllabus 词汇⼤纲Token 形符、词次Token definition 形符界定、单词界定Tokenization 分词Tokenizer 分词⼯具Transcription 转写Translational corpus 翻译语料库Treebank 树库Trigram 三元组、三元序列、三元结构T-score T值Type 类符、词型TTR/Type-token ratio 类符/形符⽐、类/形⽐、型次⽐Underuse 少⽤、使⽤不⾜Unicode 通⽤码Unit of meaning 意义单位WaC/Web as Corpus ⽹络语料库Wildcard 通配符Word definition 单词界定Word form 词形Word family 词族Word list 词表XML/EXtensible Markup Language 可扩展标记语⾔Zipf's Law 齐夫定律Z-score Z值。

语料库语言学术语汇编-北外语料库语言学

语料库语言学术语汇编-北外语料库语言学
词汇分布概貌
Lexical richness
词汇丰富度
Lexico-grammar
词汇语法
Lexis
词语、词项
Log-likelihood ratio
对数似然比、对数似然率
Longitudinal/developmentalcorpus
跟踪语料库、发展语料库、历时语料库
Machine-readable
美国信息交换标准码
Associates (of keywords)
(主题词的)联想词
AWL/academic word list
学术词表
Balanced corpus
平衡语料库
Base list/baselist
底表、基础词表
Bigram
二元组、二元序列、二元结构
Bi-text/bitext
双语合璧文本、双语合并文本、双语分行对齐文本(一句源语一句目标语对齐后的文本)
开放选择原则
Orthographic
正字层面的、字面的
Orthography
正字法
Overuse
过多使用、超用、使用过度、过度使用
Paradigmatic
纵聚合(关系)的
Parallel corpus
平行语料库、对应语料库
Parole linguistics
言语语言学
Parsed corpus
句法标注的语料库、树库
批量检索
Firthian (linguistics)
弗斯(语言学)、弗斯学派的(语言学)
Fisher’sexact test
费舍尔精确检验
Formulaic sequence
程式化序列、套语
Frequency

语料库语言学术语汇编A glossary of corpus linguistics-推荐下载

语料库语言学术语汇编A glossary of corpus linguistics-推荐下载

语料库语言学术语汇编(V2.0)Last updated 2012-10-08 by 许家金Aboutness 所言之事Absolute frequency 绝对频数Alignment (of parallel texts)(平行或对应)语料的对齐Alphanumeric 字母数字构成的Annotate标注(动词)Annotated text/corpus 标注文本/语料库、赋码文本/语料库Annotation标注(名词)Annotation scheme标注方案ANSI/American National Standards Institute美国国家标准学会ASCII/American Standard Code for InformationExchange美国信息交换标准码Associates (of keywords)(主题词的)联想词AWL/academic word list 学术词表Balanced corpus 平衡语料库Base list/baselist 底表、基础词表Bigram 二元组、二元序列、二元结构Bi-text/bitext双语合并文本、双语分行对齐文本(一句源语一句目标语对齐后的文本)Bi-hapax 两次词Bilingual corpus双语语料库Bootcamp debate/discourse/discussion (新手)训练营大辩论/话语/大探讨CA/Contrastive Analysis 对比分析Case-sensitive/case sensitivity 大小写敏感、区分大小写Category-based approach 基于类(范畴)的方法Chi-square test/χ2 卡方检验Chunk词块CIA/Contrastive Interlanguage Analysis中介语对比分析CLAWS/Constituent Likelihood Automatic Word-tagging System CLAWS 词性赋码系统Clean text policy 干净文本原则Cluster 词簇、词丛Colligation 类联接、类连接、类联结Collocate n./v.搭配词;搭配Collocability 搭配强度、搭配力Collocation搭配、词语搭配Collocational strength 搭配强度Collocational framework/frame 搭配框架Collocational profile搭配概貌、管路敷设技术通过管线敷设技术不仅可以解决吊顶层配置不规范高中资料试卷问题,而且可保障各类管路习题到位。

中研院平衡语料库词类标记集

中研院平衡语料库词类标记集
/*是*/
FW
FW
/*外文標記*/
COLONCATEGORY
/*冒號*/
COMMACATEGORY
/*逗號*/
DASHCATEGORY
/*破折號*/
ETCCATEGORY
/*刪節號*/
EXCLAMATIONCATEGORY
/*驚嘆號*/
PARENTHESISCATEGORY
/*括弧*/
PAUSECATEGORY
/*普通名詞*/
N
Nb
Nba, Nbc
/*專有名稱*/
N
Nc
Nca, Ncb, Ncc, Nce
/*地方詞*/
N
Ncd
Ncda, Ncdb
/*位置詞*/
N
Nd
Ndaa, Ndab, Ndc, Ndd
/*時間詞*/
DET
Neu
Neu
/*數詞定詞*/.
DET
Nes
Nes
/*特指定詞*/
DET
Nep
Nep
/*動作及物動詞*/
Vt
VCL
VC1
/*動作接地方賓語動詞*/
Vt
VD
VD1, VD2
/*雙賓動詞*/
Vt
VE
VE11, VE12, VE2
/*動作句賓動詞*/
Vt
VF
VF1, VF2
/*動作謂賓動詞*/
Vt
VG
VG1, VG2
/*分類動詞*/
Vi
VH
VH11,12,13,14,15,17,VH21
/*狀態不及物動詞*/
Vt
VHC
VH16, VH22
/*狀態使動動詞/

国家语委现代汉语通用平衡语料库

国家语委现代汉语通用平衡语料库

国家语委现代汉语通⽤平衡语料库国家语委现代汉语通⽤平衡语料库标注语料库数据及使⽤说明1. 国家语委现代汉语通⽤平衡语料库1.1 语料库全库国家语委现代汉语通⽤平衡语料库全库约为1亿字符,其中1997年以前的语料约7000万字符,均为⼿⼯录⼊印刷版语料;1997之后的语料约为3000万字符,⼿⼯录⼊和取⾃电⼦⽂本各半。

语料库的通⽤性和平衡性通过语料样本的⼴泛分布和⽐例控制实现。

语料库类别分布如下所⽰:1.2 标注语料库标注语料库为国家语委现代汉语通⽤平衡语料库全库的⼦集,约5000万字符。

标注是指分词和词类标注,已经经过3次⼈⼯校对,准确率⼤于>98%。

语料库全库按照预先设计的选材原则进⾏平衡抽样,以期达到更好的代表性。

标注语料库在样本分布⽅⾯近似于全库,不破坏语料选材的平衡原则。

标注语料库类别分布如下所⽰:标注语料库与全库的样本分布⽐较如下所⽰:(蓝⾊曲线为语料库全库;红⾊曲线为标注语料库)2. 国家语委现代汉语通⽤平衡语料库语料选材与样本分布2.1 选材原则依据材料内容,选材⼤体作如下分类:(下⽂字数为建库时数据)2.1.1 教材⼤中⼩学教材单作⼀类,约2000万字。

2.1.2 ⼈⽂与社会科学的语⾔材料约占全库的60%,共3000万字,包括:·政法(含哲学、政治、宗教、法律等);·历史(含民族等)·社会(含社会学、⼼理、语⾔、教育、⽂艺理论、新闻学、民俗学等);·经济;·艺术(含⾳乐、美术、舞蹈、戏剧等);·⽂学(含⼝语);·军体;·⽣活(含⾐⾷住⾏等⽅⾯的普及读物)。

2.1.3 ⾃然科学(含农业、医学、⼯程与技术)的语⾔材料,应涉及其发展的各个领域。

拟从⼤、中、⼩学教材和科普读物中选取。

其中,科普读物约占6%,共300万字。

教材字数另计。

2.1.4 报刊。

以1949年以后正式出版的由国家、省、市及各个部委主办的报纸和综合性刊物为主,兼顾1949年以前的报纸和综合性刊物。

语料库常用术语解释

语料库常用术语解释
为何要建立语料库?为何要用语料库方法 研究语言并将其运用于语言学习?
Frank Liang
Example: Start or begin?在口语中哪个更常用?
我们的老师经常说Let’s begin!之类的话,对吗?
Frank Liang
我们再回到前面提到的问题,如何检索analyze的各种屈折形式?使用“或者”符号,如: There_EX is_VBZ a_AT1 book_NN1 on_II the_AT desk_NN1 . Special corpora are not balanced (except within the scope of their given purpose) and, if used for other purposes, give a distorted view of the language segment.
How many words must a learner know in order to participate in everyday conversation?
Materials developed with a corpus can therefore be more authentic and can illustrate language as it is really used.
但有人在BNC等语料库中查到,在口语中,start更 在操作界面上,提取多次序列时,先确定序列中所含词数N(如三词序列,四次序列等),计算机自动读取文本,统计每个N序列出现
的频数。
0个或多个任意数目的字母、数字及两者的组合
常用。 正则表达式区分大小写、全角和半角,输入时要格外小心。
但是,另外一些文本可能使用analyse,或者我们还需要检索它的曲折形式,如analyzed、analyzing、analyzes、analysed、analysing 、analyses等,分别检索就很麻烦了。 \ban\b 匹配an,不匹配a、and或sand There_EX is_VBZ a_AT1 book_NN1 on_II the_AT desk_NN1 . Special corpora are not balanced (except within the scope of their given purpose) and, if used for other purposes, give a distorted

语料库常用术语解释 (1)

语料库常用术语解释 (1)
Frank Liang
语料库语言学常用术语
Monolingual单语 corpus: a corpus which contains texts in a single language.
Multilingual多语 corpus: a corpus which represents small collections of individual monolingual corpora (or subcorpora) in the sense that they use the same or similar sampling procedures and categories for each language but contain completely different texts in those several languages.
TTR是衡量文本中词汇密度的常用方法。可 辅助说明文本的词汇难度。
但是,文本中有大量功能词(function words, 如the、a、of等)反复出现,文本每增加 一个词,形符就会增加一个,但类符却未 必随之增加。这样文本越长,功能词重复 次数越多,TTR会越低。因此用TTR衡量词 汇密度就不合理。
语料库的方法基于真实的语言使用情况,事实胜 于雄辩
Frank Liang
A corpus can be analyzed using software tools, much like those used to find key words on the Internet, but with greater sophistication. By evaluating the results of these searches, it is possible to see how language is really used, and to find answers to questions like these:

语料库 入门

语料库 入门

在口语中,start更常用。
语料库的方法基于真实的语言
使用情况,事实胜于雄辩
我们通过对语料库的检索结果进行分析,可以找到很多问 题的答案,例如: “学知识”在英语中是“study knowledge”吗? “快速导航”翻译成“fast guide”对不对? “只为点滴幸福”这句广告语,对应的英文翻译是“Little happiness matters.”吗? 为何“The bad weather set in on Monday.”是正确的, 但“The good weather set in on Monday.”却是错误的?

以上问题也许在词典或语法书这样的工具书中是无法 找到答案的,但语料库能为我们提供方便快捷的解决 方案。 语料库可以辅助EFL学习的各个方面,如词汇、语法、 阅读、语体分析、翻译、口语、写作、测试和西方文 化学习等。
具体来说,本书中语料库辅助 EFL 自主学习的方法 (简称为“语料库方法”)主要指以下三种: (1) 直接在权威的语料库中查询语言和文化现象,如 英 国 国 家 语 料 库 ( BNC ) 和 美 国 当 代 英 语 语 料 库 (COCA); (2) 利用语料库软件进行文本分析,如 AntConc 和 Range; (3) 利 用 其 他 基 于 语 料 库 的 网 站 进 行 学 习 , 如 JustTheWord和Sketch Engine。
语料库语言学常用术语
standardized type/token ratio 标准化类符/形符比 例如,计算每个文本每1000词的 TTR,均值处理,得出STTR
语料库语言学常用术语
Frequencies/occurences(频数,出
现次数) Frequency(频率) 例如每一百万词、十万词中,某单词的 出现次数 常常将某个单词在两个语料库中出现的频 率参照两个语料库的容量,用卡方检验 或对数似然率进行对比,来确定两个语 料库中的该单词的使用上是否有差异

语料库术语中英对照

语料库术语中英对照

Aboutness 所言之事Absolute frequency 绝对频数Alignment (of parallel texts) (平行或对应)语料的对齐Alphanumeric 字母数字类的Annotate 标注(动词)Annotation 标注(名词)Annotation scheme 标注方案ANSI/American National Standards Institute 美国国家标准学会ASCII/American Standard Code for Information Exchange 美国信息交换标准码Associate (of keywords) (主题词的)联想词AWL/Academic word list 学术词表Balanced corpus 平衡语料库Base list 底表、基础词表Bigram 二元组、二元序列、二元结构Bi-hapax 两次词Bilingual corpus 双语语料库CA/Contrastive Analysis 对比分析Case-sensitive 大小写敏感、区分大小写Chi-square (χ2) test 卡方检验Chunk 词块CIA/Contrastive Interlanguage Analysis 中介语对比分析CLAWS/Constituent Likelihood Automatic Word-tagging System CLAWS词性赋码系统Clean text policy 干净文本原则Cluster 词簇、词丛Colligation 类联接、类连接、类联结Collocate n./v. 搭配词;搭配Collocability 搭配强度、搭配力Collocation 搭配、词语搭配Collocational strength 搭配强度Collocational framework/frame 搭配框架Comparable corpora 类比语料库、可比语料库ConcGram 同现词列、框合结构Concordance (line) 索引(行)Concordance plot (索引)词图Concordancer 索引工具Concordancing 索引生成、索引分析Context 语境、上下文Context word 语境词Contingency table 连列表、联列表、列连表、列联表Co-occurrence/Co-occurring 共现Corpora 语料库(复数)Corpus Linguistics 语料库语言学Corpus 语料库Corpus-based 基于语料库的Corpus-driven 语料库驱动的Corpus-informed 语料库指导的、参考了语料库的Co-select/Co-selection/Co-selectiveness 共选(机制)Co-text 共文DDL/Data Driven Learning 数据驱动学习Diachronic corpus 历时语料库Discourse 话语、语篇Discourse prosody 话语韵律Documentation 备检文件、文检报告EAGLES/Expert Advisory Groups on Language Engineering Standards EAGLES文本规格Empirical Linguistics 实证语言学Empiricism 经验主义Encoding 字符编码Error-tagging 错误标注、错误赋码Extended unit of meaning 扩展意义单位File-based search/concordancing 批量检索Formulaic sequence 程式化序列Frequency 频数、频率General (purpose) corpus 通用语料库Granularity 颗粒度Hapax legomenon/hapax 一次词Header/Text head 文本头、头标、头文件HMM/Hidden Markov Model 隐马尔科夫模型Idiom Principle 习语原则Index/Indexing (建)索引In-line annotation 文内标注、行内标注Key keyword 关键主题词Keyness 主题性、关键性Keyword 主题词KWIC/Key Word in Context 语境中的关键词、语境共现(方式)Learner corpus 学习者语料库Lemma 词目、原形词、词元Lemma list 词形还原对应表Lemmata 词目、原形词、词元(复数)Lemmatization 词形还原、词元化Lemmatizer 词形还原(词元化)工具Lexical bundle 词束Lexical density 词汇密度Lexical item 词项、词语项目Lexical priming 词汇触发理论Lexical richness 词汇丰富度Lexico-grammar/Lexical grammar 词汇语法Lexis 词语、词项LL/Log likelihood (ratio) 对数似然比、对数似然率Longitudinal/Developmental corpus 跟踪语料库、发展语料库、历时语料库Machine-readable 机读的Markup 标记、置标MDA/Multi-dimensional approach 多维度分析法Metadata 元信息Meta-metadata 元元信息MF/MD (Multi-feature/Multi-dimensional) approach 多特征/多维度分析法Mini-text 微型文本Misuse 误用Monitor corpus (动态)监察语料库Monolingual corpus 单语语料库Multilingual corpus 多语语料库Multimodal corpus 多模态语料库MWU/Multiword unit 多词单位MWE/Multiword expression 多词单位MI/Mutual information 互信息、互现信息N-gram N元组、N元序列、N元结构、N元词、多词序列NLP/Natural Language Processing 自然语言处理Node 节点(词)Normalization 标准化Normalized frequency 标准化频率、标称频率、归一频率Observed corpus 观察语料库Ontology 知识本体、本体Open Choice Principle 开放选择原则Overuse 超用、过多使用、使用过度、过度使用Paradigmatic 纵聚合(关系)的Parallel corpus 平行语料库、对应语料库Parole linguistics 言语语言学Parsed corpus 句法标注的语料库Parser 句法分析器Parsing 句法分析Pattern/patterning 型式Pattern grammar 型式语法Pedagogic corpus 教学语料库Phraseology 短语、短语学POSgram 赋码序列、码串POS tagging/Part-of-Speech tagging 词性赋码、词性标注、词性附码POS tagger 词性赋码器、词性赋码工具Prefab 预制语块Probabilistic (基于)概率的、概率性的、盖然的Probability 概率Rationalism 理性主义Raw text/Raw corpus 生文本(语料)Reference corpus 参照语料库Regex/RE/RegExp/Regular Expressions 正则表达式Register variation 语域变异Relative frequency 相对频率Representative/Representativeness 代表性(的)Rule-based 基于规则的Sample n./v. 样本;取样、采样、抽样Sampling 取样、采样、抽样Search term 检索项Search word 检索词Segmentation 切分、分词Semantic preference 语义倾向Semantic prosody 语义韵SGML/Standard Generalized Markup Language 标准通用标记语言Skipgram 跨词序列、跨词结构Span 跨距Special purpose corpus 专用语料库、专门用途语料库、专题语料库Specialized corpus 专用语料库Standardized TTR/Standardized type-token ratio 标准化类符/形符比、标准化类/形比、标准化型次比Stand-off annotation 分离式标注Stop list 停用词表、过滤词表Stop word 停用词、过滤词Synchronic corpus 共时语料库Syntagmatic 横组合(关系)的Tag 标记、码、标注码Tagger 赋码器、赋码工具、标注工具Tagging 赋码、标注、附码Tag sequence 赋码序列、码串Tagset 赋码集、码集Text 文本TEI/Text Encoding Initiative 文本编码计划The Lexical Approach 词汇中心教学法The Lexical Syllabus 词汇大纲Token 形符、词次Token definition 形符界定、单词界定Tokenization 分词Tokenizer 分词工具Transcription 转写Translational corpus 翻译语料库Treebank 树库Trigram 三元组、三元序列、三元结构T-score T值Type 类符、词型TTR/Type-token ratio 类符/形符比、类/形比、型次比Underuse 少用、使用不足Unicode 通用码Unit of meaning 意义单位WaC/Web as Corpus 网络语料库Wildcard 通配符Word definition 单词界定Word form 词形Word family 词族Word list 词表XML/EXtensible Markup Language 可扩展标记语言Zipf's Law 齐夫定律Z-score Z值Welcome To Download !!!欢迎您的下载,资料仅供参考!。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
言语语言学
Parsed corpus
句法标注的语料库
Parser
句法分析器
Parsing
句法分析
Pattern/patterning
型式
Pattern grammar
型式语法
Pedagogic corpus
教学语料库
Phraseology
短语、短语学
POSgram
赋码序列、码串
POS tagging/Part-of-Speech tagging
Machine-readable
机读的
Markup
标记、置标
MDA/Multi-dimensional approach
多维度分析法
Metadata
元信息
Meta-metadata
元元信息
MF/MD (Multi-feature/Multi-dimensional) approach
多特征/多维度分析法
Collocability
搭配强度、搭配力
Collocation
搭配、词语搭配
Collocational strength
搭配强度
Collocational framework/frame
搭配框架
Comparable corpora
类比语料库、可比语料库
ConcGram
同现词列、框合结构
Concordance (line)
索引(行)
Concordance plot
(索引)词图
Concordancer
索引工具
Concordancing
索引生成、索引分析
Context
语境、上下文
Context word
语境词
Contingency table
连列表、联列表、列连表、列联表
Co-occurrence/Co-occurring
程式化序列
Frequency
频数、频率
General (purpose) corpus
通用语料库
Granularity
颗粒度
Hapax legomenon/hapax
一次词
Header/Text head
文本头、头标、头文件
HMM/Hidden Markov Model
隐马尔科夫模型
Idiom Principle
Observed corpus
观察语料库
Ontology
知识本体、本体
Open Choice Principle
开放选择原则
Overuse
超用、过多使用、使用过度、过度使用
Paradigmatic
纵聚合(关系)的
Parallel corpus
平行语料库、对应语料库
Parole linguistics
Mini-text
微型文本
Misuse
误用
Monitor corpus
(动态)监察语料库
Monolingual corpus
单语语料库
Multilingual corpus
多语语料库
Multimodal corpus
多模态语料库
MWU/Multiword unit
多词单位
MWE/Multiword expression
多词单位
MI/Mutual information
互信息、互现信息
N-gram
N元组、N元序列、N元结构、N元词、多词序列
NLP/Natural Language Processing
自然语言处理
Node
节点(词)
Normalization
标准化
Normalized frequency
标准化频率、标称频率、归一频率
检索项
Search word
检索词
Segmentation
切分、分词
Semantic preference
语义倾向
Semantic prosody
语义韵
SGML/Standard Generalized Markup Language
标准通用标记语言
Skipgram
跨词序列、跨词结构
Span
跨距
Special purpose corpus
文本编码计划
The Lexical Approach
词汇中心教学法
The Lexical Syllabus
词汇大纲
Token
形符、词次
Token definition
形符界定、单词界定
Tokenization
分词
Tokenizer
分词工具
Transcription
转写
Translational corpus
正则表达式
Register variation
语域变异
Relative frequency
相对频率
Representative/Representativeness
代表性(的)
Rule-based
基于规则的
Samplen./v.
样本;取样、采样、抽样
Sampling
取样、采样、抽样
Search term
Stop word
停用词、过滤词
Synchronic corpus
共时语料库
Syntagmatic
横组合(关系)的
Tag
标记、码、标注码
Tagger
赋码器、赋码工具、标注工具
Tagging
赋码、标注、附码
Tag sequence
赋码序列、码串
Tagset
赋码集、码集
Text
文本
TEI/Text Encoding Initiative
翻译语料库
Treebank
树库
Trigram
三元组、三元序列、三元结构
T-score
T值
Type
类符、词型
TTR/Type-token ratio
类符/形符比、类/形比、型次比
Underuse
少用、使用不足
Unicode
通用码
Unit of meaning
意义单位
WaC/Web as Corpus
网络语料库
专用语料库、专门用途语料库、专题语料库
Specialized corpus
专用语料库
Standardized TTR/Standardized type-token ratio
标准化类符/形符比、标准化类/形比、标准化型次比
Stand-off annotation
分离式标注
Stop list
停用词表、过滤词表
Lemma
词目、原形词、词元
Lemma list
词形还原对应表
Lemmata
词目、原形词、词元(复数)
Lemmatization
词形还原、词元化
Lemmatizer
词形还原(词元化)工具
Lexical bundle
词束
Lexical density
词汇密度
Lexical item
词项、词语项目
Lexical priming
Wildcard
通配符
Word definition
单词界定
Word form
词形
Word family
词族
Word list
词表
XML/EXtensible Markup Language
可扩展标记语言
Zipf's Law
齐夫定律
Z-score
Z值
中介语对比分析
CLAWS/Constituent Likelihood Automatic Word-tagging System
CLAWS词性赋码系统
Clean text policy
干净文本原则
Cluster
词簇、词丛
Colligation
类联接、类连接、类联结
Collocaten./v.
搭配词;搭配
美国国家标准学会
ASCII/American Standard Code for Information Exchange
美国信息交换标准码
Associate(of keywords)
(主题词的)联想词
AWL/Academic word list
学术词表
Balanced corpus
平衡语料库
Base list
词汇触发理论
Lexical richness
词汇丰富度
Lexico-grammar/Lexical grammar
词汇语法
Lexis
词语、词项
LL/Log likelihood (ratio)
对数似然比、对数似然率
Longitudinal/Developmental corpus
跟踪语料库、发展语料库、历时语料库
共选(机制)
Co-text
共文
DDL/Data Driven Learning
数据驱动学习
Diachronic corpus
历时语料库
Discourse
话语、语篇
Discourse prosody
话语韵律
Documentation
备检文件、文检报告
EAGLES/Expert Advisory Groups on Language Engineering Standards
Absolute frequency
绝对频数
Alignment (of parallel texts)
(平行或对应)语料的对齐AlLeabharlann hanumeric字母数字类的
相关文档
最新文档