语料库常用术语

合集下载

语料库术语汇编

语料库术语汇编

语料库术语汇编语料库术语汇编:Aboutness 所言之事Absolute frequency 绝对频数Alignment (of parallel texts) (平行或对应)语料的对齐Alphanumeric 字母数字类的Annotate 标注(动词)Annotation 标注(名词)Annotation scheme 标注方案ANSI/American National Standards Institute 美国国家标准学会ASCII/American Standard Code for Information Exchange 美国信息交换标准码Associate (of keywords) (主题词的)联想词A WL/Academic word list 学术词表Balanced corpus 平衡语料库Base list 底表、基础词表Bigram 二元组、二元序列、二元结构Bi-hapax 两次词Bilingual corpus 双语语料库CA/Contrastive Analysis 对比分析Case-sensitive 大小写敏感、区分大小写Chi-square (χ2) test 卡方检验Chunk 词块CIA/Contrastive Interlanguage Analysis 中介语对比分析CLA WS/Constituent Likelihood Automatic Word-tagging System CLA WS词性赋码系统Clean text policy 干净文本原则Cluster 词簇、词丛Colligation 类联接、类连接、类联结Collocate n./v. 搭配词;搭配Collocability 搭配强度、搭配力Collocation 搭配、词语搭配Collocational strength 搭配强度Collocational framework/frame 搭配框架Comparable corpora 类比语料库、可比语料库ConcGram 同现词列、框合结构Concordance (line) 索引(行)Concordance plot (索引)词图Concordancer 索引工具Concordancing 索引生成、索引分析Context 语境、上下文Context word 语境词Contingency table 连列表、联列表、列连表、列联表Co-occurrence/Co-occurring 共现Corpora 语料库(复数)Corpus Linguistics 语料库语言学Corpus 语料库Corpus-based 基于语料库的Corpus-driven 语料库驱动的Corpus-informed 语料库指导的、参考了语料库的Co-select/Co-selection/Co-selectiveness 共选(机制)Co-text 共文DDL/Data Driven Learning 数据驱动学习Diachronic corpus 历时语料库Discourse 话语、语篇Discourse prosody 话语韵律Documentation 备检文件、文检报告EAGLES/Expert Advisory Groups on Language Engineering Standards EAGLES文本规格embedded annotation 嵌入式标注Empirical Linguistics 实证语言学Empiricism 经验主义Encoding 字符编码Error-tagging 错误标注、错误赋码Extended unit of meaning 扩展意义单位File-based search/concordancing 批量检索Formulaic sequence 程式化序列Frequency 频数、频率General (purpose) corpus 通用语料库Granularity 颗粒度Hapax legomenon/hapax 一次词Header/Text head 文本头、头标、头文件HMM/Hidden Markov Model 隐马尔科夫模型Idiom Principle 习语原则Index/Indexing (建)索引In-line annotation 文内标注、行内标注Key keyword 关键主题词Keyness 主题性、关键性Keyword 主题词KWIC/Key Word in Context 语境中的关键词、语境共现(方式)Learner corpus 学习者语料库Lemma 词目、原形词、词元Lemma list 词形还原对应表Lemmata 词目、原形词、词元(复数)Lemmatization 词形还原、词元化Lemmatizer 词形还原(词元化)工具Lexical bundle 词束Lexical density 词汇密度Lexical item 词项、词语项目Lexical priming 词汇触发理论Lexical richness 词汇丰富度Lexico-grammar/Lexical grammar 词汇语法Lexis 词语、词项LL/Log likelihood (ratio) 对数似然比、对数似然率Longitudinal/Developmental corpus 跟踪语料库、发展语料库、历时语料库Machine-readable 机读的Markup 标记、置标MDA/Multi-dimensional approach 多维度分析法Metadata 元信息Meta-metadata 元元信息MF/MD (Multi-feature/Multi-dimensional) approach 多特征/多维度分析法Mini-text 微型文本Misuse 误用Monitor corpus (动态)监察语料库Monolingual corpus 单语语料库Multilingual corpus 多语语料库Multimodal corpus 多模态语料库MWU/Multiword unit 多词单位MWE/Multiword expression 多词单位MI/Mutual information 互信息、互现信息N-gram N元组、N元序列、N元结构、N元词、多词序列NLP/Natural Language Processing 自然语言处理Node 节点(词)Normalization 标准化Normalized frequency 标准化频率、标称频率、归一频率Observed corpus 观察语料库Ontology 知识本体、本体Open Choice Principle 开放选择原则Overuse 超用、过多使用、使用过度、过度使用Paradigmatic 纵聚合(关系)的Parallel corpus 平行语料库、对应语料库Parole linguistics 言语语言学Parsed corpus 句法标注的语料库Parser 句法分析器Parsing 句法分析Pattern/patterning 型式Pattern grammar 型式语法Pedagogic corpus 教学语料库Phraseology 短语、短语学POSgram 赋码序列、码串POS tagging/Part-of-Speech tagging 词性赋码、词性标注、词性附码POS tagger 词性赋码器、词性赋码工具Prefab 预制语块Probabilistic (基于)概率的、概率性的、盖然的Probability 概率Rationalism 理性主义Raw text/Raw corpus 生文本(语料)Reference corpus 参照语料库Regex/RE/RegExp/Regular Expressions 正则表达式Register variation 语域变异Relative frequency 相对频率Representative/Representativeness 代表性(的)Rule-based 基于规则的Sample n./v. 样本;取样、采样、抽样Sampling 取样、采样、抽样Search term 检索项Search word 检索词Segmentation 切分、分词Semantic preference 语义倾向Semantic prosody 语义韵SGML/Standard Generalized Markup Language 标准通用标记语言Skipgram 跨词序列、跨词结构Span 跨距Special purpose corpus 专用语料库、专门用途语料库、专题语料库Specialized corpus 专用语料库Standardized TTR/Standardized type-token ratio 标准化类符/形符比、标准化类/形比、标准化型次比Stand-off annotation 分离式标注Stop list 停用词表、过滤词表Stop word 停用词、过滤词Synchronic corpus 共时语料库Syntagmatic 横组合(关系)的Tag 标记、码、标注码Tagger 赋码器、赋码工具、标注工具Tagging 赋码、标注、附码Tag sequence 赋码序列、码串Tagset 赋码集、码集Text 文本TEI/Text Encoding Initiative 文本编码计划The Lexical Approach 词汇中心教学法The Lexical Syllabus 词汇大纲Token 形符、词次Token definition 形符界定、单词界定Tokenization 分词Tokenizer 分词工具Transcription 转写Translational corpus 翻译语料库Treebank 树库Trigram 三元组、三元序列、三元结构T-score T值Type 类符、词型TTR/Type-token ratio 类符/形符比、类/形比、型次比Underuse 少用、使用不足Unicode 通用码Unit of meaning 意义单位WaC/Web as Corpus 网络语料库Wildcard 通配符Word definition 单词界定Word form 词形Word family 词族Word list 词表XML/EXtensible Markup Language 可扩展标记语言Zipf's Law 齐夫定律Z-score Z值。

语料库语言学名词解释

语料库语言学名词解释

语料库语言学名词解释1. 什么是语料库语言学?语料库语言学是一门研究自然语言的学科,通过收集和分析大量的实际文本数据(称为语料库),以揭示自然语言的结构、用法和变化规律。

它结合了计算机科学、统计学和语言学等多个领域的方法和理论,旨在提供对自然语言的全面、详细和深入的理解。

2. 什么是语料库?语料库是指由大量实际文本组成的数据集合,可以包括书籍、报纸、杂志、网页、社交媒体帖子等。

这些文本通常经过数字化处理并按照一定规则进行标注,以便进行进一步的分析和研究。

3. 为什么要使用语料库进行研究?使用语料库进行研究有以下几个优点:•自然性:语料库中的文本来自真实世界,反映了人们在不同情境下使用自然语言的方式。

•大规模性:大型语料库包含了大量文本数据,可以提供更加全面且具有代表性的样本。

•可比性:通过比较不同文本之间的共同点和差异,可以揭示语言的普遍规律和个体差异。

•可验证性:研究者可以重复使用相同的语料库进行验证和复制研究结果。

•数据驱动性:语料库语言学强调通过数据来推动理论的发展,以实证为基础进行研究。

4. 常用的语料库类型4.1. 平衡语料库平衡语料库是指在不同领域、不同类型文本中均匀采样而得到的语料库。

它旨在保持各个领域和类型的文本在整个语料库中的比例相对均衡,以便更好地反映自然语言的使用情况。

4.2. 非平衡语料库非平衡语料库是指在采集过程中没有保持各个领域和类型文本比例均衡的语料库。

这种类型的语料库可能更加关注某些特定领域或主题,适用于特定研究目标。

4.3. 同步平行语料库同步平行语料库是指包含两种或多种不同自然语言版本(例如英文、法文、汉文)的对应文本。

这些文本在句子或段落级别上具有相同的语义内容,可以用于机器翻译、跨语言信息检索等领域的研究。

4.4. 异步平行语料库异步平行语料库是指包含两种或多种不同自然语言版本的对应文本,但其对应关系并不是在句子或段落级别上一一对应。

这种类型的语料库适用于跨语言补全、跨语言文本摘要等研究。

语料库术语中英对照

语料库术语中英对照

Aboutness 所言之事Absolute frequency 绝对频数Alignment (of parallel texts) (平行或对应)语料的对齐Alphanumeric 字母数字类的Annotate 标注(动词)Annotation 标注(名词)Annotation scheme 标注方案ANSI/American National Standards Institute 美国国家标准学会ASCII/American Standard Code for Information Exchange 美国信息交换标准码Associate (of keywords) (主题词的)联想词AWL/Academic word list 学术词表Balanced corpus 平衡语料库Base list 底表、基础词表Bigram 二元组、二元序列、二元结构Bi-hapax 两次词Bilingual corpus 双语语料库CA/Contrastive Analysis 对比分析Case-sensitive 大小写敏感、区分大小写Chi-square (χ2) test 卡方检验Chunk 词块CIA/Contrastive Interlanguage Analysis 中介语对比分析CLAWS/Constituent Likelihood Automatic Word-tagging System CLAWS词性赋码系统Clean text policy 干净文本原则Cluster 词簇、词丛Colligation 类联接、类连接、类联结Collocate n./v. 搭配词;搭配Collocability 搭配强度、搭配力Collocation 搭配、词语搭配Collocational strength 搭配强度Collocational framework/frame 搭配框架Comparable corpora 类比语料库、可比语料库ConcGram 同现词列、框合结构Concordance (line) 索引(行)Concordance plot (索引)词图Concordancer 索引工具Concordancing 索引生成、索引分析Context 语境、上下文Context word 语境词Contingency table 连列表、联列表、列连表、列联表Co-occurrence/Co-occurring 共现Corpora 语料库(复数)Corpus Linguistics 语料库语言学Corpus 语料库Corpus-based 基于语料库的Corpus-driven 语料库驱动的Corpus-informed 语料库指导的、参考了语料库的Co-select/Co-selection/Co-selectiveness 共选(机制)Co-text 共文DDL/Data Driven Learning 数据驱动学习Diachronic corpus 历时语料库Discourse 话语、语篇Discourse prosody 话语韵律Documentation 备检文件、文检报告EAGLES/Expert Advisory Groups on Language Engineering Standards EAGLES文本规格Empirical Linguistics 实证语言学Empiricism 经验主义Encoding 字符编码Error-tagging 错误标注、错误赋码Extended unit of meaning 扩展意义单位File-based search/concordancing 批量检索Formulaic sequence 程式化序列Frequency 频数、频率General (purpose) corpus 通用语料库Granularity 颗粒度Hapax legomenon/hapax 一次词Header/Text head 文本头、头标、头文件HMM/Hidden Markov Model 隐马尔科夫模型Idiom Principle 习语原则Index/Indexing (建)索引In-line annotation 文内标注、行内标注Key keyword 关键主题词Keyness 主题性、关键性Keyword 主题词KWIC/Key Word in Context 语境中的关键词、语境共现(方式)Learner corpus 学习者语料库Lemma 词目、原形词、词元Lemma list 词形还原对应表Lemmata 词目、原形词、词元(复数)Lemmatization 词形还原、词元化Lemmatizer 词形还原(词元化)工具Lexical bundle 词束Lexical density 词汇密度Lexical item 词项、词语项目Lexical priming 词汇触发理论Lexical richness 词汇丰富度Lexico-grammar/Lexical grammar 词汇语法Lexis 词语、词项LL/Log likelihood (ratio) 对数似然比、对数似然率Longitudinal/Developmental corpus 跟踪语料库、发展语料库、历时语料库Machine-readable 机读的Markup 标记、置标MDA/Multi-dimensional approach 多维度分析法Metadata 元信息Meta-metadata 元元信息MF/MD (Multi-feature/Multi-dimensional) approach 多特征/多维度分析法Mini-text 微型文本Misuse 误用Monitor corpus (动态)监察语料库Monolingual corpus 单语语料库Multilingual corpus 多语语料库Multimodal corpus 多模态语料库MWU/Multiword unit 多词单位MWE/Multiword expression 多词单位MI/Mutual information 互信息、互现信息N-gram N元组、N元序列、N元结构、N元词、多词序列NLP/Natural Language Processing 自然语言处理Node 节点(词)Normalization 标准化Normalized frequency 标准化频率、标称频率、归一频率Observed corpus 观察语料库Ontology 知识本体、本体Open Choice Principle 开放选择原则Overuse 超用、过多使用、使用过度、过度使用Paradigmatic 纵聚合(关系)的Parallel corpus 平行语料库、对应语料库Parole linguistics 言语语言学Parsed corpus 句法标注的语料库Parser 句法分析器Parsing 句法分析Pattern/patterning 型式Pattern grammar 型式语法Pedagogic corpus 教学语料库Phraseology 短语、短语学POSgram 赋码序列、码串POS tagging/Part-of-Speech tagging 词性赋码、词性标注、词性附码POS tagger 词性赋码器、词性赋码工具Prefab 预制语块Probabilistic (基于)概率的、概率性的、盖然的Probability 概率Rationalism 理性主义Raw text/Raw corpus 生文本(语料)Reference corpus 参照语料库Regex/RE/RegExp/Regular Expressions 正则表达式Register variation 语域变异Relative frequency 相对频率Representative/Representativeness 代表性(的)Rule-based 基于规则的Sample n./v. 样本;取样、采样、抽样Sampling 取样、采样、抽样Search term 检索项Search word 检索词Segmentation 切分、分词Semantic preference 语义倾向Semantic prosody 语义韵SGML/Standard Generalized Markup Language 标准通用标记语言Skipgram 跨词序列、跨词结构Span 跨距Special purpose corpus 专用语料库、专门用途语料库、专题语料库Specialized corpus 专用语料库Standardized TTR/Standardized type-token ratio 标准化类符/形符比、标准化类/形比、标准化型次比Stand-off annotation 分离式标注Stop list 停用词表、过滤词表Stop word 停用词、过滤词Synchronic corpus 共时语料库Syntagmatic 横组合(关系)的Tag 标记、码、标注码Tagger 赋码器、赋码工具、标注工具Tagging 赋码、标注、附码Tag sequence 赋码序列、码串Tagset 赋码集、码集Text 文本TEI/Text Encoding Initiative 文本编码计划The Lexical Approach 词汇中心教学法The Lexical Syllabus 词汇大纲Token 形符、词次Token definition 形符界定、单词界定Tokenization 分词Tokenizer 分词工具Transcription 转写Translational corpus 翻译语料库Treebank 树库Trigram 三元组、三元序列、三元结构T-score T值Type 类符、词型TTR/Type-token ratio 类符/形符比、类/形比、型次比Underuse 少用、使用不足Unicode 通用码Unit of meaning 意义单位WaC/Web as Corpus 网络语料库Wildcard 通配符Word definition 单词界定Word form 词形Word family 词族Word list 词表XML/EXtensible Markup Language 可扩展标记语言Zipf's Law 齐夫定律Z-score Z值Welcome To Download !!!欢迎您的下载,资料仅供参考!。

语料库语言学术语汇编Aglossaryofcorpuslinguistics.docx

语料库语言学术语汇编Aglossaryofcorpuslinguistics.docx

语料库语言学术语汇编 ( V2.0 )Last updated 2012-10-08 by许家金Aboutness所言之事Absolute frequency绝对频数Alignment (of parallel texts)(平行或对应)语料的对齐Alphanumeric字母数字构成的Annotate标注(动词)Annotated text/corpus标注文本 /语料库、赋码文本/语料库Annotation标注(名词)Annotation scheme标注方案ANSI/American National Standards Institute美国国家标准学会ASCII/American Standard Code for Information美国信息交换标准码ExchangeAssociates (of keywords)(主题词的)联想词AWL/academic word list学术词表Balanced corpus平衡语料库Base list/baselist底表、基础词表Bigram二元组、二元序列、二元结构Bi-text/bitext双语合并文本、双语分行对齐文本(一句源语一句目标语对齐后的文本)Bi-hapax两次词Bilingual corpus双语语料库Bootcamp debate/discourse/discussion(新手)训练营大辩论 /话语 /大探讨CA/Contrastive Analysis对比分析Case-sensitive/case sensitivity大小写敏感、区分大小写Category-based approach基于类(范畴)的方法Chi-square test/ 2χ卡方检验Chunk词块CIA/Contrastive Interlanguage Analysis中介语对比分析CLAWS/Constituent Likelihood Automatic Word-CLAWS 词性赋码系统tagging SystemClean text policy干净文本原则Cluster词簇、词丛Colligation类联接、类连接、类联结Collocate n./v.搭配词;搭配Collocability搭配强度、搭配力Collocation搭配、词语搭配Collocational strength搭配强度Collocational framework/frame搭配框架Collocational profile搭配概貌Collocational network搭配网络Comparable corpora类比语料库、可比语料库Computational Linguistics计算语言学ConcGram/concgram同现词列、框合结构Concord索引(行)(简略形式)Concordance (line)索引(行)Concordance plot(索引)词图Concordancer索引工具Concordancing索引分析Context语境、上下文Context word语境词Contextual prosody语境韵律Contingency table连列表、联列表、列连表、列联表Co-occurrence/Co-occurring共现、同现Corpus Linguistics语料库语言学Corpus, pl. corpora语料库Corpus-based基于语料库的Corpus-based translation studies基于语料库的翻译研究、语料库翻译学、基于语料库的译学研究Corpus-driven语料库驱动的Corpus-informed语料库指导下的、参考了语料库的Corpus size库容Corpus stylistics语料库文体学Co-select/co-selection/co-selectiveness共选(机制)Co-text共文Data mining数据挖掘DDL/Data Driven Learning数据驱动学习Dependency(句法)依存关系Dice coefficient Dice 系数Disambiguation消歧Diachronic corpus历时语料库Discourse话语、语篇Discourse prosody话语韵律Documentation文检报告、备检文件、说明文档EAGLES/Expert Advisory Groups on Language EAGLES 文本规格Engineering StandardsEmpirical linguistics实证语言学Empiricism经验主义Encoding字符编码Error-tagging错误标注、错误赋码Explicitation显化Extended unit of meaning扩展意义单位File-based search/concordancing批量检索Firthian (linguistics)弗斯(语言学)、弗斯学派的(语言学)Formulaic sequence程式化序列、套语Frequency频数、频率Frequency list词频表General (purpose) corpus通用语料库Genre语体、体裁Grammatical patterning语法型式Granularity颗粒度Hapax legomenon/hapax一次词Header/corpus head文本头、头标、头文件Hidden Markov model (HMM)隐马尔科夫模型、隐马模型Idiom principle习语原则、成语原则Idiomaticity习语性、地道程度Implicitation隐化Index/indexing(建)索引In-line annotation文内标注、行内标注Interlanguage中介语、过渡语Inter-coder agreement/reliability标注者间一致性/信度Introspection/introspective内省(式)(的)Intuition直觉Key keywords关键主题词Keyness主体性、关键性Keywords主题词KWIC/Key Word in Context语境中的关键词、语境共现(方式)KWIC sort语境共现排序、索引行排序Learner corpus学习者语料库Lemma, pl. lemmata/lemmas词目、原形词、词元Lemmatization词形还原、词元化Lemmatizer词形还原工具、词元化工具Lexical bundle词束Lexical density词汇密度Lexical frequency profile词频概貌Lexical grammar词汇语法Lexical item词项、词语项目Lexical patterning词语型式、词汇型式Lexical priming词汇触发理论、词汇启动理论Lexical profile词汇分布概貌Lexical richness词汇丰富度Lexico-grammar词汇语法Lexis词语、词项、词语学Log-likelihood ratio对数似然比、对数似然率Longitudinal/developmental corpus跟踪语料库、发展语料库、历时语料库Machine-readable机读的Machine translation机器翻译Manual annotation手工标注Markup/mark-up标记、置标MDA (Multi-dimensional analysis/approach)多维度分析法Metadata元信息Meta-metadata元元信息MF/MD approach/multi-feature/multi-dimensional多特征/多维度分析法analysisMisuse误用Monitor corpus(动态)监察语料库Monolingual corpus单语语料库Multilingual corpus多语语料库Multimodal corpus多模态语料库MWU/multiword unit多词单位MWE/multiword expression多词表达MI/mutual information互信息、互现信息N-gram N 元组、 N 元序列、 N 元结构、 N 元词、多词序列Neo-Firth (school)新弗斯学派Neo-Firthian新弗斯学派的NLP/Natural Language Processing自然语言处理Node (word)节点(词)Normalization标准化、(翻译)规范化、泛化Normalized frequency标准化频率、标称频率、归一频率Observed corpus观察语料库Ontology知识本体、本体Open choice principle开放选择原则OrthographicOrthography正字法Overuse过多使用、超用、使用过度、过度使用Paradigmatic纵聚合(关系)的Parallel corpus平行语料库、对应语料库Parole linguistics言语语言学Parsed corpus句法标注的语料库、树库Parser句法分析器Parsing句法标注、句法分析Pattern/patterning型式、模式Pattern grammar型式语法Pattern matching模式匹配Pedagogic corpus教学语料库Phraseology短语、短语学Phraseological unit/sequence短语单位 /序列Plain text纯文本POSgram赋码序列、码串POS sequence赋码序列、码串POS tagging/Part-of-Speech tagging词性赋码、词性标注、词性附码POS tagger词性赋码器、词性赋码工具Prefab预制语块Probabilistic(基于)概率的、概率性的、盖然的Probabilistic grammar概率语法、概率性语法、盖然语法Probability概率Query查询、检索Range分布(范围)、跨度Rationalism理性主义Raw frequency原始频数、生频数Raw text/corpus生文本 /生语料Reference corpus参照语料库Regex/RE/RegExp/regular expressions正则表达式、正则式Register variation语域变异Relative frequency相对频率Representative/representativeness代表性(的)Rule-based基于规则的S-universals源语型共性(特征)Sample n./v.样本;取样、采样、抽样Sampling取样、采样、抽样Sanitization净化Search term检索项Search word检索词Segmentation切分、分词Semantic association语义联想Semantic preference语义倾向、语义趋向Semantic prosody语义韵Sentence alignment句对齐、句级对齐SGML/Standard Generalized Markup Language标准通用标记语言Simplification简化Skipgram跨词序列、跨词结构Span跨距Specialized corpus专用语料库、专门用途语料库、专题语料库Standardized type/token ratio标准化类符 /形符比、标准化类/形比、标准化型次比Standardized TTR/STTR标准化类符 /形符比、标准化类/形比、标准化型次比Stand-off annotation分离式标注Stochastic随机的Stop list停用词表、过滤词表Stop word停用词、过滤词Synchronic corpus共时语料库Syntagmatic横组合(关系)的T score T 值T-universals目标语型共性(特征)Tag赋码、标记、附码Tagger赋码器、赋码工具、标注工具Tagging赋码、标注、附码Tag sequence赋码序列、码串Tagset赋码集、码集Tertium comparationis对比中立项、对比基础Text文本Text type文体、文类Text category文体、文类Text mining文本挖掘TEI/Text Encoding Initiative TEI 文本编码计划The Lexical Approach词汇中心教学法The Lexical Syllabus词汇大纲Token形符、词次Token definition/word definition形符界定、单词界定Tokenization分词Tokenizer分词工具Transcription转写Translation memory翻译记忆(库)Translation norms翻译规范Translationuniversals/Universal features of 翻译共性、翻译普遍特征translationTranslational corpus翻译语料库Translationese翻译体、翻译腔Treebank树库Trigram三元组、三元序列、三元结构T-score T 值Type类符、词种、词型TTR类符 /形符比、类 /形比、型次比Type/token ratio类符 /形符比、类 /形比、型次比Underuse少用、使用不足Unicode通用码Unicodify按通用码编码、转换为通用码Unit of meaning意义单位WaC/Web as Corpus网络语料库、网库Wildcard通配符Word alignment词对齐、词级对齐Word form词形Word family词族Word list词表Word sketch词语素描WSD/Word-sense disambiguation词义消歧XML/Extensible Markup Language可扩展标记语言Zipf ’ s Law/Zipfian Law齐夫定律Z score Z 值常用语料库ACE Australian Corpus of EnglishANC American National CorpusARCHER A Representative Corpus of Historical English Registers BASE British Academic Spoken English CorpusBAWE British Academic Written English CorpusBNC British National CorpusBoE Bank of EnglishBrown Brown CorpusCANCODE Cambridge and Nottingham Corpus of Discourse in English CEC China English CorpusCEM Corpus for English MajorsCHILDES Child Language Data Exchange SystemCIC Cambridge International CorpusCLEC Chinese Learners English CorpusCLOB2009 Brown family corpus of British EnglishCOBUILD Collins Birmingham University International Language Database COCA The Corpus of Contemporary American EnglishCOLSEC College Learners Spoken English CorpusCOLT Bergen Corpus of London Teenage LanguageCrown2009 Brown family corpus of American EnglishFLOB Freiburg-LOB Corpus of British EnglishFROWN Freiburg-Brown Corpus of American EnglishHelsinki Diachronic part of the Helsinki Corpus of English Texts DiachroniccorpusHKCSE Hong Kong Corpus of Spoken EnglishICE International Corpus of EnglishICE-GB International Corpus of English: Great BritainICLE International Corpus of Learner EnglishJEFLL Japanese EFL Learner CorpusLCMC Lancaster Corpus Mandarin ChineseLINDSEI Louvain International Database of Spoken English Interlanguage LIVAC Linguistic Variations in Chinese Speech CommunitiesLLC London Lund CorpusLOB Lancaster-Oslo/Bergen CorpusLOCNESS Louvain Corpus of Native English EssaysLONGDALE LONGitudinal DAtabase of Learner EnglishMICASE Michigan Corpus of Academic Spoken EnglishMICUSP Michigan Corpus of Upper-level Student PapersNESSIE Native English Speakers ’Similarly and Identically-prompted EssaysPACCEL Parallel Corpus of Chinese EFL LearnersSBCSAE Santa Barbara Corpus of Spoken American EnglishSCCSD The Spoken Chinese Corpus of Situated DiscourseSCORE Singapore Corpus of Research in EducationSEC Spoken English CorpusSECCL Spoken English Corpus of Chinese LearnersSECOPETS Spoken English Corpus of Public English Test SystemSEU Survey of English UsageSWECCL Spoken and Written English Corpus of Chinese Learners WECCL Written English Corpus of Chinese LearnersLast updated 2012-08-08 by许家金。

语料库常用术语

语料库常用术语

语料库常用术语Type 类符Tokens 形符例如“I see a cat and a dog”类符6个,形符7个Type/token ratio =TTRTTR 是衡量文本中词汇密度的常用方法,可以辅助说明文本的词汇难度。

但是,文本中有大量功能词出现,文本每增加一个词,形符就会增加一个,但类符却未必随之增加。

这样文本越长,功能词重复次数越多,TTR会越低。

因此用TTR衡量词汇密度不合理,于是,出现了标准化类符/形符比,即STTR。

例如,计算每个文本1000词的TTR,均值处理,得出STTR。

Frequency(频率)例如每百万词、十万词中,某单词出现次数。

常常将某个单词在两个语料库中出现的频率参照两个语料库的容量,用卡方检验或对数似然率进行对比,来确定两个库中该单词的使用是否有差异。

Wordlist词表根据单词或词组在语篇中出现的频率大小而排列形成的列表。

RanksLemma词目,词元比如go是lemma,对应各种屈折变化形式(inflections),go,goes,went,going,gone共5种屈折变化形式。

在分析语言时,需要将它们全部归到go名下,这个过程叫词形还原。

Keywords关键词、主题词positive keywords 正关键词negative keywords 负关键词Concordance 索引(KWIC 语境中的关键词key words in context)运用索引软件在语料库中查询某词或短语的使用实例,然后将所有符合条件的语言使用实例及其语境以清单的形式列出。

通过前后语境,可以分析“collocation词汇搭配”“colligation 类连接、语法搭配”“semantic preference语义倾向”“semantic prosody语义韵”Collocation词汇搭配搭配强度MI,T-score ,Z-scoreColligation类连接、语法搭配semantic prosody语义韵词汇的语义韵大体可分为积极语义韵、中性语义韵、消极语义韵。

语料库翻译学的几个术语

语料库翻译学的几个术语

语料库翻译学的几个术语语料库翻译学是一个涵盖了语言学、翻译理论和实践的跨学科领域。

在这个领域中,有几个重要的术语需要我们了解。

我们来看语料库。

语料库类似于一个大型的语言数据库,它储存了大量的语言材料,包括文本、语音、图片等。

这些材料可以是某个机构、组织或个人收集的,也可以是自行收集的。

语料库在翻译中扮演着重要的角色,它为翻译者提供了丰富的资源,可以帮助他们找到最合适的翻译,从而提高翻译质量和效率。

接下来是翻译。

翻译是将一个语言材料转换成另一种语言材料的过程。

这个过程涉及到对源语言的理解和目标语言的表达。

在翻译过程中,翻译者需要考虑到许多因素,如文化、语境、语法等。

根据不同的翻译目的和要求,翻译者可以采用不同的翻译策略,包括直译、意译、归化等。

关键词在语料库翻译学中也有着重要的作用。

关键词是指那些在文章中出现频率最高的词汇,它们通常指示了文章的主题和内容。

在翻译过程中,翻译者可以通过对关键词的研究和分析,更好地理解原文的主旨和意图,从而找到最合适的翻译。

最后是翻译风格。

翻译风格指的是翻译时应该遵循的规范和标准。

在语料库翻译学中,翻译风格包括语法、拼写和标点符号的使用等方面。

翻译者需要确保翻译的准确性和流畅性,同时还需要尊重目标语言的习惯和规则。

在翻译过程中,翻译者可以根据目标语言的特点和要求,采用不同的翻译策略,以获得更好的翻译效果。

语料库翻译学中的几个术语包括语料库、翻译、关键词和翻译风格。

这些术语在翻译理论和实践中有重要的应用价值。

通过深入了解这些术语,我们可以更好地理解翻译的过程和技巧,提高自己的翻译能力和水平。

语料库翻译学:内涵与意义在翻译领域中,语料库翻译学逐渐引起了人们的。

语料库是指由大量真实语境中的语言运用实例组成的数据库,而语料库翻译学则侧重于研究翻译过程中语言规律与现象。

本文将通过分析语料库翻译学的内涵和意义,让读者更好地了解其在语言学习、翻译实践和文化交流等方面的作用。

语料库翻译学的概念与背景语料库翻译学是以语料库为基本研究工具,对翻译过程中产生的语言现象进行统计、分析和研究的一门学科。

语料库语言学术语汇编Aglossaryofcorpuslinguistics

语料库语言学术语汇编Aglossaryofcorpuslinguistics

语料库语言学术语汇编Aglossaryofcorpuslinguistics语料库语言学术语汇编(V2.0)Last updated 2012-10-08 by 许家金Aboutness 所言之事Absolute frequency 绝对频数Alignment (of parallel texts)(平行或对应)语料的对齐Alphanumeric 字母数字构成的Annotate标注(动词)Annotated text/corpus 标注文本/语料库、赋码文本/语料库Annotation标注(名词)Annotation scheme标注方案ANSI/American National Standards Institute美国国家标准学会ASCII/American Standard Code for Information Exchange美国信息交换标准码Associates (of keywords)(主题词的)联想词AWL/academic word list 学术词表Balanced corpus 平衡语料库Base list/baselist 底表、基础词表Bigram 二元组、二元序列、二元结构Bi-text/bitext双语合并文本、双语分行对齐文本(一句源语一句目标语对齐后的文本)Bi-hapax 两次词Bilingual corpus双语语料库Bootcamp debate/discourse/discussion (新手)训练营大辩论/话语/大探讨CA/Contrastive Analysis 对比分析Case-sensitive/case sensitivity 大小写敏感、区分大小写Category-based approach 基于类(范畴)的方法Chi-square test/χ2 卡方检验Chunk词块CIA/Contrastive Interlanguage Analysis中介语对比分析CLAWS/Constituent Likelihood Automatic Word-tagging System CLAWS 词性赋码系统Clean text policy 干净文本原则Cluster 词簇、词丛Colligation 类联接、类连接、类联结Collocate n./v.搭配词;搭配Collocability 搭配强度、搭配力Collocation搭配、词语搭配Collocational strength 搭配强度Collocational framework/frame 搭配框架Collocational profile搭配概貌、管路敷设技术通过管线不仅可以解决吊顶层配置不规范高中资料试卷问题,而且可保障各类管路习题到位。

雅思听力常见名词语料库

雅思听力常见名词语料库

雅思听力常见名词语料库
这个文档是为了提供一个有关雅思听力常见名词的语料库。


下是一些常见的名词,可供参考:
1. 听力测试: 雅思考试中的一项部分,评估考生的听力能力。

2. 倍速播放: 使用加速的速度播放音频材料,以提高听力理解。

3. 填空题: 一种考试题型,要求考生根据听到的内容填写空缺
的单词或短语。

4. 多选题: 一种考试题型,要求考生从多个选项中选择正确答案。

5. 单选题: 一种考试题型,要求考生从多个选项中选择唯一正
确答案。

6. 话题词汇: 与特定主题相关的词汇,出现在听力材料中,考
生需要理解和管理这些词汇。

7. 辅助听力材料: 针对听力理解困难的考生提供的补充材料,
如字幕或文本。

8. 听力技巧: 提高听力能力的方法和技巧,如关注关键词,抓
住上下文线索等。

9. 难度等级: 衡量听力材料难度的指标,通常分为易、中、难三个等级。

此外,我们还可以向你提供更多具体的名词和相关信息,请告诉我们你感兴趣的具体内容,我们将为你提供更详尽的语料库。

---
感谢你选择我们的文档服务!如有任何其他问题,请随时告诉我们。

语料库术语中英对照

语料库术语中英对照

Aboutness 所言之事Absolute frequency 绝对频数Alignment (of parallel texts) (平行或对应)语料的对齐Alphanumeric 字母数字类的Annotate 标注(动词)Annotation 标注(名词)Annotation scheme 标注方案ANSI/American National Standards Institute 美国国家标准学会ASCII/American Standard Code for Information Exchange 美国信息交换标准码Associate (of keywords) (主题词的)联想词AWL/Academic word list 学术词表Balanced corpus 平衡语料库Base list 底表、基础词表Bigram 二元组、二元序列、二元结构Bi-hapax 两次词Bilingual corpus 双语语料库CA/Contrastive Analysis 对比分析Case-sensitive 大小写敏感、区分大小写Chi-square (χ2) test 卡方检验Chunk 词块CIA/Contrastive Interlanguage Analysis 中介语对比分析CLAWS/Constituent Likelihood Automatic Word-tagging System CLAWS词性赋码系统Clean text policy 干净文本原则Cluster 词簇、词丛Colligation 类联接、类连接、类联结Collocate n./v. 搭配词;搭配Collocability 搭配强度、搭配力Collocation 搭配、词语搭配Collocational strength 搭配强度Collocational framework/frame 搭配框架Comparable corpora 类比语料库、可比语料库ConcGram 同现词列、框合结构Concordance (line) 索引(行)Concordance plot (索引)词图Concordancer 索引工具Concordancing 索引生成、索引分析Context 语境、上下文Context word 语境词Contingency table 连列表、联列表、列连表、列联表Co-occurrence/Co-occurring 共现Corpora 语料库(复数)Corpus Linguistics 语料库语言学Corpus 语料库Corpus-based 基于语料库的Corpus-driven 语料库驱动的Corpus-informed 语料库指导的、参考了语料库的Co-select/Co-selection/Co-selectiveness 共选(机制)Co-text 共文DDL/Data Driven Learning 数据驱动学习Diachronic corpus 历时语料库Discourse 话语、语篇Discourse prosody 话语韵律Documentation 备检文件、文检报告EAGLES/Expert Advisory Groups on Language Engineering Standards EAGLES文本规格Empirical Linguistics 实证语言学Empiricism 经验主义Encoding 字符编码Error-tagging 错误标注、错误赋码Extended unit of meaning 扩展意义单位File-based search/concordancing 批量检索Formulaic sequence 程式化序列Frequency 频数、频率General (purpose) corpus 通用语料库Granularity 颗粒度Hapax legomenon/hapax 一次词Header/Text head 文本头、头标、头文件HMM/Hidden Markov Model 隐马尔科夫模型Idiom Principle 习语原则Index/Indexing (建)索引In-line annotation 文内标注、行内标注Key keyword 关键主题词Keyness 主题性、关键性Keyword 主题词KWIC/Key Word in Context 语境中的关键词、语境共现(方式)Learner corpus 学习者语料库Lemma 词目、原形词、词元Lemma list 词形还原对应表Lemmata 词目、原形词、词元(复数)Lemmatization 词形还原、词元化Lemmatizer 词形还原(词元化)工具Lexical bundle 词束Lexical density 词汇密度Lexical item 词项、词语项目Lexical priming 词汇触发理论Lexical richness 词汇丰富度Lexico-grammar/Lexical grammar 词汇语法Lexis 词语、词项LL/Log likelihood (ratio) 对数似然比、对数似然率Regex/RE/RegExp/Regular Expressions 正则表达式Register variation 语域变异Relative frequency 相对频率Representative/Representativeness 代表性(的)Rule-based 基于规则的Sample n./v. 样本;取样、采样、抽样Sampling 取样、采样、抽样Search term 检索项Search word 检索词Segmentation 切分、分词Semantic preference 语义倾向Semantic prosody 语义韵SGML/Standard Generalized Markup Language 标准通用标记语言Skipgram 跨词序列、跨词结构Span 跨距Special purpose corpus 专用语料库、专门用途语料库、专题语料库Specialized corpus 专用语料库Standardized TTR/Standardized type-token ratio 标准化类符/形符比、标准化类/形比、标准化型次比Stand-off annotation 分离式标注Stop list 停用词表、过滤词表Stop word 停用词、过滤词Synchronic corpus 共时语料库Syntagmatic 横组合(关系)的Tag 标记、码、标注码Tagger 赋码器、赋码工具、标注工具Tagging 赋码、标注、附码Tag sequence 赋码序列、码串Tagset 赋码集、码集Text 文本TEI/Text Encoding Initiative 文本编码计划The Lexical Approach 词汇中心教学法The Lexical Syllabus 词汇大纲Token 形符、词次Token definition 形符界定、单词界定Tokenization 分词Tokenizer 分词工具Transcription 转写Translational corpus 翻译语料库Treebank 树库Trigram 三元组、三元序列、三元结构T-score T值Type 类符、词型TTR/Type-token ratio 类符/形符比、类/形比、型次比Underuse 少用、使用不足Unicode 通用码Unit of meaning 意义单位WaC/Web as Corpus 网络语料库Wildcard 通配符Word definition 单词界定Word form 词形Word family 词族Word list 词表XML/EXtensible Markup Language 可扩展标记语言Zipf's Law 齐夫定律Z-score Z值。

【VIP专享】语料库术语中英对照

【VIP专享】语料库术语中英对照

Aboutness 所言之事Absolute frequency 绝对频数Alignment (of parallel texts) (平行或对应)语料的对齐Alphanumeric 字母数字类的Annotate 标注(动词)Annotation 标注(名词)Annotation scheme 标注方案ANSI/American National Standards Institute 美国国家标准学会ASCII/American Standard Code for Information Exchange 美国信息交换标准码Associate (of keywords) (主题词的)联想词AWL/Academic word list 学术词表Balanced corpus 平衡语料库Base list 底表、基础词表Bigram 二元组、二元序列、二元结构Bi-hapax 两次词Bilingual corpus 双语语料库CA/Contrastive Analysis 对比分析Case-sensitive 大小写敏感、区分大小写Chi-square (χ2) test 卡方检验Chunk 词块CIA/Contrastive Interlanguage Analysis 中介语对比分析CLAWS/Constituent Likelihood Automatic Word-tagging System CLAWS词性赋码系统Clean text policy 干净文本原则Cluster 词簇、词丛Colligation 类联接、类连接、类联结Collocate n./v. 搭配词;搭配Collocability 搭配强度、搭配力Collocation 搭配、词语搭配Collocational strength 搭配强度Collocational framework/frame 搭配框架Comparable corpora 类比语料库、可比语料库ConcGram 同现词列、框合结构Concordance (line) 索引(行)Concordance plot (索引)词图Concordancer 索引工具Concordancing 索引生成、索引分析Context 语境、上下文Context word 语境词Contingency table 连列表、联列表、列连表、列联表Co-occurrence/Co-occurring 共现Corpora 语料库(复数)Corpus Linguistics 语料库语言学Corpus 语料库Corpus-based 基于语料库的Corpus-driven 语料库驱动的Corpus-informed 语料库指导的、参考了语料库的Co-select/Co-selection/Co-selectiveness 共选(机制)Co-text 共文DDL/Data Driven Learning 数据驱动学习Diachronic corpus 历时语料库Discourse 话语、语篇Discourse prosody 话语韵律Documentation 备检文件、文检报告EAGLES/Expert Advisory Groups on Language Engineering Standards EAGLES文本规格Empirical Linguistics 实证语言学Empiricism 经验主义Encoding 字符编码Error-tagging 错误标注、错误赋码Extended unit of meaning 扩展意义单位File-based search/concordancing 批量检索Formulaic sequence 程式化序列Frequency 频数、频率General (purpose) corpus 通用语料库Granularity 颗粒度Hapax legomenon/hapax 一次词Header/Text head 文本头、头标、头文件HMM/Hidden Markov Model 隐马尔科夫模型Idiom Principle 习语原则Index/Indexing (建)索引In-line annotation 文内标注、行内标注Key keyword 关键主题词Keyness 主题性、关键性Keyword 主题词KWIC/Key Word in Context 语境中的关键词、语境共现(方式)Learner corpus 学习者语料库Lemma 词目、原形词、词元Lemma list 词形还原对应表Lemmata 词目、原形词、词元(复数)Lemmatization 词形还原、词元化Lemmatizer 词形还原(词元化)工具Lexical bundle 词束Lexical density 词汇密度Lexical item 词项、词语项目Lexical priming 词汇触发理论Lexical richness 词汇丰富度Lexico-grammar/Lexical grammar 词汇语法Lexis 词语、词项LL/Log likelihood (ratio) 对数似然比、对数似然率Longitudinal/Developmental corpus 跟踪语料库、发展语料库、历时语料库Machine-readable 机读的Markup 标记、置标MDA/Multi-dimensional approach 多维度分析法Metadata 元信息Meta-metadata 元元信息MF/MD (Multi-feature/Multi-dimensional) approach 多特征/多维度分析法Mini-text 微型文本Misuse 误用Monitor corpus (动态)监察语料库Monolingual corpus 单语语料库Multilingual corpus 多语语料库Multimodal corpus 多模态语料库MWU/Multiword unit 多词单位MWE/Multiword expression 多词单位MI/Mutual information 互信息、互现信息N-gram N元组、N元序列、N元结构、N元词、多词序列NLP/Natural Language Processing 自然语言处理Node 节点(词)Normalization 标准化Normalized frequency 标准化频率、标称频率、归一频率Observed corpus 观察语料库Ontology 知识本体、本体Open Choice Principle 开放选择原则Overuse 超用、过多使用、使用过度、过度使用Paradigmatic 纵聚合(关系)的Parallel corpus 平行语料库、对应语料库Parole linguistics 言语语言学Parsed corpus 句法标注的语料库Parser 句法分析器Parsing 句法分析Pattern/patterning 型式Pattern grammar 型式语法Pedagogic corpus 教学语料库Phraseology 短语、短语学POSgram 赋码序列、码串POS tagging/Part-of-Speech tagging 词性赋码、词性标注、词性附码POS tagger 词性赋码器、词性赋码工具Prefab 预制语块Probabilistic (基于)概率的、概率性的、盖然的Probability 概率Rationalism 理性主义Raw text/Raw corpus 生文本(语料)Reference corpus 参照语料库Regex/RE/RegExp/Regular Expressions 正则表达式Register variation 语域变异Relative frequency 相对频率Representative/Representativeness 代表性(的)Rule-based 基于规则的Sample n./v. 样本;取样、采样、抽样Sampling 取样、采样、抽样Search term 检索项Search word 检索词Segmentation 切分、分词Semantic preference 语义倾向Semantic prosody 语义韵SGML/Standard Generalized Markup Language 标准通用标记语言Skipgram 跨词序列、跨词结构Span 跨距Special purpose corpus 专用语料库、专门用途语料库、专题语料库Specialized corpus 专用语料库Standardized TTR/Standardized type-token ratio 标准化类符/形符比、标准化类/形比、标准化型次比Stand-off annotation 分离式标注Stop list 停用词表、过滤词表Stop word 停用词、过滤词Synchronic corpus 共时语料库Syntagmatic 横组合(关系)的Tag 标记、码、标注码Tagger 赋码器、赋码工具、标注工具Tagging 赋码、标注、附码Tag sequence 赋码序列、码串Tagset 赋码集、码集Text 文本TEI/Text Encoding Initiative 文本编码计划The Lexical Approach 词汇中心教学法The Lexical Syllabus 词汇大纲Token 形符、词次Token definition 形符界定、单词界定Tokenization 分词Tokenizer 分词工具Transcription 转写Translational corpus 翻译语料库Treebank 树库Trigram 三元组、三元序列、三元结构T-score T值Type 类符、词型TTR/Type-token ratio 类符/形符比、类/形比、型次比Underuse 少用、使用不足Unicode 通用码Unit of meaning 意义单位WaC/Web as Corpus 网络语料库Wildcard 通配符Word definition 单词界定Word form 词形Word family 词族Word list 词表XML/EXtensible Markup Language 可扩展标记语言Zipf's Law 齐夫定律Z-score Z值。

语料库术语汇编

语料库术语汇编

语料库术语汇编1000字1. 语料库 (Corpus):一种语言学研究工具,指一定时间内一定领域内被记录下来的语言使用材料的整合。

2. 词频 (Frequency):指特定词语在语料库中出现的频率。

通常用来研究该词语在不同领域或语言环境下的使用情况。

3. 词汇 (Vocabulary):指一个语言或领域中所涉及的全部词汇。

在语料库研究中,词汇可以从不同的角度进行分类和分析。

4. 标记 (Tagging):是指对语料库中每个词语进行词性和句法结构等标记,使其变得更易于分析。

5. 约定 (Convention):是指研究人员在语料库建设和分析中的一些共同规范,如数据格式、标注方式等。

6. 清洗 (Cleaning):是指剔除语料库中不符合研究要求或不准确的数据,以保证研究的准确性。

7. 分词 (Tokenization):是指将一个连续的文本分割成一个个离散的词语或符号的过程。

分词是语料库研究的基础。

8. 停止词 (Stop Words):指在文本中频繁出现但在分析中往往没有实质意义的词语,如“的”、“和”等。

9. 语法 (Grammar):是指一个语言中的语音、词汇、句法和语用规则等有组织的系统,可以用来解释和生成语言的各种表达。

10. 句法 (Syntax):是指语言中句子的结构和组成规则。

语料库分析中的句法分析可以用来研究语言中的语法规则。

11. 词频分布 (Frequency Distribution):是指一个语料库中各个词语出现的频率分布情况。

通过词频分布可以研究语言中不同词汇的使用情况。

12. 词向量 (Word Vector):是指将词语表示成向量的一种技术。

在语料库研究中,词向量可以用来进行词语分类和聚类分析。

13. 上下文 (Context):是指一个词语在文本中所处的语言环境和意义。

在语料库研究中,上下文分析可以帮助研究人员深入理解词语和语句的含义。

14. 模型 (Model):是指通过统计或机器学习等方法建立的能够反映语言规律或模式的工具或算法。

语料库语言学术语集

语料库语言学术语集
EAGLES文本规格
Empirical Linguistics
实证语言学
Empiricism
经验主义
Encoding
字符编码
Error-tagging
错误标注、错误赋码
Extended unit of meaning
扩展意义单位
File-based search/concordancing
批量检索
Formulaic sequence
中介语对比分析
CLAWS/Constituent Likelihood Automatic Word-tagging System
CLAWS词性赋码系统
Clean text policy
干净文本原则
Cluster
词簇、词丛
Colligation
类联接、类连接、类联结
Collocaten./v.
搭配词;搭配
词汇触发理论
Lexical richness
词汇丰富度
Lexico-grammar/Lexical grammar
词汇语法
Lexis
词语、词项
LL/Log likelihood (ratio)
对数似然比、对数似然率
Longitudinal/Developmental corpus
跟踪语料库、发展语料库、历时语料库
Absolute frequency
绝对频数
Alignment (of parallel texts)
(平行或对应)语料的对齐
Alphanumeric
字母数字类的
Annotate
标注(动词)
Annotation
标注(名词)
Annotation scheme

语料库术语中英对照

语料库术语中英对照

语料库术语中英对照Aboutness 所⾔之事Absolute frequency 绝对频数Alignment (of parallel texts) (平⾏或对应)语料的对齐Alphanumeric 字母数字类的Annotate 标注(动词)Annotation 标注(名词)Annotation scheme 标注⽅案ANSI/American National Standards Institute 美国国家标准学会ASCII/American Standard Code for Information Exchange 美国信息交换标准码Associate (of keywords) (主题词的)联想词AWL/Academic word list 学术词表Balanced corpus 平衡语料库Base list 底表、基础词表Bigram ⼆元组、⼆元序列、⼆元结构Bi-hapax 两次词Bilingual corpus 双语语料库CA/Contrastive Analysis 对⽐分析Case-sensitive ⼤⼩写敏感、区分⼤⼩写Chi-square (χ2) test 卡⽅检验Chunk 词块CIA/Contrastive Interlanguage Analysis 中介语对⽐分析CLAWS/Constituent Likelihood Automatic Word-tagging System CLAWS词性赋码系统Clean text policy ⼲净⽂本原则Cluster 词簇、词丛Colligation 类联接、类连接、类联结Collocate n./v. 搭配词;搭配Collocability 搭配强度、搭配⼒Collocation 搭配、词语搭配Collocational strength 搭配强度Collocational framework/frame 搭配框架Comparable corpora 类⽐语料库、可⽐语料库ConcGram 同现词列、框合结构Concordance (line) 索引(⾏)Concordance plot (索引)词图Concordancer 索引⼯具Concordancing 索引⽣成、索引分析Context 语境、上下⽂Context word 语境词Contingency table 连列表、联列表、列连表、列联表Co-occurrence/Co-occurring 共现Corpora 语料库(复数)Corpus Linguistics 语料库语⾔学Corpus 语料库Corpus-based 基于语料库的Corpus-driven 语料库驱动的Corpus-informed 语料库指导的、参考了语料库的Co-select/Co-selection/Co-selectiveness 共选(机制)Co-text 共⽂DDL/Data Driven Learning 数据驱动学习Diachronic corpus 历时语料库Discourse 话语、语篇Discourse prosody 话语韵律Documentation 备检⽂件、⽂检报告EAGLES/Expert Advisory Groups on Language Engineering Standards EAGLES⽂本规格Empirical Linguistics 实证语⾔学Empiricism 经验主义Encoding 字符编码Error-tagging 错误标注、错误赋码Extended unit of meaning 扩展意义单位File-based search/concordancing 批量检索Formulaic sequence 程式化序列Frequency 频数、频率General (purpose) corpus 通⽤语料库Granularity 颗粒度Hapax legomenon/hapax ⼀次词Header/Text head ⽂本头、头标、头⽂件HMM/Hidden Markov Model 隐马尔科夫模型Idiom Principle 习语原则Index/Indexing (建)索引In-line annotation ⽂内标注、⾏内标注Key keyword 关键主题词Keyness 主题性、关键性Keyword 主题词KWIC/Key Word in Context 语境中的关键词、语境共现(⽅式)Learner corpus 学习者语料库Lemma 词⽬、原形词、词元Lemma list 词形还原对应表Lemmata 词⽬、原形词、词元(复数)Lemmatization 词形还原、词元化Lemmatizer 词形还原(词元化)⼯具Lexical bundle 词束Lexical density 词汇密度Lexical item 词项、词语项⽬Lexical priming 词汇触发理论Lexical richness 词汇丰富度Lexico-grammar/Lexical grammar 词汇语法Lexis 词语、词项LL/Log likelihood (ratio) 对数似然⽐、对数似然率Longitudinal/Developmental corpus 跟踪语料库、发展语料库、历时语料库Machine-readable 机读的Markup 标记、置标MDA/Multi-dimensional approach 多维度分析法Metadata 元信息Meta-metadata 元元信息MF/MD (Multi-feature/Multi-dimensional) approach 多特征/多维度分析法Mini-text 微型⽂本Misuse 误⽤Monitor corpus (动态)监察语料库Monolingual corpus 单语语料库Multilingual corpus 多语语料库Multimodal corpus 多模态语料库MWU/Multiword unit 多词单位MWE/Multiword expression 多词单位MI/Mutual information 互信息、互现信息N-gram N元组、N元序列、N元结构、N元词、多词序列NLP/Natural Language Processing ⾃然语⾔处理Node 节点(词)Normalization 标准化Normalized frequency 标准化频率、标称频率、归⼀频率Observed corpus 观察语料库Ontology 知识本体、本体Open Choice Principle 开放选择原则Overuse 超⽤、过多使⽤、使⽤过度、过度使⽤Paradigmatic 纵聚合(关系)的Parallel corpus 平⾏语料库、对应语料库Parole linguistics ⾔语语⾔学Parsed corpus 句法标注的语料库Parser 句法分析器Parsing 句法分析Pattern/patterning 型式Pattern grammar 型式语法Pedagogic corpus 教学语料库Phraseology 短语、短语学POSgram 赋码序列、码串POS tagging/Part-of-Speech tagging 词性赋码、词性标注、词性附码POS tagger 词性赋码器、词性赋码⼯具Prefab 预制语块Probabilistic (基于)概率的、概率性的、盖然的Probability 概率Rationalism 理性主义Raw text/Raw corpus ⽣⽂本(语料)Reference corpus 参照语料库Regex/RE/RegExp/Regular Expressions 正则表达式Register variation 语域变异Relative frequency 相对频率Representative/Representativeness 代表性(的)Rule-based 基于规则的Sample n./v. 样本;取样、采样、抽样Sampling 取样、采样、抽样Search term 检索项Search word 检索词Segmentation 切分、分词Semantic preference 语义倾向Semantic prosody 语义韵SGML/Standard Generalized Markup Language 标准通⽤标记语⾔Skipgram 跨词序列、跨词结构Span 跨距Special purpose corpus 专⽤语料库、专门⽤途语料库、专题语料库Specialized corpus 专⽤语料库Standardized TTR/Standardized type-token ratio 标准化类符/形符⽐、标准化类/形⽐、标准化型次⽐Stand-off annotation 分离式标注Stop list 停⽤词表、过滤词表Stop word 停⽤词、过滤词Synchronic corpus 共时语料库Syntagmatic 横组合(关系)的Tag 标记、码、标注码Tagger 赋码器、赋码⼯具、标注⼯具Tagging 赋码、标注、附码Tag sequence 赋码序列、码串Tagset 赋码集、码集Text ⽂本TEI/Text Encoding Initiative ⽂本编码计划The Lexical Approach 词汇中⼼教学法The Lexical Syllabus 词汇⼤纲Token 形符、词次Token definition 形符界定、单词界定Tokenization 分词Tokenizer 分词⼯具Transcription 转写Translational corpus 翻译语料库Treebank 树库Trigram 三元组、三元序列、三元结构T-score T值Type 类符、词型TTR/Type-token ratio 类符/形符⽐、类/形⽐、型次⽐Underuse 少⽤、使⽤不⾜Unicode 通⽤码Unit of meaning 意义单位WaC/Web as Corpus ⽹络语料库Wildcard 通配符Word definition 单词界定Word form 词形Word family 词族Word list 词表XML/EXtensible Markup Language 可扩展标记语⾔Zipf's Law 齐夫定律Z-score Z值。

语料库语言学术语汇编-北外语料库语言学

语料库语言学术语汇编-北外语料库语言学
词汇分布概貌
Lexical richness
词汇丰富度
Lexico-grammar
词汇语法
Lexis
词语、词项
Log-likelihood ratio
对数似然比、对数似然率
Longitudinal/developmentalcorpus
跟踪语料库、发展语料库、历时语料库
Machine-readable
美国信息交换标准码
Associates (of keywords)
(主题词的)联想词
AWL/academic word list
学术词表
Balanced corpus
平衡语料库
Base list/baselist
底表、基础词表
Bigram
二元组、二元序列、二元结构
Bi-text/bitext
双语合璧文本、双语合并文本、双语分行对齐文本(一句源语一句目标语对齐后的文本)
开放选择原则
Orthographic
正字层面的、字面的
Orthography
正字法
Overuse
过多使用、超用、使用过度、过度使用
Paradigmatic
纵聚合(关系)的
Parallel corpus
平行语料库、对应语料库
Parole linguistics
言语语言学
Parsed corpus
句法标注的语料库、树库
批量检索
Firthian (linguistics)
弗斯(语言学)、弗斯学派的(语言学)
Fisher’sexact test
费舍尔精确检验
Formulaic sequence
程式化序列、套语
Frequency

汉语语料库分词类词频表 高频词汇

汉语语料库分词类词频表 高频词汇

汉语语料库分词类词频表高频词汇
高频词汇:人类视角情感真人叙述自然度流畅度机器生成
标题:人类视角下的真实叙述
段落一:人类的视角是我们认识世界的窗口,它赋予了我们独特的感知能力和情感体验。

我们能够以真实的方式叙述所见所闻,让读者仿佛身临其境。

这种真实的叙述不仅仅是冷冰冰的事实堆砌,更是我们内心情感的流露。

段落二:在叙述过程中,我们需要保持自然度和流畅度。

不得使用机器生成的语句,而是要尽可能用准确的中文表达。

避免冗长的描述,用简洁明了的语言传达我们的观点和情感。

段落三:同时,我们要确保文章的独一性,避免内容重复出现。

每段都应具备明确的主题,并使用适当的标题来提升阅读流畅性。

不必过多自我介绍,而是将重点放在创作内容上。

段落四:在叙述中,我们不应过多依赖图像的语句,如“如图所示”,而是用生动的文字描绘景象。

这样读者能够更好地理解我们的叙述,感受到我们所表达的情感。

段落五:为了确保文章的准确无误,我们需要以严肃认真的态度对待创作。

避免在文章中提出同一个问题,以避免读者产生困惑。

我们要用丰富多样的词汇来表达自己的观点和情感,让文章更加生动
有趣。

段落六:最重要的是,我们要以人类的视角进行写作,使文章富有情感。

让读者感到仿佛是真人在叙述,与我们产生共鸣。

这样才能真正实现人与人之间的情感交流,打造出优秀的作品。

通过以上要求的合理运用,我们可以创作出一篇充满情感和真实感的文章,让读者感受到我们的真实叙述。

让我们用人类的视角,以自然流畅的语言,创作出一份独特的作品吧!。

语料库常用术语解释

语料库常用术语解释
为何要建立语料库?为何要用语料库方法 研究语言并将其运用于语言学习?
Frank Liang
Example: Start or begin?在口语中哪个更常用?
我们的老师经常说Let’s begin!之类的话,对吗?
Frank Liang
我们再回到前面提到的问题,如何检索analyze的各种屈折形式?使用“或者”符号,如: There_EX is_VBZ a_AT1 book_NN1 on_II the_AT desk_NN1 . Special corpora are not balanced (except within the scope of their given purpose) and, if used for other purposes, give a distorted view of the language segment.
How many words must a learner know in order to participate in everyday conversation?
Materials developed with a corpus can therefore be more authentic and can illustrate language as it is really used.
但有人在BNC等语料库中查到,在口语中,start更 在操作界面上,提取多次序列时,先确定序列中所含词数N(如三词序列,四次序列等),计算机自动读取文本,统计每个N序列出现
的频数。
0个或多个任意数目的字母、数字及两者的组合
常用。 正则表达式区分大小写、全角和半角,输入时要格外小心。
但是,另外一些文本可能使用analyse,或者我们还需要检索它的曲折形式,如analyzed、analyzing、analyzes、analysed、analysing 、analyses等,分别检索就很麻烦了。 \ban\b 匹配an,不匹配a、and或sand There_EX is_VBZ a_AT1 book_NN1 on_II the_AT desk_NN1 . Special corpora are not balanced (except within the scope of their given purpose) and, if used for other purposes, give a distorted

语料库 入门

语料库 入门

何谓语料库检索
Concordancers are developed to produce concordance lines of a specific string of text.
Wordsmith Tools
AntConc
Many others
语义韵semantic prosody
• “快速导航”翻译成“fast guide” 对不对? • 上海世博会英文网站
• 在口头表达、写作或翻译中如何确定某些用 法是地道的? • 学习者一般要有多大词汇量才能读懂英文报 纸? • 哪些是商务英语中最常用的单词和短语? • 某种考试中,哪些单词、词组或其他语言现 象出现的频率特别高? • 如何通过量化统计来分析文学作品的写作风 格?
• 有专门的软件根据词形还原表,自动对文本进行 词形还原。
语料库语言学常用术语
• Keywords 关键词
– Keywords are words whose normalized frequency in one corpus (observed corpus) is significantly higher or lower than that in another comparable corpus (reference corpus). – Positive keywords and negative keywords
语料库语言学常用术语
• Token形符: an individual word • Type类符: word form. 指不重复计算 的形符数。"I see a cat and a dog" contains seven tokens but only six types (the type 'a' occurs twice).

语料库常用术语解释 (1)

语料库常用术语解释 (1)
Frank Liang
语料库语言学常用术语
Monolingual单语 corpus: a corpus which contains texts in a single language.
Multilingual多语 corpus: a corpus which represents small collections of individual monolingual corpora (or subcorpora) in the sense that they use the same or similar sampling procedures and categories for each language but contain completely different texts in those several languages.
TTR是衡量文本中词汇密度的常用方法。可 辅助说明文本的词汇难度。
但是,文本中有大量功能词(function words, 如the、a、of等)反复出现,文本每增加 一个词,形符就会增加一个,但类符却未 必随之增加。这样文本越长,功能词重复 次数越多,TTR会越低。因此用TTR衡量词 汇密度就不合理。
语料库的方法基于真实的语言使用情况,事实胜 于雄辩
Frank Liang
A corpus can be analyzed using software tools, much like those used to find key words on the Internet, but with greater sophistication. By evaluating the results of these searches, it is possible to see how language is really used, and to find answers to questions like these:
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

语料库常用术语
Type 类符
Tokens 形符
例如“I see a cat and a dog”类符6个,形符7个
Type/token ratio =TTR
TTR 是衡量文本中词汇密度的常用方法,可以辅助说明文本的词汇难度。

但是,文本中有大量功能词出现,文本每增加一个词,形符就会增加一个,但类符却未必随之增加。

这样文本越长,功能词重复次数越多,TTR会越低。

因此用TTR衡量词汇密度不合理,于是,出现了标准化类符/形符比,即STTR。

例如,计算每个文本1000词的TTR,均值处理,得出STTR。

Frequency(频率)
例如每百万词、十万词中,某单词出现次数。

常常将某个单词在两个语料库中出现的频率参照两个语料库的容量,用卡方检验或对数似然率进行对比,来确定两个库中该单词的使用是否有差异。

Wordlist词表
根据单词或词组在语篇中出现的频率大小而排列形成的列表。

Ranks
Lemma词目,词元
比如go是lemma,对应各种屈折变化形式(inflections),go,goes,went,going,gone共5种屈折变化形式。

在分析语言时,需要将它们全部归到go名下,这个过程叫词形还原。

Keywords关键词、主题词positive keywords 正关键词negative keywords 负关键词Concordance 索引(KWIC 语境中的关键词key words in context)
运用索引软件在语料库中查询某词或短语的使用实例,然后将所有符合条件的语言使用实例及其语境以清单的形式列出。

通过前后语境,可以分析“collocation词汇搭配”“colligation 类连接、语法搭配”“semantic preference语义倾向”“semantic prosody语义韵”Collocation词汇搭配
搭配强度MI,T-score ,Z-score
Colligation类连接、语法搭配
semantic prosody语义韵
词汇的语义韵大体可分为积极语义韵、中性语义韵、消极语义韵。

POS tagging 词性赋码
Regular expression regex 正则表达式。

相关文档
最新文档