语料库常用术语
语料库术语汇编
![语料库术语汇编](https://img.taocdn.com/s3/m/2c61adef6e1aff00bed5b9f3f90f76c661374cf6.png)
语料库术语汇编语料库术语汇编:Aboutness 所言之事Absolute frequency 绝对频数Alignment (of parallel texts) (平行或对应)语料的对齐Alphanumeric 字母数字类的Annotate 标注(动词)Annotation 标注(名词)Annotation scheme 标注方案ANSI/American National Standards Institute 美国国家标准学会ASCII/American Standard Code for Information Exchange 美国信息交换标准码Associate (of keywords) (主题词的)联想词A WL/Academic word list 学术词表Balanced corpus 平衡语料库Base list 底表、基础词表Bigram 二元组、二元序列、二元结构Bi-hapax 两次词Bilingual corpus 双语语料库CA/Contrastive Analysis 对比分析Case-sensitive 大小写敏感、区分大小写Chi-square (χ2) test 卡方检验Chunk 词块CIA/Contrastive Interlanguage Analysis 中介语对比分析CLA WS/Constituent Likelihood Automatic Word-tagging System CLA WS词性赋码系统Clean text policy 干净文本原则Cluster 词簇、词丛Colligation 类联接、类连接、类联结Collocate n./v. 搭配词;搭配Collocability 搭配强度、搭配力Collocation 搭配、词语搭配Collocational strength 搭配强度Collocational framework/frame 搭配框架Comparable corpora 类比语料库、可比语料库ConcGram 同现词列、框合结构Concordance (line) 索引(行)Concordance plot (索引)词图Concordancer 索引工具Concordancing 索引生成、索引分析Context 语境、上下文Context word 语境词Contingency table 连列表、联列表、列连表、列联表Co-occurrence/Co-occurring 共现Corpora 语料库(复数)Corpus Linguistics 语料库语言学Corpus 语料库Corpus-based 基于语料库的Corpus-driven 语料库驱动的Corpus-informed 语料库指导的、参考了语料库的Co-select/Co-selection/Co-selectiveness 共选(机制)Co-text 共文DDL/Data Driven Learning 数据驱动学习Diachronic corpus 历时语料库Discourse 话语、语篇Discourse prosody 话语韵律Documentation 备检文件、文检报告EAGLES/Expert Advisory Groups on Language Engineering Standards EAGLES文本规格embedded annotation 嵌入式标注Empirical Linguistics 实证语言学Empiricism 经验主义Encoding 字符编码Error-tagging 错误标注、错误赋码Extended unit of meaning 扩展意义单位File-based search/concordancing 批量检索Formulaic sequence 程式化序列Frequency 频数、频率General (purpose) corpus 通用语料库Granularity 颗粒度Hapax legomenon/hapax 一次词Header/Text head 文本头、头标、头文件HMM/Hidden Markov Model 隐马尔科夫模型Idiom Principle 习语原则Index/Indexing (建)索引In-line annotation 文内标注、行内标注Key keyword 关键主题词Keyness 主题性、关键性Keyword 主题词KWIC/Key Word in Context 语境中的关键词、语境共现(方式)Learner corpus 学习者语料库Lemma 词目、原形词、词元Lemma list 词形还原对应表Lemmata 词目、原形词、词元(复数)Lemmatization 词形还原、词元化Lemmatizer 词形还原(词元化)工具Lexical bundle 词束Lexical density 词汇密度Lexical item 词项、词语项目Lexical priming 词汇触发理论Lexical richness 词汇丰富度Lexico-grammar/Lexical grammar 词汇语法Lexis 词语、词项LL/Log likelihood (ratio) 对数似然比、对数似然率Longitudinal/Developmental corpus 跟踪语料库、发展语料库、历时语料库Machine-readable 机读的Markup 标记、置标MDA/Multi-dimensional approach 多维度分析法Metadata 元信息Meta-metadata 元元信息MF/MD (Multi-feature/Multi-dimensional) approach 多特征/多维度分析法Mini-text 微型文本Misuse 误用Monitor corpus (动态)监察语料库Monolingual corpus 单语语料库Multilingual corpus 多语语料库Multimodal corpus 多模态语料库MWU/Multiword unit 多词单位MWE/Multiword expression 多词单位MI/Mutual information 互信息、互现信息N-gram N元组、N元序列、N元结构、N元词、多词序列NLP/Natural Language Processing 自然语言处理Node 节点(词)Normalization 标准化Normalized frequency 标准化频率、标称频率、归一频率Observed corpus 观察语料库Ontology 知识本体、本体Open Choice Principle 开放选择原则Overuse 超用、过多使用、使用过度、过度使用Paradigmatic 纵聚合(关系)的Parallel corpus 平行语料库、对应语料库Parole linguistics 言语语言学Parsed corpus 句法标注的语料库Parser 句法分析器Parsing 句法分析Pattern/patterning 型式Pattern grammar 型式语法Pedagogic corpus 教学语料库Phraseology 短语、短语学POSgram 赋码序列、码串POS tagging/Part-of-Speech tagging 词性赋码、词性标注、词性附码POS tagger 词性赋码器、词性赋码工具Prefab 预制语块Probabilistic (基于)概率的、概率性的、盖然的Probability 概率Rationalism 理性主义Raw text/Raw corpus 生文本(语料)Reference corpus 参照语料库Regex/RE/RegExp/Regular Expressions 正则表达式Register variation 语域变异Relative frequency 相对频率Representative/Representativeness 代表性(的)Rule-based 基于规则的Sample n./v. 样本;取样、采样、抽样Sampling 取样、采样、抽样Search term 检索项Search word 检索词Segmentation 切分、分词Semantic preference 语义倾向Semantic prosody 语义韵SGML/Standard Generalized Markup Language 标准通用标记语言Skipgram 跨词序列、跨词结构Span 跨距Special purpose corpus 专用语料库、专门用途语料库、专题语料库Specialized corpus 专用语料库Standardized TTR/Standardized type-token ratio 标准化类符/形符比、标准化类/形比、标准化型次比Stand-off annotation 分离式标注Stop list 停用词表、过滤词表Stop word 停用词、过滤词Synchronic corpus 共时语料库Syntagmatic 横组合(关系)的Tag 标记、码、标注码Tagger 赋码器、赋码工具、标注工具Tagging 赋码、标注、附码Tag sequence 赋码序列、码串Tagset 赋码集、码集Text 文本TEI/Text Encoding Initiative 文本编码计划The Lexical Approach 词汇中心教学法The Lexical Syllabus 词汇大纲Token 形符、词次Token definition 形符界定、单词界定Tokenization 分词Tokenizer 分词工具Transcription 转写Translational corpus 翻译语料库Treebank 树库Trigram 三元组、三元序列、三元结构T-score T值Type 类符、词型TTR/Type-token ratio 类符/形符比、类/形比、型次比Underuse 少用、使用不足Unicode 通用码Unit of meaning 意义单位WaC/Web as Corpus 网络语料库Wildcard 通配符Word definition 单词界定Word form 词形Word family 词族Word list 词表XML/EXtensible Markup Language 可扩展标记语言Zipf's Law 齐夫定律Z-score Z值。
语料库语言学名词解释
![语料库语言学名词解释](https://img.taocdn.com/s3/m/5b0e60380640be1e650e52ea551810a6f524c818.png)
语料库语言学名词解释1. 什么是语料库语言学?语料库语言学是一门研究自然语言的学科,通过收集和分析大量的实际文本数据(称为语料库),以揭示自然语言的结构、用法和变化规律。
它结合了计算机科学、统计学和语言学等多个领域的方法和理论,旨在提供对自然语言的全面、详细和深入的理解。
2. 什么是语料库?语料库是指由大量实际文本组成的数据集合,可以包括书籍、报纸、杂志、网页、社交媒体帖子等。
这些文本通常经过数字化处理并按照一定规则进行标注,以便进行进一步的分析和研究。
3. 为什么要使用语料库进行研究?使用语料库进行研究有以下几个优点:•自然性:语料库中的文本来自真实世界,反映了人们在不同情境下使用自然语言的方式。
•大规模性:大型语料库包含了大量文本数据,可以提供更加全面且具有代表性的样本。
•可比性:通过比较不同文本之间的共同点和差异,可以揭示语言的普遍规律和个体差异。
•可验证性:研究者可以重复使用相同的语料库进行验证和复制研究结果。
•数据驱动性:语料库语言学强调通过数据来推动理论的发展,以实证为基础进行研究。
4. 常用的语料库类型4.1. 平衡语料库平衡语料库是指在不同领域、不同类型文本中均匀采样而得到的语料库。
它旨在保持各个领域和类型的文本在整个语料库中的比例相对均衡,以便更好地反映自然语言的使用情况。
4.2. 非平衡语料库非平衡语料库是指在采集过程中没有保持各个领域和类型文本比例均衡的语料库。
这种类型的语料库可能更加关注某些特定领域或主题,适用于特定研究目标。
4.3. 同步平行语料库同步平行语料库是指包含两种或多种不同自然语言版本(例如英文、法文、汉文)的对应文本。
这些文本在句子或段落级别上具有相同的语义内容,可以用于机器翻译、跨语言信息检索等领域的研究。
4.4. 异步平行语料库异步平行语料库是指包含两种或多种不同自然语言版本的对应文本,但其对应关系并不是在句子或段落级别上一一对应。
这种类型的语料库适用于跨语言补全、跨语言文本摘要等研究。
语料库语言学术语汇编Aglossaryofcorpuslinguistics.docx
![语料库语言学术语汇编Aglossaryofcorpuslinguistics.docx](https://img.taocdn.com/s3/m/7da3a25c02020740be1e9bda.png)
语料库语言学术语汇编 ( V2.0 )Last updated 2012-10-08 by许家金Aboutness所言之事Absolute frequency绝对频数Alignment (of parallel texts)(平行或对应)语料的对齐Alphanumeric字母数字构成的Annotate标注(动词)Annotated text/corpus标注文本 /语料库、赋码文本/语料库Annotation标注(名词)Annotation scheme标注方案ANSI/American National Standards Institute美国国家标准学会ASCII/American Standard Code for Information美国信息交换标准码ExchangeAssociates (of keywords)(主题词的)联想词AWL/academic word list学术词表Balanced corpus平衡语料库Base list/baselist底表、基础词表Bigram二元组、二元序列、二元结构Bi-text/bitext双语合并文本、双语分行对齐文本(一句源语一句目标语对齐后的文本)Bi-hapax两次词Bilingual corpus双语语料库Bootcamp debate/discourse/discussion(新手)训练营大辩论 /话语 /大探讨CA/Contrastive Analysis对比分析Case-sensitive/case sensitivity大小写敏感、区分大小写Category-based approach基于类(范畴)的方法Chi-square test/ 2χ卡方检验Chunk词块CIA/Contrastive Interlanguage Analysis中介语对比分析CLAWS/Constituent Likelihood Automatic Word-CLAWS 词性赋码系统tagging SystemClean text policy干净文本原则Cluster词簇、词丛Colligation类联接、类连接、类联结Collocate n./v.搭配词;搭配Collocability搭配强度、搭配力Collocation搭配、词语搭配Collocational strength搭配强度Collocational framework/frame搭配框架Collocational profile搭配概貌Collocational network搭配网络Comparable corpora类比语料库、可比语料库Computational Linguistics计算语言学ConcGram/concgram同现词列、框合结构Concord索引(行)(简略形式)Concordance (line)索引(行)Concordance plot(索引)词图Concordancer索引工具Concordancing索引分析Context语境、上下文Context word语境词Contextual prosody语境韵律Contingency table连列表、联列表、列连表、列联表Co-occurrence/Co-occurring共现、同现Corpus Linguistics语料库语言学Corpus, pl. corpora语料库Corpus-based基于语料库的Corpus-based translation studies基于语料库的翻译研究、语料库翻译学、基于语料库的译学研究Corpus-driven语料库驱动的Corpus-informed语料库指导下的、参考了语料库的Corpus size库容Corpus stylistics语料库文体学Co-select/co-selection/co-selectiveness共选(机制)Co-text共文Data mining数据挖掘DDL/Data Driven Learning数据驱动学习Dependency(句法)依存关系Dice coefficient Dice 系数Disambiguation消歧Diachronic corpus历时语料库Discourse话语、语篇Discourse prosody话语韵律Documentation文检报告、备检文件、说明文档EAGLES/Expert Advisory Groups on Language EAGLES 文本规格Engineering StandardsEmpirical linguistics实证语言学Empiricism经验主义Encoding字符编码Error-tagging错误标注、错误赋码Explicitation显化Extended unit of meaning扩展意义单位File-based search/concordancing批量检索Firthian (linguistics)弗斯(语言学)、弗斯学派的(语言学)Formulaic sequence程式化序列、套语Frequency频数、频率Frequency list词频表General (purpose) corpus通用语料库Genre语体、体裁Grammatical patterning语法型式Granularity颗粒度Hapax legomenon/hapax一次词Header/corpus head文本头、头标、头文件Hidden Markov model (HMM)隐马尔科夫模型、隐马模型Idiom principle习语原则、成语原则Idiomaticity习语性、地道程度Implicitation隐化Index/indexing(建)索引In-line annotation文内标注、行内标注Interlanguage中介语、过渡语Inter-coder agreement/reliability标注者间一致性/信度Introspection/introspective内省(式)(的)Intuition直觉Key keywords关键主题词Keyness主体性、关键性Keywords主题词KWIC/Key Word in Context语境中的关键词、语境共现(方式)KWIC sort语境共现排序、索引行排序Learner corpus学习者语料库Lemma, pl. lemmata/lemmas词目、原形词、词元Lemmatization词形还原、词元化Lemmatizer词形还原工具、词元化工具Lexical bundle词束Lexical density词汇密度Lexical frequency profile词频概貌Lexical grammar词汇语法Lexical item词项、词语项目Lexical patterning词语型式、词汇型式Lexical priming词汇触发理论、词汇启动理论Lexical profile词汇分布概貌Lexical richness词汇丰富度Lexico-grammar词汇语法Lexis词语、词项、词语学Log-likelihood ratio对数似然比、对数似然率Longitudinal/developmental corpus跟踪语料库、发展语料库、历时语料库Machine-readable机读的Machine translation机器翻译Manual annotation手工标注Markup/mark-up标记、置标MDA (Multi-dimensional analysis/approach)多维度分析法Metadata元信息Meta-metadata元元信息MF/MD approach/multi-feature/multi-dimensional多特征/多维度分析法analysisMisuse误用Monitor corpus(动态)监察语料库Monolingual corpus单语语料库Multilingual corpus多语语料库Multimodal corpus多模态语料库MWU/multiword unit多词单位MWE/multiword expression多词表达MI/mutual information互信息、互现信息N-gram N 元组、 N 元序列、 N 元结构、 N 元词、多词序列Neo-Firth (school)新弗斯学派Neo-Firthian新弗斯学派的NLP/Natural Language Processing自然语言处理Node (word)节点(词)Normalization标准化、(翻译)规范化、泛化Normalized frequency标准化频率、标称频率、归一频率Observed corpus观察语料库Ontology知识本体、本体Open choice principle开放选择原则OrthographicOrthography正字法Overuse过多使用、超用、使用过度、过度使用Paradigmatic纵聚合(关系)的Parallel corpus平行语料库、对应语料库Parole linguistics言语语言学Parsed corpus句法标注的语料库、树库Parser句法分析器Parsing句法标注、句法分析Pattern/patterning型式、模式Pattern grammar型式语法Pattern matching模式匹配Pedagogic corpus教学语料库Phraseology短语、短语学Phraseological unit/sequence短语单位 /序列Plain text纯文本POSgram赋码序列、码串POS sequence赋码序列、码串POS tagging/Part-of-Speech tagging词性赋码、词性标注、词性附码POS tagger词性赋码器、词性赋码工具Prefab预制语块Probabilistic(基于)概率的、概率性的、盖然的Probabilistic grammar概率语法、概率性语法、盖然语法Probability概率Query查询、检索Range分布(范围)、跨度Rationalism理性主义Raw frequency原始频数、生频数Raw text/corpus生文本 /生语料Reference corpus参照语料库Regex/RE/RegExp/regular expressions正则表达式、正则式Register variation语域变异Relative frequency相对频率Representative/representativeness代表性(的)Rule-based基于规则的S-universals源语型共性(特征)Sample n./v.样本;取样、采样、抽样Sampling取样、采样、抽样Sanitization净化Search term检索项Search word检索词Segmentation切分、分词Semantic association语义联想Semantic preference语义倾向、语义趋向Semantic prosody语义韵Sentence alignment句对齐、句级对齐SGML/Standard Generalized Markup Language标准通用标记语言Simplification简化Skipgram跨词序列、跨词结构Span跨距Specialized corpus专用语料库、专门用途语料库、专题语料库Standardized type/token ratio标准化类符 /形符比、标准化类/形比、标准化型次比Standardized TTR/STTR标准化类符 /形符比、标准化类/形比、标准化型次比Stand-off annotation分离式标注Stochastic随机的Stop list停用词表、过滤词表Stop word停用词、过滤词Synchronic corpus共时语料库Syntagmatic横组合(关系)的T score T 值T-universals目标语型共性(特征)Tag赋码、标记、附码Tagger赋码器、赋码工具、标注工具Tagging赋码、标注、附码Tag sequence赋码序列、码串Tagset赋码集、码集Tertium comparationis对比中立项、对比基础Text文本Text type文体、文类Text category文体、文类Text mining文本挖掘TEI/Text Encoding Initiative TEI 文本编码计划The Lexical Approach词汇中心教学法The Lexical Syllabus词汇大纲Token形符、词次Token definition/word definition形符界定、单词界定Tokenization分词Tokenizer分词工具Transcription转写Translation memory翻译记忆(库)Translation norms翻译规范Translationuniversals/Universal features of 翻译共性、翻译普遍特征translationTranslational corpus翻译语料库Translationese翻译体、翻译腔Treebank树库Trigram三元组、三元序列、三元结构T-score T 值Type类符、词种、词型TTR类符 /形符比、类 /形比、型次比Type/token ratio类符 /形符比、类 /形比、型次比Underuse少用、使用不足Unicode通用码Unicodify按通用码编码、转换为通用码Unit of meaning意义单位WaC/Web as Corpus网络语料库、网库Wildcard通配符Word alignment词对齐、词级对齐Word form词形Word family词族Word list词表Word sketch词语素描WSD/Word-sense disambiguation词义消歧XML/Extensible Markup Language可扩展标记语言Zipf ’ s Law/Zipfian Law齐夫定律Z score Z 值常用语料库ACE Australian Corpus of EnglishANC American National CorpusARCHER A Representative Corpus of Historical English Registers BASE British Academic Spoken English CorpusBAWE British Academic Written English CorpusBNC British National CorpusBoE Bank of EnglishBrown Brown CorpusCANCODE Cambridge and Nottingham Corpus of Discourse in English CEC China English CorpusCEM Corpus for English MajorsCHILDES Child Language Data Exchange SystemCIC Cambridge International CorpusCLEC Chinese Learners English CorpusCLOB2009 Brown family corpus of British EnglishCOBUILD Collins Birmingham University International Language Database COCA The Corpus of Contemporary American EnglishCOLSEC College Learners Spoken English CorpusCOLT Bergen Corpus of London Teenage LanguageCrown2009 Brown family corpus of American EnglishFLOB Freiburg-LOB Corpus of British EnglishFROWN Freiburg-Brown Corpus of American EnglishHelsinki Diachronic part of the Helsinki Corpus of English Texts DiachroniccorpusHKCSE Hong Kong Corpus of Spoken EnglishICE International Corpus of EnglishICE-GB International Corpus of English: Great BritainICLE International Corpus of Learner EnglishJEFLL Japanese EFL Learner CorpusLCMC Lancaster Corpus Mandarin ChineseLINDSEI Louvain International Database of Spoken English Interlanguage LIVAC Linguistic Variations in Chinese Speech CommunitiesLLC London Lund CorpusLOB Lancaster-Oslo/Bergen CorpusLOCNESS Louvain Corpus of Native English EssaysLONGDALE LONGitudinal DAtabase of Learner EnglishMICASE Michigan Corpus of Academic Spoken EnglishMICUSP Michigan Corpus of Upper-level Student PapersNESSIE Native English Speakers ’Similarly and Identically-prompted EssaysPACCEL Parallel Corpus of Chinese EFL LearnersSBCSAE Santa Barbara Corpus of Spoken American EnglishSCCSD The Spoken Chinese Corpus of Situated DiscourseSCORE Singapore Corpus of Research in EducationSEC Spoken English CorpusSECCL Spoken English Corpus of Chinese LearnersSECOPETS Spoken English Corpus of Public English Test SystemSEU Survey of English UsageSWECCL Spoken and Written English Corpus of Chinese Learners WECCL Written English Corpus of Chinese LearnersLast updated 2012-08-08 by许家金。
语料库翻译学的几个术语
![语料库翻译学的几个术语](https://img.taocdn.com/s3/m/88ac8573777f5acfa1c7aa00b52acfc789eb9fa9.png)
语料库翻译学的几个术语语料库翻译学是一个涵盖了语言学、翻译理论和实践的跨学科领域。
在这个领域中,有几个重要的术语需要我们了解。
我们来看语料库。
语料库类似于一个大型的语言数据库,它储存了大量的语言材料,包括文本、语音、图片等。
这些材料可以是某个机构、组织或个人收集的,也可以是自行收集的。
语料库在翻译中扮演着重要的角色,它为翻译者提供了丰富的资源,可以帮助他们找到最合适的翻译,从而提高翻译质量和效率。
接下来是翻译。
翻译是将一个语言材料转换成另一种语言材料的过程。
这个过程涉及到对源语言的理解和目标语言的表达。
在翻译过程中,翻译者需要考虑到许多因素,如文化、语境、语法等。
根据不同的翻译目的和要求,翻译者可以采用不同的翻译策略,包括直译、意译、归化等。
关键词在语料库翻译学中也有着重要的作用。
关键词是指那些在文章中出现频率最高的词汇,它们通常指示了文章的主题和内容。
在翻译过程中,翻译者可以通过对关键词的研究和分析,更好地理解原文的主旨和意图,从而找到最合适的翻译。
最后是翻译风格。
翻译风格指的是翻译时应该遵循的规范和标准。
在语料库翻译学中,翻译风格包括语法、拼写和标点符号的使用等方面。
翻译者需要确保翻译的准确性和流畅性,同时还需要尊重目标语言的习惯和规则。
在翻译过程中,翻译者可以根据目标语言的特点和要求,采用不同的翻译策略,以获得更好的翻译效果。
语料库翻译学中的几个术语包括语料库、翻译、关键词和翻译风格。
这些术语在翻译理论和实践中有重要的应用价值。
通过深入了解这些术语,我们可以更好地理解翻译的过程和技巧,提高自己的翻译能力和水平。
语料库翻译学:内涵与意义在翻译领域中,语料库翻译学逐渐引起了人们的。
语料库是指由大量真实语境中的语言运用实例组成的数据库,而语料库翻译学则侧重于研究翻译过程中语言规律与现象。
本文将通过分析语料库翻译学的内涵和意义,让读者更好地了解其在语言学习、翻译实践和文化交流等方面的作用。
语料库翻译学的概念与背景语料库翻译学是以语料库为基本研究工具,对翻译过程中产生的语言现象进行统计、分析和研究的一门学科。
语料库语言学术语汇编Aglossaryofcorpuslinguistics
![语料库语言学术语汇编Aglossaryofcorpuslinguistics](https://img.taocdn.com/s3/m/e053e12c91c69ec3d5bbfd0a79563c1ec4dad746.png)
语料库语言学术语汇编Aglossaryofcorpuslinguistics语料库语言学术语汇编(V2.0)Last updated 2012-10-08 by 许家金Aboutness 所言之事Absolute frequency 绝对频数Alignment (of parallel texts)(平行或对应)语料的对齐Alphanumeric 字母数字构成的Annotate标注(动词)Annotated text/corpus 标注文本/语料库、赋码文本/语料库Annotation标注(名词)Annotation scheme标注方案ANSI/American National Standards Institute美国国家标准学会ASCII/American Standard Code for Information Exchange美国信息交换标准码Associates (of keywords)(主题词的)联想词AWL/academic word list 学术词表Balanced corpus 平衡语料库Base list/baselist 底表、基础词表Bigram 二元组、二元序列、二元结构Bi-text/bitext双语合并文本、双语分行对齐文本(一句源语一句目标语对齐后的文本)Bi-hapax 两次词Bilingual corpus双语语料库Bootcamp debate/discourse/discussion (新手)训练营大辩论/话语/大探讨CA/Contrastive Analysis 对比分析Case-sensitive/case sensitivity 大小写敏感、区分大小写Category-based approach 基于类(范畴)的方法Chi-square test/χ2 卡方检验Chunk词块CIA/Contrastive Interlanguage Analysis中介语对比分析CLAWS/Constituent Likelihood Automatic Word-tagging System CLAWS 词性赋码系统Clean text policy 干净文本原则Cluster 词簇、词丛Colligation 类联接、类连接、类联结Collocate n./v.搭配词;搭配Collocability 搭配强度、搭配力Collocation搭配、词语搭配Collocational strength 搭配强度Collocational framework/frame 搭配框架Collocational profile搭配概貌、管路敷设技术通过管线不仅可以解决吊顶层配置不规范高中资料试卷问题,而且可保障各类管路习题到位。
语料库基本知识
![语料库基本知识](https://img.taocdn.com/s3/m/b2ed3e3253ea551810a6f524ccbff121dc36c57e.png)
.
6
计算语言学
◦ “计算语言学是研究用机器来处理自然语言的学科。它是由信息技
术和语言学交叉而成的”(CuS:1)。SLP没有直接提出计算语言 学的确切定义。SLP的作者在开篇借用了Stanley Kubrick科幻片中 的人物HAL,HAL是一个通晓英语的机器人。作者引入HAL的目 的在于说明,为了构建这样一个可与人通过自然语言进行交流的机 器人,需要哪些知识和技术:语言理解方面有语音识别和自然语言 理解(包括唇读技术),表达方面需要自然语言生成和语音合成, 另外HAL也需要信息检索、信息提取和推理方面的技能。而解决这 些问题一般涉及以下学科:自然语言处理,计算语言学,语音识别 和合成。SLP的作者将这三者合起来称为语音及语言处理,除了以 上HAL所用的这些技能外,SLP也囊括了其他重要的语言处理领域, 如:拼写校正、语法检查和机器翻译。
.
42
语言设定
.
43
.
44
(如逗号、句号等) 包括在内,但这一点有例外,如数字3.1415925 和整数的千分位分隔符(如100,000) 中的逗号等。
为了便于统计,对英语进行分词时通常在以上我们所说的“ 形符” 后加空格,使得他们与文本中的其他形符或符号分离开来。
.
11
类符(type)作为一个统计量,指语料库文本中任何一个独特的词形(word form)。换言之,在一个文本中,重复出现的形符只能记作一个类符。
◦ 都可以对语言学的语音、词汇、句法和语义等层面进行
统计和研究。
.
8
联系: ◦ 统计语言学和计量语言学都是利用统计方法来实现对语言成
分的统计,计量语言学以发现语言成分或语言成分间的数学 规律为目标。而统计语言学以所统计的语言特征在统计学上 显著和不显著为目标。
语料库语言学术语汇编A glossary of corpus linguistics
![语料库语言学术语汇编A glossary of corpus linguistics](https://img.taocdn.com/s3/m/24cbaf88bceb19e8b8f6ba29.png)
Plain text
纯文本
POSgram
赋码序列、码串
POS sequence
赋码序列、码串
POS tagging/Part-of-Speech tagging
词性赋码、词性标注、词性附码
POS tagger
词性赋码器、词性赋码工具
Prefab
预制语块
Probabilistic
(基于)概率的、概率性的、盖然的
同现词列、框合结构
Concord
索引(行)(简略形式)
Concordance (line)
索引(行)
Concordance plot
(索引)词图
Concordancer
索引工具
Concordancing
索引分析
Context
语境、上下文
Context word
语境词
Contextual prosody
NLP/Natural Language Processing
自然语言处理
Node (word)
节点(词)
Normalization
标准化、(翻译)规范化、泛化
Normalized frequency
标准化频率、标称频率、归一频率
Observed corpus
观察语料库
Ontology
知识本体、本体
随机的
Stop list
停用词表、过滤词表
Stop word
停用词、过滤词
Synchronic corpus
共时语料库
Syntagmatic
横组合(关系)的
T score
T值
T-universals
目标语型共性(特征)
语料库 入门
![语料库 入门](https://img.taocdn.com/s3/m/302b50ca6137ee06eff91835.png)
语料库入门
OUTLINE
1.
基本概念 2. 著名网络语料库 3. 常用软件
Corpus(语料库,尸体): (pl. corpora or corpuses): a collection of text, now usually in machine-readable form and compiled to be representative of a particular kind of language and often provided with some kind of annotation(标注). 按照一定的采样标准采集而来的、能 代表一种语言或者某语言的一种变体 或文类的电子文本集。
在口语中,start更常用。
语料库的方法基于真实的语言
使用情况,事实胜于雄辩
我们通过对语料库的检索结果进行分析,可以找到很多问 题的答案,例如: “学知识”在英语中是“study knowledge”吗? “快速导航”翻译成“fast guide”对不对? “只为点滴幸福”这句广告语,对应的英文翻译是“Little happiness matters.”吗? 为何“The bad weather set in on Monday.”是正确的, 但“The good weather set in on Monday.”却是错误的?
熟 语 语 料 库
语料库语言学常用术语
Types
of corpora
General corpus通用语料库 Annotated标注 corpus: a corpus enhanced with various types of linguistic information (or tagged corpus). An annotated corpus may be considered to be a repository of linguistic information, because the information which was implicit in the plain text has been made explicit through concrete annotation (“added value附加值”).
语料库术语汇编
![语料库术语汇编](https://img.taocdn.com/s3/m/eb13401acec789eb172ded630b1c59eef8c79a15.png)
语料库术语汇编1000字1. 语料库 (Corpus):一种语言学研究工具,指一定时间内一定领域内被记录下来的语言使用材料的整合。
2. 词频 (Frequency):指特定词语在语料库中出现的频率。
通常用来研究该词语在不同领域或语言环境下的使用情况。
3. 词汇 (Vocabulary):指一个语言或领域中所涉及的全部词汇。
在语料库研究中,词汇可以从不同的角度进行分类和分析。
4. 标记 (Tagging):是指对语料库中每个词语进行词性和句法结构等标记,使其变得更易于分析。
5. 约定 (Convention):是指研究人员在语料库建设和分析中的一些共同规范,如数据格式、标注方式等。
6. 清洗 (Cleaning):是指剔除语料库中不符合研究要求或不准确的数据,以保证研究的准确性。
7. 分词 (Tokenization):是指将一个连续的文本分割成一个个离散的词语或符号的过程。
分词是语料库研究的基础。
8. 停止词 (Stop Words):指在文本中频繁出现但在分析中往往没有实质意义的词语,如“的”、“和”等。
9. 语法 (Grammar):是指一个语言中的语音、词汇、句法和语用规则等有组织的系统,可以用来解释和生成语言的各种表达。
10. 句法 (Syntax):是指语言中句子的结构和组成规则。
语料库分析中的句法分析可以用来研究语言中的语法规则。
11. 词频分布 (Frequency Distribution):是指一个语料库中各个词语出现的频率分布情况。
通过词频分布可以研究语言中不同词汇的使用情况。
12. 词向量 (Word Vector):是指将词语表示成向量的一种技术。
在语料库研究中,词向量可以用来进行词语分类和聚类分析。
13. 上下文 (Context):是指一个词语在文本中所处的语言环境和意义。
在语料库研究中,上下文分析可以帮助研究人员深入理解词语和语句的含义。
14. 模型 (Model):是指通过统计或机器学习等方法建立的能够反映语言规律或模式的工具或算法。
语料库语言学术语集
![语料库语言学术语集](https://img.taocdn.com/s3/m/c04ff2b9fd0a79563c1e728b.png)
Empirical Linguistics
实证语言学
Empiricism
经验主义
Encoding
字符编码
Error-tagging
错误标注、错误赋码
Extended unit of meaning
扩展意义单位
File-based search/concordancing
批量检索
Formulaic sequence
中介语对比分析
CLAWS/Constituent Likelihood Automatic Word-tagging System
CLAWS词性赋码系统
Clean text policy
干净文本原则
Cluster
词簇、词丛
Colligation
类联接、类连接、类联结
Collocaten./v.
搭配词;搭配
词汇触发理论
Lexical richness
词汇丰富度
Lexico-grammar/Lexical grammar
词汇语法
Lexis
词语、词项
LL/Log likelihood (ratio)
对数似然比、对数似然率
Longitudinal/Developmental corpus
跟踪语料库、发展语料库、历时语料库
Absolute frequency
绝对频数
Alignment (of parallel texts)
(平行或对应)语料的对齐
Alphanumeric
字母数字类的
Annotate
标注(动词)
Annotation
标注(名词)
Annotation scheme
语料库术语中英对照
![语料库术语中英对照](https://img.taocdn.com/s3/m/ef3aee49814d2b160b4e767f5acfa1c7aa008278.png)
语料库术语中英对照Aboutness 所⾔之事Absolute frequency 绝对频数Alignment (of parallel texts) (平⾏或对应)语料的对齐Alphanumeric 字母数字类的Annotate 标注(动词)Annotation 标注(名词)Annotation scheme 标注⽅案ANSI/American National Standards Institute 美国国家标准学会ASCII/American Standard Code for Information Exchange 美国信息交换标准码Associate (of keywords) (主题词的)联想词AWL/Academic word list 学术词表Balanced corpus 平衡语料库Base list 底表、基础词表Bigram ⼆元组、⼆元序列、⼆元结构Bi-hapax 两次词Bilingual corpus 双语语料库CA/Contrastive Analysis 对⽐分析Case-sensitive ⼤⼩写敏感、区分⼤⼩写Chi-square (χ2) test 卡⽅检验Chunk 词块CIA/Contrastive Interlanguage Analysis 中介语对⽐分析CLAWS/Constituent Likelihood Automatic Word-tagging System CLAWS词性赋码系统Clean text policy ⼲净⽂本原则Cluster 词簇、词丛Colligation 类联接、类连接、类联结Collocate n./v. 搭配词;搭配Collocability 搭配强度、搭配⼒Collocation 搭配、词语搭配Collocational strength 搭配强度Collocational framework/frame 搭配框架Comparable corpora 类⽐语料库、可⽐语料库ConcGram 同现词列、框合结构Concordance (line) 索引(⾏)Concordance plot (索引)词图Concordancer 索引⼯具Concordancing 索引⽣成、索引分析Context 语境、上下⽂Context word 语境词Contingency table 连列表、联列表、列连表、列联表Co-occurrence/Co-occurring 共现Corpora 语料库(复数)Corpus Linguistics 语料库语⾔学Corpus 语料库Corpus-based 基于语料库的Corpus-driven 语料库驱动的Corpus-informed 语料库指导的、参考了语料库的Co-select/Co-selection/Co-selectiveness 共选(机制)Co-text 共⽂DDL/Data Driven Learning 数据驱动学习Diachronic corpus 历时语料库Discourse 话语、语篇Discourse prosody 话语韵律Documentation 备检⽂件、⽂检报告EAGLES/Expert Advisory Groups on Language Engineering Standards EAGLES⽂本规格Empirical Linguistics 实证语⾔学Empiricism 经验主义Encoding 字符编码Error-tagging 错误标注、错误赋码Extended unit of meaning 扩展意义单位File-based search/concordancing 批量检索Formulaic sequence 程式化序列Frequency 频数、频率General (purpose) corpus 通⽤语料库Granularity 颗粒度Hapax legomenon/hapax ⼀次词Header/Text head ⽂本头、头标、头⽂件HMM/Hidden Markov Model 隐马尔科夫模型Idiom Principle 习语原则Index/Indexing (建)索引In-line annotation ⽂内标注、⾏内标注Key keyword 关键主题词Keyness 主题性、关键性Keyword 主题词KWIC/Key Word in Context 语境中的关键词、语境共现(⽅式)Learner corpus 学习者语料库Lemma 词⽬、原形词、词元Lemma list 词形还原对应表Lemmata 词⽬、原形词、词元(复数)Lemmatization 词形还原、词元化Lemmatizer 词形还原(词元化)⼯具Lexical bundle 词束Lexical density 词汇密度Lexical item 词项、词语项⽬Lexical priming 词汇触发理论Lexical richness 词汇丰富度Lexico-grammar/Lexical grammar 词汇语法Lexis 词语、词项LL/Log likelihood (ratio) 对数似然⽐、对数似然率Longitudinal/Developmental corpus 跟踪语料库、发展语料库、历时语料库Machine-readable 机读的Markup 标记、置标MDA/Multi-dimensional approach 多维度分析法Metadata 元信息Meta-metadata 元元信息MF/MD (Multi-feature/Multi-dimensional) approach 多特征/多维度分析法Mini-text 微型⽂本Misuse 误⽤Monitor corpus (动态)监察语料库Monolingual corpus 单语语料库Multilingual corpus 多语语料库Multimodal corpus 多模态语料库MWU/Multiword unit 多词单位MWE/Multiword expression 多词单位MI/Mutual information 互信息、互现信息N-gram N元组、N元序列、N元结构、N元词、多词序列NLP/Natural Language Processing ⾃然语⾔处理Node 节点(词)Normalization 标准化Normalized frequency 标准化频率、标称频率、归⼀频率Observed corpus 观察语料库Ontology 知识本体、本体Open Choice Principle 开放选择原则Overuse 超⽤、过多使⽤、使⽤过度、过度使⽤Paradigmatic 纵聚合(关系)的Parallel corpus 平⾏语料库、对应语料库Parole linguistics ⾔语语⾔学Parsed corpus 句法标注的语料库Parser 句法分析器Parsing 句法分析Pattern/patterning 型式Pattern grammar 型式语法Pedagogic corpus 教学语料库Phraseology 短语、短语学POSgram 赋码序列、码串POS tagging/Part-of-Speech tagging 词性赋码、词性标注、词性附码POS tagger 词性赋码器、词性赋码⼯具Prefab 预制语块Probabilistic (基于)概率的、概率性的、盖然的Probability 概率Rationalism 理性主义Raw text/Raw corpus ⽣⽂本(语料)Reference corpus 参照语料库Regex/RE/RegExp/Regular Expressions 正则表达式Register variation 语域变异Relative frequency 相对频率Representative/Representativeness 代表性(的)Rule-based 基于规则的Sample n./v. 样本;取样、采样、抽样Sampling 取样、采样、抽样Search term 检索项Search word 检索词Segmentation 切分、分词Semantic preference 语义倾向Semantic prosody 语义韵SGML/Standard Generalized Markup Language 标准通⽤标记语⾔Skipgram 跨词序列、跨词结构Span 跨距Special purpose corpus 专⽤语料库、专门⽤途语料库、专题语料库Specialized corpus 专⽤语料库Standardized TTR/Standardized type-token ratio 标准化类符/形符⽐、标准化类/形⽐、标准化型次⽐Stand-off annotation 分离式标注Stop list 停⽤词表、过滤词表Stop word 停⽤词、过滤词Synchronic corpus 共时语料库Syntagmatic 横组合(关系)的Tag 标记、码、标注码Tagger 赋码器、赋码⼯具、标注⼯具Tagging 赋码、标注、附码Tag sequence 赋码序列、码串Tagset 赋码集、码集Text ⽂本TEI/Text Encoding Initiative ⽂本编码计划The Lexical Approach 词汇中⼼教学法The Lexical Syllabus 词汇⼤纲Token 形符、词次Token definition 形符界定、单词界定Tokenization 分词Tokenizer 分词⼯具Transcription 转写Translational corpus 翻译语料库Treebank 树库Trigram 三元组、三元序列、三元结构T-score T值Type 类符、词型TTR/Type-token ratio 类符/形符⽐、类/形⽐、型次⽐Underuse 少⽤、使⽤不⾜Unicode 通⽤码Unit of meaning 意义单位WaC/Web as Corpus ⽹络语料库Wildcard 通配符Word definition 单词界定Word form 词形Word family 词族Word list 词表XML/EXtensible Markup Language 可扩展标记语⾔Zipf's Law 齐夫定律Z-score Z值。
中医术语语料库
![中医术语语料库](https://img.taocdn.com/s3/m/32bfd48980c758f5f61fb7360b4c2e3f5727259f.png)
中医术语语料库1. 中医术语语料库啊,那可真是个神奇的宝藏!就像一个装满了古老智慧钥匙的大箱子。
比如说“阴阳平衡”,这就像跷跷板的两边,一边高了另一边就得低,人身体要是阴阳不平衡啊,就容易生病。
我有个朋友,老是上火,脸上长痘,看了中医才知道是阳气太盛,阴气不足,通过调理才慢慢恢复平衡,痘痘也少了。
2. 中医术语语料库,你知道有多厉害吗?简直就是健康的密码本!拿“气血”来说,气血就好比汽车的汽油和机油。
没有足够的气血,人就像没油的汽车跑不动。
我邻居大妈,以前总觉得浑身没劲儿,中医说她气血不足,吃了些补气血的药,现在能跳广场舞跳一个小时呢!3. 中医术语语料库呀,这是一座连接古今健康理念的桥梁。
“经络”这个术语你听说过吧?它就像城市里的交通网络,气血就沿着这些经络的道路运行。
要是经络堵住了,就像马路上堵车一样,身体就会出现问题。
我自己就有过经历,有段时间肩膀疼,中医说是经络不通,按摩了几次经络,就舒服多了。
4. 中医术语语料库哟,简直是一个神秘的健康知识乐园。
像“五脏六腑”,这五脏啊就像一个公司里的不同部门,心是老板,管着其他脏器呢。
我叔叔心脏不好,结果其他脏器也跟着有点小毛病,这就像公司老板不行了,下面的部门也乱套了。
这中医术语让我们能更明白身体各个部分的关系。
5. 中医术语语料库,这可是个超有用的东西啊!“脉象”知道不?它就像身体的天气预报。
医生摸脉就像气象员看天气图。
我爷爷去看中医,老中医一摸脉就知道他身体哪里虚哪里实。
就像气象员一看天气图就知道是晴天还是雨天。
6. 中医术语语料库啊,那是健康领域的智慧锦囊。
“上火”这个词大家都不陌生吧?上火就像是身体里着了小火苗,喉咙痛啊,口腔溃疡啊,都是小火苗在捣乱。
我妹妹一吃辣的就上火,后来按照中医的建议吃些降火的食物,小火苗就灭了。
这中医术语能让我们轻松理解身体的状况。
7. 中医术语语料库呢,是我们理解传统医学的金钥匙。
比如说“风寒”,这就像一群小坏蛋入侵了我们的身体。
语料库语言学术语汇编-北外语料库语言学
![语料库语言学术语汇编-北外语料库语言学](https://img.taocdn.com/s3/m/0eaabb68f46527d3240ce061.png)
Lexical richness
词汇丰富度
Lexico-grammar
词汇语法
Lexis
词语、词项
Log-likelihood ratio
对数似然比、对数似然率
Longitudinal/developmentalcorpus
跟踪语料库、发展语料库、历时语料库
Machine-readable
美国信息交换标准码
Associates (of keywords)
(主题词的)联想词
AWL/academic word list
学术词表
Balanced corpus
平衡语料库
Base list/baselist
底表、基础词表
Bigram
二元组、二元序列、二元结构
Bi-text/bitext
双语合璧文本、双语合并文本、双语分行对齐文本(一句源语一句目标语对齐后的文本)
开放选择原则
Orthographic
正字层面的、字面的
Orthography
正字法
Overuse
过多使用、超用、使用过度、过度使用
Paradigmatic
纵聚合(关系)的
Parallel corpus
平行语料库、对应语料库
Parole linguistics
言语语言学
Parsed corpus
句法标注的语料库、树库
批量检索
Firthian (linguistics)
弗斯(语言学)、弗斯学派的(语言学)
Fisher’sexact test
费舍尔精确检验
Formulaic sequence
程式化序列、套语
Frequency
语料库常用术语解释 (1)
![语料库常用术语解释 (1)](https://img.taocdn.com/s3/m/f1a65477a417866fb84a8e88.png)
语料库语言学常用术语
Monolingual单语 corpus: a corpus which contains texts in a single language.
Multilingual多语 corpus: a corpus which represents small collections of individual monolingual corpora (or subcorpora) in the sense that they use the same or similar sampling procedures and categories for each language but contain completely different texts in those several languages.
TTR是衡量文本中词汇密度的常用方法。可 辅助说明文本的词汇难度。
但是,文本中有大量功能词(function words, 如the、a、of等)反复出现,文本每增加 一个词,形符就会增加一个,但类符却未 必随之增加。这样文本越长,功能词重复 次数越多,TTR会越低。因此用TTR衡量词 汇密度就不合理。
语料库的方法基于真实的语言使用情况,事实胜 于雄辩
Frank Liang
A corpus can be analyzed using software tools, much like those used to find key words on the Internet, but with greater sophistication. By evaluating the results of these searches, it is possible to see how language is really used, and to find answers to questions like these:
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
语料库常用术语
Type 类符
Tokens 形符
例如“I see a cat and a dog”类符6个,形符7个
Type/token ratio =TTR
TTR 是衡量文本中词汇密度的常用方法,可以辅助说明文本的词汇难度。
但是,文本中有大量功能词出现,文本每增加一个词,形符就会增加一个,但类符却未必随之增加。
这样文本越长,功能词重复次数越多,TTR会越低。
因此用TTR衡量词汇密度不合理,于是,出现了标准化类符/形符比,即STTR。
例如,计算每个文本1000词的TTR,均值处理,得出STTR。
Frequency(频率)
例如每百万词、十万词中,某单词出现次数。
常常将某个单词在两个语料库中出现的频率参照两个语料库的容量,用卡方检验或对数似然率进行对比,来确定两个库中该单词的使用是否有差异。
Wordlist词表
根据单词或词组在语篇中出现的频率大小而排列形成的列表。
Ranks
Lemma词目,词元
比如go是lemma,对应各种屈折变化形式(inflections),go,goes,went,going,gone共5种屈折变化形式。
在分析语言时,需要将它们全部归到go名下,这个过程叫词形还原。
Keywords关键词、主题词positive keywords 正关键词negative keywords 负关键词
Concordance 索引(KWIC 语境中的关键词key words in context)
运用索引软件在语料库中查询某词或短语的使用实例,然后将所有符合条件的语言使用实例及其语境以清单的形式列出。
通过前后语境,可以分析“collocation词汇搭配”“colligation 类连接、语法搭配”“semantic preference语义倾向”“semantic prosody语义韵”Collocation词汇搭配
搭配强度MI,T-score ,Z-score
Colligation类连接、语法搭配
semantic prosody语义韵
词汇的语义韵大体可分为积极语义韵、中性语义韵、消极语义韵。
POS tagging 词性赋码
Regular expression regex 正则表达式。