语料库语言学术语汇编-北外语料库语言学
语言学(语料库)

Specialized corpora: useful for English for specific purposes. If we need find out what language is used in a certain profession, then we select texts from that profession. Sample corpora: classification of genres; a large number of short extracts; random selection of extracts within genres; great internal validity内部有效性 . Monitor corpora: gigantic, ever moving stores of text. It has the capacity to hold a ‗state of the language‘ for research purposes.
The function of concordance
Concordances are frequently used as a tool in linguistics that can be used for the study of a text such as:
paring different usages of the same word; 2.analysing keywords; 3.analysing word frequencies; 4.finding and analyzing phrases and idioms; 5.creating indexes and word lists (also useful for publishing)
北京外国语大学语料库语言学考博参考书目导师笔记重点

学科、专业 研究方向
名称
研究领域
初试考试科目
外国语 专业科目一
专业科目二
050211
语料库语
语料库语言学
外国语言学
言学 应用语言学/语料库语言
及应用语言 (013 外
学
学
研中心)
语料库语言学
英语
应用语言学 (外研中心)
语料库研究 语料库语言学
三、关于北京外国语学院考博注意事项
(一)报考类别,包括以下两种类型: ①非定向:录取后没有保持人事关系的正式工作单位,读博期间个人人事档案及户口转入学校
第二阶段:专题整理和讲解 在第一阶段的基础上,由专业课老师带领整理重要常考的学科专题,进行各个知识模块的深化和 凝练。以专题为突破口夯实并灵活运用理论知识。 第三阶段:时事热点和出题人的论著 对出题老师的研究重点,最新论文成果和重要的上课的笔记课件进行讲解。对本专业时政热点话 题进行分析,预测有可能出现的题型和考察角度。 第四阶段:历年真题演练和讲解 对历年真题进行最深入的剖析:分析真题来源、真题难度、真题的关联性,总结各题型的解题思 路、答题方法和技巧。全面提升学员的答题能力,把前面几个阶段掌握的理论知识转化为分数。 第五阶段:模拟练习及绝密押题 就最新的理论前沿和学科热点结合现实的热点进行拔高应用性讲解。开展高强度模拟考试,教会 考生怎么破题,怎么安排结构,怎么突出创新点等答题技巧。结合最新的内部出题信息和导师信息进 行高命中押题。
5、经济上要有一定的支撑。包括人际关系费用,找该校的对口复习资料费用,报辅导班的费用, 考试费等等,该花的最好不要省,只要是对考博成功有利的。因为这些钱对于博士生出来后的待遇来 说太微不足道了。 (二)专业课如何复习
对待专业课的认识,有些考生以为自己学了这么多年本专业,甚至发表了不少文章,专业课应该 没问题了,从而放松了对自己专业课复习的要求。其实现在博士录取时,各个环节都不能放松。即使 及格了,如果成绩较低,总分排名靠居后,也会影响导师对自己的印象。提高专业课的复习效率,育 明考博告诉大家可以分为以下两个阶段:
北京外国语大学外国语言学及应用语言学―语料库语言学(外研中心(精)

育明考博2014届学员成绩喜报英语各类课程学员数873人专业课各类课程学员239人专业课教学测评中学员零差评英语一对一全程32名学员全部过线第七期考博英语集训营四个班97名学员90人过线育明考博全国免费咨询电话400-668-6978QQ:493371626QQ:2890064351 2015北京外国语大学考博QQ交流群105619820英语群335488903专业课群157460416北京外国语大学外国语言学及语料库及语言学语料库及语言学(外研中心方向考博分析一、外国语言学及语料库及语言学博士(外研中心研究领域—招生人数—及考试科目:学习年限:我校博士研究生均须全日制脱产学习。
有工作单位的考生,读博期间可与工作单位保持人事工作关系,但在培养期内必须全日制脱产学习。
我校不招收业余制博士生班。
定向博士研究生学习年限为4年(允许3年毕业,非定向博士研究生学习年限为3年。
学习年限之外属于延期阶段,定向博士生不超过6年,非定向博士生不超过5年。
学费与奖助学金:2014年全国实行研究生教育收费制度改革,我校的研究生学费标准及奖助学金体系正在制定中,确定后将在研究生院、学生处网站上公布。
学科研究研究领域指导教师招生考试科目专业名称方向人数外国语专业科目一专业科目二050211外国语言学及应用语言学语料库语言学(013外研中心语料库语言学王克非1二外英语应用语言学(外研中心语料库研究应用语言学/语料库语言学梁茂成1-2语料库语言学语料库语言学李文中1二、导师介绍:王克非:中共党员。
1976-86年在湖南省地质部门工作,1986年考入北京外国语大学,师从许国璋教授,1989年获硕士学位;后留校工作兼在职博士生,1993年获博士学位;1994年升任副教授,1997年晋升教授。
主要从事语言学和翻译研究。
近年开设"翻译理论"、"翻译与文化"、"英汉比较与翻译"等硕士生课程。
语料库语言学解析

1. Editorial metadata(编辑元数据)
2. Analytic metadata(分析元数据) 3. Descriptive metadata(描写元数据)
4. Administrative metadata(管理元数据)
Categories of Metadata
SAY 1 2 3 4 say says said saying
Freq. 20 15 9 2
Keywords and Key sequences
Compared (对比);Frequency (频率); Extracting (筛选)
Reference corpus (参照语料库)
A transcript of medical consultation医学讨论会手稿 (口 语)
Corpus Linguistics
语料库语言学
Presented by: Song Chao Wang Zeyu Li Zhanyu
Outline
Chapter I: Introduction
Chapter II: Analyzing Corpus Data
Chapter III: Current Issues in Corpus Linguistics
Focus of Corpora
The corpora above mainly focus on the collection of general English in use. Specialised corpora : represent a particular mode of discourse eg:1)Bergen Corpus of London Teenage Language (COLT) ; dominate academic discourse eg: 2)Michigan Corpus of Academic Spoken English (MICASE) and 3)British Academic Spoken English corpus (BASE) Another category of corpora captures the language use of language learners. eg: 1)Cambridge Learner Corpus, 2)Longman Learners’ Corpus, 3) International Corpus of Learner English (ICLE), 4) Vienna-Oxford International Corpus of English (VOICE), 5) English as a Lingua Franca in Academic Settings (ELFA)
语料库语言学术语汇编Aglossaryofcorpuslinguistics.docx

语料库语言学术语汇编 ( V2.0 )Last updated 2012-10-08 by许家金Aboutness所言之事Absolute frequency绝对频数Alignment (of parallel texts)(平行或对应)语料的对齐Alphanumeric字母数字构成的Annotate标注(动词)Annotated text/corpus标注文本 /语料库、赋码文本/语料库Annotation标注(名词)Annotation scheme标注方案ANSI/American National Standards Institute美国国家标准学会ASCII/American Standard Code for Information美国信息交换标准码ExchangeAssociates (of keywords)(主题词的)联想词AWL/academic word list学术词表Balanced corpus平衡语料库Base list/baselist底表、基础词表Bigram二元组、二元序列、二元结构Bi-text/bitext双语合并文本、双语分行对齐文本(一句源语一句目标语对齐后的文本)Bi-hapax两次词Bilingual corpus双语语料库Bootcamp debate/discourse/discussion(新手)训练营大辩论 /话语 /大探讨CA/Contrastive Analysis对比分析Case-sensitive/case sensitivity大小写敏感、区分大小写Category-based approach基于类(范畴)的方法Chi-square test/ 2χ卡方检验Chunk词块CIA/Contrastive Interlanguage Analysis中介语对比分析CLAWS/Constituent Likelihood Automatic Word-CLAWS 词性赋码系统tagging SystemClean text policy干净文本原则Cluster词簇、词丛Colligation类联接、类连接、类联结Collocate n./v.搭配词;搭配Collocability搭配强度、搭配力Collocation搭配、词语搭配Collocational strength搭配强度Collocational framework/frame搭配框架Collocational profile搭配概貌Collocational network搭配网络Comparable corpora类比语料库、可比语料库Computational Linguistics计算语言学ConcGram/concgram同现词列、框合结构Concord索引(行)(简略形式)Concordance (line)索引(行)Concordance plot(索引)词图Concordancer索引工具Concordancing索引分析Context语境、上下文Context word语境词Contextual prosody语境韵律Contingency table连列表、联列表、列连表、列联表Co-occurrence/Co-occurring共现、同现Corpus Linguistics语料库语言学Corpus, pl. corpora语料库Corpus-based基于语料库的Corpus-based translation studies基于语料库的翻译研究、语料库翻译学、基于语料库的译学研究Corpus-driven语料库驱动的Corpus-informed语料库指导下的、参考了语料库的Corpus size库容Corpus stylistics语料库文体学Co-select/co-selection/co-selectiveness共选(机制)Co-text共文Data mining数据挖掘DDL/Data Driven Learning数据驱动学习Dependency(句法)依存关系Dice coefficient Dice 系数Disambiguation消歧Diachronic corpus历时语料库Discourse话语、语篇Discourse prosody话语韵律Documentation文检报告、备检文件、说明文档EAGLES/Expert Advisory Groups on Language EAGLES 文本规格Engineering StandardsEmpirical linguistics实证语言学Empiricism经验主义Encoding字符编码Error-tagging错误标注、错误赋码Explicitation显化Extended unit of meaning扩展意义单位File-based search/concordancing批量检索Firthian (linguistics)弗斯(语言学)、弗斯学派的(语言学)Formulaic sequence程式化序列、套语Frequency频数、频率Frequency list词频表General (purpose) corpus通用语料库Genre语体、体裁Grammatical patterning语法型式Granularity颗粒度Hapax legomenon/hapax一次词Header/corpus head文本头、头标、头文件Hidden Markov model (HMM)隐马尔科夫模型、隐马模型Idiom principle习语原则、成语原则Idiomaticity习语性、地道程度Implicitation隐化Index/indexing(建)索引In-line annotation文内标注、行内标注Interlanguage中介语、过渡语Inter-coder agreement/reliability标注者间一致性/信度Introspection/introspective内省(式)(的)Intuition直觉Key keywords关键主题词Keyness主体性、关键性Keywords主题词KWIC/Key Word in Context语境中的关键词、语境共现(方式)KWIC sort语境共现排序、索引行排序Learner corpus学习者语料库Lemma, pl. lemmata/lemmas词目、原形词、词元Lemmatization词形还原、词元化Lemmatizer词形还原工具、词元化工具Lexical bundle词束Lexical density词汇密度Lexical frequency profile词频概貌Lexical grammar词汇语法Lexical item词项、词语项目Lexical patterning词语型式、词汇型式Lexical priming词汇触发理论、词汇启动理论Lexical profile词汇分布概貌Lexical richness词汇丰富度Lexico-grammar词汇语法Lexis词语、词项、词语学Log-likelihood ratio对数似然比、对数似然率Longitudinal/developmental corpus跟踪语料库、发展语料库、历时语料库Machine-readable机读的Machine translation机器翻译Manual annotation手工标注Markup/mark-up标记、置标MDA (Multi-dimensional analysis/approach)多维度分析法Metadata元信息Meta-metadata元元信息MF/MD approach/multi-feature/multi-dimensional多特征/多维度分析法analysisMisuse误用Monitor corpus(动态)监察语料库Monolingual corpus单语语料库Multilingual corpus多语语料库Multimodal corpus多模态语料库MWU/multiword unit多词单位MWE/multiword expression多词表达MI/mutual information互信息、互现信息N-gram N 元组、 N 元序列、 N 元结构、 N 元词、多词序列Neo-Firth (school)新弗斯学派Neo-Firthian新弗斯学派的NLP/Natural Language Processing自然语言处理Node (word)节点(词)Normalization标准化、(翻译)规范化、泛化Normalized frequency标准化频率、标称频率、归一频率Observed corpus观察语料库Ontology知识本体、本体Open choice principle开放选择原则OrthographicOrthography正字法Overuse过多使用、超用、使用过度、过度使用Paradigmatic纵聚合(关系)的Parallel corpus平行语料库、对应语料库Parole linguistics言语语言学Parsed corpus句法标注的语料库、树库Parser句法分析器Parsing句法标注、句法分析Pattern/patterning型式、模式Pattern grammar型式语法Pattern matching模式匹配Pedagogic corpus教学语料库Phraseology短语、短语学Phraseological unit/sequence短语单位 /序列Plain text纯文本POSgram赋码序列、码串POS sequence赋码序列、码串POS tagging/Part-of-Speech tagging词性赋码、词性标注、词性附码POS tagger词性赋码器、词性赋码工具Prefab预制语块Probabilistic(基于)概率的、概率性的、盖然的Probabilistic grammar概率语法、概率性语法、盖然语法Probability概率Query查询、检索Range分布(范围)、跨度Rationalism理性主义Raw frequency原始频数、生频数Raw text/corpus生文本 /生语料Reference corpus参照语料库Regex/RE/RegExp/regular expressions正则表达式、正则式Register variation语域变异Relative frequency相对频率Representative/representativeness代表性(的)Rule-based基于规则的S-universals源语型共性(特征)Sample n./v.样本;取样、采样、抽样Sampling取样、采样、抽样Sanitization净化Search term检索项Search word检索词Segmentation切分、分词Semantic association语义联想Semantic preference语义倾向、语义趋向Semantic prosody语义韵Sentence alignment句对齐、句级对齐SGML/Standard Generalized Markup Language标准通用标记语言Simplification简化Skipgram跨词序列、跨词结构Span跨距Specialized corpus专用语料库、专门用途语料库、专题语料库Standardized type/token ratio标准化类符 /形符比、标准化类/形比、标准化型次比Standardized TTR/STTR标准化类符 /形符比、标准化类/形比、标准化型次比Stand-off annotation分离式标注Stochastic随机的Stop list停用词表、过滤词表Stop word停用词、过滤词Synchronic corpus共时语料库Syntagmatic横组合(关系)的T score T 值T-universals目标语型共性(特征)Tag赋码、标记、附码Tagger赋码器、赋码工具、标注工具Tagging赋码、标注、附码Tag sequence赋码序列、码串Tagset赋码集、码集Tertium comparationis对比中立项、对比基础Text文本Text type文体、文类Text category文体、文类Text mining文本挖掘TEI/Text Encoding Initiative TEI 文本编码计划The Lexical Approach词汇中心教学法The Lexical Syllabus词汇大纲Token形符、词次Token definition/word definition形符界定、单词界定Tokenization分词Tokenizer分词工具Transcription转写Translation memory翻译记忆(库)Translation norms翻译规范Translationuniversals/Universal features of 翻译共性、翻译普遍特征translationTranslational corpus翻译语料库Translationese翻译体、翻译腔Treebank树库Trigram三元组、三元序列、三元结构T-score T 值Type类符、词种、词型TTR类符 /形符比、类 /形比、型次比Type/token ratio类符 /形符比、类 /形比、型次比Underuse少用、使用不足Unicode通用码Unicodify按通用码编码、转换为通用码Unit of meaning意义单位WaC/Web as Corpus网络语料库、网库Wildcard通配符Word alignment词对齐、词级对齐Word form词形Word family词族Word list词表Word sketch词语素描WSD/Word-sense disambiguation词义消歧XML/Extensible Markup Language可扩展标记语言Zipf ’ s Law/Zipfian Law齐夫定律Z score Z 值常用语料库ACE Australian Corpus of EnglishANC American National CorpusARCHER A Representative Corpus of Historical English Registers BASE British Academic Spoken English CorpusBAWE British Academic Written English CorpusBNC British National CorpusBoE Bank of EnglishBrown Brown CorpusCANCODE Cambridge and Nottingham Corpus of Discourse in English CEC China English CorpusCEM Corpus for English MajorsCHILDES Child Language Data Exchange SystemCIC Cambridge International CorpusCLEC Chinese Learners English CorpusCLOB2009 Brown family corpus of British EnglishCOBUILD Collins Birmingham University International Language Database COCA The Corpus of Contemporary American EnglishCOLSEC College Learners Spoken English CorpusCOLT Bergen Corpus of London Teenage LanguageCrown2009 Brown family corpus of American EnglishFLOB Freiburg-LOB Corpus of British EnglishFROWN Freiburg-Brown Corpus of American EnglishHelsinki Diachronic part of the Helsinki Corpus of English Texts DiachroniccorpusHKCSE Hong Kong Corpus of Spoken EnglishICE International Corpus of EnglishICE-GB International Corpus of English: Great BritainICLE International Corpus of Learner EnglishJEFLL Japanese EFL Learner CorpusLCMC Lancaster Corpus Mandarin ChineseLINDSEI Louvain International Database of Spoken English Interlanguage LIVAC Linguistic Variations in Chinese Speech CommunitiesLLC London Lund CorpusLOB Lancaster-Oslo/Bergen CorpusLOCNESS Louvain Corpus of Native English EssaysLONGDALE LONGitudinal DAtabase of Learner EnglishMICASE Michigan Corpus of Academic Spoken EnglishMICUSP Michigan Corpus of Upper-level Student PapersNESSIE Native English Speakers ’Similarly and Identically-prompted EssaysPACCEL Parallel Corpus of Chinese EFL LearnersSBCSAE Santa Barbara Corpus of Spoken American EnglishSCCSD The Spoken Chinese Corpus of Situated DiscourseSCORE Singapore Corpus of Research in EducationSEC Spoken English CorpusSECCL Spoken English Corpus of Chinese LearnersSECOPETS Spoken English Corpus of Public English Test SystemSEU Survey of English UsageSWECCL Spoken and Written English Corpus of Chinese Learners WECCL Written English Corpus of Chinese LearnersLast updated 2012-08-08 by许家金。
语料库语言学

4. Extraction of multiword units or clusters of items in a text.
Chapter II: Analyzing Corpus Data
Word Lists 词表
定义:根据单词或 词组在语篇中出现 的频率大小而排列 形成的列表。
Lemma:词目,词元 SAY: say, says,said, saying 在ELT中的应用
Historical corpora(历史语料库): texts from different periods of time, allow for the study of language change when compared with corpora from other periods. Monitor corpora(监控语料库):focus on current changes in the language. Parallel corpora(平行语料库):texts in at least two languages that have either been directly translated, or produced in different languages for the same purpose.
Technical: a large collection of written or spoken language ,that is used for studying the language.语料 库,语料汇编
What is corpus linguistics?
• Corpus linguistics :the study of machine-readable spoken and written language samples that have been assembled in a principled way for the purpose of linguistics research. It is concerned with language use in real contexts.
语料库语言学方法、技术与应用研讨会-北京外国语大学

“语料库语言学:方法、技术与应用”研讨会语料库研究日益成为语言学及语言应用研究的显学。
围绕语料库的创建、加工及应用,不同学科的学界同仁进行多方面的探索,已形成一批有影响的成果。
为促进我国语料库语言学的发展,增进语言与技术界的交流,为各语种学者架设沟通的桥梁,北京外国语大学中国外语教育中心拟于2015年6月6-7日在北京外国语大学举办“语料库语言学:方法、技术与应用”研讨会。
一、会议主题:语料库语言学:方法、技术与应用,议题包括但不限于:语料库语言学的理念与方法语料库建设、加工及检索技术语料库在语言本体与语言教学及工程中的应用二、会议组织形式会议邀请一线中青年专家进行圆桌论坛交流。
每位演讲者发言时间20分钟,提问讨论10分钟。
三、时间地点时间:2015年6月6日8:15-5:45、6月7日上午8:30-12:00地点:北京外国语大学东院逸夫楼1层会议室欢迎学界同仁光临指导!北京外国语大学中国外语教育研究中心2015年6月5日演讲嘉宾(按音序排列)邓耀臣大连海事大学外国语学院博士、教授何伟中国传媒大学文学院博士、副研究员黄立波西安外国语大学英文学院博士、教授贾云龙汇智明德(北京)教育科技有限公司创始人江进林对外经济贸易大学英语学院博士、副教授李波华中师范大学计算机学院博士、副教授李文中北京外国语大学中国外语教育研究中心博士、研究员梁茂成北京外国语大学中国外语教育研究中心博士、研究员刘国兵河南师范大学外国语学院博士、副教授刘磊燕山大学外国语学院博士刘泽权河南大学外国语学院博士、教授马晓雷国防科技大学国防语言系博士、副教授王治敏北京语言大学国际汉语教育学部博士、教授邢富坤解放军外国语学院语言工程系博士、副教授熊文新北京外国语大学中国外语教育研究中心博士、副研究员许家金北京外国语大学中国外语教育研究中心博士、研究员荀恩东北京语言大学大数据与教育技术研究所博士、教授张宝林北京语言大学语言研究院研究员张威北京语言大学外国语学院博士、教授赵小兵中央民族大学国家语言资源检测与研究中心少数民族语言分中心博士、教授。
语料库语言学术语汇编Aglossaryofcorpuslinguistics

语料库语言学术语汇编Aglossaryofcorpuslinguistics语料库语言学术语汇编(V2.0)Last updated 2012-10-08 by 许家金Aboutness 所言之事Absolute frequency 绝对频数Alignment (of parallel texts)(平行或对应)语料的对齐Alphanumeric 字母数字构成的Annotate标注(动词)Annotated text/corpus 标注文本/语料库、赋码文本/语料库Annotation标注(名词)Annotation scheme标注方案ANSI/American National Standards Institute美国国家标准学会ASCII/American Standard Code for Information Exchange美国信息交换标准码Associates (of keywords)(主题词的)联想词AWL/academic word list 学术词表Balanced corpus 平衡语料库Base list/baselist 底表、基础词表Bigram 二元组、二元序列、二元结构Bi-text/bitext双语合并文本、双语分行对齐文本(一句源语一句目标语对齐后的文本)Bi-hapax 两次词Bilingual corpus双语语料库Bootcamp debate/discourse/discussion (新手)训练营大辩论/话语/大探讨CA/Contrastive Analysis 对比分析Case-sensitive/case sensitivity 大小写敏感、区分大小写Category-based approach 基于类(范畴)的方法Chi-square test/χ2 卡方检验Chunk词块CIA/Contrastive Interlanguage Analysis中介语对比分析CLAWS/Constituent Likelihood Automatic Word-tagging System CLAWS 词性赋码系统Clean text policy 干净文本原则Cluster 词簇、词丛Colligation 类联接、类连接、类联结Collocate n./v.搭配词;搭配Collocability 搭配强度、搭配力Collocation搭配、词语搭配Collocational strength 搭配强度Collocational framework/frame 搭配框架Collocational profile搭配概貌、管路敷设技术通过管线不仅可以解决吊顶层配置不规范高中资料试卷问题,而且可保障各类管路习题到位。
语料库术语汇编

语料库术语汇编1000字1. 语料库 (Corpus):一种语言学研究工具,指一定时间内一定领域内被记录下来的语言使用材料的整合。
2. 词频 (Frequency):指特定词语在语料库中出现的频率。
通常用来研究该词语在不同领域或语言环境下的使用情况。
3. 词汇 (Vocabulary):指一个语言或领域中所涉及的全部词汇。
在语料库研究中,词汇可以从不同的角度进行分类和分析。
4. 标记 (Tagging):是指对语料库中每个词语进行词性和句法结构等标记,使其变得更易于分析。
5. 约定 (Convention):是指研究人员在语料库建设和分析中的一些共同规范,如数据格式、标注方式等。
6. 清洗 (Cleaning):是指剔除语料库中不符合研究要求或不准确的数据,以保证研究的准确性。
7. 分词 (Tokenization):是指将一个连续的文本分割成一个个离散的词语或符号的过程。
分词是语料库研究的基础。
8. 停止词 (Stop Words):指在文本中频繁出现但在分析中往往没有实质意义的词语,如“的”、“和”等。
9. 语法 (Grammar):是指一个语言中的语音、词汇、句法和语用规则等有组织的系统,可以用来解释和生成语言的各种表达。
10. 句法 (Syntax):是指语言中句子的结构和组成规则。
语料库分析中的句法分析可以用来研究语言中的语法规则。
11. 词频分布 (Frequency Distribution):是指一个语料库中各个词语出现的频率分布情况。
通过词频分布可以研究语言中不同词汇的使用情况。
12. 词向量 (Word Vector):是指将词语表示成向量的一种技术。
在语料库研究中,词向量可以用来进行词语分类和聚类分析。
13. 上下文 (Context):是指一个词语在文本中所处的语言环境和意义。
在语料库研究中,上下文分析可以帮助研究人员深入理解词语和语句的含义。
14. 模型 (Model):是指通过统计或机器学习等方法建立的能够反映语言规律或模式的工具或算法。
语料库语言学术语集

Empirical Linguistics
实证语言学
Empiricism
经验主义
Encoding
字符编码
Error-tagging
错误标注、错误赋码
Extended unit of meaning
扩展意义单位
File-based search/concordancing
批量检索
Formulaic sequence
中介语对比分析
CLAWS/Constituent Likelihood Automatic Word-tagging System
CLAWS词性赋码系统
Clean text policy
干净文本原则
Cluster
词簇、词丛
Colligation
类联接、类连接、类联结
Collocaten./v.
搭配词;搭配
词汇触发理论
Lexical richness
词汇丰富度
Lexico-grammar/Lexical grammar
词汇语法
Lexis
词语、词项
LL/Log likelihood (ratio)
对数似然比、对数似然率
Longitudinal/Developmental corpus
跟踪语料库、发展语料库、历时语料库
Absolute frequency
绝对频数
Alignment (of parallel texts)
(平行或对应)语料的对齐
Alphanumeric
字母数字类的
Annotate
标注(动词)
Annotation
标注(名词)
Annotation scheme
“语料库语言学”文件汇编

“语料库语言学”文件汇编目录一、语料库语言学视野中的外国文学研究二、语料库语言学的新热点与话语分析的互动兼述04IVACS2和05ICAME26AAACL6国际研讨会三、语料库语言学研究的技术拓展Python文本分析用可实现的方法挖掘数据价值评介四、变化中的语料库语言学五、俄语语料库语言学研究现状与瞻望六、图式理论、语料库语言学与外语教学语料库语言学视野中的外国文学研究随着语料库语言学的兴起和发展,越来越多的研究者开始尝试从新的视角对外国文学进行深入研究。
语料库语言学以大量真实的语言数据为基础,借助计算机技术进行统计分析,为外国文学研究提供了新的研究思路和方法。
本文将探讨语料库语言学视野中的外国文学研究,以期为相关研究提供一定的参考。
在外国文学研究领域,传统的文学批评方法往往注重文本的内在分析和主观评价。
然而,语料库语言学的出现为外国文学研究提供了新的可能性。
通过运用语料库工具,研究者可以对作家的用词、句法、文体等进行全面而深入的分析,进而挖掘作品在语言层面的独特性和艺术价值。
例如,通过建立莎士比亚戏剧的语料库,研究者可以系统地考察莎士比亚在用词方面的特点。
通过对比不同时期、不同风格的英语戏剧语料库,可以发现莎士比亚在词汇使用上的创新和突破,为解读他的作品提供了新的视角。
运用语料库方法,还可以对其他外国文学经典进行量化分析,以可视化形式呈现文本的内在结构和规律。
然而,语料库语言学并非万能的,也有其局限性和挑战。
语料库的代表性是关键问题。
由于语料库的规模和类型有限,可能无法完全反映作家的真实语言特征。
语料库语言学的方法和技术也在不断发展完善中,需要结合具体研究需求进行选择和应用。
在总结前人研究的基础上,我们认为语料库语言学视野中的外国文学研究具有重要的应用价值。
未来的研究可以尝试从以下几个方面展开:1)拓展语料库的规模和多样性,提高研究的可靠性和普适性;2)结合多模态数据进行全面分析,深化对文学作品的理解;3)作家的跨文化交流与影响,探索外国文学在全球化背景下的传播和接受;4)运用最新的语料库技术和方法,如情感分析、主题模型等,对外国文学作品进行更精细化的解读;5)培养跨学科的研究团队,促进语料库语言学与外国文学研究的深度融合。
语料库语言学术语汇编A glossary of corpus linguistics-推荐下载

语料库语言学术语汇编(V2.0)Last updated 2012-10-08 by 许家金Aboutness 所言之事Absolute frequency 绝对频数Alignment (of parallel texts)(平行或对应)语料的对齐Alphanumeric 字母数字构成的Annotate标注(动词)Annotated text/corpus 标注文本/语料库、赋码文本/语料库Annotation标注(名词)Annotation scheme标注方案ANSI/American National Standards Institute美国国家标准学会ASCII/American Standard Code for InformationExchange美国信息交换标准码Associates (of keywords)(主题词的)联想词AWL/academic word list 学术词表Balanced corpus 平衡语料库Base list/baselist 底表、基础词表Bigram 二元组、二元序列、二元结构Bi-text/bitext双语合并文本、双语分行对齐文本(一句源语一句目标语对齐后的文本)Bi-hapax 两次词Bilingual corpus双语语料库Bootcamp debate/discourse/discussion (新手)训练营大辩论/话语/大探讨CA/Contrastive Analysis 对比分析Case-sensitive/case sensitivity 大小写敏感、区分大小写Category-based approach 基于类(范畴)的方法Chi-square test/χ2 卡方检验Chunk词块CIA/Contrastive Interlanguage Analysis中介语对比分析CLAWS/Constituent Likelihood Automatic Word-tagging System CLAWS 词性赋码系统Clean text policy 干净文本原则Cluster 词簇、词丛Colligation 类联接、类连接、类联结Collocate n./v.搭配词;搭配Collocability 搭配强度、搭配力Collocation搭配、词语搭配Collocational strength 搭配强度Collocational framework/frame 搭配框架Collocational profile搭配概貌、管路敷设技术通过管线敷设技术不仅可以解决吊顶层配置不规范高中资料试卷问题,而且可保障各类管路习题到位。
语言学教程术语索引

语言学术语〔英-汉对照〕表Glossary and IndexAabbreviation缩写词,略语3.3.1Abercrombie 10.3.2ablative 夺格,离格4.1.1abstractness 抽象性1.3.2accent 重音〔符〕2.4.4;2.4.5accuracy正确性11.6.4accusative 宾格4.1.1achievement test 成绩测试11.6.3acoustic phonetics 声学语音学1.7.1;2.1 acquisition 习得6.1.2acronym 缩略语3.3.1action process 动作过程12.2.3actor 动作者4.4.2;12.2.3addition 添加3.3.2address form称呼形式7.2.3addressee 受话人1.4;9.4.1addresser 发话人1.4;9.4.1adjective 形容词3.1.2;4.1.1;5.5.2adjunct 修饰成分;附加语12.2.3adverb 副词3.1.2affix 词缀3.2.1affix hopping 词缀跳跃4.3.1affixation词缀附加法7.1.4affricate 塞擦音2.4.3;2.4.5;2.9.1agreement 一致关系4.1.3airstream 气流2alliteration 头韵9.3.2;9.3.6allomorph 词/语素变体3.2.4;4.3.1allophone 音位变体2.8allophonic variation 音位变体2.8.3allophony音位变表达象2.8.3alveolar ridge 齿龈2.2alveolar 齿龈音2.4.4;2.4.5ambiguity 歧义4.2.2;4.3.1;6.2.3;8.2.2;8.3.2 ambiguous歧义的5.5.2;6.3American descriptive linguistics 美国描写语言学12.3 American English 美式英语10.3.5American Indian languages 美国印第安族诸语言12.3 American structuralism 美国构造主义10.3.2;12.3 analogical creation 类推造字3.3.1anapest 抑抑扬格9.3.3anaphor 前指替代4.3.3anaphoric reference 前指照应4.3.2Anderson 6.3.1Animal munication system 动物交际系统1.2;1.3 animate 有生命的4.2.1annotation 注解10.3.4;10.3.5antecedent 先行词;前在词4.3.2 anthropological 人类学的12.3.1 anthropological linguistics 人类语言学1.8.3;7.1.1 anticipatory coarticulation 逆化协同发音2.6.1 antonomasia 换称;代类名7.1.4antonym 反义词5.4antonymy 反义(关系) 5.3.2appellative 称谓性4.4.2applied linguistics 应用语言学11applied sociolinguistics 应用社会语言学7.2.4 appropriacy 适宜性11.6.4appropriateness 适宜性;得体性11.2.5 approximant 无摩擦延续音2.4.3;2.4.5Apte 7;7.2.1aptitude test 素质测试11.6.2Arabic 阿拉伯语3.3.1;4.4.1arbitrariness 任意性1.3.1;12argument 中项;中词;主目4.3.3;5.5.2article 冠词3.1.2;4.1.1;4.2.1articulation 发音2.6articulator 发音器官2.4.2;2.4.3articulatory phonetics 发音语音学1.7.1;2.1 artificial speech 人工言语10aspect 体4.1.2aspirated 吐气;送气2.6.2;2.8.2 assimilation 同化2.9.1;3.2.4;3.3.2;6.2.4 associative 联想4.2.1associative meaning 联想意义5.3assonance 准压韵;半谐音9.3.2;9.3.6 Atkinson, A.M. 2.1attributive属性;修饰语;定语4.2.2;12.2.3 auditory phonetics 听觉语音学1.7.1;2.1 Austin, John Langshaw 8.1;8.1.2authentic input 真实投入11.4.2authorial style 权威风格9.4.3authoring program 编程10.1.3autonomy 自主性1.8auxiliary 助词3.1.2;12.4.3auxiliary verb 助动词3.1.2;12.2.3Bbabbling stage婴儿语阶段12.4.1back-formation 逆构词法3.3.1Bally, Charles 9.1Bar-Hillel 10.2.1Barnhart & Barnhart 7.1.4base ponent 根底局部4.3.2;12.4。
语料库 入门

何谓语料库检索
Concordancers are developed to produce concordance lines of a specific string of text.
Wordsmith Tools
AntConc
Many others
语义韵semantic prosody
• “快速导航”翻译成“fast guide” 对不对? • 上海世博会英文网站
• 在口头表达、写作或翻译中如何确定某些用 法是地道的? • 学习者一般要有多大词汇量才能读懂英文报 纸? • 哪些是商务英语中最常用的单词和短语? • 某种考试中,哪些单词、词组或其他语言现 象出现的频率特别高? • 如何通过量化统计来分析文学作品的写作风 格?
• 有专门的软件根据词形还原表,自动对文本进行 词形还原。
语料库语言学常用术语
• Keywords 关键词
– Keywords are words whose normalized frequency in one corpus (observed corpus) is significantly higher or lower than that in another comparable corpus (reference corpus). – Positive keywords and negative keywords
语料库语言学常用术语
• Token形符: an individual word • Type类符: word form. 指不重复计算 的形符数。"I see a cat and a dog" contains seven tokens but only six types (the type 'a' occurs twice).
北京外国语大学语料库

北京外国语大学语料库
北京外国语大学语料库是由北京外国语大学资料中心创建的网络语料库,旨在收集、整理和发布中国外语教学研究中所使用的语料或语言材料。
它是一个数据库,主要收录具有英汉双语特征的访谈录、报纸文章、书籍、杂志文章、新闻稿件、广播节目等语料,收录的文本不但包含中国文化背景色彩,还涵盖了国际当代话题。
该语料库被多个学科引用,主要用于外语教学、社会语言学研究、语言学研究以及跨文化研究等领域。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Lexical richness
词汇丰富度
Lexico-grammar
词汇语法
Lexis
词语、词项
Log-likelihood ratio
对数似然比、对数似然率
Longitudinal/developmentalcorpus
跟踪语料库、发展语料库、历时语料库
Machine-readable
美国信息交换标准码
Associates (of keywords)
(主题词的)联想词
AWL/academic word list
学术词表
Balanced corpus
平衡语料库
Base list/baselist
底表、基础词表
Bigram
二元组、二元序列、二元结构
Bi-text/bitext
双语合璧文本、双语合并文本、双语分行对齐文本(一句源语一句目标语对齐后的文本)
开放选择原则
Orthographic
正字层面的、字面的
Orthography
正字法
Overuse
过多使用、超用、使用过度、过度使用
Paradigmatic
纵聚合(关系)的
Parallel corpus
平行语料库、对应语料库
Parole linguistics
言语语言学
Parsed corpus
句法标注的语料库、树库
批量检索
Firthian (linguistics)
弗斯(语言学)、弗斯学派的(语言学)
Fisher’sexact test
费舍尔精确检验
Formulaic sequence
程式化序列、套语
Frequency
频数、频率
Frequency list
词频表
General (purpose) corpus
净化
Search term
检索项
Search word
检索词
Segmentation
切分、分词
Semantic association
语义联想
Semantic preference
语义倾向、语义趋向
Semantic prosody
语义韵
Sentence alignment
句对齐、句级对齐
SGML/Standard Generalized Markup Language
预制语块
Probabilistic
(基于)概率的、概率性的、盖然的
Probabilistic grammar
概率语法、概率性语法、盖然语法
Probability
概率
Query
查询、检索
Range
分布(范围)、跨度
Rationalism
理性主义
Raw frequency
原始频数、生频数
Raw text/corpus
共选(机制)
Co-text
共文
Data mining
数据挖掘
DDL/Data Driven Learning
数据驱动学习
Dependency
(句法)依存关系
Dice coefficient
Dice系数
Disambiguation
消歧
Diachronic corpus
历时语料库
Discourse
话语、语篇
短语单位/序列
Phraseologicalprofile
短语概貌
Plain text
纯文本
POSgram
赋码序列、码串
POS sequence
赋码序列、码串
POS tagging/Part-of-Speech tagging
词性赋码、词性标注、词性附码
POS tagger
词性赋码器、词性赋码工具
Prefab
主题词
KWIC/Key Word in Context
语境共现(方式)、语境中的关键词
KWIC sort
语境共现排序、索引行排序
Learner corpus
学习者语料库
Lemma,pl. lemmata/lemmas
原形词、词目
Lemmatization
词形还原
Lemmatizer
词形还原工具
Lexical bundle
Parser
句法分析器
Parsing
句法标注、句法分析
Pattern/patterning
型式、模式
Pattern grammar
型式语法
Pattern matching
模式匹配
Pedagogic corpus
教学语料库
Phraseology
短语学、短语
Phraseological unit/sequence
Bi-hapax
两次词、二次词
Bilingual corpus
双语语料库
Bootcamp debate/discourse/discussion
(新手)训练营大辩论/话语/大探讨
CA/Contrastive Analysis
对比分析
Case-sensitive/case sensitivity
大小写敏感、区分大小写
Annotated text/corpus
标注文本/语料库、赋码文本/语料库
Annotation
标注(名词)、赋码
Annotationscheme
标注方案、赋码方案
ANSI/American National Standards Institute
美国国家标准学会
ASCII/American Standard Code for Information Exchange
多模态语料库
MWU/multiword unit
多词单位
MWE/multiword expression
多词表达
MI/mutual information
互信息、互现信息
N-gram
N元组、N元序列、N元结构、N元词、多词序列
Neo-Firth (school)
新弗斯学派
Neo-Firthian
新弗斯学派的
元信息
MF/MD approach/multi-feature/multi-dimensional analysis
多特征/多维度分析法
Misuse
误用
Monitor corpus
(动态)监察语料库
Monolingual corpus
单语语料库
Multilingual corpus
多语语料库
Multimodal corpus
生文本/生语料
Reference corpus
参照语料库
Regex/RE/RegExp/regularexpressions
正则表达式、正则式
Register
语域
Register variation
语域变异
Relative frequency
相对频率
Representative/representativeness
Category-based approach
基于类(范畴)的方法
Chi-square test/χ2
卡方检验
Chunk
词块
CIA/Contrastive Interlanguage Analysis
中介语对比分析
CLAWS/Constituent Likelihood Automatic Word-tagging System
CLAWS词性赋码系统
Clean text policy
干净文本原则
Cluster
词丛、词簇
Colligation
类联接、类连接、类联结
Collocaten./v.
搭配词;搭配
Collocability
搭配强度、搭配力
Collocation
搭配、词语搭配
Collocational strength
搭配强度
词束
Lexical density
词汇密度
Lexical frequency profile
词频概貌
Lexical grammar
词汇语法
Lexical item
词项、词语项目
Lexical patterning
词语型式、词汇型式
Lexical priming
词汇触发理论、词汇启动理论
Lexical profile
文内标注、行内标注
Interlanguage
中介语
Inter-coder agreement/reliability
标注者间一致性/信度
Introspection/introspective
内省(式)(的)
Intuition
直觉
Key keywords
关键主题词
Keyness
主题性、关键性
Keywords
隐马尔科夫模型、隐马模型
Historical corpus
历时语料库
HowNet
知网
ICTCLAS
中科院汉语分词系统
Idiom principle
习语原则、成语原则
Idiomaticity
习语性、地道程度
Implicitation
隐化
Index/indexing
(建)索引
In-line annotation
语境韵律
Contingency table
连列表、联列表、列连表、列联表
Co-occurrence/Co-occurring
共现、同现
Corpus Linguistics