语料库常用术语
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
语料库常用术语
Type 类符
Tokens 形符
例如“I see a cat and a dog”类符6个,形符7个
Type/token ratio =TTR
TTR 是衡量文本中词汇密度的常用方法,可以辅助说明文本的词汇难度。
但是,文本中有大量功能词出现,文本每增加一个词,形符就会增加一个,但类符却未必随之增加。
这样文本越长,功能词重复次数越多,TTR会越低。
因此用TTR衡量词汇密度不合理,于是,出现了标准化类符/形符比,即STTR。
例如,计算每个文本1000词的TTR,均值处理,得出STTR。
Frequency(频率)
例如每百万词、十万词中,某单词出现次数。
常常将某个单词在两个语料库中出现的频率参照两个语料库的容量,用卡方检验或对数似然率进行对比,来确定两个库中该单词的使用是否有差异。
Wordlist词表
根据单词或词组在语篇中出现的频率大小而排列形成的列表。
Ranks
Lemma词目,词元
比如go是lemma,对应各种屈折变化形式(inflections),go,goes,went,going,gone共5种屈折变化形式。
在分析语言时,需要将它们全部归到go名下,这个过程叫词形还原。
Keywords关键词、主题词positive keywords 正关键词negative keywords 负关键词
Concordance 索引(KWIC 语境中的关键词key words in context)
运用索引软件在语料库中查询某词或短语的使用实例,然后将所有符合条件的语言使用实例及其语境以清单的形式列出。
通过前后语境,可以分析“collocation词汇搭配”“colligation 类连接、语法搭配”“semantic preference语义倾向”“semantic prosody语义韵”Collocation词汇搭配
搭配强度MI,T-score ,Z-score
Colligation类连接、语法搭配
semantic prosody语义韵
词汇的语义韵大体可分为积极语义韵、中性语义韵、消极语义韵。
POS tagging 词性赋码
Regular expression regex 正则表达式。