语料库建设中的名词标注方法
语料库术语汇编
语料库术语汇编语料库术语汇编:Aboutness 所言之事Absolute frequency 绝对频数Alignment (of parallel texts) (平行或对应)语料的对齐Alphanumeric 字母数字类的Annotate 标注(动词)Annotation 标注(名词)Annotation scheme 标注方案ANSI/American National Standards Institute 美国国家标准学会ASCII/American Standard Code for Information Exchange 美国信息交换标准码Associate (of keywords) (主题词的)联想词A WL/Academic word list 学术词表Balanced corpus 平衡语料库Base list 底表、基础词表Bigram 二元组、二元序列、二元结构Bi-hapax 两次词Bilingual corpus 双语语料库CA/Contrastive Analysis 对比分析Case-sensitive 大小写敏感、区分大小写Chi-square (χ2) test 卡方检验Chunk 词块CIA/Contrastive Interlanguage Analysis 中介语对比分析CLA WS/Constituent Likelihood Automatic Word-tagging System CLA WS词性赋码系统Clean text policy 干净文本原则Cluster 词簇、词丛Colligation 类联接、类连接、类联结Collocate n./v. 搭配词;搭配Collocability 搭配强度、搭配力Collocation 搭配、词语搭配Collocational strength 搭配强度Collocational framework/frame 搭配框架Comparable corpora 类比语料库、可比语料库ConcGram 同现词列、框合结构Concordance (line) 索引(行)Concordance plot (索引)词图Concordancer 索引工具Concordancing 索引生成、索引分析Context 语境、上下文Context word 语境词Contingency table 连列表、联列表、列连表、列联表Co-occurrence/Co-occurring 共现Corpora 语料库(复数)Corpus Linguistics 语料库语言学Corpus 语料库Corpus-based 基于语料库的Corpus-driven 语料库驱动的Corpus-informed 语料库指导的、参考了语料库的Co-select/Co-selection/Co-selectiveness 共选(机制)Co-text 共文DDL/Data Driven Learning 数据驱动学习Diachronic corpus 历时语料库Discourse 话语、语篇Discourse prosody 话语韵律Documentation 备检文件、文检报告EAGLES/Expert Advisory Groups on Language Engineering Standards EAGLES文本规格embedded annotation 嵌入式标注Empirical Linguistics 实证语言学Empiricism 经验主义Encoding 字符编码Error-tagging 错误标注、错误赋码Extended unit of meaning 扩展意义单位File-based search/concordancing 批量检索Formulaic sequence 程式化序列Frequency 频数、频率General (purpose) corpus 通用语料库Granularity 颗粒度Hapax legomenon/hapax 一次词Header/Text head 文本头、头标、头文件HMM/Hidden Markov Model 隐马尔科夫模型Idiom Principle 习语原则Index/Indexing (建)索引In-line annotation 文内标注、行内标注Key keyword 关键主题词Keyness 主题性、关键性Keyword 主题词KWIC/Key Word in Context 语境中的关键词、语境共现(方式)Learner corpus 学习者语料库Lemma 词目、原形词、词元Lemma list 词形还原对应表Lemmata 词目、原形词、词元(复数)Lemmatization 词形还原、词元化Lemmatizer 词形还原(词元化)工具Lexical bundle 词束Lexical density 词汇密度Lexical item 词项、词语项目Lexical priming 词汇触发理论Lexical richness 词汇丰富度Lexico-grammar/Lexical grammar 词汇语法Lexis 词语、词项LL/Log likelihood (ratio) 对数似然比、对数似然率Longitudinal/Developmental corpus 跟踪语料库、发展语料库、历时语料库Machine-readable 机读的Markup 标记、置标MDA/Multi-dimensional approach 多维度分析法Metadata 元信息Meta-metadata 元元信息MF/MD (Multi-feature/Multi-dimensional) approach 多特征/多维度分析法Mini-text 微型文本Misuse 误用Monitor corpus (动态)监察语料库Monolingual corpus 单语语料库Multilingual corpus 多语语料库Multimodal corpus 多模态语料库MWU/Multiword unit 多词单位MWE/Multiword expression 多词单位MI/Mutual information 互信息、互现信息N-gram N元组、N元序列、N元结构、N元词、多词序列NLP/Natural Language Processing 自然语言处理Node 节点(词)Normalization 标准化Normalized frequency 标准化频率、标称频率、归一频率Observed corpus 观察语料库Ontology 知识本体、本体Open Choice Principle 开放选择原则Overuse 超用、过多使用、使用过度、过度使用Paradigmatic 纵聚合(关系)的Parallel corpus 平行语料库、对应语料库Parole linguistics 言语语言学Parsed corpus 句法标注的语料库Parser 句法分析器Parsing 句法分析Pattern/patterning 型式Pattern grammar 型式语法Pedagogic corpus 教学语料库Phraseology 短语、短语学POSgram 赋码序列、码串POS tagging/Part-of-Speech tagging 词性赋码、词性标注、词性附码POS tagger 词性赋码器、词性赋码工具Prefab 预制语块Probabilistic (基于)概率的、概率性的、盖然的Probability 概率Rationalism 理性主义Raw text/Raw corpus 生文本(语料)Reference corpus 参照语料库Regex/RE/RegExp/Regular Expressions 正则表达式Register variation 语域变异Relative frequency 相对频率Representative/Representativeness 代表性(的)Rule-based 基于规则的Sample n./v. 样本;取样、采样、抽样Sampling 取样、采样、抽样Search term 检索项Search word 检索词Segmentation 切分、分词Semantic preference 语义倾向Semantic prosody 语义韵SGML/Standard Generalized Markup Language 标准通用标记语言Skipgram 跨词序列、跨词结构Span 跨距Special purpose corpus 专用语料库、专门用途语料库、专题语料库Specialized corpus 专用语料库Standardized TTR/Standardized type-token ratio 标准化类符/形符比、标准化类/形比、标准化型次比Stand-off annotation 分离式标注Stop list 停用词表、过滤词表Stop word 停用词、过滤词Synchronic corpus 共时语料库Syntagmatic 横组合(关系)的Tag 标记、码、标注码Tagger 赋码器、赋码工具、标注工具Tagging 赋码、标注、附码Tag sequence 赋码序列、码串Tagset 赋码集、码集Text 文本TEI/Text Encoding Initiative 文本编码计划The Lexical Approach 词汇中心教学法The Lexical Syllabus 词汇大纲Token 形符、词次Token definition 形符界定、单词界定Tokenization 分词Tokenizer 分词工具Transcription 转写Translational corpus 翻译语料库Treebank 树库Trigram 三元组、三元序列、三元结构T-score T值Type 类符、词型TTR/Type-token ratio 类符/形符比、类/形比、型次比Underuse 少用、使用不足Unicode 通用码Unit of meaning 意义单位WaC/Web as Corpus 网络语料库Wildcard 通配符Word definition 单词界定Word form 词形Word family 词族Word list 词表XML/EXtensible Markup Language 可扩展标记语言Zipf's Law 齐夫定律Z-score Z值。
现代汉语语料库加工规范词语切分与词性标注词
中国/ns,中华人民共和国/ns,日本国/ns,美利坚合众国/ns,美国/ns
2.地名后有“省”、“市”、“县”、“区”、“乡”、“镇”、“村”、“旗”、“州”、“都”、“府”、“道”等单字的行政区划名称时,不切分开,作为一个切分单位。
四川省/ns,天津市/ns,景德镇/ns沙市市/ns,牡丹江市/ns,正定县/ns,海淀区/ns,通州区/ns,东升乡/ns,双桥镇/ns南化村/ns,华盛顿州/ns,俄亥俄州/ns,东京都/ns,大阪府/ns,北海道/ns,长野县/ns,开封府/ns,宣城县/ns
2.姓名后的职务、职称或称呼要分开。
江/nr主席/n,小平/nr同志/n,江/nr总书记/n,张/nr教授/n,王/nr部长/n,陈/nr老总/n,李/nr大娘/n,刘/nr阿姨/n,龙/nr姑姑/n
3.对人的简称、尊称等若为两个字,则合为一个切分单位,并标以nr。
老张/nr,大李/nr,小郝/nr,郭老/nr,陈总/nr
二/m连/n, 三/m部/n ,
19
Ng名语素
名词性语素。名词代码为n,语素代码g前面置以N。
出/v过/u两/m天/q差/Ng,
理/v了/u一/m次/q发/Ng,
20
n名词
取英语名词noun的第1个字母。
(参见动词--v)
岗位/n ,城市/n ,机会/n ,
她/r是/v责任/n编辑/n ,(编辑/v科技/n文献/n )
甲/Mg减下/v的/u人/n让/v乙/Mg背上/v ,
凡/d“/w寅/Mg年/n”/w中/f出生/v的/u人/n生肖/n都/d属/v虎/n ,
18
m数词
取英语numeral的第3个字母,n,u已有他用。
现代汉语语料库加工规范词语切分和词性标注词...
[芜湖/ns专区/n] NS,
[宣城/ns地区/n]ns,
[内蒙古/ns自治区/n]NS,
[深圳/ns特区/n]NS,
[厦门/ns经济/n特区/n]NS,
[香港/ns特别/a行政区/n]NS,
甲/Mg减下/v的/u人/n让/v乙/Mg背上/v ,
凡/d“/w寅/Mg年/n”/w中/f出生/v的/u人/n生肖/n都/d属/v虎/n ,
18
m数词
取英语numeral的第3个字母,n,u已有他用。
1.数量词组应切分为数词和量词。三/m个/q, 10/m公斤/q,一/m盒/q点心/n ,
但少数数量词已是词典的登录单位,则不再切分。
合作/vn与/c伙伴/n
8
Dg
副语素
副词性语素。副词代码为d,语素代码g前面置以D。
了解/v甚/Dg深/a,
煞/Dg是/v喜人/a,
9
d
副词
取adverb的第2个字母,因其第1个字母已用于形容词。
进一步/d发展/v,
10
e
叹词
取英语叹词exclamation的第1个字母。
啊/e,/w那/r金灿灿/z的/u麦穗/n,
约/d一百/m多/m万/m,仅/d一百/m个/q,四十/m来/m个/q,二十/m余/m只/q,十几/m个/q,三十/m左右/m,
两个数词相连的及“成百”、“上千”等则不予切分。
五六/m年/q,七八/m天/q,十七八/m岁/q,成百/m学生/n,上千/m人/n,
4.表序关系的“数+名”结构,应予切分。
[宝山/ns钢铁/n总/b公司/n]NT,(/w宝钢/j)/w
语料库中语料的标注
语料库中语料的标注董爱华【摘要】In the application of corpora, annotation is a must to ESP text analysis, learner’s language analysis and bilingual translation study. To guarantee the validity of the research results based on corpora, annotation of the corpora must be accurate. This paper starts from introducing the principles, methods and patterns of annotation, then it tries to analyzehow to control the quality of annotation from several aspects, and it also aims to help the corpora users to test the quality of a certain corpus.%在语料库应用过程中,ESP文本分析、学习者语言分析及双语翻译研究等都要用到标注。
语料库语料标注的准确性是基于语料库的学术研究结果可靠性的前提。
文章介绍了语料库标注的原则、方法模式,并分析了控制标注质量的相关因素,目的是为标注语料库的使用者检验标注质量提供帮助。
【期刊名称】《北京印刷学院学报》【年(卷),期】2016(024)005【总页数】4页(P67-70)【关键词】语料库标注;原则;方法;模式;质量【作者】董爱华【作者单位】北京印刷学院外语部,北京102600【正文语种】中文【中图分类】H0从现代语料库语言学的角度来看,语料库应该具备三个方面的基本条件,即样本的代表性、规模的有限性和语料的机读化[1]。
现代汉语语料库加工-词语切分与词性标注规范与手册
现代汉语语料库加工——词语切分与词性标注规范与手册俞士汶主编北京大学计算语言学研究所1999年4月目录●现代汉语语料库加工规范——词语切分与词性标注⒈前言 (1)⒉切分规范 (3)⒊切分和标注相结合的规范 (10)⒋标注规范 (14)⒌后记 (19)●现代汉语语料库加工手册——词语切分与词性标注⒈语料库加工的标记集及其说明 (20)⒉加工好的样例 (20)⒊若干个常用多类词的处理 (24)⒋词语切分和词性标注中的典型错例及分析 (28)⒌准谓宾动词示例 (41)⒍机器自动加工的样例及后校正注意事项 (42)⒎后记 (46)●附录:⒈按代码的字母顺序排列的标记集 (47)⒉按名称的汉语拼音顺序排列的标记集 (48)⒊参考文献 (49)现代汉语语料库加工规范——词语切分与词性标注1999年3月版北京大学计算语言学研究所1999年3月14日⒈前言北大计算语言学研究所从1992年开始进行汉语语料库的多级加工研究。
第一步是对原始语料进行切分和词性标注。
1994年制订了《现代汉语文本切分与词性标注规范V1.0》。
几年来已完成了约60万字语料的切分与标注,并在短语自动识别、树库构建等方向上进行了探索。
在积累了长期的实践经验之后,最近又进行了《人民日报》语料加工的实验。
为了保证大规模语料加工这一项重要的语言工程的顺利进行,北大计算语言学研究所于1998年10月制订了《现代汉语文本切分与词性标注规范V2.0》(征求意见稿)。
因这次加工的任务超出词语切分与词性标注的范围,故将新版的规范改名为《现代汉语语料库加工规范》。
制订《现代汉语语料库加工规范》的基本思路如下:⑴词语的切分规范尽可能同中国国家标准GB13715“信息处理用现代汉语分词规范”(以下简称为“分词规范”)保持一致。
由于现在词语切分与词性标注是结合起来进行的,而且又有了一部《现代汉语语法信息词典》(以下有时简称“语法信息词典”或“语法词典”)可作为词语切分与词性标注的基本参照,这就有必要对“分词规范”作必要的调整和补充。
词性标注说明_128601491
人民日报标注语料库(PFR)使用说明书本文是PFR标注语料库的使用说明书,帮助用户了解它,更好地使用它。
PFR语料库是对人民日报1998年上半年的纯文本语料进行了词语切分和词性标注制作而成的,严格按照人民日报的日期、版序、文章顺序编排的。
文章中的每个词语都带有词性标记。
目前的标记集里有26个基本词类标记(名词n、时间词t、处所词s、方位词f、数词m、量词q、区别词b、代词r、动词v、形容词a、状态词z、副词d、介词p、连词c、助词u、语气词y、叹词e、拟声词o、成语i、习惯用语l、简称j、前接成分h、后接成分k、语素g、非语素字x、标点符号w)外,从语料库应用的角度,增加了专有名词(人名nr、地名ns、机构名称nt、其他专有名词nz);从语言学角度也增加了一些标记,总共使用了40多个个标记。
二.格式说明1.语料是纯文本文件,文件中每一行代表一自然段或者一个标题,一篇文章有若干个自然段,因此在语料中一篇文章是由多行组成的。
2.文件名格式为“月-日-版号-篇章号”。
3.一篇文章里面的段落之间是不空行的,在两篇文章之间,会有一个空行,表示文章的分界线,同时,下一篇文章的“篇章号-段号”都会有所改变。
4.标号之后,是2个单字节空格,然后开始正文。
5.正文部分按照规范已经切分成词,并且加上标注,标注的格式为“词语/词性”,即词语后面加单斜线,再紧跟词性标记。
词与词之间用2个单字节空格隔开。
每段最后的词,在标记之后也有2个单字节空格,保持格式一致。
6.语料中除了词性标记以外,还有“短语标记”,这种情况一般出现在机构团体名称、成语等情况中。
如“通过/p [中央/n 人民/n 广播/vn 电台/n]nt 、/w”中,用“[ ]”合起来的部分是一个完整的机构团体名称,方括号后面紧跟标注nt,nt之后空两个单字节空格,保持了格式的一致。
三.例子迈向/v 充满/v 希望/n 的/u 新/a 世纪/n ——/w 一九九八年/t 新年/t 讲话/n (/w 附/v 图片/n 1/m 张/q )/w……在/p 1998年/t 来临/v 之际/f ,/w 我/r 十分/m 高兴/a 地/u 通过/p [中央/n 人民/n 广播/vn 电台/n]nt 、/w [中国/ns 国际/n 广播/vn 电台/n]nt 和/c [中央/n电视台/n]nt ,/w 向/p 全国/n 各族/r 人民/n ,/w 向/p [香港/ns 特别/a 行政区/n]ns 同胞/n 、/w 澳门/ns 和/c 台湾/ns 同胞/n 、/w 海外/s 侨胞/n ,/w 向/p 世界/n 各国/r 的/u 朋友/n 们/k ,/w 致以/v 诚挚/a 的/u 问候/vn 和/c 良好/a 的/u 祝愿/vn !/w。
使用自然语言处理技术进行中文命名实体识别的技巧
使用自然语言处理技术进行中文命名实体识别的技巧中文命名实体识别是一项关键的自然语言处理技术,旨在识别和分类文本中的重要实体,如人名、地名、组织机构等。
随着互联网和大数据的发展,越来越多的文本数据产生,并且这些数据中包含了大量的命名实体信息。
因此,使用自然语言处理技术进行中文命名实体识别成为了重要的研究领域。
在进行中文命名实体识别时,有一些技巧可以帮助提高识别的准确性和效率。
以下是一些常用的技巧和方法:1. 语料库构建:首先要构建一个高质量的语料库来训练和测试命名实体识别模型。
语料库的选择要广泛涵盖不同领域的文本,确保能够覆盖各种类型的命名实体。
2. 特征选择:在进行命名实体识别时,选择合适的特征对于获得好的性能是至关重要的。
常用的特征包括词性标注、上下文信息、词频统计等。
特征选择需要根据具体任务和语料库进行调整和优化。
3. 机器学习算法:命名实体识别通常使用机器学习算法来训练模型。
常用的机器学习算法包括条件随机场(CRF)、支持向量机(SVM)和深度学习模型(如循环神经网络)。
选择合适的算法对于获得准确的识别结果非常重要。
4. 实体词典和规则库:在进行中文命名实体识别时,可以建立实体词典和规则库来辅助识别。
实体词典包含了已知的实体名称,可以用于匹配和识别。
规则库可以包括一些上下文规则和语法规则,帮助提高识别准确性。
5. 命名实体分块:在命名实体识别中,通常需要进行分块处理,将文本中的实体划分为不同的类别。
这可以通过各种技术来实现,如规则匹配、机器学习算法等。
分块处理是识别任务的关键一步,需要根据实际情况进行调整和优化。
6. 预处理和后处理:在进行命名实体识别之前,可以进行一些预处理操作,如分词、词性标注等,以准备输入数据。
在识别完成后,还可以进行一些后处理操作,如去除重复实体、纠正错误等,以提高识别结果的质量。
7. 评估和改进:对命名实体识别系统进行评估和改进是不可或缺的一步。
可以使用各种评估指标,如准确率、召回率和F1值等,来评估模型的性能。
语料标注办法
《高级英语》教学配套小型语料库标注办法(参见《英语专业写作教学语料库建设与研究》邹申著,有所改动)1. 第一维度赋码——文章类型passage:(放在标题前)a. argumentativei. inductive [psg_arg_indc]ii. deductive [psg_arg_dedc]b. narration/descriptioni. person [psg_nar_person]ii. event [psg_nar_event]iii. place [psg_nar_place]c. exposition (只标注文本最显著的)i. developed by time [psg_exp_time]ii. developed by space [psg_exp_spac]iii. process analysis [psg_exp_proc]iv. exemplification [psg_exp_exmp]v. definition [psg_exp_defn]vi. cause and effect [psg_exp_ceff]vii. classification [psg_exp_clsf]viii comparison & contrast [psg_exp_comp]d. thesis statement 主题句i. thesis statement at the beginning [psg_statm_1]ii. thesis statement in the middle [psg_statm_2]iii. thesis statement at the end [psg_statm_3]iii. thesis statement missing 不标2. 第二维度赋码——段落层面paragraph:a. topic sentencei. topic sentence at the beginning [prg_tpc_1]ii. topic sentence in the middle [prg_tpc_2]iii. topic sentence at the end [prg_tpc_3]iv. topic sentence missing 不标b. location of developmental paragraphs(是语篇的结构层次,因此只要标注一次)i. introduction of passage [prg_mrkb_1]ii. introduction missing 不标iii. body of passage 不标iv. conclusion of passage [prg_mrke_1]v. conclusion missing 不标c. linking device(主要段落标注,理清topic sentence 与supporting details间的逻辑关系)i. chronological or sequential order [prg_link_time]时间或序列(包括first, second…)ii. spatial order [prg_link_spac]iii. process [prg_link_proc]iv. exemplification [prg_link_exmp]v. classification [prg_link_clsf]vi. compare and contrast [prg_link_comp]vii. progressive relation [prg_link_prog]viii. cause and effect [prg_link_ceff]ix. summary [prg_link_summ]xi. appositive relation [prg_link_appo]xii. parallel structure [prg_link_parr]*3. 第三维度赋码——句子层面a. simple sentence 不标b. difficult compound sentence [sntn_cmpnd]c. difficult complex sentencei. subjective clause主语从句[sntn_cmplx_sub]ii. objective clause 宾语从句[sntn_cmplx_obj]iii. predicative clause 表语从句[sntn_cmplx_pre]iv. adverbial clause 状语从句[sntn_cmplx_adv]v. attributive clause 定语从句[sntn_cmplx_att]vi. appositive clause同位语从句[sntn_cmplx_app]d. compound-complex sentence [sntn_cmpnd_cmplx]e. special patterns 特殊句型i. inverted sentence 倒装句[sntn_spcl_inv]ii. exclamation 感叹句[sntn_spcl_exc]iii. tag question 翻译疑问句[sntn_spcl_tag]iv. cleft sentence 强调句[sntn_spcl_clf]v. imperative sentence 祈使句[sntn_spcl_imp]4. 第四维度赋码——修辞手段,作者态度、语气(标注最主要的,标注在句子后面)a. rhetorical devicesi. 明喻simile [rhet_siml]ii. 暗喻metaphor [rhet_meta]iii. 转喻metonymy [rhet_metn]iv. 提喻synecdoche [rhet_sync]v. 类比analogy [rhet_anal]vi. 拟人personification [rhet_pers]vii. 矛盾paradox [rhet_para]viii. oxymoron(phrase) [rhet_oxym]ix. 夸张hyperbole [rhet_hype]x. 委婉语euphemism [rhet_euph]xi. 反话irony [rhet_iron]xii. 讥讽sarcasm [rhet_sarc]xiii. 通感transferred epithet [rhet_tran]xiv. 双关pun [rhet_pun]b. 态度attitudei. positive [attit_posi]ii. neutral [attit_neut]iii. negative [attit_nega]iv. critical [attit_crit]c. 语气tonei. humorous [tone_humr]ii. solemn [tone_solm]iii. polite [tone_polt]iv. imperative [tone_impr]iii. modest [ tone_mode]vi. arrogant [tone_arrog]注:加*的第三维度编码仅标注对文本理解有影响的复杂句。
当代汉语文本语料库分词词性标注加工规范
973当代汉语文本语料库分词、词性标注加工规范(草案)山西大学从1988年开始进行汉语语料库的深加工研究,首先是对原始语料进行切分和词性标注,1992年制定了《信息处理用现代汉语文本分词规范》。
经过多年研究和修改,2000年又制定出《现代汉语语料库文本分词规范》和《现代汉语语料库文本词性体系》。
这次承担973任务后制定出本规范。
本规范主要吸收了语言学家的研究成果,并兼顾各家的词性分类体系,是一套从信息处理的实际要求出发的当代汉语文本加工规范。
本加工规范适用于汉语信息处理领域,具有开放性和灵活性,以便适用于不同的中文信息处理系统。
《973当代汉语文本语料库分词、词性标注加工规范》是根据以下资料提出的。
1.《信息处理用现代汉语分词规范》,中国国家标准GB13715,1992年2.《信息处理用现代汉语词类标记规范》,中华人民共和国教育部、国家语言文字工作委员会2003年发布3.《现代汉语语料库文本分词规范》(Ver 3.0),1998年北京语言文化大学语言信息处理研究所清华大学计算机科学与技术系4.《现代汉语语料库加工规范——词语切分与词性标注》,1999年北京大学计算语言学研究所5.《信息处理用现代汉语词类标记规范》,2002年,教育部语言文字应用研究所计算语言学研究室6.《现代汉语语料库文本分词规范说明》,2000年山西大学计算机科学系山西大学计算机应用研究所7.《資讯处理用中文分词标准》,1996年,台湾计算语言学学会一、分词总则1.词语的切分规范尽可能同中国国家标准GB13715《信息处理用现代汉语分词规范》(以下简称为“分词规范”)保持一致。
本规范规定了对现代汉语真实文本(语料库)进行分词的原则及规则。
追求分词后语料的一致性(consistency)是本规范的目标之一。
2.本规范中的“分词单位”主要是词,也包括了一部分结合紧密、使用稳定的词组以及在某些特殊情况下可能出现在切分序列中的孤立的语素或非语素字。
语料库标记与标注以中国英语语料库为例
语料库标记与标注以中国英语语料库为例一、本文概述本文旨在探讨语料库标记与标注的重要性及其在中国英语语料库中的应用。
我们将简要介绍语料库的定义和类型,以及标记与标注在语料库建设中的作用。
接着,我们将以中国英语语料库为例,详细阐述语料库的标记与标注过程,包括标记符号的选择、标注规则的制定以及标注质量的控制等方面。
在此基础上,我们将进一步探讨语料库标记与标注对于语言研究、自然语言处理以及机器翻译等领域的影响和应用价值。
我们将总结当前语料库标记与标注研究中存在的问题和挑战,并展望未来的发展趋势和研究方向。
通过本文的阐述,我们希望能够加深对语料库标记与标注的理解,推动中国英语语料库的建设和发展,为相关领域的研究提供有益的参考和启示。
二、语料库的基本概念与分类语料库(Corpus)是以电子形式存储的语言材料的集合,通常包括文本、音频或视频等形式的语言数据。
语料库语言学是语言学的一个分支,专注于利用语料库进行语言研究。
在语料库语言学中,语料库被视为一种研究工具,可用于描述语言的实际使用情况,揭示语言的规律,以及评估语言教学和自然语言处理的效果。
语料库可以按照不同的标准进行分类。
按照语料库的来源,可以分为原生语料库(native corpus)和编译语料库(compiled corpus)。
原生语料库是直接收集的自然语言文本,如新闻报道、文学作品、社交媒体帖子等。
编译语料库则是由多个不同来源的文本经过整理、清洗和标注后形成的。
按照语料库的内容,可以分为通用语料库(general corpus)和专用语料库(specialized corpus)。
通用语料库包含各种类型的文本,旨在反映语言的整体使用情况。
专用语料库则针对某一特定领域或主题,如医学、法律、科技等领域的语料库。
按照语料库的处理程度,可以分为生语料库(raw corpus)和标注语料库(annotated corpus)。
生语料库是未经处理的原始文本,而标注语料库则对文本进行了各种形式的标注,如词性标注、句法标注、语义标注等。
语料库标记与标注_以中国英语语料库为例_李文中
外语教学与研究 ( 外国语文双月刊 ) ) F o r e i n L a n u a e T e a c h i n a n d R e s e a r c h( b i m o n t h l g g g g y
M a 2 0 1 2 y V o l . 4 4N o . 3
?
本文涉及的软件系统由该团队韩朝阳负责开发 。 相关设计及技术思想在团队讨论与研究生课堂
上得到很多启发 , 特此致谢 。 此外 , 相关标记方案也分别由团队各成员负责 。
·3 3 8·
李文中 语料库标记与标注 : 以中国英语语料库为例
入库 。 、 包括文本分类信息 ( 来 源、 检 索 日 期、 类 型、 状 态、 标记方案) A.标记模块 : 、 。 这 些 在 XML 文 文本领域 ( 开放标记 , 可添加 ) 作者信息( 开 放 标 记, 可添加) _ ” 、 “ _ ” _ 文本信息 d 文件信息f 和“ 位置信息l 本中分别组织为 “ a t a i n f o i l e i n f o o c a l ” 。 i n f o 允 许 以 压 缩 文 件 格 式 提 交 以 下 文 件 类 型: 纯 文 本、 B.源文本 入 库 模 块 : 音频 、 视频 。 DO C、 P D F、 HTML、 纯文本文件提交入库 。 C.纯文本入库模块 : 2. 2 难题与解决方案 我们认为 , 由于文本体裁千 差 万 别 , 目前的分类标准大多属于定 性 分 类, 计 所 以 须 由 人 来 判 断 。 但 XML 是 一 种 非 常 严 谨 算机很难自动识别并做出判 断 , 几乎不可能手工添加而不出错 , 因此这一步由计算机自动完成 。 软 的标记语言 , 件会把人工添加的信息自动 转 换 为 标 准 的 XML 文 件 并 进 一 步 处 理 , 这样既保 也保证了元信息的信度 。 同时 , 考虑到不同类型文本元 证了所添加信息的效度 , 信息的多元性特征 , 我们设计了 8 种不同的标记方案 , 包括著作 、 一般文件 、 法律 条文 、 期刊 、 新闻 、 论文 、 杂志和网页 。 新的标记参数和标记方案可通过修改控制 由 于 分 类 庞 杂, 多有交叉和重 标记界面的 XML 文 件 来 添 加 。 对 于 文 本 领 域 , 叠, 我们对它的标记设计成开放型 , 使之能够兼容不同的领域分类 。 语料库标记 的作用在于基于类型的研究和分析 , 基于标记信息 , 使用者可根据自己的研究目 的选择文本或重新组 建 子 语 料 库 并 进 行 检 索 。 对 于 源 格 式 文 本 的 对 应 入 库 问 我们的考虑是 , 原文本中的结构 、 布局 、 非文字元素 , 如插图 、 链接等都对文本 题, 我们对格式文本分步进行处 的意义理解和分析产生影 响 。 但 由 于 技 术 的 局 限 , 理: 第一步 , 文本对应 , 即在语料库中把源格式文本与纯文本整体对应 , 这样使用 者在查询语料库时可调出 原 文 本 观 察 。 第 二 步 , 实现格式文本在统一平台的查 询, 使用者可选 择 检 索 纯 文 本 或 原 格 式 文 本 , 如 DO C、 P D F 与 HTML 网 页 文 但相关思想和技术需要 进 一 步 探 索 。 第 三 步 , 多 媒 体 文 件 与 文 本 文 件 对 应, 本, 。 并实现双向检索 , 为此我们开发了多媒体语料库平行定位检索系统 ( 另文讨论 ) 此外 , 我们还尝试把软件平台与 C 开发完成了 “ 开放语料库建设平 E C 剥离 , ( , 台” 使之能够满足建设小型语料库的标 O e n C o r u s D e v e l o m e n t P l a t f o r m) p p p 记需求 。 使用者通过修改控制 建 库 界 面 的 XML 文 件 , 就可以设计自己的语料 库标记方案 , 使语料库标记开放化和动态化 。 尽管各种可用的大中型语 料 库 已 有 很 多 , 但由于网络时代的文本增长速度 极快 , 语言发展和变化的速度也前所未有 , 现有的静态语料库已很难满足个人研 究者和教师对语料库资源的个性需求 。 语料库开发向两极发展 , 一是超大型化 ,
(整理)现代汉语语料库加工规范词语切分与词性标注词
出/v过/u两/m天/q差/Ng,
疾病成本法和人力资本法将环境污染引起人体健康的经济损失分为直接经济损失和间接经济损失两部分。直接经济损失有:预防和医疗费用、死亡丧葬费;间接经济损失有:影响劳动工时造成的损失(包括病人和非医务人员护理、陪住费)。这种方法一般通常用在对环境有明显毒害作用的特大型项目。理/v了/u一/m次/q发/Ng,
一个/m ,一些/m ,
2.基数、序数、小数、分数、百分数一律不予切分,为一个切分单位,标注为m。
一百二十三/m,20万/m,123.54/m,一个/m,第一/m,第三十五/m,20%/m,三分之二/m,千分之三十/m,几十/m人/n,十几万/m元/q,第一百零一/m个/q ,
3.约数,前加副词、形容词或后加“来、多、左右”等助数词的应予分开。
岗位/n ,城市/n ,机会/n ,
[例题-2006年真题]下列关于建设项目环境影响评价实行分类管理的表述,正确的是( )她/r是/v责任/n编辑/n ,
(编辑/v科技/n文献/n )
21
nr人名
名词代码n和“人(ren)”的声母并在一起。
1.汉族人及与汉族起名方式相同的非汉族人的姓和名单独切分,并分别标注为nr。
张/nr仁伟/nr,欧阳/nr修/nr,阮/nr志雄/nr,朴/nr贞爱/nr
汉族人除有单姓和复姓外,还有双姓,即有的女子出嫁后,在原来的姓上加上丈夫的姓。如:陈方安生。这种情况切分、标注为:陈/nr方/nr安生/nr;唐姜氏,切分、标注为:唐/nr姜氏/nr。
2.姓名后的职务、职称或称呼要分开。
江/nr主席/n,小平/nr同志/n,江/nr总书记/n,张/nr教授/n,王/nr部长/n,陈/nr老总/n,李/nr大娘/n,刘/nr阿姨/n,龙/nr姑姑/n
语料库语言学术语集
Empirical Linguistics
实证语言学
Empiricism
经验主义
Encoding
字符编码
Error-tagging
错误标注、错误赋码
Extended unit of meaning
扩展意义单位
File-based search/concordancing
批量检索
Formulaic sequence
中介语对比分析
CLAWS/Constituent Likelihood Automatic Word-tagging System
CLAWS词性赋码系统
Clean text policy
干净文本原则
Cluster
词簇、词丛
Colligation
类联接、类连接、类联结
Collocaten./v.
搭配词;搭配
词汇触发理论
Lexical richness
词汇丰富度
Lexico-grammar/Lexical grammar
词汇语法
Lexis
词语、词项
LL/Log likelihood (ratio)
对数似然比、对数似然率
Longitudinal/Developmental corpus
跟踪语料库、发展语料库、历时语料库
Absolute frequency
绝对频数
Alignment (of parallel texts)
(平行或对应)语料的对齐
Alphanumeric
字母数字类的
Annotate
标注(动词)
Annotation
标注(名词)
Annotation scheme
语料库标注说明
“HSK动态作文语料库”语料标注及代码说明“HSK动态作文语料库”从字、词、句、篇、标点符号等角度,对所收入的作文语料中存在的外国人使用汉语的中介语偏误进行全面标注。
1 、字处理(包括标点符号)[C]:错字标记,用于标示考生写的不成字的字。
用[C]代表错字,在[C]前填写正确的字。
例如:地球[C](“球”是错字)、这[C]。
[B]:别字标记,用于标示把甲字写成乙字的情况。
别字包括同音的、不同音而只是形似的、既不同音也不形似但成字的等等。
把别字移至[B]中B的后面,并在[B]前填写正确的字。
例如:提[B题]高、考虑[B虎]。
[L]:漏字标记,用于标示作文中应有而没有的字。
用[L]表示漏掉的字,并在[L]前填写所漏掉的字。
例如:后悔[L],表示“悔”在原文中是漏掉的字。
农[L]药,表示“农”在原文中是漏掉的字。
[D]:多字标记,用于标示作文中不应出现而出现的字。
把多余的字移至[D]中D的后面。
例如:我的[D的],表示括号中的“的”是多余的字(原文中写了两个“的”)。
[F]:繁体字标记,用于标示繁体字。
把繁体字移至[F]中F的后面,并在[F]前填写简体字。
例如:记忆[F憶]、单{F單}纯、养{F養}分{F份}。
注意:1)繁体字标记标示的是使用正确的繁体字,如果该繁体字同时又是别字,则先标繁体字标记,再标别字标记。
例如:俭朴[F樸[B僕]]。
2)繁体字写错了,标为:后[F後[C]]。
[Y]:异体字标记,用于标示异体字。
把异体字移至[Y]中Y的后面,并在[Y]前填写简体字。
例如:偏[Y徧]、沉[Y沈]。
[P]:拼音字标记,用于标示以汉语拼音代替汉字的情况。
把拼音字移至[P]中P的后面,并在[P]前填写简体字。
例如:缘[Pyúan]分、保护[Phù]。
[#]:无法识别的字的标记,用于标示无法识别的字。
每个不可识别的字用一个[#]表示。
例如:更[#][#]保存自己的生命,……[BC]:错误标点标记,用于标示使用错误的标点符号。
国家语委现代汉语通用平衡语料库 标注语料库数据及使用说明
国家语委现代汉语通用平衡语料库标注语料库数据及使用说明肖航教育部语言文字应用研究所1. 国家语委现代汉语通用平衡语料库1.1 语料库全库国家语委现代汉语通用平衡语料库全库约为1亿字符,其中1997年以前的语料约7000万字符,均为手工录入印刷版语料;1997之后的语料约为3000万字符,手工录入和取自电子文本各半。
语料库的通用性和平衡性通过语料样本的广泛分布和比例控制实现。
语料库类别分布如下所示:1.2 标注语料库标注语料库为国家语委现代汉语通用平衡语料库全库的子集,约5000万字符。
标注是指分词和词类标注,已经经过3次人工校对,准确率大于>98%。
语料库全库按照预先设计的选材原则进行平衡抽样,以期达到更好的代表性。
标注语料库在样本分布方面近似于全库,不破坏语料选材的平衡原则。
标注语料库类别分布如下所示:标注语料库与全库的样本分布比较如下所示:(蓝色曲线为语料库全库;红色曲线为标注语料库)2. 国家语委现代汉语通用平衡语料库语料选材与样本分布2.1 选材原则依据材料内容,选材大体作如下分类:(下文字数为建库时数据)2.1.1 教材大中小学教材单作一类,约2000万字。
2.1.2 人文与社会科学的语言材料约占全库的60%,共3000万字,包括:·政法(含哲学、政治、宗教、法律等);·历史(含民族等)·社会(含社会学、心理、语言、教育、文艺理论、新闻学、民俗学等);·经济;·艺术(含音乐、美术、舞蹈、戏剧等);·文学(含口语);·军体;·生活(含衣食住行等方面的普及读物)。
2.1.3 自然科学(含农业、医学、工程与技术)的语言材料,应涉及其发展的各个领域。
拟从大、中、小学教材和科普读物中选取。
其中,科普读物约占6%,共300万字。
教材字数另计。
2.1.4 报刊。
以1949年以后正式出版的由国家、省、市及各个部委主办的报纸和综合性刊物为主,兼顾1949年以前的报纸和综合性刊物。
一种基于大规模标注语料库的词语聚类方法
Vol. 15 No. 10 系统仿真学报October 2003JOURNAL OF S YSTEM SIMULATION ·1439·一种基于大规模标注语料库的词语聚类方法康铁钢, 戴汝为(中国科学院自动化研究所复杂系统实验室, 北京100080)摘要:提出了一种基于大规模标注语料库的词语聚类方法。
文中根据专家群体对某一具体问题进行决策的需要,回顾了国内外几种基于分布的词语聚类方法,并给出我们的算法原理及实现步骤。
首先人工抽取某一类内词语中的几个,从语料库找到这些词的修饰词,组成修饰词向量,然后对于每一个词语,统计修饰词向量中的每个修饰词和该词语在语料库中同现的频率,组成特征向量,最后进行聚类分析。
支持宏观经济决策的试验表明该算法能有效地实现词语的聚类。
关键词:语义; 聚类; 语料库; n 元模型; 语义相似; 语义相关文章编号:1004-731X (2003) 10-1439-04 中图分类号:TP391.9文献标识码:AA Novel Approach For Word Clustering Based On Large Tagged C orpusKANG Tie-gang, DAI Ru-wei(Complex ity System Lab, Institute o f Automation, Chinese Academy of Sciences, Beijing 100080, China)Abstract: This paper proposes a novel approach for word clustering based on large tagged corpus. According to the need of decision-making support for a specific problem, this paper review several algorithms developed by previous works, after that, our algorithm is rendered. Firstly, we manually extract several words from a specified class, and then search the corpus for the modifiers of those words to construct modifier vector, for each of other words, count the frequency of its co-occurrence with each modifier in the modifier vector to construct its characteristic vector, finally, apply clustering algorithm to those characteristic vectors to get the result. Proved by experiment carried out on Decision-making Support for Macro Economics, this algorithm is effective for word clustering.K eywords: semantic; clustering; corpus; n-g ram model; semantic similarity; semantic related ness引言从人机结合的支持宏观经济决策的试验得到启示[1,2],直观上,词语之间的搭配是有一定规律的,表现为一部分词语与另一部分词语具有相对固定的搭配关系。
浅探河北省主要旅游景点旅游文本语料库建设中的人名标注问题
浅探河北省主要旅游景点旅游文本语料库建设中的人名标注问题杨婷婷[1]李洁[2]([1]张家口市第五中学(北校区)河北·张家口075000;[2]河北大学外国语学院河北·保定071000)中图分类号:H030文献标识码:ADOI :10.16871/ki.kjwha.2016.04.085科研应用基金项目:本文系2014年度河北省社会科学基金青年项目“河北省主要旅游目的地公示语多语对照语料库建设研究”(项目编号:HB14YY038)的阶段性研究成果。
作者简介:杨婷婷(1988—),女,河北张家口人,河北省张家口市第五中学(北校区)教师,硕士,主要研究方向为中文信息处理;李洁(1981—),女,河北唐山人,河北大学外国语学院讲师,硕士,主要研究方向为篇章语言学。
摘要本文以河北省主要旅游景点的旅游文本为主、初步建立起一个小型封闭的语料库,并针对该语料库自动分词过程中人名的识别与切分出现的问题进行分析探讨。
所收集语料来源于河北省主要旅游景点旅游文本,共计73471字,通过对语料的分词处理发现人名标注出现问题的频率较高。
笔者将人名在语料自动切分中出现的问题归为三类,分别探讨问题出现的原因,并根据现有研究成果和旅游文本语料的特点为解决此问题做出简单设想,分析想法的可行性。
关键词旅游文本语料库人名标注A Preliminary Exploration on the Tagging of the Names in the Corpus Construction for Tourism Texts of the Main Scenic Sites in Hebei Province //Yang Tingting,Li JieAbstract This paper discusses the problems of recognizing and splitting the names in the process of automatic segmentation of words of a small closed corpus of the main scenic sites tourism texts of Hebei Province.The collected data consist of 73471characters,in which the problems of recognizing and splitting the names occur quite frequently.The problems can be divided into three types.Three reasons causing these problems have been an-alyzed respectively,and feasible solutions have been proposed based on the current achievements in the research and the fea-tures of tourism texts.Key words tourism texts;corpus;names;tagging1导言旅游景点是一个地方的文化名片,不论是自然景观还是人文景观,与之相关的介绍或描述(统称为“旅游文本”)中必然少不了带有当地文化特色的词语,即“文化特色词”。
学科术语标注问题的探索 ——以基础数学教材术语语料库制作为例-文档资料
鯆眩漻鲤蘤贚焊萄窹紑坾筲懧纘
黕湉纸岌簬鬶毦鐧辢臯棐埻邜犃
2007-6-17
zezhi.ppt
17
獏芟摶詿獧溬鸛鯩吓傲陶厽瑭鑌
2007-6-17
zezhi.ppt
9
术语判定标准
4. 科学仪器术语
•
本学科领域活动中使用的科学仪器一律标注为术语。
其中若有学科称名和俗称,多种称谓都须标注为术语,如:
三角尺和三角板,两个都需标注为术语。
5. 非本学科专用的术语
• 出现在学科教材中的相关学科的典型术语,本语料库一律 标记为术语。
6. 专用结构
• 术语的主要特性:
• 学科专用性,术语可非词性。
• 术语的功能是表达:
• 专门领域中事物、现象、特性、关系和过程。
2007-6-17
zezhi.ppt
3
语料库术语对象的类型划分
• 学科语言与通用语言之间可以相互渗透,因而术语 可以具有通用意,这就导致术语与语境的非独立性。 术语标注、术语识别关键问题就是词语是否术语的 评判标准。而标准建立的基础是术语对象的分类分 析。因为没有可以适合所有类型的公用标准。前面 虽给了术语的定义,但这个定义是典型术语的共同 特征,具有高度的抽象性,实际可操作性则不足。
– 词典术语与行文术语问题 – 多词术语合并与分解的条件
2007-6-17
zezhi.ppt
2
语料库术语对象的类型划分• 百科中给术语的定义是:各门学科中的专门用 语。术语可以是词,也可以是词组,用来正确标记 生产技术、科学、艺术、社会生活等各个专门领域 中的事物、现象、特性、关系和过程。
词义标注语料库建设综述 - 第22卷3 期第
第22卷 第3期2008年5月中文信息学报J OU RNAL OF CH IN ESE IN FORMA TION PROCESSIN GVol.22,No.3May ,2008文章编号:100320077(2008)0320016208词义标注语料库建设综述金澎,吴云芳,俞士汶(北京大学计算语言学研究所,北京100871)摘 要:词义消歧的关键问题是缺少大规模、高质量的词义标注语料库。
本文分别从语料选取、词典选择、标注规模和标注质量等方面介绍已经建成的较有影响的若干词义标注语料库。
在自动构建词义标注语料库的方法中,本文集中介绍bootstrapping 策略在语料库建设方面的应用以及利用双语对齐语料库开展的相关研究。
最后,针对词义标注语料库建设存在的问题提出自己的分析和思考。
关键词:计算机应用;中文信息处理;词义消歧;词义标注语料库;平行语料库;bootstrapping 中图分类号:TP391 文献标识码:ASurvey of Word Sense Annotated Corpus ConstructionJ IN Peng ,WU Yun 2fang ,YU Shi 2wen(Institute of Computational Linguistics ,Peking University ,Beijing 100871,China )Abstract :The bottleneck of word sense disambiguation (WSD )is lack of large scale ,high 2quality word sense anno 2tated corpus.In this paper ,several word sense annotated corpus are introduced in the aspects of corpus coverage ,dictionary ,tokens ,word types and the inter annotator agreement ,involving English ,Chinese and Japanese.As for the auto and semi 2auto construction methods ,this papers focuses on bootstrapping methods and word 2aligned paral 2lel corpus based approaches.And finally ,some issues in the word sense annotated corpus construction are pointed and possible solutions are given.K ey w ords :computer application ;Chinese information processing ;word sense disambiguation ;word sense annota 2ted corpus ;parallel corpus ;bootstrapping收稿日期:2007207210 定稿日期:2008204209基金项目:国家973计划资助项目(2004CB318102);国家自然科学基金资助项目(60703063);国家863计划资助项目(2007AA01Z198)作者简介:金澎(1977—),男,博士生,主要研究方向为计算语言学、词义消歧;吴云芳(1973—),女,博士,主要研究方向为计算语言学、语料库语言学;俞士汶(1938—),男,教授,博导,主要研究方向为计算语言学。