CTB 词性标注中文版翻译
语料库术语中英对照
Aboutness 所言之事Absolute frequency 绝对频数Alignment (of parallel texts) (平行或对应)语料的对齐Alphanumeric 字母数字类的Annotate 标注(动词)Annotation 标注(名词)Annotation scheme 标注方案ANSI/American National Standards Institute 美国国家标准学会ASCII/American Standard Code for Information Exchange 美国信息交换标准码Associate (of keywords) (主题词的)联想词AWL/Academic word list 学术词表Balanced corpus 平衡语料库Base list 底表、基础词表Bigram 二元组、二元序列、二元结构Bi-hapax 两次词Bilingual corpus 双语语料库CA/Contrastive Analysis 对比分析Case-sensitive 大小写敏感、区分大小写Chi-square (χ2) test 卡方检验Chunk 词块CIA/Contrastive Interlanguage Analysis 中介语对比分析CLAWS/Constituent Likelihood Automatic Word-tagging System CLAWS词性赋码系统Clean text policy 干净文本原则Cluster 词簇、词丛Colligation 类联接、类连接、类联结Collocate n./v. 搭配词;搭配Collocability 搭配强度、搭配力Collocation 搭配、词语搭配Collocational strength 搭配强度Collocational framework/frame 搭配框架Comparable corpora 类比语料库、可比语料库ConcGram 同现词列、框合结构Concordance (line) 索引(行)Concordance plot (索引)词图Concordancer 索引工具Concordancing 索引生成、索引分析Context 语境、上下文Context word 语境词Contingency table 连列表、联列表、列连表、列联表Co-occurrence/Co-occurring 共现Corpora 语料库(复数)Corpus Linguistics 语料库语言学Corpus 语料库Corpus-based 基于语料库的Corpus-driven 语料库驱动的Corpus-informed 语料库指导的、参考了语料库的Co-select/Co-selection/Co-selectiveness 共选(机制)Co-text 共文DDL/Data Driven Learning 数据驱动学习Diachronic corpus 历时语料库Discourse 话语、语篇Discourse prosody 话语韵律Documentation 备检文件、文检报告EAGLES/Expert Advisory Groups on Language Engineering Standards EAGLES文本规格Empirical Linguistics 实证语言学Empiricism 经验主义Encoding 字符编码Error-tagging 错误标注、错误赋码Extended unit of meaning 扩展意义单位File-based search/concordancing 批量检索Formulaic sequence 程式化序列Frequency 频数、频率General (purpose) corpus 通用语料库Granularity 颗粒度Hapax legomenon/hapax 一次词Header/Text head 文本头、头标、头文件HMM/Hidden Markov Model 隐马尔科夫模型Idiom Principle 习语原则Index/Indexing (建)索引In-line annotation 文内标注、行内标注Key keyword 关键主题词Keyness 主题性、关键性Keyword 主题词KWIC/Key Word in Context 语境中的关键词、语境共现(方式)Learner corpus 学习者语料库Lemma 词目、原形词、词元Lemma list 词形还原对应表Lemmata 词目、原形词、词元(复数)Lemmatization 词形还原、词元化Lemmatizer 词形还原(词元化)工具Lexical bundle 词束Lexical density 词汇密度Lexical item 词项、词语项目Lexical priming 词汇触发理论Lexical richness 词汇丰富度Lexico-grammar/Lexical grammar 词汇语法Lexis 词语、词项LL/Log likelihood (ratio) 对数似然比、对数似然率Longitudinal/Developmental corpus 跟踪语料库、发展语料库、历时语料库Machine-readable 机读的Markup 标记、置标MDA/Multi-dimensional approach 多维度分析法Metadata 元信息Meta-metadata 元元信息MF/MD (Multi-feature/Multi-dimensional) approach 多特征/多维度分析法Mini-text 微型文本Misuse 误用Monitor corpus (动态)监察语料库Monolingual corpus 单语语料库Multilingual corpus 多语语料库Multimodal corpus 多模态语料库MWU/Multiword unit 多词单位MWE/Multiword expression 多词单位MI/Mutual information 互信息、互现信息N-gram N元组、N元序列、N元结构、N元词、多词序列NLP/Natural Language Processing 自然语言处理Node 节点(词)Normalization 标准化Normalized frequency 标准化频率、标称频率、归一频率Observed corpus 观察语料库Ontology 知识本体、本体Open Choice Principle 开放选择原则Overuse 超用、过多使用、使用过度、过度使用Paradigmatic 纵聚合(关系)的Parallel corpus 平行语料库、对应语料库Parole linguistics 言语语言学Parsed corpus 句法标注的语料库Parser 句法分析器Parsing 句法分析Pattern/patterning 型式Pattern grammar 型式语法Pedagogic corpus 教学语料库Phraseology 短语、短语学POSgram 赋码序列、码串POS tagging/Part-of-Speech tagging 词性赋码、词性标注、词性附码POS tagger 词性赋码器、词性赋码工具Prefab 预制语块Probabilistic (基于)概率的、概率性的、盖然的Probability 概率Rationalism 理性主义Raw text/Raw corpus 生文本(语料)Reference corpus 参照语料库Regex/RE/RegExp/Regular Expressions 正则表达式Register variation 语域变异Relative frequency 相对频率Representative/Representativeness 代表性(的)Rule-based 基于规则的Sample n./v. 样本;取样、采样、抽样Sampling 取样、采样、抽样Search term 检索项Search word 检索词Segmentation 切分、分词Semantic preference 语义倾向Semantic prosody 语义韵SGML/Standard Generalized Markup Language 标准通用标记语言Skipgram 跨词序列、跨词结构Span 跨距Special purpose corpus 专用语料库、专门用途语料库、专题语料库Specialized corpus 专用语料库Standardized TTR/Standardized type-token ratio 标准化类符/形符比、标准化类/形比、标准化型次比Stand-off annotation 分离式标注Stop list 停用词表、过滤词表Stop word 停用词、过滤词Synchronic corpus 共时语料库Syntagmatic 横组合(关系)的Tag 标记、码、标注码Tagger 赋码器、赋码工具、标注工具Tagging 赋码、标注、附码Tag sequence 赋码序列、码串Tagset 赋码集、码集Text 文本TEI/Text Encoding Initiative 文本编码计划The Lexical Approach 词汇中心教学法The Lexical Syllabus 词汇大纲Token 形符、词次Token definition 形符界定、单词界定Tokenization 分词Tokenizer 分词工具Transcription 转写Translational corpus 翻译语料库Treebank 树库Trigram 三元组、三元序列、三元结构T-score T值Type 类符、词型TTR/Type-token ratio 类符/形符比、类/形比、型次比Underuse 少用、使用不足Unicode 通用码Unit of meaning 意义单位WaC/Web as Corpus 网络语料库Wildcard 通配符Word definition 单词界定Word form 词形Word family 词族Word list 词表XML/EXtensible Markup Language 可扩展标记语言Zipf's Law 齐夫定律Z-score Z值。
LDC中文树库Chinese Treebank
CTB简介
• 在CTB 的基础上, 宾州大学又分别完成了标 注谓词论元结构的中文命题库1. 0( B abko— M alaya, et a.l 2004; Xue and Parmer 2003)建 设, 以及标注了语篇连接的汉语语篇树库 ( Xue 2005)的建设。这将大大促进机器翻译、 信息检索和信息抽取等应用技术的进一步 发展。
companynamesctb中的句法标记nppnnr中国nn人民nn银行npnppnnr中国npnn民族nn企业ctb中的句法标记titlenppnnrnn总理ctb中的句法标记15datesplacesnpnt一九九九nt四月nt十五日nppnnr河北省nr保定市ctb中的句法标记2npmodifiersfollowingtypemodifierscan21qpsnpqpcd30多clpadjpjj主要npnn负责人ctb中的句法标记22dpsnpdpdt任何npnn人npdpdt全体npnn外交nn官员ctb中的句法标记23adjpsnounheadmodifiedadjpsalwaysprojectnp
CTB简介
• ( 3) 按照不同的应用需求, 树结构可以转换 为骨架分析树和依存关系树等。同时, 也可 从树库中自动提取基本短语和语法功能的 标注信息, 建立现有的句法树标注体系与汉 语部分分析体系的内在联系, 扩大目前树库 语料的应用范围(周强2004: 4)。
CTB简介
• ( 4) 短语结构语法体系下多年来的研究与教 学, 已形成了丰富的人才储备库, 可以较容易 地找到树库校对人员, 不需要经过大量培训 就可以胜任校对任务。这可以大大降低大 规模树库的开发费用(周强2004: 3)。
CTB简介
CTB简介
• 在标注体系上,从CTB, 1. 0( 1998- 2002)起, 基 本上沿用了宾州大学英语树库PTB, 2的标注 体系。即从最初的PTB, l采用骨架分析思想, 形成比较扁平的句法结构树的基础上, 增加 了一些功能标记,用于标注句子中主要句法 成分的语法功能(周强2004: 2)。目前的总标 注规模为50万词的新闻语料。
词性标注对照表
词性标注对照表形容词a a形容词最/d ⼤/a 的/u true副形词ad ad副形词⼀定/d 能够/v 顺利/ad 实现/v 。
/wtrue形语素Ag ag形语素喜/v 煞/Ag ⼈/n true名形词an an名形词⼈民/n 的/u 根本/a 利益/n 和/c 国家/n 的/u 安稳/an 。
/wtrue区别词b b区别词副/b 书记/n 王/nr 思齐/nrtrue连词c c连词全军/n 和/c 武警/n 先进/a 典型/n 代表/ntrue副词d d副词两侧/f 台柱/n 上/f 分别/d雄踞/v 着/utrue副语素Dg dg副语素⽤/v 不/d 甚/Dg 流利/a的/u 中⽂/nz 主持/v 节⽬/n 。
/wtrue叹词e e叹词嗬/e !/w true⽅位词f f⽅位词从/p ⼀/m ⼤/a 堆/q 档案/n 中/f 发现/v 了/utrue语素g g语素 true前接成分h h前接成分⽬前/t 各种/r ⾮/h 合作制/n 的/u 农产品/ntrue成语i i成语提⾼/v 农民/n 讨价还价/i的/u 能⼒/n 。
/wtrue简略语j j简称略语民主/ad 选举/v 村委会/j的/u ⼯作/vnTRUE后接成分k k后接成分权责/n 明确/a 的/u 逐级/d 授权/v 制/ktrue习⽤语l l习⽤语是/v 建⽴/v 社会主义/n市场经济/n 体制/n 的/u重要/a 组成部分/l 。
/wtrue数词m m数词科学技术/n 是/v 第⼀/m⽣产⼒/ntrue名词n n名词希望/v 双⽅/n 在/p 市政/n 规划/vntrue名语素ng ng名语素就此/d 分析/v 时/Ng 认为/vtrue⼈名nr nr⼈名建设部/nt 部长/n 侯/nr捷/nrtrue地名ns ns地名北京/ns 经济/n 运⾏/vn态势/n 喜⼈/atrue机构团体nt nt机构团体[冶⾦/n ⼯业部/n 洛阳/ns耐⽕材料/l 研究院/n]nttrue外⽂字符nx nx字母专名ATM/nx 交换机/n TRUE 其他专名nz nz其他专名德⼠古/nz 公司/n true拟声词o o拟声词汩汩/o 地/u 流/v 出来/v true介词p p介词往/p 基层/n 跑/v 。
完整版英语语法术语中英文对照表
英语语法术语中英文对照表语法 grammar句法 syntax词法 morphology结构 structure层次 rank句子 sentence从句 clause词组 phrase词类 part of speech单词 word实词 notional word虚词 structural word单纯词simple word派生词derivative复合词compound词性part of speech名词 noun专有名词 proper noun普通名词 common noun可数名词 countable noun不可数名词 uncountable noun abstract noun抽象名词具体名词 concret noun物质名词 material noun集体名词 collective noun个体名词 individual noun介词 preposition连词 conjunction动词 verb主动词 main verb及物动词 transitive verb不及物动词 intransitive verb 系动词 link verb助动词 auxiliary verb情态动词 modal verb规则动词 regular verb不规则动词 irregular verb短语动词 phrasal verb限定动词 finite verb非限定动词 infinite verb使役动词 causative verb感官动词 verb of senses动态动词 event verb静态动词 state verb感叹词 exclamationadjective形容词副词 adverb方式副词 adverb of manner程度副词 adverb of degree时间副词 adverb of time地点副词 adverb of place修饰性副词 adjunct连接性副词 conjunct疑问副词 interogative adverb关系副词 relative adverb代词 pronoun人称代词 personal pronoun物主代词 possesive pronoun反身代词 reflexive pronoun相互代词 reciprocal pronoun指示代词 demonstrative pronoun疑问代词 interrogative pronoun关系代词 relative pronoun不定代词 indefinite pronoun物主代词 possecive pronoun名词性物主代词 nominal possesive prnoun形容词性物主代词 adjectival possesive pronoun 冠词 article定冠词 definite articleindefinite article不定冠词数词 numeral基数词 cardinal numeral序数词 ordinal numeral分数词 fractional numeral形式 form单数形式 singular form复数形式 plural form限定动词 finite verb form非限定动词 non-finite verb form原形 base form从句 clause从属句 subordinate clause并列句 coordinate clause名词从句 nominal clause定语从句 attributive clause状语从句 adverbial clause宾语从句 object clause主语从句 subject clause同位语从句 appositive clause时间状语从句 adverbial clause of time地点状语从句 adverbial clause of place方式状语从句 adverbial clause of manner让步状语从句 adverbial clause of concessionadverbial clause of cause原因状语从句.结果状语从句 adverbial clause of result目的状语从句 adverbial clause of purpose条件状语从句 adverbial clause of condition真实条件状语从句 adverbial clause of real condition非真实条件状语从句 adverbial clause of unreal condition 含蓄条件句 adverbial clause of implied condition错综条件句 adverbial clause of mixed condition句子 sentence简单句 simple sentence并列句 compound sentence复合句 complex sentence并列复合句 compound complex sentence陈述句 declarative sentence疑问句 interrogative sentence一般疑问句 general question特殊疑问句 special question选择疑问句 alternative question附加疑问句 tag question反义疑问句 disjunctive question修辞疑问句 rhetorical question感叹疑问句 exclamatory question存在句 existential sentence肯定句 positive sentencebasic sentence patern基本句型否定句 negative sentence祈使句 imperative sentence省略句 elliptical sentence感叹句 exclamatory sentence句子成分 members of sentences主语 subject谓语 predicate宾语 object双宾语 dual object直接宾语 direct object间接宾语 indirect object复合宾语 complex object同源宾语 cognate object补语 complement主补 subject complement宾补 object complement表语 predicative定语 attribute同位语 appositive状语 adverbial句法关系 syntatic relationship 并列 coordinate从属 subordinationmodification修饰.前置修饰 pre-modification后置修饰 post-modification限制 restriction双重限制 double-restriction非限制 non-restriction数 number单数形式 singular form复数形式 plural form规则形式 regular form不规则形式 irregular form格 case普通格 common case所有格 possessive case主格 nominative case宾格 objective case性 gender阳性 masculine阴性 feminine通性 common中性 neuter人称 person第一人称 first person第二人称 second personthird person第三人称.时态 tense过去将来时 past future tense过去将来进行时 past future continuous tense过去将来完成时 past future perfect tense一般现在时 present simple tense一般过去时 past simple tense一般将来时 future simple tense现在完成时 past perfect tense过去完成时 present perfect tense将来完成时 future perfect tense现在进行时 present continuous tense过去进行时 past continuous tense将来进行时 future continuous tense过去将来进行时 past future continuous tense现在完成进行时 present perfect continuous tense 过去完成进行时 past perfect continuous tense语态 voice主动语态 active voice被动语态 passive voice语气 mood陈述语气 indicative mood祈使语气 imperative mood否定 negationscope of negation否定范围.全部否定 full negation局部否定 partial negation转移否定 shift of negation语序 order自然语序 natural order倒装语序 inversion全部倒装 full inversion部分倒装 partial inversion直接引语 direct speech间接引语 indirect speech自由直接引语 free direct speech自由间接引语 free indirect speech一致 agreement主谓一致 subject-predicate agreement语法一致 grammatical agreement概念一致 notional agreement就近原则 principle of proximity强调 emphasis重复 repetition语音 pronunciation语调 tone升调 rising tone降调 falling tonefalling-rising tone降升调.文体 style正式文体 formal非正式文体 informal口语 spoken/oral English套语 formulistic expression 英国英语 British English美国英语 American English 用法 usage感情色彩 emotional coloring 褒义 commendatory贬义 derogatory幽默 humorous讽刺 sarcastic挖苦 ironic。
ICTPOS3.0汉语词性标记集
计算所汉语词性标记集Version 3.0制订人:刘群张华平张浩计算所汉语词性标记集 (1)0. 说明 (1)1. 名词(1个一类,7个二类,5个三类) (2)2. 时间词(1个一类,1个二类) (2)3. 处所词(1个一类) (3)4. 方位词(1个一类) (3)5. 动词(1个一类,9个二类) (3)6. 形容词(1个一类,4个二类) (3)7. 区别词(1个一类,2个二类) (3)8. 状态词(1个一类) (3)9. 代词(1个一类,4个二类,6个三类) (3)10. 数词(1个一类,1个二类) (4)11. 量词(1个一类,2个二类) (4)12. 副词(1个一类) (4)13. 介词(1个一类,2个二类) (4)14. 连词(1个一类,1个二类) (4)15. 助词(1个一类,15个二类) (4)16. 叹词(1个一类) (4)17. 语气词(1个一类) (5)18. 拟声词(1个一类) (5)19. 前缀(1个一类) (5)20. 后缀(1个一类) (5)21. 字符串(1个一类,2个二类) (5)22. 标点符号(1个一类,16个二类) (5)0.说明计算所汉语词性标记集(共计99个,22个一类,66个二类,11个三类)主要用于中国科学院计算技术研究所研制的汉语词法分析器、句法分析器和汉英机器翻译系统。
本标记集主要参考了以下词性标记集:1.北大《人民日报》语料库词性标记集;2.北大2002新版词性标记集(草稿);3.清华大学汉语树库词性标记集;4.教育部语用所词性标记集(国家推荐标准草案2002版);5.美国宾州大学中文树库(ChinesePennTreeBank)词性标记集;由于计算所的汉语词法分析器主要采用北大《人民日报》语料库进行参数训练,因此本词性标记集主要以北大《人民日报》语料库的词性标记集为蓝本,并参考了北大《汉语语法信息词典》中给出的汉语词的语法信息。
本标记集在制定过程中主要考虑了以下几方面的因素:1.有助于提高汉语词法分析器的切分和标注正确率;2.有助于提高汉语句法分析器的正确率;3.有助于汉英机器翻译系统进行翻译;4.易于从北大《人民日报》语料库词性标记集进行转换;5.对于语法功能不同的词,在不造成词法分析和句法分析歧义区分困难的情况下,尽可能细分子类。
汉语词性标注
湖南文理学院课程设计报告课程名称:计算机软件技术基础系部:电信系专业班级:通信工程T09103班学生姓名:刘程程指导教师:完成时间:2011.12.28报告成绩:目录中文摘要 (I)ABSTRACT (II)第一章引言 (1)1.1背景和意义 (1)1.2词性标注定义及其困难 (1)1.2.1词性的定义 (2)1.2.2词性标注的难点 (2)第二章基础理论介绍 (3)2.1隐马尔科夫模型(H1DDEN M ARKOV M ODEL,HM) (3)2.2HMM用于词性标注 (4)第三章改进HMM标注模型与参数估计 (4)3.1改进HMM模型词性标注 (4)3.2参数估计 (5)3.2.1训练语料库 (5)3.2.2当用数据库 (5)第四章改进VITERBI算法标注 (7)4.1标注过程 (7)4.2改进后的V ITERBI算法的具体描述 (7)第五章实验结果与分析 (8)5.1评价标准 (8)5.2实验结果 (9)5.3错误分析 (10)参考文献 (11)中文摘要汉语词性标注是中文信息处理技术中的一项基础性课题。
一方面,它的研究成果可以直接融入到信息抽取、信息检索、机器翻译等诸多实际应用系统当中;另一方面,汉语自动词性标注也是汉语语块识别器、汉语句法分析器、汉语语义分析器必不可少的前端处理工具。
因此,研究和实现汉语词性标注器具有重要的理论意义和实用价值。
词性标注的方法主要有基于规则和基于统计的两大类。
由于基于统计的方法具有不需要人工总结语言学规则、正确识别率高等优点,已逐渐成为研究的热点。
在基于统计的方法中,隐马尔科夫模型是最主要的算法模型之一。
在本文中,我们以汉语的词性自动标注为研究对象,提出了一种基于改进的隐马尔科夫模型汉语词性标注方法。
该方法在原有隐马尔科夫模型的基础上,加入了更多的上下文信息,用于汉语词性的自动标注问题,取得了较好的效果。
主要的研究内容有以下几方面: 1.虽然隐马尔科夫模型有很好的标注效果,但是它在对当前词词语出现概率的估计只与其词性有关。
英语词性缩写及介绍
英语词性缩写及介绍第一篇:英语词性缩写及介绍英语词性缩写及介绍1、及物动词:字典里词后标有vt.的就是及物动词。
及物动词后一般必须跟有动作的对象(即宾语)。
必须加宾语意思才完整的动词,就是及物动词。
2、不及物动词:不及物动词是不需要受词的动词。
字典里词后标有vi.的就是不及物动词。
不及物动词后不能直接跟有动作的对象(即宾语)。
若要跟宾语,必须先在其后添加上某个介词,如to,of ,at后方可跟上宾语。
3、名词:Nouns(n.)表示人或事物的名称 box, pen,tree,apple4、代词:Pronouns(pron.)代替名词、数词、形容词We, this, them,myself5、形容词:Adjectives(adj.)用来修饰名词,表示人或事物的特征 good, sad, high, short6、数词:Numerals(num.)表示数目或顺序 one,two, first7、动词:Verb(v.)表示动作或状态 Jump,sing,visit8、副词:Adverbs(adv.)修饰动、形、副等词,表示动作特征there,widely,suddenly9、冠词:Articles(art.)用在名词前,帮助说明名词所指的范围a, an, the10、介词:Prepositions(prep.)用在名词或代词前,说明它与别的词的关系 in,on,down,up11、连词:Conjunctions(conj.)表示人或事物的名称if,because,but12、感叹词:Interjections(int.)代替名词、数词、形容词等oh,hello,hi,yeah13、助动词:auxiliary verb(aux.v.)什么是助动词?1)协助主要动词构成谓语动词词组的词叫助动词(Auxiliary Verb)。
被协助的动词称作主要动词(Main Verb)。
助动词自身没有词义,不可单独使用,例如:He doesn't like English.他不喜欢英语。
(完整版)英语词性缩写
英语词性缩写n = 名词,noun的缩写u = 不可数名词,uncountable noun的缩写c = 可数名词,countable noun的缩写v = 动词,verb的缩写vi = 不及物动词,intransitive verb的缩写vt = 及物动词,transitive verb的缩写aux.v = 助动词,auxiliary verb的缩写model verb情态动词conj = 连接词,conjunction的缩写adj. = 形容词,adjective的缩写adv.= 副词,adverb的缩写art. = 冠词,article的缩写prep = 介词;preposition的缩写pron = 代名词,pronoun的缩写num = 数词,numeral的缩写int. = 感叹词,interjection的缩写英文基本句式介绍: 五个基本句式可以演变出多种复杂的英语句子。
这五个基本句式如下:S十V主谓结构S十V十P主系表结构S十V十O主谓宾结构S十V十O1十O2 主谓双宾结构S十V十O十C 主谓宾补结构(说明:S=主语;V=谓语;P=表语;O=宾语;O1=间接宾语;O2=直接宾语;C=补语)1.S十V在此句式中,V是不及物动词,又叫自动词(vi.)。
例如:He runs quickly.他跑得快。
They listened carefully.他们听得很仔细。
He suffered from cold and hunger.他挨冻受饿。
China belongs to the third world country.中国属于第三世界国家。
The gas has given out.煤气用完了。
My ink has run out.我的钢笔水用完了。
2.S十V十P在此句式中,V是系动词(link v.),常见的系动词有:look,seem,appear,sound,feel,taste,smell,grow,get,fall ill/asleep,stand/sit still,become,turn等。
语料库的词性标注
表各类词性。
词性标注集具有内在规律。
词性标注语料的检索
安装EditPad Pro
以赋码为线索,借助正则表达式检
索 AntConc支持正则表达式
谢谢
对经过词性标注后的语料库可以进行更 有效的检索和分析,可以方便从语料库 中提取语法相关信息,即Leech所说的 added value。
词性标注方法
词性标注原理
TreeTagger (Multilingual Version 2.0)的操
作方法
词性标注集
词性标注集(tagset)即一整套符号,代
语料库的词性标注
中国外语教育研究中心 梁茂成
主要内容
词性标注的意义
词性标注方法
词性标注 词性标注语料的检索
词性标注的意义
又称词性赋码(POS, Part-of-Speech Tagging),指对文本中的所有词进行分 析,确定其语法属性,并将该属性添加 到文本中的对应位置。
英语词性变化对照表[1]
组织
organization
organize
organized·有序的
起源
origin
original
originally
痛苦
pain
painful
通过
passage·段落
pass
passing·与格的
表现
performance
performer·表演者
perform
允许
permission
创建
foundation·地基、基础
found
自由的
freedom
free·使自由
free
freely
结冰
freeze
frozen
使惊吓
frighten
frightened·感到害怕的
frightening·令人害怕的
资金
fund
fundamental·基础的
引起
generate
general·一般的、笼统的
basis·依据
base
basic·基本的
basically·基本上
表现
Behavior
behave
打扰
bore
boring·令人无聊的
bored·感到无聊的
关心
care·照顾
care
careful
careless
carefully
carelessly
化学
chemistry
chemist·化学家
chemical·化学制品
artistic·艺术性
协助
Assistanceassistant
assist
英语各种词性缩写
句子成分按大类可分为:1 主语 Subject2 谓语 Predicate3 宾语 Object4 表语 Predicative5 定语 Attribute6 状语 Adverbial7 同谓语 Appositive8 插入语 Parenthesis9 呼语 Vocative名词可作:主语宾语同谓语插入语呼语冠词是一种虚词;不做句子成分用在名词前代词可当名词用数量词表示数量动词可作:动词..其分词形式还可修饰名词或句子形容词定语副词状语介词与动词构成固定搭配连词引导作用感叹词表是感叹语气s = 主词sc = 主词补语o = 受词oc = 受词补语vi = 不及物动词;intransitive verb的缩写vt = 及物动词;transitive verb的缩写aux.v = 助动词 ;auxiliary的缩写a = 形容词;adjective的缩写ad = 副词;adverb的缩写art = 冠词;article的缩写num = 数词;numeral的缩写int = 感叹词;interjection的缩写u = 不可数名词;uncountable noun的缩写c = 可数名词;countable noun的缩写pl = 复数;plural的缩写语气词 int.缩写词 abbr.Abbr abbreviation略略语adj; adjjadjectives形形容词adv; advvadverbs副副词adv partadverbial particle副接副词接语aux auxiliary助助动词cn countable noun可数可数名词conj conjunction连连接def art definite article定冠定冠词eg for example例如例如esp especially尤指尤指etc and the others等等等ie which is to say意即意即indef art indefinite article不定冠词不定冠词inf infinitive不定词不定词int interjection感感叹词n nouns 名名词neg negatively否定否定的地part adj participial adjective分形分词形容词pers person人称人称pers pron personal pronoun人称代人称代名词pl plural复复数的pp past participle 过去分词过去分词pref prefix字首字首prep prepositional 介词介词;介系词;介词的pron pronoun 代代名词pt past tense过去过去式sb somebody某人某人sing singular单单数的sth something某事物某物或某事suff suffix字尾字尾un uncountable noun不可数不可数名词US American美美国的V verbs 动动词VP Verb Pattern动型动词类型v I verb intransitive不及物动词不及物动词vt verb transitive 及物动词及物动词。
高考英语词汇手册(C-英译汉)
第 1 页共 15 页高考英语词汇表(C) ··········高考英语词汇手册········· ········C········序号英文词性中文备注1 cab2 cabbage3 cabin4 cable5 cafe6 cafeteria7 cage8 cake9 calculate10 calculator11 calendar12 call13 calm14 camel15 camera16 camp17 campaign18 campus19 can (could)20 Canada*21 Canadian22 canal23 cancel24 cancer25 candidate26 candle27 candy128 canned29 cannot30 canteen31 cap32 capable33 capital34 capitalist35 captain36 capture37 car38 carbon39 carbonic40 cardcard games41 care42 career43 careful44 careless45 cargo46 carpenter47 carpet48 carriage49 carrier50 carrot51 carry52 cart53 cartoon54 carve55 case 1case 256 cash57 cashier258 cassette59 cast (cast, cast)60 castle61 casual62 cat63 Catalog(ue)64 catch(caught,caught)65 cathedral66 cattle67 cause68 cave69 CDCD ROM70 cease71 ceiling72 celebrate73 celebration74 cell75 cellar76 cement77 cemetery78 cent79 centigrade80 centimetre81 central82 centre (美center )83 century84 ceremony85 certain86 certainly87 certificate88 chainchain store(s)389 chair90 chairman91 chairwoman92 chalk93 challenge94 challenging95 champion96 championship97 chance98 change99 changeable100 channel101 chapter102 character103 characteristic 104 charge105 charity106 charm107 charming108 chart109 chase110 chat111 cheap112 cheat113 check114 checkout 115 cheek116 cheer4Cheer up117 cheerful 118 Cheers 119 cheese 120 chemical 121 chemist 122 chemistry 123 cheque124 chess125 chest126 chew127 chick128 chicken129 chief130 child131 childbirth132 childhood133 childish134 children135 chill136 chimney137 china138 China*139 Chinese140 chip chips (pl.) 141 chocolate142 choice143 choke144 Choose (chose, chosen) 145 chop5146 chopsticks147 Christian148 ChristmasChristmas cardChristmas treeChristmas Eve149 church150 cigar151 cigarette152 cinema153 circle154 circular155 circumstance 156 circus157 citizen158 city159 civil160 civilian161 civilization 162 civilize163 claim164 clap165 class166 classic167 classical 168 classify169 classmate 170 classroom 171 clay6172 clean 173 cleaner 174 clear 175 clearly 176 clerk 177 clever 178 click 179 cliff 180 climate 181 climb 182 climber 183 clinic 184 clock 185 clone 186 close 1 close 2187 cloth 188 clothes 189 clothing 190 cloud 191 cloudy 192 club193 clue194 coach 195 coal196 coast 197 coat198 cock7199 code200 cocoa 201 coffee 202 coin203 coincidence204 coke205 cold206 cold blooded207 collapse208 collar209 colleague210 collect211 collection212 college213 colony214 colour (美color) 215 coloured216 column217 comb218 combination219 combine220 come (came, come) 221 comedian222 comedy223 comfort224 comfortable225 comic226 comma227 command228 commander229 comment8230 commerce231 commercial232 commit233 committee234 common235 communicate236 communication 237 communism238 communist239 community240 compact241 companion242 company243 comparative 244 compare245 comparison 246 compete247 competition 248 competitive 249 competitor 250 complain251 complaint252 complete253 completion 254 complex255 complicated 256 compliment 257 compose258 composer259 composition 9260 compound261 comprehension 262 comprehensive 263 compressed 264 compulsory 265 compute266 computer computer game267 comrade268 conceal269 conceited270 concentrate 271 concentration 272 concept273 concern274 concert275 conclude276 conclusion 277 concrete278 condition279 conduct280 conductor281 conference 282 confess283 confidence 284 confident285 confirm286 conflict287 confuse10288 congratulate 289 congratulation 290 congress291 connect292 connection 293 conquer294 conscience 295 conscious 296 consequence 297 conservation 298 conservative 299 consider300 considerate 301 consideration 302 consist303 constant304 construct 305 construction 306 consult307 consume308 consumer 309 contact310 contain311 container 312 contemporary 313 content314 contest315 context316 continent 317 continental 318 continue319 contract321 contrast322 contribute323 contribution 324 control325 convenience 326 convenient 327 conversation 328 convey 329 convince330 cook331 cooker332 cookie333 cool334 cooperate335 cop336 cope337 copy338 coral339 cordless340 corn341 corner342 corporation 343 correct 344 correction345 correspond 346 corridor 347 costcost (cost, cost) 348 cottage 349 cotton350 cough351 could352 count353 counter354 country355 countryside 356 county 357 couple358 courage 359 course360 coursebook 361 court362 courtyard 363 cousin364 cover365 cow366 cowboy 367 co worker 368 crack 369 craft370 crash371 crawl372 crayon373 crazy374 cream375 create376 creative 377 creature 378 credit 379 crew380 crime381 criminal382 crisis (复crises) 383 critic384 criticism 385 criticize 386 crop387 cross1 cross2388 crossing 389 crossroads 390 crowd391 crowded 392 crown393 cruel394 cruelty 395 crush396 cry397 crystal 398 cubecubic 399 cucumber400 cultivate401 cultural402 culture403 cup404 cupboard405 cure406 curious407 currency408 current409 curtain411 cushion 412 custom413 customer 414 customs 415 cut (cut, cut) 416 cycle 417 cyclist。
英语单词词性缩写(免费)
所有英语单词词性缩写prep = 介系词;前置词,preposition 的缩写pron = 代名词,pronoun 的缩写n = 名词,noun 的缩写v = 动词,兼指及物动词和不及物动词,verb的缩写conj = 连接词,conjunction 的缩写s = 主词sc = 主词补语o = 受词oc = 受词补语vi = 不及物动词,intransitive verb 的缩写vt = 及物动词,transitive verb 的缩写aux.v = 助动词,auxiliary 的缩写 a = 形容词,adjective 的缩写ad = 副词,adverb 的缩写art = 冠词,article 的缩写num = 数词,numeral 的缩写int = 感叹词,interjection 的缩写u = 不可数名词,uncountable noun的缩写 c = 可数名词,countable noun的缩写pl = 复数,plural 的缩写语气词int. 缩写词abbr.abbr abbreviation(略)略语adj, adjjadjective(s)(形)形容词adv, advvadverb(s)(副)副词adv partadverbial particle(副接)副词接语aux auxiliary(助)助动词cn countable noun(可数)可数名词conj conjunction(连)连接def art definite article(定冠)定冠词egfor example(例如)例如esp especially(尤指)尤指etc and the others(等)等等ie which is to say(意即)意即indef art indefinite article(不定冠词)不定冠词inf infinitive(不定词)不定词int interjection (感)感叹词n noun(s)(名)名词neg negative(ly)(否定)否定的(地) part adj participial adjective(分形)分词形容词pers person(人称)人称pers pron personal pronoun(人称代)人称代名词pl plural(复)复数(的) pp past participle (过去分词)过去分词pref prefix(字首)字首prep preposition(al)(介词)介词,介系词,介词的pron pronoun (代)代名词pt past tense(过去)过去式sb somebody(某人)某人sing singular(单)单数(的) sth something(某事物)某物或某事suff suffix(字尾)字尾un uncountable noun(不可数)不可数名词US America(n)(美)美国(的)vverb(s)(动)动词[VP]V erb Pattern(动型)动词类型v iverb intransitive(不及物动词)不及物动词vt verbtransitive (及物动词)及物动词名词(Noun.N)1. 定义:人、地、物、事或观念等名称叫做名词。
词性分类英语缩写表
词性分类英语缩写表词性分类是英语语法中的重要概念之一,是指根据单词在句子中的功能和形式,将其归类为名词、动词、形容词、副词、代词、介词、连词和感叹词等八种基本词类,或者进一步细分为更具体的子类。
掌握词性分类对于学习英语句子结构和语法规则、写作和阅读理解都具有重要作用。
以下是常见英语词性分类缩写及其中文解释。
1. Noun(n.)名词:表示人、事物、地点、抽象概念等具体或抽象事物的名称。
2. Verb(v.)动词:表示动作、状态或者发生的行为、事件、情感等。
3. Adjective(adj.)形容词:描述名词的属性、特征、状态等。
4. Adverb(adv.)副词:描述动词、形容词、其他副词等的程度、方式、时间、频率、位置等。
5. Pronoun(pron.)代词:代替特定名词或名词短语的词语,可以减少重复和冗长。
6. Preposition(prep.)介词:用于表达时间、空间、方向、关系等的词语,通常与名词或代词一起使用。
7. Conjunction(conj.)连词:用于连接词语、词组、句子等,可以表示并列、递进、转折、因果、条件等关系。
8. Interjection(int.)感叹词:用于表达强烈的情感、意见、惊讶等,通常用于独立成句或放在句子中间。
以下是常见的词性分类的子类及其中文解释:1. Proper noun(pn.)专有名词:表示特定的人、地点、组织、品牌、机构等的名称,用于区分其他同名或同类事物。
2. Common noun(n.)普通名词:表示一般的人、事物、概念等,没有特定的限定词。
3. Collective noun(n.)集体名词:表示一组人、动物、事物等的名称,但具有单数形式。
4. Abstract noun(n.)抽象名词:表示不能触摸或看到的思想、情感、状态等的名称。
5. Transitive verb(v.)及物动词:需要宾语来完成意义的动词。
6. Intransitive verb(v.)不及物动词:不需要宾语也能完整表达意义的动词。
英语词性分类及用法缩写怎么记
英语词性分类及用法缩写记忆技巧英语是世界上使用最广泛的语言之一,对于许多学习者来说,掌握英语词性分类及用法缩写是学习过程中的重要一环。
词性分类是指根据词汇在句子中的功能和意义将词汇划分为不同的类别,包括名词、动词、形容词、副词、介词、连词和感叹词等。
在英语学习中,了解词性分类有助于学习者更准确地理解词汇的用法和语法结构。
在英语中,每种词性都有其相应的用法缩写,例如“n.”表示名词,“v.”表示动词,“adj.”表示形容词,“adv.”表示副词,“prep.”表示介词,“conj.”表示连词,“int.”表示感叹词。
了解这些缩写对于阅读和书写英语文本是非常有帮助的,下面将介绍一些记忆技巧来帮助学习者更容易地记住这些用法缩写。
1. 制作缩写卡片制作一份包含词性分类及用法缩写的卡片,可以帮助你通过反复复习来记忆这些缩写。
在一张卡片的一面写下词性分类(如名词、动词等),另一面写下对应的用法缩写。
可以利用闲暇时间翻看这些卡片,加深记忆。
2. 利用联想记忆将每种词性的缩写与其对应的词性名称进行联想,可以帮助你更容易地记住这些缩写。
例如,“n.”可以联想为“name”的首字母,表示名词,“v.”可以联想为“verb”的首字母,表示动词。
3. 创造联想故事创造一个有趣的联想故事,将每种词性的缩写和其词性名称串联起来。
例如,你可以想象一个名为“Nina”的女孩代表名词,她喜欢唱歌,在舞台上变成了“Vera”(动词)等等。
这样的故事可以帮助你更加生动地记忆这些词性分类及用法缩写。
通过以上记忆技巧,相信你可以更轻松地掌握英语词性分类及用法缩写,提升英语学习的效率和趣味性。
记得在学习过程中保持耐心和持续地练习,才能更好地掌握这些重要的知识点。
祝你学习进步,加油!。
依存句法 ctb标注
依存句法是一种用来分析句子结构的语言学方法,而CTB标注是一种用于中文的依存句法标注标准。
以下是一个中文句子及其对应的CTB标注示例:
句子:我喜欢吃苹果。
CTB标注:
```
ROOT
└─ [HED] 喜欢
├─ [SBV] 我
├─ [VOB] 吃
│ └─ [VOB] 苹果
└─ [MT] 。
```
解释:
* `ROOT` 表示整个句子的核心信息。
* `[SBV]` 表示主谓关系,指主语与谓词间的关系。
* `[VOB]` 表示动宾关系,指宾语与谓词间的关系。
* `[MT]` 表示虚词成分,指虚词与中心词间的关系。
在CTB标注中,每个依存关系都用一个标签来表示,标签之间使用箭头`└─` 连接,表示依存关系从箭头指向的词语出发,指向箭头源的词语。
例如,在上述示例中,`[SBV]` 表示主语“我”与谓词“喜欢”之间的主谓关系,箭头指向“喜欢”,表示“我喜
欢”是一个整体。
英语词类的缩写和用法
英语词类的缩写和用法-CAL-FENGHAI.-(YICAI)-Company One1n. 名词 v. 动词 pron. 代词adj. 形容词 adv. 副词 num.数词art. 冠词 prep. 介词 conj. 连词interj. 感叹词英语词性缩写prep = 介系词;前置词,preposition的缩写pron = 代名词,pronoun的缩写n = 名词,noun的缩写v = 动词,兼指及物动词和不及物动词,verb的缩写 conj = 连接词,conjunction的缩写s = 主词sc = 主词补语o = 受词oc = 受词补语vi = 不及物动词,intransitive verb的缩写vt = 及物动词,transitive verb的缩写aux.v = 助动词,auxiliary的缩写adj = 形容词,adjective的缩写adv = 副词,adverb的缩写art = 冠词,article的缩写num = 数词,numeral的缩写int = 感叹词,interjection的缩写u = 不可数名词,uncountable noun的缩写c = 可数名词,countable noun的缩写pl = 复数,plural的缩写语气词 int.缩写词 abbr.abbr abbreviation(略)略语aux auxiliary(助)助动词def art definite article(定冠)定冠词indef art indefinite article(不定冠词)不定冠词inf infinitive(不定词)不定词int interjection(感)感叹词part adj participial adjective(分形)分词形容词pers pron personal pronoun(人称代)人称代名词[VP]Verb Pattern(动型)动词类型v iverb intransitive(不及物动词)不及物动词 vi不及物动词 vt verb transitive (及物动词)及物动词 vt及物动词除这十大类词之外,英语还另有判断词yes和no。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
CTB词性标注指南第一章引言中文几乎没有屈折语素。
譬如,词语不随时态、格、人称和数量而曲折变化。
因此,对特定文本中的词进行词性标注往往都很困难。
这个文件是专为宾州中文树库项目[XPS+00]所设计的。
这个项目的目标是构建一个十万词的有语法托架的中文官话文本语料库。
标注包括两个步骤:第一阶段是中文分词和词性标注,第二阶段是句法托架。
每个步骤包括至少两个经过,即数据库由一个标注者标注,结果文件由另一个标注者检查。
词性标注指南,就如分词指南和托架指南,在项目进行过程中已经修订了多次。
到目前为止,我们已经在我们的网站上发行了三个版本:第一部草作完成于1998年12月,在第一个中文分词和词性标注文件发行后;第二部草作完成于1999年3月,在第二个中文分词和词性标注文件发行后;这个文件,是第三部草作,修订于第二个托架文件发行后。
在这个第三部草作中,与前两部草作相比,主要改变在于:(1)我们增加了一章引言来解释指南中存在的一些基本原理;(2)我们增加了对中文词语的注释;(3)我们把这个指南写成了一个技术性报告,报告被发表于宾夕法尼亚大学认知科学研究机构(IRCS)。
1.1 标注标准词性标注(POS)的核心问题是词性标注是否应该基于意义或者句法分布来标注。
这个问题自1950年以来就被热烈争论到现在,并且始终存在两种不同的观点。
譬如,中文词“毁灭”可以被翻译为英文中的destroy或destroys或destroyed或destroying或destruction,并且如它英文所对应的词一样使用。
根据第一种观点,词性标注应该只基于意义。
因为词的意义在它所有的用法中基本都是一样的,它就应该总是被标注为一个动词。
第二种观点是词性标注应该由词的句法分布来决定。
当“毁灭”是一个名词短语的首词,它在那个文本中就应该被标注为一个名词;当“毁灭”是一个动词短语的首词,它就应该被标注为一个动词。
我们选择了句法分布作为我们词性标注的主要标准,因为这与当代语言学理论所采纳的原则一致,譬如X-bar理论和GB理论中的首字投射概念。
由于很多中文动词也出现在名词位置,因此需要两个词性标注标记,这就导致使用句法分布方法将会扩大词典的规模,因此这个原因常被用来反对句法分布方法。
我们认为这个观点不足以让人信服,主要有如下两个理由。
首先,两个词性标注标记可以让我们区别可以出现在名词位置的动词和不可以出现名词位置的动词(譬如单音词动词和重叠词形式的动词如AABB,A不A)。
如果存在动词可以出现在名词位置或者不能出现在名词位置的实词虚化现象,这些实词虚化可以被看做构形规则,这会使得词典自动被扩大。
另一方面,如果不存在这样的实词虚化现象并且名词化过程大部分都很特殊,这就验证了一个观点:这是一个词汇现象并且那些可以被名词化的动词在词典中应该有两个词性标注标记。
其次,很多动词可以出现在名词位置的现象并不只存在于中文,在其他语言中设立的标准也是给予这些词两个标记。
1.2 词性标注标记集我们的词性标注标记集有33种标记:动词,形容词(4):V A,VC,VE,VV。
名词(3):NR,NT,NN。
定位(1):LC。
代词(1):PN。
限定词和数词(3):DT,CD,OD。
度量词(1):M。
副词(1):AD介词(1):P。
连词(2):CC,CS。
助词(8):DEC,DEG,DER,DEV,SP,AS,ETC,SP,MSP。
其他(8):IJ,ON,PU,JJ,FW,LB,SB,BA。
1.3 词性标注标记集假设我们从一个大部分人认同的小型词性标注标记集开始,其中包括名词、动词、副词、介词等的标记。
问题在于我们是否应该用一组更为具体的标记{T1,T2,…,T i,…,T n}来取代每个标记T。
有如下几个因素需要考虑:·通常,由于有相同词性标注标记的词都具有极为相似的句法分布,标注需要一个很大的标记集。
另一方面,标记集越大,标注起来越困难。
因为标注者需要记住更多标记、更多测试并且应用一致。
因此,当我们决定一个标记集时,我们需要作出妥协。
·设置一组(T)作为标有词性标注标记T的词的标记集。
如果没有好的测试把标记集(T)中的每个词分配给任一标记T i,并且{T i}相比T没有提供更多有意义的信息,那么我们就不会把T分割成标记集{T i}。
·如果集合(T)是一个闭合标记集并且对于每组(i,j),标记集(T i)和(T j)的交集为空,那么通过一个简单的转换程序可以把词/T自动取代为词/T i。
因此,如果我们想用{T i}中的具体标记来标注词语,这个转换过程可以由程序来自动完成,而不是通过标注者手动转换。
1.4 处理困难案例有时候,我们不是很确定一个文本中的某个词是否应该被标注为X或Y。
如果我们确定这个词不在标记集(X)和(Y)的交集中,那么我们可以简单选择一个标记如X来标注这个词,如果有需要也可以再用Y来取代X。
譬如,词语“许多”在“许多学生”这个短语中,既是一个JJ(名词作定语)又是一个DT(限定词)或是一个CD(限定数量词),并且它应该确切地标记为这三个标记之一。
我们简单选择一个看似更为恰当的标记,然后根据需要可以再用别的标记来自动取代。
另一方面,如果我们知道在另一个文本中,这个词被标记为两个标记之一,假设为X,那么我们应该判断这个词在两个文本中是否扮演相同的角色。
如果我们确定这个词在两个文本中词性是一样的,我们应该标记它为X;否则,标记它为Y。
譬如,“又”在“(1)又…又…,譬如又搞笑又难过”中既是一个AD(副词)又是一个CC(联合短语的标记“和”),而“又”在“(2)他又来了”中明显是一个AD(副词)。
由于我们不确定“又”在这两个文本中扮演的角色是否相同,我们把(1)中的词“又”标记为CC。
隐藏在这个决定后面的基本原理是,如果之后我们想标记(1)中的词“又”为AD,我们可以简单地用又/AD 替换又/CC。
但是如果我们现在就把(1)中的词“又”标记为AD,并且之后想要把它改为CC,那么我们需要区别这两个文本并且确定只有(1)中的“又”需要改为又/CC,而不是把(2)中的“又”改为又/CC。
1.5 标注法用于这个文件的一些标注法:·脱离文本,一个词可以有多种标记,“一个词w在标记集(T)中”意味着T是词w 的标记之一。
·标记N代表所有名词标记(NT/NN/NR)。
标记V代表所有动词标记(V A/VV/VC/VE)。
“Det+M”是DT+(OD|CD)+M的速记符,其中DT,OD,CD可能出现也可能不出现。
·“一个词可以被否定”是“一个肯定意义的词可以被否定”的缩略说法。
相似地,“一个词可以出现在A不是A”意味着“一个词可以出现在问题模式A不A”。
·对于注释,我们不翻译度量词、助词和标记为LB、SB、BA、VC的词。
相反地,我们用它们的词性标注标记来标记这些词。
第二章宾州树库词性标注标记集2.1 动词:V A,VC,VE,VV一般地,动词满足以下特征:·动词(除了助动词等)作为一个从句的谓语(主句或嵌入分句)。
·动词可以用“不”或者“没”来否定。
·体标记可以附属于大多数但不是全部的动词。
·大多数动词可以出现在“A不A”中。
如果一个词w在集合(V)中是一个名词短语作为词首,那么它被标记为N而非V。
如果词w在集合(V)中是一个名词修饰语(排除V是一个关系从句的首部的情况),那么它被标记为N或者JJ(根据对N和JJ的测试),而非V。
2.1.1 谓词性形容词:V A谓词性形容词大致上相当于英语中的形容词和中文语法中、文学作品里的静态动词。
我们的谓词性形容词包括两类:第一类:没有宾语且能被“很”修饰的谓语。
第二类:源自第一类的、通过重叠(如红彤彤)或者通过名词加形容词模式意味着“像N一样A”(如雪白)的谓语。
这个类型的谓词性形容词没有宾语,但是有一些不能被“很”修饰,因为这些词的强调意思已经内嵌在词内了。
注意:当集合(VA)中的一个词修饰名词但没有用“的”,那么它被标注为JJ(名作定)或是一个名词,而不是V A。
当集合(V A)中的一个词有一个宾语,那么它被标注为VV,而不是VA。
譬如,这项/M 活动丰富/VV 了/AS 他的/DEG 生活。
2.1.2 系动词:VC“是”和“为”被标记为VC。
如果“非”的意思是“不是”并且句子里没有其他动词时,“非”也被标注为VC。
“是”有几种用法:·连接两个名词短语或者主语:他是/VC 学生。
·在分裂句中:他是/VC 昨天来的/SP。
·为了强调:他是/VC 喜欢看书。
现在,在所有这些情况中,“是”被标注为VC。
2.1.3 “有”作为主要动词:VE只有当“有,没{有}”和“无”作为主要动词时(包括占有的“有”和表存在的“有”等等),被标注为VE。
2.1.4 其他动词:VVVV包括其他动词,诸如情态动词,提升谓词(如“可能”),控制动词(如“要”、“想”),行为动词(如“走”),心理动词(如“喜欢”、“了解”、“怨恨”),等等。
2.2 名词:NR,NT,NN一个名词可以是一个谓语或者一个介词的论元。
通常,·名词不能被程度副词和否定副词诸如“很”、“不”来修饰。
·很多名词可以被Det+M结构修饰。
·名词可以直接修饰名词(也就是说,没有“的”)。
如果一个词是一个名词短语的首部,那么它就被标注为一个名词。
有时候很难识别一个短语是否为名词短语。
一些可以作为判别名词短语的测试如下:·如果短语XP被一个Det+M短语所修饰,并且在其他文本中Det+M短语只修饰名词短语,那么XP很可能是名词短语。
·如果短语XP是一个动词或者一个介词的论元,并且这些动词和介词在其他文本中只充当名词短语的论元,那么XP很可能是名词短语。
·如果短语XP被“ZP的/DEG或DEC”所修饰,那么XP很可能是名词短语。
2.2.1 专有名词:NR专有名词是名词的子集。
一个专有名词可以是一个特定的人名,政治或地理上定义的地方(城市、国家、河流、山脉等),或者是一种组织(企业、政府或其他组织实体)。
一个专有名词通常是独一无二,并且不能被Det+M所修饰的。
·以下名字是专有名词:地区/国家/村庄/城市,山脉/河流,报纸/杂志,组织/公司,学校/联盟/基金会,个人/家庭。
·以下名字不是专有名词:国籍(如中国人),种族(如白人),职称(如教授),疾病,职业,器官(如肺),乐器(如钢琴),游戏(如足球),花(如玫瑰),等等。
2.2.2 时间名词:NT时间名词可以是介词的宾语,譬如在、从、到、等到。
它们可以被问及,如“这个时候”,也可以被用以提问“什么时候”。