词类标签POStagging

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

词类标签POStagging
part-of-speech (POS)
POS其实就是对词进⾏⼀些分类,⽐如名词、动词、形容词、副词等。

通过研究POS我们可以学习到更多词于词之间的关系,⽐如冠词⼀般在名词前,名词后⾯可能是动词,更进⼀步的,POS可以被应⽤到其他任务中,⽐如推测作者、信息抽取等等。

由于很多语⾔在不同环境下存在多种意思,词汇间的不同组合也会产⽣不同的含义,所以POS任务存在很多难点。

⽬前对于词汇的分类有许多标准,如英语中 Brown (87 tags, Penn Treebank (45 tags) , CLAWS/BNC (61 tags), “Universal” (12 tags)。

Major Penn Treebank Tags
NN noun; JJ adjective; VB verb; RB adverb;DT determiner; CD cardinal number; IN preposition; PRP personal pronoun; MD modal; CC coordinating conjunction; RP particle; WH wh-pronoun; TO to
如果进⼀步细分,还可以
NN: NNS (plural, wombats), NNP (proper, Australia), NNPS (proper plural, Australians), VB: VB (infinitive, eat), VBP (1st /2nd person present, eat), VBZ (3rd person singular, eats), VBD (past tense, ate), VBG (gerund, eating), VBN (past participle, eaten), JJ: JJR (comparative, nicer), JJS (superlative, nicest) RB: RBR (comparative, faster), RBS (superlative, fastest), PRP: PRP
(possessive,my),WH:WH (possessive, whose), WDT(wh-determiner, who), WRB (wh-adverb, where)
Tagging⽅法
1. 基于规则Rule-based
2. 基于统计Statistical taggers
‣ Unigram tagger
最简单的模型,把⼀个词出现最多的tag给它,⼀般⽤作baseline。

‣ Classifier-based taggers
选择⼀些特征,如环境词,已有标签等,然后使⽤⼀些分类器进⾏分类。

‣ Hidden Markov Model (HMM) taggers
隐马尔科夫模型是⼀种基于序列的模型,数据有两类,⼀类是可以观测到的,即观测序列,另⼀类数据是不能观察到的,即隐藏状态序列。

这个我们下⼀次讲!
Processing math: 100%。

相关文档
最新文档