Co-training方法及应用

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

信息检索实验室
16
实验结果

种子集200句 未标注集7800句 效果不好
上下文分类器 初始值 0.822034 0.744242 位置分类器 0.787918 0.744024 组合分类器 0.773359 0.744024
Co-training
信息检索实验室
17
结果分析

分类器的特征抽取不够合理

网页的内容特征 网页的超链接

根据每一个特征使用贝叶斯方法设计分类 器
12
信息检索实验室
分类器设计

三个分类器

Page-based classifier Hyperlink-based classifier Combined classifier。


第三个分类器是基于前两个分类器的输出 P(c|x) = P(c|x1)P(c|x2)
6
信息检索实验室
获取新的特征
信息检索实验室
7
信息检索实验室
8
反复迭代



返回开始,训练集逐渐增加,剩余集 逐渐减少。 当训练参数不变时,算法收敛于一个 稳定的剩余集。 从最终的训练集中训练的分类器可用 于分析新的数据。
9
信息检索实验室
信息检索实验室
10
Co-training的描述
1. 2.
3.
4.
5.
从两个角度(views)看一个分类问题; 根据不同的角度分别建立一个模型,在标注集 下训练每个模型; 标注未标注的句子,然后找出每个模型都以较 高自信度标注的句子; 以不同的方式挑出这些高自信度的句子; 把这些句子加入到训练集中,迭代这个过程, 直到未标注数据耗尽。
Anoop Sarkar. 2001. Applying co-training methods to statistical parsing
信息检索实验室
2
最早提出此方法之一


D. Yarowsky. 1995. Unsupervised Word Sense Disambiguation Rivaling Supervised Methods 用于词义消歧问题 以plant为例说明


plant:植物 plant:工厂
信息检索实验室
Examples
是, 为 要, 会 加以 去, 进 掉, 不已 如实,强制 工作,诉讼 吃,学习
15
vg
无指百度文库实验

基于最大熵的分类器C C1:以目标词的上下文为特征 C2:以目标词的前后动词为特征
Chinese sentence segmentation POS tags POS tags 武汉取消了49个收费项目 武汉 取消 了 49 个 收费 项目 ns v u m q v n ns vg u m q vn n

未掌握无指导迭代思想的精髓
信息检索实验室
18
thanks
信息检索实验室 19

信息检索实验室 14
Co-training的应用

应用于动词细分类 将动词v分成8个细类
Tag
vx vz vf vq vb vd vn
信息检索实验室
Description
copular auxiliary verb formal Tendency complement verb adverb verb noun verb general verb

x=(x1,x2)是网页的文本特征和超链特征。
13
信息检索实验室
训练过程
未标注数据集合U,标注数据集合L 从U中随机抽取u个样本放到小数据集U’中 (1)用L训练出分类器h1和h2 (2)对U’进行标注,从标注结果中选出最 可信的p个正例和n个反例,加入到L中 (3)从U中随机抽取2p+2n个样本加入到U’ 中 以上过程迭代k次
信息检索实验室 11
基于Co-training进行网页分类



Avrim Blum and Tom Mitchell. 1998. Combining labeled and unlabeled data with Co-Training 第一次使用co-training这个概念。 从两个视角进行网页分类
3
方法说明

先找出确定的两个特征词

life: plant life manufacturing: manufacturing plant

将这些句子作为种子集
信息检索实验室
4
信息检索实验室
5
训练过程



使用决策表(decision list)的方法训练一个 有指导的分类器,该分类器从种子集中识 别出其他的特征搭配,并对这些搭配进行 排序。 用得到的分类器对未标注数据(称为剩余 集)进行标注,将概率超过阈值的句子加 入到种子集中,使用决策列表算法,从增 加的数据中又获得新的搭配。 用词义消歧中的one-sense-per-discourse特性 对特征进行优化
Co-training方法及应用
IR-Lab 马金山 2005-5-24
信息检索实验室 1
什么是Co-training?


Co-training方法bootstrapping思想的一种实 现 主要用于二元分类问题 是一种半指导或无指导的学习方法 用一个小规模的标注数据及一个大规模的 未标注数据训练分类器
相关文档
最新文档