Bootstrapping算法

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

1、Bootstrapping方法简介

Bootstrapping算法又叫自扩展技术,它是一种被广泛用于知识获取的机器学习技术。它是一种循序渐进的学习方法,只需要很小数量的种子,以此为基础,通过一次次的训练,把种子进行有效的扩充,最终达到需要的数据信息规模。

2、Bootstrapping算法的主要步骤

(1) 建立初始种子集;

(2) 根据种子集,在抽取一定窗口大小的上下文模式,建立候选模式

集;

(3) 利用模式匹配识别样例,构成候选实体名集合。将步骤(2)所得的

模式分别与原模式进行匹配,识别出样例,构成候选集合。(4) 利用一定的标准评价和选择模式和样例,分别计算和样例的信息

熵增益,然后进行排序,选择满足一定要求的模式加入最终可用模式集,选择满足一定条件的样例加入种子集。

(5) 重复步骤(2)-(4),直到满足一定的迭代次数或者不再有新的样例

被识别。

3 相关概念

(1)上下文模式

它是指文本中表达关系和事件信息的重复出现的特定语言表达形式,可以按照特定的规则通过模式匹配,触发抽取特定信息。上下文模式是由项级成的有有序序列,每个项对应于一个词或者词组的集合。

(2)模式匹配

模式匹配是指系统将输入的句子同有效模式进行匹配,根据匹配成功的模式,得到相应的解释。

(3)样例

样例是在Bootstrapping迭代过程中,经过模式匹配后,抽取出来的词语。

相关文档
最新文档