文本信息提取--Web信息检索与数据抓取-文档信息提取
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
信息提取
10
普遍来讲,基于统计的信息抽取方法更为有效。 从方法实现的难易程度上讲,统计的方法需要提供统计模型的拓扑结构以及大量 的训练集,基于语义(理解)的方法需要构建较为完整的自然语言处理系统,基于规 则(知识工程)的方法需要根据不同领域的语言特点通过知识工程获取信息抽取的规 则。由此比较,同级的方法更容易实现。
作物名称有个product.txt 词表。 存放内容如:大豆、高粱
信息提取
6
然后通过DicDoc类加载这些词,代码如下:
private DicDoc() { //加载字典 //"product.txt" 是一类词, DocType.Product 定义好这类词性 load("product.txt", DocType.Product); //农作物 load("address.txt", DocType.Address); //地址 load("season.txt", DocType.Season); //季节
}
信息提取
7
信息提取的关键在于定义相关规则,用户定义好规则后程序会按照指定的规则提 取相关信息,规则越多,提取的信息越精确。另外,可以把需要优先匹配的规则放到 前面。因为规则库中放在前面的规则会先匹配上。
信息提取
8
还可以用信息提取的方法提取网页中的信息。
例如下面这段描述图书的网页片段:“<span class="dark">出版社:</span>中 国工人出版社<br>”。要从中提取出版社信息。
Web信息检索与数据抓取 -文档信息提取
信息提取
2
信息提取系统一般根据行业应用特点量身定做。例如,在农业信息化项目中为农 业相关的文档提取出作物名称,对应季节,适用地区等信息。
信息提取
3
例如根据下面的问答信息: 河北沧州地区的盐碱地适合种植的农作物是什么? 苜蓿,黄骅等许多地方都有种植,销量也可以。 提取出农作物名称:苜蓿,黄骅;适用地区:河北沧州。
把标签放到不同的词典文件中。 例如“</span>”和“<br>”,“出版社:”。这样可以根据规则提取出“中国工 人出版社”。
信息提取
9
另一方面,统计的方法在可移植性(或适应性)上也优于其他方法。基于统计的 方法只要改变训练集就能建立起适用于另外一个领域的模型。
然而现实情况是,信息抽取往往专注于范围较小的一个或者若干领域,所以可移 植性要求不高,并且特定领域内的信息抽取应用基于规则的方法更易于实现,所以也 可以说基于规则的信息抽取方法更为有效。
信息提取
4
首先定义农业相关的词类:
public enum DocType {
Product,//作物名称
Pronoun,//代词
Address,//地名
//虚拟类型,结束状态
}
信息提取
5
然后可以建几个简单的词表,例如季节词表 season.txt。 存放内容如:春、夏、秋、冬