信息抽取及其应用.
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
目前信息抽取的关键技术主要有实体识别、实体关系 识别和事件模板构造3个方面。 实体识别技术:实体是指在现实世界中具体或抽 象的对象,而识别出这些对象在文本中的表达形 式则为实体识别技术。在该技术中不仅要识别并 标注出一般的命名实体,如人名、地名、机构名、 产品名称等,还包括一些对实体解释性的描述以 及指代实体的代词等,有时在具体应用中有关时 间和数量表达式也被作为实体来识别。实体识别 的方法主要分为基于统计与基于规则的方法。
http://wwwnlpir.nist.gov/reபைடு நூலகம்ated_projects/muc/
http://gate.ac.uk/
http://gate.ac.uk/download/index.html
邓尚民,孙玉伟.国内外信息抽取研究的义献计量分析.图书 情报工作,2006(12):92-94,108
信息抽取技术
实体关系识别技术 实体关系识别技术是识别句子中出现的成对实体间 的关系。例如当句子中出现一个人名和一个组织实 体名称时,那么这个人与组织之间是何种关系需要 辨别;当出现机构名称和地名时,这两者之间又具有 何种关系;如果出现两个人名时,这两人之间具有何 种社会关系等。
在ACE评测中,对这些关系进行了归纳,把所有关系划 分为角色关系、部分与整体的关系、位置关系、方位关 系和社会关系这5个基本类型。 在实体关系识别方面也有两种技术路线,一种是使用规 则的方法,主要是基于模式匹配技术;另一种是统计的方 法,主要基于机器学习的技术。
Web信息抽取的中心—包装器
Web信息抽取工作主要由包装器(Wrapper)来完 成。 包装器是一种软件过程,这个过程使用已经定义 好的信息抽取规则,将网络爬虫搜集到的Web页 面的信息数据抽取出来,转换为用特定的格式描 述的信息。 一个包装器被认为是一个程序或是理解某一具体 信息源的一种规则,并把信息转化为较为规则的 格式,如XML或关系表格。包装器是特定的对 某一个给定的网站,紧密地与抽取的网页结构和 标记语言相联系的。包装器最具挑战性的方面就 是能从许多不相关的文本中识别所要抽取的信息。
二、Web信息抽取
Web信息抽取就是从Web页面所包含的无结构或半结构的 信息中识别用户感兴趣的数据,并将其转化为结构和 语义更为清晰的格式(XML、关系数据、面向对象的数 据等)。 整个抽取过程的工作过程主要包括了如下几个步骤: ①将Web网页进行预处理。 ②用一组信息模式描述所需要抽取的信息。 ③对文本进行合理的词法、句法及语义分析。 ④使用模式匹配方法识别指定的信息模式的各个部分。 ⑤进行上下文分析和推理,确定信息的最终形式。 ⑥将结果输出成结构化的描述形式以便由网络集成系统 进行查询分析。
http://paper.people.com.cn/rmrb/html/200911/09/node_1922.htm
MUC和ACE
消息理解系列会议(Message Understanding conference, MUC)和自动内容抽取评测会议 ( Automatic Content Extraction, ACE)对推动信息 抽取技术的发展起到重要作用。 MUC由美国海 军情报部门提出举行,主要目的也是处理大量 海军军事情报,从1987年开始到1998年,MUC 会议共举行了七届。ACE是由美国国家标准技 术研究所( NIST)组织召开,该会议2001年5月首 次举办,到2007年已经举办7次会议。
Web信息抽取的评价
信息抽取结果的评价 信息抽取系统的性能评价(信息抽取任务的难 易程度、系统所使用的技术、系统的自动程度)
应用实例
Amorphic系统 Amorphic系统是一个集成了基于位置信息抽取、基 于本体的信息抽取和包装器能修复的特性的信息抽 取系统。它能在学习领域知识和网页结构的基础__ 卜定位感兴趣的数据,能自动地生成一个包装器, 能探测到网页结构的变化,然后能在了解变化的基 础上获取想要的信息。
三、信息抽取的应用
信息抽取的信息搜集
使用信息抽取技术,按照预设的领域,对网页 等信息进行抽取,并自动组织成具有相关性的 整体数据,这些数据在保存到数据库后就可以 形成所预设领域的比较全面的信息。例如跨语 言的信息抽取系统TREE。如两种应用于分子生 物学的信息抽取系统:EMPathIE和PASTA, 分别从生物学期刊中抽取有关酶、新陈代谢方 式和蛋白质结构的信息。
Lixto系统
Lixto系统能生成包装器将html转换为xml格式,通 过提供完全可视和交互的界面,利用侧向外延生长 法,半自动地帮助用户产生包装器。它提供两种基 本的数据抽取规则,字符抽取和信息树抽取。
郑彦宁,邓擘.信息抽取技术在情报学中的应用分析. 情报理论与实践,2008(5):769-772
信息抽取及其应用研究
一、信息抽取概述
信息抽取(Information Extraction: IE)是指 从一段文本中抽取指定的一类信息(例如事件、 事实),井将其形成结构化的表示形式(比如数 据库等),以供用户查询使用的过程。 它是把文本里包含的信息进行结构化处理,变 成表格一样的组织形式。输入信息抽取系统的 是原始文本,输出的是固定格式的信息点。信 息点从各种各样的文档中被抽取出来,然后以 统一的形式集成在一起。
信息抽取技术
事件模板构造技术
在对具体领域内事件或事实进行抽取时,主要根据 事件的组成要素来定义事件描述模板(Event Description Template)。事件描述模板是一个对事件 的要素进行综合概括的有组织的表达结构,它描述 了需要抽取的概念及其相互关系,这些概念与关系 能够完整地描述事件。例如在公司发布新产品事件 中,它一般需要包括公司名、产品名、发布时问、 产品性能等一些事件要素。
研究内容
Web信息抽取原理与方法
基于本体的信息抽取 基于位置的信息抽取
Web信息抽取模型
基于归纳学习的信息抽取 基于ontology的信息抽取 基于HMM(隐马尔可夫模型)的信息抽取
研究内容(续)
Web信息抽取技术
模糊字符匹配技术 信息树技术 二相取样技术
http://wwwnlpir.nist.gov/reபைடு நூலகம்ated_projects/muc/
http://gate.ac.uk/
http://gate.ac.uk/download/index.html
邓尚民,孙玉伟.国内外信息抽取研究的义献计量分析.图书 情报工作,2006(12):92-94,108
信息抽取技术
实体关系识别技术 实体关系识别技术是识别句子中出现的成对实体间 的关系。例如当句子中出现一个人名和一个组织实 体名称时,那么这个人与组织之间是何种关系需要 辨别;当出现机构名称和地名时,这两者之间又具有 何种关系;如果出现两个人名时,这两人之间具有何 种社会关系等。
在ACE评测中,对这些关系进行了归纳,把所有关系划 分为角色关系、部分与整体的关系、位置关系、方位关 系和社会关系这5个基本类型。 在实体关系识别方面也有两种技术路线,一种是使用规 则的方法,主要是基于模式匹配技术;另一种是统计的方 法,主要基于机器学习的技术。
Web信息抽取的中心—包装器
Web信息抽取工作主要由包装器(Wrapper)来完 成。 包装器是一种软件过程,这个过程使用已经定义 好的信息抽取规则,将网络爬虫搜集到的Web页 面的信息数据抽取出来,转换为用特定的格式描 述的信息。 一个包装器被认为是一个程序或是理解某一具体 信息源的一种规则,并把信息转化为较为规则的 格式,如XML或关系表格。包装器是特定的对 某一个给定的网站,紧密地与抽取的网页结构和 标记语言相联系的。包装器最具挑战性的方面就 是能从许多不相关的文本中识别所要抽取的信息。
二、Web信息抽取
Web信息抽取就是从Web页面所包含的无结构或半结构的 信息中识别用户感兴趣的数据,并将其转化为结构和 语义更为清晰的格式(XML、关系数据、面向对象的数 据等)。 整个抽取过程的工作过程主要包括了如下几个步骤: ①将Web网页进行预处理。 ②用一组信息模式描述所需要抽取的信息。 ③对文本进行合理的词法、句法及语义分析。 ④使用模式匹配方法识别指定的信息模式的各个部分。 ⑤进行上下文分析和推理,确定信息的最终形式。 ⑥将结果输出成结构化的描述形式以便由网络集成系统 进行查询分析。
http://paper.people.com.cn/rmrb/html/200911/09/node_1922.htm
MUC和ACE
消息理解系列会议(Message Understanding conference, MUC)和自动内容抽取评测会议 ( Automatic Content Extraction, ACE)对推动信息 抽取技术的发展起到重要作用。 MUC由美国海 军情报部门提出举行,主要目的也是处理大量 海军军事情报,从1987年开始到1998年,MUC 会议共举行了七届。ACE是由美国国家标准技 术研究所( NIST)组织召开,该会议2001年5月首 次举办,到2007年已经举办7次会议。
Web信息抽取的评价
信息抽取结果的评价 信息抽取系统的性能评价(信息抽取任务的难 易程度、系统所使用的技术、系统的自动程度)
应用实例
Amorphic系统 Amorphic系统是一个集成了基于位置信息抽取、基 于本体的信息抽取和包装器能修复的特性的信息抽 取系统。它能在学习领域知识和网页结构的基础__ 卜定位感兴趣的数据,能自动地生成一个包装器, 能探测到网页结构的变化,然后能在了解变化的基 础上获取想要的信息。
三、信息抽取的应用
信息抽取的信息搜集
使用信息抽取技术,按照预设的领域,对网页 等信息进行抽取,并自动组织成具有相关性的 整体数据,这些数据在保存到数据库后就可以 形成所预设领域的比较全面的信息。例如跨语 言的信息抽取系统TREE。如两种应用于分子生 物学的信息抽取系统:EMPathIE和PASTA, 分别从生物学期刊中抽取有关酶、新陈代谢方 式和蛋白质结构的信息。
Lixto系统
Lixto系统能生成包装器将html转换为xml格式,通 过提供完全可视和交互的界面,利用侧向外延生长 法,半自动地帮助用户产生包装器。它提供两种基 本的数据抽取规则,字符抽取和信息树抽取。
郑彦宁,邓擘.信息抽取技术在情报学中的应用分析. 情报理论与实践,2008(5):769-772
信息抽取及其应用研究
一、信息抽取概述
信息抽取(Information Extraction: IE)是指 从一段文本中抽取指定的一类信息(例如事件、 事实),井将其形成结构化的表示形式(比如数 据库等),以供用户查询使用的过程。 它是把文本里包含的信息进行结构化处理,变 成表格一样的组织形式。输入信息抽取系统的 是原始文本,输出的是固定格式的信息点。信 息点从各种各样的文档中被抽取出来,然后以 统一的形式集成在一起。
信息抽取技术
事件模板构造技术
在对具体领域内事件或事实进行抽取时,主要根据 事件的组成要素来定义事件描述模板(Event Description Template)。事件描述模板是一个对事件 的要素进行综合概括的有组织的表达结构,它描述 了需要抽取的概念及其相互关系,这些概念与关系 能够完整地描述事件。例如在公司发布新产品事件 中,它一般需要包括公司名、产品名、发布时问、 产品性能等一些事件要素。
研究内容
Web信息抽取原理与方法
基于本体的信息抽取 基于位置的信息抽取
Web信息抽取模型
基于归纳学习的信息抽取 基于ontology的信息抽取 基于HMM(隐马尔可夫模型)的信息抽取
研究内容(续)
Web信息抽取技术
模糊字符匹配技术 信息树技术 二相取样技术