中文信息抽取第七章
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• 2、 Artequakt系统
Artequakt项目利用一个基于 Ontology的知识抽 取工具来实现连续的知识支持和引导信息抽取。 这个抽取工具能够捜索在线文档, 并且把其中符 合事先定义好的结构的知识抽取出来。它利用一 种机器能够理解的格式来提供知识,并且这种知识 库中的知识能够自动地维护完善 。
知网是面向计算机的,要反映的是概念的共性和个 性。 “医生”和“患者”——》人 “医生”的个性是他是“医治· 的施事,而“患者”的 个性是他是“患病”的经验者
• 知网描述了下列16种关系
(1)上下位关系,如交通工具→车→汽车。 (2)同义关系 (3)反义关系 (4)对义关系(同级) (5)部件一整体关系(%) (6)属性一宿主关系(&) (7)材料一成品关系(?) (8)施事/经验者/关系主体一事件关系(*) (9)受事/内容/领属物等一事件关系($) (1o)工具一事件关系(*) (11)场所一事件关系(@) (12)时间一事件关系(@) (13)值一属性关系 (14)实体一值关系 (15)事件一角色关系 (16)相关关系(#)
• 7.3.2 义原(?????????????) 1、义原的抽取
义原是最基本的、不易于再分割的意义的最小 单位。我们设想应该有一个有限的义原集合,其中 的义原组合成一个无限的概念集合。如果我们能够 把握这一有限的义原集合,并利用它来描述概念之 间的关系以及属性及属性之间的关系,就有可能建 立设想的知识系统。
• (1)部件。每一个事物都可能是另外一个事物的部 件,同时每一个事物也一可能是另外一个事物的整 体 • 门、窗——》建筑物——》社区 • 手、脚——》人——》家庭、社会 • (2)属性。 任何一个事物都一定包含着多种属性, 事物之间的异或同是由属性决定的,没有了属性就 没有了事物
• 3.知网的特色
• 2.知网假设
知网假设世界上一切事物 (物质的和精神的) 都 在特定的时间和空间内不停地运动和变化。它们通 常是从一种状态变化到另一种状态,并通常由其属性 值的改变来体现 。 例如:人的生、老、病、死是一生的主要状态 根据假设,知网的运算和描述的基本单位是:万物,其 中包括物质的和精神的两类,有部件、属性、时间、 空间、属性值以及事件。
• 7.2.2 本体建模
本体包含有五个最基本的建摸基元:类、关系、函 数、公理和实例 1、类/概念:从语义上讲, 类是具有相同性质实例的 集合, 它描述了领域中的不同概念 2、关系:领域中概念的相互作用。 Part-of: P(car,wheel) kind-of: K(wheel,front-wheel) attrbute-of: A(car,color) instance-of : I(car,Lincoln)
• 说明:其中$的意义是: $是 target这个动态角色的演 员,代表被夸奖(praise|夸奖)的对象。
• 7.3.4 基于知网的中文情息结构抽取研究 1. 中文信息结构模式与结构语言模型
知网中文信息结构库给出了271 个信息结构模式, 每个模式通过动态角色(相当于关系)将知网知识库中 定文的概念联系起来,着重描述中文构词方面的结构 化特征。 信息结构模式:“走私集团”语法:定中结构 语 义: “行为动作”和“施事”
第7章 基于认知模型的信息抽取
• • • • • 7.1 7.2 7.3 7.4 7.5 原理 基于本体的信息抽取 基于知网的信息抽取 基于HNC理论的信息抽取 基于混合模型的信息抽取
7.1 原理
• 认知科学是一门研究智能系统的内部结 构、 功能和工作原理的科学, 用信息加工的 观点来研究认知结构和认知过程 。
7.2基于本体的信息抽取
• 7.2.1 本体的概念 本体是用于描述或表达某一领域知识的 一组概念或术语。
• 本体的分类:
(1)领域本体 (2)问题求解模型:以问题的求解方法为描述对象 的本体 (3)表示本体:以知识表示语言为描述对象的本体
• 本体的作用:
(1)本体的重用特性,可避免重复的领域知识 (2) 统一的术语和概念使知识共享成为可能
• 结构图
• 介绍几个应用系统: 1、KEUOA 系统
包含(1)基于Ontology的构建组件,允许用户浏览 并构建相关的零散信息 (2)学习组件,用来从示例中学习信息规则,还有 一个信息抽取控件用来抽取实体之间的关系 四个步骤: 浏览、 标注、学习和信息抽取
(1)浏览:用户可以选择任意的浏览器
• 2、义原的确定
(1)在扩大标注中观察该义原的覆盖面。已有的义 原一定要能够描述全部的概念。 (2)观察某一个义原在概念之间关系中的地位。如 果一个义原在概念中出现或者不同类别的概念中出 现, 那么, 这样的义原就是稳定的义原,是一个必需 确定的义原。 • 以事件类“医治”这个义原为例,它不仅出现在 “医”“治”、“治疗”、“医疗”、“治病”、 “求医”、“看病”等概念中,并且还出现在“医 生”、“医院”、“医药”、“诊所”、“不治 之症”、“有病乱投医”。因此,“医治”这个义 原是稳定的、 是必需确定的。
• 本体实例:
• 7.2.4 基于本体的信息抽取逻辑结构
(1)在领域专家的帮助下,建立和美.e更域的本体。 (2) 收集信息源中的数据, 并参照已建立的本体, 把收 集来的数据按规定的格式存储在元数据库中。 (3)查询转换器按照本体把查询请求转换成规定格式, 从元数据库中匹配出符合条件的数据集合。 (4)检索的结果经过定制处理后,返回给用户
• 方法:对大约6000个汉字进行考察和分析来抽取这 个有限的义原集合。以事件类为例,在中文中具 有事件义原的汉字(单纯词)中我们曾抽取3200 个义原。试以下面为例得到的9个义原,但其中有 两对是重复应予合并。 • 治:医治、管理、处罚…… • 处:处在、处罚、处理……. • 理:处理、整理、理睬……. • 今天有800多个事件义原的标注集以及由他们标注 的中文的事件概念。
• 由此可见, 对句子中蕴涵丰富信息的信息结构的识 别和抽取能引入比单纯统计的句法分析更多、更 细化的信息。从另一个角度看,信息结构 的先行识 别可以增强整个句法分析系统的稳健性, 提高分析 正确率。 • 知网中文信息结构强调对构词规律的体现,将构 词知识“教”给计算机,识别未登录词。
• 结构语言模型:
• 在建设大规模语料库时,标注集的规模不可能描述 得过细,因而特别关注对结构语言模型加以补充。 • 以句子“我买了一件圆领衫”为例,假定通过结构 语言模型统计的句法分析,能够输出如下的语义依 存树
• “买”是句子的中心动词,“买”的施事是 “我”,“买”到的东西是“一件”“圆领衫”。 对句子进行中文信息结构抽取,可以识别出“圆领 衫”是一 个中文信息结构,对应模式:(属性值) &修 饰‘* ++(部件), *++&整体’(物质) 。 该模式表 达出的信息是: 模式中第二部分是第三部分的部件, 第一 部分对第三部分的这个部件进行属性值描述 。 根据信息结构提供的信息,可以得出:买”的“衫” 的ຫໍສະໝຸດ Baidu领”是“圆”的。
• 3、 OFEE 系统
• OFEE是一个基于 Ontology的汉语新闻摘要的模糊 事件抽取代理系统 • OFEE代理包含三个子代理:信息检索代理(RA)、 文件处理代理(DPA)和模糊推断代理(FIA) • 首先RA自动获取电子新闻并存储到电子新闻知识 库同时,它也把电子新闻发送给 DPA 和 SA;然后再 DPA中进行分词和中文术语的抽取;最后FIA利用 中文术语集和中文电子新闻Ontology推导出用于 抽取电子新闻的事件 Ontology
• 7. 3. 3 概念表示 1.特定标识符
• 知识词典是知网系统的基础文件 。 在这个文件中 每一个词语的概念及其描述形成一个记录。每一 条记录都主要包含四项内容。其中每一项都由两 部分组成,中间以“=”分隔。每一个“=”的左侧 是数据的域名,右侧是数据的值。它们排列如下:
W_C/E=词语 E_C/E=词语例子 G_C/E=词语词性 DEF=概念定义 其中, C表示中文, E表示英文。 W_C=打 G_C-=V E_C=~酱油, ~张票, ~饭,去~瓶酒,醋~来了 W_ E= buy G_E=V E_E= DEF={ buy|买}
• 说明:在这里义原1为“tool|用具”,是一个实体类 的概念。义原2为“dig|挖掘”, 是一个事件类的 概念。 为了说明该实体与该事件之间的关系,运用 ~来代替义原1,从而说明义原2的工具(lnstrument) 是义原1。
• (2)?,利用?进行描述的模式是: DEF= {义原1:动态 角色= {?}} 。这种描述方式表示在某一语义环 境中,? 所充当的动态角色的演员是一定会出现 的,但是在这个孤立的概念中它并没有被体现 出来。其中义原1 一定是事件类义原。 W_C=属于 G_C=V E_C= W_E=belongto G_E=V E_E= DEF= {BelongTo|属于: possessor= {?}}
7. 3 基于知网的信息抽取
•
知网(英文名称为 HowNet)是一个以汉语和英 语的词语所代表的概念为描述对象, 以揭示概念与 概念之间以及概念所具有的属性之间的关系为基 本内容的常识知识库。 知网是一个知识系统,而不 是一部语义词典。
• 7.3.1 引言 1.问题的提出
( 1) 自然语言处理系统最终需要更强大的知识库的支 持。 (2)知识是一个系统,是一个包含着各种概念与概念之 问的关系,以及概念的属性与属性之间的关系的系统 (3 ) 建立知识库首先建立一种可以被称为知识系统的 常识性知识库 (本体) , 它以通用的概念为描述对象, 建立并描述这些概念之间的关系。
• Direct_Contain(x,y) 满足:
• Contain(x,y) 满足:
• 关系的交、并、差
• 3、函数
用该关系的前n-1个元素(属性)可以唯一确定第n 个元素。
• 4、公理
公理是公认的事实或推理规则, 是用来知识推理的
• 5、实例
唐太宗和李世民所表示的是同一个人
• 7.2.3 本体描述
• 2.几种特珠的指示符号
• (1)利用~进行描述的模式是: {义原1: {义原2:动 态角色或特征= (~}}}, • W_C=控掘机 • G_C=N • E_C= • W_E=excavator • G_E= N • E-E= • DEF= {tool|用具: {dig|挖掘: instrument= {~})}
• 说明:自然语言对于“属于”这个概念的描述是:为 某一方面所有。从它的自然语言描述中可以发现, 其中的“某一方面”在“属于”这个事件所出現 的语义环境中是一定会出现的,即“属于”这个概 念的 possessor是一定会出现的。
• (3) $。利用义原 $进行描述的模式是: DEF= {义原1: 动态角色{$}} • $用来充当某一个动态角色的演员。其中动态角色 = { $}表示这个概念所描述的对象是什么。义原1 一定是事件类义原。 • W_C=值得称赞 • G_ C=ADJ • E_C= • W_E=1audable G_E- Mj • E_E• DEF= {able|能: scope= {praise|夸奖: target= {$}}}
• Artequakt的体系结构包括三个主要模块:
• ①知识抽取工具从句子或者段落中搜集信息条目, 从网络文程当中手工挑选或者通过适当的搜索引 撃技术自动获得 • ②Ontology服务器存储和强化了信息,使得传记生 成工具能够使用推理引擎来査询 KB知识库。 • ③Artequakt服务器能够通过简单的网络界面把用 户需求产生成描述。
(2)标注:语义的标注指的是使用事先在 Onto1ogy上 定义的标注集来标注文本 (3)学习:这个阶段使用标注的文本作为训练集,然后 从中学习关系
(4)信息抽取:信息抽取(IE)系统的目的是从文本中抽 取专门的(指定的)信息
这个系统主要的工作是在于把模板驱动的信息 抽取的引擎和一个 ontology 的引擊集成起来用来支 持必要的语义内容并消除抽取信息的二义性 (包括除 了如WordNet等字典以外的推理能力) 。