中文信息抽取第七章

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

• 2、 Artequakt系统
Artequakt项目利用一个基于 Ontology的知识抽取工具来实现连续的知识支持和引导信息抽取。这个抽取工具能够捜索在线文档, 并且把其中符合事先定义好的结构的知识抽取出来。它利用一种机器能够理解的格式来提供知识,并且这种知识库中的知识能够自动地维护完善。
知网是面向计算机的，要反映的是概念的共性和个性。 “医生”和“患者”——》人 “医生”的个性是他是“医治· 的施事,而“患者”的个性是他是“患病”的经验者
• 知网描述了下列16种关系
(1)上下位关系,如交通工具→车→汽车。 (2)同义关系 (3)反义关系 (4)对义关系（同级） (5)部件一整体关系（%） (6)属性一宿主关系（&） (7)材料一成品关系(?) (8)施事/经验者/关系主体一事件关系(*) (9)受事/内容/领属物等一事件关系($) (1o)工具一事件关系(*) (11)场所一事件关系(@) (12)时间一事件关系(@) (13)值一属性关系 (14)实体一值关系 (15)事件一角色关系 (16)相关关系(#)
• 7.3.2 义原（？？？？？？？？？？？？？） 1、义原的抽取
义原是最基本的、不易于再分割的意义的最小单位。我们设想应该有一个有限的义原集合，其中的义原组合成一个无限的概念集合。如果我们能够把握这一有限的义原集合，并利用它来描述概念之间的关系以及属性及属性之间的关系，就有可能建立设想的知识系统。
• (1)部件。每一个事物都可能是另外一个事物的部件,同时每一个事物也一可能是另外一个事物的整体 • 门、窗——》建筑物——》社区 • 手、脚——》人——》家庭、社会 • (2)属性。任何一个事物都一定包含着多种属性, 事物之间的异或同是由属性决定的,没有了属性就没有了事物
• 3.知网的特色
• 2.知网假设
知网假设世界上一切事物 (物质的和精神的) 都在特定的时间和空间内不停地运动和变化。它们通常是从一种状态变化到另一种状态,并通常由其属性值的改变来体现。例如：人的生、老、病、死是一生的主要状态根据假设,知网的运算和描述的基本单位是:万物,其中包括物质的和精神的两类,有部件、属性、时间、空间、属性值以及事件。
• 7.2.2 本体建模
本体包含有五个最基本的建摸基元：类、关系、函数、公理和实例 1、类/概念：从语义上讲, 类是具有相同性质实例的集合, 它描述了领域中的不同概念 2、关系：领域中概念的相互作用。 Part-of: P(car,wheel) kind-of: K(wheel,front-wheel) attrbute-of: A(car,color) instance-of : I(car,Lincoln)
• 说明:其中$的意义是: $是 target这个动态角色的演员,代表被夸奖(praise|夸奖)的对象。
• 7.3.4 基于知网的中文情息结构抽取研究 1. 中文信息结构模式与结构语言模型
知网中文信息结构库给出了271 个信息结构模式, 每个模式通过动态角色(相当于关系)将知网知识库中定文的概念联系起来,着重描述中文构词方面的结构化特征。信息结构模式：“走私集团”语法：定中结构语义： “行为动作”和“施事”
第7章基于认知模型的信息抽取
• • • • • 7.1 7.2 7.3 7.4 7.5 原理基于本体的信息抽取基于知网的信息抽取基于HNC理论的信息抽取基于混合模型的信息抽取
7.1 原理
• 认知科学是一门研究智能系统的内部结构、功能和工作原理的科学, 用信息加工的观点来研究认知结构和认知过程。
7.2基于本体的信息抽取
• 7.2.1 本体的概念本体是用于描述或表达某一领域知识的一组概念或术语。
• 本体的分类：
（1）领域本体（2）问题求解模型：以问题的求解方法为描述对象的本体（3）表示本体：以知识表示语言为描述对象的本体
• 本体的作用：
(1)本体的重用特性,可避免重复的领域知识 (2) 统一的术语和概念使知识共享成为可能
• 结构图
• 介绍几个应用系统： 1、KEUOA 系统
包含（1）基于Ontology的构建组件，允许用户浏览并构建相关的零散信息（2）学习组件，用来从示例中学习信息规则,还有一个信息抽取控件用来抽取实体之间的关系四个步骤: 浏览、标注、学习和信息抽取
(1)浏览：用户可以选择任意的浏览器
• 2、义原的确定
（1）在扩大标注中观察该义原的覆盖面。已有的义原一定要能够描述全部的概念。（2）观察某一个义原在概念之间关系中的地位。如果一个义原在概念中出现或者不同类别的概念中出现, 那么, 这样的义原就是稳定的义原，是一个必需确定的义原。 • 以事件类“医治”这个义原为例,它不仅出现在 “医”“治”、“治疗”、“医疗”、“治病”、 “求医”、“看病”等概念中,并且还出现在“医生”、“医院”、“医药”、“诊所”、“不治之症”、“有病乱投医”。因此,“医治”这个义原是稳定的、是必需确定的。
• 本体实例：
• 7.2.4 基于本体的信息抽取逻辑结构
(1)在领域专家的帮助下,建立和美.e更域的本体。 (2) 收集信息源中的数据, 并参照已建立的本体, 把收集来的数据按规定的格式存储在元数据库中。 (3)查询转换器按照本体把查询请求转换成规定格式，从元数据库中匹配出符合条件的数据集合。 (4)检索的结果经过定制处理后，返回给用户
• 方法:对大约6000个汉字进行考察和分析来抽取这个有限的义原集合。以事件类为例，在中文中具有事件义原的汉字（单纯词）中我们曾抽取3200 个义原。试以下面为例得到的9个义原，但其中有两对是重复应予合并。 • 治：医治、管理、处罚…… • 处：处在、处罚、处理……. • 理：处理、整理、理睬……. • 今天有800多个事件义原的标注集以及由他们标注的中文的事件概念。
• 由此可见, 对句子中蕴涵丰富信息的信息结构的识别和抽取能引入比单纯统计的句法分析更多、更细化的信息。从另一个角度看,信息结构的先行识别可以增强整个句法分析系统的稳健性, 提高分析正确率。 • 知网中文信息结构强调对构词规律的体现，将构词知识“教”给计算机，识别未登录词。
• 结构语言模型：
• 在建设大规模语料库时,标注集的规模不可能描述得过细，因而特别关注对结构语言模型加以补充。 • 以句子“我买了一件圆领衫”为例,假定通过结构语言模型统计的句法分析,能够输出如下的语义依存树
• “买”是句子的中心动词,“买”的施事是 “我”,“买”到的东西是“一件”“圆领衫”。对句子进行中文信息结构抽取,可以识别出“圆领衫”是一个中文信息结构,对应模式:(属性值) &修饰‘* ++(部件)， *++&整体’(物质) 。该模式表达出的信息是: 模式中第二部分是第三部分的部件, 第一部分对第三部分的这个部件进行属性值描述。根据信息结构提供的信息,可以得出:买”的“衫” 的ຫໍສະໝຸດ Baidu领”是“圆”的。
• 3、 OFEE 系统
• OFEE是一个基于 Ontology的汉语新闻摘要的模糊事件抽取代理系统 • OFEE代理包含三个子代理：信息检索代理(RA)、文件处理代理(DPA)和模糊推断代理(FIA) • 首先RA自动获取电子新闻并存储到电子新闻知识库同时,它也把电子新闻发送给 DPA 和 SA；然后再 DPA中进行分词和中文术语的抽取；最后FIA利用中文术语集和中文电子新闻Ontology推导出用于抽取电子新闻的事件 Ontology
• 7. 3. 3 概念表示 1.特定标识符
• 知识词典是知网系统的基础文件。在这个文件中每一个词语的概念及其描述形成一个记录。每一条记录都主要包含四项内容。其中每一项都由两部分组成,中间以“=”分隔。每一个“=”的左侧是数据的域名,右侧是数据的值。它们排列如下:
W_C/E=词语 E_C/E=词语例子 G_C/E=词语词性 DEF=概念定义其中, C表示中文, E表示英文。 W_C=打 G_C-=V E_C=~酱油, ~张票, ~饭,去~瓶酒,醋~来了 W_ E= buy G_E=V E_E= DEF={ buy|买}
• 说明:在这里义原1为“tool|用具”,是一个实体类的概念。义原2为“dig|挖掘”, 是一个事件类的概念。为了说明该实体与该事件之间的关系,运用 ~来代替义原1,从而说明义原2的工具(lnstrument) 是义原1。
• (2)?,利用?进行描述的模式是: DEF= {义原1:动态角色= {?}} 。这种描述方式表示在某一语义环境中,? 所充当的动态角色的演员是一定会出现的,但是在这个孤立的概念中它并没有被体现出来。其中义原1 一定是事件类义原。 W_C=属于 G_C=V E_C= W_E=belongto G_E=V E_E= DEF= {BelongTo|属于: possessor= {?}}
7. 3 基于知网的信息抽取
•
知网(英文名称为 HowNet)是一个以汉语和英语的词语所代表的概念为描述对象, 以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库。知网是一个知识系统,而不是一部语义词典。
• 7.3.1 引言 1.问题的提出
( 1) 自然语言处理系统最终需要更强大的知识库的支持。 (2)知识是一个系统,是一个包含着各种概念与概念之问的关系,以及概念的属性与属性之间的关系的系统 (3 ) 建立知识库首先建立一种可以被称为知识系统的常识性知识库 (本体) , 它以通用的概念为描述对象, 建立并描述这些概念之间的关系。
• Direct_Contain(x,y) 满足：
• Contain(x,y) 满足：
• 关系的交、并、差
• 3、函数
用该关系的前n-1个元素（属性）可以唯一确定第n 个元素。
• 4、公理
公理是公认的事实或推理规则, 是用来知识推理的
• 5、实例
唐太宗和李世民所表示的是同一个人
• 7.2.3 本体描述
• 2.几种特珠的指示符号
• （1）利用~进行描述的模式是: {义原1: {义原2:动态角色或特征= (~}}}, • W_C=控掘机 • G_C=N • E_C= • W_E=excavator • G_E= N • E-E= • DEF= {tool|用具: {dig|挖掘: instrument= {~})}
• 说明:自然语言对于“属于”这个概念的描述是:为某一方面所有。从它的自然语言描述中可以发现, 其中的“某一方面”在“属于”这个事件所出現的语义环境中是一定会出现的,即“属于”这个概念的 possessor是一定会出现的。
• (3) $。利用义原 $进行描述的模式是: DEF= {义原1: 动态角色{$}} • $用来充当某一个动态角色的演员。其中动态角色 = { $}表示这个概念所描述的对象是什么。义原1 一定是事件类义原。 • W_C=值得称赞 • G_ C=ADJ • E_C= • W_E=1audable G_E- Mj • E_E• DEF= {able|能: scope= {praise|夸奖: target= {$}}}
• Artequakt的体系结构包括三个主要模块:
• ①知识抽取工具从句子或者段落中搜集信息条目, 从网络文程当中手工挑选或者通过适当的搜索引撃技术自动获得 • ②Ontology服务器存储和强化了信息,使得传记生成工具能够使用推理引擎来査询 KB知识库。 • ③Artequakt服务器能够通过简单的网络界面把用户需求产生成描述。
(2)标注：语义的标注指的是使用事先在 Onto1ogy上定义的标注集来标注文本 (3)学习：这个阶段使用标注的文本作为训练集,然后从中学习关系
(4)信息抽取：信息抽取(IE)系统的目的是从文本中抽取专门的(指定的)信息
这个系统主要的工作是在于把模板驱动的信息抽取的引擎和一个 ontology 的引擊集成起来用来支持必要的语义内容并消除抽取信息的二义性 (包括除了如WordNet等字典以外的推理能力) 。