本体构建综述

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

本体的构建方法
大连理工
仇鹏
1.一些概念
•本体(ontology)这一概念源自哲学,用于表示客观的存在。

信息科学中的本体概念主要是用来描述所研究领域的背景知识。

•本体的定义众说纷纭,比较有代表性的定义是:本体是共享概念模型的明确的、形式化的规范描述。

•我们可以将本体简单形式化为O=<C,R>,其中C=Concept,R=Relationship。

•本体的结构表示为一5元组{C,R,H R,Rel,A}
•本体被用于构造一人与人、人与机能共同理解的知识背景,在人与人、人与机交流中起到桥梁作用。

2.本体的构造方法
•人工方法;由领域专家借助工具(如protege)完成本体构建,已有许多成功例子,如Cyc
•半自动方法;通过大量领域数据,在专家的协助下完成本体构建
•自动方法;完全靠大量的领域数据,运用数据挖掘、人工智能等方法自动构建本体,准确率不高。

2.本体构建方法
相比之下,人工构建本体有较成功的案例,但构造代价大,且构造的本体缺乏灵活性难以适应外界变化。

而完全自动的由机器构造本体,准确性不高,且受训练数据影响较大,实施有一定难度。

半自动构建已有不少学者提出了可行的方案。

3.本体构建主要解决的问题
•概念的提取
•关系的提取,包括层次关系、一般非层次关系的提取
•公理的提取
4.基于字典构造方法•字典是预先做好的,形式化表示词的词性、词义以及词之间关系的一种工具。

•字典是一个基础的通用本体
•一些字典
英文WordNet
中文HowNet 知网
CKIP (台湾)
4.基于字典构造方法
利用概念与关系提取分词技术从文档中抽词,利用字典对词的词性标注去除虚词,保留实词并按性质分类标注。

如“电脑”标“Nab”, “软件”标“Nac”
在字典中标注就构成了一种层次关系,这一关系可以利用到词的聚类和词的关系分析中去。

4.基于字典构造方法
预先定义好不同词在句中的角色,如“天空”、“北京”等其角色即为概念,“位置”、
“香气”
等角色即可以为概念也可以为属性。

对于动词如“说话”、“睡觉”等角色为“操作”,“等于”、“击
败”等角色为“关联”等等。

根据这些角色定义可以
区分出文本中词语在本体中所处的位置,以及它们之间的关系。

这些角色定义往往需要根据具体的领域常识由领域专家来完成。

5.基于FCA的构造方法
形式语言分析(Formal Concept Analysis, FCA)
•形式背景:K:=(G,M,I),G的元素称为对象,M的元素成为属性,I为G与M间的关系
•形式背景中的一个形式概念是一个对(A,B)其中A<G,B<M,而B是A中全体对象所共有的属性,A是具有B中所有属性的对象集合。

•A,B分别称为形式概念的外延(extent)和内涵(intent)
5.基于FCA的构造法
•在本体中应用FCA将文档集作为形式背景中的G,文档中抽取的关键词作为M。

概念即是一个拥有共同关键词的最大文档集。

•形式概念存在层次关系,可以用来描述本体概念间的层次关系
•同时考虑词的相似性和文档的相似性可以更全面的分析概念间的非层次关系
5.基于FCA的构造方法
形式语言分析(Formal Concept Analysis, FCA)
•形式背景:K:=(G,M,I),G的元素称为对象,M的元素成为属性,I为G与M间的关系
•形式背景中的一个形式概念是一个对(A,B)其中A<G,B<M,而B是A中全体对象所共有的属性,A是具有B中所有属性的对象集合。

•A,B分别称为形式概念的外延(extent)和内涵(intent)
6.基于聚类的构造方式•层次聚类表示概念
聚类生成的簇,可以作为概念的单位来表示不同级别的概念,选出一个词作为此概念的名称。

文献中提到了用于主体搜索的Roccchio 算法。

但聚类需要元素之间的相似性度量,这往往是由原始本体或字典提供因此聚类法往往与字典法结合使用
6.基于聚类的构造方式
•层次聚类表示关系
聚类可以分为层次聚类和划分聚类。

层次聚类是动态聚类方法,聚类结果并不唯一,往往是形成一个从最多每个元素各为一簇到所有元素聚成一簇的聚类层次图,可以利用这一特性来表示本体中概念的层次关系。

公理的抽取
对公理的抽取,尤其是非结构化数据中公理的抽取,研究成果比较少,在这里不作讨论。

本体构建的其他方法
•除了上述三种方法以外,本体的构造方法还有基于关联规则的构建方法、基于知识库的构建方法等。

•各种方法各有利弊,大多数情况下都是多种方法结合使用,以达到预期效果。

相关文档
最新文档