基于大数据的领域本体动态构建方法研究_以养生领域本体构建为例

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

— 136 —
·第 41 卷 2018 年第 1 期·
信息系统 欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟
和技术构建领域本体。模块化是协同知识开发环境的重要 技术,不仅可以降低设计和理解本体的复杂性,促进本体 的开发,而且还促进本体推理、 验证、 重用、 维护和集 成,改善处理性能。 2. 2 基于场景的领域本体构建 本文选择模块化本体设计方法,复用已有本体或非本 体 ( 如词典、叙词表、术语表、标题表、知识分类、 分类 框架等) 资源构建基本本体。基本本体构建借鉴 NeOn 本 体构建方法,根据实际需求确定本体应用场景 。 基本本体 反映了主要领域概念,以及概念之间的关系。 在分析领域本体需求的基础上,确定候选的知识资 源,然后重用这些知识资源,构建本体框架,添加概念、 属性、实例和公理等。具体构建过程如表 1 所示。 表1
[10 ] [9 ]
和提出了 STKOS 本体构

2
2. 1
基于大数据的领域本体构建方法
基于大数据的领域本体构建方法概述 现有领域本体构建方法更多的是重用和重构知识资源
构建本体,节省时间、人力和财政投入等,加快领域本体 构建速度,提高领域本体质量,达到知识共享的目的。 大 数据的特征 ( 数据量巨大、数据源和格式多样、数据价值 密度低、快速变化、数据不确定性) 为领域本体构建提出 了新的挑战,即已有领域本体,是否可以跟上日益增加的 特定领域的可用数据量和数据源数量,是否可以准确提取 有价值和有疑问的数据,是否可以满足不断更新的数据 ( 例如,新的数据产生新的知识,可能产生新的概念或其 他本体元素,或者概念等本体元素定义发生变化; 数据过 时或产生不正确的知识) 。 由于这些挑战,大数据特征影 响了领域本体的构建,因此,大数据场景中的领域本体构 建必须考虑到大数据的特征 。 本文尝试提出以更有效的方式构建领域本体,与相关 研究中的各种方法相比,考虑到知识资源复用和从大数据 获取知识,提出了基于大数据的领域本体构建方法 ( 见 图 1) 。
该方法包括的主要步骤是: ①通过已有知识资源的重 用构建基本领域本体; ②构建与每个大数据源相关联的本 体; ③动态构建给定这些本体之间对应的全局本体 。 利用 本体模块化技术,在重用已有知识资源构建的领域本体基 础上,根据特定应用程序和用户需求,动态组合从大数据 构建的本体,形成满足需求的全局本体 。这将使得构建的 领域本体反映具体领域更多更新的知识,满足大数据对领 域知识全面、精确地理解和获取的需求 。 本体开发的整个生命周期,本文选择本体模块化思想
1
相关研究
本文将研究集中于大数据具体应用领域的本体构建,
专注于特定领域的大数据的本体表示,并专注于解决大数 据场景中领域本体构建的最新方法 。 Kureichik 等[1] 认为本体已成为解决与大数据处理相 关的许多问题的代名词,提出了一种新的领域本体开发集 成算法。该算法结合了监督和无监督方法: 层次聚类和贝
图1 基于大数据的领域本体构建方法
9 个场景[8] ,每个场景由不同的进程或活动组成,知识由 不同组织的人员 ( 领域专家和本体构建人员) 在本体开 发过程的不同阶段进行引入,旨在通过构建本体支持大规 模语义应用。FAO 和 STKOS 项目组借鉴 Neon 本体构建方 法分别构建了渔业本体化网络 建方法
信息系统 欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟
DOI: 10. 16353 / j. cnki. 10007490. 2018. 01. 025
●付
苓 ( 首都图书馆,北京 100021 )
基于大数据的领域本体动态构建方法研究
— — — 以养生领域本体构建为例
from big data,this paper proposes a domain ontology construction method which follows the characteristics of big data. [ Method / process] Considering the reuse of knowledge resources and the acquisition of knowledge from big data,the paper proposes an ontology construction method based on big data, which provides an extensible solution for efficiently building domain ontology. Taking health preserving domain for an example,the paper expounds the application of the method in the ontology construction in big data scenarios. [ Result / conclusion] The proposed method can better express big data knowledge,manage large data efficiently,helps to extract valuable information from various sources,and provides the basis for the semantic application of domain ontology in big data scenarios. Keywords: big data; domain ontology; knowledge resources; ontology architecture; dynamic constraction; case study 目前,全球众多领域的数据爆炸性增长使大数据概念 成为现实,大量的数据每天以前所未有的速度从各种异质 数据源产生。在新形势下,大数据提供了许多有吸引力的 机会,然而,良好的机会总是伴随着挑战 。大数据挑战不 仅包括各种大量数据的存储和管理,还包括了从这些数据 中提取和分析有价值的信息 。需要开发大数据语义来更好 地管理这些数据,从大量结构化和非结构化数据集中提取 有价值的信息。本体为此提供了解决方案,因为本体是共 享概念的明确规范,本体以机器可读的方式 ( 例如使用 Web 本体语言 OWL ) 描述领域内概念、 关系、 数据属性 和限制,从而使数据 ( 非结构化、 半结构化 和 结 构 化) 对人类和机器都是可理解的 。本体不仅可以应付现实世界 的复杂性并适应其变化,而且可以轻松扩展及支持知识共 享和重用。 本体在大数据场景中非常重要,提供了广泛的应用

*
要: [ 目的 / 意义] 为了满足用户从大量数据中快速有效获取有价值信息的需求,提出一种遵循大数据特征的
领域本体构建方法。[ 方法 / 过程] 复用知识资源和从大数据获取知识相结合,提出了基于大数据的本体构建方法,为有 效地构建领域本体提供了一个可扩展的解决方案 。以养生领域为例,阐述提出的方法在构建大数据场景中养生领域本体 的应用。[ 结果 / 结论] 提出的方法可以更好地表示大数据知识,高效地管理大数据,有助于从各种数据源提取有价值的 信息,为特定领域本体在大数据场景中的语义应用提供基础 。 关键词: 大数据; 领域本体; 知识资源; 本体构建; 动态构建; 案例研究 Research on Dynamic Construction of Domain Ontology Based on Big Data: A Case Study of Health Preserving Domain Ontology Construction Abstract: [ Purpose / significance] In order to meet users ’demand of rapidly and efficiently obtaining valuable information
*
本文为国家社会科学基金重大项目 “面向大数据的单元信息组
织体系研究” 的成果之一,项目编号: 14ATQ003 。
百度文库
·第 41 卷 2018 年第 1 期·
— 135 —
情报理论与实践 ( ITA) 欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟
叶斯分类器。第一步是通过一组自然语言文本文档的层次 聚类来开发初始领域本体 。如果初始本体没有完成或需要 修改,就必须通过贝叶斯分类器修改初始本体 。 以 CAD 任务本体为例验证了领域本体开发集成方法的有效性 。 Jayapandian 等[2] 将领域本体作为大数据管理的概念 模型,使用 EpSO 领域本体支持神经病学领域的大数据的 最佳数据 分 区、 存 储、 高 效 网 络 传 输、 可 视 化 和 查 询。 EpSO 使用癫痫四维分类系统开发,重用了许多现有生物 医学本体的概念,并使用正式概念分析 ( FCA ) 自动创建 癫痫综合征分类。 Konys[3] 和 Jitkajornwanich 等[4] 提出了大数据分析中本 体构建方法。Konys 介绍了几种可选的基于本体的大数据 分析方法,包括将本体映射到数据库 、 OBDA 解决方案、 注释数据、与其他格式的转换等,这些方法用于处理大数 据的多样性。自动本体构建一般是从结构化和非结构化来 源中抽取知识,使用专用工具支持挖掘,解析数据从而自 动化构建本体,允许与其他本体合并和映射 。自动化本体 构建的 方 法 有 TERMINAE, SALT, OntoCase, TextOntoEx 等。 Jitkajornwanich 等提出了特定领域中利用本体和 EER 进行大数据分析的框架,框架分为 4 个组件,第一个组件 是在领域专家的协助下,将领域 ( 大数据来自领域) 特 定的概念形式化为本体,需要对大数据进行预处理,以便 删除多余部分。 Abbes 等[5] 、Jirkovsk 等[6] 和 Bansal 等[7] 提出了大数 据集成应用中本体构建方法 。 Abbes 等提出了一种基于模 块化本体的大数据集成方法,数据源为大数据,目标模式 为 OWL 本体。 此 方 法 包 括 3 个 步 骤: 将 数 据 源 封 装 到 MongoDB 数据库,生成局部本体,局部本体构建全局本 体。定义了从 MongoDB 结 构 映 射 到 OWL 本 体 的 转 换 规 则。Jirkovsk 等提出了工业自动化领域大数据语义异质性 降低的大数据集成方法 。 首先,预处理不同类型的数据 源,解决结构异质性问题。然后对预处理数据构建共享本 体解决语义异质性问题 。关键是理解给定的内容以及识别 所有数据 源 的 对 应 实 体 。 利 用 某 些 本 体 匹 配 系 统 ( 如 MAPSOM 等) 和正式概念分析 ( FCA) 用于此任务。 Bansal 等提 出 了 一 种 语 义 提 取—转 换—负 载 ( ETL ) 框 架, 可以有效地集成大数据 。 在 ETL 过程的转换阶段引入语 义技术,创建语义数据模型并生成要存储在数据集市或数 据仓库中的语义关联数据 ( RDF 三元组) 。 转化阶段人工 分析数据集、模式及其目的,基于这些发现,模式映射到 现有的领域特定本体,或从头创建本体。如果数据源属于 不同的领域,则需要对齐多个本体。 NeOn 提出了一种基于场景的本体构建方法,支持本 体开发过程不同方面,确定了协同构建本体和本体网络的
[1 ]
( 如大数据管理、 大数据处理、 大数据分析、 大数据集成 等) 。但基于大数据特征 ( 即规模、 多样性、 速度快、 真 实性和价值密度低) ,其实施面临新的挑战。 本体基本元 素 ( 概 念、 属 性、 实 例、 公 理 等) 的 内 容 和 构 建 方 法, 在已有的领域本体构建中已知 。大数据场景中构建领域本 体的挑战是如何处理大数据特征的复杂性 。 因此,考虑大 数据特征,提出遵循大数据特征的领域本体构建方法是非 常重要的。
相关文档
最新文档