基于规则库的非结构化数据格式转换技术研究

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

pathindex Varchar2（500）描述文件所在路径 2．2 “规则的规则”之非结构化数据格式描述规则格式转换的前提就是数据，所以数据的描述是格式转换的基础。对于非结构化数据的研究，分成了 2 个结构：物理结果和逻辑结构。物理结构即真实的原始数据，而逻辑结构则是经过我们根据描述规则描述后的文件描述。在此，所有描述规则以及文件描述本身都采用基于 XML 语言的描述。首先，是对基本数据类型的描述规则，如表 2 所示。其他还有：编码方式的描述规则、文件属性的描述规则、域属性描述规则、记录属性描述规则、分支描述规则、除分支外的数据结构类型描述规则以及用户自定义描述规则等等。表 2 基本数据类型描述表 Table 2 The index table of thebasic data types 数据类型长度（字节）意义 boolean 8 布尔类型。0 表示真，1 表示假。byte 8 有符号字节，－128～127 int 16 有符号短整数，－32768～32767 long 32 有符号长整数，－2147483648～214748 ubyte 8 无符号字节，0～256 uint 16 无符号短整数，0～65535 ulong 32 无符号长整数，0～4294967295 float 32 单精度实数 double 64 双精度实数 string 字符串。364 2．3 “规则的规则”之格式转换描述规则有了非结构化数据格式描述，在根据该描述，转换数据时要考虑到编码、数据类型等各个方面的属性。以数字类型之间的格式转换为例，描述规则如下所示。
非结构化数据，这类信息无法用数字或者统一的结构表示，在实际应用中对这些非结构化文件信息的提取采取人工的方式，文件修改时也需在录入窗口人工更新信息，因而需耗费大量人力，并且不能保证数据库中信息与文件信息的同步［2］。对于非结构化数据的格式转换来说，不同的人都在根据自己制定的规则实现着这个功能，这样就导致出现了，对于同样两种数据之间，可能出现相同功能而有着不相同规则的格式转换。这是由于信息的闭塞而导致了人力、物力等各个方面的浪费。所以，本文采用了基于规则库来实现不同格式的非结构化数据的格式转换。通过对本课题的研究将统一的思想引入到数据格式转换当中。研究非结构化数据的定义、特点以及格式转换技术等等，并将规则库应用于格式转换过程的各个环节。设计出一种基于 XML 的数据描述规则，便于对非结构化数据进行格式以及格式转换的规则进行描述，从而实现非结构化数据格式转换的实质性统一。 1 基于规则库的非结构化数据转换的基本框架在非结构化数据的格式转换开始前，首先要初始化规则库：对非结构化数据格式的定义与分析、将该定义存储到规则库中、对格式转换规则的定义与分析、将该转换规则存储到规则库中、对已知类型的非结构化数据描述、将这些描述存储到规则库中、根据格式转换规则描述所需的数据的格式转换并存储到规则库中。对于一次非结构化数据格式转换的基本流程如下：提取原始数据与目标数据的格式描述，如果没有便根据非结构化数据定义生成描述并存储到规则库中；提取相应转换规则描述，如果没有便根据格式转换规则进行描述并存储到规则库中。具体框架见图 1。图 1 非结构化数据格式转换框架图 The frame of theunstructured data format coversion 2 关键技术 2．1 辅助技术的选择—XML XML 一种可扩展标记语言（Extensible Markup Language），可以用来标记数
【期刊名称】《云南师范大学学报（自然科学版）》
【年(卷),期】2012(032)002
【总页数】4 页(P58-61)
【关键词】资源共享;格式转换;非结构化数据;知识工程
【作者】冯亚丽;张汝坤
【作者单位】东北石油大学计算机与信息技术学院,黑龙江大庆 163318;东北石油大学计算机与信息技术学院,黑龙江大庆 163318
基于规则库的非结构化数据格式转换技术研究
冯亚丽;张汝坤
【摘要】In the unstructured data processing, the researching of resource sharing, often as the focus of researching. But now,most of the resource sharing technology researching, are limited to two kinds of data format conversion studies. When adding one kind of format of unstructured data, need to research the method of conversion for the two kinds of format of data. Just like do the same work. This article describes a general method for the format coversion of unstructured data, based on the rule base, to describe the unstructured data and the rule of format conversion, thus to achieve the unity of the format conversion of unstructured data, innovative points of this paper is to Formulate"rules of the rules" of the format coversion.%在非结构化数据的处理中,资源共享技术的研究,往往作为研究的重点. 而现在大多数的资源共享技术研究,都仅仅限于 2 种数据的格式转换研究.每当增加一种格式的非结构化数据时,又需要针对进行转换的两种数据进行格式转换方法的研究.相当于在做着重复的工作.因此介绍了一种通用的非结构化数据格式转换方法, 以规则库为基础,对非结构化数据进行格式描述,以及转换规则的描述,从而实现了非结构化数据格式转换的统一.创新点为制定格式转换“规则的规则”.
3 实现示例基于规则库的非结构化数据格式转换技术的研究方法已经应用于国家重大专项“大型煤气田开发”的子项目中。对于石油勘探领域，尤其是地震数据的提取以及研究起到了重要作用。在该项目的实现中，针对国际上通用的各种各样类型的石油勘探数据以及具有中海
油自主知识产权的石油勘探地震格式数据之间的信息交换的问题，将这些格式的数据根据描述规则描述这些种类的格式数据，并根据格式转换规则编写格式转换描述。大大减少了石油领域数据研究的工作与成本。 4 结束语就在 2012 年初，中国刚刚举行了非结构化数据的高峰知识论坛，来自国内的各专业人士以及权威人士等提出针对非结构化数据的研究观点与看法。非结构化数据相关知识的研究已经成为人们关注的重点。非基于规则库的非结构化数据格式转换不仅在实际中得到了应用，更是在知识共享研究范畴内的重中之重。该研究解决了数据信息交换繁琐的开发过程与相对昂贵的开发成本，大大提高的研究效率。但针对格式转换的正确率等还存在一些问题，需要进步研究。参考文献：
Байду номын сангаас
据、定义数据类型，是一种允许用户对自己的标记语言进行定义的源语言。XML 与其他数据表现形式最大的不同是：极其简单。使用户对数据有更清晰、更直观的理解。XML 是最优秀的数据交换格式之一。近年来，学术界和工业界对 XML 数据处理投入了很大的热情。为了有效地组织和管理 XML 数据，研究人员提出了不同的解决办法［3］。现在 XML 相关的研究技术已经相当成熟。基于以上优点，我们采用 XML 来对非结构化数据进行描述。但是，XML 是一种自定义标记语言，需要一定的规范来定义 XML 文档的元素、属性和数据类型，保证以 XML 格式表示的数据能进行交换和共享［4］。所以我们提出了规则库来规范这些元素、属性和数据类型等。基于 XML 的数据交换提供一个基于 XML 的文档接收、转换、转发和管理的集成框架，屏蔽数据格式的差异，为广泛实现数据信息交换提供支持［5］。 2．2 转换的根本—规则库、顾名思义，规则库即存储规则的库。所以，我们利用数据库的功能存储我们的规则。而对于存储的方式，主要以存储规则文件的索引为主，即所有规则的实现都是通过 XML 语言的描述来实现，一个 XML 文件对应一种数据的描述规则或者是一种格式转换的规则，让后将这些文件的索引以及表示的意义在数据库中体现出来。在此，我们主要需要建立 3 个表结构：规则描述文件索引表、非结构化数据格式描述文件索引表以及格式转换描述文件索引表。以非结构化数据格式描述文件所以表为例如表 1 所示。在此我们规则库的主要作用：主要用于存储“2 个规则，2 个描述”。 2 个规则：非结构化数据描述规则和非结构化数据格式转换规则；2 个描述：非结构化数据描述和非结构化数据格式转换描述。表 1 非结构化数据格式描述文件索引表 Table 1 The index table of the descriptive file of the unstructured data format 字段名称类型意义 ID Int （10）文件在数据库中的 ID 号 name Varchar2（50）数据类型名称
【正文语种】中文
【中图分类】TP311.13
在信息化发展飞速的今天，存在着的大量的数据信息，大多都是以非结构化的形式存储的，如何高效的获取这些知识与资源，已经成为人们研究的重点。而知识与资源共享的研究便成为了重中之重。但是现在绝大多数对于资源共享的研究都片面的停留在对少量种类数据的格式上，对于未知的、新增的数据格式是无法进行其存储信息的获取，只能再次针对该数据格式进行研究，重而往复的做着相同的工作。其不足，主要体现在以下几点：以往的研究的重点主要放在了资源信息交换实现的过程上，即实现了某两种或者某几种类型数据的转换，而没有从根本上去考虑所有知识共享这个问题。应用程序需要为每种文件格式开发专用的数据存取接口，这导致目前的数据文件存取模型过度地依赖于数据文件的存储格式［1］。假定有 A、B、C 三种类型数据，经过研究转格式 A 数据换成了格式 B 数据，使用 B 类型数据的人获取了 A 存储的知识，可是使用 C 类型数据的人依然无法获取 A 的知识。只能再开发一套系统或者软件用于 A 与 C 之间的格式转换。当然，也有人提出了一些统一的思想用于非结构化数据的格式转换，但这些思想又仅仅限于某一类数据。例如仅仅限于文档之间的格式转换等等，可我们的非结构化数据是包括各种类型的数据的。
【相关文献】
［1］贲福才．统一大块数据存取方法的研究［J］．大庆石油学院学报，2010．TP311．52．［2］韦琳．E－learning 非结构化数据管理系统的构建与实现［J］．中国科学技术大学学报， 2010 TP391．6．［3］郭志懋．XML 数据的查询、转换和集成［D］．上海：复旦大学 2005．TP311．13．［4］陆静平．基于 XML 的产品数据模式、存储及共享模型的研究［D］．重庆：重庆大学， 2003．［5］罗思群．基于 XML 的数据转换［D］．北京：中科院软件研究所，2001．