企业内容管理软件的核心技术及应用方向
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
企业内容管理软件的核心技术及应用方向内容管理已经从当年的“特殊应用管理内容”到“特定领域的内容管理系统”发展成今天的“通用企业内容管理平台”了。
平台是主流
明确了企业内容管理,认识到平台的重要性,那么到底何处入手了解、掌握并开发出适合您的企业内容管理应用呢?最好的方式是从成熟商业软件入手。
一个统一、完整、集成、开放、可扩展的内容管理架构应该包含以下内容:
我们就其中的一些重点技术做详细的探讨。
1、系统架构
对于任何平台来说,良好的架构对于系统的重要性是不言而喻的,尤其是企业内容管理系统。内容管理平台软件需要考虑如何实现灵活高效的数据模型,如何设计各种语言的API接口,如何实现完善的访问控制管理,以及如何架构系统的拓扑以完成数据迁移、缓存,如何支持PB
级的存储和上千的并发用户。企业内容管理尤其需要考虑到未来的扩展能力,如何在最大化保护用户现有投资的情况下,提供无限的可扩展空间。由于企业内容管理牵涉的范围太广,使得平台在选择技术时,必须使用大量的成熟稳定的技术,而且必须符合业界标准。此外,当这些技术发展时,企业内容管理平台必须能够支持这些新的技术以及新的标准。同时还要在技术、软件、平台本身升级时保护用户先有的数据。
作为企业内容管理的厂商通常需要掌握数据库、应用服务器、存储等必需的核心技术。然后将这些技术整合在一起,以满足用户的需求。比如,下图中的三角形架构是一种代表性架构,充分利用了各种软件技术的优势,设计出了高效、灵活、高扩展的企业内容管理平台。该体系结构是由一个索引服务器、一个或多个资源管理器和一个或多个客户程序构成的三角形客户/服务器模型。
索引服务器(又称图书馆服务器)负责存储管理用户安全控制信息和关于数字对象的元数据信息等。底层基于关系数据库管理存储所有的元数据信息、安全权限控制信息、用户信息,并支持参量检索、文本检索、参量/文本混合检索等多渠道检索方式。
资源管理器负责存储管理数字对象,支持从硬盘到磁带库、光盘库的多层级存储管理,支持
从一个资源管理器到多个资源管理器的扩展。通过基于流媒体的媒体资源管理器支持对音频、视频信息的流媒体服务。
当用户想获取某内容对象时,客户程序发送查询请求至索引服务器,然后索引服务器返回搜索结果并将内容对象存储的具体存储位置加密形成安全对象令牌。客户端根据索引服务器发来的安全令牌发出获取内容对象的请求至资源管理器,最后资源管理器响应并解析请求,并将内容对象直接返回至客户端。这种方式可以保证“安全尽在控制,信息一站必达”。
在这个三角形架构下,可以支持多个分布式资源管理器,具有很好的扩展性。而客户对系统的所有操作,包括增加、更新、删除、提取等等,都通过统一的库访问协议完成,从而保证信息的一致性、完整性和安全性。
2、数据模型
数据模型的设计应该是企业内容管理中最有挑战性的技术实现之一。数据模型的能力直接表现出一个企业内容管理平台适应用户需求的能力。在实施企业内容管理的初始阶段,我们只能了解很少的一部分需求,如果我们设计数据模型时仅基于这些特定的需求,那么这个应用可能只能适应客户当时的需求,而无法适应客户的需求变化。在内容管理中,通常元数据越复杂,内容提升价值的潜力就越大。而丰富元数据的模型不是一蹴而就的,这就要求一个面向客户内容管理的通用数据模型,以适应客户不断变化的需求,提升信息的价值。如下图这个抽象的内容管理数据模型非常值得借鉴。
在这个模型中,在对一个内容进行描述时,支持多层级的元数据模型,支持对各种复合文档的精确描述,可以对同一文档中不同的资源对象实施不同的处理和控制;该模型也可以灵活地描述内容和内容之间的关系以及内容在使用中的工作状态。而图形化的建模工具以及支持建模的API可以帮助方便客户和应用开发商通过不同方式快速建模并进行调整。现在,某些行业已经开始定制行业元数据标准来描述复杂的需求,例如数字图书馆行业和广电行业开始基于都柏林元数据定制自己行业的多层级元数据标准,并以XML描述。XML与通常的关系型数据库不同之处在于其数据是有结构的,并且可能在同一个Tag下包含多值。如上图所示的元数据模型可以方便地支持从XML文件向内容管理数据模型的转换。在描述不同内容之间的关系时,准许用户在初始模型建立时或者在使用过程中随时建立链接(Link)、数据库外键和引用属性(引用属性是一种可以将一个字段变成指向另一条记录的指针)。这是一种可以将系统中任意两个记录关联在一起的方法,不管这两条记录在数据模型上是否相似,也无论他们是否已经和其他记录建立了链接关系,从而为客户建立描述内容的组织方式提供了便利的条件。出于性能和稳定考虑,目前基于关系型数据库还是保存元数据最好的手段。未来的趋势是越来越加强对XML 的支持,包括对XML数据库的支持。
3、检索查询
对于企业内容管理的最终用户来说,如何高效准确地找到自己所需要的资源是首要课题。尤其是企业内容管理的数据模型逐渐复杂、来源更加多样化,使得检索查询就变得更加重要,同时也变得非常困难。因此企业内容管理系统需要支持标准,支持多渠道复合检索以及查询优化。
用户可以实现在对单一系统的查询,也可以使用信息集成技术,完成一次检索对多个数据源的查询。
从数据模型的分析上得出,企业内容管理系统的元数据可以非常复杂。例如各种基于XML 的元数据标准,其定义都极其详细。举例来说,广电标准数据模型规定了广播电视音像资料编目著录项目和规则,适用于广播电视音像资料的编目著录,将主要用于广播电视音像资料的收藏、管理、检索、资料获取,具有实用、简单、灵活、易转换、可扩展等特性。这个数据模型,包括了4级信息,每个级别的信息包括15大属性,属性里面又包括多个子属性,很多属性则是用多值的方式实现的。这样的模型创建后,需要一个简单、强大且基于标准的检索方式,而查询中可能会涉及到元数据参量查询、元数据的全文检索、文本对象的全文检索等复合检索等等,单纯使用关系型数据库的SQL语言很难满足这种多渠道检索的需求。对XML查询的支持是业界普遍采用技术基础。例如有的产品从XQuery和XPath上设计出了非常好的查询方法。
IBM ContentManager通过查询解析器,将用户的查询重新处理,并进行优化,然后向底层的数据库发出查询语句。这种被称为XQPE(XQueryPathExpressions)的查询语言可以完全阐释所有可能用到的数据模型,并且使用简单,高效。
在内容管理平台中,除了对关系型数据库的元数据进行参量检索外,对元数据以及文本对象的全文检索也是非常重要的。所谓全文检索(FullTextSearch),通常是指对文字型的处理对象,根据数据资料的内容,而不是根据外在特征来实现的信息检索手段。例如,IBMContentManager