基于数据仓库的上海图书馆流通分析报告实践

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

18・主题专栏・图书馆杂志(2015年第2期 总第286期)

Library Journal(Vol.34.No.2)

基于数据仓库的上海图书馆流通分析报告实践宋歌笙 刘靓洲 (上海图书馆)

摘 要 上海市中心图书馆在上海两百多家服务点提供流通服务,其多个业务系统每天产生大量的流通数据和日志。本文利用数据仓库技术,介绍上海市中心图书馆数据仓库的设计,通过对数据源的ETL过程进行数据仓库构建,最后介绍了基于数据仓库技术进行数据分析的设计思路,展示了上海中心图书馆流通分析报告,为图书馆图书采购与阅览室图书上架提供更可靠的理论依据。

关键词 数据仓库 流通分析报告

DOI: 10.13663/ki.lj.2015.02.003

Analysis Report of Library Circulation in Shanghai Library based on Data Warehouse

Song Gesheng, Liu Liangzhou (Shanghai Library)

Abstract The Shanghai Library provides services for more than 200 branches in Shanghai, producing a great amount of circulation data and logs every day. This paper introduces the design of data warehouse for the Shanghai Library, which is constructed based on ETL process of data source. It then introduces the means of data analysis upon data warehouse, and fi nally produces the circulation analysis report, which provides more reliable theoretical basis for acquisition and shelving in reading rooms.

Key words Data warehouse, Circulation analysis report

1 绪论

数据仓库,最早由W. H. Inmon于1990年在《Building the date warehouse》中提出,主要功能是将联机事务处理系统(OLTP,On-Line Transaction Processing)累积的大量数据,通过特有的数据储存架构进行系统的分析整理,从而进行线上分析处理(OLAP,On-Line Analytical Processing)和数据挖掘(Data Mining),通过构建决策支持系统(DSS,Decision Support System)、主管信息系统(EIS,Executive Information System)和商业智能(BI,Business Intelligence),帮助决策者从海量数据中快速有效地分析出有价值的信息,以快速应对外在环境变动[1]。数据仓库技术在多年的发展过程中已广泛应用于生产生活各个行业领域,为企业进行数据挖掘和决策支持,提供数据基础。近年来,国内很多公共和高校图书馆研究和设计数据仓库,探讨了数据仓库的功能[2],利用构建数据仓库进行OLAP在线事务数据分析[3],并基于数据仓库开发了可视化应用实例[4]等。

笔者利用知识发现引擎以“阅读分析”在图书馆类文章中进行检索,可以发现大部分阅读分析报告基于问卷调查的形式或是基于独立数据库进行分析研究,上海图书馆阅读分析报告是以数据仓库技术为基础,进行数据挖掘的综合应用。

2 研究设计

2.1 分析对象

截至2013年底上海市中心图书馆拥有藏书超过1264万册,服务遍布上海市236个服务点,其日均流通量超过12万册。上海图书馆面对的读者从老至少,知识结构不同,阅读喜好也会有较大差异。面对海量数据,如何揭示这些数据中隐藏的秘密,对现有藏书进行优化

宋歌笙 刘靓洲:基于数据仓库的上海图书馆流通分析报告实践Song Gesheng, Liu Liangzhou: Analysis Report of Library Circulation in Shanghai Library based on Data Warehouse19合理配置并且提升对读者的服务质量一直是图

书馆重要的研究课题。

针对图书馆数据研究对象,笔者按维度进

行了归类(见表1):

表1 图书馆分析对象

单维度揭示对象读者年龄分布、读者性别分布、读者学历分布、图书大类热度、出版社热度、作者热度、借阅关键词、最热图书、借阅地区分布

多维度揭示对象不同年龄段不同性别不同学历读者借阅喜好、读者喜欢去的图书馆、读者借阅时间分布、图书馆际流转分布、图书大类出版年淘汰率……

从表1可以看出,维度出发点的不同,图书馆关注的对象以及相互间的联系也可以有多种变化,不胜枚举。以上述研究对象作为依据,可以更好地帮助图书馆进行馆藏资源建设并提供更好的个性化读者服务。

2.2 总体设计

参考图书馆具体的应用环境,为了对上述数据对象进行分析研究,笔者以数据作为基础,按照数据运动的步骤大致将此过程分为以下四个阶段层次,分别是数据源层、数据仓库层、数据分析层和数据展示层(见图1)。

数据源层是数据最原始的阶段。它是业务数据的根本,也是业务数据的最直接体现。不同的数据源之间每天都会面对大量的交易数据。上海图书馆的三大系统,图书流通系统、读者管理系统和上海中心图书馆管理系统分别承担了图书与流通管理、读者管理和馆点管理的职责,也支撑了上海中心图书馆的主体IT架构。

数据仓库层是进行数据分析的核心技术和基础环节。通过对图书馆数据源层的数据重新整合,将重要的业务数据保存在完整的仓储体系之中以便进一步分析。实现数据仓库需要对其进行充分合理的设计,在物理上需要满足空间和计算性能的要求,最后通过ETL技术将数据源层的数据导入形成数据仓库。

数据分析层是数据体现其价值的关键环节。基于数据仓库生成的事实数据,建立在统计学以及相关算法的基础上通过数据处理和关联分析,挖掘出数据的价值,为图书馆的决策提供依据。流通分析报告的产生应用了探索性数据分析、模型选定分析和推断分析三种过程。

数据展示将有价值的信息友好、高效地展示给读者。它既可以是普通图表、信息图、报告,也可以是交互型的展示平台,基于BS架构的Web展现或者是不同客户端下的APP应用等。作为针对上海市中心图书馆阅读现状这个明确目标,将主要以分析报告的形式进行呈现。

3 数据仓库设计与构建

3.1 数据仓库设计

在数据仓库设计阶段需要建立逻辑模型,逻辑模型包括维度和粒度的设计。

大部分进行数据仓库研究的高校图书馆在维度设计上主要涵盖读者维、图书维和时间维三个维度。也有少数图书馆以采购、编目、期刊、流通、时间作为维度进行研究[5]。上海图书馆在数据仓库构建时,充分考虑到中心图书馆在上海市

有两百多个网络节点加入到图书流通环节,数量图1 基于数据仓库技术的数据分析层次结构

相关文档
最新文档