大数据环境下高校图书馆非结构化数据融合分析_郭春霞
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
大数据环境下高校图书馆
非结构化数据融合分析
郭春霞
【摘 要】大数据环境下,高校图书馆非结构化数据蕴含的信息越来越多,其对图书馆的数据挖掘和学科服务
具有重要的支撑作用。文章对高校图书馆的非结构化数据特性进行分析,将其分为同型异源数据、异型异源数
据、同型同源数据三种,构建了非结构化数据的融合分析流程,适合高校图书馆非结构数据的挖掘和管理。
【关键词】高校图书馆 非结构化数据 数据清洗 数据监护
DOI:10.15941/ki.issn1001-0424.2015.05.005Abstract:In big data environment,information in university library unstructured data becomes more than ever,
which is of great importance for library data mining and library subject service.This arcticle analyzes the features of
university library unstructured data,which is divided into same type of different source,different type of different
source and same type of same source.The unstructured data fusion analysis process is constructed,which is
suitable for university library unstructured data mining and management.
Key words:university library unstructured data data cleaning data curation
1 引言
数据之于科学的重要性,就像语言之于文学,音符之于音乐,色彩、形状之于美术一样,离开数据,就没有
科学可言[1]。2011年Science杂志《聚焦数据管理》的专辑中提出了“数据就是金矿”、“科学就是数据,数据就是
科学”的说法。数据在当今社会,已经被看作是一项重要的资产,它改变着组织决策的模式,所以有效收集、分
析大数据,运用各种方法挖掘大数据,使数据的价值最大化,已经成为衡量一个组织竞争力的重要标志[2]。2004
年,世界进入web2.0时代,Facebook、Twitter等社交工具的涌现,使每一个网民都好比一个信息碎片的传播和
生产者,不断地制造数据,然后聚集整合,像核弹蘑菇云一样,引发了人类历史上迄今为止最庞大的数据爆炸,
引领着人类进入大数据时代[3]。IDC(国际数据公司)认为大数据时代是数字宇宙时代,他们在2012年的研究报
告中指出,2011年全球复制和创建的数据总量为1.8ZB(1ZB=10亿TB),认为到2020年,全球数据总量将达
35ZB[4]。对于大数据的定义,比较典型的描述是由NSF(美国国家科学基金会)提出的:大数据是指“由科学仪
器、传感设备、互联网交易、电子邮件、音视频软件、网络点击流等多种数据源生成的大规模、多元化、复杂、
长期的分布式数据集”[5]。
高校是一个自然科学和社会科学相融合的交叉地,学校的教师、学生来自各种学科和专业,换句话说,高校
是各专业、各学科融合最广泛、最复杂的地方。无论是高校的学术研究还是从校园广泛应用的社交媒体,无论是
宏观层面的学术研究还是微观方面的学术研究,无论是微博、微信、QQ等社交媒体,还是图片、视频等数据资
源,都被师生广泛地利用和传播。
而高校图书馆作为高校中记录、储存、传播、应用人类文明与数据的机构,需要处理的数据也在呈指数增长,
尤其伴随着社交媒体、移动智能终端、无线网络等技术的普及,结构化与半结构化的数据都在飞速增长,图书馆
也进入到了“大数据”时代[6]。目前全世界的数据大约有75%都是非结构化数据,大数据环境下,高校图书馆无
论是从时间维度,还是空间维度都面临着前所未有的挑战,尤其是非结构化数据对图书馆的学科服务和数据挖掘
具有重要的支持作用。如何将高校用户利用图书馆过程中产生的非结构化的多源数据进行融合,已经成为高校图
书馆工作中一个不容忽视的环节。对这些数据,需要在充分搜集多种来源信息的基础上,运用多种方法进行综合
分析与判断。只有这样,才能更加全面地了解学科领域的变化和师生不断变化的需求,以期为高校图书馆科学的判断、决策提供更有力的数据支撑。
因此,笔者对高校图书馆的非结构化数据进行分析并分类,挖掘其中蕴含的有价值的情报和知识,对其进行整合、分析、推送,促使高校图书馆在大数据的背景下,充分发挥高校图书馆的作用,使其价值最大化。
2 高校图书馆的非结构化数据特性
涂子沛把大数据分为结构化数据和非结构化数据2大类,他认为大数据=结构化数据+非结构化数据。也有学者认为大数据=结构化数据+半结构化数据+非结构化数据。无论哪种划分方式,都表明数据与数据之间的划分不再依靠单一的标准,数据与数据之间,彼此交叉,彼此融合。本文主要探讨高校用户在利用图书馆的过程中产生的非结构化数据,如通过微信、QQ、博客等社交工具产生的数据。这些数据之间的结构、性质不完全一样,没有系统、整齐的结构,这部分数据的处理,与结构严整的数据相比,困难许多。图1为高校图书馆的非结构化数据来源。
图1 高校图书馆的非结构化数据来源
2.1 非结构化数据生产主体明确
在高校图书馆中,非结构化数据的生产主体非常明确,主要为高校教师、在校大学生及图书馆员,学校社会读者数量较少,并且这部分用户利用图书馆资源的频率远远低于前者,在此忽略。由此可见,从用户的角度,对图书馆员、高校教师与在校大学生三者之间进行有效的数据需求分析、信息行为分析以及相关非结构化数据产生规律的分析,就可了解非结构化数据在高校中发展的规模、质量,经过分析,可得出用户当前需求。
2.2 非结构数据的数量与质量较高
由于高校图书馆用户的信息素养水平较高,在这个社交媒体风行的时代,专业学者之间、教师与学生之间、跨领域、跨学科之间均可通过QQ、Blog、微博、微信、在线咨询台等方式随时产生新的信息与数据,这些数据在数量方面呈指数增长。用户在特定主题、时间、成员、交流进度等情景进程的驱动下,成员之间交流的瞬间会迸发出许多新的想法或观点,这些想法和观点有可能是某种大课题研究的雏形或者是核心思想,对学科发展具有巨大的学术价值和文献价值,这也是本论文研究的核心价值所在。
2.3 非结构数据的加工难度较大
非结构化数据的基本特征是数据格式多元化,尤其是利用网络平台传播的数据,其中蕴含着大量高价值的信息。许多数据是即时产生,有些数据是零次性的,有些是灰色数据,利用计算机和数据库技术对其实施流程化、规模化管理非常困难。
3 高校图书馆的非结构化数据类型分析
笔者将高校图书馆的非结构化数据源划分为以下几种类型:同型异源数据、异型异源数据、同型同源数据,如图2所示。
3.1 同型异源数据
对于高校图书馆某个体来说,同一类型的数据一般分布在相同的站点,但却由不同的数据商提供。每个高校图书馆,都购买了大量的电子资源,北京大学、清华大学中外电子资源就有上百个,即使如滨州学院、德州学院