大数据环境下数字信息资源服务创新

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
图 1 大数据的成因和趋势
2. 1 基于 Web 2. 0 的信息服务 Web 2. 0 技术的发展和应用大大缩短了资源系统和用
户之间的距离,用户不再仅是服务的对象,还可以成为资 源提交、评价、服务的直接参与者。众多的 Web 2. 0 服 务,特别是维基、博客、微博、社交网站,展现了在网络 环境下拓展资源、延伸服务的无限可能。Web 1. 0 下使用 分类法的思想组织网络分类目录,难以应对网络信息以指 数形式增长,于是提出了带有大众参与色彩的分众分类 法,希望借助更多人员,以更低成本通过自组织方式完成 资源的标引工作。
迫的问题,提倡在以下领域发起大数据研究计划: 提升收 集、存储、保护、管理、分析和共享海量数据所需的一流 核心技术; 利用这些技术加速科学工程探索的步伐,加强 国家安全能力,改善教育和学习; 扩展开发和使用大数据 技术所需的劳动力市场。此外,英国、加拿大、新西兰、 德国都建设了相应的国家公共数据开放网站。
* 本文为教育部人文社会科学重点研究基地重大项目 “数字信息 资源的质量控制与管理研究” 的成果,项目编号: 12JJD820008。
1 大数据与信息资源管理
大数据是全球性的难题,但 “罗马并非一日建成”, 大数据问题在 2000 年前后就已经引起学界的注意,尤其 在信息资源管理领域。首先,大数据并非全新的概念,早 在 1980 年,美国就提出了海量数据的概念,并且近 30 年 以来,各领域的数据量都在迅猛增长,政府、企业和信息 服务机构都在积极回应并提出相应的解决方案,在数据库 管理、联机数据分析、数据挖掘、数据仓库、数据集成、 商业智能等技术领域形成广泛的理论基础,并在信息资源 领域较早提出了 “泛在信息” 的相似概念,因此大数据 理论是数据管理和服务理论的深化和延续。其次,大数据 之大并不仅仅在于其容量之大,虽然数据容量的爆炸是数 据收集、保存、维护以及共享挑战的关键因素,但大数据 的分布式、多样化、即时性的发展也超出了现有技术的处 理能力[4],因而大数据的特征通 常 可 以 用 3V ( Volume, Variety,Velocity) 来描述。此后,又在 3V 之外,添加了 价值密度低 ( Value) 这一特征,从而形成了较为普遍认 可的 4V 特征。中国北京电信研究院也认为,数据量激增、 数据复杂性的提升以及数据采集和处理速度要求提升是大 数据的关键挑战[5],因此大数据是多维的、立体的,是对 数据管理和服务理论的扩展。
对社交媒体产生的大量数据进行分析是提升服务质量 的关键,而由此也带来了诸多挑战,如: 数据量庞大、非 结构化和不一致性、数据的有效性、缺乏仿真工具和可视 化支持、隐私和信任[7]。利用人为标识数据可以大大减轻 事后数据识别和分类的困难,但这在给用户增添麻烦的同 时还得不到用户认可。研究有效又简易的数据表示方法是 处理网络数据的难题之一。结合语义网技术的 Web 2. 0 应 用设计模式 ( the Social-semantic Web) 可能是解决方案之 一,一方面,用户语言表达可以被编码,并通过相应工具 进行推理; 另一方面,依然保留着面向网络社群的 Web 2. 0 技术[8]。借鉴语义网和 Web 2. 0 技术的优势,将它们 思想融合,可以提出互联网环境下实现非结构化数字信息 资源组织和共享的方法[9]。同时,利用语义网技术对 Web 2. 0 各种服务产生的数据进行链接和再利用,也是当前的 研究热点。 2. 2 云计算环境下的多源信息服务
从实践层面看,2011 年以来产业界、科研机构和政 府对大 数 据 问 题 的 关 注 持 续 而 猛 烈。 IBM、 IDC、 麦 肯 锡 等 IT 服务前沿机构快速跟进并大力推广这一新兴服务理 念,Google, Amazon, Microsoft, IBM, Salesforce 等 都 先 后建立了各自的云计算商业服务平台。Google 更是从 2004 年就推进 Hadoop 和 BigTable 分析数据基础设施的构建, Facebook 也致力开发 Apache Cassandra 分布式数据库系统, 科研机构和科技管理机构也大力推进海量数据库集群的构 建,推进数据的交汇与融合。对于 信 息 服 务 机 构 而 言, OCLC 于 2009 年宣布在 Worldcat 的基础上应用云计算技术 实施数字图书馆 的 网 络 级 管 理 服 务 ( Web-scale Management Services) ,依靠云计算技术的优势更好地整合全球图 书馆的信息资源,为广大使用者提供一个更好的信息平 台。欧洲图书馆、信息和文献联合会 ( EBLIDA) 2010— 2013 年战略规划将海量数据保存作为七大战略挑战之一, 美国国会图书馆也正积极应对 1700 亿推特评论的大数据 挑战。美国政府更是从 2010 年 12 月提出 《规划数字化未 来》 的专门 报 告,提 出 数 据 的 指 数 级 增 长 和 数 据 分 析 的 要求提升,需要政府各部门制定应对大数据的战略,2011 年则发布了 《联邦政府云战略》 并打造 Data. Gov 开放数 据平台,奥巴马政府在 2012 年 3 月 29 日宣布的 “大数据 研究与发展先导计划”,旨在通过提高从海量、复杂的数 据集合中抽取知识的能力,帮助解决国家面临的一些最紧
Keywords: big data; digital information resources; service innovation
数据与信息作为新兴战略资源,其内容组织和服务能 力的水平构成了数字环境下一国综合竞争力的重要组成部 分,美国、欧洲、日本、韩国等众多国家和地区都将数字 信息资源 管 理 和 服 务 能 力 作 为 国 家 战 略 予 以 推 进。2012 年 3 月 29 日,奥巴马政府宣布了一项 “大数据研究与发 展先导计划”,将 “大数据” 从市场行为正式上升为国家 科技战略[1]。值得注意的是,“大数据” 的到来描绘了一 个在关键发展领域改善决策效果且合乎成本效益的愿景, 比如: 医疗、就业、经济发展、犯罪与安全、自然灾害和 资源管理,这给发展中国家提供了丰富的发展机会。与此 同时,几乎所有知名的大数据讨论都发出了警告,比如: 对隐私的关注、互操作性的挑战、不完善的规则导致的绝 对权利,这些就像缺乏科技基础设施和稀缺的经济与人力 资源那样给发展中国家带来了长期挑战[2]。
综上所述,大数据问题的涌现是全球数据自发Βιβλιοθήκη Baidu、爆 发式增长以及数据处理高效率要求的综合体现。在这样的 背景下,对信息资源管理理论、对信息资源服务理念以及 对信息机构乃至业务部门的发展都具有变革性的影响。
2 数字信息资源服务创新进展
在国内,涂子沛较早将大数据引入公众视野[6],他在 总结大数据的成因和趋势时,认为可以用图 1 表示。当数 据和信息以资源的形式表现出来时,就形成了数字信息资 源,它的建设、开发和服务是一个长期的、系统的、复杂 的过程,同时呈现 出 由 集 中 到 分 散 再 到 集 中 的 趋 势。 当 前,相关工作正在向数字环境快速过渡,同时也以 “用户 为中心,服务为主导” 理念重构资源建设。这里主要介绍 已经产生广泛影响的 Web 2. 0 和云计算下的信息服务以及 带来的挑战。
关键词: 大数据; 数字信息资源; 服务创新
Abstract: “Big data”is the comprehensive reflection of spontaneous and explosive growth of global data and high efficiency requirements of data processing. This paper thinks that big data is the deepening,continuation and expansion of data management and service theory. From the perspective of information resources management,the temporal-spatial structure of digital information resources has undergone great changes under the big data environment. The paper sorts out the current service of digital information resources from Web 2. 0 and cloud computing, and discusses 3 directions of service innovation model based on relationship network. Finally,combining with the current big data environment,the paper summarizes 4 issues of service innovation need to pay attention,and puts forward the prospect.
网络用户协同创作与内容共享成为 Web 2. 0 环境下最
·第 37 卷 2014 年第 6 期·
— 29 —
理论与探索 欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟
受欢迎的运营模式之一,其实质就是充分利用群体智慧 ( Collective Intelligence) ,协作完成一项开放共享的知识工 程,典型应用是 “维基百科”。维基是一种 用 户 共 同 编 辑、保存编辑历史,不断丰富与改进内容的系统,很好地 运用众人智慧,促 进 已 有 资 源 的 整 合, 又 能 增 加 新 的 资 源。知识获取是一切智能系统的瓶颈,传统上依靠专家编 辑知识的方式效率太低,无法满足真实的大规模信息处理 的需求,不管是分众分类法,还是群体智慧,都是为了巧 妙地设计用户界面以激发用户的参与热情,克服人脑计算 的不精确性。
理论与探索 欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟
● 张 斌,马费成 ( 武汉大学 信息资源研究中心,湖北 武汉 430072)
大数据环境下数字信息资源服务创新*
摘 要: 大数据是全球数据自发式、爆发式增长以及数据处理高效率要求的综合体现。文章认为大数据是数据管理 和服务理论的深化、延续和扩展,从信息资源管理的角度看,大数据环境下数字信息资源的时空结构发生了很大变化。 从 Web 2. 0 和云计算两个方面对当前数字信息资源服务进行了梳理,并讨论了基于关系网络积极创新服务模式的 3 个方 向。最后,结合当前大数据环境形势,对服务创新需要注意的 4 个问题进行总结,提出了展望。
从信息资源管理的角度看,大数据环境下数字信息资
— 28 —
·第 37 卷 2014 年第 6 期·
情报理论与实践 ( ITA) 欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟
源的空间结构和时间结构也发生了大的变化。从空间结构 看,2005 年以前,业界一直认为政府是信息资源的最大 保有者 ( 80% 左右) ,信息机构 ( 信息中心和图书馆等) 是信息资源体系中的核心节点,而 2011 年麦肯锡公司的 报告显示,政府拥有约 848 PB 数据,约占数字信息资源 总量的 12% 左右,信息机构的数字信息资源总量更是远 远低于信息服务商的数据总量,因而大数据环境下数字信 息资源的空间结构分布更加扁平化和多样化,如何在竞争 更加激烈的数据丛林中寻求信息资源服务的创新和突破具 有重要现实意义。而从时间结构看,信息生命周期理论是 信息资源管理的核心理论,大数据环境也在某些方面突破 了传统信息资源管理的理念。一直以来信息资源管理理论 集中于信息资源的采集、加工和处理阶段; 而大数据环境 更加凸显了数据产生的管理 ( 物联网) 、数据汇集和交换 效率 ( 云计算) 以及数据存储 ( 云存储) ,并使得不同生 命阶段的数据之间的内部关联性大大增强,信息生命周期 模型逐渐从一个描述信息资源管理理念的 “概念模型” 演变为可行的 “架构模型”。因而大多数环境下数字信息 资源的纵向与横向关联更加紧密,如何在全生命周期管理 过程中强化信息资源服务质量,促进数据、信息向知识、 情报的转化也是当前面临的核心问题。
根据 2011 年 5 月,麦肯锡公司发布的 《大数据: 创 新、竞争和生产力的下一个前沿》 报告[3],中国并非数 字信息资源大国,不论资源总量,还是资源管理能力和水 平,均不处于领先地位。因而,识别信息资源爆发式增长 带来的机遇和挑战,并对大数据环境下的信息资源服务创 新作出深度剖析和快速应对,是当务之急。
相关文档
最新文档