云服务框架下资源整合的发展
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
“信息探索行为”调查结果 2010年4月在伦敦举行的JISC年会上,发布了OCLC、RIN 和JISC联手调查的“信息探索行为”系列报告—旨在感知 用户的信息寻求行为。 1)图书馆系统必须在无缝接入资源方面做得更好; 2)图书馆员必须考虑更多种类的信息形式和内容; 3)图书馆系统和内容必须适应用户信息行为的改变; 4)图书馆系统的界面和功能需要向Google、Yahoo等搜 索引擎以及Amazon.com等网络服务靠近,以使用户感觉熟 悉、舒适并自信; 5)高品质元数据在发现合适资源方面日益重要; 6)图书馆须更好地在社区内宣传其品牌、价值和资源。
2008-09年bX使用统计: 月均点击5500篇次 2009年新版数据库/电子期刊导航使用统计: 月均访问>30万页次,呈上升趋势,今年以来月均37万页次。
丌同层面的整合对电子资源揭示的深度丌同
数据库导航
电子期刊导航
OPAC编目
揭示/检索到数据库层面、期刊 名称层面; 无法满足读者定位到目标信息 (文章题名、作者及内容)需求。 揭示/检索到文章的题名、作 者、文摘、主题/关键词乃至 全文。
图书馆的服务正在发生历史性变革
从基于载体的服务转变为基于内容的服务 从孤立分离的服务过渡到集成整合的服务
清华图书馆的资源变迁
2009年纸本资源与电子资源的比较: 馆藏书刊总量375万册(件) 纸本图书年购买约4.6万种(其中外文5777种) 纸本期刊年订购3334种(其中外文116种) 纸本学位论文约5.5万种
2009年咨询台接待读者人次1.85万 虚拟参考咨询访问人次7.5万
—后者是前者的4倍
清华图书馆的服务变迁
远程利用资源大幅提升→ 馆际互借完成 2.4万份 二次文献检索 373万 次 电子全文浏览/下载 1017 万 篇次 电子图书浏览/下载 231.7万 册次
2009年图书外借 87.9万册次
实时查询和响应
“高级阶段”:基于数据仓储的整合检索
发现系统—预先收割数据并建索引
发现系统(Discovery System)的突出特点是——
快速、简洁、易用。有人称之图书馆的Google。
尽管发现系统才出现2-3年,大多数图书馆还在观 望,尽管发现系统还存在不尽如意的地方,…
但据2009年统计,全球范围“发现系统”用户总 数>600家,年增40%。 反映了图书馆面对电子资源不断增长,迫切希望 为读者提供“得心应手”的资源发现工具的压力!
(“人”,“机构”,“著作”,“活动”,“大事 记”,等)
技术优势产生的效果
纸本和电子资源的强融合、强整合
发现系统基于对图书馆ILS数据的全面收 割和重新索引,将书目数据与电子资源数据 无缝融合在一起,在发现系统界面上重新呈 现,包括馆藏的实时流通状态。
纸本和电子资源的真正融合整合在一起提 供检索和服务。
启动资源发现系统的调研测 试
多数据源汇聚的导航服务
形成了汇集了几十万篇文章的目次摘要信息的数据池
图书馆中英文主页改版升级嵌入快速检索框功能
几个层面的资源整合平台使用统计:
2004年读者调查: 利用电子资源主要入口:通过数据库/电子期刊导航占86.15%
2006-09年整合链接统计:
250万
结果呈现的灵活多样;
学科化、知识化的拓展应用;
纸本和电子资源的强融合、强整合。
技术优势的效果
扩大检索范围
由于联邦检索依赖计算机的处理能力实 时发送检索并获取结果,检索性能受到被 检索资源平台的数量和性能影响,往往一 次检索限制在20-30种资源内。
目前商家的预索引仓储数据量为 2-5亿 (包括10余万种期刊的上亿篇文章,上千 万的电子书,上百万的学位论文等),用 户的检索不再受资源平台和数量的限制。
图书馆面对的严峻挑战
面对全球范围的数字资源激增,图书馆陷 入被动局面。人们对数字资源揭示和整合的 能力远远落后于数字资源的增长速度。
图书馆的资源质量高,但查找不方便。
数字图书馆需要借助于强大的检索能力、 存储能力和计算能力来管理海量资源,为读 者提供准确、流畅的信息发现和获取。 云计算&云服务的出现为图书馆提供了资源 管理和整合的新契机。
局域网和广域网成为图书馆资源和服务的 “标准配置” — 逾1500个网络端口,支持 IPv6 & IPv4 双栈
无线覆盖全馆、102个AP,网络无所不在。
清华图书馆的环境变迁
清华图书馆的服务变迁
服务成几倍的增长 →
主页登录人次逾707.2万
—后者是前者的5.2倍
2009年到馆读者人次逾134.2万
发现系统的云服务架构
用户界面
Discover 平台
第三方系统
集中索引 3
本地资源
预索引仓储
集中索引 1
集中索引 2
有的发现系统在云计算环境中(如亚马逊)部署平台
发现系统的技术优势是预先对元数据及 全文建立的高品质仓储和索引,由此产生 的明显效果包括: 扩大检索范围;
提升检索效率;
保障查全率和查准率;
对云计算概念的理解
云计算是一种商业计算模型。它将计算任 务分布在大量计算机构成的资源池上,使各 种应用系统能够根据需要获取计算能力、存 储空间和各种软件服务。 图书馆员的视角: 与其说云计算是一项新技 术,倒不如说它是一种新 的理念,一种按需获取的 服务模式。
云计算的应用模型
将网络中的各种资源调动起来,为用户服务→ 云服务
关注和评估的方面
量!
可索引数据的覆盖率成为竞争的第一焦点
目前在国内推介的几家国外发现系统尚 未完全解决中文学术文献/文章的元数据和 全文索引的稳定来源及可持续获取。
任重道远的Fra Baidu bibliotek源整合
清华馆资源整合的轨迹: 2009年→ 2000年→ 基于MetaLib+SFX的知识库 建立数据库/电子期刊导航, 是读者利用电子资源主要入口 (CKB)重用,升级数据库/电子 期刊导航,提供多数据源汇聚 2005年→ 的导航服务 引进MetaLib+SFX建立“学术 信息资源门户”,提供文献内 2010年→ 容层面的整合和一步到位的获 重用SFX的CKB数据,实现电 取服务 子期刊书目信息批量导入OPAC 2008年→ 测试引进学术推荐服务bX, 提供基于用户经验的知识链接 服务 重用MetaLib的功能,实现图 书馆主页的快速检索框功能
整合系统
发现系统
大纲
云计算 & 云服务 图书馆的“云”环境
任重道远的资源整合
资源整合的发展趋势
资源整合的发展趋势
目前整合系统的优势和不足: 被整合的电子资源覆盖面宽,达90%以上,绝大多 数中外文电子资源可以被整合;
依靠技术手段,通过多种方式实现整合,可控;
检索结果的速度受网络传输和数据源平台的制约, 影响了用户体验;
技术优势的效果
提升检索效率
联邦检索的结果呈现受电子资源平台和 网络传输的制约,跨20-30个资源库检索, 首页结果呈现<3秒,但全部结果呈现有时 需要几十秒。
发现系统在预建元数据和全文索引的支 持下,大部分(80%以上)检索结果呈现<1秒。
技术优势的效果
保障查全率和查准率 发现系统在预收割并建立元数据和全文索 引的过程中,进行规范化、丰富化处理, 提高了检索结果的查全率和查准率。
------------------------------------------------------------------------------------
电子资源/数据库450个 电子图书247.5万种(其中外文约47.5万) 全文电子期刊4.8万种(其中外文+OA约3.4万) 电子学位论文134.5万篇(其中外文约25万)
大纲
云计算 & 云服务 图书馆的“云”环境
任重道远的资源整合
资源整合的发展趋势
任重道远的资源整合
传统图书馆主要管理几十万或几百万件的 纸本馆藏。经过几十年的发展,图书馆自动 化系统担起馆藏揭示和服务的重任。 数字图书馆需要管理数以百计的数据库, 数以万计的电子期刊、数以百万计的电子图书、 数以千万乃至几个亿的学术论文。揭示和管理 这些分布、海量的数字资源对图书馆是一个严 图书馆需要一个当家的、统一管理所有类型 峻挑战,迫切需要得心应手的理想工具。 资源并提供服务的系统。
电子资源经费占文献总经费比例: 2007:40% → 2008:55% → 2009:59% → 2010:62% ↗
清华图书馆的环境变迁
个人电脑成为读者利用图书馆、馆员开展 业务的“必备工具”— 全馆500台++。
服务器成为图书馆运行的基础保障,机房 120台服务器提供7×24×365的不间断服务。
历史学家伯契纳克认为:云计算会跟“网络空间(Cyberspace)” 、“Web 2.0”等曾经炙手可热的词汇一样,流行一阵,然后被遗 忘。他表示:“云计算这个术语本身没有问题,问题在于它总 是想包罗万象、涵盖一切。”
新名词、新概念层出丌穷
Virtualization 虚拟化 Grid Computing 网格计算 Cluster Computing 集群计算 SaaS 软件即服务 Utility Computing 效用计算
预索引 仓储
技术优势的效果
结果呈现的灵活多样
检索结果可实现:
去重、排序、分面、FRBR、可视化
全文链接、个人文献管理、外部数据聚合
用户行为的挖掘、学术经验的推荐与分享
技术优势的效果
结果呈现的灵活多样
技术优势的效果
学科化、知识化的拓展应用 通过对主题、署名关系、收录期刊和会 议等进行数据挖掘、发现共同兴趣,揭示机 构之间、研究者之间的隐性关系,建立新的 合作。 海量的结构化、高品质的预索引数据是知 识发现和关联的基础,在知识组织和学科化 服务方面大有作为。
四次IT产业革命,将引领未来3~5年新技术发展,将给生产和生活 方式带来深刻的变革。据美国国际数据公司(IDG)预测,到2012 年,全球“云计算”服务市场规模将达到420亿美元。
贬:IT业界对“云计算”趋之若鹜,却鲜有人能给出“云计算
”的正确含义。甲骨文CEO拉里· 埃里森曾表示:“我完全搞不懂 那帮人在说些什么,简直就是一派胡扯。这(云计算)到底是指 什么?省省这种愚蠢的概念吧。”
• Virtual
Application
• Virtual
Service
云计算的技术背景
云计算是并行计算 (Parallel Computing)、 分布式计算(Distributed Computing)和网格计 算(Grid Computing)的发展,或者说是这些 计算科学概念的商业实现。
云计算是虚拟化(Virtualization)、效用计算 (Utility Computing)、IaaS(基础设施即服务) 、PaaS(平台即服务)、SaaS(软件即服务)等 概念混合演进并跃升的结果。
检索结果的选择性呈现影响查准率、查全率。
不断提升的应用需求促进着行业的发展。2008年以 来发现系统崭露头角,成为数图发展的热点之一。
初级阶段:分布环境下电子资源的逐一检索
ILS
SpringerLink
ProQuest
中国知网
读秀
实时查询和响应
中级阶段:电子资源的联邦检索
本地 索引 元 搜 索 引 擎
云服务框架下资源整合的发展
清华大学图书馆 姜爱蓉
2010.12.16 上海 复旦
大纲
云计算 & 云服务 图书馆的“云”环境
任重道远的资源整合
资源整合的发展趋势
看清形势、审视环境、探索实践、着眼未来
云计算 & 云服务
面对“云计算”众说纷纭:
褒:云计算将是继大型计算机、个人计算机和互联网之后的第
云计算正在上升期
Web2.0 仍具上风,但趋势减缓!
2007年以来,云计算处在上升期!
大纲
云计算 & 云服务 图书馆的“云”环境
任重道远的资源整合
资源整合的发展趋势
图书馆的“云”环境
经过十几年的发展—
电子资源种类和数量正在超越纸本资源
信息设施成为图书馆的标准
网络已成熟(不仅快,且无处不在) 计算和存储的硬件设备越来越便宜
?
Web2.0
?
Cloud Computing
云计算
云计算的前世不今生
云计算
网格计算
效用计算
软件即服务
• 并行计算处理大型
问题
• 以使用量计费的
计算资源
• 以网络为基础的
软件订购服务
• 通过网络以按需、
易扩展的方式获得所 需的服务
• Virtual
Server
• Virtual
Infrastructure