大数据时代下图书馆数据挖掘和情报分析研究——以中文发现系统为例

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

大数据时代下图书馆数据挖掘和情报分析研究——以中文发现系统为例
作者:王继华
来源:《河南图书馆学刊》 2018年第11期
关键词:大数据时代;图书馆数据挖掘;情报分析;中文发现系统
摘要:大数据时代,对大量数据进行挖掘、分析、处理、提取成为图书馆服务升级及服务
范围拓展的主要工作内容,而海量数据中存在的暗数据对相关数据的实际应用价值造成了严重
的阻碍。

文章以大数据时代图书馆中文发现系统数据挖掘及情报分析功能为例,结合大数据的
概念及应用特点,对大数据时代图书馆的数据挖掘及情报分析进行了探究,旨在为大数据时代
图书馆服务效率的提升提供一些参考。

中图分类号:G250文献标识码:A文章编号:1003-1588(2018)11-0129-03
现阶段,全球信息总量呈爆炸式增长,大数据时代已经到来。

目前学界还没有明确的关于
大数据的概念,一般来说,大数据主要是指管理PB级的数据存储,并通过数据挖掘及情报分析技术,获得对应数据的潜在价值,从而为相关人员提供信息数据支持。

图书馆大数据主要用于
学术性质的数据集合,其在数据大小方面远远超出了常规运行软件可以承受的处理范围。

因此,对图书馆大规模数据进行分析,对数据挖掘及情报分析技术进行适当探究具有非常重要的意义。

1大数据的特点
相较于以往的海量数据而言,大数据具有价值密度低、多样性、体量大、速度快的特征。

大数据时代,人们可以利用数学运算的方式对内部数据进行综合分析,从而得出相应事件的未
来发展趋势,获得未知领域相关学术信息的关联性。

大数据时代,系统、完整、全面的数据深
度剖析,可以对以往知识体系进行逐步完善,并获得更深层次的知识脉络,如亚马逊、奈飞依
据用户类似查询,可以进行相关产品推荐,从而提高对应商品的销售效益。

2大数据时代下图书馆的数据挖掘及情报分析的困境及优化思路
2.1大数据时代图书馆数据挖掘困境及优化思路
大数据时代,数据科学得到了迅速的发展,图书馆大数据开发处理效率得到了有效提升。

首先,大数据时代图书馆内部学术信息资源规模的提升,对图书馆数据挖掘工作提出了更高的
要求。

大数据时代,数字馆藏规模不断扩大,数据类型也呈现出多样化的特征。

以往随机取样
的大数据分析方法,已不能满足现阶段图书馆数字化服务的要求,再加上大数据环境中相关数
据价值往往隐藏在海量数据中,单一的机器及取样方式已无法获取相应数据的细节问题。

针对
这种情况,在数据挖掘模型构建过程中,图书馆就需要进行分布式计算框架的设置,如利用Spark、Map Reduce等软件进行集群计算环境的设置,同时,结合数据前期清洗也可在时间一
定的情况下获得相应的文献关联信息。

其次,随着图书馆内部数据类型的多元化发展,图书馆
数据也由以往的多维、一维逐步转化为巨维。

而在巨维数据分析过程中,以往多维数据模型就
无法发挥良好的分析能力。

在这种情况下,图书馆就需要结合主成分分析、奇异值分解等维度
规约技术,适当降低数据维度,保证数据模型的可靠性。

最后,在当前数据挖掘分析过程中,
图书馆仍然无法在常规数据挖掘任务中有效识别词语语义关联、近义词或同义词的联系,如信
息检索、自动摘要等。

此时,短文本处理环节就无法保证整体数据文献处理的效果,再加上目
前图书馆数据知识库在规模及应用方式上的限制,也对图书馆提供全方位的数据信息服务造成
了一定的阻碍。

笔者认为,以上问题都可通过应用语义处理技术加以解决,即适当提升相关数
据挖掘算法的语义化等级,提高整体数据的处理效率。

在语义处理过程中,图书馆主要依靠中
文知网、WordNet、维基百科、互动百科等结构化程度较高的知识库,结合Word2 Vcctor工具
的应用,进行大规模预料词语矩阵的建立,以便为图书馆图像、视频、语音挖掘效率的提升提
供依据[1]。

利用语义处理技术还可以将音频数据转换为文本,并通过声音信号时间位置的记录,提高整体音频数据标准的准确性。

结合语义标注方式及微信等社会化API网络接口的设置,图
书馆也可以确定相应数据概念的本体,便于明确信息间的联系,构建多维度知识处理网络。

2.2大数据时代图书馆情报分析困境及优化思路
以往图书馆情报分析大多为专利资源、Web资源、文献资源等文本信息,而现阶段数据源
除文本数据外,还包括科技计划项目立项书、政府公文、科技报告等非机构文档,致使传统数
据情报分析的弊端日益凸显。

同时,基于大数据存储量的TB或PB级别,图书馆还需要在统一
数据非结构情报分析模型中,进行有效信息抽取算法的设置,以便实现多数据源情报的有效融
合[2]。

在大数据情报分析数据挖掘算法设置过程中,图书馆需要在以往关联规则、分类算法的基础上,对分析结果的准确度要求进行螺旋式处理,并设置相应的实时数据动态情报分析工具,以保证大量情报资源的有效分析。

以往图书馆情报资源大多为纯净情报资源,相关资源可采用
人工分析方式进行清洗,而在大数据时代,数据规模的巨大化导致大量脏数据存在于图书馆数
据库中,这对整体数据分析的真实性造成了严重的影响。

针对这种情况,图书馆可以对半结构化、非结构化数据进行预处理,利用特征属性提取的方式将冗余数据去除,然后对相应数据进
行集中整合分析,以保证情报分析的效率。

3大数据时代下图书馆中文发现系统数据挖掘及情报分析
3.1中文发现系统机理
大数据时代,图书馆中文发现系统主要是在非结构化数据、结构化数据、半结构化数据的
基础上,利用现代化数据储存及挖掘工具,结合搜索引擎技术的应用,对图书馆内部及外部各
项学术信息进行深度挖掘探究,以便为图书馆用户提供更加全面的服务[3]。

中文发现系统数据挖掘具有发现知识、洞察全局、价值再生的效果。

其中,发现知识主要是针对图书馆内部工作
人员与图书馆用户之间的数据进行搜集,通过对信息资源的深度关联分析,可在资源与服务之
间建立系统联系,提升信息搜索定位的效率;洞察全局主要是在统一的文献信息资源中,将各
个独立的信息模块进行有机整合,从而形成一个完整的情报分析系统,便于全面分析研究学习
趋势,为文献机构提供全局形式的文献学术信息;价值再生主要是对文献内部资源立体联系的
总体分析,通过对学位论文、图书、期刊等文献资源的关联分析,可确定最终学术发展的趋势,便于挖掘图书馆大数据暗信息。

3.2中文发现系统引文及学术源流分析
在实际应用中,图书馆中文发现系统可以提供图书间、图书与期刊、期刊间、期刊与图书
的前后引证联系,同时也可以为图书馆用户提供施引文献列表、链接及被引文献列表、链接,
为相关学术反向研究提供有效的数据支持[4]。

现阶段,图书馆中文发现系统已拥有7,000多万条的引用分析数据,而引文关联数据总体数量也在11亿条以上。

通过对图书、期刊、会议论文等相关学术文献的立体引文分析,图书馆可进一步完善立体服务网络。

在中文发现系统运行过
程中,图书馆可以综合利用抽象、归纳等多种统计学和数学方法,对内部学术对象引用、被引
用情况进行统一概况叙述,便于获得相应学术资源内部学术情报特征。

在实际应用中,中文发
现系统引文分析功能可以打破时间、空间及学科的限制,通过有序化的学术文献排列,从外向内、由表及里地对相应学术文献进行量化分析,这有利于明确学术研究环节文献引用频率,进
而确定相关研究科目的影响情况。

同时,中文发现系统引文研究也可以明确不同学科间的联系
和不同文献信息要素间的引证关系及其信息来源特征,而通过对相关文献信息被引用频率、引
用频率的关联分析,也可以明确相应学术文献的老化规律,以便确定相关文献的学术价值。


书馆中文发现系统主要具有知识相关链条、作者相关链条、作者机构相关链条等几个方面的搜
索功能。

其中,知识相关链条主要是对知识源头、知识主体、知识活动进行相关关联分析,通
过立体知识链条的设置,确定相关知识主体之间的联系。

通过对知识主体、作者机构、作者立
体联系的分析,图书馆可确定对应学科、文献信息及学术关联的关系,为学术信息与文献信息
建立反向联系,为后续学术研究提供有效的数据支持。

图书馆中文发现系统学术源流功能的作
用是在以往单一文献资源研究单位的基础上,进行深入分析,对学术文献中数据与对应研究单
位之间的联系进行逐步明确,最终形成知识概念链条。

在实际应用过程中,图书馆中文发现系
统的学术源流模块可以从单向、双向线性两个方面对整体知识关联链状架构进行合理分析,直
至得到需要的信息[5]。

结合文献基本要求,中文发现系统还可以对文献学科领域与文献学术写作人员之间的信息关联进行综合分析,并依据学术文献创作人员所在机构的特征,进一步创建
机构间的联系,从而确定相应学术研究人员的工作方向及对应学术研究的发展趋势。

3.3中文发现系统知识关联及生长方向评估
图书馆中文发现系统主要是在提供同一主题、领域及学科学术文献信息的基础上,对相应
知识关联及生长方向进行合理评估,并对不同主题、领域及学科的学术文献信息进行挖掘分析,从而确定相关学术研究机构之间的联系。

在图书馆中文发现系统中,知识不仅仅是一个立体网
络架构,而是具有较为广阔的空间范围。

而相关学术知识间也具有较为密切的联系,相关知识
间的联系也被称为知识延伸及情报分析的关键节点,因此,为了保证知识间组织的科学性及实
际效用,图书馆对知识关系进行科学管理就显得非常重要。

知识关联是知识发现、知识创造的
节点,其在知识载体间联系的判定方面具有重要的作用。

而通过某个知识点的触发,也可以带
动另外的知识点过渡到迅速发展阶段,以便对同一主题或不同主题间学术产出情况进行综合对
比分析,并得出不同学术研究的发展情况。

在学术领域一定的情况下,对相关学术知识的关联
度分析,也可以确定相关学术研究行为的连续性及生长方向,以便建立具有学术参考价值的学
术研究体系[6]。

3.4中文发现系统可视化及智能辅助评估
图书馆中文发现系统可视化功能主要包括学术要素查看、学术检索结果输出等模块,同时
还可以提供研究主题、学科关联对比分析曲线图表、图书文献现状及生长方向可视化处理等服务。

图书馆中文发现系统主要利用计算机可视化技术,对统一结构化文献进行深度剖析,并利
用对比、归一等数理方法,将学术文献创作时间、学术文献创作人员、学术文献创作类型、学
术文献价值等相关要素进行集中整合,形成系统科学的数理统计分析文件,并结合计算机可视
化图表处理,展示相关学术研究的主题热门程度,为相关学术研究人员提供更加直观的学术研
究参考信息,为其学术研究工作的正常开展及明确开题方向提供依据。

图书馆中文发现系统智
能辅助模块具有检索关键词相关词条解释、期刊及图文导航、用户搜索行为分析、学术研究产
出推送、用户潜在搜索需求主动推送、常用学科分析推送等功能[7]。

现阶段,图书馆中文发现系统在运行过程中对智能辅助系统的应用,彻底改变了以往单一用户检索词输入、提交、寻找
的信息检索模式,通过主动信息推送的形式对图书馆用户检索词输入环节信息输送需求进行自
动评估,并为其提供相关文献信息的来源及类似信息。

3.5中文发现系统趋势评估
图书馆中文发现系统趋势分析主要包括产出量指标划分、学术发展现状展示、规定时间段
学术发展趋势总结、学术信息发展趋势深度挖掘及相关主题关联指标搜索等。

图书馆中文发现
系统趋势分析主要是通过对搜索主题、篇数等数字性质资料的分析,确定指标一定时多个连续
关联之间的增减变动趋势变化。

在中文发现系统实际运行过程中,文献搜集人员可以通过主题
搜索,获得相应主题变动趋势数字曲线,并结合相关内容数据,得出对应学术主题的发展情况。

而对不同年代的学术主题进行数据分析,有助于对学术发展的趋势进行预估判定,以便为后续
学术研究主题的确定提供数据指导[8]。

在图书馆中文发现系统学术变化曲线中,若相应曲线在某一环节处于波峰阶段,则表明相应环节内相关主题学术研究工作的开展较为频繁;若相应曲
线在某一环节处于波谷阶段,则表明相应环节内该主题学术研究处于低迷状态。

4结语
综上所述,大数据时代下的图书馆数据挖掘及情报分析工作主要是指在新技术思维的指导下,针对现阶段图书馆数据处理需求,从智能辅助、生长方向分析、趋势分析等方面进行多模
块数据挖掘系统的构建。

而在基础数据挖掘及情报专业分析的前提下,通过第三方软件或其他
技术工具的应用,不仅可以展示图书馆内部学术资源的关联情况,而且便于相关决策数据进行
单个图像元素的描述,从而为数据各个属性值的多维展示提供有效帮助。

参考文献:
[1]史梦楚.数据挖掘在大数据时代下的应用[J].中国新通信,2017(8):88.
[2]刘春霞.基于数据挖掘的用户借阅行为分析:以河南理工大学图书馆为例[J].图书情报
导刊,2017(8):1-8.
[3]程晏萍.大数据在高校图书馆中的数据挖掘流程及应用分析[J].高校图书情报论坛,2016(3):33-35.
[4]张宏伟,史惠媛.数据挖掘在高校图书馆文献采购决策中的应用:以黑龙江中医药大学
图书馆为例[J].中国中医药图书情报杂志,2016(2):22-24.
[5]李艳,吕鹏,李珑.基于大数据挖掘与决策分析体系的高校图书馆个性化服务研究[J].
图书情报知识,2016(2):60-68.
[6]陈静荣.图书借阅分析系统的数据挖掘技术[J].农业图书情报学刊,2017(2):69-72.
[7]王红.数据挖掘在数字化图书馆中的应用研究[J].农业图书情报学刊,2016(1):39-41.
[8]余鹏,李艳,吕鹏.高等院校大数据挖掘与决策分析体系的应用研究[J].现代教育技术,2016(8):102-108.
(编校:周雪芹)。

相关文档
最新文档