数据挖掘技术在数字图书馆中的应用研究
数据挖掘在高校图书馆服务中的应用研究
数据挖掘在高校图书馆服务中的应用研究一、本文概述随着信息技术的迅猛发展和大数据时代的到来,数据挖掘技术已经广泛应用于各个领域,尤其在高校图书馆服务中,数据挖掘技术的应用逐渐成为研究的热点。
本文旨在探讨数据挖掘技术在高校图书馆服务中的应用及其效果,以期为提升图书馆服务质量和效率提供有益的参考。
本文首先介绍了数据挖掘技术的基本概念、原理及其在其他领域的应用情况,为后续研究奠定理论基础。
接着,分析了高校图书馆服务的现状及其面临的挑战,如用户需求多样化、信息资源海量化、服务效率要求高等。
在此基础上,本文深入探讨了数据挖掘技术在高校图书馆服务中的应用场景,如读者行为分析、图书推荐系统、学科服务等。
通过案例分析和实证研究,本文评估了数据挖掘技术在高校图书馆服务中的应用效果,并指出了存在的问题和不足。
本文提出了针对性的建议和改进措施,以期推动数据挖掘技术在高校图书馆服务中的更广泛应用和深入发展。
本文的研究不仅有助于提升高校图书馆的服务质量和效率,也有助于推动数据挖掘技术的进一步发展和完善。
二、数据挖掘技术基础数据挖掘(Data Mining)是从大量、不完全、有噪声、模糊、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
数据挖掘涉及的技术方法很多,主要有数据清理、数据集成、数据变换、数据挖掘过程模型、数据挖掘方法和知识评价等。
数据挖掘的主要功能包括分类、聚类、关联分析、序列模式挖掘、预测、时间序列分析和偏差分析等。
在高校图书馆服务中,数据挖掘技术的应用主要体现在以下几个方面:通过对读者的借阅记录、浏览行为等数据进行挖掘,可以分析出读者的阅读兴趣、习惯和需求,从而为读者提供更加精准、个性化的推荐服务;通过对图书馆藏书的利用情况、读者的借阅率等数据进行挖掘,可以评估图书馆的服务质量,发现存在的问题和不足,从而改进图书馆的管理和服务;数据挖掘技术还可以用于图书馆的决策支持,通过对大量的数据进行挖掘和分析,可以为图书馆的发展规划、资源配置等提供科学依据。
Web数据挖掘技术在数字图书馆中的应用研究
Web数据挖掘技术在数字图书馆中的应用研究摘要:随着信息技术的高速发展,人们积累的数据量也急剧增加,Web数据挖掘技术作为处理数据的专项技术,其优越性能在许多领域都有所体现。
针对Web数据挖掘技术在数字图书馆中的应用进行研究,分别从Web数据挖掘的难点、XML在Web数据挖掘中的应用以及Web数据挖掘技术在数字图书馆个性化服务中的应用三个方面展开分析,以促进Web数据挖掘技术的不断完善,使它能够为数字图书馆提供更好的服务。
关键词:XML;Web;数据库;数据挖掘;数字图书馆0引言信息时代带动了网络技术的高速发展,随着人们对数据知识量需求的增大,图书馆的功能也逐渐趋向于多元化,数字图书馆是一种建立在传统图书馆基础上的信息环境。
图书馆的信息化及网络化使得图书馆可以将知识和信息进行分布式储存,它除了具备传统图书馆的功能外还能向用户提供各种智能化的访问服务。
分布数据存储是利用站点的存储功能,将数据信息储存在多个站点当中,用户只需利用网络的搜索功能就能实现信息的搜索。
网络数据挖掘就是根据人们对网络信息服务需求的原理制作而成,它能为用户快速提供网络信息检索及信息服务等。
1Web数据挖掘的难点1.1Web信息量大且更新迅速数据仓库中的数据相对其它数据而言更加稳定,随着网页信息容量的不断增大,信息的更新速度使得搜索引擎无法发挥其功能。
尽管搜索引擎的规模在不断扩大,但仍无法适应网页的更新速度,在信息的跟踪、管理和收集上都存在一定的局限性。
虽然网络带宽也在逐渐扩大,相关处理技术也不断更新,但在网页搜索引擎方面仍达不到快速、全面的要求,相对特定用户而言,绝大部分网络信息都属于垃圾信息,因此,对网页的数据挖掘应根据用户需求设定一个范围。
1.2Web信息获取困难早期的网页信息多以HTML文件的形式存在,简单的HTML文件使得Web挖掘工具能够轻而易举地获取到信息,且Web站点并未设置相关防护措施。
随着数据库技术和语言的不断拓展,网络页面信息也从静态发展成动态,大部分信息和数据都是直接从数据库中调用,因此,网页抓取工具对网页的访问受到了限制。
数据挖掘技术在数字档案馆中的应用研究
称 数 据 库 中 的 知 识 发 现 , 是 从 大 量 理 的 数 据 人 性 化 , 并 寻 找 示 数 据 计 方 法 、 器 学 习方 法 、 经 网络 等 机 神
机 的 实 际 应 用 数 据 f 据 库 、 本 文 数 文 文 件 ) 巾 提 取 用 户 感 兴 趣 的 信 息
、
引言
去 探索 可 能 隐藏 在 数据 中的知 识 。 ( gtl c ie) Dii hv s a Ar 在 很 多 情 况 下 ,应 用 数 据 挖 掘 技 术 是 为 了 实 现 以下 种 目的 : 发 现 知 识 。 知 识 发 现 的 目标 是
数 字档 案馆
是 随着 2 0世 纪 9 0年 代 数 字 化 技 术 和 网 络 化 技 术 的 高 速 发 展 ,档 案 学 界 继 图 书 馆 界 “ 字 图 书 馆 ”概 念 数
完 成 的① 。 数 据 挖 掘  ̄Daa nn , ( tMiig DM)又 , 的 、 完全 的 、 噪 声 的 、 糊 的 、 不 有 模 随
客 户 度 身 定 做 的 推 销 活 动 。 发 现 分 训 练 样 本 数 据 作 为 输 入 。 训 练 集 由
一
元组 是一 个 由有关 字段 ( 称 属性 又 或特 征 ) 组成 的特 征 向量 , 外 , 值 此 训练 样本还有 一个类 别标记 。一个
具 体 的 样 本 的 形 式 可 为 :( 1 2 v, , v
… …
,
v ; ;其 中 v 表 示 字 段 值 , n c) i c
表示类 别 。分类器 的构造方 法有统 等。 聚 类 。 聚 类 是 将 数 据 分 成 不 同 的群 组 。 它 的 目的是 使 得 属 于 同一 群 组 的 数 据 尽 量 相 似 ,而 不 同群 组 的差 别 尽 可 能 的大 。 与 分 类 不 同 的 是 开 始 聚 类 前 不 知 道 要 分 成 多 少 组 , 么 分 。 一 般 来 说 , 类 要 经 过 怎 聚
基于数据挖掘技术的图书馆借阅量估计模型
基于数据挖掘技术的图书馆借阅量估计模型随着数字化时代的到来,图书馆的角色和功能正在发生深刻的变化。
图书馆不再仅仅是储存书籍的场所,而是成为了知识服务的综合性机构,通过各种信息技术手段为读者提供更加便捷、高效的服务。
数据挖掘作为其中的重要技术手段之一,正在逐渐应用到图书馆管理中。
基于数据挖掘技术的图书馆借阅量估计模型,可以帮助图书馆更好地了解读者的借阅行为和阅读偏好,为图书馆的管理决策提供科学依据。
本文旨在探讨基于数据挖掘技术的图书馆借阅量估计模型的实现原理和应用价值。
一、数据挖掘技术在图书馆管理中的应用数据挖掘是指通过自动或半自动的方法,从大量的数据中寻找规律、模式和趋势的过程。
数据挖掘技术通过对数据的分析和挖掘,可以为图书馆提供重要的决策支持和信息服务。
在图书馆管理中,数据挖掘技术可以应用于读者画像分析、馆藏发展规划、阅读推荐系统、借阅量预测等方面。
图书馆借阅量的预测是数据挖掘技术在图书馆管理中的一个重要应用场景,在借阅量的预测模型设计中,图书馆可以通过分析历史借阅数据、读者信息和图书信息等多种数据,从而预测未来的借阅量情况。
1. 数据采集与预处理在构建基于数据挖掘技术的图书馆借阅量估计模型时,首先需要进行数据采集与预处理。
数据采集主要包括历史借阅数据、读者信息、图书信息等数据的获取与整理;数据预处理包括数据清洗、缺失值处理、异常值处理等环节,以确保数据的质量和完整性。
2. 特征选择与提取在数据挖掘模型中,特征选择与提取是一个关键步骤。
对于图书馆借阅量估计模型而言,可以选择包括时间特征、读者特征、图书特征等多种特征,以构建全面的特征集合。
在特征选择的过程中,可以通过相关性分析、信息增益等方法筛选出对借阅量有影响的重要特征。
3. 模型构建与训练基于数据挖掘技术的图书馆借阅量估计模型可以采用多种机器学习方法进行构建与训练,如决策树、神经网络、支持向量机等。
在模型构建与训练的过程中,需要将数据集划分为训练集和测试集,通过训练集对模型进行训练,再通过测试集对模型进行评估,并进行参数调优。
文本数据挖掘在数字图书馆中的应用研究
类, 涉及文档处理 、 特征提取等多个部分 。构造一个完善 的文本 自 动分类系统 , 是一项复杂的工作 。数字图书馆文本分类过程 , 首先 系统要对文本进行预处理 ,使非结构化 的文本转换成为计算机可
以 识 别 的结 构化 数 据 , 文 本 用 模 型 表 示 , 行 特 征 提 取 , 将 进 然后 构 造并 训 练 分类 器 , 后用 分 类 器对 新 文本 进行 分 类 。 最 文 本 分 类 算 法 主 要 分 为 大类 :1简 单 词 匹 配 法 : 据 文 档 () 根 和 类名 中共 同 出现 的词来 决定 文 档 属 于哪 些 类 ;2基 于 同义词 的 () 词 匹配 法 : 义 一 张 同义 词表 然 后根 据 文 档和 类名 以及 类 的描 述 先定
本 分 类 特点 , 字 图 书馆 文 本 分类 模 型 主 要涉 及 三 个关 键 点 : 数 特征
用 的方法与数据挖掘不同。文本挖掘常常使用 自然语言理解和处 理文本 , 如文本摘要 、 文本分类 、 文本检索等技术。 文本挖掘发现的
知识 往 往不 是 精确 的数据 , 定 性 的规 则 。 据挖 掘 所处 理 的数 而是 数
题要么相关 , 要么不相关 。 然而现实 中大量 的文本都是 由不同的主 题组成的 , 这样提出了文本多类别分类 问题。 现在解决这个问题的 常用方法是先用几种二分类器分类 ,再把预测的结果融合成一个 决策 。这种方法最大缺点是忽略了不同分类器之间的相关性 。 3文本分类模型在数字 图书馆应 用构建。基于数字 图书馆文 .
上 个 世 纪 9 代 初 ,美 国 科 学 家 首 次 提 出 了 数 字 图 书 馆 O年 ( iil Lba ) 概 念 , 此 数 字 图馆 学 界所 关 注 ,并 且 迅速 在 全 世 界 范 围开 始 了对 于数 字 图 书馆 最
数据挖掘技术在图书馆中应用浅议
() 1为图书馆的发展 战略定位服务。图书馆是 个矛盾体 , 作为一个实践服务系统 , 不可避免受到 服务现实的要求 , 同时也不可避免的受到客观条件 的制约。那么 自 身发展战略定位就非常重要 。确定 图书馆未来的走向不但要建立在已有 的特色和规模 基础上 , 而且要清楚 自身拥有 的潜 在资源和面对 的 服务群。利用数据挖掘技术 , 可以科学地评价 自身 和做出确实可行的规划结果 , 以确保 图书馆和谐可 持续发展 。 () 2 为人力资源管理服务。人力资源管理的核 心是人力资源的开发 , 培养人才资源 , 为图书馆事业 发展提供坚实的后盾。怎么培养人才 , 培养什 么样 的人才, 都是值得 我们去研究和规划 的。 目前就 图
维普资讯
20 06年 3月
江树青等 : 数据挖掘技术住图书馆中应 用浅 议
第 3期 ( 1 1 ) 总 O期
书馆员 如何提高 自身价值有着各种各样的意见和看 法, 但组成这一问题的因素不外乎思想道德素质、 专 业水平 、 外语水平 、 现代 化信息技术水 平等几个方 面, 我们可以搜集有关这方 面专家学者们发表 的文 献 , 中挖掘相关数据并结合现代化图书馆发展要 从 求, 建立可预测 、 可调整、 可执行的模 型, 为我们 开 发、 发展 、 管理优秀人才提供规划化科学化的依据 。 () 3 为文献信息管理提供 支持。摈弃文献 的载 体差别 , 文献信息管理说到底就是知识 的管理。浙 江大学图书馆金 中仁和陈振宇先生认为 : 知识管理 是从数据中管理有效知识的整个过程 , 而数据挖掘 是从数据库中抽取隐含 的、 以前未知的、 具有潜在应 用价值的信息的过程。他们还提到 , 在实际应用中, 两者往往混淆使用着 的。这样 看来 , 者是有 区别 两 但有着 很 大 的相 同。我 认 为数据 挖掘 是技术 上 的范 畴, 知识管 理是 宏 观上 的范 畴 。数 据挖 掘应 为 知识 管理提供技术上的支持 。在文献信息管理中就其中 某一具体问题中, 我们 都可 以运用数据 挖掘技术来 建立算 法 或模型 , 来发 现 、 测 和解决 问题 。 当前形 预 势下 , 资金 紧张 是每个 图 书馆 都 面临 的问题 , 各学科 之间如何分配 , 各种文献载体形式如何均衡才能使 这些 经费 最好 的发挥效 益 , 决 的方法 很 多 , 解 最佳 的 解决途径是对文献信息资源进行整合 、 优化 , 构建合 理的、 有特色的信息资源。运用分类 和关联分析技 术, 对流通记录 、 检索请求、 文献利用情况进行分析 , 给整合优化决策过程提供科学合理的数据。 22 在读 者服 务方 面的应 用 . 数 据挖 掘技 术在 信 息 服务 方 面得 到 应用 , 最早 的是流通领域 , 主要用于读者信息使用量的分析 , 有 助于协调信息设置和有效性 。数据挖掘在服务方面 之所 以 能得 到广 泛 运用 , 因为 数 据挖 掘技 术 能 找 是 出信息使用模式或协助管理人 员了解读者行为, 从 而可以改进信息通道, 使信息合理地按 照基于读者 信息行 为周期 模 型来实 施 。 () 1 为读者导读服务。读者导读工作一直 以来 是图书馆服务工作 的重点。在数字化时代 , 信息资 源数量庞大 、 更新迅速 、 来源广泛, 往往使得读者既 感觉到信息过剩 又感觉到无从下手。为此 , 导读工 作就显得尤为重要。我们可以运用分类分析技术把 庞大 的信息 资源 进行 分 类 , 运 用 聚类 分 析技 术 把 或 无序的、 杂乱的信息资源归类 , 给予相应 的标引或建 立相应 的数据库 , 以方便不 同信息用户 群的信息需 求。例 如我们可 以从信息用户的角度 , 了解用户在 哪种情况下需要哪些信息来解决什么样 的问题 , 即 全面了解用户信息需求 , 而确定其信 息需求及信 从 息使用 的模式 , 设计出一套有效的信息服务系统。 () 2 为竞争情报服务。图书馆服务越来越重视
浅析数据挖掘技术在高校图书馆中的应用
丰富但 信息 贫乏 ” 的状况 , 如何将这些数据及 信息转换成有用
的知识 和信息便成为迫切需 要。 而对于 目前 正在蓬勃发展 的数 字 图书馆 , 如何分析和利用用户在使用过程 中所产生的海量信 息 以便更好 的完善数字图书馆 的服务便显得极具价值 。
1 数 据 挖 掘 技 术 简 介
接 创 建 自文 档 化程 序 。 ( ) 于机 器 学 习 社 团 的产 品 。 3源
存放在数据库 、 数据仓库或其他信息库 中的大量数据 中发现有
趣 或 有 用 知 识 的 过 程 。 基 于 这种 定 义 , 数据 挖 掘 系 统 的 主 要 组
成部分有 : ) 1数据库 、 数据仓 库 、 万维网或其他信息库。2数据 ) 库或数据仓库服务器。3 知识库 。 ) ) 4 数据挖掘引擎。5 模式评 ) 估模块 。 ) 6 用户界面。 通过数据挖掘 , 我们可 以从关系数据库 、 数据仓库 、 事物数据库 、 高级数据库 和信 息系统( 对象一 如 关系 数据库 , 时问数据库 、 序列数据库 和时 『序列数据库 , 日 】 空间数据 库 和时 间空 间数 据库 , 文本数据库和多媒体数 据库 , 构数 据 异 库 和遗产数据库 , 数据流 以及万维网 ) 中提取归纳出有用信息 。 数据挖掘功能包括发现概念/ 描述 、 类 关联和相关 、 分类 、 预测 、 聚类 、 趋势 分析 、 离群点 和偏差分析 以及相似性 分析 。 大型数 据 库 中有效 的数据挖掘对于研究者 和开发者提 出了大量需求 和 巨大的挑战。几种商用数据挖掘系统 :
DaaM i ngi ie st brr . t ni n Unv r i Li a y y
Ke wo d : a aMi i g Un v ri ir r y r s D t n n ; ie s y L b ay t
探析高校图书馆数据挖掘
源建设 、 个性化服务 、 图书 管 理 等 方 面 进行 简单 论 述 。 ( 1 ) 数 据 挖 掘 在 图 书馆 资源 建 设 上 的 应 用 。 使用模式挖掘 、 学 科 动 态 分 析, 结合现有馆藏信息情况 , 采用 合适 挖 掘 算 法 及 时 发 现 信 息 资 源 的漏 缺 , 做 好 文 献 的 收集 订 购 。 对 大量 文档 集 合 内容 进 行 摘要 、 分类 、 聚类 、 关联分析 , 从 大 量 的 资 源 巾抽 取潜 在 的 有 用 知识。 采 用 各 种 数 据 挖 掘 技术 与方 法 , 评判 数 字 图书 馆 文 献 信 息 资 源 的 利用 率 、 有效率等, 以便 建设 特色 馆 藏 。 ( 2 ) 数 据 挖 掘 在 图 书馆 个 性 化 信 息 服 务 中 的应 用 。 个性 化 信 息 服 务 不 仅 需 要 针 对不 同 的用 户 需 求 提供 不 同 的 服 务 ,更 重 要 的 在 于 发 现 用 户 的潜 在需 求 进 行 主 动 的信 息 服 务 。数 据挖 掘技 术 为 解 决 此 问题 开 辟 了 一条 道 路 。 ( 3 ) 数 据 挖 掘 在 图 书馆 管 理 上 的应 用 。 数 据 挖 掘 作 为 一种 深层 次 的 数 据 分 析 方 法 .可 以 从 大 量 的 用 户 数 据 中 挖掘 反 映用 户 属性 特 征 和 信 息 行 为 特 征 的 信 息 及 规 则, 从 而 为 图书 馆 用 户 资 源 管理 提 供 极 大 的帮 助 。 此外 . 数据 挖掘 在数 字 图书馆结 构上 的运用 . 主 要 是 从 网 页 的组 织 结 构 和 链 接 关 系 中 获 取 知 识 . 存 此 基 础 上 对 页 面 进 行 分 类 和 聚类 。 或 对 相 关 网 页 进 行 分 析. 发 现 数 字 图 书 馆 页 面的结构和结构模式 , 从 而 对 网页 的质 量 进 行 评 价 , 对 检 索 方 式进行优化 。通过链接分析 和掌握学科 发展状况 , 指 导 网 站 的建设 。 数据挖掘 可以帮助决策者 分析历史 数据及 当前数据 . 从 中发 现 隐 藏 的关 系和 模 式 , 进 而 预 测 未 来 可 能 发 生 的行 为 随 着 数 据挖 掘研 究 的深 入 . 需 解 决 的 问 题 和 面 临 的挑 战很 多 。 如: 在 不 同的 层 次 上 进 行 交 互 的 数 据 挖 掘 ;数 据 挖 掘 结 果 是 否 具 有 准 确 性 和有 用 性 : 用 不 同 形 式 表 示 数 据 挖 掘 的结 果 : 从 不 能 结 构 的 数 据 源 中挖 掘信 息;数 据 挖 掘 的方 法 和模 式虽 然 多 样 却 没 有 统 一地 对 模 型进 行 描 述 和 定 义.各 数 据 之 间缺 乏联 系. 造 成 各 数 据挖 掘 系统 之 间的 封 闭 。 三、 高 校 图 书 馆 数 据挖 掘存 在 的 问题 及 对 策 作 为 图 书 馆 的 未 来 发 展 趋 势 ,数 字 图 书 馆 拥 有 海 量 的 数 字资源。 如何 发挥 其 巨 大 作 用 、 避 免 信 息 过 量 已经 成 为 数 字 图 书 馆 发 展 必 然 要 面 对 的 问 题 ,而 数 据 挖 掘 技 术 存 数 字 图 书 馆 应 用 面 临 许 多 的挑 战 。 随 着 图 书 馆 数 字 化 程 度 与 数 字 图 书 馆 建设 的不 断 强 化 ,
数据挖掘在图书馆中的应用研究
集 信 息 资 源 的 收集 、 建 、 工 、 务 和 长期 保 存 等 于一 体 的数 字 图 书 馆 因 信 息 丰 富 , 实 现 真 正 意 义 上 的 资 源 共 享 , 创 加 服 可 而且 更新 速度 快 等 特 点 越 来 越 受 到人 们 的 关注 。不 过 拥 有 丰 富 信 息 的 数 字 图 书 馆 极 容 易 陷 人 “ 据 丰 富 , 信 息 贫 乏 ” 局 面 , 此 , 书馆 有 必 数 但 的 因 图 要 增 加 对 信 息 的处 理 能 力 以及 对 信 息 资 源 的 组 织 能 力 , 其是 对 海 量 信 息 的深 层 次 开 发 , 取 表 面 上 庞 杂 无 序 的 信 息 的 内在 联 系 尤 提 供 读 者使 用 。 此 , 图书 馆 提 出 了不 少 个 性化 要 求 。 因 给 而利 用 数 据 挖 掘 技 术 因 能 为 读 者 开 展 个性 化服 务 , 被 动 服 务 为 主动 服 务 , 变 因 此 在 这 个 信 息 迅速 发展 的 时代 , 着 重要 的理 论 和 实 践 意 义 。 有
.Hale Waihona Puke h brr . t eLi ay
Ke r s d t n n ; i rr ; n o ai n s r ie y wo d : a mi i g l a i f r t e v c s a b y m o
随 着 高校 图 书 馆 自动化 程 度 与 数 字 图 书 馆 建 设 的 不 断 发展 , 书 馆要 处理 和提 供 的信 息 越 来 越 多 , 来 越 复 杂 。图 书 馆 如 何运 图 越 用 这 一 新 技 术 挖 掘 丰 富 的信 息资 源 , 服 务读 者 和科 学 管 理 提 供 可 靠 的 依 据 , 得 图书 馆 界 深 入 研究 。 , 着 网 络 技 术 的迅 速 发 展 , 为 值 随
浅析数据挖掘技术在高校图书馆中的应用
现所 有 的大项 集 , 也 就 是 支持 度 大 于 给 定最 小 支
持度 的项 集 ; 第 二步 , 从 大 项 集 中产 生 相关 规 则 。 挖掘 的性 能主 要 由第 一 步决 定 ,当确定 了大项 集
1 . 4 决 策 树
决策 树主 要是 基于 数据 的属性 值进 行归 纳分
类, 常用 于分 类 的层 次方 法有 “ i f —t h e n ” 规则 。决
1 . 1 统计 分 析技 术 数 据 挖掘 涉及 的科 学 领 域 和 技 术 很 多 , 如 统
策 树 方 法 的最 大 优 点 就 是 可 理 解 性 , 比较 直 观 。
关键 词 数据挖掘 ; 知识 服 务
中图分类号
G 2 5 O . 7
文 献 标 志 码 A
ቤተ መጻሕፍቲ ባይዱ
文章 编 号 1 6 7 l 一8 1 0 0 ( 2 0 1 3 ) 0 4 —0 0 6 3 —0 3
面对 信 息 社 会 中数 据 和 数 据 库 的 爆 炸 式 增 长, 人 们分 析数 据 和从 中提 取有 用 信息 的能 力 , 远 远不 能满 足实 际需 要 。 目前 所 能做 到 的只是 对数 据 库 中 已有 的数 据 进 行 存储 、 查询、 统 计 等功 能 ,
6 3
武 汉船 舶职 业技 术学 院学 报 2 0 1 3年第 4期
C 4 . 5 、 C AR T和 C HAI D等, 目前 出 现 的 两 种 新 算法 S L I Q和 S P RI NT, 可 以 由非 常 大 的训 练 集 进行 决策树 归 纳 , 可 以处理 分 类 属 性 和 连 续 性 属
数据挖掘技术及其在数字图书馆中的应用
( 5 ) 动 态 性 。数 据 挖 掘 出 的规 则 也 是 随着 社 会 的 进 步
1 数 据 挖 掘 技 术
1 . 1 数 据 挖 掘 概 念
不断变化 的 , 当前 的规 则 只 能 反 映 当前 的 数 据 特 征 。 由于
数据不断产生和更新 , 新数据 不 断加人进 来 , 挖 掘 规 则 所
和 粗 糙 集 等 。数 据 挖 掘 的特 点 可 以归 纳 为 :
( 1 ) 海 量 性 。主 要 从 数 据 中 挖 掘 出规 则 , 其 数 据 必 须 是海量 的、 可 以表 示 整 个 领 域 业 务 状 况 的 。数 据挖 掘 所 处 理 的数 据 源 一 般 是 多 个 数 据 库 经 过 数 据 预处 理后 形 成 的 。
0 引 言
数 字 化 是 当代 图 书馆 的鲜 明特 征 , 数 字 图 书馆 是 未 来 图 书馆 的存 在 形 式 。在 现 代 科 学 技 术 的推 动下 , 高校 图 书 馆 正 朝 着 自动 化 、 数 字化 和信 息 化 的方 向 发展 。数 字 图 书
馆 替 代 传 统 图 书馆 已是 大势 所 趋 。
关键 词 : 数据挖掘技 术 ; 数 字 图 书馆 ; 应用
中 图分 类 号 : TP 3 9 1
文献 标 识 码 : A
文章编号 : 1 6 7 2 — 7 8 0 0 ( 2 0 1 3 ) 0 0 1 — 0 1 1 9 — 0 2 决策树 、 神 经 网络 、 关联规则 、 聚类 分 析 、 统计学 习、 模 糊 集
息 也 不 一 定 会 满 足所 有 的读 者 , 造 成 了读 者 短 时 间 内 无 法 找 到适 合 自己 的有 用 资 源 。 因 此 目前 的 高 校 图 书 馆 面 临 着 愈 来 愈严 重 的 挑 战 , 亟需 进 行 改 进 和 提 高 。
数据挖掘技术在高校数字化图书馆中的应用
Th p ia i n fDat i ng i Co lge Di i lLi ar e A plc to o a M ni n le gt br y a
GONG —h a XI Yu u , NG i s e g Na— h n
( e h oo yS ri s f ir y Un e i f h n h io c n ea dTeh oo y S a g a 2 0 9 , ia T c n lg e c b a. v e o L r , i rt o a g a fr i c n c n lg , h n h i 0 0 3 Ch ) v sy S Se n
s n i dsri e ir yb p ig a f igt h oo ya v n o a z v ei t b a ya l n t n n c n lg r g e . l e e c nh l r p y d ai n e ei
K e o ds aa m i n lb a y socai n r e i ay c sr t y w r :d t nig; ir r ;as ito ul;l r on tuci br on;p ro l e e vc e nai d s r ie s z
A bsr c :The e ae m a y d t h e o e t e c lci n n t iia y tm fc H g ir r ta t r r n aa oft e us rlgg d h ol to si he d gtls se o o e e lb ay.Thee d t i e m uc m po tnt e s aa h d hi ra if r ai n o m ton.Ac o dng O h a ay i,i a a c n o d be tr r a e evie .Ths ril i r uc s t i i g e h l y a c r i t t e n lss l r n a pr vie bri te e d r s r c s i atce ntod e daa m n n tc noog nd m eh t od ,a c se h a tc pa e a l fdaam i ng i c e e l a ,a iuse w O a pl aa mi n e h l y i nd diu sst e prc a s c nd vaue o t ni n o ̄ g i r i l bry nd dc s sho t p y d t nig tc noog n lg fa t lfta o n oH g i rr i hto cua u f n i c e e lb ay.And t n hepr e u e a eho i ho t pt i ehb a y c ns i i he t oc d r nd m t d Ol w o o i z r r o uuc on a o i e pe - m i f nd pr v d r
数据挖掘技术在高校图书馆中的应用
有 数 据 的 分 析 、 理 , 到 某 种 元 组 中 某 些 属 性 的 内 处 得
容 , 是 预 测 出 某 些 信 息 资 源 未 来 形 成 、 用 的 规 律 或 使
等。
常 用 的数 据 挖 掘 方 法 有 : 关 联 分 析 。 主 要 挖 掘 ①
后 ( 果 ) 系 。例 如 , 以通 过 分 析 读 者 在 借 阅 A 图 因 关 可
出 版 日期 等 。
2 .数 据 预 处 理
数 据 预 处 理 : 原 始 数 据 进 行 加 工 处 理 , 除 不 对 去
书 后 , 定 ( 大 部 分 情 况 下 ) 着 借 阅 B 图 书 , 发 必 或 随 来 现 读 者 潜 在 的 借 阅 模 式 。 ③ 分 类 分 析 。通 过 分 析 具
所 谓 数 据 挖 掘 ( t i ig 就 是 从 大 量 的 、 Da aM nn ) 不 完全 的、 噪声 的 、 糊 的 、 机 的实 际应 用数 据 中 , 有 模 随 提 取 隐 含 在 其 中 的 、 们 事 先 不 知 道 的 、 又 是 潜 在 人 但 有 用 的信息 和知识 的过程 数 据 挖 掘 通 常分 为 描 述 型 数 据 挖 掘 和 预 测 型 数 据 挖 掘 。描 述 型 数 据 挖 掘 一 般 是 对 数 据 中 存 在 的 规 则 做 出 描 述 , 常 通 过 对 现 有 数 据 的 概 括 、 炼 和 抽 象 通 精
必 要 的 “ 音 ”, 证 数 据 的 完 整 性 和 准 确 性 。 本 文 使 噪 保 用 的数 据 来 源 主 要 是 泰 州 职 业 技 术 学 院 图 书 馆 图 书
数据挖掘技术在高校图书馆中的应用研究
据挖掘技 术将 为图书馆的资源 组织和管理 、服 务质量 的提升和服 务范围的拓宽提供行之有 效的技 术支持.
2数 据 挖掘 的概 念『3 l 】
数据挖 掘 ( a nn ,D D t Miig M)是从存放在数 据库 、数据仓库或其他 信息库 中的大量数据 中发现 有趣 知识的 a 过程.这些 知识是隐含 的、事先未知 的、潜在的有用信 息,提 取的知识表示为概念 、规 则、规律 、模式等形式.
3 在个性化服 务中的应用 . 4 所 谓个性化服 务,就 是针对不 同读 者的特定 需求 ,主动地 向读 者提供经过 集成的、相对完 整的信 息集合 或知
识集合 . .
预测读者的信息 需求 ,挖掘数据 背后隐藏 的信 息,掌握读 者借阅规律 ,是 高校 图书馆 开展个性 化服务 的基础.
33优 化= 库 架管理 - 传
高校 图书馆是 高校文 献最集 中的Nf ,藏 基本囊 括 了学校 各专业领域及 相关专业 ,以便 于为全校师生 提供 - I
教学、 科研等服务. 由于藏书种类繁多, 科学的 架管理对于优化馆藏建设十分重要. 笔者认为优化书库:架管理 最重要 的是预测文献 的变化趋 势 ,预 留架 位 ,避免频繁 倒架 ,还 能及 时做好剔 旧更新的工作. 【 2
数据挖掘 的功能包括发现概念/ 类描述 、关联 、和相关 、分类 、预测、聚类 、趋势 分析 、离群点和 偏差分析 以
及卡 似性 分析 . H
3数 据 挖掘 技术 在图 书馆 中的 应 用
31指导采访工作 ,)J . J强信息资源建设 j 采访是 图书馆 各项业务中的重要环节 ,是 决定馆藏质量 的重要 因素,也是藏= 建设和文献 资源 局的首要 内 8 容.采访 人员的采购 信息 ‘ 过 }版社 、网络、= 商 日录等渠道获得 ,然后 由专 门采访 人员独 自确 定,或采 纳 般通 } { 学科专家 的意见,不可避免地 带有主观上 的因素:同时 ,图 书馆每年 的文 献采 购经 费是有 限的,为了使这些 经费 最好 的发挥效 益,需要对各学科之问的分配 、各种文 献载体形式 的采购量 做出周密的安排. 利用 数据挖 掘技术 从图 流通 数据 、图: 的历 史采购数据 以及 查询系 统的各 种查询 数据等进 行关联 性分 馆 析 、序列 分析 等挖掘 ,就可以找出文 献拒借集和频 繁借 阅集 ,分析 出文献 的利 用率 ,从而帮助我们及 时得到 需要 补充 的文献和需 要剔除 的文献 信息:为采购文献提 供科 学合理的各种 分析报告及 预测信息 ;指导采访 人员对购 : 岛
数字挖掘在数字图书馆中的应用
维普资讯
《 现代 图 书情 报技 术 Biblioteka 2 0 0 2年第 5期
数 字 图 书 馆
总第 9 6期
数 据 挖 掘 在 数 字 图书 馆 中 的 应 用
王 艳
( 南 师 范 大 学 计 科 院 重 庆 4 0 1 ) 西 0 7 5
【 要 】 在描 述数 据 挖 掘技 术 与方 法基 础之 上 , 摘 探讨 了数据 挖 掘在 数字 图书馆 中的应 用 空间 以及 其 所具 有 的 巨大 应用
字 图 书 馆 的 服 务 核 心 及 利 益 增 长 点 , 而 打 破 图 书 馆 经 费 从
“ 、 、 ” 束 缚 , 之得 到长 足 的发展 。 等 靠 要 的 使
数据 挖 掘是 近 年新 兴 的计 算 技 术 与 方法 , 在科 学 发 现 、 它
商 业 零 售 以 及 信 用 管 理 、 学 等 领 域 已 得 到 广 泛 应 用 , 显 示 医 并
( )分 类 : 知 一 个 预 定 义 的 类 集 , 定 一 特 定 的 数 据 集 属 于 这 3 已 确 些 类 中的 哪一个 ; ( )聚 类 : 知 一 个 数 据 项 目集 , 该 集 合 划 分 成 一 个 类 集 , 得 4 已 将 使
体 和 方 式 的 转 变 , 还 利 用 自 身 丰 富 的 数 字 资 源 和 网 络 化 优 它 势 , 发 新 的思 路 和工 具 , 加 数 字 图 书馆 的功 能 , 教 育 、 开 增 为 生 活 、 术 研 究 提 供 新 的 服 务 途 径 。 人 预 言 电 子 商 务 将 成 为 数 学 有
数据挖掘技术在高校图书馆读者数据分析中的应用研究
随 着信 息技 术的 高速 发展 ,人们积
12大量的数据未被利用 . 随着数据库技术的迅速发展以及数据
库管理 系统 在图书馆的广泛应用 ,在图书
馆积 累了大量的读者 对资源 的历史访问数 据 、图书借 还数 据等。这些数据 中隐藏着 许 多重要的信息 ,人们希望能够对其进行
噪 声 的、模糊 的 、随 机的 实际应 用数 据 中 ,提 取隐 含在其 中 的 、人们事 先 不知 道 的 、但 又是 潜 在有用 的信 息和 知识 的
应 的 行 为 ,从 而 提 高 图书 馆 的竞 争 力 。
图书馆 自动 化 系统 中的借还 来自检索 查询 等数据就是读者积极满足个人信息需求的
行 为 , 也 是 读 者 使 用 图 书 馆 资 源 的 最 佳
证 据 。对 图书馆 的借 阅历 史记录进 行数 据 挖掘 和分析 ,变 图书馆 的被动 服 务为 主 动服 务 ,提 高 图书 馆在广 大读 者心 目 中的 整体 形 象 。
的记录 进行 了清除 ;同时对那 些 已经注 销 了 图 书 证 的 读 者 借 阅 信 息 , 也 进 行 了 清 理 。 根 据 上 述 清 理 后 的 数 据 表 ,进 行 借
在未 来 的数 字化 图书馆 中 ,人们 要
质服 务提 供 有 效 的 决 策 依据 , 据 挖 掘 工 数
目前的 图书馆管理系统无法发现这些 数据中存在的关 系和规则 ,无法预测读者 的信息需求 , 乏挖 掘数据中隐藏的知识 缺 的手 段 。在 图书馆 这样 一 个知识 的海 洋
c d 、书 名 tte 中图法编号 b o — oe il、 ok c d 、排架 号 s ef c d 、借阅者编号 、 oe h l— o e
浅谈数据挖掘在多媒体和图书馆中的应用
浅谈数据挖掘在多媒体和图书馆中的应用摘要:随着信息技术的快速发展,数据挖掘技术在信息利用和提取中发挥日益重要的作用。
本文简单探讨了数据挖掘在多媒体数据库中的应用,结合我院实际情况分析了数据挖掘在图书馆中的应用。
关键词:数据挖掘多媒体挖掘技术文本挖掘Web挖掘1 数据挖掘高职院校的建设正朝着自动化、数字化和信息化的方向发展,作为学院图文信息中心的一员,要走在知识社会的最前面,必须适应高科技、高技术的快速发展,一方面将我们具有传统优势的资源继续保持,一方面积极投入到高职院校数据挖掘工作中。
近年来,数据挖掘之所以引起信息化和数字化的极大关注并被广泛使用,最重要的原因在于它能存储大量的数据,同时可以将这些数据转换成有用的信息和知识。
1.1 数据挖掘的概念什么是数据挖掘?有人说,数据挖掘是从大量数据中提取或“挖掘”知识。
举例来说,从矿石或砂子挖掘黄金称作黄金挖掘,而不是砂石挖掘。
这样一来,笔者以为挖掘是一个很生动的术语,应当更正确的命名为“从数据中挖掘知识”。
另有一部分人只是把数据挖掘视为数据库中知识发现过程的一个步骤。
由以下七个步骤组成:数据清理、数据集成、数据选择、数据变换、数据挖掘、模式评估和知识表示。
这种观点认为数据挖掘可以与用户或知识库交互。
数据挖掘只是整个过程中最重要的一步,因为它发现隐藏的模式。
本文采用数据挖掘的广泛定义:数据挖掘是从存放在数据库、数据仓库或其他信息库中的大量数据中挖掘有趣知识的过程。
1.2 数据挖掘的优点起初各种各样的数据存储在计算机的数据库中,然后发展到可以对数据库进行查询和访问,随后又可以实现即使遍历,所以人们对数据库技术的不断研究和开发使得数据库挖掘技术迈进了一个更高的台阶。
它更能够找出以前数据之间的潜在联系,从而促进信息的传递。
总而言之,数据挖掘是信息技术自然演化的结果。
获取的信息和知识广泛的应用于科学探索、市场分析、商务管理和生产控制等等。
既然数据挖掘不仅可以发现多个数据库之间的数据规律,恰恰这些规律很难被简单的查询系统发现,而且它可以改进不同数据库之间的信息交换和互操作性。
数据挖掘在高校图书馆个性化推荐服务中的应用
数据挖掘在高校图书馆个性化推荐服务中的应用
随着科学技术与信息技术的不断发展,高校图书馆也面临着推进数字化服务、提升服务质量和满足用户需求的新挑战。
在这些挑战中,个性化推荐服务成为了图书馆中的重要发展方向之一。
为了提高个性化推荐服务的精度和效果,数据挖掘技术被引入到高校图书馆的个性化推荐服务中。
在高校图书馆个性化推荐服务中,数据挖掘技术可以通过分析用户行为、用户兴趣和图书馆资源等方面的数据,实现个性化推荐。
下面介绍几个具体应用:
1. 用户画像分析
通过采集用户的阅读记录、搜索记录和借阅记录等,利用数据挖掘技术进行分析,可以建立起用户画像。
根据用户画像,可以更好地理解用户的需求和兴趣,从而实现更为精准的个性化推荐服务。
2. 相似用户推荐
数据挖掘技术可以对用户的数据进行相似度计算,找出和当前用户兴趣相近的其他用户。
通过分析这些相似用户所感兴趣的图书、期刊等资源,可以向当前用户推荐相关资源。
3. 热门资源推荐
利用数据挖掘技术对图书馆资源的阅读、借阅等记录进行分析,可以发现用户借阅量较大、搜索量较多的资源,从而向其他用户推荐这些“热门资源”。
4. 模型预测推荐
通过对用户行为数据的建模,结合数据挖掘技术,可以预测用户对某一资源的兴趣程度,并向用户推荐最符合其需求的资源。
数据挖掘技术及其在数字图书馆中的应用
数据挖掘技术及其在数字图书馆中的应用摘要:数据挖掘技术是信息市场竞争发展和信息经济竞争的产物。
随着信息市场竞争的深入发展和日趋激烈,数据挖掘技术在图书馆界和信息界的应用将越来越广泛。
对此进行了论述。
关键词:数据挖掘技术;数字图书馆;应用0引言数字化是当代图书馆的鲜明特征,数字图书馆是未来图书馆的存在形式。
在现代科学技术的推动下,高校图书馆正朝着自动化、数字化和信息化的方向发展。
数字图书馆替代传统图书馆已是大势所趋。
高校图书馆不仅是学校的文献信息中心,也是为教学和科研服务的教育学术性机构,在高校的教学、科研中扮演着重要的角色,高校图书馆因其信息量大、占用空间少、更新速度快、不受时空限制等特点越来越受到人们的关注,但人们在享受着数字图书馆所带来便捷的同时,也深受其庞大而形式多样的信息资源困扰。
对单个读者来说,不可能对数字图书馆的所有信息资源都需要,而同样的信息也不一定会满足所有的读者,造成了读者短时间内无法找到适合自己的有用资源。
因此目前的高校图书馆面临着愈来愈严重的挑战,亟需进行改进和提高。
1数据挖掘技术1.1数据挖掘概念广义的数据挖掘又称数据库中的知识发现(KnowledgeDiscoveryinDatabases),简称知识发现(KDD)。
它是从大量的、不完整的、有噪声的、模糊的和随机的数据中,提取隐含在其中的、人们事先不知道的、但又是可信的、潜在的和有价值的信息和知识的过程。
狭义的数据挖掘是一个利用各种分析工具在海量数据中发现模型和数据之间关系的过程,是知识发现过程中的一个步骤。
1.2数据挖掘技术及其特点在各个领域的应用中,最常用的数据挖掘技术主要有决策树、神经网络、关联规则、聚类分析、统计学习、模糊集和粗糙集等。
数据挖掘的特点可以归纳为:(1)海量性。
主要从数据中挖掘出规则,其数据必须是海量的、可以表示整个领域业务状况的。
数据挖掘所处理的数据源一般是多个数据库经过数据预处理后形成的。
(2)复杂性。
图书馆的数据挖掘与知识发现
图书馆的数据挖掘与知识发现近年来,随着信息科技与图书馆的相互融合,数据挖掘与知识发现在图书馆领域扮演着重要的角色。
图书馆利用数据挖掘技术,从海量的图书馆资源中发现知识,为用户提供更好的服务。
本文将探讨图书馆的数据挖掘与知识发现的意义、应用及挑战。
一、图书馆的数据挖掘与知识发现意义随着数字时代的到来,图书馆积累了大量的数字化资源,包括电子书籍、期刊论文、图片、音频、视频等。
这些资源蕴藏着丰富的知识,但由于数量庞大,常常让用户难以找到自己想要的信息。
而数据挖掘技术可以通过对这些资源的分析,帮助用户发现隐藏在数据中的知识,提供更加便捷、精确的信息服务。
其次,图书馆作为知识管理与传播的中心,拥有丰富的图书、资料和社会文化数据。
而数据挖掘技术可以帮助图书馆从这些数据中发现潜在的、有价值的知识,提升图书馆的智能化服务水平,更好地满足用户的需求。
二、图书馆的数据挖掘与知识发现应用1. 用户行为分析图书馆可以通过数据挖掘技术了解用户的借阅偏好、阅读习惯、检索方式等,从而为用户提供个性化的推荐服务。
利用用户的历史借阅记录、阅读行为等数据,可以为用户推荐符合其兴趣的书籍、期刊等相关资源,提高信息检索效率。
2. 主题挖掘与分类图书馆可以利用数据挖掘技术对图书、期刊等资源进行主题挖掘,发现其中的关键词、主题热点等。
通过对资源的自动分类,可以帮助用户更快地找到相关的资源,提高检索的准确性。
3. 数据清洗与整合图书馆的资源涵盖了多个领域,数据格式和标准也各不相同。
数据挖掘技术可以帮助图书馆对这些多样化的数据进行清洗、整合,实现资源的统一管理和利用。
同时,清洗和整合后的数据可以为其他机构和研究者提供更好的共享和利用。
三、图书馆的数据挖掘与知识发现挑战尽管数据挖掘与知识发现在图书馆领域具有广泛的应用前景,但也存在一些挑战。
1. 数据隐私与安全保护图书馆保存了用户的阅读记录、借阅信息等,这些信息涉及用户的隐私。
在进行数据挖掘与知识发现时,保护用户的隐私成为重要的问题。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
技术研发TECHNOLOGY AND MARKETV〇1.24,N〇.7,2017数据挖掘技术在数字图书馆中的应用研究陈慧敏(珠海城市职业技术学院,广东珠海519000)摘要:数据挖掘的实廣就是在种类繁多、数量巨大的数据中进行有价值数据的搜寻和整理,从而获取有价值、有意义的 相关数据信息。
对于高校的数字图书馆来说,通过数据挖掘技术能够有效的提高高校数字图书馆的工作效率和工作质 量,方便全校师生更好地查阅资料和所需要的信息。
随着互联网技术的不断普及和发展,加强数字图书馆的信息化处理 对于高校的图书馆的管理而言具有重要的意义,特别是挖掘技术在数字图书馆中的应用更加为数字图书馆的使用提供 了便利条件。
主要结合当前高校的数字图书馆的使用现状和数据挖掘技术的的应用进行分析,针对数据挖掘技术在图 书馆中的应用进行探讨。
关键词:数据挖掘技术;数字图书馆;应用研究;策略分析doi:10. 3969/j.issn.1006 - 8554.2017. 07. 073〇引言随着网络时代的不断发展,种类繁多、数量巨大的信息逐 渐给人们生活带来了巨大的改变这种巨大改变一方面给人们 带来了便利,丰富了日常生活,增加了见闻感受,另一方面巨大 的冗杂的信息也给人们带来了很大的烦恼,过度的信息量造成 了社会的混乱,冗杂的信息、缺乏真实性的信息给人们带来很 多误解,严重影响了社会居民的正常判断。
如何在大量的信息 中分清真假,在网络快速发展的时代不被大量的信息淹没,在 信息的海洋中搜寻适合自己需求、对自己工作和学习生活具有 意义的信息至关重要。
数据挖掘技术的出现为了信息爆炸的 时代提供了一种方便的搜索手段,数据挖掘技术是依赖于互联 网技术的筛选技术,通过数据挖掘技术在数字图书馆中的应 用,能够有效提高数字图书馆的数据筛选效率,在一定程度上 方便了读者的需求。
本文主要结合挖掘技术在数字图书馆中 的应用进行分析,希望能够为挖掘技术在数字图书馆中的应用 作出贡献。
1数据挖掘的基本概念、内容和本质在互联网技术迅速发展的趋势下,加强数据挖掘技术的发 展对于促进数据采集和整理工作具有重要的意义和作用,特别 是对于高校数字图书馆的使用而言,将数据挖掘技术合理的应 用于数字图书馆中,一方面能够有效节省数据查找的时间,提 高工作效率,另一方面能够完善图书馆的数据信息,方便数据 整理和筛选工作;对于数据挖掘技术而言,数据挖掘技术主要 是对于数据信息进行收集、整合以及筛选等过程,为了更好地 分析数据挖掘技术在数字图书馆中应用,本文主要从数据挖掘 技术的以下几个方面进行分析和研究。
1.1数据挖掘技术的基本概念对于高校数字图书馆而言,通过数据挖掘技术在图书馆中 的应用,能够有效的提高数据查询效率,方便学生对于资料的 查阅工作;数据挖掘属于一种多学科的边缘化的技术类型,其 基本学科内容主要包括数据处理学、计算机应用技术、统计学、数据挖掘等多个学科类型,为了更好地应用这些技术,方便对 于大量数据的有效处理和分析,根据数据处理的基本要求定义168出数据挖掘的概念,其基本的概念内涵主要指在数据库中搜索 有价值的数据信息,进而进行合理的分析和应用,这种搜索的 过程能够结合具体的关键词进行驱动搜索,其基本目的要求就 是对数据间隐藏的关系、模式等内容进行彻底的搜索,将隐藏 的未知内容进行重新组合和处理,转化成为使用者有益的信息 和资料,从而服务使用者。
1.2数据挖掘的内容和本质要求数据挖掘的基本内容范围较广,主要包括基础理论、数据 分析、分析技术以及定量定性分析等多个方面,数据挖掘的基 本要求就是通过数据的基本特征进行搜索的过程,这个过程通 常属于一个“演绎”的过程,其本质要求就是在巨大的数据库中 寻找对于我们有作用、满足需求的基本数据。
这些基本数据在 数字图书馆中也是存在的,由于高校的数字图书馆中的数据资 料相对比较冗杂,因此对于学生而言,在学习过程中需要花费 大量的时间去搜寻和整理,将数据挖掘技术与数字图书馆有机 结合,能够帮助学生通过数据挖掘更好地找到自己需要的数据 信息,提高学习效率的同时,节省学生的学习时间。
2数据挖掘的主要功能由于数据资源丰富,种类繁多,目前的数字图书馆中只有 很少部分的数据信息被开发,大部分的数据库资料没有被分析 和使用,很多数据管理者由于恐惧大量的未知数据处理问题,会对很多数据进行不同程度的收集,这样的收集过程直接造成 数据库的不断增加和丰富,从而有效的使用数据越来越低,给 数字图书馆的使用造成了巨大的困难;将数据挖掘技术应用于 数字图书馆中,能够有效地帮助学生更好地发掘数据库中有价 值、有需求的数据信息,从而更好地服务与自己的项目。
数据 挖掘的功能十分丰富,主要包括以下几种类型。
2.1数据挖掘的分类功能在数据挖掘技术中,数据分类是属于数据类别的重要模 式,这种分类功能主要是通过分类函数和分类模型进行数据的 有效选择和处理,这种分类模型能够根据数据的类型和属性将 不同的数据进行系统的划分,然后根据不同的数据属性进行分 门别类的处理和归纳,从而确定不同数据的使用功能和划分种2017年第24卷第7期技术与市场技术研发类,方便进行数据的处理;通过对数据进行属性的划分能够利 用分类模型更好地分析数据类型,并且能够根据已经存在的数 据类型进行数据预测,将未知的数据通过相关的属性和特征进 行划分;在进行数据划分的过程中需要进行数据测试,这些测 试内容由相关领域的专家进行类别的定义,然后根据不同的分 类特征构造不同的分类函数,数据特征符合不同分类函数特征 进行相关的定义和分类处理,从而更好地将数据信息进行整理 和分析。
2.2数据挖掘的回归功能在对数据信息进行分类的过程后,被预测的数据类型属于 新型的数据类型,因此需要采取离散预测值进行估定,这些离 散性的数据主要包括类标号、数字等;在数据挖掘的回归功能 中很多被预测的数据信息都属于数字量类型,这些数字量类型 采取连续的预测数据,在上面的分类中拥有独特的数据特征和 属性。
具体来讲,在数据挖掘技术中普遍采用的预测类标号都 属于分类,这些分类的基本属性都是预测连续数据类型,回归 功能主要是假设大部分的存在类型函数进行拟合处理,拟合后 根据不同的某种函数误差分析出与目标数据接近的数据类型,然后根据相关的要求进行处理和归纳,从而应用于高校的数字 图书馆中,有效地帮助学生更好的搜索信息和数据。
2.3数据挖掘的时间序列分析数据发掘技术的基本逻辑过程是数据分类处理,进而进行 数据回归化的分析和研究,在回归化的基础上就是根据数据的 时间序列进行分析,时间序列分析过程主要功能是将时间序列 数据在时间序列图的基础上进行整合,同时进行可视化的处 理;时间序列分析主要具有三个基本功能,首先能够根据距离 度量数据不同的序列相似性,通过相似性进行不同数据的分类 化处理和整理;其次检验时间序列图中能够根据不同的时间序 列相似性进行未知数据的分析,由此确定时间序列的基本属 性;最后,利用历史时间序列图的数据信息预测未知数据类型,从而提高整个数据库的应用。
3数字图书馆中的数据挖掘应用3.1在信息查询中的应用对于传统的图书馆的信息查询过程而言,读者需要通过分门别类的书籍编号进行书籍的查询,这样低效的查询方式不再满足读者的具体读书需求,为了获取更深度的信息内容,需要图书馆的数据信息与数据挖掘技术合理结合;随着信息技术的不断发展,结合学生的阅读记录和专业背景进行数据化的分类处理能够更好地帮助学生进行数据需求的查询,在满足学生特定阅读需求的同时,能够根据学生阅读历史和相关记录进行阅读推荐,更好的服务高校的学生,满足学生的查询需求。
3.2在图书馆中馆藏资源的优化应用图书馆的文献采购量巨大,特别是很多高校图书馆的信息采集由采集人员决定,因此很多情况下无法均衡不同种类的书籍数量,造成很多书籍经费分配不均的问题出现,在对流通的书籍、杂志等缺少相关的馆藏和整理;通过数据挖掘技术在图书馆中的应用能够有效地分析不同文献的利用效率,然后对文献资料进行合理的评估,科学地预测图书馆文献变化和采购的趋势和数量要求,从而更好地方便图书馆的书籍采集工作,也能更好地帮助学生查询需要的资料和文献,对于现代高校的图书馆具有重要的意义和作用。
4结语本文主要结合数据挖掘技术的特点进行分析,并且合理地分析了数据挖掘技术在数字图书馆中的应用需求,希望能够促进我国高校图书馆的发展,更好地为学生服务。
参考文献:[1]王光沛,潘景昌,衣振萍,等.线指数特征空间内恒星光谱离群数据挖掘与分析[J].光谱学与光谱分析,2016,36(10) :3364 -3368.[2]黄丽娟,邹荫生.基于开放获取的数字图书馆文献资源建设[J].兰台世界,2015(17) :134 -135.(上接第167页)一个重要指标,不同结构类型,其主体结构楼层最大弹性层间 位移角取值不一样,其层间位移量也不相同。
2幕墙建筑的保温性能检测一般目前的保温性能与其材料的选择与利用有着密不可 分的关系,比如说中空玻璃想要实现其保温性能就需要明确玻 璃类型与玻璃的厚度等,所以在针对以中空玻璃进行保温性能 的检测时需要充分检查空气层的实际厚度以及传热系数,当空 气间隔层的厚度能够超过1c m时,中空玻璃的传热系数就能 够控制在2.0 W/(m2 •K),其原理是空气层厚度与热阻有着 曲线的关系形式。
所以在进行目前建筑的保温性能检测过程 之中,幕墙模型的建设也是非常重要的,不仅仅能够实现实际 系数测试值与模拟值的比较,同时也能够提升检测数据的准确 程度。
另外检测应该在基于传热学原理的同时,明确太阳辐射作 用、导热作用、对流作用等综合在一起的效果,然后才能继续进 行检测工作,可以利用幕墙传热系数测试,在模拟冷热环境的基础之上,保持试件空气温度、气流速度以及热辐射条件实验环境的基础之上,明确其发热量、热流系数、热量值差、填充板面积、填充板的热导率以及平均温度等,实践综合计算。
这种测验方法也是利用了目前先进的传热系数模拟计算验证软件,来辅助检测的进行。
3结语在幕墙建筑性能检测的过程之中,还有很大的发展空间,需要在明确其发展问题的基础之上,针对目前的不足进行检测方法的优化与改进,促进对于水密性能检测、气密性能检测、抗风压性能检测、平面内变形性能、保温性能检测等多种检测方法与检测手段的进步,推动幕墙工程的有效进行,为建筑幕墙的实际应用提供保障。
参考文献:[1]李中良.试析高层建筑幕墙施工技术要点[J].中国新技术新产品,2013(21) :3 -34.[2]任伟伟,杨波.试析建筑幕墙施工[].门窗,2013(4):69+71.169。