数据挖掘技术及其在图书管理系统中的应用

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
由上述的分析讨论可知,查询后的浏览时间超过某一范 围时,查询准确度就会开始下降。随着时间的延长,使用者浏 览的数据已经偏离了原先的查询目的。然而不同环境状况下 平均多久的时间才是使用者正常浏览搜寻结果的数据,则可 能因为不同的环境而有所差异,因此此参数值的设定应依据 不同的环境而做不同的设定。
本文所提出的方法在不需要词库的情况下即可取出关键 词来描述网页,而且因为这些关键词都是由使用者所输入,因 此可以极大地降低无意义或不合法的词汇出现的情况。此外, 对于权重的给定方式,过去大多采用 TF/IDF 的方式来给定, 而在本研究中提出另外一种给定权重的方式。
PBX 产品的产生可以追溯到 19 世纪 80 年代,已经有一 百多年的历史。它经历了一个漫长的发展过程,在这个过程中 技术取得了不断的发展和进步。早在 1876 年,美国人贝尔发 明了电话,开启了人类通讯的新时代。此后,通讯技术不断的 发展和革新,1892 年第一台自动电话交换机开通并得到了使 用,1919 年第一台纵横自动交换机问世,1965 年第一台模拟程 控交换机问世,并在实际生活中得到了运用,到 1970 年,第一 台数字程控交换机得到了开通。总之,纵观交换机的发展历 史,它已经走过了上百年历程,并经过不断的技术升级和更新。 随着电话交换技术的发展和更新,交换机的发展也取得了不断 的发展和进步,从步进制发展到纵横制,再到模拟程控交换机 和数字程控交换机。从电话开展的业务范围来看,其业务范围
通过本文所提出的方法,只需要图书馆管理网站的日志 数据就可以对于网络资源上的文档进行自动群集操作,可以 发现这种方法所获得的结果具有相当程度的准确度。另一方
面,通过研究所提出的方法所得到的群集可以更直接的反应 使用者的兴趣偏好,因为分群的资料的来源是网站日志文件 中使用者查询与浏览的纪录。总之,以本文提出的方法来进 行数据和文件分类,可以方便图书管理系统的维护,并为读者 查找利用馆藏资源提供便利,同时该方法可以更直接的反应 读者的兴趣与偏好,有利于图书馆资源的及时优化与更新。
初步的观察 618 篇文章的点选状况之后,再观察研究所 提出的方法在不同的参数下可以描述的网页数量有多少。首 先浏览设定时间后 30 秒所产生有关键词可以描述的网页有 312 篇、60 秒产生有关键词可以描述的网页有 356 篇、120 秒 产生有关键词可以描述的网页有 412 篇。可以发现并非全部 618 篇的文章都可以用使用者关键词描述,因此只有使用者兴 趣越高的文章越容易被描述到。 4 结论
数据挖掘是一门交叉学科,它把人们对数据的应用从低 层次的简单查询提升到从数据中挖掘知识,汇聚了不同领域 的研究者,尤其是数据库技术、人工智能技术、数理统计、可视 化技术、并行计算等方面的学者和工程技术人员,投身到数据 挖掘这一新兴的研究领域,形成新的技术热点。
采用数据清理、数据集成和数据转换、数据归约等数据挖 掘技术对图书数据进行预处理,不仅能节约系统资源,而且能 对数据筛选使其更加具有规律性,从而提高数据挖掘过程的精 度和性能。图书数据在经过一定的预处理后,用数据挖掘技术 能更加快速准确地挖掘出隐藏在图书数据背后的有用的规则 和潜在的信息,这将有利于合理配置图书馆的文献资源和提高
100
—— 科协论坛 · 2013 年第 01 期(下) ——
与 计算技术 信息发展
关于 PBX 在通信市场发展中的几点思考
□ 王记春 李兆祥
(中国联通烟台市分公司 山东·烟台 264000)
摘 要:在交换机的发展历程中,每一次技术的革新将推动市场的巨大扩张,也给人们的生产生活带来极大的便 利。此外,交换机技术的革新也在极大程度上推动了通讯市场的发展,为通讯市场注入了生机与活力。与此同 时,交换机市场也呈现出多元化、个性化的特点。近些年来,PBX 技术又到了更新与发展阶段,改变了原有的单 一性、独立性设备结构,逐步呈现出向数据网络、智能通讯融合,各种新技术的出现、应用和融合,极大程度上促
—— 科协论坛 · 2013 年第 0理系统的数据文件包括书目数据、条形码数据、读 者数据、期刊数据及各类统计数据,它是全体工作人员集体劳 动的成果,是图书馆开展各项业务活动的基础。从技术的层 面看,文件分类方法的设计对图书管理系统的优劣具有决定 性的影响。目前图书管理系统中采用的分类方法多是以文字 内容涵义为依据来衡量文件间的相似度,这种基于内容的分 类方式不能很好地符合使用者的需求,且系统维护不方便。本 文基于数据挖掘技术,提出以使用者的浏览纪录为导向的方 式,将使用者的浏览纪录加以群集,成为种使用者导向的群集 分类方式,可方便地应用于图书管理系统中。 1 数据挖掘技术
资源的利用率,从而为读者提供个性化服务和对图书馆的服务 提供决策支持,其研究成果的应用必将推动图书馆服务系统的 完善,为社会提供更好的服务,创造良好的社会效益。 2 基于数据挖掘技术的文件分类方法
首先将管理系统日志文件中的数据分割为读者关键词使 用数据与读者浏览数据两个部分,接着再由这两份数据表的 整合而获得两者间的关联表,最后通过整合的关联表来计算 网页间的相似度并获得最后的分类数据表。
(湖南省图工委项目:编号 2009L024)
参考文献: [1] Berry,M.J.A.,G.S.Linoff.Data Mining Techniques For Ma-
rketing,Sales,and Customer Support[M].John Wiley & Sons, 2011. [2] 张文修,吴伟志.粗糙集理论与方法[M].北京:科学出版社, 2009. [3] 吴奕宽.浅论信息在教材图书采购中的应用[J].情报科学, 2010,20(1). [4] Broder,A.,S.Glassman,M.Manasse and G.Zweig.Syntactic Clustering of the Web.In Proceedings of the Sixth International World Wide Web Conference,2007:391-404.
经过对数据的处理后,利用使用者查询纪录表数据中的 关键字与 IP 地址作为起始数据,接着将表中的 IP 地址作为搜 寻的条件在使用者浏览纪录表中进行搜寻,最后再将表中的 关键词与查询后所得到的浏览网页新增至另一个汇总表。
该方法的一个突出特点是可以解决搜寻引擎或是检索系 统的查询字符串通常太短以至于无法包含充分的信息来分辨 目标的文件的问题,与常用的单纯以使用者输入的关键词来 相比,可以获得较多的关键词来对文章加以描述。获得了网 页描述关键词句与权重后,就可以针对不同的两个页面之间 的相似程度进行计算。
数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随 机的实际应用数据中提取隐含在其中的、人们事先不知道、但 又是潜在有用的信息和知识的过程。从广义上理解,数据、信 息也是知识的表现形式,但是人们通常把概念、规则、模式、规 律等看作知识,而把数据看作是形成知识的源泉。原始数据 可以是结构化的,如关系数据库中的数据;也可以是半结构化 的,如文本、图形和图像数据;甚至是分布在网络上的异构型 数据。发现知识的方法可以是数学的,也可以是非数学的;可 以是演绎的,也可以是归纳的。发现的知识可以被用于信息 管理、查询优化、决策支持和过程控制等,还可以用于数据自 身的维护。
进了 PBX 技术的发展和进步。
关键词:通信市场 电话交换机 固话业务 发展
中图分类号:TN916.4
文献标识码:A
应用 文章编号:1007-3973(2013)001-101-02
1 引言 产品是整个市场得以发展的源泉,关于市场和产品之间的
关系,可以浓缩为一句话:没有产品就没有市场。但是,当人们 将产生投放到市场的时候,却发现这个过程和结果是十分复杂 的,并且这里面还蕴藏着深奥的学问。对于“产品是整个市场 得以发展的源泉”这一理念,又觉得深不可测,琢磨不透。文章 结合实际工作经验,主要探讨分析 PBX 在通信市场发展的相 关问题,其中包括 PBX 的产生、发展、通讯市场对 PBX 提出的 新要求、PBX 的可替代产品等几个方面,以期能够引起人们对 这一问题的进一步关注,能够使人们对 PBX 在通信市场发展 的相关问题有更加深入的了解。 2 PBX 产品演进与市场发展的历史
与 计算技术 信息发展
数据挖掘技术及其在图书管理系统中的应用
□ 阳学军
(长沙理工大学图书馆 湖南·长沙 410114)
摘 要:利用数据挖掘技术,提出一种面向图书馆读者的简单可行的文件分类方法,该方法只需要网站日志文件
中有关于读者使用的浏览纪录即可达到文件分类的功能。以这样的方式来进行数据和文件分类,可以方便图书
这里要先对网页空间向量 V1 与 V2 稍做处理,处理的方 是先将 V1 与 V2 向量内的数据做联集,产生联集的向量 U,之 后再分别将 V1 及 V2 与 U 比较,产生新的 V1 与 V2 向量。经 过相似度计算后产生相似矩阵表,然后再采用群集算法来针 对相似矩阵中的数据进行群集运算。 3 在图书馆管理系统中的应用
管理系统的维护,并为读者查找利用馆藏资源提供便利。而且该方法可以更直接的反应读者的兴趣与偏好,有
利于图书馆资源的及时优化与更新。
关键词:图书管理 文件分类 数据挖掘
中图分类号:G250
文献标识码:A
文章编号:1007-3973(2013)001-100-02
在当今信息爆炸的时代,图书馆馆藏资源尤其是电子资 源越来越多,读者的要求越来越高,图书管理系统越来越复杂, 如何才能使使广大读者便捷而有效地查找到所需资料是图书 管理系统要解决的一个重大技术问题。
本研究所使用的 FAQ 系统内的资料采用经由人工整理后 的分类资料,全部 618 篇的 FAQ 问题经过分类后被分成 14 大 类。因为这些 FAQ 问题的资料是由人工判断分辨后所产生 的,因此每个类别里的数据应该都具有某种程度的不同特性。
本研究的评估方法是将模型系统在不同参数设定下执行 产生的群集结果与先前经由人工分类的数据相比较,观察比 较由本系统分群所产生的结果是否具有实质内容。而模型系 统执行产生的结果是否具有实质内容的判定方式则是观察经 由系统分群所产生的群集,看群集内部的项目内容是否与先 前人工分类的资料属于同一类别。如果经由模型系统产生的 群集与人工分类结果相同,则表示此群集具有意义,且群集效 果好。如果经由模型系统产生的群集与人工分类结果不相同, 则此群集效果就较差。
相关文档
最新文档