数据挖掘分析及其算法的应用
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
信息·技术信息记录材料 2019年1月 第20卷第1期
一定的修改时,需要相关的访问权,访问权的存在很大程度上避免了用户数据库被随意删改。
4.2 身份识别技术
身份识别技术作为一种在数据库安全防护方面经常使用的主要技术,在相关领域被大范围应用。身份识别技术指的就是在用户登录计算机时,需要验证真正的身份。通过用户实名制可以有效的防止用户身份信息被泄露,大大降低了用户身份被恶意攻击以及被欺诈的频率,从而有效的保护用户信息的隐秘性以及安全性。在对用户身份识别方面应用的技术有密码验证、指纹验证、人脸识别以及笔记录入等。密码验证中,不同的用户拥有不同的密码,相同的密码不能被同时使用,保证了用户的信息和数据安全。另外,笔记验证则是通过录入用户的笔记,以便在下次登录的过程中进行验证。通过使用身份验证可以有效的降低不法分子入侵的频率,保障数据库的安全性。
4.3 存取控制技术
计算机数据库中一项十分重要的安全防范技术就是存取控制技术。存取控制技术指的是用户在计算机对相关的数据进行存储或者取出,通过对其进行合理的控制可以提高数据库的安全性,在此过程中,没有授权的用户没有访问数据的资格。随着网络技术的不断发展,在我国当前涉及的存取技术一般包括两个重要的类型,即自主控制和强制控制。其中,自主控制指的是有数据权限的用户可以访问数据库中的相关信息,并且能为其他的用户提供相关的授权。但是这种自主控制在抵御不法分子入侵方面不能发挥良好的作用。而强制控制指的是当一些用户在对数据进行访问时,由于提前对相关数据进行密码等级的设定,进行访问的用户根据自身掌握的密码访问相关的数据,密码等级与一些数据一一对应,提高了数据库的安全性。强制控制就自主而言有更高的隐秘性,在实际的应用中也比较广泛。
4.4 安全审计技术
在对计算机的密文实施加密处理的过程中,可以使用多种算法。主要有:加密计算法、解密计算法以及相应的加密前报文和加密后报文等,不同的加密方法其破译的难度也有所不同,应当根据实际情况来选择不同的加密方式。通过对利用加密方法,进而对数据库进行相关的加密处理,可以有效的保证数据的安全性。
4.5 链路数据加密技术
在各种计算机数据加密技术中,链路数据加密技术能够有效地划分网络数据信息的传输路线,对不同传输区间的数据信息进行加密,大大提高了信息在传输过程中安全性。即便传输信息遭到非法窃取,也无法被及时解密。应用链路数据加密技术,数据传输中的加密过程不再只是简单的函数运算,针对不同传输区域的数据进行长度改变,有效地解决了数据窃取问题,窃取人员面对极其复杂的数据加密模式往往难以及时进行数据破译,计算机网络工程的安全性得到了很大的提升。
5 总结
网络是一把双刃剑,随着网络技术的不断发展,一方面方便了人们的生活,提高了人们的生活生产效率。同时,网络的发展,计算机数据库的安全性也给相关用户的信息数据安全带来了很大的隐患。因此,我们应当深刻认识计算机数据库中的安全隐患,采取相应的安全防范措施,通过相关技术的应用,如:访问控制技术、身份识别技术、存取技术等,进而加强计算机数据的安全性,保证用户的信息安全。
【参考文献】
[1]李冠蓉.计算机数据库安全管理策略研究[J].才智,2017,(25):269.
[2]高寒、喻金科.基于档案管理系统的数据库安全与防范策略研究[J].无线互联科技,2018,(1):28-30.
[3]暴轩.计算机Oracle数据库的优化措施[J].数字通信世界,2017,(10):119.
1 引言
随着互联网时代快速发展,人们在学习生活和工作中,很多方面都能产生大量不同的数据。在如此庞大的数据面前,如何快速高效地对数据进行分析处理已经成为大众所关注的焦点。本文介绍了一种较为高效的数据处理技术—数据挖掘,主要从它的基本理论及其处理过程两方面进行
数据挖掘分析及其算法的应用
霍 畅,刘亚丽,董景园
(河北农业大学理工学院 河北 沧州 061100)
【摘要】在互联网“+”和云计算背景下,时代飞速发展的同时积累了大量形式的数据,为了对急剧增长的数据进行处理,数据挖掘技术随之产生。本文总结了数据挖掘的基本理论和过程,并在此基础上分析了Apriori算法,然后对该算法在商业领域和医疗方面的应用进行了介绍。
【关键词】大数据;数据挖掘;Apriori算法
【中图分类号】TP274 【文献标识码】A 【文章编号】1009-5624(2019)01-0066-02 DOI:10.16009/13-1295/tq.2019.01.044
66
信息·技术信息记录材料 2019年1月 第20卷第1期
了总结。此外,为了缓解数据挖掘的压力,还引入了具有关联规则的Apriori算法来改进该技术,然后讨论了该算法的一些应用。
2 概述
2.1 数据挖掘概念
数据挖掘(Data Mining,DM),是在数据库研究发展中极其重要的一个环节,它目前是人工智能和云计算领域研究的热点,所谓数据挖掘就是在海量数据中提取出对用户来说具有价值意义的信息。广义上的过程是在某些研究数据中寻找一些模式的决策支持过程,基于人工智能、机器学习、统计学、数据库、可视化技术等,归纳推理分析数据并从中挖掘出潜在模式,以便用户做出更好的决策。[1]
1.2 数据挖掘过程
通常来说,数据的挖掘过程分为四个主要阶段:问题设置、数据准备、挖掘操作、结果的证实与表达。
(1)问题设置阶段
根据用户不同的需求,有针对性的设置问题,在一个大问题基础上逐步细化为一个个小问题,在可以进行数据挖掘之前,把这些问题落实到数据挖掘的任务中。
(2)数据准备阶段
①数据集成:解决数据语义歧义、处理缺失数据和清洗数据等问题。
②数据选择:主要是为了使选择出的数据更加精确并且提高所要挖掘的数据的质量。
③数据预处理:有利于打破目前数据挖掘工具的限制。
(3)挖掘操作阶段
此阶段进行实际挖掘操作。根据用户不同的数据挖掘需求,确定对应的挖掘方法,选择合适的工具,实现高效的数据挖掘。
(4)结果的证实与表达
最后得到的数据要依据用户的决策目的进行筛选过滤,提取最有价值的信息传达给用户。如果用户不满意,还需重复上面的数据挖掘过程。[2]
3 Apriori算法分析
Apriori算法在数据挖掘关联规则算法中是具有代表性的算法之一,它对数据挖掘研究有着潜移默化的影响。所谓关联规则算法指在数据集合中找到相关关系或者特殊的关联,从而找到频繁项集(出现频率比较高的属性集),然后再根据频繁项集将关联规则过程描述出来。为了尽量找到所有的频繁项集,A p r i o r i算法会运用逐步迭代法搜索相关信息,H-项集用于搜索(H+1)-项集,即逐层扫描各属性集合。在充分了解用户需求的前提下,A p r i o r i算法将关联规则挖掘算法大致分为成2个子问题:
(1)算出属性集H中符合最小支持度的全部频繁项集。
(2)根据频繁项集生成符合最小置信度的全部关联规则。[3]
首先,数据库读入所有数据信息,获取候选项目1属性集的支持度,找到频繁单项集,并根据单项集合的结合生成候选项目2集合。如果候选集合规模较大,就再一次扫描数据库,获取候选项目2集合的支持度,并找到候选项目2的频繁单项集,从而再产生候选项目3集合。[4]通过类比,与最小支持度比较,产生下一个更小的频繁项目集合,一直到不能再产生新候选项目集合为止,所需要的数据就可以慢慢被准确的挖掘出来。
4 Apriori算法应用
Apriori算法有着广泛的应用领域,如消费市场,网络安全,医疗分析等。例如在商业领域中,可以很快分析出各商品价格之间的潜在关系,商家可以锁定一些目标客户,确定顾客的消费习惯,升级营销手段,从而减少一些广告预算同时增加收入。再比如医疗方面,医学数据规模庞大,而且错综复杂。利用该算法可以对一些病理报告和临床信息进行分析,找到它们之间的关联,可以为诊断提供理论依据。
5 总结
数据挖掘是一门高效处理数据的技术,如今在很多产业变得尤为重要。尽管Apriori算法推导过程相对简单并且在某些应用过程中具有很多优势,但是在实际挖掘操作中仍存在许多局限性。比如重复率较高,系统需要多次扫描数据库,并且每次都要全面扫描候选项集合,如果数据库的规模较大,扫描的次数和层数也会随之增多,计算时间便会延长,工作效率也会极大下降,开销方面也会增加。总之,数据挖掘技术还仍需改进,还有许多具有挑战性的关键问题需要深入探索。
【参考文献】
[1]陈超.数据挖掘技术在自适应网站中的应用研究[D].浙江工业大学,2013.
[2]史超.数据挖掘中聚类算法的分析与实践[J].电脑与电信,2009(05):42-44.
[3]付向艳,胡枫.Apriori算法在学生成绩管理系统中的应用[J].电脑迷,2018(12):186
[4]牛丽敏.Apriori算法分析与改进综述[N].桂林电子科技大学学报,2007(01):27-30.
67