大数据挖掘的系统分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2019年第19期
信息与电脑
China Computer & Communication
数据库技术
大数据挖掘的系统分析
吴文臣
(齐齐哈尔工程学院,黑龙江 齐齐哈尔 161005)
摘 要:互联网在人们的生活和工作中扮演着重要的角色,互联网将这个世界连接成了一个整体,在互联网中充斥着海量的信息和数据,面对这些数据和信息,如何筛选需要的信息是计算机应用个人或企业思考面临的问题。海量数据信息的处理和整合具有较大的难度,数据挖掘技术可以从海量信息中提取需要的信息,应用于政府、银行、金融、教育等多个领域,因此,分析和探讨大数据挖掘技术具有十分现实的意义。基于此,笔者分析了常见的数据挖掘技术类型,并对数据挖掘技术应用领域及未来发展趋势进行了探讨,旨在为数据挖掘技术的广泛应用提供科学的依据。
关键词:计算机技术;大数据挖掘;系统分析
中图分类号:G434 文献标识码:A 文章编号:1003-9767(2019)19-146-03
Systematic Analysis of Large Data Mining
Wu Wenchen
(Qiqihar Institute of Engineering, Qiqihar Heilongjiang 161005, China)
Abstract: The Internet plays an important role in people's life and work. The Internet connects the world into a whole. It is full of
huge amounts of information and data. Faced with these data and information, how to screen the information needed is a problem faced by computer application individuals or enterprises. The processing and integration of massive data information is very difficult. Data mining technology can extract needed information from massive information and apply it to government, bank, finance, education and other fields. Therefore, it is of great practical significance to analyze and discuss the technology of large data mining. Based on this, the author analyzed the common types of data mining technology, and discussed the application field and future development trend of
data mining technology, in order to provide a scientific basis for the wide application of data mining technology.
Key words: computer technology; big data mining; system analysis
0 引言
随着信息时代的到来,海量数据和信息的处理成为了一个难题,人们十分关注互联网中有价值的数据和信息,需要一种高效的技术对数据和信息进行收集和处理,数据挖掘技术就是这样一种技术。数据挖掘技术涉及的内容较为丰富,对传统的统计分析是颠覆和突破,能够从海量的数据和信息中,采用技术手段对数据进行提炼。互联网中的数据类型多种多样,数据和信息十分复杂,要对数据进行科学定位,探测和筛选有价值的数据,保证其在相关领域充分发挥作用。
1 数据挖掘相关概念
“大数据”首次提出是在麦肯锡研究院的一篇学术论文中,文章中对于大数据进行了定义,指出大数据是未来数据发展的主要趋势,也是未来数据信息时代的标志[1-3]。数据处理
技术对于人们的生活和工作会产生重要的影响,为很多领域和行业提供了有利的条件。科学数据调查显示,2011年到现在,我国数据信息总量成倍增长,截至2017年,我国数据信息量增加了1.8 ZB ,这也代表人类社会真正进入了大数据时代。
信息时代到来以后,海量数据和信息应运而生,信息检索难度较大,数据处理效率较低,数据挖掘技术也应运而生。目前,数据挖掘技术已经逐渐成熟,并形成一定的体系,操作方法较为规范,尽管我国数据挖掘技术起步和应用较晚,但是在各个领域中已经发挥了重要的作用,为各行各业做出了突出的贡献。
2 数据挖掘技术的类型
2.1 聚类分析技术
聚类分析是数据挖掘技术的一种,主要针对数据库的数
基金项目:齐齐哈尔市科学技术局齐齐哈尔市科学技术计划项目(项目编号:GYZD-201909)。
作者简介:吴文臣(1981—),男,黑龙江齐齐哈尔人,本科,副教授。研究方向:大数据、互联网。
据进行抽选,经相近的数据和信息进行分类,将类似的数据和信息放在位置相近的文件群组中,这个处理过程就被称为聚类分析。聚类分析突出的是数据和信息的分类处理和整合,在一定的数据和信息范围内,将其中有价值的信息提取出来,这个过程就会相对容易。聚类分析和分类有着相似的地方,但是还是截然不同的,通过聚类分析方法,可以找出数据和信息之间的规律。目前,聚类分析技术根据数据和信息具体的隶属关系,做好数据和信息分析工作,已广泛应用在教育领域、医学领域中。聚类分析分为硬聚类和模糊聚类,硬聚类主要指向距离较短的数据类划分信息,模糊聚类分析不是特别严格,隶属多个类型。
2.2 分类和预测技术
数据挖掘技术中的分类和预测也是常用的技术,分类主要指预估分类标号,对数据顺序进行划分。在对数据信息进行挖掘时,分类是最基础的步骤之一,在实际分类阶段,要将数据和信息的特征分析出来,结合规律对数据信息进行分类,做好分类构建[4-5]。分类学习过程需要进行必要的监督,对类别数据进行描述进后,确定训练数据集。数据分类方法包括很多种,如决策树、神经网络等,这两种比较常用。神经网络中包括繁多的神经元数量,神经元的连接权值是可以调整的,特征主要体现在分布存储信息、数据并行处理、自动组织自动学习能力佳等方面。神经网络方法是一种数据计算方法,主要以神经单元为基础载体,解决轴突连接生物神经元的问题。神经单元连接多个其他神经单元,抑制神经单元激活,输入相应值后,对这些值进行求和。预测技术是指建立连续值函数模型,预测数据和信息的规律,预测的依据主要是分类和回归,预测方法分为回归分析法和局势外推法。例如,回归分析法展现出的是具有特点的数据,根据函数模型展现数据之间的关联,分析数据之间的依赖关系。
2.3 关联分析技术
任何事物之间都存在一定的连带关系,在互联网系统中各类数据和信息之间具有较为复杂的联系,一类数据和信息出现问题,就会引发很多系统出现问题。数据挖掘技术中的关联分析技术就是分析数据和信息之间的关联,将数据和信息之间的关系进行分析,将数据的规律作为依据,对数据进行处理和筛选。例如,电子商务购物车分析就是十分典型的案例,主要针对消费者网购时选择商品放置在购物车中的顺序、数量、规格等因素进行分析,分析这些数据和信息之间的联系,找出消费者的消费倾向和感兴趣的商品,商家以此为依据总结销售经验和制订销售计划。关联分析也分几种,其中灰色关联度分析是最常用的,这种方法可以以数据的差异和相似度为基本查找对象,对数据信息进行归纳总结。灰色是白色与黑色的过渡色,灰色关联度分析是对信息的表述不是特别清晰的一种,灰色系统可以针对数据处理给出一定的方案,从而可以解决网络中数据分析和整合的问题。
2.4 遗传算法
数据挖掘技术中的遗传算法也是比较常用的一种,这种技术主要依据生物进化论和分子遗传学算法,先将问题相关的数据和信息进行编码,再从数据群体中随机抽取M个染色体作为初始数据和信息,在根据评价函数得出的结果计算相应的值域范围,选择适应值较高的染色体,之后进行复制,通过遗传算子生成新的数据,这种数据挖掘技术适合于比较专业的数据和信息。
2.5 联机分析法
在海量的数据中,还有一类多维的数据,采取多维方式对数据进行查找和分析是十分必要的,联机分析方法就是多维数据处理方法。例如,银行储蓄业务,就是为客户提供资产相关数据和信息处理,为用户提供细致的服务。联机分析法的主要核心概念就是对于维度的认知,支持持数据处理人员从多种角度对各类数据进行查询和分析整合,再将查询的分析结果反馈给信息处理人员。联机分析法主要使用的模型是多维数据模型,可以用于分析大量数据和信息,做好数据和信息的汇总处理。
3 数据挖掘的应用
随着数据挖掘技术的快速发展,数据挖掘技术在各种领域都得到了应用,且应用过程中取得了较为突出的成果,主要体现在以下几方面。
3.1 科学研究中的应用
目前,关于科学研究的相关数据量极大,这些数据和信息有助于为科学研究提供科学的依据,在实际应用中,对科研数据进行分析和整合是数据挖掘技术应用的重要体现。建立数据分析模型,可以为科学技术的发展提供基础资料,为科研事业的发展提供更需要的信息和数据。
3.2 商业活动中的应用
在商业活动中会产生大量的信息和数据,包括销售数据、用户信息、售后服务信息和物流信息等,对这些数据进行统计和分析可以为商业活动提供科学的数据和参数。数据挖掘技术可以找出数据和信息之间的关联,对数据进行有效的分类研究,提高商业活动的效率,保证企业的综合效益。
3.3 生物工程中的应用
随着现代技术的快速发展,生物工程技术也取得了前所未有的成就,在生物工程中基因工程发展较快,采用数据挖掘技术可以对相关数据和信息进行分析,对基因关联信息进行整合和处理,进而能够提高数据处理的效率,提高其准确性,保证生物工程事业的快速发展。
(下转第155页)