大数据在企业中的应用
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
大数据在企业中的应用
[摘要]
企业应用系统在长时间使用后,都会出现数据量增大和应用系统性能下降的现象。本文针对这一状况,提出在清除历史数据前或对历史数据进行归档前,对其进行转移和复制并在可能的情况下构建数据仓库,对企业历史数据进行挖掘的方法。详细介绍了数据挖掘技术的概念、数据挖掘流程和常用的模型,以及数据挖掘在企业历史数据中的主要应用。
[关键词]数据挖掘;模型;算法
引言
随着企业信息化应用的不断深入,各种大型应用系统纷纷上线,如ERP(EnterpriseResourcePlanning,企业资源计划),CRM(CustomerRelationshipManagement,客户关系管理),SCM(SupplyChainManagement,供应
链管理)等,一些小型应用软件及企业内部开发人员开发的应用软件的相继使用,也成为企业信息化的必要补充。这些应用系统规模大小不一,系统架构各异,所使用的数据库也不尽相同,可以是ORACLE,SQLServer,DB2,MYSQL等主流数据库,甚至也包含Dbase,Excel等数据源。另外,各种应用的功能模块也不相同,有的多而全,有的小而单一,但主要包含财务管理、客户管理、供应商管理、进销存管理等模块。随着时间的推移,业务记录越来越多,数据库中的数据量也越来越大。对于小型的应用软件,由于系统逻辑相对简单,可以对数据库中的历史数据按照规定进行清除,然后将其快速部署在新的硬件环境上。但是大型应用软件因为系统复杂,尤其是多组织的跨集团公司的应用系统,加上数据的多年积累,应用系统性能每况愈下,此时如果进行数据迁移和应用移植,一般由专业公司来做,而且费力费时,需要长时间的测试然后进行切换。通常的做法是,对历史数据进行定期清除,然后通过添加新的存储设备来改善系统性能。传统应用系统的使用都局限在业务记录层面,首先业务用户录入业务操作记录,然后通过查询或者调用报表来查看业务过程和结果。更深层的应用,是建立在分析的基础上,则可以就某个独立应用的数据库进行数据挖掘,也可以通过数据仓库将企业不同应用系统下异构数据库中的历史数据进行整合,然后进
行数据挖掘,让历史数据进一步发挥“余热”,从而为企业生产经营提供决策支持。数据仓库虽然能整合异构数据源,并对数据进行预先清理,但由于其成本大,实施周期长,故较少采用。一般较经济的做法是,把应用数据库中的数据导入只读的数据库中,以此作为数据集市(DataMart),进行数据挖掘。另一方面,随着数据挖掘专用软件技术的日臻成熟及计算机硬件性价比的大幅提高,使得数据挖掘的实施成为可能职称论文。
2数据挖掘技术
数据挖掘(DataMining)是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。是以先进的工具软件基于人工智能(AI)和数学统计分析技术对海量数据根据某种算法进行计算机辅助分析,提取隐含的定性关系的过程,是知识发现(knowledgediscoveryindatabase)的关键步骤。
数据挖掘的流程包括:(1)定义问题,明确数据挖掘的目的。(2)数据准备,包括选择数据——在大型数据库和数据仓库目标中提取数据挖掘的目标数据集;数据预处理——进行数据再加工,包括检查数据的完整性及数据的一致性、去噪声,填补丢失的域,删除无效数据等。(3)数据挖掘,在净化和转换的数据集上根据选择的算法进行数据挖掘。(4)结果分析,解释和评价数据挖掘结果,并转换为终端用户能够理解的知识。其常用算法包括:神经网络方法、遗传算法、决策树方法、粗集方法、覆盖正例排斥反例方法、统计分析方法和模糊集方法。数据挖掘模型按照功能分为预测模型和描述模型,描述性挖掘任务刻画的数据一般特性;预测性数据挖掘任务在当前数据上进行判断,以便预测。
数据挖掘用来构建6种模型:分类模型(ClassificationModel)、衰退模型(RegressionModel)、时间序列模型(TimeSeriesModel)、聚类模型(ClusteringModel)、联合分析模型(AssociationModel)和顺序发现模型(SequenceModel)。前两者被用来作预测,而联合分析模型和顺序发现模型被用来描述行为,聚类模型则被用来描述或预测。分类模型用于提取能代表群体的特征属性,一般用规则或决策树模式表示。聚类模型则将一个群体分成多个类,使同类个体尽可能相似,而不同个体差异尽可能大,聚类分析可以建立宏观的概念,发现数据的分布模式,以及可能的数据属性之间的相
互关系。联合分析模型用于发现事物间的关联规则和相关程度,关联分为简单关联、时序关联和因果关联,关联分析的目的是找出数据库中隐藏的关联网,一般用支持度和可信度两个阈值来度量关联规则的相关性,其挖掘算法主要有:Apriori,STEM,AIS等。衰退模型用属性的历史数据预测未来趋势。时间序列模型是指通过时间序列搜索出的重复发生概率较高的模式,是用已知的数据来预测未来,其方法主要有加权移动平均法和最小二乘法。顺序发现模型与联合分析模型相似,不同的是顺序发现的对象是在时域分布的,发现的规则与先后顺序有关。
3数据挖掘在企业历史数据中的应用
3.1数据挖掘在财务分析中的应用
财务分析通过评价企业过去和现在的经营成果和财务状况及其变动情况,来了解过去,评价现在,预测未来。财务分析中常用的方法有比较分析、结构分析、因素分析、比率分析等。
3.1.1成本分析
企业管理者坚信对成本的精确计算和对资源的充分利用可以有效地改善企业的运营状况,但其复杂的操作使得很多人望而却步。利用数据挖掘中的回归分析、分类分析等方法能确定成本动因,更加准确计算成本。同时,也可以通过分析成本与价值之间的关系,确定采用其最佳策略的成本,持续改进和优化企业的价值链。
3.1.2市场分析
选择适当的产品系列和组合以实现最大利益是企业追求的目标,这些利益可以是短期利润,也可以是长期市场占有率,还可以是构建长期客户群及其综合体。为了达到这些目标,不仅仅需要价格和成本数据,有时还需要知道替代品的情况,以及在某一市场段位上它们与原产品竞争的状况。另外,企业也需要了解某一个产品是如何刺激另外一些产品的销量的,等等。例如,非盈利性产品本身是没有利润可言的,但如果它带来了可观的客户流量,并刺激了高利润产品的销售,那么这种产品就非常有利可图,就应该包括在产品清单中。这些信息可通过关联分析等技术来得到。
3.1.3投资决策分析
投资决策分析本身就是一个非常复杂的过程,往往要借助一些工具和模型。