基于多元线性回归的数据挖掘技术
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据挖掘始于20世纪90年代,它的发展伴随着数据存储成本的下降以及数据量的高速的增长。数据挖掘的理论基础是统计学,回归分析是统计学上非常重要的分析手段。数据挖掘的主要目的是要建立有效的模型,人们能够在模型中发现一些曾经无法解读或是忽略的信息。好的模型能够彻底改变人们对数据的解读方法以及未来利用数据的方法。数据挖掘技术发展至今已有一些较为成熟的方法,在解决实际问题中,最主要的是确定该用哪种方法以及如何改进这些方法,从而能够更好的依据具体情况来进行数据挖掘,这极大的依赖以往实践的经验。在建立模型后,还需对模型进行测试与改进,以期能更好的面对未来数据。数据挖掘同时是大数据技术的基础,是未来数据处理研究的主要发展方向。
数据挖掘(Data Mining)是从大量的、不完全的、有噪声的、模糊的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。随着信息技术的高速发展,人们积累的数据量急剧增长,动辄以TB计,如何从海量的数据中提取有用的知识成为当务之急。数据挖掘就是为顺应这种需要应运而生发展起来的数据处理技术。是知识发现(Knowledge Discovery in Database)的关键步骤。其中回归分析就是数据挖掘方法中统计方法算法之一,它就是用回归方程来表示变量间的数量关系
数据挖掘在电子商务中的应用是一个将信息转化为商业知识的过程。首先,明确数据挖掘的对象,确定商业应用主题。其次,围绕商业主题收集数据源,并对数据进行清理、转换、集成等技术处理,装载进入数据仓库,并选取合适的数据挖掘算法,构建数据挖掘模型,从目标数据中提取有价值的商业知识,包括商业规则、模式、模型和图表等。对结果进行分析和验证,调整数据挖掘模型,从而保证结果的可靠性和实用性。最后,将商业知识集成到电子商务中心,融合专家知识与领域规则,为商业活动提供决策支持,如图1所示。
通过对这些数据的存储、运算、管理以及分析,除了用以优化自身的界面、服务、管理和产品之外,淘宝还可以对外提供至少三类具备极大商业价值的数据与信息。第一类是针对消费者,方便其购物与消费的数据信息,包括各类商品及店铺信息、促销信息等;第二类是针对店铺以及卖方,可有效提升其店铺管理及商品销售效果的数据信息,包括消费者的消费行为、网络使用行为、媒体接触及使用行为,市场发展及行业竞争数据与信息等;第三类是可以提供给社会及第三方机构帮助其了解电商企业以及淘宝相关的数据集信息,包括销售数据、购买数据、交易数据、消费者行为数据等。
在市场的经济活动中,经常会遇到某一市场现象的发展和变化取决于几个影响因素的情况,也就是一个因变量和几个自变量有依存关系的情况。而且有时几个影响因素主次难以区分,或者有的因素虽属次要,但也不能略去其作用。例如,某一商品的销售量既与人口的增长变化有关,也与商品价格变化有关。这时采用一元回归分析预测法进行预测是难以奏效的,需要采用多元回归分析预测法。
多元回归分析预测法,是指通过对两上或两个以上的自变量与一个因变量的相关分析,建立预测模型进行预测的方法。当自变量与因变量之间存在线性关系时,称为多元线性回归分析。
这种技术通常用于预测分析,时间序列模型以及发现变量之间的因果关系。例如,司机
的鲁莽驾驶与道路交通事故数量之间的关系,最好的研究方法就是回归
在这五个步骤中,模式化是数据挖掘的核心,用的最广泛又最为经典的模式化方法当数数理统计分析,一般情况下,在数据库或数据仓库字段之间存在两种关系:函数关系(能用函数公式表示的确定关系)和相关关系(不能用函数公式表示,但仍是相关确定关系),对它们可进行回归分析、相关分析、主成分分析。
3.2 数据挖掘模型的建立