基于回归算法的超市销售数据预测研究
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2020年第5期39
计算机应用
信息技术与信息化
基于回归算法的超市销售数据预测研究
付长凤* FU Chang-feng
摘 要 为了降低超市经营成本,合理安排工作时间和规划货品采购种类、数量,降低库存,本文通过预测销售
情况合理化经营策略。
店铺销售数据的预测可以通过机器学习算法中的回归算法来建立数据预测模型,根据销售数据预测今后未来一段时间店铺的销售情况。
实验结果表明随机森林算法可以处理高维度数据并且训练速度快,容易做成并行化操作,不易出现过拟合现象,预测数据结果更理想。
关键词 机器学习;算法;数据预测
doi:10.3969/j.issn.1672-9528.2020.05.008
* 闽南科技学院计算机信息学院 福建闽南 362000
[基金项目] 福建省中青年课题:基于机器学习算法的连锁超市销售预测模型的研究;项目编号:JAT191043
0 引言
随着世界经济的全球化发展,世界经济的缓慢发展直接影响着各行各业的生死存亡。
随着我国互联网产业的飞速发展。
线下零售行业受到极大冲击。
企业借助精准高效的销售预测数据,敏锐感知市场需求,做出准确判断,对于企业的良性发展产生直接影响。
是企业在日渐激烈的市场竞争中立于不败之地的决策利器。
1 回归算法介绍
对于销售数据的预测问题本质上是对数据回归问题的研究,因此可以采用回归算法进行数据处理。
利用算法模型来解决问题。
需要通过实验数据论证不同算法的预测效果。
常见回归算法包括:线性回归、决策树回归、支持向量机、随机森林回归等。
其中随机森林可以高效处理高维度数据,对并行化处理也有优势且不易出现过拟合问题。
决策树回归易于理解和实现,运用概率分析对数据进行图解化预测,在相对短时间内可以对大型数据源进行有效且可靠的处理。
支持向量机算法在非线性、高维模式数据处理中具有突出表现,能够得出最优解。
销售数据会受很多因素影响,竞争、假日、季节、天气、地理位置等因素都是造成销售数据发生变化的诱因。
但这些情况的影响往往具有不同的评价指标,即特征向量的不同。
那么就会引起数据的量纲和量纲单位的差异,因此需要对数据进行归一化处理,以解决数据特征向量不同的问题。
销售数据的高维度性也是影响数据处理的一个关键
性问题,需要对数据进行降维处理。
PCA 降维技术主要作用有:节约存储空间、提高计算速度。
机器学习的处理过程为:首先提取数据库中的数据标签或初始数据存储到当前数据库中,利用数据对算法模型进行训练,在习得数据判定模式后建立评估模型Final
Model,然后使用未学习过的新数据对算法模型进行测试,并根据测试结果对算法模型进行评估,根据评估结果再调整算法模型中的评估标准。
通过反复不断地学习训练,建立评估模型后
再通过新样本训练对模型进行调整以达到最佳判定效果。
图1 机器学习基本流程图
回归算法是建立在两个或两个以上的数据中存在相互依赖的关系的基础上,建立描述自变量与因变量的相互关系作用的方程。
通过该方程的计算能够完成新数据自变量与因变量的关系推导,因此回归算法能够实现预测操作,在数据预测方面具有良好表现。
目前经常运用的回归算法有K-nearest neighbors 算法、随机森林算法、支持向量回归算法、决策树算法、朴素贝叶斯算法等。
目前国内外主要研究方向包括:ARIMA 的传统线性统计模型、RNN 模型、长短期记忆模型和XGBoots 算法等。
2020年第5期
40计算机应用
信息技术与信息化
(1)ARIMA 模型是利用线性回归统计模型的思想构建因变量序列{yt}和自变量序列{x1t},{x2t},……{xkt}都能够
平稳,并构建因变量序列和自变量序列关系的回归模型:
ARIMA(p,q)模型的构建可以依据数据的自相关函数和偏自相关函数确定。
去噪音后的数据在对数化指数序列的自相关数列和偏自相关数列表现良好。
(2)最近较为流行的RNN 模型,LSTM 模型在处理时间序列高效能的问题上选择记忆册立有着独特的优势。
循环长短期记忆模型神经网络将时序性引入到网络结构中来,关键性不足,梯度的消失和梯度爆炸的问题,长期记忆能力不足等问题。
(3)长短期记忆模型通过引入注意力机制充分考虑到重要单词的数据信息,同时为了避免发生负迁移现象,在目标函数中加入了正则约束。
长短期记忆模型可以很好地提高不同类型数据类别的分配能力。
(4)XGBoots 算法是一种在梯度提升决策树算法的基础上进行改进而来的集成学习算法,是能够完成线性模型的求解器和树学习算法,可以实现并行操作。
2 回归算法介绍
随机森林算法是基于回归模型中树模型的优化算法。
核心思想是Bagging,但是在树模型的基础上做了一些改进。
随机森林算法使用了决策树作为基础学习器,具体使用方式如下:输入为样本集D={(x 1,y 1),(x 2,y 2),…,(x m ,y m )},对于t=1,2,…,T:对样本集进行第t 次随机抽取数据,共抽取m 次,得到包含m 个样本的样本集D m 用样本集D T 训练第T 个决策树模型G T (x),在训练决策树模型的时候,抽取一部分样本特征,在这些随机抽取的样本特征中完成树的生长,构建
树模型:
图2 RF 在回归数据集上的表现
随机森林算法对于当前数据集,有着很大的优势,与其他算法相比表现良好。
能够处理很高维度的数据,并且不需要做特征选择。
利用随机森林对于不同类型的数据进行处理表现来评估其工作效率和数据预测的准确性。
需要通过实验证明Bootstrap 统计方法的最优组合的可靠性,需要证明Bagging 方法的学习器在学习的过程中是否会出现过拟合现象并给出具体解决方案同时产生实验数据结果。
根据结果与真实情况进行对比寻求更准确的参数设定。
3 实验数据
数据字段包含Store(仓库ID)、Competition Distance (与对手的距离),Promo(是否促销),Promo2(是否参与连续促销),ShoolHolidy(是否受学校周末影响)等。
通过实验平台的数据操作,将随机森林算法加以验证,在设置不同参数的情况下取得不同结果。
影响随机森林效果的参数主要有生成单个回归树生成时的特征数、决策树的棵数和树深等组成。
随机森林的特征数过多会影响到逻辑判断的时长,决策树过大会使随机森林的体积过于庞大,产生冗余数据,树深过深会产生过多的叶子节点,影响最终的判定结果,因此对这些参数的采样既不能太大,也不能太小,需要在一个合理的区间范围。
4 模型参数设置及结论
影响随机森林效果的参数主要有生成单个回归树生成时
的特征数、决策树的棵数和树深。
根据多年的科研经验,对实验数据参数的设定有以下参考标准:FR 划分时考虑的最大特征数max_features:选择区间是0.6-0.85之间。
决策树最大深度max_depth:选择在4-10之间。
内部节点再划分所需最小样本数min_samples_split:根据样本数量决定取值,如果样本数量较少,则不需要调整该值。
如果样本量数量比较大,则需要增大该值。
叶子节点最少样本数min_samples_leaf:这个值限制了叶子节点的样本数,如果某叶子节点数目比样本数小,则会和兄弟节点一起被剪枝。
叶子节点最小的样本权重min_weight_fraction_leaf:这个值限制了所有叶子节点的权重之和的最小值,如果权重之和小于这个值,则会和兄弟节点一起被剪枝。
最大叶子节点数max_leaf_nodes:通过限制叶子节点的最大值,可以防止过拟合现象。
如果特征较少,则不限制这个值,但如果特征数较多,则需要加以限制。
从实验结果可以得到:MAE(平均绝对误差)为0.245。
MSE(均方误差)为0.135。
rMAE(均方根误差)为0.350。
R2为0.4。
MAE、MSE、rMAE 均是越小越好,越小说明预测的结果越准确;R2越接近1说明预测数据越接近实际情况。
数据预测已经无声无息地存在于我们的生活中了,您手机中经常收到的广告推送,某宝页面上的物品展示,都是依
照个人需求的精准推送,本项目的预期研究成果极具推广和
2020年第5期41
计算机应用
信息技术与信息化
Web 前端技术在网页视觉中的应用研究
王显梅* 陈 慧
WANG Xian-mei CHEN Hui
摘 要 随着我国信息化水平的不断提高,网页开发技术的要求在不断升级,本文通过HTML 、CSS 和JavaScript
在网页制作中的有效融合,分析了Web 前端技术在网页视觉中的应用及技术的优化,使网页制作的效果更符合大众的需求,用户得到更好的浏览体验。
关键词 Web 前端技术;HTML ;CSS ;JavaScript
doi:10.3969/j.issn.1672-9528.2020.05.009
* 广西职业技术学院 广西南宁 530226
[基金项目] 2017年度广西高校中青年教师基础能力提升项目(课题编号:2017KY0981);广西职业技术学院科研项目(课题编号:131209)
0 引言
随着互联网的发展,人们对网页的体验要求越来越高,浏览者除了浏览信息,同时也慢慢在重视网站的质量,从网页内容到制作技术等方面都有了更高的要求,特别是版面的布局、丰富的媒体等视觉方面的感官。
因此,Web 前端渐渐成了网页制作不可缺的技术,网站开发人员可以使用这些技术让网页的界面更好地呈现给浏览者,体验服务更体现人性化,同时满足人们对网页多样化的需求。
1 W eb 前端开发的关键技术
在Web 前端开发中,最关键的核心技术是:HTML、CSS、JavaScript,这三种技术分别承担不同的功能,且执行不同的标准,同时它们又常常在一起协调工作,HTML、CSS 和JavaScript 是网页制作的基本应用技术,在网页设计中各负其责,又互相紧密联系,HTML 和CSS 的关系就像人的骨骼和衣服,骨骼相当于HTML 网页结构,衣服相当于CSS 网页的外观,而JavaScript 相当于人的行为或动作,即网页中的动态效果。
HTML,也称超文本标记语言,主要用来对网页中的各媒体,例如:文本、图片、声音、视频等内容进行描述。
HTML
应用价值。
基于个性化的购物需求已经越来越受到消费者的追捧,因此数据预测有更广泛的应用领域和较高的实用价值。
商家利用数据预测精准把握客户需求,降低企业投入成本,并能够为企业带来更多利润。
参考文献:
[1] 汤荣志. 数据归一化方法对提升SVM 训练效率的研究[D]. 济南:山东师范大学,2017.
[2] 吴纯青,任沛阁,王小峰.基于语义的网络大数据组织与搜索[J].计算机学报,2015,38(01):1-17.
[3] 艾洪福.基于MLR 模型的雾霾天气预测研究[J].农业与技术,2019,39(22):148-150.
[4] 许姗姗.基于机器学习的商品销售预测的研究[J].统计与管理,2019(04):49-52.
[5] Zhang GP.Time series forecasting using a hybrid ARIMA and neural network model.[J] Neurocomputing,2003(50):159–175.
[6] 石炀.股票价格与人民币汇率的联动性分析——基于Copula-ARIMA 模型[J].山西财经大学学报,2019,41(S2):14-19.[7] 姚小强,侯志森.基于树结构长短期记忆神经网络的金融时间序列预测[J].计算机应用,2018,38(11):3336-3341.[8] Fischer T, Krauss C Deep learning with long short-term memory networks for fi nancial market predictions.[J] European Journal of Operational Research,2017,270(2):654–669.
[9] Hochreiter S,Schmidhuber Long short-term memory. [J].Neural Computation,1997,9(8):1735–1780.
[10] 龚琴,雷曼,王纪超,等.基于注意力机制的卷积-双向长短期记忆模型跨领域情感分类方法[J].计算机应用, 2019, 39(08):2186-2191.
[11] 冯晨,陈志德.基于XGBoost 和LSTM 加权组合模型在销售预测的应用[J].计算机系统应用,2019,28(10):226-232.
(收稿日期:2020-03-23 修回日期:2020-04-16)。