“华中杯B题”库存补单及销量预测
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
库存补单与销量预测
摘要
本文针对商品销量预测与商家补单的运营操作,使商家在满足一定的社会效益和获得最大经济效益的前提下,采用层次聚类和灰色预测分析,建立了灰色系统模型,从而预测未来一月的销量,通过建立基于动态神经网络的时间序列分析预测未来5天各种商品的销量。
基于货物样本的随机分布,采用随机变量,给出上新量的置信区间和理想的补单策略,分别得出:上新量与延期比的X围分布情况,不同季度商品的上新量与延期比的分布,提供了关于商家采集购置数据的合理化建议和商家进展补单的较好策略,并给出模型的改良意见。
针对问题一,通过查阅相关资料并结合附件一,收集相关商品不同时期的销售量,用Excel处理数据,得出相关矩阵并结合MATLAB给出轮廓值分布图,研究商品的分类类别。
分别采用层次聚类与动态聚类进展相关研究,得出较适宜的分类情况,确保各指标能够准确的反映商品的销售情况;最后确定灰色预测模型对未来销量进展预测。
利用处理的数据对动态神经网络进展训练得到较为准确的各种商品在未来几天的销量。
针对问题二,分别研究商品样本数与商品上新量之间的关系和商品样本数与商品延期比之间的关系,并结合相关直方图进展分析得出以上关系满足正态分布;最后利用统计学中的Q-Q图,建立相关模型,对上新量的分布X围以与置信区间直接进展求解。
针对问题三,做出每个季度中商品样本与上新量与延期比之间的关系,观察样本分布直方图,利用整体分布相关性质,同问题二中方法一样对分布X围以与总体置信区间进展求解。
针对问题四,整合前三问的求解结果,得出对未来销量的趋势,结合各个季度的上新量与延期比的分布X围与置信区间,并且根据商品的使用性质以与客户
群体的实际购置意愿,为商家有效谋划。
最后,写一篇短文,给出具体的补单政策建议,从而提高商品的转化率以与销售数据。
关键字:动态神经网络灰色预测时间序列分析 K-means均值法
1.1问题背景
在电商行业中经常会出现补单的情况,其原因是买家突然增加了新的需求量,有时也因为商品品质异常不能满足客户的需求。
为了合理的解决补单问题,商家须考虑到以下两个方面:
第一是补单对现金流的占用。
如果对补单情况预测过于乐观,货物本钱会对商家产生不少的压力,还会导致的巨大资金流的占用,这对于许多电商都是一个头疼的问题。
第二是补单对库存的影响,商品最终的销量是取决于客户对于补单的需求量,一旦我们对补单情况估计过于乐观,如此会导致大量货物积压,货物滞销又会带来仓储问题,更重要的是还需要考虑清仓问题,清仓问题即是通过各种营销手段以更低的本钱来销售商品,这时不仅会导致资金流移动慢,还会导致企业利润降低、资源浪费、拉低品牌溢价等一系列问题。
为了防止这两种情况的发生,我们采取科学合理的补单预测是十分重要的。
1.2问题提出
1)请根据附件一中的销量数据建立一个销量预测的数学模型,要求至少能够比拟准确地预测未来五天的货物销量大小;
2)请根据附件二分析货物的上新量和延期比的分布情况,并给出分布X围与置信区间;
3)请根据附件二中的数据进一步分析各个季度货物的上新量和延期比的分布情况,并给出分布X围与置信区间;
4)请根据上述分析结果,制定合理的补单策略,写出具体操作流程。
买家增加需求量而追加订单的情况称之为补单,有时补单也指商品品质不能满足客户而导致的追单。
此外,商家补单的同时需考虑对资金流的影响以与对库存的影响。
问题一:题目要求通过附件一的数据对未来五天的销量进展预测,本文采用K-means均值法对销量数据进展聚类分析,由于附件一所给的货号以与日期数据过于庞大,本文通过Excel表格对数据进展矩阵化处理,将其转化为货物〔行〕—日期(列)的一个矩阵,并采取手肘法和轮廓系数法综合来确定k值,最后再建立GM〔1,1〕模型对未来五天数据进展预测。
针对未来每天每种商品的销量预测,通过建立的矩阵以每种商品的历史销量作为训练对象,建立每种商品的动态神经网络,通过网络的时序分析对每种商品的销量做出预测
问题二:题目要求通过附件二的数据来探寻上新量和延期比与货物种类的关系。
首先将附件二中延期比和上新量两类数据分别与货物种类进展比照,建立了两个Excel数据表格,再把Excel表格导入SPSS来查看其分布情况,根据得到的直方图,初步猜测其符合正态分布。
再通过SPSS对其进展正态性检验,发现其显著性为0.2>,因而满足正态分布,故原猜测正确。
问题三:题目要求通过附件二的数据来探寻第一、二、三季度的上新量和延期比与货物种类之间的关系。
首先从附件二中抽取第一、二、三季度的上新量和延期比数据并建立Excel表格并对表格数据进展升序处理。
为了便于观察上新量和延期比的分布情况,我们将升序后的数据划分为几个等区间长度的区间。
通过观察发现,大局部的数据集中在前几个区间,于是再对前几个区间进展细划分,最终得到的几个不等的区间,再用MATLAB中作出直方图,根据直方图猜测满足正态分布。
为了验证猜测,对样本数据进展正态检验并作出Q—Q图,得到的显著性均大于,故原猜测证实。
问题四:题目要求通过分析前三问的结果给予商家补单的一些合理建议。
首先,对前三问的结果进展整合,根据第一问的销量预测,很好的预测出未来五天
的销量,再结合上新量和延期比的误差分析以与附件二中各个季度的销售数据,综合确定补单的数量,以期达到增加商品利润和转化率的目的
三、模型假设
1.假设客户的需求不会骤减或骤升。
2.假设客户的需求不会发生过大的变化。
3.假设题目所给的数据准确无误。
4.假设未来时间无其他因素影响商品销量。
四、符号说明
五、模型的建立和求解
5.1问题一的模型建立与求解
5.1.1 问题分析
在附件一中,数据量冗余,不同种类的货物可能由于季节性差异以与商品属性造成供不应求或供过于求的局面,假如商家未预测到市场行情,如此或多或少会造成一定的损失。
因此在对数据处理时,利用不同产品在不同的月份的销售量,将标定的数据进展相关离散化处理,根据不同产品的交易特征做出聚类轮廓图,进展聚类的方法采用,首先采用轮廓值分布,确定最优分类类别,采用层次聚类与动态聚类,综合比拟两种聚类的差异性,利用灰色预测分析选取具有代表性的一类进展相关预测,将其定量研究,得到连续几个时间段内的商品销售趋势。
简化时序分析难度,同时提高对特征统计量的估计精度,进而预测未来五天货物销量。
针对问题一附件中提供的各种商品在一些时间段的销量信息,需要建立较为准确的模型能够精准预测未来五天的各种商品的销量。
首先,需要对数据进展预处理和挖掘,建立各种商品在各个时间段内的销量矩阵。
其次,从矩阵中抽出各种商品随时间变化的销量向量,以该向量为训练对象,使用动态神经网络的NAR(只有因变量,无自变量的时间序列)模型对其进展训练和测试。
最后,使用训练好的神经网络对未来五天各种商品的销量做出预测。
5.1.2 数据预处理
根据附件一提供的各种商品销量数据,使用Excel以商品名为横轴,时间为纵轴建立486333的矩阵,矩阵反响各种商品在各个时间的销量信息,具体见附件一处理.xlsx。
利用MATLAB中的randperm函数随机抽取3中商品的销量向量,通过图形可视化来粗略判断其销量趋势,随机抽取的商品销量趋势图如下所示:
图1-1:随机抽取的商品销量趋势图
从图中可以看到商品的销量具有明显的非线性趋势,且具有季节性。
利用MATLAB中的tonndata函数对矩阵每一列数据转换为标准神经网络单元数组形式。
5.1.3 K-means聚类分析与GM(1,1)模型
大大
1. K—means法聚类
〔1〕做出问题的平均轮廓值与分类数的关系图并考虑K-means聚类
先用轮廓值对K-Means方法得到的聚类结果进展评价,并据此确定最优的类别数。
此外,对于聚类的执行选择由K-Means方法来实现,是因为该算法的适应X围最广。
K-Means算法的一般步骤如下;
①从n个数据对象任意选择k个对象作为初始聚类中心
②循环③到④直到每个聚类不再发生变化
③根据每个聚类对象的均值〔中心对象〕,计算每个对象与这些中心对象的距离,并根据最小距离重新对相应对象进展划分。
④重新计算每个〔有变化〕聚类的均值〔中心对象〕,直到聚类中心不再变
化。
这种划分使得下式最小
2
1i j k i j j x w E x m =∈=-∑∑
其中j m 为各类的中心。
现在先以商品在每个月的销量为研究对象,生成货号月份表,来确定最优类别。
确定最优分类数后就可以同时使用常用的集中聚类方法对该问题进展聚类,然后比拟哪种算法对该问题更适宜,同时还可以比拟各算法对该问题是否具有很好的一致性。
运行程序,就可以得到该问题的平均轮廓值与分类数的关系图和类别在2-21类时每类的轮廓值分布图。
对于聚类问题,我们一方面希望聚类的数量比拟适中,另一方面也希望每个样品的轮廓值尽量高。
因此观察如下轮廓图可知,类别为16-21类时分级效果明显,其余类别图案分级较不明显。
所以综合以上分析,对于这个问题,最优的类别数选为20比拟适宜。
聚类方法都有一定的随机性,所以每次执行的程序会有一些差异,但总体趋势是一致的。
图1-2 轮廓值与聚类类别数的关系
图
1-3 类别为2—5时每类的轮廓值分布图
图1-4 类别为6-9类时每类的轮廓值分布图
图1-5类别为10-13类时每类的轮廓值分布图
图1-6类别为14-17类时每类的轮廓值分布图
图1-7 类别为18-21类时每类的轮廓值分布图
综合上图轮廓图,选为20类时,每类包含的样本个数如下表所示
表1-1不同类别对应的样本数
〔2〕.聚类分析
距离:对样品进展聚类时,“靠近〞往往由某种距离来刻画。
假如每个样品有p 个指标,故每个样品可以看成p 维空间中的一个点, n 个样品就组成p 维空间中的n 个点,样品与指标构成一个矩阵,此时就可以用距离来度量样品之间的接近程度。
令ij x 表示第i 个样品的第j 个指标, ij d 表示第i 个样品与第j 个样品之间的距离,最常见最直观的计算距离的方法是:
明考斯基距离(Minkowski )
()1/1q
p
q ij ik jk k d x x =⎡⎤=-⎢⎥⎣⎦
∑
当1q =时,
()1
1p
ij ik jk k d x x ==-∑ 即为绝对距离
当2q =时,
()()1/2
212p
ij ik jk k d x x =⎡⎤=-⎢⎥⎣⎦∑ 即为欧氏距离
当q =∞时
()1max ||ij ik jk k p
d x x ≤≤∞=- 称为切比雪夫距离。
当各变量的测量值相差悬殊时,为了计算的准确性,需先将数据标准化,然后用标准化后的数据进展计算。
系统聚类,将n 个样品各自看成一类,然后规定样品之间的距离和类与类之间的距离。
开始,因每个样品自成一类,类与类之间的距离与样品之间的距离是相等的,选择距离最小的一对并成一个新类,计算新类与其他类的距离,再将距离最近的两类合并,这样每次少一类,直值所有的样品都成一类为止,最终完成养分的分类。
计算类与类之间的距离主要有:
a.最短距离法:
设q G p G r G 分别为一类,如此最短距离的计算公式为:
(,)min{,}k jl p q D p q d j G l G =∈∈
此时将类p G 与类q G 合并为类r G ,如此任意的类k G 和r G 的距离公式为
2
,,,min
min{
min
,
min
}min{,}i k j r
i k j p
i k j q
kr ij ij ij kp kq X G X G X G X G X G X G D d d d D D ∈∈∈∈∈∈=
==
依次下去,最终完成对样品的分类。
b.最长距离法:
(,)max{,}k jl p q D p q d j G l G =∈∈
将类p G 与类q G 合并为类r G ,如此任意的类k G 和r G 的距离公式为
2,,,max
max{max
,
max
}max{,}i k j r
i k j p
i k j q
kr ij ij ij kp kq X G X G X G X G X G X G D d d d D D ∈∈∈∈∈∈=
==
c.类平均法:
1
(,)p q
G ij i G j G G p q d LK ∈∈=
∑∑ 将类p G 与类q G 合并为类r G ,如此任意的类k G 和r G 的距离公式为
2222
221
1()i k j r i k j p
i k j p p q kr
ij
ij ij kp kq X G X G X G X G X G X G k r
k r r r n n D d d d D D n n n n n n ∈∈∈∈∈∈=
=+=+∑∑∑∑∑∑
d.重心法:
(,)q q c X X D p q d =
将类p G 与类q G 合并为类r G ,如此任意的类k G 和r G 的距离公式为
22
2
2
2
,p q p q kr kp kq pq r
r r n n n n D D D D n n n =
+
-
采用系统聚类中的离差平均和法,得出如下聚类图表
图1-8 系统聚类图
通过进展分析比照得知所进展的分类较为杂乱,无法显著的进展相关分类,因此在完善相关程序之后,尝试将相关类别分为K类
图1-9 完善的层次聚类分析图
从图中可以明显得知,通过ward法将附件一中的商品样本分为20类,在上图根底上将分类进一步细化完善,并且得知每一类的数据,因此在模型一主要采用动态聚类的来对未来5天销量进展相关预测。
〔3〕聚类个数比拟
2.灰色预测模型
〔1〕.灰色预测分析的根本理论
()1,1GM 模型的建立
设时间序列()
0X
有n 个观察值,()
()()(
)
()(
)
(){
}00
001,2,
,X
X X X n =,
通过累加生成新序列()
()()()()()()()(){}
11111
1,2,3,,X
X X X X n =,如此
()1,1GM 模型相应的微分方程为:
()()1
1
dX aX dt
μ+= 式中,a 称为开展灰数,μ称为内生控制灰数。
设ˆα为待估参数向量,ˆααμ⎛⎫
= ⎪⎝⎭
,利用最小二乘法求解,可得:
()1
ˆT T B B B Y α
-= 其中:
()()()()()()()()()()()()11111111212123121112X X X X B X n X n ⎡⎤⎡⎤-+⎢⎥
⎣⎦⎢⎥
⎢⎥⎡⎤-+⎣⎦⎢⎥
=⎢⎥⎢⎥
⎢⎥⎢⎥⎡⎤--+⎢⎥⎣
⎦⎣⎦ ()()()()()()00023n X X Y X n ⎡⎤⎢⎥⎢⎥=⎢
⎥⎢⎥⎢⎥⎣⎦ 求解微分方程,即可得预测模型:
()()()()()10ˆ110,1,2,,ak X k X e k n a a μμ-⎡⎤+=-+=⎢⎥⎣⎦
〔2〕模型一的求解
在模型一主要利用动态聚类的结果来对未来5天销量进展相关预测。
针对每个类别进展灰色预测之后,选取第1类中的116个样本进展灰色预测时模型精度最好。
经过灰色预测残差检验以与对未来一个月销量,结果为
表1-3 2018年GM 〔1,1〕灰色系统预测值与实际值比拟
(0)0.0219(1)ˆ15.1083t
t x e
-+= Y ≈ 174
表1-4 后验差检验判别参照表
该模型预测结果显示为优,未来一个月的销量为174件 在进展一定数据优化的根底上,得出下面2018年预测拟合图
C 模型精度 优 合格 勉强合格
不与格
图1-10 2018年全年GM〔1,1〕灰色系统预测值与实际值比拟
5.1.4 建立动态神经网络模型
(1)隐藏层神经元数目确实定
为提高网络的训练精度,隐含层的神经元个数不能过多,也不能过少,通常通过经验公式初步确定隐含层神经元的个数X围,常用的经验公有:式中y为隐含层神经元数,n为输入层神经元数,m为输出层神经元数,b为1-10之间的常数。
在此题中n=1,m=1,故隐含神经元数为2-12之间,但最终发现14个隐藏层节点的效果比12个隐藏层节点数好,所以选择隐藏层节点个数为14。
学习样本的选择
我们选取前483组数据作为学习验证与测试的样本,后5组数据即2019年3月8日至3月12日的数据作为预测样本。
其中经过反复训练我们发现将483
组样本中的85%作为训练数据,10%作为验证数据,5%作为测试数据得到的效果较好。
(2)网络延迟个数的选择
在对网络进展屡次训练并比拟每次的训练误差后将延迟个数确定为4个。
即t时刻的输出有如下规律。
(3)训练算法的选择
神经网络学习的目的是寻找能有效逼近该组样本的函数f,使误差函数最小化,而通常神经网络的训练误差函数采用均方误差函数:
式中为期望输出,为网络实际输出,n为样本数。
但是符合该误差函数最小时从样本中恢复一个函数的解实际有很多,而正如此化的算法将网络性能函数改良为:
式中为网络权重的平方和,是神经网络连接权值,M为神经网络连接权个数,,是目标函数的参数,参数的大小决定着神经网络训练目标。
常规的正如此化方法很难推导出,的值,而优化的正如此化方法即贝叶斯正如此化算法可推导出,的值,MATLAB中通过trainbr函数来实现贝叶斯正如此化算法。
神经网络的建立
由上述分析建立如如下图所示的网络结构图:
图1-11:网络结构图
2.神经网络模型求解
step(I)对预处理后的数据分为333组分别进展学习训练,通过屡次调整隐藏层节点数和延迟数发现当隐藏层节点数为14,延迟数为4时训练的效果较好,我们使用误差自相关图来判断网络的好坏,每一种商品训练后的误差自相关图如图1-2所示:
图1-12:误差自相关图
从图中可以看出每种商品在一个时间的销量网络输出误差与另一个时间的销量网络输出误差在给定区间内无关,说明训练的网络较好。
step(II)下面进展网络预测性能测试,通过对测试样本与训练样本占比调整,发现当训练样本占85%,测试样本占10%时,网络的预测误差较小,其中的一种商品的预测误差如如下图所示
图1-13:预测误差图
step(III)从以上的误差图可以看出建立的动态神经网络在时间序列预测方面具有较为良好的容错性,下面对2019年3月8日至3月12日各种商品的销量进展预测,首先对期望输出标准化到神经网络单元数组形式,然后消除网络延迟,最后建立闭环网络进展预测,预测得到5天的期望输出与网络输出图如下所示:
图1-14:2019-3-8预测与期望曲线图
图1-15:2019-3-9预测与期望曲线图
图1-16:2019-3-10预测与期望曲线图
图1-17:2019-3-11预测与期望曲线图
图1-18:2019-3-12预测与期望曲线图得到的具体数据见附件1。
5.2问题二的模型建立与求解
将上新量和延期比数据从附件二中抽取出来,分别建立对应的Excel表格,再运用SPSS软件对两个表格作图进展分析。
根据上新量和延期比所得到的直方图,再将区间拆分,我们初步猜测其符合正态分布,再利用SPSS对其进展正态性检验,发现显著性为0.2>0.05,因而满足正态分布,即证实了原猜测。
〔1〕对附件二进展处理,选定样本数据,对于延期比与货物种数,将货物种数作为样本数据,将延期比划分为各个区间。
通过查看数据可知,延期比最小为0%,最大为98.6%。
故可以将其放入以0.1为区间长度的十个区间里。
表2-1:延期比分布表
通过观察表中延期表分布数据可以看出绝大局部样本分布于[0,0.5]区间内,且此区间内样本数随延期比相差较大,为了更好地表现延期比的分布情况,决定对样本数多的区间再进展划分,最终划分得到的六个区间为],〔0.02,0.1],〔,0.2],(0.2,0.35],〔0.35,0.5],(0.5,1],对应的延期比分布表如下。
表2-2:改良后的延期比分布表
利用Matlab软件作出相应的直方图:
图2-1:延期比分布图
通过观察直方图所得到的图形,初步猜测延期比满足正态分布。
我们借助SPSS 软件对其进展正态分布检验,并作出Q—Q图。
表2-3:延期比正态性检验
正态性检验
柯尔莫戈洛夫-斯米诺夫a夏皮洛-威尔克
统计自由度显著性统计自由度显著性V1 0.139 7 0.200*0.942 7 0.657
经分析得显著性0.200>0.05,故延期比符合正态分布
通过Q-Q图进一步确认,由图可见根本在直线附近,可以认为服从正态分布。
图2-2:延期比Q—Q图
运用SPSS对延期比数据进展正态性分析得延期比置信区间为[0.1195,0.1601]
表2-4延期比正态性分析
〔2〕首先对附件二进展处理,选定样本数据,对于上新量与货物种数,将货物种数作为样本数据,将上新量划分为各个区间。
通过查看数据可知,上新量最小为294,最大为25930,通过观察样本数我们将其细划为5个区间[)
2857,5421,(]
1832,2857,(]
5421,25930,根据得到的分294,806,(]
806,1832,(]
布直方图,初步推测其满足正态分布。
图2-3:上新量分布直方图
利用SPSS对其进展正态性检验并作出Q—Q图。
表2-5:延期比正态性检验
表5上新量正态性检验
因为显著性0.200>0.05,故上新量满足正态分布。
通过Q—Q图进一步确认,由图可见根本在直线附近,可以认为服从正态分布布。
—Q图
将上新量数据导入到SPSS中,对其进展正态性分析,得到上新量置信区间为:[3256.2466,3976.6003]
表2-6 上新量正态性分析
5.3问题三的模型建立与求解:
首先对附件二的数据进展处理,分别提取出第一、二、三季度的延期比和上新量数据,并建立Excel表格进展分析。
根据Excel中的数据,在Matlab中建立矩阵,并作出分布直方图,通过观察直方图发现,当把延期比和上新量数据细分为几个区间时,其分布情况是满足正态分布的。
为了验证猜测,利用SPSS对其进展正态性检验,并作出Q-Q图,最终证实猜测,并算出其置信区间。
第一季度:
(1)首先从附件二中将第一季度上新量数据抽取出来,再建立Excel表格,对样本数据进展升序处理。
再将上新量数据划分为几个等分区间,通过观察发现,数据大多集中在前几个区间,于是再对前几个区间进展不等划分,最终确定的五294,732,732,2049,2049,3219,3219,4682,4682,22235
个区间[](](](](]
,并利用Matlab作出分布直方图:
图3-1 第一季度上新量分布直方图
通过观察直方图初步猜测上新量满足正态分布,于是运用SPSS对其进展正态性检验,并作出Q-Q图:
表3-1 第一季度上新量正态性检验
由上表可知显著性0.140>0.05,故满足正态分布。
查看Q-Q 图进一步确认,由图可见根本在直线附近,可以认为服从正态分布。
图3-2 第一季度上新量Q —Q 图
运用SPSS对样本数据正态性分析,求得第一季度上新量置信区间为[3363.3060,4879.7588]
表3-2 第一季度上新量正态性分析
〔2〕首先从附件二中将第一季度延期比数据抽取出来,建立Excel表格对数据进展升序处理。
再将升序得到的延期比数据划分为几个等区间长度的区间,通过观察数据分布发现,大局部数据集中在前几个区间内,于是对前几个区间再进展细划分,最终得到的七个区间为:[0,0.002],
(0.002,0.05],(0.05,0.1],(0.1,0.2],(0.2,0.4],(0.4,0.6],(0.6,1]。
利用Matlab建立分布直方图:
图3-3 第一季度延期比分布图
通过观察得到的分布直方图猜测第一季度延期比满足正态分布,接下来运用SPSS进展正态检验,并作出Q-Q图
表3-3 第一季度延期比正态性检验
通过观察上表发现显著性0.200>,故满足正态分布,即原猜测证实。
查看Q-Q图进一步确认,由图可见根本在直线附近,可以认为服从正态分布。
图3-4 第一季度延期比Q—Q图
将样本数据导入到SPSS中,对其进展正态性分析,得到其第一季度延期比置信区间为[0.1847,0.2778]
表3-4 第一季度延期比正态性分析
第二季度:
(1)首先从附件二中抽出第二季度上新量的数据建立Excel表格,再对表格数据进展升序处理。
将升序得到的数据等区间长度划分为几个区间,通过观察发现,大局部数据聚集在前几个区间内,于是对前几个区间进展细划分,最终得到7
个区间为
((8144,25930] [522,1030],(1030,1538],(1538,2046],2046,3909],(3909,5630],(5630,8144]。
利用Matlab建立分布直方图得:
图
3-5 第二季度上新量分布直方图
通过观察分布直方图,初步猜测第二季度上新量数据满足正态分布,为了验证猜测,运用SPSS做正态检验,并作出Q—Q图。
表3-5第二季度上新量正态性检验
观察上表得,显著性0,因而满足正态分布。
查看Q-Q图进一步确认,由图可见根本在直线附近,可以认为服从正态分布。
图3-6 第二季度上新量Q—Q图
再将第二季度上新量数据导入到SPSS中,对其进展正态性分析,求出置信区间为:[3,]。