交通行业统计分析及数据挖掘的研究
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
公共交通行业统计分析及数据挖掘的研究
-------V1.0.1
作者:夏玮
使用工具:R,SPSS Statistics,SPSS Modeler,
常用算法:
研究目标
研究目标1及步骤简述
形成公共交通行业客流量的数学模型如下:
分析式1:Y= z+a1 X1n + a2 X2 n + a3 X3 n…….
其中:
Y 是因变量(Y1表示客流量,Y2表示消费金额,Y3表示优惠金额)
X1, X2, X3…..是影响客流量变化的自变量
a1, a2, a3…..是对自变量X1, X2, X3…...分别影响Y的变化程度的度量,即相关系数
当n=1时为线型关系,z为线型方程的截距;n>1时为非线性关系
第一步,通过变量散点图的形状,可以判断变量之间相关程度的强弱,方向和性质,但并不能得知其相关的确切程度。较常用的指标为协方差Covariance和correlation。
第二步,进一步的统计分析求出描述变量间相关程度与变化方向的量数,即相关系数。通过初步分析可推断公式中因变量Y是否与各变量X1(行业大类),X2(高峰时段),x3(日期类型)等等有相关性关系,即是否会随着自变量的变化,因变量也会随着变化。
并量化出每一个变量X1, X2……对因变量Y的影响程度a1, a2…..,形成公式Y= a1 X1 + a2 X2。。。。。。(其中a1, a2…….是通过量化分析得出的常数)。
第三步,还需要对X4日期类型中(如工作日或节假日),X5每周休假天数(即包含节假日或不包含节假日天数),X6天气情况(阴天,雨天,晴天;春夏秋冬)等各种不同影响客流量的因素进行分析,方法如使用主成分分析(Principal Component Analysis,PCA),将多个变量通过线性变换以选出较少个数重要变量的一种多元统计分析方法,又称主分量分析。完成此步骤能够对轨道交通或公交的影响程度分析将会进一步精确客流量分析模型。
交通发生预测的目的是建立分区产生的交通量与分区土地利用、社会经济特征等变量之间的定量关系,推算规划年各分区所产生的交通量。因为一次出行有两个端点,所以我们要分别分析一个区生成的交通和吸引的交通。交通发生预测通常有两种方法:回归分析法和聚类分析法。[1]
回归分析法是根据对因变量与一个或多个自变量的统计分析,建立因变量和自变量的关系,最简单的情况就是一元回归分析,一般式为:Y=α+βX式中Y是因变量,X是自变量,α和β是回归系数。若用上述公式预测小区的交通生成,则以下标i 标记所有变量;如果用它研究分区交通吸引,则以下标j 标记所有变量。而运用公式的过程中需要利用最小二乘法来求解,上述公式中的回归系数根据最小二乘法可得:
研究目标2及步骤简述
主要目标:分析整个公共交通行业,当出行成本有调整时比如公交换乘优惠从1元变成了1.5元或者地铁或公交的票价的调整,对客流量及消费金额产生的影响。
例如: 北京地铁票价的上调,会对用户的出行习惯产生如何的影响。本来习惯乘地铁的人由于成本的增长改成了公交, 那就需要调整公交线网的分布。
又例如由于天气的欠佳使得公交不够便利又有部分人在雨天的时候会选择地铁,类似情况零零总总,在此不列数。
数学模型设因变量Y中增加另一变量票价Y4,
当每变动一个单位的票价会对客流量,消费金额,优惠金额分别产生如何的影响。
式1:delta Y4 delta Y1 || delta Y2 || delta Y3
式2:Y(Y1,Y2,Y3)= a1 X1n + a2 X2 n + a3 X3 n……. + delta Y4 n
研究目标3及步骤简述
充资金额的研究,卡公司可以通过研究结果对特定用户人群实施特定的营销策略,增加充资金额的沉淀。
此类研究的方法主要分2步,
1.用户人群的分析
2.用户人群对营销目标(充资金额)的分析
此种分析方法可以适用于任何需要做营销的行业,其中对用户人群性质的分析,用户习惯的分析及特定目标人群的结果预测,比如现在很多网站都会推荐给用户商品,可能你会感兴趣的就是一种应用。
研究目标4及步骤简述
宕帐分析,又称异常点分析。即在正常的消费充资模式中,找出异常模式,最终能够了解宕帐各种出现模式。做到防范于未然,而不是简单的在消费充资结果中找宕帐。
研究目标5及步骤简述
典型卡出行链分析,当前用户定义的需求在数据仓库中典型卡的实现对于典型卡出行链的判断并不理想。在此需要用更高级的方法,找出典型卡出行链的出行模式。
研究目标1:
数据基础性研究
1.相关系数分析- Pearson相关系数的计算
方法限制:
a. 两变量来自的总体都应是正态分布或接近正态的单峰对称分布
b. 两变量间为线型关系
当前统计方法的不足之处:
a)统计样本数据量较少取的仅仅是201405一个月的数据,根据中心极限定理,从样
本数据推断总体情况会产生统计误差,如果标准误较大,可以通过标准误的分析,然后增加样本量逐步减少统计误差。
b)需与总体相关系数P=0 比较,要求进行假设检验,判断结果不等于0是由于抽样误
差所致,还是两个变量之间确实存在相关关系。
c)对于变量较多的分析,需要使用PCA或多元线性回归分析建立最终的结果模型。随
着变量的增加,会增加线性回归分析的复杂性,对计算量要求较大。但会增加模型
的精确度。
1.1客流量数据-1
1.2统计结果
a.数据1, 描述如下:
b.数据1,客流量Y1,消费金额Y2,优惠金额Y3做配对图