电子商务重要数据点及数据挖掘常用公式

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

电子商务运营中的重要数据点

电子商务运营各个环节中有很多数据,哪些比较重要?我们先来看重要的几个数据点。

表5-1 电子商务重要数据示意表

数据解释

平均收入网站在一定区间内的收入

UV独立访客数平均每天的独立访问人数(不重复计算)

客户获取成本获得一个新客户所付出的成本

利润率利润和总成本的比例

转化率访问的客户中成功完成购买的人群占比

客单价每一个顾客平均购买商品的交易金额。

重复购买率消费者对该品牌产品或者服务的有重复购买次数的比例

运营成本电子商务企业销售客服和数据运营的成本

活跃用户数在一定时间内活跃的用户数字

活跃用户率活跃用户占整体用户的比例

参与指数用户的平均会话次数

表5-1中列出的是相对比较重要的电子商务运营中的数据,不过不出现在这张列表中的数据不等于说它不重要,而且对于不同类型的电子商务网站,数据的重要性也会有所不同。

表中大部分的数据都比较直观,在此只对部分做一些解释。表5-1中客户获取成本的计算方法是:以新客户总数量去除获取客户而支付的总费用,在电子商务网站中,这里的费用一般指的是广告等营销成本。

在表5-1中的重复购买率有两种不同的计算方法:

●第一种算法是所有购买过产品的顾客,以每个人为独立单位统计重复购买产品的次数。

比如10个客户购买了产品,其中4个产生了重复购买,则重复购买率为40%。

●第二种算法是统计在单位时间内,重复购买的总次数占比。比如10个客户购买了产品,

中间有4个人做了二次购买,而这4个人中又有2个人做了第三次购买,这2个人中

其中1人做了第四次购买,则重复购买次数为7次,重复购买率为70%。

如果采用第二种方式计算,那么在理论上重复购买率是可以超过100%的。在本书的讨论中,我们对于重复购买率采用的是第一种计算方式,也就是以每个人为独立单位来做统计。

表5-1中的参与指数是很有意思的:参与指数,或者叫Engagement Index,意思是每个访问者的平均会话次数。参与指数的计算公式是这样的:

参与指数= 周(月)总访问数/ 周(月)独立访问数

由于访问次数通常是基于Cookie或者IP统计的,参与指数需要基于一段时间,通常是一周或者30天的。例如每周的总访问次数是15000次,而独立访客数为10000个,那么

参与指数= 15000 / 10000 = 1.5

如果参与指数趋近于1,那么说明回访率非常低,每一个访客都是一个新访客;如果参与指数远大于1,那么说明网站的粘性很强。

电子商务数据挖掘的常用公式和算法 汇总几何平均数

)]lg ...lg (lg 1[lg )(2111321321n n

n n n x x x n x x x x x x x x +++=⋅⋅⋅⋅⋅=⋅⋅⋅⋅⋅-总体方差2

σN

x /)(22∑-=μσ标准方差

把2σ开平方根就得到标准方差N x /)(2

∑-=

μσ随机变量的概率分布

随机变量的概率分布可以用下面的公式表示: )

()(x X P x f <=

极差标准化 极差标准化是数据标准化的另外一种常用方式。对纪录值进行极差标准化变换是将各个纪录

极差正规化

相似度公式

||||*||||),cos(),(B A B

A B A B A similarity ∙=

=关于βF 的通用公式 recall precision recall precision F +⋅⋅⋅+=22

)1(βββ当β=1时,所表示的就是F1的公式

recall

precision recall precision F +⋅⋅=21PR 值

PR 值的简化公式是:

∑∈=u

B v v L v PR u PR )()()(在公式中)(u PR 、)(v PR 是页面u 和v 的PR 值,)(v L 是页面v 的外链数,u B 是链向页面u 的所有页面集合。

消除重复记录的算法

消除重复记录的算法有优先队列算法,SNM算法(Sorted-Neighborhood Method, 近邻排序算法),MPN算法(Multi-PassSorted-Neighborhood, 多趟近邻排序算法)等:

●优先队列算法通过减少记录比较的次数,提高匹配的效率,而且该算法几乎不受数据规

模的影响,能很好地适应数据规模的变化。但是算法复杂度比较高,实现相对困难。

●SNM近邻排序算法采用滑动窗口的方法,每次只比较窗口中的w条记录,提高匹配效

率;采用滑动窗口也提高了比较速度,只需要进行w×N次比较识别重复记录的精度很大程度上依赖于排序所选择的关键字,而且滑动窗口的大小w的选取很难控制。

●MPN多趟近邻排序算法精确度高,但是不能正确地检测出数据库中没有包含主键域的

记录。

二元混淆矩阵(Confusion Matrix)

我们通常用二元混淆矩阵来判定一个二元分类方法是否有效。请看下图:

图II-1 混淆矩阵示意图

在图II-1中各个数据的含义解释如下:

●TP(True Positive):预测值和真实值相一致都为1的个数。

●FP(False Positive):预测值为1而真实值为0的个数。

●FN(False Negative):预测值为0而真实值为1的个数。

●TN(True Negative):预测值和真实值相一致都为0的个数。

ROC分类器效果评估

下图是一张ROC曲线图,ROC曲线(receiver operating characteristic curve)是受试者工作特征曲线的缩写, 该曲线常用于医疗临床诊断,数据挖掘兴起后也被用于分类器的效果评价。

相关文档
最新文档