游戏数据聚类分析TwoSteps

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。



SPSS进行数据分析

点击选项,弹出如下的面板

离群值处理:这里主要是针对CF填满后,如何对离群值的 处理。 关于噪声处理,此处默认即可 内存分配:指定聚类算法应使用的最大的内存量。如果该 过程超过了此最大值,则将使用磁盘存储内存中放不下的 信息。此项默认就行了。 连续变量的标准化:聚类算法处理标准化连续变量。
数据选取据作分析,提取特征 呢?我们要做的是提取次日留存用户的特征,因此,根据 需要我们提取了一些用户的数据点。
SPSS进行数据分析

打开“菜单|分类|两步聚类”
SPSS进行数据分析

要进行变量选择,如果是分类变量,就选择进入分类变量, 如果是连续变量,就选择进入连续变量。
结果分析

“模型摘要”视图显示聚类模型的快照或摘要,包括加阴 影以表示结果较差、尚可或良好的聚类结合和分离的 Silhouette 测量。该快照可让您快速检查质量是否较差, 如果较差,可返回建模节点修改聚类模型设置以生成较 好的结果。
Thank you!
钓鱼岛游戏中心整理
SPSS进行数据分析

距离变量:确定计算两个变量之间的相似性,对数相似值 系统使用对数似然距离计算,而欧式距离是以全体变量为 连续性变量为前提的,由于我们的数据中存在分类型变量, 因此这里选择对数相似值。 聚类数量:允许指定如何确定聚类数。如果自动确定 将会使用聚类准则中指定的准则[BIC 或者 AIC],自动确 定最佳的聚类数,或者设置最大值。也可以指定一个固定 值,不过一般来说就自动确定OK了。 连续变量计数:对一个变量是否进行标准化的设置。
聚类分析理论—TwoSteps
TwoSteps算法的优势

TwoSteps支持数值型和分类型数据,这对于我们而言在 使用时就方便很多,此外游戏数据一般来说都很大, TwoStep在这方面来说还是很具有优势的,数据迭代过 程中的内存消耗和聚类数目确定,TwoStep表现的都很 好,两步聚类避免了距离矩阵过大,导致算法执行效率下 降,而这也是优势所在 。



点击输出:弹出界面如下
两步聚类
两步聚类

双击这个模型,就会弹出来聚类浏览器
两步分类


“聚类浏览器”包含两个面板,主视图位于左侧,链接或 辅助视图位于右侧。有两个主视图: 模型摘要(默认视图) 分群。 有四个链接/辅助视图: 预测变量的重要性. 聚类大小(默认视图) 单元格分布。 聚类比较。
数据选取
1、这里选取的是次日留存用户数据进行分析,之所以选择 次日,是由游戏的特点决定的,再者手机游戏的周期相对 短一些,所以如果考虑周,双周就不是很好了(当然也不 是绝对的),其实3日留存也可以选择,只是需要了解你 自己的游戏具体情况再做判断。 2、这里选取的是次日留存用户数据进行分析,之所以选择 次日,是由游戏的特点决定的,再者手机游戏的周期相对 短一些,所以如果考虑周,双周就不是很好了(当然也不 是绝对的),其实3日留存也可以选择,只是需要了解你 自己的游戏具体情况再做判断。
相关文档
最新文档