中国移动深度数据挖掘内训教材

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

我们可以免费使用的工具

分析模型主观目的

市场分析报告的一般结构状况分析

战术手段

市场分析报告常用分析工具

市场分析报告的注意事项

图表分析基础

选择适当的图形类型

25000

20000

15000

10000

5000

安徽福建江苏上海浙江

线柱

5000

10000

15000

20000

25000

安徽福建江苏上海浙江

反映产品份额的变化

2004年销售额情况统计

2004年销售额情况统计2004年销售额情况统计

什么时候用条形图?

对称条形图子类分析

雷达图-和中心偏离度比较雷达图:表现平衡度

柏拉图

散点图:相关性分析

占有率

坐标轴应用

波士顿矩阵

波士顿矩阵与气泡图

气泡图SWOT分析

基于数据挖掘技术的聚类分析

数据的价值在数据上的投资数据知识

在线分析工具多维分析KPI 多维在线分析透视力/预见力预测数理统计分析神经元网络数据挖掘

信息报表和查询报表

SQL 查询

数据透视表

商业智能的价值

-把数据转化为知识

多维分析

多维分析的概念

031017

24

Week Ending

数据库表与决策分析的报表帐号

姓名地址电话余额101

张三北京(010) 62567788100.00102

李四上海(021) 54372012130.00103

王五西安(029) 34573228200.80...............销售数量

(件)

北京上海广州成都一月

100200600752二月

300292200328三月250300200746数据库表:

决策分析报表:Raw Data ETL, Data Warehouse &

OLAP提供的常用功能

使用数据透视表连接数据库

四分位数

数据分布分析

2285947

10203040506070人数

箱线图形态分析

数据的频数分析如何进行频数分析

变异指标方差

标准差

标准差系数

Excel的变异指标公式

数据相关性分析

案例

几个基本概念

案例分析

方差分析原理

四种颜色饮料销售量及均值单位:箱三、F 分布

F分布及单侧检验
α=0.05
Fα ( n1 , n2 )
X = FINV(probability,degrees_freedom1,degrees_freedom2)
㈥、统计决策
对于规定的显著性水平 α ,由于
P{F > Fα (r − 1 , n − r )} = α
根据小概率原理,若
F > Fα (r − 1 , n − r )
则拒绝 H 0 。认为各水平均值 µ 1 , µ 2 , L , µ r 不全相等。称所 考察因素的各水平间差异显著,或各水平均值间有显著差 异,而当
F ≤ Fα (r − 1 , n − r )
则不能拒绝 H 0 。这时称各水平之间无显著差异,即认为H 0 成立,各水平的均值都相等。

续(统计决策)
对于本例,若取 α = 0.05,则
F0.05 (3 , 16) = 3.24
由于
F = 10.486 > F0.05 (3 , 16) = 3.24
从而拒绝 H 0 。认为饮料的四种不同颜色的平均销售量 有显著差异,即饮料的颜色对销售量有显著影响。
双因素方差分析

案例
某公司在两个不同的地区,同时使用两种 不同的促销方式,得到了表格中的数据。 请分析: 1.不同促销方式下,销售额是否有显著的差异? 两个地区的销售额是否有显著差异? 2.在地区和促销方式共同的作用下,销售额是否 有显著的差异? 3.哪一种组合的销售效果最好?
聚类分析

数据采集
数据来源 § 第一类数据:企业内部数据
- 来自终端的第一手资料 - 来自ERP、CRM等系统
§ 第二类数据:行业数据
- 公开数据,例如行业协会报表、上市公司报表 - 收费的研究报告
§ 第三类数据:抽样调查
- 问卷调查 - 电话调查

数据采集的注意事项 § 手工录入到Excel的数据
- 使用规范二维表 - 定义可编辑区域和不可编辑区域 - 验证数据的合法性
§ 从ERP等数据库获取数据
使用视图获取 通过OLAP工具访问多维数据集 超过65535行数据应使用Excel 2007 需要离线使用的数据制作成立方体
§ 公开渠道获取的数据
- 需要进行数据清洗和核对 - 清洗的过程可编写成程序提高效率
数据清洗案例

抽样调查
§ 为什么需要抽样调查?
1. 调查总体过于费时,成本太高 2. 出于安全制度无法获取总体 3. 抽样调查可能比全面调查更为精确

抽样的概念
§ 抽样的总体 § 抽样框 § 调查的样本 § 数据的类型
– 分类型 – 数值型:数值型和连续型
抽样的方法
§ 非概率抽样 § 概率抽样
- 随机抽样:每个样本都有同样被抽中的机率 - 系统抽样:将样本分组,在第一组随机抽取 样本,在其他组的相同位置提取样本。 - 分层抽样:根据一些共同的特征,将总体划 分为不同的层级,每一层中采用简单随机抽 样 - 整群抽样:将总体划分为若干对整体有代表 性的群,对群进行简单随机抽样
¸演练:随机抽样演练

相关文档
最新文档