中国移动深度数据挖掘内训教材
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
我们可以免费使用的工具
分析模型主观目的
市场分析报告的一般结构状况分析
战术手段
市场分析报告常用分析工具
市场分析报告的注意事项
图表分析基础
选择适当的图形类型
25000
20000
15000
10000
5000
安徽福建江苏上海浙江
线柱
图
5000
10000
15000
20000
25000
安徽福建江苏上海浙江
反映产品份额的变化
2004年销售额情况统计
2004年销售额情况统计2004年销售额情况统计
什么时候用条形图?
对称条形图子类分析
雷达图-和中心偏离度比较雷达图:表现平衡度
柏拉图
散点图:相关性分析
占有率
坐标轴应用
波士顿矩阵
波士顿矩阵与气泡图
气泡图SWOT分析
基于数据挖掘技术的聚类分析
数据的价值在数据上的投资数据知识
在线分析工具多维分析KPI 多维在线分析透视力/预见力预测数理统计分析神经元网络数据挖掘
信息报表和查询报表
SQL 查询
数据透视表
商业智能的价值
-把数据转化为知识
多维分析
多维分析的概念
031017
24
Week Ending
数据库表与决策分析的报表帐号
姓名地址电话余额101
张三北京(010) 62567788100.00102
李四上海(021) 54372012130.00103
王五西安(029) 34573228200.80...............销售数量
(件)
北京上海广州成都一月
100200600752二月
300292200328三月250300200746数据库表:
决策分析报表:Raw Data ETL, Data Warehouse &
OLAP提供的常用功能
使用数据透视表连接数据库
四分位数
数据分布分析
2285947
10203040506070人数
箱线图形态分析
数据的频数分析如何进行频数分析
变异指标方差
标准差
标准差系数
Excel的变异指标公式
数据相关性分析
案例
几个基本概念
案例分析
方差分析原理
四种颜色饮料销售量及均值单位:箱三、F 分布
F分布及单侧检验
α=0.05
Fα ( n1 , n2 )
X = FINV(probability,degrees_freedom1,degrees_freedom2)
㈥、统计决策
对于规定的显著性水平 α ,由于
P{F > Fα (r − 1 , n − r )} = α
根据小概率原理,若
F > Fα (r − 1 , n − r )
则拒绝 H 0 。认为各水平均值 µ 1 , µ 2 , L , µ r 不全相等。称所 考察因素的各水平间差异显著,或各水平均值间有显著差 异,而当
F ≤ Fα (r − 1 , n − r )
则不能拒绝 H 0 。这时称各水平之间无显著差异,即认为H 0 成立,各水平的均值都相等。
续(统计决策)
对于本例,若取 α = 0.05,则
F0.05 (3 , 16) = 3.24
由于
F = 10.486 > F0.05 (3 , 16) = 3.24
从而拒绝 H 0 。认为饮料的四种不同颜色的平均销售量 有显著差异,即饮料的颜色对销售量有显著影响。
双因素方差分析
案例
某公司在两个不同的地区,同时使用两种 不同的促销方式,得到了表格中的数据。 请分析: 1.不同促销方式下,销售额是否有显著的差异? 两个地区的销售额是否有显著差异? 2.在地区和促销方式共同的作用下,销售额是否 有显著的差异? 3.哪一种组合的销售效果最好?
聚类分析
数据采集
数据来源 § 第一类数据:企业内部数据
- 来自终端的第一手资料 - 来自ERP、CRM等系统
§ 第二类数据:行业数据
- 公开数据,例如行业协会报表、上市公司报表 - 收费的研究报告
§ 第三类数据:抽样调查
- 问卷调查 - 电话调查
数据采集的注意事项 § 手工录入到Excel的数据
- 使用规范二维表 - 定义可编辑区域和不可编辑区域 - 验证数据的合法性
§ 从ERP等数据库获取数据
使用视图获取 通过OLAP工具访问多维数据集 超过65535行数据应使用Excel 2007 需要离线使用的数据制作成立方体
§ 公开渠道获取的数据
- 需要进行数据清洗和核对 - 清洗的过程可编写成程序提高效率
数据清洗案例
抽样调查
§ 为什么需要抽样调查?
1. 调查总体过于费时,成本太高 2. 出于安全制度无法获取总体 3. 抽样调查可能比全面调查更为精确
抽样的概念
§ 抽样的总体 § 抽样框 § 调查的样本 § 数据的类型
– 分类型 – 数值型:数值型和连续型
抽样的方法
§ 非概率抽样 § 概率抽样
- 随机抽样:每个样本都有同样被抽中的机率 - 系统抽样:将样本分组,在第一组随机抽取 样本,在其他组的相同位置提取样本。 - 分层抽样:根据一些共同的特征,将总体划 分为不同的层级,每一层中采用简单随机抽 样 - 整群抽样:将总体划分为若干对整体有代表 性的群,对群进行简单随机抽样
¸演练:随机抽样演练