大数据分析方法学习课件

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

补充
? 需要认真防范的致命错误:
? 1、与环境(背景)的结合 例:突发事件的影响
? 2、认真思考逻辑关联 例:历年节日的“同比”
? 3、“见所未见” 例:飞回的战斗机wenku.baidu.com往机舱损坏严重
? 专门提出:“相关”的欺骗性
? “万物皆相关” ? 数据相关 ≠ 逻辑相关
总结
总结
? 大数据和新方法只是新的资源和工具 ? 挖掘数据价值的还是人
理论的扩展性。
工作框架
两个重要问题 ?产生的结论要有理论解释
? 反面例子:消费额和停车场大小正相关 (相关性需要结合背景)
? 机器学习方法解释性差、往往模型拟合数据,由于现实 世界太复杂,参数太多,因此使用效果并不好
?认真思考提出问题的操作性
? 反面例子:不同客户的消费偏好分析、竞争力比较
我们将结合六个步骤,分别讨论完成 它们的方法和一些重点问题
? 思考3:新结论,到底多有价值?
? 陈述事实多,推理结论少 ? 展示效果好,实践应用差
? 总结:大数据更多是一种新的数据观
? 充分认识数据的价值(潜力与局限) ? 正确选择分析的方法
引言
? 零售数据分析:我们的优势
? 1、拥有最精华的数据,产出结论有说服力 (大而全不一定是长处:收集成本高、筛选困难)
? 最重要的还是商业思维
大数据 数据资源 分析方法
商业思维 理解 Deep Understanding 洞察 Insight 前瞻 Prospect
工作框架
? 充分扩展两个部分,首先代表:
? 理解宏观问题 ? 给出系统假设 ? 将假设化简至可被数据分析
? 其次,两项工作无法忽视:
? 充分研究了解对象 — 我们想要知道什么 (发现问题)
? 我们还会继续沿用此前的哲学思想和逻辑方法:
? 谨慎思考、仔细观察 – Deep Understanding ? 大胆假设、小心求证 – Insight ? 实践产出理论、理论指导实践 – Prospect
Thanks
22
数据分析的具体流程
步骤1 :建立对对象的整体认知
? 内容:对对象建立主观印象 ? 意义:产生新问题;产生对问题的合理假设 ? 着手点:
? 观察现状;例子:购物中心的消费习惯转变 ? 观察数据;例子:消费数据分析暗示的消费群体变化 ? 此外,闻者有心:例子:外卖数据暗示房价
步骤2 :提出希望探索的宏观问题
? 内容:将各项假设提到的元素定量化 ? 以假设1:服务人员对待客户的态度为例:
? 数据库中数据:出勤记录、日常考核记录、投诉记录 ? 问卷调查数据:服务效率、服务意识、用词方式、普通
话标准、表现情感等相似的定量评分
注:部分研究问题已经明显定量化,部分则需要人工确定 量化标准
步骤6 :运用数据分析方法产生结论
步骤4 :对宏观问题提出充分假设
? 内容:将大问题提出各种各样的小问题
? 例子:顾客对购物中心服务的满意度的影响因素
? 假设1:服务人员对待客户的态度 ? 假设2:购物中心提供的额外服务的种类 ? 假设3:购物中心的环境 ? 验证假设来分析真实的影响因素及其影响程度
步骤5 :将对象分解为可测量数据
? 内容:提出大目标 ? 形式:“A对B的影响”、“A未来一年的销售额”
等易于描述的、可变因子不超过一个的问题。
? 反面例子:不同业态对不同年龄段顾客的影响
? 1、业态和年龄段范围太广 ? 2、“影响”未指明具体内容 ? 导致此调查耗费资源、失去重点 ? 可改成:餐饮区域面积占比对顾客到店数目的影响(划
? 内容:套用各种数据方法产出结论
? 形式:数值、概率值、图表
? 分析软件和语言
? SPSS、SAS、Matlab、smartPLS ? Python、R等等
? 分析方法:
? 常规统计方法:T检验、方差分析、相关分析、回归分析 、因子分析、时间序列分析、结构方程模型等,参考任 意一本统计学教材。
? 机器学习方法:聚类、分类、神经网络、决策树等等, 参考《机器学习导论》。
? 判断我们想要研究的问题是否有意义 (减少人力损耗)
工作框架
? 数据分析的六个阶段
? 1、对研究对象主观的和客观的、整体的和局部的认识 ? 2、提出希望探索的宏观的问题(自由的或是有明确的) ? 3、探讨分析这些问题并产生结论的价值 ? 4、为选出的研究问题提出充分的假设。 ? 5、将研究假设进行拆解、划分成为可定量分析的单元。 ? 6、结合数据资源和数据分析方法产生结论,验证假设及
定业态、指明影响内容、排除掉年龄因素)
步骤3 :探讨阐述结论的价值
? 相同的结论对不同的对象价值不同
? 例:火车票订票信息:增开列车?疏导客流?市政服务?
? 思考分析结果对各种对象的可能价值
? 正面例子:男女性消费者对购物中心环境设计的不同偏好 ? 反面例子:为不同地域的客户设计不同会员礼品 - 成本 ? 反面例子:周边办公楼客流对销售影响 - 无法采取措施
大数据分析方法交流
关于分析思想、流程与工具的探讨
1
主要内容
? 引言 ? 数据分析的工作框架 ? 数据分析的实施流程 ? 总结
引言
引言
? 言数据必称“大” 的时代
? 交通大数据、旅游大数据、网购大数据
? 2011年开始的各种各样的“V”:
? Volume、Variety、Velocity(Value、Veracity-真实性)
? 各种全新的配套手段:
? 存储(云);处理(并行); ? 保护(安全性);分析(数据挖掘、机器学习)
? 潜力无限 vs 言过其实? ? 创新为主 vs 传承为主?
引言
? 思考1:“大”数据,到底应该多大?
? 量级不严格、范围不严格
? 思考2:新方法,到底有多新?
? 大多数传承传统方式 ? 新方法解决面窄
? 2、时间长涵盖面广,便于比较分析
? 我们需要仔细分析的是:
? 想做什么 ? 能做什么 ? 怎样做
数据分析的工作框架
工作框架
? 需要的结论:既想要也想得到的
需要得到 的结论
数据分析可以 解决的内容
? 数据资源和分析方法大量扩充 — 右半边扩张 ? 分析对象理解和问题思考有所不足 — 左半边停滞
相关文档
最新文档