谁说菜鸟不会数据分析--整理概括版本
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
谁说菜鸟不会数据分析-- 整理概括版本数据分析的三大作用
一、现状分析
简单来说告诉你过去发生了什么
第一: 告诉你企业现阶段的整体运营情况,通过各个经营指标的完成情况来衡量企业的运营状态,以说明整体经营是好还是坏,以及好坏的程度。
第二: 告诉你企业各项业务的构成,让你了解企业各项业务的发展及变动情况,对企业运营情况有更深入的了解。
二、原因分析简单来说告诉你某一现状为什么发生。
运营情况具体好在哪里,差在哪
里。
三、预测分析
将来会发生什么对企业的未来发展趋势作出预测,一般通过专题分析来完成的,通常在制定企业季度、年度等计划时进行的,其开展的频率没有现状分析及原因分析高。
数据分析六部曲
一、明确分析目的和思路
1、明确分析目的(为什么开展数据分析,通过这次数据分析我要解决什么问题等等) 2 、确定分析思路(如何具体开展数据分析,需要从那几个角度进行分析,采用那些分析指
标。
要知道先分析什么,后分析什么,使得各个分析点之间有逻辑关系。
通俗来说以营销、管理等理论为指导,结合实际业务情况,搭建分析框架,这样才能确保分析维度的完整性,分析结果的有效性及正确性。
营销理论模型有4p、用户使用行为、
stp 理论、
swot等,管理方面理论pest、5w2h时间管理、生命周期)
3、数据分析方法论
(指数据分析思路比如从哪几方面开展数据分析, 各方面包含什么内容和指标, 是数据分析的前期规划,指导着后期数据分析工作的开展。
与数据分析方法不同,前者是宏观角度分析的,后者是从微观角度分析的包括对比分析、交叉分析等等方法。
)常用的方法论有:
PEST是指影响一切行业和企业的各种宏观力量。
一般应对的是政治、经济、技术、社会);
5W2H何因、何事、何人、何时、何地、如何做、何价);逻辑树分析法(将问题的所有子问题分层罗列,从最高层开始,并逐步向下拓展。
遵循 3 个原则:要素化;
把相同
问题总结归纳成要素,框架化: 将各个要素组织成框架,遵守不重不漏的原则,,关联化; 框架内的各要保持必要的相互关系,简单而不孤立);
4P营销理论(四要素:产品(有形产品、服务、人员、组织、观念和它们的组
合)、价
格(基本价格、折扣价格、支付期限。
影响定价因素:需求、成本、竞争)、渠
道、促
销(促销组合:广告、宣传推广、人员推销、销售促进))
用户行为理论(指用户为获取、使用物品或服务所采取的各种行动,用户对产品首先有
一个认知、熟悉的过程、然后试用,再决定是否继续消费使用,最后成为忠诚用户。
)
二、数据收集数据收集是按照确定的数据分析框架,收集相关数据的过程,它为数据分析提供了素材和依据。
一般数据来源主要有以下几种方式: 数据库(公司自身数据库)、公开出版物(中国统计年鉴)、
互联网(搜索引擎)、市场调查(专门的调查)
三、数据处理数据处理的基本目的是从大量的、杂乱无章、难以理解的数据中,抽取并推导出对问题有价值、有意义的数据。
数据处理主要包括数据清洗、数据转化、数据提取、数据计算等处理方法。
1. 数据清洗
找出重复数据(函数法、高级筛选法、条件格式法、数据表透视法)删除重复数据(菜单删除重复选项、通过排序删除重复选项、筛选删除重复选项)
缺失数据处理(缺失值接受标准10%以下): 定位输入(查找): 开始-编辑-定位条件-空白-确定处理方法(四种): 样本统计量值替代缺失值(常用平均值)统计模型计算的值替代(回归模型、判别模型)将缺失数据删除(样本量减少)将缺失数据记录保留,仅在相应的分析中做必要的排除
检查数据逻辑错误(利用IF 函数检查错误、利用条件格式标记错误:OR,AND) 2.
数据加工
数据抽取: 保留元数据表中某些字段的部分信息,组合成一个新字段。
(字段分裂: 菜单法.
数据-数据工具-分裂其他选项按自己需求填写函数法.LEFT&RIAHT字段合并,
字段匹配)
数据计算:简单计算(加减乘除)、函数计算(sum、average等)、
3.数据分组:(VLOOKUP)
4.数据转换
数据表的行列互换(开始-剪贴板-粘贴-选择性粘贴-对话框里面的转置) 5. 数据抽样
使用RAND
四、数据分析
数据分析是指用适当的分析方法及工具,对处理过的数据进行分析; 提取有价值的信息,形成有效结论的过程。
数据处理是数据分析的基础,通过数据处理,将收集到的原始数据转化为可以分析的形式,并且保证数据的一致性和有效性。
数据挖掘是一种高级的数据分析方法。
数据挖掘是人们长期对数据库技术进行研究开发的结果。
数据挖掘侧重解决四类数据问题:分析、聚类、关联和预测,重点需找模式和规律。
数据分析方法三大作用:
现状分析(对比)、原因分析(细分)、预测分析(预测)
1.对比分析法:将两个或两个以上的数据进行比较,分析差异,从而揭示数据所代表的事物发展情况和规律性。
可分为静态比较(同一时间条件下对不同总体指标的比较如不同部门、不同地区、不同国家的比较,也叫做横向比较),动态比较(在同意总体条件下
对不同时期指标数值的比较,也叫纵向比较)。
在实践运用中,与目标对比,不同时期对比,同级部门、单位、地区对比,行内对比,活动效果对比。
进行对比应该注意到以下几点因素: 指标的口径范围、计算方法、计量单位必须一致; 对比对象的可比性,对比对象之间相似处越多越具有可比性;
对比的指标类型必须一致。
2.分组分析法:把数据分析对象划分为不同的部分和类型来进行研究,以揭示其内在的联系和
规律。
步骤: 确定数组、确定各组的组距、根据组距大小,对数据进行分组整理,划归至相应
组内。
3.结构分析法:总体内各部分占总体的比例属于相对指标。
一般来说,某部分的比例越大,说
明其重要程度越高,对总体的影响越大。
4.平均分析法:运用计算平均的方法来反应总体在一定时间、地点条件下某一数量特征的一般
水平。
平均指标可用于某一同一现象在不同地区、不同部门、不同类型部门、不同时间。
有两
特点,一是如上,二是某些现象在不同历史时期的变化,更能说明发展趋势和规律。
5.交叉分析法:通常用于两个变量之间的关系即同时将两个有一定联系的变量及其值交叉排列
在一张表格内,使各变量值成为不同变量的交叉节点,形成交叉表,从而分析交叉表中变量之
间的关系。
如二维表
6.综合评价分析法: 人们通过对实践活动的总结,逐步形成了一系列多个指标对多个
参评单位
进行评价的方法。
步骤:1) 确定综合评价指标体系2) 收集数据3) 确定指标体系中各指标的
权重,以保证评价的科学性4) 对经处理后的指标在进行再进行汇总计算出综合评价指数或综
合评价分值5) 根据评价指数或分值对参评单位进行排序,并由此得出结论。
三大特点: 通过
一系列特殊方法将多个指标同时完成,要根据指标的重要性进行加权处理,以指数或分值表示
参评单位综合状况的的排序。
权重确定的方法: 专家访谈法、德尔菲法、层次分析法、
主成分
分析法、因子分析法、回归分析法、目标优化矩阵表
7.杜邦分析法:利用主要财务指标间的内在联系,对企业财务状况及经济效益进行综合分析评
价的方法。
8.漏斗图分析法:适合业务流程比较规范、周期比较长、各流程环节涉及复杂业务过程比较多
的管理分析工具。
9.矩阵关联分析法: 指根据事物的两个重要属性作为分析的依据,进行分类关联分
析,找出解
决问题的一种分析方法。
目标优化矩阵表: 把人脑的模糊思维简化为计算机的1/0 式逻辑模式研究方向数据分析方法
产品研究相关分析、对应分析、判别分析、结合分析、多为尺度分析等品牌研究相关
分析、聚类分析、判别分析、因子分析、对应分析、多为尺度分析等价格研究相关分析、PSM介格分析等
聚类分析、判别分析、因子分析、对应分析、多为尺度分析、logistic 回归、市场细分决策树等
满意度研究相关分析、回归分析、主成分分析、因子分析、结构方程等
相关分析、聚类分析、判别分析、因子分析、对应分析、logistic 回归、决策用户研究树、关联规则等
预测决策回归分析、决策树、神经网络、时间序列、logistic 回归等数据分析工具: 数据透视表
五、数据展现一般情况下,数据是通过表格和图形方法来呈现的。
图形的种类很多。
(能用图说明问题的就
不用表格,能用表格说明问题的就不用文字。
)
通过关系选择图表: 成分(用于表示整体的一部分,饼图、柱形图、条形图、瀑布图)、排序
(比较大小进行排列)、时间序列(表示某事按照一定的时间顺序发展的走势、趋势)、频率分
布(用于表示各项目、类别间的比较)、相关性(用于衡量两大类中各项目间的关系)、多重数
据比较(数据类型多于2 个的数据分析比较)
其他(雷达要表达的数饼图柱形图条形图折线图气泡图图、散点图、据和信息表格)成分百分比堆积1 1 1 整体一部分图排序1 1 1 帕累托图数据间比较时间序列1 1 面积图走势、趋势
频率分布1 1 1 数据频次
相关性1 1 1 散点图数据间关系多重数据比雷达图较
(1 表示已被选中)图标制作五步法:
1.确定所要表达的主体或目的
2. 确定哪种图表适合你的目的
3. 选择数据制作图表
4. 检查是否有效的展示数据
5.检查是否表达了你的观点
表格注意事项
1.突出单元格(用特殊背景,颜色突出个别项:开始-样式-条件格式-突出显示单元格规则)
2.项目选取(与上不同的是指定的规则不同,突出显示的单元格的规则指定值是与原始数据
相关的数据同上所选)
3.数据条(数据条越长,表示数值越大…•)
4.图标集(对数据进行注释,并可以按照临界值,将数据分为3-5 个类别)
5.迷你图(可提供对数据的形象表示)
图表换装
1.平均线图(在原来的柱形图或折线图的基础上,添加一条平均线或则标准
线。
先列出数据
与平均数据,选取所给的数据做柱形图,选柱形图中的“平均值”的任一条柱,右击选“更
改系列图表类型”把柱形图改为折线图不带数据标记)
2.双坐标图(图中有两个及其以上数据,并且他们的量纲不同或者数据差别很大,在一纵坐
标下就无法很好的展现原数据的面貌,做法同上只不过要带数据标记) 3. 竖形折线图(主要用来展示产品功能、品牌形象等在消费者心中的评价) 4. 瀑布图(第n个占位数
据的大小=(总成本-(成本1+成本2+成本3+….成本n))) 5. 帕累托图(又叫排列图,主次图;)
6.旋风图(同一事物在某个活动、行为影响前后不同指标的变化;在指标a变
化下,指标b
影响也随之变化,具有因果关系;两个类别之间不同指标的比较,如某班男女同学成绩的
比较)
7.人口金字塔图(专门用来反应人口过去、现在、未来的发展情况)
8.漏斗图
9.矩阵图(散点图)
10.发展矩阵图
11.改进难易矩阵(气泡图)(以上图形做法百度便可)
美化图表
1.别让图表犯错(标题、图例、单位、脚注、资料来源)
2.制作图表的规则
避免生出无意义的图表(作图表与否标准:能否帮助你有效表达信息)避免信息量过大(一张图表反应一个观点,才能突出重点)
基本院原则: 简约,标题要有吸引力
图形的注意事项:
1. 饼图(把数据从12 点钟的位置开始排列最重要成分靠近12 点钟的位置,数据项5
个以
内,不要使用饼图分离,不要使用图例; 数据超过5 项使用复合饼图)
2.柱形图(同一数据序列使用相同的颜色,不要使用倾斜的标签,别让读者歪着脑袋看)
3.条形图(同一序列使用相同的颜色,尽量让数据由大到小排序,方便阅读,不使用倾斜
的标签,最好添加数据标签)
4.折线图(折线的线型要相对粗些要有突出的感觉,线条一般不超过5 条若过多可以分开
作图表,不使用倾斜的标签,纵坐标从0 一般开始)
图表会说谎
虚张声势的增长(对增长比较平缓的图形进行拉伸)
3D效果的伪装(3D效果的图表让人理解起来困难重重,使得图表显得拖沓繁沉
)
一维图形的障眼法(使用图形的大小来表示增长)
图表美化三原则
1.简约(简明扼要、清晰明了)
2.整洁(整整齐齐、干干净净、和谐自然)
3.对比(是指突出某些重要,帮助读者迅速抓住信息)
美化图标的技巧
1.最大化数据墨水比(图表中的每一滴墨水都要有存在的理由即尽量减少和弱
化非数据元
素—网格线、坐标轴、填充色等与数据源有关,增强和突出数据元素—曲线、条形、扇形
等与数据源无关)步骤:1. 去掉不必要的背景填充色2. 去掉无意义的颜色分类3. 去掉装饰
性的渐变性4. 去掉网格线、边框5. 删掉不必要的图例6. 去掉不必要的坐标轴
7. 去掉装饰行
的图片8. 以上不能去掉的元素要尽量淡化9. 对需强调的数据元素进行突出标识
2.找出隐形的线(注意图表中元素的位置,应找出能够与之对齐的元素)图表喜欢的
数字格式(数据标签很多时,可考虑改成Arial 字体)
4.如何突出对比(使用醒目的颜色、直线、箭头、阴影将元素突出,切记对比的目的:让
读者快速地领悟重要信息,其次才是吸引读者的眼球,调动他们的兴趣)图表的配色方案
主色配色
红色白色、黑色、蓝灰色、米色、灰色
咖啡色米色、鹅黄、转红、蓝绿色、黑色
黄色紫色、蓝色、白色、咖啡色、黑色
绿色白色、米色、黑色、暗紫色、灰棕色
蓝色白色、粉蓝色、酱红色、金色、银色、橄榄绿、橙色、黄色
制作属于自己的模板,快速作图f11 键,添加小工具jwalk chart tools 通过加载宏来加载,这个工具
需另外下载; 修剪超大值
六、报告撰写
数据分析报告是对整个数据分析过程的一个总结和呈现。
通过报告,把数据分析的起因、过程、及结果完整的呈现出来,提供决策者参考。
好的分析报告一定要有建议或解决方案。
初识分析报告
1.写作原则:规范性(名词术语规范前后一致,与行内公认的术语一致)、重要性(体现数据分析的重点,重点选取关键指标,按重要性的高低来分级阐述)、谨慎性(基础数据必须真实、完整,内容实事求是)、
创新性(各种新的研究模型或数据分析方法)
2.报告的作用:展示分析结果、验证分析质量(对整个数据分析项目的一个总结)、提供决策参考
3.报告的种类:
专题分析报告(对社会经济现象的某一个方面或某个问题进行专门研究的一种数据分析报告,作用为决策者制定某项政策、解决某个问题提供决策参考和依据; 特点: 单一性,主要针对某一方面或问题进行分析,不要求反映事物的全貌;深入性,主要针对问题深入,对问题进行具体描述,对引起的问题的原因进行分析,并提出可行的解决方案的)综合分析报告(全面评价一个地区、单位、部门业务或其他发展方面例如世界人口发展报告; 特点: 全面性,综合分析报告反映的对象,全面反映对象的各个方面的情况; 联系性,要把一些相互关联的一些现象、问题综合起来进行全面系统的分析,联系的重点比例关系和平衡关系,分析他们的发展是否协调,是否适应。
)、
日常数据通报(以定期数据分析报表为依据,反映计划执行情况,并分析其影响和形成原因,一般是按日月季年等时间阶段进行; 特点: 进度性,必须把计划执行的进度与时间的进展结合起来分析,观察两者是否一样,从而判断计划完成的好坏,需要计算一些绝对数和相对数指标来突出进度; 规范性,反应计划的基本情况,分析完成或未完成的原因,总结计划执行中的成绩和经验,找出存在的问题,提出措施和建议; 时效性,有日常数据通报的性质和任务决定,是时效性最强的一种)
数据分析报告的结构
按照总—分—总的结构
结构开篇包括标题页、目录和前言(主要包括分析背景、目的与思路); 正文包括具
体分析过
程与结果; 结尾部分包括结论、建议及附录
标题页: 题目要精简干练,要求在一两行内完成;
常用类型: 解释基本观点,点名数据分析报告的基本观点《不可忽视高价值客户
的保有》; 概括主要内容,重在叙述数据反映的基本事实《我司销售额比去年增长30%》; 交代分析主题,这类反映分析的对象、范围、时间、内容等情况,并不点明分析师的看法和主张《2014年运营报告》; 提出问题,以设问的方式提出报告所要分析的问题所在,引起读者的注意和思考。
制作要求:直接,不可含糊,开门见山的表达基本观点; 确切,做到文题相符,宽窄适度;简洁反应报告的主要内容和基本精神,高度的概括性; 标题的艺术性目录: 相当于数据分析大纲,体现报告的分析思路,不能过于详细
一、分析背景与目的
二、分析思路
三、分析正文
1.
2.
四、总结与建议
、, 、-
前言:
分析背景(为何要开展此次分析, 有何意义,)
分析目的(通过此次分析要解决什么问题, 达到何种目的,)
分析思路(如何开展此次分析, 主要通过哪几方面开展,)
正文: 系统全面的表述数据分析的过程与结果; 特点如下: 是报告最长的部分
包含所有数据分析的事实与观点
通过数据图表和相关的文字结合分析
正文各部分具有逻辑关系
结论与建议: 结论是以分析结果为依据得出的分析结果,以综述性文字来说明,结合公司实际业务,
经过综合分析、逻辑推理形成的总体论点; 建议对企业或业务所存在的问题提出
的解决方案,主要关注在保持优势及改进劣势等方面提供正文中涉及而未予阐述的有关资料,有时也包含证问题及的资料,包括涉及的专有名词解附录:
释、计算方法、重要原始数据、地图等内容,每个内容都要编号。
撰写报告的注意事项:
结构合理,逻辑清晰; 实事求是,反应真实;用词准确,避免含糊; 篇幅适宜,简洁有效; 结合业务,
分析合理
数据分析的三大误区
1、分析目的不明确,为分析而分析
数据分析应该围绕自己的分析目的( 了解现状、找出业务变动原因、预测发展等)而分析。
2 、缺乏业务知识,分析结果偏离实际
对业务的理解相对较浅,对数据分析偏重于数据分析方法的使用,如回归分析、相关分析,分
析忽视了业务逻辑上的关联性,得不到全面、综合性的结论。
懂营销,懂管理,懂策略。
3 、以为追求使用高级分析方法,热衷研究模型
高级的数据分析方法不一定是最好的,能够简单有效解决问题的方法才是最好的。
仅有分析模
型远远不够,围绕业务发现问题并解决问题的才是数据分析的最终目的。
数据分析师的职业要求
一、懂业务
熟悉行业知识、公司业务及流程
二、懂管理
是搭建数据分析框架的要求,还是针对数据分析结论提出有指导意义的分析建议
懂分析三、
掌握数据分析的基本原理与一些有效的数据分析方法( 基本的数据分析方法有对比分析法、
分组分析法、交叉分析法、结构分析法、漏斗图分析法、综合评价分析法、因素分析法、矩阵
关联分析法等)
四、懂工具
Excel、access、spss、SAS 建议先学好Excel
五、懂设计
运用图表有效表达数据分析师的分析观点
数据分析师的基本素质
1、态度严谨负责
2、好奇心强
3、逻辑思维清晰
4、擅长模仿学习
5、勇于创新
几个常用指标和术语
1. 平均数
2. 绝对数与相对数
3. 百分比和百分点
4. 频数和频率
5. 比例和比率
6.倍数和番数
7. 同比和环比
数据分析三字经
1.学习: 先了解,后深入:先记录,后记忆;先理论,后实践;先模仿,后创新
2. 方
法: 先思路,后方法;先框架,后细化;先方法,后工具;先思考,后动手3. 分析: 先业务,后数据;先假设,后验证;先总体,后局部; 先总结,后建议
数据类型
字符型数据数值型数据
数据表的设计要求
1. 数据表由标题行和数据部分组成
2.第一行是表的列标题(字段名),列标题不能重复
3.第二行起是数据部分,数据部分的每一行数据称为一个记录,并且数据部分不允许出
现空白列
4.数据表中不能含有合并单元格存在
5.数据表与其他数据之间留出至少一个空白行和一个空白列
6.数据表需要以一维的形式存储,但是在实际操作中接触的数据往往是以二维表格的形式存在的,
此时应该将二维表转化为一维表的形式存储数据(Excel 中将二维数据表转化为一维数据表,
需要“添加功能选项”——“数据透视表和数据透视图向导” )
数据来源
导入外部数据: 文本和网站数据来源
问卷录入要求:(调查问卷常用的类型: 单选、多选、排序、开放性文字题)数值题(直接录入数据即可)单选题(答案唯一,用1234替代ABCD)多选题(二分法: 把每一个相应选项定义为一个变量,若一个变量有被选到则填上1 ,否则填
上0;多重分类法:定义录入的数值A—1…..根据限选的项数确定输入变量个
数,选A则填1)排序题(定义对应变量A—1…•,然后按照被调查者填写的顺序录入选
项)
开放性文字题(如果答案可以进行归类,侧进行归类,若不可以则要概括填写)。