数据分析需要掌握哪些技能

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
6.数据可视化及数据报告的撰写
数据可视化展示与数据报告的撰写是数据分析必不可少的步骤。数据可视化的工具比较多,可以用excel、tableau、R、python等,工具掌握一种或两种即可。数据可视化不仅需要掌握一定的可视化工具用法,还需掌握数理统计知识。只有掌握了统计知识、理解数据才可以设计出合适的图形来展示结果。数据分析报告则需要掌握业务知识和统计知识,两者结合才能很好的解读出分析结果的含义。
数据分析首先要做的就是理解需求,知道要做什么,然后才能考虑怎么做。
理解需求需要有一定的业务经验,其他技能并不会涉及太多。
2.获取数据
理解需求之后大致可以确定需要什么样的数据了,接下来就是获取数据。
获取数据一般需要这几个技能
1、数据库(SQL)技能
一般注重数据积累的公司都有自己的数据仓库,大部分数据可以直接拿来做数据分析,所以你需要SQL技能去完成数据提取等数据库管理工作。
综上与数据分析相关的技能还是蛮多的,首先要掌握统计及相关数学理论、再有就是熟悉SQL、python、R、SPSS等语言工具。其中有些技能从功能上来讲是重叠的,如R和python。具体使用哪种要根据公司要求及个人习惯来选择。
4.统计分析
数据预处理完成之后就可以对数据做一些统计分析了,如根据分组变量对数据集进行聚合计算、求均值、求和、求方差标准差等度量指标计算。还可以对某些特征之间进行相关性分析、列联分析、各种假设检验,通过多种方式以探索数据间的关联。
统计分析需要具备数理统计知识并掌握统计工具SPSS、SAS或编程语言如python、R等。
2、网络爬虫技能
还有一些是公司不具备的数据,需要到互联网上爬取。这用到的就是网络爬虫技术,爬虫涉及到HTML、http、JavaScript、CSS等知识,所有可以用来开发web服务的编程语言都可以用来开发爬虫程序,如python、Java、c/c++、JavaScript(nodejs)等。爬虫技术比较复杂,简单工作可由数据分析师自己完成,但复杂的爬取任务一般是由分析师提需求技术部门来完成的。
5.数据建模
在定性的理解数据之后想要量化的找出数据之间的关系,方便做出预测或者分类。这就需要通过数据结合统计算法、机器学习算法来训练出模型。
数据建模需要具备统计知识、熟悉机器学习算法并有一定的编程能力。数据建模常用的模型有线性回归、逻辑回归、决策树、随机森林、支持向量机(svm)、神经网络。这些模型大部分都可以在python的第三方库Scikit-learn中发现,因此python编程也是必不可少的技能。
数据分析
想知道数据分析需要掌握哪些技能?我们先来了解一下数据分析过程吧。数据分析工作大致由以下六阶段组成:1、理解需求2、获取数据3、数据预处理4、统计分析5、数据建模6、数据可视化及分析报告撰写。
除了理解需求阶段不需要技术性技能外其余每个Leabharlann Baidu段都会涉及到或多或少的技能,下面我帮大家梳理一下。
1.理解需求
3.数据预处理
拿到手的数据一般是有各种各样的问题,如:缺失、异常(取值超出常识),异构等。这样是不能直接用来分析与建模的,需要进行必要的清理、修整、整合、规范化、重塑、切片切块、变形等处理以便进行分析。
因此需要掌握几种数据处理工具,常见的数据预处理工具有excel、SQL、python等语言或工具。这几种工具的使用场景有些差异:
excel可以处理数据量不大,且没有太多复杂的字符结构的数据。
SQL可以处理数据量大但是结构简单的数据。
Python结合pandas、numpy库来使用,适合用来处理结构比较复杂的数据。当然结构简单的数据处理起来更轻松了。
如果数据量特别大,那还需要掌握在大数据平台的使用方法,如Hadoop、spark等。
相关文档
最新文档