数据分析心得体会 - 360文档中心

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

数据挖掘的技术与方法相关知识包括：数据挖掘的方法分为描述性与预测Байду номын сангаас两种。其中描述性数据挖掘指的是分析具有多个属性的数据集，找出潜在的模式和规律，没有因变量。要采用的算法：聚类、关联分析、因子分析、主成分分析等。预测性数据挖掘指的是用一个或多个自变量预测因变量的值。主要算法：决策树、线性回归Logistic回归、支持向量机、神经网络、判别分析。
在pandas中有两类非常重要的数据结构，即序列Series和数据DataFrame。Series类似于numpy中的一维数组，除了通吃一维数组可用的函数或方法，而且其可通过索引标签的方式获取数据，还具有索引的自动对齐功能；DataFrame类似于numpy中的二维数组，同样可以通用numpy数组的函数和方法，而且还具有其他灵活应用。之后学习了数据索引index，包括了通过索引值或索引标签获取数据以及自动化对齐；此外，pandas模块为我们提供了非常多的描述性统计分析的指标函数，如总和、均值、最小值、最大值等，我们来具体看看这些函数；在SQL中常见的操作主要是增、删、改、查几个动作，那么pandas能否实现对数据的这几项操作呢？答案是Of Course! 我们发现，不论是删除行还是删除列，都可以通过drop方法实现，只需要设定好删除的轴即可，即调整drop方法中的axis参数。默认该参数为0，表示删除行观测，如果需要删除列变量，则需设置为1。在Excel中有一个非常强大的功能就是数据透视表，通过托拉拽的方式可以迅速的查看数据的聚合情况，这里的聚合可以是计数、求和、均值、标准差等。pandas为我们提供了非常强大的函数pivot_table()，该函数就是实现数据透视表功能的。
数据分析心得体会
在数据分析这门课程当中主要学习了numpy和pandas和数据挖掘的知识，学习过程很充实，也不是很难。
首先学习了Numpy,NumPy(Numerical Python) 是 Python 语言的一个扩展程序库，主要学习了1、矩阵生成，2、矩阵切片，3、轴对换、相乘，4、条件填入（where），5、数据处理。NumPy 是一个运行速度非常快的数学库，主要用于数组计算。
通过这几天的学习我了解到数据分析的复杂性和难度，想要学好的它，还需要我花费很长时间。