数据清洗入门

合集下载

数据清洗入门指南

数据清洗入门指南数据清洗是数据预处理的重要环节，它涉及到检查、处理和验证数据的过程，以确保数据的质量和准确性。

以下是一个完整的数据清洗入门指南，包括数据清洗的基本概念、目的、步骤、常见问题和工具等。

一、基本概念数据清洗是指在数据预处理过程中，对数据进行检查、处理和验证的过程，以确保数据的质量和准确性。

数据清洗的主要目标是识别和纠正错误、异常或不完整的数据，以确保数据分析的准确性和可靠性。

二、目的数据清洗的目的包括以下几个方面：1.识别和纠正错误数据：检查数据中的异常值、遗漏值或格式错误，并修正它们以确保数据的准确性。

2.统一数据格式：将不同来源的数据格式统一，以便于整合和分析。

3.删除不必要的数据：删除重复、不相关或过时的数据，以减少数据分析的复杂性和计算成本。

4.填充缺失值：使用适当的值填充缺失的数据，以便于数据分析。

5.保证数据完整性：确保数据的完整性、一致性和可靠性，以满足业务需求和分析要求。

三、步骤数据清洗通常包括以下步骤：1.数据探索：初步了解数据的分布、特征和异常值，为后续的数据清洗提供依据。

2.数据清洗计划：制定详细的数据清洗计划，包括需要清洗的数据列、清洗方法和预期结果等。

3.数据预处理：对数据进行必要的转换和格式化，以便于清洗和数据分析。

4.异常值处理：识别和纠正异常值，以确保数据的准确性和可靠性。

5.缺失值处理：识别和填充缺失值，以避免数据分析中的偏差和不准确。

6.重复值处理：识别和删除重复值，以减少数据分析的复杂性和计算成本。

7.数据整合与转换：将不同来源的数据整合到一起，并进行必要的转换和格式化，以满足后续数据分析的需要。

8.数据验证与反馈：验证数据清洗的结果是否满足业务需求和分析要求，并进行必要的调整和修正。

四、常见问题在进行数据清洗时，可能会遇到以下问题：1.数据不一致：不同来源的数据可能存在不一致的问题，如格式不统一、单位不统一等。

需要进行必要的转换和调整。

2.缺失值处理：缺失值是常见的数据问题之一，需要进行适当的处理。

数据清理操作指南

数据清理操作指南数据清理是指对数据进行整理、加工和处理，以确保数据的准确性、一致性和完整性。

在大数据时代，数据清理变得尤为重要，因为数据的质量直接关系到决策的准确性和可靠性。

本文将为您提供一份数据清理操作指南，以帮助您有效地清理和处理数据。

一、数据清理前的准备工作在进行数据清理之前，有以下几项准备工作需要完成：1.明确数据清理的目标：明确需要清理的数据集和清理的目的，例如删除重复数据、处理缺失值、纠正错误等。

2.数据备份：在进行任何数据清理操作之前，务必对原始数据进行备份，以防误操作导致数据丢失。

3.了解数据：对待清理的数据进行充分了解，包括数据的结构、格式、字段含义等。

二、数据清理步骤1.处理缺失值：a.识别缺失值：查找数据集中的缺失值，可以使用统计函数、可视化工具或者代码脚本进行识别。

b.确定处理策略：根据数据的特点和缺失值的分布情况，确定处理策略，可以选择删除包含缺失值的样本、使用均值或中位数进行填充、使用回归模型进行预测等方法进行处理。

2.处理重复数据：a.识别重复数据：使用数据比对工具或者代码脚本识别数据集中的重复数据。

b.删除重复数据：根据业务需求，可以选择保留首次出现的重复数据或者删除全部重复数据。

3.纠正错误数据：a.识别错误数据：通过数据可视化、统计分析等手段识别数据集中的错误数据。

b.纠正错误数据：根据错误数据的类型，可以采用手动修改、校对或者使用算法进行自动纠正。

4.规范化数据：a.统一命名规则：对数据集中的字段、类别进行统一的命名规则，提高数据的一致性和可读性。

b.标准化单位：将不同单位的数据进行转换，以便进行综合分析和比较。

c.格式统一：对数据的格式进行统一，例如日期、时间、货币等格式。

5.处理异常值：a.识别异常值：通过数据可视化、统计分析等手段识别数据集中的异常值。

b.处理异常值：可以选择删除异常值、替换成合理的值或者使用算法进行修正。

6.数据整合：a.合并数据集：当存在多个数据集需要整合时，可以使用数据库操作或者数据处理工具进行数据集的合并。

数据清洗与整理的基础知识及入门指南

数据清洗与整理的基础知识及入门指南随着信息时代的到来，数据成为了我们生活中不可或缺的一部分。

然而，随着数据的增长与积累，我们也面临着一个严峻的现实：数据质量低劣和混乱。

为了更好地利用数据，我们需要进行数据清洗和整理。

本文将介绍数据清洗与整理的基础知识，并提供一些实用的入门指南。

一、为什么需要数据清洗与整理数据清洗与整理是数据分析的第一步，它能够帮助我们提高数据的质量和可信度，从而更准确地进行后续分析和决策。

原始数据通常存在着多种问题，比如缺失值、异常值、重复值、错误格式等。

如果不进行清洗和整理，这些问题可能会导致分析结果的不准确和误导。

二、数据清洗与整理的基本步骤1. 数据审查与了解：在进行数据清洗与整理之前，需要先对数据进行全面审查并了解数据的特点和规模。

这包括了解数据的来源，收集相关文档和背景信息，并与数据所有者进行交流，以便更好地理解数据的含义和价值。

2. 数据预处理：数据预处理是数据清洗与整理的核心环节。

它包括了处理缺失值、异常值、重复值和错误格式等问题。

处理缺失值时可以采用插值法、删除法或基于模型的方法进行填补；处理异常值时可以使用统计学方法（例如，3σ法则）或专业领域知识进行判断和处理；处理重复值时可以使用数据去重算法进行相似度匹配和消除；处理错误格式时可以使用数据规范化和格式转换的方法。

3. 数据变换与集成：在数据清洗与整理的过程中，有时需要对数据进行转换和集成。

数据变换包括对数据进行归一化、标准化、离散化和连续化等操作，以满足分析的需求。

数据集成则是将来自不同来源的数据合并成一个整体，以便进行统一的分析。

4. 数据验证与评估：数据清洗与整理完成后，需要对数据进行验证和评估。

这可以通过统计分析和可视化手段来完成。

数据验证的目的是确保清洗和整理的效果，而数据评估则是对清洗和整理的结果进行评价和反馈，以便对后续工作进行改进。

三、数据清洗与整理的常见挑战和解决方案在进行数据清洗与整理的过程中，往往会面临一些挑战。

数据清洗与整理的基础知识及入门指南(九)

数据清洗与整理的基础知识及入门指南随着信息时代的到来，数据成为了当今社会的宝贵资源。

然而，原始数据通常都是杂乱无章的，包含着重复、缺失、错误等问题，这就需要进行数据清洗与整理，以使数据能够更好地被分析和应用。

本文将介绍数据清洗与整理的基础知识，并提供一些入门指南。

一、数据清洗的重要性数据清洗是数据分析的基础工作，它涉及到数据质量的提高，增加分析结果的准确性和可靠性。

数据清洗主要包括去重、缺失值填充、异常值处理和格式规范化等工作。

1. 去重数据中可能存在重复记录，这会影响到分析的结果和准确性。

因此，需要对数据进行去重操作。

常见的去重方法有基于主键、基于相似度和基于逻辑判断等。

2. 缺失值填充数据中常常存在缺失的情况，比如某些字段没有被记录。

在处理缺失值时，一种常见的方法是用平均值、中位数或众数进行填充。

然而，在某些情况下，需要根据数据的特点和背景知识，采用更为复杂的填充方法。

3. 异常值处理数据中可能存在一些异常值，即与其他观测值明显不同的离群值。

异常值的存在会对数据分析产生较大干扰，因此需要进行处理。

常见的方法有删除异常值、替换为平均值或中位数、采用离散化等。

4. 格式规范化数据中的格式可能存在不一致或不规范的情况，例如日期格式、单位不统一等。

为了使数据能够更好地进行分析，需要对格式进行规范化处理。

这通常涉及到数据类型转换、单位调整等操作。

二、数据清洗的步骤数据清洗是一个系统性的过程，需要按照一定的步骤进行。

下面将介绍数据清洗的六个基本步骤。

1. 理解数据在进行数据清洗之前，首先要充分理解数据，包括数据的来源、内容以及可能存在的问题。

这可以帮助我们更好地制定清洗策略和方法。

2. 数据评估对数据进行评估，主要是检查数据的质量，发现其中的错误、缺失等问题。

可以使用统计指标、可视化等方法进行评估。

3. 数据处理根据评估结果，对数据进行相应的处理。

比如，去除重复记录、填充缺失值、处理异常值等。

可以使用编程语言如Python或R来进行批量处理。

数据清洗与整理的基础知识及入门指南(三)

数据清洗与整理的基础知识及入门指南随着数字化时代的到来，数据成为了各行各业不可或缺的一部分。

然而，大量生成的数据并非都是完美无瑕的，这就需要我们对数据进行清洗与整理，以提高数据的质量和价值。

本文将为大家介绍数据清洗与整理的基础知识，并提供一些入门指南。

数据清洗是指通过识别、纠正或删除数据集中的不准确、不完整、不一致或重复的部分。

数据清洗的目的是确保数据的准确性、一致性和完整性。

在进行数据清洗之前，我们需要先对数据进行初步的了解和分析。

1. 数据初步了解与分析在进行数据清洗之前，我们需要了解数据的来源、结构和内容。

这样可以帮助我们更好地理解数据的特点和问题所在。

对于结构化数据，我们可以通过查看数据表或数据库的架构来获得相关信息。

而对于非结构化数据，我们可以通过查看数据文件的元数据或者使用专门的工具进行初步的分析。

2. 处理缺失值数据中常常会存在缺失值，即某个变量的值为空或无效。

处理缺失值是数据清洗中的重要一环。

常见的处理缺失值的方法包括：删除缺失值、用均值或中位数填充缺失值、根据其他变量的值进行插值等。

3. 处理异常值异常值是指与其他观测值明显不同的观测值。

异常值可能是由于错误、录入问题或者其他原因导致的。

处理异常值是数据清洗的另一个重要任务。

常见的处理异常值的方法包括：删除异常值、用均值或中位数替代异常值、根据其他变量的值进行修正等。

4. 标准化与格式化数据来源的多样性意味着数据可能存在着不同的格式和单位。

标准化与格式化是将数据转化为统一的格式和单位的过程。

例如，将日期统一为固定格式、将字符串转化为数字等。

5. 去重与合并数据中常常会存在重复的观测值。

去重是指删除重复的观测值，以避免重复计算或分析。

合并是指将来自不同来源的数据整合到一个数据集中。

去重与合并是数据清洗中的常见任务。

6. 数据转换与计算有时候，我们需要通过对原始数据进行一些计算或运算，以获得新的变量或指标。

例如，计算平均值、标准差、百分比等。

数据清洗与整理的基础知识及入门指南(十)

数据清洗与整理的基础知识及入门指南在当今信息爆炸的时代，数据扮演了重要的角色。

然而，与海量数据相伴而来的是数据的杂乱和不规范。

因此，数据清洗与整理是一个必不可少的环节。

本文将探讨数据清洗与整理的基础知识，并提供一些入门的指南。

一、数据清洗的意义和目标数据清洗是指在数据处理和分析之前，通过一系列的操作和技术，去除数据中的噪声、错误、不一致性和冗余，使数据具备高质量、高可靠性和一致性的过程。

数据清洗的目标是提高数据的质量和可用性。

首先，清洗后的数据更加可靠和准确，能够支持正确的分析和决策。

其次，清洗后的数据具备一致性，能够在不同系统和平台之间无缝交互。

最后，清洗后的数据简洁明了，易于理解和使用。

二、数据清洗的步骤数据清洗通常包括以下几个步骤：1. 数据预处理：包括数据采集、数据导入和数据检查等步骤。

数据采集是指从各种数据源中获取数据，可以是结构化的数据表、文本文件、图像等。

数据导入是将采集到的数据导入到数据处理工具中，如数据库或数据分析软件。

数据检查是对导入的数据进行初步的检验，确保数据的完整性和正确性。

2. 数据清理：主要是删除和纠正数据中的错误和不一致性。

删除无效数据是指删除重复或无效的数据，以保证数据的唯一性和准确性。

纠正数据错误是指对数据中的错误进行修正和校正，如拼写错误、格式错误等。

3. 数据标准化：数据标准化是指将数据转换为统一的格式和单位，以便于后续的分析和处理。

常见的数据标准化操作包括单位转换、日期格式化等。

4. 数据集成：将来自不同数据源的数据进行整合和合并。

数据集成的目标是消除数据的冗余和重复，合并相同的数据项，并保持数据的一致性。

5. 数据转换：对数据进行适当的转换和变换，以满足特定的需求。

数据转换可以包括计算、合并、拆分、排序等操作。

三、数据整理的工具和技术虽然数据清洗是一个复杂的任务，但有许多工具和技术可以帮助我们完成这个过程。

以下是一些常见的数据整理工具和技术：1. 电子表格软件：如Microsoft Excel和Google Sheets等，可以用于数据的导入、处理和清洗。

从零开始学习数据清洗与整理的实用教程

从零开始学习数据清洗与整理的实用教程数据清洗和整理是在数据分析过程中至关重要的一环，它涉及到处理和修复数据中的错误、缺失、重复和不一致等问题，从而确保数据的准确性、一致性和完整性。

本文将带您从零开始学习数据清洗与整理的实用教程，帮助您更好地处理和优化数据。

1. 理解数据清洗的重要性在进行数据分析之前，首先需要清洗和整理原始数据，以避免因为数据的错误或不一致性导致的分析结果不准确。

数据清洗不仅有助于提高数据的可信度，还能减少后续分析阶段的工作量和时间消耗。

2. 数据质量评估在开始数据清洗之前，需要对原始数据进行质量评估。

这包括了解数据的结构和格式、审查数据的完整性、缺失数据的处理和异常值的检测等。

通过评估数据质量，可以洞察数据中存在的问题，并制定相应的清洗策略。

3. 处理缺失数据缺失数据是常见的数据质量问题之一，需要在数据清洗过程中加以处理。

常见的处理方法包括删除缺失值、填充缺失值或使用插值方法补全缺失值。

选择适当的方法取决于数据的类型和缺失数据的程度。

4. 解决数据重复问题数据中的重复值可能会影响到后续分析的准确性和结果的偏倚。

要解决数据重复问题，可以使用去重操作，将重复值删除或合并为一个唯一值。

在去重之前，需要先确定重复值的标准，并仔细审查数据以确保操作的正确性。

5. 处理异常值异常值是与其他数据明显不一致的数据点，可能会导致数据分析结果的失真。

为了解决异常值问题，可以使用统计方法或领域知识来识别和处理异常值。

对于一些明显异常的数据点，可以将其删除或修复；对于潜在异常的数据点，可以使用合适的替代值进行填充。

6. 格式转换和统一原始数据可能会以不同的格式和结构存在，需要进行格式转换和统一以便于后续分析。

例如，将日期数据转换为统一的格式、将不同单位的数据转换为同一单位等。

这可以通过使用函数和脚本来实现，以提高数据整理的效率和准确性。

7. 数据合并和拆分在实际的数据分析过程中，经常需要将多个数据源合并在一起进行分析。

掌握数据清洗技巧数据清洗的关键步骤

掌握数据清洗技巧数据清洗的关键步骤掌握数据清洗技巧 - 数据清洗的关键步骤数据清洗是数据分析过程中的关键步骤，它是指对原始数据进行筛选、转换和整理，以确保数据的准确性、一致性和完整性。

在进行数据清洗时，需要掌握一些重要的技巧和步骤，以确保数据的质量和可靠性。

本文将介绍数据清洗的关键步骤及相应的技巧，帮助读者掌握数据清洗的基本知识。

一、数据质量评估在进行数据清洗之前，首先需要对数据进行质量评估。

数据质量评估是通过分析数据的准确性、完整性、一致性、唯一性等指标，来判断数据是否满足需求。

为了进行数据质量评估，可以采用以下技巧：1. 查看数据属性和数据类型，了解数据的基本信息。

2. 检查数据的缺失值和异常值，判断数据的完整性和准确性。

3. 对数据进行统计分析，了解数据的分布情况和一致性。

4. 检查数据的重复值，确保数据的唯一性。

二、数据清洗步骤1. 缺失值处理缺失值是指数据表中某些变量的值缺失或者数据不完整的情况。

在进行数据清洗时，需要处理缺失值，以确保数据的完整性和准确性。

常见的缺失值处理技巧包括：- 删除含有缺失值的行或列；- 使用均值、中位数或众数等统计量填充缺失值；- 使用插值法进行缺失值的填充。

2. 异常值处理异常值是指数据中与大多数样本数值相差较大的离群点。

异常值的存在可能对数据分析结果产生较大的影响，因此需要对异常值进行处理。

常见的异常值处理技巧包括：- 删除包含异常值的行或列；- 将异常值替换为缺失值，再进行缺失值处理；- 使用特殊值（例如，最小值、最大值、均值等）替换异常值。

3. 数据格式转换数据格式转换是指将数据从一种格式转换为另一种格式，以满足数据分析的需要。

常见的数据格式转换技巧包括：- 将日期和时间格式进行转换，以便进行时间序列分析；- 将字符型数据转换为数值型数据，以便进行数值计算和统计分析；- 将文本数据进行分词和文本挖掘，以便进行文本分析和情感分析。

4. 数据标准化数据标准化是指对不同尺度或者不同分布的数据进行统一的处理，以便进行比较和分析。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

CDA数据分析师
ndarray
NumPy的一个关键特性是它的N维数组对象(ndarray)，它在Python中是一个大型数据集的快速的，灵活的容器。数组使你能够在整个数据块上进行数学运算，且与对应的纯量元素间操作有相似的语法。
ndarray是一个同种类数据的多维容器，也就是说，它的所有元素都是同类型的。每一个数组都有一个 shape（表示它每一维大小的元组）和 dtype （一个描述数组数据类型的对象）。
Life is short， you need python
数据清洗 Numpy & Pandas
讲师：张淑娟 2019.3.14
数据分析流程
> 数据分析流程：
确定数据分析的目的
获取数据
清洗数据
探索数据
建模分析
结果交流
明确的分析目的就像是瞄准了正确的靶心，才能使后续的动作有意义
收集原始数据，数据来源可能是丰富多样的，格式也可能不尽相同
CDA数据分析师
Pandas概述
Pandas 是 Python 进行数据分析的基础包，基于 NumPy 构建，该工具是为了解决数据分析任务而创建的。
Pandas 纳入了大量库和一些标准的数据模型，提供了高效地操作大型数据集所需的函数和方法，能使我们快速便捷地处理数据。这也是使 Python 成为强大而高效的数据分析环境的重要因素之一。
Numarray，它拥有一些额外的功能。2005 年，Travis Oliphant 通过将 Numarray 的功能集成到 Numeric 包中来创建 NumPy 包。
CDA数据分析师
Numpy安装
方法一：标准的 Python 发行版不会与 NumPy 模块捆绑在一起。一个轻量级的替代方法是使用
CDA数据分析师
Pandas中的数据结构
Series：一维数组，与Numpy中的一维array类似。二者与Python基本的数据结构 List也很相近，其区别是：List中的元素可以是不同的数据类型，而Array和Series中则只允许存储相同的数据类型，这样可以更有效的使用内存，提高运算效率。
CDA数据分析师
Pandas常用函数&方法
创建对象
pd.DataFrame(np.random.rand(20,5)): 创建20行5列的随机数组成的DataFrame对象 pd.Series(my_list): 从可迭代对象my_list创建一个Series对象 df.index = pd.date_range('1900/1/30', periods=df.shape[0]): 增加一个日期索引
CDA数据分析师
Numpy常用函数&方法
数组的维度变换
a.reshape(shape) : 不改变当前数组，依shape生成 a.resize(shape) : 改变当前数组，依shape生成 a.swapaxes(ax1, ax2) : 将两个维度调换，不改变原数组 a.flatten() : 对数组进行降维，返回折叠后的一维数组
Time- Series：以时间为索引的Series。 DataFrame：二维的表格型数据结构。很多功能与R中的data.frame类似。可以将 DataFrame理解为Series的容器。以下的内容主要以DataFrame为主。 Panel ：三维的数组，可以理解为DataFrame的容器。
CDA数据分析师
CDA数据分析师
Pandas常用函数&方法
数据选取
df[col]：根据列名，并以Series的形式返回列 df[[col1, col2]]：以DataFrame形式返回多列 s.iloc[0]：按位置选取数据 s.loc['index_one']：按索引选取数据 df.iloc[0,:]：返回第一行 df.iloc[0,0]：返回第一列的第一个元素
流行的Python 包安装程序 pip 来安装 NumPy。在 CMD 或命令行中执行: pip install numpy
方法二：使用 Anaconda 的 Python 发行版，这个发行版已经提前为我们安装了各类的科学计
算需要的第三方包。我们直接使用就可以了。（推荐）
CDA数据分析师
Numpy特性
CDA数据分析师
Pandas常用函数&方法
导出数据
df.to_csv(filename)：导出数据到CSV文件 df.to_excel(filename)：导出数据到Excel文件 df.to_sql(table_name, connection_object)：导出数据到SQL表 df.to_json(filename)：以Json格式导出数据到文本文件
CDA数据分析师
Numpy常用函数&方法
我们使用如下缩写： a：任意的Numpy ndarray对象
numpy约定俗成的导入方式： import numpy as np
CDA数据分析师
Numpy常用函数&方法
ndarray数组的创建
np.arange(n) ; 元素从0到n-1的ndarray类型 np.ones(shape): 生成全1数组 np.zeros((shape), dtype = np.int32) ：生成int32型的全0 np.full((shape), val): 生成全为val np.eye(n) : 生成单位矩阵 np.ones_like(a) : 按数组a的形状生成全1的数组 np.zeros_like(a): 同理 np.full_like (a, val) : 同理
数组的类型变换
数据类型的转换：a.astype(new_type) : eg, a.astype (np.float) 数组向列表的转换： a.tolist()
CDA数据分析师
Numpy常用函数&方法
数组的索引和切片
一维数组切片 a = np.array ([9, 8, 7, 6, 5, ]) a[1:4:2] –> array([8, 6]) ： a[起始编号：终止编号（不含）：步长]
NumPy 相比于 Python 内建的库和数据类型有以下特性： • 强大、灵活的多维数组对象及丰富的操作 • C 实现，执行效率高 • 线性代数、傅里叶变换、丰富的随机数功能 • 复杂的（广播）功能 Numpy官网：/
CDA数据分析师
Numpy应用
◦ 用于数据整理和清理、子集构造和过滤、转换等快速的矢量化数组运算。 ◦ 常用的数组算法，如排序、唯一化、集合运算等。 ◦ 高效的描述统计和数据合并/运算。 ◦ 用于数据集的合并/连接运算，数据对齐和关系型数据运算。 ◦ 将条件逻辑表述为数组表达式(而不是带有if-elifelse分支的循环) ◦ 数据的分组运算(聚合、转换、函数应用等）
CDA数据分析师
Pandas常用函数&方法
数据清理
df.columns = ['a','b','c']：重命名列名 pd.isnull()：检查DataFrame对象中的空值，并返回一个Boolean数组 pd.notnull()：检查DataFrame对象中的非空值，并返回一个Boolean数组 df.dropna()：删除所有包含空值的行 df.dropna(axis=1)：删除所有包含空值的列 df.dropna(axis=1,thresh=n)：删除所有小于n个非空值的列 df.fillna(x)：用x替换DataFrame对象中所有的空值 s.astype(float)：将Series中的数据类型更改为float类型 s.replace(1,'one')：用‘one’代替所有等于1的值 s.replace([1,3],['one','three'])：用'one'代替1，用'three'代替3 df.rename(columns=lambda x: x + 1)：批量更改列名 df.rename(columns={'old_name': 'new_ name'})：选择性更改列名 df.set_index('column_one')：更改索引列 df.rename(index=lambda x: x + 1)：批量重命名索引
多维数组索引 a = np.arange(24).reshape((2, 3, 4)) a[1, 2, 3] 表示 3个维度上的编号，各个维度的编号用逗号分隔
多维数组切片 a [：，：，：：2 ] 缺省时，表示从第0个元素开始，到最后一个元素
CDA数据分析师
Numpy常用函数&方法
数组的运算
np.abs(a) np.fabs(a) : 取各元素的绝对值 np.sqrt(a) : 计算各元素的平方根 np.square(a): 计算各元素的平方 np.log(a) np.log10(a) np.log2(a) : 计算各元素的自然对数、10、2为底的对数 np.ceil(a) np.floor(a) :计算各元素的ceiling 值， floor值（ceiling向上取整，floor向下取整） np.exp(a) : 计算各元素的指数值（以e为底） np.sign(a) : 计算各元素的符号值 1（+），0，-1（-）
理顺杂乱的原始数据，并修正数据中的错误，这一步比较繁杂，但确是整个分析的基石
进行探索式分析，对整个数据集有个全面的认识，以便后续选择何种分析策略
常常用到机器学习、深度学习等算法
使用报告、图表等形式展现出来，与他人交流
CDA数据分析师
Numpy概述
• NumPy 是 Numerical Python 的简称，是高性能计算和数据分析的基础包。 • Numeric，即 NumPy 的前身，是由 Jim Hugunin 开发的。Jim也开发了另一个包