《利用python进行数据分析》读书笔记

合集下载

python数据分析与展示读书笔记

python数据分析与展示读书笔记

q q q q q q q q q q q q q q q

q q q q q q q q q q q q q q q

q q q q q q q q q

q q

维度:一组数据的组织形式

一维

二维

多维

一维数据由对等关系的有序或无序的数据构成,采用线性方式组织

使用列表和集合类型

列表有序,集合无序

二维和多维使用多维列表

高维数据字典或数据表示格式

数据表示格式

json,xml,yaml

列表与数组列表和数组都是一组数据的有序结构

列表数据类型可以不同

数组数据类型必须相同

Numpy 开源的python科学计算基础库

引用方法:import numpy as np

N维数组对象

数组对象可以去掉元素间运算所需的循环,使一维向量更像单个数据

设置专门属于对象,可以提高运算速度

科学计算中,一维数组所有数据类型往往相同

数组对象使用相同数据类型,可以节约内存和运算时间

ndarray 是一个多维数组对象,由两部分构成

实际的数据

描述这些数据的元数据(数据维度,数据类型等) ndarray数组一般要求所有元素类型相同,数组下标从0开始

轴(axis)保存数据的维度,秩(rank)轴的数量

对象的属性

.ndim秩,即轴的数量或维度的数量

.shape表示ndarray对象的尺度,对于矩阵,n行m列

.size表示ndarray对象元素的个数

.dtype表示ndarray对象的元素类型

.itemsize表示ndarray对象中每个元素的大小,以字节为单位

ndarray数组创建方法从python的列表、元组等类型型创建ndarray数组

x=np.array(list/tuple)python数据分析与展示1

利用Python进行数据分析.pdf电子书(中文+高清+完整版+带书签)

利用Python进行数据分析.pdf电子书(中文+高清+完整版+带书签)

利⽤Python进⾏数据分析.pdf电⼦书(中⽂+⾼清+完整版+带书

签)

利⽤Python进⾏数据分析内容简介:还在苦苦寻觅⽤Python控制、处理、整理、分析结构化数据的完整课程?《利⽤Python进⾏数据分析》含有⼤量的实践案例,你将学会如何利⽤各种Python库(包括NumPy、pandas、matplotlib以及IPython等)⾼效地解决各式各样的数据分析问题。由于作者Wes McKinney是pandas库的主要作者,所以本书也可以作为利⽤Python实现数据密集型应⽤的科学计算实践指南。本书适合刚刚接触Python的分析⼈员以及刚刚接触科学计算的Python程序员。

总共463页⾼清完整版并且带书签,⾮常适合⾃学者使⽤,本⼈⽤的也是这本pdf电⼦书;

python数据分析总结汇报

python数据分析总结汇报

python数据分析总结汇报

数据分析是一种利用统计学和计算机科学方法来解析和理解大量数据的过程。通过对数据进行收集、清理、转换和建模,数据分析可以揭示数据中隐藏的模式、关联和趋势,从而为决策者提供有力的支持和指导。在Python中,有许多强大的库和

工具可以帮助我们进行数据分析,如Numpy、Pandas、Matplotlib和Scikit-learn等。

首先,我将介绍Python中最常用的数据分析库之一——Pandas。Pandas提供了用于处理和分析数据的高级数据结构和

函数。其中最重要的两个数据结构是Series和DataFrame。Series类似于一维数组,可以存储任意类型的数据,并且每个

数据都有一个与之相关的标签,称为索引。DataFrame则类似

于一个二维表格,可以存储具有不同类型的列数据,并且每列都有一个与之相关的列标签和每行都有一个与之相关的行标签。Pandas还提供了许多数据处理和分析的函数,如数据导入与

导出、数据清洗、数据切片与删减、数据排序与过滤等。

其次,Numpy是Python中另一个重要的数据分析库,它提供

了大量用于数值计算的函数和工具。最重要的功能之一是Numpy数组,它是一个多维数组对象,可以存储同类型的数据,并且可以进行高效的数值运算。Numpy数组支持各种数

学和逻辑操作,如加法、乘法、求和、平均值、标准差、指数函数、对数函数等。此外,Numpy还提供了一些用于生成随

机数、线性代数运算、傅里叶变换和多项式拟合等的函数。

另外,Matplotlib是Python中用于绘制图表和可视化数据的库。

python数据分析报告

python数据分析报告

Python数据分析报告(step by step思路)

在数据分析领域,Python已经成为了最常用的编程语言之一。它的简洁语法和强大的库使得数据分析变得更加容易。本文将向您展示一种逐步思考的方法,以帮助您完成Python数据分析报告。

第一步:明确分析目标

在开始数据分析之前,我们需要明确分析的目标。这可以是回答一个特定的问题,解决一个难题,或者仅仅是对数据进行描述性分析。无论目标是什么,它应该在整个分析过程中始终保持清晰。

第二步:获取数据

获取数据是数据分析的基础。根据分析目标,我们需要找到相关的数据源。这可以是一个CSV文件、数据库、API接口等等。Python提供了许多库来帮助我们获取和处理各种类型的数据。

以CSV文件为例,我们可以使用pandas库中的read_csv()函数来读取数据。例如:

import pandas as pd

data = pd.read_csv('data.csv')

第三步:数据清洗和预处理

在进行数据分析之前,我们通常需要对数据进行清洗和预处理。这是为了确保数据的准确性、一致性和完整性。在这一步中,我们可以使用各种方法来处理缺失值、异常值和重复值。

# 处理缺失值

data.dropna()

# 处理异常值

data = data[(data['column'] > lower_bound) & (data['column'] < upper_bo und)]

# 处理重复值

data.drop_duplicates()

第四步:数据探索和可视化

接下来,我们可以进行数据的探索性分析。这是为了了解数据的分布、关系和趋势。Python中有许多库可以帮助我们进行数据可视化,如matplotlib和seaborn。

利用Python进行数据分析

利用Python进行数据分析

利用Python进行数据分析

Python 数据分析的主要内容包括三大部分:数据清洗、可视

化和建模。首先,在数据清洗方面,Python提供了一系列的

库和工具,可以实现数据的抽取、处理、标准化等功能。比如Pandas和Numpy库,它们可以帮助我们通过一些简单的技术,实现对数据的处理,比如清理数据中的缺失值,异常值,以及格式不一致的数据等等。如此一来,可以为今后的数据分析提供更好的基础。

其次,Python也为可视化提供了很多强大的功能,比如Matplotlib和Seaborn库等,它们可以帮助我们快速、灵活地

展示出许多精美的图表来,比如画出直方图、折线图、散点图、气泡图等等。通过这些可视化图表,可以将数据更直观呈现出来,从而更有效地分析和识别数据中的规律。

最后,Python还为建模提供了很强大的功能,比如Scikit Learn等库,可以帮助我们实现对数据的分类、预测等功能,

实现快速准确的数据分析。它们可以用于实现各种回归算法,比如线性回归、逻辑回归、贝叶斯回归等等,以及一些其他常见的机器学习算法,比如支持向量机、决策树和随机森林等等,可以根据不同的应用场景选择合适的模型并进行拟合,以获得更准确的结果。

总之,利用Python实现数据分析,是一种非常有效的工作方式,可以帮助我们更快速准确地分析和识别数据中的规律,以实现准确有效的数据分析。

《利用python进行数据分析》读书笔记

《利用python进行数据分析》读书笔记

《利用python进行数据分析》读书笔记

pandas是本书后续内容的首选库。pandas可以满足以下需求:具备按轴自动或显式数据对齐功能的数据结构。这可以防止许多由于数据未对齐以及来自不同数据源(索引方式不同)的数据而导致的常见错误。. 集成时间序列功能既能处理时间序列数据也能处理非时间序列数据的数据结构数学运算和简约(比如对某个轴求和)可以根据不同的元数据(轴编号)执行灵活处理缺失数据合并及其他出现在常见数据库(例如基于SQL的)中的关系型运算1、pandas数据结构介绍两个数据结构:Series 和DataFrame。Series是一种类似于以为NumPy数组的对象,它由一组数据(各种NumPy数据类型)和与之相关的一组数据标签(即索引)组成的。可以用index和values 分别规定索引和值。如果不规定索引,会自动创建0 到

N-1 索引。#-*- encoding:utf-8 -*-

import numpy as np

import pandas as pd

from pandas import Series,DataFrame

#Series可以设置index,有点像字典,用index索引

obj = Series([1,2,3],index=['a','b','c'])

#print obj['a']

#也就是说,可以用字典直接创建Series

dic = dict(key = ['a','b','c'],value = [1,2,3])

dic = Series(dic)

#下面注意可以利用一个字符串更新键值

利用Python进行数据分析(原书第2版)

利用Python进行数据分析(原书第2版)
1.3 重要的Python库
1.3.2 panda s
1.3.5 SciPy
1.3.3 matpl otlib
1.3.6 scikitlearn
1 准备工作
1.3 重要的Python库
1.3.7 statsmodels
1 准备工作
0 1
1.4.1 Windows
0 4
1.4.4 安 装及更新 Python包
3 内建数据结构、函数 及文件
3.3 文件与操作系统
3.3.1 字节与Unicode文 件
04
4 NumPy基础:数 组与向量化计算
4 NumPy基础:数组与向量化计算
A
C
E
4.2 通用函数:快 速的逐元素数组函

4.4 使用数组进行 文件输入和输出
4.6 伪随机数生 成
4.1 NumPy
4.3 使用数组进
文件
02
6.1.2 将数 据写入文
0 2
1.4.2 Apple (OS X和 macOS)
0 5
1.4.5 Python 2和
Python 3
0 3
1.4.3 GNU/Lin
ux
0 6
1.4.6 集成 开发环境和 文本编辑器
1.4 安装与设置
1 准备工作
01
02
03

python读书笔记

python读书笔记

python读书笔记

Python是一种流行的编程语言,它易于学习且功能强大。在本文中,我们将学习Python的基础知识,包括语法、数据类型、变量、控制流、函数和模块等。此外,我们还将探讨Python中常用的库和框架,如NumPy、Pandas和Django等。

我们将通过实践来巩固所学的知识。我们还将学习如何使用Python进行数据分析、机器学习和人工智能等领域的应用。通过阅读本文,您将掌握Python的基础知识,并具备使用Python进行编程和解决实际问题的能力。

Python读书笔记

## 1. 语法

Python的语法相对简单,易于理解。以下是Python的语法规则: ### 变量

变量可以在任何时候进行更改,包括在函数中。变量名必须以字母或下划线开头,并且只能由字母、数字和下划线组成。

### 数据类型

Python有多种数据类型,包括整数、浮点数、字符串、布尔值、列表、元组、字典和集合等。每种数据类型都有不同的用法和限制。 ### 运算符

Python支持各种运算符,包括加号、减号、乘号、除号和等于号等。

### 控制流

Python中的控制流包括条件语句和循环语句。条件语句包括if 语句、while语句和for语句等。循环语句包括for循环、while循环和if-else语句等。

## 2. 数据类型

Python中的数据类型包括以下几种:

### 整数

整数是Python中的基本数据类型,可以表示任意大小的数字。整数的位数可以是任意长度,但最高位数为32位。

### 浮点数

浮点数是Python中的特殊数据类型,可以表示任意大小的数字,但精度有限。Python中的浮点数精度取决于其位数,最高精度为8位。 ### 字符串

《Python极简讲义 一本书入门数据分析与机器学习》读书笔记思维导图

《Python极简讲义 一本书入门数据分析与机器学习》读书笔记思维导图

第8章 Matplotlib与Seabo...
0 1
8.1 Matplotl ib与图形 绘制
0 2
8.2 绘制简 单图形
0 3
8.3 pyplot的 高级功能
0 4
8.4 散点 图
0 6
8.6 饼图
0 5
8.5 条形 图与直方图
8.7 箱形图 8.8 误差条
8.9 绘制三维图形
8.10 与Pandas协 作绘图—以谷歌...
013 专家推荐
012
第10章 sklearn与 经典机器学习算...
本书以图文并茂的方式介绍了Python的基础内容,并深入浅出地介绍了数据分析和机器学习领域的相关入 门知识。 第1章至第5章以极简方式讲解了Python的常用语法和使用技巧,包括数据类型与程序控制结构、自建 Python模块与第三方模块、Python函数和面向对象程序设计等。第6章至第8章介绍了数据分析必备技能,如 NumPy、Pandas和Matplotlib。第9章和第10章主要介绍了机器学习的基本概念和机器学习框架sklearn的基本 用法。 对人工智能相关领域、数据科学相关领域的读者而言,本书是一本极简入门手册。对于从事人工智能产品 研发的工程技术人员,本书亦有一定的参考价值。
0 3
6.3 生成 NumPy数 组
0 4
6.4 N维数 组的属性

python数据处理笔记

python数据处理笔记

python数据处理笔记

一、引言

Python是一种功能强大的编程语言,广泛应用于数据分析和数据处理。在数据科学领域,Python的库如Pandas、NumPy和SciPy为数据科学家提供了易于使用和灵活的工具,用于处理各种类型的数据。本笔记旨在介绍一些基本的Python 数据处理技术,包括数据的读取、清洗、转换和可视化。

二、环境设置

为了在Python中执行数据处理任务,需要安装以下软件:

* Python:首选版本为3.6或更高版本。

* Pandas库:用于数据处理和分析。

* NumPy库:用于数值计算和数组操作。

* Matplotlib库:用于数据可视化。

在终端或命令提示符中,可以使用以下命令安装这些库:

```shell

pip install pandas numpy matplotlib

```

三、数据读取

Python提供了多种方法来读取数据,包括CSV文件、Excel文件、数据库表等。Pandas库提供了一个易于使用的API,用于读取各种格式的数据。以下是一些常用的数据读取方法:

* 使用Pandas的read_csv()函数读取CSV文件:

```python

import pandas as pd

data = pd.read_csv('file.csv')

```

* 使用pandas的read_excel()函数读取Excel文件:

```python

data = pd.read_excel('file.xlsx')

```

* 使用pandas的read_sql_query()函数从数据库中读取数据:

《利用Python进行数据分析第二版》-第14章数据分析示例(实战)

《利用Python进行数据分析第二版》-第14章数据分析示例(实战)

《利⽤Python进⾏数据分析第⼆版》-第14章数据分析⽰例(实战)前⾯的章节已经讲解了数据分析的基本操作,

接下来就通过具体的简单分析例⼦来说明前⾯基本知识的应⽤

本章原作者⽰例数据采⽤的都是美国相关数据(因为作者是外国⼈),

我会从国内的⾓度,选取中国可以看到的或者找到的公开数据进⾏分析

数据分析的主要步骤:

1、从⽹上获取公开数据(此处是PDF)

2、读取PDF中表格数据

3、多页数据连接

4、数据清洗和整理

5、数据聚合和分组

6、数据绘图与可视化

7、保存绘图

接下来进⾏详细的说明

1、从⽹上获取公开数据(此处是PDF)

此处选择的数据是“上海交通⼤学研究⽣院2018年考试及录取”统计数据,

数据地址:https:///xxgs1/lssj/wnbklqtj.htm

数据下载后命名为“2018.pdf”,⽅便后续数据读取,pdf部分内容截图如下:

2、读取PDF格式表格数据

之前章节,我们有学习读取CSV、excel等格式的数据,但是没有学习pdf,遇到问题,不放弃,寻找⽅法

从百度查询,可以了解到,通过pdfplumber这个包可以处理pdf数据,我们来安装这个包:

点击如下程序:

会出现命令符式的⿊框,通过pip命令来安装pdfplumber包,如下:

等待,直到安装完成,如果出现红字,提⽰没有安装成功,有“time out”英⽂字眼的话,⼤概率是国外软件包地址下载不稳定,那就通过国内镜像源下载国内镜像源有很多:

此处我们采⽤第⼀个,清华的镜像源为例:

⼀般这样就好安装成功,安装后,进⼊jupyter软件,可以导⼊测试⼀下,是否安装成功

python数据处理心得体会

python数据处理心得体会

python数据处理心得体会

Python是一种功能强大的编程语言,广泛应用于数据处理和分析领域。在我使用Python进行数据处理的过程中,我积累了一些心得体会,现在与大家分享。

一、了解数据类型

在进行数据处理之前,首先需要了解数据的类型。Python提供了多

种常用的数据类型,如整数、浮点数、字符串、列表、字典等。在处

理数据时,我们要根据不同的数据类型选择相应的处理方法,以确保

数据处理的准确性和高效性。

二、熟悉数据处理库

Python拥有众多强大的数据处理库,如NumPy、Pandas和Matplotlib等。熟悉这些库的使用方法对于进行数据处理非常重要。其中,NumPy提供了高效的数组处理功能,Pandas则提供了灵活的数据

结构和数据分析工具,Matplotlib则用于数据可视化。掌握这些库的使

用方法,可以大大提高数据处理的效率。

三、处理缺失值

在实际数据处理过程中,经常会遇到缺失值的情况。处理缺失值是

数据处理中的一个重要环节。对于缺失值,我们可以选择删除、填充

或者忽略。删除缺失值可能会导致数据的损失,填充则是通过给缺失

值赋予一个合理的值,忽略则是在数据分析过程中将缺失值排除在外。根据实际需求,选择合适的处理方式。

四、数据清洗与去重

在进行数据处理之前,需要对原始数据进行清洗和去重。数据清洗

包括对无效数据、错误数据、重复数据进行识别和处理,以保证数据

的准确性和完整性。去重则是为了避免数据重复带来的干扰,保证数

据分析结果的准确性。

五、特征选择与转换

在进行数据处理时,常常需要选择合适的特征进行分析和建模。特

《对比Excel 轻松学习Python数据分析 入职数据分析师》读书笔记PPT模板思维导图下载

《对比Excel 轻松学习Python数据分析 入职数据分析师》读书笔记PPT模板思维导图下载
05
13.5 建 立画布和 坐标系
06
13.6 设 置坐标轴
13.7 其他图 1
表格式的设置
13.8 绘制常 2
用图表
3 13.9 绘制组
合图表
4 13.10 绘制
双坐标轴图表
5 13.11 绘图
样式设置
进阶篇
第14章 典型 数据分析案 例
第15章 NumPy数组
14.1 利用 Python实现报表
7.11 索引重塑
7.13 apply()与 applyma...
8.1 算术运算 8.2 比较运算
8.3 汇总运算 8.4 相关性运算
9.1 获取当前 1
时刻的时间
9.2 指定日期 2
和时间的格式
3 9.3 字符串和
时间格式相互 转换
4
9.4 时间索引
5
9.5 时间运算
10.1 数据分 组
10.2 数据透 视表
入门篇
入门篇
1.1 数据分析 1
是什么
1.2 为什么要 2
做数据分析
3 1.3 数据分析
究竟在分析什 么
4 1.4 数据分析
的常规流程
5 1.5 数据分析
工具:Excel 与Pyt...
实践篇
01
第2章 熟 悉锅—— Python 基础知识
02

python数据分析笔记

python数据分析笔记

python数据分析笔记

在当今数字化的时代,数据成为了一种极其宝贵的资源。而 Python 作为一种功能强大且易于学习的编程语言,在数据分析领域中大放异彩。通过Python 进行数据分析,不仅能够高效地处理和分析海量数据,还能帮助我们从复杂的数据中提取有价值的信息,为决策提供有力的

支持。

要进行 Python 数据分析,首先得安装一些必要的库。比如 NumPy 库,它为 Python 提供了高效的多维数组对象和用于处理这些数组的函数;还有 Pandas 库,这简直就是数据处理的神器,能够让我们轻松地

读取、处理和操作各种格式的数据;Matplotlib 库则用于绘制精美的图表,让数据以直观的方式展现出来。

读取数据是数据分析的第一步。我们可以使用 Pandas 库中的

read_csv 函数来读取 CSV 格式的数据文件。比如说,如果我们有一个

名为 datacsv 的文件,代码就可以写成这样:

```python

import pandas as pd

data = pdread_csv('datacsv')

```

读取数据之后,就需要对数据进行初步的了解。这时候,常用的方

法是查看数据的头部和尾部,以及获取数据的基本信息,比如数据的

行数、列数、列的数据类型等等。

```python

datahead()查看头部数据

datatail()查看尾部数据

datainfo()获取数据基本信息

```

数据清洗是非常关键的一步。在实际的数据中,经常会存在缺失值、重复值、异常值等问题。对于缺失值,我们可以选择删除包含缺失值

python数据分析入门学习笔记

python数据分析入门学习笔记

python数据分析⼊门学习笔记

⽬录

⼀、数据分析有关的python库简介

(⼀)numpy

(⼆)pandas

(三)matplotlib

(四)scipy

(五)statsmodels

(六)scikit-learn

⼆、数据的导⼊和导出

三、数据筛选

四、数据描述

五、数据处理

六、统计分析

七、可视化

⼋、其它

前⾔:各种和数据分析相关python库的介绍(前⾔1~4摘抄⾃《利⽤python进⾏数据分析》)

1.Numpy:

Numpy是python科学计算的基础包,它提供以下功能(不限于此):

(1)快速⾼效的多维数组对象ndarray

(2)⽤于对数组执⾏元素级计算以及直接对数组执⾏数学运算的函数

(3)⽤于读写硬盘上基于数组的数据集的⼯具

(4)线性代数运算、傅⾥叶变换,以及随机数⽣成

(5)⽤于将C、C++、Fortran代码集成到python的⼯具

2.pandas

pandas提供了使我们能够快速便捷地处理结构化数据的⼤量数据结构和函数。pandas兼具Numpy⾼性能的数组计算功能以及电⼦表格和关系型数据(如SQL)灵活的数据处理能⼒。它提供了复杂精细的索引功能,以便更为便捷地完成重塑、切⽚ 对于⾦融⾏业的⽤户,pandas提供了⼤量适⽤于⾦融数据的⾼性能时间序列功能和⼯具。

DataFrame是pandas的⼀个对象,它是⼀个⾯向列的⼆维表结构,且含有⾏标和列标。

ps.引⽤⼀段⽹上的话说明DataFrame的强⼤之处:

Excel 2007及其以后的版本的最⼤⾏数是1048576,最⼤列数是16384,超过这个规模的数据Excel就会弹出个框框“此⽂本包含多⾏⽂本,⽆法放置在⼀个⼯作表中”。Pandas处理上千万的数据是易如反掌的事情,同时随后我们也将看到它⽐SQL 3.matplotlib

Python在数据分析中的应用心得

Python在数据分析中的应用心得

Python在数据分析中的应用心得数据分析在当前经济社会中占据着越来越重要的地位,而Python作为计算机科学中的一种高级编程语言因其简单易学、应用范围广泛等特点,在数据分析领域也得到越来越多的应用。在经过长时间的学习和应用中,我有了一些关于Python在数据分析中的应用心得。

1. 数据处理

在数据分析中,数据的处理是一个非常重要的环节,Python中有许多库可以帮助我们进行数据的读取、处理等操作。其中,pandas库是一个非常常用的数据处理库,它可以方便地对常见的表格形式的数据进行读取、处理和分析。在使用pandas之前,我们需要使用pip指令安装。

下面以pandas库为例演示一个数据读取与处理的小实例:

import pandas as pd

data = pd.read_csv('data.csv', encoding='utf-8')

# 简单数据处理——计算平均数

mean = data.mean()

print(mean)

上述代码中,我们首先导入pandas库,然后使用read_csv方法

读取一个csv格式的数据文件,接着对数据进行简单的平均数计算。通过这样的一系列操作,我们可以方便地对数据进行处理,分析

其规律和特征。

2. 数据可视化

数据可视化是数据分析的一个重要环节,它可以帮助我们更直观、更清晰地展示数据的规律和特征。Python中也有很多数据可

视化的库可以使用,其中比较常见的有matplotlib、seaborn、

plotly等。

下面以matplotlib库为例演示一个简单的数据可视化实例:

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

《利用python进行数据分析》读书笔记

pandas是本书后续内容的首选库。pandas可以满足以下需求:具备按轴自动或显式数据对齐功能的数据结构。这可以防止许多由于数据未对齐以及来自不同数据源(索引方式不同)的数据而导致的常见错误。. 集成时间序列功能既能处理时间序列数据也能处理非时间序列数据的数据结构数学运算和简约(比如对某个轴求和)可以根据不同的元数据(轴编号)执行灵活处理缺失数据合并及其他出现在常见数据库(例如基于SQL的)中的关系型运算1、pandas数据结构介绍两个数据结构:Series 和DataFrame。Series是一种类似于以为NumPy数组的对象,它由一组数据(各种NumPy数据类型)和与之相关的一组数据标签(即索引)组成的。可以用index和values 分别规定索引和值。如果不规定索引,会自动创建0 到

N-1 索引。#-*- encoding:utf-8 -*-

import numpy as np

import pandas as pd

from pandas import Series,DataFrame

#Series可以设置index,有点像字典,用index索引

obj = Series([1,2,3],index=['a','b','c'])

#print obj['a']

#也就是说,可以用字典直接创建Series

dic = dict(key = ['a','b','c'],value = [1,2,3])

dic = Series(dic)

#下面注意可以利用一个字符串更新键值

key1 = ['a','b','c','d']

#注意下面的语句可以将Series 对象中的值提取出来,不过要知道的字典是不能这么做提取的

dic1 = Series(obj,index = key1)

#print dic

#print dic1

#isnull 和notnull 是用来检测缺失数据

#print pd.isnull(dic1)

#Series很重要的功能就是按照键值自动对齐功能

dic2 = Series([10,20,30,40],index = ['a','b','c','e'])

#print dic1 + dic2

#name属性,可以起名字

= 's1'

= 'key1'

#Series 的索引可以就地修改

dic1.index = ['x','y','z','w']

DataFrame是一种表格型结构,含有一组有序的列,每一列可以是不同的数据类型。既有行索引,又有列索引,可以被看做由Series组成的字典(使用共同的索引)。跟其他类似的数据结构(比如R中的data.frame),DataFrame面向行和列的操作基本是平衡的。其实,DataFrame中的数据是以一个或者多个二维块存放的(不是列表、字典或者其他)。

#-*- encoding:utf-8 -*-

import numpy as np

import pandas as pd

from pandas import Series,DataFrame

#构建DataFrame可以直接传入等长的列表或Series组成的字典

#不等长会产生错误

data = {'a':[1,2,3],

'c':[4,5,6],

'b':[7,8,9]

}

#注意是按照列的名字进行列排序

frame = DataFrame(data)

#print frame

#指定列之后就会按照指定的进行排序

frame = DataFrame(data,columns=['a','c','b'])

print frame

#可以有空列,index是说行名

frame1 = DataFrame(data,columns = ['a','b','c','d'],index = ['one','two','three'])

print frame1

#用字典方式取列数据

print frame['a']

print frame.b

#列数据的修改直接选出来重新赋值即可

#行,可以用行名或者行数来进行选取

print frame1.ix['two']

#为列赋值,如果是Series,规定了index后可以精确赋值frame1['d'] = Series([100,200,300],index =

['two','one','three'])

print frame1

#删除列用del 函数

del frame1['d']

#警告:通过列名选出来的是Series的视图,并不是副本,可用Series copy方法得到副本

另一种常见的结构是嵌套字典,即字典的字典,这样的结

构会默认为外键为列,内列为行。

#-*- encoding:utf-8 -*-

import numpy as np

import pandas as pd

from pandas import Series,DataFrame

#内层字典的键值会被合并、排序以形成最终的索引

pop = {'Nevada':{2001:2.4,2002:2.9},

'Ohio':{2000:1.5,2001:1.7,2002:3.6}}

frame3 = DataFrame(pop)

#rint frame3

#Dataframe也有行和列有name属性,DataFrame有value 属性

= 'year'

= 'state'

print frame3

print frame3.values

下面列出了DataFrame构造函数能够接受的各种数据。

索引对象

#-*- encoding:utf-8 -*-

import numpy as np

import pandas as pd

相关文档
最新文档