Pandas学习笔记常用功能.doc

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

Pandas 学习笔记常用功能

本文是关于pandas 的学习笔记,由于pandas 会用到numpy ,可能需要读者简单了解一下numpy 的内容,不过

有用到的部分我会在文中进行简单解释说明。资料来源主要

是两块,一是pandas: powerful Python data analysis toolkit ;另一个《利用python 进行数据分析》( Wes McKinney )目

录一、pandas 的安装和使用二、python 数据结构三、对数

据类型的操作四、总结

一、 pandas 的安装和使用 Pandas 和其他 python 的库安装方式

一样, whl 、源码或者 pip ,在此就不赘述了, Python Data Analysis Library 上面有 github 源码和 whl 文件。注意: pandas

安装会用到 numpy 库,因此在安装 pandas 之前一定要安装好numpy 。Pandas 安装的时候还有两个大坑:如果如果是 VC++

is required ,说明要装 Visual Studio ,这个

百度Visual Studio 安装即可;如果是excention is required ,比如我碰到的CExcention ,说明需要安装对应的拓展包,这个情况可以通过Python Extension Packages for Windows

这个网站下载。由于欧皇血统,安装过程不算崎岖,希望踩

到其他坑的小伙伴可以多留言让我们整理一下碰到的问题。

Pandas 在使用的时候一般会和 numpy 一起使用,并且官方给pandas 简称 pd ,numpy 简称 np ,原因我就不知道了。

二、 python 数据结构说明:pandas 当中数据类型会具体涉

及到int32 、int64 等等,没有进行设置的时候pandas 默认

输出64 位,如果考虑内存使用效率的话可以自行修改。1、SeriesSeries 可以理解为一个一维的数组,只是index 可以

自己改动。创建的方法统一为pd.Series(data,index=)。打印

的时候按照index 赋值的顺序,有的时候会看着很别扭。某

个 index 对应的值为空就用 NaN 。 index 参数默认从 0 开始的整

数,也是 Series 的绝对位置,即使 index 被赋值之后,绝对位置

不会被覆盖。 Series 可以通过三种形式创建:

python 的 dict 、numpy 当中的 ndarray ( numpy 中的基本数据

结构)、具体某个数值。 index 赋值必须是 list 类型。Python

的dict 创建:

s = pd.Series({‘ a’ =1,’ b’ =2,’ d’ =3},index = [‘ a’ ,’ d’ ,

输出: a 1

d 3

c NaN

b 2

dtype : int64

numpy 中的 ndarray :

s = pd.Series(np.random.randn(5), index = list('ABCDE')

输出: A-1.130657

B-1.539251

C 1.503126

D 1.266908

E0.335561

dtype: float64

具体某个值:

s=pd.Series(5)

输出: 0 5

dtype: int64

s=pd.Series([5,4])

输出: 0 5

1 4

dtype: int64

s=pd.Series([5,4],index=list[‘ abcd ’ ])

输出: ERROR

S=pd.Series(5,index=list(‘ abcd ’ ))

a 5

b 5

c 5

d 5

dtype:int64

像这种具体某个值的创建方法,保证每行数据精准性的话很麻烦,并且用起来会不小心把其他数据覆盖掉,因此我个人

用的比较少。注意:创建 Series 的时候要注意创建行数和索

引数量匹配的问题,如果默认的话会自动匹配创建的行数。

除了创建肯定需要查询,这时候会用到s.values 和 s.index ,

分别查询值和索引。

2、 DataFrameDataFrame是一个类似于表格的数据类型,

如图:

有这样一些参数:data(方框内的数据): numpy ndarray (structured or homogeneous), dict, or DataFrameindex (行

索引索引) : Index or array-likecolumns (列索引) : Index or array-likedtype ( data 的数据类型): dtype, default NoneDataFrame 可以理解为一个二维数组, index 有两个维度,可更改。 DataFrame统一的创建形式为:

pd.DataFrame(data,columns=,index=) 其中columns 为列的索引, index 为行的索引。 index 或者 columns 如果不进行

设置则默认为0 开始的整数,也是行的绝对位置,不会被覆

盖;而通过外部数据(比如打开文件)创建DataFrame的

话需要注意列名匹配的问题,给 columns 赋的值如果和数据

来源当中列名不一样的话,对应的列下面会出现NAN 。还有

个常用参数为orient ,默认为空,如果赋值’index ’则将输入Series 的 index 值作为 DataFrame的columns。栗子如下:

a = pd.read_csv('c:/users/15418/Desktop/bajiao.csv')

pd.DataFrame(a,columns = ['a','b','commentsNum'])

相关文档
最新文档