Python数据分析基础第5章用NumPy进行简单统计

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
delimiter:分割符,默认是空格,其他参数说明见教材。 【例5-2】利用NumPy函数实现读取文本文件和CSV格式文件的操作。
5.1.2 使用NumPy读写二进制格式文件
1. 使用save()或savez()函数写二进制格式文件 save()或savez()函数的格式: numpy.save(file,array) 或 numpy.savez(file,array)
其他参数说明及示例test5-1代码见教材。
5.1.1 使用NumPy读写文本文件
2. 读取TXT文件和CSV格式文件 在NumPy中,读取TXT文件和CSV格式文件的函数是loadtxt(),函数格式: numpy.loadtxt(fname,dtype=<type'float'>,comments='#',delimiter= None,converters=None,skiprows=0,usecols=None,unpack=False,ndmin =0,encoding='bytes') 函数中主要参数: fname是文件、字符串或产生器; dtype:数据类型;
5.2 NumPy常用的统计函数
1. 求最大值和来自百度文库小值的函数 在NumPy中,求数组最大值的函数是amax()和nanmax(),求数组最小值
函数是amin()和nanmin(),其中,amax()和amin()函数是返回一个数组的最 大值和最小值或者是沿轴返回数组的最大值和最小值。nanmax()函数和 nanmin()函数是返回忽略任何NaN的数组的最大值和最小值或者是沿轴返回 忽略任何NaN的数组的最大值和最小值。如数组是全NaN切片时,将会出现运 行警告(RuntimeWarning),并为该切片返回NaN。
最大值和最小值的函数的示例代码example5-3见教材。
5.2 NumPy常用的统计函数
2. 求沿轴方向的取值范围 在NumPy中,使用ptp()函数能返回沿某轴axis方向上的最大值-最小区
差值,即maximum-minimum的值形成的数组。 ptp()函数的示例代码example5-4见教材。
5.2 NumPy常用的统计函数
5. 求和与加权平均值 在NumPy中,sum()函数是沿某轴axis方向计算数组中相关元素之和,
average()函数是沿某轴axis方向计算数组中相关元素的加权平均值。 求和与加权平均值的示例代码example5-6见教材。
6. 算术平均数 算术平均数是所有元素的总和除以元素的数量。在NumPy中,mean()和
函数中参数说明:file:文件,以.npy为扩展名,压缩扩展名为.npz。 array:数组变量。
2. 使用load()函数读取二进制格式文件 load()函数的格式: numpy.load(file) 函数中参数说明:file:文件,以.npy为扩展名,压缩扩展名为.npz load()、save()和savez()函数的示例代码example5-1见教材。
在NumPy中,loadtxt()和savetxt()函数可以对文件后缀名为txt和 csv的文件进行读写操作。
5.1.1 使用NumPy读写文本文件
1. 将1维或2维数组写入TXT文件或CSV格式文件 在NumPy中,使用savetxt()函数可以将1维或2维数组写入后缀名为
txt或csv的文件,该函数的格式为: numpy.savetxt(fname,array,fmt='%.18e',delimiter=None,newlin e='\n', header='', footer='', comments='# ', encoding=None) 函数中主要参数: ① fname:文件、字符串或产生器,可以是.gz 或.bz2 的压缩文件。 ②array:存入文件的数组(一维数组或者二维数组) 。 ③fmt:写入文件的格式,如:%d,%.2f,%.18e,默认值是%.18e
第5章 用 NumPy进行简单统计分析
学习目标: 掌握使用NumPy读写文件方法。 了解NumPy中常用的统计函数。 掌握运用NumPy函数进行统计分析。 掌握数据处理中简单的统计分析。
5.1.1 使用NumPy读写文本文件
在数据分析中,经常需要从文件中读取数据或将数据写入文件,常 用的存储文件的格式有文本文件、CSV格式文件、二进制格式文件和多维 数据文件等。
方差是元素与元素的平均数差的平方的平均数mean(abs(x - x.mean())**2)。 在NumPy中,计算方差的函数有var()和nanvar()。
5.1.3 使用NumPy读写多维数据文件 1. 使用tofile()函数写入多维数据文件
tofile()函数的格式: 数组名.tofile(fid, sep='', format='%s') 函数中的参数说明:fid:文件、字符串,sep:数据分割符,format: 写入数据的格式 。 2. 使用fromfile()函数读取多维数据文件 fromfile()函数的格式: numpy.fromfile(fid,dtype=float,count=‐1,sep='') 函数中的参数说明:fid:文件、字符串,dtype:读取的数据类型。 count:读入元素个数,‐1表示读入整个文件,sep:数据分割符。 tofile()和fromfile()函数的示例代码example5-2
nanmean()函数可以计算数组或者轴方向的算术平均数。
5.2 NumPy常用的统计函数
7. 标准差 标准差也称为标准偏差,标准差定义是总体各单位标准值与其平均数离差平方
的算术平均数的平方根,它反映组内个体间的离散程度。在NumPy中,计算标准差 的函数有std()和nanstd()。 8. 方差
3. 求百分位数 在NumPy中,使用percentile()和nanpercentile()函数可以沿某轴axis
方向计算数组中第q数值的百分位数。 4. 求中位数
在NumPy中,利用median()和nanmean()函数可以沿某轴axis方向计算数 组中的中位数。
求百分位数和中位数的示例代码example5-5见教材。
相关文档
最新文档