python抓取网页表格数据
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
竭诚为您提供优质文档/双击可除python抓取网页表格数据
篇一:python导入excel数据
1、导入模块
importxlrd
2、打开excel文件读取数据
data=xlrd.open_workbook(excelFile.xls)
3、使用技巧
获取一个工作表
table=data.sheets()[0]#通过索引顺序获取
table=data.sheet_by_index(0)#通过索引顺序获取
table=data.sheet_by_name(usheet1)#通过名称获取获取整行和整列的值(数组)
table.row_values(i)
table.col_values(i)
获取行数和列数
ows=table.ows
ncols=table.ncols
循环行列表数据
foriinrange(ows):
printtable.row_values(i)
单元格
cell_a1=table.cell(0,0).value
cell_c4=table.cell(2,3).value
使用行列索引
cell_a1=table.row(0)[0].value
cell_a2=table.col(1)[0].value
简单的写入
row=0
col=0
#类型
0empty,1string,2number,3date,4boolean,5errorctype=1 value=单元格的值
xf=0#扩展的格式化
table.put_cell(row,col,ctype,value,xf)
table.cell(0,0)#单元格的值
table.cell(0,0).value#单元格的值
篇二:python数据处理
cscipy科学计算库(第三方扩展库)
python原有数据结构的变化
-ndarry(n维数组)
-series(变长字典)
-dataFrame(数据框)
numpy
>强大的ndarray对象和ufunc函数
>精巧的函数
>比较适合线性代数和随机数处理等科学计算
>有效的通用多维数组,可定义任何数据类型
>无缝对接数据库
Forexample:
importnumpyasnp
xarray=np.ones((3,4))
xarray
out[4]:
array([[1.,1.,1.,1.],
[1.,1.,1.,1.],
[1.,1.,1.,1.]])
#生成一个3行4列的多维矩阵,类型为多维数组scipy核心库
>python中科学计算程序的核心包
>有效计算numpy矩阵,让numpy和scipy协同工作
>致力于科学计算中常见问题的各个工具箱,其不同子模块有不同应用,如插值、积分、优化和图像处理等Forexample:
fromscipyimportlinalg#linalg为scipy中的矩阵计算库
arr=np.array([[1,2],[3,4]])
linalg.det(arr)
out[8]:-2.0
matplotlib
>基于numpy
>二维绘图库,简单快速地生成曲线图、直方图和散点图等形式的图
>常用的pyplot是一个简单提供类似matlab接口的模块
pandas
>基于scipy和numpy
>高效的series和dataFrame数据结构
>强大的可扩展数据操作与分析的python库
>高效处理大数据集的切片等功能
>提供优化库功能读写多种格式文件,如csV、hdF5
python中的数组
用list和tuple等数据结构表示数组
一维数组list=[1,2,3,4]
二维数组list=[[1,2,3],[4,5,6],[7,8,9]]
array模块
通过array函数创建数组,array.array("b",range(5))提供append、insert和read等函数
ndarray()>ndarray是numpy中基本的数据结构>别名为array
>利于节省内存和提高cpu计算时间>有丰富的函数
-ndarry的函数
Forexample:
fromnumpyimport*
aarray=array([1,2,3])
aarray
out[4]:array([1,2,3])
barray=array([(1,2,3),(4,5,6)])
barray
out[6]:
array([[1,2,3],
[4,5,6]])
zeros((2,2))
out[7]:。