5.2-1数据采集的工具和方法

合集下载
相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

属性格式:属性名称=属性值
<标签名 属性1 属性2 …>标签内容</标签名>
开始标签
结束标签
2. 网络数据采集法
3.Html标签 属性格式:属性名称=属性值
<标签名 属性1 属性2 …>标签内容</标签名>
开始标签
浏览器网页 结束标签 显示的内容
<p>我有一双蓝色的眼睛</p> <p>我有一双<font color=blue size=7>蓝色</font>的眼睛</p>
from pylab iபைடு நூலகம்port *
引入pylab库模块中的所有方法
2. 网络数据采集法
5.网络爬虫的具体案例
#爬取title并赋值给all_title
#爬取title并赋值给all_title
all_title = soup.find_all('span', class_="title") for j in all_title:
soup_title = bs4.BeautifulSoup(str(j), "html.parser", ) title.append(soup_title.span.string)
#添加存储爬取的title数据
3. 其他数据采集法
1.概念
传感器等特定接口采集数据传输到数据库管理系统
2. 网络数据采集法
2. 网络爬虫,例如:百度的爬虫Baiduspider 360的爬虫叫360Spider
检索
用户
关键字 主要内容 网址 时间
保存
索引
百度spider
其他网站
索引数据库
2. 网络数据采集法
3.Html Html:超文本标志语言的缩写,网页代码的基本组成部分 Html元素:决定网页的内容和结构,包含标签、注释等 标签:网页代码最基本的组成单位
4.扩展库
模块名
导入模块 import module 导入指定模块的指定函数 from module import 导入模块(函数)并新名字替代 import module
函数名
name as 新名字(首字母)
语句
语句作用
import numpy as np
引入numpy库模块,用np替代
import matplotlib.pyplot as plt 引入matplotlib库模块中的pyplot方法,用plt替代
2. 网络数据采集法
3.Html标签 查看网页代码
例如:
鼠标指向需爬虫数据 右击审查元素
2. 网络数据采集法
3.Html标签 属性格式:属性名称=属性值
<标签名 属性1 属性2 …>标签内容</标签名>
开始标签
浏览器网页 结束标签 显示的内容
span 标签名 class 属性
2. 网络数据采集法
在网址后加robots.txt,可以查看本网页是否能被爬取 例如:https://www.baidu.com/robots.txt
2. 网络数据采集法
2.网络爬虫的基本工作流程如下:
控制器
解析器
存储器
根据网页代码的标签 名和属性,提取数据
2. 网络数据采集法
2.网络爬虫的基本工作流程如下: 1.首先选取一部分精心挑选的种子URL; 2.将这些URL放入待抓取URL队列; 3.从待抓取URL队列中取出待抓取在URL,解析DNS,并且得 到主机的ip,并将URL对应的网页下载下来,存储进已下载网页库 中。此外,将这些URL放进已抓取URL队列。 4.分析已抓取URL队列中的URL,分析其中的其他URL,并且将 URL放入待抓取URL队列,从而进入下一个循环。
5.2.1 数据采集的方法和工具
学习目标
✓ 明确数据应用项目的需求 ✓ 能制定数据采集的需求清单 ✓ 知道数据采集的方法和工具
1. 系统日志采集法——临时文件
1.概念 记录系统硬件、软件和系统问题的信息文件
控制面板系统安全管理工具查看事件日志
2.内容
2. 网络数据采集法
1.概念 通过网络爬虫、网络公开API(应用程序接口)等方法从网站上获 取数据信息
相关文档
最新文档