大数据时代下基于Python的网络信息爬取技术
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
为需要 的格式 。
2基于P y t h o n 的爬虫模块技术实现
随着 “ 互联网 + ”概 念不断普及 ,网络信 息量呈 突发式暴增 ,导致传 统搜 索引擎普遍存 在搜索 结果附带大量无关信 息的问题,加大 了 UR L管理器能管 理待爬 U RL列表 和 己爬 UR L列表 ,能够 有效 防止 重复 抓取 和循 环抓 取 ,在 P y t h o n中的实 现方 式有 三种 :通 过 内
3 结 束 语
进入 大 数据 时代 ,众多 行业 都 急需 价值
wk.baidu.com列表 ,P t y h o n中的 s e t ( ) 能 自动去 除集 合 中重 数据。网络爬取技术 能帮助 客户有效地收集 网
复的元素 ,从而有 效防止重复抓取 。第二种 是 络上的相关价值信 息,大大降低人力搜索 的工
将 其 传 送 给 网页 解 析器 , 解 析 后 返 回价 值 数 据
中解析出价值数据 的处理器 ,对 于的专业爬虫
来 说 就 是 提 取 出待 爬 取 UR L 列 表 和 提 取 出价
和新 的 U R L列表 给调度 端 ,一 方面将 价值数 值数据 。P y t h o n中有许多网页解析器 ,其 中使
收集专 用数据的难度 。于 是,网络信息爬取技 存 ,将 URL列表存 储在 P y t h o n内存 中,使用 术 ( 后 简称网络爬虫技术 )应运而 生。 使用 网络 爬 虫技术 可 以 自动 完 成 网络数 据的挖掘与分析工作 。现今的大数据时代 ,在 两个 s e t ( )数 据 结构分 别存储 待爬 取与 已爬取
据传 递给 应用 进行 收集 ,另 一方面 将新 UR L 列表增加到 UR L管理器中 。只要 UR L管理器
有 待 爬 取 UR L, 以 上 过 程 会 循 环 进 行 。 最 终
虫 的基础 架构 与运行 流程 ,以及 基于P y t h o n的 网络 爬 取 技 术 实现 。
解 析 、格 式 化 存 储 , 从 而提 升 工 作 效 率。本 文 以 网络信 息爬取 技 术 为 研 究 重 点 , 分 别 介 绍 网络 爬
HT T P Co o k i e P r o c e s s o r , 将 爬 虫 程 序 伪 装 成 用 户 使 用 浏 览 器 正 在 登 录 该 网站 , 随后 即 可 顺 利
用 最为 广泛 的 是 Be a u t i f u l S o u p这 个 第三 方插
件 ,它 首 先 进 行 网 页 字 符 的 结 构 化 解 析 ,利 用 HT M L与 DOM 的 映 射 关 系 , 将 HT ML文 档
调度端会将应用 中的价值数据进 行处 理并输 出
【 关 键 词 】 网络 爬 虫 P y t h o n 大 数 据
调 度 端 询 问 UR L 管 理 器 , 是 否 有 待 爬 取 的
UR L,如过返回是 ,调度端会取 得第一个待爬 获 取 网 页 内 容 。
取U RL 地 址 , 并 将 其 传 送 给 网 页 下 载 器 进 行
网页 解析 器是 一个 能 从网 页字符 串 文件
网页下载,调度端接收到 网页下载 内容后立 即
数据库技术 ・ D a t a B a s e T e c h n i q u e
大数据时代下基 于 P y t h o n 的 网络信 息爬 取技术
文/ 刘顺程 岳 思 颖
基 于 以上 架构 的 网络爬 取 流程 ,首先 是
在 大 数 据 时 代 下 , 各 行 各 业 都 需要 大 量数据 的支持 ,如 果 所 有 数据 都 经 过人 工 搜 索、分 析 、 提 炼 ,则会 大 大增 加 工作 难 度。 基于 P y t h o n的 网 络 信 息爬 取 技 术 可 以 自动 完 成 网 络 数 据 的 收 集 、
虫程序 。
1网络爬虫 的架构 与流程
1 . 1 网络 爬 虫 架构
司 中常常使用缓存数据库来搭建 U R L 管理器 , 是 由于 其 高效 率处 理大 量数 据 的能 力,例 如
r e d i s ,同样支 持 s e t 数据 结构 ,也就可 以将待 网络爬 虫架 构主要有 以下三个基础部分 : 网络爬 虫调度端;网络爬 虫主程序;价值数据 。 爬 虫 调度 端 能监控 整个 爬 虫程序 的运 行 情况 ;其中爬虫主程序包括 : ( 1 )UR L管理器 ,管理将要爬取 的 UR L 以及 已经爬取过的 UR L; ( 2 )网 页下 载 器 ,根据 待 爬 UR L将 指 定的网页下载下来 ,并存储为字 符串数据;
转化为 DOM 树 ,对其进行基 于结构 的过 滤和 基于语义 的剪 枝操作,使用树形结构 能很 精准 定位 到某个节 点 、属性 、文本 内容;接下来即
可 使用 f i n d a l l 或f i n d方 法 查 询 相 应 节 点 , 访 问节 点 名 称 、 属 性 、 文 字 ;从 而 提 取 出 价 值 信 息进行分析。
数据挖掘 的来源 。所以网络爬虫技术是 目前大 数据时代下 的重要基础应 用。 c r a wl e d ) 分 别 表 示 URL地 址 和 标 识 该 UR L 是 已被否爬 取,这样就使用一张表将待爬 取和
己爬 取 都 进 行 了 存 储 。第 三 ,在 大 型 互 联 网 公
简单易学 , 而且拥有强大 的爬虫框架作 为优 势, 使得开发 者能更快地开发 出拥有指定功 能的爬
作 量 。 同时 基 于 P y t h o n的 网 络 爬 取 技 术 不 仅
许多新兴产业 中,通 过爬 虫爬取下来 的信息可 将 U RL存储在关系数 据库中, 比如 My S Q L,
以作 为数据仓库 多维 展现的数据源 ,也可作 为 可 以建立一张名为 u r l l i s t 的表 , 字段为 ( u r l , i s