基于python的聚焦网络爬虫数据采集系统设计与实现

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

文章编 号 :2096—4390(2018)27—0073—02
1概 述
网站发 布着 同样 的新 闻 ,很 多 就是 通 过 网络爬 虫 的技 术从 其 它
网 络 爬 虫 (Crawler)是 搜 索 引 擎 (search engine SE)的 基 本 的网站爬 取 信息 ,然 后放 在 自己的网站发 布 。同样 ,这样 的爬 虫
息 便会 被这 个 “小 蜘蛛 ”全 部爬 到 。而搜 索 引擎就 是将 “小 蜘 蛛 ” 式 。作 为 搜索 引擎 的信息 资 源采集 的重 要角 色 ,网络爬 虫的性
所爬取 的信息一定 的策略在互联网中对信息进行处理 ,并 为用 能将 直接 影 响整 个 搜索 引擎 索 引 网 页的 数量 、质量 和更 新 周期
差 的空气 ,生活更健康 。
普 全方位进 行完善 ,使这款软件的功能 日益人 I生化 。
3实现意义
参考文献
3.1监测区域空气质量 ,记 录出行者 出行后 的污染物沾 染量 ,提 [1]吴兑.大城 市区域 霾与 雾的 区别和灰霾天 气预警信号发布田.环境
醒人们何 时出行
科 学与技 术 ,2008(9).
户提供服务 ,从而起 到信息导航的 目的。我们经常看到不同的 闭。 于是出现后面的分布式网络爬虫。分布式网络爬虫 (转下页 )
化机 ,也会 有空气 净化机 的 网商 推荐 ,把各种 空气净 化机 的价格 , 导人 们关 注健 康。
参数 ,测 评展示 出来 ,为用户作参考 ,如果用 户需要 ,可 以直接 点击 3.3科普微运动 ,倡导健身生活方式
2018.27科 学技术创新 一73一
基于 python的聚焦网络爬虫数据采集系统设计与实现
杨 国志 江 业峰 (辽 宁科技 大 学 ,辽 宁 鞍 山 114000)
摘 要 :人 类社会 已经进入 大数 据 时代 了 ,随 着互联 网的迅 猛发 展 ,种 类繁 多 ,数 量庞 大 的数据 随之 产 生 ,作 为辅助 人们 检 索
构件之一 ,其直接面向互联网底层 ,它是搜索 引擎的数据发源 技术也可以用来 帮助我们做安全扫描分析等工作 ,这也是本文
地 ,决定着整个 系统 的内容是否丰富 、信息能否得到及时更新 研究 的重 点 。
[1]

如果 我们把 互 联 网 比作 一张 大 网的话 ,那 么爬 虫技 术 这 网上
2 概 况
排名 ,空气质量较好 的前三名可 自愿分享其周 围空气质 量 比较好 们应 当从根源人手 ,做到监测与 防治相结合 。同时 ,我们也会加 强
的原 因 ,或者采 取 了哪些措施 ,把 经验分享 给大家 ,让 家人远 离较 对这款软件 的后期 开发 ,完善硬件设 施 ,从提醒 到检 测到互动 到科
软件会持续记录相关数据 ,一天之后会对人们关心的各种信 [2]赵馈 平 ,李亚军.如何积极有效地 防御 雾霾天气叨.科 学之友 ,2009
息进行 汇总 ,如 当天在什 么时候 接触的污染源最严 重 ,并 以条形 (2).
图 ,折线 图等方式展 现。软件还可 以汇集不 同地 方出行者测出的数 [3]潘铭 .浅谈 雾 霾对人 体健康 的影响叨.微 量元 素与健康研 究 ,2013
信息工具的搜 索引擎也存在着一定的局限性 ,如 :不同领域 ,背景的用户往往具有不 同的检 索目的和 需求,通用搜 索引擎所返 回的
结 果 包含 大量用 户不 关心 的网 页。 为 了解 决这 个 问题 ,网络爬 虫 系统应运 而 生。众 所周知 ,搜 索 引擎从 互联 网中靶 向性 筛选 出有
链接进行询 问或购买 。
人们会 因雾霾污染严重而选择不 出门 ,面临雾霾几 日不除的情
用户可 以使 用 qq或微 信等账号登 录软件 ,手机 普一些微运动 ,在家 中
获取 的用户 自身周 围的空气 质量情 况就 可以保存 到这个 账号 中 , 就可以做 。对于健身爱好者 ,软件可以提供一些关于健身的信息,
据 ,进 而共享 至U云 端 ,做 成一张全 国污 染地 图 ,更加 方便 人们 的出 (5).
行 。
[4]高凌 云.实 时监 测全球 雾霾 流向趋 势 的软件 叨.现代 物理 知识 ,
用 户可 以在这个 软件中添加好友 ,可以是通讯 录里的好友 ,也可 以 针对 当前雾 霾带给我 们的严重危 害 ,我们应 当趋利避 害 ,多方
是 qq、微信的好友 ,这些好友可以将 自己的得分晒出来 ,与大家进 下手,从居民到政府到国家都需要做到及时预防及时监测。雾霾对
行 比拼 ,看谁周 围的空气质量 比较好 。在 比拼列表里 ,会有 toplO的 于我们身体系统 、心理健康以及交通安全的影响是不容小觑的,我
的蜘 蛛 ,将 网络 节点 比作 网页 的话 ,这 个 “蜘蛛 ”爬 到何 处 就相 当 2.1现状
于访 问 了哪个 网页 ,获得 了相应 的信息 。而后 我 们 可 以顺 着这 90年 代 出现 了最早 的搜 索引 擎 ,也就 产生 了 网络 爬虫 。此 时
些 节 点 继 续爬 到下 一 个 节点 ,这样 整 个 网的 所 有 节 点 ,所 有 信 的爬 虫 在 爬 取 整个 网络 的时候 采取 深 度 或 广 度优 先 的遍 历方
软件会对这些数据进行分析并打分 ,分为“综合打分”和“单项打 使其在雾霾天也能找到一种有效的锻炼方法,促进人们离健康更
分 ”,综合代表空气质量综合下来 的好坏 ,单项是分别对 “PM2.5”、 近 了一步 。
“PM10”等项 目的打分 ,分数就代表用户所处环境 的质 量好坏程度 。 结束语
用信 息,而网络爬 虫又是搜索引擎的基础构件之一。本文实现 了一个基于 python语言的聚焦网络爬 虫。利用关键字匹配技术对 目
标 网站进 行扫 描 ,得到 所 需数 据 并抓 取 。
关键 词 :搜 索 引擎 网络爬 虫 ;python;网页分析 算法
中图分 类号 :TP393
文献 标识 码 :A
相关文档
最新文档