网络爬虫和抽取系统设计

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
03. 系统架构
03-1. 系统功能 03-2. 系统组成和分层架构
04.技术架构
04-1. 爬虫选择 04-2. WEB框架选择
爬虫介绍
Crawler introduction
爬虫介绍
什么是网络爬虫?
网络爬虫:一段自动抓取互联网信息的程序。
互联网
URL
URL
人工
URL URL URL
URL
URL
19
URL管理器实现方式 内存
技术架构
选择URL实现
关系数据库
缓存数据库
Python内存
待爬取URL集合: set() 待爬取URL集合: set()
MySQL
urls (urls, is_crawled)
20
Redis
待爬取URL集合: set 待爬取URL集合: set
客户端 Browser
招聘信息网
项目介绍
Project introduction
项目介绍
购物比价网
什么是购物比价网?
以价格比较为核心业务,从其 他网上商城抓取产品信息,提供 给用户浏览和比较,为购买决策 提供有力的参考。
9
项目介绍
购物比价网价值
购物比价网有什么价值?
解决用户在购物时需打开多个 网站,不断自行比较的繁琐问题。 节省用户购物时间优化用户的购 物体验,带给用户带了更愉悦的 购物经历。
PPT论坛:www.1ppt.cn
THANK YOU
系统部署
WEB应用服务器
<<HTTP>>
Nginx
uWSGI
Django
<<Internet>>
数据库服务器
<<Internet>>
MySQL
24
PPT模板下载:www.1ppt.com/mob an/ 节日PPT模板:www.1ppt.com/jieri/ PPT背景图片:www.1ppt.com/beijin g/ 优秀PPT下载:www.1ppt.com/xiazai / Word教程: www.1ppt.com/word/ 资料下载:www.1ppt.com/ziliao/ 范文下载:www.1ppt.com/fanwen/ 教案下载:www.1ppt.com/jiaoan/
4
爬虫 爬虫
价值数 据
爬虫调度端
爬虫介绍
爬虫架构
网页 下载器
URL 管理器
爬虫
网页 解析器
5
价值数据
爬虫介绍
爬虫架构-运行流程
调度器
URL管理器
有待爬URL?
是/否
获取1个待爬URL
URL

下载URL内容

URL内容
新增到待爬取URL
下载器
解析器
解析URL内容 价值数据、新URL列表
价值数据
输出价值数据 6
网络爬虫和抽取系统设计
购物比价网
题号:60 31406080 20 软件1401 吴帅帅
Contents
01. 爬虫介绍
01-1. 什么是网络爬虫? 01-2. 爬虫架构 01-3. 爬虫工作原理和价值
02.项目介绍
02-1. 什么是购物比价网? 02-2. 比价网的价值 02-2. 比价网的目标
<<include>>
对比价格
收藏商品
13
系统架构
业务架构
价格 对比
14
系统架构
业务组成
价格对比
用户查看某一商品的时候,提供价格 对比的信息,帮助用户决策。
折扣搜索
用户搜索某一商品时,同时提 供各电商网站的关于此商品的 折扣信息。
商品推荐
根据用户的浏览记录和收藏 夹,根据用户喜好给用户推 荐商品。
行业PPT模板:www.1ppt.com/h angye/ PPT素材下载:www.1ppt.com/sucai/ PPT图表下载:www.1ppt.com/tubiao/ PPT教程: www.1ppt.com/powerpoint/ Excel教程:www.1ppt.com/excel/ PPT课件下载:www.1ppt.com/kejia n/ 试卷下载:www.1ppt.com/shiti/
技术架构
技术选择 WEB应用服务器
<<HTTP>>
爬虫服务器 Redis
Scrapy
<<Internet>>
数据库服务器
<<Internet>>
MySQL
21
技术架构
选择WEB架构
Django是python的一个web框架,主要目的是简便、快 速的开发数据库驱动的网站。它强调代码复用,多个组件可以 很方便的以“插件”形式服务于整个框架,Django有许多功 能强大的第三方插件,你甚至可以很方便的开发出自己的工 具包。这使得Django具有很强的可扩展性。
商品价格爬虫
商品折Βιβλιοθήκη Baidu爬虫 评价信息爬虫
16
技术架构
Technical Framework
客户端 Browser
技术架构
技术选择 WEB应用服务器
<<HTTP>>
爬虫服务器
<<Internet>>
数据库服务器
<<Internet>>
MySQL
18
技术架构
选择爬虫框架
Python开发的一个快速,高层次的屏幕抓 取和web抓取框架,用于抓取web站点并从页 面中提取结构化的数据。Scrapy用途广泛,可 以用于数据挖掘、监测和自动化测试。
10
项目介绍
购物比价网目标
购物比价网的目标?
目标是彻底打捞网络信息,从 而拥有海量、准确的产品描述、 报价、经销商通讯录、产品测评 和使用体验,并通过尽可能简单 的操作,让消费者精准锁定中意 的产品。
11
系统架构
System Architecture
系统架构
用例图
登录
推荐商品
用户
浏览商品 查询商品
历史价格分析
用户可以搜寻某商品的历史价格分析 图,为什么时候购买提供决策信息。 15
系统架构
分层架构
表现层
商品显示
商品购买入口
价格走向图
折扣显示
评价信息展示
业务层
商品推荐
价格比对
历史价格分析
折扣搜索
评价合并
持久层
用户信息数据库 商品信息数据库 商品价格数据库 评价信息数据库 历史价格数据库
爬虫层
商品信息爬虫
应用
项目介绍
爬虫的价值
价值:互联网数据,为我所用!
技术文章大全
爬取某知名博客网站,将某类文章 爬取下来,
制作成本地离线的电子书。
价值数据
爬取多个新闻网站,将新闻聚集显 示,提供全面的实时信息。
新闻聚合阅读器
7
商品价格对比网
爬取多个购物网站的某件商品的价 格,进行对比。
爬取多个招聘网站,将招聘信息分 类,供用户查询。
22
技术架构
选择服务器
Nginx是一个高性能的HTTP和反向代理服务器,也是 一个IMAP/POP3/SMTP服务器。其将源代码以类BSD许可证 的形式发布,因它的稳定性、丰富的功能集、示例配置文件 和低系统资源的消耗而闻名。
23
客户端 Browser
爬虫服务器 Redis Scrapy
技术架构
相关文档
最新文档