全国企业信息公示系统数据采集方案
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
全国企业信息公示系统数据采集解决方案
ForeSpider数据采集系统
版本2.4.0
天津市前嗅网络科技有限公司日期:2016年3月22日
目录
1.引言 (1)
1.1项目简介 (1)
1.2FORESPIDER简介 (1)
2.项目设计方案 (2)
2.1系统部署 (2)
2.2系统现有功能 (2)
2.3定制开发功能 (4)
3.项目测试报告 (6)
3.1测试过程 (6)
3.2测试结果 (10)
4.售后 (11)
4.1培训 (11)
4.2维护服务 (11)
4.3其他 (11)
5.项目报价 (12)
5.1软件费用 (12)
5.2定制开发费用 (13)
1.1项目简介
企业公示系统数据采集项目是在需求方购买天津市前嗅网络科技有限公司(以下简称前嗅)的ForeSpider数据采集系统基础上,针对本项目特殊的采集特点,由前嗅进行项目定制化开发采集功能细节,同时双方合作共同开发完成全部功能。
为了便于需求方更好地了解本软件系统对于数据采集的性能、质量、速度、范围等各方面情况,保证双方能够完成项目目标,使软件系统开发工作开展的各个过程合理有序。因此,前嗅通过本文档,把软件系统的采集状况、采集能力,对于目标采集源的测试结果,各项工作的任务分解、各团队成员的工作责任、团队内外沟通协作方式、开发进度、经费预算、项目内外环境条件、风险对策等内容做出安排。使项目成员和项目干系人了解项目开发方案和预期达到的效果,作为项目团队成员以及项目干系人之间的共识,也作为正式合作确立前的依据。
1.2ForeSpider简介
前嗅ForeSpider数据采集系统是天津市前嗅网络科技有限公司自主知识产权的通用性互联网数据采集软件。软件具备全面的采集范围、精准的数据精度、绝佳的抓取性能、简易的可视化操作、智能的自动化采集,使企业能够以很少的人工成本,快速获取互联网中结构化或非结构化的数据。
软件几乎可以采集互联网上所有公开的数据,通过可视化的操作流程,从建表、过滤、采集到入库一步到位。支持正则表达式操作,更有强大的面向对象的脚本语言系统。
单机采集能力可达4000-8000万,日采集能力超过500万。服务器单机采集能力可达8亿-16亿,日采集能力超过2000万。并行情况下可支撑百亿以上规模数据链接,堪与百度等搜索引擎系统媲美。
2.1系统部署
本系统采用C/S设计模式,每个序列号绑定一台计算机。按照采集性能分为普通台式机和服务器两个版本,按照功能分为低配版和高配版两个版本。根据本项目特点,需要购买高配版。
1.普通台式机
内存:4G以上(建议8G)。
CPU:2核以上(建议4核)。
网络带宽:10M以上(提升采集速度)。
硬盘:500G以上存储空间(根据实际存储数据周期可能需要扩充)。
数据库对接:支持系统自带数据库ForeLib和MySQL。
采集能力:4000-8000万/每次任务(与硬件性能有关)。
采集速度:400-1000万以上/每天(与开启线程数、自身和对方服务器带宽有关,由于本项目采集链接时cookie限制只能单线程采集,采集速度难以达到)。
2.服务器
内存:32G以上。
系统:windows server2000及以上32位/64位。
网络带宽:10M以上。
数据库对接:支持系统自带数据库ForeLib和MySQL。
采集能力:8亿-16亿/每次任务(与硬件性能有关)。
采集速度:2000万以上/每天(与开启线程数、自身和对方服务器带宽有关,由于本项目采集链接时cookie限制只能单线程采集,采集速度难以达到)。2.2系统现有特性
一.通用性:可以抓取互联网上几乎100%的数据
1.支持用户登录。
2.支持Cookie技术。
3.支持验证码识别。
4.支持HTTPS安全协议。
5.支持OAuth认证。
6.支持POST请求。
7.支持搜索栏的关键词搜索采集。
8.支持JS动态生成页面采集。
9.支持IP代理采集。
10.支持图片采集。
11.支持本地目录采集。
12.内置面向对象的脚本语言系统,配置脚本可以采集几乎100%的互联网信息。
二.专业性:精准采集所需数据
1.独立知识产权JS引擎,精准采集。
2.内部集成数据库,数据直接采集入库。
3.内部创建数据表结构,抓取数据后直接存入数据库相应字段。
4.根据dom结构自动过滤无关信息。
5.通过模板配置链接抽取和数据抽取,目标网站的所有可见内容均可采集,智能过滤无关信息。
6.采集前数据可预览采集,随时调整模板配置,提升数据精度和质量。
7.字段的数据支持多种处理方式。
8.支持正则表达式,精准处理数据。
9.支持脚本配置,精确处理字段的数据。
三.高性能:千万级的采集速度
1.C++编写的爬虫,具备绝佳采集性能。
2.支持多线程采集。
3.台式机单机采集能力可达4000-8000万,日采集能力超过500万。
4.服务器单机采集能力可达8亿-16亿,日采集能力超过2000万。
5.并行情况下可支撑百亿以上规模数据链接,堪与百度等搜索引擎系统媲美。
6.软件性能稳健,稳定性好。
四.简易高效:节约70%的配置时间
1.完全可视化的配置界面,操作流程顺畅简易。