网络爬虫技术探究 毕业设计
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
JIU JIANG UNIVERSITY
毕业论文
题目网络爬虫技术探究
英文题目Web Spiders Technology Explore 院系信息科学与技术学院
专业计算机科学与技术
姓名闻泽
班级学号A081129
指导教师邱兴兴
二○一二年五月
信息科学与技术学院学士学位论文
摘要
网络爬虫是一种自动搜集互联网信息的程序。通过网络爬虫不仅能够为搜索引擎采集网络信息,而且可以作为定向信息采集器,定向采集某些网站下的特定信息,如招聘信息,租房信息,以及网络营销常要的邮箱地址信息等。
本文通过JA V A实现了一个基于广度优先算法的爬虫程序。本论文阐述了网络爬虫实现中一些主要问题:为何使用广度优先的爬行策略,以及如何实现广度优先爬行;系统实现过程中的数据存储;网页信息解析等。
通过实现这一爬虫程序,可以搜集某一站点的所有URLs,并通过得到的URLs 采集到页面的内容,在从内容中提取到需要的内容,如邮箱地址以及页面标题等。再将得到的URLs等采集到的数据存到数据库,以便检索。本文从搜索引擎的应用出发,探讨了网络爬虫在搜索引擎中的作用和地位,提出了网络爬虫的功能和设计要求。在对网络爬虫系统结构和工作原理所作分析的基础上,研究了页面爬取、解析等策略和算法,并使用Java实现了一个网络爬虫的程序,对其运行结果做了分析。
关键词:网络爬虫,广度优先,搜索引擎
信息科学与技术学院学士学位论文
Abstract
The Web Spider is an automated program collects information on the Internet. The Web Spider can not only search engine to collect network information and can be used as directional information collection, directed acquisition of some site specific information, such as recruitment information, rental information, as well as network marketing often have to e-mail address information.
JA V A Implementation of an algorithm based on breadth first Spider program. This paper described the data stored in the Web Spider to achieve some of the major questions: Why use a breadth-first crawling strategy, as well as how to implement the breadth-first crawling; system implementation process; web page information to resolve.
Through the realization of this Spider can collect all of a site's URLs, URLs collected by and get to the page content, to extract from the content, the content, such as email address and page title. And then get the Urls collected was data saved to the database to retrieve. In this paper, the application of the search engine to explore the role and status of a Web Spider search engine, web Spider functionality and design requirements. Web Spider system structure and working principle of the analysis based on study strategies and algorithms of the page crawling, parsing, etc. and use the Java implementation of a Web Spider program, its operating results analysis.
Keywords:Spider, Breadth First Search, Search Engine
信息科学与技术学院学士学位论文
目录
摘要 ...................................................... I Abstract ................................................... II 1 绪论
1.1 现状分析 (1)
1.2 系统开发背景 (2)
1.3 系统意义 (3)
1.4 论文主要的工作 (4)
1.5 论文结构 (4)
2 需求分析
2.1 系统非功能性需求 (5)
2.2 系统功能需求 (5)
2.3 系统数据流程分析 (5)
2.4 环境需求 (8)
2.5 本章小结 (9)
3 系统设计
3.1 系统结构设计 (10)
3.2 爬行策略分析 (12)
3.3 爬虫技术分析 (14)
3.4 数据库设计 (17)