Web端新闻自动采集系统的设计与实现.doc

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

Web端新闻自动采集系统的设计与实现

在互联网高速发展的时代,网络媒体以其速度快、传播范围广的特点成为人们了解外界的新窗口。然而为达到向用户传递最新消息及行业大事件的目的,网络编辑往往会值早班、晚班。但由于新闻的强时效性与工作时间限制及个人精力的冲突,遗漏重大新闻的现象在所难免,一旦发生,便使媒体失去了引流的机会,长此以往,甚至会削弱媒体的公信力。

此外,本文发现,虽然市面上已有相关采集产品,但使用效果差强人意。大多存在多条新闻重复、对网页解析不彻底、新闻频道分类缺乏精准度等问题。基于此,本文开发适合垂直型媒体的新闻自动采集系统。

Web端新闻自动采集系统的核心是采集策略的设定及对已采集文本的后续

处理。结合用户需求,本系统将提供新闻自动采集、去重、分类等功能。本文主要研究内容为:(1)对新闻自动采集系统的核心技术在国内外的应用及研究现状进行了分析,并对网络爬虫分类与爬行策略进行了介绍,论述了文本分类的特点、分词技术、特征选择与特征抽取的方法;(2)对Web端新闻自动采集系统的需求进行了分析,包括功能需求和性能需求,论述了设计目标与原则,并在此基础上设计了系统的总体架构及各功能模块;(3)详细设计并实现了新闻自动采集系统的新闻采集模块和文本处理模块,并对系统的应用层进行了详细设计和实现,对自动采集系统的部署环境进行了设计;(4)对系统部署环境进行了描述,测试并展示了新闻自动采集系统的采集、去重、分类等多项功能,测试了新闻自动采集系统的运转时间、采集网站支持数量等性能。

论文结合新闻采编工作的实际情况,在互联网中发现并获取网站垂直行业实时新闻,对抓取的页面进行去重、降噪等预处理工作后存入新闻库提供经人工审

核后发布等功能,帮助新闻网站及时发布重要消息,进一步提高了网站公信力,达到了获取流量的目的。