新闻采集(用户需求)

相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

新闻采集发布系统

---需求文档

目录

1引言 (5)

1.1编写目的 (5)

1.2 项目背景 (6)

1.3 术语说明 (6)

2 项目概述 (6)

2.1 软件的一般描述 (6)

2.2 软件的功能 (7)

2.2.1 功能架构 (7)

2.2.2 功能特点 (7)

2.2.3 功能描述 (8)

2.3 用户特征和水平 (11)

2.4 运行环境 (11)

2.5 条件与限制 (12)

2.5.1 开发工具与技术 (12)

3 功能需求 (12)

3.1 功能划分 (12)

3.2 功能描述 (13)

3.2.1 运行管理 (13)

3.2.2 信息管理 (14)

3.2.3 统计报表 (15)

3.2.3 系统管理 (15)

4 外接接口需求 (15)

4.1 用户界面 (15)

4.2 硬件接口 (16)

4.3 软件接口 (16)

4.4 通信接口 (16)

4.5 故障处理 (16)

5 性能需求 (16)

5.1 数据精确度 (16)

5.2 时间特性 (17)

5.3 适应性 (17)

6 其他需求 (17)

7 数据描述 (17)

7.1静态数据 (17)

7.2 动态数据 (17)

7.3 数据库描述 (17)

7.4 数据字典 (18)

7.5 数据采集 (18)

8 附录 (18)

1引言

1.1编写目的

信息的自动获取,信息的更新需要大量的人力来完成,而信息自动发布系统能够自动从互联网上获取新的信息,节省了运营的人力成本;丰富IPTV的内容,根据调查,用户最希望IPTV提供的功能是信息浏览(63%)和视音频点播(73%),信息自动发布系统给IPTV提供了信息资讯的内容;互联网上有各种各样的信息资源,但都是根据pc浏览器设计的。而电视上网有各种终端,浏览器各不相同,分辨率不同,支持html、javascript的能力也不同。因此互联网上的内容无法很好的在IPTV的各种终端上显示,需要对互联网上的内容重新组织、编排。

1.2 项目背景

基于现有IPTV平台以及企业信息化应用平台新闻咨询信息全有人工采集,其弊端表现为:采集速度慢,信息更新速度慢,采集信息量小,所采集信息重用性小(不能用于IPTV 平台与企业信息化平台)等。基于以上存在的问题,由中国电信成都分公司IPTV项目组发起,由上海帕科软件科技有限公司开发。

1.3 术语说明

I P T V(Internet Protocol Television)网络电视

2 项目概述

2.1 软件的一般描述

通过新闻采集系统可以对互联网新闻内容进行自动快速采集,并可以根据用户定义的任务配置,批量而精确地抽取目标网络媒体栏目中的新闻或者文章,转化为结构化的记录(标题,作者,内容,采集时间,来源,分类,相关图片等),保存在本地数据库中,用于内部使用或外网发布,快速实现外部信息的获取。本系统对目标网站进行信息自动抓取,支持RSS新闻采集和HTML新闻采集,可以采集页面内多种类型的数据,如文本信息,URL,数字,日期,图片等。

2.2 软件的功能

2.2.1 功能架构

系统功能架构如下图所示:

系统主要包括三个模块

1.采集引擎模块

2.后台管理模块

3. 门户模块(接口模块)

2.2.2 功能特点

➢用户对每类信息自定义来源与分类

➢可以下载图片与各类文件,如PDF,Flash等

➢需支持命令行和纯服务格式,可以Windows任务计划器配合,定期抽取目标网站

➢需支持记录HASHCODE等唯一索引,避免相同信息重复入库

➢需支持智能替换功能,可以将内容中嵌入的所有的无关部分如广告去除➢需支持多页面文章内容自动抽取与合并

➢数据直接进入数据库而不是文件中,因此与利用这些数据的网站程序或者桌面程序之间没有任何耦合

➢需支持数据库表结构完全自定义,充分利用现有系统

➢需支持多个栏目的信息采集可用同一配置一对多处理

➢需提供基于Web的在线内容编辑,可以方便灵活的进行内容调整和预览

➢需保证信息的完整性与准确性,绝不会出现乱码

➢需提供基于XSLT的模板和帕科自定义格式的模版,从而提供灵活方便标准的模版,方便运营商设计自己的界面

➢需支持各种主流数据库,如MSSQL、Access、MySQL、Oracle、DB2、Sybase等

2.2.3 功能描述

2.2.

3.1新闻采集引擎

新闻采集引擎需包括RSS新闻采集和HTML新闻采集两个关键模块,分别负责从两种协议进行采集分析。系统采用基于LUA自定义脚本的方式,提供高效和可维护的信息采集。

2.2.

3.2 新闻采集管理后台

2.2.

3.2.1新闻科目管理

新闻科目管理对所有的新闻进行科目定义,如财经频道、国际新闻、国内新闻等内容。新闻科目支持无限分级,从而可以提供更加人性化的导航和分类。

2.2.

3.2.2 新闻来源管理

新闻来源管理对新闻的出处进行管理、如新浪网、上海热线、网易、搜狐等。从而方便统计和管理。新闻来源管理实现新闻来源的添加、删除、更改等功能。

2.2.

3.2.3 新闻采集点管理

新闻采集点按照新闻来源导航,提供对各个采集分析点的管理,采集点的内容一般呈现为列表数据,访问为HTML页面内容或者RSS内容,新闻采集点可以设置以下信息

➢采集地址

➢采集类型

➢采集时间间隔

➢分析规则

➢列表分析规则

➢新闻内容分析规则

等信息

相关文档
最新文档