新闻采集(用户需求)
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
新闻采集发布系统
---需求文档
目录
1引言 (5)
1.1编写目的 (5)
1.2 项目背景 (6)
1.3 术语说明 (6)
2 项目概述 (6)
2.1 软件的一般描述 (6)
2.2 软件的功能 (7)
2.2.1 功能架构 (7)
2.2.2 功能特点 (7)
2.2.3 功能描述 (8)
2.3 用户特征和水平 (11)
2.4 运行环境 (11)
2.5 条件与限制 (12)
2.5.1 开发工具与技术 (12)
3 功能需求 (12)
3.1 功能划分 (12)
3.2 功能描述 (13)
3.2.1 运行管理 (13)
3.2.2 信息管理 (14)
3.2.3 统计报表 (15)
3.2.3 系统管理 (15)
4 外接接口需求 (15)
4.1 用户界面 (15)
4.2 硬件接口 (16)
4.3 软件接口 (16)
4.4 通信接口 (16)
4.5 故障处理 (16)
5 性能需求 (16)
5.1 数据精确度 (16)
5.2 时间特性 (17)
5.3 适应性 (17)
6 其他需求 (17)
7 数据描述 (17)
7.1静态数据 (17)
7.2 动态数据 (17)
7.3 数据库描述 (17)
7.4 数据字典 (18)
7.5 数据采集 (18)
8 附录 (18)
1引言
1.1编写目的
信息的自动获取,信息的更新需要大量的人力来完成,而信息自动发布系统能够自动从互联网上获取新的信息,节省了运营的人力成本;丰富IPTV的内容,根据调查,用户最希望IPTV提供的功能是信息浏览(63%)和视音频点播(73%),信息自动发布系统给IPTV提供了信息资讯的内容;互联网上有各种各样的信息资源,但都是根据pc浏览器设计的。而电视上网有各种终端,浏览器各不相同,分辨率不同,支持html、javascript的能力也不同。因此互联网上的内容无法很好的在IPTV的各种终端上显示,需要对互联网上的内容重新组织、编排。
1.2 项目背景
基于现有IPTV平台以及企业信息化应用平台新闻咨询信息全有人工采集,其弊端表现为:采集速度慢,信息更新速度慢,采集信息量小,所采集信息重用性小(不能用于IPTV 平台与企业信息化平台)等。基于以上存在的问题,由中国电信成都分公司IPTV项目组发起,由上海帕科软件科技有限公司开发。
1.3 术语说明
I P T V(Internet Protocol Television)网络电视
2 项目概述
2.1 软件的一般描述
通过新闻采集系统可以对互联网新闻内容进行自动快速采集,并可以根据用户定义的任务配置,批量而精确地抽取目标网络媒体栏目中的新闻或者文章,转化为结构化的记录(标题,作者,内容,采集时间,来源,分类,相关图片等),保存在本地数据库中,用于内部使用或外网发布,快速实现外部信息的获取。本系统对目标网站进行信息自动抓取,支持RSS新闻采集和HTML新闻采集,可以采集页面内多种类型的数据,如文本信息,URL,数字,日期,图片等。
2.2 软件的功能
2.2.1 功能架构
系统功能架构如下图所示:
系统主要包括三个模块
1.采集引擎模块
2.后台管理模块
3. 门户模块(接口模块)
2.2.2 功能特点
➢用户对每类信息自定义来源与分类
➢可以下载图片与各类文件,如PDF,Flash等
➢需支持命令行和纯服务格式,可以Windows任务计划器配合,定期抽取目标网站
➢需支持记录HASHCODE等唯一索引,避免相同信息重复入库
➢需支持智能替换功能,可以将内容中嵌入的所有的无关部分如广告去除➢需支持多页面文章内容自动抽取与合并
➢数据直接进入数据库而不是文件中,因此与利用这些数据的网站程序或者桌面程序之间没有任何耦合
➢需支持数据库表结构完全自定义,充分利用现有系统
➢需支持多个栏目的信息采集可用同一配置一对多处理
➢需提供基于Web的在线内容编辑,可以方便灵活的进行内容调整和预览
➢需保证信息的完整性与准确性,绝不会出现乱码
➢需提供基于XSLT的模板和帕科自定义格式的模版,从而提供灵活方便标准的模版,方便运营商设计自己的界面
➢需支持各种主流数据库,如MSSQL、Access、MySQL、Oracle、DB2、Sybase等
2.2.3 功能描述
2.2.
3.1新闻采集引擎
新闻采集引擎需包括RSS新闻采集和HTML新闻采集两个关键模块,分别负责从两种协议进行采集分析。系统采用基于LUA自定义脚本的方式,提供高效和可维护的信息采集。
2.2.
3.2 新闻采集管理后台
2.2.
3.2.1新闻科目管理
新闻科目管理对所有的新闻进行科目定义,如财经频道、国际新闻、国内新闻等内容。新闻科目支持无限分级,从而可以提供更加人性化的导航和分类。
2.2.
3.2.2 新闻来源管理
新闻来源管理对新闻的出处进行管理、如新浪网、上海热线、网易、搜狐等。从而方便统计和管理。新闻来源管理实现新闻来源的添加、删除、更改等功能。
2.2.
3.2.3 新闻采集点管理
新闻采集点按照新闻来源导航,提供对各个采集分析点的管理,采集点的内容一般呈现为列表数据,访问为HTML页面内容或者RSS内容,新闻采集点可以设置以下信息
➢采集地址
➢采集类型
➢采集时间间隔
➢分析规则
➢列表分析规则
➢新闻内容分析规则
等信息