信息采集系统

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

《中意信息采集系统》

1.适用行业、软件用途:

可用于多种行业的网站信息采集,包括新闻,商品信息,医疗,房产,企业,学校,党政等方面的网站.

新闻信息采集系统以网络信息挖掘引擎为基础构建而成,它可以在最短的时间内,帮您把最新的新闻信息从不同的Internet站点上采集下来,并在进行分类和统一格式后,第一时间之内把新闻的及时发布到自己的站点上去.从而提高信息及时性和节省或减少工作量.

2.功能介绍

A.信息获取的范围

可以采集普通的静态和动态网页信息,并自动将jpg,gif等图片内容采集到本地,同时将网页中的图片链接自动转换成本地的图片链接..

B.信息重复下载控制

通过对指定页面的位置、内容等条件的智能化信息分析,有效防止信息的重复下载情况,提高信息的获取效率。

C.完善的信息源配置

用户可以自定义每个信息源的标示、起始地址、抓取信息地址格式、抓取信息类型、抓取区域、关键字、启停时间、模版等参数,同时,系统还提供完善的信息源管理功能,可方便的实现网站信息源的增、删、改、查等操作。

D.下载速度快

多线程多信息源同时,下载用户可以同时启动多个线程进行高速信息页的下载。普通的网络带宽,每秒可下载10~50个网页.

E.开放性

采集到的网页信息经过系统加工处理后统一存放为采集结果数据库中,方便定制开发和与其它产品的集成;根据需要还可以把信息统一存放为xml文件。

F.内容替换设置

内容替换支持正则表达式方式的替换,用户可以根据需要,去除网页中的广告,把不合排版要求的内容转换成需要的格式.

3.技术特点

A.新闻获取及时响应

可在短时间内(五分钟内),同时获取分布于不同地域不同网站上的实时新闻,即时传递,即时更新

B.自动排重技术,有效筛选重复信息

C.智能化获取功能,全面实用简便

D.定时启动定时停止

E.可审核后发布,也可直接发布

F.以往新闻检索

G.采集的新闻内容可定制

该系统可根据定制,有选择的在国内外主要的新闻网站收集有关的新闻。

H.统一信息格式

对采集到的不同来源、不同格式的新闻信息进行统一分类和保存。

I.可与现有信息系统集成

该系统可方便的与现有的信息发布系统相集成,信息采集系统作为一个独立的模块运行,不干涉原有系统的运行,集成涉及的仅仅是底层数据(不涉及数据结构).

相关文档
最新文档