{物联网}通用互联网信息采集系统的设计与初步实现
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(物联网)通用互联网信息采集系统的设计与初步实
现
通用互联网信息采集系统的设计和初步实现
杜义华及俊川
(中国科学院计算机网络信息中心管理服务中心,北京100864)
摘要:
通过建立网页资源库、结合Spider技术、内容分析技术,引入用户数据项和替换抽取指令编辑器等,提供和定制可视化通用性较强的互联网信息采集系统,能定期自动跟踪关联网站或网页,进行比较分析、抽取、规整入库、分类等从互联网上获取所需信息。本文主要分析和介绍其设计实现思路。
关键词:互联网信息采集系统网络信息挖掘
中图法分类号:TP393文献标识码:A文章编号:0310206 DesignandImplementationofaInternetInformationGather&ProcessSystem
DUYi-hua,JIJun-chuan
(Dept.ofOA,ComputerNetworkInformationCenter,ChineseAcademyofScienceBeijing
10084,China)
Abstract:Byusingwebpagedatabasetechnology、SPIDERsearchingtechnologyandcontentparsingtechnology,providingwithUser-Defin edfieldconfigtoolandbatchGet&Replacescriptlanguageeditor,Wedevelopaflexiblevis ualInternetInformationGather&ProcessSystem,whichaccordingto user’ssetting,can automatictrackWeb、filterinformation、Gatherinformation、extractinformation、classifyinformationandsavetodatabasetermly.Thispaperintroducesthedesignandimpl ementationofthesystemindetail.
Keywords:InternetInformationGather&ProcessSystem;WebMining
引言现状
信息多、有用少、分布杂乱无章、不断发展变化是互联网上信息资源特点,信息来源的异构性是网络信息难以采集整理再利用的焦点[1]。近年来关于web信息利用研究很多,大多集中于搜索引擎技术[2],旨于利用先进系统和人工智能技术,以壹定策略于互联网中搜集、发现、理解、组织信息后为用户提供网页、图片、软件等检索服务。
互联网信息采集系统是对Internet上某些或某类站点进行内容分析和分类整理,从网页中提取有效数据加工得到所需要的常常是该领域绝大部分资料,是新壹代网络应用的方向,其不同于搜索引擎,纯智能化技术不能满足需要,不同于基于代理因特网信息获取的WebClone系统[3]及各类离线浏览器,他们下载的是页面,不能直接让用户抽取所需要数据项,不便自动实时监测源网站的更新信息等。
采集系统均基于网页内容分析,除零星新闻采集程序外,目前较成熟的内容采集系统有“天星”系统(WebcateCPS)[4],其采用壹种通用模板加脚本编程解决实现,有网络信息采集、分析、管理和发布工具(II-3I)[5]等。但现有系统不够大众化,仍局限于定制开发,无法通用。
设计目的
信息采集过程可表现为用户指定需要采集的内容、这些内容映射到数据库中的哪壹部分、以及其他壹些采集规则,然后采集系统根据用户提供的这些信息进行采集。其不是用于互联网上未知信息未知网站的自动搜索,而主要是用于指定网站指定栏目下的信息,其采集的最终结果不再是页面,而是深入到站点和页面内部,采集中有效数据项和关联图片附件,且直接进入用户指定库。
采集系统开发目的就是提供壹个有力的工具,帮助普通用户(熟悉基本的HMTL)而非编
程人员从异构数据源收集信息且转换为他所需要的信息,功能包括网页采集、分析下载、直接入库、自动分类整理、内容定期更新监测等,整个采集过程基于参数和配置管理控制,提供图形化界面编辑或向导式操作。
系统将为最终用户提供壹步到位的信息再整理过程,将浩瀚信息从无序化到有序化,可广泛用于情报收集、信息监控、行情跟踪、专业信息资源站、搜索引擎上二次开发[6]、内部知识系统或天气预报、股市、汇率、商情、动态新闻等的实时采集更新等。设计时充分考虑最大程度的通用性、易用性。
实现原理
目前,互联网上各网页均采用动态发布技术实现或采用模板制作,虽然Internet上的数据非常庞杂,但对于具体的网站和网页,却是有结构和有规律的。由于无论采集系统多么智能,网站页面和用户需求的映射关系均是采集系统程序不可能完全自动感知到的,但用户能够知道。因此系统程序实现的方法就是提供壹个用户能够将需求告诉采集系统程序的通道。
用户通过分析指定网站或指定的网站频道栏目下的网页元素,分析网页源HTML代码及网页间相互关系;能够发现其和所需要数据项的规律和对应关系,于剖析到原有网站本身版面内和版面间元素的关系的基础上,就能够根据用户指令将这些元素之间关系转换为用户需要的数据,即能有效利用了网站制作人的智慧和用户的智慧,从数据挖掘整理的角度设计和开发壹套通用互联网信息采集系统。
用户需告诉采集系统要于什么时候从哪里对满足哪些条件的内容经过哪些步骤(或者事件)然后采集出什么元素,且把该元素放置到数据库哪壹部分等,系统设计时主要为将之上所有内容根据不同扫描频率作为配置文件按壹套自定义接口描述标准对用户开放。
流程分析
信息采集过程即从异构数据源收集信息且转换为用户需要的信息的过程。
以分析某个网站发布的需求信息或新闻动态为例,我们可能使用的方法是,第壹次发现其已有上千条信息,将其全部下载为本地文件、分析为些文件,编程对此目录(含子目录)下所有文件扫描处理,取出有用数据项后,插入到数据库,中间仍需要于插入库前进行转换、查重、对可能有关的图片附件进行分析、拷贝、重命名及入库处理,此后,根据源网站信息的更新频率,需于此基础上定期或不定期重新下载、重新扫描、查重入库,整个过程开发量大、调试烦琐,每次需要人工干预操作,且只有专业人士才能进行。特别是于同时跟踪许多个关联网站的不同更新信息时,几乎无法高效工作。
本着模访现实的设计原则,我们设计和对照如下: