网络信息采集技术介绍
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2 网络信息采集技术介绍
学习内容
1.网络信息采集概述
2.网络信息采集技术的发展
3.网络信息采集软件简介
实训内容
网络信息采集软件的使用
学习目标
掌握:网络信息资源采集的质量标准、途径与策略,网络检索自动化技术的发展,常用网络信息采集软件的使用方法。
理解:网络信息采集的特点、原则,网络检索多媒体技术的应用及检索工具的智能化发展。
了解:网络信息采集系统的应用前景,常用网络信息采集软件的种类。
2.1 网络信息采集概述
网络信息采集是指从互联网共享服务资源中收集、处理和分析网络实体信息的过程。网络信息采集不仅包括对互联网公共实体信息的查询和存储,还包括对信息的归类、提取和解析,更重要的是在已收集信息的基础上分析数据,并将分析结果用于实际问题的解决。2.1.1网络信息资源采集的原则
网络资源纷繁而复杂,为了避免网络信息资源采集的随意性、无计划性和盲目性,对网络资源的采集必须严格执行统一的采集标准,主要包括以下几个方面的原则:
全面性原则:全面性原则是对网络信息采集网罗度的要求。对于所要采集的某方面的信息,要尽可能全面地采集,保证为收集到尽可能多的信息。
针对性原则:指应依据用户的实际需要,有目的、有针对性、有重点、有选择地获取利用价值大的、符合需求的信息。针对性原则能够提高信息采集的准确性和价值性。
时效性原则:及时收集最新的、有效的信息,并定期对原有信息资源进行更新,方能使所保有的信息常新。这样既能够保证资源得到有效的保存,又能保证信息资源的高质量。
选择性原则:采集时首先应对信息来源有所选择,重点采用信誉高、稳定性强的网站的信息。其次,资源采集所用的方法要有所选择,应用不同的信息采集方法所获得的信息往往不同,要善于通过多种途径进行信息的采集工作。再次,采集的信息应把质量放在首位,在保证质量的情况下兼顾数量。
全程性原则:信息采集是一个全过程的连续性的工作。信息资源必须持续不断地补充,进行长期的积累。这样才能反映这些资源的历史、发展状况、特点及规律,从而保证所收集的资源具有较高的使用价值。
2.1.2网络信息资源采集的特点
网络信息资源采集的特点主要表现为采集对象的多样化、采集方式的多元化以及采集手段的现代化。
1.采集对象多样化
传统的文献信息资源采集是以纸张为载体的印刷型文献为主,采集种类单一。而在网络环境下,各种各样名目繁多的电子文献和网络文献层出不穷,文献信息资源的种类呈现出多样化发展的趋势,文献信息资源的采集种类不仅包括传统的印刷型文献(如各类纸质型图书、期刊、报刊等),还包括各类电子文献(如电子图书、电子报刊、计算机软件等)和各类网上信息资源(即以数据库和网络为基础,通过联机系统或互联网向用户提供的文献信息)。
2.采集方式多元化
传统的文献信息资源采集主要是根据需要,通过订单向出版社或书商订购或直接到书店选书,采集方式比较单一。而在网络环境下,由于信息存储、传输和再现发生了变化,文献信息资源的出版发行渠道变得更加复杂多样,人们采集文献信息资源的方式除了订购、现购、交换、接受赠送等传统方式外,还包括入网、联机使用、租用、免费获取等方式,采集方式呈现出多元化的趋势。
3.采集手段现代化
传统的文献信息资源采集,主要是以手工操作的方式进行,程序复杂、烦琐,不但花费大量的时间,而且容易出现差错。网络环境下的文献信息资源的采集实现了现代化、电子化和网络化,用先进的计算机技术可以从事查重、打印订单、统计、验收等工作,不仅速度快、效率高,而且不容易出现差错。另外,现代化的采集工具不仅提高了工作质量和工作效率,也节约了采集人员的时间和精力,使他们能够有足够的精力了解、掌握、研究文献信息资源方面的出版动态,保证文献信息资源的采集质量不断提高。
2.1.3网络信息资源采集的质量标准
严格的资源采集标准是信息资源可靠性的关键保障之一。可以从内容和形式两个方面对网络信息资源的质量进行评价。
1.内容标准
内容标准主要包括权威性、实用性、准确性、实效性、独特性、全面性等。
权威性:信息发布者是学术权威或者是有影响的学术机构,专业性网站评价机构对其有较好的评价结果,资源在本领域有一定知名度与学术号召力,得到本领域相当数量专业学者的公认。
实用性:广告所占比例低,对信息进行了深度揭示,包括与其他外部信息的链接,对链接列表中的资源有注释说明。
准确性:资源内容基本覆盖资源标题所言范畴,内容客观,信息(包括引用信息)准确可靠,语法和拼写错误很少甚至是没有,转载的内容有来源说明,链接有效性高。
时效性:资源内容反映学科的最新发展,近期内进行过内容更新且注明了最后更新日期。
独特性:资源包含信息基本上是其他网络资源不具有的,网站上的内容主要为原始信息而非转载或指向其他网站的链接。
全面性:资源内容包含了该领域的尽可能全的信息,资源来源渠道多样化。
2.形式标准
形式标准主要从三个方面去衡量,即资源的组织与利用方式、资源的接入条件、网站的页面设计。
资源的组织与利用方式:包括资源的分类与组织是否科学、合理,浏览导航结构是否清晰、易用,网站资源是否具有供用户检索的搜索引擎,搜索引擎是否允许逻辑运算,搜索结果能否按相关度排序等。
资源的接入条件:资源的接入是否便利,对用户的硬件和软件是否有特别的要求(比如安装插件或特殊软件),是否有知识产权方面的限制条件,是否需要注册才能访问,资源接入时反应是否快捷。
网站的页面设计:用户界面是否友好,页面是否整洁、柔和、协调、美观,网页各部分的位置关系和所占比例是否合适,是否具有准确的站点导航图。
2.1.4网络信息资源采集的途径与策略
1.网络信息资源采集的途径
目前流行的采集技术主要是人工采集、网站系统抓取以及定制信息等。
(1)人工采集
人工采集是通常的网络信息采集方式。在现在的互联网世界里,用户接触最多的网络信息是以Web 页面形式存在的。另外,电子邮件、FTP、BBS、电子论坛、新闻组也是互联网上获取信息的常见渠道。以学科信息为例,常见的人工获取网络信息的主要方式有:通过相关领域的学科主题指南或学科信息门户进行搜索:学科主题指南一般是由学会、大学、研究所和图书馆等学术团体和机构编制的网络学科资源导航目录。学科主题指南经过专业人士的加工和组织,所含的信息切合主题,实用价值较高。