网络信息的检索与利用
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(一)因特网上的信息资源(次重点)
网上有什么样的信息:政府信息、科研信息、教育信息、文化信息、休闲娱乐信息。
网上不太可能有的信息:如有并企业公司的战略、发展规划,商业、贸易秘密;商业性库和大多数有版权的印刷资料等。
因特网上信息资源的特点及信息利用价值
因特网信息的特点:无限性和广泛性,多样性,共享性,新颖性,无序性。
因特网信息的优越性:价廉,新颖、深入,广泛直接交流,非正式和自由发表园地。(二)因特网上信息资源的种类(重点)
因特网上信息资源的主要类型有以下五种:
(1)Web 信息资源
指建立在超文本、超媒体技术的基础上,集文本、图形、图象、声音为一体,并以直观的图形用户界面展现和提供信息的网络资源形式。
(2)Telnet 信息资源
指借助远程登录(remote login),在网络通信协议Telnet(telecommunication network protocol)的支持下,在远程计算机上登录,使自己的计算机暂时成为远程计算机的终端,进而可以实时访问、使用远程计算机中对外开放的资源。
(3)FTP 信息资源
FTP(file transfer protocol) 是因特网使用的文件传输协议。该协议的主要功能是完成一个系统到另一个完整的文件拷贝。即在因特网的联网计算机之间传输文件。
(4)用户服务组信息资源
由一组对某一特定兴趣的网络用户组成的电子论坛。如新闻组(usenet newsgroup)、邮件列表(mailing list)、专题讨论组(discussion group)、兴趣组(interest group)、辩
论会(conference)等等。
(5)RSS信息资源
RSS是一种用于共享新闻和其他Web内容的数据交换规范,是将用户订阅的内容传送给他们的通令协同格式。
2、因特网信息资源的评价标准
(1)目的
(2)范围
(3)内容:准确性、权威性、新颖性、独特性、可靠性、图形和多媒体设计、信息的展示与设计、可操件性。
3、评价方法
(1)定性评价
按照一定的评价标准对被评站点的各方面特征、质量作出主观评判。一般有问卷调查、专家评议等方式。
(2)定量评价
是利用数量分析方法,对调查统计数据进行分析,进而做出较系统、客观的评判。定量评价主要从以下途径进行:从网页的URL中得到信息;查看网站首页描述;从超级链接中获取信息;参考他人评价。
1、识记:因特网信息资源的评价标准和评价方法,定性评价和定量评价的定义。
2、理解:对因特网信息资源进行评价的意义。
3、应用:任选一网站,对其信息资源进行评价。
与传统信息检索方式相比,因特网信息检索的主要特点是:
(1)检索范围大
(2)检索效率高
(3)检索工具强大
(4)信息冗余大
因特网信息检索的方法主要有两种:基于浏览的检索方式和基于关键词的方式。
1、基于浏览的检索方式
包括不依靠任何检索工具的浏览和借助检索工具的浏览。
(1)不依靠任何检索工具的浏览
顺链而行:此为在因特网上发现和检索信息最原始的方法,即在日常的网上漫游过程中,随机地发现一些有用的信息。
收藏网址:个人用户在上网浏览的过程中将一些常用的站点地址记录下来,组织成目录以备今后之需。
不依靠任何检索工具的浏览方式,适合以下几类信息检索的目的:延伸已有信息范围;跟踪新信息;网上信息调研;好奇心驱使;消遣性浏览;享受浏览经验。
(2)借助检索工具的浏览
借助以Yahoo为代表的网络资源目录。
(3)基于浏览的检索方式的特点
优点:能够针对具体任务或问题找到相关信息;方便对检索到的结果信息进行筛选;在检索
过程中,能够使用不太明确的信息需求得以清晰化;有时能获取一些意外信息;容易使用突破本学科领域的界限,获取跨学科、跨得业信息;利于多媒体信息的检索。
缺点:用户获取信息的偶然性大;检全率较差;易出现信息迷航。
2、基于关键词的检索方式
(1)基于关键词的检索的工具:最具代表性的是搜索引擎,如google。
(2)基于关键词检索的特点
优点:检索简单易得,利于上手;检索到的信息较新,时效性好;可以达到较高的检全率;符合检索语言的文献保障原则和用户保障原则。
缺点:关键词语言难以反映词间的相关关系;分散主题,影响查准率;自动标引无法完全解决标引不一致的问题。
(3)常用的关键词高级检索功能
主要的功能有:布尔逻辑检索、截词检索、位置检索、加权检索、词组检索、范畴检索(限制检索)、概念检索、模糊检索、深入检索
①布尔逻辑检索(boolean logic)
所谓布尔逻辑(又称布尔代数),是指使用AND、OR或NOT 等运算符查找含有某种词语特定组配形式的那些网页(记录)。
逻辑“与”
用AND(或+)表示。A AND B (A+B) ,网页记录中必须同时包含A、B两个词。
逻辑“或”
用OR表示。A OR B ,表示只要含有其中一个检索词或同时含有这两个检索词的文献都将被命中。
逻辑“非”
用NOT (或-)表示。A NOT B (A-B),表示被检索文献在含有检索词A而不含有检索词B时才能被命中。
②截词检索
检索时输入检索词的局部(词干)进行非准确性检索匹配。主要用于西文检索工具。
③位置检索(靠词检索)
运算符NEAR 可以容许两个词相距一定的距离,有时还可以由用户来规定它们之间的距离。
④词组检索
词组检索是一个词组(通常用双引号“”括起)当作一个独立运算单元,进行严格匹配,以提高检索的精度和准确度,它也是一般数据库检索中常用的方法。
⑤范畴检索
是指将检索限制在记录的一个特定部分或几个部分的能力。
一些有用、经常遇到的范畴下:
Title(网页标题)
Links(链接)
Date
URL
图像和其他媒体
特殊检索功能
网络信息检索工具的原理
(1)网页抓取
(2)文档分析