因特网上信息检索(检索与原理)
2021教科版选修3《因特网信息检索》word教案
2021教科版选修3《因特网信息检索》word教案【教案背景】本节课是教育科学出版社《网络技术应用》第一章第三节的内容。
所要讲述的搜索引擎的工作原理是学生较难明白得的内容,同时又是本节课教学重点。
本节课的教学目标要定位准确,必须对教学内容的挖掘要有一定的深度,教学内容在一定程度上要设计合理。
本课题设计打算从学生在搜索过程中遇到的问题动身,引起学生的注意。
通过引导学生摸索什么缘故会显现这些问题引出搜索引擎原理的讲解,从而关心学生认识这些问题,找到解决问题的方法。
让学生在使用搜索引擎的过程中体会搜索引擎的工作原理。
要紧想表达一个学以致用的思想。
【教学课题】因特网信息资源检索【教材分析】必修模块差不多学习了搜索引擎的初步使用,选修模块要紧讲解搜索引擎的工作原理,提高学生使用搜索引擎的能力。
【教材方法】任务驱动、探究、分工协作【教学目标】1.使学生能明白得搜索引擎的工作原理;2.让学生认识到搜索引擎是一个工具,并能够灵活运用搜索引擎;3.让学生有意识的提高自己的搜索技巧。
【教学重点】搜索引擎的工作原理。
【教学过程】关于搜索引擎大伙儿应该并不生疏吧,我们常常用它做什么呢?(生:查资料)对,搜索引擎是一个帮我们检索信息的工具。
既然是工具,我们就要用好它,让它好好为我们服务。
“公欲善其事,必先利其器”如何样让搜索引擎在我们手中化为“利剑”?网上就有专门多这样的高手,关于他们来讲“没有搜不到,只有想不到” ,用引擎他们能够解决专门多稀奇惊奇的难题。
大伙儿想不想成为如此的高手呢?(生:想)今天就让我来为大伙儿抛砖引玉,期望大伙儿以后也能成为如此的搜索高手。
师:第一我想就搜索引擎的使用向大伙儿做一个小小的调查。
大伙儿一样都使用什么搜索引擎?生:百度,Yahoo,Sina…… ,那个回答和我预想的一样。
师:专门多同学脱口而出“百度” 调查,百度的用户中52.7%为23 岁以下的学生群体,因此被称为最年轻的搜索引擎。
大伙儿在使用搜索引擎的时候遇到过什么问题没有呢?生:页面无法显示,有专门多无关信息……(这两个问题是只要使用搜索引擎都会碰到的)师:那么有没有同学想过什么缘故会显现这些问题?如何样解决这些问题?(学生摸索片刻),这确实是我们今天要解决的问题。
网络搜索与信息检索
网络搜索与信息检索随着互联网的普及和发展,网络搜索和信息检索已经成为现代社会中不可或缺的一部分。
通过搜索引擎,人们可以轻松地获取到大量的信息,满足各种各样的需求。
本文将从网络搜索和信息检索的定义、搜索引擎的原理以及搜索技巧等方面展开论述。
一、网络搜索和信息检索的定义网络搜索是指通过互联网搜索引擎,根据用户提供的关键词,在互联网上查找相关的网页、图片、视频等信息的过程。
信息检索则更广义,包括了从各种媒体中获取相关信息的过程。
无论是网络搜索还是信息检索,都是通过某种工具与技术来获取用户需要的信息。
二、搜索引擎的原理搜索引擎是进行网络搜索和信息检索的核心工具。
它通过爬虫程序(也称为蜘蛛或机器人)定期抓取互联网上的网页,并将这些网页存储到数据库中。
当用户输入关键词进行搜索时,搜索引擎会通过算法将与关键词相关的网页进行排序,并展示给用户。
搜索引擎的原理主要包括以下几个步骤:1. 爬取:搜索引擎利用爬虫程序自动爬取互联网上的网页,将网页的内容存储到数据库中。
2. 索引:搜索引擎对爬取到的页面进行索引,建立起相应的网页索引库。
3. 检索:当用户输入关键词进行搜索时,搜索引擎会通过算法在索引库中查找与关键词相关的网页。
4. 排序:搜索引擎会根据算法对检索到的网页进行排序,将与关键词相关度较高的网页排在前面。
5. 展示:排好序的网页结果将以列表的形式展示给用户。
三、搜索技巧为了更高效地进行网络搜索和信息检索,以下是一些搜索技巧可供参考:1. 关键词选择:选择准确的关键词能够帮助搜索引擎更好地理解用户需求。
尽量使用具体的关键词,避免使用模糊不清的词语。
2. 引号搜索:如果要搜索具体的词组或句子,可以使用引号将其括起来,如“网络搜索与信息检索”。
3. 排除搜索:通过在关键词前加上减号“-”,可以排除指定的关键词,缩小搜索范围。
4. 存档搜索:有时候我们需要搜索一些过去的信息,可以通过搜索引擎的存档功能来实现。
5. 高级搜索:搜索引擎提供了丰富的高级搜索选项,可以按照时间、文件类型、网站等进行搜索,提高搜索精度。
第三章第二节因特网上的信息检索
2011全国中小学“教学中的互联网搜索”优秀案例征集活动因特网上的信息检索学校:贺兰回中姓名:叶芳日期:2012-3-5一、教案背景1、面向学生:高二2、学科:信息技术3、课时:1课时4、学生课前准备:阅读课本该章节内容二、教学课题广东教育出版社信息技术选修3《网络技术应用》第三章第二节《因特网上的信息检索》。
三、教材分析1、学情分析学生已经在必修模块中掌握通过不同的搜索引擎检索信息,并能够合法地从网上获取信息。
但是在必修模块中强调学生经历信息获取的过程,而不是网络信息检索的思想和方法。
在学生已有的检索经验的基础上,开展本课,让学生通过具体任务了解有关网络信息检索方法,从任务体验中感受到搜索引擎的特点、能够简单分析各类搜索引擎的优缺点和局限性,从自身体验谈谈对搜索引擎发展的相关建议。
我相信高二的学生能够顺利完成本课的学习任务。
2、教材分析本节课是广东教育出版社信息技术选修3《网络技术应用》第三章第二节因特网上的信息检索。
主要内容包括因特网信息检索的方法、搜索引擎的发展与分类、搜索引擎的工作过程。
本课不同于广教版信息技术必修中的“获取网络信息的策略与技巧”,而是侧重于搜索引擎的特点、工作原理及工作方法,在理解了网络信息检索的思想和方法之后,知道搜索引擎的工作原理将使学生进一步提高从网络获取信息的能力。
3、教学目标(1)知识和技能掌握因特网信息检索的三种方法,理解各类搜索引擎的特点和发展,理解理解搜索引擎的工作原理。
(2)过程与方法通过完成任务体验并总结网络信息检索的三种方法,通过生生交流、师生交流和任务来总结各类搜索引擎的特点及局限性。
让学生在任务中发现问题,提出对搜索引擎未来发展的建议。
进而理解搜索引擎的工作原理。
(3)情感态度和价值观学生在经历师生讨论和任务完成之后,能够分析各种信息检索工具的优缺点,认识到现有网络信息检索工具的发展趋势,提高自身创新意识和对网络信息检索技术的兴趣。
4、教学重点(1)、掌握在因特网上进行信息检索的方法。
第七章 Internet 信息检索工具—搜索引擎
(4)用户接口
供用户输入查询,显示匹配结果。 用户接口的设计和实现使用人机交互的 理论和方法,以充分适应人类的思维习 惯。
4、搜索引擎的主要任务
(1) 信息搜集 各个搜索引擎都派出绰号为蜘蛛(Spider)或机 器人(Robots)的“网页搜索软件”,在各网 页中爬行,访问网络中公开区域的每一个站点 并记录其网址,将它们带回搜索引擎,从而创 建出一个详尽的网络目录。由于网络文档的不 断变化,机器人也不断地把以前已经分类组织 的目录更新。
第七章 Internet 信息检索工 具—搜索引擎
7.1搜索引擎基本理论
1、什么是搜索引擎?
简单地说,所谓搜索引擎,就是采用信息自 动跟踪标引等技术、建立在因特网上专门提 供网络信息资源导航服务检索工具。 它能够通过Internet 接受用户的查询指令 ,并向用户提供符合其查询要求的信息资源 网址。
5、搜索引擎的种类
检索型搜索引擎:它使用自动索引软件来发现、收集并标引网 页,建立数据库,并以Web形式让用户找到所需信息资源。比 较著名的有:息系统地分门归类,经过人工 整理后形成庞大而有序的分类目录体系,用户可以在目录体系 的导引下通过逐级浏览,发现、检索到有关的信息。雅虎就是 以卓越的分类目录型导航服务而称誉全球,典型的分类目录搜 索引擎如Yahoo ( /) 混合型搜索引擎:它兼有检索型和目录型两种方式。如:新浪、 搜狐、网易、中华等门户网站。 多元搜索引擎:也称为集合型搜索引擎。它是将多个搜索引擎 集成在一起,通过统一的检索界面进行网络信息多元搜索 的 检索工具。按照工作方式的不同可分为并行处理式和串行处理 式两大类。著名的有: Meta crawler、Dogpile、Mamma和万 维搜索(Http:///)等。
引号 引号( “ ” )的作用是,括在其中的多个词 被当作一个短语来检索。绝大部分主要搜索引 擎都支持短语检索,找到含有与短语词序和意 义完全相同的页面。例如,检索式 “ electronic magazine ” ,表示把 electronic magazine 当作一个短语来搜索。 如果不加引号,搜索引擎就会把两词之间的空 格按“与”处理,查出包含 electronic 和 magazine 的页面,结果应与用户要求的主题 内容相去甚远。
16因特网信息资源检索概述v3
因特网信息检索的特点
1 分布地域广,检索范围广泛、全面
因特网信息检索的特点
2 超文本检索,具有交互式作业的特点
超文本的信息资源通过网上各节点的链路把 相关信息或图标有机地链接成一个网络结构, 用户可以从任何一个节点开始阅读文档
因特网信息检索的特点
3 检索内容新、实时性强、传播速度快
因特网信息检索的特点
传统网络信息服务工具
【文件传输服务】
是在网络通讯协议FTP的支持下实现的一种本地计算机和远程服务器之间 的文件传送
传统网络信息服务工具
【电子邮件服务】
是用户或用户组之间通过计算机网络接受或发送文字、图像和语音等多种 形式络新闻服务】
通常被称作Usenet,是通过Internet提供新闻组专题讨论服务的一种应 用软件
Giganews:美国最大的usenet服务商 UseNeXT:欧洲最大的usenet服务商
传统网络信息服务工具
【WAIS信息服务】
WAIS(Wide Area Information Service)称为广域信息服务器,是一 种数据库索引查询服务
访问WAIS主要有三种方法: 运行一个本地主机的WAIS客户程序 • 用Telnet远程登录到WAIS Client • 通过Gopher进入WAIS
【Gopher】
是一种基于多种菜单的交互式检索工具
• 文本文件信息查询 • 电话簿查询 • 多媒体信息查询 • 专有格式文件查询 • ……
服务器1
服务器2
服务器n
用户计算机
传统网络信息服务工具
【WWW信息资源】
WWW(World Wide Web,万维网)采用了超文本与超媒体的技术, 以多媒体形式向用户展现丰富的信息
Internet网络信息检索技巧
搜索引擎分类
检索型搜索引擎:它使用自动索引软件来发现、收集并标 引网页,建立数据库,并以Web形式让用户找到所需信息 资源。比较著名的有: A信息系统地分门归类,经过 人工整理后形成庞大而有序的分类目录体系,用户可以在 目录体系的导引下通过逐级浏览,发现、检索到有关的信 息。雅虎就是以卓越的分类目录型导航服务而称誉全球。 混合型搜索引擎:它兼有检索型和目录型两种方式。如: 新浪、搜狐、网易、中华等门户网站。 多元搜索引擎:也称为集合型搜索引擎。它是将多个搜索 引擎集成在一起,通过统一的检索界面进行网络信息多元 搜索 的检索工具。
3.5其他用法类似的限定检索
参阅英文Google大全。
()
Yahoo是因特网上历史最悠久、用户数最多的综合型、混 合型搜索引擎,是分类式搜索引擎的典范。它拥有10余种 语言版本,且各版本的内容互不相同。 如果用户的检索词在Yahoo !中查询不到结果,它会自动 将查询转交给Google搜索引擎做进一步的检索。 Yahoo!支持词语检索和“+‖ 和“–‖限制检索等,它还提 供日期限定、URL和题名限制检索等。“+‖限定关键字串 一定要出现在结果中; “–‖限定关键字串一定不要出现在 结果中。
利用Google进行专题信息检索
1 简单专题信息检索及目录检索 接受一项简单专题,最直截了当就是在搜索框内输入一个 关键词,然后点击下面的“ Google 搜索”按钮(或者直接回 车),结果就出来了。 如果对查询的领域熟悉,只想寻找某些专题网站,首先考虑 用目录检索。目录分类明确,则网站专题信息集中,剔除了大 量不相关的信息。不过对查找中文信息,Google的中文目录太 少只有非常普通简单的类目,可能很难满足需求(中文目录 “/Top/World/Chinese_Simplified/”) 。
网络信息资源检索4
第四章 Internet信息检索 1 2 3 4 网络信息检索的一般方法 网络信息检索工具 相关网络信息检索技术 搜索引擎及其原理
1 网络信息检索的一般方法
1.1 浏览
1.2 通过网络资源指南来查找信息 1.3 利用搜索引擎进行信息检索
1.1 浏览
(1)偶然发现。
这是在因特网上发现、检索信息的原始方法。
等功能。
2 网络信息检索工具
网络信息检索工具是指在因特网上提 供信息检索服务的计算机系统,其检索的 对象是存在于因特网信息空间中各种类型 的网络信息资源。
近来具一般是由自动索引程序、 数据库和检索代理软件组成的。
自动索引程序
即在日常的网络阅读、漫游过程中,意外发现一些
有用信息。这种方式的目的性不是很强,其不可预 见性、偶然性使检索过程具有某种探索宝藏的意味, 也许会充满乐趣,但也可能一无所获。
(2)顺“链”而行。
指用户在阅读超文本文档时,利用文档中的链接从一网
页转向另一相关网页。有些类似于传统文献检索中的“追溯 检索”,即根据文献后所附的参考文献目录去追溯相关文献, 一轮一轮地不断扩大检索范围。这种方式可以在很短的时间 内获得大量相关信息,但也有可能在“顺链而行”中偏离了
3、提供检索服务 用户输入关键词进行检索,搜索引擎从 索引数据库中找到匹配该关键词的网页;为 了用户便于判断,除了网页标题和URL外, 还会提供一段来自网页的摘要以及其他信息。
计算机信息检索基本原理及检索技术
局限性
处理复杂语言现象的能 力有限,对某些专业领 域和特定语言的处理效 果有待提高。
机器学习与信息检索
概念
机器学习是人工智能的一个分支,通过训练让计算机自动学习并改进 检索算法。
应用
利用机器学习算法对大量数据进行训练和学习,自动提取特征并分类, 提高信息检索的准确性和效率。
优点
能够自动优化和改进信息检索算法,提高检索效果。
结果评价是对检索结果进行评估,判 断其是否满足用户的信息需求。
信息检索系统
信息检索系统是实现信息检索 的工具或平台,它能够从各种 信息源中获取、存储、组织和
检索信息。
常见的信息检索系统包括图 书馆信息系统、搜索引擎系 统、学术论文数据库等。
信息检索系统的性能和效果取 决于其信息组织方式、索引技 术、检索算法等多个因素。
信息检索过程
信息检索过程包括信息需求分析、信息源选择、 信息检索策略制定、信息检索实施和结果评价 等步骤。
信息需求分析是信息检索的前提,需 要明确用户的信息需求和信息类型。
信息源选择是根据信息需求选择合适 的检索工具或数据库。
信息检索策略制定是根据信息源的特 点和信息需求制定相应的检索策略。
信息检索实施是执行检索策略,从信 息源中获取相关信息。
解决信息隐私保护的方法包括立法保护、技术手 段如加密和匿名化等。
信息检索技术的未来发展
01
信息检索技术的发展趋势包括智能化、语义化、移动化和社交化等。
02
智能化技术如机器学习和人工智能动信息检索向更深层次的知识层面发展。
04
移动化和社交化的趋势将使信息检索更加个性化和社交化,提高用户 参与度和满意度。
语义鸿沟问题
01 语义鸿沟是指用户与信息之间的理解差距,导致 用户难以找到所需内容。
1.3因特网信息资源检索.ppt
Google使用此术语来反映出公司的任务:组织网络上无穷无尽的资讯。
Google的“蜘蛛”程序名为“Googlebot”,属于非常活跃的网站扫描 工具。Google一般每隔28天派出“蜘蛛”程序检索现有网站一定IP地 址范围内的新网站。登录Google的周期一般为3个星期(从提交网站到 被索引)。
按工作方式分:
全文搜索引擎 ---关键词检索
用代表所需信息的主题的关键字进行 信息查询
目录式搜索引擎 ---分类检索
利用罗列目录的方式引导搜索者依据目 录查找需要的信息。
常用全文搜索引擎:
常用目录索引类搜索引擎:
因特网信息资源检索
涟源市行知中学 孙卫红
随着网络数字时代的到来,网络已 成为人们获取信息的重要手段。然而网 络上的信息浩如烟海,怎样在浩瀚的信 息海洋中遨游而不失去方向,搜索引擎 就是为了满足大众信息检索而产生的网 络工具。使用搜索引擎是人们在网上冲 浪时到达目的地的捷径。
什么是搜索引擎?
搜索引擎是一种用于帮助因特 网用户查询信息的搜索工具,它以 一定策略在因特网中搜集、发现信 息,对信息进行理解、提取、组织 和处理,并为用户提供检索服务, 从而起到信息导航的目的。
通过GOOGLE Scholar检索期刊论文、学位论文、图书、预印本、 文摘、技术报告等学术文献,文献源自学术出版物、专业学会、 预印本库、大学及网上学术论文。
考虑全文、作者、出版物及被引情况。采取自动分析与抽取引文 的方法,因此也包括那些本身不在网上的图书或其他出版物中的 论文。
文献检索,信息检索(2)第二章 信息检索原理
缺点:常常落后于当前研究现状,分类表相对呆板的 学科关系,使得确定前沿概念、跨学科概念或非常具 体概念的分类,较困难。用户差异性。
分类语言
中国图书馆图书分类法 美国国会图书馆分类法 杜威十进位分类法 IPC国际专利分类法
基本部类 马列毛邓 哲学
(2)多概念课题
并列概念课题,如“新闻宣传研究”
“计算机在人文社会科学方面的应用” 上位类分类方法,如“灰色系统理论”
应用性课题,如“计算机在人口预测方面的应用”、
2.主题语言
是直接以代表信息内容特征和科学概念的概 念词作为检索标识,并按字顺组织的一种检索语 言。 是以表达文献主 是从文献的内容 是从文献的题目
一、检索算符 逻辑与
(一)布尔逻辑算符
布尔逻辑组配运算是采用布尔代数中的 逻辑“与”逻辑“或”、逻辑“非”等算符,
将检索提问式转换成逻辑表达式,限定检索
词在记录中必须存在的条件或不能出现的条 件。凡符合布尔逻辑所规定的条件的文献, 既为命中文献。
布尔逻辑运算符
————————————
1、逻辑“或” 2、逻辑“与” 3、逻辑“非”
2、逻辑“与”
————————————————
Chinese AND litera0,000 网络100,000,000) 用符号“and”或“*”表示,其逻辑表达式为: A * B 或 A and B 其意义为检索记录中必须同时含有检索词A和B 的文献,才算命中文献。
4、记录级
检索词在数据库的同一记录中。
(C)—citation
表示两侧的检索词(或检索项)必须出现在同一记录中,词
序不限,中间词数量不限,其作用与布尔逻辑算符AND相同。
第二节__因特网上的信息检索
搜索引擎的分类
类型 定义 使用关键词到预先 建好的或租用其它 索引数据库查询信 息的一类搜索引擎. 举例
全 文 搜 索
信息量大、更新较及时、不需人工干预。 优点: 信息量大、更新较及时、不需人工干预。 返回信息过多,有很多无关信息。 缺点:返回信息过多,有很多无关信息。
注意的问题
搜索引擎并不真正搜索互联网, 搜索引擎并不真正搜索互联网,它搜索的 实际上是预先整理好的网页索引数据库。 实际上是预先整理好的网页索引数据库。 搜索引擎,也不能真正理解网页上的内容, 搜索引擎,也不能真正理解网页上的内容, 它只能机械的匹配网页上的文字。 它只能机械的匹配网页上的文字。
动动手
搜索引擎工作原理
1、信息的采集与存储 、
信息的采集包括人工采集和自动采集两种方式。 人工采集由专门的信息人员跟踪和选择有用的WWW站点或 页面,并按规范方式分类标引并组建成索引数据库。 自动采集是通过自动索引软件(Spider、Robot或Worm)来 完成的,Spider、Robot或Worm在网络上不断搜索相关网页 来建立、维护、更新索引数据库,自动采集能够搜索、采集 来建立、维护、 和标引网络上众多站点和页面,并根据检索规则和数据类型 对数据进行加工处理,因此它收录、加工信息的范围广、速 度快,能及时地向用户提供Internet中的新增信息,告诉用户 包含这个检索提问的所有网址,并提供通向该网址的连接点, 检索比较方便。
1994年起搜索引擎发展举例 年起搜索引擎发展举例
产生时间
1994.4 1995.12 1997.10 1998.9
搜索工具
Yahoo Altavista 北大天网 Google
开发组或公司
斯坦福大学 DEC公司 公司 北大计算机研究室
网络信息检索的原理及技术
检索过程
收集标引过程
分布式搜索引擎的一般结构
网络空间
用户
复制管理器 中介器 对象缓存
中介器
收集器
………… .
9.3.1网络信息的采集
• 定义:是实现网络信息检索的第一环节,其主要任
务是为网络信息资源库录入信息源。
• 广义上:网络信息采集包括网络信息检索系统的所
有信息采集和录入活动。
• 狭义上:是指网络搜索引擎的信息采集。
• 1.数据库组织方式:将所有获得的信息资源按照固定的记录格式存储组织,用户通过
关键字及其组配可以知道所需要的信息线索
• 2.超链接方式:把不定长的基本信息单元存放在节点上,这些基本信息单元可以使单个
字,句子,章节,文献,甚至是图像,音乐或者录像。
• 3.主页方式:通过各种频道栏目,根据网站定位的用户对象,需求的动态,一次信息等
重要的,所以它的PageRank值最高。
网页A级别=(1-系数)+系数×—网—页—1—级—别—
网页1链出个数
+ —网—页—2—级—别—...+—网—页—N—级—别—
网页2链出个数
网页N链出个数
9.7网络信息检索的研究热点
• 9.7.1 海量数据的存储与处理
A
Group
B
Group
C
Group
(1)海量数据的 磁盘列存储技术
(随便告诉大家元数据是元数据是一种二进制信息,用以对存储在公共语言 运行库可移植可执行文件 (PE) 或存储在内存中的程序进行描述)
MARC元数据的概念 MARC元数据:是利用计算机识读和处理的目录。MARC主要用
于图书馆管理软件中,采访、编目、典藏等环节都有重要的 作用,也方便馆际之间的数据交流,是统一文献著录规范。 我简练点叫它“英文机读目录格式” ,如果是“中国范”的 CNMARC就叫“中国机读目录格式”
因特网信息检索的方法、策略与技巧
索” 只支持 用英 语检 索 。
新 闻组搜 索 。 o g 链 接 了全世 界所 有 G ol e
用户 注意 它 。 基于 目录 的信 息查 询 是基 于 网
上 目录一 般 以主题 方式 组织 , 大主 题下 又包 括 若 干 小 主 题 , 户 只 要 一 层 一 层 地 查 下 用
W . ad . a w w a cm、易 网Ot / d ap / t:
w l 16cm wq 2 . ) a 0 t /w  ̄ p u d c) a p / w e k eu n雅虎 t: 、
文本 的信 息查 询 、 基于 目录 的信 息 查询 和基
ห้องสมุดไป่ตู้
内提 供 相 对 全 面 、准 确 的信 息 。 这类 搜 索
引 擎 的 代 表 是 wec we(t :/ / b m l ht r p
w . e ca lrcn) w w brwe. o 。
常用
的廷蜡蝙
G g 0t/w w og cm、 o l ap /w gol a) e t: e
于搜 索引 擎的信 息查 询 。 基于超 文 本 的信息 查 询也 称浏 览 , 在利 用浏 览法 进行 检索 时 , 用户 只需 以 一个 节点 作 为入 口, 据 该节 点 的 文 本 内容 , 入 其 根 嵌
中链 接指 向 的主题 , 后选 择 自己感 兴 趣 的 然
中 国 O t/w yh o a e/ 搜 狐 O t / ap /  ̄ a o c m n) t: 、 ap / t:
著 名新 闻 网站 , 只要 输 入 检 索 词 ,og 就 G ol e
会 迅 速在 这 些 网站 里 查 找 ; 外 , 闻组 还 此 新
第三节课 第二章 文献检索原理与方法
思考题
1.《中国图书法》(简称《中图法》)将图书分为() A. 5大部类,22个大类 B. 5大部类,26个大类 C. 6大部类,22个大类 D. 6大部类,26个大类 2.《中国图书法》(简称《中图法》)是我国常用的分类法,要 检索农业方面的图书,需要在( )类目下查找。 A. S类目 B. Q类目 C. T类目 D. R类目
第一步,《全国新书目》的新书是安排在"新书视窗"专栏,在 2000年第3期《全国新书目》的目录中寻找到"新书视窗"专栏, 在第41~77页。 第二步,在第41~77页的"新书视窗"专栏里,我们可以看到, 该专栏是按照出版社的顺序排列的。高等教育出版社在第45页, 广东经济出版社第46页,教育科学出版社在第52页。 第三步,在第45、46、52页,你可以看到这几个出版社最 近所出版的新书目录。 如广东经济出版社的目录中有以下记载: 知识经济与改革创新 黄铁苗主编 2000 20cm 25.00元 本书围绕改革开放中的热点、难点问题进行探索,具体内容 包括:所有制问财政金融问题、农村经济问题、就业问题、地方 经济问题和其他问题。
2.检索工具-类型
目录 (bibliography,catalogue) 文摘(abstract) 索引(index)
2.1 目录
目录是一批相关文献信息的著录集合,是以报道文献 出版信息为主要功能的工具。 特点:以单位出版物为著录对象,反映馆藏情况,主 要揭示文献外部特征 目录的著录项目:出版名称、责任者、出版项和稽核 项 目录的类型:《全国总书目》《全国新书目》《全国 西文期刊联合目录》
主题词法与分类法的比较
主题词法 分类法
2-2(1)因特网信息的查找
全文搜索引擎
• 全文搜索引擎是名副其实的搜索引擎,国外代表 全文搜索引擎是名副其实的搜索引擎, 有G索。它们从互联网提取各个网站的信息( 搜索。它们从互联网提取各个网站的信息(以网页 文字为主),建立起数据库,并能检索与用户查询 文字为主),建立起数据库, ),建立起数据库 条件相匹配的记录,按一定的排列顺序返回结果。 条件相匹配的记录,按一定的排列顺序返回结果。
练习
用关键词查找的方法查找: 用关键词查找的方法查找: ⑴曹操的功与过 ⑵西游记中的火焰山是今天的什么地方 课本后面的条形码前的ISBN代表什么 ⑶课本后面的条形码前的 代表什么 生命在于运动” ⑷ “生命在于运动”,是哪位法国著名思想家的名 言 ⑸计算机病毒知识 ⑹猜谜语:眼皮上落着一只苍蝇。(打一古人名) 猜谜语:眼皮上落着一只苍蝇。(打一古人名) 。(打一古人名
目录搜索引擎
• 也称分类搜索 • 将收取到的各个网站(网页)的信息按照 将收取到的各个网站(网页) 目录分类, 目录分类,建立索引数据库供人们分类查 找 • 代表网站:搜狐() 、 代表网站:搜狐( ) 新浪( )、雅虎 新浪( )、雅虎 ()等 )
主要搜索引擎比较
全文搜索引擎
自动索引软件来发现 使用自动索引软件来发现、 使用自动索引软件来发现、收集并标引 网页,建立数据库。它以Web形式提供 网页,建立数据库。它以 形式提供 给用户一个检索界面, 给用户一个检索界面,供用户输入检索 关键词、词组或短语等检索项, 关键词、词组或短语等检索项,以其特 定的检索算法代替用户在其数据库中找 出相关记录,按相关度排序输出。 出相关记录,按相关度排序输出。
“天子冢,水声台阶”之谜 天子冢,水声台阶” 天子冢
网络信息检索的方法
分类
4.1因特网上的信息检索
元元搜搜索索引引擎擎
可选择多个搜索引擎进行信息检索、 得可到选的择结多果个数搜少索,引没擎有进自行己信的息数检据索库 必必应应cnc.bni.nbgin.cgo.cmom
因特网上信息检索工具的使用
到word文档中,以“腾冲”命名保存在桌面。
4.1 因特网上的信息检索
情景导入
何为5G?
网络查天气
方信息检索工具的类型与特点
阅读p45-47“4.1.1 检索工具的类型与特点”,讨论检索工具的类 型、特点填写下表。
必应/
搜索引擎工作原理(全文搜索引擎)
当用户输入关键词进行搜 索时,搜索引擎就会从数 据库中调出相关网页,相 关度越高,排名越靠前
搜索引擎派出 “蜘蛛”访问网
页
根据网页内容提取关键字、 建立网页索引数据库
D、响应用户查询
2、下列关于搜索引擎的说法,错误的是( ) A 按照分类目录进行检索的是目录类搜索引擎 B 搜索引擎中的“蜘蛛”程序会修改网页中的信息 C 在搜索引擎数据库中存放的主要是网页索引 D 使用搜索引擎时,使用具有代表性的关键词将使结果更精准
3、目录搜索引擎的信息收集方式主要是( ) A 主动派出“蜘蛛”程序在网络中搜集网页信息,建立索引数据库 B 采用人工方式采集和存储网络信息,依靠手工为每个网站确定标题并给出
大概描述,建立关键词索引,将其放入相应的类目录体系中 C 没有自己的数据库和搜索器,只是把多个具有独立功能的搜索引擎组合起
来 D 通过内容对图形、图像、音频、视频、动画等多媒体信息进行检索
Байду номын сангаас
练一练
使用信息检索工具在因特网中搜索 “中国新四大发明” 使用Word进行编辑 排版,命名为你自己的名字,保存在 桌面上。
信息检索
《中国图书分类法》(台湾) 中国图书分类法》 台湾)
000 100 200 300 400 600 700 800 900 310 总论 320 哲学 330 宗教 340 自然科学 350 应用科学 360 历史、地理 370 历史、地理 380 语文 390 美术 数学 天文 物理 化学 地质 410 生物、博物 420 植物 430 动物 440 人类学 450 460 470 480 490 441 442 443 444 445 446 447 448 449 土木工程 道路工程 水利工程 船舶工程 市政工程 机械工程 陆空交通 电气工程 核子工程
《中图法》等级分类体系
H11 H12 H111 H112 H113 H121 H122 H123 H124 下位类
H1 H2 H3 R1
H13 H14
上位类
等级体系分类法
《中图法》结构示意图
基本大类 简表 详表
A 马克思主义、列宁主义 毛泽东思想、 邓小平理论 B 哲学、宗教 C 社会科学总论 D 政治、法律 E 军事 F 经济 G 文化、科学、教育、体育 H 语言、文字 I 文学 J 艺术 K 历史、地理 N 自然科学总论 O 数理科学和化学 P 天文学、地球科学 Q 生物科学 R 医药、卫生 U1 综合运输 S 农业科学 U2 铁路运输 T 工业技术 U4 公路运输 U 交通运输 U6 水路运输 V 航空、航天 [U8] 航空运输 X 环境科学、安全科学 Z 综合性图书
手工检索
数据信息和事实信息检索是确定性的检索, 检索结果可以直接利用,一般通过三次信息 源来完成。 文献信息检索是一种相关性检索,检索结果 是文献信息的线索,一般通过二次信息来实 现。 全文数据库是一次信息和二次信息的综合体 。在检索结果中,有直接的全文链接。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
搜索 蜘蛛程序自动 用关键字 引擎 搜索后产生索 或关键字 引数据库 表达式检 索
网页
较短
较大
量大
元搜 本身一般不带 用关键字 数据库 索引 或关键字 擎 表达式检 索
网页
较短 较大 量大 命中率可 (视被引 (视被引 (视被引 能稍高 用的搜索 用的搜索 用的搜索 引擎) 引擎) 引擎)
搜索引擎的发展趋势
适合查找综合性、概括性的主题概念,或对检索准 确度要求较高的课题。 专题指南的局限性在于其信息更新速度慢,跟不上 网络信息的发展。
数据库的规模相对较小,收录的网页数量和深度都 相对不足,用户很难检索到较专深的信息,比较容 易遗漏交叉相关信息 。
全文搜索引擎(一)
使用自动索引软件来发现、收集并标引网页, 建立数据库。它的Spider自动在因特网上漫游, 不断搜集各类新网址及网页,形成数以千万乃 至亿万条记录的数据库;它以Web形式提供给 用户一个检索界面,供用户输入检索关键词、 词组或短语等检索项,以其特定的检索算法代
如:雅虎、/ 新浪、 /
搜狐、 /
网易、 /
目录索引类搜索引擎二
目录索引类搜索引擎特点
比较适合用户进行笼统或较笼统的主题浏览和检索。
查准率较高,查全率较低。
C.爬虫 D.CuteFTP
4.下列不属于元搜索引擎特点的是( B.可同时搜索多个数据库 C.一般支持AND、OR、NOT等操作 D.一般只使用简单、直接的搜索策略
)。
A.搜索时,用户必须多次提交搜索请求
判断题
1.常用的两种搜索引擎是目录类搜索引擎和元搜索引擎。 ( ) 2.为了适应不同搜索群体的需要,许多搜索引擎一般都提 供多语种检索功能。( )
各个网站上,把网页抓下来, 并顺着上面的链接,持续不断 地抓取网页。如“网络机器 人”、“爬虫”、“蜘蛛”。
检索器
索引器:把搜索器抓来的网
索引器 页进行分析,按照关键ቤተ መጻሕፍቲ ባይዱ句进 行索引,并存入服务器的数据 库中。
检索器:面向用户,接收用
搜索器 户提交的查询字串,在索引数 据库中查询,并将结果反馈给 用户。
缺点:一般支持AND、OR、NOT等操作, 一般只使用简单、直接的搜索策略,并且 检索速度也慢。
归纳三种工具的各自特点
分 类 数据库 检索方法 检索结果 数据库更 数据库规 形式 新周期 模
网站 很长 较小
收集 信息
很有限
结果 信息
直接链接 到目标网 站 可能很多
目录 人工或半人工 逐级目录 检索 整理 检索
7.网页快照是搜索引擎把索引的网页缓存在服 务器中,这样即使链接死了,用户也可以从搜 索服务器中取出这个被存储的“快照网页”。 ( )
3 .通过专业搜索引擎获得的信息资源一般来说比较权威。 ( )
4.元搜索引擎的搜索范围可以是多个搜索引擎的数据库, 而不局限于某一搜索引擎的数据库内。( )
5.元搜索引擎通常只使用高级、间接的搜索策 略,检索速度快。( )
6.垂直搜索引擎只面向某一特定的领域,专注 于自己的特长和核心技术,能够保证对该领域 信息的完全收录和及时更新。( )
课堂作业
课本P51按要求填写完整
选择题
1.目录索引类搜索引擎一般采用什么方式采 集和存储信息( )。
A.人工方式
C.关键字检索
B.蜘蛛程序
D.检索工具
2.最早的FTP搜索引擎是基于文本显示的列不属于搜索引擎中“搜索器”工作程 序的是( )。 A.网络机器人 B.蜘蛛
目录索引类搜索引擎一
一般采用人工方式采集和存储网络信息,是由专业人员 在广泛搜集网络资源及有关数据,进行加工整理,按照
某种主题分类体系编制的一种可供检索的等级结构式目
录。 在每个目录大类及其子类下提供相应的网络资源站点地 址,并附有简单的介绍。用户能在目录体系的引导下, 通过浏览目录,逐级查找,检索自己感兴趣的主题。
2、专业垂直搜索引擎
专业垂直类搜索引擎只面向某一个特定的领域,专注于 自己的特长和核心技术,能够保证对该领域信息的完全 收录和及时更新。
信息检索工具的工作原理
搜索引擎是如何搜索信息的呢?
你听说过“网络机器人”、“爬虫”、“蜘蛛” 吗?
他们只是搜索引擎的一个部分,叫“搜索器”
三部分的作用
1.搜索器:负责定期地自动到各个网站上, 把网页抓下来,并顺着页面上的链接,持 续不断地抓取网页。 2.索引器:把搜索器抓来的网页进行分析, 按照关键词进行索引,并存入服务器的数 据库中(索引数据库)。
按其工作方式划分:
目录索引类搜索引擎:分类目录检索方法 如:雅虎、新浪、搜狐、网易等 全文搜索索引擎:
如: 多个: 万维元搜索引擎: / Fisher中文元搜索引擎:/fish
适合于检索特定的信息及较为专、深、具体或类属 不明确的课题。
一次检索输出的结果可能很多,但当中包含了许多 重复、虚假的信息 ,因此要过滤一大堆与检索主题 互不相干的检索结果。
元搜索引擎一
元搜索引擎是一种调用其他多个独立 搜索引擎的引擎,是对多个独立搜索 引擎的整合、调用、控制和优化,能 方便地检索多个搜索引擎,扩大检索 范围,提高检索的全面性。
3.检索器:面向用户,接受用户提交的查 询字串,在索引数据库中查询,并将查询 结果反馈给用户。
全文搜索引擎的工作步骤:
3、从搜引数据库中 检索结果并排序 4、以网页形式返回 给用户
2、建立索引数据 库
1、从网上搜索各种 网页信息
1、全文搜索引擎的工作原理
全文搜索引擎: 搜索器
索引器 检索器
搜索器:负责定期地自动到
替用户在其数据库中找出相关记录,按相关度
排序输出。 如:google、、北大天网等全文搜索引擎(二)
主页上有 醒目的检 索框,输 入关键词 检索
全文搜索引擎特点
收录、加工信息的范围广、速度快,能及时地提供 新增信息给用户。 每个搜索引擎都提供了多种检索功能 ,有利于提高 检索效率。
第四章 4.1因特网信息资源检索
本节课主要内容
主要学习各种搜索引擎及其发展趋势,并 在此基础上进一步分析了搜索引擎的工作 原理。
•4.1.1 检索工具的类型与特点 P45 •.4.1.2 信息检索工具的工作原理和发 展趋势 P47
教学要求
1、了解因特网上目录检索、全文检索搜索引 擎和元搜索引擎三种类型信息检索工具的特 点。 2、了解信息检索工具产生的背景、工作原理 和发展趋势。 3、知道常用中文信息搜索网站的功能特点与 信息检索中常用的策略和技巧。 4、能根据需要熟练地选用恰当的检索工具和 方法来获取信息。
1、多媒体信息检索
传统的多媒体数据库中,除了文本和数字还包括图形、 图象、声音、视频、动画等各种媒体组合。但多媒体信 息具有丰富的内涵,如:图象的颜色、纹理、形状,动 画中的运动、声音和音调等。例如歌曲的旋律、音调、 音质等难以用文字描述。这正是基于内容的音频检索需 要研究和解决的问题,以期达到更深的检索层次和更好 的检索效果。
2、目录搜索引擎的工作原理: 目录索引类搜索引擎一般采用人工方 式采集的存储网络信息,依靠手工为每 个网站确定 一个标题,并给出大概的描 述,建立关键字索引,将其放入相应的 类目体系中。
1、总目录
2、专题目录
•总目录——专题目录——链接——网站
3、链接
利用困特网进行信息资源检索时,如 果想大致了解某一个领域的信息资源,可 以使用目录索引类搜索引擎;如果需要检 索的信息资源目标比较明确,则可以根据 信息资源的类型选择搜索工具。
搜索引擎的作用
搜索引擎是一种用于帮助因特网用户查 询信息的搜索工具,它以一定的策略在 因特网中搜集、发现信息,对信息进行 理解、提取、组织和处理,并为用户提 供检索服务,从而起到信息导航目的。
•/ •/ •/ •/ •/ •/
实例讲解:
工作原理分析:
“蜘蛛”程序“爬”到“爱自由旅游网上,抓到 了 /travel_guide/a01/1_0_0 _1_0_0.html页面,并从全文中抽取一系列的 关键字,包括“北京”、“概况”等等,并把 网页网址与这些关键字关联,利用索器”从索 引数据库中搜索,并将搜索到的结果展示在页 面上.
常用的元搜索引擎 1、万维元搜索引擎: / 2、Fisher中文元搜索引擎: /fish 3、/
元搜索引擎二
元搜索引擎的特点
元搜索引擎在搜索的时候,用户只需提交 一次搜索请求,而且可以同时搜索多个数 据库,并根据多个搜索引擎的检索结果进 行二次加工,如对检索结果进行重排和标 明检索结果来源等,输出给用户。