信息资源检索
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2.我国的因特网
1986年—1993年小范围的E-MAIL服务 1994进入全功能服务阶段 我国四大互联网: 中国科技网(CSTNET) 中国公用计算机互联网(CHINANET) 中国教育和科研计算机网(CERNET) 中国金桥信息网(CHINAGBNET) 最新统计:892万台计算机;2250万用 户
6.HTTP(Hypertext Transfer Protocol): 超文本传输协议。该协议经 常用来在网络上传送 WEB 页。 当用户以 http:// 开始一个链 接的名字时,是告诉浏览器去 访问使用 HTTP 的 WEB 页。
7.URL(Uniform Resource Locator): 统一资源定位器。是 WEB 的地址 编码,WEB 上所有能访问的资源都有一 个唯一的 URL 。URL 包括:所用的传 输协议,服务器名称、文件的完整路径。 例如:在浏览器 URL 处键入 http://www.wst.net.cn 就可以访问无锡 信息港(无锡阿福台)了。
5.电子邮件(E-MAIL): 这是一种最常用的 INTERNET 功能, 也是一种最便捷的利用计算机和通信网 络传递信息的现代化手段。电子邮件的 传递由 SMTP 协议来完成,网络用户可 以通过 INTERNET 与全世界的INTERNET 用户收发信件。电子邮件的内容,不仅 仅包含文字,还可以包含图像、声音, 动画等多媒体信息.
考虑全文、作者、出版物及被引情况。采取 自动分析与抽取引文的方法,因此也包括那 些本身不在网上的图书或其他出版物中的论 文。 检索结果按相关度排序,文章的作者、出版 者知名度和文献引用量等也都是 GoogleScholar对其进行排序的重要依据,该 篇文章或该本书的作者越出名,其学术专业 的价值地位就越高,在排序的时候就越靠前。
主要功能
查找手机号码属地 • 直接在检索词输入框输入手机号码即可。 检索特定类型的文件 • 如:搜索引擎 filetype:ppt filetype:ppt就可 以检索到有关搜索引擎的教学课件。filetype后 面可以跟文件类型的扩展名,如:doc、pdf、 swf、xls、rtf、ps等
(一)概念
六、搜索引擎
搜索引擎(Search Engine)是通过因特网查询网
络信息的重要工具。
与我们前面讲述的手工检索工具书一样,搜索引擎
实际上是一种网络资源的检索工具,是一种网页网址
检索系统。
有的提供分类和关键词检索途径,有的仅提供关键
词检索途径。
Hale Waihona Puke Baidu
(二)搜索引擎的工作原理
搜索引擎的原理可以看做三步: 1.从互联网上抓取网页
是由许多不同类型、规模的计 算机网络组成的全球性计算机 互联网。 是庞大的信息和服务基地。 面向公众的社会化组织。
二. 因特网的发展史
1.国际因特网的发展
• 1969年ARPANET; • 1986年NSFNET(National Science Foundation Network);取代 RPANET • 因特网II计划; 新一代因特网计划(NGI计划)
8.IP地址(INTERNET PROTOCOL):
互联网络协议地址。INTERNET 上每 台主机都有一个唯一的地址(或者叫名 字),它是数字形式的一组地址,例如: 202.195.149.100,它是计算机在网络上 的数字标识,一般分为两部分:网络地 址(NETID)、主机地址(HOSTID)。IP 地址分为五类:A、B、C、D、E,常用的 是 B、C 两类。
1984年起采用字符型的IP地址, 即域名(DN) 域名的地址格式为: lib. shmu. edu. cn
主机名 机构名 网络类型 最高域名
9.运作的基本模式——客户机/服务器 系统(Client/Server System)
服务器:是提供资源的程序和计算机 客户机:是使用资源的程序和计算机
2.服务器(SERVER): 一台功能强大的计算机,有 较高的速度、较大的存储空间以 及断电保护措施等。它能够在网 络中为用户提供通讯、文件共享、 网络打印等功能。
3.WWW (World Wide Web):
WWW 是一个基于超文本方式的信息检索工具, 它为用户提供了一种友好的信息查询接口,是 INTERNET 上的信息服务系统。它把 INTERNET 上不同地点的相关信息聚集起来,通过 WWW 浏 览器(又叫做 WEB 浏览器)检索它们,无论用 户所需的信息在什么地方,只要浏览器为用户检 索到之后,就可以将这些信息(文字、图片、动 画、声音等)“提取”到用户的计算机屏幕上。 WWW 采用了超文本链接,你只需轻轻点击鼠标, 就可以很方便地从一个信息页转移到另一个信息 页
(Internet)网络信息资源检索
本章内容
一、网络信息资源 二、因特网基础知识 (一)因特网的概念 (二)因特网的发展史 三、Internet三大基本应用 四、Internet需要具备三方面的条件 五、Internet中的几个基本概念和术语 六、搜索引擎
一. 因特网的概念
网站排名
Google检索到的网站排名是按照网站的
被链接数量由高到低排列,不存在人为 的干预因素。因此最先出现的往往都是
质量较高的网站。
信息对象选择
检索提问 输入框
语种选择
检索按钮
主要功能
自动使用“AND”进行查询
• 输入多个关键词,只要加空格就可以,不需要在 关键词之间加上“AND”或“+”。 例:超声刀治疗肿瘤,只需在搜索框中输入
学术搜索 http://scholar.google.com/
2)国内: 百度 www.baidu.com
百度于1999年成立于美国硅谷,起名源于 “众里寻她千百度”。2000年1月,百度公 司在中国成立了她的全资子公司百度网络技 术(北京)有限公司,随后于同年10月成立 了深圳分公司,2001年6月又在上海成立了上 海办事处。 百度是国内最大的商业化全文搜索引擎,占 国内80%的市场份额。其功能完备,搜索精 度高,除数据库的规模及部分特殊搜索功能 外,其他方面可与当前的搜索引擎业界领头 人物Google相媲美,在中文搜索支持方面有 些地方甚至超过了Google,是目前国内技术 水平最高的搜索引擎。
每个搜索引擎都派出绰号为“蜘蛛 (spider)”或“机 器人 (robots)”的网页搜索软件在各网址中爬行 ,访问 网络中公开区域的每一个站点并记录其网址 ,从而创 建出一个详尽的网络目录。
2.建立索引数据库
将信息进行分类整理 ,建立搜索引擎数据库。
3.在索引数据库中搜索排序
每个搜索引擎都提供了一个良好的界面。
地址的标识技术——IP地址
唯一性 分为动态和固定两种 动态的:由Internet服务提供商(Internet Service Provider,ISP)提供。 固定的:由网管中心提供。 形式:四组小于256的十进制表示。如: 202.38.185.67表示北京邮电大学图书馆 技术部的一台主机。
上海信息交互网(SHIX)
1996年12月,上海在本地实现了互联互通。 2000年9月上海宽带信息交互中心基本框架 构成。加快上海本地和周边地区信息网络 之间的互访速度,提高信息网络的服务质 量。
三、Internet三大基本应用
1.远程登陆(TELNET) 2.电子邮件---发送或接收信息(EMAIL) 3.文件传输---通过文件传输协议 (FTP), 实现推拉式服务.
4.主页(HOMEPAGE ):
全称应该是 WWW 主页。它指的是 WWW 服务的起始装入信息页,是 WWW 用户可以 看见的第一信息界面,你连接到主页后,除 了可以直接在主页了解到主页制作者的一般 信息外,还可以可以又进入到另外的一个画 面再进一步地获取到更多的信息。也就通过 主页上定义的超级链(hyperlink)访问网页。
典型全文搜索引擎
国外 Google www.google.com 国内 百度 www.baidu.com 雅虎中国 http://www.yahoo.com.cn
典型全文搜索引擎
1)国外: Google www.google.com Google是由两位斯坦福大学的博士生 Larry Page 和 Sergey Brin 在 1998 年创立的。可以说是目 前世界上最大最全的搜索引擎,以搜索精度高、 速度快成为最受欢迎的搜索引擎,在搜索引擎市 场上居龙头宝座地位。 目前已经收集了超过30亿的网页,现在,Google 每天需要提供 1.5 亿次查询服务,而且每条搜索 所用时间通常不到半秒。
类似网页
• 如果您对某一网站的内容很感兴趣,但又嫌资 料不够,Google 会帮您找到其他与此网页网址 相关的类似资料的网站。
按链接搜索 • 有一些词后面加上冒号对 Google 具有特 殊的含义。其中的一个词是“link:”。例 如,“link:www.xcc.sc.cn”将找出所有 指向西昌学院主页的网页。不能将 link: 搜索与普通关键词搜索结合使用。
通信的保证机制——TCP/IP协议
Transmision Control Protocol/Internet Protocol
传输控制协议/交互网络协议 是保证各种不同类型的计算 机网络实现相互通信一套规则或协 议。 是因特网的基础和核心
常用网络类型代码: com 商业机构 mil 军事部门 edu 教育机构 net 网管组织 gov 政府部门 org 非营利组织 int 国际组织
高级检索
可直接输入拼音, Google会自动 提示最符合的中文关键词
本地搜索:http://bendi.google.com
Google的学术搜索
Google 学术搜索(scholar.google.com)是 目前规模最大的学术搜索引擎,几乎所有学 术期刊及有名的电子书都进入了它的索引, 当然Google 不提供下载,除非它本身就是免 费的。 通过GOOGLE Scholar检索期刊论文、学位论 文、图书、预印本、文摘、技术报告等学术 文献,文献源自学术出版物、专业学会、预 印本库、大学及网上学术论文。
主要功能
逻辑或用OR(大写的)
分别输入“鲁迅 or 周树人”和“鲁迅 OR 周树人”,所得到结果数量完全不同,因为 前者要求网页中必须同时有“鲁讯”和“周 树人”两个关键字,而后者则只要求其中之 一就满足条件了,当然出现的结果数量差异 就比较突出
• 逻辑“非”:用“-”表示, “-”号前必须 有空格。
(三)搜索引擎的分类
按检索机制分 全文搜索引擎 目录搜索引擎 元搜索引擎 按搜索的内容分 综合性搜索引擎 专门搜索引擎
(1)全文搜索引擎
它提供对关键词、主题词、或自然语言的查询。用 户在搜索框中输入检索词或检索表达式,搜索引擎 会自动排查相关词,并按相关词的相关程度的高低 排序加以链接。用户查到的是与你输入的关键词相 关的一个个网页的地址和一小段文字。 国内著名的有百度(Baidu),国外具代表性的 有Google、Fast/AllTheWeb、AltaVista、Inktomi 等。它们都是通过从互联网上提取的各个网站的信 息(以网页文字为主)而建立 。 优点: 信息量大、更新及时、毋需人工干预 缺点: 返回信息过多,有很多无关信息,需要用户进行 筛选。
四、Internet需要具备三方面的条件 1.方便客户端的访问——设置统一 浏览器(www 或称Web浏览器); 2.网上计算机都能通用——设置统一 标注语言(HTML超文本标注语言); (超文本语言——浏览器与服务器之 间的一种通讯协议) 3.全世界统一的页面指针——URL统 一资源定位格式。
五、Internet中的几个基本概念和术语 1.调制解调器(MODEM): 戏称“猫”,是上网必需的设备。 它可以将计算机的数字信号转换(调 制-Modulation)成模拟信号,通过 电话线路传送到另一台计算机(比如 服务器)上,接受端用它的 Modem 将 其还原(解调-demodulation)为计 算机能识别的数字信号,从而实现双 方的信息交换