信息检索课程重点整理
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
信息检索课程重点整理
一、信息概念:物质存在方式和运动状态的反应,在发生源和吸收源之间,当发生源发出的信号被吸收源所理解,信号就成为信息。特征:预先性、实用性、时效性、可传递性、共享性。
传递渠道:1、非正式过程(表现为个人的行为特征。对话、通信、演讲、授课);
2、正式过程(表现为文献流通。借助文献系统进行正式交流)。
文献概念:大凡人类的知识用文字、图形、符号、声频、视频的手段记录下来的东西,统统可称为文献。也可以称为固化在一定载体上的知识。必须含有知识、记录方式、载体。
资料概念:固化在一定的实物或载体上的知识。
二、信息的类型:
1、按信息的加工层次划分:一次信息(原始文献)、二次信息(检索工具)、三次信息(参考性文献)。P4
2、按信息载体的出版编辑特点划分:十二大文献源。P5
3、按信息载体的物理类型划分:印刷型、缩微型、电子型、声像型。P6
4、按信息的性质划分:一、自然信息(自然界发出的信息,以自然物为载体);二、社会信息(经过人类利用语言、文字、符号、图像等方式加工过的自然信息)。
5、按信息所表征的服务对象划分:经济信息、科技信息、教育信息、军事信息、商业信息、金融信息、综合信息。
三、信息检索的定义及类型p2
信息检索,就是从大量的文献中查寻与信息提问所指定的课题(对象)有关的文献,或者是包含用户所需事实与消息的文献的过程。它包括三个方面:数据检索、事实检索、文献检索。三者中以文献检索为主。数据和事实检索是检索出包含在文献中的具体情报;文献检索则是要检索出包含所需要情报的文献。
四、文献检索的定义及类型p3
定义:1、检索系统的建立及检索工具的组织和积累;2、文献的查寻,利用检索工具检出与课题相关的文献。
类型:直接检索:是从通过阅读原始文献直接获取所需信息;快捷、方便;漏查率高。
间接检索:是通过检索工具的指导再查找原始文献而获取所需信息。系统、全面:滞后。
五、检索工具定义、具备条件及类型
检索工具是按一定的学科、主题等进行搜集整理并给予文献的标志,是及时报道的二次文献,具有报道、存贮、检索的功能。
具备条件:(1)对所收录的文献的各种特征(包括外部特征和内容特征)要有详细的描述。(2)每条描述记录(即款目)都标明有可供检索用的标识。(3)全部描述记录科学地组织成一个有机的整体。(4)具有多种必要的检索手段。
类型:按检索方法划分:手工检索工具、机械检索工具。
按报道的学科范围:综合性检索工具、专业性检索工具。
按出版形式:全面性检索工具、单一性检索工具。
著录的形式:目录、题录、文摘、索引。P9
第二章、网络
一、网络基本术语
TCP(Transmission Control Protocol,传输控制协议)将文本分成包(数据包) ,再加上特别信息,使数据可以准确无误的地发送到接收方的计算机上。
IP(Internet Protocol,网际协议)在数据包上标上特别的信息(接收主机的IP地址),到目的地后,系统自动将IP地址去掉,再利用TCP检查数据是否完整,如有丢损则要求发送方重新发送被丢损的数据包。
POP3 (Post Office Protocol) ,表示邮局协议。允许用户访问接收邮件的主机,并取走存放在上面的邮件。
POP邮件服务器
FTP是File Transfer Protocol(文件传输协议)的缩写,它允许两台因特网主机相互传送/拷贝文件,可以把自己计算机上的某个文件拷贝到网络上的某台计算机上,或是把网络上某台计算机上的文件拷贝自己计算机上。
HTTP:超文本传输协议。
IP地址:在Internet上的每一台计算机主机都必须有唯一的“地址”,以保证Internet 上所有的计算机和网络能够被互相传送信息而不被混淆,以数字表示,称为IP地址。为确保IP地址在整个网上的唯一性,该地址一般由Internet网络信息中心统一分配。
域名系统DNS,按域名系统定义的名字称为域名。域名和IP地址的联系:前者是名称,面对用户操作;后者是主机地址,主要供电脑识别用的,IP 地址共有32位,这么多数字不便于我们记忆,就对应取了域名便于人们的使用,域名和IP地址间是一一对应的,可通过域名服务器进行转换。P54
HTML (超文本标记语言)
HTTP (超文本传输协议)
URL(统一资源定位器)格式:协议: //主机地址[: 端口号]/子目录/文档名
EMAIL地址组成:用户名@邮件服务器域名。
FTP 是TCP/IP 协议组中的协议之一,简单的说,FTP就是完成两台计算机之间的拷贝,从远程计算机拷贝文件至自己的计算机上,称之为“下载(download)”文件。若将文件从自己计算机中拷贝至远程计算机上,则称之为“上载(upload)”文件。文件传输工具。
二、搜索引擎的分类
按检索机制分:分类目录式搜索引擎、全文搜索引擎、元搜索引擎
按搜索的内容分:综合性搜索引擎、专门搜索引擎
三、搜索引擎的工作原理
搜索引擎是指通过“网络机器人”(网络信息挖掘系统)在网际某一空间、某一领域中寻找和发现有用或相关的信息,并在此基础上建立检索数据库,通过简单友好的界面提供给用户查询的工具。
三大功能:在因特网上漫游收集信息(人工的,自动的两种);对收集到的信息标引并建立或更新数据库;提供检索服务接待用户访问。P65
第三章、图书
索引语言定义与类型:
作为一种通讯工具,索引需要有一种用来描述文献特征的检索标识,以将文献信息的产生者、加工者、检索者在文献特征的识别上彼此联系起来,以便取得能共同理解、实现思想交流的语言,这种语言就叫索引语言。
按结构原理分:
分类语言:体系分类语言、组配分类语言
描述语言:标题词叙词单元词关键词(非规范化语言)