信息检索与搜索引擎简介
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
信息检索技术
与搜索引擎简介
汇报人:计软件--Jenny
一、信息检索基Hale Waihona Puke Baidu知识
目 二、信息检索的手段与技术 录
三、搜索引擎相关技术介绍
一、信息检索基础知识
1.信息检索相关概念
信息检索(Information Retrieval) 是指信息按一定的方式组织起来,并根据信息用户的需要找 出有关的信息的过程和技术。
二、信息检索的手段与技术
1.信息检索的手段
(1)手工检索 (2)光盘检索 (3)联机检索 (4)网络检索——搜索引擎 概括起来分为手工检索和机械检索
二、信息检索的手段与技术
2.信息检索主要技术
布尔逻辑检索:
利用布尔逻辑算符进行检索词或代码的逻辑组配,是现代 信息检索系统中最常用的一种技术。常用的布尔逻辑算符有 三种,分别是逻辑或“OR”、逻辑与“AND”、逻辑非 “NOT”。
字段限定检索
字段限定检索是指限定检索词在数据库记录中的一个或几个 字段范围内查找的一种检索方法。在检索系统中,数据库设 置的可供检索的字段通常有两种:表达文献主题内容特征的 基本字段和表达文献外部特征的辅助字段。
二、信息检索的手段与技术
2.信息检索主要技术
加权检索
加权检索是某些检索系统中提供的一种定量检索技 术。加权检索的侧重点不在于判定检索词或字符串 是不是在数据库中存在、与别的检索词或字符串是 什么关系,而是在于判定检索词或字符串在满足检 索逻辑后对文献命中与否的影响程度。
截词检索:
用截断的词的一个局部进行的检索,即利用检索词的词干加 上截词符号去数据库中进行检索。凡是满足这个截词所有字 符(串)的记录,系统都为命中。截词检索是计算机检索系统 中应用非常普遍的一种技术。
二、信息检索的手段与技术
2.信息检索主要技术
位置检索
位置检索也叫全文检索、邻近检索。所谓全文检索,就是利 用记录中的自然语言进行检索,词与词之间的逻辑关系用位 置算符组配,对检索词之间的相对位置进行限制。这是一种 可以不依赖主题词表而直接使用自由词进行检索的技术方法。
聚类检索
聚类是把没有分类的事物,在不知道应分几类的情 况下,根据事物彼此不同的内在属性,将属性相似 的信息划分到同一类下面。
三、搜索引擎相关知识介绍
1.搜索引擎—信息检索的手段
信息检索不等于搜索引擎,但搜索引擎仍然是信息检索的 主要手段。 Internet搜索引擎 指自动从英特网搜集信息,经过一定整理以后,提供给用户 进行查询的系统。它只向用户提供源网页链接,不对原数据 进行任何加工、处理。 企业搜索引擎 是指定位于企业领域、满足企业信息需求的搜索引擎。与传 统Internet搜索相比,企业搜索只查询与企业相关的信息, 所有的信息都经过部分人工和技术上的审核,保证了信息的 真实性、准确性,安全性和商业价值。
一、信息检索的基础知识
2.信息检索的意义
信息检索是获取知识的捷径
信息检索是科学研究的向导
信息检索是终身教育的基础
一、信息检索的基础知识
2.信息检索的意义
实际案例:
美国在实施“阿波罗登月计划”中,对阿波罗飞 船的燃料箱进行压力实验时,发现甲醇会引起钛 应力腐蚀,为此付出了数百万美元来研究解决这 一问题,事后查明,早在十多年前,就有人研究 出来了,方法非常简单,只需在甲醇中加入2%的 水即可,检索这篇文献的时间是10多分钟。
三、搜索引擎相关知识介绍
2.搜索引擎的类型
A.目录式的搜索引擎(Directory)
它提供一种可检索和查询的等级式主题目录,以超文 本链接方式将不同学科、专业、行业和区域的信息按照分 类或主题目录的方式组织起来。著名的雅虎(Yahoo)就 是一个典型的目录式搜索引擎。
B.全文式搜索引擎
这类搜索引擎的数据库中保存着网站每一个网页的 全部内容,用户在检索框中输入需要查询的关键词或短 语,搜索引擎返回与输入关键词相关的一个个网页的地 址和一段文字。著名的搜索引擎百度、GOOGLE等就是全 文式搜索引擎。
三、搜索引擎相关知识介绍
2.搜索引擎的类型
C.综合式搜索引擎
此类搜索引擎既可以搜索网站也可搜索全文,用户输 入关键词后,可以选择是搜索网站还是网页,不同的选择 返回不同的结果。国内著名的新浪、搜狐(Sohu)就是此 类搜索引擎。
D.元搜索引擎(Meta-search Engine)
是在搜索引擎基础上建立的可以同时查询多个搜索引 擎的WWW站点。虽然元搜索引擎依赖其他独立搜索引擎而存 在,但它们集成了不同性能和不同风格的搜索引擎并发展 了一些新的查询功能。
信息源—信息检索的基础。信息源的构成 : (1) 按文献载体分--印刷型、缩微型、机读型、声像型 (2)加工程度分--一次信息、二次信息、三次信息 (3)按出版形式分--图书、报刊、研究报告、会议信息、专利 信息、统计数据、政府出版物、档案、学位论文、标准信 息(它们被认为是十大信息源,其中后8种被称为特种文 献)
与搜索引擎简介
汇报人:计软件--Jenny
一、信息检索基Hale Waihona Puke Baidu知识
目 二、信息检索的手段与技术 录
三、搜索引擎相关技术介绍
一、信息检索基础知识
1.信息检索相关概念
信息检索(Information Retrieval) 是指信息按一定的方式组织起来,并根据信息用户的需要找 出有关的信息的过程和技术。
二、信息检索的手段与技术
1.信息检索的手段
(1)手工检索 (2)光盘检索 (3)联机检索 (4)网络检索——搜索引擎 概括起来分为手工检索和机械检索
二、信息检索的手段与技术
2.信息检索主要技术
布尔逻辑检索:
利用布尔逻辑算符进行检索词或代码的逻辑组配,是现代 信息检索系统中最常用的一种技术。常用的布尔逻辑算符有 三种,分别是逻辑或“OR”、逻辑与“AND”、逻辑非 “NOT”。
字段限定检索
字段限定检索是指限定检索词在数据库记录中的一个或几个 字段范围内查找的一种检索方法。在检索系统中,数据库设 置的可供检索的字段通常有两种:表达文献主题内容特征的 基本字段和表达文献外部特征的辅助字段。
二、信息检索的手段与技术
2.信息检索主要技术
加权检索
加权检索是某些检索系统中提供的一种定量检索技 术。加权检索的侧重点不在于判定检索词或字符串 是不是在数据库中存在、与别的检索词或字符串是 什么关系,而是在于判定检索词或字符串在满足检 索逻辑后对文献命中与否的影响程度。
截词检索:
用截断的词的一个局部进行的检索,即利用检索词的词干加 上截词符号去数据库中进行检索。凡是满足这个截词所有字 符(串)的记录,系统都为命中。截词检索是计算机检索系统 中应用非常普遍的一种技术。
二、信息检索的手段与技术
2.信息检索主要技术
位置检索
位置检索也叫全文检索、邻近检索。所谓全文检索,就是利 用记录中的自然语言进行检索,词与词之间的逻辑关系用位 置算符组配,对检索词之间的相对位置进行限制。这是一种 可以不依赖主题词表而直接使用自由词进行检索的技术方法。
聚类检索
聚类是把没有分类的事物,在不知道应分几类的情 况下,根据事物彼此不同的内在属性,将属性相似 的信息划分到同一类下面。
三、搜索引擎相关知识介绍
1.搜索引擎—信息检索的手段
信息检索不等于搜索引擎,但搜索引擎仍然是信息检索的 主要手段。 Internet搜索引擎 指自动从英特网搜集信息,经过一定整理以后,提供给用户 进行查询的系统。它只向用户提供源网页链接,不对原数据 进行任何加工、处理。 企业搜索引擎 是指定位于企业领域、满足企业信息需求的搜索引擎。与传 统Internet搜索相比,企业搜索只查询与企业相关的信息, 所有的信息都经过部分人工和技术上的审核,保证了信息的 真实性、准确性,安全性和商业价值。
一、信息检索的基础知识
2.信息检索的意义
信息检索是获取知识的捷径
信息检索是科学研究的向导
信息检索是终身教育的基础
一、信息检索的基础知识
2.信息检索的意义
实际案例:
美国在实施“阿波罗登月计划”中,对阿波罗飞 船的燃料箱进行压力实验时,发现甲醇会引起钛 应力腐蚀,为此付出了数百万美元来研究解决这 一问题,事后查明,早在十多年前,就有人研究 出来了,方法非常简单,只需在甲醇中加入2%的 水即可,检索这篇文献的时间是10多分钟。
三、搜索引擎相关知识介绍
2.搜索引擎的类型
A.目录式的搜索引擎(Directory)
它提供一种可检索和查询的等级式主题目录,以超文 本链接方式将不同学科、专业、行业和区域的信息按照分 类或主题目录的方式组织起来。著名的雅虎(Yahoo)就 是一个典型的目录式搜索引擎。
B.全文式搜索引擎
这类搜索引擎的数据库中保存着网站每一个网页的 全部内容,用户在检索框中输入需要查询的关键词或短 语,搜索引擎返回与输入关键词相关的一个个网页的地 址和一段文字。著名的搜索引擎百度、GOOGLE等就是全 文式搜索引擎。
三、搜索引擎相关知识介绍
2.搜索引擎的类型
C.综合式搜索引擎
此类搜索引擎既可以搜索网站也可搜索全文,用户输 入关键词后,可以选择是搜索网站还是网页,不同的选择 返回不同的结果。国内著名的新浪、搜狐(Sohu)就是此 类搜索引擎。
D.元搜索引擎(Meta-search Engine)
是在搜索引擎基础上建立的可以同时查询多个搜索引 擎的WWW站点。虽然元搜索引擎依赖其他独立搜索引擎而存 在,但它们集成了不同性能和不同风格的搜索引擎并发展 了一些新的查询功能。
信息源—信息检索的基础。信息源的构成 : (1) 按文献载体分--印刷型、缩微型、机读型、声像型 (2)加工程度分--一次信息、二次信息、三次信息 (3)按出版形式分--图书、报刊、研究报告、会议信息、专利 信息、统计数据、政府出版物、档案、学位论文、标准信 息(它们被认为是十大信息源,其中后8种被称为特种文 献)