图书馆学信息检索技术
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Hotbot的Field Searching
• feature:acrobat Detects Acrobat files • feature:applet Detects embedded Java applets • feature:audio Detects presence of several audio formats • feature:flash Detects the Flash plugin in HTML • feature:image Detects presence of gif, jpg • feature:shockwave Detects Shockwave files • feature:table Detects the use of tables in HTML • feature:video Detects a range of video formats
单自然语言提问的方式输入检索式。目前搜索引擎 宣称的自然语言检索功能多指这种简单提问式检索 技术。
eXcite的Zoom In检索助手实例
(2)自然语言检索技术
• 自然语言检索(Natural Language Searching) 从技术上讲:将自然语言处理技术应用于信息
检索系统的信息组织、标引与输出。 就用户而言:使用自然语言(语句)作为输入的
检索方式。 系统在“用户-检索接口”层面上支持用户以简
引数据库。
(2)布尔检索
• 布尔检索(Boolean Searching)
布尔检索是保证多个关键词检索正确操作的基本规则。 – AND和NOT算符,提高专指度和缩小检索范围。 – OR,扩大检索范围。
(windows AND 98 AND bugs) ANDNOT(2000 OR 3.1)
(3)算术检索
网络信息检索技术
搜索引Leabharlann Baidu检索功能
1.基本检索功能 2.特殊检索功能 3.高级检索功能 4.系统组织和检索的流行技术
1.一般检索功能
(1)关键词检索 (2)布尔检索 (3)算术检索 (4)词组检索 (5)字段限制检索 (6)截词检索
(1)关键词检索
• 关键词检索(Keyword Searching) 基础:是对网页信息进行自动索引所建立的索
(3)相关检索
“Related searches”。
(4)示例检索
• 示例检索(Query-by-Example)
“Related pages”;”More Like This”。
3.高级检索功能
(1)基于概念的检索技术 (2)自然语言检索技术 (3)多语种检索
(1)基于概念的检索技术
• 概念检索(Concept-based Searching)
2.特殊检索技术
(1)递进检索 (2)目录内检索 (3)相关检索 (4)示例检索
(1)递进检索
递进检索,也称为二次检索,即在上一次的结 果中作进一步检索。
“search (within) these results”。
(2)目录内检索
目录内检索功能,是混合式搜索引擎中分类 主题目录浏览与关键词检索结合的体现。
“…”,通常用双引号括起,当作一个独立运算单元,进 行严格匹配,以提高检索的精度和准确度。有时也会漏检 一些相关资源。
不仅规定了检索式中各个具体检索词及其相互间的逻辑 关系,而且规定了检索词之间的临近位置关系。
它实现了利用检索词的上下文对检索进行控制,在一定 程度上缓解了自然语言语词模糊的弊病。
E.g.”great barrier reef”。
(6)截词检索
• 截词检索(Truncation Searching)
E.g.检索式 theat* , 表示查找theatre和 theater。
Google不支持截词符和通配符检索。 – No truncation is available nor is there any
automatic plural searching, word stemming, or other related features.
概念检索,基于概念的检索,该方法利用了词 条在概念上的相关性,因此可以检索出那些并不显 示地包含用户指定的词却包含其同义词或者下位词 的文档。
与概念检索技术相对而言的关键词检索,即检 索出那些显示地包含用户指定词条的文档,它是一 种基于物理“字”的检索技术。
概念推理网络模型
概念/词条关系的获得方式--基于词表
• 算术检索(Algebric Searching),又称加权检索
是对布尔检索的改进,可在既保障检全率,又保障检准 率的前提下,按相关性排序输出检索结果。
“+”(must contain);“-”(must not contain);不加 符号(should contain)。
(4)词组检索
• 词组检索(proximity Searching),也称 为短语检索,字符串检索
(5)字段限制检索
• 字段限制检索(Field Limiting Searching), 也称限定检索。
• 可缩小检索范围,可减少不需要信息的输出。 • E.g. title:windows 98 bugs
字段限制类型:
标题、网页文字、日期、语言、特定站点。 典型网络检索特征的字段限制类型 :
–主机名限制( host: notess.com ); –超链限制( anchor:"search engine showdown" ); –域名限制(domain:edu); –URL限制(url:searchenginewatch); –Link限制( link:notess.com ); –新闻组限制(newsgroups:comp)。
基于词表(thesaurus)。手工建立辞典来存储 概念层次及词条之间的交叉联系,该工作通常有领 域专家来完成。如,UMLS(医学搜索引擎)。
E.g.
– SOSIG社会科学专业搜索引擎中使用的Hasset主题 词表。
– eXcite的Zoom In概念检索助手。它通过同义替换及 区分对用户检索策略的构造提出建议,精确检索条件, 从而得到相对全面、准确的检索结果。