网络信息检索之搜索引擎
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
网络信息资源检索 - 搜索引擎 搜索引擎(Search Engine ) 演讲人:LiuLiqu
目录
1 引言
本文目录 结构
2 基于关键词的检索方式
3 检索工具—搜索引擎
4信息资 引言
1引言 引言
搜索引擎工作原理
基于关键词的 检索方式
2 目录
基于关键词的检索工具
基于关键词的 检索方式
基于关键词检索的特点 基于关键词检索的特点
提高关键词检索的效果
2.1基于关键词的检索工具 基于关键词的检索工具
基于关键词的检索工具中最具有代表性的就是搜索引擎 最续章节会讲到……
2.2基于关键词检索的特点 基于关键词检索的特点
•
• •
•
8.自然语言检索(natural language search) • 即直接采用自然语言中的字、词、句进行提问 一般口语一样。 式检索,同一般口语 一般口语 • 智能检索 • Could you please give me some information on English literature? • 我最近比较烦,应该怎么办? • 这种智能检索也是搜索引擎发展的趋势。
• 字段限制检索就是通过限制字段和限制字段的范围来缩小检索结 果,达到精确检索的方法。 • 检索方式主要有:限定字段检索和限定范围检索
(1)限定字段检索:将检索词限定在特定的字段中,一般有两种表达方式。 ①前缀方式,将检索词放在所限定的字段代码之后,如用在著者(AU)、刊名 (JN)、出版年(PY)、语种(LA)等字段后, 例如:AU=Evans,A., LA=Chinese ②后缀方式,将检索词放在字段代码之前,之后用字段限定符号:in 或/;如: Furniture/TI即家具一词出现在题目中。
Google( )
约有89%:被索引的网页、日常性再索引网页 约有11%:其它类型文档,其中PDF文档为主
检索界面
对Google的检索逻辑不太熟悉,高级搜索将会引导创建复杂的检索式 包含了可使用的所有检索方法:布尔检索,语言检索,域名检索,链 接检索等,同时还可以设置结果显示格式
•
(2)限定范围检索:是通过使用限定符来限制信息的检索范围,以达到 优化检索的方法。 不同的检索系统略有不同,常通过使用的有:“=、<= 、>=、<、>、:” 等。 表达式:字段名=(<= 、>=、<、>、)
•
•
• 例如: PY>=1995 即限定出版年份为1995及以后的文献; PY=1996:2005即1996年至2005年的文章
西文搜索引擎 • • • • • • • • http://www.google.com http://www.infoseek.com http://www.excite.com http://www.yahoo.com http://www.1ycos.com http://www.altavista.com http://www.metacrawler.com http://www.profusion.com
3.1 搜索引擎( Search Engine )
Internet上具有查询功能的网页的统称,如:
Web Search Engine(万维网搜索引擎) FTP Search Engine(文件搜索引擎) Email/WhitePage Search Engine(电子函件/白页搜 索引擎) YellowPage Search Engine(黄页搜索引擎) Usenet Search Engine(新闻论坛搜索引擎) Meta-Search Engine(元搜索引擎)等类型
中文搜索引擎
• • • • • •. . ://www.sohu.com 搜狐 http:// :// . . ://www.cseek.com 搜索客 http:// :// . . ://www.goyoyo.com.cn 悠游 http:// :// . . . ://www.sina.com.cn 新浪 http:// :// . . . ://www.yeah.net 网易 http:// :// . . ://www.tonghua.com.cn 常青藤 http:// :// . . . ://www.robot.com.cn 若比邻 http:// :// . . . 北极星 http:// ://www.beijixin.com.cn . . . :// ://www.cnnavigate.com. 网典 http:// :// . . . ://e. 天网 http:// .pku.edw.cn/ :// . . / ://cn. 雅虎中文 http:// .yahoo.com :// .
思考:比较3个检索式检索结果的不同
•
• • • •
“Information retrieval”/TI
Information AND retrieval /TI Information(F) retrieval 不仅要求在题名字段中,还要求两者必须与输入的形式完全相同 只要求在题名字段中,而不严格限制它们是短语,如“information organization methods for effective retrieval” 只需要在同一个字段中
1.布尔逻辑检索(boolean logic) 布尔逻辑检索( 布尔逻辑检索 )
逻辑检索是一种比较成熟、较为流行的检索技术,现代的情报检索系统大多都 采用这种技术。 逻辑检索的基础是逻辑运算,逻辑运算中最常用的是布尔逻辑运算符 (boolean logic operator), 它的作用主要是利用布尔逻辑算符将一些具有简单的、表达某一主题概念的检 • 运算优先级顺序为NOT、AND、OR,可以用括号 索单元(或检索 “( )”改变它们的运算顺序。 标识)组配成一个具有复杂概念的检索式,以满足课题检索的要求。 如A and (B or C),检索顺序为先B或C,然后再与A 主要运算符有 “和(and,*)”、“或(or,+)”、“非(not,-)”。 要运算符有 、 、 。
5.字段限制检索技术(field limiting)
组成数据库的最小单位是记录,一条完整的记录中的每一个著录事项为字段。 一般来说,数据库的记录基本包括下列字段: • 题名(TI,title)、 • 关键词(KW,keyword)、 • 主题词(DE, descriptor)、 • 文摘(AB,abstract)、 • 全文(FT, Full text)、 • 作者(AU,author)、 • 作者机构(CS,Coporate Source) • 期刊名称(JN,Journal)、 • 出版国(CO,Country)、 • 出版年份(PY,Publication Year)、 • 语种 (LA,Language)
•
• 举例:url: Link: site:
大多数网络检索工具都有类似于字段限制检索的功能,可将查找范围限制在 特定的范围中,如: • 标题(title) • 图像(image) • 文本(text) • 统一资源定位符(url) • 网站(site) • 链接(link)
•
截词检索是预防漏检,提高查全率,尤其适用于英语,常用于处理 词语的单复数,不同拼写方式,相同词根的近义词,以及动词的不 同形式等。
常用的截词法
• 有左截、右截、中间截断和中间屏蔽4种形式,而目前用的较多的 是以下三种形式: • 特别提示:“*”、“?”的比较 ? (1)前截词(左截)——同根词检索 *ology • • “*”,无限截词 无限截词,代表0-无数个字符如regard*, 代表regard, 无限截词 regarding, regardless等。 (2)中间截词——用于中美拼写不同和单复数 • • “?”,有限截词 输入wom?n,可检出woman,women 有限截词,代表0-1个字符,如library?,library,librarys ? 有限截词 • 。colo?r 可检出的词为colour(英音)、color(美音)。 (3)后截词(词尾截词) • Cat?,检出cat, cats(有限截断)——用于单复数 • Cat*,检出Cat,Cats,catalog,catalogue,category……(无限 截断)——同根词检索
2词组检索(phrase search)
•
通常在所检索词上加“”对所检索词视为词组处理,表示检索与 通常在所检索词上加“”对所检索词视为词组处理 “”对所检索词视为词组处理 “”内形式完全相同的短语,以提高检索的精度和准确度,因而也有 人称之为“精确检索”(exact search)。 “精确检索”
• 实际检索时,需要将上述各种方法综合使用才能获得最 佳检索效果。如“查找2000年以来Peter Suber教授撰 写的关于开放存取”的论文?可以构建检索式为: Open Access OR OA OR *free resources OR Open Source) AND(AU=Peter Suber)AND PY>=2000。 • 检索式的构建不是一蹴而就的,需要根据检索结果的多 寡和精准程度进行不断调整。另外需要特别注意的是, 不同的检索系统所使用的算符类型和符号各异,本文拘 于篇幅无法一一列举,因此使用检索系统尤其是数据库 前必须浏览帮助系统,详细了解字段及算符的设置情况 ,以确定最合适的途径进行检索。
优:
检索简单易行,利于上手; 检索到的信息较新,时效性好; 可以达到较高的检全率 检全率; 检全率 符合检索语言的文献保障原则和用户保障原则;
缺:
关键词难以反映词间的相关关系; 分散主题,影响查准率; 分散主题 自动标引无法完全解决标引不一致的问题
2.3提高关键词检索的效果 提高关键词检索的效果 提高
6. 区分大小写检索(case-sensitive)
• china--china,China,CHINA • China—China • Windows, windows
7. 模糊检索(fuzzy search)
又称概念检索 概念检索(相关检索) 。当我们输入一个检索词时,搜索引擎不仅反馈 概念检索 包括了该关键词的网址,同时也发来与关键词意义相近的内容。 如 “检索”, 查找,寻找, 找寻, 找一找……. 如 “土豆”,模糊检索的检索结果中会返回包括“土豆”、“马铃薯”、“ 洋芋”等含义相近或相关的内容。 现在大多数搜索引擎都有这种功能,只不过模糊程度不同。
逻辑算符举例
①查找关于“动物保护”的文献: • “动物 AND 保护” ②查找有关冬虫夏草的文献: • “冬虫夏草 or 冬虫草 or 虫草” ③查找关于能源方面的文章,但关于“核能”的不要: • “energy not nuclear”(energy - nuclear) ④检索西红柿种植技术的相关文章: • (西红柿+番茄)*(种植+栽培+培育)
Play time:找的就是你
VS
游戏规则: 1.至少使用两种以上的检索技术,如:字段名+布尔逻辑+截词检索 2.检索式至少由三段构成,如(位置=)+(衣服颜色=)+(性别=) 3.猜中方得分;猜不中则出题方得分 4.双方轮流出题,每方5题为限 5.被猜者继续出题 6.不能简单使用在教室的位置
检索工具—搜索 引擎
•
例如:“动物保护”,表示动物保护是个词组,检索结果动物和保护 不能分开。若不加“”,检索结果可以是动物保护、动物多样性保护 、动物栖息地保护、动物资源保护等形式。 几乎所有的搜索引擎都支持字符串检索
•
3)截词检索(truncation/wildcat) )
•
截词检索又称部分一致检索 部分一致检索,是指在检索标识中保留相同的部分, 部分一致检索 用相应的截词符代替可变化部分。检索中,计算机会将所有含有相 ”标识 同部分标识的记录全部检索出来。截词符用“?”或“*”标识。 截词符用“ 截词符用
目录
1 引言
本文目录 结构
2 基于关键词的检索方式
3 检索工具—搜索引擎
4信息资 引言
1引言 引言
搜索引擎工作原理
基于关键词的 检索方式
2 目录
基于关键词的检索工具
基于关键词的 检索方式
基于关键词检索的特点 基于关键词检索的特点
提高关键词检索的效果
2.1基于关键词的检索工具 基于关键词的检索工具
基于关键词的检索工具中最具有代表性的就是搜索引擎 最续章节会讲到……
2.2基于关键词检索的特点 基于关键词检索的特点
•
• •
•
8.自然语言检索(natural language search) • 即直接采用自然语言中的字、词、句进行提问 一般口语一样。 式检索,同一般口语 一般口语 • 智能检索 • Could you please give me some information on English literature? • 我最近比较烦,应该怎么办? • 这种智能检索也是搜索引擎发展的趋势。
• 字段限制检索就是通过限制字段和限制字段的范围来缩小检索结 果,达到精确检索的方法。 • 检索方式主要有:限定字段检索和限定范围检索
(1)限定字段检索:将检索词限定在特定的字段中,一般有两种表达方式。 ①前缀方式,将检索词放在所限定的字段代码之后,如用在著者(AU)、刊名 (JN)、出版年(PY)、语种(LA)等字段后, 例如:AU=Evans,A., LA=Chinese ②后缀方式,将检索词放在字段代码之前,之后用字段限定符号:in 或/;如: Furniture/TI即家具一词出现在题目中。
Google( )
约有89%:被索引的网页、日常性再索引网页 约有11%:其它类型文档,其中PDF文档为主
检索界面
对Google的检索逻辑不太熟悉,高级搜索将会引导创建复杂的检索式 包含了可使用的所有检索方法:布尔检索,语言检索,域名检索,链 接检索等,同时还可以设置结果显示格式
•
(2)限定范围检索:是通过使用限定符来限制信息的检索范围,以达到 优化检索的方法。 不同的检索系统略有不同,常通过使用的有:“=、<= 、>=、<、>、:” 等。 表达式:字段名=(<= 、>=、<、>、)
•
•
• 例如: PY>=1995 即限定出版年份为1995及以后的文献; PY=1996:2005即1996年至2005年的文章
西文搜索引擎 • • • • • • • • http://www.google.com http://www.infoseek.com http://www.excite.com http://www.yahoo.com http://www.1ycos.com http://www.altavista.com http://www.metacrawler.com http://www.profusion.com
3.1 搜索引擎( Search Engine )
Internet上具有查询功能的网页的统称,如:
Web Search Engine(万维网搜索引擎) FTP Search Engine(文件搜索引擎) Email/WhitePage Search Engine(电子函件/白页搜 索引擎) YellowPage Search Engine(黄页搜索引擎) Usenet Search Engine(新闻论坛搜索引擎) Meta-Search Engine(元搜索引擎)等类型
中文搜索引擎
• • • • • •. . ://www.sohu.com 搜狐 http:// :// . . ://www.cseek.com 搜索客 http:// :// . . ://www.goyoyo.com.cn 悠游 http:// :// . . . ://www.sina.com.cn 新浪 http:// :// . . . ://www.yeah.net 网易 http:// :// . . ://www.tonghua.com.cn 常青藤 http:// :// . . . ://www.robot.com.cn 若比邻 http:// :// . . . 北极星 http:// ://www.beijixin.com.cn . . . :// ://www.cnnavigate.com. 网典 http:// :// . . . ://e. 天网 http:// .pku.edw.cn/ :// . . / ://cn. 雅虎中文 http:// .yahoo.com :// .
思考:比较3个检索式检索结果的不同
•
• • • •
“Information retrieval”/TI
Information AND retrieval /TI Information(F) retrieval 不仅要求在题名字段中,还要求两者必须与输入的形式完全相同 只要求在题名字段中,而不严格限制它们是短语,如“information organization methods for effective retrieval” 只需要在同一个字段中
1.布尔逻辑检索(boolean logic) 布尔逻辑检索( 布尔逻辑检索 )
逻辑检索是一种比较成熟、较为流行的检索技术,现代的情报检索系统大多都 采用这种技术。 逻辑检索的基础是逻辑运算,逻辑运算中最常用的是布尔逻辑运算符 (boolean logic operator), 它的作用主要是利用布尔逻辑算符将一些具有简单的、表达某一主题概念的检 • 运算优先级顺序为NOT、AND、OR,可以用括号 索单元(或检索 “( )”改变它们的运算顺序。 标识)组配成一个具有复杂概念的检索式,以满足课题检索的要求。 如A and (B or C),检索顺序为先B或C,然后再与A 主要运算符有 “和(and,*)”、“或(or,+)”、“非(not,-)”。 要运算符有 、 、 。
5.字段限制检索技术(field limiting)
组成数据库的最小单位是记录,一条完整的记录中的每一个著录事项为字段。 一般来说,数据库的记录基本包括下列字段: • 题名(TI,title)、 • 关键词(KW,keyword)、 • 主题词(DE, descriptor)、 • 文摘(AB,abstract)、 • 全文(FT, Full text)、 • 作者(AU,author)、 • 作者机构(CS,Coporate Source) • 期刊名称(JN,Journal)、 • 出版国(CO,Country)、 • 出版年份(PY,Publication Year)、 • 语种 (LA,Language)
•
• 举例:url: Link: site:
大多数网络检索工具都有类似于字段限制检索的功能,可将查找范围限制在 特定的范围中,如: • 标题(title) • 图像(image) • 文本(text) • 统一资源定位符(url) • 网站(site) • 链接(link)
•
截词检索是预防漏检,提高查全率,尤其适用于英语,常用于处理 词语的单复数,不同拼写方式,相同词根的近义词,以及动词的不 同形式等。
常用的截词法
• 有左截、右截、中间截断和中间屏蔽4种形式,而目前用的较多的 是以下三种形式: • 特别提示:“*”、“?”的比较 ? (1)前截词(左截)——同根词检索 *ology • • “*”,无限截词 无限截词,代表0-无数个字符如regard*, 代表regard, 无限截词 regarding, regardless等。 (2)中间截词——用于中美拼写不同和单复数 • • “?”,有限截词 输入wom?n,可检出woman,women 有限截词,代表0-1个字符,如library?,library,librarys ? 有限截词 • 。colo?r 可检出的词为colour(英音)、color(美音)。 (3)后截词(词尾截词) • Cat?,检出cat, cats(有限截断)——用于单复数 • Cat*,检出Cat,Cats,catalog,catalogue,category……(无限 截断)——同根词检索
2词组检索(phrase search)
•
通常在所检索词上加“”对所检索词视为词组处理,表示检索与 通常在所检索词上加“”对所检索词视为词组处理 “”对所检索词视为词组处理 “”内形式完全相同的短语,以提高检索的精度和准确度,因而也有 人称之为“精确检索”(exact search)。 “精确检索”
• 实际检索时,需要将上述各种方法综合使用才能获得最 佳检索效果。如“查找2000年以来Peter Suber教授撰 写的关于开放存取”的论文?可以构建检索式为: Open Access OR OA OR *free resources OR Open Source) AND(AU=Peter Suber)AND PY>=2000。 • 检索式的构建不是一蹴而就的,需要根据检索结果的多 寡和精准程度进行不断调整。另外需要特别注意的是, 不同的检索系统所使用的算符类型和符号各异,本文拘 于篇幅无法一一列举,因此使用检索系统尤其是数据库 前必须浏览帮助系统,详细了解字段及算符的设置情况 ,以确定最合适的途径进行检索。
优:
检索简单易行,利于上手; 检索到的信息较新,时效性好; 可以达到较高的检全率 检全率; 检全率 符合检索语言的文献保障原则和用户保障原则;
缺:
关键词难以反映词间的相关关系; 分散主题,影响查准率; 分散主题 自动标引无法完全解决标引不一致的问题
2.3提高关键词检索的效果 提高关键词检索的效果 提高
6. 区分大小写检索(case-sensitive)
• china--china,China,CHINA • China—China • Windows, windows
7. 模糊检索(fuzzy search)
又称概念检索 概念检索(相关检索) 。当我们输入一个检索词时,搜索引擎不仅反馈 概念检索 包括了该关键词的网址,同时也发来与关键词意义相近的内容。 如 “检索”, 查找,寻找, 找寻, 找一找……. 如 “土豆”,模糊检索的检索结果中会返回包括“土豆”、“马铃薯”、“ 洋芋”等含义相近或相关的内容。 现在大多数搜索引擎都有这种功能,只不过模糊程度不同。
逻辑算符举例
①查找关于“动物保护”的文献: • “动物 AND 保护” ②查找有关冬虫夏草的文献: • “冬虫夏草 or 冬虫草 or 虫草” ③查找关于能源方面的文章,但关于“核能”的不要: • “energy not nuclear”(energy - nuclear) ④检索西红柿种植技术的相关文章: • (西红柿+番茄)*(种植+栽培+培育)
Play time:找的就是你
VS
游戏规则: 1.至少使用两种以上的检索技术,如:字段名+布尔逻辑+截词检索 2.检索式至少由三段构成,如(位置=)+(衣服颜色=)+(性别=) 3.猜中方得分;猜不中则出题方得分 4.双方轮流出题,每方5题为限 5.被猜者继续出题 6.不能简单使用在教室的位置
检索工具—搜索 引擎
•
例如:“动物保护”,表示动物保护是个词组,检索结果动物和保护 不能分开。若不加“”,检索结果可以是动物保护、动物多样性保护 、动物栖息地保护、动物资源保护等形式。 几乎所有的搜索引擎都支持字符串检索
•
3)截词检索(truncation/wildcat) )
•
截词检索又称部分一致检索 部分一致检索,是指在检索标识中保留相同的部分, 部分一致检索 用相应的截词符代替可变化部分。检索中,计算机会将所有含有相 ”标识 同部分标识的记录全部检索出来。截词符用“?”或“*”标识。 截词符用“ 截词符用