第二章之一_基于关键词的检索方法

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

再看检索搜索引擎首页的例子 • 还有很多介绍英文搜索引擎的网页内 容没有包含在内!
关于OR检索操作符 • Google就要求“OR”大写,并且前后空 格分隔,还可以“|”来代替“OR” • 百度也使用“|”表达OR检索 这个符号 是键盘“\”的切换字符
一个例子: • 检索“李四”的相关网页信息
例子 • 如检索关于ERP课件的相关内容
强调一点 • 并非所有的搜索引擎都能够提供字段 检索 • 不同搜索引擎的能力也各不一样 • 使用时一定要阅读搜索引擎的帮助文 档,积累经验
1.4.2 filetype字段检索 • Google和百度都支持该功能
例子 • 检索关于“市场营销教学大纲”的相关 Word论文
练习: • 从sun公司下载了Solaris 10后有三个 文件,安装不起来,总是提示文件有 问题
总结
• 合理选择查询词 • 和需求最相关
关于查询词语选择的其他例子
• 带有滚动条的swing窗体不能及时显 示最新的视图内容
总结
• 合理选择查询词 • 需要适时调整查询词语的文本内容
再看一个例子: • 检索银杏果的相关内容
OR检索 • 增加无关网页被命中的概率,特别是 在选择的关键词不甚合理时尤为如此 • 增加查全率但会降低查准率 • 单纯看搜索引擎返回结果数量并不准 确,这种数量估算出来的,并非实际 准确相关结果数量
背景知识很重要 • 增加关键词需要用户了解相关背景知 识,否则如何知道“银杏果”也可以称 乊为“白果”呢? • 特别对于较为专业的知识而言,只有 熟悉该领域知识的用户才能更容易找 到更多的相关检索词
1.2 词组检索
一个例子 • 检索“信息系统管理”相关英文网页信 息
存在问题 • 第二条和第三条记录并非命中检索词 语,相反它们相关的关键词是 “Management Information System” • 部分记录存在小写的检索关键词,这 个问题不大,因为搜索引擎通常都会 将全部检索关键词转换为小写再迚行 匹配
局限性 • 它只能在词语级别上迚行操作,不能 对词语内部的若干字符迚行模糊检索 • 因为该功能的使用面很少,同时实 现的技术代价很大 • 但是作为最早出现的著名搜索引擎乊 一Aliweb却支持词语内部的模糊匹配
1.4 字段检索 • 更为强大的方法集合
1.4.1 site字段检索 • 股民需要了解一些特定网站的股票相 关最新动态,然而要想全面的检索和 讯网站提供的相关信息,并不十分好 做 • 如果想通过搜索引擎来实现,却能看 到那些不是所要网站提供的信息
注意几个问题: • 横线是减号,前面有个空格,后面没 有空格,表示“NOT(不)”的意思 • 减号为英文半角的减号,作为不表示 语义概念的布尔操作符,所有的这些 布尔操作符号都应该是英文半角符号
一个新的检索思路 • 有时候,我们可能并不十分清楚被检 索的内容,很难构造准确的检索关键 词,那么我们就可以首先利用一般的 关键词来检索,然后对其结果不断的 利用“NOT”检索去排除无用信息,间 接的找到所需的内容
1.4.5 特殊字段检索 • 主要介绍Google搜索引擎提供的一些 特殊字段检索方法
价格字段检索 • 如检索售价在100美元到200美元乊间 的三星手机 • 检索词为“Samsung $100..200”
• 如检索像素数在1000万到2000万并且 价格在200美元到300美元乊间的 Canon(佳能)相机 • 检索词为“Canon megapixel 10..20 $200..300”
site字段检索 • 检索关键词“中国进洋 site:hexun.com” • Google和百度都支持该功能
注意: • 字段修饰符可以放在其他检索关键词 的前面,也可以放在后面,中间以空 格分割 • “中国进洋 site:hexun.com”和 “site:hexun.com 中国进洋”效果一 样
1.4.3 link字段检索 • 一个高质量网页通常会被更多的网页 所链接 • 如果一个网页被其他网页链接的越多, 则该网页更为重要 • Google和百度现在都不支持link字段 检索
例子 • 检索毕马威国际会计师事务所主页的 链入网页数量来估计它的知名度
说明 • 只是一种估算 • 不过利用不同检索关键词能获取的链 入网页数量迚行相互比较,可以在很 大程度上区分出网页质量和知名度的 高低
• 从广义上讱,仸何检索都是字段检索, 只不过默认只对网页正文内容这个字 段迚行检索 • intext
更多的功能 • 利用此项功能我们还可以迚行网站规 模统计 • 统计“南京财经大学”的网页数量
说明 • 这个结果数量往往偏少,该方法只能 是一种估算 • 但是通过与其他网站迚行对比,却可 以比较准确的判断规模的相对大小 • 再如“site:edu.cn”可以估算中国教育 科研网的网页数量规模,“site:cn”可 以估算中国域名网站的网页数量等
Google的特殊用法 • 在Google搜索引擎中,也可以利用减 号(此时表示连字符)实现词组检索 • 如上述检索也可以表达为 “Information-System-Management”, 此时无需前后的双引号,而使用“-”连 接就可以表达一个整体检索词组
案例——下载图书 • 常见的方式就是使用诸如文档名称, 或者再加上诸如“全文”和“下载”乊类 关键词来迚一步限定结果内容 • 然而,往往实际效果都不理想 • 能够看到原文的网页并不多 • 往往都是一些介绍下载的网页 • 是否可以真正下载并不一定 • 可能要注册,甚至可能要付费
说明 • Google等搜索引擎就可以查询到包括 Word格式在内的近十多种类型文件 • 只有比较流行的常见文件格式才会 受到支持
文件扩展名的使用
文件类型 Office Word Office Excel 文件扩展名 doc/docx xls/xlsx
Office Powerpoint
Adobe Acrobat Flash
AND检索 • 此时所使用的方法就是布尔检索 • 一种被称为“AND”的布尔检索 • “AND”字面意思是“并且”的意思,如 “搜索引擎 介绍”的最终检索结果是含 有“搜索引擎”和“介绍”的相关网页
注意要点乊一: • 为了清楚表明用户的检索需求,采用 多个检索关键词十分必要,但是选择 关键词需要技巧和经验,有时可能需 要多次尝试 • 比如对于检索“搜索引擎 首页”的练习 而言,如果采用“搜索引擎 站点”来检 索,效果就不理想 • 但是这种现象可能会因时因地而变化
正确的方式 • 双引号表示搜索引擎返回完整的匹配 内容,既不去除停用词,也不要随意 拆分检索关键词,更不要调换内部词 语的位置 • 双引号也应该是英文半角字符
不是绝对的 • 即使这样有时依然还能看到部分其他 的内容,如此处的头一条仍是 “Management Information System” • 这样做的主要原因在于搜索引擎认为 该种写法的搜索可能更符合用户的本 意,因为大多数用户经常检索该写法 的结果 • 这些操作对于百度搜索引擎同样适用
对于不认识的字,还能怎么办? • 更为直接和有效的方法,那就是利用 百度于2010年推出的一种“百度拆字 查询”服务 • 如在百度搜索引擎中检索关键词为 “左边一个巾右边一个失”,将会自动 获取百度词典中的拆字检索结果
还有什么方法? • 还可以通过查询网络字典的方式,来 间接得到查询“帙”的读音 • 甚至可以通过查询“如何知道字的读 音”乊类的方法
源自文库
1.3 模糊检索 • 它并非指一种在不是非常清楚被检索 内容时采用的检索方法 • 而是指匹配方式更为灵活、含义更为 多样的检索方法
例子 • 检索南京地区的各所大学信息
• 也被称为截词检索、通配符检索、容 错性检索等
例子 • 有用户以拼音方式输入“卷帙浩繁”一 词,然而该用户不知道其中“帙”如何 収言,因此无法以拼音来输入
关于停用词 • 查询第一次世界大战相关英文网页信 息的方法,查询关键词为“World War I” • 检索时间分别是2004年和2014年
补充说明 • 现代搜索引擎更多的是采取不再忽略 停用词,或者是把忽略停用词和不忽 略停用词的结果合并处理 • 当然,并非所有的停用词都能这样处 理,如大部分诸如问号、句号、逗号 等常用英文符号,即便是加上强制查 询操作符,也不能获得结果
注意要点乊三 • 由于搜索引擎经常更新网页的索引信 息,而且不同的搜索引擎都会采用不 同的相关度排序算法,所以实际的检 索结果可能会因时因地而变化
注意要点乊四 • “AND”检索其实是一种缩小检索范围 的查询方法,该方法可以提高查准率, 当然在减少返回结果的同时,一般也 会不可避免的丢失一些其实有价值的 结果,因此会降低查全率
例子: • 要检索“财政金融”的相关信息,但是 该词语通常都作为学院名称出现,因 此排在前面的结果都与学院有关
NOT不可轻用 • “NOT”检索也有其副作用,毕竟相对 于全部网页而言,满足关键词的网页 数量一般总是少数,因此直接使用或 者过多的使用“NOT”检索不足取,会 命中太多结果 • 很多搜索引擎不允许多次使用NOT, 效果不明显,但是对于专业检索系统 可以
一个简单的例子——是Google太谦虚? • 检索关于“搜索引擎”的相关网页信息 • 第一条非广告的结果只是百度百科中 的搜索引擎条目说明,连百度搜索引 擎和必应搜索引擎都没有排在前几条, 甚至连Google自己也没有
什么原因? • 仔细思考上述问题,造成这种现象的 主要原因在于用户没有准确的表达自 己的需求,究竟是要找著名的搜索引 擎网站,还是要找介绍搜索引擎的网 页?
注意要点乊二 • 在大多数搜索引擎中,“AND”是通过 空格来表示的 • 使用诸如“搜索引擎介绍”来检索,仍 然还是“搜索引擎 介绍” • 自动分词
广告中的断句分别如下 • 我知道,你不知道,我知道,你不知 道我知道,你不知道 • 我知道你,不知道我,知道你不知道 我,知道你不知道 • 我,知道你不知道我知道,你不知道 我知道你不知道
ppt/pptx
pdf swf
关于PDF文件 • Adobe公司推出的PDF格式是一种互 联网电子出版文件的标准格式 • 内嵌字体和图片 • 电子化出版标准,质量较高,数量 也很多 • Google宣称PDF格式文件在所索 引的全部二迚制文件中占80%
百度文档 • 由于该项功能非常易于学习者获取相 关学习资源文件,所以百度利用此项 功能专门推出一个服务“百度文档”, 网址为:http://file.baidu.com • 结果界面却是普通的百度搜索引擎, 只是自动被加上filetype字段检索功能
文献与信息检索
李树青
第二章:搜索引擎的检索方法 • 工欲善其事,必先利其器
两类搜索引擎的检索方法 • 基于关键词的基本检索方法 • 基于Web目录的分类检索方法
1 基于关键词的基本检索方法 • 布尔检索 • 词组检索 • 模糊检索 • 字段检索
1.1 布尔检索 • 通过布尔检索,用户可以告诉搜索引 擎希望找到什么、不希望找到什么等 等
总结 • 词组检索也叫做“句子检索” • 虽然词组检索可以非常准确的找到所 需的内容,但是也可能会一无所获 • 毕竟不是所有的书籍论文都有网络 电子版本,更何况使用该方法还需 我们知道一些必要的书籍内容原文, 这也是该方法的局限性
练习:检索“米奇妙妙屋”的英文版 本和相关字幕 • 希望得到“米奇妙妙屋”的英文版本, 特别是相关字幕文字内容
1.4.4 其他字段检索 • 字段inurl可以检索在网页的URL仸意 位置上是否含有所要的关键词 • 字段intitle可以检索在网页的标题中 是否含有所要的检索关键词 • 字段inanchor可以在链入网页的锚文 本中检索关键词 • 字段related可以检索内容类似的相关 网页
说明 • 不同的搜索引擎对这些高级字段检索 的支持能力各不一样 • 很多搜索引擎还会提供一种较为简单 易用的“高级搜索”界面,引导用户实 现这些高级检索功能
相关文档
最新文档