关于信息检索与利用的论文
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
关于信息检索与利用的论文
一.Internet 查询
因特网是一个无边无际的信息海洋,每天都有新的网站出现,大量网页每时每刻都在更新,内容包罗万象。想要找到所需的资料,简直如同大海捞针。如何从浩如烟海的信息中迅速准确地获取自己需要的信息,需要借助于网页搜索工具。
一、搜索引擎
网页搜索工具即搜索引擎,按其工作方式主要分为全文搜索引擎和目录索引类搜索引擎。全文搜索引擎,如Baidu、Google,它们都是从因特网上提取的各个网站的信息而建立的索引数据库,当用户查询时,它在数据库中检索与用户查询条件相符的相关记录,然后将结果返回给用户。目录索引类搜索引擎,如新浪,搜狐,是将收取到的各个网站的信息按照目录,建立数据库供人们分类查找,因此这种搜索方式也被称作分类搜索。
1.全文搜索引擎的使用方式也称为“关键词查询”,比如我们要查找勾股定理的证明方法,则“勾股定理”、“证明”、“方法”,这几个词就是关键词。在搜索框内输入这几个词,然后点击“搜索”按钮(或直接按回车键),系统就会自动查找与勾股定理的证明方法相匹配的信息,并且在页面上将这些信息提供给你。
2.录索引类搜索引擎采用罗列目录的方式,引导搜索者依据分类目录查找需要的信息。以“搜狐”网站为例,网页上的专题目录都是“链接”点,从主目录到子目录,层层深入,直到找到更具体的信息。如果您想查找有关中国篮球方面的信息,就可以采用分类查找,也即目录查询方式。在搜索的目录提示中依次点击进入“体育>篮球>中国男篮”,这时页面上面列出的是所有与“中国男篮”相关的信息和网站。
全文搜索引擎和目录索引类搜索引擎各有优缺点。全文搜索引擎操作方便,但它所依赖的自动化的信息检索技术,经常不能提供恰好符合实际需求的信息;目录索引类搜索引擎相对要准确一些,但使用起来稍微麻烦一些。实际上,当前许多搜索网站都设置了两种搜索方式,供用户选择。
二、搜索小技巧
在搜索时,使用者经常会遇到以下两种情况:一是搜索返回的条目成千上万,二是搜索返回的条目太少或没有。
⑴当搜索返回条目太多时,一般可以采用缩小搜索范围的方法。常用的方法有:
①改变关键词。搜索引擎严谨认真,要求“一字不差”。因此,如果对搜索结果不满意,请检查关键词有无错误,并可换用不同的关键词。
②细化搜索条件。搜索条件越具体,搜索引擎返回的结果就越精确,有时多输入一两个关键词效果就完全不同。
关键字、词——选择适当的关键字搜索技巧,最基本同时也是最有效的,就是选择合适的关键字。
选择关键字是一种经验积累,在一定程度上也有章可循:
a. 表述准确百度会严格按照您提交的关键字去搜索,因此,关键字表述准确是获得良好搜索结果的必要前提。
一类常见的表述不准确情况是,脑袋里想着一回事,搜索框里输入的是另一回事。例如,要查找2004年国内十大新闻,关键字可以是“2004年国内十大新闻”;但如果把关键字换成“2004年国内十大事件”,搜索结果就没有能满足需求的了。另一类典型的表述不准确,是关键字中包含错别字。例如,要查找林心如的写真图片,用“林心如写真”,当然是没什么问题;但如果写错了字,变成“林心茹写真”,搜索结果质量就差得远了。不过好在,百度对于用户常见的错别字输入,有纠错提示。您若输入“林心茹写真”,在搜索结果上方,会提示“您要找的是不是: 林心如写真”。
举例:搜索mp3歌曲《国家》。要准确输入——国家mp3,即可。
b. 关键字的主题关联与简练:目前的搜索引擎并不能很好的处理自然语言。因此,在提交搜索请求时,您最好把自己的想法,提炼成简单的,而且与希望找到的信息内容主题关联的关键字。
还是用实际例子说明。某三年级小学生,想查一些关于时间的名人名言,他的关键字是“小学三年级关于时间的名人名言”。
这个关键字很完整的体现了搜索者的搜索意图,但效果并不好。绝大多数名人名言,并不规定是针对几年级的,因此,“小学三年级”事实上和主题无关,会使得搜索引擎丢掉大量不含“小学三年级”,但非常有价值的信息;“关于”也是一个与名人名言本身没有关系的词,多一个这样的词,又会减少很多有价值信息;“时间的名人名言”,其中的“的”也不是一个必要的词,会对搜索结果产生干扰;“名人名言”,名言通常就是名人留下来的,在名言前加上名人,是一种不必要的重复。
因此,最好的关键字,应该是“时间名言”。试着找出下述关键字的问题,并想出更好的能满足搜索需求的关键字:1.所得税会计处理问题(——所得税),2.探讨周星驰个人档案和所拍的电影(——周星驰档案电影)。
c. 根据网页特征选择关键字:很多类型的网页都有某种相似的特征。例如,小说网页,通常都有一个目录页,小说名称一般出现在网页标题中,而页面上通常有“目录”两个字,点击页面上的链接,就进入具体的章节页,章节页的标题是小说章节名称;软件下载页,通常软件名称在网页标题中,网页正文有下载链接,并且会出现“下载”这个词。等等。
经常的搜索,并且总结各类网页的特征现象,并应用关键字的选择中,就会使得搜索变得准确而高效。
例如,找明星的个人资料页。一般来说,明星资料页的标题,通常是明星的名字,而在
页面上,会有“姓名”、“身高”等词语出现。比如找林青霞的个人资料,就可以用“林青霞姓名身高”来查询。而由于明星的名字一般在网页标题中出现,因此,更精确的查询方式,可以是“姓名身高 intitle:林青霞”。Intitle,表示后接的词限制在网页标题范围内。
这类主题词加上特征词的查询构造方法,适用于搜索具有某种共性的网页。前提是,您必须了解这种共性(或者通过试验性搜索预先发现共性)。
精确匹配——双引号和书名号。
如果输入的关键字很长,百度在经过分析后,给出的搜索结果中的关键字,可能是拆分的。如果您对这种情况不满意,可以尝试让百度不拆分关键字。给关键字加上双引号,就可以达到这种效果。例如,搜索上海科技大学,如果不加双引号,搜索结果被拆分,效果不是很好,但加上双引号后,“上海科技大学”,获得的结果就全是符合要求的了。
书名号是百度独有的一个特殊查询语法。在其他搜索引擎中,书名号会被忽略,而在百度,中文书名号是可被查询的。加上书名号的关键字,有两层特殊功能,一是书名号会出现在搜索结果中;二是被书名号扩起来的内容,不会被拆分。书名号在某些情况下特别有效果,例如,查名字很通俗和常用的那些电影或者小说。比如,查电影“手机”,如果不加书名号,很多情况下出来的是通讯工具——手机,而加上书名号后,《手机》结果就都是关于电影方面的了。
③使用逻辑控制符AND,利用多个条件同时满足要求进行限制。
④使用英文引号将必然连在一起的词变成词组来搜索。
如果以上方法均无效,请仔细阅读返回结果的前几条信息。一般来讲,大多数搜索工具都是将最符合要求的条目放在返回清单的最前面。
⑵当搜索没有结果或返回的条目太少时,可以采用扩大搜索范围的方法:
①用近义词代替关键词。
②使用逻辑控制符OR。
③使用其他的搜索网站。搜索引擎分几种,工作方式也不同,因而导致了信息覆盖范围方面的差异。我们平常搜索仅集中于某一家搜索引擎是不明智的,因为再好的搜索引擎也有局限性。合理的方式应该是根据具体要求选择不同的搜索引擎。
三、下面给出常用的搜索网站。
百度http://www.baidu.com
Google http://www.google.com
新浪http://www.sina.com.cn
搜狐http://www.sohu.com
网易http://www.163.com
雅虎http://www.yahoo.com.cn
找到了http://www.zhaodaola.com