实验1 信息检索
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
信息检索
1.1实验目的
1.掌握利用网络进行市场信息检索的基本思路;
2.掌握利用网络进行市场信息检索的主要方法。
1.2 预习要求
•掌握数据、消息、信息、的概念;清楚信息与消息的区别;掌握信息的特性;熟练掌握信息的生命周期;掌握信息系统的组成;了解互联网的基本应用。
1.3实验内容与步骤
1. 明确检索目标
要完成一个有效检索,首先应当确定检索的目标。检索目标是指要检索的主要内容以及对检索深度和广度的要求。
检索概念较泛,尚未形成一明确的检索概念时,或仅需对某一专题做泛泛浏览时,可先用主题指南的合适类目进行逐级浏览,直到发现相关的网址和关键词后再进行扩检。
2. 选择查询策略
不同目的的查询应使用不同的查询策略,这主要取决于是想得到一个问题的多方面信息还是简单的答案。搜索引擎的统计表明,很多用户只输入一个词来进行查询,这会带来很多不需要的匹配。要进行有效的搜索,最好输入与主题相关的、尽可能精确的词或词组。提供的词组越精确,检索结果就越好。同时,应通过不同词组的检索,逐渐缩小搜索范围。
3. 分步细化逐步接近查询结果
如果想查找某一类信息但又找不到合适的关键词,可以使用分类式搜索逐步深化。搜狐网站的主页上将所有的信息分为新闻、体育、财经、IT、生活、健康、理财等30余类,然后再根据各个大类分为各个小类,如在“IT”中又以细分为“互联网、通信、科学”等。
4. 使用模糊查询和精确查询
模糊查询又称为智能查询。当我们输入一个关键词时,搜索引擎不但反馈了包括关键词的网址,同时也发来与关键词意义相近的内容。比如,在网站上查找“网络经济”一词时,模糊查询会反馈回来包含了“网络经济论文”、“网络经济与社会发展”、“信息经济”等内容的网址。所反馈的网址的排列顺序一般是:完全符合关键词的信息在最前边,其次是相近的信息。一般的搜索引擎都有这一功能,只是模糊的程序不同。模糊查询没有特殊的方法,在文字框中输入关键词即可。
用逻辑条件限制这一功能允许我们一次输入多个关键词,各关键词之间的关系可以是“和”、“或”、“非”(“and”、“or”、“not”)或“+”、“–”、“﹡”等基本布尔操作符。
实验步骤:
1.开机,打开IE浏览器窗口;
2.在URL中输入或等搜索网站的域名,打开搜索网站主页;
3.在主页中搜索栏中输入“管理信息系统”或者其他自己确定的关键词,点击“搜索”按钮;
4.在随后出现的搜索结果页面中查看搜索结果,并选择相应的链接点击进入下一页面,查看具体的信息内容;
5.在搜索结果页面的搜索栏中输入“数据”和”信息”两个关键词,中间用空格、顿号、加号、减号等符号分别连接起来,点击“搜索”按钮,进行组合查询;
6.比较用不同的连接符号进行组合查询的结果有何不同,包括:查询结果有多少条,用时多少,第一页排序有什么变化等,并点击相应链接进行信息浏览和资料下载。
那
图1:Google 检索的基本过程
1.4 综合性搜索引擎介绍
1) Google搜索引擎
Google()是世界上最优秀的支持多语种的搜索引擎之一,它是由美国斯坦福大学博士生Larry Page与Sergey Brin于1998年发明的。Google 公司1999年成立,2000年7月替代Inktomi 成为Yahoo公司的搜索引擎。Google因具出色的搜索功能,1998年至今已经获得30多项业界大奖。Google是目前世界上最大的搜索引擎,拥有80 多亿张网页和10亿多张图片的资源,界面可用100 多种语言表达,检索结果所采用的语言达30多种。
2) 百度中文搜索引擎
百度在线网络技术有限公司()于1999年底成立于美国硅谷,是目前全球最优秀的中文信息检索与传递技术供应商。在中国所有提供搜索引擎的门户网站中,超过80%以上都由百度提供搜索引擎技术支持。它的创建者是信息检索技术专家、超链分析专利的持有人李彦宏和有多年商界成功经验的徐勇博士。2005年5月20日,百度被《中国企业家》杂志评选为2005年度“最具成长性的新兴企业”,2005年8月5日百度在纳斯达克正式上市。
百度搜索引擎主要提供新闻、网页、贴吧、MP3、图片和网站的检索。除网页检索只提供关键词检索外,其他栏目都提供目录和关键词两种检索方法,使用起来非常方便。
3) 慧聪行业搜索引擎
慧聪公司()成立于1992年,是国内领先的商务资讯服务机构。2003年12月,慧职公司实现了在香港创业板上市,成为国内信息服务业首家上市公司。
行业搜索引擎是慧聪为商务人士开发的大型“专业”搜索引擎,其检索结果可按各类商业用途细分,并且能够按照行业进行专业筛选,将出售、求购、科技文献等内容单独体现于检索结果中。例如,在“出售泵”的信息中,可以精确查找应用于水工业/暖通/石油/机械/化工等行业的泵的产品信息,这将极大提高商务人士的检索命中率,使商人不再为数以十万计的检索结果而苦恼,提高行业人士搜索的专业性和精确性。
下图是慧聪的行业分类检索页面。
4) 新浪、搜狐、网易的分类搜索引擎
新浪、搜狐、网易是国内三大门户网站。这三个网站都建立了强大的分类搜索引擎,各自具有自己的特色。
新浪网搜索引擎是面向全球华人的网上资源查询系统,分类检索目前共有18大类目录,205个二级目录,一万多个细目和数十万个网站,是互联网上最大规模的中文搜索引擎之一。其网站收录资源丰富,分类目录规范细致,遵循中文用户习惯。下图是新浪分类搜索引擎有关目录。
搜狐分类搜索引擎收录中文网站达150多万个,每日页面浏览量超过800万次,每天收到2000多个网站登录请求。通过搜狐可以查找网站、网页、新闻、网址、软件、黄页等信息。搜狐的目录导航式搜索引擎完全由人工加工而成,相比机器人加工的搜索引擎来讲具有很高的精确性、系统性和科学性。分类专家层层细分类目,组织成庞大的树状类目体系。利用目录导航系统可以很方便地查找到一类相关信息。
网易分类搜索引擎()目前使用新一代开放式目录管理系统(ODP)。在功能齐全的分布式编辑和管理系统的支持下,现有5000多位各界专业人士参与可浏览分类目录的编辑工作,极大地适应了因特网信息爆炸式增长的趋势。目前,该网站拥有超过一万多个类目,超过25万条活跃站点信息,日增加新站点信息500~1000条,日访问量超过500万次。全新的搜索技术及广告搜索服务可使用户检索高达16亿条的信息和及时的新闻内容,同时为广告客户提供更有效的广告方式。
5) 北大天网中英文搜索引擎